АЛГОРИТМИ И ПРОГРАМИ В ТЕКСТООБРАБОТКАТА
(дипломна работа, София, ФМИ, 1995 г.)
Могъществото се упражнява текстове от пирамидите, 300 |
2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип
Налага се да се приеме, че всичко казано дотук е само едно кратко начало. За да се постигнат желаните резултати, ще се наложи към изброените вече 15 правила да се добавят и нови, чиято формализация би приближила сричкопренасянето към същината на този термин, а именно – пренасяне на срички, както и към стъпката от най-високо равнище – към пренос на морфеми! Ето и пренебрегнатите правила:
16. Когато между две гласни има няколко съгласни, поне една от тях се пренася с втората гласна, но ако първата съгласна от групата съгласни е 'р', 'л', 'м' или 'н' (сонорни съгласни), тогава тя остава задължително към предходната гласна. (На мястото на правило 2.)
Пример: мар-ка, а не ма-рка.
17. Представките не се разделят при пренасянето!
Пример: без-обиден, а не бе-зобиден.
Повечето съвременни реализации са се отказали от правилата 16 и 17. Също така не са отбелязани следните три важни правила:
18. Преносът вътре в буквосъчетанията 'пр', 'ск', 'ст' и 'гр' е неправилен (с много малко изключения, предимно в окончания).
Пример: на-града, а не наг-рада.
Възможно е това да не е пълен списък от забраняващи преноса буквосъчетания в българския език. В най-добрите съвременни програми именно неспазването на това правило води до поне 1/3 от допусканите грешки (виж приложение 7.2).
19. Пренос е допустим едва след минимум две букви, следващи представка! (Добавя се към правило 17.)
Пример: без-обиден, безоби-ден, а не безо-биден.
20. Сложните думи се разделят на съставните си и чак тогава се извършва определянето на мястото за пренос! (вместо правило 15)
Пример: автомото-клуб, а не автомоток-луб.
Тези три нови правила са изброени по степента на трудност на реализацията им. Налага се използването на речници с представки (за правила 18 и 19) и на пълен речник на българския книжовен език, който да включва и всички сложни думи (за правило 20). Наред с това алгоритъмът за сричкопренасяне се забавя значително, но беше изтъкнато, че е редно да се създава работа на компютрите и програмистите, а не на коректорите и редакторите в издателствата.
Ще бъде предложен алгоритъм, сходен с [31], но пригоден към някои специфични особености на българското сричкопренасяне. Той се състои от четири части.
Съдържание
0. Встъпление
1. Увод
2.1. Малко история
2.2. Правила за сричкопренасяне от 1983 г.
2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип
2.4.1. Алгоритъм за откриване на морфема в дума
2.4.2. Алгоритъм за анализ на буква
2.4.3. Алгоритъм за анализ на дума
2.4.4. Алгоритъм за анализ на текст
2.4.5. Други възможности
3. Автоматизирано откриване и отстраняване на грешки в текст
3.1. Дефиниции и понятия
3.3. Класификация на правилата
3.4. Примерна програмна реализация на локалните правила
3.4.1. Нови дефиниции, променливи, флагове и множества
3.4.2. Таблица на локалните правила
3.4.3. Функции, необходими за реализация на локалните правила
3.5. Глобални правила
3.5.1. Класификация на думите в текст на равнище знакове
3.5.2. Функции, необходими за реализация на глобалните правила
4. Някои метрики в текстообработката
4.1. Текстови и шрифтови метрики
4.2. Сложност на текст
4.3. Професионализъм на предпечатната подготовка
4.3.1. Използване на възможностите на програмите чрез дефиниране на различни стилове
4.3.2. Премахване на излишното форматиране
4.3.3. Използване на възможностите за настройка на основните отношения между и в параграфите
5. Заключение
6. Литература
7. Приложениe
7.1. Списък на книгите, върху които са направени експерименти