АЛГОРИТМИ И ПРОГРАМИ В ТЕКСТООБРАБОТКАТА

(дипломна работа, София, ФМИ, 1995 г.)

 

Възхвалявам Правилото,
което обича Божествения принцип,
знам, че той живее чрез него.

слова на царица Хатшепсут
(ок. 1465 г. пр. Хр.)

 

5. Заключение

Тук са засегнати някои от проблемите на текстообработката, която се явява вторият етап от действията, свързани с предпечатна подготовка на текст. В началото е дадена схема на функциите, като се обръща особено внимание върху стила на преносите (както в рамките на една дума, така и между думите), а също и върху алгоритмите за автоматизирано откриване и отстраняване на грешки.

В първа глава е защитена тезата, че в българския книжовен език се налага пренасяне на думите по морфемния принцип, а не по метода на скандирането или на чисто фонетичния принцип. Дадени са оценки и критерии, по които да се извършва определянето на качеството на пренасянето, отправена е критика към повечето съвременни програми, които претендират за реализация на тази функция на текстообработката. Изнесени са правилата за пренос от 1983 г., както и някои неприлагани правила. Теоретично са дадени основните идеи на алгоритмите за пренос по трите основни метода като накрая се набляга върху реализирането на преносите по морфемен път чрез няколко алгоритъма: откриване на морфеми в дума, анализ на буква, анализ на цяла дума и анализ на текст. Дадени са идеи и за някои други възможни реализации – чрез речници на изключенията и чрез някои вероятностни принципа.

Най-съществено внимание е обърнато на автоматизираното откриване и отстраняване на грешки в набрани текстове. Представени са множество известни (както и някои нови) дефиниции и понятия, избран е теоретичен модел за реализация на тези алгоритми на базата на детерминиран краен преобразувател. Изведени са тридесет правила и начини за откриване на грешки в текст, повечето от които са езиково независими и досега не са формализирани в известните ни публикации. Всяко от тези правила е придружено от подходящ пример, който демонстрира възможни грешки при неспазването му. Направена е класификация на тези правила и е показан начин за определяне принадлежността на едно правило към съответна група. Приложена е примерна програмна реализация на локалните правила, както и описание на основните функции, множества и определения, необходими за реализация на глобалните правила. С помощта на флагове е определено едно стандартно поле на условията за дадена околност на текст, дадена е и подробна таблица с функции на преходите, които реализират локалните правила. Изброени са и необходимите помощни функции за поддържане на флаговете и класифициране на полето на условията.

В края са предложени идеи за формализация на някои метрики в текстообработката. Разгледани са различни начини за определяне плътността на един текст като за целта на базата на опита и експериментите са изведени някои по-характерни шрифтови и графични стандарти, дадена е диаграма за влиянието на преносите върху плътността на текстовете. Направен е опит да се формализира понятието сложност на текст, както и да се оцени професионализмът при извършване на предпечатната подготовка, свързан с по-цялостно използване възможностите на програмните стилове, премахване на излишното форматиране и настройката на основните отношения между и в параграфите.

Що се отнася до бъдещето в разглежданата област, тя вероятно се състои в изграждането на транслатори и генератори на правила. При тях условията, на които се подчинява един текст, няма да са фиксирани, а ще бъдат динамични променливи в зависимост от конкретните характеристики и особености на този текст. Генерирането на правила от входен текст несъмнено може да се характеризира като проблем, от сферата на изкуствения интелект и реализацията му естествено принадлежи на бъдещето. Трудностите в това отношение са добре описани например в [35]. Сравнително по-реалистично е съставянето на алгоритми (схеми) за проверка на специфични текстове с ограничения, например шахматни партии, списъци с изброена библиография, съдържание на книги и др. Подобни опити могат да се проследят в [5, 29]. Заключението, което може да се направи, е, че макар и добре познати, проблемите и разработките, свързани с текстообработката, съвсем не са изчерпани.

Накрая авторът иска да изкаже своята искрена благодарност на катедрата по Компютърна информатика и лично на нейния ръководител доц. к.м.н. Павел Азълов за предоставената възможност да защити интересите си в областта на алгоритмите и програмите в текстообработката, както и на научния ръководител – доц. Димитър П. Шишков, оказал голяма помощ с предоставянето на богата литература, и с множество съвети при структурирането, оформянето и редактирането на този текст.

София, 20 февруари 1994 г.

<< назад | отгоре | напред >>

Съдържание

0. Встъпление

1. Увод

2. Сричкопренасяне

2.1. Малко история

2.2. Правила за сричкопренасяне от 1983 г.

2.3. Метод на скандирането

2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип

2.4.1. Алгоритъм за откриване на морфема в дума

2.4.2. Алгоритъм за анализ на буква

2.4.3. Алгоритъм за анализ на дума

2.4.4. Алгоритъм за анализ на текст

2.4.5. Други възможности

3. Автоматизирано откриване и отстраняване на грешки в текст

3.1. Дефиниции и понятия

3.2. Често допускани грешки

3.3. Класификация на правилата

3.4. Примерна програмна реализация на локалните правила

3.4.1. Нови дефиниции, променливи, флагове и множества

3.4.2. Таблица на локалните правила

3.4.3. Функции, необходими за реализация на локалните правила

3.5. Глобални правила

3.5.1. Класификация на думите в текст на равнище знакове

3.5.2. Функции, необходими за реализация на глобалните правила

3.5.3. Функции и идеи, които предстоят да бъдат осъществени

4. Някои метрики в текстообработката

4.1. Текстови и шрифтови метрики

4.2. Сложност на текст

4.3. Професионализъм на предпечатната подготовка

4.3.1. Използване на възможностите на програмите чрез дефиниране на различни стилове

4.3.2. Премахване на излишното форматиране

4.3.3. Използване на възможностите за настройка на основните отношения между и в параграфите

5. Заключение

6. Литература

7. Приложениe

7.1. Списък на книгите, върху които са направени експерименти

7.2. Някои статистики и резултати от проведени изследвания