АЛГОРИТМИ И ПРОГРАМИ В ТЕКСТООБРАБОТКАТА

(дипломна работа, София, ФМИ, 1995 г.)

 

С мъдрост са изпълнени писарите.
Още от времената след появата на боговете
сбъдват се техните пророчества,
а имената им живеят вечно...
...
Творбите си те превръщат в свои жреци,
писанията – в свои любими синове.
Поученията им са техните пирамиди...
...
И въпреки, че тях вече ги няма,
магическата им мощ осенява всеки,
който чете творбите им.

Йеретически папирус,
Британски музей

 

3.3. Класификация на правилата

Гореизброените правила се делят на две основни групи: автоматични и автоматизирани. Всяко от тях се дели на две подгрупи: безусловни и условни.
Нека първо въведем едно понятие:

Def:<околност на правило> – част от текст (обикновено няколко знака), която определя еднозначно едно текущо състояние на детерминиран автомат, съгласно въведените правила.

Това може да бъде и буфер с фиксирана дължина, за елементите на когото са възможни краен брой допустими състояния.

Да разгледаме сега и самата класификация на правилата:

Def: <Автоматично безусловно правило> – при обработка на текст и откриване на околност, съответна на условията на правилото, то се прилага без намеса на експерт и без да е необходима предварителна настройка.
За краткост ще го отбелязваме като <К!>.

Def: <Автоматично условно правило> – прилага се без намеса на експерт, но след като е направена предварителна настройка на конкретния текст.
За краткост – <К?>.

Def: <Автоматизирано безусловно правило> – прилага се с последваща намеса на експерт, без да е необходима предварителна настройка.
За краткост – <Ч!>.

Def: <Автоматизирано условно правило> – прилага се с последваща намеса на човек експерт след направена предварителна настройка.
За краткост – <Ч?>.

При определянето дали едно правило трябва да бъде К!, К?, Ч! или Ч? са възможни следните критерии за класификация:

Нека разгледаме правило i. Да означим с ni общият брой срещания на конкретната околност в текста на правило i, а с ri – броят на правилно обработените околности при спазване на това правило. Разликата ni – ri е броят на неправилните решения. С ei1 да означим допустимата автоматична грешка, а с ei2 – допустимата грешка при автоматизация (в проценти). Тогава да разгледаме съотношението:

a formula

Ако coefi<ei1, то правилото може да се обяви за автоматично безусловно (К!). Ако ei1< coefi<ei2, то то е автоматично условно (К?), а ако имаме coefi>ei2, то е налице автоматизирано безусловно (Ч!) или автоматизирано условно (Ч?) правило.

Формулите, по които се определя вида на правилото, са прости, но трудността е за всяко i да се определи числото ri. За целта е необходимо да се изпълнят много тестове с различни по характер текстове. Забелязва се, че има правила, при които r = n, но има и такива, при които процентът на валидност на правилото може да падне и под 50%.

Правилата се делят също на локални и глобални. Локални са тези, които могат да се изпълнят на равнище знакове, а глобалните се изпълняват на равнище дума и текст.

<< назад | отгоре | напред >>

Съдържание

0. Встъпление

1. Увод

2. Сричкопренасяне

2.1. Малко история

2.2. Правила за сричкопренасяне от 1983 г.

2.3. Метод на скандирането

2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип

2.4.1. Алгоритъм за откриване на морфема в дума

2.4.2. Алгоритъм за анализ на буква

2.4.3. Алгоритъм за анализ на дума

2.4.4. Алгоритъм за анализ на текст

2.4.5. Други възможности

3. Автоматизирано откриване и отстраняване на грешки в текст

3.1. Дефиниции и понятия

3.2. Често допускани грешки

3.3. Класификация на правилата

3.4. Примерна програмна реализация на локалните правила

3.4.1. Нови дефиниции, променливи, флагове и множества

3.4.2. Таблица на локалните правила

3.4.3. Функции, необходими за реализация на локалните правила

3.5. Глобални правила

3.5.1. Класификация на думите в текст на равнище знакове

3.5.2. Функции, необходими за реализация на глобалните правила

3.5.3. Функции и идеи, които предстоят да бъдат осъществени

4. Някои метрики в текстообработката

4.1. Текстови и шрифтови метрики

4.2. Сложност на текст

4.3. Професионализъм на предпечатната подготовка

4.3.1. Използване на възможностите на програмите чрез дефиниране на различни стилове

4.3.2. Премахване на излишното форматиране

4.3.3. Използване на възможностите за настройка на основните отношения между и в параграфите

5. Заключение

6. Литература

7. Приложениe

7.1. Списък на книгите, върху които са направени експерименти

7.2. Някои статистики и резултати от проведени изследвания