АЛГОРИТМИ И ПРОГРАМИ В ТЕКСТООБРАБОТКАТА
(дипломна работа, София, ФМИ, 1995 г.)
Ако търсиш правилата на хармонията, ще намериш познанието. (надпис от храма в Луксор) |
4.2. Сложност на текст
Def: Под сложност на текст ще разбираме преди всичко три неща:
(1) графична сложност – наличие на таблици, схеми, изображения, брой колони, бележки под черта, специфични заглавия, библиографии, усложнена схема на разположение, различни шрифтове, големини, начертания и т.н.;
(2) чисто текстова – наличие на думи и знакове на латиница, брой непознати думи за един стандартен речник (например като този на ПРЕСТО и др.);
(3) математическа – наличие на формули, индекси, програмни текстове и т.н.
Сложността на един текст може да се получи по формулата:
сложност на текст = ,
където
nj |
е брой срещания на обекти, които принадлежат на една от трите групи на сложност; |
Kj |
тегло на всеки от трите компонента на сложността на текст като цяло; |
fji |
тегло на конкретния елемент от множеството; |
yji |
статистика от срещанията на конкретния обект в текста. |
Стойностите Kj и fji зависят до голяма степен и от компютъра, на който се прави странирането на текста. Разликата между 386/DX и 486/DX е твърде чувствителна, особено що се отнася до обработка на изображение или други графични елементи.
Всеки текст може да се определи към някаква група (с различни равнища на вложеност), напр. художествена проза, делова проза, стихотворна форма и т.н. Художествената проза може да се раздели например на: приключенска литература, литература за деца (приказки), криминална литература, научна фантастика и т.н., деловата проза – на правна литература, научни доклади, монографии, шахматна литература и т.н. Не е нужно да се изброяват тук всички подразделения на литературата и текстовете като цяло, важното е, че всеки от тях има някои свои специфични особености (в чисто статистическо текстово отношение). Тези особености могат да се формализират математически например по следните характеристики:
- брой употребени думи (спрямо обема на текста);
- средна дължина на думите;
- средна дължина на изреченията;
- средна дължина на параграфите (повествователност);
- брой заглавия (подзаглавия);
- доминиращи препинателни знакове;
- брой диалози (динамичност на художествен текст);
- брой думи в кавички или апострофи (въвеждани понятия);
- наличие на специфични ключови думи (напр. „чл.“, „ДВ“, „ал.“ за правната литература);
- брой скоби (пояснителност);
- размери на наборното поле.
Въз основа на изброените по-горе характеристики и проведени експерименти над текстове може формално (с известна степен на точност) да се конструира алгоритъм, който разпознава/класифицира даден текст.
Съдържание
0. Встъпление
1. Увод
2.1. Малко история
2.2. Правила за сричкопренасяне от 1983 г.
2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип
2.4.1. Алгоритъм за откриване на морфема в дума
2.4.2. Алгоритъм за анализ на буква
2.4.3. Алгоритъм за анализ на дума
2.4.4. Алгоритъм за анализ на текст
2.4.5. Други възможности
3. Автоматизирано откриване и отстраняване на грешки в текст
3.1. Дефиниции и понятия
3.3. Класификация на правилата
3.4. Примерна програмна реализация на локалните правила
3.4.1. Нови дефиниции, променливи, флагове и множества
3.4.2. Таблица на локалните правила
3.4.3. Функции, необходими за реализация на локалните правила
3.5. Глобални правила
3.5.1. Класификация на думите в текст на равнище знакове
3.5.2. Функции, необходими за реализация на глобалните правила
4. Някои метрики в текстообработката
4.1. Текстови и шрифтови метрики
4.2. Сложност на текст
4.3. Професионализъм на предпечатната подготовка
4.3.1. Използване на възможностите на програмите чрез дефиниране на различни стилове
4.3.2. Премахване на излишното форматиране
4.3.3. Използване на възможностите за настройка на основните отношения между и в параграфите
5. Заключение
6. Литература
7. Приложениe
7.1. Списък на книгите, върху които са направени експерименти