АЛГОРИТМИ И ПРОГРАМИ В ТЕКСТООБРАБОТКАТА

(дипломна работа, София, ФМИ, 1995 г.)

7. Приложение

7.1. Списък на книгите, върху които са направени експерименти

Идеите и алгоритмите тук в различни свои варианти и етапи на разработка са извлечени от работата ми върху предпечатната подготовка на следните книги (в хронологичен ред): „Омайни приказки и стихотворения“, Й. Стубел, 96 стр.; „Човекът от Архангелск“, А. К. Дойл, 36 стр.; „Белфльор“, Дж. К. Оутс, 644 стр.; „Остров Маргарита“, К. Радев, 252 стр.; „Привет на сините мравки“, В. Динев, 72 стр.; „Сърцето на амазонката“, Л. Хауард, 320 стр.; „Основи на епидемиологичната статистика“, Г. К. Ранчов, 204 стр.; „Наследяване, завещание, делба“, С. Розанис, 112 стр.; „Размножената нула“, Й. Танков, 208 стр.; „Клинична и трансфузионна хематология“, бр. 4 – 56 стр.; „Сребърна нишка“, В. Динев, 60 стр.; „Поезия“, Г. Гергов, 32 стр.; „Най-често задаваните въпроси за Невронни мрежи“, 44 стр.; „Закон за акцизите“, 32 стр.; „Методика за формиране на творчески художествено-конструктивни способности у деца от начална училищна възраст“, З. Лисийска, 120 стр.; „Държавни и общински жилища“, 60 стр.; „Закон за митниците“, 48 стр.; „Българската литература – диалогични прочити“, В. Атанасов, Н. Чернокожев – 144 стр.; „Бурен живот“, Е. Литън, 368 стр.; „Съзнание и паранормални явления“, Л. Николов, 192 стр.; „Зен-ум – ум на начинаещ“, Ш. Сузуки, 160 стр.; „Нощта на лисицата“, Джек Хигинс, 320 стр.; „Архивът на Берия“ – I и II част, Ал. Уилямс, 408 стр.; „Към хуманистично общество“, проф. Г. Пирьов, 152 стр.; „Опасно измъкване“, Джим Томпсън, 192 стр.; „Закон за съдебната власт“, 52 стр.; „Потайностите на Османската империя“, Ст. Ксенос, 640 стр.; „Що е демокрация“, Ал. Турен, 240 стр.; „Шах – Мат“, Ал. Уилямс, 336 стр.; „Закон за данък върху общия доход“, 64 стр.; „Танцът на дивите воини“, М. Рид, 208 стр.; „Психология на личността“, Т. Трифонов, 240 стр.; „Не си отивай, Футбол ‘94“, Кл. Величков, 160 стр.; „Кавалери на шпагата“, М. Зевако, 336 стр.; „Сандокан – страшилището на южните морета“, Ем. Салгари, 312 стр.; „Шекспирови приказки“, Чарлз и Мери Лем, 288 стр.; „Избор по български" – I и II книга, Е. Геров, 172 стр.; „Мохиканите на Париж“, Александър Дюма, 640 стр.; „Неврология“, Р. Петров, 168 стр.; „Венецианката“, М. Пембертън, 240 стр.; сп. „Спорт и наука“, (1994) 10, 80 стр.; „Трапеза за имен ден“, 128 стр.; „Завещанието в българското наследствено право“, 250 стр.; „Литературата“, 192 стр.; сп. „Спорт и наука“ (1994) 11-12, 80 стр.; „Търговска къща Барнет и С-ие“, М. Льоблан, 208 стр.; „Ягуарът на Мато Гросо“, Е. Салгари, 208 стр.; „Скватерите“, М. Рид, 208 стр.; „Милионерката“, Д. Ф. Уорст, 208 стр.; „Приказки от стария сандък“, 32 стр.; „Закон за собствеността и ползването на земеделските земи“, 192 стр.; „Завещанието в българското наследствено право“, Ц. Цанкова, 216 стр.; „Закон за задълженията и договорите“ – I и II част, 592 стр.

Общо 10 726 печатни страници.

7.2. Някои статистики и резултати от проведени изследвания

...Да се измери всичко онова що може да се измери,
а което не може – да се направи измеримо
! ...
(Галилео Галилей)

1. Статистика върху честотната вероятност за срещане на буквите (в частност – на гласните) в художествени текстове на български език. Експериментът е проведен върху текстове от шест книги с общо 1 576 222 знака.

Първата колона показва аскикода, втората – буквата, третата – общия брой срещания в текстовете и четвъртата – процента от срещанията на всички български букви.

(128)  А   2219 ( 0.21)
(129)  Б   1113 ( 0.11)
(130)  В   1826 ( 0.18)
(131)  Г   755 ( 0.07)
(132)  Д   1780 ( 0.17)
(133)  Е   1005 ( 0.10)
(134)  Ж   1710 ( 0.16)
(135)  З   849 ( 0.08)
(136)  И   1586 ( 0.15)
(137)  Й    51 ( 0.00)
(138)  К   2533 ( 0.24)
(139)  Л   907 ( 0.09)
(140)  М   1145 ( 0.11)
(141)  Н   2707 ( 0.26)
(142)  О   1427 ( 0.14)
(143)  П   2139 ( 0.21)
(144)  Р   1573 ( 0.15)
(145)  С   2529 ( 0.24)
(146)  Т   2343 ( 0.23)
(147)  У   333 ( 0.03)
(148)  Ф   507 ( 0.05)
(149)  Х   633 ( 0.06)
(150)  Ц    74 ( 0.01)
(151)  Ч   317 ( 0.03)
(152)  Ш   145 ( 0.01)
(153)  Щ   251 ( 0.02)
(154)  Ъ   273 ( 0.03)
(156)  Ь    12 ( 0.00)
(158)  Ю    31 ( 0.00)
(159)  Я   107 ( 0.01)
(160)  а  128910 (12.43)
(161)  б  15778 ( 1.52)
(162)  в  42408 ( 4.09)
(163)  г  15804 ( 1.52)
(164)  д  36432 ( 3.51)
(165)  е  95669 ( 9.22)
(166)  ж   8705 ( 0.84)
(167)  з  23157 ( 2.23)
(168)  и  82803 ( 7.98)
(169)  й   6750 ( 0.65)
(170)  к  34860 ( 3.36)
(171)  л  33757 ( 3.26)
(172)  м  27546 ( 2.66)
(173)  н  62880 ( 6.06)
(174)  о  96373 ( 9.29)
(175)  п  28065 ( 2.71)
(176)  р  44995 ( 4.34)
(177)  с  48475 ( 4.67)
(178)  т  75317 ( 7.26)
(179)  у  12459 ( 1.20)
(180)  ф   1527 ( 0.15)
(181)  х   7437 ( 0.72)
(182)  ц   4903 ( 0.47)
(183)  ч  14071 ( 1.36)
(184)  ш   8586 ( 0.83)
(185)  щ   6692 ( 0.65)
(186)  ъ  18582 ( 1.79)
(188)  ь   983 ( 0.09)
(190)  ю   2126 ( 0.21)
(191)  я  18142 ( 1.75)
  

Ако разгледаме конкретно гласните букви, ще получим:

гласни букви

2. Изследване на влиянието на преносите в околности на 'ст', 'ск', 'пр' и 'гр' върху качеството на сричкопренасянето.

Този експеримент е проведен над художествени текстове на български език с 2953 преноса, направени от експерт лингвист. При сравненията са използвани формулите, дадени в т. 2.1.

Първото сравнение е направено след сричкопренасяне от програмата hyphen. Данните са: m=3088 (преноси, направени от hyphen); n=2953; m0=2875 (правилно поставени преноси); n-m0=78 (пропуснати преноси); m-m0=213 (неправилни преноси).

Резултатът е: 0,97358 – коефициент на пълнота;

0,09854 – коефициент на грешките.

Второто сравнение е направено след прилагане на правило 18 от т. 4.2, като при срещане на пренос между 'ст', 'ск', 'пр' или 'гр', той по възможност се изнася пред първата от двете букви. Проведеният експеримент може да се онагледи с таблица:

 

промени – премахвания

промени – добавяне

общо верни

общо неверни

околност

общо

верни

неверни

общо

верни

неверни

ск

16

10

6

2

1

1

11

7

ст

65

46

19

14

14

0

60

19

пр

27

25

2

16

16

0

41

2

гр

7

4

3

2

2

0

6

3

Общо

115

85

30

34

33

1

118

31

След корекцията на алгоритъма, новите данни са: m=3007; n=2953; m0=2878; n-m0=75; m-m0=129.

Резултатът е:           

0,97460 – коефициент на пълнота;

0,06908 – коефициент на грешките.

Извод. При спазване на правило 18 коефициента на пълнота (Р) се увеличава с 0,104%, а коефициента на грешките намалява с 29,894%!

3. Класификация на глобалните и локалните правила. Съотношения.

За глобалните правила:

Автоматизирани(?):           2, 6, 9, 12, 13, 14, 17, 19, 20, 21, 22, 23, 24, 26, 27, 28, 29, 30.

Автоматични (!):                 3, 4, 5, 7, 8, 10, 11, 13, 15, 16, 18, 25.

Съотношение (автоматични/автоматизирани):

глобални/локални правила

За локалните правила:

Автоматизирани (?): 1.1, 1.5, 1.7, 1.9, 1.12, 1.13, 1.15, 1.20, 1.27, 2.3, 2.5, 2.8, 2.12, 2.14, 2.15, 2.16, 2.18, 2.23, 2.29, 3.1, 3.3, 3.6, 3.7, 3.10, 3.12, 4.4, 5.3, 6.3, 6.5, 6.8, 6.9, 7.6, 7.7, 8.1, 8.3, 8.5, 8.8, 9.4, 10.3, 10.6, 10.9, 10.13, 10.15, 10.19, 10.21, 11.1, 11.2, 12.3, 13.3, 14.2, 15.2, 16.3.

Автоматични (!): всички останали.

Съотношение (автоматични/автоматизирани):

автоматични/автоматизирани правила

4. Плътност на текст в зависимост от наличието на сричкопренасяне.

Експериментът е проведен над 52 стандартни машинописни страници от художествени текстове на български език при шрифт Timok Normal, 10p и ширина на наборното поле от 9 до 4 см. Плътността е измерена като брой редове при предварително отстраняване на факторите gij, lli, rli и rij (виж т. 4.1).

ширина на наборното поле

без сричкопренасяне

със сричкопренасяне

разлика в проценти

9

1631

1616

0,93

8

1840

1816

1,32

7

2131

2081

2,40

6

2509

2432

3,17

5

3083

2927

5,33

4

3977

3686

7,89

Графично резултатът е даден в т. 4.1.

<< назад | отгоре

Съдържание

0. Встъпление

1. Увод

2. Сричкопренасяне

2.1. Малко история

2.2. Правила за сричкопренасяне от 1983 г.

2.3. Метод на скандирането

2.4. Алгоритъм на сричкопренасянето по фонетичен и морфологичен принцип

2.4.1. Алгоритъм за откриване на морфема в дума

2.4.2. Алгоритъм за анализ на буква

2.4.3. Алгоритъм за анализ на дума

2.4.4. Алгоритъм за анализ на текст

2.4.5. Други възможности

3. Автоматизирано откриване и отстраняване на грешки в текст

3.1. Дефиниции и понятия

3.2. Често допускани грешки

3.3. Класификация на правилата

3.4. Примерна програмна реализация на локалните правила

3.4.1. Нови дефиниции, променливи, флагове и множества

3.4.2. Таблица на локалните правила

3.4.3. Функции, необходими за реализация на локалните правила

3.5. Глобални правила

3.5.1. Класификация на думите в текст на равнище знакове

3.5.2. Функции, необходими за реализация на глобалните правила

3.5.3. Функции и идеи, които предстоят да бъдат осъществени

4. Някои метрики в текстообработката

4.1. Текстови и шрифтови метрики

4.2. Сложност на текст

4.3. Професионализъм на предпечатната подготовка

4.3.1. Използване на възможностите на програмите чрез дефиниране на различни стилове

4.3.2. Премахване на излишното форматиране

4.3.3. Използване на възможностите за настройка на основните отношения между и в параграфите

5. Заключение

6. Литература

7. Приложениe

7.1. Списък на книгите, върху които са направени експерименти

7.2. Някои статистики и резултати от проведени изследвания