Дипломная работа: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой

14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.

15. В числах между цифрами не должно быть пробелов.

16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.

17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.

18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).

19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:

_________________

(прим.2) - ...

*) ....

20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.

21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».

22. Текст сообщения должен быть отредактирован. Все спецсимволы в

тексте должны быть заменены следующим образом:

- кавычки («») на кавычки (" ");

- номер (№) на номер (латинская буква N);

- длинное тире (¾) на тире (-);

- буква (ё) на букву (е);

- апостроф (') на твердый знак.

Характерными ошибками в текстовых файлах являются:

- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);

- слова написаны слитно без пробела;

- в сложных словосочетаниях пропуск дефиса;

- после сокращения и знаков препинания отсутствует пробел;

- пропуск точки в сокращении и в единицах измерения;

- вместо запятой стоит точка и наоборот;

- вместо номера (латинской буквы N) стоит другой символ.

Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.

Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:

- рубрики 1-го уровня;

К-во Просмотров: 386
Бесплатно скачать Дипломная работа: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой