Дипломная работа: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой
- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;
- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.
Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.
Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат
классификации.
Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.
Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.
Структура выходных данных и документов представлена в приложении Е.
3.4 Описание организации информационной базы
3.4.1 Описание организации внутримашинной базы
Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:
- статьи;
- газета;
- регион;
- отрасль;
- справочник отраслей;
- рубрики;
- классификация;
- рубрикатор 1;
- рубрикатор 2;
- рубрикатор 3;
- рубрикатор 4;
- словарь рубрикатора 3;
- словарь рубрикатора 4.
Их описание представлено в таблицах 3.1 – 3.13 соответственно.
Таблица 3.1 – Таблица «Статьи»
Первичный ключ | Атрибуты | Тип данных | Описание |
Код газеты | Числовой | Длина 2 символа | |
Код региона | Числовой | Длина 8 символов | |
Код статьи | Счетчик | Последовательное значение | |
Уникальный ключ | Наименование | Текстовый | Длина 150 символов |
Ключевые слова | Текстовый | Длина 255 символов | |
Текст | Поле MEMO | ||
Дата | Дата/время | Краткий формат даты | |
Автор | Текстовый | Длина 150 символов | |
Файл | Текстовый | Длина 255 символов | |
Классифицировано | Логический | Истина/ложь |
Таблица 3.2 – Таблица «Газета»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код газеты | Числовой | Длина 2 символа |
Наименование | Текстовый | Длина 150 символов |
Таблица 3.3 – Таблица «Регион»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код региона | Числовой | Длина 8 символов |
Наименование региона | Текстовый | Длина 150 символов |
Таблица 3.4 – Таблица «Отрасль»
Первичный ключ | Атрибуты | Тип данных | Описание |
Составной ключ | Код статьи | Числовой | Длинное целое |
Код отрасли | Числовой | Длинное целое |
Таблица 3.5 – Таблица «Справочник отраслей»
Первичный ключ | Атрибуты | Тип данных | Описание |
Уникальный ключ | Код отрасли | Числовой | Длинное целое |
Наименование | Текстовый | Длина 150 символов |
Таблица 3.6 – Таблица «Рубрики»
Первичный ключ | Атрибуты | Тип данных | Описание |
Составной ключ | Код рубрики | Числовой | Длинное целое |
Код статьи | Числовой | Длинное целое | |
Уровень рубрики | Числовой | Длинное целое |