Дипломная работа: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой

- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;

- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.

Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.

Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат

классификации.

Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.

Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.

Структура выходных данных и документов представлена в приложении Е.

3.4 Описание организации информационной базы

3.4.1 Описание организации внутримашинной базы

Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:

- статьи;

- газета;

- регион;

- отрасль;

- справочник отраслей;

- рубрики;

- классификация;

- рубрикатор 1;

- рубрикатор 2;

- рубрикатор 3;

- рубрикатор 4;

- словарь рубрикатора 3;

- словарь рубрикатора 4.

Их описание представлено в таблицах 3.1 – 3.13 соответственно.

Таблица 3.1 – Таблица «Статьи»

Первичный ключ Атрибуты Тип данных Описание
Код газеты Числовой Длина 2 символа
Код региона Числовой Длина 8 символов
Код статьи Счетчик Последовательное значение
Уникальный ключ Наименование Текстовый Длина 150 символов
Ключевые слова Текстовый Длина 255 символов
Текст Поле MEMO
Дата Дата/время Краткий формат даты
Автор Текстовый Длина 150 символов
Файл Текстовый Длина 255 символов
Классифицировано Логический Истина/ложь

Таблица 3.2 – Таблица «Газета»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код газеты Числовой Длина 2 символа
Наименование Текстовый Длина 150 символов

Таблица 3.3 – Таблица «Регион»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код региона Числовой Длина 8 символов
Наименование региона Текстовый Длина 150 символов

Таблица 3.4 – Таблица «Отрасль»

Первичный ключ Атрибуты Тип данных Описание
Составной ключ Код статьи Числовой Длинное целое
Код отрасли Числовой Длинное целое

Таблица 3.5 – Таблица «Справочник отраслей»

Первичный ключ Атрибуты Тип данных Описание
Уникальный ключ Код отрасли Числовой Длинное целое
Наименование Текстовый Длина 150 символов

Таблица 3.6 – Таблица «Рубрики»

Первичный ключ Атрибуты Тип данных Описание
Составной ключ Код рубрики Числовой Длинное целое
Код статьи Числовой Длинное целое
Уровень рубрики Числовой Длинное целое

К-во Просмотров: 468
Бесплатно скачать Дипломная работа: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой