Реферат: Анализ машиночитаемых документов компьютерными средствами

nob - число выбранных объектов

i1 - номер текущего признака

nnopr - название выходного признака

eps - точность

PROB.TXT 1 запись - nob полей значения текущего признака для всех выбранных объектов

Выход:

Файл прямого доступа OBPR (матрица объект-признак) строка - признак, столбец - объект, размерность - число выбранных объектов, умноженное на число выбранных признаков, первая строка - значения выходного признака для всех объектов, остальные строки - значения соответствующих входных признаков для всех выбранных объектов (в ходе дальнейшей работы стирается).

Программа VVPR за один проход формирует одну запись типа строка - признак и готовит данные для работы программы RASH - собственно расчетную программу. У этой программы:

Вход:

Файлы OBPR, PARAM.TXT, NAPR, NAZPR.

Файлы NAPR и NAZPR формируются в программе базы на основе информации, содержащейся в словарях.

Выход:

Файл FCSG.DAT Этот файл представляет собой одну запись, состоящую из следующих элементов:

1 Номер группы
2 Число объектов в данной группе=nobg
3-2+nobg Номера объектов в группе
2+nobg+1 Номер уровня, на котором произошло разбиение по этому признаку
2+nobg+2 Номер признака
2+nobg+3 Число значений данного признака
следующие jpr элементов Номера значений признака

Затем номер следующей группы, далее все аналогично. Номера уровней идут по убыванию, как только номер уровня=1, начинается следующая группа.

На входе в RASH также:

Файлы:

napr.txt - имена признаков, которые мы выбрали из словаря словарей

nazpr.txt - название значений признаков из соответствующего словаря, код словаря по каждому признаку

Берутся подряд все признаки, сначала числовой код, затем названия признака подряд все перечисляются.

Файл PARAM.TXT - 500_3_"выходной признак"_0,200. Включает: Число записей (500), число входных признаков (3), название выходного признака, необходимую точность вычислений (0.2).

Файл BNAPR.DBF - следующие поля:

NSLOV, LSLOV - число записей в словаре, NAPRIZ - название словаря, NSL - имя словаря.

STRA.DBF - файл dbf, в который записываются выбранные параметры построчно.

На выходе системы формируется текстовый файл итоговых расчетов. Пример его приведен в Приложении 3. В данной версии этот файл затирается, но может быть легко восстановлен стандартными средствами (типа UNDELETE и пр.). В дальнейшем он может редактироваться любым текстовым редактором.

Описанная система будет использована при обсчете больших массивов информации, нарабатываемх в ходе реализации совместных проектов с Государственным архивом РФ.

Приложение 1. Состав системы.

Система помещается на 1 дискете 5,25' (1,2 мБ) или 3,5' (1,44 мБ) и включает следующие файлы:

VVPR.EXE

DOS4GW.EXE

RASCH.EXE

Расчетные программы для классификации.

К-во Просмотров: 495
Бесплатно скачать Реферат: Анализ машиночитаемых документов компьютерными средствами