Реферат: Анализ машиночитаемых документов компьютерными средствами
nob - число выбранных объектов
i1 - номер текущего признака
nnopr - название выходного признака
eps - точность
Выход:
Файл прямого доступа OBPR (матрица объект-признак) строка - признак, столбец - объект, размерность - число выбранных объектов, умноженное на число выбранных признаков, первая строка - значения выходного признака для всех объектов, остальные строки - значения соответствующих входных признаков для всех выбранных объектов (в ходе дальнейшей работы стирается).
Программа VVPR за один проход формирует одну запись типа строка - признак и готовит данные для работы программы RASH - собственно расчетную программу. У этой программы:
Вход:
Файлы OBPR, PARAM.TXT, NAPR, NAZPR.
Файлы NAPR и NAZPR формируются в программе базы на основе информации, содержащейся в словарях.
Выход:
Файл FCSG.DAT Этот файл представляет собой одну запись, состоящую из следующих элементов:
1 | Номер группы |
2 | Число объектов в данной группе=nobg |
3-2+nobg | Номера объектов в группе |
2+nobg+1 | Номер уровня, на котором произошло разбиение по этому признаку |
2+nobg+2 | Номер признака |
2+nobg+3 | Число значений данного признака |
следующие jpr элементов | Номера значений признака |
Затем номер следующей группы, далее все аналогично. Номера уровней идут по убыванию, как только номер уровня=1, начинается следующая группа.
На входе в RASH также:
Файлы:
napr.txt - имена признаков, которые мы выбрали из словаря словарей
nazpr.txt - название значений признаков из соответствующего словаря, код словаря по каждому признаку
Берутся подряд все признаки, сначала числовой код, затем названия признака подряд все перечисляются.
Файл PARAM.TXT - 500_3_"выходной признак"_0,200. Включает: Число записей (500), число входных признаков (3), название выходного признака, необходимую точность вычислений (0.2).
Файл BNAPR.DBF - следующие поля:
NSLOV, LSLOV - число записей в словаре, NAPRIZ - название словаря, NSL - имя словаря.
STRA.DBF - файл dbf, в который записываются выбранные параметры построчно.
На выходе системы формируется текстовый файл итоговых расчетов. Пример его приведен в Приложении 3. В данной версии этот файл затирается, но может быть легко восстановлен стандартными средствами (типа UNDELETE и пр.). В дальнейшем он может редактироваться любым текстовым редактором.
Описанная система будет использована при обсчете больших массивов информации, нарабатываемх в ходе реализации совместных проектов с Государственным архивом РФ.
Приложение 1. Состав системы.
Система помещается на 1 дискете 5,25' (1,2 мБ) или 3,5' (1,44 мБ) и включает следующие файлы:
VVPR.EXE DOS4GW.EXE RASCH.EXE | Расчетные программы для классификации. |
К-во Просмотров: 526
Бесплатно скачать Реферат: Анализ машиночитаемых документов компьютерными средствами
|