Реферат: Требования к геоинформационным системам и содержанию баз данных
Большие массивы геолого-геофизической информации требуют использования специальных систем для организации хранения и поиска данных. Такие системы называются информационно-поисковыми (ИПС). ИПС, по существу, представляют БД совместно с СУБД, осуществляющих быстрый поиск данных. Поиск данных обычно производится по определенному символу. В отличие от БД и СУБД, которые можно рассматривать раздельно, для ИПС характерна неразрывная связь функций БД и СУБД.
В сейсморазведке при создании автоматизированной системы обработки данных СЦС-3 широкое применение получила ИПС «ИНЕС». При обработке и интерпретации данных ГИС используется ИПС ГЕОКОМПАС, базирующаяся на СУБД КОМПАС.
2.2 Файловые базы данных
Вышеприведенные определения БД, основанные на концепциях CODASYL, а также иерархические и сетевые структуры БД сложно использовать при хранении, поиске и обработке массовых геолого-геофизических данных, что объясняется следующими обстоятельствами:
1)при многоэтапной и многоцелевой обработке данных трудно заранее определить связи между всеми типами геообъектов и соответствующими им типами записей. При решении разных геологических задач взаимосвязи между объектами обработки (точками наблюдений, геологически однородными площадками, геохимическими и геофизическими аномалиями, известными проявлениями полезных ископаемых и т.п.) изменяются. Изменяется также и принцип группирования записей, соответствующих этим объектам;
2)отдельная запись при обработке геолого-геофизических материалов не имеет, как правило, самостоятельного значения.
Поэтому средства большинства систем управления базами данных, ориентированными на поиск и предоставление программисту единичных записей, не могут удовлетворить ни программиста, занимающегося созданием геолого-геофизического программного обеспечения, ни геолога-геофизика как специалиста в. области обработки и интерпретации данных;
3) реляционные БД в большей степени, чем сетевые и иерархические, приспособлены к обработке геолого-геофизических данных, поскольку реляционную БД можно рассматривать как совокупность разнообразных таблиц объекты – свойства, связи между таблицами неявно определяются через общие элементы данных, например, координаты точек. Однако и реляционная БД практически не учитывает особенности технологии хранения, поиска и обработки массовых данных: а) геолого-геофизические данные хранятся в виде географически, покоординатно заданной информации, относящейся к определенному методу, способу исследований при определенной детальности работ (масштабе работ); б) при долговременном хранении геолого-геофизические данные не модифицируются, так как они обычно прошли стандартную первичную обработку; в) каждый новый фрагмент данных должен рассматриваться как автономный (иначе ведение баз при их реальных огромных объемах станет непосильно трудоемким), но система поиска должна обеспечивать оперативный поиск и выбор требуемого фрагмента базы данных; г) технология обработки диктует необходимость доставки геолого-геофизических данных не по отдельным записям, а достаточно большими порциями (сейсмическая трасса, профиль, площадь съемки и т.п.).
С учетом отмеченных обстоятельств и особенностей технологии хранения и обработки геоинформации В.В. Ломтадзе предложил синтезировать достоинства файловых структур описания данных, информационно-поисковых систем и реляционных БД, К достоинствам файловой структуры относится автономия фрагментов информации, оформляемых в виде отдельных файлов. Достоинства ИПС заключаются в возможности смыслового поиска фрагментов информации (файлов), требуемых для решения конкретных задач. Наконец, достоинства реляционных баз данных состоят в логической ясности представления данных, гибкости их преобразования и т.д., поскольку можно «вырезать» из таблиц объекты – свойства требуемые столбцы (свойства) или, наоборот, «склеивать» их, формируя для прикладных программ файлы с заданным составом записей.
Под файловой базой данных (ФБД) понимается совокупность организованных по общим принципам файлов, между которыми неявно определены связи. Если в сетевых и иерархических базах данных объектом поиска и обработки является запись, то в ФБД основной объект поиска и обработки представляет файл или же совокупность взаимосвязанных однотипных записей, называемая массивом и являющаяся частью файла. В частных случаях можно выполнять работу и с отдельными записями.
Выбор стандартных структур организаций данных, в которые, как в контейнеры (или как книги на полке библиотеки), вкладывается разнообразная информация, является ключевым моментом при проектировании технологии обработки массовых геолого-геофизических данных. К достоинствам концепции банка данных относится введение понятия структуры данных и выделение набора стандартных структур, управляемых набором стандартных программ и подпрограмм, входящих в конкретную СУБД. Такой набор программ и подпрограмм В.В. Ломтадзе для файловых баз данных называет системой оперирования данными (СОД), которая играет роль общесистемного программного аппарата.
В ФБД выделяют четыре структуры данных: файл, массив, запись, элемент, которые по существу отражают все разнообразие площадной геолого-геофизической информации.
Файл обычно соответствует площади работ, т.е. содержит конкретные данные по этой площади.
Массив файла соответствует профилю или маршруту, скважине или интервалу скважины, сейсмической трассе, кривой ВЭЗ, МТЗ или любой другой совокупности точек наблюдения, т.е. массив содержит данные по профилю, маршруту, скважине и т.д. Массив состоит из заглавия и записей.
Заглавие – особая запись для характеристики массива в целом. Записи массива в совокупности образуют таблицу объекты – свойства. Одна запись соответствует одному объекту и совпадает с понятием «запись» в терминах CODASYL.
Элементы записи – это характеристики, например, значения конкретного физического поля, координаты, признаки одного объекта, т.е. одной точки профиля, одной точки скважины, одной точки сейсмотрассы и т.п.
Любой файл в СОД состоит из краткого паспорта и массивов. Имеется близкая аналогия между паспортом файла и аннотацией книги, между массивами файла и главами той же книги. В паспортефайла содержится имя (или название) файла, имя (обозначение) владельца партии, экспедиции, объединения, параметр PACK, обычно равный 1 (это означает, то данные, содержащиеся в файле, должны храниться на ленте или диске в упакованном виде; в случае РАСК=0 упаковка запрещается), параметры V (число элементов данных в заглавии каждого массива), W (число элементов данных в заглавиях каждого файла), Ро> символически обозначающий принцип кодирования массивов файла (принцип группирования записей в массивы); Pj , Uj , Cj , (/ = 1,…, У+ W ), описывающие элементы заглавия и записей массивов.
Если для геофизического метода определены типы файлов, то многочисленные программы обработки и интерпретации данных могут разрабатываться независимо друг от друга. Любой переход, например, от файла А к файлу типа В может быть осуществлен с применением разных алгоритмов и разных программ.
На каждом шаге последовательного преобразования файлов с помощью той или иной программы выполняется переход от одного или нескольких исходных файлов к одному или более, которые могут отличаться от исходных структурой и составом. Поскольку каждый шаг графа обработки определяется именем программы, выполняющей требуемые функции, именами исходных и создаваемых файлов и значениями параметров управления работой Данной программы (например, граничные координаты обрабатываемой площади, имена используемых признаков и т.п.), то после любого шага процесс обработки может быть прерван для визуализации и анализа промежуточных результатов, принятия решения о выборе приемов и параметров дальнейшей обработки или интерпретации.
Описанный выше подход к построению реляционно-файловых (или просто файловых) баз данных нашел в настоящее время самое широкое применение при создании автоматизированных систем обработки и интерпретации геолого-геофизической информации, а также при обеспечении программными продуктами полевых вычислительных комплексов и автоматизированных рабочих мест. При этом большинство программистов предпочитают ограничиваться тремя структурами данных: элемент, запись и файл, полагая использование структуры массива лишним.
2.3 Взаимодействие баз геолого-геофизических данных
Общий подход формализованного представления массовых геолого-геофизических данных в среде ФБД является также ключом к решению проблемы создания различных типов баз и их взаимодействия между собой. Решение этой проблемы основано на рассмотренной формализации представления разнотипных по содержанию и характеру» геологических, геохимических данных, на вводимых понятиях региональных и локальных баз данных и на реализации организационно-технических мероприятий, осуществляемых в настоящее время в рамках создания ГЕОСИСТЕМЫ.
Локальная методная ФБД образуется и существует в период обработки материалов полевой партии, экспедиции, например, гравиметрической, геохимической, геологоразведочной и т.д. Связи междуфайлами локальной методной ФБД неявно определяются таблицей типов файлов данного геолого-геофизического метода, а также принятой технологией обработки. Файлы некоторых типов каждой методной ФБД, образуемые, как правило, в результате обработки на полевых вычислительных комплексах или на автоматизированных рабочих местах, передаются в региональные базы данных.
Региональные базы данных (РФБД) обеспечивают долговременное хранение фактических данных в государственных масштабах.
Региональная база данных (РФБД) – это совокупность всех файлов, содержащих геолого-геофизические данные по одному миллионному листу картографической разграфки. Файл, включаемый в региональную ФБД, получает имя, состоящее из восьми символов: номенклатура листа (3 символа), год завершения работ, данные которых помещены в файл (2 символа), регистрационный номер файла в базе данных на этот год (3 символа). Например, Р4889005 содержит результаты работ, завершенных в 1989 г. в пределах листа Р-48.
Краткая информация о каждом файле региональной базы (масштаб работ, вид сети, координаты, «ключи» для перехода от относительных координат в записях файла к истинным координатам, дескрипторы, характеризующие содержание файла) помещаются в поисковый образ файла. Поисковые образы всех файлов региональной ФБД объединяют в один файл поисковых образов, хранимый при поиске данных на диске. Сами файлы региональных ФБД хранятся на лента