Реферат: Требования к геоинформационным системам и содержанию баз данных
Логическое описание данных указывает на то, в каком виде данные представляет себе пользователь, программист, и задача геоинформатики состоит именно в анализе логического описания геоданных и их взаимоотношений между собой для дальнейших операций хранения, передачи и обработки.
Согласно определениям Ассоциации по языкам систем обработки данных (CODASYL) выделяют следующие описания данных.
Байт – наименьшая адресуемая группа битов (8 битов).
Элемент данных – наименьшая единица поименованных данных, которая может состоять из любого количества битов или байтов. Элемент данных – это любая (одна) характеристика изучаемого объекта, в том числе и его координаты; элемент имеет имя (идентификатор).
Агрегат данных – поименованная совокупность элементов данных. Выделяются два типа агрегатов: вектор ~ одномерная упорядоченная совокупность элементов (например, название района работ, номер профиля, номер точки наблюдения образуют агрегат данных) и повторяющаяся группа – совокупность векторов, встречающихся несколько раз подряд, например, когда данные описываются таким образом, что сначала указываются номера профилей, а затем номера точек, т.е. повторяется пара: профиль – точка, профиль – точка и т.д.
Запись данных ~ поименованная совокупность элементов или агрегатов данных. Совокупность элементов описывается так, как это представляется программисту, причем логическая запись может не совпадать с физической, поскольку логическая запись состоит из элементов, расположенных в других физических записях.
Элементы записи – это характеристики (признаки, координаты) одного объекта, в частности, одной точки наблюдения. Каждая запись описывается именем (идентификатором) и форматом хранения, определяющим способ упаковки элемента записи на ленту, диск, дискету. При чтении из базы данных программист может полностью прочитать логическую запись.
Файл – поименованная совокупность всех экземпляров логических записей заданного типа. Если запись представляет описание различных характеристик объекта или точки наблюдения, то файл – это совокупность тех же характеристик по нескольким объектам или по профилю наблюдений, т.е. файл – это матрица – таблица исходных данных.
База данных (БД) – совокупность записей различного типа, содержащая перекрестные ссылки, или иначе – это совокупность экземпляров различных типов записей и отношений между записями, элементами, агрегатами. БД – это также совокупность матриц – таблиц (файлов) и программ, определяющих отношения между типами данных.
База данных, по другому распространенному в геофизике определению – это совокупность массивов данных на внешних носителях и программных средств доступа к ним, где под массивами подразумеваются и запись, и файлы. Действительно, геофизические, геохимические и геологические пакеты программ включают данные разных типов: полевые наблюдения, информацию об изучаемом объекте и системе наблюдений; промежуточные результаты обработки; параметры обработки; программно-сформированные изображения выводимых результатов и т.д.
Физическая организация БД, в отличие от логической, – это физическое представление данных и их расположение на запоминающих устройствах.
База данных организуется таким образом, что данные собираются однажды и централизованно хранятся так, чтобы они были доступны всем специалистам-программистам, желающим их использовать. Одно из важных свойств БД – независимость данных от особенностей прикладных программ, которые их используют. Это означает, что изменение значений данных или особенностей их хранения на физических носителях не требует изменения прикладных программ.
В понятие БД включается система управления базой данных (СУБД), предназначенная для выполнения операций по обработке данных в прикладных программах. СУБД просматривает описание физической организации БД и определяет, какую физическую запись (записи) требуется считать, при этом СУБД выдает операционной системе ЭВМ команду чтения требуемой записи.
Нередко понятия БД и СУБД объединяют в одно понятие банк данных .
Понятие базы данных неразрывно связано со структурой ее построения (выделяют иерархические, сетевые и реляционные БД), языком манипулирования данными и языком описания данных.
Язык описания данных (ЯОД) – средство объявления СУБД тех структур, которые будут использоваться при обработке. ЯОД включается в программное описание ЭВМ. ЯОД для логического описания должен идентифицировать типы данных (элемент, запись, файл), т.е. присваивать имя каждому типу данных.
Язык манипулирования данными (ЯМД) – это интерфейс (стыковка) между прикладной программой и СУБД. ЯМД включает ряд программ, осуществляющих открытие или закрытие файла, замену или удаление отдельных записей из файла (или самого файла), передачу в рабочую область программы содержимого указанного элемента данных и т.д.
Среди структур построения БД наиболее распространены в геологоразведке реляционные БД . Реляционные БД – это табличное представление данных, обычно в виде двумерных таблиц. Каждый элемент таблицы – это один элемент данных, повторения здесь отсутствуют. Все столбцы таблиц – однородные, т.е. элементы столбца имеют одинаковую природу (значения одного и того же поля, свойства, параметра и т.д.). Каждому столбцу присвоены имена. В таблице нет двух одинаковых строк, поскольку координаты точек наблюдения разные. В операциях с таблицей ее строки и столбцы могут рассматриваться в любом порядке, в любой последовательности. Все наиболее применяемые таблицы при, геолого-геофизических исследованиях, например, таблица петрофизических свойств горных пород, таблица описания физико-геологической модели объекта (месторождения) и т.д., удовлетворяют указанным свойствам. Подобные таблицы называются отношением, а база данных, построенная с помощью отношений называется реляционной. Таким образом, реляционная БД строится из плоских наборов элементов данных (рис. 2, а). В реляционных БД встречаются термины: домен (один столбец таблицы) и кортеж – таблица, определяющая взаимосвязь между элементами. данных. Иначе, кортеж – набор взаимосвязанных величин, а файл образуется из набора кортежей.
Основные преимущества реляционных БД: простота, гибкость, точность, связность, простота внедрения, независимость данных от прикладных программ, ясность.
Распространенными структурами БД в геологоразведке являются также иерархические или древовидные структуры (см. рис. 2, б). Дерево – это иерархия элементов, называемых узлами. На верхнем (первом) уровне иерархии находится один узел – корень. Каждый узел, кроме корня, связан с одним узлом на более верхнем уровне, называемом исходным узлом для данного узла. Ни один элемент не имеет более одного исходного. Каждый элемент может быть связан с одним или несколькими элементами на более низком уровне. Такие элементы называются порожденными, а элементы, не имеющие в конце ветви порожденных, называются листьями.
Используется термин иерархический файл, т.е. такой файл, в котором записи связаны в виде древовидной структуры. Иерархические структуры БД использованы в автоматизированной системе АСПО-8 и в концепции создания банка «Разведочная геофизика».
Редко используется так называемые сетевые структуры БД, приведенные на рис. 2, в.
В трех приведенных на рис. 2, в сетевых структурах первая (слева) имеет три уровня и для каждого узла – два исходных элемента, вторая (в середине) – четыре уровня, третья (справа) – пять уровней.
Сетевые структуры БД характерны для организации управлением геологоразведочным производством на уровне экспедиции и выше.
Организация данных в БД прежде всего должна правильно передавать их основное смысловое значение, или семантику , и позволять эффективно к ним обращаться. В обычной прикладной программе структура данных организуется таким образом, чтобы обеспечить удобный доступ к ним из данной программы.
Рисунок 2. Структуры данных:
а-реляционная, б-иерархическая, в-сетевая
БД содержит данные, которые используются множеством разнообразных программу, следовательно, при определении структуры БД нельзя ориентироваться на критерии, используемые при программировании конкретных функций. При обработке геолого-геофизических данных БД характеризуется большими и очень большими размерами выборок. Большим называется такое значение, которое превосходит количество данных, обрабатываемых одним человеком, даже если он имеет доступ к вычислительной системе. Фактическое количество изменяется от сложности данных и решаемых задач. Примером большой БД является система, содержащая сведения уже о 5000 образцах, рудных телах, месторождениях и т.д. Такая БД может, например, содержать 300 000 записей десятка или более типов. Три тысячи сейсмических лент со стоканальной записью каждая уже образуют большую БД.