Реферат: Трансформация XML документов
В XML-документах DTD определяет набор действительных элементов, идентифицирует элементы, которые могут находиться в других элементах, и определяет действительные атрибуты для каждого из них. Синтаксис DTD весьма своеобразен и от автора-разработчика требуются дополнительные усилия при создании таких документов(сложность DTD является одной из причин того, что использование SGML, требующего определение DTD для любого документа, не получило столь широкого распространения как, например, HTML). Как уже отмечалось, в XML использовать DTD не обязательно - документы, созданные без этих правил, будут правильно обрабатываться программой-анализатором, если они удовлетворяют основным требованиям синтаксиса XML. Однако контроль над типами элементов и корректностью отношений между ними в этом случае будет полностью возлагаться на автора документа. До тех пор, пока грамматика нашего нового языка не описана, его может использовать только его автор, и для этого применять специально разработанное программное обеспечение, а не универсальные программы-анализаторы. В DTD для XML используются следующие типы правил: правила для элементов и их атрибутов , описания категорий(макроопределений), описание форматов бинарных данных . Все они описывают основные конструкции языка - элементы, атрибуты, символьные константы внешние файлы бинарных данных. Для того, чтобы использовать DTD в документе, можно или описать его во внешнем файле и при описании DTD просто указать ссылку на этот файл или же непосредственно внутри самого документа выделить область, в которой определить нужные правила. В первом случае в документе указывается имя файла, содержащего DTD-описания:
<?xml version="1.0" standalone="yes" ?>
<! DOCTYPE team SYSTEM "team.dtd">
...
Внутри же документа DTD- декларации включаются следующим образом:
...
<! DOCTYPE team [
<! ELEMENT team (coach, player, assistant)>
...
]>
...
В том случае, если используются одновременно внутренние и внешние описания, то программой-анализатором будут сначала рассматриваться внутренние, т.е. их приоритет выше. При проверке документа XML-процессор в первую очередь ищет DTD внутри документа. Если правила внутри документа не определены и не задан атрибут standalone ="yes" , то программа загрузит указанный внешний файл и правила, находящиеся в нем, будут считаны оттуда. Если же атрибут standalone имеет значение "yes ", то использование внешних DTD описаний будет запрещено.
Определение элемента
Элемент в DTD определяется с помощью дескриптора !ELEMENT , в котором указывается название элемента и структура его содержимого. Например, для элемента < coach> можно определить следующее правило:
<!ELEMENT coach PCDATA>
Ключевое слово ELEMENT указывает, что данной инструкцией будет описываться элемент XML. Внутри этой инструкции задается название элемента(coach) и тип его содержимого. В определении элемента мы указываем сначала название элемента(coach), а затем его модель содержимого - определяем, какие другие элементы или типы данных могут встречаться внутри него. В данном случае содержимое элемента name будет определяться при помощи специального маркера PCDATA( что означает parseable character data - любая информация, с которой может работать программа-анализатор). Существует еще две инструкции, определяющие тип содержимого: EMPTY,ANY . Первая указывает на то, что элемент должен быть пустым(например, <red/>), вторая - на то, что содержимое элемента специально не описывается. Последовательность дочерних для текущего элемента объектов задается в виде списка разделенных запятыми названий элементов. При этом для того, чтобы указать количество повторений включений этих элементов могут использоваться символы +,*, ? :
<!ELEMENT team(coach+, player*, assistant?)>
В этом примере указывается, что внутри элемента < team> должны быть определены элементы coach, player и assistant, причем элемент title является обязательным элементом и может встречаться лишь однажды, элемент player может встречаться несколько раз, а элемент assistant является опциональным, т.е. может отсутствовать. В том случае, если существует несколько возможных вариантов содержимого определяемого элемента, их следует разделять при помощи символа "|" :
<!ELEMENT flower (PCDATA | title )*>
Символ * в этом примере указывает на то, что определяемая последовательность внутренних элементов может быть повторена несколько раз или же совсем не использоваться. Если в определении элемента указывается "смешанное" содержимое, т.е. текстовые данные или набор элементов, то необходимо сначала указать PCDATA, а затем разделенный символом "|" список элементов. Пример корректного XML- документа:
<?xml version="1.0"?> <! DOCTYPE team [ <!ELEMENT team (title, coach+, player*, assistant?)> <!ELEMENT coach (name|PCDATA)> <!ELEMENT name PCDATA> <!ELEMENT player (name, nationality)> <!ELEMENT nationality PCDATA> <!ELEMENT l_name PCDATA> ]> ... <team> <coach> <f_name>John</ f_name> < l_name>Dixon</ l_name> </coach> < player number="1"> < f_name >Jorge</ f_name> <l_name>Woods</l_name> <nationality>English</ nationality> </ player> … </team>
Определение атрибутов
Списки атрибутов элемента определяются с помощью ключевого слова !ATTLIST . Внутри него задаются названия атрибутов, типы их значений и дополнительные параметры. Например, для элемента <player> могут быть определены следующие атрибуты:
<!ATTLIST player number ID #REQUIRED type (goalkeeper | back | halfback | forward) #IMPLIED >В данном примере для элемента player определяются три атрибута: number и type , которые имеют типы ID(идентификатор) и список возможных значений соответственно. Всего существует шесть возможных типов значений атрибута:
· CDATA - содержимым документа могут быть любые символьные данные
· ID - определяет уникальный идентификатор элемента в документе
· IDREF(IDREFS) - указывает, что значением атрибута должно выступать название(или несколько таких названий, разделенных пробелами во втором случае) уникального идентификатора определенного в этом документе элемента
· ENTITY(ENTITIES - значение атрибута должно быть названием(или списком названий, если используется ENTITIES) компонента (макроопределения), определенного в документе
· NMTOKEN (NMTOKENS) - содержимым элемента может быть только одно отдельное слово(т.е. этот параметр является ограниченным вариантом CDATA)