Реферат: Дерево непосредственных составляющих
Дерево непосредственных составляющих (ДНС) обеспечиваает структурное описание предложений. Грамматика непосредственных составляющих (ГНС) характеризует ДНС. И то и другое поэтому играют важную роль в обработке естественного языка для создания структурных описаний предложения, которые могут быть использованы в обработке систем понимания или порождения речи.
Дерево непосредственных составляющих:
ДНС кодирует иерархическую структуру предложения. Эта информация двух видов: иерархическая структура группирования и синтаксические категории этих группирований.
Предложение
John wanted to publish the paper. (1)
имеет следующую структуру:
(2)
John wanted to publish
thepaper
Эта структура может быть представлена и в скобочной конструкции:
[[John][[wanted][[to][publish][[the][paper]]]]](3)
(2) и (3) описывают группирование без идентификации составляющих. Такие конструкции называются “скелетом”. Скелеты характеризуют фразу без обозначения вершин дерева. Скелет с обозначением категорий является ДНС, для фразы (1) это будет выглядеть так
S
NPVP
VP
NP(4)
NPRVPV
DET N
John wanted to publish
thepaper
“John” являетсяздесьименемсобственным, котороеявляетсятакжегруппойподлежащего, “wanted” и “publish” - глаголы, “to”- предлог (точнееговоря “to” должнобытьназваночастицейиливременем), “the” - детерминатор, “paper” - существительное, “the paper” - группасуществительного, “to publish the paper” - группасказуемого, “wanted to publish the paper” - тожегруппасказуемого, инаконец, “John wanted to publish the paper” - предложение.
Соответственно скобочная конструкция (3) будет выглядеть так:
[S[NR[NPR John]][VP[V to][V publish][NP[DET the][N paper]]]]](5)
Конструкции (4) и (5) обычно (но не всегда) используются в системах обработки естественного языка.
Грамматика непосредственных составляющих (ГНС)
ГНС состоит из набора нетерминальных символов (таких как N, V, NP, VP, S и т.д.) и из набора терминальных символов (таки лексические единицы как John “wanted”, “to”, “publish”, “the”, “paper” и т. д. и из набора правил, которые позволяют переписывать нетерминальные символы в цепочку терминальных и нетерминальных симвлов. Если это переписывание не зависит от контекста, то это контексто-независимая грамматика (КНГ), в противном случае - это контекстозависимая грамматика (КЗГ). Правило перезаписи имеет следующую форму:
А --> Х(6)
где Х - последовательсть терминальных и нетерминальных символов, а А - нетерминальные.
КЗГ имеет иследующее правило перезаписи:
ZAW --> ZXW(7)
--> ЧИТАТЬ ПОЛНОСТЬЮ <--