Реферат: Синтаксичний аналіз у системах автоматичного перекладу концепції та алгоритми

Тут Т1 – текст першою мовою (вхідною), Т2 – текст другою мовою (вихідною), П1 та П2 – проміжне формальне представлення одного та іншого тексту, С1 та С2 – семантичний запис текстів.

Відповідно до цієї схеми процес перекладу складається з таких етапів: 1) аналіз вхідного тексту з наступною його заміною через проміжні представлення в семантичний запис (Т1=>C1), 2) власне переклад, що відбувається на рівні одного з формальних представлень тексту, що отримані при аналізі, і зводиться до вибору перекладних еквівалентів для одиниць, які утворюють дане представлення вхідного тексту; в результаті будується проміжне представлення для текста перекладу (П1=>П2), 3) синтез тексту перекладу: перехід від проміжного представлення до послідовності реальних словоформ та знаків пунктуації (П2=>Т2), 4) перевірка синтезованого тексту на наявність в ньому небажаної омонімії, яка могла виникнути в процесі синтезу (Т2=>П2), 5) оцінка адекватності перекладу шляхом аналізу проміжного тексту представлення (Т2=>С2) і порівняння отриманого при цьому семантичного запису С2 з семантичним записом С1 вхідного тексту (С1?C2)? 6) у випадку необхідності – редагування тексту перекладу за результатами проведених перевірок і порівнянь: при омонімічності тексту - пошук неомонімічного варіанту шляхом включення системи синонімічного перефразування (П2=>П2); при неадекватності перекладу – повернення до етапу вибору перекладних еквівалентів (пунктирна лінія) і перегляд або окремих компонентів, або всього етапу в цілому.

Для системи АРАП прийнятий порядок роботи, коли спочатку розробляється верхня частина схеми (лінія Т1=>П1=>П2=>Т2).

При цьому підході особливо важливе значення має вдалий вибір рівня П, до якого пред’являються дві протилежні вимоги. З одного боку він повинен бути достатньо “семантичний” (близький до СЗ), щоб в представленні тексту на цьому рівні експліцитно вказувалися або легко з нього виводилися відомості про те, від яких його елементів і яким чином залежить смисл даного тексту, а тим самим і вибір перекладацьких еквівалентів. З іншого боку рівень П повинен бути і достатньо поверховим (близьким до природнього представлення тексту), щоб не виникала потреба здійснювати при аналізі дуже багато надлишкових перетворень, які не впливають на кінцевий результат перекладу.

В системі АРАП в якості проміжного представлення тексту вибрана комбінована синтаксична структура (КСС).

Одиницею тексту, для якої в системі АРАП будується КСС і в межах якої здійснюється переклад, виступає речення. КСС речення представляє собою граф залежностей особливого роду, який поєднує в собі властивості поверхнево-синтаксичної і глибинно-синтаксичної структур моделі “Смисл-Текст”. В вершинах цього графу стоять повні глибинно-морфологічні предствалення (ГМП) словоформ та знаків пунктуації даного речення з інформацією про їх лінійне розташування в тексті відносно один одного у вигляді порядкових позначень. Ребрами графу є стрілки, що символізують синтаксичні та анафорічні зв’язки між словоформами (або знаками пунктуації), при чому відносно стрілок першого типу (синтаксичних) КСС речення виступає деревом. Ті одиниці або сполучення одиниць, які семантично не значимі і при перекладі не повинні отримувати самостійних еквівалентів, заключаються в КСС в кутові дужки.

Множина вершин КСС повинна бути ізоморфна множині словоформ та знаків пунктуації, що є в реченні. Винятки допускаються лише в двох випадках: 1) якщо в даному реченні є фразеологічні обороти, кожному з них ставиться у відповідність одна вершина, незалежно від того, скільки словоформ входить до складу даного обороту; співставлений цій вершині порядковий номер являє собою перелік номерів всіх вхідних словоформ; 2) якщо речення містить еліптичні конструкції, що порушують вимоги зв’язності синтаксичного дерева, вони в процесі побудови КСС перетворюються в повні структури, і в КСС можуть з’являтися ГМП деяких додаткових словоформ, що відсутні у вхідному тексті; вершини, що містять такі ГМП, маркуються порядковими номерами особливого виду (“фіктивними”).

Синтаксичні зв’язки, які встановлюються в КСС між ГМП словоформ та знаків пунктуації, являють собою глибинно-синтаксичні відношення. Вони можуть бути трьох основних видів:

- зв’язки сильного керування (актантні);

- зв’язки слабого керування (означальні);

- координативні або сурядні зв’язки.

Зв’язки сильного керування – це зв’язки між предикатами та їх актантами. Вони позначаються стрілками, що йдуть від предиката до актанта і несуть цифрові індекси. Індекс являє собою номер, під яким актантна валентність предикату, що реалізується даним зв’язком, записана в моделі керування, вказаної для цього предикату в словнику або в граматиці.

Зв’язки слабого керування – це зв’язки, означальні в самому широкому смислі. Вони відображаються стрілками з індексом m (modifying), і йдуть від значуваного слова до означення. На відміну від зв’язків сильного керування вони реалізують валентності не керуючого, а керованого слова.


????????????? ??????? ??????? ????? ??????? ??? ???? ?????? ?????? ?? ???????? ??????????? ??? ?????? ??????????, ?? ??? ????? ????????? ??????????. ???? ?????????? ??????????? ????? ?????????? ??? ????? ?????????? ? ?????????????? ????????? ? ???????? c (co-ordinate), ?? ?????????? ?? ????????? ??????????. ??????? ??? ??? ??????????? ?? ?????? ?????? ???????? ????? ?????????? ???????? ???????? ?????????, ?? ???????? ????? ??????????? ?????? ??????????. ???????:

?????????? ??????? ? ?? ???????, ?? ?????????????? ??? ??????? ? ????????????? ??????????. ?? ?????????? ??????? ?? ??????????? ?? ?????????, ??? ???????? ? ?????????? ????????? ?????? ???????????? ????????. ???? ?????????????? ??????????? ???????, ???????????? ??? ????? ?? ???? ?????????. ???????:

Врахування в КСС поверхових властивостей тексту забезпечується тим, що в ній, згідно з її визначенням, зберігаються, за винятком складових компонентів фразем (які при необхідності легко відновити по словниковим статтям самих цих фразем), всі одиниці і характеристики ГМП тексту (навіть до відомостей про порядок слів) – тобто, всі елементи тексту з точністю до явищ додаткової дистрибуції і вільного варьювання на морфологічному рівні. В КСС речення не опускаються прийменники, сполучники, частки, морфологічні характеристики, знаки пунктуації та інші одиниці, навіть якщо їх роль в даному реченні зводиться в основному до того, щоб слугувати показниками тих чи інших синтаксичних зв’язків. На відміну і від поверхових, і від глибинних синтаксичних структур моделі “Смисл-Текст”, в КСС такі одиниці не заміняються символами відповідних синтаксичних відносин, а лише доповнюються ними.

Що стосується “семантичності” КСС, то ця її властивість проявляється вже в тому, що семантично однозначному реченню співставляється в загальному випадку рівно одна КСС.

Послідовне включення в КСС всієї можливої поверхової інформації також сприяє її “семантичності”, відповідаючи вимозі максимально повного і дифіренційованого відображення в КСС значущих елементів тексту. Це пов’язано в першу чергу з тим, що мовні феномени, як правило, поліфункціональні і заздалегідь важко передбачити, яка з їх функцій буде головною в тому чи іншому тексті. Збереження відомостей про поверхневі вирази одиниць, що відносяться до смислової структури тексту, є надійною гарантією проти непередбачених втрат інформації у випадках, коли знайдені при аналізі поверхневі явища не тільки служать засобом оформлення виявлених глибинних одиниць, але й мають якийсь свій додатковий зміст.

Важливе значення в процесі власне перекладу має і можливість безпосереднього врахування порядку слів. В системі АРАП діє таке правило: при відсутності в КСС вхідного англійського речення додаткових показників комунікативної організації (наприклад, артиклі) для всіх словоформ, місце яких в лінійному представленні речення не визначається однозначно їх місцем в його синтаксичній структурі, порядкові номера цих словоформ, що вказані в співставлених їх вузлам синтаксичного дерева, в процесі заміни англійських одиниць їх перекладними еквівалентами зберігаються тими ж; при наявності в вхідній КСС артиклів та інших одиниць, в ролі перекладних еквівалентів яких виступають при перекладі на російську мову правила змін порядку слів, порядкові номера словоформ змінюються за відповідними правилами.

Проте найбільше узгодженість КСС з смисловою структурою тексту виявляється у характері використовуємих в ній синтаксичних зв’язків. Такі зв’язки являють собою глибинно-синтаксичні зв’язки. Сутність застосування саме глибинно-синтаксичних відношень, а не поверхневих полягає в тому, що ці зв’язки розглядаються як значимі елементи тексту, які задають смислові відношення між словоформами та іншими сегментними одиницями тексту. Основний принцип, якому повинна задовільняти КСС речення: всі синтаксичні зв’язки між словоформами, що відображаються в КСС повинні бути семантично обгрунтованими.

В рамках системи АРАП принцип семантичної обгрунтованості синтаксичних зв’язків конкретизується у вигляді такої вимоги: всі синтаксичні зв’язки, що встановлюються в КСС довільної реальної фрази, повинні реалізувати які-небудь семантико-синтаксичні валентності наявних у фразі лексичних або морфологічних одиниць. Самі ж ці валентності, в свою чергу повинні безпосередньо співвідноситися з тлумаченнями відповідних одиниць, і при їх виявленні повинна залучатися семантична інформація.

В системі АРАП залучається два важливих типа семантичної інформації: 1) семантичні описи, або тлумачення, значимих лексичних, морфологічинх і пунктуаційних одиниць; 2) відомості про семантичне сполучення цих одиниць одна з одною.

Тлумачення використовуються двух типів: словникові і контекстні. Словникове тлумачення може бути приписано будь-якій одиниці, що включена в словник, і задає ту частину її смислу, яка повністю або частково зберігається в різних випадках реалізації цієї одиниці в тексті. Контекстуальне тлумачення характеризує словоформу і являє собою той фрагмент семантичного запису тексту, який відповідає данній словоформі в даному конкретному її використання, визначаючи можливості здійснення з нею тих чи інших семантичних операцій. Контекстуальні тлумачення будуються з словникових одиниць, що утворюють ГМП цих словоформ, з урахуванням наявного лексико-синтаксичного контексту та можливих в цьому контексті семантичних явищ.

Відомості про сполучення в системі АРАП носять характер семантичних вимог. З їх допомогою можна досить повно охарактеризувати всі найбільш суттєві аспекти смислової структури тексту і задати всі основні семантичні операції над цим текстом, які можуть знадобитися в процесі перекладу.

Для формального запису використовуємих при цьому семантичних відомостей розроблена спеціальна символічна мова, яку можна реалізувати на ЕОМ. Вона заснована на використанні біля 100 “семантичних елементів” – символів, що позначають одиниці смислу. Семантичні елементи можуть з’єднуватися за певними правилами, утворюючи семантичні формули - семантичні дерева залежностей, які завдяки використанню формальних записів, зокрема, дужкового запису, можуть записуватися лінійно. На множині семантичних формул визначений ряд бінарних відношень, що моделюють смислові парадигматичні відношення в лексиці. В результаті в цих термінах можна записувати як словникові та контекстуальні тлумачення будь-яких одиниць, так і родо-видові лексико-семантичні класи, в які ці одиниці входять, а також семантичні інтерпретації їх синтаксичних валентностей і утворювані валентностні лексико-семантичні класи.

Ще однією важливою властивістю даного апарату є можливість спростити співвідношення між синтаксичним і семантичним представленням тексту у порівнянні з тим, як трактується це співвідношення в більшості розробок за моделлю “Смисл-Текст”. В зв’язку з тим, що структура семантичних формул зберігає основні властивості дерева залежностей, перехід від КСС тексту до його семантичного запису зводиться до простої заміни всіх слів і значимих морфологічних і пунктуаційних одиниць, наявних в КСС, їх контекстуальними тлумаченнями.

Прийнятий в системі АРАП підхід до опису синтаксису і семантики в їх взаємодії відповідає тим принципам, які закладені у формальну модель процесу перекладу, що є теоретичною базою цієї системи.

Алгоритм синтаксичного аналізу мовних текстів

Алгоритм, що буде тут розглядатися, являє собою частину більш складної системи, яка призначена для автоматичного синтаксичного аналізу текста. Під синтаксичним аналізом розуміється визначення смислових зв’язків між об’єктами тексту, тобто між словами в межах простих речень і між простими реченнями в складі складних.

Вся система в цілому складається, окрім алгоритму синтаксичного аналізу і деяких допоміжних алгоритмів (зокрема технічного характеру), з алгоритму морфологічного аналізу. Морфологічним аналізом називається обробка окремих словоформ, в результаті якої кожній словоформі ставиться у відповідність її інформація – характеристика, що відображає ті властивості словоформи, які необхідні для наступного синтаксичного аналізу. До початку синтаксичного аналізу увесь текст представляється у вигляді послідовності інформацій до словоформ, так що алгоритм синтаксичного аналізу має справу не з словоформами, а лише з відповідними інформаціями.


??? ????????????? ??????????? ????????????? ???????, ????? ??? ???????????? ???????? ??? ??????? ? ??? ?????????, ???????????????? 31 ?????????? ?????????????? ????????? (???). ֳ ?????????? ???????; ???? ???????????????, ?????????????? ? ???????????????. ???? ? ?????? ?????????? ?? ?????????? ???????? (??????????), ????? ? ???????? (??????). ? ???????? ??????? ??? ????? ??????? ???? ?????????, ???? ???????? (???? ????????????? ?? ????????? ???????); ? ????????? ??????? ??????? ???? ????????? ??? ???????, ???? ?????????. ????? ????? ??????? ???? ???? ?????? ???????????, ??? ???? ???? ??????? ???????? ??????; ????? ??????? ???? ???? ???? ???????????? (??????????? ??????? ?????: ?????? ??????????? ? ???????, ? ?????? ??????????? ? ????? ? ????? ???????), ? ????? ??????? ???????? ??????. ??? ?????????????? ???????????? ?????????, ?? ?????????? ??? ??????????? ?? ???????. ?????????:

Можна сказати, що синтаксичний аналіз полягає в тому, щоб певним чином розставити в тексті нумеровані стрілки.

К-во Просмотров: 203
Бесплатно скачать Реферат: Синтаксичний аналіз у системах автоматичного перекладу концепції та алгоритми