Реферат: Синтаксичний аналіз у системах автоматичного перекладу концепції та алгоритми
31. Зіставлюване (чем дальше продвигаемся, тем яснее видим).
В процесі аналізу за допомогою певної послідовності операцій текст розбивається на певні частини, які ототожнюються з одиницями аналізу (в даній роботі це синтагми та інши змістовні сполучення); одиниці аналізу зібрані в особливому списку, де до них приписані вказівки, які необхідно виконати, щоб фіксувати (зображати) знайдені зв’язки (в даній роботі це вказівки про постановку нумерованих стрілок).
В тексті, що аналізується, розглядаються три типи відрізків: гіпотетична словоформа (вхідна) – послідовність літер між двума проміжками; знаки пунктуації також вважаються вхідними словоформами; гіпотетичний сегмент – послідовність словоформ між двума знаками пунктуації або сполучниками, перед якими немає коми; гіпотетична фраза – послідовність сегментів між двома крапками або іншими тотожніми знаками. В результаті роботи алгоритму ці гіпотетичні (вхідні) об’єкти перетворюються на кінцеві, або приведені: приведена словоформа , приведений сегмент , приведена фраза . Приведена словоформа – це загальна назва для всіх лексичних одиниць. Приведеними синтагмами називаються вирази з повною або частковою предикативністю, тобто прості речення, дієприслівникові і обособлювані означальні (зокрема прислівникові) звороти. Приведена фраза є аналогом самостійного речення – простого або складного, але не того, що є частиною іншого речення. Приведена фраза – це максимальний відрізок тексту, в межах якого враховуються синтаксичні зв’язки. Приклад:
. (1) Н (2)| . (3)И (4)| . (5) Голубков (6) исследовал (7) еще (8) двадцать (9) шесть (10) видов (11) ||| , (12) так (13) как (14) его (15) первый (16) ||| и (17) второй (18) опыты (19) дали (20) результаты (21) ||| , (22) представленные (23) на (24) рис (25)| . (26) 6 (27) ||| |.
Тут 27 гіпотетичних словоформ (пронумеровані), 4 гіпотетичних сегмента (відокремлені |||), 4 гіпотетичних фрази (відокремлені |), 17 приведених словоформ (підкреслені), 3 приведених сегмента (1 – до так как , 2 – до представленн ые , 3 – до кі?