Языкознание, филология / Статья: «Философия» машинного перевода

Статья: «Философия» машинного перевода

Философия – способность отдать самому себе отчет в очевидности (Мераб Мамардашвили)

В данной статье мы продолжаем обобщать и интерпретировать материал, полученный в ходе исследовательской работы, посвященной проблеме обучения переводу студентов технического вуза, в частности и контрастивно по отношению к этому виду речевой деятельности у студентов языкового вуза [1-11]. Исследование было начато в 2001 году и проводилось на базе Московского государственного строительного университета. Текущие результаты и свои соображения по названной проблеме мы уже излагали в ряде статей [16 – 19]. В настоящий момент стало возможным высказать мнение, связанное с эффективностью и перспективностью использования машинного перевода в практике преподавания в техническом вузе, а именно: оценить в целом “философию” машинного перевода с позиций сегодняшнего дня, понять то, как студент технического вуза воспринимает компьютерную помощь в процессе перевода учебных текстов, каковыми, наконец, могут быть эффективные методические основы обучения переводу как виду речевой деятельности студентов неязыковых вузов.

Лингвистические программы, обрабатывающие произвольный текст, традиционно считаются вотчиной искусственного интеллекта.

Многие годы обработкой текста занималась “высокая наука”, и результаты работы не были видны обычным пользователям. Пожалуй, первыми коммерческими системами искусственного интеллекта стали электронные переводчики.

Первые опыты по машинному переводу начались в 50-х годах, но уже к середине 60-х стало ясно, что создать хорошую систему перевода очень сложно. Надеждам тех лет не суждено было сбыться.

Поиски новых путей продолжаются, но готовых рецептов нет. У программистов нет математической модели перевода, ведь пока никто не сумел подробно описать, как переводит человек. Если попробовать описать “алгоритм” перевода, то можно выделить три основных подхода: переводчики научно-технической литературы стараются разобраться во всех подробностях, они пропускают текст через себя, иногда даже находят ошибки в первоисточнике – и только потом излагают материал на родном языке с минимальным искажением смысла. Переводчики художественной литературы стараются проникнуться духом произведения, почувствовать характер персонажа, уловить оттенки. Хороший переводчик фактически создает новое художественное произведение, и зачастую оно сильно отличается от оригинала. Но все это касается неспешного, домашнего перевода. Совсем по-другому работают переводчикисинхронисты – у них не бывает времени разобраться во всех подробностях и подобрать самый удачный вариант перевода, они переводят штампами.

Как показало знакомство с приемами работы преподавателей языковых кафедр технического вуза (речь идет о МГСУ), то повсеместное распространен “миф”, излагаемый студентам первого курса: как один опытный переводчик научно-технической литературы рассказывал преподавателю, что всегда “пропускал научный текст через себя” – воссоздавал общую картину в голове, при этом зачастую исправлял ошибки, а потом переносил информацию на бумагу, но уже на родном языке. Анализируя этот миф, хочется сказать следующее – попытка восстановления знаний по тексту всегда является некорректной процедурой. На самом деле в тексте знаний нет и не может быть, а есть только информация. Всякий, кто в своей жизни сдавал экзамены (а эта отсылка весьма убедительно «ФИЛОСОФИЯ» МАШИННОГО ПЕРЕВОДА коммуникация”, 2005, № 2 89 действует на студентов), сталкивался с тем фактом, что информация и знания – разные вещи, и ощущал, насколько мучительным бывает процесс трансформации. Из этого следует совершенно иная “философия” машинного (компьютерного) перевода.

Если бы в тексте были знания, то они не могли бы меняться в зависимости от того, кто именно читает текст. Люди, обладающие различным опытом, при чтении одного и того же текста получают разное количество знаний. В тексте нет смысла, а есть код, запускающий восстановление смысла. Превращение знаний в текст на самом деле есть процесс вырожденный, происходящий с потерей размерности, с потерей смысла. Естественно, он необратим – знания при восстановлении их из текста должны создаваться заново. Компьютеры не в состоянии это делать, потому что у них нет подобного механизма создания смысла. Создание знаний – это некоторый имманентный механизм мозга вообще, и не факт, что его можно будет повторить в компьютерном представлении. Компьютер мыслить не умеет и, скорее всего, не сумеет никогда, поэтому совершенно непонятно, каким образом его можно научить осмысливать тексты. Поскольку он не может породить из текста нечто более размерное, чем сам текст, то единственный путь компьютерного перевода – это прямой перенос с одного языка на другой, минуя человеческую голову. Возможно, в середине этого пути и возникает нечто большее, чем сам текст, например огромное количество омонимов и синонимов, с которыми надо что-то делать. Их потом можно привести к линейному тексту на другом языке, но сравнивать это с тем, что происходит в мозгу человека, абсолютно некорректно. Единственный способ машинной обработки текста – распознавание в нем так называемых кодов смысла, поэтому машинный перевод – это такая же система распознавания, как сканировщик, распознаватель голоса и т.д. Текст должен быть распознан, и выработана реакция, близкая к человеческой. При этом имитировать человека – направление тупиковое. Ведь мы до сих пор имеем очень поверхностное представление о том, как человек переводит. До сих пор не существует модели гипотезы о том, как человек думает, понимает, извлекает смысл. Даже самого определения “смысла” – общепринятого – нет. Оно еще до сих пор не сформулировано, хотя разработкам по искусственному интеллекту уже более 50 лет. Одна из наиболее сильных групп машинного перевода в России – это лаборатория Ю.Д. Апресяна: более двадцати лет там ведутся работы над системой, осуществляющей не только синтаксический разбор, но и семантический. В модели используется теория специальных лексических функций в смысле Мельчука-Жолковского, т.н. модель “смыслтекст”. По этой модели – у каждого члена предложения своя роль, и если эти роли распознать, то можно получить запись для каждого слова, в каких лексических функциях оно может участвовать, и тогда достаточно распознать лексическую функцию на одном языке и применить такую же на другом. В этой модели “промежуточным языком” является язык лексических функций, это как бы обобщенный общечеловеческий язык. Представитель любой нации знает, что одним предметом можно произвести какое-то действие по отношению к другому предмету.

Однако при алгоритмировании этой модели возникают очень большие сложности. Ведь надо строить синтаксическое дерево и потом “на лету” перестраивать его, например, с русского на английский. Это совершенно фантастический по своей сложности алгоритм, который в принципе не может быть отлажен. Он работает как черный ящик, программисты теряются и не понимают, почему он ведет себя так, а не иначе.

Очень многие разработки, широко объявленные в сфере искусственного интеллекта, доказали свою бесперспективность. Но это не значит, что задача машинного перевода в принципе не решаема. Не надо имитировать работу человеческого мозга, ведь каждый человек переводит по-разному. Мы запоминаем отдельные лексические шаблоны и т. д., и большинство людей переводит шаблонами. Это и есть, очевидно, то, что может лечь в основу подготовки научнотехнического переводчика – в первую очередь практика комментария и редактирования “шаблонов по специальности”. В практике работы со студентами возможно использование пары параллельных текстов, в которых вся основная работа по переводу уже проделана человеком. Предположим, что у нас есть два языковых пространства, а перевод – это некоторое преобразование одного в другое. Мы смешиваем эти языковые пространства точками параллельных текстов, параллельных предложений и делаем предположение, что это преобразование непрерывно. Тогда мы можем исходить из предположения, что в небольшой окрестности пары параллельных текстов малая модификация входного предложения отражается в малой модификации выходного предложения. Другими словами, если входное предложение чуть-чуть отличается от эталонного, то, немного подкорректировав выходное, мы получим более-менее адекватный перевод. Мы распознаем близкий фрагмент такого пространства в исходном тексте и подбираем ему эквивалент, а основную работу человека как бы уже проделал, мы только подгоняем изменения. Нерешаемую задачу повторения процесса, происходящего в голове человека, мы вообще удаляем и экономим большие силы на разработке.

Все это оказывается, к сожалению, верно, пока мы имеем дело с небольшими модификациями. Но что следует считать большой деформацией, а что малой модификацией? На самом деле для величины деформации можно ввести метрику на множество слов и как бы взвешивать, близко они находятся друг к другу в обычном языке или нет. Для того чтобы определить величину деформации, в системе следует использовать тезаурус – тезаурус строительного дела, например. У нас такого тезауруса для машинного перевода пока нет. Возможен и иной путь: накопить кластеры слов, близких друг другу, путем сбора статистики на большом количестве специальных (профильных) текстов, то есть выбрать отношения между словами не из тезаурусов, не так называемые прагматические отношения, а просто статистические. Тогда мы сможем самое главное препятствие – омонимию – отсечь сразу. Теперь эти слова можно легко подставить в шаблоны перевода, полученные из параллельных текстов.

Вообще говоря, предлагаемый нами подход очень старый, по-английски это называется транслейшн мемори. В частности, система с похожими принципами разрабатывалась много лет в ВИНИТИ. Возможно, мы ничего принципиально нового не придумали, но дело в том, что поменялись “условия игры” – компьютеры сейчас позволяют хранить данные практически любого размера, поэтому нет необходимости все идеи заталкивать в алгоритмы. Можно так сформулировать некий общий принцип прикладной лингвистики – поменьше лингвистики! Если можно в словаре системы перечислить все слова, то не нужно описывать их категории. Если можно эти слова перечислить вместе со словоформами, то не нужна машинная морфология. Если можно словосочетания перечислить, то не нужно исчисление разных типов словосочетаний и их алгоритмическое определение и т. д. Не нужно писать алгоритм, если можно что-то сделать проще. Понятно, что если бы мы запихнули в машину все варианты текстов с переводами, то она всегда бы переводила правильно и хорошо. Но это невозможно. Вопрос в том, насколько плотно мы могли бы заполнить пространство возможных предложений языка с помощью параллельных текстов. Алгоритмический перевод идет от слов ко всей структуре предложения, строятся “пучки” связей вокруг слов, и из них пытаются собрать предложение. Возможен путь “наоборот”: можно взять большое предложение, и если оно есть в базе, мы его так и переведем. Если предложения нет, то мы попробуем построить оптимальное покрытие его словосочетаниями. Оптимальное в том смысле, что чем длиннее словосочетания и чем меньше их, тем лучше. Потом выравниваем предложения грамматически. И только в последнюю очередь мы применим дословный перевод с последующим грамматическим выравниванием.

Это, безусловно, отдаленная перспектива. Сегодня студенты технических вузов активно пользуются имеющимися программными продуктами, для того чтобы выполнить задание по переводу специальных текстов, которые входят в цикл обучения иностранному языку. Обращает на себя внимание тот факт, что перевод представлен в программах по иностранному языку для студентов неязыковых специальностей в виде неявного (неявленного) вида речевой деятельности, в связи с чем он и не идентифицируется студентом как отдельный, особый, обособленный вид владения языком, а имманентно входит в состав чтения. Федеральный компонент Государственного образовательного стандарта высшего профессионального образования определяет в составе обязательного минимума содержания курс научно-технического перевода, предъявляя требование переводить тексты по специальности со словарем. На практике конкретные программы, в том числе и авторские, в содержание обучения включают только владение ознакомительным чтением и изучающим чтением на первом и втором уровне подготовки специалиста. А на третьем уровне мы сталкиваемся с формулировкой: “… зрелое владение всеми видами чтения литературы разных функциональных стилей и жанров” [12-14]. Руководствуясь подобными формулировками, вряд ли можно успешно решать задачи обучению переводу. На практике мы сталкиваемся с обучением системе и структуре иностранного языка – этим и только этим по сути ограничивается подготовка к тому этапу, на котором студенту предлагается осуществить самостоятельно перевод научно-технической статьи по специальности. Приведем несколько примеров из рекомендаций по организации реального учебного процесса в неязыковом вузе.

Необходимость минимизации и оптимизации учебного материала обусловливается тем, что авторский научный текст сохраняет признаки и особенности индивидуального стиля. Наличие в научных текстах образных выражений, отступающих от нейтрального стиля научной речи, затрудняет их использование в учебных целях… Моделированный текст – это текст, из которого на строго научной основе изъято то, что не может быть скопировано, заучено и употреблено иностранным учащимся… Понятно. Что при целенаправленном обучении иностранным языкам важную роль играет обучение терминологии как обозначение конкретных специальных предметов и явлений, составляющих объект изучения данной отрасли знания. При этом в задачу преподавателя иностранного языка не входит разъяснение студентам содержания термина их специальности.

Эта задача не может быть сведена также к тому, чтобы дать эквиваленты на соответствующем иностранном языке… При обучении языку для специальных целей большое место занимают и проблемы, связанные с преподавание грамматики. При этом исходной является установка на активную и пассивную формы владения иностранным языком… [20].

Не приходится удивляться, что студент технического вуза, получивший подобную подготовку, вынужден уже в силу этого одного обращаться к иным источникам информации, что он успешно делает, будучи студентом именно технического вуза. Любой нормальный студент обращается к автоматическим системам перевода.

С нашей точки зрения, актуальным становится не только и не столько преподавание иностранного языка как системно-структурного образования или когнитивно-коммуникативного феномена, что само по себе важно и нужно, а скорее преподавание редактирования и комментирования переводных текстов, полученных, в том числе, в ходе использования компьютерных систем перевода.

В этой связи конечно же интересно, как студенты оценивают пригодность тех или иных программ для практических нужд. Наша задача состояла в том, чтобы протестировать наиболее распространенные в студенческой среде автоматические переводчики: в студенческой – имеется в виду студенты неязыковых, прежде всего технических, вузов; автоматические переводчики – в качестве “помощника” для выполнения практических переводов.

Напомним, что первые программы машинного перевода появились на нашем отечественном легальном рынке в начале 90х. Они выдавали русский подстрочник, позволявший понять общий смысл большинства английский, а затем немецких, французских и итальянских документов. Конкретная причина, стимулировавшая их появление, заключалась в хлынувшем потоке иностранных товаром, которым срочно понадобилось переводить документацию. Именно для этого – перевода большого простого текста по узкой тематике – и были первоначально предназначены эти программы. И они действительно помогали, но в основном переводчикампрофессионалам, спасая их от рутинной работы. И хотя вслед за дорогими и профессиональными вариантами автоматических переводчиков быстро появились облегченные “персональные” братья, все равно основным их назначением была помощь тем, кто хоть немного, но все же знает язык. Однако постепенно ситуация менялась и к концу 90х в России возникла потребность в переводчиках для широкого круга домашних пользователей. Дело в том, что уровень владения иностранным языком в России продолжает оставаться очень низким, как это ни неприятно констатировать. Причем основную массу “испуганных” составляют именно те студенты технических вузов, которые окончили среднюю общеобразовательную школу, и практически не знают иностранный язык. Естественно, что автоматические переводчики призваны были исправить такое положение. Они его по мере возможности сейчас и исправляют. По опросам, этими программами пользуются 90% студентов Московского государственного строительного университета. Оказалось, что при оценке той или иной программы студенты пользуются следующими критериями:

– смысл передан точно, гладкий текст, практически не нуждающийся в редактировании; все слова переведены, перевод без существенных ошибок;

– общий смысл текста передан правильно, допустимы 2-3 мелких замечания – неудачный выбор синонима, морфологические ошибки; могут быть не переведены специфические термины или имена собственные; нуждается в небольшой редакции, но грубых ошибок нет;

– смысл фразы понять можно, слова в предложении плохо связаны, но разобраться можно; нуждается в значительном редактировании, фразу приходится заново конструировать из переведенных слов; встречаются грубые ошибки – неправильно распознаны устойчивые словосочетания, омонимы, неправильно разобраны сложные конструкции, например, перепутаны объекты с субъектами; много мелких ошибок – от 4 до 6 в одном предложении; несколько второстепенных слов не переведены;

– понять смысл очень трудно или практически невозможно – возможно различное толкование фразы; несколько грубых ошибок; не переведены ключевые слова; можно понять только отдельные фрагменты фразы, при правке приходится сверяться с первоисточником и без знания языка отредактировать фразу невозможно; – смысл понять не удается; ключевые фразы остаются непереведенными, на попытку расшифровать перевод уходит больше времени и сил, чем на перевод “с нуля”; к счастью, такое встречается не часто; в нашем случае такую оценку получили фразы, содержащие игру слов и сложные синтаксические конструкции, но надо признать, что такие тексты могут иногда поставить в тупик и профессионального переводчика.

Поскольку мы ориентировались на студентов технического вуза, которые используют онлайновые переводчики для решения задачи подготовки к занятиям, то мы решили обратиться к онлайновым и персональным переводчикам. Таким образом за кадром остались “большие” и дорогие пакеты типа “ПРОМТ” и “Профессиональный Сократ”. Не говоря уже о всевозможных серверных системах стоимостью в сотни долларов, предназначенных для работы под управлением Windows NT Server или коммерческих UNIX. Мы специально не стали сравнение с западными системами машинного перевода, такими как Systran и Globalink. Известно, что подобное тестирование недавно проводили американцы, в том числе в НАТО и госдепартаменте США, по результатам тестов Stylos опередил Systran и Globalink. Полагаем, что если американцы сами признали поражение своих продуктов, то им можно поверить. Однако стоит упомянуть, что Globalink Web Translator имеет ряд заслуживающих внимание достоинств. Например, он поддерживает популярные браузеры от Netscape, в то время как отечественные продукты работают только с Internet Explorer. Кроме того, помимо гипертекстов, Web Translator может переводить документы многих других форматов и текст в разных кодировках кириллицы.

Качество перевода с точки зрения студента технического вуза применительно к потребностям повседневной учебной практики могло оцениваться по трем позициям:

– осмысленность: можно ли вообще понять смысл предложения, полученного в результате перевода? Как много таких предложений в переведенном документе, от каких факторов зависит улучшение или ухудшение качества перевода? Определение доли предложений с искаженным смыслом или таких, которые вообще невозможно понять.

– доля слов, оставленных без перевода или переведенных неправильно. Учитывается ли в переводе омонимы оригинала? Насколько велика доля неправильно переведенных омонимов? Насколько уместно используется синонимия, не возникают ли такие ситуации, когда, например, в перевод официальных документов попадают разговорные или просторечные слова и выражения, жаргонизмы?

– морфология. Насколько связь слов в предложении переведенного текста соответствует нормам русского языка.

С этих позиций, например, “Сократ” был признан студентами как дающий более-менее приемлемое качество перевода общественнополитических текстов, беллетристики – примерно 90% случаев перевода нашего текстового фрагмента был понятен. Но он очень медленно переводил объемные документы со сложным оформлением. Подключать дополнительные словари и пополнять основной можно только в том случае, если на компьютере была установлена еще и профессиональная версия “Сократа”. Главный, на студенческий взгляд, недостаток “Сократа” состоял в том, что в переведенном тексте слова в предложениях часто не согласованы, особенно по падежам. Нередки были ошибки при определении частей речи: используются те формы, что были в тексте на исходном языке. Поэтому часто возникают конструкции типа Вы можете разработать их сами со много моделируя функции. Программа образовывала формально правильные формы слова, которые, тем не менее, отсутствуют в русском языке. Например, пронаблюдано. А все это требовало дополнительного времени для редактирования, навык которого у студентов, естественно, отсутствовал, в связи с чем итоговый перевод получался некорректным с точки зрения, помимо всего прочего, норм русского языка. С этих же позиций со студентами шло обсуждение WebView. Главное преимущество данного продукта, по мнению студентов, в том, что к нему легко подключаются дополнительные тематические словари. Их довольно много, как фирменных, так и от сторонних разработчиков. Среди последних есть, например, словарь американизмов, различных профессиональных и корпоративных жаргонов. Кроме того, WebView, в отличие от “Сократа”, позволяет дополнять словарные статьи новыми значениями. Например, слово fan в базовом словаре имеет русский эквивалент только как “вентилятор”, но можно добавить также и другие – “фэн” и “фен”. Это преимущество и было оценено студентами как совершенно неоценимое при работе со специальными текстами. Положительно оценивалась и высокая скорость перевода, что особенно за«ФИЛОСОФИЯ» МАШИННОГО ПЕРЕВОДА коммуникация”, 2005, № 2 93 метно на объемных документах со сложным оформлением. Студентами было отмечено. Что намного реже допускаются ошибки при согласовании слов в предложениях переведенного документа, что облегчает их дальнейшее редактирование. К сожалению для студентов, программа обеспечивает плохое качество перевода набольших фрагментов текста, особенно неполных предложений: WebView очень часто путает омонимы. При этом у WebView относительно малый базовый словарь, что ведет к появлению грубых ошибок в переводе, когда ключевым является неизвестное системе слово. Особенно заметен этот недостаток при переводе общественно-политических текстов, тем более, что по этой тематике отсутствуют дополнительные словари. Очень неудобна и громоздка процедура пополнения словарей. Но важно то, по мнению студентов, что WebView переводит быстрее, что особенно заметно при работе с объемными документами, и на выходе получается довольно связный текст, который обычно легче редактировать. Не стоит забывать также о большом количестве всевозмодных дополнительных словарей и легкости их подключения, что позволяет качесвтенно переводить и специальные документы.

--> ЧИТАТЬ ПОЛНОСТЬЮ <--

К-во Просмотров: 274

Бесплатно скачать Статья: «Философия» машинного перевода

>>> Скачать <<<