Литература по лингвистике и литературоведению



страница57/107
Дата14.04.2018
Размер5.81 Mb.
ТипЛитература
1   ...   53   54   55   56   57   58   59   60   ...   107

1.4. Машинный перевод


1.4.1. Машинный перевод: элементы хронологии. Начало работ по машинному переводу (МП) или автоматическому переводу (АП) относят к 50-м гг. XX в. Идея машинного перевода обязана своим происхождением чисто практическим нуждам. В начале 50-х гг. происходит информационный взрыв — существенно возрастают объемы научно-технической информации. Перевод всей научной и технологической периодики оказывается невозможным. Дополнительный импульс исследованиям в области МП дала «холодная война»: противостоящие общественно-политические системы внимательно следили за развитием научно-технического потенциала друг друга. Именно по этой причине многие первые зарубежные системы МП работают с русским языком (см. ниже).

Формальная дата начала эры машинного перевода — 1949 г. В этом году известный американский специалист по дешифровке Уоррен Уивер составил меморандум, в котором теоретически обосновал принципиальную возможность создания систем МП. Он исходил из того, что структурное сходство между языками может быть формально описано, а это является необходимым условием разработки алгоритмов для ЭВМ. Меморандум был разослан двумстам специалистам в области лингвистики, дешифровки и теории программирования. С этого времени в США появляются коллективы разработчиков МП (в Массачусетском технологическом институте — MIT, в Калифорнийском университете, в Национальном бюро стандартов в Лос-Анджелесе, в Техасском университете). Первая международная конференция по МП организуется в 1952 г. в MIT. Наконец, в 1954 г. проводится известный Джорджтаунский эксперимент, в процессе которого осуществляется перевод с русского языка на английский. Хотя программа работала со словарем всего лишь в 250 слов, успех этого эксперимента стимулировал дальнейшие исследования в области МП.

В СССР первый эксперимент по МП прошел в 1955 г.: был осуществлен перевод на русский язык текстов по прикладной математике. К этому времени относится начало работ по МП в Институте прикладной математики АН СССР под руководством О. С. Кулагиной и И. А. Мельчука. Коллектив разработчиков создал три экспериментальные системы МП — с французского языка на русский (ФР-1), с английского на русский и с французского на русский (в новом варианте) [Кулагина 1979]. В 1959 г. открывается Лаборатория машинного перевода в МГПИ-ИЯ им. М. Тореза (ныне Московский государственный лингвистический университет), в которой возникли идеи, во многом предвосхитившие дальнейшее развитие теории МП и в какой-то степени систем искусственного интеллекта — концепция языка-посредника, понятие модели управления слова, роль словаря в МП и т. д. Серия публикаций этой лаборатории под общим названием «МП и ПЛ» (Машинный перевод и прикладная лингвистика), оказала существенное влияние не только на прикладную, но и на теоретическую лингвистику. Многие из этих идей нашли отражение в проекте системы англо-русского автоматического перевода (АРАП), которая, однако, не была завершена.

Изначально предполагалось, что системы МП не должны быть ограничены проблемной сферой. Иными словами, машинный перевод должен осуществляться на текстах любых типов — от научно-технических до художественных. Однако довольно быстро обнаружилось, что это невозможно. Выявились две группы причин — лингвистические и экстралингвистические. Лингвистические — сводились к тому, что для разработки систем МП недостаточно имеющихся знаний о функционировании языковой системы. Нужны фундаментальные теоретические разработки в области изучения языка, поскольку традиционной лингвистике (за очень небольшими исключениями) была чужда сама постановка задачи машинного перевода, предполагавшая создание компьютерных моделей анализа и синтеза высказываний. Кроме того, многообразие функций языка, преимущественно имплицитный характер языковой способности человека существенно затрудняли формализацию знаний о языковой системе. К экстралингвистическим причинам можно отнести осознание того факта, что процесс понимания — важнейшая составляющая естественного перевода — далеко не обеспечивается чисто лингвистическим анализом речевого сообщения. Понимание основывается на знаниях адресата, его способности делать выводы и умозаключения, кроме того оно связано с коммуникативной установкой адресата в данной ситуации общения и т. д.

Возникшее разочарование было даже формально зафиксировано в 1966 г. в докладе консультативного комитета по автоматической обработке естественных языков (ALPAC) при Национальной академии наук США. Основной упор в докладе делался на том, что ни одна из систем МП не оправдала возлагавшихся на нее надежд ни в аспекте качества перевода, ни в аспекте экономичности. По приводившимся там данным, «естественный» перевод оказывался существенно дешевле машинного. Доклад привел к свертыванию государственного финансирования проектов создания систем МП в США, что прямо повлияло на позицию государственных структур по отношению к поддержке разработок в области машинного перевода во все мире. Однако несмотря на скепсис относительно перспектив МП, многие из первых систем МП, созданных в 60-е гг., продолжали эксплуатироваться заказчиками. Большинство конечных пользователей мало интересовало качество перевода (низкое качество — один из важнейших пунктов обвинения в докладе комитета ALPAC). Для потребителей было важнее быстро в общих чертах оценить информационный поток в научной и технической периодике, а затем материал, который вызвал интерес, переводился обычным способом — с участием переводчика. Кроме того, не прекратилось финансирование исследований в сфере МП частными компаниями, заинтересованными не только в отслеживании мировых тенденций научно-технического прогресса, но и в переводе огромных объемов технической документации, требующемся при экспорте и импорте различной продукции, в том числе и высокотехнологичной.

С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к МП. В Москве в 1974 г. в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В этом же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода — АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.



1.4.2. Машинный перевод: элементы периодизации стратегий. Первые системы МП характеризуются стратегией «прямого перевода». Сущность этого подхода к построению МП заключается в том, что исходный текст на языке L1 (= «входной язык») постепенно через ряд этапов преобразуется в текст языка L2 (= «выходной язык»). Преобразования сводятся к тому, что слово (словосочетание) на входном языке заменяется на его словарный эквивалент на выходном языке. Понятно, что в системах первого поколения, использующих стратегию прямого перевода, нет необходимости моделировать функционирование языковой системы в целом. Для работы таких систем оказывается вполне достаточно правил словарных соответствий. В редких случаях проводится анализ контекста для перевода неоднословных выражений, опять-таки представленных в словаре системы. Важно иметь в виду, что стратегия прямого перевода не делает различий между пониманием (анализом) и синтезом (порождением), поскольку они фактически исключены из преобразований по правилам словарных соответствий. Прямой перевод всегда привязан к конкретной паре языков. Например, неоднозначность выражений входного языка разрешается только в той степени, в которой это оказывается необходимым для выходного языка. Стратегия прямого перевода в принципе неприменима для проектирования систем МП на более, чем один язык. По временным рамкам системы первого поколения в основном создавались в период с конца 40-х до середины 60-х гг. Один из типичных примеров системы такого типа — разбираемая ниже программа GAT.

Существенная модификация стратегии «прямого перевода» обнаруживается в системах с «трансфером» — этапом межъязыковых операций, не сводимых только к замене лексем входного языка на словарные соответствия выходного языка. Наличие этапа трансфера предполагает построение «промежуточного» или «внутреннего» представления, которое далее «приспосабливается» к структуре предложения выходного языка. В отличие от первой стратегии, в архитектуре систем МП с трансфером анализ (понимание) и синтез существуют как особые процедуры и обслуживаются различными алгоритмами. В некотором смысле системы с трансфером оказываются промежуточным звеном между стратегией прямого перевода и последующей стратегией языка-посредника (см. ниже систему TAUM).

Критика стратегии прямого перевода привела к созданию «стратегии перевода через язык-посредник» или «стратегии языка-посредника». Главная особенность этой стратегии заключаются в том, что между структурами входного языка и структурами выходного языка находится один или несколько промежуточных языков, на которые по соответствующим правилам последовательно «переписываются» выражения языка L1 l3). Анализ и синтез при использовании языка-посредника принципиально разделяются. Анализ ведется в категориях входного языка, а синтез — в категориях выходного. В качестве языка (языков)-посредников могут выступать языки представления синтаксической и семантико-синтакси-ческой структуры, чисто семантические языки, языки глубинной семантики, приближающиеся к концептуальному представлению в категориях теории знаний (фреймов, сценариев, планов). Системы машинного перевода, основанные на знаниях (knowledge-based systems), возникшие в 80-х гг., рассматриваются как часть систем искусственного интеллекта. Достаточно условно эта стратегия соответствует второму поколению систем МП с тем уточнением, что системы второго поколения используют почти исключительно синтаксические и семантико-синтаксические языки-посредники (см. ниже систему СЕТА).

Последовательное проведение идеи языка-посредника привело к возникновению стратегии «универсального семантического языка», независимого от конкретного входного и выходного языка. Преимущества такой стратегии очевидны. Однако современное состояние семантической теории не оставляет надежд на успешную реализацию этой стратегии в ближайшем будущем. Таким образом, системы МП третьего поколения остаются в настоящее время весьма отдаленной перспективой.

Как компенсация проблем, возникших со стратегией универсального семантического языка, развивается несколько промежуточных стратегий, позволяющих существенно улучшить параметры промышленных систем МП. Стратегия «сужения проблемной области» предлагает разработчикам МП ориентироваться на узкие тематические сферы текстов. Это позволяет существенно облегчить словарь системы МП и ограничиться только теми особенностями устройства языковой системы, которые реально представлены в данном подъязыке. Эта стратегия универсальна

13)Уместно вспомнить известный тезис Романа Якобсона о том, что «Наука о языке не может интерпретировать ни одного лингвистического явления без перевода его знаков в другие знаки той же системы или в знаки другой системы» [Якобсон 1985 в, с. 363].

для многих сфер прикладной лингвистики — от лексикографии до лингвистического обеспечения информационно-поисковых систем и систем искусственного интеллекта. Стратегия «ограниченного машинного перевода» позволяет включать в технологическую цепочку автоматического перевода человека — на этапе предредактирования, постредактирования или в режиме обработки текста (например, для разрешения синонимии и омонимии).

1.4.3. Машинный перевод: элементы типологии систем. Компьютерные средства перевода обычно разделяют на три больших группы: системы машинного перевода, системы человеко-машинного перевода (ЧМП) и терминологические базы/банки данных (ТБД). Системы собственно машинного перевода не исключают (даже, как правило, предполагают) участие человека на этапе предредактирования и постредактирования. В данном случае существенно, что после ввода текста в систему перевод осуществляется без вмешательства человека. Используются только алгоритмы и словари, введенные в ЭВМ.



Поделитесь с Вашими друзьями:
1   ...   53   54   55   56   57   58   59   60   ...   107


База данных защищена авторским правом ©znate.ru 2019
обратиться к администрации

    Главная страница