bannerbannerbanner
полная версияИнформационные технологии и лингвистика XXI века

А. В. Гуслякова
Информационные технологии и лингвистика XXI века

Полная версия

• MARK (в Департаменте иностранной техники ВВС США);

• GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинного перевода текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, а иногда и к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление персональных компьютеров, а с ними всё более сложных словарных, поисковых систем, ориентированных на работу с данными на естественных языках. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 70-х годов прошлого столетия. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

В настоящее время также существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания 8у81хап. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Р.Г. Пиотровского (Российский государственный педагогический университет им. Герцена, г. Санкт-Петербург).

Впрочем, мечты, с которыми российские и зарубежные ученые взялись полвека назад за задачу машинного перевода, в значительной мере остаются по-прежнему мечтами, поскольку высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода (по оценкам конца 1980-х) приблизительно до пяти раз.

Качество же перевода зависит от тематики и стиля исходного текста. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение качественного перевода, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных шуток, особенно в профессиональной среде переводчиков. Например, программа ПРОМТ переводит предложение «Му cat has given birth to four kittens, two yellow; one white and one black» на русский язык следующим образом: «Мой кот родил четырёх котят, два жёлтых цвета, одно белое и одного афроамериканца».

Профессиональная работа невозможна без надежных инструментов. Перевод и локализация[8] как область профессиональной активности в этом смысле не являются исключением. Любой переводчик сталкивается с проблемой согласованного применения терминологического глоссария в ходе длительного проекта или быстрого повторного использования ранее переведенного текста. По своей природе подобные рутинные задачи сравнительно легко (в отличие от машинного перевода) формализуются и программируются, поэтому оснащение рабочего места (локализатора) автоматизированными средствами является нормой в отрасли, постепенно трансформируясь в отраслевые стандарты.

Большинство таких средств построены на основе концепции памяти перевода (translation memory) – простой базы данных, каждая запись которой представляет собой единицу (предложение или абзац) параллельных текстов (как правило, на двух языках). Такая база данных хранит предыдущие переводы с целью их возможного повторного использования и решения задач быстрого поиска по содержимому. Несмотря на то, что программы, оснащенные памятью перевода, называются системами автоматизированного перевода (CAT, или computer-aided/ assisted translation), их не следует путать с программами машинного перевода (machine translation) – память перевода ничего не переводит сама по себе, в то время как машинный перевод основан на генерации переводов по результатам грамматического разбора исходного текста.

Как правило, запись памяти перевода состоит из двух сегментов: на исходном (source) и конечном (target) языках. Если идентичный (или похожий) сегмент на исходном языке встречается в тексте, сегмент на конечном языке будет найден в памяти перевода и предложен переводчику в качестве основы для нового перевода. Автоматически найденный текст может быть задействован как есть, отредактирован или полностью отклонен. Большинство программ используют алгоритм нечеткого соответствия (fuzzy matching), существенно улучшающий их функциональные возможности, поскольку в этом случае можно находить предложения, лишь отдаленно напоминающие искомые фразы, но тем не менее пригодные для последующего редактирования.

Преимущества от использования такого программного обеспечения поначалу могут быть неочевидны – однако по мере наполнения базы данных результаты автоматической подстановки основ для перевода будут становиться все более точными и регулярными.

Архитектура автоматизированной системы и ее функциональные возможности могут различаться. Средства поиска могут работать как с целыми сегментами, так и с отдельными словами или фразами, позволяя переводчику выполнять терминологический поиск. В систему также включают отдельную программу для работы с глоссарием, содержащим утвержденные для применения в проекте термины. Некоторые системы работают с программами машинного перевода. Основной рабочий интерфейс либо встраивается непосредственно в имеющийся текстовый процессор, такой как Word, либо представляет собой отдельный редактор. В состав системы обязательно включают фильтры для импорта-экспорта файлов различных форматов. Кроме того, многие системы, если не все, имеют средство для добавления в память перевода сегментов из, как правило, имеющихся у переводчика старых переведенных файлов.

Автоматизированный перевод (Computer-Aided Translation) – это перевод текстов на компьютере с использованием компьютерных технологий. В отличие от машинного перевода в данном случае человек осуществляет весь процесс перевода, а компьютер всего лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

Идея автоматизированного перевода появилась с момента появления компьютеров. Переводчики всегда выступали против стандартной в те годы концепции машинного перевода, на которую было направлено большинство исследований в области компьютерной лингвистики, но поддерживали использование компьютеров для помощи переводчикам. В 1960-е годы Европейское объединение угля и стали (предшественник современного Евросоюза) стало создавать терминологические базы данных под общим названием Eurodicautom. В Советском Союзе для создания баз такого рода был создан ВИНИТИ (Всероссийский институт научной и технической информации).

В современной форме идея автоматизированного перевода была развита в 1980 году в статье Мартина Кея[9], который выдвинул следующий тезис: «by taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human» (компьютер берет на себя рутинные операции и освобождает человека для операций, требующих человеческого мышления).

В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями, с системой памяти переводов (translation memory), содержащей примеры ранее переведенных текстов, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

 

Для локализации программного обеспечения часто применяются специализированные средства, например, SDL Passolo 2015, которые позволяют переводить меню и сообщения в программных ресурсах и непосредственно в откомпилированных программах, а также тестировать корректность локализации. Для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Aegisub[10], которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т. п.

При синхронном переводе использование средств автоматизированного перевода по необходимости ограничено. Одним из примеров является использование словарей, загружаемых на карманный персональный компьютер (КПК). Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области.

В узких предметных областях при большом количестве исходных текстов и устоявшейся терминологии переводчики могут использовать и машинный перевод, который может обеспечить хорошее качество перевода терминологии и устойчивых выражений в узкой области. Переводчик в этом случае осуществляет пост-редактирование полученного текста. Более половины текстов внутри Еврокомиссии (главным образом юридические тесты и текущая корреспонденция) переводится с использованием машинного перевода.

Память переводов, или накопитель переводов (translation memory) – это база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует «единице перевода» (translation unit), за которую обычно принимается одно предложение (реже – часть сложносочинённого предложения, либо абзац). Если очередное предложение исходного текста в точности совпадает с предложением, хранящимся в базе (точное соответствие, или exact match), оно может быть автоматически подставлено в перевод. Новое предложение может также слегка отличаться от хранящегося в базе (неточное соответствие, fuzzy match). Такое предложение может быть также подставлено в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы памяти переводов также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе памяти переводов данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт ТМХ (Translation Memory eXchange format), который основан на XML () и который могут порождать практически все системы памяти переводов. Благодаря этому результаты работы переводчиков можно обменивать между приложениями, то есть переводчик, работающий с программой OmegaT может использовать память переводов, созданную в Irados и наоборот.

Большинство систем памяти переводов как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов[11] (alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

На сегодняшний день наиболее популярными программными системами автоматизированного и машинного перевода с использованием памяти переводов являются: Яндекс. Перевод, Deja Vu, OmegaT, SDLX, Trados), STAR Transit NXT, Wordfast (реализована как набор макросов для MS Word), ABBYY Lingvo, Apertium, Ectaco, Google Translate, PROMT, Across.

Основными достоинствами выше перечисленных программ являются следующие.

1. Высокая скорость. В течение нескольких секунд получается перевод многостраничного текста. Это позволяет быстро понять смысл текста, а если система настроена на перевод текстов определенной тематики, требуется минимальная редакторская правка.

2. Низкая стоимость. При обращении к профессиональным переводчикам приходиться платить за каждую страницу переведенного текста, либо нанимать штатного переводчика, которому приходится платить зарплату. В случае с системой автоматизированного перевода платить деньги необходимо только один раз – при покупке программы, что впоследствии окупается в несколько раз.

3. Доступ к услуге. Немаловажный фактор, который многие критики систем автоматизированного перевода не принимают в расчет. Программа-переводчик всегда под рукой, а обращаться в переводческое бюро во многих случаях связано с дополнительными затратами времени и сил.

4. Конфиденциальность. Системе машинного перевода можно доверить любую (даже конфиденциальную) информацию. Программа-переводчик способна хранить в тайне любые тексты, которой ей доверяет переводчик.

5. Универсальность. Любой переводчик всегда имеет специализацию, т. е. переводит тексты по той теме, которой он хорошо владеет. Когда переводчик художественной литературы берется за перевод, например, технических текстов, ошибок в переводе не избежать. Система автоматизированного перевода выгодно отличается тем, что она абсолютно универсальна. Нужно только грамотно подключить специализированный словарь по соответствующей тематике. Следует учесть и еще одно преимущество подобных систем: пополнение их специализированных словарей новейшими терминами значительно опережает аналогичные словари полиграфического исполнения. В ряде случаев также рекомендуется вести свой собственный словарь новых терминов или новых значений. В этом случае переводчик гарантированно получает необходимое качество перевода.

6. Перевод информации в Интернете. В виртуальном пространстве глобальной сети наиболее ярко проявляются все преимущества систем машинного перевода. Более того, в большинстве случаев переводить информацию в Интернете, если человек сам не знает нескольких языков, можно только с помощью программ-переводчиков. Именно эта потребность обусловила огромный рост интереса к системам машинного перевода сейчас в мире. Только благодаря онлайновым системам перевода появилась возможность просматривать иностранные сайты, не затрудняясь с их переводом – быстро, удобно и конфиденциально.

8Локализация часто рассматривается как «перевод высокого уровня», но это не отражает всю важность и сложность этого процесса, а также все то, что она в себя включает. Хотя, иногда сложно провести границу между переводом и локализацией, в общем, локализация проводится в значительной степени для внетекстуальных компонентов товара или услуги. В дополнение к переводу (то есть, вопросам грамматики и орфографии, которые варьируются в зависимости от страны и места, где используется один и тот же язык), процесс локализации может включать адаптацию графического компонента, символов валют, формата дат, адресов и номеров телефона, выбор цветов многих других деталей, включая пересмотр физической структуры продукта. Все эти изменения проводятся с целью, во-первых, выявить чувствительные различия и избежать возможных конфликтов с местной культурой и населением и, во-вторых, проникнуть на местный рынок, приспосабливаясь к локальным нуждам. Например, в результате локализации веб-сайт одной и той же компании может быть адаптирован к определенной стране, или издания одной и той же книги могут различаться в зависимости от места издания.
9Martin Kay (1980). The Proper Place of Men and Machines in Language Translation. Research report CSL-80-11, Xerox Palo Alto Research Center, Palo Alto, CA. Перепечатано в 1997 году в Machine Translation 12: 3-23, 1997.
10Aegisub – кроссплатформенный редактор субтитров с открытым исходным кодом. Имеет расширенные возможности по созданию караоке. Включает в себя проверку орфографии и редактор переводов. Поддерживает в качестве субтитров SRT, ASS, SSA, SUB, XSS, PSB и форматированный TXT. Для тайминга в неё можно загрузить аудиофайлы в форматах WAV, МРЗ, OGG Vorbis, FLAC, МР4, АСЗ, ААС и МКА, видеофайлы – в форматах AVI, AVS, D2V, MKV, OGM, МР4, MPEG, MPG и VOB. Имеет возможность работы с анаморфорным видео.
11Параллельный текст – методика обучения иностранному языку путем чтения текста на изучаемом языке с параллельным переводом на родной язык. Чтобы пользоваться этим методом, необходимо только заранее знать правила чтения изучаемого языка.
Рейтинг@Mail.ru