ИИ научился хорошо переводить с китайского на английский
29.03.2018Перевод с одного языка на другой — это творческая операция. И как любое творчество, сложно алгоритмизируемое. Именно поэтому у человечества до сих пор нет “вавилонской рыбки”, которая могла бы обеспечить каждому из нас возможность понимать речь на любом языке. Даже письменный перевод всё ещё остаётся не до конца решённой задачей. С одними парами языков алгоритмы перевода справляются неплохо; работая с другими, ИИ выдаёт подчас тарабарщину вместо перевода. До последнего времени “крепким орешком” оставался китайский язык. Попытки автоматизировать перевод с китайского на английский, как правило, ничем хорошим не заканчивались.
В Microsoft , который, по утверждению компании, обеспечил принципиально иное качество перевода. По заявлению представителей компании, новый ИИ справляется с переводом новостных текстов “на уровне человека”. Не очень понятное высказывание: я — человек, но я не могу переводить с китайского на английский. Да и многие, кто немножко знают китайский и чуть лучше английский, тоже не могут. Даже среди профессиональных переводчиков есть свои “чернорабочие”, есть мастера и есть гении профессии. Так что какого уровня достиг новый ИИ, пока что неясно, но, судя по всему, он наверняка справляется с переводом лучше, чем Google Translate — иначе с чего была бы вся эта шумиха вокруг новинки от Microsoft?
В частности, созданная в Microsoft Research система машинного перевода успешно прошла тест , включающий в себя 2 тысячи предложений, взятых из профессионально переведенных новостных статей. Также в оценке участвовали внешние эксперты, владеющие обоими языками, они оценивали результаты ИИ при переводе предложений из выборке, сравнивая их с двумя профессиональными переводами.
Суть метода, использованного компанией, в том, что вместо классики — перевода так называемым “статистическим методом” — компания задействовала нейросети. Обучением системы занялись профессиональные переводчики. Одна группа переводчиков выбирала текст на китайском для машинного перевода. ИИ делал свой вариант перевода на английский, получив который, другая группа переводчиков вручную переводила его на китайский, возвращая получившийся текст первой группе, что позволяло выявить ошибки и неточности в этом “испорченном телефоне”. Этот подход назвали двойным обучением.
Планируется применить его и к другим языковым парам. Ожидается, что результаты будут как минимум не хуже, чем при работе с китайским.
В ходе исследования применялись ещё несколько техник — одна напоминала способ, каким обычно пользуется человек, постепенно дорабатывающий, например, текст важного письма. Исследователи обучили систему раз за разом переводить одно и то же предложение, добиваясь всё более высоких оценок за перевод.
Техника “совместного обучения” использовалась для постепенной “прокачки” переводов с английского на китайский и с китайского на английский. Действуя этим методом, система перевода с английского на китайский переводила новые для неё английские предложения на китайский, формируя так называемые пары предложений. Затем результат использовался для наращивания обучающего набора данных, который применялся для обратного перевода — с китайского на английский. Затем процедура повторялась в обратном направлении. Постепенно результаты перевода становились всё лучше.
Перевод столь сложен для автоматизации, поскольку здесь не существует “верного” варианта — как правило, есть несколько способов перевести один и тот же фрагмент текста. Люди могут выбирать разные слова для того, чтобы выразить одно и то же. Именно поэтому исследователи Microsoft не утверждают, что создали систему идеального перевода, и даже что смогут создать её в ближайшем будущем. Но они уверены в том, что смогут добиваться всё более качественного перевода.
В источнике можно найти набор ссылок по теме, если она вас заинтересовала.












