Насколько ChatGPT хорош в машинном переводе?
ChatGPT– это чат-бот, разработанный OpenAI. Он основан на instructGPT: он был обучен следовать инструкциям или так называемым “подсказкам”, написанным пользователями, и отвечать на них.
ChatGPT демонстрирует впечатляющие способности в предоставлении последовательных и релевантных подробных ответов на запросы пользователей. По-видимому, он особенно хорошо справляется с задачами обработки естественного языка (NLP), такими как обобщение, ответы на вопросы, генерация языка и машинный перевод.
Однако, поскольку это совсем свежая система, ChatGPT ещё предстоит должным образом оценить с научной точки зрения, чтобы сравнить её производительность NLP с предыдущими моделями.
В этом направлении Tencent AI опубликовал предварительное исследование способности ChatGPT переводить:
Является ли ChatGPT хорошим переводчиком? Предварительное исследование, проведённое Вэньсян Цзяо, Вэньсюань Ван, Чжэнь-цзе Хуан, Син Ван и Чжаопэн Ту (Tencent AI)
Основная цель этого исследования – оценить ChatGPT для перевода текста на английский, поскольку большая часть его обучающих данных на английском языке. Примечание: Действительно, ChatGPT основан на instructGPT, как упоминалось в сообщении в блоге. InstructGPT – это точно настроенный GPT-3 с подсказками “в основном на английском языке” (Ouyang et al., 2022).
Они также оценивают перевод на другие языки, которые гораздо менее представлены в его обучающих данных, такие как японский и румынский, и, следовательно, более сложные.
В этой статье я проанализирую и объясню их основные выводы, особенно для того, чтобы подчеркнуть, что, по-видимому, работает, а что нет при использовании ChatGPT в качестве системы машинного перевода.
Корректность подсказок
Когда имеешь дело с генеративными языковыми моделями, одним из наиболее важных шагов является построение корректных подсказок.
Нам нужно найти подходящую формулировку на естественном языке для запроса модели с учётом нашей целевой задачи. Здесь мы хотим, чтобы ChatGPT переводил предложение с исходного языка, обозначаемого “[SRC]”, на целевой язык, обозначаемый “[TGT]”.
Чтобы найти подходящие подсказки, Tencent AI напрямую попросил ChatGPT выдать 10 подсказок:
Предоставьте десять кратких подсказок или шаблонов, которые помогут вам с переводом.
ChatGPT вывел, как и ожидалось, 10 подсказок, но с небольшими различиями между ними. В конце концов они решают попробовать только следующие 3, которые являются наиболее репрезентативными из 10 запросов, первоначально возвращённых ChatGPT:
- Подсказка 1: Переведите эти предложения с [SRC] на [TGT]:
- Подсказка 2: Ответьте без кавычек. Что означают эти предложения в [TGT]?
- Подсказка 3: Пожалуйста, предоставьте перевод [TGT] для этих предложений:
Они оценили каждую из этих подсказок в задаче перевода с китайского на английский ([SRC] = китайский, [TGT] =английский) и получили следующие результаты:
BLEU, chrF++ и TER – это 3 автоматических показателя для оценки качества машинного перевода. С BLEU и chrF++ получились более высокие баллы. С TER более низкие баллы.
Основываясь на оценках, полученных с помощью этих 3 показателей, они обнаружили, что подсказка 3 работает лучше всего. Подсказка 2 также кажется лучше, чем подсказка 1, хотя оценки chrF ++ выглядят аналогично.
Это интересно, потому что в подсказке 1 упоминается исходный язык, а в двух других – нет. Тем не менее, подсказка 1 работает недостаточно эффективно. ChatGPT не обязательно знать язык текста, который мы хотим перевести.
Это впечатляет, но в то же время противоречит интуиции. Мы могли бы ожидать, что ChatGPT будет более точным благодаря точности исходного языка в его подсказках. Для переводчиков-людей знание исходного языка имеет решающее значение.
В настоящее время нет хорошего объяснения тому, почему ChatGPT выдаёт более низкие баллы при указании исходного языка. Мы можем предположить, что ChatGPT может автоматически определять исходный язык на основе пользовательского ввода. Если это так, то предоставление исходного языка не должно оказывать никакого влияния, в отличие от негативного воздействия, наблюдаемого в результатах Tencent AI.
Сравнение ChatGPT с другими онлайн-сервисами для перевода
Теперь, когда мы нашли хорошую подсказку, мы можем сравнить ChatGPT с самыми современными системами машинного перевода.
Tencent AI выбрал следующие онлайн-системы для сравнения: Google Translate, DeepL и свою собственную онлайн-систему Tencent TranSmart.
Результаты следующие:
Три онлайн-системы работают похоже или, кажется, даже лучше, чем ChatGPT, хотя авторы не сообщают о статистически значимом тестировании, чтобы убедиться, что различия действительно значительны.
Тем не менее, я нашёл эти результаты впечатляющими. Основываясь на instructGPT, мы можем предположить, что ChatGPT в основном обучается на данных английского языка, но, похоже, способен достаточно хорошо улавливать значение китайских предложений, чтобы генерировать переводы на английский.
Если бы мы могли точно настроить ChatGPT для перевода с китайского на английский, мы определённо получили бы перевод гораздо более высокого качества.
В статье Tecent AI также сообщает об аналогичных различиях для всех направлений перевода между английским, китайским, немецким и румынским языками.
Опять же, результаты (в BLEU) впечатляют. Даже для перевода с немецкого на китайский, ChatGPT может генерировать качественный перевод. По словам BLEU, онлайн-системы остаются лучше, как и ожидалось, поскольку они обучены для выполнения этой задачи, а ChatGPT не был создан именно для этого!
Результаты с участием румынского языка совершенно другие. Например, оценка BLEU почти на 50% ниже для ChatGPT по сравнению с онлайн-системами. Эта разница, вероятно, статистически значима.
Авторы предлагают объяснение. Румынский – это язык, для которого доступно гораздо меньше ресурсов, чем для немецкого и китайского. ChatGPT, возможно, видел во время своего обучения слишком мало примеров предложений на румынском языке, чтобы точно их смоделировать.
Я бы согласился с этим предположением, но оно должно быть подтверждено большим количеством экспериментов с участием других языков с аналогичным объёмом ресурсов, таких как хорватский или польский.
Переводы специфических текстов
Они провели дальнейшие эксперименты, чтобы оценить эффективность ChatGPT при переводе текстов в определённой области (биомедицинских) и пользовательских (размещённых в социальных сетях, обычно очень нелепых с грамматическими ошибками).
Удивительно, но, по словам BLEU, производительность ChatGPT остаётся близкой к онлайн-системам для перевода биомедицинских текстов с немецкого на английский.
На ChatGPT, по-видимому, не оказывают негативного влияния очень специфические термины, используемые в биомедицинских текстах.
ChatGPT превосходит онлайн-системы в переводе пользовательских текстов с немецкого на английский. Это тоже впечатляет, но поменьше. Мы можем предположить, что в обучающих данных ChatGPT много постов в социальных сетях (просмотренных из Интернета), в то время как обучающие данные онлайн-систем, используемые для сравнения, обычно тщательно отбираются и, следовательно, несколько менее устойчивы к ошибкам (грамматическим, семантическим и т.д.).
Эта задача намного сложнее для ChatGPT при переводе на языки, далёкие от английского, такие как японский, как показывают результаты на WMT20 Rob2, как и ожидалось.
Ограничения этого исследования
Авторы признают в своём исследовании, что необходимы дополнительные эксперименты с большим количеством языковых пар, чтобы лучше оценить качество перевода ChatGPT.
Эта работа должна выполняться с помощью человеческой оценки, а не с помощью автоматических показателей, которые часто бывают неточными, особенно когда оценки сравниваемых систем очень близки.
Отсутствие человеческой оценки является главным ограничением этой работы.
На мой взгляд, влияние подсказки также могло бы быть дополнительно исследовано. Авторы выбрали очень оригинальный способ, позволив ChatGPT самому предлагать подсказки. Но побуждение ChatGPT предлагать подсказки – это проблема с курицей и яйцом. Само приглашение, используемое для получения подсказок для машинного перевода, может оказать сильное влияние на все последующие эксперименты, проведённые в этом исследовании. В предыдущей работе по разработке подсказок для машинного перевода использовались очень разнообразные подсказки ручной работы.
Заключение
ChatGPT впечатляет в машинном переводе.
Из этого предварительного исследования мы уже можем сделать вывод, что ChatGPT был бы хорош и, вероятно, даже лучше, чем стандартные онлайн-системы, при переводе текста, для которого ожидается, что перевод будет обладать характеристиками обучающих данных ChatGPT, например, нелепых пользовательских текстов с ошибками на английском языке.
Тем не менее, как и ожидалось, ChatGPT по-прежнему отстаёт от более стандартных машинных систем для перевода на языки, отличные от английского, особенно на отдалённые или малообеспеченные языки, такие как японский или румынский.