Автоматичне постредагування

Сфера перекладів, як і інші потребує модернізації деяких робочих процесів. Наші колеги - фахівці бюро перекладів зустріли і переклали одне дуже цікаве дослідження, присвячене автоматичному постредагуванню машинного перекладу. Очікується, що цей процес значною мірою посприяє прискоренню здачі замовлення за рахунок спрощення етапу його перевірки і редагування.

Завдання автоматичного постредагування - виправити помилки машинного перекладу. Отже, він в прямій залежності якості МП. Проте, хороший переклад з використанням машинної техніки насправді дуже дорогий, і не кожному доступний.

В своєму матеріалі спеціалісти московського бюро перекладів «Бліц» спробують «пролити світло» на майбутнє автопостредагування. В матеріалі зроблена спроба відповісти на питання: «Яка буде вартість МП, після якого не знадобиться автоматичне постредагування?»

Скільки коштує МП, після якого не потрібне автоматичне постредагування?

Ми провели декілька експериментів, які дозволили оцінити нейронну онлайн-систему АПР. В наших тестах до перекладів, отриманих з потужніших і дорожчих нейронних систем МП, використовувалися різні інструменти АПР. До цього для оцінки АПР використали простіший пофразовий МП.

Такі технології МП представляють ряд умов, в яких користувач (наприклад, постачальник мовних послуг - ПМП) має доступ до різних ресурсів з точки зору технології MП і/або даних для навчання і адаптації. З точки зору складності відносно цих двох параметрів, системи МП можна розділити на такі групи:

Загальні ( G ). Система такого типу навчається на основі великого багатопрофільного корпусу (103 млн. паралельних пропозицій). У такому разі ПМП покладається на повністю готовий механізм МП з «чорного ящика», який не можна доповнити або поліпшити за допомогою адаптації.
Загальні онлайн ( GO ). Система такого типу розширює загальний механізм МП навчається на основі людських правок, що вносяться в машинний переклад (5,4 тис. тестованих одиниць). В цьому випадку ПМП має доступ до внутрішніх принципів конкурентної онлайн-системи нейронного машинного перекладу.
Спеціалізовані ( S ). Цей механізм МП заснований на підналаштуванні загального механізму G з використанням вузькоспеціальних даних (400 тис.). ПМП має доступ як до даних клієнта, так і до внутрішньої роботи конкурентноздатної системи нейронного машинного перекладу.
Спеціалізовані онлайн ( SO ). Системи цього типу створюються на основі моделей загального і спеціалізованого типів. В них використовуються вузькоспеціальні дані для навчання і підналаштування, а також ряд правок від живого користувача для онлайн адаптації результату. Мається на увазі, що ПМП має доступ і до корпусу даних клієнта, і до внутрішніх конкурентоздатної онлайн-системи нейронного машинного перекладу.

На мал. 1 видно, що якість АПР безпосередньо залежить від складності системи: чим вона складніша, тим краще переклад. Різниця між загальним інструментом МП з «чорного ящика» і потужною онлайн-системою вузькоспеціального нейронного МП складає 14 балів по метриці BLEU .

Мал. 1. Бали BLEU різних систем нейронного машинного перекладу різної якості.

Результати, отримані в ході випробувань від чотирьох різних перекладацьких машин, були протестовані в двох різних системах АПР:

Нейронна система АПР загального типу. «Стандартна» пакетна система, навчання якої відбувається на послідовностях «початковий текст -> результат МП -> людські правки» (потрібно 6,6 млн. прикладів) з використанням великого загальнотематичного корпусу даних eSCAPE .
Онлайн-система АПР. Ця система навчається на багатосторонній інформації і продовжує навчатися на правках, які зроблені людиною.

Обидві системи засновані на підході «кодер-декордер» з механізмами уваги і використовують безліч джерел. Їх бали BLEU показані на мал. 2.

Мал. 2. Ефективність автоматичного постредагування результатів нейронного машинного перекладу різної якості.

Що означають ці дані ?

По-перше, пакетна система АПР, навчена тільки на основі загальних даних (без вузькопрофільної інформації), не може поліпшити якість необробленого результату МП, що досить передбачувано. Крім того, хоча ефективність АПР і підвищується разом із зростанням якості перекладу, також збільшується розрив з результатами найпродуктивніших систем нейронного МП (від – 1,3 до – 7,6 балів BLEU : для систем G і SO відповідно). Дані результати підтверджують наш попередній висновок: підналаштування систем АПР для вузькоспеціальних сфер відіграє дуже велику роль. Також вони вимагають комплексних онлайн-рішень, що дозволяють максимально ефективно використати дані під час тестування за допомогою вивчення правок користувачів.

По-друге, онлайн-система АПР досягає кращих показників не тільки в порівнянні з показниками системи МП загального типу з «чорного ящика» — G (+6,8 пункту), але і в порівнянні з результатами онлайн-розширень — GO (+2,5 пункту). А також в порівнянні з результатами вузькоспеціалізованої моделі — S (+1,4 пункту).

Найцікавіше, як онлайн-системи АПР працюють з текстами систем GO: навіть коли в механізмі машинного перекладу і в системі АПР використовується однаковий спеціалізований масив даних для онлайн-адаптації, система автоматичного постредагування залишається сприйнятливішою до правок, що вносяться людиною. Для цього потрібен корпус набагато меншого об’єму (6,6 млн. сегментів «початковий текст -> МП -> людські правки» проти 103 млн. паралельних пропозицій), більше того, використання людських правок в ході тестування робить позитивний вплив на результати.

По-третє, необхідність використання онлайн-системи автоматичного постредагування зменшується, коли підвищується якість МП. Якщо мова йде про онлайн-механізм вузькоспеціального МП — SO , різниця в метриці BLEU незначна і складає 0,2 балу.

Це підтверджує, що коригування високоякісного перекладу нейронних вузькоспеціалізованих машин є складним завданням навіть для АПР, яке навчається на взаємодії з користувачем. Проте, окрім поліпшення своєї продуктивності за рахунок вивчення правок користувачів, отриманих під час тестування (аналогічно системі АПР), SO також покладається на попереднє тонке налаштування у великому корпусі (аналогічно S).

Отже, відповідаючи на питання «Яка буде вартість МП, після якого не знадобиться автоматичне постредагування?», варто відмітити, що навчання всередині вузької області і адаптація даних значно покращують ефективність МП, проте не можна при цьому забувати про вартість цього методу. Що стосується корпусу даних, збір достатньої кількості паралельних пропозицій з кожної вузької теми — це фактор, який перешкоджає використанню нейронних механізмів в широкому масштабі. Крім того, далеко не кожен постачальник мовних послуг готовий задовольнити технологічні вимоги (наприклад, відкритий доступ до «начинки» механізму перекладу) і нести обчислювальні витрати (наприклад, для вузького підналаштування загальної моделі)

Висновок

Ми розглянули нейронну онлайн-систему АПР та оцінили ефективність її застосування до результатів перекладу складних вузькоспеціальних нейронних машин. Наші тести показали, що така система АПР ефективна, якщо потрібно відредагувати результат простого, загального МП (яким найчастіше і користуються перекладачі). Також ми з’ясували, що постобробка тексту, отриманого з підналаштованої нейронної машини, навченої на великому корпусі паралельних даних є дуже складним завданням. Проте, з точки зору ресурсовитратності та необхідності великого досвіду, мало хто займається розробкою подібних технологій МП, після яких не потрібно буде використати автоматичне постредагування.