Сегодня Meta представила SeamlessM4T, первую универсальную мультимодальную и многоязычную модель перевода с использованием ИИ, которая позволяет пользователям общаться, не замечая языковых барьеров. SeamlessM4T на данный момент доступна исследователям и разработчикам под соответствующей лицензией. Также опубликованы метаданные SeamlessAlign, крупнейшего открытого набора данных для мультимодального перевода, включающего 270 000 часов изученной речи.
Создание универсального языкового переводчика, подобного вымышленной «Вавилонской рыбке» из романов Дугласа Адамса «Автостопом по Галактике», является непростой задачей, а существующие системы преобразования речи в речь и речи в текст охватывают лишь небольшую часть языков мира. SeamlessM4T основана на достижениях исследователей всего мира за многие годы в стремлении создать универсальный переводчик. По сравнению с подходами, использующими отдельные модели, единый системный подход SeamlessM4T уменьшает количество ошибок и задержек, повышая эффективность и качество процесса перевода.
В прошлом году разработчики Meta выпустили No Language Left Behind (NLLB), модель машинного перевода текста в текст, которая поддерживает 200 языков и с тех пор интегрирована в Википедию в качестве одного из поставщиков услуг перевода. Ранее они продемонстрировали универсальный переводчик речи, который стал первой системой прямого преобразования речи в речь для южноминьского языка (диалект китайского). Ещё один языковой проект Meta — Massively Multilingual Speech, система по распознаванию, идентификации и синтезу речи на более чем 1100 языках.
SeamlessM4T опирается на результаты всех этих проектов, обеспечивая многоязычный и мультимодальный перевод на основе единой модели, построенной на широком спектре устных источников данных с самыми современными результатами. SeamlessM4T поддерживает:
- Распознавание речи почти на 100 языках;
- Преобразование речи в текст почти для 100 языков ввода и вывода;
- Преобразование речи в речь, поддержка почти 100 языков ввода и 36 (включая английский и русский) языков вывода;
- Текстовый перевод почти на 100 языков;
- Преобразование текста в речь, поддержка почти 100 языков ввода и 35 (включая английский и русский) языков вывода.
SeamlessM4T — очередной шаг в усилиях исследователей по созданию технологии на базе ИИ, которая поможет соединять людей, говорящих на разных языках. Узнать больше о SeamlessM4T можно в блоге Meta AI.