Meta мәтін мен сөйлеуді орыс тілін қоса алғанда, шамамен 100 тілге аударуға арналған әмбебап жасанды интеллект моделі SeamlessM4T-ті ұсынды

Meta мәтін мен сөйлеуді орыс тілін қоса алғанда, шамамен 100 тілге аударуға арналған әмбебап жасанды интеллект моделі SeamlessM4T-ті ұсынды

Бүгін Meta пайдаланушыларға тілдік кедергілер арқылы байланысуға мүмкіндік беретін алғашқы әмбебап мультимодальды және көптілді жасанды интеллект аударма моделі SeamlessM4T-ті таныстырды. SeamlessM4T қазіргі уақытта зерттеушілер мен әзірлеушілерге тиісті лицензия бойынша қолжетімді. 270 000 сағат талданған сөйлеуден тұратын мультимодальды аудармаға арналған ең үлкен ашық деректер жиынтығы SeamlessAlign метадеректері де жарияланды.

Дуглас Адамстың «Галактикаға автостопшы нұсқаулығы» романдарындағы ойдан шығарылған «Бабыл балығы» сияқты әмбебап тіл аудармашысын жасау қиын міндет болып табылады, ал қолданыстағы сөйлеуден сөйлеуге және сөйлеуден мәтінге айналдыру жүйелері әлем тілдерінің тек аз ғана бөлігін қамтиды. SeamlessM4T әмбебап аудармашы жасау үшін бүкіл әлем бойынша жылдар бойы жүргізілген зерттеу жұмыстарына негізделген. Жеке модельдерді қолданатын тәсілдермен салыстырғанда, SeamlessM4T-тің бірыңғай жүйелік тәсілі қателер мен кідірістерді азайтады, аударма процесінің тиімділігі мен сапасын жақсартады.

ҮздіксізM4T
ҮздіксізM4T

Өткен жылы Meta әзірлеушілері 200 тілді қолдайтын және кейіннен аударма қызметі провайдері ретінде Wikipedia-ға біріктірілген мәтіннен мәтінге машиналық аударма моделі No Language Left Behind (NLLB) шығарды. Олар бұған дейін Мин Нань (қытай диалектісі) үшін алғашқы тікелей сөйлеуден сөйлеуге арналған жүйе болған әмбебап сөйлеу аудармашысын көрсетті. Тағы бір мета тіл жобасы - Massively Multilingual Speech, 1100-ден астам тілде сөйлеуді тану, сәйкестендіру және синтездеу жүйесі.

SeamlessM4T осы жобалардың барлығының нәтижелеріне сүйене отырып, заманауи нәтижелермен кең ауқымды ауызша деректер көздеріне негізделген бірыңғай модельге негізделген көптілді және мультимодальды аударманы қамтамасыз етеді. SeamlessM4T мыналарды қолдайды:

  • 100-ге жуық тілде сөйлеуді тану;
  • 100-ге жуық енгізу және шығару тілдеріне арналған сөйлеуді мәтінге түрлендіру;
  • Сөйлеуден сөйлеуге түрлендіру, шамамен 100 енгізу тілін және 36 (ағылшын және орыс тілдерін қоса алғанда) шығыс тілдерін қолдау;
  • Мәтінді шамамен 100 тілге аудару;
  • Мәтінді сөйлеуге түрлендіру, шамамен 100 енгізу тілін және 35 (ағылшын және орыс тілдерін қоса алғанда) шығыс тілдерін қолдау.

SeamlessM4T - зерттеушілердің әртүрлі тілдерде сөйлейтін адамдарды байланыстыруға көмектесетін жасанды интеллект технологиясын жасау жөніндегі күш-жігерінің соңғы қадамы. SeamlessM4T туралы көбірек ақпаратты Meta AI блогынан қараңыз.

Дереккөзді оқыңыз