Research press release

人工知能:音声間の即時翻訳

Nature

最大101言語の音声とテキストを翻訳できるAI(Artificial Intelligence;人工知能)モデル(音声から音声への直接翻訳を含む)を報告する論文が、Nature に掲載される。SEAMLESSM4Tと名付けられたこのモデルは、言語のカバー範囲におけるギャップを埋め、既存のシステムよりも優れた性能を発揮する。この研究は、包括的な音声翻訳技術のさらなる研究を支援するために、リソースが(非営利目的で)一般に公開されることで、迅速な普遍的な翻訳への道を開くかもしれない。

SF(サイエンスフィクション)の愛読者であれば、銀河ヒッチハイク・ガイド(The Hitchhiker’s Guide to the Galaxy)に登場するバベルフィッシュ(Babel fish)という、耳に挿入すると話している言語を別の言語に同時通訳してくれる小さな魚を知っているかもしれない。このようなツールは、相互に接続されたグローバルな環境でのコミュニケーションを促進する上で価値があるが、既存の機械学習翻訳システムのほとんどはテキスト指向であるか、音声認識、テキストへの翻訳、テキストの音声変換という複数のステップを必要とする。さらに、既存の音声から音声へのモデルの言語のカバー範囲は、テキストからテキストへのモデルよりも遅れをとっており、英語から他の言語への翻訳よりも、ソース言語から英語への翻訳に偏りがちである。

これらの限界に対処するため、MetaのSeamless Communication Team(シームレスコミュニケーションチーム)は、最大101言語間の複数の翻訳モードをサポートする単一のモデルを開発した。SEAMLESSM4Tは、音声から音声への翻訳(101言語を認識し、36言語に翻訳)、音声からテキストへの翻訳(101言語から96言語)、テキストから音声への翻訳(96言語から36言語)、テキストからテキストへの翻訳(96言語)、自動音声認識(96言語)を促進することができる。音声翻訳では、SEAMLESSM4Tは既存のシステムよりも最大23%高い精度でテキストを翻訳する。AIモデルは背景雑音を除去し、話し手のバリエーションに適応することができる。

さらなる最適化が必要ではあるが、SEAMLESSM4Tは言語の壁を越えたコミュニケーションの改善に向けた一歩になりえると、著者らは結論づけている。

SEAMLESS Communication Team. Joint speech and text machine translation for up to 100 languages. Nature 637, 587–593 (2025). https://doi.org/10.1038/s41586-024-08359-z
 

An AI model that can translate speech and text, including direct speech-to-speech translations, for up to 101 languages is described in Nature. The model, named SEAMLESSM4T, fills gaps in language coverage and outperforms existing systems. The work may pave the way for rapid universal translations, with resources being made publicly available (for non-commercial use) to assist further research on inclusive speech translation technologies.

Readers of science fiction might be familiar with the Babel Fish from The Hitchhiker’s Guide to the Galaxy, a small fish that could be inserted into an ear and simultaneously translate from one spoken language to another. Such a tool would be valuable in facilitating communication in an interconnected global landscape, but most existing machine learning translation systems are text oriented, or involve multiple steps — speech recognition, translation into text, and conversion of text to speech. In addition, language coverage for existing speech-to-speech models falls behind that of text-to-text models and tends to be skewed towards translating from a source language into English, rather than from English to another language.

Addressing these limitations, the Seamless Communication Team from Meta have developed a single model that supports multiple modes of translation between up to 101 languages. SEAMLESSM4T can facilitate speech-to-speech translation (recognizing 101 languages and translating to 36 languages), speech-to-text translation (101 to 96 languages), text-to-speech translation (96 to 36 languages), text-to-text translation (96 languages), and automatic speech recognition (96 languages). For speech-to-speech translation, SEAMLESSM4T translates text with up to 23% more accuracy than existing systems. The AI model can filter out background noise and adjust to speaker variation.

Although further optimization is required, SEAMLESSM4T may represent a step towards improving communication across language barriers, the authors conclude.
 

doi: 10.1038/s41586-024-08359-z

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

「注目のハイライト」記事一覧へ戻る

プライバシーマーク制度