人工知能:音声間の即時翻訳
Nature
2025年1月16日
最大101言語の音声とテキストを翻訳できるAI(Artificial Intelligence;人工知能)モデル(音声から音声への直接翻訳を含む)を報告する論文が、Nature に掲載される。SEAMLESSM4Tと名付けられたこのモデルは、言語のカバー範囲におけるギャップを埋め、既存のシステムよりも優れた性能を発揮する。この研究は、包括的な音声翻訳技術のさらなる研究を支援するために、リソースが(非営利目的で)一般に公開されることで、迅速な普遍的な翻訳への道を開くかもしれない。
SF(サイエンスフィクション)の愛読者であれば、銀河ヒッチハイク・ガイド(The Hitchhiker’s Guide to the Galaxy)に登場するバベルフィッシュ(Babel fish)という、耳に挿入すると話している言語を別の言語に同時通訳してくれる小さな魚を知っているかもしれない。このようなツールは、相互に接続されたグローバルな環境でのコミュニケーションを促進する上で価値があるが、既存の機械学習翻訳システムのほとんどはテキスト指向であるか、音声認識、テキストへの翻訳、テキストの音声変換という複数のステップを必要とする。さらに、既存の音声から音声へのモデルの言語のカバー範囲は、テキストからテキストへのモデルよりも遅れをとっており、英語から他の言語への翻訳よりも、ソース言語から英語への翻訳に偏りがちである。
これらの限界に対処するため、MetaのSeamless Communication Team(シームレスコミュニケーションチーム)は、最大101言語間の複数の翻訳モードをサポートする単一のモデルを開発した。SEAMLESSM4Tは、音声から音声への翻訳(101言語を認識し、36言語に翻訳)、音声からテキストへの翻訳(101言語から96言語)、テキストから音声への翻訳(96言語から36言語)、テキストからテキストへの翻訳(96言語)、自動音声認識(96言語)を促進することができる。音声翻訳では、SEAMLESSM4Tは既存のシステムよりも最大23%高い精度でテキストを翻訳する。AIモデルは背景雑音を除去し、話し手のバリエーションに適応することができる。
さらなる最適化が必要ではあるが、SEAMLESSM4Tは言語の壁を越えたコミュニケーションの改善に向けた一歩になりえると、著者らは結論づけている。
- Article
- Open access
- Published: 15 January 2025
SEAMLESS Communication Team. Joint speech and text machine translation for up to 100 languages. Nature 637, 587–593 (2025). https://doi.org/10.1038/s41586-024-08359-z
doi:10.1038/s41586-024-08359-z
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。
注目のハイライト
-
環境:ノルドストリーム海底パイプラインの漏れによるメタン排出量の調査Nature
-
人工知能:音声間の即時翻訳Nature
-
人類学:鉄器時代のブリテンにおけるケルトの「ガールパワー」Nature
-
健康:米国における認知症リスクの増加Nature Medicine
-
微生物学:腸内細菌が砂糖への欲求を制御している可能性があるNature Microbiology
-
生物多様性:淡水生物の約4分の1が絶滅の危機に瀕しているNature