人工知能:リソース不足の言語も翻訳するメタ社のAIツール
Nature
2024年6月6日
Artificial intelligence: Meta AI tool translates dozens of under-resourced languages
200もの言語を翻訳できるメタ社の人工知能モデルに用いられている技術について記述した論文が、今週、Natureに掲載される。このAIモデルは、機械翻訳という手法による翻訳が可能な言語の数を増やす。
ニューラル機械翻訳モデルは、人工ニューラルネットワークを利用して言語を翻訳する。こうしたモデルは通常、その訓練に使用するためにオンラインでアクセス可能な大量のデータを必要とする。ところが、そうしたデータが一般公開されていない、安価でない、あるいは多くの人々が利用できないといった事情のある一部の言語、すなわち「低リソース言語」が存在している。ニューラル機械翻訳モデルの言語出力を増やす、つまり翻訳できる言語の数を増やすと、このモデルによる翻訳の品質に悪影響が及ぶ可能性がある。
今回、Marta Costa-jussàとNo Language Left Behind(NLLB)チームは、ニューラル機械翻訳モデルが高リソース言語を翻訳するという既存の能力を使って、低リソース言語の翻訳方法を学習できるようにする言語間アプローチを開発した。その結果として、著者らはオンライン多言語翻訳ツール「NLLB-200」を開発した。NLLB-200は200の言語に対応しており、そこには高リソース言語の3倍の数の低リソース言語が含まれ、既存のシステムよりも44%高い性能を発揮する。
著者らは、多くの低リソース言語で1000~2000例のサンプルしか利用できなかったため、NLLB-200の訓練データの量を増やすために言語識別システムを利用して、特定の方言の用例をより多く特定した。また、著者らは、インターネット上のアーカイブ由来のバイリンガルのテキストデータのマイニングを行い、このことは、NLLB-200による翻訳の品質向上に役立った。
著者らは、このツールが、めったに翻訳されない言語を話す人々がインターネットやその他の技術を利用するために役立つ可能性があると述べている。さらに著者らは、このツールの特に重要な応用例が教育であると強調している。このモデルは、低リソース言語を話す人々が、これまでより多くの書籍や研究論文を読むために役立つ可能性があるからだ。ただし、著者らは、誤訳が生じる可能性が依然として存在していることも認めている。
doi: 10.1038/s41586-024-07335-x
注目の論文
-
11月21日
天文学:近くの恒星を周回する若いトランジット惑星が発見されるNature
-
11月18日
惑星科学:嫦娥6号のサンプルが月の裏側の火山活動の年代を特定Nature
-
11月14日
物理学:スマートフォンによる電離層の変化のマッピングNature
-
11月13日
地球科学:2022年のマウナロア火山の噴火を調査するNature Communications
-
11月12日
惑星科学:ボイジャー2号が天王星をフライバイしたのは太陽の異常現象の最中だったNature Astronomy
-
11月8日
惑星科学:火星の岩石堆積物は太古の海の名残かもしれないScientific Reports