注目の論文

人工知能:リソース不足の言語も翻訳するメタ社のAIツール

Nature

2024年6月6日

Artificial intelligence: Meta AI tool translates dozens of under-resourced languages

200もの言語を翻訳できるメタ社の人工知能モデルに用いられている技術について記述した論文が、今週、Natureに掲載される。このAIモデルは、機械翻訳という手法による翻訳が可能な言語の数を増やす。

ニューラル機械翻訳モデルは、人工ニューラルネットワークを利用して言語を翻訳する。こうしたモデルは通常、その訓練に使用するためにオンラインでアクセス可能な大量のデータを必要とする。ところが、そうしたデータが一般公開されていない、安価でない、あるいは多くの人々が利用できないといった事情のある一部の言語、すなわち「低リソース言語」が存在している。ニューラル機械翻訳モデルの言語出力を増やす、つまり翻訳できる言語の数を増やすと、このモデルによる翻訳の品質に悪影響が及ぶ可能性がある。

今回、Marta Costa-jussàとNo Language Left Behind(NLLB)チームは、ニューラル機械翻訳モデルが高リソース言語を翻訳するという既存の能力を使って、低リソース言語の翻訳方法を学習できるようにする言語間アプローチを開発した。その結果として、著者らはオンライン多言語翻訳ツール「NLLB-200」を開発した。NLLB-200は200の言語に対応しており、そこには高リソース言語の3倍の数の低リソース言語が含まれ、既存のシステムよりも44%高い性能を発揮する。

著者らは、多くの低リソース言語で1000~2000例のサンプルしか利用できなかったため、NLLB-200の訓練データの量を増やすために言語識別システムを利用して、特定の方言の用例をより多く特定した。また、著者らは、インターネット上のアーカイブ由来のバイリンガルのテキストデータのマイニングを行い、このことは、NLLB-200による翻訳の品質向上に役立った。

著者らは、このツールが、めったに翻訳されない言語を話す人々がインターネットやその他の技術を利用するために役立つ可能性があると述べている。さらに著者らは、このツールの特に重要な応用例が教育であると強調している。このモデルは、低リソース言語を話す人々が、これまでより多くの書籍や研究論文を読むために役立つ可能性があるからだ。ただし、著者らは、誤訳が生じる可能性が依然として存在していることも認めている。

doi: 10.1038/s41586-024-07335-x

「注目の論文」一覧へ戻る

プライバシーマーク制度