米Facebook、93言語に対応する自然言語処理アプリケーション多言語化のためのライブラリ「LASER」をオープンソースで公開

 米Facebookは1月22日、人工知能技術を用いた自然言語処理アプリケーションの多言語化のためのライブラリ「LASER(Language-Agnostic SEntence Representations)」をオープンソースで公開した。対訳コーパスのない言語同士の翻訳を行えるという。

 LASERはFacebookが2018年7月に発表したツールキット。エンコーダーとデコーダーを用いて処理を行う「Sequence to Sequence(seq2seq)」アプローチを採用する。今回、文のエンコーダーで用いる機械学習ライブラリ「PyTorch」をアップデートし、対応言語を強化したものをオープンソースで公開した。

 欧州の全言語および多数のアジア言語、インドで使われている言語、アラビア語、ヘブライ語、ペルシア語などを含む93言語(表記としては23種類)でトレーニングされたエンコーダーを備える。異なるモデルではなく単一の共有モデルにすべての言語を入れることで、このレベルの多言語対応を実現した。モデルは1つの文で多言語を使うことができ、リソースに制限のある言語でもトレーニングによるメリットを受けられるとしている。

 これに加えて、多言語文例プロジェクトTatoebaの例文と翻訳をベースにした100以上の言語向けのテストセットも提供する。

 LASERは、XNLI(Cross-lingual Natural Language Inference)において、14言語中13言語でラベル付きサンプルを使用しないゼロショットでの言語をまたいだ自然言語推論精度の向上を実現しているという。また、MLDocコーパスのクロス言語ドキュメント分類でも良い結果が出ているという。LASERの文埋め込み技術は、並列コーパスマイニングでも優れているとのこと。

 性能にも優れ、GPU上では最大で毎秒2000文の処理が可能としている。システムが言語グループを認識することから、新しい言語が加わると性能も強化されるという。

LASER
https://github.com/facebookresearch/LASER