Mozillaが米NVIDIAと提携、音声データセット構築プロジェクト「Common Voice」を前進

 Mozillaは4月12日、音声認識技術開発で米NVIDIAと提携したことを発表した。NVIDIAはMozillaのプロジェクト「Mozilla Common Voice」に150万ドルを投じ、オープンで民主的な音声認識の開発に協力する。

 Mozilla Common Voiceは、Mozillaが2017年に開始した音声認識技術改善プロジェクト。音声技術の開発を民主化するオープンなイニシアティブで、専用のWebサイトで音声データ提供(貢献)者を募っている。現時点で、60以外の言語・9000時間の音声データが集まっており、16万4000人が貢献したという。

 NVIDIAは今回、Mozillaとの提携の下でCommon Voiceに150万ドルを寄贈する。この資金を利用して、データセットを拡大し、より多くのコミュニティやボランティアとエンゲージを深める。また、新しいスタッフの起用を通じて、プロジェクトを前進していくとしている。Common Voiceの拡大に向け、同イニシアティブはMozilla Foundation傘下に入ることも発表した。

 Mozillaはこの分野の課題として、「次の10年で、デバイスとやり取りする主な手法は音声になると予想できる一方で、言語、アクセント、スピーチパターンがたくさんあり、音声対応デバイスがこれらを理解できない限り、人はこれを活用できない」と指摘している。現在、機械学習アルゴリズムのトレーニングに用いられている音声データは一部の企業のみが有しており、これは高品質な音声認識につながらず、英語の話者とそれ以外の話者との格差につながるという懸念も示している。

 Mozillaはこの分野で、オープンソースの音声認識エンジン「Deep Speech」の開発も進めている。

Mozilla Common Voice
https://commonvoice.mozilla.org/ja