Mozilla、オープンソースの音声認識モデルと音声データセットを公開

 Mozillaは11月29日、オープンソースの音声認識モデル「Deep Speech」を公開した。また、2万人近くが参加したという音声データセット「Project Common Voice」もリリースした。

 MozillaのDeep Speechは、中国BaiduのDeepSpeech論文をベースにGoogleのTensorFlowを用いて実装された再帰型ニューラルネットワーク(RNN)。音声認識サービスはごく少数の大企業が独占していることを受けてスタートした。Mozilla ResearchのMachine Learningチームが「Project Deep Speech」として進めている。

 早期リリースとして、PythonおよびNode.js向けのパッケージ、コマンドラインのバイナリを公開した。Creative Commonsライセンスで公開されている音声認識データセット「LibriSpeech」のテストセットでの誤認識率は6.5%で、当初の目標を満たしているという。

 また、Project Common Voiceは音声データが少ないという問題に対応するためにMozillaが7月に開始した音声データセット構築プロジェクト。自分の音声を公開データベースに容易に寄贈できるようにし、開発者は音声対応アプリケーションのトレーニングに利用できる。

 今回、第1弾として2万人以上による40万件近くの音声録音のデータセットを公開した。ライセンスはCreative Commons。世界から多様な人が参加しており、今後はアクセントを認識できない、女性よりも男性の方が認識精度が高いなど、トレーニングに使用したデータから生じるバイアス問題の緩和につなげたいとしている。現在は英語限定だが、2018年前半より他の言語にも拡大する予定という。

Mozilla Deep Search
https://github.com/mozilla/DeepSpeech

Common Voice
https://voice.mozilla.org/data