Mozillaが音声テキスト変換エンジンの「DeepSpeech 0.6」を公開

 Mozillaは12月5日、音声テキスト変換エンジン「DeepSpeech 0.6」を公開した。性能の改善やWindowsのサポートなどが特徴となる。

 DeepSearchは音声認識技術とトレーニングされたモデルを開発者に提供することを目的にMozillaが開発している自動音声認識(ASR)エンジン。深層学習を土台とし、シンプルなAPIを備える。事前にトレーニング済みのアメリカ英語モデルも提供する。2017年にプロジェクトを公開した。

 最新版では、性能の最適化、APIの整理などを進めた。TensorFlowは対応するバージョンが1.14.0となり、トレーニンググラフでCuDNN RNNのサポートが加わった。これによりトレーニングの性能が大幅に改善するとしている。TensorFlow Liteもサポートした。APIでは名称に一貫性を持たせ、使われていないパラメーターを削除した。C APIで使えるラッパーヘッダーのサンプルも用意した。

 言語モデルのtrieファイルのデータ構造を変更した。これによりファイル読み込み時にメモリがマッピングされるという。言語モデルも更新し、使われない言葉を除去した。これにより、トレーニングしたテキストの上位50万ワードのみが含まれるようになった。これらの工夫により、容量がバージョン0.5.1では約1800MBだったのが、最新版では約900MBと半減しつつ、エラーレート(WER)には影響していないという。「LibriSpeech」テストセットでの誤認識率は、7.5%と報告している。

 DeepSpeech 0.6は.NET、Python、JavaScript、C向けの各バインディングを備える。中でもWindowsのサポートは要求が多かったという。

 DeepSpeech 0.6はプロジェクトのWebサイトより入手できる。

DeepSpeech
https://github.com/mozilla/DeepSpeech