Mozillaの音声テキスト変換エンジン「DeepSpeech」バージョン0.7リリース

 Mozillaは4月24日、オープンソースの音声テキスト変換エンジン「DeepSpeech 0.7.0」を公開した。TypeScriptのサポートが加わり、トレーニングコードもアップデートされている。

 DeepSpeechはオープンソースの自動音声認識(ASR)エンジンで、入力された音声をテキストへと変換する機能を提供する。音声認識にはBaiduが開発した人工知能(AI)技術が採用されており、バックエンドにはTensorFlowを利用する。Mozillaは2017年に同プロジェクトを公開した。

 DeepSpeech 0.7は2019年12月に公開したバージョン0.6に続く最新版。バージョン0.6.1以前のバージョンとの後方互換性はなく、アップデート時にはコードとモデルの両方を更新する必要がある。

 トレーニングコードを再パッケージし、「ds_ctcdecoder」が自動インストールされるなど。インストールと設定が容易にできるようになった。また、学習速度を改善できると言う学習データ向けの新フォーマットのサンプルデータベースが加わった。

 TFLite固有のNPMパッケージやTFLite NuGetパッケージも加わった。Decorder APIでは、外部のスコアラ向けのパッケージフォーマットが新しくなった。また、TypeScriptのサポートが加わった。ElectronJS v8.0もサポートし、.NETではマルチストリームのサポートが加わった。

 DeepSpeechはWindows、macOS、Linux、Raspbianなどに対応、プロジェクトのWebサイトより入手できる。スコアラ、オーディオファイルのサンプルなども公開している。

DeepSpeech
https://github.com/mozilla/DeepSpeech