テキスト認識エンジン「Tesseract」をJavaScriptに移植した「Tesseract.js」

 マサチューセッツ工科大学(MIT)がオープンソースのOCR(光学式文字読み取り)エンジン「Tesseract」のJavaScript実装「Tesseract.js」を公開した。

 Tesseract.jsは、米HPが開発しその後Googleによってオープンソース化されたOCRエンジンであるTesseractをJavaScriptに移植したもの。Emscriptenコンパイラを利用してC++で書かれたTesseractのライブラリをクロスコンパイルし、自動ダウンロードシステムと言語ファイルを加えた。日本語、英語、スペイン語、中国語、韓国語を含む60以上の言語をサポートする。

 テキストの向きとスクリプトの検出を自動で行うことができ、シンプルなインターフェイスを利用して文章を読むことができるという。テキスト認識のオフロードができるため画像処理アプリケーションのコストを下げ、利便性を改善できるとしている。Webブラウザ内でも動くほか、Node.jsを使ってサーバー上で動かすこともできる。

 バージョン1.0.9をプロジェクトのページより入手できる。ライセンスはApache License 2.0。

Tesseract.js
https://github.com/naptha/tesseract.js