HPが開発した“お蔵入り”OCRエンジンをGoogleがオープンソースで公開

 米Googleは、米Hewlett-Packard(HP)が開発した光学式文字認識(OCR)エンジンをオープンソース化したことを明らかにした。8月の同社の公式ブログで言及したもので、オープンソース開発者向けサイト「SourceForge.net」でダウンロードできる。

 「Tesseract」と名付けられたOCRソフト。HPが85〜95年に開発し、95年には米ネバダ大学ラスベガス校(UNLV)が開催したOCRソフト精度コンテストで3位に入賞した実績がある。

 HPがOCR事業から撤退したため“お蔵入り”になっていたが、2年ほど前、HPの関係者がオープンソース化して提供した方がよいと判断、これにGoogleが協力して、数カ月前にSourceForge.netで公開した。

 Googleによると、英語しか認識できず、複数段組やカラーの文書では処理能力が落ちるという。それでも同社は「認識精度は市販の最高級OCR製品に劣るが、他のオープンソースOCRよりはるかに優れている」としている。【高森 郁哉/Infostand】

Tesseract
http://sourceforge.net/projects/tesseract-ocr