非構造化データ分析技術のオープンソース実装「Apache UIMA 2.3」リリース
Apache Software Foundation(ASF)のApache UIMA開発コミュニティは1月28日、UIMA(Unstructured Information Management Architecture)のオープンソース実装「Apache UIMA 2.3.0」を発表した。ASF内のプロジェクトページより入手できる。
UIMAは、米IBMが自然言語処理技術として開発した技術で、テキスト、画像、動画などの非構造化データを分析し、関連性を見つけることができる。IBMは2005年にUIMAをオープンソースとして公開、2006年よりASFのインキュベータプロジェクトとして開発が進んでいる。UIMAは2009年には、標準化団体OASIS(Organization for the Advancement of Structured Information Standards)によりOASIS標準として批准されている。
Apache UIMAは、「UIMA Java SDK」、「UIMA-AS(Asynchronous Scaleout)」、「UIMACPP」の3種類のフレームワーク、それにアノテーターやツールを集めた「UIMA Addons」の4パッケージで構成される。
最新版では、非同期型スケールアウトのフレームワークであるUIMA-ASでエラー/支障リカバリをサポート、拡張性を強化した。Java 5ジェネリックスに対応、軽量化と効率化を改善した。Addonsでは、スクリプト言語で書かれたアノテーターに対応する「Bean Scripting Framework」、「Apache Lucene」インターフェイスの「Lucas」、「Apache Tika」を使ったアノテーター「TikaAnnotator」などが追加されている。
Apache Software Foundation
http://www.apache.org/
Apache UIMAのプロジェクトページ
http://incubator.apache.org/uima/