非構造化データ分析技術のオープンソース実装「Apache UIMA 2.3」リリース

　Apache Software Foundation（ASF）のApache UIMA開発コミュニティは1月28日、UIMA（Unstructured Information Management Architecture）のオープンソース実装「Apache UIMA 2.3.0」を発表した。ASF内のプロジェクトページより入手できる。

　UIMAは、米IBMが自然言語処理技術として開発した技術で、テキスト、画像、動画などの非構造化データを分析し、関連性を見つけることができる。IBMは2005年にUIMAをオープンソースとして公開、2006年よりASFのインキュベータプロジェクトとして開発が進んでいる。UIMAは2009年には、標準化団体OASIS（Organization for the Advancement of Structured Information Standards）によりOASIS標準として批准されている。

　Apache UIMAは、「UIMA Java SDK」、「UIMA-AS（Asynchronous Scaleout）」、「UIMACPP」の3種類のフレームワーク、それにアノテーターやツールを集めた「UIMA Addons」の4パッケージで構成される。

　最新版では、非同期型スケールアウトのフレームワークであるUIMA-ASでエラー/支障リカバリをサポート、拡張性を強化した。Java 5ジェネリックスに対応、軽量化と効率化を改善した。Addonsでは、スクリプト言語で書かれたアノテーターに対応する「Bean Scripting Framework」、「Apache Lucene」インターフェイスの「Lucas」、「Apache Tika」を使ったアノテーター「TikaAnnotator」などが追加されている。

Apache Software Foundation
http://www.apache.org/

Apache UIMAのプロジェクトページ
http://incubator.apache.org/uima/