Apache UIMAのスクリプト言語「Apache UIMA TextMarker 2.0」がリリース

 Apache Software Foundation(ASF)のApache UIMA開発コミュニティは3月7日、構造化されていないドキュメントを解析するためのフレームワーク「Apache UIMA」と組み合わせて利用できるテキスト処理向けスクリプト言語「Apache UIMA TextMarker 2.0」をリリースした。Eclipseベースの開発支援ツール「TextMaker Workbench」も提供される。

 Apache UIMA TextMarkerは、非構造化テキスト処理フレームワーク「Apache UIMA(Unstructured Information Management Architecture)」プロジェクトで開発されているスクリプト言語。UIMAはIBMが開発したデータ解析技術で、テキストやチャット、メール、音声、ビデオといった構造化されていないドキュメントから情報を取得し、構造化された形で蓄積・利用するためのフレームワーク。現在はASFの下オープンソースで開発が進められている。UIMA TextMakerはドキュメントから情報を取得・加工するためのスクリプト言語。Eclipseベースの開発ツール「TextMaker Workbench」を利用して記述を行える。これを利用して、UIMAを利用したテキスト処理アプリケーションを容易に開発できるという。

 UIMA TextMakerは2013年1月にApache UIMAプロジェクトに寄贈され、2.0はASFからリリースされる初のバージョンとなる。スクリプト言語の翻訳・実行を行う「Analysis Engine」と、スクリプトを記述するTextMaker Workbenchの2つで構成され、UIMAを使ったテキスト処理アプリケーションを迅速に開発できる。ルール言語エディタ、UIMA記述子のビルドプロセス、テストなどの機能を持ち、ルールはUIMAのデータ形式であるCAS(Common Analysis Structure)に適用できる。

 Apache UIMA TextMarkerは、Apache UIMAプロジェクトのWebサイトよりダウンロードできる。ライセンスはApache License 2.0。

Apache UIMA
http://incubator.apache.org/uima/