拡張性を強化したメジャーアップデート、Apache Lucene/Solrが4.0をリリース
Apache Lucene/Solrの開発チームは10月12日、オープンソースの全文検索エンジン「Apache Lucene 4.0」およびLuceneをベースとする検索プラットフォーム「Apache Solr 4.0」をリリースした。
Apache LuceneはJavaで実装された全文検索エンジン。さまざまなプラットフォームで利用でき、全文検索を必要とするあらゆるアプリケーションで利用できるという。
Lucene 4.0ではより柔軟にコンテンツをインデックス化するための機能が実装された。インデックスに新しい情報を格納できるようになり、格納されている情報を変更する手段も提供される。また、キーワードや記事リストなどのインデックスフォーマットもプラグインで容易に変更・拡張できるようになっている。インデックスをストレージに記録するためのモジュール「Codec」は複数が用意され、用途に応じた異なるフォーマットが選択できるようになっている。
インデックス統計機能も強化され、フィールド毎のポスティングの数、フィールドまたは用語毎のトークンの数などを調べられるようになっている。スコア計算を行う「Similarity」ではベクトル空間モデルを切り離し、BM25などのアルゴリズムやモデルを利用できるという。
SolrはLuceneをベースとする検索プラットフォームで、HTTP/XMLおよびJSON APIを利用してさまざまなプラットフォームから検索機能へのアクセスを可能にする。Solr 4.0は、開発コード「SolrCloud」の下で進めた拡張性強化が大きな特徴となる。複数台のサーバーでインデックス作業を分散してレスポンス時間を高速化する分散インデックス、自動フェイルオーバー、分散システム間協調のための「Apache Zookeeper」統合などの機能を導入した。これらにより、ほぼリアルタイムでのインデックス作成や検索を実現できるという。
これらに加え、コミットや新たなサーチャー登録なしに迅速に最新版のドキュメントを検索する「Real-time Get」やバージョニング機能なども搭載されている。
Apache LuceneおよびApache SolrはプロジェクトのWebサイトより入手できる。
Apache Lucene
http://lucene.apache.org/
Apache Solr
http://lucene.apache.org/solr/