オープンソースの検索エンジン「Apache Lucene 5.0」リリース

 オープンソースの全文検索エンジンライブラリ「Apache Lucene」開発チームは2月20日、最新版となる「Apache Lucene 5.0」およびLuceneベースのNoSQL検索プラットフォーム「Apache Solr 5.0」をリリースした。

 Apache LuceneはJavaで作成された検索エンジン。1時間あたり150GB以上というインデックススループットやランク付け、多数のクエリタイプサポート、フィールドによるソート、誤字補完といった機能を有し、全文検索を必要とするほぼすべてのアプリケーションで利用できるという。SolrはLuceneのサブプロジェクトで、Luceneをベースとしたエンタープライズ向けの検索プラットフォーム。

 Apache Lucene 5.0は、2012年10月に公開されたバージョン4.0に続くメジャーバージョンとなる。インデックスの安全性強化とヒープ使用の削減が主な改善点となり、また多数の最適化とバグ修正も行われている。

 インデックスの安全性強化では、すべてのファイルアクセスでJavaのNIO.2 APIを利用するようになった。これにより、エラー処理と安全なコミットという点で安全性を強化できるとしている。また、すべてのLuceneセグメントで、セグメント単位/コミット単位でのユニークなIDを保存するようになった。これによってインデックスファイルの複製の精度を強化できるとしている。このほか、IndexWriterも強化し、マージ時に破損をチェックするようになった。

 IndexWriterマージ時のヒープ使用量も削減された。これは最新の「Lucene50Codec」の利用によるものだという。また、random-writableやスパースビットセットのRoaringDocIdSetとSparseFixedBitSetのサポートにより、これらをインデックス内のドキュメントではなく制御ビットで設定できるようになっている。ヒープ使用量を把握するためのツリー構造を表示するAPIも加わっている。

 これらに加えて、メモリインデックスでのペイロードのサポート、保存されたフィールドのマージ効率化などの強化や、FieldCache、NormsFormat、PostingsFormat、ConcurrentMergeSchedulerといった多くの機能改善なども行われている。

 Solr 5.0では使い勝手を強化したほか、Linux上でSolrをサービスとしてインストール・運用するスクリプトも加わった。

 Apache Lucene 5.0とApache Solr 5.0はプロジェクトのWebサイトより入手できる。

Apache Lucene
http://lucene.apache.org/

Apache Solr
http://lucene.apache.org/solr/