ASFのトッププロジェクトとなった「Apache Nutch」、バージョン1.1を公開
Apache Software Foundation(ASF)のApache Nutchプロジェクトは6月19日、オープンソースのWeb検索ソフトウェア「Apache Nutch 1.1」の公開を発表した。ソースコードとバイナリをプロジェクトのWebサイトよりダウンロードできる。
Apache Nutchは、「Apache Lucene」のサブジェクトとしてスタートしたWeb検索ソフトウェア。2010年4月、ASFのボードメンバーが新たに承認したトップレベルプロジェクト(TLP)の1つとなっている。
大規模なWeb検索向けの拡張性のあるフレームワークで、Lucene/Solrを土台に、WebページやPDFファイル、その他ドキュメント向けのパーサー、クローラー、リンクグラフ・データベースを付け加えた。MapReduceのJava実装「Hadoop」やコンテンツ検出「Tika」などと統合可能で、コンテンツと関連情報のパーシング、メタデータのインデックス化などの機能を持つ。
バージョン1.1は、2009年3月にバージョン1.0が公開されて以来のメジャーアップデートととなる。バグの修正のほか、インターフェイスの改善など細かな機能が改善されている。Lucene 3.0.1、Hadoop 0.20など、対応ソフトウェアもアップグレードした。
Apache Nutch
http://nutch.apache.org/