米Google、データクリーニングツール「Google Refine 2.0」をリリース

 米Googleは11月10日、データクリーニングツール「Google Refine 2.0」を公開した。一貫性のないデータセットのクリーニング、分析、フォーマット変換などができるという。Google Codeのプロジェクトページから入手できる。

 Google Refineは、Googleが2010年7月に買収した米Metawebのオープンソースデータセットクリーニングツール「Freebase Gridworks」をベースとする。今回名称を変えてバージョン2.0として公開した。ライセンスは修正BSDライセンス。

 同じ種類のデータに対しさまざまな用語を持つデータセット内の用語を統一するなど、一貫性のないデータをクリーニングできる。コード作成は不要で、容易にデータをソートできるという。

 最新版は新しい拡張アーキテクチャを持ち、標準的な照合サービスにプラグインできる照合フレームワークを導入した。JSONに対応した表現言語「Google Refine Expression Language(GREL)」、インポート機能(JSON、CSV、TSV)なども加わった。データフォーマットの変換、外部Webサービスへの拡張、「Freebase」などのデータベースとのリンクなども可能という。

米Google
http://www.google.com/

Google Refine
http://code.google.com/p/google-refine/