米Google、データクリーニングツール「Google Refine 2.0」をリリース
米Googleは11月10日、データクリーニングツール「Google Refine 2.0」を公開した。一貫性のないデータセットのクリーニング、分析、フォーマット変換などができるという。Google Codeのプロジェクトページから入手できる。
Google Refineは、Googleが2010年7月に買収した米Metawebのオープンソースデータセットクリーニングツール「Freebase Gridworks」をベースとする。今回名称を変えてバージョン2.0として公開した。ライセンスは修正BSDライセンス。
同じ種類のデータに対しさまざまな用語を持つデータセット内の用語を統一するなど、一貫性のないデータをクリーニングできる。コード作成は不要で、容易にデータをソートできるという。
最新版は新しい拡張アーキテクチャを持ち、標準的な照合サービスにプラグインできる照合フレームワークを導入した。JSONに対応した表現言語「Google Refine Expression Language(GREL)」、インポート機能(JSON、CSV、TSV)なども加わった。データフォーマットの変換、外部Webサービスへの拡張、「Freebase」などのデータベースとのリンクなども可能という。
米Google
http://www.google.com/
Google Refine
http://code.google.com/p/google-refine/