オープンソースの大規模データ向けデータ分析ツールセット「Data Science Toolkit」発表

 元Appleの開発者Pete Warden氏は3月23日、大規模データ向けのデータ分析ツールプロジェクト「Data Science Toolkit」を発表した。複数のオープンソース技術やデータベースを組み合わせてREST/JSONインターフェイスで利用できるようにしたもので、即座に利用できるよう環境が構築された仮想マシンイメージが提供されている。

 Data Science Toolkitは、大規模データセットの加工やデータ解析を自動化できるツール集。住所データベース「Geocoder」などのオープンなデータ集や、テキスト抽出ツール「Bilerpipe」などを組み合わせ、REST/JSONインターフェイスで利用できるようになっている。インターフェイスや各種コマンドラインツールはPythonとJavaScriptで構築されている。

 Data Science Toolkitはカスタム化されたUbuntuディストリビューションとして提供される。これにより設定時間を削減でき、一部の開発者しか使えない便利なツールをより多くの開発者が利用できる、とWarden氏は説明している。また、必要に応じてインスタンスを増加できるクラスタとして運用できるため、拡張性もあるという。

 現在バージョン0.3で、GPLの下でGithubでソースコードを公開している。仮想マシンに加え、Amazon Elastic Compute Cloud(EC2)イメージとしても配布される。

 Warden氏は元Apple社員で、先にFacebookの2億人分の公開プロフィールからデータを収集したことでも知られる。

Data Science Toolkit
http://www.datasciencetoolkit.org/about