高速なデータ処理を実現する「Apache Spark」、ASFのトップレベルプロジェクトに

 非営利団体Apache Software Foundation(ASF)は2月27日(米国時間)、大規模データ処理のためのフレームワーク「Apache Spark」をトップレベルプロジェクト(TLP)とすることを発表した。Apache Sparkは米カリフォルニア大学バークレー校のAMPLabで開発された分散コンピューティングフレームワーク。

 Apache Sparkは高度なDAG実行エンジンを持ち、インメモリで利用した場合での比較では「Apache Hadoop」のMapReduceよりも100倍高速、ディスクで利用した場合での比較でも10倍高速という。2013年6月にASF傘下となり、これまではインキュベーター(孵化段階)のプロジェクトとして開発が進められてきた。すでに米Yahoo!、米IBM、米Intel、米Clouderaなどでの利用実績があり、ASFの下でインキュベーションプロジェクトとなって以来、120人以上の開発者からの貢献があったという。最新盤は2月に公開されたバージョン0.9。

 開発者はJava、Python、ScalaなどからAPIを経由してApache Sparkを利用できる。SQL向けのShark、マシン学習のMLib、GraphX、Spark Streamingといったツールとの組み合わせも可能。Hadoopがバージョン2で導入した「YARN」を利用すればインストール作業なしに動かすことができ、既存のHadoopデータを読み込むこともできる。スタンドアロンだけでなく、クラスタマネージャー「Apache Mesos」を利用することでAmazon AWS(EC2)上でも動くという特徴もある。Hadoopのほか、HDFS、HBase、Cassandraにも対応する。マシン学習、インタラクティブなクエリ、ストリーム処理などの用途に適しているという。

 Apache SparkはプロジェクトのWebサイトより入手できる。

Apache Spark
http://spark.apache.org/

Apache Software Foundation(ASF)
http://www.apache.org/