「Apache Spark 1.4」リリース。R言語やPython 3を新たにサポート

 大規模なデータ処理向けの高速・汎用エンジン「Apache Spark」開発チームは6月11日、最新版「Apache Spark 1.4」をリリースした。統計解析で利用されるR言語のサポートが初めて導入されたほか、Python 3のサポートが加わった。

 Apache Sparkはビックデータ処理のためのプラットフォームで、高度なDAG実行エンジンにより、インメモリでHadoop MapReduceの100倍、オンディスクで10倍高速に処理できるとうたう。JavaやScala、Pythonでアプリケーションを開発でき、Spark SQL、MLlib、GraphX、Spark Streamingなどのツールが利用可能。Apache Hadoop、Apache Mesos上で動くほか、スタンドアロンだけでなくクラウドでも実行でき、HDFSやCassandra、HBase、Amazon S3などのデータソースへのアクセスも可能。

 Spark 1.4は2014年6月に公開された1系の4回目のリリースとなり、70以上の企業や組織から210人以上の開発者が貢献したという。

 Spark向けRバインディングであるSparkRの導入により、R言語をサポートした。最新のDataFrame APIをベースとしたもので、R言語のユーザーはSparkのスケールアウト型並列ランタイム、インプット・アウトプットフォーマットを利用でき、Spark SQLに直接アクセスできるようになる。

 Spark Coreも強化され、Spark DAGとオペレーションモニタリングの視覚化、Python 3サポート、アプリケーション情報向けのREST APIなどが加わった。Spark Coreではまた、ハードウェア側の強化を活用するTungstenプロジェクトの初期実装により、性能も改善するという。

 DataFrame APIでは解析や数学的機能にフォーカスした強化が加わり、Spark SQLではORCFileのサポート、新しいオペレーションツールなどが加わった。

 Spark 1.4はプロジェクトのWebサイトより入手できる。

Apache Spark
https://spark.apache.org/