「Apache Spark 1.4」リリース。R言語やPython 3を新たにサポート
大規模なデータ処理向けの高速・汎用エンジン「Apache Spark」開発チームは6月11日、最新版「Apache Spark 1.4」をリリースした。統計解析で利用されるR言語のサポートが初めて導入されたほか、Python 3のサポートが加わった。
Apache Sparkはビックデータ処理のためのプラットフォームで、高度なDAG実行エンジンにより、インメモリでHadoop MapReduceの100倍、オンディスクで10倍高速に処理できるとうたう。JavaやScala、Pythonでアプリケーションを開発でき、Spark SQL、MLlib、GraphX、Spark Streamingなどのツールが利用可能。Apache Hadoop、Apache Mesos上で動くほか、スタンドアロンだけでなくクラウドでも実行でき、HDFSやCassandra、HBase、Amazon S3などのデータソースへのアクセスも可能。
Spark 1.4は2014年6月に公開された1系の4回目のリリースとなり、70以上の企業や組織から210人以上の開発者が貢献したという。
Spark向けRバインディングであるSparkRの導入により、R言語をサポートした。最新のDataFrame APIをベースとしたもので、R言語のユーザーはSparkのスケールアウト型並列ランタイム、インプット・アウトプットフォーマットを利用でき、Spark SQLに直接アクセスできるようになる。
Spark Coreも強化され、Spark DAGとオペレーションモニタリングの視覚化、Python 3サポート、アプリケーション情報向けのREST APIなどが加わった。Spark Coreではまた、ハードウェア側の強化を活用するTungstenプロジェクトの初期実装により、性能も改善するという。
DataFrame APIでは解析や数学的機能にフォーカスした強化が加わり、Spark SQLではORCFileのサポート、新しいオペレーションツールなどが加わった。
Spark 1.4はプロジェクトのWebサイトより入手できる。
Apache Spark
https://spark.apache.org/