性能を強化した「Apache Spark 1.5」がリリース

 オープンソースのインメモリデータ処理フレームワーク「Apache Spark」開発チームは9月9日、最新安定版となる「Apache Spark 1.5.0」を公開した。性能の強化に重点を置いたリリースとなる。

 Apache Sparkは大規模なデータ処理向けのエンジンで、高速性、汎用性などを特徴とする。Apache Hadoop、Apache Mesos上で動き、スタンドアロン、クラウドでも利用できる。DAG実行エンジンによりインメモリのHadoop MapReduceと比較すると100倍、オンディスクで10倍の高速化を図れるほか、SQL、ストリーミング、MLibやGraphXなどの組み合わせも可能。データソースとしてはApache CassandraやHBase、HDFS、Amazon S3などが利用できる。

 Apache Spark 1.5は6月に公開されたバージョン1.4に続く最新版となり、230人を上回る開発者から1400以上のパッチが提出されたという。

 本バージョンでは、「Project Tungsten」として進めている性能改善の取り組みの成果を反映させた。Java仮想マシンにおけるガベージコレクションやメモリ管理システムが速度の面で足を引っ張っているとし、これを回避するためにバージョン1.4よりこのプロジェクトを立ち上げ開発を進めてきた。一部のコードを書き直すことでボトルネックを回避し、CPUキャッシュメモリを直接利用できるようになっているという。また、DataFrame/SQLで集計、結合などが強化されている。

 Mesos、Hive、Hadoopとの統合も強化され、クラスタ管理のサポートが改善された。たとえばMesosではフレームワーク認証とMesosの役割をサポートするなどの強化が加わり、スタンダロンのクラスタマネージャでは動的なリソース配分をサポートした。R言語でもYARNクラスタモードのサポートが加わり、エラーメッセージを改善するなどの改善が図られている。

 このほか、マシン学習と分析、ストリーミングなどでも細かな機能強化が加わっている。Apache SparkはプロジェクトのWebサイトより入手できる。

Apache Spark
https://spark.apache.org/