「Apache Spark 2.2.0」リリース、Structured Streamingが正式機能に

 Apache Spark開発チームは7月11日、大規模なデータ処理向けの分散処理フレームワークの最新版「Apache Spark 2.2.0」を発表した。「Structured Streaming」機能が正式扱いとなり、安定性も強化した。

 Apache Sparkは大規模なデータ処理向けエンジンで、分散並行処理により高速なクラスタコンピューティングを実現する。DAG実行エンジンを含み、Hadoop MapReduceよりもインメモリで100倍、ディスクで10倍高速など高速性を特徴とする。SQL、DataFrames、機械学習向けのMLib、GraphX、Spark Streamingなどのライブラリを備え、Java、Scala、Python、Rでアプリケーションを作成できる。Hadoop、Mesos、スタンダロンで動かすことができ、Amazon EC2などクラウドでも利用できる。

 Apache Spark 2.2は、2016年7月に公開されたApache Spark 2系の3回目のリリースとなる。2.0で実験導入したStructured Streamingが正式扱いとなった。Structured StreamingはSpark SQLエンジン上に構築した拡張性がありフォルトトレラントなストリーミング処理エンジン。Sparkのバッチベースのデータ処理と同じようにデータストリームを処理できる。

 このほか、コアで安定性にフォーカスした機能強化を図った。ライブラリも強化し、例えばMLibではDataFrameベースのAPIで新しいアルゴリズムが加わったほか、PythonとRの両API向けに既存のアルゴリズムを追加した。

 Apache Spark 2.2はプロジェクトのWebサイトより入手できる。合わせて、pypiでApache Spark Python APIのPySparkもバージョン2.2も公開している。

Apache Spark
https://spark.apache.org/