バッチとストリーミング処理のための分散処理ツール「Apache Beam」がトップレベルプロジェクトに
Apache Software Foundation(ASF)は1月10日(米国時間)、分散処理ツール「Apache Beam」がトップレベルプロジェクト(TLP)となったことを発表した。
Apache Beamは、バッチとストリーミング処理の両方を任意の実行エンジンで動かすことができるユニファイドプログラミングモデルを提供するソフトウェア。Apache SparkやApex、Apache Flink、Google Cloud Dataflowなどの実行環境を利用でき、PythonとJavaでデータ処理パイプラインを定義できるSDKを含む。拡張性にも優れるとしている。
当初はGoogleでMapReduceシステムの流れを汲むデータ処理の取り組みの一部として開発されたもので、2016年1月にApache Software Foundation(ASF)に寄贈された。
GoogleはApache Beamを利用するランナーや利用者の増加によってApache Beamの機能開発を進めることができるとし、ASFに寄贈した理由としてオープンなコミュニティとエコシステムの構築を挙げている。
350以上のオープンソースソフトウェアプロジェクトを擁するASFでは、最初にIncubatorとしてインキュベーションからスタートする。今回、プロジェクトのガバナンスモデルやコミュニティの活発さなどを評価してトップレベルプロジェクト(TLP)となった。プロジェクトによると、ランナー、I/Oコネクタの追加などの貢献が活発であり、他のプロジェクトや組織より高い関心があるとしている。
Apache Beamの最新版は1月9日に公開されたバージョン0.4で、Apache Apex向けのランナーが加わっている。今後については、コアの抽出層を拡張して複雑なデータ処理パターンを直感的なAPIにする作業を進め、同時にストレージ/メッセージシステムと実行エンジンとの相互接続機能を開発していくとしている。
Apache Beam
https://beam.apache.org/