分散処理フレームワーク「Apache Beam 2.0」リリース、APIが安定版扱いに

 非営利団体Apache Software Foundationは5月17日(米国時間)、「Apache Beam 2.0.0」を発表した。APIの安定性を約束する初の安定版としている。

 Apache Beamは、バッチとストリーミングデータ処理を任意の実行エンジンで動かすユニファイドプログラミングモデルを提供する分散処理フレームワーク。JavaとPython向けにデータ処理パイプラインを定義できるSDKを用意する。並列データ処理、ETLなどのタスクに適しているという。Google Cloud、PayPal、Talendなどが利用している。

 Googleが2016年1月にApache Software Foundation(ASF)に寄贈、プロジェクトは1月にのASFのトップレベルプロジェクト(TLP)となっている。

 Apache Beam 2.0は安定版リリースという位置付けで、今後のAPIの安定性が約束されている。ユーザー体験を強化し、エンジン、OS、オンプレミスクラスタ、クラウド、データストレージシステムなどさまざまな実行環境で、シームレスな移植性を提供する。

 ステートフルデータ処理パラダイムを導入したほか、Hadoop Distributed File System(HDFS)のサポートなどユーザーが拡張できるファイルシステムもサポートした。パイプラインの実行の深い洞察を得られるメトリクスサブシステムも加わった。

 Apache Beam 2.0はプロジェクトのWebサイトより入手できる。

Apache Beam
https://beam.apache.org/