オープンソースのストレージフレームワーク「Delta Lake 2.0」が公開

 オープンソースのストレージフレームワーク「Delta Lake」開発チームは8月2日、最新のメジャーリリースとなる「Delta Lake 2.0」を発表した。

 Delta Lakeはオープンソースのストレージフレームワークで、Apache Sparkをはじめとしたコンピュートエンジンを持つLakehouseアーキテクチャを構築できる。米Databricksが開発の中心となっており、The Linux Foundationのサブプロジェクトとして運営されている。ライセンスはApache License 2。

 Delta Lake 2.0は、2021年5月に公開されたバージョン1.0に続くメジャーリリース。Apache Spark 3.2をサポートする。Deltaテーブルのバージョン間で行レベルの変更を追跡するChange Data Feed(CDF)が加わった。有効にすると、テーブルに入力した全てのデータのイベント変更をランタイムが記録する。

 Z-Orderingクラスタリングと列の統計によるデータスキップをサポートした。クエリで最もよく使われるフィルタでのクラスタリングによりデータの読み込みデータ量を削減でき、クエリの性能を改善できる。ストリーミングクエリで、任意の変換後にマイクロバッチのアウトプットで実行する関数を特定できるforeachBatchコマンドが加わった。このほか多数の機能強化が加わっている。

Delta Lake
https://delta.io