カラムナフォーマットが安定扱いとなった「Apache Arrow 1.0」が公開

 インメモリアナリティクス向けクロス言語開発プラットフォーム「Apache Arrow」開発チームは7月24日、最新のメジャーリリースとなる「Apache Arrow 1.0.0」を公開した。

 Apache Arrowは言語非依存型のインメモリデータ処理プラットフォームで、これを利用して大規模なデータセットの処理と転送ができる高速アプリケーションを構築できる。言語に依存しないインメモリデータ構造仕様やシリアル化プロトコルを含むカラムナメモリフォーマット、C/C++/C#、Go、Java、JavaScript、Python、MATLAB、R、Ruby、Rustのライブラリも備える。

 Apache Arrow 1.0について開発チームは、バージョン番号は1.0だが18回目のメジャーリリースと説明している。1.0はカラムナフォーマットがバイナリ安定となり、セマンティックバージョニングの下で公開される初のリリースとなる。

 安定扱いとなったことで後方互換も約束されるカラムナフォーマットでは、メタデータバージョンがV5となった。ディクショナリのインデックスでは、符合付き整数だけでなく、符号のない整数もサポートした。

 特定のオプション機能をIPCストリームで使うための”Feature”列挙型が加わった。IPCフォーマットで、オプションとしてLZ4またはZStandardを使ったバッファ圧縮が可能になった。

 このほかにも、多数の機能強化が加わっている。

Apache Arrow
https://arrow.apache.org