ストリーム処理フレームワーク「Apache Flink 1.3」リリース

 オープンソースのストリーム処理フレームワーク「Apache Flink」開発チームは6月1日、「Apache Flink 1.3.0」を発表した。

 Apache Flinkは分散型データストリーミングアプリケーション向けのストリーム処理フレームワーク。アプリケーション、センサーやデバイス、ファイルシステムやストレージ、メッセージログなどからのストリーミングデータを高速に処理できる。信頼性、高可用性、拡張性などの特徴を持ち、Alibaba.com、Ericsson、ResearchGateなど多数の事例をもつ。

 Apache Flinkは4か月の開発・リリースサイクルを持ち、1.3は3月に公開されたバージョン1.2に続く最新版となる。この間、680のイシューを解決したという。

 Key-ValueストアのRocksDBに向けたインクリメンタルなチェックポイント機能が加わった。全体のステートではなく差分のみをチェックポイントすることで、データ復帰の高速化を図れるとしている。また、ヒープベースのステートバックエンド向けに非同期スナップショット機能が加わった。Copy-on-Write HashMap実装を使ったもので、遅いストレージシステムやシリアル化に対し耐障害性を強化できるという。

 アプリケーションのステートを維持しつつシリアライザをアップグレードできるようになった。オペレーターのステートなどを管理するのに用いるカスタムのシリアライザのアップデートなどで有効な機能としている。タスク失敗時の復旧も改善されている。

 このほか、DataStream API、Table API/SQLなども強化した。また、Dynamic Tablesでの継続的クエリ対応としてRetraction(リトラクト、撤回)をサポートした。本バージョンでは非ウィンドウアグリゲーションの撤回も可能となった。

 実装とツール関連では、ジョブの統計のクエリができるHitoryServerが加わった。WebフロントエンドJobManagerでのウォーターマーク問題の診断も強化した。メトリクスシステムDatadogにhttpエンドポイントで直接接続するレポーター機能も加わっている。

Apache Flink
https://flink.apache.org/