ストリーム処理フレームワーク「Apache Flink 1.3」リリース

　オープンソースのストリーム処理フレームワーク「Apache Flink」開発チームは6月1日、「Apache Flink 1.3.0」を発表した。

　Apache Flinkは分散型データストリーミングアプリケーション向けのストリーム処理フレームワーク。アプリケーション、センサーやデバイス、ファイルシステムやストレージ、メッセージログなどからのストリーミングデータを高速に処理できる。信頼性、高可用性、拡張性などの特徴を持ち、Alibaba.com、Ericsson、ResearchGateなど多数の事例をもつ。

　Apache Flinkは4か月の開発・リリースサイクルを持ち、1.3は3月に公開されたバージョン1.2に続く最新版となる。この間、680のイシューを解決したという。

　Key-ValueストアのRocksDBに向けたインクリメンタルなチェックポイント機能が加わった。全体のステートではなく差分のみをチェックポイントすることで、データ復帰の高速化を図れるとしている。また、ヒープベースのステートバックエンド向けに非同期スナップショット機能が加わった。Copy-on-Write HashMap実装を使ったもので、遅いストレージシステムやシリアル化に対し耐障害性を強化できるという。

　アプリケーションのステートを維持しつつシリアライザをアップグレードできるようになった。オペレーターのステートなどを管理するのに用いるカスタムのシリアライザのアップデートなどで有効な機能としている。タスク失敗時の復旧も改善されている。

　このほか、DataStream API、Table API/SQLなども強化した。また、Dynamic Tablesでの継続的クエリ対応としてRetraction（リトラクト、撤回）をサポートした。本バージョンでは非ウィンドウアグリゲーションの撤回も可能となった。

　実装とツール関連では、ジョブの統計のクエリができるHitoryServerが加わった。WebフロントエンドJobManagerでのウォーターマーク問題の診断も強化した。メトリクスシステムDatadogにhttpエンドポイントで直接接続するレポーター機能も加わっている。

Apache Flink
https://flink.apache.org/