分散データストリーム向けプラットフォーム「Apache Flink 0.10」リリース
Apache Flink開発チームは11月16日、分散ストリームとバッチデータ処理向けプラットフォーム「Apache Flink 0.10.0」をリリースした。
Apache Flinkは分散ストリームとバッチデータ処理のためのオープンソースのプラットフォーム。データのディストリビューションと通信、分散コンピュータ上のデータストリームのフォールトトレランスといった機能を持つストリーミングデータフローエンジンを中核とし、DataSet API、DataStream API、Table APIなどのAPIを備える。0.9では機械学習ライブラリとグラフ処理APIとライブラリの「Gelly」も導入した。
0.10は、6月に公開された0.9に続くリリース。Apache Flinkを実運用環境で利用できるよう、データストリーム処理とオペレーション関連の機能にフォーカスした。約80人の開発者が参加し、合計で400以上のJIRAチケットを解決したとしている。
本バージョンでの新機能としては、イベントのタイムスタンプに対応するEvent-time Stream Processingや、演算子のステートの定義、更新、クエリのためのインターフェイスを提供するStageful Stream Processingなどがある。
また、長期にわたって利用されるストリーム処理アプリケーションのため、スタンダロンのクラスタとYARN設定向けに高可用性モードをサポートした。Apache Zookeeperを利用するもので、単一障害ポイントの発生を防ぐことを目指す。
DataStream APIはベータ段階から脱し正式サポート扱いとなった。ストリームパーティショニングとウィンドウオペレーションのためのメソッドを中心に変更が加わっている。
データストリーム向けのコネクタも加わり、HDFS、Amazon S3などのファイルシステム向けの一度きりのローリングファイルSinkをサポートした。Apache Kafka対応も強化し、新しいプロデューサーAPIが加わり、ElasticSearchやApache Nifi向けのコネクタが加わった。
モニタリングダッシュボードも強化し、動作中のジョブの経過を視覚的に表示したり、処理されたデータボリュームの状態をリアルタイムで表示可能となった、リソースの利用やJVMに関するデータにもアクセスできる。
このほか、Gellyの強化とScala APIの導入、DataSet APIでの外部結合の導入など多数の機能が加わっている。
Apache Flink
https://flink.apache.org/