分散データストリーミングプラットフォーム「Apache Kafka 1.0.0」リリース
分散ストリーミングプラットフォーム「Apache Kafka」開発チームは11月1日、「Apache Kafka 1.0.0」を発表した。企業での利用に向けた拡張性と信頼性の強化、性能の改善などが特徴となる。
Apache KafkaはScalaとJavaで実装された分散ストリーミング処理のためのプラットフォーム。ビックデータ処理に使われることが多く、データのパブリッシュとサブスクライブ、データストリームの保存と処理といった機能を持つ。高スループットと低遅延、フォールト・トラレントを特徴とし、リアルタイムのデータフィードを処理できる。数千台のクライアントで構成される環境で毎秒数百メガバイド級のデータの読み込みと書き出しが可能としている。元々はLinkedInが開発し、2012年にApache Software Foundationに寄贈した。
1.0では、「exactly-once semantics」とするメッセージを一度のみやりとりする仕組み(バージョン0.11で導入)をさらに改善した。Java 9サポートによりCRC32C、TLSも高速化し、シャットダウンも高速になった。JBODのサポートも改善した。
企業が運用環境でKafkaを利用できるよう、大規模でのデータストリームのパブリッシュとサブスクライブ、データストリームのリアルタイム処理などエンタープライズ級の拡張性も取り入れたという。バグも修正し安定性を強化した。
Apache Kafka 1.0はプロジェクトのWebサイトより入手できる。
Apache Kafka
https://kafka.apache.org/