米Netflix、Amazonクラウド上でのHadoopの運用管理サービス「Genie」を公開

 米Netflixは6月21日、Amazon Web Service(AWS)クラウド上に構築された「Apache Hadoop」を管理するソフトウェア「Genie」をオープンソースで公開した。Hadoopや「Apache Hive」、「Apache Pig」のジョブを実行したりHadoopリソースの管理を行うためのRESTful APIを提供するもので、動的なリソース管理が可能になるという。

 Netflixはビデオストリーミングサービスなどを提供する企業。同社はサービスの運用に「Amazon S3」などAWSのクラウドサービスを多用、クラウド上に多数のHadoopを構築しており、それらを管理するために自社で開発したツールをオープンソースで公開している。今回公開されたGenieは「HadoopベースのPaaS」との位置付けで、Netflixがすでに公開している「Karyon」(ブートストラップ、ランタイムの診断などの機能を持つフレームワーク)や「Eureka」(サービス登録と発見)、「Archaius」(クラウドで動的にプロパティ管理ができる設定管理API)といったソフトウェアをベースに構築されている。これらを利用することで、Hadoopクラスタを新たにプロビジョニングすることなくHadoopやHive、Pigジョブをスタートしたり、クライアントをインストールできるという。クラスタの登録のための管理サービス機能も提供する。

 数ヶ月前からNetflixでは運用環境でGenieを利用しており、毎日数百単位のHadoopジョブ、数百テラバイトのデータを処理しているという。ワークフローのスケジューリング機能はないため、「Oozie」などのワークフロースケジューラーやタスクスケジューラーとは異なると説明している。

 GenieはGitHubのプロジェクトページより入手できる。ライセンスはApache License 2.0。

米Netflix
http://www.netflix.com/

Genie
https://github.com/Netflix/genie