米Netflix、AWSに対応するクラウドインフラ向け障害テストツール「Chaos Monkey」をリリース

 ネットを利用したビデオレンタルサービス大手の米Netflixは7月30日、Amazonクラウドインフラストラクチャ向けの障害テストツール「Chaos Monkey」をオープンソースソフトウェアとして公開した。クラウドインフラストラクチャ内での障害を意図的に発生させるツールで、アプリケーションの耐障害性をテストできるという。

 Chaos MonkeyはAmazon Web Services(AWS)クラウドでホストされている環境の耐障害性をテストするシステム。インターネット経由でのDVDレンタルサービスやオンラインでの動画ストリーミングサービスを展開しているNetflixはクラウドを多用してシステムを構築しており、さまざまな障害シナリオに対応するために開発したという。

 Chaos Monkeyはクラウドシステムで運用中のインスタンスをランダムに無効にし障害を引き起こす機能を持つ。これにより、アプリケーションが設計通りに動くかどうかを確認できるという。実際にNetflix社内で活用されており、昨年一年で運用・テスト環境にあるインスタンス65000以上を終了させたという。柔軟性のあるアーキテクチャを持ち、AWS以外のクラウドサービスでも動くとしている。障害問題を解決して学習できるよう、デフォルトでは平日の午前9時から午後3時に動くよう設定されている。

 デフォルトではAWSのAuto Scaling Groups(ASG)を利用し、ASG内でランダムにインスタンスを選んで終了、ASGがこれを検出して自動的に新しいインスタンスを作成するかどうかをテストできる。対象とするインスタンスはオプトイン/オプトアウト方式であらかじめ選択できる。ライセンスはApache License 2.0。

米Netflix
http://www.netflix.com/

Netflixのプロジェクトページ
https://github.com/Netflix/SimianArmy