データセンターのサーバを効率よく管理する――IIJのサーバ運用術
――IIJのアプリケーションサービス部で提供しているサービスについて教えてほしい。
アプリケーションサービス部は、法人向けのサービス・ソリューションを提供する部署です。扱っているサービスとしては、Webやストリーミング、メールなど、企業が必要とするさまざまなサービスを提供しています。また、他事業部で展開しているファイアウォールや不正アクセス対策などのセキュリティ・サービス、ネットワークマネージメント(SMF)などのバックエンドシステムの構築、ホスト運用を行っています。
――どれくらいの台数のサーバを運用しているのか?
開発用やテスト用のサーバを含め数千台のサーバを運用していますが、そのうち、約3分の1がNECの1U ハーフサーバです。
――NECの1Uハーフサーバはどのようなサービスで使われているのか。
1Uハーフサーバは、特定のサービスというよりは、さまざまなサービスのフロント系サーバとして幅広く利用しています。法人向けサービスでの利用が多いのですが、IIJ4UやIIJmioといった個人向けISPサービスでも相当な台数を使っています。
――1Uハーフサーバの導入経緯を教えてほしい。
それまでIIJでは産業用マザーボード(PICMGボード)を組み込んだサーバを大量に使用していました。5Uサイズに4システムを収容できる特注サーバです。このサーバ群のリース期間(4年間)終了に合わせてリプレース候補を探していたことに加え、そのころ新しいデータセンターを構築することになったので、大量のサーバを一括導入する必要がありました。そうしたタイミングでNECの1Uハーフサーバ「i110Ra-1h」が発売され、徐々に導入を始めてこれまでの台数になりました。
――リプレースおよび新規導入時のサーバへの要件はどのようなものだったのか?
まず、入手性がよいことを考慮しました。データセンター新設のタイミングにぶつかったこともありますが、そうでない場合でも顧客からの急な要望でサーバを増設することが間々あります。それに応えるためには、まとまった台数を短期間で調達できる必要があります。もともと使用していた特注サーバはこの点で難がありました。また、比較的割高になってしまうことも難点でした。
それと、低消費電力であることも重要な条件です。特注サーバは当時の一般的なメーカー製1Uサーバの半分程度の消費電力でしたので、最低限そのレベルは維持したいと考えていました。
こうした要望にマッチしたのがNECの1Uハーフサーバだったわけです。
――ブレードサーバなどは候補にならなかったのか?
実はすでに第一世代のブレードサーバを数社から導入していたのですが、2.5インチハードディスクの故障の多さに悩まされていました。それに、ブレードサーバは集積率を高められますが、実際には電源容量が制約となってブレードサーバをラックにぎっしりと詰め込むことはできません。そして、信頼性の高い上位機種のブレードサーバは割高です。NECの1Uハーフサーバを導入した背景には、この第一世代のブレードサーバのリプレースという理由もあります。
低消費電力で入手性が良く、しかも安価であるということで1Uハーフサーバを選んだわけですが、最初に発売された「i110Ra-1h」には機能的な物足りなさを感じていました。ちょうどそのころ、NECの担当者がヒアリングに来てくれたわけです。そこでリモートからの電源制御とECCメモリへの対応などといった要望を出しました。メモリエラーが発生するとトラブル原因の切り分けが難しくなるので、「メモリはECC付きでないと……」という技術者がIIJにはかなりいます。このヒアリングのときに出した要望(リモート電源制御とECCメモリへの対応)が2006年9月発売の「i110Rb-1h」で実現されていたため、大量導入することになりました。
現在IIJで稼働している1Uハーフサーバのうち、半分以上が「i110Rb-1h」です。
――サーバ管理者の陣容は?
アプリケーションサービス部は、Web系のサービス(ストリーミングなどを含む)を扱う部署、メール系サービスを扱う部署、それ以外のサービスを扱う部署の3つの部署に分かれています。サポートや営業支援といった業務に就いている者を除くと、30名弱でサービス・ホストの運用を行っています。
――どのようなサーバ監視体制を敷いているのか?
SNMPを使った独自の監視システムを構築してあり、各サービス・ホストで稼働しているsnmpd(NET-SNMP)から情報を収集して、稼働状況を把握できるようになっています。最近導入するサーバはPCサーバとLinuxという組み合わせが多いのですが、SPARC/Solarisでしか動作しないようなアプリケーションもありますし、FreeBSDもたくさん使っているので、異機種混在環境になっています。独自のシステムを構築しているのは、OSやアーキテクチャに依存しない監視システムが必要だからです。
――SNMP経由で検知した障害にはどのように対処しているのか?
障害が発生した場合、ネットワーク経由でログインして制御できればよいのですが、OSのネットワーク機能がダウンしたり、OS自体が反応しなかったりする場合は強制的に電源を制御する必要があります。IIJではそうした電源制御をリモートから行うために、UNIXサーバはシリアルコンソールを設定しておくというポリシーがあります。ただし、PCサーバ、特にフロント系に使われる軽量サーバにはシリアルコンソール経由で電源制御できる機種がほとんどありませんでした。先ほど触れた特注サーバもリモートからの電源制御ができません。そのため、こうしたサーバでは手動での電源リセットをデータセンター側のスタッフに依頼しています。この場合、依頼してから実際にリセットされるまで30分くらいかかることもあります。
一方、「i110Rb-1h」に搭載されているBMC(Baseboard Management Controller)のEXPRESSSCOPEエンジンはIPMI 2.0に対応していて、Serial over LAN(シリアルコンソールと同等の制御をネットワーク経由で可能にする機能)が利用できます。現在導入済みの「i110Rb-1h」の半数くらいは、Serial over LANを使って電源制御できるようにしてあります(下図参照)。具体的には、ipmitoolとDHCPサーバをインストールした踏台ホストがあり、サービス・ホストはマネージメント・ポートを経由してDHCPでIPMIネットワークに接続されています。サービス・ホストの電源を制御する必要があるときは、いったん踏台ホストにログインして、ipmitoolコマンドで制御命令を発行します。
図:IPMIネットワークのイメージ |
---|
各サービス・ホストはDHCPでIPMIネットワークに接続。踏台ホストからipmitoolを使うことで機器の電源オン/オフやSerial over LANを実施。 |
Serial over LANにはコスト面でのメリットもあります。シリアルコンソールを敷設する場合、中継器の費用も含めるとポート単価が1万円以上になります。サーバ自体が安くなっているとはいえ、台数が増えるとかなりコストがかかります。Serial over LANはそこそこのスイッチを用意すれば利用できるので、ポート単価はシリアルコンソールよりもずっと安価です。もちろん、サーバがSerial over LANに対応している必要はありますが。なお、IPMIではファンや温度、ディスクの状態といったハードウェア情報も収集できますが、IIJでは監視にはSNMPを使い、IPMIは専ら電源オン/オフなどの制御に使用しています。
現状ではデータセンター側に依頼しなければ電源制御のできないサーバもまだまだ残っていますが、徐々にリモートから電源制御ができるサーバに入れ替えていきたいと考えています。
――今後のiモデルへの要望を聞かせてほしい。
ハードディスクのホットスワップにはぜひ対応してほしいですね。すでに上位機種(Xeon搭載の「i110Rh-1」、「i120Rg-1」)は対応しているようですが、フロント系サーバとして1Uハーフサーバを重宝している立場から言わせてもらうと、そこまでの処理能力はいらないので、1Uハーフサーバが低消費電力のままでホットスワップに対応してくれるとありがたいですね。
IIJインフォメーションセンター
TEL:03-5205-4466
FAX:03-5205-4460
E-mail:info@iij.ad.jp
NEC 8番街
http://nec8.com/
iモデルの情報満載! 「NEC iモデル Wiki」
http://sourceforge.jp/projects/nec-imodel/wiki/