国産クラウドのチャレンジ!「IDCFクラウド」徹底解剖 第3回
500円クラウドは運用も手を抜かない
運用は任せろ!IDCFクラウドを支える若手エンジニアに聞いた
2015年09月29日 07時00分更新
人を増やすよりもまずは現場の工夫で対処
大谷:こうした障害を減らす、あるいは復旧までの時間を短くするために、どんな対応をしていますか?
佐久間:サイレント障害に関しては定期的に機器を監視して、性能劣化が起こったら、自動的に切り離すような仕組みも取り入れて対応しています。あと、当たり前ではあるんですが、障害時の切り替わりが起こり得る前提で、機器や構成を事前に検証しています。以前、検証した構成では切り替わりまでに10分位かかったことがあって、それに対する策も準備することができたので、きちんと検証しておくことはとても重要です。機器の性能に関しても、負荷を与えるとだいたいカタログスペックから下回ることが多いので、そこをベースにしてキャパシティを検討していきます。
田村:稼働する物理サーバーの台数も相当な数になっているので、不具合があった時にパッチを当てていくのはもはや現実的ではないんです。サービスへの影響は極力避けたいので、基本的には再起動が不要なワークアラウンドがまずないかを探し、それを適用していくように進めていきます。
大谷:サーバーの台数に対して、やはり人数はそんなに増えないんですよね。
佐久間:そうですね(笑)。その点では、人を増やす前にまず工夫をするという文化が社内にはありますね。たとえば、サービス開発の段階から僕たち運用チームも一緒に入って、運用しやすい機器構成になるようにサービスを作っています。
田村:いままで自分が所属する部門で対応していたものを、お客様の窓口となる部門にスキルトランスファーしました。なので、よりお客様に近いところで、即座に一次レベルの障害切り分けができるようになっています。
大谷:どういう意図でこうしたスキルトランスファーを行なったのでしょうか?
田村:お客様の対応を迅速にするという意図があります。個々のエンジニアがそれぞれのスキルで障害対応をしていたところを、ほかの部署に技術やノウハウを移転することで、社内のナレッジも集約でき、より多くの担当者で均一なサポートや保守の対応できるようにしています。
大谷:最近では「管理のサイロ化」といった話が出ますが、他部署との連携はどんな感じでしょうか?
佐久間:同じオペレーションルームで席もすぐ近くなので、おのずと連携ができていますね。「いま、ネットワークはおかしくないけど、サーバーやストレージはどう?」みたいな感じで。9ヶ所のデータセンターのアラートはすべて1ヶ所に集まっていますし。
大谷:現状、運用面で抱えている課題はどんな感じでしょうか?
田村:アラートの削減ですね。たとえば、障害でアラートが鳴らなかった場合は改善のためにしきい値を厳しくしたり、特別な監視を入れたりするので、そのままだとアラートが増えるんですよ。不要なアラートやエスカレーションを減らすのが課題ですね。
佐久間:ネットワークも、どこかで機器の再起動が発生すると、つながっている機器でもアラートを出し始めるので、いまは人で見極めをしています。障害対応の自動化はなかなか難しいのが現状ですが、ここは全社を挙げて改善に取り組んでいるところです。
ここ数ヶ月はずっと構築しっぱなし
大谷:「500円クラウド」ということでIDCFクラウドも一躍脚光を浴び、ユーザーも増えて、構築や運用も大変になってきたと思うんですけど。
佐久間:おかげさまでお客様がどんどん増えているので、本当にこの1~2ヶ月はずっと構築しっぱなしです。500円という料金設定が受け入れられたのもあるでしょうし、寺門さんが作ったユーザーインターフェイスが使いやすいというのもあると思います。
大谷:構築や設計面でも工夫されていますか?
田村:クラウドの仮想サーバーだけではなく、安定した性能を提供できる物理サーバーも迅速に用意する必要があるので、PXEブートを取り入れています。僕が入社した当時はデータセンターに通って、OSのインストールをやってからお客様に提供をしていたのですが、その後ネットワーク経由で自動的に行なえるようにしました。今ではサーバー1台を5~10分くらいで用意できるようになっています。
佐久間:ネットワークに関しても、開通の自動化に取り組んでいますね。APIで自動的に設定できないか模索しています。でないと、もう手が回らないです(笑)。
田村:以前と比べて提供している仮想マシンのスペックも上がっていますし、500円クラウドを打ち出した以降、お客様の増え方が尋常じゃないですね。
大谷:IDCFクラウドは料金だけではなくて性能も売りなのですが、具体的にどのようなことやっていますか?
佐久間:ネットワークに関しては、とにかくバーストを見越した帯域をあらかじめ用意しています。データセンター内では10Gbpsが基本で、40Gbpsの導入も進めています。バックボーン的には100Gbpsも視野に入っています。
田村:ストレージはボトルネックになりがちなので、オールフラッシュアレイの導入も検討しています。これが実現すれば、性能面でもかなりブレイクスルーできるでしょう。
佐久間:今までネットワークはボトルネックになりにくかったのですが、高速なオールフラッシュアレイが出てくると、もはや10Gbpsだと足りなくなりそうです。なので、40Gbpsの導入はかなり喫緊の課題ですね。
いかがだっただろうか? 洗練されたWebブラウザベースのコンソールから手軽に使えるクラウドサービスだが、そのインフラは相も変わらずエンジ ニアによって支えられている。彼らの不断の努力と工夫によって、障害やセキュリティインシデントが発生した際も、安定したコンピューティング環境を利用できるわけだ。国産クラウドの選択肢を考えた場合、運用体制の見えるIDCFクラウドはユーザーの安心感につながるはずだ。
ロケ地:神田 KINOへや
(提供:IDCフロンティア)
この連載の記事
-
第6回
ビジネス
地元密着型R&Dを手がけるIDCFの大屋氏が福岡で考えたこと -
第5回
データセンター
6号棟も着工!西国の雄を目指すIDCF北九州データセンター -
第4回
クラウド
安い、速い、シンプル!もつ鍋囲んでIDCFクラウドの魅力を語った -
第2回
クラウド
IDCFクラウドの「感動できるUI/UX」はこうして生まれた -
第1回
クラウド
これが僕らの生きる道!IDCFクラウドの真価を語り尽くした -
クラウド
国産クラウドのチャレンジ!「IDCFクラウド」徹底解剖 - この連載の一覧へ