大谷イビサのIT業界物見遊山 第30回
北の大地でさくらが成し遂げた圧巻のミッションインポッシブル
約60時間を非常用電源設備で乗り切った石狩データセンターの奇跡
2018年09月10日 09時30分更新
2018年9月6日に北海道を襲った震災により、停電状態に陥ったさくらインターネットの石狩データセンターに対し、9月8日ようやく電力供給が再開された。想定を超えた約60時間を非常用電源設備で乗り切り、インフラ事業者としての矜持を見せた石狩データセンターの「奇跡」について、改めてきちんと説明していきたいと思う。
卓越したオペレーション能力で「想定外」を「想定内」に
2011年11月に開設された石狩データセンターは、数多くのサーバーを収容するさくらインターネットの基幹データセンターになる。開設当時はソーシャルゲームの普及でサーバーの需要がうなぎ登りだったほか、環境に配慮したエコなデータセンターが求められていた。こうしたニーズに対応する石狩データセンターは、寒冷地のメリットを活かした外気冷却と東京ドーム1個分に相当する広大な敷地を用いたスケーラビリティが大きな売りだった。私も開設時と増設時で2回ほど現地に足を運んでおり、現地のエンジニアとも話をしている。同じデータセンターに2度訪れることなんてほぼないので、個人的にも思い入れが深い。
思い起こせば、なぜ石狩だったのか? 皮肉なことにその大きな一因は災害リスクが低いことであった。同社の石狩データセンターの紹介にも「石狩地域は、今後30年間で震度6以上の地震が発生する確率が0.1~3%と低く、(以下略)」と明記されており、さくらインターネットにとっても今回の地震は「想定外」だったはずだ。しかし、今回さくらは約3000ラックを超える巨大データセンターを非常用電源設備で60時間無停止で運用し続けた。卓越したオペレーション能力で未曾有の停電を乗り切り、「想定外」を「想定内」にしてしまったのだ。
東日本大震災のときは首都圏のデータセンターが停電の影響をあまり受けてないので、ここまで長時間での非常用電源設備の運用はおそらく初めて。世界的に見てもあまり例を見ないはずだ。しかも、途中で電力が一部復活し、燃料調達にめどが付いたこともあり、非常用電源設備停止の直前は、1週間近い連続稼働まで視野に入れていた。薄氷を踏むどころか、最後は余力すらあったわけだ。
さくらにとって絶対落とせなかった石狩データセンター
まずは話の前提としてデータセンターの停電対策について簡単に説明しておきたい。実は9月6日に北海道の震災が発生してから、石狩データセンターに関しては経緯から復旧まで3本の記事を挙げているのだが、どれもシンプルな速報体裁。細かい説明を割愛していたため、書き手としてもどれだけ読者に伝わっているか正直不安だった。しかも、ITに対する知識の不足により、いたずらに不安をあおるような報道も多い。これを読めば、今回さくらがどれだけすごかったのか、信頼性というデータセンターの役割をきちんと果したのか、少しは理解してもらえるはずだ。
個人・企業問わず数多くのサーバーが集まるデータセンターでは、停電時の対策として非常用電源設備が用意されている。そのため、電力会社からの電力供給が停止すると、バックアップ用のUPSで非常電源設備の起動までの時間を確保し、ガスや重油などの燃料を用いて自家発電するようになっている。発電の際に用いられる燃料も多くのデータセンターでは48時間程度の燃料が備蓄されているので、停電が起こってもおおむね2日間は運用は止まらない。とはいえ、一連の設備はどれも高価で、日本でも自前できちんと運用できる事業者はそれほど多くない。さくらインターネットはこうした数少ない事業者のうちの1つだ。
石狩データセンターでも48時間稼働する分の重油を備蓄していた。しかし、今回の大規模な停電からの復旧は当初「1週間後」と発表されており、実際に東日本大震災のときは停電解消が約80%に至るまで3日間、94%に至るまで8日間かかっている。そのため、電力供給が再開せず、重油が足りなくなったら、石狩データセンター自体の稼働を停止しなければならなかった。
もし石狩データセンターが停止に追い込まれたら、そのインパクトは計り知れない。40万以上にも上るさくらのレンタルサーバのユーザーや、メルカリやマネーフォワードといったWebサービス事業者、官公庁や学術機関などのサービスも大きな影響を受けることになる。また、石狩データセンターならではの事情として、ユーザー自身が運用するコロケーションもそれなりにある。さくらインターネットにとっては絶対落とせないデータセンターなのだ。
非常時の運用を支えたエンジニア、さくらのチーム力に拍手を
停止した場合の影響が大きく、しかも給電がいつ再開されるかわからないという絶体絶命の状態だったが、さくらインターネットは見事この難関を乗り切った。
停電当初はUPSの障害により、一部のサーバーで障害が発生したものの、これは約4時間で解消し、無事に非常用電源設備の運用に切り替えた。その後、石狩市役所、経済産業省など関係各所からの燃料調達により、非常用電源設備で約60時間も稼働させた。停電にも関わらず、約3000ラックを有する巨大データセンターを2日半無停止で運用し続けたのだ。
やはり賞賛されるべきは、石狩データセンターの現場のエンジニアだ。おおよそ災害対策やBCPと呼ばれるものはあくまで「計画」に過ぎず、本番のときにうまく機能しなかったという例は枚挙にいとまがない。その点、さくらの場合、普段の訓練や保守をきちんと実施し、関係機関と密に連携してきたからこそ、「北海道全土で停電する」という未曾有の事態にも対応できたわけだ。あたりが圧倒的な闇に沈み、家族や実家が心配という不安の中、「よくがんばったね」と現地のエンジニアに声をかけたい。
そして、そんな現地のエンジニアたちをさくらのチーム力が支えた。外部と連携して燃料を調達したり、ユーザーやパートナーからの数多くの問い合わせをさばいたり、正確な情報を外部にリアルタイムに発信したりといった活動をタイムラインで見ながら、「絶対にデータセンターを落とさない」という気概を感じた。これこそ物理的なインフラからクラウドサービスまでを一気通貫で提供できるさくらインターネットの強み。今回の件は、豊富な資金とスケールを持つメガクラウドとは異なる価値観を提供するさくらインターネットの存在意義を世に知らしめ、ユーザーから圧倒的な信頼感を勝ち取るはずだ。
この連載の記事
-
第73回
ITトピック
音声データはなぜAI活用のメインストリームにならないのか? -
第72回
ITトピック
乳がん患者の不安に寄り添う大阪国際がんセンターのAIに期待 -
第71回
クラウド
GPUクラウドをみんな知らない ニーズのなさか、伸びしろか -
第69回
TECH
最新のセキュリティ対策を求めた企業がブルースクリーン問題の被害に -
第68回
エンタープライズ
プッチンプリンとSAPマイグレーションの話、かみさんと話(HANA)してみた -
第67回
Team Leaders
生成AIオプションでコストは倍に? 値上がりし続けるSaaSとロックインの話 -
第66回
ITトピック
火災報知器が鳴り響くカレー屋での経験は、障害対応の大きな学びだった -
第65回
ITトピック
記者キャラバン復活! 広報・PRとの対面ミーティングは記者のガソリンだ -
第64回
ITトピック
恵まれすぎたOpenAIの船出 生成AIはクラウドの歴史をなぞるのか? -
第63回
デジタル
祝上場! 東証でのソラコム上場セレモニーをフォトレポート -
第62回
クラウド
キラキラに見えた内製化事例の表と裏 DXを夢見た企業の現在地 - この連載の一覧へ