このページの本文へ

パフォーマンス低下を「自動QoS」で排除、ストレージ運用に費やす時間がほぼゼロに

セガゲームスがティントリ導入で“モンスターVM”を倒した話

2017年07月03日 11時00分更新

文● 大塚昭彦/TECH.ASCII.jp

提供: ティントリジャパン

  • この記事をはてなブックマークに追加
  • 本文印刷

スマートデバイス向けゲームやB2Bサービスの提供インフラを支える

セガゲームス 戦略企画統括部 共通基盤開発部 副部長 インフラDB課 課長の藤瀬聡一郎氏、同課の麻生恭兵氏

 「セガゲームスのITインフラは、『全仮想化』に向けたスタートラインに立ったところです」。セガゲームスでインフラDB課 課長を務める藤瀬聡一郎氏は、同社のITインフラの現状をこう説明する。

 セガゲームスと言えば、これまで数々の人気ゲームタイトルをリリースしてきた名門ゲーム会社だ。近年も、PCや家庭用ゲーム機、スマートデバイス向け に『ファンタシースターオンライン2』や『龍が如くシリーズ』、『ぷよぷよ!!クエスト』、『オルタンシア・サーガ -蒼の騎士団-』といったヒット作を生み出している。

セガゲームスのスマートデバイス向け人気ゲームタイトル『ぷよぷよ!!クエスト』(©SEGA)

『オルタンシア・サーガ -蒼の騎士団-』(©SEGA / f4samurai)

 それに加え、新たな事業領域にも積極的に取り組んでいる。同社が提供するスマートデバイス向けのマーケティング支援サービス「Noah Pass(ノアパス)」は、現在では月間アクティブユーザー数(MAU)が1000万人を超える規模となっており、B2Bサービスとして順調に成長を続けている。

 こうしたスマートデバイス向けゲームやB2Bサービスを提供するITインフラの構築と運用を手がけるのが、藤瀬氏が率いるインフラDB課である。10人ほどのエンジニアチームで、本番サービス環境や開発環境のサーバー、ストレージ、ネットワーク、そして仮想化環境を支えている。

 インフラDB課として何よりも重視しているのが、ITインフラの安定性と可用性だ。ITインフラに障害が発生し、たとえ数時間、数分でもサービスが停止したり、パフォーマンスが劣化したりすれば、それはビジネス上の大きな損害に直結する。藤瀬氏が言う「全仮想化」の取り組みも、ITインフラの耐障害性をさらに向上させるための構想だという。

 「現在のところ、高いパフォーマンスを必要とするアプリケーション群は物理サーバーで運用しています。しかし、物理サーバーの場合、障害が発生すれば部品交換などで復旧に時間がかかり、サービスへの影響は避けられません。すべて仮想化できれば、たとえ障害が発生しても、ほかの安全なホストに仮想マシン(VM)を移して短時間でサービスを再開できますから」(藤瀬氏)

 すでに現時点でも、物理サーバーの半数以上は仮想化環境をホストするために使われており、そこでは2000~3000のVMが稼働している。

突如出現する“モンスターVM”に振り回される日々

 そんなセガゲームスでは2016年、本番サービス環境にティントリの仮想化環境専用ストレージ「Tintri VMstore T850」を新規導入し、運用を開始した。

セガゲームスが導入した、ティントリの「Tintri VMstore T850」。論理実効容量は66TB、SSD+HDD搭載のハイブリッドモデルだ

 インフラDB課の麻生恭兵氏は、新しいストレージの導入を検討することになった理由について、次のように説明する。

 「実は、これまで仮想化環境向けに利用してきたストレージ環境でも、平常時のパフォーマンスやキャパシティ(容量)には大きな問題はありませんでした。ただし、これまでのストレージにはQoSを自動調整する機能がありません。そのため、“モンスターVM”がひとつ出来てしまうと、ほかのVMのパフォーマンスが極端に劣化してしまうという問題がありました」(麻生氏)

 麻生氏が言う「モンスターVM」とは、ストレージのI/Oリソースを大量に食い潰す(消費する)仮想マシンのことだ。モンスターVMが出現すれば、同じストレージを利用しているほかのVMのパフォーマンスに大きな影響が出てしまう。

 しかも、このモンスターVMの出現はまったく予測不可能だという。常に大量のストレージI/OがあるVMならばあらかじめ対処できるが、ふだんはさほどI/Oの多くないVMが、突如“モンスター化”して牙をむくのだ。

 「その原因として多いのが、データのバックアップ処理や、アプリケーションの不具合を調べるためのログのサルベージ処理などです。こうした処理が始まると、そのVMのストレージI/Oが一気に高くなります。ただし、こうした業務はサービス部門側が行うものなので、細かいものまでわれわれが事前に知ることはできません」(藤瀬氏)

 言うまでもなく、このモンスターVMはITインフラの安定運用にとって大敵である。モンスターVMが出現すれば、インフラDB課はなるべく迅速に対処しなければならない。具体的には、I/O高負荷の原因となっているVMがどれかを突き止め、ストレージのQoS設定を手作業で調整したり、原因のモンスターVMをほかのホストに移動したりして、ほかのVMへの影響を抑える作業が必要だった。

 だが現実には、そもそもどれがモンスターVMなのか、どんな処理を実行したことが原因なのかを特定することすら困難だったという。

 「最初は1台ずつ、すべてのVMにログインしてイベントログを取り出し、ストレージI/Oが急増した時間にどんな処理が行われていたのかを調査していましたが、ほとんどのケースでは原因不明のまま終わりました。その後、各VMのI/Oをグラフ化する監視ツールも導入しましたが、規則性がなく短時間だけI/Oが急増するようなケースにはあまり役立ちませんでした」(藤瀬氏)

 1、2日かけて調査を行い、運良く原因を突き止められたとしても、その後の対処にはさらに時間がかかった。VMのパフォーマンスに影響を与えない適切なQoS値を慎重に検討し、設定変更手順を調べ、場合によってはストレージベンダーを呼び寄せて今後の対応を検討する。長い場合は、こうした対応で1週間ほど費やしていたという。

 「こうしたことを何度も繰り返しているうちに、『そもそもわれわれはそこに注力すべきなのか?』と疑問に思うようになりました。ほかにもやるべき業務はありますし、日々の運用はできるだけ効率良く回るようにすべきですから」(藤瀬氏)

 全仮想化を実現していくためにも、この“モンスターVM”を倒し、安定稼働するITインフラを実現しなければならない。そこでインフラDB課では、2016年の夏から新たなストレージ製品の導入検討に取りかかった。

4社のストレージを実機検証、全員一致でティントリを選択

 製品選定に際してはストレージベンダー4社から検証機を借り受け、「ハードウェア障害の発生時に、どの程度ストレージI/Oが停止してしまうか」と「運用面でどの程度改善効果があるか」の2点に注目してPoCを実施した。

 「ハードウェア障害のテストでは、検証機のLANケーブルを引き抜いたり、ハードディスクを1台壊したりして、擬似的に障害を発生させました。長いものではI/Oが2~3分間も停止してしまったのですが、ティントリの場合は数秒~数十秒程度で回復しました」(麻生氏)

 また運用改善面では、ティントリが備える「自動QoS機能」が圧倒的な効果を発揮したという。これはVMごとのストレージI/Oを監視し、I/Oが急増した場合はダイナミックにそれを制御して、ほかのVMのI/Oに影響を及ぼさないようにする機能だ。

 「他社のストレージにも自動QoS機能を備えたものはありましたが、実際にテストしてみると、おだやかにI/Oを抑えているという程度で、ほかのVMのパフォーマンスに影響が出てしまっていました。一方でティントリは、自動QoSがほかのVMへの影響をしっかりと抑えてくれました」(麻生氏)

 およそ3カ月間の検証を経て、インフラDB課メンバー全員の意見が一致するかたちで、ティントリのストレージを導入することが決まった。DRサイト用を含め、今回セガゲームスでは合計4台のT850を導入している。

セガゲームスにおけるティントリ ストレージの構成図。メインサイトにT850を2台、DRサイトにも2台を導入した

自動QoS機能の効果はてきめん、定例運用作業が「ほぼゼロ」に

 ティントリの設定は30分、インテグレーターによるシステム全体の導入作業を約1週間で終え、2016年の秋口には稼働を開始。その後、2カ月ほどをかけて既存のVMをティントリへと移行していった。移行が完了したのは2017年1月のことだ。現在では『ぷよぷよ!!クエスト』や『オルタンシア・サーガ -蒼の騎士団-』といったゲームのバックエンドシステムも、ティントリに収容されている。

現在では『オルタンシア・サーガ -蒼の騎士団-』のバックエンドシステムもティントリが支えている(©SEGA / f4samurai)

 ティントリ導入後の効果について、藤瀬氏も麻生氏も「ストレージ運用を一切意識しなくてよくなった」「ストレージ運用にかかる時間がほとんどゼロになった」と口を揃える。自動QoS機能の効果はてきめんだ。

 「QoSが自動でかかるので、運用開始後はまったく何もしていませんね。あまりに何もしなくていいので、本当にこれでいいのかな、と少し戸惑ってるくらいです(笑)」(藤瀬氏)

 麻生氏は、ストレージI/Oを監視する必要すらなくなったと語る。

 「ときどきティントリの管理画面を開き、IOPSの高い順にVMをソートしてチェックしています。もっとも、自動QoSがしっかり効いてくれているので、そうしたチェックすら必要ないことがわかってきました」(麻生氏)

 導入時には「1台あたり500VM」の収容を目安として機種を選定したが、本当にキャパシティが足りるのかという不安もあったという。だが、そうした不安は杞憂だったそうだ。

 「実環境でのデータ削減率は2.2倍と、カタログスペックどおりの効果が出ています。現在は1台あたり420VMを収容していますが、まだまだ余裕があり、1台で800VMくらいは収容できそうです。重複排除と圧縮の機能をオンにしても、パフォーマンスにまったく影響が出ていない点も重要ですね」(麻生氏)

 従来のストレージ環境では、パフォーマンスが低下するため重複排除/圧縮機能が利用できず、DRサイトへのバックアップにも1回あたり6時間を要していた。一方、ティントリでは重複排除/圧縮のおかげで転送するデータ量も大幅に削減されるため、「Tintri Replicate VM」を利用して1時間に1回のバックアップ(スナップショット)が実現している。

 「ちなみに、最近提供が始まったクラウドサービスの『ティントリ アナリティクス』も面白いですね。ストレージの使用量などを分析して、何年後にキャパシティが足りなくなる、1台追加したらこのくらい余裕が生まれる、といった予測ができます。当社の場合はまだまだ余裕がありますが、こうした予測ができるのは、やはり安心材料になります」(麻生氏)

* * *

 全仮想化ビジョンの実現に向けて、現在の物理サーバーに匹敵するパフォーマンスを実現できる仮想化環境を整備していくことが、インフラDB課としての現在の目標だ。

 その目標に向けた取り組みに、ティントリの導入は少なからず寄与していることは間違いないだろう。麻生氏は、これまでストレージの定例運用に費やしていた時間が「ほとんどゼロ」になり、ITインフラのさらなる改善と将来のビジョン実現に向けた業務に注力できるようになったと語った。

 「ティントリの導入で、われわれを悩ませていたモンスターVMが完全にいなくなりました。ゲームにたとえるならば『モンスターを倒して平和が訪れた』といったところでしょうか」。そう言って藤瀬氏は笑った。

(提供:ティントリジャパン)

カテゴリートップへ

  • 角川アスキー総合研究所
  • アスキーカード