2021年5月11日、AWSジャパンは年次イベント「AWS Summit Online」を開催した。昨年に続いてオンライン開催となったイベントの基調講演では、約3000台規模のオンプレシステムを3年かけてクラウドに移行したDeNAの南場智子取締役会長が登壇。経営と技術の両面で大規模な移行プロジェクトを振り返った講演は、なぜクラウドに移行するのかという疑問に対する圧倒的な説得力を感じられた。
決め手は「インフラエンジニアが創造的な仕事にシフトできる」こと
AWS Summit Onlineの基調講演に登壇した南場氏は冒頭、「DeNA migrate」というスライドを高らかに掲げ、オンプレミスからAWSクラウドへの移行完了を宣言。対象となったシステムは大小合わせて300あまりで、毎秒数十万、1日で50億リクエストを受ける規模だ。もちろんデータはペタバイト級で、サーバー台数は約3000台となる。「これでも弊社のインフラエンジニアがカリカリにチューニングした結果の3000台。通常は万を超える規模になる」と南場氏は語る。
この「マッシブなマイグレーション」をDeNAが決定したのは2018年の6月。QCD(Quality、Cost、Delivery)の観点で考えた場合は、クオリティはオンプレと同等を実現し、デリバリはクラウドの方が優位だったが、コスト面ではオンプレの方が勝るという判断だった。一方で、「オンプレにつぎ込んでいた技術をとことんクラウドに使えば、同じくらいになるのではないか」という仮説もあったという。
決め手になったのは、「インフラエンジニアが創造的な仕事にシフトできる」という可能性。「インフラエンジニアは、これまで機器の見積もり、調達、ラッキングなど煩雑な仕事に時間とエネルギーをとられていた」と南場氏は振り返る。この状況を変えられるかも知れないということで、南場氏も気持ちがグッとクラウドに近づいたという。
安価なオンプレを超えるコストメリットをAWSで実現できるのか?
しかし、問題があった。1つめは前述した「コストが下げられるだろう」という仮説が証明されていなかったこと。これまで同社は、機器の買い換えやメンテナンス費用を含めても、AWSのコストの半分で済んでいた。つまり、移行によってAWSのコストが半分以下に下がらなければ、コスト面ではメリットが出ない。そこで、すでにクラウドで動いているシステムのコストを半分にできるかを試してみたという。
具体的には、Spot Instanceを徹底活用することで、ステートレスサーバーのコストを60%削減した。未使用のインスタンスを入札制で格安利用できるSpot Instanceは、ほかが高いスポット価格を付けると、アラートを経て利用できなくなる。しかし、「『2分あれば対応できるよ』という、われわれの技術陣のオンプレ時代からの技術力と対応力で実現できた」(南場氏)という。
また、AWSのオートスケーリングに加え、サービスに合わせたDeNA独自のスケーリングも採用。たとえば、ゲーム開始、キャンペーン、ゲーム終了間際の駆け込みなどのイベントを事前に予測して把握。ピークのトラフィックを落とさず、きめ細かくスケーリングすることに成功した。これをシステム全体の60%に適応することで、APIサーバーのコストを30%削減した。
さらにデータベースを分割するシャーディングに関しても、調整を行なった。サービスラウンチから時間を経て、アクティブでなくなったユーザーデータをきめ細かく統合することで、サーバー台数も75%の削減が実現したという。
こうしたいくつもの施策により、パイロットとして進めたクラウドベースのサービスのコストを半分に落とすことができた。「トラフィックの多いサービスプロバイダーの場合、オンプレミスの方が安価」という常識を破るチャレンジにより、DeNAのシステムはクラウドへの全面移行に駒を進めることになる。
「手を動かし始めてから迷わないよう」標準化に1年3ヶ月かける
もう1つの問題は、300システムの移行に3年かかるということだ。「われわれインターネット業界は3ヶ月先なにが起こるかわからない。3年も同じプロジェクトにコミットしてもらうのは、正直言って長い」と南場氏は語る。とはいえ、これは現場で汗をかくメンバーに対してきっちり経営側がコミットし、覚悟を示す必要があるという。
そして、DeNAの場合は「ダイナミックな人材の流動を阻害しない」という条件を付けた。数多くのサービスを抱えるDeNAにとって、あるサービスで培った技術やノウハウを他のサービスに適用していくことは競争力の源泉だという。また、さまざまなサービスや技術に関われることを楽しみにしているDeNAのエンジニアも多い。そのため、3年かかるような長期プロジェクトを動かしつつも、人材の異動はやり続けるという必要があったという。
これを実現するために推進したのが、徹底した標準化だ。「段取り8割」という言葉の通り、コスト、アカウント、権限管理、システム基盤、セキュリティ、ネットワークなどあらゆる要素のマニュアル化・ルール化を行なった。「コストであれば管理会計にどのようにひもづけるか、アカウントなら名前の付け方をどうするか、手を動かし始めてから迷わないように」ということで、3年間のプロジェクト中、ほぼ1年3ヶ月をこの標準化に費やしたという。
一方で、システムの移行作業自体は、1つ当たり3ヶ月を超えるモノはない。「エンジニアを貼り付けるのは最大で3ヶ月。だから、ダイナミックな人材の流動は一切阻まれなかった」と南場氏は指摘する。こうして300システムを徐々に移行し、2021年4月末に移行完了を迎える。「今日はわが社のエンジニアも観てくれていると思うけど、本当にプロフェッショナルな仕事をしてくれてありがとう」と南場氏は現場をねぎらう。
創造的な仕事ができるようになるのはエンジニアだけじゃない
では、クラウド移行はどのように評価しているのだろうか? まずQCDのうち、クオリティに関しては100点、デリバリーは120点を付ける。一方、コストだけは、レガシーシステムの移行やクラウド化に時間がかかり、新サービスも立ち上がったことから、100点に付けられていないという。「ただ、これは不断の努力。ワンショットのプロジェクトではなく、ずっとやり続ける覚悟」と南場氏は語る。
そして、南場氏をクラウド移行に駆り立てた創造的な仕事へのシフトは、もちろん実現できた。「インフラエンジニアもデータセンターに駆けつけるという仕事から解放され、経営に直結するような仕事を最先端の技術を用いてできるようになった。アプリ開発者もボタンポチでインフラが立ち上がるので、その日からサービスを作れる。これは感動モノ」(南場氏)と満足そうだ。
これまでDeNAはオンプレミスで培ってきた独自技術やエンジニア秘伝のタレにあたる職人芸が必要で、どんな名うてのエンジニアでもその習得に最低でも半年はかかっていた。しかし、システムが汎用スキルによるクラウドで構築・運営されるようになったため、「エンジニアが入社当日から輝ける」(南場氏)というメリットがあった。実際、パブリッククラウドが使えるからという理由でDeNA入社を希望するエンジニアも増えているとのことだ。
単にクラウドを使えるだけではなく、クラウドを使い倒せるDeNAのエンジニアは市場価値も高くなったが、反面ヘッドハンティングも増えた。しかし、”人知れずサウナで泣くこともある”というエンジニア統括部長に対して南場氏は、「ほかで使えない技術を習得して、ここでしか活躍できないからここにいるのではなく、どこにいっても通用するけど、ここにいたいからいるという環境を作る方が重要なんじゃない?」と言っているという。
こうした優秀なエンジニアを居着かせる組織風土やチャレンジできる環境作り。実は、これこそが経営やマネジメントが本来フォーカスすべきことだと南場氏は指摘する。「お気づきかと思います。クラウド活用というのは、エンジニアが創造的な仕事にシフトできるだけではなく、マネジメントが本質的な仕事に向き合えることです。本当に素晴らしい。だから、移行は一点の曇りなく大成功だったと思います」(南場氏)。
最後に南場氏は「AWSはスタティックではなく、ダイナミックである」という点について説明した。たとえば、同社のライブコミュニケーションアプリの「Pococha(ポコチャ)」は、AWSの動画配信サービスであるAmazon IVSを用いているが、IVSの開始前にAWSのチームとディスカッションしたことで、サービスは磨かれたと指摘。「AWSの製品で充足されないところがあったら、みなさんのニーズが最先端だから。それをぶつけてみてください。それを受け止める懐の深さがAWSにはあります」とアドバイスした。
経営者としてのシビアな目線を持ちつつ、テクノロジーへの理解とエンジニアへの敬意にあふれた南場氏の15分の独演。「なぜクラウドに移行するのか?」という素朴な疑問に対する圧倒的な説得力を持っていたと思う。