マルチリージョン化、コンテナ全面採用、クラウドネイティブDB化を推進
1日4.16兆円の取引高「W11(独身の日)」を支えるAlibaba Cloudの技術
2019年12月17日 10時00分更新
2019年12月16日、SBクラウドは1日4.16兆円の取引高を誇るショッピングフェスティバル「W11(独身の日)」を支えるAlibaba Cloud(アリババクラウド)の技術的なチャレンジを解説する記者説明会を開催した。SBクラウドのAlibaba Cloud ソリューションアーキテクトの寺尾英作氏が説明した。
開始から90分で取引高1.9兆円というハイペース
W11はアリババグループ(阿里巴巴集団)が運営する天猫(Tmall)や淘宝網(Taobao)などのコマースサイトで開催される巨大なショッピングフェスティバル。1が4つ並ぶ11月11日の「独身の日」に開催されるため、通称「W11(ダブルイレブン)」や「独身の日」と呼ばれる。
驚異的なのはその規模だ。2019年11月11日のW11では、総取引高が4.16兆円に達し、過去最高となった。これは前年比26%増で、総配送数は12.9億になる。取引高はクーポンやセール商品の多い開始時から一気にピークを迎え、64秒で約1000億円を達成。開始から17分で取引高は0.9兆円、90分で全体の45%にあたる1.9兆円を達成したという。開始直後に迎えたピークトランザクションは54.4万に達した。
W11に参加するブランドは20万以上におよび、15のブランドでは10億元(約155億円)、299のブランドでは1億元(約15.5億円)の売り上げを達成した。ちなみに中国以外の海外店舗の売り上げは日本が一番になるという。
このモンスターイベントをダウンタイムなしで乗り切るためのシステムを提供してきたのがAlibaba Cloudになる。Amazon&AWSと同じくAlibaba CloudもEコマースサイトと緊密に連携している。2008年に生まれた天猫に歩調を合わせるように2009年に生まれたのがAlibaba Cloud。現在、リージョン数は20、AZは61、そしてCDNポイントは2800以上にまで成長している。
信頼性向上、自動化、コンテナなど試行錯誤を続けたW11の歴史
W11がスタートしたのは2008年。当初に比べ取引高は425倍、ピークトランザクションは1360倍にまで拡大した。今となっては大量アクセスでもゼロダウンタイムを実現しているが、最初からそうだったわけではない。「当初はトラフィックも予想できなかったし、インフラも迅速に調達できなかった」(寺尾氏)とのことで、2010年はCDNのキャパシティが不足し、アクセス不能に陥った。トラフィックの大半を占める画像の容量を減らすために、店舗ごとに画像を圧縮してもらったという。その後、2011年には全部門でトラフィック帯域を予測し、2012年には自動で予測する仕組みを作った。
また数々のトラブルを経て、2013年にはリソース管理の手順書は2000を超え、人手での管理が限界を迎えた。そこで、オンラインサービス向けの「Sigma」とバッチジョブ向けの「Fuxi」という2つのリソース管理・スケジューラを開発し、自動化を推進した。さらに、システムの信頼性を向上するための負荷テストも念入りに行ない、流量自動配分と自己保護システムも開発した。2013年は3000近いフェールセーフスイッチを構築し、4回に渡って大規模演習を実施したという。
試行錯誤の末、2014年の第6回目はこれまででもっとも順調だった。しかし、アリババの杭州のデータセンターだけでは限界が見えたため、マルチリージョン化にチャレンジした。
まずはシステムの独立・疎結合化を進め、センターシステムとユーザーごとのユニットに分割し、同期をかけるようにした。2013年はシングルリージョンで1都市・ユニットを二重化し、2014年には杭州と上海という2都市・2ユニット化、2015年には1000km離れた3都市・4ユニットのマルチリージョン・アクティブ構成にチャレンジした。2018年は3都市・7ユニットを実現し、2019年は上海、深せんのほか、2022年の北京冬季五輪に開催地でもある河北省の張家口市に建てられたデータセンターが重要な役割を果たしているという。
マルチリージョン・アクティブ構成が成功した2015年は、モバイルの購買が半分を超えた年で、オンラインとバッチのリソースクラスターの効率的な共用も実現。販売チャンネルの多様化が進んだ8回目の2016年は監査部門のニーズに対応し、全SQLの保存にも対応した。こうしてシステムを進化させる過程で、SQLの分析・学習の自己診断できる「CloudDBA」やコンテナのイメージ配信をP2P配信で高速化する「DragonFly」なども自社開発され、一部はOSSとして公開されている。
また、W11のシステムでは「PouchContainer」によるコンテナの全面的な採用も進んでいる。PouchはLinuxのLXCからスタートしたアリババのコンテナ技術で、2011年から開発がスタート。2015年にはDocker標準の取り込みにも対応し、コンテナのワークロードを管理するkubeletやSwarm、そして前述したSigmaとも連携するようになった。コンテナは2017年の時点でアリババのほとんどのビジネスで導入され、近年ではマイクロサービスの通信を制御するサービスメッシュの導入も実現しているという。
クラウドDB化やライブコマース対応、AI活用も積極的に推進
さて、ピークトランザクションが54.4万となった2019年も、さまざまな技術的チャレンジを推進した。3代目を迎えた「神龍アーキテクチャ」採用の独自チップにより、高負荷になっても性能を維持できた。また、サーバーレスや分散ファイルシステム、コンテナなどを基盤としたストレージとコンピュートの分離により拡張性を高めたほか、リモートのメモリにデータを直接読み書きするRDMA(Remote Direct Memory Access)の導入により、高速なデータアクセスを実現したという。
近年は性能をリニアにスケールできるクラウドネイティブデータベースの採用も推進している。W11では柔軟でハイパフォーマンスなインフラ上にアリババが開発したDB「POLRADB」「POLARDB-X」と、TPC-Cで世界一になった「OceanBase」によるクラウドネイティブなデータベース環境を構築。さらに「X-Paxos」というクロスリージョンのHAアーキテクチャにより、POLARDBを複数リージョンに分散配置した。
バックエンドのチャレンジに加え、W11はショッピングイベントでもさまざまな工夫を行なった。なんといってもこの数年でAIの活用が進み、スマートスピーカーでのオーダー数はなんと100万件を超えたという。顧客の問い合わせも97%はチャットボットが行ない、1日の対応件数は3億件に達したという。また、ブランドの約半分でライブ放送を実施されたが、タオパオライブが自社開発したリアルタイム通信技術により、昨年5~7秒だった遅延は今年2秒以内に抑えられた。ライブ放送のコメントについても、チャットボットが対応し、コンバージョン率は15%上がったという。
総じてインフラ面からミドルウェアの最適化により、未曾有のトランザクションリクエストにおいても安定したレスポンスタイムを戻すことができたというW11の事例。スケールの大きな中国のコマースにおける、さまざまな技術的なチャレンジがうかがえた。