大障害時にもクレーム「ゼロ」で、応援までもらった話
AI-OCRを手がけるAI inside、昨夏のAWS大規模障害を振り返る
2020年03月02日 07時00分更新
2019年10月に開催されたX-Tech JAWSにおいて、2019年8月に起こったAWS東京リージョンの大規模障害への対応について語ったのは、AI inside R&D本部 プラットフォーム 開発部 所属の野田明良さん。障害への対応が優れていたということで、ユーザー企業であるスポーツフィールドからX-Tech JAWS運営に推薦され、今回の登壇につながったという。「大規模障害はわれわれのサービスも甚大な被害が出て、サービスにアクセスできなかった。でも、クレームではなく、応援や励ましの声をいただいたので、障害復旧の経緯を披露したい」ということで、本編をスタートさせた。
Multi-AZの構成だったのにサービスにアクセスできない
2015年に創業されたAI insideは「DX Suite」というAI-OCRのサービスを展開しており、あらゆる紙の書類を高精度にデータ化する。「手書きの殴り書きを認識したり、訂正印や修正を自動的に読み飛ばしてくれる」(野田さん)とのことで、アクティブユーザーは500社を超えている。富士キメラ総研のAI-OCR市場のシェアでもNo.1を誇るという。
サービスを支えるシステムはかなり大規模で、学習用まで含めて、EC2のインスタンス数は200台におよんでいる。大規模障害が起こった8月23日、AI insideでは14時27分にDX Suiteのエラー発生を確認し、入力された画像を処理するバッチの処理が一部で動かなくなったという。「たまたまタイミングが悪く、同日はエンジニアがイベントに参加していており、開発メンバーがほぼ社内にいなかった」(野田さん)とのことだ。
8月の大規模障害に関しては、複数のAZにまたがったMulti-AZの構成であっても、ALB(Application LoadBalancer)がまれに500エラーを返すという現象が確認されている。つまり、冗長構成をとっていても、構成によっては障害が発生していたということだ。AI insideでは結果的にこれに該当しており、WAFやセキュリティ設定を変更してみたが、不具合は解消されなかった。
障害を確認して約20分後の14時48分にまずDX Suiteの障害についてユーザーに連絡を行なった。「この時点ではまだ原因もまったくわからない状態だったけど、まずはお客様にお知らせした。今となっては、これがとてもよかったと思う」と野田さんは振り返る。その後、AWSの障害であることをほぼ確定した15時21分に2回目の通知、ALBで発生しているところまで突き止めた15時45分に3回目の障害告知を更新した。
日頃の情報共有で適切な意思決定が実現
もともとAI insideは社内の情報をオープンに共有する文化であり、今回の障害に関してもDocbaseとSlackで逐一情報を更新していたという。「担当メンバーが少なかったので、いちいち問い合わせに対応していたら、とても回らなかったと思う」
事象や原因の特定を進めつつ、17時に対応方針の決定が行なわれた。現状、2つのAZでシステムが組まれているが、3つのAZのシステム構成に変更することも検討されたが、AWSのHealth Dashboardで障害情報が更新されていることから、その時点では復旧を待つという方針になった。もちろん、単にAWSでの障害復旧を待つだけではなく、社員一丸となって顧客からの問い合わせに対応することにしたという。
19時11分には監視を続けてきたALBの問題に改善が見られたため、そこからサービスを止めずに、インスタンスを再起動するというクリーンアップ作業を続けた。同日、20時57分の段階でクリーンアップ作業を無事終了し、対応もクローズした。「お客様からは『障害対応がんばってね』というお声までいただいた」と語る野田さん。障害対応を完遂できた背景として、「情報をオープンにする文化があったので障害追求に集中できた」「カスタマーサービスが顧客と密な関係性があった」「普段からメンバー同士が良好な関係を築いていた」の3つを挙げた。
この連載の記事
-
第26回
デジタル
コロナ禍で社会インフラとなった保育園 ルクミーはこうして支えている -
第25回
デジタル
オンライン診療の規制緩和にいち早く対応したMICINの新機能開発 -
第24回
デジタル
「Cariot」のリアルタイム性を強化するKinesis、Lambda、DynamoDBの整え方 -
第23回
デジタル
Timers、POL、PIAZZAなどがビジネスと技術を語る第10回X-Tech JAWS -
第22回
デジタル
メンヘラ彼女向けのサービスを1週間で開発させられた話 -
第21回
デジタル
教育市場を盛り上げる「AWS EdStart」と「AWS Educate」 -
第20回
デジタル
AIで時事クイズと高校野球の戦評記事を作ってみた -
第19回
デジタル
おやつのサブスク「snaq.me」でのLambda活用術 -
第18回
デジタル
X-Tech JAWSで聞いたナビタイム、Resola、千のAWSの使いこなし -
第17回
デジタル
契約書のレビューを支援するLegalForce、CTOと事業開発担当が語る -
第16回
デジタル
「SQL書きたい」のリクエストにukkaのエンジニアはどう応えたのか? - この連載の一覧へ