このページの本文へ

業界を知り、業界をつなぐX-Tech JAWS

大障害時にもクレーム「ゼロ」で、応援までもらった話

AI-OCRを手がけるAI inside、昨夏のAWS大規模障害を振り返る

2020年03月02日 07時00分更新

文● 大谷イビサ 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 2019年10月に開催されたX-Tech JAWSにおいて、2019年8月に起こったAWS東京リージョンの大規模障害への対応について語ったのは、AI inside R&D本部 プラットフォーム 開発部 所属の野田明良さん。障害への対応が優れていたということで、ユーザー企業であるスポーツフィールドからX-Tech JAWS運営に推薦され、今回の登壇につながったという。「大規模障害はわれわれのサービスも甚大な被害が出て、サービスにアクセスできなかった。でも、クレームではなく、応援や励ましの声をいただいたので、障害復旧の経緯を披露したい」ということで、本編をスタートさせた。

AI inside R&D本部 プラットフォーム 開発部 野田明良さん

Multi-AZの構成だったのにサービスにアクセスできない

 2015年に創業されたAI insideは「DX Suite」というAI-OCRのサービスを展開しており、あらゆる紙の書類を高精度にデータ化する。「手書きの殴り書きを認識したり、訂正印や修正を自動的に読み飛ばしてくれる」(野田さん)とのことで、アクティブユーザーは500社を超えている。富士キメラ総研のAI-OCR市場のシェアでもNo.1を誇るという。

高精度なデータ化が可能なAI-OCR「DX Suite」の概要

 サービスを支えるシステムはかなり大規模で、学習用まで含めて、EC2のインスタンス数は200台におよんでいる。大規模障害が起こった8月23日、AI insideでは14時27分にDX Suiteのエラー発生を確認し、入力された画像を処理するバッチの処理が一部で動かなくなったという。「たまたまタイミングが悪く、同日はエンジニアがイベントに参加していており、開発メンバーがほぼ社内にいなかった」(野田さん)とのことだ。

 8月の大規模障害に関しては、複数のAZにまたがったMulti-AZの構成であっても、ALB(Application LoadBalancer)がまれに500エラーを返すという現象が確認されている。つまり、冗長構成をとっていても、構成によっては障害が発生していたということだ。AI insideでは結果的にこれに該当しており、WAFやセキュリティ設定を変更してみたが、不具合は解消されなかった。

 障害を確認して約20分後の14時48分にまずDX Suiteの障害についてユーザーに連絡を行なった。「この時点ではまだ原因もまったくわからない状態だったけど、まずはお客様にお知らせした。今となっては、これがとてもよかったと思う」と野田さんは振り返る。その後、AWSの障害であることをほぼ確定した15時21分に2回目の通知、ALBで発生しているところまで突き止めた15時45分に3回目の障害告知を更新した。

日頃の情報共有で適切な意思決定が実現

 もともとAI insideは社内の情報をオープンに共有する文化であり、今回の障害に関してもDocbaseとSlackで逐一情報を更新していたという。「担当メンバーが少なかったので、いちいち問い合わせに対応していたら、とても回らなかったと思う」

 事象や原因の特定を進めつつ、17時に対応方針の決定が行なわれた。現状、2つのAZでシステムが組まれているが、3つのAZのシステム構成に変更することも検討されたが、AWSのHealth Dashboardで障害情報が更新されていることから、その時点では復旧を待つという方針になった。もちろん、単にAWSでの障害復旧を待つだけではなく、社員一丸となって顧客からの問い合わせに対応することにしたという。

AI insideでの障害時のタイムライン

 19時11分には監視を続けてきたALBの問題に改善が見られたため、そこからサービスを止めずに、インスタンスを再起動するというクリーンアップ作業を続けた。同日、20時57分の段階でクリーンアップ作業を無事終了し、対応もクローズした。「お客様からは『障害対応がんばってね』というお声までいただいた」と語る野田さん。障害対応を完遂できた背景として、「情報をオープンにする文化があったので障害追求に集中できた」「カスタマーサービスが顧客と密な関係性があった」「普段からメンバー同士が良好な関係を築いていた」の3つを挙げた。

■関連サイト

カテゴリートップへ

この連載の記事