このページの本文へ

ビジネス/開発/運用のサイロ化を防ぐ、イノベーションと信頼性を両立させる

SREとは? Google Cloudがその基本を説明、JCBも導入/実践経験を紹介

2022年08月30日 07時00分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

信頼性の提供と顧客満足度の維持:詳細なポリシーを策定、あいまいさを排除

 SREチームとしてももうひとつの取り組みが「適切な信頼性の提供と、サービスに対する顧客満足度の維持」だ。前述のように定めた信頼性(SLI/SLO)を日々どのように運用し、インシデントが発生した場合などにはどう対応しているのか。

 笹野氏は、SREチームとしてまず取り組んだのは「ポリシーの策定」だったと説明する。グーグルの協力も得ながら、チームとしての使命やエンゲージメント内容をまとめた「チーム憲章」をはじめ、さまざまなインシデントの重要度や対応時のロール/フローをまとめた「インシデントポリシー」、インシデント対応完了後に根本原因や解決のためのアクションを記す「ポストモーテムポリシー」、そのほか「オンコールポリシー」「トイルポリシー」「エラーバジェットポリシー」などを一から策定したという。

 「たとえばあるインシデントが発生したときに、その重要度はどのくらいで、誰がどんな役割を担うのか、どんな順番でどう動くのか――日々の運用の中で何かトラブルが起きても即時に動けるように、あいまいさをなくすためにポリシーを設けている。こうしたポリシーのフォーマットはグーグルのSRE本などにも書かれているが、実際に作ってみるとやはり自社特有の事情、たとえば開発メンバーの数に限りがあるとか、社員とパートナースタッフとで担える役割の範囲が違うといったことがあるので、それもきちんと組み込むことが大事だと感じている」(笹野氏)

グーグルのSREチームはさまざまな情報発信を行っている(グーグル山口氏スライドより)

 こうしたポリシーに基づき、JCBのSREチームは2つの役割を担って活動している。アプリチームに対してインフラサービスの構築や改善を支援する「Platform SRE」と、アプリチームに参画してリリースエンジニアリングを主導する「Embedded SRE」という役割だ。なお、アーキテクチャの検討やレビューを行う「Consulting SRE」は別のチーム(アーキテクチャチーム)が担当している。

 また発足当初は1チームだったSREチームも、現在はアプリチームと連携する「Diplomat(“外交官”)」と、全体のルール策定やプラットフォームの信頼性を高める「Sheriff(“保安官”)」の2チームに分かれている。これは、アプリチーム数の増加にともなってチームに対する支援業務が増え、全体の改善に取り組むリソースが足りなくなったため、あらためて役割を定めてそれぞれにリソースを割り当てた結果だという。

 具体的には、Diplomatチームでは「モニタリングのためのダッシュボード構築」「SLI/SLOの管理/更新」「CI/CD設計/構築」を、Sheriffチームでは「リリース方式の策定/導入」「障害訓練の企画/遂行」「ワークロードの脆弱性検知」を担当する。またそのほかの「日常的なモニタリングと予兆監視」「オンコール対応」「トイル対応」といったものは、SREチーム全員で担当している。

 このように現状では「チーム体制や運用のためのポリシー策定」「アプリチームに対する支援体制の構築」「定期的な障害訓練の実施」「トラブル対応のためのプレイブック(手順書)の充実」といったことは達成できている。一方で、今後に向けた課題としては「オンコール対応が可能なメンバーの拡充」「各チームへのSREの注入」「教育カリキュラムの拡充」を挙げた。

 「『各チームへのSREの注入』というのは、SREチーム以外の各チームがSREの考え方をもって活動していく土台を作っていくというもの。先ほど説明したポリシーがアプリチームなどほかのチームでも独自で必要になるので、それを一緒に作っていく」(笹野氏)

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    ネットワーク

    「ケーブルを引っ張ってみてください。」→引っ張ってみた結果……

  2. 2位

    ネットワーク

    量子コンピューターを超える!? 「光量子コンピューター」ってのがあるんです。

  3. 3位

    ネットワーク

    マザーボードが油に沈んでる!? SFみたいな“液浸冷却システム”、見た目からして未来すぎる

  4. 4位

    ネットワーク

    展示会の無料Wi-Fi、実はとんでもない実験場だった。Interop会場ネットワークは「ガチの展示」

  5. 5位

    トピックス

    “スター・ウォーズのホログラム”が現実に近づいた? 幕張で見つけた裸眼3Dディスプレイが未来すぎる

  6. 6位

    ネットワーク

    データセンター不足の救世主になるか? “コンテナ型サーバー”が想像以上にすごい

  7. 7位

    ネットワーク

    キオクシアって結局なに作ってるの? 「株価急騰の注目企業」を幕張で見てきた

  8. 8位

    ITトピック

    VMware利用企業、8割近くが「他環境へ移行検討・実施」/データセンター電力消費が1年で26%増加、AI競争で「電力確保」重要課題に、ほか

  9. 9位

    クラウド

    いいかも、国産クラウドストレージ! DirectCloudは月額固定料金・ユーザー無制限

  10. 10位

    ネットワーク

    サーバーの水冷ぜんぶ見せる大作戦! レノボが見せた“AI時代の冷却”が迫力ありすぎる

集計期間:
2026年06月11日~2026年06月17日
  • 角川アスキー総合研究所