ITインフラの“体調”を一元監視で早期に異常検知
株式会社メタップスホールディングス
ダッシュボードを2月14日から無料で提供開始
DX支援を手掛ける株式会社メタップスホールディングス(渋谷区、代表取締役社長 山崎祐一郎)は、AWS(Amazon Web Services)やその運用に必要な複数の監視SaaSデータを横断して一元監視できるダッシュボード「srest(スレスト)」を2024年2月14日(水)に提供開始します。クラウドインフラ領域のエンジニア不足が深刻化する中、Webサービスを安定して運用するための日常的な監視業務を効率化し、異常の早期発見にも寄与します。
ダッシュボードのイメージ
■背景にある課題
1.日常の監視業務の煩雑さ
今やWebサービスは企業のビジネスや業務を支える生命線のような存在になり、その安定した運用がますます必要になってきています。それを担うエンジニアは、AWSといったインフラ基盤に加え、これを監視したりアラートを集約したりするために複数のSaaSを日常的に利用しています。運用担当者は異常の確認や調査のためにこうした異なるサービスを行き来する必要があり、その業務はかなり煩雑です。さらに、監視対象となるWebサービスの数が増えれば各インフラ系サービスのアカウントも同様に増えるため、より煩雑となります。
当社が実施した調査(※1)によると、2つ以上の監視サービスを利用している企業では、8割超のエンジニアが複数のサービスをまたがって監視業務にあたっています。またそれによって、約7割の人が「複数のイベントログを確認するのに時間がかかる」と回答しました。
さらに、各インフラ系サービスからのアラートはSlackなどのチャットツールと連携して通知させることが一般的ですが、通知が増えるほど見逃しが発生しやすいことに加え、情報が蓄積されず流れていってしまうという課題も存在しています。
2.インフラを担う人材の不足
クラウドやコンテナなどのインフラ技術の進歩により、システムがさらに複雑化し、より専門的な人材が求められています。しかしエンジニア市場は全体的に人手不足であり、クラウドインフラに特化した領域はそれが一層深刻です。限られたメンバーで安定した運用を実現するためには、既存の業務をさらに効率化する必要があります。
※1 システムの監視業務に関する実態調査(2024年2月8日発表)
https://metaps.com/ja/archives/press_release/6014
■「srest」の特長
・ITインフラの“健康状態”をリアルタイムで確認可能
監視対象となるWebサービスのサービスレベル目標(SLO※2)をトップに表示します。ITインフラの全体像を瞬時に把握でき、オブザーバビリティ(可観測性)の実現を補助します。
人間の体で例えるなら、血圧や脈拍といった健康データを集約し、全身の健康状態を一目で確認できるイメージです。ダッシュボードを毎朝見る習慣づけをしたり、チームの定例会議で確認したりすることで、異常を早期に検知しやすくなります。
※2 SLO(Service Level Objective:サービスレベル目標)
事業者が設定するサービスに関する努力目標のこと。内容は事業者ごとに異なるが、可用性(サービスが継続して稼働できる能力)などの項目ごとにパフォーマンスの目標値を設定する。
・インフラ監視を担うエンジニアの“日常業務”を効率化
各インフラ系サービスのイベントログを収集し、一覧で表示します。複数のサービスをまとめて確認可能なので、各サービスを行き来する必要がなくなり、煩雑な日常業務を効率化できます。
監視対象のWebサービスが複数ある場合でも、全ての情報をダッシュボードに集約できます。各インフラ系サービスに別のアカウントでログインし直す必要はなく、ダッシュボード上の切り替え操作で見たい情報にすぐ辿り着けます。
・障害対応を迅速化し、信頼性向上
イベントログに対して具体的なアラート条件を設定でき、設定した条件を満たすイベントが発生した際は、自動的にSlackやメールなどに通知が送信されます。障害発生時はどこで障害が起きているかという一次調査をダッシュボード上で行い、速やかに該当のインフラ系サービスへ移動し対処できます。これにより調査時間の短縮が期待できるため、結果として障害発生時間が短くなりエンドユーザーへの影響が少なくなります。
サービスサイト
こうしたダッシュボードは、各社が独自のものを社内用に開発している例はありますが、汎用的に利用できるサービスは「srest」が国内初です。(当社調べ)今年8月頃の本格提供開始までは無料で提供します。今後は対応するインフラ系サービスを拡充するとともに、生成AIを活用した業務の自動化やコストの可視化など新機能の開発にも取り組む予定で、年内に100社への導入を目指します。
(参考)サービス概要・サービス名:srest(スレスト)
・提供開始日:2024年2月14日(水)
・料金:無料(本格提供開始まで)
・対応サービス:AWS、Datadog、Sentry、PagerDuty(順次追加予定)
・サービスサイト:https://srest.io/
■開発のきっかけは、10以上のサービスを抱える自社の課題
当社はGoogleが提唱したSRE(※3)を2019年に取り入れ、他社の支援も含めて複数のWebサービスを安定して運用することに取り組んできました。
2024年1月末時点で、当社のSREチームが担当しているWebサービスは12。このように複数のサービスを運用・監視する中で大量の通知がSlackに届き、アラートの見逃しが発生するようになりました。また、マイクロサービス(※4)の採用によって、障害発生時にどこに原因があるのか特定することが難しくなっていました。
そこで、AWSやDatadogなどのイベントログを収集・可視化する仕組みを自社で開発したのが「srest」の始まりです。当社はこれまでにもマーケティングやSaaSの分野で複数のデータを集約・可視化するサービスを開発してきた実績があり、今回の開発にもその経験が活かされています。当社のSREチームが実際に使いながら改善を重ね、この度サービスとして提供開始するに至りました。
※3 SRE(Site Reliability Engineering:サイト信頼性エンジニリング)
システムの信頼性、スケーラビリティ(拡張性)、パフォーマンスを確保するためのエンジニアリングアプローチ。日本では2017年にGoogleのSREメンバーによって書籍が出版されたことで、近年多くの企業から注目されている。
※4 マイクロサービス
アプリケーションを複数の独立した小さなコンポーネントに分割する、ソフトウェア開発の手法、アーキテクチャの1つ。全ての機能を1つの構造に組み込むのではなく、独立した各コンポーネントが連携して同じタスクを実行するため、変化するビジネスニーズにも素早く対応できる。
<サービス責任者からのコメント>
プラットフォーム戦略部 マネジャー
SREチーフエンジニア 山北 尚道(やまきた なおみち)
SREエンジニアは日々システムから発生するアラートを監視していますが、業務量が増えるにつれ、タスクの優先順位付けや問題の見過ごしが発生しやすくなります。そのようなSREの業務を少しでも効率化したいという思いから、SRE+rest(休息)で「srest(スレスト)」と名付けました。
(参考)プロフィールベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション開発からマネジメントまでを経験。2015年に当社参画。徐々にクラウドインフラにも携わり、現在は横断的なテックリードやSREチーフエンジニアとして従事しながら、「srest」のプロダクトオーナーも務めている。「AWS DevDay Tokyo 2019」登壇、「Amazon Web Services ブログ」「builders.flash」寄稿など。
X(旧Twitter)アカウント
Speaker Deck資料
SREチームを立ち上げてインフラ基盤プラットフォームを構築した話
■当社について
2023年にMBO(マネジメント・バイアウト)を実施したことに伴い、吸収合併・社名変更を行いました。グローバルで戦える事業の創出に向けて、クラウドとAIを中心にしたインキュベーションを積極的に進めており、今回の「srest」もその1つです。
ミッション:テクノロジーでお金と経済のあり方を変える
ビジョン:世界を解き放つ
〈会社概要〉
会社名:株式会社メタップスホールディングス
所在地:東京都渋谷区渋谷二丁目24番12号 渋谷スクランブルスクエア
代表者:代表取締役社長 山崎 祐一郎
設立:2023年1月26日
資本金:100百万円(資本準備金を含む)※2023年12月末時点
コーポレートサイト:https://metaps.com/
※Amazon Web Services、AWSは、Amazon.com, Inc. またはその関連会社の商標です。
※その他、記載されている商品名などの固有名詞は、各社の商標または登録商標です。
■サービスに関するお問い合わせ先
株式会社メタップスホールディングス
プラットフォーム戦略部
担当:山北、ソ
support@srest.io