サイバーセキュリティの未来を語る際には、必ずアナリティクス(分析)、ビッグデータ、自動化、機械学習などの言葉が登場します。セキュリティデータ量の増加に伴い、データサイエンスが攻撃を阻止するための重要な武器となります。
同義語として使われることが非常に多いのですが、それぞれの言葉はデータサイエンス分野の異なる部分を意味しています。データサイエンスの基礎知識がなければ、脅威を未然に防ぎ、脆弱性を予測することはできません。
データサイエンスとは?
データサイエンスとは、数学、統計、ハードウェア、ソフトウェアそしてデータ管理を合わせたものです。データサイエンスでは、数学的アルゴリズムやモデルを応用して問題を解決します。たとえば、攻撃が発生する前に検出したり、コンピューターやネットワークが乗っ取られる前にランサムウェアを阻止したりします。データ管理は、ソフトウェアやハードウェア環境全域のデータや、ガバナンス、ポリシー、セキュリティ、ストレージ、また数理的な境界条件を収集するプロセスを扱います。
ビッグデータとは?
ビッグという言葉は、ビッグデータの根幹を表わしています。正常な動作と異常な動作の持続的パターンを発現させるために必要となる膨大なデータを、セキュリティツールは収集することができます。そのデータ量には言葉を失うでしょう。データサイエンティストは、ヨタバイト(1024バイト)規模のデータを扱うことも珍しくありません。
分析とは?
分析とは、データを変換してビジネスの先を見抜く力に変換していく科学的なプロセスです。一連の流れとして、ビッグデータを解析してパターンを特定し、モデルを構築して実際のシナリオに対するテストを行い、プロセス全体に反復適用することで最高の効率を実現していくのです。分析には、記述的分析(何が起きたのか)、診断的分析(なぜ起きたのか)、予測的分析(今後何が起きるのか)、そして処方的分析(起こりうる事象に推奨される対処を提示する)という4つの基本タイプがあります。
自動化とは?
自動化(機械学習関連の用語)とは、単純にコンピューターに分析モデルを実行させるプロセスのことです。自動化はとりわけ、反復作業の解消、人間には扱えないサイズのデータセットの集約、パターンの特定、緩和機能としての働きなどで、サイバーセキュリティやデータサイエンスの様々な部分に適用されます。
機械学習とは?
機械学習とは、コンピューターが構築したモデルを継続的に強化し、ルールやポリシーを適用するための新しいパターンや関係性を特定することができるレベルまで分析を自動化することです。これを予測分析または処方的分析で実行する場合は、特定の変数に予測される将来の値が導き出されます。
よくある誤解
ビッグデータ、分析、機械学習は非常に強力なツールですが、すべての問題を解決できるわけではありません。
分析に関する誤解:
- 迅速に実行できる
- 分析結果は常に正しい
- 分析に数学や統計学の知識は必要ない
機械学習に関する誤解:
- 手動による操作は必要ない
- モデルを選んで、データに適合させるだけ
- 機械学習はハッキングされない
分析、ビッグデータ、自動化、機械学習は、様々なビジネス上の課題に適用できます。サイバーセキュリティの点では、異常な動作や攻撃の兆候を素早く見つけ出し、その状況、学習したパターン、共有された脅威情報に基づいて、将来的な攻撃の予測も行えるチャンスが秘められています。現在と未来のビジネスおよびセキュリティ上のニーズにこれらのツールを効率的に適用していくためには、データサイエンスの基礎を理解することが重要です。
セキュリティに必要なデータサイエンス、分析、機械学習についてより深く学びたい方は、McAfee Labs Threats Report: September 2016(「McAfee Labs脅威レポート: 2016年9月」)をご覧ください。
※本ページの内容は 2016年9月28日更新のMcAfee Blog
の抄訳です。
原文:‘McAfee Labs Threats Report’ Offers Primer on Security Data Science, Analytics, Big Data, Machine Learning
著者:Celeste Fralick