コンテンツブロッキングでスパムメールを除去

スパムメールを防ぐ技術（後編）

2009年12月01日 06時00分更新

文● TECH.ASCII.jp

ベンダーの強みが出る独自のフィルタ

　一方、ベンダー依存型のフィルタでは、スパムメールの判定や振り分けの条件をベンダーの機関などから提供される。ベンダーの機関で最新のスパムメールを収集・解析し、製品等を導入したユーザーにいち早く配信する。そのため、データベースのメンテナンスの手間がかからない。こうしたベンダー依存型のフィルタの有名な方法として、ヒューリスティックフィルタ、URLフィルタ、シグネチャの大きく3つが挙げられる。

　ヒューリスティックフィルタでは、まずヘッダや本文等の文書構造から、スパムメールの特徴となるパターンを抽出する。たとえば、「From」や「Subject」などに特定の文字列が含まれていないか？メール形式はHTMLか、テキストか？本文にランダムに句読点が振られていないか、などである。そして、これら「スパムらしさ」を抽出したパターンに対してそれぞれスコアを付与する。ベンダーではスコアの点数はパターンの出現頻度などを元に調整することができる。そして、実際のフィルタ処理においては、以下の図のようにスコアの合計値があらかじめ設定しておいたしきい値を超えた場合にスパムメールと判断する。

スパムらしさをスコア化するヒューリスティック分析

　ヒューリスティックフィルタはきわめて高い精度でスパムメールを判定できる。しかし、メッセージをすべてスキャンするため、メリットとデメリットは諸刃の剣の関係にある。つまり、誤検知が低いという一方、処理負荷が非常に大きいのだ。スパムメールの判定処理の中でもっとも重いといえる。

　2つ目のURLフィルタは不適切なURLがメッセージに埋め込まれていた場合に、このメッセージをスパムメールと判断する方法である。ただ、「不正URL」というパターンでヒューリスティックフィルタのスコアの1つとして用いられることもある。Webのフィルタリングなどと同様に、アクセスを許可するURLを登録したホワイトリストと、アクセスを禁止するURLを登録したブラックリストの2種類のデータベースを元に判定を行なう。スパムメールやフィッシングでは、ユーザーにメッセージ内のURLをクリックさせることによって、不正なサイトにおびき寄せるという手法が多用される。そのため、URLを条件にスパムメールを判定するこの方式は効果も高い。

　3つ目のシグネチャ方式は、既知のスパム情報をシグネチャとしてデータベースに登録し、スパムメールを判定するものだ。アンチウイルスの「パターンマッチング」と同じ方式と考えてよい。まず収集したスパムメールのメッセージボディの余計な部分を取り去って再度構造化し、さらに特定の箇所に分解。これにハッシュ値をかけて、シグネチャを生成する。シグネチャ方式では長くなる可能性のあるテキストではなく、ハッシュ値を比較するため、パフォーマンスが高いという特徴がある。また、言語に依存しないフィルタリングが可能というメリットも持っている。汎用性に優れるため、数多くのベンダーで採用されている方式だ。

シグネチャによるスパムメールの比較

　いずれの方法にしても、フィルタの精度は、URLやシグネチャを登録したデータベースの更新頻度に大きく依存する。特にフィッシングの場合、悪意のサイトのURLは数時間から数日しか有効ではないため、迅速かつ継続的な更新を行なわなければ、効果は下がってしまう。そのため、スパムメールの収集・解析を行なうベンダーの機関の存在がきわめて重要になる。

（次ページ、進化するスパムメールに対応できるか？）

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ