現在も猛威を振るうスパムメールを遮断するには、複数のフィルターを用いた多層的なアプローチが一般的だ。前回のソースフィルタリングに続き、後半ではメールの本文からスパムメールの判断を行なうコンテンツブロッキングの技術について見ていく。
ヘッダで判断できないならコンテンツブロッキング
前回紹介したソースブロッキングは、送信元のアドレスやトラフィックのパターンを見て、スパムメールの受信自体を拒否するという方法になる。郵便に例えれば、送信元やメールボックスに貯まった数を条件にして機械的に振り分ける方法だ。
だが、あくまで「機械的に」ということで、処理は高速に行なえるが、中身はチェックしない。スパムメールかどうかを判定するための条件に送信元や送信状態といった情報しか使えないので、正確な判定は難しい。そのため、実際のスパムメール対策ではメッセージの中身を見て、スパムメールかどうかを判定するコンテンツブロッキングが併用されることが多い。
コンテンツブロッキングは、単語や文字列、メールの構造、記述されたURLなどさまざまな情報を元にスパムメールを判定する。この方法としては、ベイジアンフィルタ、カスタムフィルタ、ヒューリスティックフィルタ、URLフィルタ、シグネチャなどいくつかの手法がある。
これらはまず誰がフィルタの条件を作成するかという点で、ユーザー・管理者に依存するか、ベンダーに依存するかに分けられる。また、フィルタの条件として登録される形式もメッセージ内のテキストか、アンチウイルスのパターンファイルのようにシグネチャとして登録しているかによって分類できるだろう。以下、主要なコンテンツブロッキングの手法について解説していく。
単語や文字列を学習するベイジアンフィルタ
ベイジアンフィルタは、ユーザーがスパムと判断したメールに出現する単語や文字列を学習させ、この結果を元にスパムメールを判定させるという方法である。
商品やサービスの宣伝用途の多いスパムメールと、通常のメールではおのずと利用する単語に違いが出てくる。たとえば、スパムメールでは「無料」「サービス」などの用語の登場頻度が通常のメールに比べて高くなる。この違いを学習させ、特定のアルゴリズムで条件付け、フィルタとして利用するのだ。過去の傾向を学習することで将来を予測する「ベイズ理論」と呼ばれる理論に基づいているフィルタという意味で、ベイジアンフィルタと呼ばれている。具体的には、アダルトサイトの勧誘や医薬品の商品名などの文字列や表現を学習し、スパムメールかどうかを判定する。そのため、ユーザーごとの設定がしやすく、学習させればさせるほど精度は高くなるという特徴を持っている。スパムメールの振り分けではかなり一般的な手法といえる。
ただし、ベイジアンフィルタには、ユーザーが学習させ続けなければ、判定精度が落ちてしまうという手間がある。また、学習結果を納めるデータベースが肥大化するため、パフォーマンスに影響が出てしまうのも弱点だ。このため、登録できるエントリ数に制限が設けられている製品も存在している。
また、ベイズ理論を特に用いず、ユーザーが独自にキーワードを登録してカスタマイズを行なうカスタムフィルタもある。こちらもユーザーごとの自由度は高いが、手間がかかるという点はベイジアンフィルタと変わらない。ただ、一般的にはスパムメールの振り分けではなく、社内からの送信メールを調べて情報漏えいを防ぐという目的で使われるフィルタといえる。
(次ページ、ベンダーの強みが出る独自のフィルタ)
この連載の記事
-
第18回
TECH
従来機種より2倍速いHDE「tapirus」の新モデル -
第18回
TECH
誤送信対策に特化!キヤノンITSのGUARDIAN CorrectMail -
第15回
TECH
メールの情報漏えいとアーカイブについて知る -
第14回
TECH
メール誤送信対策の決定版!HDE Secure Mail FINAL -
第12回
TECH
ファイル偽装を許さないクリアスウィフトの新アプライアンス -
第11回
TECH
ダウジャパン、誤送信防止対応のTerrace Spam Watcher A500 -
第11回
TECH
メールアーカイブ導入の背中を押すミラポイント -
第10回
TECH
スパムメールを防ぐ技術(前編) -
第9回
TECH
なぜ日本だけ?誤送信対策に注力するプルーフポイント -
第8回
ビジネス
舞台はメールからSNSへ! 脅威のターゲットが変貌と警告 - この連載の一覧へ