スパム・メールのフィルタリング状況をチェックするプロジェクトが発足

 ジョン・グラハム・カミング氏が、スパムを永遠に葬り去る新たな武器を作り出すための壮大な取り組みに着手した。同氏は、フランスのトゥールーズに住む英国人で、長年にわたりスパムと闘ってきた。オープンソースの電子メール分類ツール「Popfile」を開発し、多くの企業にスパム・フィルタとして利用されているスパム対策ライブラリ「Polymail」を記述したことでも知られている。

 フィルタリング技術が進歩したことで、スパムに悩まされる度合いは減少したが、今でも全電子メールの80%が迷惑メールで占められている。だがスパマーは現状に満足せず、電子メールのフィルタをすり抜けるさらなる方法を見つけ出そうと日夜改造にいそしんでいる。その一方で、より精度の高いフィルタを開発する涙ぐましい努力が続けられており、こうしたいたちごっこは終わりそうにない。

 グラハム・カミング氏が立ち上げた新たなプロジェクトは、スパム・フィルタの正確性を計測するために使用されている、10万件に及ぶ電子メール・メッセージの「コーパス(文例を集めたデータベース)」を、一般の人々に選り分けてもらうというものだ。

 同氏はWebサイト(http://www.spamorham.org)を開設して、閲覧者にメッセージをランダムに選ばせ、「スパム」であるか「ハム(問題のないメッセージ)」であるかの選別をしてもらっている。

 これらの電子メール・メッセージ群は、米国標準技術局(NIST)傘下のTREC(Text Retrieval Conference)が作成した「2005 Public Spam Corpus」から構成されている。

 驚くべきことに、こうした電子メールのうちの多数が、不正会計が発覚して2001年に破産に追い込まれた米国のエネルギー会社、エンロンのものであるという。同社の社員の電子メールは裁判の証拠として押収され、その後一般に公開されたのである。

 エンロンの電子メール・メッセージには、普通ならなかなか入手できない私信やスパムが大量に含まれており、スパム研究には非常に役立つと、グラハム・カミング氏は述べている。

 同氏のプロジェクトでは、各メールを10回にわたって分類にかけ、多数決でそのカテゴリを決めている。現段階では、全体の3分の1の作業が完了したという。

 そこで私もこの作業に挑戦してみることにした。

 エンロンの最後の会社主催パーティ(翌日まで続いたパーティだったという)で、会計士が電気の傘を頭にかぶっていたという、社員のゴシップが書かれたメールに出くわすことを期待して、早速メッセージの分類に入る。

 25件の電子メール・メッセージをチェックしたが、大半が明らかなスパムで、ゴシップは見つけ出すことはできなかった。残念ながら、わたしが読んだ一般のメッセージは全部が全部、おもしろくも何ともない仕事上の話しで、むしろ怪しげなスパムの件名のほうに興味を引かれた。

 ただ、フィルタリング機能によって非スパムとして分類されたある電子メールについては、納得できない点があった。当該のメールには、ニュース記事から引用したと見られる固い文章がつづられていたが、脈絡はまったくない。「+V1a*gra! 2nite!」といった怪しい文字列も含まれていない。

 疑いようのないジャンク・メールであり、何の意味もないメッセージであるが、何かの拍子にスパム・フィルタを通り抜けてしまったのだろう。

 ほとんどのメッセージは、電子メールに詳しくない人でも簡単に分類できるものである。にもかかわらず、フィルタリング機能と人間とでは、およそ10回に1回の割合で判断が食い違っていると、グラハム・カミング氏は説明する。

 また同氏は、人間にとって見分けるのが最も困難なメールは、言うまでもなく、正規の発信者からのメッセージであるように偽装し、個人情報の提供するよう受信者を誘導するフィッシング・メールだとも指摘している。

 今回のリサーチの成果は、コーパスの改良に活用される。改良を施し、スパムと一般メールの選別をより正確に行えるようするのだという。ただしこれは、フィッシング攻撃を仕掛ける側に悪用される可能性もある。フィッシングに対する警戒心は増しているが、攻撃が止む気配はない。

 「正規のメールであるにもかかわらず、常に受信拒否されるようなメッセージがあるかどうか、早く確かめたい」とグラハム・カミング氏は述べている。

(ジェレミー・カーク/IDG News Service ロンドン支局)

提供:Computerworld.jp