文章分析

http://www.packetblackhole.com/cgi-bin/whatcat.cgi
↓以下のサイトから
http://d.hatena.ne.jp/maspro/20031114#1068806899


あそこはどうだろう。

http://www.packetblackhole.com/cgi-bin/whatcat.cgi?q=http%3A%2F%2Fd.hatena.ne.jp%2Flovelovedog%2F

暴力/暴言/冒涜:638 ですって、さすがだアニキ!

↓いくら何でもそんな高いのは不自然だと思って、10月分のテキストを調べてみました。
http://www.packetblackhole.com/cgi-bin/whatcat.cgi?q=http%3A%2F%2Fd.hatena.ne.jp%2Flovelovedog%2F200310

String Length: 61392 byte
Language :Japanese euc-jp
Checked Language: Japanese
Title: はてなダイアリー - 愛・蔵太の気ままな日記
Category: 私用:204 暴力/暴言/冒涜:165
秘密情報:53,私用:204,掲示板:34,暴力/暴言/冒涜:165,オタク:100
↓これぐらいなら「要再検」ぐらいだと思って、2003年9月を見てみたら、
http://www.packetblackhole.com/cgi-bin/whatcat.cgi?q=http%3A%2F%2Fd.hatena.ne.jp%2Flovelovedog%2F200309

String Length: 115441 byte
Language :Japanese euc-jp
Checked Language: Japanese
Title: はてなダイアリー - 愛・蔵太の気ままな日記
Category: 暴力/暴言/冒涜:969 私用:282
秘密情報:59,私用:282,アダルト:45,宗教/カルト:80,賭け事、不正アクセス情報、違法行為:64,掲示板:68,暴力/暴言/冒涜:969,麻薬/ドラッグ:20,オタク:36
…どうもこの文章解析は正確なのか不明です。まぁ、引用しているテキストが「暴力/暴言/冒涜」が多かったりした時は、そういうケースも考えられるでしょうが…。
どうも解せないので、「969」という数値を上回るサイトがあったら、教えてください。先着1名に、はてなポイントを100ポイントお送りします(マジ)。(終了しました)
追記:
あれこれサイトのurlを入力して分析してみたんですが、どうも「テキストの量」がうまく「キーワード」と関連づいていないような気がします(テキスト量が多くなると、「100以上で確実」というカテゴリづけが反映されない)。カテゴリのジャンル分けにも不満はあるんですが、まぁ発想としては面白いものがあるので、一応この件につきましてあちらのサイト管理人にメールをしておきました。