文章分析
http://www.packetblackhole.com/cgi-bin/whatcat.cgi
↓以下のサイトから
http://d.hatena.ne.jp/maspro/20031114#1068806899
↓いくら何でもそんな高いのは不自然だと思って、10月分のテキストを調べてみました。
あそこはどうだろう。http://www.packetblackhole.com/cgi-bin/whatcat.cgi?q=http%3A%2F%2Fd.hatena.ne.jp%2Flovelovedog%2F
暴力/暴言/冒涜:638 ですって、さすがだアニキ!
http://www.packetblackhole.com/cgi-bin/whatcat.cgi?q=http%3A%2F%2Fd.hatena.ne.jp%2Flovelovedog%2F200310
↓これぐらいなら「要再検」ぐらいだと思って、2003年9月を見てみたら、
String Length: 61392 byte
Language :Japanese euc-jp
Checked Language: Japanese
Title: はてなダイアリー - 愛・蔵太の気ままな日記
Category: 私用:204 暴力/暴言/冒涜:165
秘密情報:53,私用:204,掲示板:34,暴力/暴言/冒涜:165,オタク:100
http://www.packetblackhole.com/cgi-bin/whatcat.cgi?q=http%3A%2F%2Fd.hatena.ne.jp%2Flovelovedog%2F200309
…どうもこの文章解析は正確なのか不明です。まぁ、引用しているテキストが「暴力/暴言/冒涜」が多かったりした時は、そういうケースも考えられるでしょうが…。
String Length: 115441 byte
Language :Japanese euc-jp
Checked Language: Japanese
Title: はてなダイアリー - 愛・蔵太の気ままな日記
Category: 暴力/暴言/冒涜:969 私用:282
秘密情報:59,私用:282,アダルト:45,宗教/カルト:80,賭け事、不正アクセス情報、違法行為:64,掲示板:68,暴力/暴言/冒涜:969,麻薬/ドラッグ:20,オタク:36
追記:
あれこれサイトのurlを入力して分析してみたんですが、どうも「テキストの量」がうまく「キーワード」と関連づいていないような気がします(テキスト量が多くなると、「100以上で確実」というカテゴリづけが反映されない)。カテゴリのジャンル分けにも不満はあるんですが、まぁ発想としては面白いものがあるので、一応この件につきましてあちらのサイト管理人にメールをしておきました。