id:rinriのコメントをそのまま掲載

こんにちは。本当はメールを書いたほうがよいかも。
イデア返しです。

前のrinriアイデアとclashさんのアドバイスをもとにいろいろやってみました。

1.ニュースやトラックバック情報等々を収集する
2.形態素解析(chasenっていうサーバーアプリにて)をかけて、その結果を取得してDB登録
3.時系列に並べ替える→この部分は人間の目で追っていって分類が間違っていれば直すことのできるGUIインターフェースを用意
4.時系列にならべるとトラックバックかニュースの流れが時系列で見られる。

今は、RSS情報を収集しているので、ニュースの出所・発行日付・内容等で分類を行い見られるようにする予定。
システムとしては2まで完了しました。今度デモを見せます。

・2まで作り込んで面白かったところとこれはまだまだだなぁと思った点
1.形態素解析をしてくれるプログラム(chasen)の辞書が非力なので、思うように言葉が抽出できず。→抽出する場合にその業界の辞書作成必要(ニュースだと広く浅く掲載されている辞書が必要)
2.上記から分類が大変なのでやっぱり最後は人間の目が頼り

というわけで、また報告します。k2clashさん見たら意見ください。ソースもちょっとしたら送ります。