Yahoo! Japanのトピックス載ってる名詞を抜き出した。 アイディアメモ

Yahoo! Japanのトピックスに載ってる名詞をChasenで抜き出しました。

何を作ろうかと言う事だが、トピックスの名詞を抽出した後クローラーに関連したウェブサイトをクロールするように指令。

時間が経つにつれて、どんどん時代に敏感なインデックスが出来上がっていくと言う事。

シンプルなアルゴリズムですが、今日Mohawkに組み込みました。

全部自動化しても良いけど、処理の流れがわかり易いので記載しときました。

処理の流れ

1.PerlYahoo! トピックスを取ってくる。
2.取ってきたトピックスからChasenで名詞を抽出 (もちろんMeCabでも良い)
3.クローラーにトピックスから抽出された名詞を投げる。
4.クローラーはトピックスから抽出された名詞から検索系API叩いてseed URLを見つけるかウェブから直接見つけるか、もしくは自分のデータベースを検索してクロール開始。
5.インデックスが増えていく。

下は今日のYahoo! Japanトピックスから抽出した名詞。

品詞も出していますが、それはトピックスから名詞を抜き出すため。クローラーに指令するときは要りません。

名張	名詞-固有名詞-地域-一般
事件	名詞-一般
鑑定	名詞-サ変接続
評価	名詞-サ変接続
写真	名詞-一般
大阪	名詞-固有名詞-地域-一般
訴訟	名詞-サ変接続
原告	名詞-一般
敗訴	名詞-サ変接続
写真	名詞-一般
被災	名詞-サ変接続
水産	名詞-一般
加工	名詞-サ変接続
再開	名詞-サ変接続
半数	名詞-一般
ネット	名詞-一般
選挙	名詞-サ変接続
解禁	名詞-サ変接続
課題	名詞-一般
議論	名詞-サ変接続
写真	名詞-一般
人	名詞-一般
朝	名詞-固有名詞-地域-国
カツ	名詞-一般
最前線	名詞-一般
イチロー	名詞-固有名詞-人名-名
守備	名詞-サ変接続
珍	名詞-一般
プレー	名詞-サ変接続
バレー	名詞-一般
韓国	名詞-固有名詞-地域-国
戦	名詞-接尾-一般
生命	名詞-一般
線	名詞-接尾-一般
写真	名詞-一般
森高	名詞-固有名詞-人名-姓
千里	名詞-固有名詞-人名-名
曲	名詞-接尾-一般
セルフ	名詞-一般
カバー	名詞-サ変接続
写真	名詞-一般

Hoping to talk with people who makes crawlers soon.

Tsubasa Kato 5/25/2012