Yahoo! Japanのトピックス載ってる名詞を抜き出した。 アイディアメモ
Yahoo! Japanのトピックスに載ってる名詞をChasenで抜き出しました。
何を作ろうかと言う事だが、トピックスの名詞を抽出した後クローラーに関連したウェブサイトをクロールするように指令。
時間が経つにつれて、どんどん時代に敏感なインデックスが出来上がっていくと言う事。
シンプルなアルゴリズムですが、今日Mohawkに組み込みました。
全部自動化しても良いけど、処理の流れがわかり易いので記載しときました。
処理の流れ
1.PerlでYahoo! トピックスを取ってくる。
2.取ってきたトピックスからChasenで名詞を抽出 (もちろんMeCabでも良い)
3.クローラーにトピックスから抽出された名詞を投げる。
4.クローラーはトピックスから抽出された名詞から検索系API叩いてseed URLを見つけるかウェブから直接見つけるか、もしくは自分のデータベースを検索してクロール開始。
5.インデックスが増えていく。
下は今日のYahoo! Japanトピックスから抽出した名詞。
品詞も出していますが、それはトピックスから名詞を抜き出すため。クローラーに指令するときは要りません。
名張 名詞-固有名詞-地域-一般 事件 名詞-一般 鑑定 名詞-サ変接続 評価 名詞-サ変接続 写真 名詞-一般 大阪 名詞-固有名詞-地域-一般 訴訟 名詞-サ変接続 原告 名詞-一般 敗訴 名詞-サ変接続 写真 名詞-一般 被災 名詞-サ変接続 水産 名詞-一般 加工 名詞-サ変接続 再開 名詞-サ変接続 半数 名詞-一般 ネット 名詞-一般 選挙 名詞-サ変接続 解禁 名詞-サ変接続 課題 名詞-一般 議論 名詞-サ変接続 写真 名詞-一般 人 名詞-一般 朝 名詞-固有名詞-地域-国 カツ 名詞-一般 最前線 名詞-一般 イチロー 名詞-固有名詞-人名-名 守備 名詞-サ変接続 珍 名詞-一般 プレー 名詞-サ変接続 バレー 名詞-一般 韓国 名詞-固有名詞-地域-国 戦 名詞-接尾-一般 生命 名詞-一般 線 名詞-接尾-一般 写真 名詞-一般 森高 名詞-固有名詞-人名-姓 千里 名詞-固有名詞-人名-名 曲 名詞-接尾-一般 セルフ 名詞-一般 カバー 名詞-サ変接続 写真 名詞-一般
Hoping to talk with people who makes crawlers soon.
Tsubasa Kato 5/25/2012