検索エンジンのインデックス(ウェブページの量)をとても多くする方法
検索エンジンのインデックス(ウェブページの量)をとても多くする方法
ご存知の方も多いと思いますが、僕はMohawk Searchと言う検索エンジンの開発をしています。
そこで僕の検索エンジンで採用しているインデックス(ウェブページの量)を多くする方法を教えます。
単純なのですが、MecabなりChasenなりでまずウェブの記事など、関連しているインデックスを多くしたい文章など分かちをします。
その後、全部の単語に検索エンジンに分かちされた単語でクエリを投げます。返されたページをシード(リンクをたどる元のページ)にする。
そうすると、関連したウェブサイトが自動的に増えていきます。
Perlのコードにしたので、こちらのgithubでダウンロードしてください。
https://github.com/stingraze/Search-Seed-Dispatcher
後、有効なのはウェブページのキーワードを一行ずつ保存して、それを一行ずつ検索エンジンに投げて、そこからクロールすると言う手法です。