テラマイニングについて考えた事。
「こうしたテラ単位のデータの複数要素の相関関係をコンピュータ計算してゆく事を「兆単位の発掘」=「テラマイニング」という。」(「その数学が戦略を決める」より)
兆単位の発掘はまだ僕は経験したことはありませんが、HadoopやMySQLをつかってどんどんギガマイニングやメガマイニングレベルでデータマイニングをやっていきたいと思っています。
実際兆のデータレベル(テラバイト級)ではあまりデータを使ったことがないのですが、これが可能にできるように、僕のサーバーには1テラバイトのディスクを搭載しています。
僕がしようと思っているのは、同じようなURLのフィルタリング、関連性の分析、マッチングなどです。
また、僕のデータベースには、メタdescriptionがあるので、それと本文との関連性を検証してスコアリングしたいと思っています。