- 7 名前:989 [2009/01/10(土) 17:03:10 ]
- ほしいファイルを内容で検索する方法考えた。
各ファイルごとに24bit(3バイト)ごとの出現回数を調べておき、例えば「大車輪」を検索したかったら 大(車の前半)、 (大の後半)車 、 (車の後半)輪 の3バイトがカウントされているファイルを選ぶ。 24bitのカウントを保持しておくのは負荷が大きいので、良く出る1万個くらいでいいとおもう。 さらにこの方法で、ある文書を指定したら類似するファイルを列挙できる。 2^24のベクトル空間と見なして、そのなす角を求める。 ほとんどの単語は2語以上の合成だとすれば、2バイトごとに語の合成が起こる所だけ統計を取れば、数は減らせるな。 (大の後半)(車の前半)、 (車の後半)(輪の前半)のようにカウントを取る。 P2Pの相手に、例えば52551番、7784番を含むファイルはあるかとたずねて、あったら出現回数やタイトルや部分的な内容を送信してもらう。
|

|