[表示 : 全て 最新50 1-99 101- 2chのread.cgiへ]
Update time : 12/08 12:26 / Filesize : 32 KB / Number-of Response : 160
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

datファイルを共有するP2Pソフト o2on 16dat



7 名前:989 [2009/01/10(土) 17:03:10 ]
ほしいファイルを内容で検索する方法考えた。
各ファイルごとに24bit(3バイト)ごとの出現回数を調べておき、例えば「大車輪」を検索したかったら
大(車の前半)、 (大の後半)車 、 (車の後半)輪 の3バイトがカウントされているファイルを選ぶ。
24bitのカウントを保持しておくのは負荷が大きいので、良く出る1万個くらいでいいとおもう。
さらにこの方法で、ある文書を指定したら類似するファイルを列挙できる。
2^24のベクトル空間と見なして、そのなす角を求める。

ほとんどの単語は2語以上の合成だとすれば、2バイトごとに語の合成が起こる所だけ統計を取れば、数は減らせるな。
(大の後半)(車の前半)、 (車の後半)(輪の前半)のようにカウントを取る。

P2Pの相手に、例えば52551番、7784番を含むファイルはあるかとたずねて、あったら出現回数やタイトルや部分的な内容を送信してもらう。






[ 続きを読む ] / [ 携帯版 ]

全部読む 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧](*・∀・)<32KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef