- 129 名前:nobodyさん mailto:sage [2007/04/12(木) 08:25:53 ID:???]
- >>128
Sennaのインデックスは転置インデックスという構造で、 単語1: 文書ID1, 文書ID2 単語2: 文書ID1, 文書ID3 という風に、単語ごとにその単語を含む文書IDのリストを持っている。 ある文書IDだけを削除する場合、 元の文書の内容がなくても、 上記のリスト中すべての単語について 指定の文書IDがあるかどうかをチェックして削除できる。 でも激遅い。実用にならない。 以下のようなリストを別途持っておけば、 削除が必要な単語についてのみ削除処理を走らせればよい。 文書ID1: 単語1, 単語2 文書ID2: 単語1 文書ID3: 単語2 このようなリストを削除時に手に入れる方法は ・上記のリストを別途インデックスとして作っておく ・元の文書を保存しておく ・元の文書を削除時に渡す(現在のSenna方式) の3つくらいある。 というわけで間接的だが結構影響あるぞ、ストレージ。
|

|