組み込み型全文検索エ ..
[
2ch
|
▼Menu
]
■コピペモード
□
スレを通常表示
□
オプションモード
□このスレッドのURL
■項目テキスト
156:nobodyさん 07/09/25 00:54:55 >>155 mksss.plの89〜92行目ぐらいの &update($index,$constants_code{$index->encoding()},\%StorageDB,\%ModifiedDB,\%TitleDB,$_); と print "新規: $i / @{[$#new + 1]} $_ \n"; を入れ替えて実行すると、どのファイルが問題なのか判るかと思います。 157:153 07/09/25 01:29:01 >>156 thx. 試してみたけど1個目の HTML でいきなりこけてた… 158:153 07/09/25 02:01:50 あーうちの環境依存の問題かな… どんな HTML 食わせても File::Extract が undef 返すっぽいわ… 159:153 07/09/25 13:05:25 Perl 5.8.0 環境で動かすのは諦めておとなしく Perl 5.8.8 で動かすことにしたらすんなり先に進んだよ。 で、やたら文字化けするから変だと思ったら、 $main::IndexConvert を 1 に変えておかないとダメなのね。 それでもやっぱりスニペットが文字化けしまくるし その関係か日本語でほとんどヒットしない。 で、さらに調べたところ、 File::Extract::Result->text() は 元の HTML の文字コードにかかわらず UTF-8 バイト列を返すっぽい (たまに UTF-8 文字列を返すこともある) ので、 164行目の Encode::from_to($buf,$guess, $encoding) if($main::IndexConvert); は Encode::from_to($buf, 'utf8', $encoding) if($main::IndexConvert); にしないとダメぽ。 ほか俺が使う時にデフォルト設定から変えた部分↓ $main::Indexcode = SEN_ENC_EUCJP; (MeCab に合わせて) $main::Indexflags = SEN_INDEX_NORMALIZE; (正規化する、N-gram 使わない) @main::GuessCode = qw/cp932 euc-jp utf8 7bit-jis/; (shiftjis より cp932 の方が無難かな) $main::SkinDir = 'skinfiles/'; (パッケージ展開した直後の状態に合わせて) で、文字化け問題は大方解決したんだが、 多数ヒットするキーワードで検索すると Out of Memory というエラーメッセージが出て結果が出ないことがある。 それから Readme にも書いてあるけど TITLE とか H1, H2 とか A とかに重み付けしたスコアリングは欲しいね。
次ページ
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
レスジャンプ
mixiチェック!
Twitterに投稿
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch
5250日前に更新/60 KB
担当:undef