全文検索エンジン Hyper Estraier 2

[表示 : 全て最新50 1-99 101- 201- 301- 2ch.scのread.cgiへ]
Update time : 01/10 17:51 / Filesize : 94 KB / Number-of Response : 333
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：名無しさん＠お腹いっぱい。 [2007/04/17(火) 19:56:12 .net]: hyperestraier.sourceforge.net/index.ja.html
159 名前：fumiyas [2008/10/27(月) 11:44:33 .net]: >>158
GPL と LGPL だし、問題ないでしょ。(たぶん :-)
で、tokyo estraier どんなくらい試しました?
160 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/28(火) 18:27:33 .net]: >>159
>>158じゃないけれど
普通にインデックスして普通に検索出来て普通に遊べて…
これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた
161 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/28(火) 18:40:31 .net]: データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして
162 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/28(火) 21:50:58 .net]: >>161
う…_attrフォルダの中に「depot」ファイルがあるんだが
163 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 10:07:46 .net]: 過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…
164 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 11:16:02 .net]: >>163
ttp://www2.uploda.org/uporg1754116.zip.html
165 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 11:38:31 .net]: ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。

ttp://hyperestraier.sourceforge.net/win/hyperestraier-1.4.10-win32.zip
166 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 11:47:50 .net]: >>164
>>165
ディレクトリ一覧が表示されないだけだったのか。
ありがとう、助かりました。
お早いレスで俺涙目。
167 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/29(水) 18:47:28 .net]: Tokyo Estraierってどこにあるの？
168 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 00:44:04 .net]: Windows環境でMecabを使いたいんですけど、可能ですか？
試した手順は、下記になります。
前提：WindowsXP、Cygwin環境
１、Mecab0.97と辞書のビルド
２、下記サイトを参考にし、qdbmとHyperEstraierのビルド
ttp://www.shinonon.dyndns.org/diary/20071212.html
HyperEstraierのビルドで--enable-mecabとしましたが、
その後のmakeでエラーとなります。
169 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/10/30(木) 14:21:13 .net]: >>167
ttp://hyperestraier.sourceforge.net/past/tokyoestraier-0.0.1.tar.gz

ベースはHyper Estraier1.4.13
ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが
実際に使われてるのかちと分からん
QDBMも一緒に入ってないとエラー出るし

ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな…
1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ
170 名前：fumiyas [2008/10/30(木) 18:22:25 .net]: TE コンパイルしてみた。`estcmd create db` だけ試した。

>>162
_idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。

$ /usr/local/tokyoestraier/bin/estcmd crete db
$ strings db/_idx/0001
ToKyO CaBiNeT
1.0:510

>>169
HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。
ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。
いいのか? いまのところ DB の構成を把握していないのでよくわからんが、
_idx が転置インデックス? ほかは? 知っている人、教えて…。

あと 100万以上の文書は試したことないんでアレなんだけど、
参考までにハードウェアの構成とか、estcmd create に
指定したオプション (estcmd を使っているなら。-xh 付けたの?)、
estmaster の _conf の設定等を教えてもらえると嬉しいです。
171 名前：名無しさん＠お腹いっぱい。 [2008/12/08(月) 22:30:47 .net]: Hyper Estraierについて質問させてください。

Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、
うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、
そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。

Apacheはxamppを使いました。localhost/xampp/ は正常に表示されてると
思います。1.6.8aと出ています。あとphp5もスタートさせました。

でも、localhost/cgi-bin/estseek.cgi にアクセスすると、
Error: the configration file is misshing.とか出ます。

/opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。
estcmd search casket 'ほげほげ'
とかはちゃんとHITして結果が出てきます。

Errorが出てくる原因は何でしょうか。分かる方教えてください。
172 名前：171 mailto:sage [2008/12/09(火) 22:34:48 .net]: 自己レスです。よく分かりませんが
estseek.conf
estseek.tmpl
estseek.top
をchmod 744 したら動きました。失礼しました。
173 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/12(金) 00:50:50 .net]: >>53
すげー遅レス失礼。
HEの情報収集中→WikipediaのHEのエントリ→ >>53 の製品ページ
って感じでその製品を知ったんだけど、GPLって書いてるくせに
ソースコードダウンロードのリンクをたどってもソースコードがないんだけど、
これってどうなの？

ttp://www.osstech.co.jp/product/chimera#%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89

つーか、会社概要見たけど、中の人がこのスレにいるのか。
174 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/12(金) 01:21:53 .net]: >>173
別に公開する必要は無い。
会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、
もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。

GPLv2での3-aと3-bね。
175 名前：173 mailto:sage [2008/12/12(金) 19:40:13 .net]: >>174
そうなんだ。どうもありがと。
Webページ見たけど個人お断りみたいな事書いてあったな。

関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね（v3にリンクされてる）。
176 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/12(金) 20:12:53 .net]: GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、
批判するんだったらちゃんと読んで理解してからにした方がいい。
177 名前：名無しさん＠お腹いっぱい。 mailto:sage [2008/12/16(火) 17:55:27 .net]: >>173
これ読むといいよ。
web.archive.org/web/20041024013051/http://home.catv.ne.jp/pp/ginoue/memo/gpl.html
178 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/02/01(日) 02:03:25 .net]: >>47にも書いてるけど，属性検索ができない．
Wikipediaの全文検索デモページで試してみたけど効果なし...
179 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/02/08(日) 23:47:35 .net]: 疑似ノードマスタって、認証なしなの？
通常のノードマスタみたいにユーザとパスを設定できないの？
180 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/02/09(月) 01:33:22 .net]: estcmd outで文書の一括削除はできますか？
181 名前：名無しさん＠お腹いっぱい。 [2009/02/13(金) 23:47:32 .net]: Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが
JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って
いるサイトとかってないですかね？
web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・
初歩的な質問ですいません。
182 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/02/23(月) 06:47:28 .net]: Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。
mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。
32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。
aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。
必要なライブラリについてご存知の方いませんか？
183 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/02/23(月) 09:04:47 .net]: >>182
やったの去年だからよく覚えてないけど
ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする
184 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/02/23(月) 17:49:55 .net]: aptで入るね
185 名前：182 mailto:sage [2009/02/24(火) 06:22:35 .net]: >>183-184
レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。
aptでlibc-dev(これですよね？)を入れてもlibregex.aがないので、arglist.com/regex/からregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。
似たような事で困っている方は試してみて下さい。
どうもお騒がせしました。
186 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/08/28(金) 12:40:08 .net]: 作者ページのタイトルがうざくなってるんだが、改ざんされたのかな
187 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/08/28(金) 13:43:19 .net]: 特に変わったようには見えないが。
> Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT
だし。
188 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/08/28(金) 20:25:53 .net]: >>186
ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。
しかし作者ﾀｿはmixiに就職してからH.E.のほうには全然顔出さなくなったな。
189 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/08/28(金) 22:37:54 .net]: ソース見てみた、何じゃこりゃ。

> case 59: name = "ちょｗｗｗおまｗｗｗいごｗｗ"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
190 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/08/31(月) 10:17:50 .net]: > From: [783] 名無しさん＠お腹いっぱい。 <sage>
> Date: 2006/09/17(日) 07:52:41
>
> case 59: name = "ちょｗｗｗおまｗｗｗいごｗｗ"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
191 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/09(月) 16:22:46 .net]: 検索してもHitしないってことはなにが考えられるのかな？
登録文書に検索語句は確実にあるし、DBも壊れていない・・・
192 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/09(月) 18:02:45 .net]: ごめん、壊れてたみたい。
estcmd inform で壊れてるかどうかわかんないんだよなあ・・・
193 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/15(日) 00:49:32 .net]: >>192
そうなの？おれもestcmd inform で情報出てきたら平気だと思ってた。
どうやって壊れてる判定したの？
194 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/15(日) 01:54:04 .net]: >>193
絶対に登録文書にある文字列を検索しても出てこなかったので。
再構築で直りました。
インデックスが壊れているかどうか調べるコマンドが欲しい。
195 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/18(水) 06:15:41 .net]: estcmd repair を、時々やらないと駄目ってことですかね。
(-_-;ウーン　たまに治らないときもあるし..

--　追記お願いします m(_ _"m)ペコリ---------
【テク１】ノードマスタが再起動しない・・正常に停止しないとこうなる
　サーバールートDirの　_pid _stop の削除

【テク２】ＤＢが㌧でるっぽい
#estcmd repair index_path

ex.ノードサーバー利用時は（サーバールートをcasketなら）
#estcmd repair casket/_node/ノード名

【テク３】estwaver crawl時の「could not open」エラーの解決法
クローラールートディレクトリを　crawl_dir　と仮定して Code:
#cd crawl_dir
#estcmd repair _index
#dpmgr repair _trace/0001/depot
#dpmgr repair _trace/0002/depot
#dpmgr repair _trace/0003/depot
196 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/18(水) 16:56:39 .net]: >>195
>>estcmd repair を、時々やらないと駄目ってことですかね。
repairを一回やってみたんだ。直ったかなと思って、それでも念の為に
もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。
repairを繰り返す度に減っていくんだ・・・

あきらめて再構築したよ。
197 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/19(木) 05:41:03 .net]: >repairを繰り返す度に減っていくんだ・・・

((( ；ﾟДﾟ)))ｶﾞｸｶﾞｸﾌﾞﾙﾌﾞﾙ　

「特定のキーワードにヒットしたを、ＤＢから削除する」　なんてことできますか？

「特定のキーワードにヒットさせない」でもいいかなー
198 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/20(金) 08:54:17 .net]: Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。
DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。

DesktopHEで利用しようとしております。
199 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/20(金) 14:16:19 .net]: >>197
私も探してみたけど、そのものは無いみたい。
よくやる作業ならcgiとか作るんじゃないかな。

コマンドから手作業するときは、例えばこんな感じ。
消したいやつを検索して
estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord
OKなら上のコマンドに以下を追加
|awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done
200 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/20(金) 16:26:25 .net]: >>198
出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、
DesktopHEの関連付けはjaneにすればいいみたいな。

私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。
201 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/20(金) 22:49:29 .net]: >>200
速レスありがとう。
htmlに変換してって毎日巡回するたびにdat2html走らせてるの？
それとも真夜中にバッチ処理？

いずれにせよ、HDD容量が倍必要ですよね？
202 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/21(土) 12:31:28 .net]: >>201
>>毎日巡回するたびにdat2html走らせてるの？
そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。
ログは8GBくらいある。datファイルは定期的に削除している。
ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。
203 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/21(土) 23:28:31 .net]: >>202
うちもログは6Gぐらいあります。
全部変換するとなると15ｇぐらいいきそうですよねorz

Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて
レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。

Threadsearchと併用しないと駄目ですかね。
204 名前：名無しさん＠お腹いっぱい。 mailto:sage [2009/11/27(金) 00:40:30 .net]: XREAで設置しようとしたけど、インストールの段階で躓いたorz
cannot find -liconvとかでてきてるし・・・

libiconvの入れ方に問題があるのかなぁ・・・。
205 名前：名無しさん＠お腹いっぱい。 [2010/01/07(木) 21:28:29 .net]: 某サイト丸ごと吸い上げようと、
クローラーの設定seeddepthを50にしたら、５時間かかっても１つもインデックスできなかった...

種文書を全部吸い上げてからインデックスするとは知らんかった。
seeddepth１～２でよさそうね。
206 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/01/15(金) 16:12:43 .net]: Hyper Estraier のｗｉｎを使っている方に質問です。

当方初心者。
インストール、インデックス作成まではできました。なんとか。

しかし、estseek.confの内容変更の段で（だと思ってるんですが・・・）つまづいています。
replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか？

何卒よろしくお願いいたします。
207 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/01/16(土) 02:43:00 .net]: >>206
win版も使ったことはありますが、それだけでは何がなんだか分かりません。
estcmd inform casket は通りますか?
Hyper Estraier の画面は出るのですか?
表示のどこかに不満があるのですか?
どうなって欲しくて、現状どうなっているのか書いてください。
208 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/01/18(月) 15:45:09 .net]: ゴミのような2chのログも、こいつを使うと宝の山になる。
はらしょー
209 名前：名無しさん＠お腹いっぱい。 [2010/02/05(金) 14:01:07 .net]: Hyper Estraier 1.4.10(Win)を利用している者です。

ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか？
今、その状態です。

検索結果画面のソースを丸々コピーしたｈｔｍｌファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。
すごく不思議な感じです。ブラウザはＩＥ、sleipnirで確認しました。

どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか？
これは、もうｈｔｍｌの問題に過ぎないような気もしますが、よろしくお願いいたします。
210 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/05(金) 22:04:05 .net]: 文字コードの問題じゃね？
211 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/07(日) 17:19:49 .net]: 鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。
212 名前：209 [2010/02/08(月) 08:11:35 .net]: >>211
ブラウザは、他にオペラも試しました。同じ結果でした。
クライアントも４人分のLAN接続しているPCから試しました。同じ結果でした。

>>210
仮に文字コードの問題なら、対処法はありますでしょうか？

何卒よろしくお願いいたします。
213 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/08(月) 20:12:30 .net]: まずは、本当に文字コードの問題かどうかを確かめるべきです
フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して
それをブラウザから開くことができれば、文字コードの問題だと思います
214 名前：209,212 [2010/02/09(火) 08:13:55 .net]: >>213
>フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し

やってみました。ダメでした。相変わらずジャンプしてくれません。

考えるに、estseek.conf の replace設定なのかな、と。
これについては、自分でも自信がなかったので、下記に示します。
当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。

－－－－－－－－－－－－－－－－－－－－－－－－－－－
replace: ^file:///c:\server\{{!}}127.0.0.1/
replace: /index\.html?${{!}}/
－－－－－－－－－－－－－－－－－－－－－－－－－－－
このような記載でよろしいのでしょうか？
215 名前：209,212,214 [2010/02/09(火) 16:47:54 .net]: 追記します。

estseek.conf のreplace設定を見直してみました。
試行錯誤の結果、
－－－－－－－－－－－－－－－－－－－－－－－－－－－
replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/
replace: /index\.html?${{!}}/
－－－－－－－－－－－－－－－－－－－－－－－－－－－
とすることによりまして、
検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、

http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・

となりました。
この、「｜」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「｜」が消えるようになれば、正常動作するような気がします。

これらを消す、なにか良い方法がありましたら教えていただければ助かります。
216 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/09(火) 20:47:05 .net]: replaceの設定は元の設定で問題ない感じがします。

むしろ、showlrealの設定が falseの設定になっていると、
当該現象が発生するように思われます。こちらでも、
同様の現象を確認しました。unix で 1.4.13ですが。
217 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/09(火) 21:38:12 .net]: こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。

replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。
正しくは、C:\\server\\ではないでしょうか?

そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。

showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。

以下マニュアルより
-------------
replaceは正規表現によってURIを変換するのに使います。複数回指定できます。
先頭にマッチする「^」を駆使すれば接頭辞（ディレクトリ）の変換ができますし、末尾にマッチする

「$」を駆使すれば接尾辞（拡張子）の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。

「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。
--------------
218 名前：209,212,214,215 mailto:sage [2010/02/10(水) 07:57:47 .net]: >>216
showlreal　を「true」にしてみましたが、状況は変わりませんでした。
ジャンプする、しないの問題でいえば、ｐｄｆの文書ファイルはジャンプすることが確認されました。
.htmがなぜかジャンプしないのです。

>>217
C:\\server\\と記載し、やってみました。
すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
c:\server\search\・・・・・
となりました。

htmの文書へは、ジャンプしてくれません。
仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。
やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。

まだまだ試行錯誤中・・・
219 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/10(水) 08:56:54 .net]: つーかさ、やってることの意味分かってやってる？
別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、
何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、
どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。
困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。

# 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを
# すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの？
220 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/23(火) 20:50:40 .net]: これって英語の検索もはやくなるの？
221 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/24(水) 00:09:09 .net]: もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません
そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません
222 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/24(水) 12:18:43 .net]: www.seg.rmit.edu.au/zettair/
英語で使うだけならこっちの方が速かったりする？
223 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/24(水) 12:50:03 .net]: なんだ、宣伝かよ
224 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/02/24(水) 16:57:45 .net]: 日本語で最速なのはこれっぽいけど
英語で最速なのがどれなにか知りたかったんだ
225 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/08(月) 21:40:20 .net]: 亀レスにもほどがあるがズバリそのものがあります。

>>198
Datファイル全文検索ソフト
frozenlib.net/DatE/
>DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。
226 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/16(火) 22:31:58 .net]: ｢file size limit exceeded」で、いきなりダウンしたよ。

システムによって２Ｇとかのファイル制限あるから、
logファイルの大きさには注意しましょ。
ログの記録レベルを煽りましょう～
227 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/25(木) 00:58:26 .net]: indexサイズが小さくて、もれなく検索できればいい。
あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。
web用途ではなくデスクトップで使うには
書庫内と不足なしが大事。
順位は無くて良い。開いてみれば済むからな。
これはそういう使い方出来る?
228 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/25(木) 01:06:28 .net]: 複雑なアルゴリズムはいらない。
Grepの手助け程度で良い。
書庫に対応する。
いいやつ無いですか?
229 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/25(木) 02:01:51 .net]: フィルタ書けばいいじゃん。
230 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/25(木) 07:11:50 .net]: 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。
言語ごとに異なる位置にありますか。
統一した方が良いと思いますが。コード位置がわかりません、
231 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/25(木) 07:29:47 .net]: N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。
232 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/25(木) 07:31:23 .net]: 何が言いたいのかさっぱり分かりません！＼(￣∧￣)／

# 思いついた単語を羅列してるだけみたいだけど在日？
233 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/25(木) 10:19:59 .net]: 脊髄反射で在日とか言うネトウヨ？
234 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 11:17:22 .net]: ということにしたいのですね。
235 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 12:04:40 .net]: いいえ、自分が理解できないだけなのを認めたくないだけです。
236 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 13:35:20 .net]: ということにしたいのですね。
237 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 13:56:04 .net]: はい。
238 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 14:41:05 .net]: >>231
hyperestraier.sourceforge.net/uguide-ja.html#wordextraction
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、２文字は不可

こんぐらい教えてやれよ、無能なやつばっかだな
239 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 15:22:12 .net]: 分かってんならすぐに教えてやれよ、ノロマだな

という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか？
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では？

元々の問い（かどうかも分からない）は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238
240 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 20:42:39 .net]: サンクス
いまローカルでgrep手助け用検索開発してる
もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。
241 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 23:42:38 .net]: ちょｗまて
漏れなしバイナリ検索ならgrepで十分だろ
インデックス化するメリットないぞ
242 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/26(金) 23:58:55 .net]: 数ギガ、数十ギガとデータあったらどうする?
243 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/03/27(土) 00:22:50 .net]: もうその話あきた。よそでやれ
244 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/04/14(水) 09:33:15 .net]: mixiで公開してる東京なんとか
とかいう奴はこれの上位版？
245 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/04/14(水) 11:36:00 .net]: TokyoCabinetは検索エンジンというよりそのバックエンド、かな？
246 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/05/01(土) 16:32:06 .net]: これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね
247 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/05/19(水) 20:34:25 .net]: hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるｗ
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。
248 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/05/21(金) 21:40:15 .net]: 公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。

windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか？
検索してみたのですが、windows環境での方法は
見つかりませんでした。
windows環境でインデックスを作成する方法の伝授、
もしくは説明してるサイトがありましたら、教示願います。
当方、組み込み系のプログラムの経験はありますが、
windowsプログラム、webアプリ、SQLは素人状態です。

要領を得ない、質問をした本人がいまいちわかってない
自覚がある質問で申し訳ありませんが、よろしくお願いします。
249 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/05/24(月) 12:53:33 .net]: たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
ttp://hyperestraier.sourceforge.net/cguide-ja.html

うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト＋estcmdでもできなくはないと思う。
250 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/05/26(水) 02:11:25 .net]: >>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。
251 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/01(火) 20:00:23 .net]: 数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。
252 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/02(水) 19:06:56 .net]: 複数ファイルの書庫をディレクトリと認識するエンジンありますか
253 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/03(木) 13:20:31 .net]: >>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。
254 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/03(木) 16:48:10 .net]: サンクス
255 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/04(金) 20:57:30 .net]: 【岩波書店】　Google問題の核心
　　　　　　　　―― 開かれた検索システムのために ――
　　　　　　　　　　　　　　　　　　牧野　二郎
www.iwanami.co.jp/shinkan/index.html
　世界の出版界に衝撃が走った．Googleが新しいブックサービスを開始したのだ．
Googleなどの検索システムがなぜ興隆し，そこで起こっている収集の限界や偏向問
題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する．それらを解決
するため，著者を軸にさまざまの分野の研究者が集結し，新しい検索システムを提
案する．
256 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/05(土) 22:13:46 .net]: >>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。
257 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/14(月) 16:45:12 .net]: すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。
258 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/06/28(月) 10:43:43 .net]: クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に
259 名前：名無しさん＠お腹いっぱい。 mailto:sage [2010/08/05(木) 03:31:58 .net]: 引き継いで開発してくれる有志っていないの？
低スキルなので、私はだめだけど..

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef