- 1 名前:名無しさん@お腹いっぱい。 [2007/04/17(火) 19:56:12 .net]
-
hyperestraier.sourceforge.net/index.ja.html
- 142 名前:fumiyas [2008/07/26(土) 02:26:06 .net]
- >>141
ああ、わかった…。(たぶん) pdftotext のバグですね。 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output の部分を: pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ | output とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。) # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext # chmod 755 /usr/bin/estfxpdftotext とでもして、 $ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ とするとか。
- 143 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/07/26(土) 11:00:18 .net]
- >>142
あんただれ?
- 144 名前:名無しさん@お腹いっぱい。 [2008/07/28(月) 14:06:44 .net]
- >>142
ホントすいません、付き合って頂いちゃってありがとうございます。 pdftotext のバグですか!? だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`) スクリプトありがとうございます(人-) ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分… > # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext > # chmod 755 /usr/bin/estfxpdftotext estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって /usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ それともそのままやっちゃっても大丈夫的な感じでしょうか?
- 145 名前:fumiyas [2008/07/29(火) 13:53:59 .net]
- >>144
まずは pdftotext のバグについて。 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら [File] - [Properties] で表示される情報) を HTML の <meta> に 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 sed がやっていることですが、<pre>〜</pre> の間の <, >, & を <, >, & に変換しているだけです。 最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の hyperestraier パッケージでは /usr/bin に置かれているというだけで、 そっちの環境で /usr/local/share/hyperestraier/filter なら、 そっちに合わせて ↑ に置くのがいいと思います。 # sed 's/ -htmlmeta / -raw -nopgbrk /' \ /usr/local/share/hyperestraier/filter/estfxpdftohtml \ >/usr/local/share/hyperestraier/filter/estfxpdftotext >>143 ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)
- 146 名前:fumiyas [2008/07/29(火) 13:57:46 .net]
- ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。
どうしたらいいの? ま、いいか。
- 147 名前:fumiyas [2008/07/29(火) 15:56:25 .net]
- 初心者板で聞いてきました。「&amp;」って書くのね…。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ |output その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
- 148 名前:名無しさん@お腹いっぱい。 [2008/07/30(水) 18:50:03 .net]
- >>147
す・すすごい!!できたできました!!(・∀・∀・) ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。 きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン 天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147 ほんにありがとうございます。 確かにインデックスの方には <pre> が単語化されているようですが、 これはもう、しょうがないですよ…ね…? はぁぁ、感動しちゃいました。(;∀; )
- 149 名前:fumiyas [2008/08/01(金) 01:35:58 .net]
- >>148
解決されたようでなによりです。 「pre」が気になるようなら、上で書いたように estfxpdftohtml の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの 値を変更するのを忘れないように。
- 150 名前:HE@SHE [2008/09/27(土) 02:48:36 .net]
- Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。
- 151 名前:名無しさん@お腹いっぱい。 [2008/10/02(木) 13:47:11 .net]
- すみません教えてください。
ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、 pdfの日本語がインデックスに入っていないことに気付きました。 いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。 degas@debian:~$ pdftotext 日本語入りのpdf.pdf Error: Unknown character collection 'Adobe-Japan1' : Error: Unknown character collection 'Adobe-Japan1' ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに 推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。 念のためいまxpdfも入れてみましたが、同じエラーが出ます。 指針が有ればお願いしますm(_ _)m。
- 152 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 14:23:09 .net]
- Unknown character collection 'Adobe-Japan1' でググっても解決しないの?
xpdf-japanese とやらを入れてる?
- 153 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 14:29:43 .net]
- ttp://www.foolabs.com/xpdf/download.html
にある xpdf-japanese.tar.gz は入れた?
- 154 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 15:11:58 .net]
- ありがとうございます。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。
- 155 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 15:19:29 .net]
- そうですか。私にも何でか分かりません。
- 156 名前:151,153 mailto:sage [2008/10/02(木) 16:59:34 .net]
- 解決しました。
xpdf-commonをapt-getでインストール、 cmap-adobe-japan1を取ってきてdpkgでインストール、 さらに/etc/xpdf/xpdfrcに include /etc/xpdf/xpdfrc-japanese.dpkg-new を書き加えればOKでした。 apt-getしか使えない男にお付き合いいただきありがとうございました。 お邪魔しました。
- 157 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 17:05:15 .net]
- ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。
- 158 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/20(月) 15:21:23 .net]
- tokyo estraierはここ以外で存在が話題になっていないんだけど
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか
- 159 名前:fumiyas [2008/10/27(月) 11:44:33 .net]
- >>158
GPL と LGPL だし、問題ないでしょ。(たぶん :-) で、tokyo estraier どんなくらい試しました?
- 160 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/28(火) 18:27:33 .net]
- >>159
>>158じゃないけれど 普通にインデックスして普通に検索出来て普通に遊べて… これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた
- 161 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/28(火) 18:40:31 .net]
- データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして
- 162 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/28(火) 21:50:58 .net]
- >>161
う…_attrフォルダの中に「depot」ファイルがあるんだが
- 163 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 10:07:46 .net]
- 過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…
- 164 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 11:16:02 .net]
- >>163
ttp://www2.uploda.org/uporg1754116.zip.html
- 165 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 11:38:31 .net]
- ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで 落とせますよ。 ttp://hyperestraier.sourceforge.net/win/hyperestraier-1.4.10-win32.zip
- 166 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 11:47:50 .net]
- >>164
>>165 ディレクトリ一覧が表示されないだけだったのか。 ありがとう、助かりました。 お早いレスで俺涙目。
- 167 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 18:47:28 .net]
- Tokyo Estraierってどこにあるの?
- 168 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/30(木) 00:44:04 .net]
- Windows環境でMecabを使いたいんですけど、可能ですか?
試した手順は、下記になります。 前提:WindowsXP、Cygwin環境 1、Mecab0.97と辞書のビルド 2、下記サイトを参考にし、qdbmとHyperEstraierのビルド ttp://www.shinonon.dyndns.org/diary/20071212.html HyperEstraierのビルドで--enable-mecabとしましたが、 その後のmakeでエラーとなります。
- 169 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/30(木) 14:21:13 .net]
- >>167
ttp://hyperestraier.sourceforge.net/past/tokyoestraier-0.0.1.tar.gz ベースはHyper Estraier1.4.13 ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが 実際に使われてるのかちと分からん QDBMも一緒に入ってないとエラー出るし ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな… 1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ
- 170 名前:fumiyas [2008/10/30(木) 18:22:25 .net]
- TE コンパイルしてみた。`estcmd create db` だけ試した。
>>162 _idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。 $ /usr/local/tokyoestraier/bin/estcmd crete db $ strings db/_idx/0001 ToKyO CaBiNeT 1.0:510 >>169 HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。 ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。 いいのか? いまのところ DB の構成を把握していないのでよくわからんが、 _idx が転置インデックス? ほかは? 知っている人、教えて…。 あと 100万以上の文書は試したことないんでアレなんだけど、 参考までにハードウェアの構成とか、estcmd create に 指定したオプション (estcmd を使っているなら。-xh 付けたの?)、 estmaster の _conf の設定等を教えてもらえると嬉しいです。
- 171 名前:名無しさん@お腹いっぱい。 [2008/12/08(月) 22:30:47 .net]
- Hyper Estraierについて質問させてください。
Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、 うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、 そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。 Apacheはxamppを使いました。localhost/xampp/ は正常に表示されてると 思います。1.6.8aと出ています。あとphp5もスタートさせました。 でも、localhost/cgi-bin/estseek.cgi にアクセスすると、 Error: the configration file is misshing.とか出ます。 /opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。 estcmd search casket 'ほげほげ' とかはちゃんとHITして結果が出てきます。 Errorが出てくる原因は何でしょうか。分かる方教えてください。
- 172 名前:171 mailto:sage [2008/12/09(火) 22:34:48 .net]
- 自己レスです。よく分かりませんが
estseek.conf estseek.tmpl estseek.top をchmod 744 したら動きました。失礼しました。
- 173 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/12(金) 00:50:50 .net]
- >>53
すげー遅レス失礼。 HEの情報収集中→WikipediaのHEのエントリ→ >>53 の製品ページ って感じでその製品を知ったんだけど、GPLって書いてるくせに ソースコードダウンロードのリンクをたどってもソースコードがないんだけど、 これってどうなの? ttp://www.osstech.co.jp/product/chimera#%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89 つーか、会社概要見たけど、中の人がこのスレにいるのか。
- 174 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/12(金) 01:21:53 .net]
- >>173
別に公開する必要は無い。 会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、 もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。 GPLv2での3-aと3-bね。
- 175 名前:173 mailto:sage [2008/12/12(金) 19:40:13 .net]
- >>174
そうなんだ。どうもありがと。 Webページ見たけど個人お断りみたいな事書いてあったな。 関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね(v3にリンクされてる)。
- 176 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/12(金) 20:12:53 .net]
- GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、
批判するんだったらちゃんと読んで理解してからにした方がいい。
- 177 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/16(火) 17:55:27 .net]
- >>173
これ読むといいよ。 web.archive.org/web/20041024013051/http://home.catv.ne.jp/pp/ginoue/memo/gpl.html
- 178 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/01(日) 02:03:25 .net]
- >>47にも書いてるけど,属性検索ができない.
Wikipediaの全文検索デモページで試してみたけど効果なし...
- 179 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/08(日) 23:47:35 .net]
- 疑似ノードマスタって、認証なしなの?
通常のノードマスタみたいにユーザとパスを設定できないの?
- 180 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/09(月) 01:33:22 .net]
- estcmd outで文書の一括削除はできますか?
- 181 名前:名無しさん@お腹いっぱい。 [2009/02/13(金) 23:47:32 .net]
- Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが
JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って いるサイトとかってないですかね? web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・ 初歩的な質問ですいません。
- 182 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/23(月) 06:47:28 .net]
- Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。
mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。 32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。 aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。 必要なライブラリについてご存知の方いませんか?
- 183 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/23(月) 09:04:47 .net]
- >>182
やったの去年だからよく覚えてないけど ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする
- 184 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/23(月) 17:49:55 .net]
- aptで入るね
- 185 名前:182 mailto:sage [2009/02/24(火) 06:22:35 .net]
- >>183-184
レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。 aptでlibc-dev(これですよね?)を入れてもlibregex.aがないので、arglist.com/regex/からregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。 似たような事で困っている方は試してみて下さい。 どうもお騒がせしました。
- 186 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 12:40:08 .net]
- 作者ページのタイトルがうざくなってるんだが、改ざんされたのかな
- 187 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 13:43:19 .net]
- 特に変わったようには見えないが。
> Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT だし。
- 188 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 20:25:53 .net]
- >>186
ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。 しかし作者タソはmixiに就職してからH.E.のほうには全然顔出さなくなったな。
- 189 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 22:37:54 .net]
- ソース見てみた、何じゃこりゃ。
> case 59: name = "ちょwwwおまwwwいごww"; break; > case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
- 190 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/31(月) 10:17:50 .net]
- > From: [783] 名無しさん@お腹いっぱい。 <sage>
> Date: 2006/09/17(日) 07:52:41 > > case 59: name = "ちょwwwおまwwwいごww"; break; > case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
- 191 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/09(月) 16:22:46 .net]
- 検索してもHitしないってことはなにが考えられるのかな?
登録文書に検索語句は確実にあるし、DBも壊れていない・・・
- 192 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/09(月) 18:02:45 .net]
- ごめん、壊れてたみたい。
estcmd inform で壊れてるかどうかわかんないんだよなあ・・・
- 193 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/15(日) 00:49:32 .net]
- >>192
そうなの?おれもestcmd inform で情報出てきたら平気だと思ってた。 どうやって壊れてる判定したの?
- 194 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/15(日) 01:54:04 .net]
- >>193
絶対に登録文書にある文字列を検索しても出てこなかったので。 再構築で直りました。 インデックスが壊れているかどうか調べるコマンドが欲しい。
- 195 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/18(水) 06:15:41 .net]
- estcmd repair を、時々やらないと駄目ってことですかね。
(-_-;ウーン たまに治らないときもあるし.. -- 追記お願いします m(_ _"m)ペコリ--------- 【テク1】ノードマスタが再起動しない・・正常に停止しないとこうなる サーバールートDirの _pid _stop の削除 【テク2】DBがdでるっぽい #estcmd repair index_path ex.ノードサーバー利用時は(サーバールートをcasketなら) #estcmd repair casket/_node/ノード名 【テク3】estwaver crawl時の「could not open」エラーの解決法 クローラールートディレクトリを crawl_dir と仮定して Code: #cd crawl_dir #estcmd repair _index #dpmgr repair _trace/0001/depot #dpmgr repair _trace/0002/depot #dpmgr repair _trace/0003/depot
- 196 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/18(水) 16:56:39 .net]
- >>195
>>estcmd repair を、時々やらないと駄目ってことですかね。 repairを一回やってみたんだ。直ったかなと思って、それでも念の為に もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。 repairを繰り返す度に減っていくんだ・・・ あきらめて再構築したよ。
- 197 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/19(木) 05:41:03 .net]
- >repairを繰り返す度に減っていくんだ・・・
((( ;゚Д゚)))ガクガクブルブル 「特定のキーワードにヒットしたを、DBから削除する」 なんてことできますか? 「特定のキーワードにヒットさせない」でもいいかなー
- 198 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 08:54:17 .net]
- Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。
DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。 DesktopHEで利用しようとしております。
- 199 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 14:16:19 .net]
- >>197
私も探してみたけど、そのものは無いみたい。 よくやる作業ならcgiとか作るんじゃないかな。 コマンドから手作業するときは、例えばこんな感じ。 消したいやつを検索して estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord OKなら上のコマンドに以下を追加 |awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done
- 200 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 16:26:25 .net]
- >>198
出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、 DesktopHEの関連付けはjaneにすればいいみたいな。 私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。
- 201 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 22:49:29 .net]
- >>200
速レスありがとう。 htmlに変換してって毎日巡回するたびにdat2html走らせてるの? それとも真夜中にバッチ処理? いずれにせよ、HDD容量が倍必要ですよね?
- 202 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/21(土) 12:31:28 .net]
- >>201
>>毎日巡回するたびにdat2html走らせてるの? そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。 ログは8GBくらいある。datファイルは定期的に削除している。 ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。
- 203 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/21(土) 23:28:31 .net]
- >>202
うちもログは6Gぐらいあります。 全部変換するとなると15gぐらいいきそうですよねorz Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。 Threadsearchと併用しないと駄目ですかね。
- 204 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/27(金) 00:40:30 .net]
- XREAで設置しようとしたけど、インストールの段階で躓いたorz
cannot find -liconvとかでてきてるし・・・ libiconvの入れ方に問題があるのかなぁ・・・。
- 205 名前:名無しさん@お腹いっぱい。 [2010/01/07(木) 21:28:29 .net]
- 某サイト丸ごと吸い上げようと、
クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった... 種文書を全部吸い上げてからインデックスするとは知らんかった。 seeddepth1〜2でよさそうね。
- 206 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/15(金) 16:12:43 .net]
- Hyper Estraier のwinを使っている方に質問です。
当方初心者。 インストール、インデックス作成まではできました。なんとか。 しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。 replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか? 何卒よろしくお願いいたします。
- 207 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/16(土) 02:43:00 .net]
- >>206
win版も使ったことはありますが、それだけでは何がなんだか分かりません。 estcmd inform casket は通りますか? Hyper Estraier の画面は出るのですか? 表示のどこかに不満があるのですか? どうなって欲しくて、現状どうなっているのか書いてください。
- 208 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/18(月) 15:45:09 .net]
- ゴミのような2chのログも、こいつを使うと宝の山になる。
はらしょー
- 209 名前:名無しさん@お腹いっぱい。 [2010/02/05(金) 14:01:07 .net]
- Hyper Estraier 1.4.10(Win)を利用している者です。
ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか? 今、その状態です。 検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。 すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。 どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか? これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。
- 210 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/05(金) 22:04:05 .net]
- 文字コードの問題じゃね?
- 211 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/07(日) 17:19:49 .net]
- 鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。
- 212 名前:209 [2010/02/08(月) 08:11:35 .net]
- >>211
ブラウザは、他にオペラも試しました。同じ結果でした。 クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。 >>210 仮に文字コードの問題なら、対処法はありますでしょうか? 何卒よろしくお願いいたします。
- 213 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/08(月) 20:12:30 .net]
- まずは、本当に文字コードの問題かどうかを確かめるべきです
フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して それをブラウザから開くことができれば、文字コードの問題だと思います
- 214 名前:209,212 [2010/02/09(火) 08:13:55 .net]
- >>213
>フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し やってみました。ダメでした。相変わらずジャンプしてくれません。 考えるに、estseek.conf の replace設定なのかな、と。 これについては、自分でも自信がなかったので、下記に示します。 当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: ^file:///c:\server\{{!}}127.0.0.1/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− このような記載でよろしいのでしょうか?
- 215 名前:209,212,214 [2010/02/09(火) 16:47:54 .net]
- 追記します。
estseek.conf のreplace設定を見直してみました。 試行錯誤の結果、 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− とすることによりまして、 検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・ となりました。 この、「|」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。 これらを消す、なにか良い方法がありましたら教えていただければ助かります。
- 216 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/09(火) 20:47:05 .net]
- replaceの設定は元の設定で問題ない感じがします。
むしろ、showlrealの設定が falseの設定になっていると、 当該現象が発生するように思われます。こちらでも、 同様の現象を確認しました。unix で 1.4.13ですが。
- 217 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/09(火) 21:38:12 .net]
- こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。
replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。 正しくは、C:\\server\\ではないでしょうか? そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。 showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。 以下マニュアルより ------------- replaceは正規表現によってURIを変換するのに使います。複数回指定できます。 先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする 「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。 「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。 --------------
- 218 名前:209,212,214,215 mailto:sage [2010/02/10(水) 07:57:47 .net]
- >>216
showlreal を「true」にしてみましたが、状況は変わりませんでした。 ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。 .htmがなぜかジャンプしないのです。 >>217 C:\\server\\と記載し、やってみました。 すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 c:\server\search\・・・・・ となりました。 htmの文書へは、ジャンプしてくれません。 仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。 やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。 まだまだ試行錯誤中・・・
- 219 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/10(水) 08:56:54 .net]
- つーかさ、やってることの意味分かってやってる?
別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、 何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、 どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。 困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。 # 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを # すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの?
- 220 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/23(火) 20:50:40 .net]
- これって英語の検索もはやくなるの?
- 221 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/24(水) 00:09:09 .net]
- もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません
そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません
- 222 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/24(水) 12:18:43 .net]
- www.seg.rmit.edu.au/zettair/
英語で使うだけならこっちの方が速かったりする?
- 223 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/24(水) 12:50:03 .net]
- なんだ、宣伝かよ
- 224 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/24(水) 16:57:45 .net]
- 日本語で最速なのはこれっぽいけど
英語で最速なのがどれなにか知りたかったんだ
- 225 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/08(月) 21:40:20 .net]
- 亀レスにもほどがあるがズバリそのものがあります。
>>198 Datファイル全文検索ソフト frozenlib.net/DatE/ >DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。
- 226 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/16(火) 22:31:58 .net]
- 「file size limit exceeded」で、いきなりダウンしたよ。
システムによって2Gとかのファイル制限あるから、 logファイルの大きさには注意しましょ。 ログの記録レベルを煽りましょう〜
- 227 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/25(木) 00:58:26 .net]
- indexサイズが小さくて、もれなく検索できればいい。
あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 web用途ではなくデスクトップで使うには 書庫内と不足なしが大事。 順位は無くて良い。開いてみれば済むからな。 これはそういう使い方出来る?
- 228 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/25(木) 01:06:28 .net]
- 複雑なアルゴリズムはいらない。
Grepの手助け程度で良い。 書庫に対応する。 いいやつ無いですか?
- 229 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/25(木) 02:01:51 .net]
- フィルタ書けばいいじゃん。
- 230 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/25(木) 07:11:50 .net]
- 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 言語ごとに異なる位置にありますか。 統一した方が良いと思いますが。コード位置がわかりません、
- 231 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/25(木) 07:29:47 .net]
- N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。
- 232 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/25(木) 07:31:23 .net]
- 何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/
# 思いついた単語を羅列してるだけみたいだけど在日?
- 233 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/25(木) 10:19:59 .net]
- 脊髄反射で在日とか言うネトウヨ?
- 234 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 11:17:22 .net]
- ということにしたいのですね。
- 235 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 12:04:40 .net]
- いいえ、自分が理解できないだけなのを認めたくないだけです。
- 236 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 13:35:20 .net]
- ということにしたいのですね。
- 237 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 13:56:04 .net]
- はい。
- 238 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 14:41:05 .net]
- >>231
hyperestraier.sourceforge.net/uguide-ja.html#wordextraction バイト単位ではなく文字単位2-gram ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 こんぐらい教えてやれよ、無能なやつばっかだな
- 239 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 15:22:12 .net]
- 分かってんならすぐに教えてやれよ、ノロマだな
という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238
- 240 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 20:42:39 .net]
- サンクス
いまローカルでgrep手助け用検索開発してる もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。
- 241 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 23:42:38 .net]
- ちょwまて
漏れなしバイナリ検索ならgrepで十分だろ インデックス化するメリットないぞ
- 242 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/26(金) 23:58:55 .net]
- 数ギガ、数十ギガとデータあったらどうする?
- 243 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/27(土) 00:22:50 .net]
- もうその話あきた。よそでやれ
- 244 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/04/14(水) 09:33:15 .net]
- mixiで公開してる東京なんとか
とかいう奴はこれの上位版?
- 245 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/04/14(水) 11:36:00 .net]
- TokyoCabinetは検索エンジンというよりそのバックエンド、かな?
- 246 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/05/01(土) 16:32:06 .net]
- これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね
- 247 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/05/19(水) 20:34:25 .net]
- hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを 天才と勘違いしてやがるw こんなダメ人間に希望を与えてくれた作者氏に 頭が下がる思いです。
- 248 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/05/21(金) 21:40:15 .net]
- 公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は インデックスを作成し、検索できるようになりました。 後は掲示板のデータベースの検索が残っています。 SQLという言語で読み書きしてるらしいのですが、 hyper estraierでデータベースのインデックスを 作成するにはどうすればよいのでしょうか? 検索してみたのですが、windows環境での方法は 見つかりませんでした。 windows環境でインデックスを作成する方法の伝授、 もしくは説明してるサイトがありましたら、教示願います。 当方、組み込み系のプログラムの経験はありますが、 windowsプログラム、webアプリ、SQLは素人状態です。 要領を得ない、質問をした本人がいまいちわかってない 自覚がある質問で申し訳ありませんが、よろしくお願いします。
- 249 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/05/24(月) 12:53:33 .net]
- たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
ttp://hyperestraier.sourceforge.net/cguide-ja.html うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作 いろんな方法があってC,Java,Rubu,Perl,Pythonとか ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。 頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。
- 250 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/05/26(水) 02:11:25 .net]
- >>249
248です。 ありがとうございました。 まだわかっていない部分があるので、 まずはwebクローラーを使って試行してみます。
- 251 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/01(火) 20:00:23 .net]
- 数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。
- 252 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/02(水) 19:06:56 .net]
- 複数ファイルの書庫をディレクトリと認識するエンジンありますか
- 253 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/03(木) 13:20:31 .net]
- >>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。
- 254 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/03(木) 16:48:10 .net]
- サンクス
- 255 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/04(金) 20:57:30 .net]
-
【岩波書店】 Google問題の核心 ―― 開かれた検索システムのために ―― 牧野 二郎 www.iwanami.co.jp/shinkan/index.html 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ. Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問 題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決 するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提 案する.
- 256 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/05(土) 22:13:46 .net]
- >>249
結局、SQLコマンドでデータを取ってきて、 インデックス作成するプログラムを作りました。 ありがとうございました。
- 257 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/14(月) 16:45:12 .net]
- すみません、教えてください。
Hyper Estraierを使い始めましたが、 Hyper Estraierで文章の中身だけでなく、 ファイル名やファイルパスも検索のキーワードに 同時にヒットさせたいです。 インデックスの作成や、検索時になにか オプションで指定するなど、なにか方法がありますか。 よろしくお願いします。
- 258 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/06/28(月) 10:43:43 .net]
- クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に
- 259 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/08/05(木) 03:31:58 .net]
- 引き継いで開発してくれる有志っていないの?
低スキルなので、私はだめだけど..
- 260 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/08/05(木) 04:16:09 .net]
- >>259
なんか問題あるっけ? TCに移行すればいいじゃない。
- 261 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/08/05(木) 17:19:59 .net]
- TCって、KVSじゃないの?
- 262 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/08/15(日) 12:35:46 .net]
- TCは全文検索できるよ。
- 263 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/09/22(水) 22:13:39 .net]
- 最近使い始めたものです。
簡便書式で検索した場合、 例えば、「a*」とした場合と「ab*」とした場合に なぜか「ab*」の方がヒット件数が多くなります。 一応、公式サイト見てきましたが、 それらしいことは書いてありませんでした。 なにか心当たりがある方がいれば、 教えてください。 よろしくお願いします。
- 264 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/09/22(水) 22:16:16 .net]
- >>262
データ量多くなるとまともに使えなくなるけどなw
- 265 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/09/23(木) 01:38:18 .net]
- >>264
mixiの全データ検索に使用されているからそれはないのでは? なにか運用間違えているとか?
- 266 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/09/23(木) 02:49:10 .net]
- TCの全文検索ってQ-GRAMインデックスのことだろ?
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。
- 267 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/09/23(木) 19:36:40 .net]
- 作ってる本人も遅いって言ってた気がする。
- 268 名前:265 mailto:sage [2010/09/23(木) 20:30:00 .net]
- mixiでTCが使われているのは全文検索じゃなかったね。ゴメン
- 269 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/10/07(木) 04:14:16 .net]
- >>263
N-gramのN=2とかが関係してるんじゃない? わかち書きを変えてみると違う結果になると思う。
- 270 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/10/09(土) 17:47:15 .net]
- >>269
レス、ありがとうございました。 とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで 検索してみましたが、結果の数は変わりませんでした。 なんにしろ、N-gram関連を勉強してみます。
- 271 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/10/11(月) 12:23:08 .net]
- >>263
wildmax の設定でいくらか調整できると思う。 けれど一文字で検索する場合には、N-gramインデックスでは あまり良い結果出せないんじゃないかな。 269が書いた通り、2-gramに対し一文字で検索するため、 「ab」を含む文書を取得する 「a」で始まる2-gramをwildmax個拾って、それらを含む文書を 取得する(2gramの出現頻度とかは見てない) という内部動作なんだろうなと、前に思った。
- 272 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/10/27(水) 20:48:38 .net]
- >>271
遅レスすいません。さっき、気づきました。 詳細な情報ありがとうございました。 とりあえず、ソースを読んでみましたが、 QDBMの中身も把握してないと理解 できなさそうなので、時間のあるときに 見てみます。
- 273 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/10/30(土) 15:19:33 .net]
- 誰かこの問題をHyper Estraier でも起きないか検証してくれw
ttp://uinyan.com/windows7_critical_bug/
- 274 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/11/16(火) 15:09:15 .net]
- windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。 フォルダ順ができるだけでも楽になるのですが・・・
- 275 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/02/10(木) 08:37:50 .net]
- ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
- 276 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/02/10(木) 09:36:59 .net]
- ”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?
- 277 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/02/10(木) 13:07:41 .net]
- >>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。 なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
- 278 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/02/10(木) 13:47:37 .net]
- >>277
インデックスの容量 -> テキスト情報量に依存 クロール時間 -> クロール方法に依存 マニュアルをちゃんと読んでから検討したほうがいいよ。
- 279 名前:名無しさん@お腹いっぱい。 [2011/02/10(木) 23:56:21 .net]
- 最近のMinGWでコンパイルに成功したかたいますか?
ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、 実行すると異郷終了します そもそもqdbmのmake checkでvtestが失敗するようで、 コンパイルできないのが正しいんでしょうか? 一応バイナリ版のqdbmを持ってきて実行しても やはりインデックス作成で異常終了してしまいました なにかポインタがあれば教えてください
- 280 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/04/14(木) 21:08:55.94 .net]
- 大文字小文字を区別して検索できるようにして欲しい
- 281 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/04/17(日) 12:28:30.18 .net]
- インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?
- 282 名前:281 [2011/04/17(日) 12:31:21.73 .net]
- >>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。
- 283 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/05/07(土) 18:02:40.44 .net]
- >>251,281-282
この遅くなるって、 c:\hyperestraier\estcmd: INFO: flushing index words: name=index ... ってでてディスク凄いアクセスするようになって遅くなって感じですか? 自分は上記のような感じで ファイル数12500、総サイズ1.33G程度のHTMLファイルを スキャンし終わるまで14分位かかってしまいます。 オプションとしては次のようにしているのですが・・・ gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
- 284 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/05/11(水) 20:07:25.33 .net]
- もう見てる人居ないんだろうか
- 285 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/05/11(水) 20:21:05.25 .net]
- 見てるけど、開発が止まっちゃってて新しい話題がないよなー
- 286 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/05/12(木) 05:31:56.98 .net]
- 一応チェックリストには入れてる
- 287 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/05/13(金) 19:03:09.08 .net]
- namazu と これくらいかー?
使える全文検索は。
- 288 名前:名無しさん@お腹いっぱい。 [2011/07/13(水) 06:07:12.29 .net]
- luceneで決まりだろ
- 289 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/07/13(水) 16:35:33.19 .net]
- クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。 何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。 query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な 結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
- 290 名前:名無しさん@お腹いっぱい。 [2011/07/19(火) 00:44:48.88 .net]
- 今はkyotoだっけtokyoだっけ?
- 291 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/07/19(火) 12:55:07.65 .net]
- 作者がmixiからgoogleにいったよね
- 292 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/07/19(火) 14:38:11.73 .net]
- >>291
へえ、ついに検索の総本山へか
- 293 名前:名無しさん@お腹いっぱい。 [2011/08/13(土) 15:26:49.80 .net]
- え?自分で会社作ってたんじゃなかったっけ??
- 294 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/08/15(月) 10:45:08.18 .net]
- 失敗したんだって
- 295 名前:名無しさん@お腹いっぱい。 [2011/08/28(日) 22:41:21.12 .net]
- 解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に 使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ てしまい、リンクからファイルを開くことができません。 unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの ようにすれば解決するのか教えてください。また、この問題はLinuxでは そもそも発生しない問題でしょうか。 Windows用バイナリ hyperestraier.sourceforge.net/win/
- 296 名前:名無しさん@お腹いっぱい。 mailto:sage [2011/09/18(日) 23:41:27.20 .net]
- P2Pでクローラーを動かしてます。
特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
- 297 名前:296 [2011/09/18(日) 23:42:18.24 .net]
- お願いします
- 298 名前:192.774 [2011/11/26(土) 01:02:16.43 .net]
- 検索革命のせいか検索デスクの逆リンクがまだ動かない。
- 299 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/01/18(水) 15:49:41.20 .net]
- mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか
- 300 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/01/18(水) 19:37:28.38 .net]
- Gnus
- 301 名前:名無しさん@お腹いっぱい。 [2012/04/19(木) 18:59:45.66 .net]
- Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓ https://gist.github.com/2418271 が送られてきたが、これなんだろ? mac用のruby使ったinstaller? githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。 なにこれ?
- 302 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/04/19(木) 21:59:39.60 .net]
- Homebrew mxcl.github.com/homebrew/
っつうMac用パッケージ管理システムのインストール定義だね。 rubyスクリプトで定義が書けるんだね。
- 303 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/04/20(金) 21:10:24.25 .net]
- やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。 しかしこれだけ情報が増えた世界で個人で気軽に使える 全文検索エンジンは絶対使わなきゃ損と思ってるのですが、 いまいちもりあがりませんな…
- 304 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/04/20(金) 23:35:36.63 .net]
- >>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると 思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに 現役で使っているけど。 MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。 後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。
- 305 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/04/21(土) 19:13:50.93 .net]
- >>304
>>303さんとは別の者だけど ブログ見る限りは、子供できて家庭が忙しくて プライベートで全文検索どころじゃないのかなあと googleに再就職した、とは書いてあるけど
- 306 名前:303 mailto:sage [2012/04/21(土) 20:56:51.07 .net]
- >>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと 同じ本部内ですらすごく嫌がられる。だからActive Directoryで 公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。 よくない事かもしれないけど、いろいろ分かって捗るw
- 307 名前:名無しさん@お腹いっぱい [2012/05/21(月) 00:40:06.77 .net]
- 検索に基礎がなっていない。
- 308 名前:名無しさん@お腹いっぱい。 [2012/08/11(土) 17:34:18.82 .net]
- すいません、質問させてください。
まずは、環境から。 ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。 word、excel等を検索対象とするために、 # cp /usr/share/hyperestraier/filter/* /usr/lib/bin/ (ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter) これでパスが通るはず? で、実際にやってみました。 $ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/ $ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ これで、doc、xls等が検索対象になっていることは確認できましたが、 estcmd: INFO: 26 (~/fuga.ods): registered sh: 1: estxfilt: not found と表示され、txtファイル以外の検索はできないようです。 どのようにすれば、doc、xlsファイル等を検索できるでしょうか? また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか? さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。 以上、よろしくお願いいたします。
- 309 名前:名無しさん@お腹いっぱい。 [2012/08/11(土) 17:38:13.25 .net]
- 訂正です。
下の方の $ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ ↓ $ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ です。 失礼しました。
- 310 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/08/11(土) 18:17:47.26 .net]
- >>309
estfxmsotohtml を使うんじゃないの。 H@estfxmsotohtml でhtmlにして登録じゃないの。
- 311 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/08/11(土) 19:07:37.99 .net]
- >>310
おぉ、うまくいきました。 T@estxfilt→H@estfxmsotohtmlと置き換えることで、 xlsとdocが検索できるようになりました。 ありがとうございました。 ところで、ODFファイルの検索は可能なのでしょうか? MS関連のファイルには対応しているけど、 Linuxで使われているOpenOfficeのファイルに対応してないというのは、 ちょっと納得できないような・・・。
- 312 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/08/11(土) 20:12:21.99 .net]
- >>311
ODFがメジャーになる前だったからなあ…… odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。 シェルスクリプトでフィルタ書くの簡単だし。
- 313 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/08/11(土) 20:36:05.84 .net]
- >>312
レスどうもです。 odsはどうするのでしょうか? っていうか、そんなスキルないですよorz フィルタ書くの簡単だとしたら、 なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね? 個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、 googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、 現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、 デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。
- 314 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/08/11(土) 20:56:51.31 .net]
- >>313
知らんがな。 おまえの愚痴に付き合う気はない。 欲しい人は自分で書く。そういう世界だから。 あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。
- 315 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/10/10(水) 14:49:50.26 .net]
- pandocというのがodfの変換もできるほか、いろいろ変換できそう
- 316 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/05/04(土) 18:53:18.57 .net]
- >>313
DesktopHEはWin7x64で快適に動作していますが。
- 317 名前:名無しさん@お腹いっぱい。 mailto:sage [2016/02/08(月) 08:45:27.23 .net]
- 2007年からメンテされてないんだね
- 318 名前:名無しさん@お腹いっぱい。 mailto:sage [2016/02/08(月) 10:03:53.02 .net]
- forkがあるけどこっちも止まってるかな
https://github.com/fumiyas/hyperestraier-encore
- 319 名前:名無しさん@お腹いっぱい。 mailto:sage [2016/11/28(月) 00:25:53.50 .net]
- ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。
- 320 名前:名無しさん@お腹いっぱい。 mailto:sage [2016/11/29(火) 08:55:34.02 .net]
- 今時ならgroongaがいいんじゃないかなあと思っている。
- 321 名前:名無しさん@お腹いっぱい。 [2017/12/29(金) 07:49:19.75 .net]
- 誰でも簡単にパソコン1台で稼げる方法など
参考までに、 ⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。 グーグル検索⇒『宮本のゴウリエセレレ』 XER7GWRJ9A
- 322 名前:名無しさん@お腹いっぱい。 mailto:sage [2018/01/23(火) 23:16:38.05 .net]
- (Javaを使わずに)全文検索を構築したくて
今さらながらHyper Estraierを使い始めました 主にPythonから叩いていて、こんなことやっています https://github.com/ikbhotels/pyperestraier https://github.com/ikbhotels/dj-estsearch まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています ここの前スレだとこんな感じ feedintegra.info/search/est2ch よろしくお願いします
- 323 名前:名無しさん@お腹いっぱい。 [2018/05/22(火) 03:07:11.85 .net]
- 知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』 MS75P
- 324 名前:名無しさん@お腹いっぱい。 mailto:sage [2020/02/11(火) 15:28:38.93 .net]
- チエオクレのハゲの悲惨なツイッター
https://twitter.com/aphonedollar ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑ この自称「ハゲ」とかいうチエオクレのブログが酷すぎる >「DesktopHE」 はWindows10に対応してないらしい はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!! ■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■ ■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■ ■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■ ■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■ ■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■ チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!! 嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか! hatenaとかでまで、必死こいて大嘘をばらまいているんだが (deleted an unsolicited ad)
- 325 名前:名無しさん@お腹いっぱい。 mailto:sage [2021/06/09(水) 04:51:57.15 .net]
- >>313
>現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、 だとさwww 作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ? 何がやりたいのか謎な、あんな糞ソフトを垂れ流すな!
- 326 名前:名無しさん@お腹いっぱい。 [2022/08/27(土) 21:21:16.57 ID:3ocmvTiTh]
- 曰本の税金に寄生しているウクライナ民を見たら.国民を人間の盾にして.女こども以外逃亡(出国)禁止にして戦わせてまて゛
利権に執着しているキチガイゼレンスキ─のクヒ゛をとっととプ−チンに引き渡して力ヱレと言ってあけ゛よう! クソジャップなら岸田と黒田とナツオのクヒ゛に安倍の喉仏まで喜んて゛贈呈して、 クソジャップがカによる一方的な現状変更て゛併合したクソアイヌ不良債権島も引き取ってもらって即平和た゛ろ 曰本に原爆落とした世界最惡のならす゛者國家に平伏してマッチポンプワクチンた゛の兵器だの基地た゛のという白々しい名目で. 莫大な金を献上し続けてるヘ夕レチキン腐敗シ゛ャップの薄汚い爪の垢て゛も煎し゛て飲んと゛けや
創価学会員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最悪の殺人腐敗組織公明党を 池田センセ━か゛囗をきけて容認するとか本気で思ってるとしたら侮辱にもほどか゛あるぞ! hттΡs://i.imgur、cοm/hnli1ga.jpeg
- 327 名前:名無しさん@お腹いっぱい。 [2023/06/17(土) 18:32:07.27 ID:EJzfCp/NN]
- 他人の権利を強奪して私腹を肥やす強盜殺人政治やってる論理もクソもない□クに勉強してない議員だらけ無能外道集団公明党と違って維新
は最低限の知的能力を有してる奴が多いのは橋下徹の意向て゛容赦なく知的能カの足切りやってる成果なんだろうけど、いい年して玉遊ひ゛とか してる無能を讃えてみたり、日本に原爆落とした世界最惡のならす゛者国家の覇権主義に利用されてるウクライナ状態になるリスクを無視して 軍拡推進してみたり,危險極まりない原發推進すれば電氣料金は下がるだのほざきか゛ら鉄道の3○倍以上もの非効率クソ航空機によって莫大 な石油無駄に燃やしてヱネ価格暴騰させて温室効果ガス倍増させて氣侯変動させて災害連発させて貿易赤字に、そんなバカの象徴万博を誇っ てみたり、騒音によって知的産業に威カ業務妨害して壞滅させて原発とか笑わせるレベ儿にまて゛日本の技術力低下させて,勉強妨害して犯罪 惹起しながら動物虐待は罸則強化しろ、孑の虐待には金くれてやれだの,いつの間にか憲法の下の平等に反しないヘ゛―シックインカムも言わ なくなって社會分断惹起して治安惡化とか、頭は回るか゛古い教育制度による時代遅れの固定観念による思慮のなさは直情的な橋下徹由来かな
創価学会員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最悪の殺人腐敗組織公明党を 池田センセーがロをきけて容認するとか本氣で思ってるとしたら侮辱にもほどか゛あるそ゛! hTΤΡs://i、imgur.cοm/hnli1ga.jpeg
- 328 名前:名無しさん@お腹いっぱい。 [2024/03/27(水) 19:35:15.90 .net]
- 約束したんだよ
放出してもいいレベルでも出来るな ガツンとみかんって美味しいとこだけ取って楽な展開のきっかけになるとは何となく
- 329 名前:名無しさん@お腹いっぱい。 [2024/03/27(水) 20:18:03.60 .net]
- えーさんぶんのに謎に見た」と答えるとどちらかといえば、
- 330 名前:名無しさん@お腹いっぱい。 [2024/03/27(水) 20:53:33.10 .net]
- むしろこれがマーケティングだから
青い背景でさ 4に健気さがない若者だらけなんでガチ恋なんだろう https://asahi.5ch.net/test/read.cgi/newsplus/1711507656/
- 331 名前:名無しさん@お腹いっぱい。 [2024/03/27(水) 21:56:16.98 .net]
- 何がいいのか?
誰でもいい
- 332 名前:名無しさん@お腹いっぱい。 [2024/12/18(水) 17:15:14.91 ID:ULz/fBqnv]
- ハ゛力チョン非常戒厳からも分かるように軍や自閉隊ポリ公た゛のは國民を守る存在て゛は決してなく企業献金やら様々な名目で賄賂癒着してる
クソ業者とこれて゛もかと税金泥棒して私腹を肥やし続ける為政者か゛犬コ囗集めて国民から身を守るための仕組みな何しろこのクソポリ公やら 性根の腐った破廉恥極まりない連中た゛から国民を貧困化させて強奪した税金で毎曰ク゛儿ク゛儿遊覧ヘリ飛ばして石油燃やしまくって望遠カメラで 女風呂のぞき見して騷音まき散らして住民ヰラヰラ犯罪惹起して白々しく治安カ゛─だのと戯言ほさ゛いて利権倍増させてる外道集団た゛からな 繰り返されるプ囗パカ゛ンダで情弱系國民はまた゛騙されてるた゛ろうが現実を客観的に理解しないとタ゛メだそ゛ 災害連發に物価高騰など貧困化し続ける曰本だか゛少し振り返るた゛けて゛もその原因か゛分かるだろ,力ンコ―テ囗促進,荒川離陸含む都心航路化 JALだのANAた゛のテ囗リスト倍増.曰銀による株価上昇に円安誘導なと゛、これらによって大多数の国民は‐方的に被害を被ってるた゛けて゛何ひとつ 恩惠などないことにいい加減気つ゛こうぜ.強欲の権化嘘ハ百自民公明はまた゛まだ懲りずに利権ネタ作って國民から奪い続けてるそ゛ (ref.) ttps://www.call4.jp/info.php?type=items&id=I0000062 ttps://haneda-project.jimdofree.com/ , ttps://flight-route.com/ ttps://n-souonhigaisosyoudan.amebaownd.com/
|

|