[表示 : 全て 最新50 1-99 101- 201- 301- 2ch.scのread.cgiへ]
Update time : 01/10 17:51 / Filesize : 94 KB / Number-of Response : 333
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

全文検索エンジン Hyper Estraier 2



1 名前:名無しさん@お腹いっぱい。 [2007/04/17(火) 19:56:12 .net]

hyperestraier.sourceforge.net/index.ja.html



113 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/04/18(金) 17:38:32 .net]
>>111
GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。

114 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/04/24(木) 09:09:51 .net]
インデックス作成していたらout of memoryで止まるorz
物理メモリ1GB、仮想メモリ1.4GB使い切る・・・
-ftなんか使う物じゃないんだろうか
javaとかのソースコードも見たいんだけどなぁ・・・

115 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/04/24(木) 23:32:59 .net]
インデックス対象に Excel ファイルとか含まれてる?
Excel のせいでメモリ不足になってるならこういう話がある
pmakino.jp/tdiary/20070501.html#p01

116 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/04/25(金) 00:03:50 .net]
なるほど。参考になりました。

大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが
実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に
実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・

-ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。

がんばっていろいろいじってみます

117 名前:名無しさん@お腹いっぱい。 [2008/05/05(月) 21:20:24 .net]
KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。
H.E単体で、できないものであれば、あきらめようと思っていますが。

118 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/05/12(月) 02:11:46 .net]
Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、
デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、
似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。
(例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか)

何かオプションを指定するなどしてヒットしたすべてのファイル、
あるいは上位何件かのファイルのスニペットを表示させる、
ということはできないのでしょうか?

119 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/15(日) 02:36:39 .net]
Tokyo Estraier hyperestraier.sourceforge.net/past/?M=A
てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、
実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。
今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。
これで実運用してる人とかいるかな?

まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。
tokyocabinet.sourceforge.net/dystopiadoc/


120 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/15(日) 18:21:12 .net]
壊れやすいよね。
問題なのは壊れたのに気づかないという・・・
リペアしてもリペア出来てないという・・・

121 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/16(月) 18:24:46 .net]
検索結果をXMLで受け取りたいときはどうしたらいいの?



122 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/16(月) 18:35:51 .net]
estcmd なら estcmd search に
 -vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。
ってマニュアルに書いてあるよ。

それ以外は自分でAPI使ってXML返すプログラムを作るってのが
本来の使い方だろうね。


123 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/16(月) 18:54:39 .net]
APIつくらないとダメかなぁ〜


124 名前:名無しさん@お腹いっぱい。 [2008/06/22(日) 17:24:43 .net]
256Mのバーチャルサーバーで動かしてます。
検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。

どれくらいのメモリがあれば使えるものですか?

125 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/22(日) 23:17:58 .net]
128M の玄箱 HG でも動いているが…
なんか使い方おかしいんじゃね?

126 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/23(月) 00:00:57 .net]
>>124
バーチャルサーバのスワップはちゃんととってます?

127 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/23(月) 06:32:14 .net]
検索対象拡張子を追加するにはどこいじればいいんだろう?
.javaとかをテキストとして処理するようにしたいんだが・・・

128 名前:124 mailto:sage [2008/06/23(月) 16:57:29 .net]
バーチャルサーバのスワップ? 

どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです

_conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。
_confにメモリ周辺の設定ってありましたっけ?

129 名前:名無しさん@お腹いっぱい。 [2008/06/24(火) 02:03:12 .net]
.netからDLLを利用しようと思ってます。
が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、
メモリ解放ができません。
内部で完結するよう関数追加してビルドしなおししかないでしょうか?

130 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/24(火) 21:40:22 .net]
DTDって変更したいときは任意の場所に出来るのかな?
デフォルトのファイルを書き換えるだけ?


131 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/24(火) 22:14:59 .net]
>>129
どうしたいのか分からんが、間にラッパーを
かませればいいんじゃないの?




132 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/24(火) 23:50:56 .net]
>>131
はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。

とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。

133 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/25(水) 10:35:07 .net]
freeをcrtからインポートすればいいだけじゃないの?

134 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/06/26(木) 01:02:03 .net]
makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね
どうもありがとうございました。

135 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/07/08(火) 20:51:02 .net]
質問です。
windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、
配布されているバイナリパッケージにRubyバインディングが見当たりません。
Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、
Rubyバインディングのmakeでコケます。

windowsでは無理?


136 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/07/12(土) 09:15:52 .net]
どうコケのかを言わずに、どう答えて欲しいんだろう


137 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/07/12(土) 17:24:10 .net]
>>135
お前にゃ無理だ。

138 名前:名無しさん@お腹いっぱい。 [2008/07/24(木) 13:28:58 .net]
ショボ頭の自分助けて…

pdfをインデックス化したいんですけど、30MB超えるpdfだと、
文章の途中までしかインデックス化してくれません。。
特にエラーとか出てないんですけどなんでだろ?

$ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./

一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、
マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、
こんなバカ助かるかな?


139 名前:fumiyas [2008/07/25(金) 12:27:12 .net]
>>138

estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?


140 名前:fumiyas [2008/07/25(金) 12:55:11 .net]
>>114
うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)

… その前に Tokyo Estraier を試してみようかしら?


141 名前:名無しさん@お腹いっぱい。 [2008/07/25(金) 15:21:53 .net]
>>139

うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)

なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。

新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ

すまん、かえって混乱させてるかも。。
というか、自分混乱してる。



142 名前:fumiyas [2008/07/26(土) 02:26:06 .net]
>>141

ああ、わかった…。(たぶん)
pdftotext のバグですね。

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output

の部分を:

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output

とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)

# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext

とでもして、

$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./

とするとか。


143 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/07/26(土) 11:00:18 .net]
>>142
あんただれ?

144 名前:名無しさん@お腹いっぱい。 [2008/07/28(月) 14:06:44 .net]
>>142

ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)

スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…

> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext

estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
それともそのままやっちゃっても大丈夫的な感じでしょうか?


145 名前:fumiyas [2008/07/29(火) 13:53:59 .net]
>>144

まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。

sed がやっていることですが、<pre>〜</pre> の間の <, >, & を
<, >, & に変換しているだけです。

最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の
hyperestraier パッケージでは /usr/bin に置かれているというだけで、
そっちの環境で /usr/local/share/hyperestraier/filter なら、
そっちに合わせて ↑ に置くのがいいと思います。

# sed 's/ -htmlmeta / -raw -nopgbrk /' \
/usr/local/share/hyperestraier/filter/estfxpdftohtml \
>/usr/local/share/hyperestraier/filter/estfxpdftotext

>>143
ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)


146 名前:fumiyas [2008/07/29(火) 13:57:46 .net]
ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。
どうしたらいいの? ま、いいか。

147 名前:fumiyas [2008/07/29(火) 15:56:25 .net]
初心者板で聞いてきました。「&amp;amp;」って書くのね…。

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&amp;/g;s/</\&lt;/g;s/>/\&gt;/g}' \
|output

その中に含まれる <, >, & を &lt;, &gt;, &amp; に変換してくれません(バグ)。

148 名前:名無しさん@お腹いっぱい。 [2008/07/30(水) 18:50:03 .net]
>>147

す・すすごい!!できたできました!!(・∀・∀・)
ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。
きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン

天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147
ほんにありがとうございます。

確かにインデックスの方には <pre> が単語化されているようですが、
これはもう、しょうがないですよ…ね…?

はぁぁ、感動しちゃいました。(;∀; )

149 名前:fumiyas [2008/08/01(金) 01:35:58 .net]
>>148
解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。


150 名前:HE@SHE [2008/09/27(土) 02:48:36 .net]
Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。


151 名前:名無しさん@お腹いっぱい。 [2008/10/02(木) 13:47:11 .net]
すみません教えてください。
ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、
pdfの日本語がインデックスに入っていないことに気付きました。
いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。

degas@debian:~$ pdftotext 日本語入りのpdf.pdf
Error: Unknown character collection 'Adobe-Japan1'
 :
Error: Unknown character collection 'Adobe-Japan1'

ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに
推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
念のためいまxpdfも入れてみましたが、同じエラーが出ます。
指針が有ればお願いしますm(_ _)m。



152 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 14:23:09 .net]
Unknown character collection 'Adobe-Japan1' でググっても解決しないの?
xpdf-japanese とやらを入れてる?

153 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 14:29:43 .net]
ttp://www.foolabs.com/xpdf/download.html
にある
xpdf-japanese.tar.gz
は入れた?

154 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 15:11:58 .net]
ありがとうございます。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。

155 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 15:19:29 .net]
そうですか。私にも何でか分かりません。

156 名前:151,153 mailto:sage [2008/10/02(木) 16:59:34 .net]
解決しました。

xpdf-commonをapt-getでインストール、
cmap-adobe-japan1を取ってきてdpkgでインストール、
さらに/etc/xpdf/xpdfrcに
include /etc/xpdf/xpdfrc-japanese.dpkg-new
を書き加えればOKでした。

apt-getしか使えない男にお付き合いいただきありがとうございました。
お邪魔しました。


157 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/02(木) 17:05:15 .net]
ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。

158 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/20(月) 15:21:23 .net]
tokyo estraierはここ以外で存在が話題になっていないんだけど
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか

159 名前:fumiyas [2008/10/27(月) 11:44:33 .net]
>>158
GPL と LGPL だし、問題ないでしょ。(たぶん :-)
で、tokyo estraier どんなくらい試しました?


160 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/28(火) 18:27:33 .net]
>>159
>>158じゃないけれど
普通にインデックスして普通に検索出来て普通に遊べて…
これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた

161 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/28(火) 18:40:31 .net]
データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして



162 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/28(火) 21:50:58 .net]
>>161
う…_attrフォルダの中に「depot」ファイルがあるんだが

163 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 10:07:46 .net]
過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…

164 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 11:16:02 .net]
>>163
ttp://www2.uploda.org/uporg1754116.zip.html

165 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 11:38:31 .net]
ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。

ttp://hyperestraier.sourceforge.net/win/hyperestraier-1.4.10-win32.zip


166 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 11:47:50 .net]
>>164
>>165
ディレクトリ一覧が表示されないだけだったのか。
ありがとう、助かりました。
お早いレスで俺涙目。

167 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/29(水) 18:47:28 .net]
Tokyo Estraierってどこにあるの?

168 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/30(木) 00:44:04 .net]
Windows環境でMecabを使いたいんですけど、可能ですか?
試した手順は、下記になります。
前提:WindowsXP、Cygwin環境
1、Mecab0.97と辞書のビルド
2、下記サイトを参考にし、qdbmとHyperEstraierのビルド
ttp://www.shinonon.dyndns.org/diary/20071212.html
HyperEstraierのビルドで--enable-mecabとしましたが、
その後のmakeでエラーとなります。

169 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/10/30(木) 14:21:13 .net]
>>167
ttp://hyperestraier.sourceforge.net/past/tokyoestraier-0.0.1.tar.gz

ベースはHyper Estraier1.4.13
ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが
実際に使われてるのかちと分からん
QDBMも一緒に入ってないとエラー出るし

ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな…
1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ

170 名前:fumiyas [2008/10/30(木) 18:22:25 .net]
TE コンパイルしてみた。`estcmd create db` だけ試した。

>>162
_idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。

$ /usr/local/tokyoestraier/bin/estcmd crete db
$ strings db/_idx/0001
ToKyO CaBiNeT
1.0:510

>>169
HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。
ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。
いいのか? いまのところ DB の構成を把握していないのでよくわからんが、
_idx が転置インデックス? ほかは? 知っている人、教えて…。

あと 100万以上の文書は試したことないんでアレなんだけど、
参考までにハードウェアの構成とか、estcmd create に
指定したオプション (estcmd を使っているなら。-xh 付けたの?)、
estmaster の _conf の設定等を教えてもらえると嬉しいです。


171 名前:名無しさん@お腹いっぱい。 [2008/12/08(月) 22:30:47 .net]
Hyper Estraierについて質問させてください。

Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、
うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、
そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。

Apacheはxamppを使いました。localhost/xampp/ は正常に表示されてると
思います。1.6.8aと出ています。あとphp5もスタートさせました。

でも、localhost/cgi-bin/estseek.cgi にアクセスすると、
Error: the configration file is misshing.とか出ます。

/opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。
estcmd search casket 'ほげほげ'
とかはちゃんとHITして結果が出てきます。

Errorが出てくる原因は何でしょうか。分かる方教えてください。



172 名前:171 mailto:sage [2008/12/09(火) 22:34:48 .net]
自己レスです。よく分かりませんが
estseek.conf
estseek.tmpl
estseek.top
をchmod 744 したら動きました。失礼しました。

173 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/12(金) 00:50:50 .net]
>>53
すげー遅レス失礼。
HEの情報収集中→WikipediaのHEのエントリ→ >>53 の製品ページ
って感じでその製品を知ったんだけど、GPLって書いてるくせに
ソースコードダウンロードのリンクをたどってもソースコードがないんだけど、
これってどうなの?

ttp://www.osstech.co.jp/product/chimera#%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89

つーか、会社概要見たけど、中の人がこのスレにいるのか。

174 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/12(金) 01:21:53 .net]
>>173
別に公開する必要は無い。
会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、
もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。

GPLv2での3-aと3-bね。

175 名前:173 mailto:sage [2008/12/12(金) 19:40:13 .net]
>>174
そうなんだ。どうもありがと。
Webページ見たけど個人お断りみたいな事書いてあったな。

関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね(v3にリンクされてる)。

176 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/12(金) 20:12:53 .net]
GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、
批判するんだったらちゃんと読んで理解してからにした方がいい。

177 名前:名無しさん@お腹いっぱい。 mailto:sage [2008/12/16(火) 17:55:27 .net]
>>173
これ読むといいよ。
web.archive.org/web/20041024013051/http://home.catv.ne.jp/pp/ginoue/memo/gpl.html

178 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/01(日) 02:03:25 .net]
>>47にも書いてるけど,属性検索ができない.
Wikipediaの全文検索デモページで試してみたけど効果なし...

179 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/08(日) 23:47:35 .net]
疑似ノードマスタって、認証なしなの?
通常のノードマスタみたいにユーザとパスを設定できないの?

180 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/09(月) 01:33:22 .net]
estcmd outで文書の一括削除はできますか?

181 名前:名無しさん@お腹いっぱい。 [2009/02/13(金) 23:47:32 .net]
Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが
JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って
いるサイトとかってないですかね?
web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・
初歩的な質問ですいません。



182 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/23(月) 06:47:28 .net]
Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。
mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。
32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。
aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。
必要なライブラリについてご存知の方いませんか?

183 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/23(月) 09:04:47 .net]
>>182
やったの去年だからよく覚えてないけど
ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする

184 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/02/23(月) 17:49:55 .net]
aptで入るね

185 名前:182 mailto:sage [2009/02/24(火) 06:22:35 .net]
>>183-184
レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。
aptでlibc-dev(これですよね?)を入れてもlibregex.aがないので、arglist.com/regex/からregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。
似たような事で困っている方は試してみて下さい。
どうもお騒がせしました。

186 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 12:40:08 .net]
作者ページのタイトルがうざくなってるんだが、改ざんされたのかな

187 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 13:43:19 .net]
特に変わったようには見えないが。
> Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT
だし。

188 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 20:25:53 .net]
>>186
ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。
しかし作者タソはmixiに就職してからH.E.のほうには全然顔出さなくなったな。

189 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/28(金) 22:37:54 .net]
ソース見てみた、何じゃこりゃ。

> case 59: name = "ちょwwwおまwwwいごww"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;


190 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/08/31(月) 10:17:50 .net]
> From: [783] 名無しさん@お腹いっぱい。 <sage>
> Date: 2006/09/17(日) 07:52:41
>
> case 59: name = "ちょwwwおまwwwいごww"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;

191 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/09(月) 16:22:46 .net]
検索してもHitしないってことはなにが考えられるのかな?
登録文書に検索語句は確実にあるし、DBも壊れていない・・・



192 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/09(月) 18:02:45 .net]
ごめん、壊れてたみたい。
estcmd inform で壊れてるかどうかわかんないんだよなあ・・・

193 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/15(日) 00:49:32 .net]
>>192
そうなの?おれもestcmd inform で情報出てきたら平気だと思ってた。
どうやって壊れてる判定したの?


194 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/15(日) 01:54:04 .net]
>>193
絶対に登録文書にある文字列を検索しても出てこなかったので。
再構築で直りました。
インデックスが壊れているかどうか調べるコマンドが欲しい。

195 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/18(水) 06:15:41 .net]
estcmd repair を、時々やらないと駄目ってことですかね。
(-_-;ウーン たまに治らないときもあるし..

-- 追記お願いします m(_ _"m)ペコリ---------
【テク1】ノードマスタが再起動しない・・正常に停止しないとこうなる
 サーバールートDirの _pid _stop の削除

【テク2】DBがdでるっぽい
#estcmd repair index_path

ex.ノードサーバー利用時は(サーバールートをcasketなら)
#estcmd repair casket/_node/ノード名

【テク3】estwaver crawl時の「could not open」エラーの解決法
クローラールートディレクトリを crawl_dir と仮定して Code:
#cd crawl_dir
#estcmd repair _index
#dpmgr repair _trace/0001/depot
#dpmgr repair _trace/0002/depot
#dpmgr repair _trace/0003/depot


196 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/18(水) 16:56:39 .net]
>>195
>>estcmd repair を、時々やらないと駄目ってことですかね。
repairを一回やってみたんだ。直ったかなと思って、それでも念の為に
もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。
repairを繰り返す度に減っていくんだ・・・

あきらめて再構築したよ。


197 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/19(木) 05:41:03 .net]
>repairを繰り返す度に減っていくんだ・・・

((( ;゚Д゚)))ガクガクブルブル 

「特定のキーワードにヒットしたを、DBから削除する」 なんてことできますか?

「特定のキーワードにヒットさせない」でもいいかなー

198 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 08:54:17 .net]
Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。
DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。

DesktopHEで利用しようとしております。

199 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 14:16:19 .net]
>>197
私も探してみたけど、そのものは無いみたい。
よくやる作業ならcgiとか作るんじゃないかな。

コマンドから手作業するときは、例えばこんな感じ。
消したいやつを検索して
estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord
OKなら上のコマンドに以下を追加
|awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done

200 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 16:26:25 .net]
>>198
出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、
DesktopHEの関連付けはjaneにすればいいみたいな。

私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。


201 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/20(金) 22:49:29 .net]
>>200
速レスありがとう。
htmlに変換してって毎日巡回するたびにdat2html走らせてるの?
それとも真夜中にバッチ処理?

いずれにせよ、HDD容量が倍必要ですよね?



202 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/21(土) 12:31:28 .net]
>>201
>>毎日巡回するたびにdat2html走らせてるの?
そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。
ログは8GBくらいある。datファイルは定期的に削除している。
ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。


203 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/21(土) 23:28:31 .net]
>>202
うちもログは6Gぐらいあります。
全部変換するとなると15gぐらいいきそうですよねorz

Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて
レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。

Threadsearchと併用しないと駄目ですかね。

204 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/11/27(金) 00:40:30 .net]
XREAで設置しようとしたけど、インストールの段階で躓いたorz
cannot find -liconvとかでてきてるし・・・

libiconvの入れ方に問題があるのかなぁ・・・。

205 名前:名無しさん@お腹いっぱい。 [2010/01/07(木) 21:28:29 .net]
某サイト丸ごと吸い上げようと、
クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった...

種文書を全部吸い上げてからインデックスするとは知らんかった。
seeddepth1〜2でよさそうね。

206 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/15(金) 16:12:43 .net]
Hyper Estraier のwinを使っている方に質問です。

当方初心者。
インストール、インデックス作成まではできました。なんとか。

しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。
replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか?

何卒よろしくお願いいたします。

207 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/16(土) 02:43:00 .net]
>>206
win版も使ったことはありますが、それだけでは何がなんだか分かりません。
estcmd inform casket は通りますか?
Hyper Estraier の画面は出るのですか?
表示のどこかに不満があるのですか?
どうなって欲しくて、現状どうなっているのか書いてください。

208 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/18(月) 15:45:09 .net]
ゴミのような2chのログも、こいつを使うと宝の山になる。
はらしょー

209 名前:名無しさん@お腹いっぱい。 [2010/02/05(金) 14:01:07 .net]
Hyper Estraier 1.4.10(Win)を利用している者です。

ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか?
今、その状態です。

検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。
すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。

どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか?
これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。

210 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/05(金) 22:04:05 .net]
文字コードの問題じゃね?

211 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/07(日) 17:19:49 .net]
鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。



212 名前:209 [2010/02/08(月) 08:11:35 .net]
>>211
ブラウザは、他にオペラも試しました。同じ結果でした。
クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。

>>210
仮に文字コードの問題なら、対処法はありますでしょうか?

何卒よろしくお願いいたします。

213 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/08(月) 20:12:30 .net]
まずは、本当に文字コードの問題かどうかを確かめるべきです
フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して
それをブラウザから開くことができれば、文字コードの問題だと思います






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧](*・∀・)<94KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef