【トリップ検索】MERI ..
[2ch|▼Menu]
390:名無しさん@お腹いっぱい。
13/10/13 20:07:00.46 2IRlbwYd0
>>372
> ですですw
あれって、何かバッチファイル的な言語があったよね。
あれで擬似ログアウト画面を作って、色んな人のユーザ名とパスワードを集めまくった思い出が・・・
VAX/VMS 上でのクロス開発はかなりやったので、本当に懐かしいわ。

391:名無しさん@お腹いっぱい。
13/10/13 20:25:28.75 KYI8bH6i0
:::::::::::.: .:. . ∧_∧ . . . .: ::::::::     引っ張りだしたコードを元に、自動生成した
:::::::: :.: . . /彡ミ゛ヽ;)ヽ、. ::: : ::   patterns.txtを食わせてみたらメモリ不足で落ちた……
::::::: :.: . . / :::/:: ヽ、ヽ、i . .:: :.: :::.  URLリンク(up3.viploader.net)
 ̄ ̄ ̄(_,ノ  ̄ ̄ヽ、_ノ ̄.     左のタイマは検索実行と同時な。4GBほどメモリ食ってから
                         落ちたことからして、よほど工夫しないと検索不可能かもorz

参考までにpatterns.txtをば:URLリンク(www1.axfc.net)

392:混沌 ◆Chaos/geeeIV
13/10/13 20:49:06.63 fqcxyF9L0
>>390
フィッシング詐欺の手法のハシリみたいなかんじですなw
今となっては、セキュリティとかパスワードとか、色々そういう考え方が社会的に認知されてきたりしているけど
そもそも一般の人は銀行の暗証番号以外、パスワードで何かを守るなんてこと自体がなかったような時代だし
根本的に考え方が違ってた気がしますねぇw

393:名無しさん@お腹いっぱい。
13/10/13 22:44:36.72 r9Dbzyno0
>>391
いろいろと酷い

394:混沌 ◆Chaos/geeeIV
13/10/13 23:00:40.77 fqcxyF9L0
>>391
展開後のパターンじゃなく、途中まで展開した正規表現群みたいな感じですねw
12桁でこれを全パターンやったら、そりゃキますわw
[AIUEO]{12} これだけでも 約2^28 ですよw
これに加えて、1文字目から12文字目まで母音が入るパターンまで加えたらそりゃ大変なことにw

395:名無しさん@お腹いっぱい。
13/10/13 23:26:46.46 2IRlbwYd0
>>391
壁紙が気になる・・・

396:名無しさん@お腹いっぱい。
13/10/13 23:29:37.53 KYI8bH6i0
>>394
>[AIUEO]{12} これだけでも 約2^28 ですよw
一応、元々のコードでは「母音か拗音組が三連続したら弾く」というルーチンが
含まれていたので、そいつを組み込んだら行数が半分以下に。ただ、それでも
メモリ食い過ぎで検索できないのは変わらず。念のため、

[aiueo][aiueon][kstnhmr][aiueo][aiueon][aiueon][kstnhmr][aiueo][kstnhmr][aiueo]

だけ書き込んで回してみると、展開に4分ほど掛かった末にメモリを720MBほど消費しましたw
そりゃ無理ゲーだわ、と言うか確か最初に作った時(今年の1月始め)は待て屋で回してたような……

397:名無しさん@お腹いっぱい。
13/10/13 23:29:47.39 oUFnliXQ0
「ロリ・義母
ンデレ・孕ま

398:名無しさん@お腹いっぱい。
13/10/13 23:34:55.01 KYI8bH6i0
>>395
URLリンク(www.pixiv.net)
ですね。
>>397
勘違いしないでよね! 全体のフォルダ名は
「ロリ・義母・ツンデレ・孕ませ・寝取られ・・・すべての萌えは源氏物語が産んだ!」
URLリンク(blog.livedoor.jp)
なんだから!!

399:名無しさん@お腹いっぱい。
13/10/13 23:46:02.97 KYI8bH6i0
:::::::::::.: .:. . ∧_∧ . . . .: ::::::::     ちなみに、>>396で書いたパターンを待て屋で回したら
:::::::: :.: . . /彡ミ゛ヽ;)ヽ、. ::: : ::   メモリ消費量僅か5MB……現実は非情である
::::::: :.: . . / :::/:: ヽ、ヽ、i . .:: :.: :::.
 ̄ ̄ ̄(_,ノ  ̄ ̄ヽ、_ノ ̄

400:名無しさん@お腹いっぱい。
13/10/13 23:47:17.62 B/E+227R0
待て屋ってソース公開されてたっけ?
それなら、メモリ消費の少ないその方法を採用してみるとか。

401:混沌 ◆Chaos/geeeIV
13/10/14 00:06:18.79 HNICMWPj0
>>400
自分は ずっと前のトリッパーをちょこちょこ使っていた程度で、待てやとかも使ったことはないんですが
ただ、展開するから高速にマッチ出来るんじゃないかと思うw
このスレの過去ログとかほとんど見てないけど、初期はパターン数制限あったのがある時期に制限がなくなったってのが

たぶんその時に、パターンを展開して(おそらくはマッチする法のトリップも相当数メモリに展開してからまとめて)
アルゴリズム検索(2分検索みたいな?)を取り入れたんじゃないかと予想

メモリ展開して最適化するからこその、大量検索パターンを高速にマッチできてるんだと思いますよw

402:名無しさん@お腹いっぱい。
13/10/14 02:51:29.17 Ehj1Nv8O0
一応、パターン作成+結果からトリップ抽出+ローマ字変換+篩い掛けできるセットを配布しておきます。
ソースコードも添付しますので、参考までにどうぞ。

URLリンク(www1.axfc.net)

403: ◆ISONOIIISI
13/10/14 02:52:29.66 Ehj1Nv8O0
あ、私はID:KYI8bH6i0です。

404:名無しさん@お腹いっぱい。
13/10/14 03:17:32.75 a2gerbx00
>>391
>>> 正規表現の場合、展開数で制限を設ける方式ですか?
>> おおまかに言えばそうですね。
>> 厳密に言えばハッシュ値の数で決まります。
> スレリンク(esite板:100-101番)
なんかもう全部展開しちゃってる感じ?

>>401
先にメモリに展開する場合、展開したテーブルがキャッシュやメモリから溢れると思いっきりロスしそう。
展開数が一定範囲を超えたら正規表現とのマッチ処理をJITするのが最速なのかな・・・

405: ◆Meriken//XXX
13/10/14 04:18:18.49 cHLdpSNUP
MTFではパターンの一部(5文字)からハッシュ値を作成していて、
ハッシュ値の生成に必要な分は最初に全て展開しています。
この方法だと非常に強力な正規表現が使える代わりに
メモリの消費量は大きいです。

正規表現の部分は2年前に作ってからほとんどいじっていないので
改善の余地がかなりあります。待て屋のマッチングのアルゴリズムは
かなり特殊なのですが、これについては鳥屋氏にいろいろ教えて
いただいたので、ぜひMTFに取り込みたいところです。

406: ◆Meriken//XXX
13/10/14 04:22:38.64 cHLdpSNUP
>>369
どもども。10桁トリップ検索のAVX2対応の作業がおわったら新しい開発版を
うpするのでお楽しみに。

407: ◆Meriken//XXX
13/10/14 04:34:56.58 cHLdpSNUP
>>389
> まあもともと256bit化したときにキャッシュに乗り切るようにあんな構造にしたので。

なるほど、そういうことだったんですね。流石です。

> 107MTPSあたりで頭打ちになります。

これはおかしいですねえ。ちょっとMTFがどうなってるか調べてみます。

408: ◆Meriken//XXX
13/10/14 05:17:58.05 cHLdpSNUP
10桁トリップのAVX2対応のルーチンがようやく動きました。

AVX(8スレッド): 23.65M TPS
AVX2(8スレッド): 43.44M TPS
AVX2(4スレッド): 39.04M TPS

>>383よりだいぶましになりました。
CPUを定格に戻せば48.40M TPS出る計算です。
HTの効きは今ひとつなので、まだキャッシュの使い方に
改善の余地がありそうです。
あとは最終転置やキー生成の処理の見直しですね。

409: ◆Meriken//XXX
13/10/14 05:39:05.79 cHLdpSNUP
>>389
12桁トリップ検索はこんな感じです。速度が出ないのはなかなか謎ですねえ。

AVX(8スレッド): 117.31M TPS
AVX2(8スレッド): 215.71M TPS
AVX2(4スレッド): 184.12M TPS

410: ◆Meriken//XXX
13/10/14 08:45:16.44 cHLdpSNUP
キー生成のルーチンを見なおして、10桁トリップ検索の速度が
少し上がりました。

AVX2(8スレッド): 43.44M TPS -> 46.02M TPS

定格で51.28M TPS相当なので、まずまずといったところでしょう。
もうちょっと搾り取れそうな気もしますが、かなり疲れたので
取りあえず休憩することにします。


最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

4051日前に更新/149 KB
担当:undef