1 名前: ◆Meriken//XXX [2013/09/15(日) 12:32:11.22 ID:yp7r3EBt0] こちらはMERIKEN's Tripcode Finderの本スレです。動作報告・質問・要望等は こちらでどうぞ。 Meriken's Tripcode Finderは2013年8月現在で最速の12桁トリップ検索ツールです (最高速の記録は11112.48M tripcodes/s)。CUDA対応のNVIDIAのビデオカード、 もしくはHD 5xxx以降のAMD Radeonシリーズのビデオカード等のOpenCL対応デバイスを 使用すれば非常に高速に検索を行うことができます。特徴は以下の通りです。 ・ビデオカードのGPUによる超高速検索。 ・CPUによる高速検索。 ・GUIとCUIの両方に対応した柔軟なユーザーインターフェース。 ・強力な正規表現による検索パターンの指定。 ・漢字等のShift-JIS文字を含むキーの探索。 ・ヒット率、ヒットまでの平均時間等のさまざまな情報の表示。 ・検索パターンの数の制限の撤廃。 ・10桁トリップ検索への対応。 ・検索速度の実行時の最適化。 ・配布パッケージに同梱された検索ルーチンのソースコード。 ■入手先 ◆MERIKEN4.kのウェブサイト www.meriken2ch.com/programming/merikens-tripcode-finder ■前スレ 【トリップ検索】MERIKEN's Tripcode Finder その4 anago.2ch.net/test/read.cgi/software/1373110438/
2 名前: ◆Meriken//XXX [2013/09/15(日) 12:33:10.50 ID:yp7r3EBt0] ■関連リンク トリップ総合ウェブサイト「tripcode.net」 tripcode.net/ 分散トリップ検索サービス「MERIKEN's Tripcode Ygdrasil」 tripcode.net/yggdrasil ■関連スレ 【分散トリップ検索】Meriken's Tripcode Yggdrasil toro.2ch.net/test/read.cgi/esite/1379214816/ ■過去スレ 初代 anago.2ch.net/test/read.cgi/software/1311428038/ 無印 anago.2ch.net/test/read.cgi/software/1348565078/ その2 anago.2ch.net/test/read.cgi/software/1358640741/ その3 anago.2ch.net/test/read.cgi/software/1362648003/ その4 anago.2ch.net/test/read.cgi/software/1373110438/ ■過去スレのログ 初代 unkar.org/r/software/1311428038 無印 unkar.org/r/software/1348565078 その2 unkar.org/r/software/1358640741 その3 unkar.org/r/software/1362648003 その4 unkar.org/r/software/1373110438
3 名前: ◆Meriken//XXX [2013/09/15(日) 12:35:55.96 ID:yp7r3EBt0] ■最高速の記録 > 139 : ◆MERIKEN4.k :sage :2013/07/20(土) 13:00:49.05 ID:FlwZiche0! > 5ヶ月振りの新記録キタ━━━━(゚∀゚)━━━━!! > 【診断の種類】検索速度(1パターン) > 【Meriken's Tripcode Finderのバージョン】0.10 > 【OS】Microsoft Windows 7 64bit SP1 > 【ディスプレイドライバ】Catalyst 13.5 Beta2 > 【検索デバイス】GPUのみ > 【使用するGPU】すべて使用 > 【GPU0】DIAMOND 6990PE54G Radeon HD 6990 4GB @ 910MHz (OC) > 【GPU1】Gigabyte GV-R799D5-6GD-B Radeon HD 7970 @ 1130MHz (OC) > 【GPU2】VisionTek Radeon HD 7990 @ 1100MHz (OC) > 【CPU】AMD Phenom II X6 1100T (定格) > 【1CUあたりのワークアイテムの数(OpenCL)】自動 > 【1WGあたりのワークアイテムの数(OpenCL)】自動 > 【1GPUあたりの検索プロセスの数(OpenCL)】1 > 【1検索プロセスあたりの検索スレッドの数(OpenCL)】2 > 【検索プロセスの優先度】通常 > 【GUIフロントエンドの優先度】通常 > 【トリップの種類】12桁 > 【キーに使用する文字】すべて > 【検索パターン】 10文字完全前方一致1個 > 【10分間のGPU検索の平均速度】11112.48M tripcode/s > 【GPUの使用率】93〜99% > 【GPUの温度】80〜97℃ > 【その他】Power Limit (6990): +15%, Power Limit (7990): +5%, Fan Speed: 100% anago.2ch.net/test/read.cgi/software/1373110438/139n
4 名前: ◆Meriken//XXX [2013/09/15(日) 12:37:42.95 ID:yp7r3EBt0] テンプレは以上です。このスレでもよろしくお願いします。
5 名前: ◆Meriken//XXX [2013/09/16(月) 10:55:31.85 ID:qZcMxCLl0] 新しい開発版をうpしました。 MERIKEN's Tripcode Finder 1.1 Free Edition Alpha 3 www.meriken2ch.com/programming/merikens-tripcode-finder Alpha 2からの主な変更点は以下の通りです。 ・全角文字をキーに使用したときのヒット率の向上。 ・キーに使用する文字の種類の追加。 ・12桁トリップのCPU検索の速度向上。 ・10桁トリップのOpenCL版のGPU検索の速度向上。
6 名前: ◆Meriken//XXX [2013/09/16(月) 11:15:29.67 ID:qZcMxCLl0] あ、あとこれを>>5 にたしとくのをわすれてましたw ・破損した設定ファイルを自動的に修復する機能の追加。
7 名前:やんやん ◆yanyan/Pails mailto:sage [2013/09/16(月) 11:56:10.30 ID:p7PA/eiR0] おお、お疲れさまです。試してみますね。
8 名前: ◆Meriken//XXX [2013/09/16(月) 15:53:52.35 ID:qZcMxCLl0] さっそくAlpha 3にバグがorz Radeonを使っててGPUが複数あると、検索がいつまでたっても始まりません。 原因はわかっているのですが、これどうやって修正しようかな…
9 名前: ◆Meriken//XXX [2013/09/16(月) 17:09:07.51 ID:qZcMxCLl0] 一応修正は出来ました。これから配布パッケージを用意します。
10 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/16(月) 17:09:42.52 ID:okVXgfDbP] この前α1とα2で速度に差が出ると言っていた者です α3はα1のときの速度になりました (21MT/sです)
11 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/16(月) 17:10:54.81 ID:okVXgfDbP] 12桁の方も戻ってました 85MT/sです
12 名前: ◆Meriken//XXX [2013/09/16(月) 17:34:07.90 ID:qZcMxCLl0] 新しい開発版をうpしました。 MERIKEN's Tripcode Finder 1.1 Free Edition Alpha 4 www.meriken2ch.com/programming/merikens-tripcode-finder Alpha 3からの主な変更点は以下の通りです。 ・Radeonのビデオカードを使用していてGPUが複数あると検索できない 不具合の修正。
13 名前: ◆Meriken//XXX [2013/09/16(月) 17:35:12.77 ID:qZcMxCLl0] >>10-11 摩訶不思議ですね〜 いずれにせよ戻ってて安心しました。
14 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/16(月) 17:44:07.15 ID:okVXgfDbP] 修正おつかれさまです α4も大丈夫でした
15 名前: ◆JouJaku.IYSv mailto:sage [2013/09/16(月) 18:26:02.56 ID:E6LpH9zS0] >>8 バグでしたか。モロそのバグに引っかかって悩んでました。 今Alpha 4で動作を確認しました。
16 名前: ◆Meriken//XXX [2013/09/16(月) 18:40:29.99 ID:qZcMxCLl0] >>15 いや〜申し訳ないです… そろそろプロセス間通信周りを綺麗に書き直したいんですが、 デバッグの手間を考えるとなかなか踏ん切りがつきません。
17 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/16(月) 23:59:46.48 ID:Hbh3MH0b0] 質問すみませんが Alpha 4の「キーに使用する文字」の 「半角と全角」と「すべて」の違いは何でしょうか? Alpha 4のデフォルトですと「すべて」ではなく「半角と全角」が選択されるようですが Alpha 2以前の「すべて」に相当するのは Alpha 4の場合は「半角と全角」になるのでしょうか?
18 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/17(火) 01:08:10.52 ID:cQ7VTAce0] 上で質問した者ですが 各種診断を使ってみましたところ 1.1FE Alpha 4で「キーに使用する文字」が「半角と全角」の場合は > 【キーに使用する文字】1バイト文字のみ になって「すべて」の場合は > 【キーに使用する文字】すべて になっているようですので 1.1FE Alpha 2以前の「すべて」と同じ設定にするには 1.1FE Alpha 4でも「すべて」にしないといけないということでしょうか 実はこちらで12桁検索に使っているPCが Core2 Duo E7600+Radeon HD6850の古いPCなのですが 1.1FE Alpha 2→1.1FE Alpha 4に入れ替えましたところ 12桁の検索速度が落ちてしまいましたので 「キーに使用する文字」が原因がどうかを知りたかったのです 長くなりますが以下診断の結果を張っておきます OSはWin7 x64+Catalyst 13.5beta2です ※こちらの環境ではCatalyst 13.6beta以降(〜13.10betaまで)を使うと MTFのバージョンに関係なく12桁のGPU検索速度が落ちてしまうので13.5beta2を使っています
19 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/17(火) 01:09:10.52 ID:cQ7VTAce0] ・1.1FE Alpha 2で「キーに使用する文字」が「すべて」の場合 【診断の種類】検索速度(1パターン) 【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 2 【検索デバイス】GPUとCPU 【使用するGPU】すべて使用 【1CUあたりのワークアイテムの数(OpenCL)】自動 【1WGあたりのワークアイテムの数(OpenCL)】自動 【1GPUあたりの検索プロセスの数(OpenCL)】1 【1検索プロセスあたりの検索スレッドの数(OpenCL)】2 【CPUの命令セット】x64 + SSE2/AVX 【CPU検索スレッドの数】1 【SHA-1ハッシュ値生成の最適化(CPU)】最大 【検索プロセスの優先度】通常以下 【GUIフロントエンドの優先度】通常 【トリップの種類】12桁 【キーに使用する文字】すべて 【検索パターン】 10文字完全前方一致1個 【10分間の平均速度】 819.11M tripcode/s 【GPU検索の平均速度】 805.41M tripcode/s 【CPU検索の平均速度】 13.70M tripcode/s
20 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/17(火) 01:10:13.06 ID:cQ7VTAce0] ・1.1FE Alpha 4で「キーに使用する文字」が「半角と全角」の場合 【診断の種類】検索速度(1パターン) 【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4 【検索デバイス】GPUとCPU 【使用するGPU】すべて使用 【1CUあたりのワークアイテムの数(OpenCL)】自動 【1WGあたりのワークアイテムの数(OpenCL)】自動 【1GPUあたりの検索プロセスの数(OpenCL)】1 【1検索プロセスあたりの検索スレッドの数(OpenCL)】2 【CPUの命令セット】x64 + SSE2/AVX 【CPU検索スレッドの数】1 【SHA-1ハッシュ値生成の最適化(CPU)】最大 【検索プロセスの優先度】通常以下 【GUIフロントエンドの優先度】通常 【トリップの種類】12桁 【キーに使用する文字】1バイト文字のみ 【検索パターン】 10文字完全前方一致1個 【10分間の平均速度】 817.08M tripcode/s 【GPU検索の平均速度】 802.93M tripcode/s 【CPU検索の平均速度】 14.16M tripcode/s
21 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/17(火) 01:11:01.48 ID:cQ7VTAce0] ・1.1FE Alpha 4で「キーに使用する文字」が「すべて」の場合 【診断の種類】検索速度(1パターン) 【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4 【検索デバイス】GPUとCPU 【使用するGPU】すべて使用 【1CUあたりのワークアイテムの数(OpenCL)】自動 【1WGあたりのワークアイテムの数(OpenCL)】自動 【1GPUあたりの検索プロセスの数(OpenCL)】1 【1検索プロセスあたりの検索スレッドの数(OpenCL)】2 【CPUの命令セット】x64 + SSE2/AVX 【CPU検索スレッドの数】1 【SHA-1ハッシュ値生成の最適化(CPU)】最大 【検索プロセスの優先度】通常以下 【GUIフロントエンドの優先度】通常 【トリップの種類】12桁 【キーに使用する文字】すべて 【検索パターン】 10文字完全前方一致1個 【10分間の平均速度】 814.97M tripcode/s 【GPU検索の平均速度】 800.87M tripcode/s 【CPU検索の平均速度】 14.11M tripcode/s
22 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/17(火) 01:12:47.88 ID:cQ7VTAce0] ということで1.1FE Alpha 4で確かに12桁のCPU検索速度は上がっているのですが 逆にGPU検索速度が落ちてしまっていて 全体としては1.1FE Alpha 2の方が検索速度が上になります 検索デバイスをGPUのみにしても傾向は変わりません あと診断ですと差はわずかですので無視してもよかったのですが 実際にYggdrasilに参加した状態では ・1.1FE Alpha 2での場合GPU検索速度が約675MTPS〜約700MTPSの間で変動(約700MTPSの場合が優勢) CPU検索速度は約13MTPSでほぼ一定 ・1.1FE Alpha 4の場合は「キーに使用する文字」が「半角と全角」の場合でも「すべて」の場合でも GPU検索速度が約650MTPS〜約675MTPSの間で変動(ほぼ均等) CPU検索速度は約13MTPS〜約13.1MTPSの間で変動 となって平均検索速度で言えば1.1FE Alpha 2の方が30MTPS程度上になります まあこれでも誤差の範囲と言われればそうなると思いますが Free Editionが出て以降ほぼ変わっていなかった12桁の検索速度が1.1FE Alpha 4で落ちてしまいましたので 一応ご報告しておきます
23 名前: ◆Meriken//XXX [2013/09/17(火) 04:36:22.46 ID:7sJN/t4X0] >>17 > 「半角と全角」と「すべて」の違いは何でしょうか? 「半角と全角」の場合は全角文字の一部は使用されませんが、 「すべて」の場合は全部使用されます。 その代わり、「すべて」を選ぶとヒット率が3%ほど落ちます。 > Alpha 2以前の「すべて」に相当するのは > Alpha 4の場合は「半角と全角」になるのでしょうか? Alpha 2以前の「すべて」は、Alpha 4の「すべて」と同じです。
24 名前: ◆Meriken//XXX [2013/09/17(火) 04:55:34.82 ID:7sJN/t4X0] >>18 あ〜診断の表示を変更するのを忘れてましたorz 診断の結果は正しいはずです。 >>19-22 詳しい報告有り難うございます。HD 5xxx/6xxxだとOpenCLコンパイラのバックエンドが あまり賢くないせいか、ちょっとコードを変更するだけですぐに速度が落ちちゃうんですよね。 速度を戻すことが出来ないか試してみますが、難しいかもしれません。
25 名前: ◆Meriken//XXX [2013/09/17(火) 11:23:18.74 ID:7sJN/t4X0] >>18 5770ではほぼ元の速度を出せるようになりました。 6850と5770のアーキテクチャは同じVLIW5なので、多分大丈夫でしょう。
26 名前:やんやん ◆yanyan/Pails mailto:sage [2013/09/17(火) 11:31:20.26 ID:VA97SuCR0] TITANでalpha4を試したところ、 1500M tripcode/s いきました。
27 名前: ◆Meriken//XXX [2013/09/17(火) 20:30:57.15 ID:7sJN/t4X0] >>26 お、こっちは速くなってますね。 しかしTITANももっと速くてもいいぐらいなんですけどね〜 自分でいじれないのがちと歯がゆいです。
28 名前: ◆Meriken//XXX mailto:sage [2013/09/17(火) 21:13:17.75 ID:7sJN/t4X0] 12桁トリップのCPU検索をアセンブラを使って書き直せないか現在思案中。 多分SSE2だけでも数割速くなるだろうし、AVX/AVX2ならさらにそこから 上乗せ出来そうなんですけど、どうかなあ。 というわけでちょっと調べたら、VecTripperに再利用出来るアセンブラのコードが あったので、これを使うことにしました。ライセンス的にも問題ないようです。 1から書くのはなかなかしんどそうなので、ありがたいことです。
29 名前: ◆Meriken//XXX mailto:sage [2013/09/17(火) 21:24:16.96 ID:7sJN/t4X0] そういやSHA-1のルーチンはかなり最適化してたから、 このままじゃ使えないんだよなあ。どうしたものか。
30 名前: ◆Meriken//XXX mailto:sage [2013/09/17(火) 21:40:56.67 ID:7sJN/t4X0] SHA-1のルーチンをじっと眺めていたら、 キーの長さをSHA-1のブロックのサイズにあわせて64文字に することによって、更に最適化出来そうなことに気づいてしまいましたw 今のままでも工夫してやればラウンドを2つループの外に追い出せそうです。
31 名前: ◆Meriken//XXX mailto:sage [2013/09/17(火) 22:16:20.98 ID:7sJN/t4X0] あ、448bitだから64文字じゃなくて54文字か。 で、最大で最初の13個のラウンドを追い出せるわけね。 80個のラウンドのうちの13個ってかなり大きいよな。 単純に考えれば2割ほど高速化できる計算です。 だけど2chで56文字のキーなんて使えるのかしらんw
32 名前: ◆Meriken//XXX mailto:sage [2013/09/17(火) 22:40:57.21 ID:7sJN/t4X0] 54文字じゃなくて56文字だった。 56文字のキーは2chで普通に使えました。 でもMTFを56文字のキーに対応させるのは さすがに手間が大きすぎるような… まあこのネタは取っておいて、とりあえずアセンブラで書き直そうっと。
33 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/18(水) 07:15:46.99 ID:OzF80bCr0] >>23-25 どうもありがとうございます アーキテクチャの違うハードを それぞれ最適な性能が出るようにサポートするというのは ものすごく手間のかかることと思います お手数をおかけして申し訳ありませんでした
34 名前:やんやん ◆yanyan/Pails mailto:sage [2013/09/18(水) 08:38:51.53 ID:mB6Net9h0] >>27 どうもです。余分なグラフィックを切ってなかったり、 TITANのくせにPCI-Express2.0接続だったりするので、 TITANとしては遅いかもしれません。 GPGPUコンピューティンの時にはPCI-Expressバスの問題は どうせCudaMemcopyなどは最小限にしてるでしょうから 関係ない気もしますが。
35 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/18(水) 17:03:41.23 ID:5Sc3kbYV0] MERIKENsTripcodeFinder_1.1_FE_Alpha_2 だと全く問題ないのに、 MERIKENsTripcodeFinder_1.1_FE_Alpha_4 だとエラーで動かないのは 何が原因と考えられますか?
36 名前: ◆Meriken//XXX mailto:sage [2013/09/18(水) 17:16:42.94 ID:0UI9u6yeP] >>35 エラーの種類とか、出現条件とか、もうちょっと詳しくおながいします。 ■ バグ報告用のテンプレ バグを報告する際には下のテンプレを使ってなるべく詳しく 具体的に報告して下さい。 【症状】 【バージョン】MERIKEN's Tripcode Finder x.xx 【トリップの種類】12桁・10桁 【GPU】 【CPU】 【OS】 【Display Driver】 【その他】
37 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/18(水) 18:01:45.41 ID:VtUincUUP] 12桁のトリップのYggdrasilでの分散探索についてですが 2chは64文字より長いトリップキーが使えるということは SHA1で1ブロック目の計算はサーバーでやって 1ブロック目で使われる最初の64文字のキーはクライアントに送らずに 2ブロック目以降で必要になる1ブロック目から計算される情報だけをクライアントに送り クライアントは2ブロック目以降をランダムに生成してトリップを探索する こうすれば1ブロック目のキーはサーバしか分からないからリバースエンジニアリングされてもクライアントに漏洩されずに済む こんなのを考えたんですがどうでしょうか
38 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/18(水) 18:03:53.95 ID:VtUincUUP] 発見されるトリップのキーが常に64文字以上になるのが欠点ですが
39 名前: ◆Meriken//XXX mailto:sage [2013/09/18(水) 18:50:04.20 ID:0UI9u6yeP] >>33 いや〜これ気づかずに放置するところでした。ありがとうございました。 MTFはトリップ検索ツールの決定版を目指しているので、 まだまだこれからですw ちょっとまとまったお金が入りそうなので、 物欲に任せてi7-4770Kとマザボを買おうかどうか迷っているところです。
40 名前: ◆Meriken//XXX mailto:sage [2013/09/18(水) 19:07:56.67 ID:0UI9u6yeP] >>37-38 これは非常に面白いですねえ。キーの漏洩が原理的に不可能というのは かなり美味しいです。キーの長さは実際どうなんでしょうねえ。 試しに遊びで56文字モードを付けてみようかしらん。
41 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/18(水) 20:07:49.89 ID:f7vVWxxs0] >>40 非常に面白いけど、メッセージの途中までを依頼側が制御できてしまうってのは色々アレですね。 SHA-1で署名されてるメッセージのラスト以外を捏造したSHA-1中間状態で依頼して…みたいな。 MD5で衝突させた実験はいくつかあったけどSHA1でやれるとちょっと面白い(では済まない?)かも。
42 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 02:49:03.85 ID:sTJqqQfeP] >>41 私はクラッキングには興味が無いですけど、クラッキングに分散処理を利用するというのは ありなのかもしれませんねえ。Bitcoinマイナーみたいなのにそういうコードを 入れといてもわからないでしょうからね。
43 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 03:23:02.42 ID:sTJqqQfeP] 一応>>30-32 をまとめておきます。 ・トリップのキーの長さをSHA-1のブロックの大きさに合わせて56文字にすることで、 12桁トリップ検索をさらに2割ほど高速化出来る。 ・ループの内部ではW[13]に対応するキーの53文字目から56文字目のみを変化させる。 ・SHA-1の最初の13個のラウンドはW[13]に依存しないので、 あらかじめループの外で計算しておく。 ・この方法はJens Steube氏のSHA-1ハッシュ値生成の最適化の手法と 組み合わせることも可能。その際はW[0]ではなくW[13]を中心にして計算を行う。 passwords12.at.ifi.uio.no/Jens_Steube/Jens_Steube_Passwords12.pdf 鳥屋氏はこのことに気づいていたみたいですが、なかなかにコロンブスの卵的な発想です。
44 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 04:55:49.99 ID:sTJqqQfeP] これ、こちらにも貼っておきますね。 > 24 : ◆Meriken//XXX : sage : 2013/09/19(木) 04:54:27.08 > そうそう、そろそろYggdrasilのAPIを新鯖に一本化したいので、バージョン1.0 (FE)以前の > MTFをお使いな方はバージョン1.0.1 (FE)以降に更新をお願いします。
45 名前: ◆Urotsuki/1Ca mailto:sage [2013/09/19(木) 07:23:10.54 ID:Ywt2cZ170] 次のα版に乗り換えるかな…
46 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 07:46:53.91 ID:sTJqqQfeP] >>45 結構いろいろ改善されているのでぜひどうぞw >>43 の実装がいつになるのかはちょっと分かりませんが…
47 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 07:56:24.04 ID:sTJqqQfeP] 現在VecTripperのSHA-1のアセンブラのコードをせっせとMTFに移植中です。 とりあえずAVXで最初の14個のラウンドが動作することを確認しましたが、 かなり速いです。さすがです。これはかなり期待できそうです。
48 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 09:55:12.24 ID:sTJqqQfeP] 20回目のラウンドまで変換出来ました。 かなり最適化されたコードみたいで期待大ですが、 気を使う作業なのでとにかく疲れます。 続きは明日以降にしておきます。
49 名前:やんやん ◆yanyan/Pails mailto:sage [2013/09/19(木) 13:04:17.26 ID:yhS2wnZ30] アセンブラまで手を出していたのですね。おつかれさまです。
50 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 14:09:31.68 ID:sTJqqQfeP] アセンブラでないと限界まで速度を出せないですからね〜 10桁は書き換えたので次は12桁というわけです。
51 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 15:17:00.67 ID:sTJqqQfeP] ご飯を食べて元気が出たので、素のSHA-1のルーチンを一気にAVXで書き換えてしまいました。 結果は上々で、2割ほど速度が上がっています。もうちょっといじれば3割まで行きそうな 感じです。 ここまではわりとすんなりと行きましたが問題はこれからで、今度は特殊な最適化を施してある SHA-1のルーチンを書き換えなければなりません。これは1から書くしかないので、 少しづつ進めていくことにします。
52 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 18:40:13.43 ID:sTJqqQfeP] あれから素のSHA-1のルーチンの関数呼び出しのオーバーヘッドを 削って、合わせて27%の速度向上となりました。 VecTripperのルーチンは命令を削れるだけ削ってあるという印象です。 素晴らしいです。 最適化済みのルーチンもこんなふうに自分で書き直せればいいけど、 どうでしょうねえ〜
53 名前: ◆JouJaku.IYSv mailto:sage [2013/09/19(木) 19:10:47.14 ID:SvlqUu4y0] >>39 AVX2対応キターーー! ヽ(´Д`)ノ AVX2が目的でHaswellを選ぶなら、高いK付きを選ぶ必要は無いと思います。 HaswellはAVXを使うと極端にOC耐性が落ちます。更に殻割り+液体金属必須です。 K無しを定格で使うのが良い、とK付きで殻割りOCまで試した私は思います。
54 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 19:52:17.36 ID:sTJqqQfeP] >>53 確かにK付きはいらないですねえ。開発機の3770KもOC切っちゃったし… その代わりにマザボを奮発してQuad CrossFireが出来るのにしようかな。 AVX-512がコンシューマー市場に下りてくるのは当分先でしょうしね。
55 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 19:53:29.45 ID:sTJqqQfeP] 最適化されたルーチンをじっと眺めてたらなんだか出来そうな気がしてきたぞ。
56 名前: ◆Meriken//XXX mailto:sage [2013/09/19(木) 22:14:58.88 ID:sTJqqQfeP] おもむろに少し書き換えてみたらうまくいきましたw こりゃ思ったよりずっと簡単かも。
57 名前: ◆Urotsuki/1Ca mailto:sage [2013/09/19(木) 22:45:49.09 ID:Ywt2cZ170] 開発が進んでいるようで何よりです 自分はPCの計算力を提供するぐらいしかできませんけど…
58 名前: ◆Meriken//XXX mailto:sage [2013/09/20(金) 04:43:57.64 ID:PXGklweqP] いやいや、それだけで十分すぎですw うろつきさん、めちゃ速いですしね。
59 名前: ◆Meriken//XXX mailto:sage [2013/09/20(金) 04:50:36.76 ID:PXGklweqP] 最適化済みのSHA-1のルーチンのアセンブラでの書き換えは 半分終わりました。既に元のSSE2 Intrinsicsでの実装より大分速くなっています。 思い切って手を付けてみて正解でした。
60 名前: ◆Meriken//XXX mailto:sage [2013/09/20(金) 11:51:06.76 ID:PXGklweqP] x64版のAVXでの書き換えは一応終了。 最適化されたルーチンは15%ほど速くなりました。 もうちょっと命令を削れそうな感じです。
61 名前:名無しさん@お腹いっぱい。 [2013/09/20(金) 12:28:27.30 ID:rdeXteVM0] >>54 Z87のマザーだと、ASUS MAXIMUS VI EXTREMEがPCIe 3.0(x8/x16/x8/x8)駆動で最大だからQuad CrossFireするには勿体無さそうに思うけどな。 ttp://www.asus.com/jp/Motherboards/MAXIMUS_VI_EXTREME/#specifications Quad CrossFireがPCIe 3.0(x16/x16/x16/x16)で動作保障してくれるマザーってあるんだっけ?
62 名前: ◆Meriken//XXX mailto:sage [2013/09/20(金) 12:39:25.81 ID:PXGklweqP] >>61 MTFでつかうぶんにはPCIeの帯域はほとんど関係ないので問題なしです。 買うとしたら検索君1号用なので他の用途には使わないですしね。 もうちょっと安いのでもいいんですけど、スロットの配置がいいのが ないんですよね〜
63 名前: ◆Meriken//XXX mailto:sage [2013/09/20(金) 12:52:41.54 ID:PXGklweqP] 命令を2つばかり削ってちょびっと速くなりました。 さすがに疲れたのこのへんにしときます。 後はこれをSSE2に移植して、32bit版を作らなきゃいけないんだよなあ。 まあのんびりやろうっと。 とりあえずAVX2対応の準備はできたので十分でしょう。 CPUだけで250M TPS出せるかもしれません。ぐへへへへ…
64 名前: ◆Meriken//XXX mailto:sage [2013/09/20(金) 17:44:03.41 ID:PXGklweqP] SSE2版を作って命令を2オペランド化してみたらかえって元のより遅くなったぞorz たくさん作ってもメンテするの大変だし、アセンブラのルーチンは 64bit AVX/AVX2専用にしちゃおうかなあ。 …と、ここまで考えてから試しにVecTripperの真似をしてvmovdqaをmovaps に 変えたら、それだけでもとより速くなりましたw なぜだ…
65 名前: ◆JouJaku.IYSv mailto:sage [2013/09/20(金) 20:53:24.14 ID:BxgeVqsj0] >>61 ブリッジ挟んだなんちゃって仕様ならコレ。Haswellではありませんが。 ttp://www.asus.com/jp/Motherboards/P9X79E_WS/ なんちゃってなので、グラフィック用です。 大量のデータ転送を同時に行うGPGPU用途には使えません。 Nativeならこれくらい逝かないと無理です。 ttp://www.supermicro.com/products/motherboard/Xeon/C600/X9DRG-QF.cfm
66 名前: ◆Meriken//XXX mailto:sage [2013/09/21(土) 01:51:06.93 ID:axiLYME3P] >>65 今回の購入のメインはHaswellなので、やっぱりASUSのM6Eですかね〜 いやあ、楽しみだなあ。
67 名前: ◆Meriken//XXX mailto:sage [2013/09/21(土) 02:05:15.56 ID:axiLYME3P] 最適化されたルーチンのSSE2への移植は完了しました。かなり速いです。 今まで58M TPSしか出ていなかったPhenom II X6で92M TPSでました。 Visual C++、効率が悪すぎだろう…
68 名前: ◆Meriken//XXX mailto:sage [2013/09/21(土) 02:41:57.42 ID:axiLYME3P] というわけで、64bit版は最適化されたルーチンに 一本化することにしました。これで大分すっきりとしました。 あと32bitだとxmmレジスタの数が足りなさすぎなので、 アセンブラで書きなおすのはやめにしました。 これで後は念の為にもう一回テストするだけです。
69 名前: ◆Meriken//XXX mailto:sage [2013/09/21(土) 02:55:33.92 ID:axiLYME3P] あ、でも最適化されたルーチンだけならレジスタ周りはそんなに厳しくないのか。 せっかくだから32bit版も書きなおそうかな。そうすれば大分すっきりするし…
70 名前: ◆YSRKEN.ceVZZ mailto:sage [2013/09/21(土) 10:51:27.68 ID:oxIT9/ma0] >>67 >Visual C++ iclですらない……そりゃ徹底的にアセンブラしたら速いでしょうねw これで私もCPUのみで15MTPS逝きそうですな……
71 名前: ◆Meriken//XXX mailto:sage [2013/09/21(土) 14:05:50.24 ID:axiLYME3P] >>70 お、お久しぶりです。 Intelのも一応試してみたけどほとんど速度は変わりませんでしたよ。 まあそんなにうまい話は転がってないですね。 限界まで性能を出したいならコンパイラに頼らずに自分でやるしかないですね。
72 名前:最近アマガミをオールクリアしました ◆Ayatsuji/uFC mailto:sage [2013/09/21(土) 18:39:07.87 ID:oxIT9/ma0] >>71 >お久しぶりです すみません、実は久しぶりというわけでもないのです。 うろつき ◆Urotsuki/1Caさんに見つけてもらったこの酉で最近はレスしてました。 諸事情により最近はノーパソをぶん回したまま放置ということができなかったので、レベルが上がりようがないという悲しみ…… ところで、複数PCで同じアカウントでログインしてゆぐちゃんに参加するとポイント(゚д゚)ウマーなんですよね?
73 名前: ◆Meriken//XXX mailto:sage [2013/09/22(日) 01:22:54.37 ID:PJsMgXLsP] >>72 そういえばそうだったw そのトリップを見たのが久しぶりだったのでうっかりしてしまいました。 経験値はちゃんと加算されますよ。
74 名前: ◆Meriken//XXX mailto:sage [2013/09/22(日) 05:48:35.29 ID:PJsMgXLsP] 新しい12桁トリップのCPU検索のルーチンの32bit版も出来ました。 手元のCore 2 Duoで試したら4割近く速度が上がっています。 やっぱコンパイラの最適化は当てにならないなあ。 とにかく検索ルーチンのアセンブラでの書き直しは終わったので、 明日あたりにGUIの修正と最終テストを行って、新しい開発版をうpします。
75 名前:やんやん ◆yanyan/Pails mailto:sage [2013/09/22(日) 06:06:23.54 ID:RUJc3/SX0] wktk
76 名前: ◆Urotsuki/1Ca mailto:sage [2013/09/22(日) 07:42:38.57 ID:B2mxp/B40] wktkですねこれは しかし相変わらずの化け物じみた速度… 自分は契約Aの問題でこれ以上速度あげられないんだよなぁ
77 名前: ◆shiexn/ngc mailto:sage [2013/09/22(日) 07:50:16.88 ID:XeDsKN+sP] 同一トリップ 別キー なんてのもちゃんと出てくるんですな
78 名前: ◆Meriken//XXX mailto:sage [2013/09/22(日) 09:52:31.01 ID:PJsMgXLsP] TITANより速いとか、これはもう買うしかないのではなかろうか。 発表は25日か〜 wccftech.com/amd-hawaii-r9290x-gpu-volcanic-islands-benchmark-results-exposed-fastest-gpu-planet-1020-mhz-clock-speed/=
79 名前: ◆Meriken//XXX mailto:sage [2013/09/22(日) 10:39:11.32 ID:PJsMgXLsP] >>76 7970 CFにしては抑え気味だなと思ってたんですけど、 そういうことだったんですね。私もこれで結構ギリギリで、 しょっちゅうブレーカーを飛ばしていますw
80 名前: ◆Meriken//XXX mailto:sage [2013/09/22(日) 10:41:44.63 ID:PJsMgXLsP] >>78 のリンクが壊れてました。 wccftech.com/amd-hawaii-r9290x-gpu-volcanic-islands-benchmark-results-exposed-fastest-gpu-planet-1020-mhz-clock-speed/
81 名前: ◆Meriken//XXX mailto:sage [2013/09/22(日) 11:16:46.05 ID:PJsMgXLsP] >>72 あ、そうそう。私はアマガミはモジャ子で挫折しましたw 梨穂子ちゃんと先輩はなかなか良かったです。
82 名前: ◆Meriken//XXX [2013/09/22(日) 13:39:01.91 ID:PJsMgXLsP] 新しい開発版をうpしました。 MERIKEN's Tripcode Finder 1.1 Free Edition Alpha 5 www.meriken2ch.com/programming/merikens-tripcode-finder Alpha 4からの主な変更点は以下の通りです。 ・12桁トリップのCPU検索のAVXへの対応。 ・12桁トリップのCPU検索の高速化。 CPUによってはかなり速くなっているようです。 診断の結果や前のバージョンとの比較を報告していただけると助かります。
83 名前: ◆Meriken//XXX [2013/09/22(日) 17:15:27.23 ID:PJsMgXLsP] 現在Meriken's Tripcode Engineの英語版を作成中。 プログラムに変更はすぐに終わったけど、 ドキュメントの翻訳が超めんどくさいです。
84 名前: ◆MOYASIMaXI mailto:sage [2013/09/22(日) 17:54:35.42 ID:B1RUuJ9x0] >>82 お疲れ様です。 12桁検索(CPUのみ)の速度を見てみました。 検索パターンは、先頭一致6完一つと特殊の純8連です。 【OS】Win7 Pro 64bit SP1 【CPU】Core i5 3570 【CPU検索スレッドの数】4 検索開始10分後の平均速度 MTF 1.1 FE Alpha4 74.21M tripcode/s MTF 1.1 FE Alpha5 91.94M tripcode/s めっちゃ高速化してます。
85 名前: ◆Meriken//XXX [2013/09/22(日) 18:58:57.07 ID:PJsMgXLsP] >>84 いい感じに速度が上がっていますね〜 AVXがかなり効いてるのかな? i7-3770Kより差が大きいのはおいしすぎですね。
86 名前: ◆Urotsuki/1Ca mailto:sage [2013/09/22(日) 19:02:33.93 ID:B2mxp/B40] おー新しいのきましたか CPU関連の効率化だけかなー? GPUメインにはあまり縁がないかなー… 取り敢えず測定してみようっと
87 名前: ◆Meriken//XXX [2013/09/22(日) 19:14:24.81 ID:PJsMgXLsP] ぜひお願いします。CPUによってほんとに速度の変化がバラバラなんですよね。
88 名前: ◆Urotsuki/1Ca mailto:sage [2013/09/22(日) 19:24:33.69 ID:B2mxp/B40] CPUの冷却が不安なので長い時間ぶん回せませんね… 取り敢えず結果です 【OS】Windows7 Pro 64bit SP1 【CPU】Intel Core i7-3930K(自動的に3.9GHzまでOC) 【CPU検索スレッドの数】12 【検索中の温度】 46〜59度(簡易水冷) 【検索パターン】先頭一致10完 1つ 検索開始5分後の平均速度 MTF 1.1 FE Alpha4 129.19M tripcode/s MTF 1.1 FE Alpha5 160.65M tripcode/s 速度がかなり上がりました OCしているので定格だとどうなるかわかりませんが上がり幅は同じだと思います
89 名前: ◆JouJaku.HzIz mailto:sage [2013/09/22(日) 20:09:04.92 ID:vk+5V6ZE0] 【診断の種類】検索速度(1パターン) 【MERIKEN's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4, 5 【OS】Microsoft Windows 7 Ultimate 64bit SP1 【検索デバイス】CPUのみ 【CPU】Intel Core i7 4770K@3.7GHz 【CPU検索スレッドの数】8 (HTon) 【検索プロセスの優先度】通常 【トリップの種類】12桁 【キーに使用する文字】すべて 【検索パターン】 10文字完全前方一致1個 【10分間のCPU検索の平均速度】104.66(a4) → 122.57(a5) M tripcode/s 【その他】MTEngine64 -c -t 8 -l 12 2割近く速度が上がってますね。AVX2対応が楽しみです。
90 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/22(日) 20:28:27.32 ID:Nb3CcrYX0] Win7 x64 / C2Q Q9650定格(3GHz)CPUのみ / 4スレッドでの 1.1FEα2 / 1.1FEα4 / 1.1FEα5の各バージョンの12桁検索の「各種診断」の実行結果です 共通 【診断の種類】検索速度(1パターン) 【検索デバイス】CPUのみ 【CPUの命令セット】x64 + SSE2/AVX 【CPU検索スレッドの数】自動 ※4スレッド 【SHA-1ハッシュ値生成の最適化(CPU)】最大 ※1.1FEα2 / 1.1FEα4のみ 【検索プロセスの優先度】通常以下 【GUIフロントエンドの優先度】通常 【トリップの種類】12桁 【検索パターン】 10文字完全前方一致1個 1.1FEα2 【キーに使用する文字】すべて 【10分間のCPU検索の平均速度】 53.94M tripcode/s 1.1FEα4 【キーに使用する文字】1バイト文字のみ ※半角と全角 【10分間のCPU検索の平均速度】 55.22M tripcode/s 【キーに使用する文字】すべて 【10分間のCPU検索の平均速度】 55.17M tripcode/s 1.1FEα5 【キーに使用する文字】半角と全角 【10分間のCPU検索の平均速度】 62.22M tripcode/s 【キーに使用する文字】すべて 【10分間のCPU検索の平均速度】 62.20M tripcode/s 結果 ・1.1FEα4 / 1.1FEα5の【キーに使用する文字】の「半角と全角」と「すべて」の検索速度の違いはわずか ・1.1FEα2→1.1FEα4:約2.5%UP 1.1FEα2→1.1FEα5:約15.3%UP 1.1FEα4→1.1FEα5:約12.7%UP
91 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/22(日) 20:32:12.34 ID:K2dEp/NJ0] すいません、MTF1.1FEのalpha2〜4はどこかでDL出来ますでしょうか? 手違いで消してしまいましたw
92 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/22(日) 20:34:35.19 ID:TkU21XXd0] リンク先のファイル名を変えるだけで落とせたと思う。
93 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/22(日) 20:36:50.06 ID:K2dEp/NJ0] あ、なるほど気が付きませんでした 無事落とせました
94 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/22(日) 22:59:02.04 ID:K2dEp/NJ0] 【検索デバイス】GPUとCPU 【OS】 windows7 HP 64bit SP1 【使用するGPU】AMD Radeon HD 5570/5670 (OpenCL) 【1CUあたりのワークアイテムの数(OpenCL)】自動 【1WGあたりのワークアイテムの数(OpenCL)】自動 【1GPUあたりの検索プロセスの数(OpenCL)】1 【1検索プロセスあたりの検索スレッドの数(OpenCL)】2 【CPUの命令セット】x64 + SSE2/AVX 【CPU検索スレッドの数】自動 【SHA-1ハッシュ値生成の最適化(CPU)】最大 【検索プロセスの優先度】通常以下 【GUIフロントエンドの優先度】通常 【トリップの種類】12桁 【キーに使用する文字】すべて 【検索パターン】 10文字完全前方一致1個 α2 【10分間の平均速度】 366.70M tripcode/s 【GPU検索の平均速度】 340.43M tripcode/s 【CPU検索の平均速度】 26.27M tripcode/s α4 【10分間の平均速度】 366.74M tripcode/s 【GPU検索の平均速度】 340.08M tripcode/s 【CPU検索の平均速度】 26.66M tripcode/s α5 【10分間の平均速度】 364.47M tripcode/s 【GPU検索の平均速度】 340.61M tripcode/s 【CPU検索の平均速度】 23.86M tripcode/s 計測報告は初めてですがこんな感じでいいのでしょうか? 因みにα3はバグがあるとスレの初めに話題になってたようなので除外しました
95 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/22(日) 23:11:48.99 ID:K2dEp/NJ0] 診断ではα5のCPU効率が若干低下してますが 検索実測でもα5はα2、4に比べてGPUCPU共 似たような効率低下傾向があるようです
96 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/22(日) 23:14:16.64 ID:K2dEp/NJ0] あ、これだとCPUが載ってないですね CPUは intel core i5-750 2.66GHz定格使用です
97 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/09/23(月) 00:19:21.07 ID:s2zOHAYz0] >>17-22 を書いた者ですが 1.1FE Alpha 5で1.1FE Alpha 2と同等以上の検索速度になりました どうもありがとうございました ・1.1FE Alpha 5の各種診断で「キーに使用する文字」が「半角と全角」の場合 【トリップの種類】12桁 【キーに使用する文字】半角と全角 【検索パターン】 10文字完全前方一致1個 【10分間の平均速度】 820.98M tripcode/s 【GPU検索の平均速度】 805.08M tripcode/s 【CPU検索の平均速度】 15.90M tripcode/s ・1.1FE Alpha 5の各種診断で「キーに使用する文字」が「すべて」の場合 【トリップの種類】12桁 【キーに使用する文字】すべて 【検索パターン】 10文字完全前方一致1個 【10分間の平均速度】 820.92M tripcode/s 【GPU検索の平均速度】 805.02M tripcode/s 【CPU検索の平均速度】 15.90M tripcode/s ・Yggdrasilに参加して検索開始10分後の平均検索速度 1.1FE Alpha 2: 694.95MTPS (GPU: 681.99M, CPU: 12.96M) 1.1FE Alpha 4: 665.13MTPS (GPU: 652.14M, CPU: 12.99M) 1.1FE Alpha 5: 695.23MTPS (GPU: 680.68M, CPU: 14.56M)
98 名前:shirawa@mmo ◆GTExxuWcjk/9 mailto:sage [2013/09/23(月) 05:07:53.88 ID:jhI3+7LxP] 【診断の種類】検索速度(1パターン) 【Meriken's Tripcode Finderのバージョン】1.1 Free Edition Alpha 4 → Alpha 5 【検索デバイス】GPUとCPU 【使用するCPU】Intel Core i7-3770 CPU @ 3.40GHz 【使用するGPU】NVIDIA GeForce GTX 660 (CUDA) 【1SMあたりのブロック数(CUDA)】自動 【CPUの命令セット】x64 + SSE2/AVX 【CPU検索スレッドの数】自動 【SHA-1ハッシュ値生成の最適化(CPU)】最大 【検索プロセスの優先度】通常以下 【GUIフロントエンドの優先度】通常 【トリップの種類】12桁 【キーに使用する文字】すべて 【検索パターン】 10文字完全前方一致1個 【10分間の平均速度】 622.09M tripcode/s → 635.74M tripcode/s 【GPU検索の平均速度】 535.55M tripcode/s → 534.50M tripcode/s 【CPU検索の平均速度】 86.54M tripcode/s → 101.25M tripcode/s
99 名前:累計 ◆wop.8OO8.qow mailto:sage [2013/09/23(月) 05:25:17.49 ID:J8box9ZP0] 【診断の種類】検索速度(1パターン) 【Meriken's Tripcode Finderのバージョン】1.1FEα5/1.1FEα4/1.0.1(安定版) 【検索デバイス】CPUのみ (i7 M620 @2.67GHz) 【CPUの命令セット】x64 + SSE2 【CPU検索スレッドの数】自動 【検索プロセスの優先度】アイドル 【GUIフロントエンドの優先度】アイドル 【トリップの種類】12桁 【キーに使用する文字】半角(※1バイト文字のみ) 【検索パターン】 10文字完全前方一致1個 【10分間のCPU検索の平均速度(TPS)】 1.1FEα5 1.1FEα4 1.0.1(安定版) ------------------------------------ 1) 27.84M 30.51M 31.67M 2) 27.80M 30.50M 31.77M 3) 27.69M 30.58M 31.67M 4) 27.85M 30.54M 31.68M 5) 27.83M 30.54M 31.64M
100 名前: ◆Meriken//XXX [2013/09/23(月) 05:48:41.37 ID:PDVnzk32P] 皆さん詳しい報告を有り難うございます。 どうもNehalemだけ遅くなっているようですね。難しスギィ!