1 名前: ◆MERIKEN4.k [2012/09/25(火) 18:24:38.09 ID:BDWiD/680] こちらはMERIKEN's Tripcode Finderの本スレです。動作報告・質問・要望等は こちらでどうぞ。 MERIKEN's Tripcode Finder(旧CUDA SHA-1 Tripper MERIKEN's Branch)は 2012年9月現在で最速の12桁トリップ検索プログラムです(最高速の記録は 1689.88M tripcodes/s)。CPUのみでも検索できますが、NVIDIA GeForce シリーズのビデオカードを使用すれば非常に高速に検索を行うことが できます。特徴は以下の通りです。 ・ビデオカードのGPUによる高速検索(CPU検索にも対応)。 ・GUIによる簡単な操作(コマンドラインからの使用も可能)。 ・正規表現によるターゲットの指定。 ・漢字等のShift-JIS文字を含むキーの探索。 ・ヒット率、ヒットまでの平均時間等のさまざまな情報の表示。 ・ターゲットの数の制限の撤廃。 ・10桁トリップ検索への暫定的対応。 ・検索速度の実行時の最適化。 ・GPLv3で公開されたソースコード。 ■入手先 www.meriken2ch.com/programming/merikens-tripcode-finder ■前スレ anago.2ch.net/test/read.cgi/software/1311428038/
446 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/07(水) 19:15:01.56 ID:XRqsjajg0] >>444 自分でつくっといてなんだが、 >実際の速度が報告通りかどうかは微妙なところ には同意だ。てへ。 まあ、10分じゃ運の要素が強いが・・・・・。 Ivy 買ったらまたやろうかとか考えてたけど、もうあの頃の情熱はない。うわぁ。 そもそも鳥屋がぐてやを投げるから悪いんだ。 ぐてやは試作段階でhip2よりも速かったんだぜ? チクショウ あの野郎やるやる詐欺でほったらかしだしな!!!!
447 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 19:16:27.33 ID:+2zE6v+s0] >>445 見た感じでは1バイト文字のキーしか探索していないようでしたけど、違うんでしょうか。 Shift-JISのキーを網羅的に探索するTripcode Finderのほうがキーの探索空間が広いのは 自明だと思うのですが…
448 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 19:22:00.88 ID:lVCLYKZJ0] キー探索空間は 64 ^ 12 = 2 ^ 72 = 4722366482869645213696 だけで十分ではないのですか? ↓の資料を読む限りでは。 > 与えられたハッシュ値に対応する入力を求めるために必要な計算量は、 > ハッシュ値が n ビットであるとき、ハッシュ関数の計算を 2^n 回行うための計算量を超えない。 www.jnsa.org/seminar/2008/0703/data/09_panel03.pdf#page=7
449 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/07(水) 19:25:30.34 ID:XRqsjajg0] >>447 なんだかなぁ。 なんで確認しないの? なんでTripcode Finderのキー空間計算してみないの? 私、怒っちゃったから答えは教えてあげないよ〜だ。 >>448 簡単に言うと、 違うキーで同じトリップになることがあるかもしれない ってことだよ。だから、総トリップ数よりも多くしておくべきなんだよね。
450 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 19:27:35.72 ID:+2zE6v+s0] >>448 実用的な観点からはトリップのキーはわかりにくければわかりにくいほど良いので 自分としては妥協したくないところです。
451 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 19:29:51.83 ID:+2zE6v+s0] >>446 > あの野郎やるやる詐欺でほったらかしだしな!!!! ご愁傷様です… しかし実にもったいないですね。海外にいるとのことでしたけど 元気にされているんでしょうか。 Tripcode FinderのCPU検索はSHA-1のルーチン以外はサボりまくりなので 改善の余地はまだ大分あるんでしょうねえ。次に最適化に挑戦するのは もうちょっと勉強してからにします。
452 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 19:30:50.57 ID:lVCLYKZJ0] >>449 ハッシュ値の衝突はわかります。 それも踏まえた上で > ハッシュ値が n ビットであるとき、ハッシュ関数の計算を 2^n 回行うための計算量を超えない。 ということではないのですか?
453 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 19:36:59.82 ID:+2zE6v+s0] >>449 私には (1) 1バイト文字のみのキーの総数 と (2) 1バイト文字とShift-JIS文字を含んだキーの総数 を比較したら後者のほうが大きいのは当然に見えるのですが違うんでしょうかねえ。 計算は面倒くさいのでしませんw
454 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 20:14:53.11 ID:+2zE6v+s0] 私がトリップ検索に興味を持ったのは、私のトリップを騙る荒らしが現れたのが そもそもの原因なので、Tripcode Finderを作るときには実用性が全てにおいて 優先しています。いままで考えてもみなかったですけど、純粋な知的好奇心以外の 明白な動機があるというのが自分の作ったプログラムにも反映されているのかも しれません。
455 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 20:24:17.18 ID:TO2+iqd80] あれ? CPU側にhip2、GPU側にMERIKEN使えば最強なんじゃね?
456 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/07(水) 21:33:59.97 ID:XRqsjajg0 BE:632084148-DIA(289888)] >>455 hip2はホントにアルファレベルのでき。 タゲの制限も実用的なものじゃないし。 速度の検証しようとしたところで投げたから、マジで表示速度は怪しい。 もちろん、わざと盛るなんてことはやってないけど。w 『ホンキで最速を目指すんなら、キーを○×△□にしろよ。』 と鳥屋に言われた。一部伏せ字。w 最初意味がわからなかったけど、よく考えたらわかった。 ヤツは私の理解の外にいる。 待て屋のソース見るとよくわかる。 もったいないよなぁ・・・・。
457 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 21:57:24.06 ID:c5GjquhW0] 部外者の俺が答え言っちゃっていいのかは知らんが、 MERIKEN氏は12桁トリップのキーが12バイト以上を取りうるということを失念しているのだと思う 10桁トリップと違って12桁トリップはキーを長くするだけで簡単にキー探索空間が広がる hip2が手元にないので確認できんが、>>439 の数=152^16からhip2はキー16バイトで探索しているのだと推測される このことを考えれば現状のキー探索空間は圧倒的にhip2の方が大きいというのはすぐに分かる ここからは俺の偏見的見解だが、両者の違いは hip2はわざわざShift_JIS空間を探索するより、単にキーを長くして簡潔・高速に探索することが目的 一方MERIKEN氏の方は>>450 >>454 からわかるように、「わかりにくいキー」を探索することを優先している ということなんじゃないかと思う
458 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 22:13:09.84 ID:+2zE6v+s0] >>457 おっしゃる通り完全に失念していました。 ののたんさん、失礼しましたm(__)m
459 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 22:14:31.57 ID:M5h2NzTI0] ののたんもわかりやすく伝えてあげればいいのに
460 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 22:25:03.99 ID:+2zE6v+s0] >>459 まあこの件は私の勘違いが原因なので… いろんなアプローチの仕方があることがわかってちょっと新鮮でしたw
461 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/07(水) 22:25:31.31 ID:XRqsjajg0 BE:1422187889-DIA(289888)] >>457 あの桁の数字を152^16に分解できるとはやるね。w まあそゆ計算するコマンドもあるけど。 漢字を使わないのは単にそこまで使用文字を増やす必要がないから。 漢字使っても速度ってそんなに変わらないよ。 キーのバリエーションはうにでも魔改造でもさんざんやってるから、ノウハウはいっぱい。w ちなにみ16バイトってのはなんとなくとかじゃなくて、ちゃんと理詰めして出てきたものだよ。
462 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 22:31:53.94 ID:bKBXePfH0] 技術力はあっても性格がアレな人は見てて不快だからNGに突っ込んだ
463 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 22:36:08.15 ID:dfbAPwW4P] 技術力があれば性格なんてどうでもいいんだよ
464 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/07(水) 22:36:32.37 ID:Hb5lLL9GP] >>462 技術者同士のやり取りならこれが普通だろ それにちゃんと答えにたどり着けるヒントは与えてくれてるし、 素直に自分の調べが甘かったなで終わりだよ
465 名前:381 mailto:sage [2012/11/07(水) 22:51:55.41 ID:Zus3h7Yg0] Intel/AMD/NVIDIAがOpenCL 1.1以上に対応している今、 cl_khr_byte_addressable_storeなんざもはや過去の遺物か…
466 名前: ◆MERIKEN4.k mailto:sage [2012/11/07(水) 23:31:12.78 ID:+2zE6v+s0] >>465 正直こんなものがあった事自体が驚きです。
467 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 00:30:39.29 ID:DT0SYqW30] エラーコード14って何?
468 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 00:44:46.94 ID:Dia+3Q0c0] assertでエラーが出てますね。 CUI版ではどのように表示されますか?
469 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 00:48:19.86 ID:DT0SYqW30] www.dotup.org/uploda/www.dotup.org3596162.png こんなん。1GPUだといけた
470 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 00:50:25.42 ID:Dia+3Q0c0] >>469 今ちょうどそこを直していたところですw 追って詳しく報告します。
471 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 00:55:39.10 ID:DT0SYqW30] がんばれー
472 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 00:57:49.64 ID:Dia+3Q0c0] >>469 Alpha 2でスレッド周りにバグが紛れ込んでました。修正が終わったので 次の開発版では直っているはずです。
473 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 01:07:20.05 ID:c99Xuep80] GUI版の設定ファイルって %LOCALAPPDATA%\MERIKENsTripcodeFinderGUIフォルダ以下にある user.configだけが使われてて それ以外のレジストリとかは使われてないということでいいんでしょうか?
474 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 01:20:42.89 ID:JfJybgRB0] なるほど、1GPUでは問題なく検索出来ますね ただ、問題は1GPUでも900M程出てしまうこと 複数GPUを有効に働かせてませんね それと、GPUを複数稼働させるとCPUの検索速度が落ちる カードをドライブするのに相当リソースを持って行かれていると言うことですな RdeonのアークテクちゃではCPU負荷が大きいのでこれは仕方がない www.rupan.net/uploader/info/1352305227
475 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 01:22:07.09 ID:JfJybgRB0] 貼り方間違えた www.rupan.net/uploader/download/1352305227.png
476 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 05:45:25.11 ID:Dia+3Q0c0] とうとう7970が届きました。ぐへへへへ… 午後のミーティングが終わったら早速インストールしようっと。
477 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 05:46:20.48 ID:Dia+3Q0c0] >>473 その理解でいいはずです。
478 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 05:50:38.36 ID:Dia+3Q0c0] >>474 これは7970ですか? もうちょっと速度が出そうな感じですね。 CPU検索スレッドはGPUの数だけわざと減らすようにしています。 「詳細設定」の「CPU検索スレッドの数」をいじると面白いかもしれません。
479 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 07:53:45.35 ID:8rusYKpL0] >>476 >ぐへへへへ… あかん……あかんでぇ
480 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 08:12:55.00 ID:Dia+3Q0c0] 7970をさして起動したところです。わくわく…
481 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 08:27:48.33 ID:Dia+3Q0c0] 手元のAlpha 3でいきなりGPUだけで1270M TPSでてます。なんだこの化物は… しかしGPU使用率が結構バラつきます。75〜97%を行ったり来たりといった ところです。
482 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 08:34:28.95 ID:DT0SYqW30] 【GPU】H797F3G2M 【CPU】Xeon E5504 【OS】Windows 7 64bit SP1 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2 【トリップの種類】12桁 【1CUあたりのワークグループの数】2560 【1WGあたりのワークアイテムの数】64 【その他のオプション】GPUのみ 【Display Driver】9.01.8-121022a-147510E-ATI 【10分間の平均速度】1124Mtripcodes/s 【GPUの平均速度】tripcodes/s 【CPUの平均速度】tripcodes/s 【GPU使用率】65〜80 【その他】GPUは1GHz CPUは3GHz
483 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 08:45:22.52 ID:Dia+3Q0c0] >>482 どうも7970の場合はワークグループの数を1280にするといいみたいですよ。
484 名前: ◆BlackListRy1 mailto:sage [2012/11/08(木) 09:43:16.73 ID:3J/ptX+70] MERIKEN様、お疲れ様です その節は御世話になりました これからも頑張って下さい スレ違い申し訳ありません<(_ _)> 失礼しますm(_ _)m
485 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 09:48:05.37 ID:DT0SYqW30] >>483 使用率若干上がりました X58マザーだしこのくらいいけばいいかな
486 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 10:26:09.50 ID:Dia+3Q0c0] >>484 こちらとしても使っていただけると嬉しいです。 またいつでもどうぞ。
487 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 10:30:14.20 ID:Dia+3Q0c0] ワークグループの数を変化させて10分間のGPUの速度の平均をとってみました。 とりあえず5770で有効だった320の倍数にしておきました。 960で使用率が綺麗に97%で安定しました。色々ためしてみるもんですねえ。 Alpha 3では1GPUあたりの検索スレッドの数を指定できるようになっていますが、 デフォルトの2のままにしてあります。 320 -> 910M TPS 640 -> 1250M TPS 960 -> *1370M TPS 1280 -> 1357M TPS 1600 -> 1240M TPS 1920 -> 1311M TPS 2240 -> 1331M TPS 2560 -> 1270M TPS
488 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 11:05:08.48 ID:Dia+3Q0c0] OCして速度を測定してみました。やっぱり化物ですね、これは。 【GPU】Gigabyte GV-R7970C-3GD Radeon HD 7970 (OC: 1130MHz) 【CPU】Intel Core i7-3770K (OC: 4300MHz) 【OS】Microsoft Windows 7 64bit SP1 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3 【トリップの種類】12桁 【1CUあたりのワークグループの数】960 【1WGあたりのワークアイテムの数】64 【その他のオプション】 【Display Driver】Catalyst 12.9 Beta 【10分間の平均速度】1517.35 tripcodes/s 【GPUの平均速度】1481.07 tripcodes/s 【CPUの平均速度】36.28 tripcodes/s 【GPU使用率】94% 【GPUの温度】80℃ 【その他】7完1タゲ。
489 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 14:25:41.24 ID:JfJybgRB0] >>478 7970です Alfa2では2GPUでの検索が出来ないので1GPUの結果です 1GPUでも速度駄変わらないという
490 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 15:54:35.28 ID:Dia+3Q0c0] 新しい開発版です。 MERIKEN's Tripcode Finder 0.07 Alpha 3 www.meriken2ch.com/programming/merikens-tripcode-finder Alpha 2からの変更点は以下になります。 ・デフォルトのワークグループの数の調整。 ・複数のOpenCL対応デバイスで検索できないバクの修正。 ・デフォルトの検索スレッドの数の調整。 ・検索スレッドの数を設定できるように修正。 ・コマンドラインで起動できないバクの修正。
491 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 16:32:22.60 ID:DT0SYqW30] アルファ3パネェな 1300Mは軽く超えるわ
492 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 17:06:30.31 ID:DT0SYqW30] メインマシンの8 64bitはGPUは全部使ってるみたいだけどこんな状態だった 解凍したまんまで実行 www.dotup.org/uploda/www.dotup.org3597875.png
493 名前: ◆GTX680Mcys3u mailto:sage [2012/11/08(木) 17:10:25.44 ID:ECWSGXkx0] こちらは今までと変わらない速度です。 ただ、デフォの状態で起動しようとしたら「HD4000には対応してません」とかいうエラーが出て終了 GTX680Mを指定してあげないとダメだった Optimusがあるからでしょうけども
494 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 17:11:54.96 ID:cebxTMIE0] >>493 もうゲフォの報告は要らないです
495 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 17:14:48.01 ID:Dia+3Q0c0] >>492 ありゃりゃりゃ… AfterburnerのGPU使用率は0%になってるけど、 これは一体どういうことだろう。CUI版ではどのように表示されていますか?
496 名前: ◆GTX680Mcys3u mailto:sage [2012/11/08(木) 17:18:51.36 ID:ECWSGXkx0] 不具合報告したのに何で煽られなきゃいかんのよ
497 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 17:19:19.09 ID:Dia+3Q0c0] >>493 報告たすかります。そのメッセージはちょっと紛らわしいですねえ。 ちょっと無理してでも動くようにしたほうがいいのかしらん。
498 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 17:20:04.91 ID:Dia+3Q0c0] >>496 荒らしなので放っておきましょう。
499 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 17:24:11.64 ID:Dia+3Q0c0] >>492 ちょっと考えてみたけどこれは本当におかしいですね。 詳細設定の検索スレッドの数を1にしたら直るかもしれません。 Radeonが複数あっても大丈夫なはずだけどなあ… あとでこちらでも試してみます。
500 名前: ◆GTX680Mcys3u mailto:sage [2012/11/08(木) 17:24:59.33 ID:ECWSGXkx0] >>497 Intelグラフィックスは無視するようにはできないですかねえ さすがにデフォ状態でエラー出るのは一般ユーザは使いにくいかも
501 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 17:26:19.08 ID:DT0SYqW30] www.dotup.org/uploda/www.dotup.org3597940.png 64bitの方です CPUロードは33%前後の状態です
502 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 17:30:54.14 ID:wrgEgbJR0] Windows8 64bit Radeon HD 7660Dで初期設定のままで実行 Alpha 2ではエラーが出て実行出来なかったGPUとCPUを使用が利用可能に www.dotup.org/uploda/www.dotup.org3597945.jpg
503 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 17:36:46.31 ID:Dia+3Q0c0] >>501 これは助かります。OpenCL検索スレッドはちゃんと走ってるみたいですね。 6970ではちゃんと動作するという報告が>>378 であったので、 なんだかドライバのバグの臭いがしてきたぞ… GUI版の「使用するGPU」で6990を1つだけえらんだ場合は どれぐらい速度が出ますか?
504 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 17:41:15.65 ID:Dia+3Q0c0] >>500 無理に動かせない場合はHD 4000は無視したほうがいいですね。 アホの子からアッカリーンに格下げとは、なんて不憫な子…
505 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 17:43:38.64 ID:DT0SYqW30] >>503 1つだと70%くらいの使用率で700M前後ですね
506 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 17:48:32.02 ID:Dia+3Q0c0] >>505 やっぱりそっちは普通ですね。「使用するGPU」を「すべて」にして 「検索スレッドの数」を1にした場合はどうですか?
507 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 17:50:30.24 ID:DT0SYqW30] >>506 変わらず合計で200M程度 CPUが80Mで全てで300M前後です
508 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 17:57:01.81 ID:DT0SYqW30] キャプでも分かりますがcatalyst12.11βです あとは12.10もリリースされていますがどうなんでしょう
509 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 18:11:29.25 ID:Dia+3Q0c0] >>507-508 6990を一枚だけ差した状態できちんとスピードが出るなら、 間違いなくドライバのバグでしょう。>>487 のように ワークグループの数をいろいろ変えてみたら治るかもしれませんけど… うちでは未だに12.9 Betaです。12.10は試してみないとわかりませんねえ。
510 名前: ◆MERIKEN4.k mailto:sage [2012/11/08(木) 18:21:12.89 ID:Dia+3Q0c0] >>502 これはAPUですか。結構速度が出ていますねえ。うちのHD 4000ちゃんとは エラい違いです(;_;)
511 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 19:05:16.08 ID:G/kjMuiS0] >>502 APUで200Mt/s超えですか、凄い時代になりましたね・・・
512 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 19:39:22.91 ID:8rusYKpL0] >>502 A10カッケーな
513 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 21:24:27.82 ID:c99Xuep80] >>477 ありがとうございます もしよければREADME.txtにuser.configのことも書いておいてもらえるとうれしいです
514 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 21:34:27.71 ID:CzgE7YFV0] >502さんに合わせてAlpha 3でA10-5700でやってみた。 Windows8 64bit Radeon HD 7660Dで初期設定のままで実行 #Alpha 2ではCPU+GPUで同じくエラー 順に、CPU、GPU、CPU+GPU(ファイルは400KBあるので注意) ttp://www.dotup.org/uploda/www.dotup.org3598679.png ttp://www.dotup.org/uploda/www.dotup.org3598686.png ttp://www.dotup.org/uploda/www.dotup.org3598739.png 5800Kを下回る筈の速度がなぜか上回った。 ドライバとかメモリ(DDR3-1888)に差があるのかどうか。 #メモリはGPUでも影響しないのでしたっけ? なお、Alpha 1よりCPU+GPUのGPU部分がざっくり4割速度向上しました。
515 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 21:47:01.79 ID:CzgE7YFV0] テンプレに合わせて報告いたします。 【GPU】AMD Radeon HD 7660D (A10-5700内蔵) 【CPU】AMD A10-5700 【OS】Microsoft Windows 8 Pro 64bit 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3 【トリップの種類】12桁 【1CUあたりのワークグループの数】960 【1WGあたりのワークアイテムの数】64 【その他のオプション】 【Display Driver】Catalyst 12.11 beta4 【10分間の平均速度】254.87M tripcodes/s 【GPUの平均速度】244.63M tripcodes/s 【CPUの平均速度】10.24M tripcodes/s 【GPU使用率】97〜98% 【その他】CPU+GPU 消費電力は110〜113W程度。GPUのみだと70W未満・・・GPUの効率スゴイっす。 関係ありませんが、「7完1タゲ」とかってどういう意味なんでせう。
516 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 22:03:42.35 ID:uKh70Nek0] 任意の七文字 タゲを1つだけ記した状態
517 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 22:23:18.59 ID:CzgE7YFV0] >>516 ありがとうございます。もやもやが晴れました。
518 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 22:39:21.56 ID:8rusYKpL0] >>515 >7完1タゲ 七文字のワード(YUKI.N/とか)を正規表現無しで1つだけ指定ってことじゃね
519 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/08(木) 22:55:26.18 ID:cebxTMIE0] 七文字完全一致1ターゲット
520 名前: ◆MERIKEN4.k mailto:sage [2012/11/09(金) 04:23:43.15 ID:bKYl/cdH0] >>514 結構速度出てますねえ。次にマザボを変える機会があったらAMDのAPUに しようかな…
521 名前: ◆MERIKEN4.k mailto:sage [2012/11/09(金) 04:29:32.75 ID:bKYl/cdH0] アホの子HD 4000ちゃんがあまりにも不憫なのでカーネルをいじって Intelのドライバでも動くようにしておきました。性能はあいかわらずですが…
522 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/09(金) 04:38:28.96 ID:rgF3r/Bc0] 【GPU】HD7970 CFX 2GPUs @1200MHz 【CPU】FX-8350 @5GHz 【OS】Windows7 64bit 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3 【トリップの種類】12桁 【1CUあたりのワークグループの数】1280 【1WGあたりのワークアイテムの数】24 【その他のオプション】-c -g -t 7 -y 1280 -z 24 【Display Driver】Catalyst 12.10 【10分間の平均速度】1705.24tripcodes/s 【GPUの平均速度】1654.95tripcodes/s 【CPUの平均速度】48.30tripcodes/s 【GPU使用率】92% 【その他】7完1タゲ どうにか本気を出させることが出来ました WG数が効いたようです。値を小さくすれば使用率は上がりますが数値が伴わないのでこの辺りがいいところ 7970の2枚挿しの割に低いですがCPUがネックなのでしょうw
523 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/09(金) 04:39:37.32 ID:rgF3r/Bc0] 画像貼り忘れ www.rupan.net/uploader/download/1352402390.png
524 名前: ◆MERIKEN4.k mailto:sage [2012/11/09(金) 05:31:55.25 ID:bKYl/cdH0] >>522 う〜ん、その構成だと性能的には3000M TPSでてもおかしくないはずなんですけどねえ。 >>492 さんの報告( >>501 ) でもそうだったけど、どうもAMDのGPUが 複数あるとちゃんと速度が出ないみたいです。READMEには書かなかったけど、 "-a"というオプションで検索スレッドの数を指定できるので、それを増やして みるのも手かもしれません。デフォルトは2です。 こういう場合CUDAだと綺麗にスケールしてくれるのですが AMD APPはなかなかクセがありそうな感じです。
525 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/09(金) 08:13:48.08 ID:nBLHjNmZ0] >>521 アホの子かわいいよアホの子 元よりAMDほどガチGPU目指してないからな気もするが>HD 4000
526 名前: ◆MERIKEN4.k mailto:sage [2012/11/09(金) 08:34:48.19 ID:bKYl/cdH0] >>492 >>522 AMDのGPUが複数あると速度が極端に落ちる問題ですが、5770と7970の組み合わせで こちらでも再現できました。で、調べてみたところ、速度をきちんと出すためには GPU毎にTripcode Finderを立ち上げる必要があることが分かりました\(^o^)/ AMDのドライバを書いた人が何を考えているのかさっぱりわからないほどの 糞仕様ですが、このままではあまりにダサくて見るに耐えないので、 CUI版をハックしてなんとかすることにします。あんまり綺麗とはいえないですが、 CUI版からOpenCL対応デバイスの数だけ子プロセスを立ち上げればとりあえず 大丈夫でしょう。
527 名前: ◆MERIKEN4.k mailto:sage [2012/11/09(金) 08:38:44.85 ID:bKYl/cdH0] >>525 ほんとに必要最低限ですよね。もうちょっと頑張って欲しかったなあ。
528 名前: ◆MERIKEN4.k mailto:sage [2012/11/09(金) 15:23:52.89 ID:bKYl/cdH0] CUI版でそれぞれのAMDのGPUのために1つづつ子プロセスを 起動するところまではできました。あとは次のページを参考にして 子プロセスの出力を親プロセスにリダイレクトしてやるだけです。 How to spawn console processes with redirected standard handles support.microsoft.com/kb/190351 非常にめんどくさいけど、あともうちょっとです。
529 名前: ◆MERIKEN4.k mailto:sage [2012/11/09(金) 19:16:16.16 ID:bKYl/cdH0] うんざりするような書き換え作業が終わって、ちゃんと子プロセスの 標準出力が親プロセスで受け取れるようになりました。あとはこれを 親プロセスで処理してやるだけです。
530 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/09(金) 19:42:43.60 ID:HSgvVNfi0] 団子もびっくりだな。 本職さんですねメリケンさん。
531 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 05:10:08.05 ID:751Yphs90] >>530 それが本業はプログラミングと全く関係ないんです。
532 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 06:09:10.04 ID:751Yphs90] 修正もほぼおわり、生成されたトリップと速度などの情報が CUI版できちんと表示されるようになりました。 定格の5770と7970の組み合わせで1700M TPS以上出ているので 性能的には申し分ありません。あと数箇所修正する箇所が 残ってますけど、まず問題ないでしょう。やれやれです。
533 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 10:56:29.80 ID:NYhfme2W0] ……ところで、 >5文字未満、もしくは12文字以上のターゲットも無視されます と書いてあるのは、 「ターゲットは5〜11文字まででお願いします」 ということですか(12完は含みませんか)?
534 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 11:05:13.54 ID:751Yphs90] >>533 ありゃりゃ、説明が間違ってますね。12完でも大丈夫です。
535 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 11:25:15.16 ID:NYhfme2W0] >>534 ですよね。でもありがとうございます
536 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 12:01:23.68 ID:751Yphs90] 新しい開発版です。 MERIKEN's Tripcode Finder 0.07 Alpha 4 www.meriken2ch.com/programming/merikens-tripcode-finder Alpha 3からの変更点は以下になります。 ・複数のAMDのGPUで検索すると速度が低下する不具合の修正。 ・Intel Processor Graphicsシリーズへの対応。 今度こそ6990や7970 CFXで性能通りの速度が出るはずです。 アホの子HD 4000ちゃんには期待しないでくださいw
537 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 12:09:03.87 ID:lftviXDBP] しかしこういうの見ちゃうと、AMDのAPUも十分Intelと戦えるんだよなぁ GPU部分を活用するのが難しいからなかなか陽の目見ないけど、 メモリ統合とかHSAとかすすんでGPUの演算力をもっと容易に使えるようになったら面白いな
538 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 13:02:23.08 ID:NYhfme2W0] >>536 DL→アホの子だけ指定してGPU検索(ゲス顔)→ ト リ ッ プ が 生 成 さ れ な い ?
539 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 13:16:56.65 ID:751Yphs90] >>538 たしかになかなか出てこないですねえ。 この間はちゃんと検索できてたのにおかしいな。
540 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 13:19:40.72 ID:751Yphs90] あ、出てきた。まあアホの子はとんでもなく遅いので気長に待ってくださいw
541 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 13:25:37.29 ID:ZBbfmQXZT] 低速のテスト用に4文字検索もOKにすればいいのに
542 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 13:30:40.11 ID:tCg9kOr10] >>536 CUI版でオプションスイッチが効かないような 設定してもデフォルトでの検索になります
543 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 13:43:05.04 ID:751Yphs90] >>541 ハッシュ値の計算の関係で5文字以上にしないと検索が遅くなるんです。 正規表現で"^TEST."のように指定してやれば4文字で検索できなくも無いです。
544 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 13:47:26.30 ID:751Yphs90] >>542 報告ありがとうございます。たしかにOpenCL対応のGPUが複数あると オプションが効かないですね。直しておきます。
545 名前: ◆supernova.rT mailto:sage [2012/11/10(土) 14:26:44.02 ID:AK5IPrBn0] 5870でAlpha 4を試しましたので、ちょい簡単に報告します >>487 を参考に数値を変えましたところ、-y 5120 -z 64 の設定で平均900M強出ました どうやら先日の報告はGPU使用率が低かったようです
546 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 14:37:28.94 ID:751Yphs90] >>542 で報告していただいたバグを修正した開発版をうpしました。 複数のGPUを使わない方はダウンロードする必要はありません。 MERIKEN's Tripcode Finder 0.07 Alpha 5 www.meriken2ch.com/programming/merikens-tripcode-finder
547 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 14:48:46.91 ID:751Yphs90] >>545 CUの数が5770の倍なのでちょうどそれぐらいの速度ですよね。 5870のデフォルトの値だけ変えられないか検討してみます。
548 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 15:39:17.37 ID:751Yphs90] >>545 CL_DEVICE_NAMEとCL_DEVICE_MAX_COMPUTE_UNITの組み合わせで 型番が特定できることがわかったので、5870のデフォルトの値だけを変えて おきました。次の開発版で反映されます。
549 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/10(土) 16:48:50.75 ID:Osc/R8BS0 BE:197526252-DIA(289888)] 【GPU】Radeon HD 6990 【CPU】i7-2600 【OS】Windows 7 64bit 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 4 【トリップの種類】12桁 【1CUあたりのワークグループの数】2560 【1WGあたりのワークアイテムの数】64 【その他のオプション】なし 【Display Driver】CCC 12.10 【5分間の平均速度】1955.59Mtripcodes/s 【GPUの平均速度】1955.59Mtripcodes/s 【CPUの平均速度】N/A 【GPU使用率】97%前後 【その他】 GPUのみで検索 電力を20%盛って950MHzで計測 Performing a forward-matching search for 1 pattern (1 chunk) with 7 characters on GPU(s): OpenCL0: 1034.7M TPS, 2560 work-groups/CU, 64 work-items/WG OpenCL1: 920.9M TPS, 2560 work-groups/CU, 64 work-items/WG 0.577T tripcodes were generated in 0d 0h 5m 00s at: 1991.28M tripcodes/s (current) 1955.59M tripcodes/s (average) On average, it takes 25.6 minutes to find one match at this speed.
550 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 17:06:17.35 ID:751Yphs90] >>549 あ、ありがとうございます! ちゃんと性能通りの速度が出ているみたいですね。 よかったよかった。 > 【5分間の平均速度】1955.59Mtripcodes/s しかしこれは1枚のグラボの数字には見えないですねw 素晴らしいです。
551 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 17:37:48.81 ID:NYhfme2W0] >>549 >【5分間の平均速度】1955.59Mtripcodes/s 2枚にすればMERIKEN超えだよ!やったね!
552 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 18:34:33.46 ID:asBmjW5V0] こんばんわ alpha5 解凍したまんまです www.dotup.org/uploda/www.dotup.org3605227.png OSとそのドライバの影響でしょうか?うちの環境で40〜50%です
553 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/10(土) 19:06:49.70 ID:Osc/R8BS0 BE:355546692-DIA(289888)] >>552 6990 なら、電力を盛らないとホンキださないぜ。 6990 使いなら常識だぜ。w 【重要:盛って壊れても俺は責任持たないからな。】
554 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 19:07:57.03 ID:asBmjW5V0] >>553 盛っても変わらなかったからデフォでやったw
555 名前:名無しさん@お腹いっぱい。 [2012/11/10(土) 19:16:08.42 ID:pOMmt27e0] 壊れてナンボがデフォ。
556 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 19:17:25.07 ID:751Yphs90] >>552 これは実にもったいない… ぶっちゃけAMDのOpenCLの実装がちゃんと 複数のGPUを生かしきれてないのが問題なんですけどねえ。 同じ設定でTripcode Finderを2つ同時に動かしたらどうなるか、 試してみていただけませんか?
557 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 19:33:15.40 ID:asBmjW5V0] GPUのみの並列実行しても使用率に変化はありません CPU&GPU GPUの並列実行も同じです
558 名前: ◆MERIKEN4.k mailto:sage [2012/11/10(土) 19:40:37.23 ID:751Yphs90] >>557 あとはワークグループの数を5120とか10240にしてみるぐらいしか 思いつかないですねえ。スレッドの数を変えてみるといいのかもしれないんですけど、 このオプション、Alpha 5ではちゃんと動いてませんでした… 次の開発版で 直しておきます。
559 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 19:49:37.93 ID:NYhfme2W0] >>552 のように、ラデ使いのSSに写ってるカッコイイ画面>>432 ってグラボ標準のユーティリティなん? 高いGPUなんて買ったことないからよく分かんない…… 使用率見るのにGPU-Zより分かりやすいのはいいけど ところでこの壁紙って誰のですか?
560 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 19:50:17.66 ID:NYhfme2W0] なんで>>432 って付いてるの↑…… 無視してください
561 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 20:09:58.65 ID:asBmjW5V0] www.dotup.org/uploda/www.dotup.org3605668.png いろいろやった結果 CU=2560 WG=32 のみ固定し行けました 6990はクーラントブッカケしたものなんでたまにマザーが見失ったりするんでそのせいかもしれません ツールはMSIのサイトから落とせますよ 壁紙は台湾MSから 日本MSのちっぱいには興味ありません
562 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 20:59:00.78 ID:NYhfme2W0] >>561 ウチMSIには縁がないもので…… ↓壁紙はいただきました。冷静に考えるとM$キャラでちっぱいは少ないような…… www.microsoft.com/taiwan/silverlight/collection.htm
563 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 21:47:13.33 ID:asBmjW5V0] >>562 無料ツールだろw MSI行って落とせよ
564 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 21:51:37.91 ID:EjblPgPX0] ^0123456789$のように$で終わらせた検索条件を含む 10桁トリップと12桁トリップの複合検索は トリップの種類12桁 でもできますか?
565 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/10(土) 22:48:53.43 ID:tCg9kOr10] >>562 どこのメーカーのものでも使えますよ event.msi.com/vga/afterburner/download.htm
566 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 02:08:24.80 ID:jethYJ0v0] >>564 おっしゃっていることがさっぱりわからないんですが… Tripcode Finderで10桁トリップと12桁トリップを同時に 検索することはできません。
567 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 02:30:34.47 ID:shOUqygm0] >>565 thx!インストールしてみる→ --------------------------- MSI Afterburner --------------------------- 一部の MSI アフターバーナーのコンポーネントが期限切れ、紛失、または壊れています。 --------------------------- OK --------------------------- 起動しないよorz ノートじゃ駄目か……
568 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 03:27:58.86 ID:jethYJ0v0] >>561 う〜ん、まだまだ力を出し切れていない感じですねえ。 自分でも試してみたいけど、さすがにこれ以上はグラボは買えません。無念なり…
569 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 10:55:22.93 ID:VopdUwvA0] 【GPU】SAPPHIRE VAPOR-X HD5770 1G (OC: GPU 960MHz MEM 1265MHz) 【CPU】Intel Core i7-3770(無印) 【OS】Microsoft Windows 7 64bit SP1 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 5 【トリップの種類】12桁 【1CUあたりのワークグループの数】3200 【1WGあたりのワークアイテムの数】64 【その他のオプション】 【Display Driver】Catalyst 12.10 【10分間の平均速度】498.00M tripcodes/s 【GPUの平均速度】463.44M tripcodes/s 【CPUの平均速度】34.56M tripcodes/s 【GPU使用率】99% 【GPUの温度】64℃ (室温20℃) 【その他】テスト時間10分33秒、7完1タゲ Intel HD4000 にセカンドディスプレイを接続して使用していますが、Intel 社の OpenCL ドライバはインストールしていないので HD5770 だけでのテスト となりました。
570 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 12:58:41.29 ID:jethYJ0v0] >>561 あの後ちょっと調べてみたんですけど、ひょっとしてCrossFireXが有効になってませんか? Catalyst Control CenterでCFXを切れば、デフォルトの設定でうまくいくかもしれません。
571 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 13:02:30.40 ID:6A5ebb7J0] >>570 切ってみます
572 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 13:07:04.34 ID:jethYJ0v0] >>569 詳しい報告、ありがとうございます。ワークグループの数は2560より3200のほうが いいのかな。うちの5770でもうちょっと詳しく調べてみます。
573 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 13:10:54.23 ID:6A5ebb7J0] 切れてた… 2560/64は2560/32より遅かった模様
574 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 13:21:12.44 ID:jethYJ0v0] >>573 う〜ん、何で6990 CFXだけなかなか速度が出ないんでしょうねえ。 ほかのOpenCLアプリケーションでは6990 CFXでもちゃんと性能が出るという報告が あったので、なにかしら方法はあると思うんですが… もうちょっと調べてみます。 Bitcoin Mining GPU Performance Comparison www.hardocp.com/article/2011/07/13/bitcoin_mining_gpu_performance_comparison/3
575 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 13:41:23.09 ID:shOUqygm0] >>569 >Intel社の OpenCL ドライバ そんなのがあったのか……と思ってググってみたが、SDKのことか? →インストールしたら、アホの子でOpenCL検索使えた! (ただし4M/sぐらいだけど) サンクス!
576 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 13:55:31.58 ID:shOUqygm0] あ、後、タスクマネージャ見てたら隠しパラメータがあることに気づいたw -a 2←1つのAMDのGPUに対する検索スレッドの数? -m MutexForMERIKENsTripcodeFinder-6496←Intel HD Graphics 4000でOpenCLを使うおまじない?
577 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 15:10:23.29 ID:jethYJ0v0 BE:1197019229-2BP(12)] >>576 > -a 2←1つのAMDのGPUに対する検索スレッドの数? これはあってます。2番目のはGUI版とCUI版が通信するときに使うおまじないです。
578 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 18:53:29.24 ID:jethYJ0v0] これまで使っていた検索君1号のFermi軍団に加えて、開発用PCの7970でも同時に 検索をしているのですが、ここ数日で3回ブレーカーが落ちましたw GTX 590の電圧を絞ることでなんとか対処しましたが、 消費電力のほうもそろそろ限界です。
579 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 19:25:42.41 ID:6A5ebb7J0] 単相200V契約しよう
580 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 20:09:00.62 ID:tLApF2aS0] 前スレだったと思いますが、ドライバを触ったらこのソフトからGPUが認識されなくなったと書き込んだものです。 相変わらず認識されないままですが、今日system32に入っているclinfo.exeというプログラムでOpenCLの情報を取得できると知ったので、 取得できたテキストをアップロードしておきます。 cyclotron.moe.hm/up/small/src/cyclotron_s4856.zip 念のため正常に使用できるPCのぶんも入れておきます。
581 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 20:10:29.57 ID:kFGFk5jZ0] USAは、110ボルトですね。
582 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 20:22:46.82 ID:jethYJ0v0] >>580 ひょっとしてこのスレの>>395 さんですか? たしかに両方ともRadeonが見えていますね。 OSが64bit版ならCUI64ならうまく動くかもしれません。
583 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 20:29:24.47 ID:jethYJ0v0] >>579 したいのはやまやまなんですけど、今のアパートだと無理なんです… >>581 120Vです。15Aなので1800Wまで大丈夫なんですが、グラボ4枚で1100Wぐらい いってます。やばいです。
584 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 20:42:11.43 ID:tLApF2aS0] >>582 あ、このスレでしたか。 Alpha5をダウンロードしてCUI64を起動してみましたが MERIKENsTripcodeFinderCUI: OPENCL FUNCTION FALL FAILED: CL_DEVICE_NOT_FOUND (file 'Source Files\MTF_CUI_Main.cpp', line 732) と表示されてそこから進みません。 c++は門外漢でソースちらっと眺めただけですけど、プラットフォームが2個あって、最初の片方がCPUのみってところでなんかコケたりしてません?
585 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 20:47:49.07 ID:jethYJ0v0] >>584 CPUは無視するようにしているので問題はありません。 32bit版のMERIKENsTripcodeFinderCUI.exeではどうですか?
586 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 20:51:41.93 ID:tLApF2aS0] >>585 32bitでも同じエラーです。
587 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 21:06:57.97 ID:jethYJ0v0] う〜ん、やっぱりCL_DEVICE_NOT_FOUNDが返されているのかなあ。 うちのIntelのドライバではエラーは出なかったんですが… これから修正して新しい開発版をうpするので、そちらを試してみてください。
588 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 21:57:58.95 ID:jethYJ0v0] >>580 で報告していただいた、環境によっては起動できないバグを修正した 開発版をうpしました。というか、これで直っているといいんですけど… MERIKEN's Tripcode Finder 0.07 Alpha 6 www.meriken2ch.com/programming/merikens-tripcode-finder
589 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/11(日) 22:02:50.51 ID:tLApF2aS0] >>588 ありがとうございます。 起動できるようになりました。
590 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 22:08:25.91 ID:jethYJ0v0] >>589 それはよかった! こちらこそバグ報告をありがとうございました。
591 名前: ◆MERIKEN4.k mailto:sage [2012/11/11(日) 22:12:41.07 ID:jethYJ0v0] もうそろそろ安定してきたと思って10桁トリップ検索の移植の作業を 始めてたんですけど、まだ結構不具合が残っていますねえ。
592 名前: ◆GTX680Mcys3u mailto:sage [2012/11/12(月) 06:26:56.37 ID:2Urt7HcK0] >>588 全グラフィックチップ(680M+iHD4000)指定だと 検索開始後エラーメッセージなしでソフトごと落ちます HD4000はバッサリ切った方がいいかと思われます
593 名前: ◆MERIKEN4.k mailto:sage [2012/11/12(月) 07:13:21.49 ID:x4jnfC130] >>592 ありゃりゃ… こりゃいかんですねえ。テスト用には便利だったんですけど しょうがないですね。次の開発版からは無視するようにします。
594 名前: ◆MERIKEN4.k mailto:sage [2012/11/12(月) 07:34:25.71 ID:x4jnfC130] というわけで面倒くさいのでIntelのプラットフォームは最初から無視することに しちゃいました。OpenCLはオープンスタンダードな分だけそれに伴う 問題も多いですね。
595 名前: ◆MERIKEN4.k mailto:sage [2012/11/12(月) 08:51:49.76 ID:x4jnfC130] 気を取り直して10桁トリップ検索の移植作業を続けます。 CPU側のコードは10桁の場合とほとんど同じなのですぐに終わりました。 問題はOpenCLのコードですが、バグが紛れ込むと見つけるのが 非常に困難になるので、慎重に作業を進めてます。
596 名前: ◆MERIKEN4.k mailto:sage [2012/11/12(月) 10:00:14.78 ID:x4jnfC130] カーネルの入り口の部分の書き換えは終了しました。 あとはBitslice DESの本体だけですが、CUDAのコードをコピペするだけなので 問題はないでしょう。うまく動いてくれるといいんだけど、どうでしょうね〜
597 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 10:29:57.20 ID:FaMyVn9Z0] geforceでopenCL版って動くの? 動いてもcudaよりは遅い?
598 名前: ◆MERIKEN4.k mailto:sage [2012/11/12(月) 13:13:54.13 ID:x4jnfC130] >>597 いまはNVIDIAのカードでは強制的にCUDAを使うようにしています。 OpenCLでも動くことは動くと思いますけど、基本的に全く同じコードなので 速度は変わらないでしょう。
599 名前: ◆MERIKEN4.k mailto:sage [2012/11/12(月) 13:27:00.53 ID:x4jnfC130] OpenCLの10桁検索のコードは1発で動いたんですけど、Bitslice DESで使う変数を 何も考えずに全部__privateメモリ空間に突っ込んだら、案の定というか まったく速度が出ていませんw まあでもコードの書き換え自体は問題なかったよう なので、とりあえず一安心です。これから__globalと__localを試してみます。
600 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 13:31:46.97 ID:ClnWJME80] khronosの姿勢として標準のカーネルコンパイラを用意しないのはわかるんだけど やっぱりglslの轍をちょっとは生かしてほしかったってのが個人的な思い meriken氏乙
601 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 13:37:18.53 ID:/PHpLzn40] >>594 当方では一応4M/sぐらいで動くので、 IntelHD4000を使うか否かをチェックボックスとかで決めればいいと思いまーす
602 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 13:56:47.61 ID:FaMyVn9Z0] >>598 そうなんだ ありがとう
603 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 21:58:25.06 ID:+66fUhHT0] OpenCLで盛り上がっているところにCPUのみの結果を報告。 【GPU】Quadro FX 3800 【CPU】Xeon X5680@3.33GHz x2CPU 【OS】MS Windows 7 Pro 64bit 【バージョン】0.07 Alpha 3 CUI64 【トリップの種類】12桁 【Display Driver】307.32 【その他】HT on 【その他のオプション】-c -t 24 【60時間の平均速度】80.51M TPS 【その他】HT off 【その他のオプション】-c -t 12 【2時間の平均速度】79.04M TPS CPUだけで実行してもHTは殆ど効きません。NehalemとSandy Bridgeでは全然違うのかな? ちなみにHT on の状態で、"-c -t 12"と指定すると、2CPU12コアに割り当てられずに、1CPU6コア12スレッドに割り当てられてスピードが出ません。
604 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 21:59:57.08 ID:+66fUhHT0] Alpha 6に上げて再度実行してみましたが、NVIDIAコントロールパネルの"3D設定"→"3D設定の管理"で"CUDA-GPU"を"なし"に設定すると、CUI64で"-c"オプションをつけても下記エラーが出て落ちます。 MERIKENsTripcodeFinderCUI: OPENCL FUNCTION FALL FAILED: Unknown (file 'Source Files\MTF_CUI_Main.cpp', line 715)
605 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 23:26:48.48 ID:ODHrB/Fw0] NVIDIA,第2世代Kepler「GK110」搭載の「Tesla K20」を正式発表。CUDA Core数は最大2688基に www.4gamer.net/games/121/G012181/20121110004/
606 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/12(月) 23:34:15.80 ID:cklfqCrp0] X5680はOCすりゃいいじゃん
607 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 02:39:21.60 ID:FPgsAJYQ0] DualCPUにQuadro突っ込んでるようなガチWS機でOCとかあり得んでしょ
608 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 02:50:45.59 ID:l+bGYcyn0] 倍率ロックフリーだろ?
609 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 06:21:00.78 ID:FpPqufE20] 今気づいたんですけど「1CUあたりのワークグループの数」じゃなくて 「1CUあたりのワークアイテムの数」ですね、これ。 こりゃ当分の間安定版は出せないな…
610 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 06:26:29.04 ID:FpPqufE20] >>603-604 報告ありがとうございます。CPU検索ももうちょっと何とかしたいですね〜 "Unknown"のエラーが出ているのは謎ですが、そこのエラーは無視するように 直しておきます。
611 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 06:38:08.95 ID:FpPqufE20] 予想通りというべきか、10桁トリップ検索はなかなかスピードが出てくれません。 まじめにプロファイラを使わないと駄目ですね、こりゃ。 まあCUDAのときもそうだったので、のんびり時間をかけて取り組むことにします。
612 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 07:26:06.97 ID:FpPqufE20] >>605 GK110も試してみたいんですけどね〜 Amazon Cluster GPU Instancesで使えるようにならないかしらん。
613 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 09:29:27.60 ID:FpPqufE20] Bitslice DES用の一時変数をどのメモリ空間に置けばいいのかいまいち よくわからないので、とりあえず#ifdefで切り替えられるようにしておきます。 あと、一回のBitslice DESを複数のスレッドで同時に処理するかどうかも CPU側で設定できるようにする予定です。こういうところは実行時にカーネルを ビルドできるOpenCLはいいですねえ。
614 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 09:34:06.33 ID:ATY55mX00] 【GPU】HD7970 CFX 2GUPs 【CPU】FX-8350 【OS】Win7 64bit 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 6 【トリップの種類】12桁 【1CUあたりのワークグループの数】5120 【1WGあたりのワークアイテムの数】40 【その他のオプション】-c -g -t 6 -a 8 (-aオプションは有効なのか?) 【Display Driver】Catalyst 12.10 【10分間の平均速度】2614.21tripcodes/s 【GPUの平均速度】2575.40tripcodes/s 【CPUの平均速度】38.31tripcodes/s 【GPU使用率】95% 【その他】7完1タゲ いろいろ調整したら瞬間最大風速では3000M程度出るようにはなりました ラデはCPU負荷高いですね フルにCPU8スレッドで回すと却って速度が出ないです CPU単体でなら50M程出るんですが それと、CFXの有効無効では速度は変わらないですよ www.rupan.net/uploader/download/1352766539.png
615 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 14:32:35.77 ID:1xHvqvP20] ついにデュアルTahitiカードがAMDから登場。エーキューブ,サーバー向けグラフィックスカード「FirePro S10000」を国内発売 www.4gamer.net/games/133/G013322/20121113023/
616 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 14:34:05.53 ID:1xHvqvP20] XeonPhiってどうなんですかねえ
617 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 15:01:20.15 ID:PlVYlKIA0] 負荷で思い出したけど、同じGPU使用率でもmtyのGPU版は95℃までいくけどMERIKENは89℃までしか上がらないね。
618 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 17:19:59.24 ID:VU2bD6Zz0] >>615 サーバ向けのFireProだし、3599ドルらしい。 >>616 OpenMPが使えて既存アプリの移植が楽らしいけど、既にOpenCLになっている場合はメリット薄そう。
619 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 19:10:11.95 ID:FpPqufE20] >>614 なかなか良い感じに仕上がってますね。それだけOCした7970なら単体で1500M TPS近く いくはずなので、単純に2枚で2倍の速度という訳にはいかないみたいですが… Alpha 6では-aオプションは有効なはずです。CFXの話は別のところで見かけたんですが、 関係無かったみたいですね。
620 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 19:22:18.89 ID:FpPqufE20] >>617 Bitslice DESはSHA-1の処理に比べてメモリへのアクセスの量が段違いですからねえ。
621 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 19:30:43.61 ID:FpPqufE20] >>615 いいですね〜 いつかこういうのをたくさんラックマウントサーバーに乗っけて Tripcode Finderを動かしてみたいですw
622 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 19:59:41.68 ID:FpPqufE20] Southern Islandsだとコンスタントメモリは場合によってはグローバルメモリと 同じぐらい遅くなるそうで…こりゃCUDAと同じコードじゃ遅くなるわけだわ。 頻繁に使うのは最初にローカルメモリに移しておいたほうがいいな。 > 3. Varying Index > More sophisticated addressing patterns, including the case where each work- item > accesses different indices, are not hardware accelerated and deliver the same > performance as a global memory read.
623 名前: ◆MERIKEN4.k mailto:sage [2012/11/13(火) 20:10:06.56 ID:FpPqufE20] あとローカルメモリにアクセスする際はuint2を使うといいみたいです。 > Currently, the native format of LDS is a 32-bit word. The theoretical > LDS peak bandwidth is achieved when each thread operates on a > two-vector of 32-bit words (16 threads per clock operate on 32 banks). vector data typesの使い方はここに書いてありました。 Programming with OpenCL C www.informit.com/articles/article.aspx?p=1732873&seqNum=3
624 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 20:28:02.76 ID:ES3128Qj0] >>614 壁紙についてkwsk MERIKENさんの公式記録が越される日も近いか……
625 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 23:12:02.50 ID:ATY55mX00] >>624 この辺で拾ってます これがいつのものだったかは忘れましたw www.smashingmagazine.com/tag/wallpapers/
626 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/13(火) 23:43:31.28 ID:ES3128Qj0] >>625 そのまま2012/11の記事を見ても出てこないorz www.smashingmagazine.com/2012/10/31/desktop-wallpaper-calendar-november-2012/ よろしければ画像アップローダに上げてくれませんか?
627 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 00:24:53.55 ID:mDY3eRDW0] >>624 それはどうでしょうね… ( ̄ー ̄)ニヤリ
628 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 00:35:11.76 ID:E/rQ2cMp0] >>626 ほい www.rupan.net/uploader/download/1352820886.jpg
629 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 00:38:28.17 ID:eHqSRvz80] >>621 どうせならHD7970 X2に行きませんか? 消費電力が凄まじいのと、スロット占有が問題ですけどw なんかリンクが貼れないので詳細は検索してください デスクトップ向けにHD7950のデュアルが出てくれれば一番ですけどね。 HD7950のCFはグラフィックでも割りと良いというレビューもあったので、需要もある程度ありそうですし。
630 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 00:50:05.56 ID:eHqSRvz80] >>622-623 OpenCLは以前よりは情報も増えたようですが、まだ茨の道なのでしょうかね・・・
631 名前:626 mailto:sage [2012/11/14(水) 01:34:12.64 ID:vuLXlPiG0] >>628 ありがとうございます!
632 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 01:39:17.60 ID:mDY3eRDW0] >>630 >>622-623 はJohn the Ripperのメーリングリストを見てて気づきました。 www.openwall.com/lists/john-dev/2012/08/13/8 www.openwall.com/lists/john-dev/2012/09/10/5 このAlexanderという方はJohn the RipperとBitslice DESの偉い人です。 流石です。 www.openwall.com/lists/john-users/2011/06/22/1
633 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 01:40:56.22 ID:mDY3eRDW0] >>630 まあGPGPUの不条理な制約にはCUDAで慣れっこになっているので どうということはありませんw
634 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 01:45:30.91 ID:mDY3eRDW0] >>629 うちの検索用マシンにはGTX 580が2枚と590が1枚載っているので、 7970 2枚は余裕ですw 今590を売っぱらって6990を買おうかどうか 考えているところです。
635 名前: ◆supernova.rT mailto:sage [2012/11/14(水) 02:04:56.65 ID:Bf0HEkX10 BE:1020114162-DIA(123421)] 僕はもうラデ2枚構成にしたのでゲフォ売ります 10桁検索対応が楽しみですよー
636 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 02:16:09.00 ID:eHqSRvz80] >>633 頼もしいです、頑張ってください。 >>634 HD7970を1ボードに2基載せたもので8ピンx3で3スロット占有という モンスターというかクレイジーな代物が出るらしいですw それの複数枚挿しは電源だけでなくマザボもかなり選びそうです。 HD7950のデュアルで8ピンx2で2スロットであればまだマシなのですけどねえ。
637 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 03:47:50.59 ID:peEcrqnb0] やっぱりさよならゲフォの流れになったね
638 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 06:49:17.05 ID:AbSbupmCP] RADEONは普及用チップでも倍精度が高速なのがいい
639 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 07:58:59.38 ID:vuLXlPiG0] mtyGPUがRadeonしか対応してないから、むしろゲフォ対応検索は(10桁では)貴重なんだが
640 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 13:24:08.27 ID:85Ooiiep0] >>638 マジレスすると倍精度演算が速いのは7970だけだしトリップ検索に倍精度演算の出番は無いぞ
641 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 14:42:36.69 ID:mDY3eRDW0] >>635 10桁トリップ検索は12桁よりかなり難しいので、実際どこまで速度を出せるかは わかりませんけどね〜 というか12桁検索の移植は正直うまくいきすぎでしたw 地道に取り組む予定なので、のんびり待っていて下さい。
642 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 15:16:17.63 ID:mDY3eRDW0] で、あれから色々試してみて、Bitslice DES用の一時変数はローカルメモリに おかないと全く速度が出ないことが分かりました。ローカルメモリは ワークグループ内で共有されるので、Bitslice DESを8個のスレッドで 並列処理するように書き換えてやりました。 その後、さらに性能を上げるためにAMD APP Profilerで解析してみました。 あんまり期待してなかったwのですが、非常に使いやすいです。 で、気になっていたOccupancy Analysisを行なってみたら、 案の定ローカルメモリ(LDS)の使い過ぎであることが判明しました。 www.meriken2ch.com/files/2012-11-13-AMD-APP-profiler.jpg
643 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 15:31:41.20 ID:AbSbupmCP] >>642 へぇ〜 人目でボトルネックがLDSにあることが示されてる 凄いな
644 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 15:51:16.97 ID:mDY3eRDW0] 同じ問題はCUDA版でも起きていたので思わず頭を抱えてしまったのですが、 ソースを眺めていたら解決方法を思いつきました。Bitslice DESの 一時変数は次の構造体にまとめられています。 > typedef struct { > DES_Vector keys[56]; // 224 bytes > DES_Vector dataBlocks[64]; // 256 bytes > unsigned int dummy[1]; > } DESContext; で、56bitのDESのキーが32個keys[]に収められているのですが、 これらのキーは実際にはほとんど同じです。 というわけで、キーの生成の方法を工夫してやれば、32個のキーの共通部分 51bitだけを保持して、残りは5bitのインデックス(0〜31)から生成して やればいいことに気づきました。
645 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 16:01:44.57 ID:mDY3eRDW0] これで使用するメモリの量は半分近くに減って、うまくいけば CUDA版ともども10桁検索の速度が倍になることになります。 アルゴリズムはかなり複雑になりますが、試してみる価値は十分にあります。 hip2の話を聞いて、キーの生成方法にかなりの工夫の余地があることに 気づいたのは僥倖でしたw
646 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 16:04:10.35 ID:mDY3eRDW0] >>643 実際かなり便利です。CUDAのときはなんせExcelのスプレッドシートを 使わないとOccupancyのグラフが見れませんでしたからねw
647 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 19:07:46.29 ID:vuLXlPiG0] >>645 >速度が倍 うおおおおお!?頑張って下さい!
648 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/14(水) 19:20:22.61 ID:dspeEFEK0] GTX670では470Mt/sくらいしか出ません。倍精度を使うわけでもないのになんでだろう。
649 名前:前スレ927 ◆JouJaku.HzIz mailto:sage [2012/11/14(水) 20:16:05.54 ID:HHBBdob70] ゲフォはさよならですかそうですか。 GTX480が何とか復活したので速度計測。 【GPU】GeForce GTX 480 【CPU】Xeon X5680@3.33GHz x2CPU 【OS】Win7Pro 64 SP1 【バージョン】0.07a6 CUI64 【トリップの種類】12桁 【1CUあたりのワークグループの数】N/A 【1WGあたりのワークアイテムの数】N/A 【その他のオプション】-c -g -x 128 【Display Driver】306.97 【10分間の平均速度】648.27M TPS 【GPUの平均速度】578.39M TPS 【CPUの平均速度】69.89M TPS 【GPU使用率】100% 【その他】"TEST/", HT off, GPU 92℃ Quadroをぶっちぎっているのですが・・・うるさい。とにかくうるさい。 常用は無理です。
650 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/15(木) 00:03:05.86 ID:Gr7998EA0] >>642 これは便利そうですね。 >>644 DESは歴史もあり奥が深いですね。 >>648 レジスタ数がネックになって演算ユニットを使いきれていないのだと思います。
651 名前:648 mailto:sage [2012/11/15(木) 02:21:08.90 ID:aNTlQCIF0] レジスタの仕様が違うのか。最適化しなおさないといけないわけね。
652 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 03:09:09.94 ID:dQ9rq2KX0] >>648 >>651 トリップ検索の速度は整数演算の性能に大きく影響されるんですけど、 GTX 600シリーズで使われているKeplerコアは残念ながら整数演算が かなり遅いのです。この点は次の記事の「命令別スループット」の 項目で詳しく解説されています。 GTX680のグラフィック・GPGPU性能を調べる ≪ dokumaru dokumaru.wordpress.com/2012/03/27/gtx680-spec/ Keplerではゲームで使われる単精度演算以外はほとんど無視して 性能を稼いでいるので、GPGPU的にはかなり残念なことになっています。
653 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 03:13:17.23 ID:dQ9rq2KX0] >>649 580とあまり遜色のない速度が出ていますね。 自分の部屋ではGeForceが3枚24時間フル稼働してますw CUDA版の開発も続けるので安心して下さい。
654 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 09:58:39.20 ID:dQ9rq2KX0] ここ数カ月のjohn-devでのOpenCLでのBitslice DESの実装についての やり取りを追って見たのですが、なかなか面白かったです。 www.openwall.com/lists/john-dev/2012/09 www.openwall.com/lists/john-dev/2012/10 www.openwall.com/lists/john-dev/2012/11 現在John the Ripperは7970で20M c/sしか出せていないのですが、 OpenCLの実装を担当しているSayantan氏に対して、 Alexander氏が7970なら300M c/sは出るはずからボトルネックを探せ、 と言っているのが非常に興味深いです。 > Something like 300M c/s at DES-based crypt(3) on HD 7970. Maybe more > than that if we hard-code E (generate or patch code on the fly). www.openwall.com/lists/john-dev/2012/10/14/1 手元のTripcode Finderのコードは現在のJtRの実装より大分速いのですが、 それでも300M TPSには遠く及びません。レジスタ数にもまだ大分余裕があるし、 工夫の余地はいろいろあるのでしょう。実に奥が深いです。
655 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 13:08:08.52 ID:dQ9rq2KX0] Bitslice DESをマルチスレッド化したときにエンバクした模様。 結構な確率で間違ったトリップが出力されます。 CUDAと同じコードのはずなんですけど、barrier()がうまく動作してないの かしらん。 しかしこれ、どうやってデバッグするんだろう…
656 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/15(木) 14:35:25.04 ID:et60Xlt20] >>655 昔ながらの printf でおk。 手段として美しくないのは嫌いとかなら知らん。
657 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 14:47:56.84 ID:dQ9rq2KX0] やっぱりそれしかないんですねorz
658 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/15(木) 15:05:07.72 ID:et60Xlt20] >>657 私が hip2 つくってた頃は printf すらなかったのに。 贅沢ね。
659 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 15:15:33.54 ID:dQ9rq2KX0] >>658 まあそりゃそうなんですけどね…
660 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 15:18:14.38 ID:dQ9rq2KX0] あ、原因分かったかも。CUDA版を書いてたときに適当だったところが 今になって問題になっているのかもしれません。
661 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 15:27:59.89 ID:dQ9rq2KX0] う〜ん、違うな… もうちょっと全体的に腐ってる感じです。
662 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 15:38:19.52 ID:dQ9rq2KX0] まあいいや。マルチスレッド化の作業はまた明日やり直すことにしよっと。
663 名前: ◆MERIKEN4.k mailto:sage [2012/11/15(木) 15:54:46.53 ID:dQ9rq2KX0] コードをロールバックしたらちゃんと動作するようなのでやっぱり マルチスレッド化が原因のようです。マルチスレッド化すると 速度が倍近くになるので次はなんとか成功させたいところです。
664 名前:前スレ927 ◆JouJaku.HzIz mailto:sage [2012/11/15(木) 21:27:47.25 ID:etuoVGYM0] 480が余りにもうるさいので、590に交換。 【GPU】GeForce GTX 590 【CPU】Xeon X5680@3.33GHz x2CPU 【OS】Win7Pro 64 SP1 【バージョン】0.07a6 CUI64 【トリップの種類】12桁 【1CUあたりのワークグループの数】N/A 【1WGあたりのワークアイテムの数】N/A 【その他のオプション】-c -g -x 128 【Display Driver】306.97 【10分間の平均速度】978.15M TPS 【GPUの平均速度】922.60M TPS 【CPUの平均速度】55.55M TPS 【GPU使用率】0-100% 【その他】"TEST/", HT off, GPU 85℃ CPUの負荷変動がかなり激しいです。6コアx2が100%になることはまず無く、全コアが完全にストールすることも良く起こりました。 >>170 でもある程度CPUの負荷は変動しましたが、ここまで酷くは無かったです。 おまけにGPUもたまに完全にストールする始末。これは>>170 のマシンでは無かった。 タゲを増やすと負荷変動は落ち着きます。ここまで負荷がふらつく理由がさっぱり分かりません。
665 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/16(金) 01:59:34.00 ID:QPHBSAhn0] 電源容量が足りないんじゃ
666 名前: ◆MERIKEN4.k mailto:sage [2012/11/16(金) 04:42:53.68 ID:eP2LlovM0] OpenCLの10桁検索ですが、もうちょっと調べたらどうも移植した直後から 問題があったようです。APP Profilerがメモリリークを報告しているので もうちょっと調べてみます。
667 名前: ◆MERIKEN4.k mailto:sage [2012/11/16(金) 04:45:44.48 ID:eP2LlovM0] >>664 温度に問題がないなら電源の可能性が高いですね。 電源は何を使われていますか?
668 名前: ◆MERIKEN4.k mailto:sage [2012/11/16(金) 06:40:48.74 ID:eP2LlovM0] どうやら問題はBitslice DESの処理そのものではなく 他の処理にある模様。ちゃんと出力をチェックするルーチンを 作りこんで、徹底的にテストするしかないようです。 やなよかんはしてたけど、やはり10桁検索は楽ではないですねえ。
669 名前:前スレ927 ◆JouJaku.HzIz mailto:sage [2012/11/16(金) 23:39:50.31 ID:SdQXCd/P0] 電源が届くのを待ちきれなくて、無理矢理繋げて実行していました。 電力不足でこんな挙動をするとは初体験で全然知らず。お恥ずかしい限りです。 素直に電源届くまで待っています。
670 名前: ◆MERIKEN4.k mailto:sage [2012/11/17(土) 09:52:44.80 ID:Kz7friKn0] >>669 そりゃそこにカードがあれば試したくなりますよね。 その気持、わかりますw 電源が届いたらまたぜひ報告して下さい。
671 名前: ◆MERIKEN4.k mailto:sage [2012/11/17(土) 10:07:54.25 ID:Kz7friKn0] OpenCLの10桁検索の出力が腐っていた問題ですが、カーネルをすこしづつ削って 原因を探ったところ、結果を書き込む__globalの配列へのアクセスの前後に barrier()を入れてやると問題が出なくなることが分かりました。 Bitslice DES用の一時変数を__privateに置いても直らなかったし、 CUDA版やOpenCLの12桁検索では全く問題がなかった部分なので、 AMDのOpenCLの実装のバグの可能性が非常に高いです。 AMDの実装は性能は出るのにいちいち造りが甘くて非常にもったいない 感じがします。ここらへんもCUDAのほうが任期がある理由なんでしょうねえ。
672 名前: ◆MERIKEN4.k mailto:sage [2012/11/17(土) 12:33:38.78 ID:Kz7friKn0] この件でコードをロールバックした時に気がついたのですが、 Bitslice DESの一時変数を__private空間においても割と速度が出ることが わかりました。こっちのほうが__localよりもベクトル化しやすいので、 このまま__localを使わずに最適化をすすめることにします。 Bitslice DESの深さを32bitから128bitにして速度も4倍といきたい ところですが…
673 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/17(土) 12:53:15.66 ID:CDs2gwHh0] >>672 >ベクトル化 よく知らないのですが、GPUってベクトル演算なんですか……? ベクトル化の意味は知っているのですが、なぜか「昔のスパコン」ってイメージが……w
674 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/17(土) 17:05:57.82 ID:RbPdKj5Y0] GPUはベクトル演算の極地だし、今のスパコンはほぼ全てベクトル演算ですが
675 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/17(土) 17:08:42.00 ID:lv9DVzeD0] もの自体がベクタプロセッサの集合体
676 名前: ◆MERIKEN4.k mailto:sage [2012/11/18(日) 01:33:23.65 ID:7lmxdB8G0] >>673 そこがGPGPUの一番美味しいところですw 性能を引き出すのはなかなか難しいですけどね〜
677 名前: ◆MERIKEN4.k mailto:sage [2012/11/18(日) 01:59:41.80 ID:7lmxdB8G0] あの後色々調べてみたんですけど、単純にDES_Vectorをuint2やuint4で置き換えて やれば性能が出るというわけでもないようで、もうちょっと調べる必要が あるみたいです。 あと、localなメモリに書き込んだ後は必ずbarrier()を呼び出さないと、 ちゃんとメモリ操作の結果が反映されないようです。おかしいなと思って OpenCLの仕様書を見ると確かにこう書いてあります。 > The barrier function also queues a memory fence (reads and writes) to > ensure correct ordering of memory operations to local or global memory. www.khronos.org/registry/cl/sdk/1.1/docs/man/xhtml/barrier.html CUDAの場合は動機が必要なところで__syncthreads()を呼び出してやれば 後はなにも考えずに共有メモリとグローバルメモリに読み書きできたのですが、 どうも勝手が違うようです。
678 名前: ◆MERIKEN4.k mailto:sage [2012/11/18(日) 12:44:30.93 ID:7lmxdB8G0] OpenCLでの10桁検索の話の続きです。 >>545 の案を実際に実装してメモリの使用量を半分に抑えることで、 速度を50%ほど向上させることができました。キーを動的に生成することに よるペナルティが割と大きく2倍とはいきませんでしたが、 まあそれでもかなりの進歩です。Kernel Occupancyはこんな感じです。 www.meriken2ch.com/files/2012-11-17-AMD-APP-profiler.jpg ローカルメモリを使うと出力が化けまくるので、とりあえず Bitslice DES用の一時変数はすべてレジスタ上においています。 このままレジスタの数を削ってOccupancyを上げてもいいし、 またローカルメモリに戻してみてもいいし、これでようやく先がすこし 見えてきた感じです。
679 名前: ◆MERIKEN4.k mailto:sage [2012/11/18(日) 13:50:23.81 ID:7lmxdB8G0] 一応ローカルメモリに戻して速度を測ってみたのですが、 思ったほど速度は出ませんでした。というわけで 一時変数はこのまま__private空間においたまま 最適化をすすめることにします。 カーネルをなるべく簡単にして、キーの生成の準備をすべて CPU側で行うことにします。 またレジスタの数を削る日々がはじまるお…
680 名前: ◆MERIKEN4.k mailto:sage [2012/11/18(日) 18:56:32.90 ID:7lmxdB8G0] あの後ちょこちょことカーネルをいじっていたんですけど、 適当なところにbarrier()を入れるとレジスタ数が減ったり スピードが上がったりと不思議なことの連続でした。 色々実験してみるもんですね。こんなことは流石にマニュアルには 書いてあるわけないしw
681 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/18(日) 19:05:57.54 ID:hHNMwY9r0] 奇妙すぎる仕様だ……
682 名前: ◆MERIKEN4.k mailto:sage [2012/11/18(日) 19:11:47.92 ID:7lmxdB8G0] これは4日前に公開されたばかりのRadeon用のアセンブラです。 GCN ISA Assembler devgurus.amd.com/message/1285111 HetPas realhet.wordpress.com/2012/11/14/hello-world/ GCNの命令セットについてなかなか面白いことが書いてありました。 こういうので最適化したらものすごい速度が出るんでしょうねえ。 JtRのAlexsander氏は動的にコードを生成しろなんて言ってたけど…
683 名前: ◆MERIKEN4.k mailto:sage [2012/11/19(月) 16:30:19.77 ID:FRx7NJvu0] >>681 まったく謎だらけですw カーネルアナライザを使えばもうちょっと詳しく 分かるんでしょうけど、goto文を使っているとエラーが出て動かないんですよね…
684 名前: ◆MERIKEN4.k mailto:sage [2012/11/19(月) 16:36:30.60 ID:FRx7NJvu0] 気分転換で、前から欲しかったトリップの自動保存と自動検索実行の機能を つけてみました。ブレーカーが落ちるたびにうんざりしながら検索君1号を 立ち上げなおしていたのですが、これで再起動もボタンを押すだけで済んで 検索結果が失われることもなくなりました。この機能は次の開発版から 利用できるようになる予定です。
685 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/19(月) 19:13:07.00 ID:rYPhWgPq0] >>684 そんなにブレーカーが落ちる環境だったとは…… (開発以外)休んでも、いいのよ?
686 名前:名無しさん@お腹いっぱい。 [2012/11/20(火) 07:59:44.51 ID:8BgQYrDr0] 海を越えると電気も日本みたいに高品質じゃないんだよ
687 名前: ◆MERIKEN4.k mailto:sage [2012/11/20(火) 14:37:37.34 ID:TS/gXHXx0] >>685-686 グラボ4枚で検索するようになってから急に落ちるようになりました。 ブレーカーがどうも古いみたいで、大家さんに言ったんですけど ちっとも変えてくれません。まあでも消費電力に常に気を付けるように したら大分ましになりました。
688 名前: ◆MERIKEN4.k mailto:sage [2012/11/20(火) 14:48:46.83 ID:TS/gXHXx0] レジスタ数を107から90まで頑張って減らしました。 目標の84まであともうちょっとなんですけど、 コンパイラの挙動が全く予想できないのでなかなか難しいです。
689 名前: ◆MERIKEN4.k mailto:sage [2012/11/21(水) 12:12:44.49 ID:eiBTExc50] カーネルアナライザが動かなくてカーネルのILとISAが見られなかったん ですが、次のページを参考にしてようやく見れるようになりました。 カーネルをビルドするときにオプションで"-save-temps=[prefix]"と していしてやればビルド時の一時ファイルが保存されます。 Looking for specific details of GPU_DUMP_DEVICE_KERNEL devgurus.amd.com/thread/159168 Kernelanalyzer refuses to compile anything devgurus.amd.com/thread/159924 最近のドライバではカーネルアナライザは動かないそうで… AMDにはもうちょっと頑張ってもらいたいものです。
690 名前: ◆MERIKEN4.k mailto:sage [2012/11/23(金) 14:34:10.31 ID:ctiDd+QK0] あの後レジスタ数を減らすためにいろいろと試してみたのですが、 どうやっても90から更に減らすことはできませんでした。 どうも本気でレジスタ数の割付を最適化するためには GCNのコードを直接書く以外ないようです。 仕方が無いので、割と時間がかかっているカーネルへの入出力の処理を 効率よく行うようにするための作業にとりかかりました。 とりあえずオーバーヘッドの大きいclEnqueueWriteBufferを1つにまとめたら、 なぜか未だに完全に消えてなかった出力が化けるバグが綺麗さっぱり なくなりました。やれやれです。
691 名前: ◆MERIKEN4.k mailto:sage [2012/11/23(金) 15:32:19.14 ID:ctiDd+QK0] さっきjohn-devの11月のポストを読んでたんですけど、 何か問題が起きるとすぐにAMDのOpenCLドライバのバグが疑われてて 笑ってしまいましたw これは相当評判が悪いみたいですね… > > All my accusations about driver bugs were... well they were based > > on statistics, what can I say? :-) > > > > magnum > We saw some craziness that justify our accusations. www.openwall.com/lists/john-dev/2012/11/22/5
692 名前: ◆MERIKEN4.k mailto:sage [2012/11/23(金) 15:44:36.45 ID:ctiDd+QK0] なんにせよドライバのバグを華麗に避けつつOpenCLの10桁検索を使い物に するには相当時間がかかりそうなので、とりあえず12桁検索のほうを 先に仕上げてしまうことにしました。今週末に次の開発版を公開する予定です。
693 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/23(金) 15:52:23.16 ID:21daIx+z0] >>691 ドライバの完成度の問題ですか、厳しいですねえ・・・
694 名前:名無しさん@お腹いっぱい。 [2012/11/23(金) 19:01:10.75 ID:ixPLPIhe0] 鳥屋は凄腕だな。
695 名前: ◆MERIKEN4.k mailto:sage [2012/11/23(金) 20:06:39.28 ID:ctiDd+QK0] 鳥屋氏が凄腕なのは間違い無いですね。mtyのGPU版の速度は異常です。 ただCAL ILで書かれたmtyと同じ速度をOpenCLで出すのも無理な気がしますけどね〜 JtRの20M c/sは論外にしても、Hashcatですら7970で79M c/sしか出せていない ですからねえ。もうちょっとJtRのSayantan氏に頑張ってもらいたいものですけど、 メーリングリストのやり取りを見ている限りではとても期待できそうにありませんorz
696 名前: ◆MERIKEN4.k mailto:sage [2012/11/23(金) 21:53:30.00 ID:ctiDd+QK0] なにか10桁検索の参考にならないかと思ってJtRのソースを眺めていたら、 全然関係ない12桁検索の高速化のネタを見つけましたw といってもハッシュ作成の際にbitselect()とrotate()を使うというだけの 話なんですけど、効果は抜群でOCした7970単体で1600M TPSを軽く超える 速度が出ています。いまだにこんなおいしいネタが転がっていたとは驚きです。
697 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/23(金) 23:24:15.72 ID:6zLs77TA0] >>695-696 ということは12桁最高記録が300M/s以上増えることに!? ところでmtyGPU版の10桁最高記録ってどれほどなのでしょう? 自分で(2chソースを)ググって分かったのは237M/s(1枚で)、枚数差しても〜750M/sぐらいだったのですが……
698 名前:ののたん ◆KiwamonoL. mailto:sage [2012/11/23(金) 23:33:28.75 ID:34hnWziW0 BE:276537427-DIA(289888)] >>697 スレチだな。w こっちいけ。 yy43.60.kg/test/read.cgi/tripageruo/1274911652/
699 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/23(金) 23:40:53.47 ID:6zLs77TA0] >>698 後半荒らされ放題じゃないですか………‥ なるほど、少なくとも>>79 で714M/sという記録が出ていたんですね。失礼しました
700 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/23(金) 23:46:32.74 ID:NBSrQskj0] 最大公約数的なプログラミングじゃなくて、自分の持ってるカードに絞ってゴリゴリ書いていけばいいんじゃないの? その方が速度も出ると思うんだけど
701 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/24(土) 01:55:09.02 ID:gl+pZhPfP] MERIKENさんってTOEIC満点とれる超人だったんですね・・・
702 名前: ◆MERIKEN4.k mailto:sage [2012/11/24(土) 05:00:21.29 ID:Npt3JpjG0] >>697 今でも3.5G TPSあたりなら堅いでしょう。いろいろ弾を仕込んでいる最中なので、 次に記録を狙うときには目標は4.5〜5G TPSあたりになると思います。
703 名前: ◆MERIKEN4.k mailto:sage [2012/11/24(土) 05:02:22.68 ID:Npt3JpjG0] >>700 最大公約数的なプログラミングはとっくの昔に諦めて7970にターゲットを絞って ますけど、それでもなかなか難しいです。
704 名前: ◆MERIKEN4.k mailto:sage [2012/11/24(土) 05:04:48.04 ID:Npt3JpjG0] >>701 私は大学からアメリカなのであれはいろんな意味で「おまけ」なのですw
705 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/24(土) 07:00:28.07 ID:d1lnl00J0] 1台のPCに積載できるGPUの量には限りがありますし、 そのうちサーバプログラム用意して検索条件の配布、検索結果の集計みたいな疎結合クラスタになりますん?
706 名前: ◆MERIKEN4.k mailto:sage [2012/11/24(土) 08:25:58.55 ID:Npt3JpjG0] >>705 そのうちそうなるでしょうねえ。スタンドアロンでの性能がちゃんと出るようになって からということになるので相当先の話だと思いますけど…
707 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/24(土) 10:09:34.84 ID:E4ne9Ljb0] >>705 トリップ検索クラスタ(物理)か…… GPUが絡まないと有り難みが薄いですねw
708 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/24(土) 11:01:21.01 ID:NFbcJaLE0] トリップ検索p2pネットワークか‥胸熱
709 名前:名無しさん@お腹いっぱい。 [2012/11/24(土) 19:19:01.23 ID:TYsqoQfh0] >>698 スレチと、言ってるののたんに (はぁはぁ
710 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/24(土) 19:43:27.54 ID:d1lnl00J0] >>708 個人でクラスタするのは有りだけど、 参加フリーでみんなの検索条件を合算するようになると生成されたトリップの判定にパワー食っちゃって……
711 名前: ◆MERIKEN4.k mailto:sage [2012/11/25(日) 02:30:46.54 ID:tDxdpeED0 BE:3591054296-2BP(12)] サーバーから検索条件をダウンロードしてみんなで12連とかのレアトリップを 探すというのも面白いかもしれませんねw
712 名前: ◆MERIKEN4.k mailto:sage [2012/11/25(日) 02:38:56.68 ID:tDxdpeED0] 10桁検索のほうはAlexander氏の言っていた、動的にカーネルを書き換えて DESのexpansion functionをソースに埋め込むという方法で以前に比べると 大分速くなりました。が、それと同時にドライバのバグによる出力が化ける問題が 再発生した模様。まったく地雷原を歩いているようです。
713 名前: ◆MERIKEN4.k mailto:sage [2012/11/25(日) 09:08:59.10 ID:tDxdpeED0] 出力が化ける問題はなんとか解決できました。いや〜、まいったまいった。 というわけで実行時のカーネルの書き換えでようやくHashcatとほぼ同じ速度が 出るようになりました。Tripcode FinderのCUDA版の10桁検索はHashcatよりも ちょっと速いぐらいなので、もうそろそろ限界のような気もしないでも ないです。あとはGCNのコードを手書きしてS-Boxを最適化して レジスタ数を削るぐらいしか思いつきません。とりあえず10桁検索は しばらく置いておいて、次の開発版を用意することにします。
714 名前: ◆MERIKEN4.k mailto:sage [2012/11/25(日) 22:50:54.20 ID:tDxdpeED0] 2週間ぶりの開発版です。 MERIKEN's Tripcode Finder 0.07 Alpha 7 www.meriken2ch.com/programming/merikens-tripcode-finder Alpha 6からの変更点は以下になります。 ・OpenGLの12桁トリップ検索の高速化。 ・検索スレッドと検索プロセスの数を指定するオプションの追加。 ・検索の自動実行と検索結果の自動保存を行うオプションの追加。 ・様々なバグの修正。 検索スレッドと検索プロセスの数を増やすことによって、 複数のGPUを使用する場合のGPUの使用率を増やすことができます。 おいしいです(^q^)
715 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/25(日) 23:37:10.26 ID:wZsqacQO0] おつおつ 回してみるべ
716 名前:482 mailto:sage [2012/11/25(日) 23:54:26.46 ID:wZsqacQO0] この構成であるふぁ7 www.dotup.org/uploda/www.dotup.org3665284.png
717 名前: ◆MERIKEN4.k mailto:sage [2012/11/25(日) 23:57:46.50 ID:tDxdpeED0] Alpha 7用の新しい報告用のテンプレです。 【GPU】 【CPU】 【OS】 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7 【トリップの種類】12桁・10桁 【1SMあたりのブロックの数(CUDA)】 【1CUあたりのワークアイテムの数(OpenCL)】 【1WGあたりのワークアイテムの数(OpenCL)】 【1GPUあたりの検索プロセスの数(OpenCL)】 【1検索プロセスあたりの検索スレッドの数(OpenCL)】 【その他のオプション】 【Display Driver】 【10分間の平均速度】 tripcodes/s 【GPUの平均速度】 tripcodes/s 【CPUの平均速度】 tripcodes/s 【GPUの使用率】 【GPUの温度】 【その他】
718 名前: ◆MERIKEN4.k mailto:sage [2012/11/25(日) 23:58:37.50 ID:tDxdpeED0] >>715 ぜひ色々試してみてくださいw
719 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 00:02:11.37 ID:ICZhOGh80] >>716 これは1枚ですか? かなり出てますね〜
720 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 00:07:18.79 ID:SipgVuQ10] 書き忘れー 解凍したまんまで GPUの温度は室温20度で41度まで上がった、負荷は100% 水冷だしこんなもんだね、ゲームだと36度くらいしか上がんないからいかにGPUが仕事してるかわかるw
721 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 00:08:15.66 ID:SipgVuQ10] >>719 ですよー、リファの7970
722 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 00:12:39.54 ID:AQz+o+st0] 唐突だけどコマンドラインオプションの私的まとめ(☆はデフォルトでは自動設定される項目): --redirection ? -f [inputfile] 入力ファイル名 -r [inputfile] 入力ファイル名(正規表現) -o [outputfile] 出力ファイル名 -l [length] 検索するトリップ長(12 or 10) -g 検索にGPUを使用 (デフォルト) -d [device] CUDAデバイス番号(0〜) (デフォルトは全て使用) -x [block/SM] ブロック/SM(CUDA) ☆ -y [workgroup] ワークグループ/CU(OpenCL) ☆ -z [workitem] ワークアイテム/WG(OpenCL) ☆ ※workgroup mod workitem=0、workitem mod 8=0とすること -c 検索にCPUを使用(-gと併用可) -t [threads] CPUにおける検索スレッドの数 ☆ -a [threads] 1つのAMDのGPUに対する検索スレッドの数(OpenCL) ☆(〜0.07Alpha6) 1検索プロセスあたりの検索スレッドの数(OpenCL) ☆(0.07Alpha7〜) -b [processes] 1GPUあたりの検索プロセスの数(0.07Alpha7〜) -m MutexForMERIKENsTripcodeFinder-4648 GUI版とCUI版が通信するときに使うおまじない(〜0.07Alpha6) -m MutexForMER GUI版とCUI版が通信するときに使うおまじない(0.07Alpha7〜) -i 2ちゃんねるで直接使用できないトリップを16進形式で出力 -w 検索スピードの急激な低下を警告
723 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 00:18:40.01 ID:ICZhOGh80] >>722 あ、-yは「ワークグループ」じゃなくて「ワークアイテム」です。 最初に書いたときに間違えちゃったんですよね〜
724 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 00:22:36.54 ID:ICZhOGh80] >>721 う〜ん、水冷は素晴らしいですね。空冷での温度を見慣れていると 別世界のようですw
725 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 00:34:50.17 ID:AQz+o+st0] >>723 つまりこうですね、分かります。 >-y [workitem1]ワークグループ/CU(OpenCL)(デフォルトは自動設定) >-z [workitem2]ワークアイテム/WG(OpenCL)(デフォルトは自動設定) >※workitem1 mod workitem2=0、workitem2 mod 8=0とすること ところで--redirectionって何をリダイレクトしているんですか?
726 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 00:37:16.39 ID:AQz+o+st0] 俺おっちょこちょいの素質あるのかな…… >-y [workitem1]ワークアイテム/CU(OpenCL)(デフォルトは自動設定) >-z [workitem2]ワークアイテム/WG(OpenCL)(デフォルトは自動設定) >※workitem1 mod workitem2=0、workitem2 mod 8=0とすること 次のVerからはREADMEに訂正が必要なようですね……>MERIKENさん
727 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 00:43:33.42 ID:ICZhOGh80] >>725-726 リダイレクトしているのは標準出力です。 訂正はもう入ってますよ。
728 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 00:43:54.12 ID:SipgVuQ10] 【GPU】Xeon E5-2687W×2 【CPU】HD6990×2 【OS】Windows8 Pro 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7 【トリップの種類】12桁 【1SMあたりのブロックの数(CUDA)】- 【1CUあたりのワークアイテムの数(OpenCL)】解凍時のまま 【1WGあたりのワークアイテムの数(OpenCL)】解凍時のまま 【1GPUあたりの検索プロセスの数(OpenCL)】解凍時のまま 【1検索プロセスあたりの検索スレッドの数(OpenCL)】解凍時のまま 【その他のオプション】- 【Display Driver】Catalyst12.11β 【5分間の平均速度】 4816.85tripcodes/s 【GPUの平均速度】 4711.99tripcodes/s 【CPUの平均速度】 104.86tripcodes/s 【GPUの使用率】100% 【GPUの温度】一番高いコアで46℃ 【その他】GPUはTDP450Wモード定格 www.dotup.org/uploda/www.dotup.org3665573.png これはもしやメインも仕事してくれるのではと思ったら案の定 時間ないんでどちらも5分でスマヌ
729 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 01:03:17.64 ID:ICZhOGh80] >>728 これは最高速の記録ですね。素晴らしいです。 私も次に記録を狙うときにはもうちょっと弾を揃えないと…
730 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 01:12:41.03 ID:AQz+o+st0] >>728 脳内での 最 速 記 録 が 塗 り 替 え ら れ た 瞬間であった 期待できないけどノートで回してくるー
731 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 01:20:20.30 ID:SipgVuQ10] 因みにこれで1160W前後の消費電力
732 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 01:30:34.82 ID:Scm6xI9q0] >>569 です。Alpha7公開お疲れ様です。 【GPU】SAPPHIRE VAPOR-X HD5770 1G (OC: GPU 960MHz MEM 1265MHz) 【CPU】Intel Core i7-3770(無印) 【OS】Microsoft Windows 7 64bit SP1 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7 【トリップの種類】12桁 【1CUあたりのワークアイテムの数(OpenCL)】3200 【1WGあたりのワークアイテムの数(OpenCL)】64 【1GPUあたりの検索プロセスの数(OpenCL)】1 【その他のオプション】 【Display Driver】Catalyst 12.10 【10分間の平均速度】586.05M tripcodes/s 【GPUの平均速度】550.44M tripcodes/s 【CPUの平均速度】35.62M tripcodes/s 【GPU使用率】99% 【GPUの温度】72℃ (室温22℃) 【その他】テスト時間10分08秒、7完1タゲ
733 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 01:30:58.70 ID:ICZhOGh80] >>731 450W x 2 + αですか。こりゃすごいw
734 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 01:34:21.82 ID:ICZhOGh80] >>732 5770でもかなり速度が出てますね。 今回はかなり内部をいじったので、ちゃんと動いているようでほっとしました。
735 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 02:46:46.01 ID:qf13XQqh0] 【GPU】HD7970 CFX 2GPUs @1150MHz 【CPU】FX-8350 @5GHz 【OS】Windows7 64bit 【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7 【トリップの種類】12桁 【1SMあたりのブロックの数(CUDA)】 【1CUあたりのワークアイテムの数(OpenCL)】960 【1WGあたりのワークアイテムの数(OpenCL)】64 【1GPUあたりの検索プロセスの数(OpenCL)】default 【1検索プロセスあたりの検索スレッドの数(OpenCL)】default 【その他のオプション】-g -c -t 6 【Display Driver】Catalyst12.11 beta6 【10分間の平均速度】5277.77 tripcodes/s 【GPUの平均速度】5243.39 tripcodes/s 【CPUの平均速度】34.39 tripcodes/s 【GPUの使用率】99% 【GPUの温度】76℃ 【その他】7完1タゲ 効率が上がったためか-t 6で回したら強制シャットダウン、恐らく冷却不足か電源容量不足 とりま、ぬるい設定で解凍したまま ※今までは検索始めるとマウスカーソルがカクカクになり、USB音源を見失っていましたが、そういった現象はなくなりました www.rupan.net/uploader/download/1353865513.png
736 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 02:47:44.61 ID:qf13XQqh0] あ、-t 4 の間違いです
737 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 03:26:15.30 ID:AQz+o+st0] ノーパソから計測実験。デスクトップでグラボぶん回すのと比べると雑魚レベルだが許してくれ。 【GPU】NVIDIA GeForce 610M(、Intel HD Graphics 4000) 【CPU】Intel Core i5-3210M 【OS】Windows Vista Home Ultimate SP1 64bit 【その他のオプション】-g -c -l 10か-g -c -l 12での計測(速度が安定した時点で記録) 【Display Driver】見方を教えて下さい…… ↑の条件で、ソフトのVerと桁数を変更しながら計算するとこうなった↓ 0.07Alpha6 0.07Alpha6 0.07Alpha7 0.07Alpha7 10桁 12桁 10桁 12桁 ---------------------------------------------- 使用不可 160 使用不可 128 ←blocks/SM 使用不可 64 使用不可 使用不可 ←items/CU 使用不可 32 使用不可 使用不可 ←items/WG 4 2 3 3 ←CPU演算スレッド数 使用不可 48.9M/s 3.54M/s 48.96M/s ←速度(CUDA) 使用不可 4.9M/s 使用不可 使用不可 ←速度(OpenCL) 使用不可 9.66M/s 4.03M/s 10.91M/s ←速度(CPU) 5.27/s 63.43M/s 7.57M/s 59.87M/s ←合計速度 ---------------------------------------------- 確かに改良は効いているが、な ぜ ア ホ の 子 を 外 し た し
738 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 09:08:45.23 ID:ICZhOGh80] >>735 これはすごい数字ですねえ。いくらなんでも速すぎだろうと思って Catalyst 12.11 Beta 8を試してみたら、うちの7970 1枚でも2497M TPS 出てて吹きましたw 12.9 Betaではここまでのスピードは出なかったので、 ここ2ヶ月でAMDのドライバにかなり手が入ってますね〜
739 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 10:37:04.72 ID:7cZ4LG5Ni] 7970の4wayやれば10Gか… コンセントの端子が熱くなるな
740 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 18:30:45.89 ID:AQz+o+st0] 公式サイト(www.meriken2ch.com/programming/merikens-tripcode-finder )とか見ていると OpenGLとOpenCLが脳内でごっちゃになりそうなのでまとめ: OpenGL……シリコングラフィックスが開発していたクロスプラットフォームな3DグラフィックスのAPI。 ハードウェアに近い低水準な機能も使えるので高速だが、文字列描画が苦手。 GPGPUの利用法は、OpenCLよりもグラフィックス寄り。 OpenCL……アップルのKhronos Groupが開発した、クロスプラットフォームな並列コンピューティング用のAPI。 要するに、「CPUやGPUなどの計算資源を、並列演算用にまとめて扱えるようにするよ!」 といったもの。GPGPUの利用法は、OpenGLよりは演算寄り。
741 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 19:27:18.93 ID:ICZhOGh80] >>740 あ、あれはOpenCLの間違いで、OpenGLは一切関係ないですw ご自分用のまとめはここに書き込まないでいただけると有難いです。
742 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 19:36:47.88 ID:ICZhOGh80] >>737 OpenCL以外の検索ルーチンはいじってないので速度は変わっていないはずです。 Intelのはドライバのバージョンによってアプリケーションが落ちるろいう報告が あったのでやむなしです。
743 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 19:56:04.00 ID:AQz+o+st0] >>741 了解しました。 >>742 そうだったんですか……。チェックボックス対応でも、というのは無茶でしょうか。 10桁の演算速度が上がっているのは確実な気がするのですが、 単に自環境ではAlpha6でGPU演算が使えなかっただけ(デバイスが対応していない) なのかもしれません。次買うのはRadeonGPU搭載PCにするかな…‥
744 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 20:09:11.33 ID:gXr4FeWs0] >>740 geforce君はもう書き込まないでくれるかな?
745 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 20:44:41.34 ID:ICZhOGh80] >>743 Intelのはドライバの出来がイマイチで性能が全く出ないのに メンテの手間だけかかって、おいしいところが全くないんですよね。 Intel対応はXeon Phiが消費者向けに発売されたら考えますw
746 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/26(月) 20:49:46.82 ID:AQz+o+st0] >>745 確かに、グラボが出す速度を考えたらIntelのは誤差の範囲ですよねw もうその件については触れないことにします。回答ありがとうございました。
747 名前: ◆MERIKEN4.k mailto:sage [2012/11/26(月) 21:13:07.19 ID:ICZhOGh80] ドライバといえば、Catalystの新しいβ版で10桁検索を試してみたら、 速度が1/3になっていましたorz CUDAでもそうでしたけど、 GPGPUは開発環境やドライバによってアプリケーションの性能が 乱高下する傾向がありますねえ。ドライバの次のバージョンアップで 直っているといいんですけど…
748 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 01:57:27.60 ID:qHzcgcY70] 新しいAMDのドライバで12桁トリップ検索のプロファイリングを行って見たのですが、 ベクターレジスタ(VGPR)の数が40まで減っていて、Occupancyが10から60にまで 上がっていました。どうりで検索速度が上がっているわけです。 どうやらAMDのコンパイラの最適化のアルゴリズムが、命令の数を増やしてでもレジスタ数を 減らすことを優先するものに変更されているようで、それが12桁の場合はうまく働いたけど 10桁の場合は完全に裏目に出ている、ということらしいです。やっぱり本気で10桁トリップ検索で 性能を出そうと思ったらILかGCNのコードを自分で書くしかないみたいですが、とりあえず 以前のドライバでOpenCLバイナリを生成して、実行時にはそれを使うように変えておくことにします。
749 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 03:59:49.95 ID:qHzcgcY70] AMDのOpenCLドライバをAMD APP 2.7のものにロールバックしたら ようやく10桁検索の速度が元に戻りました。次のファイルは ドライバのアンインストールでは削除されずに直接手で削除する 必要がありました。 SlotMaximizerBe.dll SlotMaximizerAg.dll amdocl.dll OpenVideo.dll OVDecode.dll これがわかるまでエラく手間取りましたが、これでようやくOpenCLバイナリの 作成に取り掛かれます。
750 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 06:43:01.11 ID:qHzcgcY70] 10桁トリップ検索のコードですが、なんとCatalyst 12.8以前のドライバでは 出力が化けることが判明しました。ドライバのバクにしても いくらなんでもひどすぎるorz
751 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 19:01:37.31 ID:qHzcgcY70] >>746 手間がかからないならサポートしてもいいんですけど、テストの量が倍以上に なりますからねえ。残念です。
752 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 19:18:07.56 ID:qHzcgcY70] >>739 これ2枚積めば10G TPS超できそうです。TDP 500Wの化物だけど、 普通に検索君1号に2枚収まりそうなんだけど、流石に20万は払えないよな… あぶないあぶないw Radeon最上位のデュアルGPU版「HD 7990」発売、重さを支える支柱付き カードは弩級 akiba-pc.watch.impress.co.jp/hotline/20121124/etc_club3d.html Club 3D Radeon HD 7990 Dual GPU www.club-3d.com/index.php/products/reader.en/product/radeon-hd-7990-dual-gpu.html
753 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/27(火) 19:19:19.94 ID:hGvQPEA10] >>752 そんなに電源虐めたいかww
754 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 19:34:03.64 ID:qHzcgcY70] >>753 そこにハードウエアがあれば限界まで性能を出したくなるのが 男のさがというものですw
755 名前: ◆supernova.rT mailto:sage [2012/11/27(火) 19:36:20.84 ID:3f/efQ6N0 BE:5355599279-DIA(123422)] 10桁酉が割られる日も近いな…ゴクリ
756 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 19:38:49.66 ID:qHzcgcY70] 10桁検索ですけど、crypt()のseedの値に基づいてカーネルを動的に 書き換えていたことをすっかり忘れていましたw これって実行時にOpenCLバイナリを書き換えるか、seedの数だけバイナリを 用意しなきゃいけないってことだよな…
757 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/27(火) 19:59:40.97 ID:oOatxZVu0] >>756 最適化スゲェ…… でも、10桁のシード(ソルト)って確か2バイト分(最大256^2=65536通り)あるんじゃ
758 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 20:35:03.96 ID:qHzcgcY70] >>757 実際には2chの仕様のせいで65^2=4225通りなんですけど、 それでも結構な数です。とりあえず実験的に作ってみますけど、 さすがにこれを配布パッケージに含めるのは考えちゃいますねw
759 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/27(火) 20:39:00.84 ID:oOatxZVu0] >>758 単純に考えて、3.5MB×2×4225≒30GBかぁ…… 動的書き換えでお願いします(切望)
760 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 21:00:31.98 ID:qHzcgcY70] >>759 書き換えが必要なのはOpenCLのカーネルのバイナリだけなので そこまでひどくはならないですw せいぜい数十MBのオーダーでしょう。 圧縮がかなり効くはずなので配布パッケージ自体はそこまで大きくならない はずですけど、こればっかりは試してみないとわかりません。
761 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 22:03:05.43 ID:qHzcgcY70] 新しいドライバで10桁検索をプロファイリングしてみたのですが、 SALBusyが80.84%なのに比べてVALUBusyが28.91%と妙に低いのに 気づきました。MemUnitBusyが66.81%とかなり高いのも気になります。 これは実際にS-Boxで費やされている実行時間は全体の3割程度ということで、 かなり効率が悪いことになります。ちょっとドライバのバージョンを落として 比較してみます。
762 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/27(火) 22:41:52.20 ID:X0Buxy760] >>747-748 バージョンによって最適化がかなり違うのですか、面倒ですねえ。 >>756 saltに応じてカーネルの動的書き換えとかできるのですか。 できるにしても実際にやるのが凄いですw >>758 crypt(3)の仕様で64^2=4096通りではないのですか?
763 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 23:10:13.31 ID:qHzcgcY70] >>762 あれれ、そうでしたっけ? もうちょっと調べてみます。
764 名前: ◆MERIKEN4.k mailto:sage [2012/11/27(火) 23:17:19.40 ID:qHzcgcY70] >>762 CUDAでも開発環境のバージョンによってかなり速度差が出てましたけど、 OpenCLではドライバのバージョンで違ってくるので頭が痛いです。 HashcatはカーネルをLLVM IRで配布してるみたいですけど、 似たようなことをしたほうがいいのかもしれません。
765 名前: ◆MERIKEN4.k mailto:sage [2012/11/28(水) 00:08:01.45 ID:v1ASRvbE0] Catalyst 12.9 Betaに戻してみたら、こんな感じでした。 VALUBusy: 28.91% -> 36.15% SALUBusy: 80.84% -> 113.88% MemUnitBusy: 66.81% -> 63.67% VALUBusyがちょっと上がっただけで速度は3倍になってるので、 ベクターユニットが遊んでいるせいで7970は相当余力を残している ことになります。かなりの性能向上が期待できそうなので、 OpenCLの実装が一段落したら、自分でGCNのコードをいじってみようかな…
766 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/28(水) 00:12:07.31 ID:JI44h4XK0] >>765 > SALUBusy: 80.84% -> 113.88% 100%越えってどゆことー?
767 名前: ◆MERIKEN4.k mailto:sage [2012/11/28(水) 05:40:16.34 ID:v1ASRvbE0] >>766 それはまったく謎ですw
768 名前: ◆MERIKEN4.k mailto:sage [2012/11/28(水) 06:28:09.26 ID:v1ASRvbE0] >>762 調べてみましたけど、2chのトリップ生成でのsaltの扱いはcrypt (3)の仕様から ずれているので、やっぱり4225通りであってました。 2ch トリップ仕様 sourceforge.jp/projects/naniya/wiki/2chtrip 最初に10桁トリップ検索の実装をした時にも思ったことですが、 見れば見るほどひどい仕様ですw
769 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/11/28(水) 08:12:30.61 ID:ttD8PkvV0] >>768 面妖な! ……ひょっとして10桁検索がどうしても遅くなるのはここにも理由があるんじゃ
770 名前: ◆MERIKEN4.k mailto:sage [2012/11/28(水) 19:13:59.54 ID:v1ASRvbE0] 7990ですけど別の会社からも発売されてますね。 PowerColor AX7990 6GBD5-2DHJ Radeon HD 7990 6GB www.newegg.com/Product/Product.aspx?Item=N82E16814131483 一枚で$899なので>>752 のカードより大分安いですが、がまんがまん…
771 名前: ◆MERIKEN4.k mailto:sage [2012/11/28(水) 19:29:28.10 ID:v1ASRvbE0] >>769 10桁検索が遅くなるのはBitslice DESでメモリへのランダムアクセスが 大量に発生するのが大きいです。こればっかりは仕方ないですね。
772 名前: ◆MERIKEN4.k mailto:sage [2012/11/28(水) 20:09:39.45 ID:v1ASRvbE0] isaファイルを出力させてGCNのコードを眺めてたんですが、 register spillsが発生している模様。"ScratchSize = 140;"なる記述が isaファイルにありました。道理でなかなか速度が出ないわけです。 プロファイラのScratchRegsの欄がNAになってたので完全に油断してました。 NAはnot applicableじゃなくてnot availableの略だったのね… なんにせよこれでMemUnitBusyやMemUnitStalledが高いのも、VALUBusyが 低いのも説明がつきます。これってCUDAのときみたいにS-Boxを書き換えたら なんとかなるのかしらん。
773 名前: ◆MERIKEN4.k mailto:sage [2012/11/29(木) 00:31:56.88 ID:VD1AV4Df0] S-Boxとおぼしき場所に倫理演算の命令に混じってbuffer_store_dwordと s_buffer_load_dwordx4という命令が大量にあったので、 たぶんこれが速度が出ない原因なんでしょう。 ちょっとすっきりしたけど、これってコンパイラのレジスタの割付が 全然うまく行っていないということですよね。やれやれです。
774 名前: ◆MERIKEN4.k mailto:sage [2012/11/29(木) 00:36:21.42 ID:VD1AV4Df0] 倫理演算じゃなくて論理演算でした。
775 名前: ◆MERIKEN4.k mailto:sage [2012/12/01(土) 23:53:39.30 ID:g8/dTHR/0] S-Boxの数を変えてISAファイルを調べてみたら、コンパイラがレジスタを きちんと再利用していないことが判明。 S-Boxes: 1 Kernel occupancy: 10 NumVgprs = 180; ScratchSize = 0; S-Boxes: 7 Kernel occupancy: 10 NumVgprs = 239; ScratchSize = 0; S-Boxes: 8 Kernel occupancy: 20 NumVgprs = 105; ScratchSize = 140; register spillsが起きるとメモリアクセスが枷になって遅くなるし、 起きなければoccupancyが半分になるしでなかなかうまく行きません。 Bitslice DESに必要なレジスタの数は64 + 17 = 81ぐらいなので、 180〜245というのはいくらなんでも多すぎです。 CUDAだったら直接PTXのコードを書けばいいんだけど、OpenCLだと そういうわけにもいかないので実に難しいです。使用するレジスタの数も CUDAみたいにコンパイル時に指定できたらいいんですけどねえ。
776 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/02(日) 13:44:02.57 ID:E9WK095v0] 駄目元でAMDのフォーラムに報告してみるとか
777 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/03(月) 19:33:58.87 ID:VDyT7kE/0] www.meriken2ch.com/programming/merikens-tripcode-finder そんなにPC酷使したいならこれで12桁の酉でも探してろ
778 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/03(月) 19:34:41.74 ID:VDyT7kE/0] すまん間違えたwちゃんと生贄連れてくるわ
779 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/03(月) 19:36:00.76 ID:Q+462s2K0] よりによってこのスレに誤爆www
780 名前:名無しさん@お腹いっぱい。 [2012/12/04(火) 14:07:03.07 ID:OIUiTKsY0] Catalyst 12.11 Beta11が出たな
781 名前: ◆MERIKEN4.k mailto:sage [2012/12/05(水) 13:40:50.64 ID:YhHPYAwa0] >>776 う〜ん、どうなんでしょうねえ。レジスタ割り付けを改善すれば 速度が上がるのは自明なので、特に報告するまでもない気もします。 実際12桁検索は倍近く速くなったので、今後に期待といったところです。
782 名前: ◆MERIKEN4.k mailto:sage [2012/12/05(水) 13:42:17.40 ID:YhHPYAwa0] >>777-779 ぜひ活きのいいのをお願いしますw
783 名前: ◆MERIKEN4.k mailto:sage [2012/12/05(水) 13:44:23.29 ID:YhHPYAwa0] >>780 かなり頻繁に更新してますね。現在ダウンロード中です。
784 名前: ◆MERIKEN4.k mailto:sage [2012/12/05(水) 13:58:19.89 ID:YhHPYAwa0] >>287 のPCIe用の延長ケーブルを使って、空冷用のスペースを 確保しつつ検索君1号にグラボを3枚積めることを確認しました。 見た目は最悪wですが、ちゃんと動いているので結果オーライです。 弾も色々揃えたので、帰省するまでに最高速の記録を更新できるかも しれません。
785 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/05(水) 18:55:54.39 ID:jmQ8Rzeo0] >>784 6G級あるか!?
786 名前: ◆MERIKEN4.k mailto:sage [2012/12/06(木) 14:44:56.38 ID:LfRKvPte0] >>785 さあ、どうでしょうねえ… ( ̄ー ̄)ニヤリ
787 名前: ◆MERIKEN4.k mailto:sage [2012/12/06(木) 14:57:33.42 ID:LfRKvPte0] ターゲットが長くなるとヒットするまでの平均時間をいまいち正確に 出せなかった問題ですが、次のライブラリを使うことで解決できることが わかりました。 Multiple Precision Integers and Rationals www.mpir.org/ Visual C++だとlong doubleがdoubleと同じ精度なので困ってたのですが、 これなら全く問題ないでしょう。
788 名前: ◆MERIKEN4.k mailto:sage [2012/12/06(木) 16:26:33.08 ID:LfRKvPte0] MPIRのビルドはあっさり成功して、ちゃんとTripcode Finderに リンクすることができました。サンプルで2の120乗を計算してみましたが、 ちゃんと正しい結果が出ています。このライブラリには分数計算のルーチンも 含まれているので、非常に正確に確率計算ができるはずです。わくわく…
789 名前: ◆MERIKEN4.k mailto:sage [2012/12/06(木) 17:18:12.37 ID:LfRKvPte0] おっと、間違えた。サンプルで計算したのは2の1920乗でした。 このライブラリ、logが計算出来ないから使うの結構面倒そうだな。 どうしたものか…
790 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/06(木) 20:46:13.83 ID:nOh2Wtf90] >>787-789 >ヒットするまでの平均時間をいまいち正確に出せなかった そうだったのですか!? ひょっとして有効桁数が2桁表示なのはそのせい……? ↓ところで、トリップ確率を計算するソフトを作っていたのですが、 up3.viploader.net/pc/src/vlpc012973.png 桁数が変わる「.」とかが入った時や準X連な時の正確な組み合わせ数を計算するのが難しいのデス…… どういった計算アルゴリズムで出しているのですか?大雑把でいいので教えて下さい!
791 名前: ◆MERIKEN4.k mailto:sage [2012/12/07(金) 08:23:57.13 ID:G1/OJRD00] >>790 基本的な流れは以下のとおりです。 (1) 正規表現のパターンを位置と固定長文字列の組み合わせに展開する。 (2) 各組み合わせごとの確率を計算する。 (3) (2)の確率の合計を求める。 注意しなければならないのは、各文字が特定の位置に出現する確率は 通常は1/64ですが、特殊文字の場合は違うということです。 例えば"."と"[:digit:]"がヒットする確率はそれぞれ64/64と10/64と しておかなければ正確な結果が出ません。 具体的な例を挙げると、12桁トリップ検索における"^test./"の出現確率は p = (1/64)*(1/64)*(1/64)*(1/64)*(64/64)*(1/64) となります。 また、位置指定をしていない"/test[:digit:]/"の場合、出現位置が 0〜5の6通りなので、 p = (1/64)*(1/64)*(1/64)*(1/64)*(1/64)*(10/64)*(1/64)*6 になります。
792 名前: ◆MERIKEN4.k mailto:sage [2012/12/07(金) 08:32:34.86 ID:G1/OJRD00] MPIRの分数の型であるmpq_tを使って確率計算をすると、 遅くて使いものにならないことが判明orz 厳密にしすぎるのも考えものですね… 仕方ないので浮動小数点数の型のmpf_tを使うことにします。 任意の精度を指定できるのでこれで十分でしょう。
793 名前: ◆MERIKEN4.k mailto:sage [2012/12/07(金) 10:59:12.72 ID:G1/OJRD00] MPIRを使ってヒットまでの時間を予測するルーチンを書き直しましたが、 結局doubleを使った元のルーチンに比べて数パーセント精度が 向上しただけでした。元のルーチンもわりと正確だったということですが、 前からだいぶ気になっていた部分だったのでまあ良しとします。
794 名前: ◆MERIKEN4.k mailto:sage [2012/12/07(金) 20:35:40.18 ID:G1/OJRD00 BE:3192048386-2BP(12)] >>790 あ、あと書き忘れてたけど、準x連の場合は該当する文字が出現する確率は 大文字と小文字をあわせて2/64になります。例えば"^[Aa]*$"のような 準12連が出現する確率は、 p = pow(2.0/64.0, 12) となります。
795 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/07(金) 22:19:25.47 ID:1HdVOJHZ0] >>791 >>基本的な流れ これだと、あるパターンが複数行で当てはまる際重複して数えてしまうような…… 「当てはまる全パターン」を正確に計算するのはカナリ厳しいことがよく分かりました >位置と固定長文字列の組み合わせ ほほう、なるほど。パーサを見直せば出来そうです ただ、実際にトリップ検索スレに出てくる案件を見る限りでは、 「.」とか「*」とかとかを使う機会は無さそうですね…… >>794 あーいや、こちらが言うところの「準X連」とは、正規表現では「*[Aa][Aa][Aa]*」みたいなもののことです (これが「純X連」になると、「*AAA*」となります) もちろん「^[Aa][Aa][Aa]*」から「*[Aa][Aa][Aa]$」まで虱潰しに出して合計してみてもいいのですが、 そうすると「BGCAAAAAAfgt」みたいなものが重複ヒットしてしまうようで…… 足し引きしてなんとかすることにします 確率計算での参考: www.geocities.jp/trip_chaser/tripdata.html
796 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 03:04:57.17 ID:vyeW7s150] >>795 > これだと、あるパターンが複数行で当てはまる際重複して数えてしまうような…… この問題はパターンを固定文字列に展開したあとで重複するものを 取り除くことでほとんどの場合回避できます。Tripcode Finderでは qsort()とuniq()の組み合わせで対処しています。 > あーいや、こちらが言うところの「準X連」とは、正規表現では > 「*[Aa][Aa][Aa]*」みたいなもののことです 正規表現では"*"は先頭に来ないのでいまいちよくわからないですが、 "^[^Aa]*[Aa][Aa][Aa][^Aa]*$"のことでしょうか。 > もちろん「^[Aa][Aa][Aa]*」から「*[Aa][Aa][Aa]$」まで虱潰しに出して合計してみてもいいのですが、 > そうすると「BGCAAAAAAfgt」みたいなものが重複ヒットしてしまうようで…… 確かにそうなんですけど、実際には上の処理さえ施しておけば 重複ヒットは無視できる確率でしか発生しないので、Tripcode Finderでは そこまで厳密に処理はしていません。あまり気にしなくてもいいんじゃないで しょうかw
797 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/08(土) 03:13:22.49 ID:rwOPHj120] >>796 なるほど……固定文字列に展開する作戦ですか。勉強になります。 「トリップ検索人のための便利ツール」的なものを、頑張って完成させようと思います。それでは。
798 名前: ◆JouJaku.HzIz mailto:sage [2012/12/08(土) 11:00:59.32 ID:lc8WRVoJ0] ご無沙汰しております。 電源が届いた後、色々試してみましたがどうも上手く行きません。 Quadro FX 3800, GTX480, GTX590をPCに挿してNVIDIAコンパネでQuadroだけCUDA offにして0.07a7 CUI64を[-c -g -x 128]で走らせると、下記エラーが発生して落ちます。 MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: the launch timed out and was terminated (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 554) MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: all CUDA-capable devices are busy or unavailable (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 461) MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: all CUDA-capable devices are busy or unavailable (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 461) MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: all CUDA-capable devices are busy or unavailable (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 461) Quadro+GTX590だと発生しません。三枚挿すと発生します。仕方が無いので、現在はGTX480+GTX590で運用しています。 とりあえず ガッ!
799 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 11:52:16.32 ID:vyeW7s150] >>798 ||// ∧_∧|∧_∧ ||/ r( (n´・ω・`n) ぬるぽついてないのに「がっ」される || ヽ゚ホllヌ)|( )  ̄ ̄ ̄ ̄ ̄ u―u' line 554とline 461はそれぞれ > CUDA_ERROR(cudaMemcpy(outputArray, CUDA_outputArray, sizeOutputArray * sizeof(GPUOutput), cudaMemcpyDeviceToHost)); と > cudaError = cudaMalloc((void **)&CUDA_outputArray, sizeof(GPUOutput) * sizeOutputArray); > ERROR0(cudaError == cudaErrorMemoryAllocation, ERROR_NO_MEMORY, "Not enough memory."); > CUDA_ERROR(cudaError); なので、両方共CUDA側のメモリの処理ですね。480と590のCCが2.0で、 Quadro FX 3800のCCが1.3なのでそれが原因かとも思ったのですが、 Quadro + GTX 590で発生しないみたいなのでそうでもないようですねえ。 エラーメッセージを見る限りではCUDAが無効担っているにもかかわらず APIからQuadroが見えているようです。NVIDIAコンパネでQuadroの CUDAをonにした場合はちゃんと動作しますか?
800 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/08(土) 11:53:33.23 ID:rwOPHj120] >>798 ユーザー名がぬるぽなのかガッ!と言いたいためにぬるぽにしたのか…… エラーメッセージでググる限りでは、 >the launch timed out and was terminated 「Primary Device(ディスプレイデバイス)に指定されているGPUで長時間カーネル関数を実行しすぎている」 (探したページではPrimary Deviceを切り替えて対処していたが、基本全部使うGPU検索ではどうか……) >all CUDA-capable devices are busy or unavailable 「ゾンビプロセスがGPUを占有している」(1つ目のエラーのせいで発生したエラーってことか?) 「fork()する前にcudaThreadExit()すればいいんじゃね」(要するに処理のミス?) 「ドライバを少し古いものに戻してみるのはどうか」(GPUあるある) てなかんじかな。 参考URL: d.hatena.ne.jp/ang65/20100721 septieme-sens.blogspot.jp/2011/09/cuda_10.html tsubame.gsic.titech.ac.jp/node/610 https://devtalk.nvidia.com/default/topic/479529/cuda-programming-and-performance/all-cuda-capable-devices-are-busy-or-unavailable-problem-in-a-multi-process-linux-application/#entry1140557
801 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 12:42:23.91 ID:vyeW7s150] >>800 ユーザー名がもともとNullpoなのですw 本名にしておかなくてよかった… 普通はlaunch time outはカーネルの処理時間が長すぎて発生する エラーなんですけど、このケースではCUDAが無効になっているはずの Quadroに対して検索スレッドが実行されているようなので、ドライバーの バグ臭いです。Quadroが無効になっていて480と590だけで検索が実行されて いるなら、エラーの数(=検索スレッドの数)は3個のはずなので… 時間ができたらこちらで再現できないか試してみます。
802 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 13:08:25.51 ID:vyeW7s150] >>800 もうちょっと調べてみたら、特定のGPUでCUDAが無効になっている場合、 cudaDeviceProp::computeModeをいちいちチェックして そのGPUが有効かどうか確認しなければいけないことがわかりましたorz stackoverflow.com/questions/8784572/how-to-choose-device-when-running-a-cuda-executable www.clear.rice.edu/comp422/resources/cuda/html/group__CUDART__DEVICE_g5aa4f47938af8276f08074d09b7d520c.html 直すのにちょっと時間がかかりますが、作業が終わったらここで報告するので しばらくお待ちください。
803 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/08(土) 19:37:38.89 ID:rwOPHj120] >>801 別に恨みはないが言わせてもらおう…… ( ・∀・) | | ガッ と ) | | Y /ノ 人 / ) < >__Λ∩ _/し' //. V`Д´)/ ←>>801 (_フ彡 / 話は飛びますが、検索していると、トリップキーの発見予定時間が 「it takes 2.3 days」などと表示されますよね? あれが単純に、「出現確率の逆数÷検索速度」だとした場合、 検索し始めて表示時間だけ待ってトリップキーが出現する確率は せ い ぜ い 6 3 % ぐ ら い し か な い ことを最近発見しました。要するに、「1/XのくじをN回引く間に1回でも当たる確率」ということですが。 この確率は、Nが極端に大きいと二項展開やテイラー展開で近似することができ、それによると 確率E=1-EXP(-N/X)。1/Xを「出現確率」、Nを「検索速度(毎秒)×時間(秒)」とすれば、 上記の値が出るということです。しかもこの値は比で考えることができるため、 「予想時間までに出てくる確率は63.2%」 「予想時間の半分の時間で出てくる確率は39.3%」 「予想時間の倍掛けて出る確率は86.5%」 などといったことが分かります。分かりやすくグラフにしてみました。 up3.viploader.net/pc/src/vlpc012980.png ……いや別になんとなく思いついただけなのですが(震え声)
804 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 20:27:31.63 ID:vyeW7s150] >>803 表示されているのはあくまでも「平均の」待ち時間なので、 「検索し始めて表示時間だけ待ってトリップキーが出現する確率」は 50%になるように調整されています。 > 単純に、「出現確率の逆数÷検索速度」だとした場合 これだと上の確率がちゃんと50%にならないので次のように計算しています。 pをパターンの出現確率とすると、n回のトリップの生成で パターンが出現*しない*確率q_nは、 q_n = (1 - p)^n になります。これから50%の確率でパターンが出現するのに必要な トリップ生成の回数n'は、 0.5 ≒ (1 - p) ^ n' ⇔ n' = ceiling(ln(0.5)/ln(1 - p)) となります。これから発見予定時間sは、次の式で求められます。 s = n' / [平均速度(TPS)] この計算はMTF_CUI_Patterns.cpp内のLoadTargetPatterns()の 後半で行われています。詳しくはソースを参照してくださいと言いたい ところですが、公開されているソースのこの計算の部分は非常にわかり にくいですw MPIRを使って書きなおしたので次のバージョンでは 前よりわかりやすくなったはずですが、大して変わらないかもしれません。
805 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 21:35:28.17 ID:vyeW7s150 BE:3258549577-2BP(12)] >>800 580+590の組み合わせでは問題は再現できませんでした。 バージョン306.97のディスプレイドライバで NVIDIA Control Panelで580でCUDAを使用しないように設定してやると、 ちゃんとCUDAのAPIからは580は隠蔽されるようになっていました。 というわけで、この問題はディスプレイドライバのバグである可能性が高いです。 一応cudaDeviceProp::computeModeをチェックする処理を追加しておいたので、 次の開発版を試してみて下さい。
806 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/08(土) 21:48:52.17 ID:rwOPHj120] >>804 それぐらい折込済み、だと……!? おみそれいたしました。 でも、その場合でも、q_nは、「発見予定時間だけ経つと0.5である」「発見予定時間のX倍経つと0.5のX乗になる」 ことから、発見確率の予測はそれほど難しくないようです(X=2だと発見確率が75%、X=0.5だと29.3%ほど)。 当該ソースは「// Calculate the matching probability etc.」あたりでしょうか。一度読んでみます。
807 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 22:45:58.29 ID:vyeW7s150] というわけでバージョン0.07のβ版を用意しました。 MERIKEN's Tripcode Finder 0.07 Beta 1 www.meriken2ch.com/programming/merikens-tripcode-finder 主な変更点はヒットまでの待ち時間の予測の改善と>>798 で報告された 問題への対処です。
808 名前: ◆MERIKEN4.k mailto:sage [2012/12/08(土) 22:53:58.49 ID:vyeW7s150] >>806 たしかにその場所ですけど、n'を計算する部分を書いたときには うごかすことしか考えていなかったので本当に分かりにくいですよw
809 名前: ◆JouJaku.HzIz mailto:sage [2012/12/09(日) 11:00:55.85 ID:VG0S6xiH0] >>807 対応して頂きありがとうございます。これから試してみます。 そもそもGeForceとQuadroではドライバが別パッケージになっているので、同時差しでバグが発生する可能性は大きそうですね。 Quadro使うやつはTesla使えってことか・・・。ついていけねぇ。
810 名前: ◆MERIKEN4.k mailto:sage [2012/12/09(日) 18:29:54.81 ID:D9EB7VO00] 12桁トリップ検索のRadeonへの対応の作業もほぼ終了したので、 最高速を測定してみました。オクでお安く手に入れた中古の6990を2枚使って 速度を稼いでいます。真ん中の7970は延長ケーブルでマザボにつなげて 2枚の6990の上に乗っけています。温度の心配はしなくても良くなったので ギリギリまでOCしています。動くかどうか半信半疑だったのですが なんとかなるもんですねw 【GPU0】DIAMOND 6990PE54G Radeon HD 6990 4GB @ 900MHz (OC) 【GPU1】Gigabyte GV-R7970C-3GD Radeon HD 7970 @ 1120MHz (OC) 【GPU2】DIAMOND 6990PE54G Radeon HD 6990 4GB @ 900MHz (OC) 【CPU】AMD Phenom II X6 1100T (定格) 【OS】 Microsoft Windows 7 64bit SP1 【バージョン】MERIKEN's Tripcode Finder 0.07 Beta 1 【トリップの種類】12桁 【1SMあたりのブロックの数(CUDA)】N/A 【1CUあたりのワークアイテムの数(OpenCL)】自動 【1WGあたりのワークアイテムの数(OpenCL)】自動 【1GPUあたりの検索プロセスの数(OpenCL)】1 【1検索プロセスあたりの検索スレッドの数(OpenCL)】2 【その他のオプション】-g 【Display Driver】Catalyst 12.11 Beta8 【10分間の平均速度】7428.97 tripcodes/s 【GPUの平均速度】7428.97 tripcodes/s 【CPUの平均速度】N/A 【GPUの使用率】97〜99% 【GPUの温度】83〜93℃ 【その他】GPUのみ。
811 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/09(日) 18:40:27.95 ID:HKJ77yRt0] 6990×2に5870付けて待て屋やったときは1500W超えたな(ワットチェッカー上限超えたw そんときはCPUも使ってたけど同等に電気食ってそうだww
812 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/09(日) 19:13:06.04 ID:38oGO8IR0] >>810 ぐおおおおお! CPUが空気wwwww
813 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/09(日) 20:50:13.83 ID:MhsAJkOg0] 最速記録の塗り替えか
814 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/10(月) 10:34:47.93 ID:NpT5XAETi] 6990って水冷にすれば1スロット化出来るよな でPCIex16スロット7本有るマザー結構な数有るよな 7枚刺したらいいんじゃないかな〜
815 名前: ◆MERIKEN4.k mailto:sage [2012/12/10(月) 17:54:08.67 ID:FmksHTb00] >>811 CPUには負荷はほとんどかかっていないのでそこまではいってないはずです。 恐らく検索君1号だけで1100〜1200Wぐらいです。 >>812 ここまでGPUが速いとCPU検索を同時実行すると却って速度が落ちるのです。 >>813 前スレを立てたときにくらべて10倍以上の速度が出せたので満足ですw >>814 お金があればもっと色々試したいんですけど、自分はさすがにもう限界ですねえ。 勇者の登場を待ちましょうw
816 名前: ◆MERIKEN4.k mailto:sage [2012/12/10(月) 18:59:36.16 ID:FmksHTb00] あ、そうそう。Beta 1に問題がなければ今週の金曜日ぐらいに バージョン0.07の正式版をうpする予定なので、 不具合があればそれまでに報告していただけると有難いです。
817 名前:☆☆勇者さま☆☆☆━━━╋━⊂( ̄▽ ̄∩) [2012/12/10(月) 19:36:17.47 ID:vm9IVZbG0] | ̄ ̄ ̄ ̄ ̄ ̄ ̄| | 速くなったな | | | | | ,. . _ |_______| --' 、  ̄ ̄ヽー- 、 | | ヽ ̄7 , , \ 、 「 ̄ 7 | | ヽ / /_ /ハ |ヽ、\ V ./ | | i il/ ヽl \ヽ. V ,. -{-、 __ .| ii i! o o | il | { Y/ l il |、 Д | li | `t-く ヽN ` --- <リiレ' | | `ー-- 、 / II - 2 ヽ `丶、 | |  ̄ !.ギ 子_ノ >-' ! | | ,r`''ー─''。r'^ヽ、_,/- 、 | | / `ヽ、 , '~~`V-─ 、 ) | | / /´`、 ! (_ノ i_j. / ./ ゙、 ! /_/ ゙、 ! :::`ー':::::::::::::::::::::::::::::ヽこノ:::
818 名前: ◆..//.//./5Hv mailto:sage [2012/12/10(月) 20:41:56.24 ID:Era62auz0] スレ発見しましたー。 MERIKENさんなら./の10完12桁出そうな予感! 酉ありがとうございます(ノ^^)ノ
819 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/10(月) 22:20:03.40 ID:LbISDnqB0] >>816 WinXP 32bit、GPUなしでver0.07 beta1の.exeを起動させると、「OpenCL.dllが見つかりませんでした…。」と出て起動できない(検索出来ない)。 ver0.06の安定版では起動させることが出来る
820 名前: ◆JouJaku.HzIz mailto:sage [2012/12/10(月) 22:41:16.10 ID:astkHfvt0] >>807 対応ありがとうございます。 最初にQuadro, 480, 590を繋げて"CUI64 -c -g"で実行。エラーも出ずに実行されました。自動ブロック数設定は相変わらず安定しませんが・・・ 次にNVIDIAコンパネでQuadroだけCUDA offにして"CUI64 -c -g -x 192"で実行。下記エラーが出るも、検索自体は実行されます。 MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: unknown error (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 560) 画面の表示はこんな感じです。 CUDA0: (Quadro?) CUDA1: 560.5M TPS, 192 blocks/SM (480) CUDA2: 518.7M TPS, 192 blocks/SM (590) CUDA3: 518.6M TPS, 192 blocks/SM (590) ^Cで強制終了させて、もう一度実行させると、例のエラーが三行出てCPUでのみ検索が実行されます。 挙動が良く分からない・・・ OpenGL用にQuadroを残しておきたいけど、熱的にやばそうなので480と590だけで運用することにします。
821 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/10(月) 23:34:40.12 ID:Ya8wVC3a0] >>819 GPUでOpenCLかCUDA扱えないと使いづらいってのが俺の中でのこのソフトの認識 CPUだけなら待て屋とかSHArpとかがあるし(探索空間が違うから一緒にしてはいけない気もするが)
822 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 07:36:11.77 ID:G8KcgggZ0] >>819 報告ありがとうございます。こちらでも確認できました。 取りあえずOpenCLを添付することで対処したいと思います。
823 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 08:50:25.36 ID:G8KcgggZ0] >>821 実際Tripcode FinderのCPU検索は待て屋やSHArp Tripperほど速度は出ないですからねえ。 GPUが使用出来ないと警告が毎回出るのはさすがにやりすぎなのでこれは直しておきます。
824 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 09:04:22.97 ID:G8KcgggZ0] >>818 有難うございます。正規表現でいろいろパターンを指定できるので、 結構遊べますよw
825 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 10:05:57.67 ID:G8KcgggZ0] >>820 やっぱりドライバのバグみたいですねえ。 今度試す機会があったら"CUDA DEVICES"の"Compute Mode"の値を 調べてみて下さい。問題を回避できるかもしれません。
826 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 15:41:44.59 ID:l2lR+Gjg0] なんかやってます WindowsのパスワードはGPUを25個使えば約6分から6時間で突破が可能、 毎秒3500億通りもの総当たりが可能な方法とは? gigazine.net/news/20121211-gpu-brute-force-attack/
827 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 16:11:15.02 ID:G8KcgggZ0] >>819 ついさっき修正が完了しました。次の安定版では直っているはずです。
828 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 16:31:35.11 ID:G8KcgggZ0] >>826 これ5台のラックマウントサーバーですよね。グラボが25枚だそうですけど、 サーバーによって構成が違うみたいです。8枚載っているサーバーの 写真があるので、8枚+5枚+4枚*3という構成でしょうか。他のサーバーの GPUを仮想化してHashcatで利用しているのは非常に興味深いです。 いつか自分でもこんな豪勢なクラスターを組み立ててみたいですねえ。
829 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 16:40:36.00 ID:l2lR+Gjg0] >>828 やろうと思えば、個人レベルでも出来てしまう辺りがおもしろいですね
830 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 17:23:04.08 ID:KG0LrKw40] 古いPCが沢山あるのでネットワーク対応型MTFを待ってます
831 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 19:39:54.02 ID:G8KcgggZ0] >>826 の記事のグラボが8枚載ったラックマウントサーバーはどうやら これのようです。 www.advancedhpc.com/gpu_computing/B7015F72V2.html しかしこうやってみると壮観ですねえ。 gigazine.jp/img/2012/12/11/gpu-brute-force-attack/snap0787.jpg
832 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 21:55:11.42 ID:eYtNkyH+T] はりにきたらすでにはられてたか>>826
833 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 22:56:32.68 ID:6gmHNGHj0] >>821 常用しているのはうにだけど、 このソフトはCPUのみでも動くようになっているから、動かないのは問題かなと思って報告した。 >>827 早い対応ありがとうございます。 OpenCL.dllをいれようと思ったものの、検索してもよく分からなかったもので……。
834 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 23:05:15.63 ID:AXhxlsuZ0] >>828 控えめに一枚500M/sだとしても×25で12.5G/sか・・・ 8完が(ln(0.5)/ln(1-1/64^8))/(12.5*10^9)≒4.3時間で出てくる計算に
835 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 23:13:37.93 ID:G8KcgggZ0] >>830 とりあえず10桁トリップ検索とコードの整理をするのが先ですけど、 ネットワーク対応はいずれぜひやりたいですねえ。
836 名前: ◆MERIKEN4.k mailto:sage [2012/12/11(火) 23:29:58.01 ID:G8KcgggZ0] >>834 研究発表のスライドにはSHA-1で63G hashes/sでているとありましたよ。 passwords12.at.ifi.uio.no/Jeremi_Gosney_Password_Cracking_HPC_Passwords12.pdf これはパスワード解析での数字なので、トリップ検索ならもうちょっと 速くなるでしょう。なかなか豪気ですねえw
837 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 23:31:14.25 ID:AXhxlsuZ0] >>830 ネットワーク対応の暁には学校のPCルーム総動員で検索させてみたいな・・・ いやGPU買えよと言われそうだが
838 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/11(火) 23:33:44.76 ID:AXhxlsuZ0] >>836 >トリップ検索ならもうちょっと速くなるでしょう 要するに単にハッシュ出して比較、だけじゃない最適化が掛かっているのか…… 8完が1時間切るとかどんなモンスターだww
839 名前: ◆JouJaku.HzIz mailto:sage [2012/12/12(水) 00:21:33.94 ID:gPuKMjn30] >>825 Compute Modeは全てcudaComputeModeDefaultでした。 違うのはCompute Capabilityだけで、Quadroは1.3、他は2.0です。 他の手を考えてみます。
840 名前: ◆MERIKEN4.k mailto:sage [2012/12/12(水) 06:17:27.59 ID:FX/ZJoUj0] >>839 そうですか。それは残念… 将来的には各GPUを使用するかしないかを個別に 設定できるようにする予定なのでいずれ解決できるかもしれませんが、 今の段階では難しいですねえ。
841 名前:名無しさん@お腹いっぱい。 [2012/12/12(水) 14:55:15.28 ID:/XRCYi610] >>343 のteslaがGTX5シリーズに負けてるのが印象的です fermiコアの解析速度はプロセッサクロック×メモリバンド幅ですかね? うちの560tiが580の報告の半分の速度しか出ないもので
842 名前: ◆MERIKEN4.k mailto:sage [2012/12/12(水) 16:13:34.77 ID:FX/ZJoUj0] >>841 メモリバンド幅は関係ないです。 580と560tiはそれぞれGF110とGF114なので単純には比較できないですけど 半分だとちょっと遅すぎるような気がしますね。ちゃんとCC 2.1用のバイナリは 入ってるはずだけど…
843 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/12(水) 16:49:47.66 ID:EU7chw1W0] GF114はSMあたりのコア数はGF110の32コアから48コアに増えていますが、 レジスタ数は増えていなくて、GF110は16SMでGF114は8SMなので GF114ではレジスタがボトルネックになりがちだったと思います。 とはいえSMあたりのコア数が増えている分少しは向上しているようでしたし、 リファレンスではクロックもGTX560Tiの方が上なので、半分となると遅すぎる気もしますが、 OCされたGTX580との比較でしょうか?
844 名前:841 [2012/12/12(水) 17:12:49.24 ID:SeK148sf0] 【GPU】Geforce GTX560ti ×2 【CPU】core i5 3470 【OS】Microsoft Windows 7 64bit SP1 【バージョン】MERIKEN's Tripcode Finder 0.07 Beta 1 【トリップの種類】12桁 【1SMあたりのブロックの数(CUDA)】192 【その他のオプション】-g -x 128 【Display Driver】306.97 【10分間の平均速度】 762.15Mtripcodes/s 【GPUの使用率】99% 【GPUの温度】71〜80℃ 【その他】 CUDA0,1:約381M TPS
845 名前: ◆MERIKEN4.k mailto:sage [2012/12/12(水) 18:58:07.81 ID:FX/ZJoUj0] さっき測ったら定格の580が683M TPSぐらいなので560tiの速度は 55%ぐらいですか。CUDA GPU Occupancy Calculatorで調べてみても 特にCC 2.1でOccupancyが下がるということもなかったので、ちょっと 原因がよくわからないですねえ。
846 名前:名無しさん@お腹いっぱい。 [2012/12/12(水) 19:21:29.29 ID:SeK148sf0] GF114はGPGPUには向いてないのですかねー。 現在最速はやはりGF110かな?
847 名前:名無しさん@お腹いっぱい。 [2012/12/12(水) 19:37:38.59 ID:jCx6f4p80] つttp://dokumaru.wordpress.com/tag/gf110/
848 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/12(水) 20:44:44.70 ID:EU7chw1W0] 55%ですか・・・もう少し出てもよさそうな気もしますが、おかしいというほどではないかと思います。 単精度や32ビット整数の演算性能自体は、GTX560Tiはコア数とクロック的にGTX580の80%近くありますが、 それはピーク性能であって、SHA-1ハッシュの演算ではレジスタがそれなりに必要になります。 SM数とクロック的にはGTX560TiはGTX580の53%程度であり、 それぞれのSMの違いはコア数(と倍精度や特殊関数など)でレジスタ数に変化は無いので レジスタがネックでコアを使いきれていないのだと思います。 GF114はグラフィックよりではあると思いますが、GPGPUでもレジスタを大量に使うものばかりではないでしょうし 消費電力や値段を考えると、GPGPUにはベストではないけどそれなりにではないでしょうかね。 GK104はGPGPUにはピーキー過ぎてお勧めしませんけど・・・
849 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/13(木) 04:38:55.18 ID:Fj613XFy0] GK110買えそう 楽しみ
850 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 05:13:49.96 ID:sid26Nen0] >>848 なるほどなるほど… CUDA Toolkit 5.0に添付されているOccupancy Calculatorでは このあたりの事情が反映されていないようです。カーネルのレジスタ数は46〜48で Occupancyは42%なのでレジスタ数が特に多いというわけではないのですが、 これがボトルネックになっているのは確実ですね。
851 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 05:17:50.58 ID:sid26Nen0] >>849 Tesla K20ですか? いいな〜 買えたら是非報告をお願いします。
852 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 05:44:43.66 ID:sid26Nen0] >>838 パスワード解析に比べてトリップ検索ではキーの生成が比較的単純なので、 それをうまく利用してやれば速度は1〜2割上がる傾向があります。 GPUクラスタの場合はノード間通信がボトルネックにならないので 更に速くなるものと思われます。しかしもう12桁トリップだと9完以上でないと 危ないですねえ。
853 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/13(木) 05:52:42.00 ID:q8Aa1QZH0] >>852 いやいやいや あくまでも12桁ですから、キーを割られる危険という意味では何完であろうと関係はないです 我々のような好き者にとっては問題なんですが
854 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 07:25:01.97 ID:sid26Nen0] >>853 > あくまでも12桁ですから、キーを割られる危険という意味では何完であろうと関係はないです あ、「危険」と書いたのはそういう意味じゃないです。 トリップの場合はある程度一致すればなりすましができるので キーが割られなくても十分危ないんですよね。トリップが一致しているか どうかを判断しているのは一般のユーザーで、普通の人はわざわざ 12桁目まで細かく確認しているわけではありません。ここらへんは普通の パスワードとはぜんぜん違うところです。
855 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 08:47:43.45 ID:sid26Nen0] 今唐突に12桁トリップのCPU検索を高速化するアイディアを思いついたん ですけど、1月の中旬まで帰省しているので実装はそれまでおあずけです。 残念… なんでMTFのCPU検索がSHArp Tripperやhip2に比べて遅かったのか 不思議で仕方がなかったんですけど、よく考えたら普通のSHA-1の ルーチンを使いまわしてたせいで、SSE2のレジスタをトリップ検索に 特化した形で効率的に使用していなかっただけでしたw 1個のハッシュの生成を高速化するより、SSE2の128bitレジスタを使って 4個同時に生成したほうが速いに決まってますよねえ。
856 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 09:05:24.37 ID:sid26Nen0] あと、よく考えたらキーの動的生成とBitslice DESのルーチンの動的書き換え ( >>712-713 )で10桁トリップのCPU検索も高速化できることに気づきました。 なんで時間のないときに限って面白い考えを思いつくんだろうorz
857 名前:ののたん ◆KiwamonoL. mailto:sage [2012/12/13(木) 13:36:10.93 ID:rNLBcKX70] >>855 えっ!? SIMD ってなかったの!(SIMD るってなんだよ。w まさか、Radeon でもやってないとか・・・・・。 ソースを読んでみる気は無い。www あとまあ Hashcat 知ってるんなら知ってるかもしれんが。 ttps://hashcat.net/p12/js-sha1exp_169.pdf
858 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/13(木) 16:42:37.91 ID:tgXDqPZ80] もうこれはMERIKENさんにメチャクチャ頑張ってもらうしかない展開
859 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 17:01:04.69 ID:sid26Nen0] >>857 SSE2を使ってるルーチンを拾ってきたんですけど、 ベクター化されてないのであんまり速度が出てなかったみたいです。 RadeonのほうはCUDA版のベタ移植なのでそれこそなにもしていませんw OpenCLドライバが頑張ってるのでせう。Southern Islandsだとベクトル化しても あんまり意味ないみたいですし… 資料のほうはあとでありがたく読ませて頂きます。 これでさらなる高速化が出来るかもしれないですね。ぐへへへへ…
860 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 17:06:59.50 ID:sid26Nen0] >>858 明日の朝の飛行機の便に間に合わせるのに徹夜で荷物をつめはじめたところなので さすがに帰省前は無理ですw 来月を楽しみにしていて下さい。 家を出る前に0.07の安定版はうpしておきます。
861 名前: ◆YSRKENkO6Y mailto:sage [2012/12/13(木) 19:27:33.63 ID:tgXDqPZ80] >>806 です。 検索作業をサポートするソフトをリリースしてみます(実験版だけど)。 依頼を検索パターンに変換したり、特定パターンを自動生成したりできます。 良かったらどうぞ。 www1.axfc.net/uploader/so/2713626.zip
862 名前:名無しさん@お腹いっぱい。 [2012/12/13(木) 19:51:21.07 ID:DyqVV5mA0] レジューム機能がほしいです
863 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/13(木) 21:20:16.88 ID:tgXDqPZ80] >>862 なんで検索空間>>酉空間なのにみんなレジューム機能が欲しくなるんだろうな……いや俺も思ってたことあったけど 自動実行と自動保存はAlpha 7で既に実装されてるから除くとして
864 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/13(木) 21:44:28.47 ID:sR2+e44BP] Radeon HD8000シリーズ楽しみすぎる
865 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 23:04:23.15 ID:sid26Nen0] バージョン0.07の安定版です。 MERIKEN's Tripcode Finder 0.07 www.meriken2ch.com/programming/merikens-tripcode-finder Alpha 7からの変更点は以下になります。 ・OpenCLドライバがインストールされていないと起動できないバグの修正。
866 名前: ◆MERIKEN4.k mailto:sage [2012/12/13(木) 23:06:06.40 ID:sid26Nen0] 飛行機の時間ギリギリなってしまったのでレスはまた明日させて頂きます。 それではまた〜
867 名前: ◆YSRKENkO6Y mailto:sage [2012/12/15(土) 21:07:08.23 ID:GRSKcena0] >>861 の更新版、「検索人の友 Ver.0.6」のお知らせ。 待て屋・SHArp・MERIKENの検索パターンを相互変換することができます。 (リンクはikura.2ch.net/test/read.cgi/qa/1321792877/667 に貼りました)
868 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/16(日) 17:19:41.64 ID:V5+y2FbN0] 「検索人の友 Ver.0.8」のお知らせ。検索パターンと検索速度から、出現予定時間を算出する機能を追加。 (リンク:ikura.2ch.net/test/read.cgi/qa/1348736616/317 に記載)
869 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/17(月) 06:52:14.80 ID:NsR6YqHWP] SHA256ハッシュを取ると全てのビットが0になるキーが知りたい
870 名前: ◆MERIKEN4.k mailto:sage [2012/12/17(月) 08:16:44.48 ID:obM+cmx70] >>862 レジューム機能は原理的に無理ですけど、 累計を保存する機能は近いうちにつけておきます。
871 名前: ◆MERIKEN4.k mailto:sage [2012/12/17(月) 08:32:18.59 ID:obM+cmx70] >>868 依頼変換は便利そうですね。スレから依頼を直接引っ張ってきたり、 「大小区別指定」をチェックボックスにして条件を複数同時に指定できると もっと便利かもしれません。帰省中で今は検索用のPCが使えない状態なので、 来月の中旬頃にはもっと詳しいことが書けると思います。
872 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/17(月) 16:23:37.32 ID:ilzoh/XC0] >>871 依頼引張り→依頼者が「正しい」形式で依頼してくるかが未知数という問題が・・・ 全部まとめたシステム的なものはムズカシイけど、コピペから自動認識程度なら検討可 チェックボックス→次のバージョン(Ver.2.0)で対応予定。 Ver.1.0に更新のお知らせ: ikura.2ch.net/test/read.cgi/qa/1348736616/320
873 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/17(月) 20:47:36.05 ID:tgzVEmdn0] >>869 なんでSHA256? 2chの12桁はSHA1だと思ったが…… 仮に2chのトリップがSHA256に対応したとして、BASE64で000000はAなのでAのx完のトリップになると思う
874 名前:名無しさん@お腹いっぱい。 [2012/12/25(火) 16:10:43.34 ID:8ibvVCIr0] おつかれさまです 現行では10酉探索にはradeonが使えないってことですが いつか改善される予定ってありますか?
875 名前: ◆MERIKEN4.k mailto:sage [2012/12/27(木) 14:10:32.77 ID:mxDEJqWX0] >>874 一応7xxxシリーズ限定で使えるものがほとんど出来上がっているんですけど、 速度に満足できないので公開を見合わせている状況です。 今考えているのはAMD ILをいじってレジスタ数の割付を最適化することです。 またまとまった時間が取れるようになったら色々試してみる予定なのでしばらく お待ちください。
876 名前: ◆YSRKENkO6Y mailto:sage [2012/12/27(木) 20:41:02.20 ID:dIBogKe10] 自作ソフトウェアの更新のお知らせ。ぜひお試しを。 [検索人の友 Ver.2.0] このソフトは、以下のような作業を自動化します。 ・検索依頼の各種形式への変換 →依頼スレでのテンプレに準拠。各種形式に変換して表示できます。 今回は大小指定の複数指定に対応。全大と全小を同時表示、なんてこともできます。 ・特定パターンの検索ワードの自動生成 →「純・準X連」「全数」「二構」「飛石」「最長」「最短」といったパターンの検索 ワードを自動的に作成します。10桁(待て屋)、12桁(MERIKEN)両方に対応。 ・各種トリップ検索ワードの相互変換 →「まあ、待て屋。」「SHArp Tripper」「MERIKEN's Tripcode Finder」の 3種類の検 索ソフトの検索ワードを互いに変換します。今回は「*」「+」といったパターンや、 「(|)」にて|が二つ以上の場合にも対応。 ・任意の検索ワードに対する出現確率を計算 →上記 3種類の検索ソフトでの検索ワードと検索速度を入力すると、発見予定時間を有 効数字4桁で表示します。発見予想順位を表示する機能も。 ・トリップテスト →10・12桁トリップをテストできます。生キー対応。 URL:www1.axfc.net/uploader/so/2732376.zip
877 名前: ◆YSRKENkO6Y mailto:sage [2012/12/27(木) 21:45:32.82 ID:dIBogKe10] 参考画面キャプ: blog-imgs-52.fc2.com/y/s/r/ysrken/tf2nd.png
878 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/28(金) 07:15:58.38 ID:LSB18vp7O] 俺はHD5750なので、7xxx限定だと寂しい。
879 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/28(金) 10:11:27.22 ID:btW3tXEk0] そんなグラボ使ってもゴミみたいな速度だからさっさと7990買った方がいい
880 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/29(土) 15:30:34.93 ID:QBY9tjiXO] CPU単体より速いし。
881 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/30(日) 17:08:22.25 ID:283bEnYe0] ハイエンドグラボだと暖房つけなくていいし。
882 名前: ◆MERIKEN4.k mailto:sage [2012/12/30(日) 21:35:19.18 ID:3b9pWfKV0] >>876 お疲れ様です。チェックボックスに対応して下さったんですね。 ありがとうございます。
883 名前: ◆MERIKEN4.k mailto:sage [2012/12/30(日) 22:01:34.70 ID:3b9pWfKV0] >>878 自分も5770を持ってるので対応したいのはやまやまなんですけど、 性能を出そうと思ったら最適化を1からやりなおして相当頑張らないと だめでしょうね〜 OpenCLじゃなくてAMD ILで書かないとうまくいかないと思います。 方法がないこともないみたいなんですけど、コードはGPU依存みたいだし 実際どうなんでしょうねえ。 AMD IL openwall.info/wiki/john/development/AMD-IL
884 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/31(月) 00:33:06.19 ID:5dWhV9Q+O] いや性能を出す必要はなく、動作すればいいのですよ。 CPUと併用すれば、単体より絶対速くなるしね。 勿論、速い方がいいけど、所詮5750だし。 パフォーマンスアップは、ソフトじゃなく ハードでやるべき。
885 名前: ◆YSRKENkO6Y mailto:sage [2012/12/31(月) 02:23:57.88 ID:FP3iWdXs0] >>882 MERIKENさんが帰ってきた、だと・・・!? >>884 同意 パフォーマンスに拘るのはCOOLだと思うけど、 ちゃんと動くものがあればあるだけ欲しいと思う層もいるのですよ
886 名前: ◆MERIKEN4.k mailto:sage [2012/12/31(月) 06:11:35.03 ID:awFOsDcV0] >>884 7970用のルーチンも一応5770でも動きますけど、CPUよりずっと遅いですよ。 GPGPUの最適化は難しいのです。
887 名前: ◆MERIKEN4.k mailto:sage [2012/12/31(月) 06:32:32.71 ID:awFOsDcV0] >>885 その「ちゃんと動」かすのが10桁トリップ検索の場合結構大変なんですよ。 ソフトウェアの最適化なしだったらGPUでもせいぜい2〜3M TPSといったところで、 ここから数十M TPSまで持って行くにはGPUのアーキテクチャに合わせてかなり いろいろ工夫しないといけないのです。
888 名前: ◆YSRKENkO6Y mailto:sage [2012/12/31(月) 07:57:11.86 ID:FP3iWdXs0] >>887 >2〜3MTPS そうなのか・・・勉強になります 私の自作ツールの場合スクリプト言語で書かれたものですので 最適化とか心配しなきゃならないものでもありませんゆえ Ver.2.0では正規表現の再現度を上げるのが大変だた・・・よく「*」「+」の展開法思いついたなあの時の俺
889 名前: ◆MERIKEN4.k mailto:sage [2012/12/31(月) 08:42:39.52 ID:awFOsDcV0 BE:1862028274-2BP(12)] 正規表現は結構めんどくさいですよね。 あと、ご自分のツールのお話は新しくスレを立ててそちらでされてはいかがでしょうか。
890 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/31(月) 08:57:16.76 ID:eH5h6/ri0] 追い出されててワロタw
891 名前:名無しさん@お腹いっぱい。 mailto:sage [2012/12/31(月) 10:07:06.18 ID:o6b6oLP20] 待て屋スレ過疎ってるからそっちでいいんじゃね
892 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/02(水) 08:30:53.92 ID:EBbdMn+A0] コレって 先頭から1234・・・・・・・みたいな場合はどうすればいいの?
893 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/02(水) 10:34:58.70 ID:j1GWXSL70] どうするじゃない、ちゃんと詳しく書け。 子供かお前は、人に伝える努力をしろ
894 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/02(水) 12:57:32.84 ID:EBbdMn+A0] ◆1234******** みたいなトリップがほしいのですが 正規表現だけだと ◆**1234******** とかになってしまうので 希望の文字を先頭に持ってくる方法を教えて下さい
895 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/02(水) 14:19:05.98 ID:B+O8PAt80] ^ググれよwww.mnet.ne.jp/~nakama/regexp2.html
896 名前: ◆YSRKENkO6Y mailto:sage [2013/01/02(水) 15:57:36.42 ID:dPGu+6vs0] >>892 このソフトの文法から言えば、 ---------- #regex ^1234 ---------- か、 ---------- #noregex 1234 ---------- でいい
897 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/02(水) 23:11:07.52 ID:EBbdMn+A0] >>895 −896 ありがとうございます
898 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/03(木) 19:09:59.78 ID:ACm8OTnP0] HD7750 だとどのくらい出てるんでしょうか。
899 名前: ◆MERIKEN4.k mailto:sage [2013/01/03(木) 20:27:04.29 ID:uL2cvRSF0 BE:4256064588-2BP(12)] >>898 7750での報告はなかったはずです。コア数が7970の1/4なので、 クロック周波数の差を考え合わせると12桁トリップ検索で450M TPSぐらい じゃないでしょうか。
900 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/04(金) 08:22:04.31 ID:3pwj0oYQ0] >>899 今使ってる HD6670 だと 267M くらいなので 1.6倍かー
901 名前: ◆MERIKEN4.k mailto:sage [2013/01/04(金) 11:11:20.94 ID:9q/aQkBO0] 時間ができたので>>857 の資料を読んでみました。MTFではトリップのキーの 長さは12桁に決め打ちしてしまっているのでかなりの速度向上が期待できそう です。資料では最適化の結果命令数が21%減ったとのことでしたが、もう ちょっと減らせるかもしれません。 それにしても、やっぱりソフトウェアの最適化についてあれこれ考えるのは 面白いですねえ。工夫一つで性能が数割から数倍に向上するのが GPGPUの醍醐味ですしね。
902 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/04(金) 17:52:21.79 ID:vJlizUDg0] >工夫一つで プログラミングの腕って結局そこに結実するんでしょうな…… 上手くSIMDやGPGPUが決まった時の快感は異常
903 名前: ◆MERIKEN4.k mailto:sage [2013/01/05(土) 21:57:03.78 ID:7v0sXuCV0] >>902 ですよね〜 GPGPUにはなんとも言えない緊張感があります。
904 名前: ◆MERIKEN4.k mailto:sage [2013/01/05(土) 22:15:46.12 ID:7v0sXuCV0] >>857 の資料の内容は大体理解できました。要はSHA-1のブロックの最初の ワード以外を決め打ちにして計算の手間を省こうという話で、トリップ検索に そのまま応用できることがわかりました。PW[]を定数の配列にして CPU側であらかじめ計算してからカーネルに渡せばいいはずです。 これはかなり楽して速度が稼げる美味しい話みたいです。
905 名前: ◆JouJaku.HzIz mailto:sage [2013/01/09(水) 21:26:57.90 ID:htgpuiWN0] >>839 「QuadroにGeForceが合わないなら、Teslaを使えばいいじゃない。」 【GPU】Tesla K20c 【CPU】XeonX5680@3.33GHz x2 【OS】Win7Pro64SP1 【Ver】0.07 【Len】12 【BLK/SM】256 【Opt】-c -g -x 256 【Drv】310.70 【15minAv】777.25 MTPS 【GPU Av】705.03 MTPS 【CPU Av】72.22 MTPS 【GPU Ld】- 【GPU Tmp】- 【Oth】HT off, QuadroはCUDA off
906 名前: ◆JouJaku.HzIz mailto:sage [2013/01/09(水) 21:29:11.42 ID:htgpuiWN0] 今回はエラーも出ずに正常に動きました。 K20cはCPU負荷がGeForce5xxに比べて大きく、1枚でX5680の1コアを使い切る位です。 Open Hardware MonitorもGPU-ZもK20cにはまだ対応してないので、GPUの負荷や温度は分かりません。 整数演算はこんなものですかね。もう少し頑張って欲しかった。(´・ω・`)
907 名前:名無しさん@お腹いっぱい。 mailto:sage [2013/01/10(木) 16:57:35.57 ID:d1+F/txNP] IDにgpu
908 名前: ◆MERIKEN4.k mailto:sage [2013/01/12(土) 14:28:42.75 ID:rJVHMMLY0] >>905-906 報告ありがとうございます。Tesla K20cにしてはちょっと遅いですねえ。 CC 3.5用のバイナリを実行ファイルに埋め込めば速くなるのかもしれませんが、 Toolkit 5.0を使うと他のカードでの速度が露骨に遅くなってしまうのが 悩みの種です。NVIDIAのカードでもOpenCL版を使えるように出来ないか 検討してみます。