OpenMPプログラミング

OpenMPプログラミング ..

133:デフォルトの名無しさん
07/12/05 05:51:33
>>119の方法で
VC2005ExpressEditionで使えるようになったはいいんだけど
forループの所に
#pragma omp parallel for
ってやっても
error C3005: ';' : OpenMP 'parallel' ディレクティブでは予期しないトークンです
とかいうエラーが発生して使えないんだけど何故なの？？

#pragma omp parallel sections
とか他のは通るけど，forループのだけどうしても使えん・・・

#pragma omp parallel
{
#pragma omp for
・・・
}
にすると
error C3001: 'if' : OpenMP ディレクティブ名が必要です
って言われる

134:デフォルトの名無しさん
07/12/17 18:47:08
>133
#pragma .. の行末に ';' がついてるとかいうオチだったら素っ裸で町内１周してこい

135:デフォルトの名無しさん
08/01/04 15:12:19
すでにあるプログラムをOpenMP化しようと思うのですが、以下のような場合にfuncがスレッドセーフで再入可能であれば問題ないですか？
#pragma omp for
for(int i=0;i<100000;i++)
{
func(i);
}

136:デフォルトの名無しさん
08/01/04 15:53:58
問題ないです
func()の定義が別ファイルでもおk

137:デフォルトの名無しさん
08/01/04 16:38:48
>>136
ありがとうです。
OpenMPはSMPで使う分にはかなり便利ですね。

138:sage
08/02/06 21:13:32
IntelFortran10.0で数値解析やってるんですけど
サブルーチン内で並列化領域をつくるのと
サブルーチンごとメインに展開して並列化領域つくるのとで
並列化時の速度が異なったり(逐次だとほぼ一緒)
逐次計算部分にある並列化と関係ないサブルーチンを
コメントアウトするかしないかで並列化時の速度向上が変わります。
並列スレッドのスタックサイズとかの問題なんでしょうかね。　

139:デフォルトの名無しさん
08/02/06 22:02:55
速度や速度向上が具体的にどう違うの？

140:デフォルトの名無しさん
08/02/07 00:50:56
まず、各CPUに処理が効率よく割り振られているか、CPUの負荷率を見てみたらいいんじゃないか？

141:デフォルトの名無しさん
08/02/13 15:49:52
VC++2008でコンパイルするとVCOMPD.libが無いというエラーが出ます。
VCOMPD.libはどこで手に入りますか？

142:デフォルトの名無しさん
08/02/13 16:40:58
>>141
VS2005だとPro版以上でサポート。VS2008も同じだと思う。

143:デフォルトの名無しさん
08/02/13 20:12:04
>141
vcompd.libはProfessional版以外手に入れる方法はない。

ただしリリースビルド版のライブラリであるvcomp.libは
Windows Server 2008 SDKをインストールするとゲットできる。

デバッグビルドでもリリースビルドのライブラリ(vcomp.lib)を
リンクする設定にするとExpressでもOpenMPが自由に使用可能。

144:デフォルトの名無しさん
08/02/15 14:05:13
たとえば、ソケットのread/writeのwait待ちをやっているslect(poll)のようなもので
while(1)
#pragma omp parallel sections
{
#pragma omp section
read後その処理
#pragma omp section
write後その処理
}
で、ここで、暗黙のwaitがかかると思われるが、select的な使い方って、出来る？

sectionの跡にnowaitをいれといたらよいだけ？

145:デフォルトの名無しさん
08/02/15 14:26:50
nowaitを入れた場合、どのスレッドが生き残るのでしょうか？
それとも、並列実行するところはすべて子スレッドで、実行中のスレッド数が最大より1少なくなった時点で
メインスレッドが継続されるのでしょうか？

146:デフォルトの名無しさん
08/02/15 16:42:54
read/writeのtimeoutを入れておけば、なんとかなりますか。
しかし、openmp（のsections）では、スレッドは、死にますか？
一応、処理が終われば、lockが外れるだけでしょう（gccの実装ではそのようです）

147:sage
08/03/01 00:47:47
スレッドプロファイラー使ってる人居るかな。
あのREGIONS　VIEWの各リージョンの範囲はなにで決まってるの?
同期から同期の間かと思ってたんだけどソースの位置みるとちがうっぽい。
最適化オプションのせいでソースとの対応がとれなくなってるのかしらん。

148:１３８
08/03/04 19:19:48
chkstkという関数に要する時間が
OpenMPにすると凄まじく増えているのが原因のようでした。
関数に引き渡す配列が多すぎなのか。

149:デフォルトの名無しさん
08/04/06 10:57:30
>>148
私もintel fortran10+mkl+openmpで数値計算しています
openmp初心者の私は、intelのopenmpのドキュメントを参考にしました。

parallel do ,sections ,reduction,privateあたりしか使っていませんが、オリジナルの
プログラムのマルチスレッド化は割と簡単に出来、計算時間も「ほぼ」スレッド数倍
にできました。
（当然ですがparallel region部分です。プログラム全体ではありません）

そもそもchkstkは並列処理できるかどうかを検討してはどうですか。
各スレッドで相互参照するのであれば、reduction宣言等が適切であれば問題ないはず。

150:デフォルトの名無しさん
08/04/09 22:52:21
>>148
関数のエントリ近辺で chkstk が呼び出され、必要に応じてスタックが拡張される
（実メモリが割り当てられる）わけですが、シングルスレッドの場合は一度拡張された
スタックはもちろん再利用されるので負荷が軽いわけです。

スタックはリニアなアドレスに(ページング機構を用いて)メモリを割り当てる必要があるため、
割り当てられたページを再利用できない場合には時としてヒープよりも確保・解放が重い
メモリとなります。マルチスレッドでスタックが頻繁に成長するような場合には、メモリを
スタック上に取るのをやめて、std::vector などを用いてヒープから確保した方がよいと
思います。

たどたどしい説明になってしまった。

151:デフォルトの名無しさん
08/05/12 19:46:23
・アプリケーションAが、calc1.dll と calc2.dll を呼んでいる
・calc1.dll と calc2.dll は共に IntelCompiler で OpenMP を使って並列化
・calc1.dll のルーチンは問題なく呼べる
・calc2.dll のルーチンを呼ぶと、

　　OMP abort: Initializing libguide.lib, but fount libguide.lib already initialized

　を表示して落ちる／(^o^)＼

ネットを漁ってみて、環境変数 KMP_DUPLICATE_LIB_OK を TRUE にしてみたり
libguide.lib の代わりに libguide40.lib を使ってみるも効果なし

複数の DLL が Intel の OpenMP 使ってるとアウト？
そうなると DLL じゃ使えねーってハナシになるんですが・・・・

152:デフォルトの名無しさん
08/05/19 17:00:29
>>143
Windows Server 2008 SDKにvcompd.libも入ってるみたい。

153:デフォルトの名無しさん
08/07/19 15:25:36
GCCで4.3.1でOpenを利用するためのconfigureオプションを教えてください。
makeしてインストールしたgccを利用すると#include <omp.h>で
ファイルが無いと言われて困ってます。
gcc-4.3.1\libgomp\omp.h.in
は存在するのですが、どうすればいいのでしょう？configureは
./configure --enable-threads=win32 --with-system-zlib で行いました。

154:デフォルトの名無しさん
08/07/19 15:30:42
Open => OpenMPのミスです。

155:デフォルトの名無しさん
08/07/19 16:30:35
OpenMPが使えるGCCを自前でビルドしたことはないけど
MinGW用のGCC 4.3.0でgcc -vとしてバージョンを表示させると
configure時のオプションがずらっと表示される。

> gcc -v
Using built-in specs.
Target: mingw32
Configured with: ../gcc-4.3.0/configure --enable-languages=c,ada,c++,fortran,java,objc,obj-c++
--disable-sjlj-exceptions --enable-shared --enable-libgcj --enable-libgomp --with-dwarf2
--disable-win32-registry --enable-libstdcxx-debug --enable-concept-checks
--enable-version-specific-runtime-libs --build=mingw32 --with-bugurl=URLﾘﾝｸ(www.mingw.org)
--prefix=/mingw --with-gmp=/mingw/src/gcc/gmp-mpfr-root --with-mpfr=/mingw/src/gcc/gmp-mpfr-root
--with-libiconv-prefix=/
mingw/src/gcc/libiconv-root
Thread model: win32
gcc version 4.3.0 20080305 (alpha-testing) mingw-20080502 (GCC)

参考までに。

156:デフォルトの名無しさん
08/08/29 10:56:03
OpenMPを使って一次元配列から最大値、最小値を求める方法を教えてください。

157:デフォルトの名無しさん
08/08/29 13:00:28
reductionにminやmaxは無いんだよな。
俺はスレッド数を取得して解決した気がする。
大雑把に書くとこんな感じ。

int n_thread = omp_get_num_threads();
int imin = INT_MAX;

#pragma omp parallel for shared(imin, array)
for ( int j = 0; j < n_thread; ++j ) {
int imin_ = INT_MAX;
int offset = size/n_thread*j;
for ( int i = offset; i < offset+size/n_thread; ++i ) {
imin_ = min(imin_, array[i]);
}
#pragma omp critical
{
imin = min(imin, imin_);
}
}

158:デフォルトの名無しさん
08/08/30 07:56:40
俺が　mingw用　gcc4.3.2をビルドしたときのコマンド　configureとmakeの行は実際は1行
------------- configure_gcc.sh -----------------
#!/bin/sh

export LC_ALL=C

../source/gcc-4.3.2/configure --prefix=/mingw --host=mingw32 --build=mingw32
--target=mingw32 --program-prefix="" --with-as=/mingw/bin/as.exe
--with-ld=/mingw/bin/ld.exe --with-libiconv-prefix=/mingw --with-gcc
--enable-libgomp --with-arch=i686 --with-tune=generic --with-gnu-ld
--with-gnu-as --enable-threads=win32 --disable-nls
--enable-languages=c,c++,objc,obj-c++,fortran --disable-win32-registry
--disable-shared --with-dwarf2 --disable-sjlj-exceptions
--enable-cxx-flags='-fno-function-sections -fno-data-sections'
--enable-version-specific-runtime-libs --enable-hash-synchronization
--enable-libstdcxx-debug --disable-bootstrap --with-bugurl=URLﾘﾝｸ(www.mingw.org)
---------------------------------------------

------------- make_gcc.sh ---------------------
#!/bin/sh

export LC_ALL=C

make BOOTCFLAGS="-O2 -D__USE_MINGW_ACCESS" CFLAGS="-O2 -D__USE_MINGW_ACCESS"
CXXFLAGS="-O2 -mthreads" LDFLAGS="-s -Wl,--stack=0x2000000" 2>err.log
----------------------------------------------

159:デフォルトの名無しさん
08/08/30 14:04:15
>>157
> reductionにminやmaxは無いんだよな
あれ、あったと思うけど・・・。
reduction(min:unko)
とか。Fortran でしか使ったこと無いけど。
でもどのアドレスでminだったか、とかを取得したいときは
結局 shared にしちゃうんだけどね。

160:デフォルトの名無しさん
08/08/30 14:19:32
C/C++だとmin/maxは演算子どころかビルトイン関数ですらないから無理だと思う。

161:159
08/08/30 17:17:59
>>160
そうなんだ。Cはバイナリをどうしても読みたいときにいやいや
使う程度だから知らなかったよ。
でもFortranでもmin,max関数はあまり使われないんだけどね。
１５６のがFortranでよかったら、

unkomin = 1.0e+10
unkomax =-1.0e+10
!$omp paralell do private(i,a) shared(unko)
!$omp& reduction(min:unkomin) reductionmax:unkomax) shared(unko)
do i = 1, 100
a = unko(i)
if (a .LT. unkomin) unkomin = a
if (a .GT. unkomax) unkomax = a
enddo
!$omp end parallel do
write(*,*) unkomin,unkomax

みたいな感じでいけると思うよ。いまコンパイラ使えないからチェックできないけど。
非OpenMPでコンパイルしてもちゃんと動く・・・はず。

162:159
08/08/30 17:19:44
reductionmax は reduction(max ね。

163:デフォルトの名無しさん
08/09/04 22:56:21
２次元配列変数は、reductionで使えないんでしたっけ？

164:デフォルトの名無しさん
08/09/07 13:20:49
NG。
ifortは出来た気がする。

165:デフォルトの名無しさん
08/09/07 13:26:10
#pragma omp for
#pragma omp parallel for

てなにが違うの？

166:デフォルトの名無しさん
08/09/07 17:53:44
#pragma　omp　for　は　#pragma　omp　parallel　ブロックの中に書く必要があるが、
parallelブロックにforブロックが１つのことも多いので
#pragma　omp　parallel　for　でまとめて書けるようにしてある。

167:デフォルトの名無しさん
08/09/09 22:58:56
なるほど。

168:デフォルトの名無しさん
08/09/16 07:09:33
>>143　>>68
スレチな質問で申し訳ないのだけどdllをリンクする設定を
教えて頂けないでしょうか
>>119を参考に
WindowsVista+Visual Studio2005 standardで
Microsoft Windows Software Development Kit for Windows Vistaと
vcredist_x86.exeでReleaseのビルドは通るようになった

で>>68を参考に
インストーラーを作ってみたのですが
C\ProgramFiles\Microsoft Visual Studio 8\VC\redistに入ってしまい
winsxsには入ってくれません…

169:デフォルトの名無しさん
09/01/21 13:22:31
並列化前後で答えが変わってしまいます。どこがおかしいのでしょうか？

//画像上でランダムで数点選んできた線との距離が最少になる座標を算出
#ifdef _OPENMP
#pragma omp parallel for private(data,x,y,a,b,i,error)
#endif
for(j=0;j<KURIKAWSIKAISUU;j++){
better_error[j] = 1000;//距離初期化
for(y=100;y<=HEIGHT-100;y++){
for(x=100;x<=WIDTH-100;x++){
error = 0;
get_randum_number(data); //ランダムでデータNo.を選択

for(i=0;i<ITIDONIERAZUKAZU;i++){
error += abs(y - a[data[i]]*x - b[data[i]]) / sqrt(1+pow(a[data[i]],2));
}
error /= select;
if(better_error[j] > error){
better_error[j] = error;
ans[j].x = x;
ans[j].y = y;
}
}
}
}

170:デフォルトの名無しさん
09/01/21 14:08:01
よくわかんねけど
get_randum_number
で配列dataにはいる乱数が変わるからじゃね？
たぶん呼ばれる順番が並列と１CPUのときで違うだろうから。

ループ内で乱数つくらないで、でかい乱数用の２次元配列
data0[KURIKAWSIKAISUU][ITIDONIERAZUKAZU]
をループが始まる前に「並列処理しないで」作ってから
(配列data0をshared属性付けて)ループ処理するといいかも。
計算は遅くなりそうだけどね。

171:デフォルトの名無しさん
09/01/21 14:12:47
んでループ内で乱数生成してた部分は
for (i=.....){data[i]=data0[j][i];}
と乱数値の複製に置き換える、と。

172:169
09/01/26 11:03:50
>170
>171
ありがとうございます。
いただいた意見を参考に修正し、できたらご報告します。

173:デフォルトの名無しさん
09/01/26 11:33:59
マルチスレッドでrand()使うと全然ランダムじゃないデータが出てくるよ

174:デフォルトの名無しさん
09/01/26 12:52:37
rand_r

175:デフォルトの名無しさん
09/02/24 20:57:22
gcc-4.3 で OMP を使い始めました。初心者で正しい使いかたをしている
かどうか判然としません。/proc/cpuinfo で cpufamily 6, model
23 (Harpertown と呼ぶらしい)と表示されるXEONでは確かに速くなるので
すが、cpufamily 15 model 4 (Nocona と呼ぶらしい) では非常に遅くな
ります。これは正しい振る舞いでしょうか。時間は
clock()/CLOCKS_PER_SEC; で測っていますが、これで正しい判断ができる
のでしょうか? 並列化すれば速くなる速度のネックになっている部分を
探す方法はあるのでしょうか? 並列化できるかどうか判然としない部分
を並列化可能なコードに書き直してくれるようなソフトはないでしょうか?

176:デフォルトの名無しさん
09/02/24 23:13:22
どうせNoconaの方はデュアルCPU構成じゃなくてしかもHT無効というオチだろ。

177:デフォルトの名無しさん
09/02/25 00:35:19
Nocona の /proc/cpuinfo は
processor : 0
..
processor : 3
vendor_id : GenuineIntel
cpu family : 15
model : 4
model name : Intel(R) Xeon(TM) CPU 3.80GHz
stepping : 3
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca
cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx
lm constant_tsc pebs bts nopl pni monitor ds_cpl est tm2 cid cx16 xtpr

となっています

178:デフォルトの名無しさん
09/02/25 23:58:19
環境変数 OMP_NUM_THREADS などでスレッド数を指定してますよね。
明示的に指定しないと環境によってスレッド数が1になったりコア数になったりします。

きちんと並列実行できているのに 4-way Nocona で並列性能が出ないとすると
応用依存の問題かと。例えばメモリ帯域幅がネックになっているのかも知れません
（Harpertown ではメモリ帯域幅が足りていて Nocona では足りていないとか）。
どういう計算をしているのかを書くともっと直接的なアドバイスが得られるかもです。

計時の仕方はそれでいいと思います。精度が気になるなら RDTSC について調べると良さげ。

速度のネックになっている部分は、皆目見当がつかないならプロファイラが利用できます。
GCC なら -pg オプション付きでコンパイル、プログラム実行後に gprof コマンドを使って
統計情報を得ます。

時間のかかっている部分が分かったとしてそれを並列化して高速化できるかは別問題。
OpenMP はループを分割して並列化するのがお手軽で効果的ですが、
それができるのはループ間にデータの依存関係がない場合です。
a[i] += a[i-1] のように前後の反復の計算結果を利用したり、
配列の同じ要素に書き込むといった処理がデータ依存性の典型例です。
データ依存関係がある場合はコードを書き換えないと普通は並列化できません。
このあたりは並列プログラミングの普遍的な課題で、対策はケースバイケースです。

自動並列化は研究レベルではよく聞きますが実用的なツールは寡聞にして知りません。
よい自動並列化ツールがあれば私も試してみたいです。

179:デフォルトの名無しさん
09/02/26 01:53:54
Intel C++ Compiler 11.0の自動並列化オプション(-parallel)でSPEC CPU 2006のいくつかのベンチマークが高速化しているが
実際のコードでどれだけ役に立つかは使ったことが無いのでわからない

180:デフォルトの名無しさん
09/03/07 23:30:29
OpenMPの効果を調べるため、同じコードを、gfprtranで二通りにコンパイルして実行してみました。
全然速くなりません。むしろ遅くなっています。実行方法やコードが間違っているのでしょうか？
gcc version 4.3.2 (Debian 4.3.2-1.1)

$ gfortran -fopenmp test.o -o test_omp.out
$ time ./test_omp.out
real 9m14.642s
user 3m51.902s
sys 4m22.468s

$ gfortran test.o -o test.out
$ time ./test.out
real 1m15.142s
user 1m14.809s
sys 0m0.340s

CPUは...(/proc/cpuinfoの抜粋)
model name : Intel(R) Pentium(R) D CPU 2.80GHz
cpu MHz : 2793.101
cache size : 1024 KB
cpu cores : 2

181:180
09/03/07 23:32:33
ソースコードは
module ompParam
use omp_lib
implicit none
!integer :: OMP_GET_NUM_THREADS
!integer :: OMP_GET_THREAD_NUM
integer :: myid ! thread ID
end module ompParam

program variation !(coeff, NUM)
!$ use ompParam
implicit none
integer :: i, j, k
integer :: maxI=1000, maxJ=100, maxK=1000
integer :: NUM
double precision, allocatable :: coeff(:,:)
double precision :: alpha ! random number

NUM=1000
allocate( coeff(NUM, maxK) )
coeff(:,:) = 0.0d0

182:180
09/03/07 23:33:54
（続き）
!$omp parallel num_threads(2) private(myid, i, j, k, alpha)
!$ !myid = OMP_GET_THREAD_NUM()
!$ !write(*,*) '(Number of threads in front of do)=', myid

open(unit=100, file='data.bin', form='unformatted', status='unknown')

!$OMP DO
do k = 1, maxK
do j = 1, NUM
do i = 1, maxI
call RANDOM_NUMBER( alpha )
coeff(j,k) = coeff(j,k) + alpha

!$ !myid = OMP_GET_THREAD_NUM()
!$ !write(*,'(3(A4,I3),A37,I2)') 'k=', k, 'j=',j, 'i=', i, 'Number of threads at the end of do:', myid
end do
coeff(j,k) = coeff(j,k) / maxI
write(100) coeff(j,k)
end do
end do

!$omp master
!$ !myid = OMP_GET_THREAD_NUM()
!$ !write(*,*) '(Number of threads after the do)=', myid
!$omp end master
!$omp end parallel
end program variation

183:デフォルトの名無しさん
09/03/08 14:53:53
gfortranは良くしらんけど・・
環境変数で使うＣＰＵの数を指定してみて。
setenv OMP_THREAD_NUM 2
とか。プログラム内で明示しているからいらない気もするけど、まあ
正確にはマニュアルで確認してね。

あとは、I/O(read,write文)はparallel文の外で
するのが吉。この例だと、open(100,....) と write(100)....は
!$omp end parallel
の後でする。ふつうI/OはプライマリのCPUが単独で担当させる方が安全。
同じファイルに複数のプロセスが書き込みしようとすると
順序の保証が無くなるのであとで使いにくいし、書き込みの順番待ちが
発生するのでのろくなる。

乱数代入のループだけなら1/2になっている可能性大。そうなら
作ったコードは一応OpenMPとして動作している・・・と思う。

184:180
09/03/09 17:16:44
>>183
ありがとうございます。実行シェルは作らず、そのまま
$time ./test_omp.out
という風にやっていました。これから実行シェルを作って見ようと思います。

あと、i/oを外に書いたら、確かに一割ほど速くなりました。
でも、それでも圧倒的にOpenMPは遅いです...

185:180
09/03/09 17:18:47
乱数を使わないプログラムだとOKでした！！

~/test$ /bin/csh ./testOMP_exec.sh
Normal version executing...
2.2u 0.0s 0:02.20 100.4% 0+0k 0+1584io 0pf+0w

OpenMP version executing...
2.1u 0.0s 0:01.14 190.3% 0+0k 0+1584io 0pf+0w

資源使用率190%！！乱数発生器がパラレルに対応していなかったようです。
アドバイス、ありがとうございました。

186:183
09/03/10 04:04:33
あ、そっか
乱数生成って種を使いまわすから、並列のときは最初に疑うべきだったね。
あまり役に立たなかったっぽいけど、
とりあえず、おめでとう。