- 512 名前:デフォルトの名無しさん mailto:sage [2010/01/18(月) 22:00:36 ]
- GT200 Fermi
トランジスタ数 14億 30億 倍精度浮動小数点 30FMA Ops/clock 256FMA Ops/clock 単精度浮動小数点 240 512 シェアドメモリ(SM) 16KB 64KB L1メモリ 無し 48KB or 16KB L2メモリ 無し 768KB アドレス幅 32bit 64bit 複数のカーネル実行 無し 16個まで(GigaThredエンジン) *L1キャッシュ搭載 GT200では16KBのSMが32個あり、それぞれCUDAコアを8個割り当てられ、L1キャッシュが無し。 Fermiでは64KBのSMが16個。それぞれにCUDAコアが32個割り当てられ、SMから16KBか48KBのどちらかをL1キャッシュとして使用可能。 GT200に対して、3倍のSMと16KBのL1が使用可もしくは同じサイズのSMと48KBのL1が使用できるようになった。これにより、今までCUDA化できなかったプログラムの対応を増やし、さらに高速化もできる。 各CUDAコアに含まれるFPユニットは倍精度浮動少数演算を強化し、GT200に対し8倍の能力。 *L2メモリの搭載 グローバルメモリに対する高速化。 *C++をサポート *複数のカーネルの動作をサポート SM内部のパイプラインを強化。SFUが複数に分けられたのでタスクとデータをより効率化。スレッドスケジューラを2個。 *双方向PCIE通信 GT200ではPCIEバスの送受信をどちらか片方しか一度に実行できず、理論値8GB/s・実測4〜5GB/s程度だが Fermiでは双方向通信が可能になり12GB/sを実現 *新しいメモリコントローラ FermiよりGDDR5まで対応し、ECCにも対応する。 *コア内部を各部でモジュール化 設定された価格帯や用途ごとにコアを設計しなおさず、機能をカットオフしたり追加したりできる。 SM単位でCUDAのコアを減らしたり、D3DやOpenGLなどの固定ハードウェアが不要なTeslaなどでオフになったりする可能性もある。
|

|