gk210核心挖礦
㈠ 顯卡核心GK104與GK106有什麼區別嗎
GK104是當前開普勒架構的最高核心,8組SMX單元,1536CUDA,256bit顯存控制器,32光柵。
而GTX660ti則是閹割了一組SMX單元,流處理器變為1344個,與GTX670相同,位寬閹割為192bit,因此帶寬有明顯縮減,光柵也成比例縮減為24個。
而GTX660則是完整GK106核心,有5組SMX單元,960CUDA,192bit顯存控制器,24個光柵。可以看到GTX660與GTX660ti主要差別就是在CUDA數目不同。
真實性能差別沒有CUDA這么明顯,GTX660的高頻也彌補了性能差距,因此兩者也只是隔了一個檔次的性能差別20%而已。
應該說,當前GTX660的價格非常合理,非公版1500左右,GTX660ti非公版都在2000左右,公版的做工用料太渣。也即是兩者價格相差33%。考慮到兩者價格差,GTX660的性價比無疑更高。當然,談性價比無疑是在預算不是特別充足的前提下,如果樓主預算其實是夠的,那就上GTX660ti
㈡ 同樣的程序Tesla K80為什麼比GTX970慢
這個應該是他自身程序對於硬體的「貼合度」問題吧 你看看K80上跑GPU上是什麼狀態 GTX970上跑又是什麼狀態 用NV自帶的工具分析下就可以知曉了 關鍵是K80有沒有被充分利用。
Tesla K80架構很老了,是Kepler GK210,K80作為HPC用卡相比970這種游戲卡有著么幾大優點:,集成兩個GK210核心,但我猜你只用了其中一個。
nvprof一下,看看fp efficiency,或者手動算一下flops(2*m*k*n/runtime),sgemm對於大矩陣一般可以跑到90%+的peak performance,然後對比一下官方給出的gpu的peakperformance,1/3倍搏廳羨速雙精基拍度(GM204隻有1/32)。
但你跑的是SGEMM,不是伏輪DGEMM,所以並不會受益,Shared memory和Register file巨大,但如果你的程序這里不是瓶頸時也並沒有什麼卵用。
顯存多,同上,Cache/顯存ECC,為可靠性服務的,如果用不到上述優點,這核心跑SGEMM比970的GM204慢也不足為奇。