CPU + GPU將開啟HPC新時代
越來越多的研究人員和商業(yè)組織開始利用GPU來完成大規(guī)模的計算,并開創(chuàng)了一個新的研究領域:基于GPU的通用并行計算。
發(fā)展到現(xiàn)在,HPC已經走上了平民化的道路。
一般HPC都是做超大規(guī)模的繁重計算,像大型工程、橋梁飛機制造以及氣象預報等方面的計算及應用,對浮點運算的要求比較高。AMD皓龍?zhí)幚砥髯龈↑c運算一直相當出色,64位、直連架構等特性都對H P C最終走向平民化起到了推動作用,像現(xiàn)在TOP500中Cray的超級計算系統(tǒng)采用的就是A M D的皓龍?zhí)幚砥鳌?/p>
目前,功耗和性能是困擾HPC的兩大難題。AMD 8/12核的皓龍?zhí)幚砥骺梢詾镠PC降低能耗,它可以根據(jù)不同的應用關掉無用的核心,當機房不夠大供電能力不夠強的時候可以對芯片進行功耗上限設置,或者通過降頻等技術來完成能耗的節(jié)省。
按照摩爾定律,CPU一般的更新?lián)Q代時間是18個月,也就是說它能夠在18個月后性能就可以翻一番。而GPU的更新速度是CPU的1.5倍,也就是說通常1 2個月的時間G P U的性能就翻了一番。大概五年前,CPU和GPU的晶體管數(shù)量是差不多的,而現(xiàn)在GPU的頂端產品大概可以擁有超過20億個晶體管,遠超過了CPU集成的晶體管數(shù)量。CPU里主要是做分支運算、預測等工作的,而在大規(guī)模并行尤其是數(shù)據(jù)并行計算領域,目前高端的GPU已經擁有了無與倫比的處理能力。
而且CPU里面大約有超過40%是運算單元,只有5%是邏輯單元,發(fā)展到現(xiàn)在,最快的CPU和GPU產品比較,在單精度32位計算上GPU的運算速度是CPU的50倍,64位運算上是10倍,快很多。此外在能耗上,一臺超級計算機一天就要消耗2萬元的電,如果用GPU整個規(guī)模就可以降低。同樣的計算能力,GPU可以把能耗降到1/5或不到一半的規(guī)模。
傳統(tǒng)的GPU由于缺少通用的高級編程語言的支持,很難做編程,所以一般很少人用。但隨著通用計算設備上的統(tǒng)一、開放標準OpenCL的推出和不斷發(fā)展完善,用戶利用GPU做通用計算從實現(xiàn)的角度來說變得越來越容易了。而且如前文所述GPU的每瓦性能又確實很高,所以,越來越多的研究人員和商業(yè)組織開始利用GPU來完成大規(guī)模的計算,并開創(chuàng)了一個新的研究領域:基于GPU的通用并行計算。
目前已成功應用于氣象模擬、基因工程、石油勘探、運動規(guī)劃、代數(shù)運算、優(yōu)化計算、偏微分方程、數(shù)值求解、流體模擬、數(shù)據(jù)庫應用、頻譜分析等領域,也包括圖形圖像處理、金融統(tǒng)計預測、智能信息處理系統(tǒng)、數(shù)據(jù)挖掘工具等商業(yè)化應用。同時,也產生了一些針對G P U開發(fā)的通用計算工具包,能夠基于GPU平臺對FFT、BLAS、排序及線性方程組求解等科學計算進行優(yōu)化實現(xiàn),與單純依靠CPU實現(xiàn)的算法相比,平均性能提高了近20倍。
AMD于2006年成功整合了ATI,所以利用GPU做通用計算的技術有著得天獨厚的優(yōu)勢。目前高端GPU雖然有很強的計算能力,但很多時候由于受PCIE總線帶寬的限制,CPU和GPU之間大規(guī)模的數(shù)據(jù)交互就成了很多高性能計算任務的瓶頸。
為此,AMD推出融合了CPU和具有通用計算能力GPU的產品—Fusion APU。目前開發(fā)的產品主要用于筆記本、臺式機和平板電腦等,相信未來也可以將類似技術遷移到服務器平臺。全新的APU架構完美解決了原有平臺架構中CPU和GPU之間大規(guī)模的數(shù)據(jù)交互耗時問題,為用戶靈活利用CPU和GPU編程克服了一個最主要的障礙,并進一步顯著提升了每瓦特電量的計算能力,由此可以看出,GPU+CPU的融合是未來通用計算的必然趨勢。
劉文卓 AMD中國區(qū)技術總監(jiān)