(中船重工(武漢)凌久電子有限責任公司 武漢 430074)
飛騰M6678為國產(chǎn)化數(shù)字信號處理器(Digital Signal Processor,DSP),單核心的浮點理論運算速度達到16GFLOPS,具有功能強大的FFT協(xié)處理器,同時兼容TMS320C6678處理器的SIMD指令集。
基礎(chǔ)數(shù)學庫是高性能計算的核心基礎(chǔ)軟件。與傳統(tǒng)的標量運算不同,向量數(shù)學庫為提升大點數(shù)下的數(shù)學運算性能而構(gòu)建,向量化帶來的加速比高,性能提升明顯。這對于促進國產(chǎn)化芯片行業(yè)的蓬勃發(fā)展至關(guān)重要。向量數(shù)學庫已經(jīng)在ARM微處理器[1~2]和國產(chǎn)CPU[3]平臺進行了向量化優(yōu)化[4~6]的嘗試。
雖然處理器架構(gòu)不同,但是向量化的許多方法都是類似的,比如地址對齊[7]、使用SIMD指令[8]和軟件流水[9~10]。其中地址對齊提高了訪存的速度,SIMD指令利用了指令的位寬[11]實現(xiàn)了數(shù)據(jù)運算的并行,而軟件流水,類似于工廠的流水線,函數(shù)循環(huán)并非順序執(zhí)行,第一次循環(huán)還未執(zhí)行完畢,第二次循環(huán)已經(jīng)開始了。但是,僅有這些方法,無法在DSP上完成向量化優(yōu)化。本文針對飛騰M6678處理器,構(gòu)建向量數(shù)學庫。
目前,飛騰M6678處理器上能夠運算的數(shù)學函數(shù)庫有兩個,一個是標準C數(shù)學函數(shù)庫,一個是TI公司提供的MATHLIB函數(shù)庫。上述兩個數(shù)學函數(shù)庫都只能滿足標量運算的性能要求,當進行大點數(shù)的向量數(shù)學運算時,無法充分利用DSP的并行運算能力。前者在向量化運算過程中效率低下,后者將代碼由內(nèi)聯(lián)函數(shù)封裝,編譯器可以根據(jù)算法的實現(xiàn),自行嘗試向量化的優(yōu)化。
數(shù)學運算在飛騰M6678處理器上進行性能測試。測試點數(shù)選擇1024,結(jié)果如表1。
表1 數(shù)學運算性能測試
由表1可知,ARCTAN、COS、SIN、EXP和LOG運算的加速比均超過了20,向量化程度高,可向量化的空間?。?2]。因此,本文性能優(yōu)化的重點應(yīng)該是ARCCOS、ARCSIN、TAN和SQRT。
本文以MATHLIB函數(shù)庫為基礎(chǔ),結(jié)合DSP的硬件特性,對數(shù)學函數(shù)進行向量化優(yōu)化,實現(xiàn)了高性能向量數(shù)學庫。
數(shù)學庫常用的實現(xiàn)方法有級數(shù)法、迭代法、查表法、有理數(shù)逼近法、逐位法、CORDIC[13]算法。但是以上算法都各自存在自己的問題,級數(shù)法和迭代法運算量大,查表法占用空間大,只能計算一定區(qū)間內(nèi)的三角函數(shù),有理數(shù)逼近法的向量化空間小,逐位法和CORDIC算法適合只有加法器,沒有乘法器的處理器架構(gòu)。文獻[14]算法實現(xiàn)了雙精度浮點數(shù)學運算的向量化,然而大多數(shù)數(shù)學運算只需要單精度就足夠了。本文實現(xiàn)的是單精度浮點向量數(shù)學庫,ARCCOS、ARCSIN選用泰勒級數(shù)法實現(xiàn),SQRT選用牛頓迭代法[15]實現(xiàn),TAN采用公式SIN/COS實現(xiàn)。DSP良好的乘加運算能力,很好地滿足了級數(shù)法和迭代法對運算能力的要求。
上述4個函數(shù)的實現(xiàn)均需要進行求倒數(shù)或者求平方根倒數(shù)的運算。為提高函數(shù)運算性能,不同于簡單使用符號“/”,本文用DSP指令[16]RCPSP和RSQRSP實現(xiàn),其中RCPSP進行浮點的求倒數(shù)運算,RSQRSP進行浮點的求平方根倒數(shù)運算。一方面,編譯器省去了解碼、譯碼的時間,另一方面,能夠正常開啟軟件流水。
上述指令經(jīng)過測試后發(fā)現(xiàn),運算性能相較于符號“/”提高了兩個數(shù)量級,但是運算精度很低,達不到大多數(shù)應(yīng)用場景的要求。為了提高運算性能的同時保證數(shù)據(jù)精度,引入牛頓迭代法。
不加推導的給出牛頓迭代法的基本公式為
已經(jīng)證明,如果是連續(xù)的、并且待求的零點是孤立的,那么該零點周圍存在一個區(qū)域,只要初始值位與這個鄰近區(qū)域,那么牛頓法必定收斂。
牛頓迭代法具有平方收斂的性能,這意味著,牛頓法每迭代一次,計算結(jié)果精度將提高一倍。FLOAT類型有效位數(shù)為7位,RCPSP和RSQRSP運算精度為1/256,即有效位數(shù)為2位,使用牛頓法迭代2次,即可以完全滿足精度要求。
優(yōu)化的第一步是找到算法的性能瓶頸。以開平方運算為例,對迭代法的代碼進行性能分析。MATHLIB源碼如下:
表2統(tǒng)計了單次循環(huán)體內(nèi),各個計算單元所需要的時鐘周期數(shù)。
表2 原單次循環(huán)性能分析
由于各個運算單元可以并行執(zhí)行,那么循環(huán)體執(zhí)行一次的周期數(shù)就等于表中最大的時鐘周期數(shù)。由表2可知,循環(huán)體執(zhí)行一次的周期數(shù)等于7。多達7次的跨組寄存器訪問導致性能下降。同時,乘法計算單元使用負荷也很大。另外,RSQRSP執(zhí)行時間遠低于牛頓迭代法執(zhí)行時間。
因此,過多的跨組寄存器訪問,是開平方運算的性能瓶頸。
均衡負載的方法根據(jù)M6678的計算單元結(jié)構(gòu)所提出。
如圖1 DSP內(nèi)核中有兩套4個截然不同的處理單元,當處理float型數(shù)據(jù)時,M處理乘法運算、L處理加法和轉(zhuǎn)換運算、S處理比較和倒數(shù)運算、D處理數(shù)據(jù)的加載和存儲。這8個處理單元可以獨立并行執(zhí)行。但是,計算單元訪問不同組的寄存器,會導致運算時間的消耗。
圖1 M6678內(nèi)核數(shù)據(jù)處理示意圖
均衡負載,要求A、B兩組處理單元的使用次數(shù)大體一致,不要出現(xiàn)某個處理單元的負荷過大,其他處理單元在旁邊等待的情況。
本文采用循環(huán)展開的方式使得負載均衡。循環(huán)展開,就是減少循環(huán)次數(shù)的同時,將循環(huán)體擴大。以開平方運算為例,將循環(huán)體擴大一倍,使得原來的第一次循環(huán)由A組執(zhí)行,原來的第二次循環(huán)由B組執(zhí)行。這樣一來,循環(huán)體內(nèi)不再需要跨組寄存器的訪問。同時,循環(huán)展開前的乘法單元在一次循環(huán)內(nèi),共執(zhí)行了9次,其中A組執(zhí)行了5次,B組執(zhí)行了4次,等待了1次,此時負載不均衡。循環(huán)展開后,A組和B組的乘法單元均執(zhí)行了9次,沒有等待時間。也就是說,原本兩次循環(huán),共計10次乘法計算的時間,循環(huán)展開后,只需要9次乘法計算的時間了。
解決了負載均衡的問題,本文使用指令級SIMD優(yōu)化方法著手解決第二個瓶頸,即9次乘法運算。
通常需要運算的FLOAT、INT型數(shù)據(jù)都是32位,甚至有16位的SHORT類型,然而M6678的每個運算單元均是64位位寬。因此,調(diào)用SIMD指令集,可以充分利用運算單元的位寬,一個指令在一個時鐘周期內(nèi),可以同時完成幾個數(shù)據(jù)的運算。同時,使用指令集也節(jié)省了編譯器調(diào)用指令的時間。編譯器可以在一個時鐘周期內(nèi)完成指令預取、取指、譯碼、訪問、讀取、執(zhí)行的所有操作。
前文提到的開平方運算中,通過AMEMD8_CONST、FTOD、DMPYSP、DSUBSP指令完成迭代法的數(shù)據(jù)位并行,減少乘法計算單元的使用負荷。
開平方運算經(jīng)過前兩個小節(jié)的優(yōu)化,計算單元的占用達到了最小,但是由于兩個分支條件的存在,軟件流水不能完全開啟。
為了減小循環(huán)體的條件分支,本文將原來的循環(huán)體分成了兩個小的循環(huán)體,第一個循環(huán)體進行計算,第二個循環(huán)體進行特殊值的處理。
至此,開平方運算完成了向量化的優(yōu)化。優(yōu)化后的代碼性能分析如下。
由表3可知,循環(huán)體內(nèi)執(zhí)行的最大時鐘周期數(shù)等于乘法計算單元執(zhí)行的周期數(shù)9,此時A、B兩組乘法計算單元負載均衡。數(shù)據(jù)位并行和循環(huán)展開都分別將循環(huán)點數(shù)減少了2倍,因此表2中循環(huán)體執(zhí)行1次,相當于表1中循環(huán)體執(zhí)行4次。這意味著,原有代碼執(zhí)行4次循環(huán)共計28個時鐘周期的操作,優(yōu)化后9個時鐘周期就完成了。當然,實際優(yōu)化的效率并沒有這么高,還應(yīng)考慮條件分支處理循環(huán)產(chǎn)生的耗時。
表2 通用航空安全風險計算結(jié)果
表3 優(yōu)化后單次循環(huán)性能分析
本文測試的硬件平臺為飛騰M6678開發(fā)板,主頻1.0GHz,開發(fā)調(diào)試環(huán)境為CCS 5.5,數(shù)據(jù)運行地址為MSMC(多核共享內(nèi)存)。
設(shè)計測試MATHLIB函數(shù)庫和本文優(yōu)化的向量數(shù)學庫在M6678單核條件下的運算能力。測試數(shù)據(jù)規(guī)模分別為256、512、1024、2048,記錄兩個數(shù)學庫函數(shù)接口的執(zhí)行時間,求出不同數(shù)據(jù)規(guī)模下,向量數(shù)學庫相較于MATHLIB函數(shù)庫的加速比。最后,求出不同數(shù)據(jù)規(guī)模下加速比的平均值,記錄于表4。
表4 部分典型向量數(shù)學運算的性能測試
由于MATHLIB函數(shù)庫各個接口已有的向量化程度不同,所以加速比也不相同。但是總地來說,優(yōu)化效果是顯著的。
正確性方面,在浮點數(shù)據(jù)有效位數(shù)之內(nèi),向量數(shù)學庫與MATHLIB函數(shù)庫結(jié)果完全相等。這表明,向量數(shù)學庫完全能夠勝任大多數(shù)應(yīng)用對運算精度的要求。
本文針對飛騰M6678平臺下的向量數(shù)學庫,采用了DSP指令和牛頓迭代法進行改進。通過深入分析算法的性能瓶頸,提出了通用的SIMD優(yōu)化方法,以及結(jié)合硬件特性的優(yōu)化方法,充分利用了硬件資源,顯著提升了向量數(shù)學庫的運算性能。此外,總結(jié)的優(yōu)化方法包括性能瓶頸的分析、循環(huán)展開、SIMD指令的使用和減小循環(huán)體分支,在飛騰M6678平臺下具有通用性,適用于大多數(shù)情況下的算法優(yōu)化。下一步工作將主要圍繞更為復雜的信號處理和圖像處理向量庫進行性能優(yōu)化。