亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        MIPS指令集G.729算法優(yōu)化

        2013-08-22 08:02:36林善和
        科技視界 2013年7期
        關(guān)鍵詞:累加器編解碼流水線

        林善和

        (福建星網(wǎng)銳捷通訊股份有限公司,福建 福州 350002)

        0 引言

        G.729是目前比較優(yōu)質(zhì)的語音壓縮算法,10ms的語音,80個采樣點,可以壓縮到10字節(jié),算法中用到了大量的移位,點乘,飽和,取整的運算,使用普通的指令雖然可以實現(xiàn)功能,但是消耗過多的CPU資源,不實用。

        早期的編解碼算法一般都是通過外掛的DSP來實現(xiàn),隨著技術(shù)的進步,一般家庭網(wǎng)關(guān)SoC的CPU性能越來越高,從原來的100M到現(xiàn)在的400-600M甚至更高,同時CPU也增加了DSP增強的指令集,這樣很多算法直接就可以用CPU來處理,無需外掛DSP或者嵌一個DSP內(nèi)核。

        RT305x使用MIPS32 24KE的核心,內(nèi)涵DSP ASE指令集,可以在一條指令完成2個short型數(shù)據(jù)的移位,4個short型數(shù)據(jù)的兩兩點乘相加,同時還順便進行飽和,取整運算。

        如果G729編解碼算法運行時能夠把CPU的占有率控制在30%以內(nèi),那么CPU還有足夠的資源實現(xiàn)其它功能。因此,優(yōu)化的目標就是在G729編解碼時,RT305x的CPU占有率控制在30%以內(nèi)。本文所闡述的優(yōu)化是指對用標準C語言編寫的代碼用DSP增強指令集進行優(yōu)化。

        1 G.729AB優(yōu)化步驟

        1.1 準備一個30秒以上的PCM源文件,要求采樣率8K,16位采樣

        1.2 編寫g729_test.c和Make file,用來小工程編譯G729

        1.3 編譯得到可執(zhí)行文件,例如g729

        1.4 把可執(zhí)行文件g729及PCM的源文件復(fù)制到NFS目錄

        1.5 在設(shè)備上執(zhí)行./g729 xx.pcm xx.g729,可以得到編碼后的g729文件和再解碼的pcm文件,還有完成編解碼所需要的總時間

        1.6 修改源碼重新編譯,再次運行,如果輸出文件與之前的相同,而且消耗時間更短,則修改有意義

        1.7 如果發(fā)現(xiàn)輸出文件與之前不同,有可能是修改內(nèi)容有問題。但是如果修改內(nèi)容涉及到算法的優(yōu)化,例如使用了64位的累加器,精度提高了,運算結(jié)果肯定與之前的不同,這是容許的,這時,用Cooledit打開輸出的pcm文件,仔細查看,波形有沒有變形,音質(zhì)有沒有變差

        2 重點優(yōu)化內(nèi)容

        2.1 基本元操作的優(yōu)化

        修改的內(nèi)容在basic_op.c和basic_op.h中。

        2.1.1 首先是用宏匯編指令代替函數(shù)的調(diào)用,要求是執(zhí)行時間最短

        2.1.2 很多的移位操作,需要判斷移位的方向和次數(shù),如果移位次數(shù)是常數(shù),可以使用不帶V的指令,例如用SRA代替SRAV

        2.2 32位的常用運算的優(yōu)化

        內(nèi)容在oper_32b.c和oper_32b.h,主要是32位的點乘運算,由于原始代碼是多個平臺公用,沒有通用的點乘指令,所以點乘是由多個16位的數(shù)之間相乘,左移,再相加。在本平臺的指令系統(tǒng)中,有專門的點乘指令,這是好東西,還可以提升運算的精度,不要放過。

        2.3 乘加運算的集中優(yōu)化

        在編解碼中,有許多地方用到了兩個組數(shù)的點乘相加,通過for循環(huán)來完成,這個不斷的點乘,不斷的相加,在本平臺,可以用乘加指令來完成,只需要在循環(huán)開始時清空64位累加器,循環(huán)結(jié)束之后,根據(jù)需要,移位相應(yīng)的次數(shù),把數(shù)據(jù)用64位累加器中取出,即可。

        在點乘算法中,兩個16位的數(shù)組兩兩點乘,首地址是4字節(jié)對齊,數(shù)組長度是偶數(shù),我們同時把連續(xù)的兩個16位數(shù)按照32位數(shù)載入寄存器,一起進行點乘運算,可以使循環(huán)次數(shù)減半。

        在不少的算法中,由于擔(dān)心乘加的數(shù)據(jù)會溢出,先把原始數(shù)據(jù)集體右移了幾位,再點乘相加,為了保證精度,運算結(jié)果可能還左移了幾位,對于這種情況,我們不需要先把數(shù)據(jù)集體右移,而是直接點乘,然后再取出數(shù)據(jù)時,再右移,保證運算結(jié)果不溢出,這個優(yōu)化屬于算法的優(yōu)化,不僅省力,精度還更高。

        2.4 循環(huán)的展開

        在循環(huán)中,如果數(shù)據(jù)量比較大,循環(huán)的次數(shù)是比較多的,每次循環(huán),開銷至少需要3條指令(i++,判斷,跳轉(zhuǎn)),而且使得流水線中斷。如果每次循環(huán)所干的事情多一些,循環(huán)的次數(shù)就會大大減少。

        在從數(shù)組取出數(shù)據(jù)的時候,如果偏移地址是變量,會引入加法運算,聰明的做法是用x[0],x[1],x[-1]這種固定偏移的方式取數(shù)據(jù),循環(huán)結(jié)束后修改x的值,代替用x[i]來訪問內(nèi)容,i++這種循環(huán),循環(huán)的判斷也不用i,而是直接判斷數(shù)據(jù)的地址是否到達末地址。

        在本平臺的指令系統(tǒng)中,一條指令不能做到判斷大于或小于非零而跳轉(zhuǎn),只能判斷不相等,或大于或等于0而跳轉(zhuǎn),所以,把for(i=0;i<j;i++)寫成for(i=0;i!=j;i++),會省一條指令。

        如果i是short型,而j是常數(shù)或int型,在判斷之前,會把i進行一次符號擴展。多一條指令,所以,在定義i的時候,建議保證待比較的兩個變量,位寬一致。

        2.5 流水線優(yōu)化

        MIPS32 CPU號稱大部分指令是單周期指令,但實際上,單單一條指令上來看,一條指令包括,取指令,取操作數(shù),執(zhí)行,存儲運算結(jié)果等幾個,各需要一個指令周期,但是這些指令周期可以疊加,如果流水線不間斷的運行,相當于一條指令只需要一個指令周期。

        打斷流水線,會引入額外的等待,本條指令使用上一條指令的運算結(jié)果,判斷跳轉(zhuǎn)指令,都會導(dǎo)致流水線的中斷。

        在純C的代碼中,編譯器會自動優(yōu)化流水線,但是,當嵌入?yún)R編時,如果加了volatile屬性,或者源操作數(shù)和目的操作數(shù)是隱含的,或者和內(nèi)存交互數(shù)據(jù),編譯器是不會幫助優(yōu)化流水線的,這時需要通過反匯編自己調(diào)整流水線。

        為了使流水線不中斷,通常的做法是本條指令的目的操作數(shù),不要馬上作為下一條指令的源操作數(shù),而是間隔2條或2條指令以上。

        對于跳轉(zhuǎn)指令,由于流水線的緣故,該指令的下一條指令也會被執(zhí)行到。這是特別需要注意的。

        2.6 減少訪問內(nèi)存的次數(shù)

        訪問內(nèi)存是比較慢的,如果沒有Cache,訪問一次內(nèi)存大約需要100ns,CPU內(nèi)有24個通用可用的寄存器,在函數(shù)調(diào)用時,4個及以內(nèi)的形參傳遞,返回值,都不需要入棧。

        在運行過程中,應(yīng)盡量減少內(nèi)存的訪問次數(shù),比如一次載入32bit數(shù)據(jù),而不是分兩次載入16bit的數(shù)據(jù)。

        2.7 C內(nèi)嵌匯編的實例

        其中mult dpaq_sa.l.w mfhi是3條指令,$ac0是64位累加器,$zero是 0 寄存器,%0,%1,%2 的意思是用“:”后面的操作數(shù)代替,第一個”:”后面是目前操作數(shù),第二個”:”的后面是源操作數(shù),”=r”的意思是目的操作數(shù),且為寄存器,”r”的意思是源操作數(shù),且為寄存器,與內(nèi)容交互數(shù)據(jù)的指令,可以用”m”。

        2.8 DSP常用的運算結(jié)果處理

        2.8.1 飽和

        飽和處理就是運算結(jié)果限制在固定的位寬所能表示的數(shù)的范圍,例如short型的最大數(shù)為0x7fff,最小數(shù)為0x8000,如果運算結(jié)果超出了這個范圍,就根據(jù)正負,調(diào)整為0x7fff或0x8000,普通CPU的累加器沒有對運算結(jié)果進行飽和處理,因此需要額外判斷結(jié)果,再調(diào)整,DSP的累加器一般都能對運算結(jié)果飽和處理。一般同符號數(shù)的加法,不同符號的減法,點乘,左移,甚至取負,均有可能溢出。

        2.8.2 取整

        取整是在右移的操作中比較常用,右移會導(dǎo)致精度的丟失,根據(jù)移走的最高位,調(diào)整結(jié)果,有助于保留精度。

        2.8.3 點乘

        在物理上,點乘是已知力和位移求功。在數(shù)字信號處理中,這里的點乘其實是信號的相乘,信號幅度用小數(shù)表示,在本平臺,用Q15(Word16)或 Q31(Word32)表示,兩個 Q15 點乘,結(jié)果 Q31,但是直接數(shù)學(xué)相乘,只得到Q30,所以還需要左移一位。

        3 優(yōu)化結(jié)果分析

        3.1 用標準C語言進行編解碼算法測試CPU的占用率達到55%,無法滿足實際應(yīng)用需求。

        3.2 反匯編

        3.2.1 局部優(yōu)化之后,用反匯編objdump-d來查看匯編代碼,看看是否能得到預(yù)料中匯編代碼,注意從內(nèi)存中載入short型數(shù)據(jù),帶符號和不帶符號,在擴展到32bit時,是不一樣的

        3.2.2 看看編譯器是不是引入額外的指令,比如沒有必要的符號擴展

        3.2.3 看看流水線是否最佳

        3.3 編解碼的輸出文件檢驗

        得到的g729文件和PCM文件,首先是查看二進制是否和修改之前相同,如果不同,需要找到原因,如果是算法的優(yōu)化導(dǎo)致的不同,需仔細查看聲音有沒有失真。最后用Abacus檢測音質(zhì),同時進行長時間通話拷機。優(yōu)化后的CPU占有率僅達30%。

        4 結(jié)束語

        在低成本家庭網(wǎng)關(guān)SoC芯片RT305x上使用MIPS32Kec帶的DSP AE指令集進行G729編碼的進行優(yōu)化后,CPU占用率不到30%,滿足家庭網(wǎng)關(guān)在語音、數(shù)據(jù)、Wifi的需求。隨著CPU性能的越來越強以及通信網(wǎng)絡(luò)IP話,這樣的技術(shù)將在各種各樣終端上使用,具有廣泛的應(yīng)用場景。

        [1]王洪,唐凱.低速率語音編碼 Low Rate Speech Coding[M].北京:國防工業(yè)出版社,2006.

        [2]Chinh Tran Chijioke Anyanwu,Sanjai Balakrishnan,Anshul Bhargava,James Jiang,Radhika Thekkath.The24KETMCore Family:High-Performance RISC Cores with DSP Enhancements[M].MIPS Technologies Inc.,2005.

        [3]MIPS Technologies Inc.MIPS DSP ASE Instruction Set Quick Reference.MIPS Technologies Inc.,2005.

        猜你喜歡
        累加器編解碼流水線
        格上身份基簡短關(guān)聯(lián)環(huán)簽名及其電子投票應(yīng)用
        無線電工程(2024年5期)2024-07-20 00:00:00
        Gen Z Migrant Workers Are Leaving the Assembly Line
        密碼累加器研究進展及應(yīng)用
        1553B總線控制器編解碼設(shè)計
        流水線
        大型民機試飛遙測視頻編解碼方法研究
        基于H.265編解碼的高清視頻傳輸系統(tǒng)研究
        電子測試(2018年18期)2018-11-14 02:30:54
        基于霍夫變換的工位點識別算法設(shè)計與實現(xiàn)
        報廢汽車拆解半自動流水線研究
        用于時間延遲積分型圖像傳感器的流水采樣列級運放共享累加器*
        少妇被猛烈进入中文字幕 | 亚洲爆乳精品无码一区二区| 亚洲成av人最新无码| 少妇特殊按摩高潮惨叫无码| 国产一品二品三区在线观看| 亚洲人精品午夜射精日韩| 中文字幕亚洲情99在线| 日本女优中文字幕看片| 亚洲精品熟女av影院| 久久精品国产99国产精品澳门| 国产97色在线 | 亚洲| 国产成人亚洲综合无码DVD| 一区二区免费中文字幕| 国产一区二区自拍刺激在线观看| 任你躁国产自任一区二区三区| 伊人网综合| 国产激情免费观看视频| 国产香蕉视频在线播放| 久久久无码中文字幕久...| 亚洲狼人社区av在线观看| 蜜桃噜噜一区二区三区| 国产98色在线 | 国产| 成人做爰69片免费看网站| 亚洲va成无码人在线观看| 日本美女在线一区二区| 中文字幕久久熟女蜜桃| 欧美日韩中文制服有码| 激情视频在线观看免费播放| 凌辱人妻中文字幕一区| 18禁裸男晨勃露j毛免费观看| 亚洲欧美日韩中文v在线| 日韩中文字幕在线丰满| 看全色黄大色黄大片 视频| 日韩一欧美内射在线观看| 精品中文字幕手机在线| 丝袜美腿av在线观看| 国产伦精品一区二区三区| 日韩精品久久久中文字幕人妻| 91久久精品美女高潮喷白浆| 蜜桃一区二区三区| 91国际视频|