亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用DSP底層結(jié)構(gòu)提高M(jìn)PEG-4編碼的實(shí)時(shí)性

2011-11-06 05:49:06李桂菊

中國(guó)光學(xué) 2011年5期

李桂菊

(中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所，吉林長(zhǎng)春130033)

1 引言

美國(guó)TI公司推出的TMS320C6000系列數(shù)字信號(hào)處理器在運(yùn)算單元、總線結(jié)構(gòu)，片內(nèi)存儲(chǔ)器結(jié)構(gòu)和流水處理等方面都有其獨(dú)特之處。該系列主要包括 62XX、64XX和 67XX 3大類(lèi)，其中的64XX基于特殊的硬件結(jié)構(gòu)和高速處理能力，在通信、精確制導(dǎo)武器和數(shù)字圖像處理等需要高速運(yùn)算的應(yīng)用領(lǐng)域具有強(qiáng)大的優(yōu)勢(shì)，已成為實(shí)時(shí)圖像處理系統(tǒng)的首選器件［1～6］。

DSP硬件結(jié)構(gòu)的特殊性使其處理能力的提升不僅僅依靠越來(lái)越快的時(shí)鐘速率來(lái)實(shí)現(xiàn)，更主要依靠開(kāi)發(fā)者對(duì)數(shù)據(jù)流程的合理安排及并行處理結(jié)構(gòu)的充分利用［7-11］。文獻(xiàn)［11］在 TMS320DM642 DSP平臺(tái)上實(shí)現(xiàn)了H264視頻編碼器，并對(duì)二級(jí)緩存優(yōu)化做了深入探討，但由于H264標(biāo)準(zhǔn)是以算法的復(fù)雜性換取壓縮質(zhì)量，所以盡管做了大量?jī)?yōu)化，還只是達(dá)到了QCIF和CIF尺寸的視頻基本可以滿足視頻監(jiān)控的要求。文獻(xiàn)［12］提出了一種支持同時(shí)多線程的動(dòng)態(tài)分發(fā)超長(zhǎng)指令字(VLIW)數(shù)字信號(hào)處理器(DSP)架構(gòu)，它雖然能提高處理器的指令吞吐率，但實(shí)現(xiàn)調(diào)度過(guò)于復(fù)雜。本文以MPEG-4視頻序列編碼標(biāo)準(zhǔn)［13］的圖像壓縮算法為例，論述了利用DSP底層結(jié)構(gòu)提高圖像處理實(shí)時(shí)性的一些方法。

2 TMS320C64XX底層結(jié)構(gòu)特點(diǎn)

TMS320C64XX系列是面向數(shù)字信號(hào)處理的定點(diǎn)芯片，該芯片的內(nèi)部結(jié)構(gòu)是在TMS320C62XX基礎(chǔ)上加以改進(jìn)的，其性能特點(diǎn)如下［14］:

(1)DSP內(nèi)核采用超長(zhǎng)指令字(VLIW)體系;

(2)CPU內(nèi)核有兩組共8個(gè)可并行運(yùn)算的單元，64個(gè)32 bit的通用寄存器;

(3)支持8/16/32/64 bit的數(shù)據(jù)類(lèi)型，兩個(gè)乘法累加單元一個(gè)時(shí)鐘周期可同時(shí)執(zhí)行4組16 bit×16 bit乘法或8組8 bit×8 bit乘法;

(4)采用兩級(jí)高速緩存結(jié)構(gòu);

(5)64個(gè)通道的EDMA。

3 利用DSP底層結(jié)構(gòu)提高M(jìn)PEG-4編碼效率

3.1 合理配置二級(jí)緩存加快處理速度

TMS320C64XX芯片采用了兩級(jí)高速緩存結(jié)構(gòu)。一級(jí)緩存L1cache包含了數(shù)據(jù)緩存L1D和程序緩存L1P兩部分，而二級(jí)緩存L2cache則是數(shù)據(jù)、程序共用的，可以通過(guò)寄存器配置。L2全部為SRAM，作為片內(nèi)存儲(chǔ)器，也可配置其中的一部分為cache。CPU執(zhí)行程序時(shí)，先訪問(wèn)一級(jí)緩存內(nèi)的程序代碼和數(shù)據(jù)，若代碼或數(shù)據(jù)不在一級(jí)緩存內(nèi)，再訪問(wèn)L2，若L2中沒(méi)有所需代碼，就要訪問(wèn)外部存儲(chǔ)器，由于一級(jí)緩存、二級(jí)緩存和片外存儲(chǔ)器訪問(wèn)速度差異很大，所以合理利用二級(jí)緩存結(jié)構(gòu)，可以提高編碼器的運(yùn)行速度。

TMS320C64XX系列不同芯片的內(nèi)存容量相差較大，采用不同芯片針對(duì)二級(jí)緩存的優(yōu)化方法不同。以TMS320C6416為例，片內(nèi)包括16 KB程序 cache(L1P)、16 KB數(shù)據(jù) cache(L1D)和1 024 KB的統(tǒng)一程序/數(shù)據(jù)空間(L2)。

(1)針對(duì)L1的優(yōu)化

由L1P的工作原理可知，L1P首先一次性讀入512組連續(xù)的代碼指令，CPU發(fā)出的32位取指地址被解析，以確定在L1P中的地址，然后讀入該地址指令送入CPU中執(zhí)行。若CPU發(fā)出的取指地址不在L1P內(nèi)，就要清除L1P中的無(wú)用代碼，重新從L2讀入一組連續(xù)代碼。若程序跳轉(zhuǎn)間隔較大，或循環(huán)體內(nèi)代碼過(guò)長(zhǎng)，都會(huì)降低L1P的命中率。L1P的優(yōu)化就是將連續(xù)的運(yùn)算過(guò)程放在一起，減少循環(huán)體內(nèi)的代碼長(zhǎng)度，盡量用條件語(yǔ)句代替分支轉(zhuǎn)移語(yǔ)句。例如MPEG-4每個(gè)宏塊的編碼過(guò)程都是DCT變換、量化、逆量化和逆DCT變換，編碼時(shí)將DCT變換和量化放在一個(gè)循環(huán)體內(nèi)，逆量化和逆DCT變換放在一個(gè)循環(huán)體內(nèi)。這樣既可以減少圖像的存取次數(shù)，又可以避免循環(huán)體過(guò)長(zhǎng)。合并后的代碼會(huì)一次性映射入L1P內(nèi)進(jìn)行宏塊運(yùn)算，減少了L1P讀缺失，提高了編碼效率。

L1D的工作原理與L1P類(lèi)似，如果CPU所需的數(shù)據(jù)不全在L1D中，就需要不斷地從L2或從外部存儲(chǔ)器讀入。L1D的優(yōu)化就是將當(dāng)前CPU所需要讀取的有用數(shù)據(jù)放在一起，而且這些數(shù)據(jù)應(yīng)該按照cache line大小進(jìn)行對(duì)齊，這樣可以使L1D cache的使用效率達(dá)到最大。

(2)針對(duì)L2的優(yōu)化

由于TMS320C6416芯片的L2可以配置為片內(nèi)SRAM，也可以配置為高速緩存，針對(duì)MPEG-4編碼器，由于其程序代碼和所要處理的數(shù)據(jù)量都較大，不可能將所有的代碼和數(shù)據(jù)都放入片內(nèi)。要使程序代碼在片內(nèi)外之間傳送而不影響程序的執(zhí)行效率很難實(shí)現(xiàn)，而傳輸數(shù)據(jù)則可通過(guò)優(yōu)化存儲(chǔ)器結(jié)構(gòu)而不影響CPU執(zhí)行時(shí)間。所以針對(duì)L2的優(yōu)化優(yōu)先保障程序代碼都放在片內(nèi)，然后放置每個(gè)宏塊編碼所必需的數(shù)據(jù)，余下的空間配置為cache，按此原則，將L2在SRAM/CACHE的配置比例設(shè)為960 Kbyte/64 Kbyte。

為了能將使用頻率高的代碼和數(shù)據(jù)盡量留在cache中，就要將連續(xù)的運(yùn)算過(guò)程或連續(xù)存取的數(shù)據(jù)放在一起，對(duì)代碼結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)重新組織，這時(shí)利用段的設(shè)置來(lái)指定部分程序和數(shù)據(jù)的位置是很必要的。TI的代碼產(chǎn)生工具生成的目標(biāo)文件是以段的形式組織在一起的，這些段包括編譯器自動(dòng)產(chǎn)生的代碼段(.text)、全局變量段(.bss)、堆棧段(.stack)等，用戶也可以自己定義段，段的地址可由*.cmd文件指定。由于MPEG-4的初始數(shù)據(jù)表較多，如DCT系數(shù)表、可變長(zhǎng)編碼表等，可用靜態(tài)數(shù)組來(lái)定義這些表格，并把這些數(shù)組以段的形式安排在固定空間，把可能連續(xù)調(diào)用的數(shù)據(jù)放在一起。

為進(jìn)一步提高CACHE命中率，還應(yīng)盡量減小代碼尺寸，不同類(lèi)型變量在DSP內(nèi)部存放機(jī)制不同，char型是單字節(jié)變量，不受位置限制，short型是雙字節(jié)變量，以2的整數(shù)倍為邊界存放，int是4字節(jié)變量，以4的整數(shù)倍為邊界存放。為此對(duì)較大數(shù)組考慮能否用short型代替int型，變量定義時(shí)應(yīng)將同類(lèi)型變量放在一起，以減小代碼尺寸。

3.2 利用EDMA可級(jí)聯(lián)特性提高CPU效率

TMS320C64XX的數(shù)據(jù)存儲(chǔ)空間從內(nèi)到外依次為CPU內(nèi)部寄存器、一級(jí)緩存L1D、二級(jí)緩存L2、片外存儲(chǔ)空間4個(gè)層次。各層次數(shù)據(jù)傳遞流程如圖1所示。在L2與外部存儲(chǔ)器之間數(shù)據(jù)傳送由EDMA完成，而在CPU與L2之間可由CPU控制存取，而L2內(nèi)部的數(shù)據(jù)傳送既可由EDMA完成，也可由CPU完成。

圖1 DSP存儲(chǔ)空間數(shù)據(jù)傳遞流程Fig.1 Flowchart of DSP data transmission between memories

圖2 256 pixel×256 pixel大小的圖像存儲(chǔ)方式示意圖Fig.2 Schematic diagram of storage way for image with size of 256 pixel×256 pixel

TMS3206416D的EDMA控制器共有64個(gè)增強(qiáng)通道，并且可以設(shè)置不同通道的優(yōu)先級(jí)。EDMA控制器用來(lái)處理片內(nèi)L2SRAM和片內(nèi)外設(shè)以及外部存儲(chǔ)空間之間的數(shù)據(jù)搬移。

針對(duì)所設(shè)計(jì)的壓縮平臺(tái)，外接SDRAM經(jīng)過(guò)FPGA掛在DSP的EMIF總線上，SDRAM的訪問(wèn)方式設(shè)置成FIFO形式，對(duì)給定的起始地址，一次最少存取64 bit，每次啟動(dòng)EDMA之后只能從給定的存儲(chǔ)器首址順序搬移一段數(shù)據(jù)。MPEG-4編碼器以宏塊為單位進(jìn)行編碼，每個(gè)宏塊大小為16 pixel×16 pixel，這樣EDMA就很難按宏塊存取，為了在該硬件平臺(tái)中發(fā)揮EDMA的作用，重新安排參考圖像的存儲(chǔ)結(jié)構(gòu)，存放格式如圖2所示，圖2(a)為256 pixel×256 pixel大小的圖像正常存放方式示意圖，圖2(b)為按宏塊順序存放示意圖。存放順序?yàn)榈谝粋€(gè)宏塊的第一行，第一個(gè)宏塊的第二行，…，第一個(gè)宏塊的第16行，然后存第二個(gè)宏塊的第一行，第二個(gè)宏塊的第二行，以此類(lèi)推。這樣參考圖像可以按宏塊讀入，進(jìn)行宏塊編碼時(shí)，在片內(nèi)開(kāi)辟乒乓結(jié)構(gòu)的雙緩沖區(qū)。一個(gè)用于接收待編碼的數(shù)據(jù)并輸出編碼后的重構(gòu)圖像數(shù)據(jù)，另一個(gè)用于對(duì)已接收的數(shù)據(jù)進(jìn)行編碼，而數(shù)據(jù)的傳送采用EDMA完成。這樣，可以同時(shí)完成數(shù)據(jù)編碼和傳輸工作，有效地改善編碼效率。

編碼I幀時(shí)，當(dāng)前圖像由于不能按宏塊讀取，將圖像分成n條，每條16行，即一個(gè)宏塊的高度，每條開(kāi)始時(shí)讀入該條圖像到內(nèi)存，編碼每個(gè)宏塊時(shí)，用EDMA搬移一個(gè)宏塊到乒乓緩沖區(qū)，一行所有宏塊編碼完，再讀下一條16行圖像。由于不需要運(yùn)動(dòng)估計(jì)，所以每個(gè)緩沖區(qū)只需分配當(dāng)前圖像和重構(gòu)兩個(gè)宏塊區(qū)域。

編碼P幀時(shí)，當(dāng)前圖像仍然按條讀入，編碼每個(gè)宏塊時(shí)，用EDMA搬移一個(gè)宏塊到乒乓緩沖區(qū)。設(shè)搜索范圍為［－15，16］，包括搜索范圍在內(nèi)的參考圖像大小為48 pixel×48 pixel，即9個(gè)宏塊。因此每個(gè)緩沖區(qū)的大小包括:48 pixel×48 pixel大小的參考圖像、16 pixel×16 pixel大小的當(dāng)前圖像及16 pixel×16 pixel大小的重構(gòu)圖像。由于片內(nèi)搬移比片外到片內(nèi)搬移快，每個(gè)宏塊編碼傳輸啟動(dòng)5個(gè)讀通道的EDMA:1個(gè)通道搬移運(yùn)算緩沖區(qū)參考圖像后32列×48行到傳送緩沖區(qū)參考圖像的前32列;3個(gè)通道EDMA從外部存儲(chǔ)器參考圖像區(qū)讀一個(gè)宏塊放到內(nèi)存數(shù)據(jù)傳輸區(qū)后16列;另一個(gè)通道搬移當(dāng)前圖像宏塊。每個(gè)宏塊還啟動(dòng)一個(gè)寫(xiě)EDMA，將重構(gòu)圖像寫(xiě)到外部存儲(chǔ)器中。這6個(gè)EDMA通道級(jí)聯(lián)，每個(gè)宏塊編碼前設(shè)置一次，EDMA會(huì)將所需的圖像數(shù)據(jù)導(dǎo)入數(shù)據(jù)傳輸緩存區(qū)，同時(shí)，CPU編碼另一個(gè)緩沖區(qū)中的數(shù)據(jù)。由于CPU和EDMA都要訪問(wèn)數(shù)據(jù)緩沖區(qū)中參考圖像區(qū)，設(shè)置CPU的優(yōu)先級(jí)高于EDMA。宏塊編碼結(jié)束時(shí)兩個(gè)區(qū)域指針交換，兩個(gè)緩沖區(qū)交替使用來(lái)提高CPU效率。乒乓緩沖區(qū)的操作過(guò)程如圖3所示。

圖3 乒乓操作過(guò)程示意圖Fig.3 Scheme of Ping-Pang operation process

3.3 利用可并行執(zhí)行的多功能單元提高CPU處理能力

直接移植到DSP上的MPEG-4視頻編碼器遠(yuǎn)遠(yuǎn)不能達(dá)到實(shí)時(shí)的要求，因此還需要結(jié)合TMS320C64XX的特點(diǎn)進(jìn)行優(yōu)化。程序框架和主函數(shù)采用C語(yǔ)言編寫(xiě)，可增加程序的易讀性，一些初值的設(shè)置編譯器也能自動(dòng)幫助完成，既準(zhǔn)確又不耗時(shí)。而對(duì)耗時(shí)較多的模塊采用匯編優(yōu)化，在數(shù)據(jù)安排上要考慮二級(jí)緩存特性。編碼的計(jì)算量主要集中在運(yùn)動(dòng)估計(jì)、離散余弦變換、量化、反量化、逆離散余弦變換和可變長(zhǎng)編碼幾個(gè)模塊，需要利用匯編語(yǔ)言進(jìn)行優(yōu)化，同時(shí)要考慮DSP特性。

TMS320C64XX芯片內(nèi)核具有超長(zhǎng)指令VLIW字處理能力。每次讀取與256 bit程序總線寬度對(duì)應(yīng)的取址包，即每個(gè)取址包有8條指令，分成1～8個(gè)執(zhí)行包，每個(gè)執(zhí)行包是并行執(zhí)行的指令，送入相應(yīng)運(yùn)算單元。指令以取址、譯碼和執(zhí)行的硬件流水線運(yùn)行。CPU內(nèi)部的8個(gè)運(yùn)算單元分為兩組，分別為(M1、D1、S1、L1和 M2、D2、S2、L2)，在一個(gè)時(shí)鐘周期內(nèi)8個(gè)單元可以同時(shí)運(yùn)行，但8個(gè)單元所完成的功能不盡相同，M單元的指令與其它單元不通用，只運(yùn)行乘法、點(diǎn)積、位計(jì)數(shù)等指令。除M單元指令外，有些指令只能在某一特定的運(yùn)算單元執(zhí)行，如跳轉(zhuǎn)指令只能在S單元運(yùn)行，存儲(chǔ)器訪問(wèn)指令只能在D單元運(yùn)行等，但也有部分指令在D，S和L中都能運(yùn)行。

在用匯編優(yōu)化程序時(shí)，除按一般編寫(xiě)步驟(將C源代碼翻譯成線性匯編代碼，確定最小迭代間隔，資源分配，安排模迭代間隔和安排剩余指令)之外，還要考慮運(yùn)算單元與指令之間的對(duì)應(yīng)關(guān)系，改寫(xiě)代碼。

下面以幾個(gè)實(shí)例來(lái)介紹提高匯編程序效率的技巧。

(a)修改指令，盡量利用M單元

由于M單元的特殊性，如果算法不涉及乘法運(yùn)算，就不能用到M單元，這樣8個(gè)可并行工作的運(yùn)算單元，一次最多能并行執(zhí)行6條指令，處理能力會(huì)降低25%。為提高運(yùn)算效率，應(yīng)修改指令，盡量利用M單元。例如，計(jì)算4個(gè)8位像素和，可改寫(xiě)為點(diǎn)積方式:

另外，還可用M單元作為循環(huán)初始條件的判據(jù)。例如從存儲(chǔ)器讀出數(shù)據(jù)經(jīng)過(guò)計(jì)算后，將處理結(jié)果存回到存儲(chǔ)器幀中，由于讀指令的延時(shí)間隙不為0，開(kāi)始幾次循環(huán)，結(jié)果還沒(méi)計(jì)算出來(lái)，此時(shí)不應(yīng)存數(shù)據(jù)，實(shí)現(xiàn)該功能一般是設(shè)一個(gè)初值為2的寄存器，每個(gè)循環(huán)減1，當(dāng)為0時(shí)，存結(jié)果，但這樣會(huì)增加DSL單元的壓力。此時(shí)可以利用寄存器賦初值為0XFFFF8000，每個(gè)循環(huán)乘2(用低16位的乘法指令MPY實(shí)現(xiàn))為0時(shí)，存數(shù)。

其中前兩條指令在進(jìn)入循環(huán)體之前執(zhí)行。

(b)訪問(wèn)存儲(chǔ)器盡量使用半字或字訪問(wèn)字節(jié)型數(shù)據(jù)

由于DSP單元都是32 bit寬，許多指令也支持高低半字或4個(gè)字節(jié)分別操作，當(dāng)對(duì)8 bit的短數(shù)據(jù)或16 bit半字進(jìn)行操作時(shí)，可以字為單位同時(shí)讀取，然后再用內(nèi)部函數(shù)對(duì)數(shù)據(jù)進(jìn)行運(yùn)算。即使不能直接使用支持高低半字或4個(gè)字節(jié)的指令，也可用其它指令將字按字節(jié)或半字分別存入寄存器組中。這樣可以減少訪問(wèn)數(shù)據(jù)存儲(chǔ)區(qū)的次數(shù)，降低D單元的壓力，相應(yīng)地提高程序的運(yùn)行速度。

(c)利用C64新增加的一個(gè)單元同時(shí)做4個(gè)8 bit或2個(gè)16 bit算術(shù)運(yùn)算

C64XX增加了對(duì)打包數(shù)據(jù)的處理［15］，可在一條指令內(nèi)對(duì)2個(gè)16 bit或4個(gè)8 bit的數(shù)據(jù)進(jìn)行運(yùn)算。例如在運(yùn)動(dòng)估計(jì)中要計(jì)算兩個(gè)塊(8×8)的絕對(duì)差之和。如下代碼一次計(jì)算8個(gè)點(diǎn)。從上面幾個(gè)例子中可以看出，在匯編優(yōu)化時(shí)，通過(guò)改寫(xiě)代碼，合理利用指令，平衡各單元利用率，可進(jìn)一步提高CPU效率。

4 實(shí)驗(yàn)與分析

在TMS320C6416硬件平臺(tái)上對(duì)MPEG-4視頻標(biāo)準(zhǔn)編碼器進(jìn)行移植和優(yōu)化，DSP的時(shí)鐘頻率為800 MHz，輸入圖像為 512 pixel×512 pixel的灰度圖像，SDRAM大小為32 Mbyte，分成32個(gè)1 Mbyte的塊，每塊可存一幅圖像，分別存儲(chǔ)輸入圖像、參考圖像及重構(gòu)圖像，F(xiàn)PGA有一個(gè)精度為1 μs的計(jì)數(shù)器，其值可由軟件清零、讀入，用以記錄每幀的編碼時(shí)間，并可隨碼流輸出。對(duì)圖4所示的室內(nèi)景物運(yùn)動(dòng)序列進(jìn)行壓縮實(shí)驗(yàn)，截取其中的40 frame，1 個(gè)I frame，39 個(gè) P frame，壓縮信噪比為33.09，輸出碼率為1.5 Mbit/s。平均壓縮時(shí)間為30.3 ms，沒(méi)有丟幀現(xiàn)象，可以滿足實(shí)時(shí)編碼的要求。

圖4 實(shí)時(shí)采集的圖像序列(壓縮后圖像)Fig.4 Real-time images(after compression)

5 結(jié)論

占用的內(nèi)存空間進(jìn)行優(yōu)化;利用EDMA級(jí)聯(lián)特性在內(nèi)存開(kāi)辟雙緩沖區(qū)，同時(shí)完成視頻數(shù)據(jù)編碼和傳輸?shù)墓ぷ鳎行У馗纳屏司幋a效率，使該平臺(tái)具有較高的數(shù)據(jù)吞吐能力和處理速度。實(shí)驗(yàn)結(jié)果表明:該編碼器可以對(duì) 512 pixel×512 pixel，30 frame/s的視頻圖像進(jìn)行實(shí)時(shí)編碼，并已應(yīng)用在實(shí)際工程中。

本文在TMS320C6416平臺(tái)上對(duì)MPEG-4視頻編碼器進(jìn)行了優(yōu)化，包括對(duì)8個(gè)運(yùn)算單元能并行執(zhí)行的特性進(jìn)行匯編優(yōu)化;根據(jù)DSP芯片兩級(jí)高速緩存的工作特點(diǎn)，對(duì)編碼器中代碼和數(shù)據(jù)所

［1］許廷發(fā)，趙思宏，周生兵，等.DSP并行系統(tǒng)的并行粒子群優(yōu)化目標(biāo)跟蹤［J］.光學(xué) 精密工程，2009，17(9):2236-2240.XU T F，ZHAO S H，ZHOU SH B，et al..Particle swarm optimizer tracking based on DSP parallel system［J］.Opt.Precision Eng.，2009，19(9):2236-2240.(in Chinese)

［2］李玉文，周家銳，沈琳琳.基于DM6446平臺(tái)的實(shí)時(shí)人眼檢測(cè)系統(tǒng)［J］.深圳大學(xué)學(xué)報(bào)理工版，2009，26(10):420-424.LI Y W，ZHOU J R，SHEN L L.Real time eye detection system based on DM 6446［J］.J.Shenzhen University Sci.Eng.，2009，26(10):420-424.(in Chinese)

［3］安博文，潘勝達(dá).基于FPGA+DSP的超分辨率成像系統(tǒng)設(shè)計(jì)紅外技術(shù)［J］.紅外技術(shù)，2010，32(9):523-526.AN B W，PAN SH D.Design of super-resolution imaging system based on FPGA+DSP［J］.Infrared Technol.，2010，32(9):523-526.(in Chinese)

［4］李勝勇，姜濤，朱強(qiáng)華.紅外序列圖像中小目標(biāo)實(shí)時(shí)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)［J］.紅外技術(shù)，2010，32(8):471-474.LI SH Y，JIANG T，ZHU Q H.Design and implement a real-time system for small target detection in infrared image sequence［J］.Infrared Technol.，2010，32(8):471-474.(in Chinese)

［5］楊明極，曾稹.基于DSP的WAP實(shí)時(shí)圖像瀏覽平臺(tái)的研究［J］.哈爾濱理工大學(xué)學(xué)報(bào)，2010，15(10):45-48.YANG M J，ZENG ZH.Research of WAP real-time image browsing piatform based on DSP［J］.J.Harbin University of Science and Technol.，2010，15(10):45-48.(in Chinese)

［6］賈浩，崔慧娟，唐昆.基于TMS320DM6437平臺(tái)的視頻系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)術(shù)［J］.電視技術(shù)，2010，34(11):43-47.JIA H，CUI H J，TANG K.Design and implementation of video system based on TMS320DM 6437 platform［J］.Video Eng.，2010，34(11):43-47.(in Chinese)

［7］宋立鋒，戴青云.分?jǐn)?shù)像素精度運(yùn)動(dòng)估計(jì)的DSP優(yōu)化方法［J］.通信學(xué)報(bào)，2009，30(6):114-119.SONG L F，DAI Q Y.Technique of DSP optimization on fractional-pixel-accurary motion estimation［J］.Communication J.，2009，30(6):114-119.(in Chinese)

［8］趙峰，袁東風(fēng)，張海霞，等.多DSP圖像壓縮實(shí)時(shí)并行處理系統(tǒng)［J］.光學(xué) 精密工程，2007，15(9):1451-1455.ZHAO F，YUAN D F，ZHANG H X，et al..Multi-DSP real-time parallel processing system for image compression［J］.Opt.Precision Eng.，2007，15(9):1451-1455.(in Chinese)

［9］周雅贇，徐元欣，方健，等.基于TMS320DM642的MPEG-4編碼器設(shè)計(jì)和優(yōu)化［J］.電視技術(shù)，2005，29(6):36-38.ZHOU Y Y，XU Y X，F(xiàn)ANG J，et al..Implementation of mpeg-4 video encoder based on TMS320DM642［J］.Video Eng.，2005，29(6):36-38.(in Chinese)

［10］曾明霞.基于DSP的MPEG-4視頻編碼器研究與實(shí)現(xiàn)［D］.南京：南京理工大學(xué)，2007.ZENG M X.Research and implementation of MFEG-4 video coder based on the the DSP［D］.Nanjing:Nanjing University Science and Technology，2007.(in Chinese)

［11］劉剛.H.264視頻編碼器在DSP上的實(shí)現(xiàn)與優(yōu)化［D］.長(zhǎng)春：中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所，2010.LIU G.Implementation and optimization of H.264 video encoder based on DSP［D］.Changchun:Changchun Institute of Optics，F(xiàn)ine Mechanics and Physics，Chinese Academy of Sciences，2010.(in Chinese)

［12］沈鉦，孫義和.一種支持同時(shí)多線程的VLIW DSP架構(gòu)［J］.電子學(xué)報(bào)，2010，38(2):352-358.SHEN ZH，SUN Y H.Architecture design of simultaneous multithreading VLIW DSP［J］.Electronic J.，2010，38(2):352-358.(in Chinese)

［13］鐘玉琢，王琪，賀玉文.基于對(duì)象的多媒體數(shù)據(jù)壓縮編碼國(guó)際標(biāo)準(zhǔn)—MPEG-4及其校驗(yàn)?zāi)Ｐ停跰］.北京:科學(xué)出版社，2000.ZHONG Y ZH，WANG Q，HE Y W.Based on Video Object Multimedia Data Compress Encode International Standard-MPEG-4and Video Verification Model［M］.Beijing:Science Press，2000.(in Chinese)

［14］李方慧，王飛，何佩琨.TMS320C6000系列DSPs原理與應(yīng)用［M］.2版.北京:電子工業(yè)出版社，2003.LI F H，WANG F，HE P K.DSPs Principle and Applying of TMS320C6000［M］.2nd ed.Beijing:Electronics Industry Press，2003.(in Chinese)

［15］TMS320C64x/c64x+DSP CPU and Instruction set reference guide［G］.Dallas:Texas Instruments Incorporated，2005.