亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多模式并行處理紋理引擎硬件體系結(jié)構(gòu)設(shè)計(jì)

2018-05-11 06:20:55韓立敏鄭新建任向隆

無線電工程 2018年6期

關(guān)鍵詞：引擎

韓立敏，田澤，鄭新建，張駿，任向隆

(1.中國航空工業(yè)集團(tuán)有限公司西安計(jì)算技術(shù)研究所，陜西西安 710068;2.集成電路與微系統(tǒng)設(shè)計(jì)航空科技重點(diǎn)實(shí)驗(yàn)室，陜西西安 710068)

0 引言

3D計(jì)算機(jī)圖形學(xué)領(lǐng)域發(fā)明和應(yīng)用了大量的渲染技術(shù)，對于合成高質(zhì)量的圖像來說，紋理貼圖技術(shù)不需要執(zhí)行大量的計(jì)算操作就可以產(chǎn)生真實(shí)感的高質(zhì)量圖像，使紋理貼圖成為提高3D圖形表面真實(shí)感最受歡迎的技術(shù)之一[1]。

在紋理貼圖應(yīng)用程序的執(zhí)行過程中，每個(gè)像素(Fragment)的紋理請求需要串行的執(zhí)行多種操作，包括紋素采樣地址的計(jì)算、紋理緩沖區(qū)的存儲(chǔ)器訪問、紋素顏色數(shù)據(jù)的格式轉(zhuǎn)換和紋理過濾操作。每個(gè)像素的1個(gè)紋理請求包含1～8個(gè)外部存儲(chǔ)器(DDR3)的存儲(chǔ)訪問請求，因此需要為每個(gè)紋理請求計(jì)算1～8個(gè)紋素地址，為每個(gè)紋理請求執(zhí)行1～8個(gè)紋素?cái)?shù)據(jù)的格式轉(zhuǎn)換操作、多模式(線性，雙線性，三線性)的紋素過濾操作。

本文采用自頂向下完全正向的設(shè)計(jì)方法，在分析Opengl紋理圖像加載函數(shù)的功能和紋理對象管理機(jī)制的基礎(chǔ)上，獨(dú)創(chuàng)性地提出紋理映射系統(tǒng)的組成結(jié)構(gòu)，總結(jié)出紋理映射的執(zhí)行流程。紋理貼圖既是一種存儲(chǔ)密集型的操作，也是一種計(jì)算密集型的操作。通過挖掘紋理映射請求內(nèi)多個(gè)計(jì)算步驟數(shù)據(jù)操作的并行性、紋素?cái)?shù)據(jù)在紋理貼圖過程中時(shí)間與空間維度上的存儲(chǔ)訪問局部性，設(shè)計(jì)了一種支持Opengl 2.0標(biāo)準(zhǔn)的流水結(jié)構(gòu)、多路并行處理的硬件紋理映射引擎，采用硬件并行加速手段為航空工業(yè)計(jì)算所自主研發(fā)GPU解除了性能瓶頸。

1 相關(guān)研究工作

紋理映射操作中的紋理存儲(chǔ)器訪問需要消耗圖形加速器的大量存儲(chǔ)器帶寬和功耗。以嵌入式GPU為例，GPU獲取紋素?cái)?shù)據(jù)平均消耗62%的存儲(chǔ)器帶寬[2-4]。現(xiàn)代3D圖形應(yīng)用中使用了大量的紋理圖像，存儲(chǔ)紋理圖像需要消耗大量的存儲(chǔ)器容量，為了解決這個(gè)問題，出現(xiàn)了大量的紋理壓縮算法[5]。為了降低紋理請求對紋理存儲(chǔ)器的帶寬需求，工業(yè)界和學(xué)術(shù)界在片上紋理Cache的設(shè)計(jì)和紋理數(shù)據(jù)壓縮方面已經(jīng)取得大量的成果。在學(xué)術(shù)界，Jhe-Yu Liou提出了一種6D數(shù)據(jù)塊結(jié)構(gòu)的紋理Cache，然而，獲取一個(gè)大數(shù)據(jù)塊需要觸發(fā)多個(gè)突發(fā)式的存儲(chǔ)器訪問請求，導(dǎo)致存儲(chǔ)器訪問的效率降低[6]。Michael Doggett預(yù)測在未來一段時(shí)間內(nèi)，為了實(shí)現(xiàn)高性能，紋理Cache依然必須存在于GPU的硬件邏輯中[7]。文獻(xiàn)[8]綜述了現(xiàn)代GPU的紋理壓縮算法。為了獲取高質(zhì)量的圖像數(shù)據(jù)，一般對紋理的壓縮操作沒有實(shí)時(shí)性的需求，可以離線實(shí)現(xiàn)壓縮，然而，為了在GPU中實(shí)現(xiàn)實(shí)時(shí)解壓縮操作，要求紋理解壓縮操作不但要支持隨機(jī)存儲(chǔ)器訪問而且容易采用硬件實(shí)現(xiàn)。

主流高端GPU均集成了多個(gè)硬件紋理映射單元，專門用于加速紋理映射操作。例如，2012年8月28日，AMD推出了radeon 7970 GCN結(jié)構(gòu)的GPU，該GPU包含一個(gè)全相聯(lián)的紋理Cache，每個(gè)計(jì)算單元(CU)包含了4個(gè)紋理單元，每個(gè)紋理單元包含8個(gè)紋理地址產(chǎn)生單元、20個(gè)紋理采樣器和4個(gè)紋素過濾單元。這些紋理單元支持DXTC/S3TC和3Dc格式的自動(dòng)解壓縮[9]。Imagination公司的powerVR系列6 rogue GPU具有一個(gè)統(tǒng)一著色簇陣列，每個(gè)簇包含大量的紋理單元和1個(gè)512 KB的紋理Cache[10]。ARM mali-T880移動(dòng)GPU具有一個(gè)共享的紋理流水線(Texture Pipeline)，能夠執(zhí)行各向異性計(jì)算，產(chǎn)生梯度描述符，該GPU的存儲(chǔ)器帶寬優(yōu)化機(jī)制包括ASTC和AFBC[11]。NVIDIA的GF100 GPU的每個(gè)統(tǒng)一著色核(Streaming Multiprocessor，SM)具有4個(gè)紋理單元(Texture Unit)，將紋理單元作為統(tǒng)一著色核的一個(gè)執(zhí)行部件，加速紋理操作。為了降低片外的存儲(chǔ)訪問次數(shù)，NVIDIA Tegra 4處理器中的GPU包含了片上的頂點(diǎn)Cache、紋理Cache和像素Cache。每個(gè)像素著色器包含一個(gè)能夠執(zhí)行FP16紋理過濾操作的紋理過濾單元[12]。Broadcom公司的Videocore IV四核處理器的每個(gè)著色核包含一個(gè)TMU(紋理和存儲(chǔ)器查詢單元)，每個(gè)紋理單元具有一個(gè)L1 Cache，L2 Cache被所有的紋理單元所共享[13]。

雖然國外商用GPU的紋理單元均實(shí)現(xiàn)了基本相同的功能，但是其微體系結(jié)構(gòu)的組織方式、輸入和輸出接口的設(shè)計(jì)、紋理請求輸入?yún)?shù)的傳輸方式、紋理參數(shù)的存儲(chǔ)和獲取方式，以及并行流水線的個(gè)數(shù)隨著GPU統(tǒng)一著色核的指令集和統(tǒng)一著色核的微結(jié)構(gòu)不同，存在較大的差異。此外，描述紋理單元內(nèi)部的微結(jié)構(gòu)和實(shí)現(xiàn)原理相關(guān)公開文獻(xiàn)資料非常少，全自主知識產(chǎn)權(quán)的GPU研制難以借鑒成熟商用的GPU相關(guān)的設(shè)計(jì)思想。

國內(nèi)在紋理映射的原理及其相關(guān)算法開展較早，盧章平等人對紋理映射的方法進(jìn)行了綜述[14]。簡洪登使用GLSL語言在算法級對多重視頻紋理映射和融合技術(shù)進(jìn)行了研究和實(shí)現(xiàn)[15-16]。在硬件加速方面，中國科學(xué)技術(shù)大學(xué)研究了紋理映射算法的FGPA實(shí)現(xiàn)[17]，天津大學(xué)提出了一種專用的硬件紋理映射系統(tǒng)結(jié)構(gòu)[18]。西安郵電大學(xué)的焦繼業(yè)等人總結(jié)了嵌入式圖形處理器高性能和低功耗設(shè)計(jì)技術(shù)的研究現(xiàn)狀，并預(yù)測了紋理壓縮技術(shù)等存儲(chǔ)訪問技術(shù)的發(fā)展趨勢[19]。西安電子科技大學(xué)的董梁對圖形處理器中的光照和紋理映射進(jìn)行了流水化的硬件設(shè)計(jì)[20]。總體上，國內(nèi)的相關(guān)研究對紋理映射操作各個(gè)階段的算法進(jìn)行了較為深入的研究，但是從系統(tǒng)角度對紋理貼圖操作的實(shí)現(xiàn)原理和操作并行化問題研究的較少。

圖形繪制性能是GPU競爭的重要因素，硬件紋理單元在高性能GPU中依然是非常重要的固定功能邏輯。結(jié)合上文對于研究現(xiàn)狀的分析，在全自主知識產(chǎn)權(quán)的國產(chǎn)嵌入式高性能統(tǒng)一著色架構(gòu)GPU的研制中，研究和設(shè)計(jì)高效的專用紋理單元仍然具有重要意義。

2 紋理映射系統(tǒng)

完成紋理映射功能需要統(tǒng)一著色架構(gòu)GPU多個(gè)子功能單元的協(xié)同工作，實(shí)現(xiàn)以下功能：紋理圖像數(shù)據(jù)到DDR3的加載、紋理圖像參數(shù)的配置和存儲(chǔ)、像素的紋理地址產(chǎn)生、紋理請求在紋理映射單元TMU(Texture Map Unit)中的解析和執(zhí)行。紋理映射系統(tǒng)如圖1所示。

圖1 紋理映射系統(tǒng)

圖1中的紋理映射系統(tǒng)除了TMU，還包括為紋理映射操作提供輸入請求、紋理圖像數(shù)據(jù)和紋理參數(shù)的相關(guān)邏輯，包括統(tǒng)一著色處理器、圖形命令解析單元、紋理圖像加載單元、紋理圖像參數(shù)存儲(chǔ)器、DDR3和PCIe。結(jié)合圖1所示的紋理映射系統(tǒng)，圖形繪制接口(以O(shè)penGL為例)定義的3D圖形繪制原理描述紋理貼圖操作的工作流程如下：

步驟1：使用圖形繪制API為每個(gè)圖元的頂點(diǎn)關(guān)聯(lián)紋理坐標(biāo)，統(tǒng)一著色處理器使用紋理矩陣完成紋理坐標(biāo)的變換操作，使能1D、2D、3D和CUBE紋理映射；

步驟2：圖形命令解析單元解析圖形命令緩沖器發(fā)送的紋理圖像加載函數(shù)和紋理參數(shù)配置函數(shù)；

步驟3：紋理圖像加載單元依據(jù)圖形命令解析單元發(fā)送的API類型、輸入?yún)?shù)執(zhí)行紋理圖像數(shù)據(jù)到DDR3的加載；根據(jù)相應(yīng)的使能開關(guān)，硬件自動(dòng)產(chǎn)生mipmap圖像層并存儲(chǔ)在DDR3；將過濾模式、紋理內(nèi)部格式、紋理圖像的尺寸、紋理的維度和紋理比較函數(shù)等紋理的參數(shù)存儲(chǔ)在紋理參數(shù)存儲(chǔ)器；紋理參數(shù)存儲(chǔ)器依據(jù)1D、2D、3D和CUBE紋理映射的使能開關(guān)，結(jié)合優(yōu)先級規(guī)則產(chǎn)生紋理映射有效標(biāo)識；

步驟4：光柵化單元以圖元的頂點(diǎn)所綁定的紋理坐標(biāo)作為輸入源，通過插值操作產(chǎn)生每個(gè)片元(像素)的紋理坐標(biāo)；

步驟5：統(tǒng)一著色處理器初步解析紋理存儲(chǔ)器訪問指令后向TMU發(fā)出紋理請求。TMU根據(jù)紋理請求所攜帶的控制參數(shù)依次執(zhí)行如下操作：訪問紋理參數(shù)存儲(chǔ)器、計(jì)算lod、計(jì)算1～8個(gè)紋素采樣地址、組裝1～8個(gè)紋理存儲(chǔ)器訪問、執(zhí)行1～8個(gè)紋素?cái)?shù)據(jù)轉(zhuǎn)換操作、執(zhí)行紋素過濾和比較操作和紋素?cái)?shù)據(jù)的歸一化處理。以上操作全部執(zhí)行完畢之后，TMU將最終處理的紋素顏色數(shù)據(jù)返回給統(tǒng)一著色處理器。

3 紋理引擎硬件體系結(jié)構(gòu)

紋理引擎的硬件體系結(jié)構(gòu)如圖2所示。紋理引擎由6個(gè)主要的部分組成：紋理屬性存儲(chǔ)器、mipmap的層次細(xì)節(jié)(lod)計(jì)算邏輯、紋素地址產(chǎn)生、紋理cache、紋素?cái)?shù)據(jù)格式轉(zhuǎn)換、紋素過濾和紋素?cái)?shù)據(jù)歸一化單元。紋理參數(shù)存儲(chǔ)器為紋理引擎的其他邏輯階段提供控制信息，實(shí)現(xiàn)多模式可配置的紋理映射操作。

圖2 紋理引擎的硬件體系結(jié)構(gòu)

光柵化單元為每個(gè)像素通過插值操作計(jì)算出一組紋理坐標(biāo)P(s，t，r，q)，作為像素的輸入屬性進(jìn)入統(tǒng)一著色核心執(zhí)行像素著色操作。如果紋理使能開關(guān)有效，則統(tǒng)一著色核心將包含紋理坐標(biāo)P的紋理請求轉(zhuǎn)發(fā)給TMU，TMU使用紋理坐標(biāo)P查詢紋理圖像(紋素?cái)?shù)據(jù)組成的多維數(shù)組)，實(shí)施臨近采樣或者4個(gè)空間上相鄰紋素的多紋素采樣，然后執(zhí)行紋素過濾的線性插值操作。最終向統(tǒng)一著色核心返回一個(gè)fp32格式的RGBA紋素顏色數(shù)據(jù)。

基于以下原因，紋理引擎選擇了動(dòng)態(tài)可配置、流水化處理和多路并行結(jié)構(gòu)。

① 紋理請求包含多個(gè)邏輯步驟：mipmap細(xì)節(jié)層次的確定、紋素地址的產(chǎn)生、紋素的收集和紋素的過濾。紋理請求的這些內(nèi)部操作具有流水化、串行化的執(zhí)行特征。

② 一方面，項(xiàng)目組自主研發(fā)的統(tǒng)一著色架構(gòu)GPU的光柵化單元將空間上相鄰的像素組織成2×2像素塊，這種2×2像素塊通常被稱之為quad，TMU接收quad結(jié)構(gòu)的紋理請求，4個(gè)空間上相鄰的紋理請求并行流入和流出TMU。使用4路并行的流水線結(jié)構(gòu)處理連續(xù)到來的2×2的像素塊的紋理請求符合紋理請求的處理需求。另一方面，每個(gè)紋理請求具有多組需要能夠被并行處理的數(shù)據(jù)。細(xì)節(jié)層次計(jì)算單元需要通過計(jì)算像素quad中4個(gè)相鄰像素的紋理坐標(biāo)的差值計(jì)算mipmap的細(xì)節(jié)層次(LOD)；像素Quad的4個(gè)紋理請求的16個(gè)紋素的格式轉(zhuǎn)換操作可以并行實(shí)施；像素Quad的紋理請求的4個(gè)紋理請求的16個(gè)紋素的顏色分量(R，G，B，A)的過濾操作可以并行實(shí)施。

③ 多模式的紋理貼圖功能。紋理過濾模式和紋理內(nèi)部格式是API可配置，因此，TMU的大多數(shù)邏輯操作階段是可配置的。此外，紋理參數(shù)的不會(huì)非常頻繁，所以動(dòng)態(tài)配置的性能損失代價(jià)較低。

以下結(jié)合紋理映射操作數(shù)據(jù)處理特征詳細(xì)描述TMU內(nèi)部子功能單元的設(shè)計(jì)原理。

lod細(xì)節(jié)層次計(jì)算邏輯產(chǎn)生TMU的流水線“控制字”，流水線“控制字”順著TMU的流水線向下傳遞，被紋素地址產(chǎn)生單元和紋理過濾單元逐步消費(fèi)掉。由于紋理內(nèi)部格式的種類眾多，設(shè)計(jì)高效的紋理Cache和紋理映射單元非常困難。根據(jù)對典型應(yīng)用程序的分析，考慮到設(shè)計(jì)復(fù)雜度，紋理過濾單元和紋理Cache以及紋素?cái)?shù)據(jù)格式轉(zhuǎn)換單元支持OpenGL圖形API所定義的幾種常用的紋理內(nèi)部格式(例如RGBA8888，RGB565等)。

以2D紋理為例，紋素地址產(chǎn)生單元將每個(gè)紋理地址P(s，t)乘以紋理的寬、高，為每個(gè)紋理請求計(jì)算1/2/4/8紋素存儲(chǔ)器地址(U，V)。將1/2/4/8紋素存儲(chǔ)器地址(U，V)作為一個(gè)整體送給紋理Cache，當(dāng)一組紋素?cái)?shù)據(jù)返回之后，紋素?cái)?shù)據(jù)被轉(zhuǎn)發(fā)給紋素過濾單元之前，紋素?cái)?shù)據(jù)格式轉(zhuǎn)換器負(fù)責(zé)實(shí)現(xiàn)紋素?cái)?shù)據(jù)的格式轉(zhuǎn)換操作。

紋理引擎包含16個(gè)紋素?cái)?shù)據(jù)格式轉(zhuǎn)換器，每個(gè)紋素?cái)?shù)據(jù)格式轉(zhuǎn)換器將紋素轉(zhuǎn)換為TMU內(nèi)部流水線的數(shù)據(jù)格式。數(shù)據(jù)格式轉(zhuǎn)換單元能夠根據(jù)應(yīng)用程序中的Opengl的API所定義的各種1D/2D/3D/CUBE的mipmap的紋理數(shù)據(jù)，各種過濾模式和各種內(nèi)部紋理格式的控制下完成指定的數(shù)據(jù)格式轉(zhuǎn)換功能，使得紋理引擎能夠以高效率的方式處理各種類型的數(shù)據(jù)，適應(yīng)各種繪制場景。

紋理引擎包含4個(gè)并行工作的紋素過濾單元，每個(gè)紋素過濾器為quad(2×2的像素塊)內(nèi)的1個(gè)像素的紋理請求的4個(gè)顏色分量(RGBA)并行實(shí)施帶有權(quán)重的過濾操作。因此，對于一個(gè)quad，紋理引擎具有16個(gè)并行工作的過濾單元(每個(gè)紋理過濾器包含4個(gè)過濾單元)。紋素的權(quán)重值來自紋素地址(U，V)的U分量和V分量的小數(shù)部分。每個(gè)紋素過濾器根據(jù)Opengl API所定義的過濾模式(線性過濾，雙線性過濾，三線性過濾)執(zhí)行過濾操作。當(dāng)2D紋理映射操作的過濾模式為線性過濾，則將4個(gè)權(quán)重值(Ufrac，Vfrac，1-Ufrac，1-Vfrac)和4組RGBA紋素?cái)?shù)據(jù)作為紋素過濾器的輸入，計(jì)算出1個(gè)紋素?cái)?shù)據(jù)。紋素過濾單元可以被多種過濾模式所復(fù)用，因此采用全功能的紋素過濾器有利于減少計(jì)算資源的面積，而且紋素過濾單元總是處于忙狀態(tài)。在最后一個(gè)處理步驟中，紋素?cái)?shù)據(jù)歸一化單元將TMU的過濾單元輸出的紋素?cái)?shù)據(jù)轉(zhuǎn)換為像素著色器(統(tǒng)一著色核心)所需要的fp32格式的RGBA數(shù)據(jù)。

在紋理貼過程中，紋理數(shù)據(jù)蘊(yùn)含大量空間和時(shí)間局部性，通常在一幅場景中需要執(zhí)行紋理貼圖的片元數(shù)量非常大，每個(gè)需要被貼圖的片元(像素)需要執(zhí)行多個(gè)紋理存儲(chǔ)器的查詢操作(例如，通常為1～8個(gè)紋素)；相鄰像素在執(zhí)行紋理過濾操作階段會(huì)使用相同的紋素?cái)?shù)據(jù)；對于一幅圖像的相鄰幾幀，通常所需要的紋理數(shù)據(jù)是相同。為了降低紋理映射操作的存儲(chǔ)帶寬需求，捕捉相鄰片元(fragment或者像素)之間的數(shù)據(jù)重用性，紋理Cache成為圖形渲染系統(tǒng)的必要組成部分。參見圖2紋理引擎硬件結(jié)構(gòu)，結(jié)合多種過濾模式的紋理采樣特性，在TMU中集成了一種多端口、多存儲(chǔ)體、非阻塞只讀紋理Cache。紋理Cache位于紋素地址產(chǎn)生單元和紋素?cái)?shù)據(jù)格式轉(zhuǎn)換單元之間。紋理Cache每次為紋素過濾單元最多提供16個(gè)紋素，以便4個(gè)紋素過濾單元能夠并行工作。使用二維的紋素坐標(biāo)(U，V)作為紋理Cache的輸入，紋理Cache負(fù)責(zé)輸出對應(yīng)的紋素?cái)?shù)據(jù)。紋理Cache采用全相聯(lián)結(jié)構(gòu)，總?cè)萘繛?6 KB，每個(gè)Cache行為2 048 bit。紋理Cache包含一個(gè)缺失信息保持寄存器，用于支持非阻塞Cache的存儲(chǔ)訪問功能。在紋理Cache中存儲(chǔ)壓縮格式的紋理有利于提高Cache的空間利用率，使得Cache可以存儲(chǔ)更多的數(shù)據(jù)，據(jù)此本文將紋理數(shù)據(jù)的解壓縮邏輯設(shè)置在紋理Cache之后。解壓縮操作比較簡單，對于S3TC的每個(gè)4×4的紋素塊，根據(jù)2 bit的顏色索引，使用2個(gè)額外的顏色值和2個(gè)基本的顏色值執(zhí)行插值計(jì)算就可以得到的每個(gè)紋素的顏色值。

4 性能評價(jià)

本文基于Xilinx Vertex6 xc6v1x760構(gòu)建FPGA原型開發(fā)平臺(tái)設(shè)計(jì)和實(shí)現(xiàn)了具有硬件紋理引擎的GPU硬件結(jié)構(gòu)。圖3為4個(gè)OpenGL程序在FPGA原型開發(fā)平臺(tái)的紋理貼圖效果。測試程序集包含4個(gè)經(jīng)典Opengl測試程序，圖4(a)為Marbles，測試1D、3D紋理的點(diǎn)采樣效果；圖4(b)為Environment Mapping，測試CUBE紋理貼圖的效果；圖4(c)為Protechny，測試基于mipmap的紋理貼圖效果；1個(gè)2D矩形像素區(qū)域；圖4(d)為sunset，測試2D紋理的雙線性過濾的繪制結(jié)果。本文以量化的方式對紋理引擎的性能進(jìn)行了評測。當(dāng)紋理引擎的工作頻率為270 MHz，4個(gè)OpenGL程序的繪制分辨率為512×512，具有紋理引擎的GPU的硬件實(shí)現(xiàn)平均繪制性能可以達(dá)到35.5 fps。

圖3 紋理映射的繪制效果

圖4 Opengl測試程序的繪制性能

5 結(jié)束語

紋理請求的紋理采樣操作、紋素?cái)?shù)據(jù)格式轉(zhuǎn)換操作和紋素過濾操作蘊(yùn)含大量的數(shù)據(jù)并行性，經(jīng)典的quad像素塊結(jié)構(gòu)具有并行處理紋理請求的需求。本文據(jù)此提出一種多路并行流水化紋理引擎的硬件體系結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明，本文的設(shè)計(jì)方案能夠較好滿足3D圖形實(shí)時(shí)繪制的性能和功能需求。為了提高全自主知識產(chǎn)權(quán)國產(chǎn)圖形處理器的可編程性，本文計(jì)劃下一步研究和實(shí)現(xiàn)一款支持GLSL1.40標(biāo)準(zhǔn)的紋理處理器，使統(tǒng)一著色核心能夠?qū)τ脩舳x的頂點(diǎn)和片段著色程序進(jìn)行硬件加速。

[1] EUH J，CHITTARMURU J ，BURLESON W.A Low-Power Content-Adaptive Texture Mapping Architecture for Real Time 3D Graphics[C]∥2nd International Workshop on Power-aware Computer Systems，Springer-verlag berlin，2002：99-109.

[2] MOREIN S.ATI Radeon Hyperz Technology[C]∥Proc.of Hot3d Graphics Hardware Workshop，2000：1-24.

[3] AKENINE-MOLLER T，STROM J.Graphics Processing Units for Handhelds[J].IEEE，2008，96(5)：779-789.

[4] ARNAU J M，PARCERISA J M，XEKALAKIS P.Boosting Mobile GPU Performance With A Decoupled Access/Execute Fragment Processor[C]∥ISCA 2012.IEEE Computer Society，2012：84-93.

[5] KIM H S，LEE J，KIM H，KANG S，et.al.A Lossless Color Image Compression Architecture Using a Parallel Golomb-Rice Hardware CODEC[J].IEEE Transactions on Circuits and Systems for Video Technology，2011，21(11)：1581-1587.

[6] LIOU J Y.Re-visit Blocking Texture Cache Design for Modern GPU[C]∥ISOCC2014.IEEE，2014：288-289.

[7] DOGGETT M.Texture Caches[C]∥IEEE Micro，IEEE Computer Society，2012：136-141.

[8] NAWANDHAR A A.3D Graphics Texture Compression and Its Recent Trends[J].International Journal of Engineering Research and Applications (IJERA)，2013，3(2)：1381-1385.

[9] MANTOR M.AMD RadeonTMhd 7970 with Graphics Core Next (GCN) Architecture[R].IEEE,2012：1-35.

[10] IMAGINATION.The Architecture of High-end Mobile Graphics Hardware[C/OL]∥2013-01-01，http：∥www.imgtec.com

[11] IAN B.The ARM? MaliTM-T880 Mobile GPU[J].IEEE，2016：1-27.

[12] NVIDIA.NVIDIA Tegra 4 Family GPU Architecture[C/OL]∥2014-04-27.http：∥www.nvidia.com/docs/IO∥116757/Tegra_4_GPU_Whitepaper_FINALv2.pdf，2014.

[13] BROADCOM.VideoCore IV 3D architecture reference guide[C]∥VideoCoreIV-AG100-R，2013.

[14] 盧章平，丁立軍，戴立玲.基于分類的紋理映射方法綜述[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版)，27(5A)，2006：13-16.

[15] KESSENICH J.The OpenGL Shading Language[M].The Khronos Group Inc，2009.

[16] 簡洪登，范湘濤.基于GLSL的多重視頻紋理映射與融合[J].計(jì)算機(jī)程與計(jì)，2014，35(11)：3873-3878.

[17] 周珍艮.紋理映射算法研究與FGPA實(shí)現(xiàn)[D].合肥：中國科學(xué)技術(shù)大學(xué)，2007.

[18] 趙國宇，郭煒，常軼松.一種高效紋理映射單元的硬件體系結(jié)構(gòu)設(shè)計(jì)[J].計(jì)算機(jī)工程，2013，39(5)：92-105.

[19] 焦繼業(yè)，李濤，杜慧敏，等.移動(dòng)圖形處理器的現(xiàn)狀、技術(shù)及其發(fā)展[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)，2015，27(6)：1005-1016.

[20] 董梁，劉海，韓俊剛.圖形處理器中光照和紋理映射的設(shè)計(jì)與仿真實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué)，2011，38(2)：284-301.