亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模式并行處理紋理引擎硬件體系結(jié)構(gòu)設(shè)計(jì)

        2018-05-11 06:20:55韓立敏鄭新建任向隆
        無線電工程 2018年6期
        關(guān)鍵詞:引擎

        韓立敏,田 澤,鄭新建,張 駿,任向隆

        (1.中國航空工業(yè)集團(tuán)有限公司西安計(jì)算技術(shù)研究所,陜西 西安 710068;2.集成電路與微系統(tǒng)設(shè)計(jì)航空科技重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710068)

        0 引言

        3D計(jì)算機(jī)圖形學(xué)領(lǐng)域發(fā)明和應(yīng)用了大量的渲染技術(shù),對于合成高質(zhì)量的圖像來說,紋理貼圖技術(shù)不需要執(zhí)行大量的計(jì)算操作就可以產(chǎn)生真實(shí)感的高質(zhì)量圖像,使紋理貼圖成為提高3D圖形表面真實(shí)感最受歡迎的技術(shù)之一[1]。

        在紋理貼圖應(yīng)用程序的執(zhí)行過程中,每個(gè)像素(Fragment)的紋理請求需要串行的執(zhí)行多種操作,包括紋素采樣地址的計(jì)算、紋理緩沖區(qū)的存儲(chǔ)器訪問、紋素顏色數(shù)據(jù)的格式轉(zhuǎn)換和紋理過濾操作。每個(gè)像素的1個(gè)紋理請求包含1~8個(gè)外部存儲(chǔ)器(DDR3)的存儲(chǔ)訪問請求,因此需要為每個(gè)紋理請求計(jì)算1~8個(gè)紋素地址,為每個(gè)紋理請求執(zhí)行1~8個(gè)紋素?cái)?shù)據(jù)的格式轉(zhuǎn)換操作、多模式(線性,雙線性,三線性)的紋素過濾操作。

        本文采用自頂向下完全正向的設(shè)計(jì)方法,在分析Opengl紋理圖像加載函數(shù)的功能和紋理對象管理機(jī)制的基礎(chǔ)上,獨(dú)創(chuàng)性地提出紋理映射系統(tǒng)的組成結(jié)構(gòu),總結(jié)出紋理映射的執(zhí)行流程。紋理貼圖既是一種存儲(chǔ)密集型的操作,也是一種計(jì)算密集型的操作。通過挖掘紋理映射請求內(nèi)多個(gè)計(jì)算步驟數(shù)據(jù)操作的并行性、紋素?cái)?shù)據(jù)在紋理貼圖過程中時(shí)間與空間維度上的存儲(chǔ)訪問局部性,設(shè)計(jì)了一種支持Opengl 2.0標(biāo)準(zhǔn)的流水結(jié)構(gòu)、多路并行處理的硬件紋理映射引擎,采用硬件并行加速手段為航空工業(yè)計(jì)算所自主研發(fā)GPU解除了性能瓶頸。

        1 相關(guān)研究工作

        紋理映射操作中的紋理存儲(chǔ)器訪問需要消耗圖形加速器的大量存儲(chǔ)器帶寬和功耗。以嵌入式GPU為例,GPU獲取紋素?cái)?shù)據(jù)平均消耗62%的存儲(chǔ)器帶寬[2-4]。現(xiàn)代3D圖形應(yīng)用中使用了大量的紋理圖像,存儲(chǔ)紋理圖像需要消耗大量的存儲(chǔ)器容量,為了解決這個(gè)問題,出現(xiàn)了大量的紋理壓縮算法[5]。為了降低紋理請求對紋理存儲(chǔ)器的帶寬需求,工業(yè)界和學(xué)術(shù)界在片上紋理Cache的設(shè)計(jì)和紋理數(shù)據(jù)壓縮方面已經(jīng)取得大量的成果。在學(xué)術(shù)界,Jhe-Yu Liou提出了一種6D數(shù)據(jù)塊結(jié)構(gòu)的紋理Cache,然而,獲取一個(gè)大數(shù)據(jù)塊需要觸發(fā)多個(gè)突發(fā)式的存儲(chǔ)器訪問請求,導(dǎo)致存儲(chǔ)器訪問的效率降低[6]。Michael Doggett預(yù)測在未來一段時(shí)間內(nèi),為了實(shí)現(xiàn)高性能,紋理Cache依然必須存在于GPU的硬件邏輯中[7]。文獻(xiàn)[8]綜述了現(xiàn)代GPU的紋理壓縮算法。為了獲取高質(zhì)量的圖像數(shù)據(jù),一般對紋理的壓縮操作沒有實(shí)時(shí)性的需求,可以離線實(shí)現(xiàn)壓縮,然而,為了在GPU中實(shí)現(xiàn)實(shí)時(shí)解壓縮操作,要求紋理解壓縮操作不但要支持隨機(jī)存儲(chǔ)器訪問而且容易采用硬件實(shí)現(xiàn)。

        主流高端GPU均集成了多個(gè)硬件紋理映射單元,專門用于加速紋理映射操作。例如,2012年8月28日,AMD推出了radeon 7970 GCN結(jié)構(gòu)的GPU,該GPU包含一個(gè)全相聯(lián)的紋理Cache,每個(gè)計(jì)算單元(CU)包含了4個(gè)紋理單元,每個(gè)紋理單元包含8個(gè)紋理地址產(chǎn)生單元、20個(gè)紋理采樣器和4個(gè)紋素過濾單元。這些紋理單元支持DXTC/S3TC和3Dc格式的自動(dòng)解壓縮[9]。Imagination公司的powerVR系列6 rogue GPU具有一個(gè)統(tǒng)一著色簇陣列,每個(gè)簇包含大量的紋理單元和1個(gè)512 KB的紋理Cache[10]。ARM mali-T880移動(dòng)GPU具有一個(gè)共享的紋理流水線(Texture Pipeline),能夠執(zhí)行各向異性計(jì)算,產(chǎn)生梯度描述符,該GPU的存儲(chǔ)器帶寬優(yōu)化機(jī)制包括ASTC和AFBC[11]。NVIDIA的GF100 GPU的每個(gè)統(tǒng)一著色核(Streaming Multiprocessor,SM)具有4個(gè)紋理單元(Texture Unit),將紋理單元作為統(tǒng)一著色核的一個(gè)執(zhí)行部件,加速紋理操作。為了降低片外的存儲(chǔ)訪問次數(shù),NVIDIA Tegra 4處理器中的GPU包含了片上的頂點(diǎn)Cache、紋理Cache和像素Cache。每個(gè)像素著色器包含一個(gè)能夠執(zhí)行FP16紋理過濾操作的紋理過濾單元[12]。Broadcom公司的Videocore IV四核處理器的每個(gè)著色核包含一個(gè)TMU(紋理和存儲(chǔ)器查詢單元),每個(gè)紋理單元具有一個(gè)L1 Cache,L2 Cache被所有的紋理單元所共享[13]。

        雖然國外商用GPU的紋理單元均實(shí)現(xiàn)了基本相同的功能,但是其微體系結(jié)構(gòu)的組織方式、輸入和輸出接口的設(shè)計(jì)、紋理請求輸入?yún)?shù)的傳輸方式、紋理參數(shù)的存儲(chǔ)和獲取方式,以及并行流水線的個(gè)數(shù)隨著GPU統(tǒng)一著色核的指令集和統(tǒng)一著色核的微結(jié)構(gòu)不同,存在較大的差異。此外,描述紋理單元內(nèi)部的微結(jié)構(gòu)和實(shí)現(xiàn)原理相關(guān)公開文獻(xiàn)資料非常少,全自主知識產(chǎn)權(quán)的GPU研制難以借鑒成熟商用的GPU相關(guān)的設(shè)計(jì)思想。

        國內(nèi)在紋理映射的原理及其相關(guān)算法開展較早,盧章平等人對紋理映射的方法進(jìn)行了綜述[14]。簡洪登使用GLSL語言在算法級對多重視頻紋理映射和融合技術(shù)進(jìn)行了研究和實(shí)現(xiàn)[15-16]。在硬件加速方面,中國科學(xué)技術(shù)大學(xué)研究了紋理映射算法的FGPA實(shí)現(xiàn)[17],天津大學(xué)提出了一種專用的硬件紋理映射系統(tǒng)結(jié)構(gòu)[18]。西安郵電大學(xué)的焦繼業(yè)等人總結(jié)了嵌入式圖形處理器高性能和低功耗設(shè)計(jì)技術(shù)的研究現(xiàn)狀,并預(yù)測了紋理壓縮技術(shù)等存儲(chǔ)訪問技術(shù)的發(fā)展趨勢[19]。西安電子科技大學(xué)的董梁對圖形處理器中的光照和紋理映射進(jìn)行了流水化的硬件設(shè)計(jì)[20]。總體上,國內(nèi)的相關(guān)研究對紋理映射操作各個(gè)階段的算法進(jìn)行了較為深入的研究,但是從系統(tǒng)角度對紋理貼圖操作的實(shí)現(xiàn)原理和操作并行化問題研究的較少。

        圖形繪制性能是GPU競爭的重要因素,硬件紋理單元在高性能GPU中依然是非常重要的固定功能邏輯。結(jié)合上文對于研究現(xiàn)狀的分析,在全自主知識產(chǎn)權(quán)的國產(chǎn)嵌入式高性能統(tǒng)一著色架構(gòu)GPU的研制中,研究和設(shè)計(jì)高效的專用紋理單元仍然具有重要意義。

        2 紋理映射系統(tǒng)

        完成紋理映射功能需要統(tǒng)一著色架構(gòu)GPU多個(gè)子功能單元的協(xié)同工作,實(shí)現(xiàn)以下功能:紋理圖像數(shù)據(jù)到DDR3的加載、紋理圖像參數(shù)的配置和存儲(chǔ)、像素的紋理地址產(chǎn)生、紋理請求在紋理映射單元TMU(Texture Map Unit)中的解析和執(zhí)行。紋理映射系統(tǒng)如圖1所示。

        圖1 紋理映射系統(tǒng)

        圖1中的紋理映射系統(tǒng)除了TMU,還包括為紋理映射操作提供輸入請求、紋理圖像數(shù)據(jù)和紋理參數(shù)的相關(guān)邏輯,包括統(tǒng)一著色處理器、圖形命令解析單元、紋理圖像加載單元、紋理圖像參數(shù)存儲(chǔ)器、DDR3和PCIe。結(jié)合圖1所示的紋理映射系統(tǒng),圖形繪制接口(以O(shè)penGL為例)定義的3D圖形繪制原理描述紋理貼圖操作的工作流程如下:

        步驟1:使用圖形繪制API為每個(gè)圖元的頂點(diǎn)關(guān)聯(lián)紋理坐標(biāo),統(tǒng)一著色處理器使用紋理矩陣完成紋理坐標(biāo)的變換操作,使能1D、2D、3D和CUBE紋理映射;

        步驟2:圖形命令解析單元解析圖形命令緩沖器發(fā)送的紋理圖像加載函數(shù)和紋理參數(shù)配置函數(shù);

        步驟3:紋理圖像加載單元依據(jù)圖形命令解析單元發(fā)送的API類型、輸入?yún)?shù)執(zhí)行紋理圖像數(shù)據(jù)到DDR3的加載;根據(jù)相應(yīng)的使能開關(guān),硬件自動(dòng)產(chǎn)生mipmap圖像層并存儲(chǔ)在DDR3;將過濾模式、紋理內(nèi)部格式、紋理圖像的尺寸、紋理的維度和紋理比較函數(shù)等紋理的參數(shù)存儲(chǔ)在紋理參數(shù)存儲(chǔ)器;紋理參數(shù)存儲(chǔ)器依據(jù)1D、2D、3D和CUBE紋理映射的使能開關(guān),結(jié)合優(yōu)先級規(guī)則產(chǎn)生紋理映射有效標(biāo)識;

        步驟4:光柵化單元以圖元的頂點(diǎn)所綁定的紋理坐標(biāo)作為輸入源,通過插值操作產(chǎn)生每個(gè)片元(像素)的紋理坐標(biāo);

        步驟5:統(tǒng)一著色處理器初步解析紋理存儲(chǔ)器訪問指令后向TMU發(fā)出紋理請求。TMU根據(jù)紋理請求所攜帶的控制參數(shù)依次執(zhí)行如下操作:訪問紋理參數(shù)存儲(chǔ)器、計(jì)算lod、計(jì)算1~8個(gè)紋素采樣地址、組裝1~8個(gè)紋理存儲(chǔ)器訪問、執(zhí)行1~8個(gè)紋素?cái)?shù)據(jù)轉(zhuǎn)換操作、執(zhí)行紋素過濾和比較操作和紋素?cái)?shù)據(jù)的歸一化處理。以上操作全部執(zhí)行完畢之后,TMU將最終處理的紋素顏色數(shù)據(jù)返回給統(tǒng)一著色處理器。

        3 紋理引擎硬件體系結(jié)構(gòu)

        紋理引擎的硬件體系結(jié)構(gòu)如圖2所示。紋理引擎由6個(gè)主要的部分組成:紋理屬性存儲(chǔ)器、mipmap的層次細(xì)節(jié)(lod)計(jì)算邏輯、紋素地址產(chǎn)生、紋理cache、紋素?cái)?shù)據(jù)格式轉(zhuǎn)換、紋素過濾和紋素?cái)?shù)據(jù)歸一化單元。紋理參數(shù)存儲(chǔ)器為紋理引擎的其他邏輯階段提供控制信息,實(shí)現(xiàn)多模式可配置的紋理映射操作。

        圖2 紋理引擎的硬件體系結(jié)構(gòu)

        光柵化單元為每個(gè)像素通過插值操作計(jì)算出一組紋理坐標(biāo)P(s,t,r,q),作為像素的輸入屬性進(jìn)入統(tǒng)一著色核心執(zhí)行像素著色操作。如果紋理使能開關(guān)有效,則統(tǒng)一著色核心將包含紋理坐標(biāo)P的紋理請求轉(zhuǎn)發(fā)給TMU,TMU使用紋理坐標(biāo)P查詢紋理圖像(紋素?cái)?shù)據(jù)組成的多維數(shù)組),實(shí)施臨近采樣或者4個(gè)空間上相鄰紋素的多紋素采樣,然后執(zhí)行紋素過濾的線性插值操作。最終向統(tǒng)一著色核心返回一個(gè)fp32格式的RGBA紋素顏色數(shù)據(jù)。

        基于以下原因,紋理引擎選擇了動(dòng)態(tài)可配置、流水化處理和多路并行結(jié)構(gòu)。

        ① 紋理請求包含多個(gè)邏輯步驟:mipmap細(xì)節(jié)層次的確定、紋素地址的產(chǎn)生、紋素的收集和紋素的過濾。紋理請求的這些內(nèi)部操作具有流水化、串行化的執(zhí)行特征。

        ② 一方面,項(xiàng)目組自主研發(fā)的統(tǒng)一著色架構(gòu)GPU的光柵化單元將空間上相鄰的像素組織成2×2像素塊,這種2×2像素塊通常被稱之為quad,TMU接收quad結(jié)構(gòu)的紋理請求,4個(gè)空間上相鄰的紋理請求并行流入和流出TMU。使用4路并行的流水線結(jié)構(gòu)處理連續(xù)到來的2×2的像素塊的紋理請求符合紋理請求的處理需求。另一方面,每個(gè)紋理請求具有多組需要能夠被并行處理的數(shù)據(jù)。細(xì)節(jié)層次計(jì)算單元需要通過計(jì)算像素quad中4個(gè)相鄰像素的紋理坐標(biāo)的差值計(jì)算mipmap的細(xì)節(jié)層次(LOD);像素Quad的4個(gè)紋理請求的16個(gè)紋素的格式轉(zhuǎn)換操作可以并行實(shí)施;像素Quad的紋理請求的4個(gè)紋理請求的16個(gè)紋素的顏色分量(R,G,B,A)的過濾操作可以并行實(shí)施。

        ③ 多模式的紋理貼圖功能。紋理過濾模式和紋理內(nèi)部格式是API可配置,因此,TMU的大多數(shù)邏輯操作階段是可配置的。此外,紋理參數(shù)的不會(huì)非常頻繁,所以動(dòng)態(tài)配置的性能損失代價(jià)較低。

        以下結(jié)合紋理映射操作數(shù)據(jù)處理特征詳細(xì)描述TMU內(nèi)部子功能單元的設(shè)計(jì)原理。

        lod細(xì)節(jié)層次計(jì)算邏輯產(chǎn)生TMU的流水線“控制字”,流水線“控制字”順著TMU的流水線向下傳遞,被紋素地址產(chǎn)生單元和紋理過濾單元逐步消費(fèi)掉。由于紋理內(nèi)部格式的種類眾多,設(shè)計(jì)高效的紋理Cache和紋理映射單元非常困難。根據(jù)對典型應(yīng)用程序的分析,考慮到設(shè)計(jì)復(fù)雜度,紋理過濾單元和紋理Cache以及紋素?cái)?shù)據(jù)格式轉(zhuǎn)換單元支持OpenGL圖形API所定義的幾種常用的紋理內(nèi)部格式(例如RGBA8888,RGB565等)。

        以2D紋理為例,紋素地址產(chǎn)生單元將每個(gè)紋理地址P(s,t)乘以紋理的寬、高,為每個(gè)紋理請求計(jì)算1/2/4/8紋素存儲(chǔ)器地址(U,V)。將1/2/4/8紋素存儲(chǔ)器地址(U,V)作為一個(gè)整體送給紋理Cache,當(dāng)一組紋素?cái)?shù)據(jù)返回之后,紋素?cái)?shù)據(jù)被轉(zhuǎn)發(fā)給紋素過濾單元之前,紋素?cái)?shù)據(jù)格式轉(zhuǎn)換器負(fù)責(zé)實(shí)現(xiàn)紋素?cái)?shù)據(jù)的格式轉(zhuǎn)換操作。

        紋理引擎包含16個(gè)紋素?cái)?shù)據(jù)格式轉(zhuǎn)換器,每個(gè)紋素?cái)?shù)據(jù)格式轉(zhuǎn)換器將紋素轉(zhuǎn)換為TMU內(nèi)部流水線的數(shù)據(jù)格式。數(shù)據(jù)格式轉(zhuǎn)換單元能夠根據(jù)應(yīng)用程序中的Opengl的API所定義的各種1D/2D/3D/CUBE的mipmap的紋理數(shù)據(jù),各種過濾模式和各種內(nèi)部紋理格式的控制下完成指定的數(shù)據(jù)格式轉(zhuǎn)換功能,使得紋理引擎能夠以高效率的方式處理各種類型的數(shù)據(jù),適應(yīng)各種繪制場景。

        紋理引擎包含4個(gè)并行工作的紋素過濾單元,每個(gè)紋素過濾器為quad(2×2的像素塊)內(nèi)的1個(gè)像素的紋理請求的4個(gè)顏色分量(RGBA)并行實(shí)施帶有權(quán)重的過濾操作。因此,對于一個(gè)quad,紋理引擎具有16個(gè)并行工作的過濾單元(每個(gè)紋理過濾器包含4個(gè)過濾單元)。紋素的權(quán)重值來自紋素地址(U,V)的U分量和V分量的小數(shù)部分。每個(gè)紋素過濾器根據(jù)Opengl API所定義的過濾模式(線性過濾,雙線性過濾,三線性過濾)執(zhí)行過濾操作。當(dāng)2D紋理映射操作的過濾模式為線性過濾,則將4個(gè)權(quán)重值(Ufrac,Vfrac,1-Ufrac,1-Vfrac)和4組RGBA紋素?cái)?shù)據(jù)作為紋素過濾器的輸入,計(jì)算出1個(gè)紋素?cái)?shù)據(jù)。紋素過濾單元可以被多種過濾模式所復(fù)用,因此采用全功能的紋素過濾器有利于減少計(jì)算資源的面積,而且紋素過濾單元總是處于忙狀態(tài)。在最后一個(gè)處理步驟中,紋素?cái)?shù)據(jù)歸一化單元將TMU的過濾單元輸出的紋素?cái)?shù)據(jù)轉(zhuǎn)換為像素著色器(統(tǒng)一著色核心)所需要的fp32格式的RGBA數(shù)據(jù)。

        在紋理貼過程中,紋理數(shù)據(jù)蘊(yùn)含大量空間和時(shí)間局部性,通常在一幅場景中需要執(zhí)行紋理貼圖的片元數(shù)量非常大,每個(gè)需要被貼圖的片元(像素)需要執(zhí)行多個(gè)紋理存儲(chǔ)器的查詢操作(例如,通常為1~8個(gè)紋素);相鄰像素在執(zhí)行紋理過濾操作階段會(huì)使用相同的紋素?cái)?shù)據(jù);對于一幅圖像的相鄰幾幀,通常所需要的紋理數(shù)據(jù)是相同。為了降低紋理映射操作的存儲(chǔ)帶寬需求,捕捉相鄰片元(fragment或者像素)之間的數(shù)據(jù)重用性,紋理Cache成為圖形渲染系統(tǒng)的必要組成部分。參見圖2紋理引擎硬件結(jié)構(gòu),結(jié)合多種過濾模式的紋理采樣特性,在TMU中集成了一種多端口、多存儲(chǔ)體、非阻塞只讀紋理Cache。紋理Cache位于紋素地址產(chǎn)生單元和紋素?cái)?shù)據(jù)格式轉(zhuǎn)換單元之間。紋理Cache每次為紋素過濾單元最多提供16個(gè)紋素,以便4個(gè)紋素過濾單元能夠并行工作。使用二維的紋素坐標(biāo)(U,V)作為紋理Cache的輸入,紋理Cache負(fù)責(zé)輸出對應(yīng)的紋素?cái)?shù)據(jù)。紋理Cache采用全相聯(lián)結(jié)構(gòu),總?cè)萘繛?6 KB,每個(gè)Cache行為2 048 bit。紋理Cache包含一個(gè)缺失信息保持寄存器,用于支持非阻塞Cache的存儲(chǔ)訪問功能。在紋理Cache中存儲(chǔ)壓縮格式的紋理有利于提高Cache的空間利用率,使得Cache可以存儲(chǔ)更多的數(shù)據(jù),據(jù)此本文將紋理數(shù)據(jù)的解壓縮邏輯設(shè)置在紋理Cache之后。解壓縮操作比較簡單,對于S3TC的每個(gè)4×4的紋素塊,根據(jù)2 bit的顏色索引,使用2個(gè)額外的顏色值和2個(gè)基本的顏色值執(zhí)行插值計(jì)算就可以得到的每個(gè)紋素的顏色值。

        4 性能評價(jià)

        本文基于Xilinx Vertex6 xc6v1x760構(gòu)建FPGA原型開發(fā)平臺(tái)設(shè)計(jì)和實(shí)現(xiàn)了具有硬件紋理引擎的GPU硬件結(jié)構(gòu)。圖3為4個(gè)OpenGL程序在FPGA原型開發(fā)平臺(tái)的紋理貼圖效果。測試程序集包含4個(gè)經(jīng)典Opengl測試程序,圖4(a)為Marbles,測試1D、3D紋理的點(diǎn)采樣效果;圖4(b)為Environment Mapping,測試CUBE紋理貼圖的效果;圖4(c)為Protechny,測試基于mipmap的紋理貼圖效果;1個(gè)2D矩形像素區(qū)域;圖4(d)為sunset,測試2D紋理的雙線性過濾的繪制結(jié)果。本文以量化的方式對紋理引擎的性能進(jìn)行了評測。當(dāng)紋理引擎的工作頻率為270 MHz,4個(gè)OpenGL程序的繪制分辨率為512×512,具有紋理引擎的GPU的硬件實(shí)現(xiàn)平均繪制性能可以達(dá)到35.5 fps。

        圖3 紋理映射的繪制效果

        圖4 Opengl測試程序的繪制性能

        5 結(jié)束語

        紋理請求的紋理采樣操作、紋素?cái)?shù)據(jù)格式轉(zhuǎn)換操作和紋素過濾操作蘊(yùn)含大量的數(shù)據(jù)并行性,經(jīng)典的quad像素塊結(jié)構(gòu)具有并行處理紋理請求的需求。本文據(jù)此提出一種多路并行流水化紋理引擎的硬件體系結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文的設(shè)計(jì)方案能夠較好滿足3D圖形實(shí)時(shí)繪制的性能和功能需求。為了提高全自主知識產(chǎn)權(quán)國產(chǎn)圖形處理器的可編程性,本文計(jì)劃下一步研究和實(shí)現(xiàn)一款支持GLSL1.40標(biāo)準(zhǔn)的紋理處理器,使統(tǒng)一著色核心能夠?qū)τ脩舳x的頂點(diǎn)和片段著色程序進(jìn)行硬件加速。

        [1] EUH J,CHITTARMURU J ,BURLESON W.A Low-Power Content-Adaptive Texture Mapping Architecture for Real Time 3D Graphics[C]∥2nd International Workshop on Power-aware Computer Systems,Springer-verlag berlin,2002:99-109.

        [2] MOREIN S.ATI Radeon Hyperz Technology[C]∥Proc.of Hot3d Graphics Hardware Workshop,2000:1-24.

        [3] AKENINE-MOLLER T,STROM J.Graphics Processing Units for Handhelds[J].IEEE,2008,96(5):779-789.

        [4] ARNAU J M,PARCERISA J M,XEKALAKIS P.Boosting Mobile GPU Performance With A Decoupled Access/Execute Fragment Processor[C]∥ISCA 2012.IEEE Computer Society,2012:84-93.

        [5] KIM H S,LEE J,KIM H,KANG S,et.al.A Lossless Color Image Compression Architecture Using a Parallel Golomb-Rice Hardware CODEC[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(11):1581-1587.

        [6] LIOU J Y.Re-visit Blocking Texture Cache Design for Modern GPU[C]∥ISOCC2014.IEEE,2014:288-289.

        [7] DOGGETT M.Texture Caches[C]∥IEEE Micro,IEEE Computer Society,2012:136-141.

        [8] NAWANDHAR A A.3D Graphics Texture Compression and Its Recent Trends[J].International Journal of Engineering Research and Applications (IJERA),2013,3(2):1381-1385.

        [9] MANTOR M.AMD RadeonTMhd 7970 with Graphics Core Next (GCN) Architecture[R].IEEE,2012:1-35.

        [10] IMAGINATION.The Architecture of High-end Mobile Graphics Hardware[C/OL]∥2013-01-01,http:∥www.imgtec.com

        [11] IAN B.The ARM? MaliTM-T880 Mobile GPU[J].IEEE,2016:1-27.

        [12] NVIDIA.NVIDIA Tegra 4 Family GPU Architecture[C/OL]∥2014-04-27.http:∥www.nvidia.com/docs/IO∥116757/Tegra_4_GPU_Whitepaper_FINALv2.pdf,2014.

        [13] BROADCOM.VideoCore IV 3D architecture reference guide[C]∥VideoCoreIV-AG100-R,2013.

        [14] 盧章平,丁立軍,戴立玲.基于分類的紋理映射方法綜述[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),27(5A),2006:13-16.

        [15] KESSENICH J.The OpenGL Shading Language[M].The Khronos Group Inc,2009.

        [16] 簡洪登,范湘濤.基于GLSL的多重視頻紋理映射與融合[J].計(jì)算機(jī)程與計(jì),2014,35(11):3873-3878.

        [17] 周珍艮.紋理映射算法研究與FGPA實(shí)現(xiàn)[D].合肥:中國科學(xué)技術(shù)大學(xué),2007.

        [18] 趙國宇,郭煒,常軼松.一種高效紋理映射單元的硬件體系結(jié)構(gòu)設(shè)計(jì)[J].計(jì)算機(jī)工程,2013,39(5):92-105.

        [19] 焦繼業(yè),李濤,杜慧敏,等.移動(dòng)圖形處理器的現(xiàn)狀、技術(shù)及其發(fā)展[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015,27(6):1005-1016.

        [20] 董梁,劉海,韓俊剛.圖形處理器中光照和紋理映射的設(shè)計(jì)與仿真實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2011,38(2):284-301.

        猜你喜歡
        引擎
        以學(xué)促干 挺膺擔(dān)當(dāng) 激活砥礪前行的紅色引擎
        江陰市“三個(gè)創(chuàng)新”打造?;钒踩O(jiān)管新引擎
        新海珠,新引擎,新活力!
        消費(fèi)繼續(xù)發(fā)揮經(jīng)濟(jì)增長第一引擎作用
        三生 三大引擎齊發(fā)力
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        休閑垂釣 傳統(tǒng)漁業(yè)新引擎
        信息化,“盛京”加速的新引擎
        無形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        基于Cocos2d引擎的PuzzleGame開發(fā)
        一本色道久久88综合| 国产成人一区二区三区在线观看| 色综合自拍| 极品美女尤物嫩模啪啪| 色和尚色视频在线看网站| 人妻av无码一区二区三区| 99久久免费看少妇高潮a片特黄| 美女裸体无遮挡免费视频国产| 毛茸茸的女性外淫小视频| 色狠狠色狠狠综合天天| 亚洲国产成人精品无码区99| 无码人妻精品一区二区三区下载| 国语对白自拍视频在线播放| 亚洲av无码专区国产不卡顿| 色老头在线一区二区三区| 91精品综合久久久久m3u8| 国产精品久久婷婷六月丁香| 中文字幕人妻熟女人妻| 蜜臀av免费一区二区三区| 果冻蜜桃传媒在线观看| 在线播放亚洲丝袜美腿| 无码一区二区三区亚洲人妻| 日韩在线第二页| 久久精品国产亚洲av成人网| 四虎成人精品在永久免费| 毛片在线播放a| 国产亚洲精选美女久久久久| 天堂网日韩av在线播放一区| 狠狠精品久久久无码中文字幕 | 最新国产午夜福利| 国产一区二区三区精品成人爱| 亚洲性色av一区二区三区| 97无码人妻福利免费公开在线视频| 级毛片无码av| 加勒比精品视频在线播放| 国产真实强被迫伦姧女在线观看| 加勒比无码专区中文字幕| 大香蕉视频在线青青草| 亚洲成aⅴ人片久青草影院| 中文字幕欧美一区| 亚洲人妻av在线播放|