亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向OpenCL的Mali GPU仿真器構(gòu)建研究

        2015-12-26 02:49:06崔繼岳梅魁志劉冬冬李博良
        西安交通大學(xué)學(xué)報 2015年2期
        關(guān)鍵詞:嵌入式指令程序

        崔繼岳,梅魁志,劉冬冬,李博良

        (西安交通大學(xué)電子與信息工程學(xué)院,710049,西安)

        ?

        面向OpenCL的Mali GPU仿真器構(gòu)建研究

        崔繼岳,梅魁志,劉冬冬,李博良

        (西安交通大學(xué)電子與信息工程學(xué)院,710049,西安)

        針對嵌入式GPU通用計算的仿真器構(gòu)建需求,通過對通用圖形處理單元仿真器(general purpose graphics processing unit-simulator, GPGPU-sim)的計算核心、存儲結(jié)構(gòu)與Mali GPU的異同進(jìn)行比較分析,首先建立面向OpenCL的Mali GPU仿真器的流程與結(jié)構(gòu),并設(shè)計計算單元數(shù)、寄存器數(shù)、最小并行粒度等GPU微體系結(jié)構(gòu)參數(shù)的獲取方法,在對GPGPU-sim進(jìn)行修改和配置后,實(shí)現(xiàn)了對特定GPU架構(gòu)的仿真器構(gòu)建。使用矩陣相乘、圖像處理等OpenCL程序?qū)Ψ抡嫫鞯臏?zhǔn)確性進(jìn)行測試,以程序在仿真器和硬件平臺上的執(zhí)行周期數(shù)差距作為評估依據(jù)。實(shí)驗(yàn)結(jié)果表明:對于測試程序集中優(yōu)化前的OpenCL程序,其中70%的程序在兩個平臺上的運(yùn)行周期數(shù)差距不超過30%;對于優(yōu)化后的OpenCL程序,其中90%的程序的運(yùn)行周期數(shù)差距不超過30%。由此證明,構(gòu)建的GPU仿真器能夠滿足OpenCL程序的仿真與性能評估。

        圖形處理器;OpenCL;微體系結(jié)構(gòu)參數(shù);仿真器

        GPU通用計算(general purpose computing on GPU, GPGPU)技術(shù)將GPU與CPU組成異構(gòu)計算平臺,使得GPU不再局限于傳統(tǒng)的圖形計算,可以加快現(xiàn)有算法運(yùn)行速率[1]。嵌入式設(shè)備的GPU已經(jīng)采用多核架構(gòu),使得利用嵌入式GPU進(jìn)行通用計算成為新的研究方向和熱點(diǎn),例如ARM發(fā)布的Mali T6系列GPU目前已支持OpenCL 1.1規(guī)范,對嵌入式平臺的GPGPU開發(fā)環(huán)境產(chǎn)生了需求,因此本文構(gòu)建了Mali系列GPU仿真器,以滿足OpenCL程序的運(yùn)行性能預(yù)測與程序優(yōu)化。

        1 嵌入式GPU仿真器的構(gòu)建設(shè)計

        GPU的體系結(jié)構(gòu)決定了OpenCL程序的執(zhí)行方式,與嵌入式GPU的體系結(jié)構(gòu)保持一致是仿真器的準(zhǔn)確性的前提[2]。本文以通用圖形處理單元仿真器(general purpose graphics processing unit-simulator, GPGPU-sim)作為仿真器設(shè)計基礎(chǔ),對其進(jìn)行修改,使其體系結(jié)構(gòu)與Mali T-628一致,以完成仿真器的構(gòu)建。

        1.1 GPGPU-sim仿真結(jié)構(gòu)

        GPGPU-sim仿真器面向GPU通用計算,著色器模型采用統(tǒng)一渲染架構(gòu),由UBC大學(xué)Aamodt等于2009年發(fā)布,以NVIDIA的GPU為模擬對象[2]。GPGPU-sim提供了詳細(xì)的配置參數(shù),能夠?qū)χ鹘Y(jié)構(gòu)以及內(nèi)存緩存結(jié)構(gòu)進(jìn)行詳細(xì)模擬,并提供了OpenCL接口,支持對OpenCL程序的仿真。

        圖1 GPGPU-sim的體系結(jié)構(gòu)

        圖1給出了GPGPU-sim的整體結(jié)構(gòu)。計算核心部分模擬了GPU的并行核心架構(gòu),每個核心都是一個單指令多線程(single instruction multiple thread, SIMT)架構(gòu)。SIMT核心負(fù)責(zé)指令的執(zhí)行,包括算術(shù)運(yùn)算指令和數(shù)據(jù)存取指令。在SIMT核心中含有多個算術(shù)邏輯單元(arithmetic logic unit, ALU),所有的ALU執(zhí)行相同的操作以實(shí)現(xiàn)并行化。GPGPU-sim的緩存體系模塊包括位于核心內(nèi)的一級緩存、本地內(nèi)存和位于存儲器的二級緩存、內(nèi)存芯片(DRAM)4部分。計算核心與外部的存儲器通過內(nèi)部互聯(lián)網(wǎng)絡(luò)總線相連。

        1.2 Mali系列GPU體系結(jié)構(gòu)

        Mali系列GPU主要分為計算核心和存儲結(jié)構(gòu)兩部分。

        存儲結(jié)構(gòu)部分由寄存器、一級緩存、二級緩存和系統(tǒng)內(nèi)存4部分組成。在系統(tǒng)內(nèi)存中劃分出4塊內(nèi)存空間——私有內(nèi)存、常量內(nèi)存、本地內(nèi)存和全局內(nèi)存,分別與OpenCL的內(nèi)存模型相對應(yīng),其中私有內(nèi)存和寄存器共同存儲OpenCL的私有類型變量。

        仿真對象Mali T-628的計算核心內(nèi)部包含一個矢量處理器和一個標(biāo)量處理器,矢量處理器為128位的單指令多數(shù)據(jù)(single instruction multiple data, SIMD)結(jié)構(gòu),標(biāo)量處理器單周期內(nèi)能夠處理不大于32位的算術(shù)運(yùn)算。圖2給出了Mali GPU體系結(jié)構(gòu)的抽象模型。

        圖2 嵌入式GPU體系結(jié)構(gòu)抽象模型

        對比圖1和圖2,可以看出GPGPU-sim的體系結(jié)構(gòu)和嵌入式GPU體系架構(gòu)相類似,GPGPU-sim中片上互聯(lián)網(wǎng)絡(luò)模塊支持3種模式,不同模式對性能影響較小,因此本文對Mali T-628中互聯(lián)網(wǎng)絡(luò)模塊部分不做研究,仿真時將其設(shè)為蝶形模式。GPGPU-sim與Mali T-628計算核心和存儲系統(tǒng)體系結(jié)構(gòu)的主要區(qū)別如下。

        (1)GPGPU-sim計算核心為多個32位標(biāo)量處理器,Mali T-628計算核心為128位矢量處理器和一個標(biāo)量處理器,需要對GPGPU-sim仿真流程和計算核心部分進(jìn)行修改。

        (2)二級緩存的位置不同。GPGPU-sim的二級緩存在外部內(nèi)存,計算核心通過互聯(lián)網(wǎng)絡(luò)從二級緩存中讀取數(shù)據(jù);嵌入式GPU的二級緩存在GPU芯片內(nèi),二級緩存通過互聯(lián)網(wǎng)絡(luò)與外部存儲器交換數(shù)據(jù)。因此,計算核心對外部存儲器的數(shù)據(jù)傳輸在兩種架構(gòu)中具有一定的等價性。

        (3)本地內(nèi)存的存取速率不同。GPGPU-sim中本地內(nèi)存的存取速率和一級緩存一致,Mali T-628本地內(nèi)存存取速率和外部存儲器一致。當(dāng)OpenCL程序中大量使用本地內(nèi)存時,GPGPU-sim中對本地內(nèi)存中數(shù)據(jù)訪問延遲小,而Mali GPU中本地內(nèi)存中數(shù)據(jù)訪問延遲大,仿真結(jié)果會有較大差別。

        1.3 GPGPU-sim仿真流程修改

        在NVIDIA平臺,OpenCL的kernel函數(shù)首先編譯成并行線程執(zhí)行(parallel thread execution, PTX)語言,然后加載到GPU上執(zhí)行。GPGPU-sim實(shí)際上是以PTX語言作為輸入,通過對其解析能夠有效確定GPU的行為實(shí)現(xiàn)仿真。矢量核心的特性是指令并行度隨處理數(shù)據(jù)的寬度變化,而GPGPU-sim中的標(biāo)量核心指令并行度是固定的。為了使GPGPU-sim支持矢量處理器特性,本文加入了對指令的邏輯判斷,對于不同的指令分配不同的并行寬度,并將其封裝為指令檢測器模塊,修改后的仿真流程如圖3所示。

        圖3 修改后的GPGPU-sim仿真流程

        圖4給出了指令檢測器的內(nèi)部流程。在GPGPU-sim中增加一個指令寬度標(biāo)記位,每一個數(shù)據(jù)類型都有其對應(yīng)的標(biāo)記值。在仿真器運(yùn)行前,首先對核函數(shù)進(jìn)行數(shù)據(jù)類型檢測,得到標(biāo)記位信息,然后對核心并行寬度進(jìn)行設(shè)置,直至當(dāng)前核函數(shù)執(zhí)行完畢,在下一個核函數(shù)執(zhí)行前再重復(fù)該過程。

        圖4 指令檢測器的內(nèi)部流程

        2 GPU微體系結(jié)構(gòu)關(guān)鍵參數(shù)獲取

        GPGPU-sim提供了詳細(xì)的配置參數(shù)[3],能夠?qū)τ嬎愫诵哪K、存儲系統(tǒng)模塊以及互聯(lián)網(wǎng)絡(luò)模塊進(jìn)行配置。仿真器各模塊參數(shù)與Mali GPU參數(shù)一致性越高,仿真結(jié)果就越準(zhǔn)確。由于從公開的技術(shù)文檔無法得到Mali T-628的結(jié)構(gòu)參數(shù),本文參考NVIDIA平臺[4]以及AMD平臺[5]的體系結(jié)構(gòu)來研究參數(shù)獲取。

        2.1 算術(shù)運(yùn)算指令延遲

        指令延遲主要研究GPU的算術(shù)邏輯單元對不同算術(shù)運(yùn)算指令的執(zhí)行時間。為了減少誤差,需要在GPU中填充大量的指令,使得GPU在程序運(yùn)行時間內(nèi)主要進(jìn)行數(shù)據(jù)運(yùn)算,得到核函數(shù)的運(yùn)行時間T后即可根據(jù)核函數(shù)內(nèi)循環(huán)次數(shù)與GPU的時鐘頻率得到對應(yīng)指令執(zhí)行的時鐘周期數(shù)。測試結(jié)果如表1所示(Mali GPU不支持雙精度浮點(diǎn)數(shù)據(jù)運(yùn)算)。

        表1 Mali T-628算術(shù)運(yùn)算指令延遲

        2.2 計算單元數(shù)目

        OpenCL中工作項(xiàng)被劃分為不同的工作組,一個工作組在GPU上的一個計算單元執(zhí)行時,可以通過分配不同工作組的數(shù)目來測量計算單元的數(shù)目,當(dāng)工作組的數(shù)目從1依次增加時,程序的執(zhí)行時間會按照1~S,S+1~2S,…的規(guī)律呈現(xiàn)階梯式增長,階梯的長度S即計算單元的數(shù)目。測試程序在Mali T-628上的運(yùn)行結(jié)果見圖5,可得出計算單元數(shù)為4。

        圖5 執(zhí)行時間與工作組數(shù)的關(guān)系

        2.3 寄存器數(shù)目

        在OpenCL中,每個工作項(xiàng)的臨時變量存放在GPU設(shè)備上的私有內(nèi)存中,Mali GPU的私有內(nèi)存包含兩部分,一部分是寄存器,另一部分是在設(shè)備內(nèi)存中劃分的,其存取性能較寄存器有明顯差距。

        如圖6所示,Mali GPU的寄存器數(shù)目可以得到確定。當(dāng)單個工作項(xiàng)占用的臨時變量大于寄存器數(shù)目時,多余的臨時變量就會存放到設(shè)備內(nèi)存的私有內(nèi)存部分,計算時間會快速增長,由此可確定每個工作項(xiàng)最大支持的寄存器數(shù)目。圖6a中,最大寄存器數(shù)目為38,此時該工作項(xiàng)執(zhí)行時間為0.955 s。保持每個工作項(xiàng)占用寄存器數(shù)目為最大值,不斷擴(kuò)大工作組內(nèi)工作項(xiàng)的數(shù)目,當(dāng)整個計算單元的寄存器全部占用時,執(zhí)行時間增長幅度變大。圖6b中,工作項(xiàng)數(shù)目增加到73時,執(zhí)行時間為8.833 ms,因此一個計算單元內(nèi)的寄存器數(shù)目約為73與38的乘積,即2 774。

        (a) 執(zhí)行時間與臨時 (b) 執(zhí)行時間與工作 變量數(shù)的關(guān)系 項(xiàng)數(shù)的關(guān)系圖6 寄存器數(shù)目測試結(jié)果

        2.4 最小并行粒度

        假設(shè)GPU的最小線程并行數(shù)是N,那么該GPU將以N個工作項(xiàng)作為一組原子并發(fā)的線程組。如果遇到分支,那么一組N個工作項(xiàng)都將介入這個分支,對于不滿足條件的工作項(xiàng),則會等到當(dāng)前分支處理之后再執(zhí)行。利用最小并行粒度內(nèi)的工作項(xiàng)并發(fā)執(zhí)行這一特性,在基準(zhǔn)測試設(shè)計中,假設(shè)工作組大小為2N,在核函數(shù)中增加一個判斷語句,當(dāng)工作項(xiàng)標(biāo)識符小于N時執(zhí)行操作A,否則執(zhí)行操作B,這時2N個工作項(xiàng)在運(yùn)行時,操作B在操作A之前執(zhí)行。當(dāng)工作組大小恰好為N時,操作A是在操作B之前執(zhí)行的。通過標(biāo)記位信息可以判斷出操作A和操作B的執(zhí)行順序,從而判斷工作組大小與最小并行粒度是否相等。當(dāng)工作組足夠大時,逐次遞減判斷,就可以找到最小并行粒度的值。經(jīng)測試,Mali T-628最小并行粒度為1。

        2.5 緩存結(jié)構(gòu)

        利用程序的空間局部性和時間局部性原理可以構(gòu)造出一個存儲器測試程序,通過數(shù)據(jù)的訪問速率分析出緩存結(jié)構(gòu)。設(shè)計的特殊數(shù)組結(jié)構(gòu)及其數(shù)值初始化方式為[6]

        Xi=(p+i)%L

        (1)

        式中:X為數(shù)組;i為數(shù)組下標(biāo);L為數(shù)組長度;p為偏移量(4B,8B,12B,…)。

        當(dāng)數(shù)組中偏移量不斷增加時,緩存中數(shù)據(jù)的更新次數(shù)也逐漸增加,程序的執(zhí)行時間同比增長,當(dāng)偏移量達(dá)到緩存中塊大小時,緩存中數(shù)據(jù)的更新次數(shù)會暫時達(dá)到一個穩(wěn)定值。偏移量繼續(xù)增加到組大小時,緩存中數(shù)據(jù)的更新頻率再次達(dá)到一個穩(wěn)定值。依據(jù)此特性可以分析出緩存中的塊大小和組大小。圖7顯示了利用該方法獲得的Mali T-628中緩存結(jié)構(gòu)。當(dāng)偏移量小于64 B時,執(zhí)行時間正比增加;當(dāng)偏移量為64 B時,執(zhí)行時間是0.632 s;當(dāng)偏移量在64 B~1 KB之間時,執(zhí)行時間基本不變,可以確定塊大小為64 B;當(dāng)偏移量在1 KB~30 KB時執(zhí)行時間正比增加,可以確定組大小為1 KB;當(dāng)偏移量為30 KB時,執(zhí)行時間是1.030 s;當(dāng)偏移量大于30 KB后執(zhí)行時間基本不變,可以確定一個計算單元內(nèi)緩存總大小為30 KB左右。

        (a)偏移量遞增4 B (b)偏移量遞增1 KB圖7 執(zhí)行時間與數(shù)組偏移量關(guān)系

        2.6 Mali T-628體系結(jié)構(gòu)參數(shù)設(shè)定

        結(jié)合OpenCL中的函數(shù)clGetDeviceInfo()可以獲得Mali T-628的基本信息,最終得到的仿真器中各模塊的體系結(jié)構(gòu)參數(shù)值與GPGPU-sim的默認(rèn)參數(shù)值(用來模擬NVIDIA平臺的Quadro FX5800)的比較見表2。片上互聯(lián)網(wǎng)絡(luò)類型(Topology)、二級緩存結(jié)構(gòu)(gpgpu_cache:dl2)、一級指令緩存(gpgpu_cache:il1)、一級紋理緩存(gpgpu_cache:l1)等值采用GPGPU-sim中提供的默認(rèn)值。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 硬件平臺

        實(shí)驗(yàn)使用基于三星Exynos 5420 SoC的InSignal Arndale Octa 5420開發(fā)板作為平臺,操作系統(tǒng)為Android 4.2,內(nèi)核為Linux 3.4.39。GPU為ARM的Mali T-628,核心頻率為533 MHz。

        表2 Mali T-628體系結(jié)構(gòu)參數(shù)

        3.2 測試程序

        OpenCL程序的開發(fā)分為兩種:第一種將算法用OpenCL實(shí)現(xiàn);第二種依據(jù)硬件平臺的體系結(jié)構(gòu)對OpenCL程序進(jìn)行優(yōu)化,以提升程序的運(yùn)行速度。因此,仿真器的準(zhǔn)確性測試包括優(yōu)化前和優(yōu)化后的兩種OpenCL程序測試。實(shí)驗(yàn)選用的矩陣相乘算法實(shí)現(xiàn)了粗粒度和細(xì)粒度版本,其中細(xì)粒度版本每個工作項(xiàng)計算目標(biāo)矩陣中一個元素,粗粒度版本每個工作項(xiàng)計算目標(biāo)矩陣中一行元素;方向梯度直方圖(histogram of oriented gradient, HOG)特征提取程序的算法復(fù)雜程度較高,主要測試仿真器對于復(fù)雜算法仿真時的準(zhǔn)確性。

        3.3 實(shí)驗(yàn)結(jié)果

        為驗(yàn)證仿真器的準(zhǔn)確性,需要對比同樣的OpenCL程序在真實(shí)硬件與仿真器上的運(yùn)行狀態(tài)。本文采用周期數(shù)作為衡量標(biāo)準(zhǔn),仿真器運(yùn)行結(jié)束后會返回執(zhí)行的周期數(shù),而真實(shí)硬件上只能返回程序運(yùn)行時間,將運(yùn)行時間與頻率的乘積作為硬件平臺上的運(yùn)行周期。

        表3、表4、表5列出了測試程序在仿真器與模擬對象Mali T-628上執(zhí)行的周期數(shù)差距,對每一個測試程序均運(yùn)行了多次。

        測試結(jié)果表明,對于優(yōu)化前的OpenCL程序,其中70%的測試程序周期數(shù)差距在30%以內(nèi);對優(yōu)化后的OpenCL程序,其中90%的測試程序周期數(shù)差距在30%以內(nèi)。Bakhoda等在對GPGPU-sim進(jìn)行測試時,周期數(shù)差距在30%以內(nèi)的測試程序占總數(shù)的67%[2]。

        表3 矩陣相乘周期數(shù)差距測試結(jié)果 %

        表4 圖像邊緣檢測周期數(shù)差距測試結(jié)果 %

        表5 HOG特征提取周期數(shù)差距測試結(jié)果 %

        因?yàn)閷Υ鎯ο到y(tǒng)中二級緩存和主存儲器的建模利用了體系結(jié)構(gòu)的等價性(采用GPGPU-sim中提供的默認(rèn)值),與真實(shí)GPU之間存在差距,所以在矩陣計算的粗粒度版本中,當(dāng)矩陣規(guī)模增加到200階時,對外部數(shù)據(jù)訪問頻繁,仿真準(zhǔn)確性因而變差。

        4 結(jié) 論

        本文通過對嵌入式GPU關(guān)鍵微體系結(jié)構(gòu)的參數(shù)獲取,在現(xiàn)有仿真器GPGPU-sim的基礎(chǔ)上進(jìn)行了改進(jìn),設(shè)計實(shí)現(xiàn)了Mali T-628 GPU仿真器,并使用多種OpenCL程序測試了仿真器的準(zhǔn)確性和有效性。后續(xù)工作將進(jìn)一步完善該仿真器存儲系統(tǒng)模塊參數(shù)的獲取方法,以提供更高的仿真精度。

        [1] NVIDIA. NVIDIA GeForce 8800 GPU architecture overview , TB-02787-001_V01[R]. Santa Clara, CA, USA: NVIDIA Corporation, 2006.

        [2] BAKHODA A, YUAN G L, FUNG W W L, et al. Analyzing CUDA workloads using a detailed GPU simulator [C]∥Proceedings of the IEEE International Symposium on Performance Analysis of Systems and Software. Piscataway, NJ, USA: IEEE, 2009: 163-174.

        [3] AAMODT T M, FUNG W W L, SINGH I, et al. GPGPU-Sim 3.x manual[EB/OL]. (2012-08-08)[2013-08-08]. http:∥gpgpu-sim.org/manual/index. php/GPGPU-Sim_3.x_Manual.

        [4] WONG H, PAPADOPOULOU M M, SADOOGHI-ALVANDI M, et al. Demystifying GPU microarchitecture through microbenchmarking [C]∥Proceedings of the IEEE International Symposium on Performance Analysis of Systems and Software. Piscataway, NJ, USA: IEEE, 2010: 235-246.

        [5] TAYLOR R, LI Xiaoming. A micro-benchmark suite for AMD GPUs [C]∥Proceedings of the 39th International Conference on Parallel Processing Workshops. Washington, DC, USA: IEEE Computer Society, 2010: 387-396.

        [6] 楊海燕, 史曉華, 孫清越, 等. 面向OpenCL的GPGPU微基準(zhǔn)測試程序集的研究與實(shí)現(xiàn) [J]. 系統(tǒng)工程與電子技術(shù), 2013, 35(12): 2631-2642.

        YANG Haiyan, SHI Xiaohua, SUN Qingyue, et al. OpenCL micro benchmarks: testing the performance of GPGPU software and hardware architecture [J]. Systems Engineering and Electronics, 2013, 35(12): 2631-2642.

        [本刊相關(guān)文獻(xiàn)鏈接]

        丑文龍,梅魁志,高增輝,等.ARM GPU的多任務(wù)調(diào)度設(shè)計與實(shí)現(xiàn).2014,48(12):87-92.[doi:10.7652/xjtuxb2014120 14]

        張虹,鄭霄,趙丹.GPU加速竇房結(jié)計算機(jī)仿真的實(shí)現(xiàn)及優(yōu)化.2014,48(7):60-64.[doi:10.7652/xjtuxb201407011]

        李亮,王恩東,朱正東,等.ARM GPU的多任務(wù)調(diào)度設(shè)計與實(shí)現(xiàn).2013,47(10):44-50.[doi:10.7652/xjtuxb201310008]

        張保,曹海軍,董小社,等.面向圖形處理器重疊通信與計算的數(shù)據(jù)劃分方法.2011,45(4):1-4.[doi:10.7652/xjtuxb2011 04001]

        (編輯 武紅江)

        Construction of Embedded Mali GPU Simulator for OpenCL

        CUI Jiyue,MEI Kuizhi,LIU Dongdong,LI Boliang

        (School of Electronics and Information Engineering, Xi’an Jiaotong University, Xi’an 710049, China)

        The similarities and differences between GPGPU-sim and Mali GPU in computing cores and the storage structure are analyzed and compared, and simulating procedures and structures of Mali GPUs for OpenCL are built up to develop simulators for the general-purpose computing on embedded GPU. Methods to obtain the GPU microarchitecture parameters such as the computing unit number, the number of registers and the minimum parallel granularity are designed, and then the GPGPU-sim is configured and modified to construct specific GPU simulators. The accuracy of the simulator is tested through comparisons of running OpenCL programs, such as matrix multiplication and image processing on a real GPU and the simulator, and the difference between running cycles on the real GPU and the simulator is used as evaluation. Results show that the cycle differences are within 30% for about 70% OpenCL programs with simple implementation, and the cycle differences are within 30% for about 90% OpenCL programs with optimization. Therefore, it can be concluded that the constructed simulator meets the requirements of simulating and evaluating OpenCL programs on the embedded GPU.

        GPU; OpenCL; microarchitecture parameters; simulator

        2014-07-06。

        崔繼岳(1988—),男,碩士生;梅魁志(通信作者),男,副教授。

        國家高技術(shù)研究發(fā)展計劃資助項(xiàng)目(2012AA010904);國家自然科學(xué)基金資助項(xiàng)目(61375023)。

        時間:2015-01-05

        10.7652/xjtuxb201502004

        TP391

        A

        0253-987X(2015)02-0020-05

        網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20150105.0859.007.html

        猜你喜歡
        嵌入式指令程序
        聽我指令:大催眠術(shù)
        試論我國未決羈押程序的立法完善
        ARINC661顯控指令快速驗(yàn)證方法
        LED照明產(chǎn)品歐盟ErP指令要求解讀
        電子測試(2018年18期)2018-11-14 02:30:34
        搭建基于Qt的嵌入式開發(fā)平臺
        “程序猿”的生活什么樣
        英國與歐盟正式啟動“離婚”程序程序
        嵌入式軟PLC在電鍍生產(chǎn)流程控制系統(tǒng)中的應(yīng)用
        創(chuàng)衛(wèi)暗訪程序有待改進(jìn)
        Altera加入嵌入式視覺聯(lián)盟
        日本久久精品免费播放| 精品国产拍国产天天人| 大陆极品少妇内射aaaaa| 色老头久久综合网老妇女| 毛片av中文字幕一区二区| 中文字幕精品一二三区| 精品久久一区二区av| 日本国产亚洲一区二区| 精品久久久久久无码人妻热| 999国产精品亚洲77777| 一区二区三区午夜视频在线观看| 亚洲黄色av一区二区三区| 成人精品天堂一区二区三区| 国产精品免费久久久久影院| 亚洲色AV天天天天天天| 人妻系列中文字幕av| 精品国产一区二区三区av麻| 成人无码网www在线观看| 天美麻花果冻视频大全英文版| 精品999无码在线观看| 免费在线视频亚洲色图| 亚洲精品tv久久久久久久久久| 久久亚洲av永久无码精品| 少妇一级aa一区二区三区片| 九九久久精品国产免费av | 国产精品 人妻互换| 午夜一级在线| 久久夜色精品亚洲天堂| 国产成人av无码精品| 国产一女三男3p免费视频 | 国产人成在线免费视频| 国内精品少妇高潮视频| 高清破外女出血av毛片| 亚洲国产精品国语在线| 人妻少妇被猛烈进入中文| 亚洲综合日韩精品一区二区| 亚洲码国产精品高潮在线| 亚洲色欲Aⅴ无码一区二区| 日韩三级一区二区三区四区 | 一本一道av无码中文字幕﹣百度| 欧美色色视频|