亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于Kepler架構(gòu)GPU的通信仿真加速方法

        2015-02-28 06:14:16韓秉君黃詩(shī)銘
        電信科學(xué) 2015年10期
        關(guān)鍵詞:運(yùn)算量線程鏈路

        韓秉君,黃詩(shī)銘,杜 瀅

        (1.中國(guó)信息通信研究院 北京100191;2.北京郵電大學(xué) 北京100876)

        1 引言

        隨著通信領(lǐng)域的研究開(kāi)始從4G技術(shù)向5G技術(shù)過(guò)渡,以大規(guī)模多天線陣列、超密集網(wǎng)絡(luò)以及大帶寬毫米波通信等為代表的一系列技術(shù)成為未來(lái)研究的重點(diǎn)。這些技術(shù)從天線數(shù)、用戶數(shù)、總帶寬和復(fù)雜度等維度將系統(tǒng)級(jí)仿真的總體運(yùn)算量提升了1~3個(gè)數(shù)量級(jí),進(jìn)而給系統(tǒng)級(jí)仿真平臺(tái)的搭建工作帶來(lái)巨大挑戰(zhàn)。

        在計(jì)算量大增的情況下,為了使仿真總時(shí)間仍能被控制在可接受的范圍內(nèi),仿真加速技術(shù)也成為未來(lái)構(gòu)建系統(tǒng)級(jí)仿真平臺(tái)的必選技術(shù)。傳統(tǒng)仿真過(guò)程的總體運(yùn)算量不大,采用加速技術(shù)的仿真平臺(tái)往往僅能節(jié)省數(shù)小時(shí)至數(shù)天的運(yùn)算時(shí)間,卻要在硬件購(gòu)置、代碼開(kāi)發(fā)、測(cè)試校準(zhǔn)以及平臺(tái)升級(jí)等方面花費(fèi)更多時(shí)間和成本,總體來(lái)看收益有限;而在4G到5G的過(guò)渡時(shí)代,隨著系統(tǒng)級(jí)仿真總體運(yùn)算量的增大,采用加速技術(shù)的仿真平臺(tái)有可能節(jié)約數(shù)周甚至數(shù)月的仿真時(shí)間,從而保證在總體運(yùn)算量大增的情況下依舊能將仿真時(shí)間控制在可接受的范圍內(nèi),具有較高的應(yīng)用價(jià)值。

        通常情況下,通信仿真中存在大量可并行處理的雙精度浮點(diǎn)運(yùn)算,非常適合采用GPU(graphics processing unit,圖形處理器)進(jìn)行加速。而CUDA(compute unified device architecture,統(tǒng)一計(jì)算設(shè)備架構(gòu))作為一種能夠均衡硬件設(shè)備成本、開(kāi)發(fā)維護(hù)成本和運(yùn)行能耗成本的GPU并行計(jì)算架構(gòu),為通信系統(tǒng)級(jí)仿真加速提供了一種理想的技術(shù)手段。CUDA程序采用類(lèi)C++語(yǔ)言開(kāi)發(fā),其最新版開(kāi)發(fā)工具CUDA Toolkit 7.5已經(jīng)針對(duì)主流開(kāi)發(fā)環(huán)境如Visual Studio 2013實(shí)現(xiàn)較好整合,并針對(duì)目前主流的Kepler架構(gòu)GPU提 供 了 動(dòng) 態(tài) 并 行[1]、Hyper-Q[2]、統(tǒng) 一 內(nèi) 存 尋 址、CuBLAS和CuFFT等一系列編程工具和函數(shù)庫(kù),顯著降低了代碼開(kāi)發(fā)和維護(hù)的工作量。

        目前,關(guān)于使用GPU加速通信仿真平臺(tái)問(wèn)題,一些文章從通信模塊加速和GPU加速關(guān)鍵技術(shù)兩方面提供了具有參考性的研究結(jié)果:在通信模塊加速上,參考文獻(xiàn)[3]提出了一種針對(duì)多徑信道的GPU加速方法,參考文獻(xiàn)[4]提出了一種針對(duì)OFDM系統(tǒng)蒙特卡羅仿真的GPU加速方法,參考文獻(xiàn)[5]提出了一種針對(duì)LDPC(low density parity check code,低密度奇偶校驗(yàn)碼)編碼處理的加速方法,參考文獻(xiàn)[6]提出了一種利用英偉達(dá)公司GPU加速FFT處理模塊的方法;在GPU加速關(guān)鍵技術(shù)上,參考文獻(xiàn)[7]介紹了利用MPI(multi point interface,多點(diǎn)接口)解決多GPU系統(tǒng)性能的方法,參考文獻(xiàn)[8]介紹了動(dòng)態(tài)管理多核多線程GPU資源的方法。

        然而,GPU硬件和軟件能力在近兩年取得了長(zhǎng)足進(jìn)展,而目前尚未有關(guān)于如何利用這些進(jìn)展加速系統(tǒng)級(jí)仿真平臺(tái)的研究。因此,本文提出了一種在Kepler架構(gòu)顯卡下利用CUDA技術(shù)加速通信仿真中信道DFT[9](discrete Fourier transform,離散傅里葉變換)處理過(guò)程的方法。該方法的主要?jiǎng)?chuàng)新點(diǎn)是以接收用戶為依據(jù),將整個(gè)仿真中相互交錯(cuò)的通信鏈路拆解成一系列獨(dú)立的“多發(fā)送用戶到單接收用戶”接收束,并基于這些接收束將DFT計(jì)算量分解為對(duì)同步和數(shù)據(jù)交互要求低、易于并行處理的子任務(wù)。最后,該方法一方面利用動(dòng)態(tài)并行技術(shù)實(shí)現(xiàn)對(duì)不同接收束不同鏈路計(jì)算任務(wù)的并行處理,另一方面利用線程并行技術(shù)實(shí)現(xiàn)了對(duì)同一鏈路內(nèi)不同采樣點(diǎn)的DFT計(jì)算任務(wù)的并行處理,在控制開(kāi)發(fā)復(fù)雜度的前提下達(dá)到較好的并行加速效果。

        2 通信鏈路與并行任務(wù)模型

        本節(jié)主要介紹了用于加速系統(tǒng)級(jí)仿真DFT過(guò)程的邏輯模型。該邏輯模型的核心是將收發(fā)設(shè)備之間彼此交錯(cuò)的信道拆分成便于函數(shù)級(jí)并行處理的接收束結(jié)構(gòu)和便于線程級(jí)并行處理的天線—頻點(diǎn)陣狀結(jié)構(gòu),從而可以綜合利用不同粒度并行技術(shù)達(dá)到較理想的加速效果。

        2.1 接收束與分子級(jí)并行任務(wù)

        一般說(shuō)來(lái),系統(tǒng)級(jí)仿真過(guò)程中的信道關(guān)系可以抽象為發(fā)送設(shè)備、接收設(shè)備以及發(fā)送和接收設(shè)備之間的通信鏈路,如圖1所示。

        圖1 發(fā)送設(shè)備、接收設(shè)備及通信鏈路

        圖1 中,TE1,TE2,…,TEn表示n個(gè)發(fā)送設(shè)備,RE1,RE2,…,REm表示m個(gè)接收設(shè)備,表示TEi到REj的通信鏈路。在仿真中,不同收發(fā)設(shè)備間的通信鏈路處理過(guò)程通常是相互獨(dú)立的,可以并行進(jìn)行;而對(duì)于某一接收設(shè)備如RE1,則需要完整收集與其相連的所有通信鏈路,,,…,的處理結(jié)果后,才能繼續(xù)分析該設(shè)備的接收性能。基于以上分析,本文從邏輯上提出了一種接收束結(jié)構(gòu),如圖2所示。

        圖2 接收束結(jié)構(gòu)

        圖2 中,從接收用戶角度將圖1中彼此交錯(cuò)的通信鏈路分為m個(gè)接收束。其中,每個(gè)接收束包含n個(gè)發(fā)送機(jī)、1個(gè)接收機(jī)以及它們之間的n條通信鏈路。在實(shí)際仿真過(guò)程中,因?yàn)檎{(diào)度等原因,在不同仿真時(shí)刻,一個(gè)接收束內(nèi)處于發(fā)送狀態(tài)的發(fā)射機(jī)可能是不同的,這要求處理接收束內(nèi)不同鏈路的并行機(jī)制應(yīng)具備足夠彈性,以適應(yīng)子任務(wù)規(guī)模的動(dòng)態(tài)變化。考慮到接收束中每一條通信鏈路上的處理任務(wù)還可以繼續(xù)拆分為更小的可并行子任務(wù),因此將每條鏈路的處理任務(wù)稱為分子級(jí)子任務(wù)。按照束狀結(jié)構(gòu)進(jìn)行拆分后,不同鏈路上的分子級(jí)子任務(wù)所需的輸入數(shù)據(jù)往往是相互獨(dú)立的,不同分子級(jí)子任務(wù)的處理過(guò)程也不涉及數(shù)據(jù)共享和交互。這意味著并行處理這些分子級(jí)子任務(wù)時(shí)可以節(jié)約因數(shù)據(jù)共享和同步而造成的時(shí)間開(kāi)銷(xiāo),以達(dá)到更好的加速效果。

        2.2 天線—頻點(diǎn)與原子級(jí)并行任務(wù)

        對(duì)于信道束B(niǎo)j,其中某一鏈路上的處理任務(wù)又可以從邏輯上進(jìn)一步拆解成圖3所示的多條子徑上的處理任務(wù)。圖3中為發(fā)送設(shè)備TEi的p個(gè)發(fā)送天線,表示接收設(shè)備REj的q個(gè)接收天線。第r個(gè)發(fā)送天線到第s個(gè)接收天線之間的子徑用表示。

        圖3 通信鏈路中的子徑

        其中,x[n]是時(shí)域上的N個(gè)采樣點(diǎn),X[k]為轉(zhuǎn)化后的頻域上的采樣值。根據(jù)歐拉公式,可以得到:

        結(jié)合式(2)和式(3)可得:

        從式(3)可以看出,無(wú)論是不同子徑上的X[k],還是同一子徑上不同采樣點(diǎn)的X[k],其計(jì)算過(guò)程都是彼此無(wú)關(guān)的,這意味著并行進(jìn)行不同X[k]計(jì)算時(shí)不會(huì)涉及數(shù)據(jù)共享和同步問(wèn)題,能夠簡(jiǎn)化代碼開(kāi)發(fā)難度并節(jié)省較多的時(shí)間開(kāi)銷(xiāo)。每一個(gè)X[k]的計(jì)算過(guò)程很難進(jìn)行更細(xì)的拆分,因此將其稱為原子級(jí)子任務(wù)。

        3 不同子任務(wù)的CUDA處理

        本節(jié)提出了一種基于Kepler架構(gòu)GPU的DFT并行加速方法。具體而言,該方法首先利用線程級(jí)并行來(lái)加速某一通信鏈路內(nèi)不同子徑及不同頻域采樣點(diǎn)的DFT計(jì)算,又利用動(dòng)態(tài)并行技術(shù)將以上不同通信鏈路的DFT處理過(guò)程進(jìn)一步并行,以提高加速效果。

        3.1 天線—子載波的線程級(jí)并行處理

        線程是CUDA程序處理一個(gè)任務(wù)的最基本單元,CUDA程序通過(guò)啟用多個(gè)線程并行處理一個(gè)大任務(wù)中的不同部分,以實(shí)現(xiàn)加速效果。CUDA的線程通過(guò)grid、block和thread 3個(gè)級(jí)別進(jìn)行組織[10],每個(gè)線程都可以通過(guò)其所在的3級(jí)組織編號(hào)得到自己唯一的線程編號(hào),該編號(hào)可以是一維、二維或三維的。CUDA加速的核心原理是將一個(gè)計(jì)算任務(wù)分解成若干個(gè)子任務(wù),并根據(jù)線程編號(hào)設(shè)計(jì)每個(gè)線程和子任務(wù)的對(duì)應(yīng)關(guān)系。程序執(zhí)行過(guò)程中會(huì)根據(jù)任務(wù)需要啟動(dòng)合適數(shù)量的線程,這些線程根據(jù)其線程編號(hào)和預(yù)設(shè)對(duì)應(yīng)關(guān)系自動(dòng)并行處理其所對(duì)應(yīng)的子任務(wù),以達(dá)到加速效果。

        因此,將任務(wù)分解并建立線程和分解后子任務(wù)的關(guān)系,是使用CUDA加速的最核心問(wèn)題。對(duì)于第2.2節(jié)描述的某一通信鏈路的DFT處理過(guò)程,由于其不同子徑和不同采樣點(diǎn)的DFT形式均相同,每一采樣點(diǎn)的求取過(guò)程運(yùn)算量不大,且很難再進(jìn)一步分解成可以并行執(zhí)行的子任務(wù),因此非常適合采用線程級(jí)并行加速。

        以圖3中通信鏈路為例,圖3中發(fā)射天線有p個(gè),接收天線有q個(gè),假設(shè)每個(gè)子徑有v個(gè)頻域采樣點(diǎn)需要求取,則該通信鏈路共需要進(jìn)行p×q×v次DFT運(yùn)算,這些DFT運(yùn)算之間沒(méi)有相關(guān)性,可以并行處理。因此,啟動(dòng)p×q×v個(gè)線程來(lái)一次性并行處理這些DFT運(yùn)算,其線程號(hào)與任務(wù)映射關(guān)系如圖4所示。

        圖4 線程號(hào)與DFT運(yùn)算的映射關(guān)系

        圖4 中每一矩形均表示某一個(gè)線程與其所承擔(dān)DFT子任務(wù)之間的對(duì)應(yīng)關(guān)系,矩形中深色部分為該線程的線程編號(hào),采用二維編號(hào)體系,形式為(Idx_x,Idx_y);淺色部分表示該線程所承擔(dān)DFT子任務(wù)的三維索引,形式為(NAT,NAR,Nk),其3個(gè)維度分別代表發(fā)送天線號(hào)、接收天線號(hào)以及頻域采樣點(diǎn)號(hào),表示線程號(hào)為(Idx_x,Idx_y)的線程負(fù)責(zé)處理第AT個(gè)發(fā)送天線與第AR個(gè)接收天線之間第k個(gè)頻域采樣點(diǎn)上的DFT運(yùn)算。其中線程編號(hào)和子任務(wù)之間的關(guān)系如式(4)所示。

        其中:

        按照式(4)所述的邏輯,一共啟用p×q×v個(gè)線程來(lái)并行處理對(duì)應(yīng)的p×q×v個(gè)DFT運(yùn)算。圖4中根據(jù)線程編號(hào)將不同線程排列成一個(gè)矩形陣列。處于同一行的線程表明其處理的是同一子徑上不同頻域采樣點(diǎn)的DFT,前q行的線程表明其處理的是第1個(gè)發(fā)射天線到所有q個(gè)接收天線之間子徑的DFT,即圖3中子徑的DFT。以此類(lèi)推,第p×q行表示處理的是第p個(gè)發(fā)送天線到第q個(gè)接收天線的DFT任務(wù),即圖3中子徑。在進(jìn)行DFT任務(wù)并行處理過(guò)程中,有幾個(gè)原則需要進(jìn)一步解釋?zhuān)菏紫?,盡管CUDA支持對(duì)線程的三維編號(hào),本部分依然將收發(fā)天線壓縮成一維,主要是考慮經(jīng)過(guò)如此方式壓縮后,輸入輸出數(shù)據(jù)都可以比較方便地采用二維矩陣存儲(chǔ),后繼處理也可以利用MKL、CuBLAS等矩陣運(yùn)算工具,可以降低開(kāi)發(fā)難度;第二,沒(méi)有使用快速傅里葉變換(FFT)算法,主要是考慮在系統(tǒng)級(jí)仿真過(guò)程中,每一個(gè)子徑的時(shí)域采樣點(diǎn)數(shù)目通常不大,一般為20~30個(gè),而仿真最終需要用的頻域采樣點(diǎn)數(shù)目也不確定,典型的20 Mbit/s帶寬的LTE系統(tǒng)可能有50~1200個(gè)采樣點(diǎn),因此采用DFT實(shí)現(xiàn)會(huì)更靈活一些。

        3.2 不同收發(fā)鏈路的函數(shù)級(jí)并行

        圖5 動(dòng)態(tài)并行和Hyper-Q技術(shù)

        如圖5所示,在Kepler架構(gòu)下,CUDA提供了全新的動(dòng)態(tài)并行和Hyper-Q技術(shù),從而使CUDA程序能夠更加便利地實(shí)現(xiàn)多個(gè)GPU函數(shù)之間的并行。關(guān)于動(dòng)態(tài)并行,傳統(tǒng)的CUDA程序只支持由CPU函數(shù)啟動(dòng)GPU函數(shù),而在Kepler架構(gòu)顯卡下,動(dòng)態(tài)并行技術(shù)允許一個(gè)GPU函數(shù)啟動(dòng)另一個(gè)GPU函數(shù),該技術(shù)減少了CPU和GPU之間不必要的信息交互,在簡(jiǎn)化編程代碼復(fù)雜度的同時(shí)提升了程序的效率。關(guān)于Hyper-Q,當(dāng)使用流的形式在CPU和GPU之間復(fù)制數(shù)據(jù)時(shí),傳統(tǒng)架構(gòu)顯卡中不同流之間的數(shù)據(jù)要在硬件隊(duì)列中排隊(duì),而Hyper-Q允許GPU能夠同時(shí)并發(fā)執(zhí)行最多32個(gè)活動(dòng)的任務(wù),并且增加了硬件隊(duì)列的數(shù)量[11],從而極大提升了數(shù)據(jù)復(fù)制效率和程序的運(yùn)行速度。

        由以上描述可以看出,動(dòng)態(tài)并行和Hyper-Q技術(shù)能夠根據(jù)任務(wù)量在顯卡中啟動(dòng)相應(yīng)數(shù)量的函數(shù),并能夠較為便捷地進(jìn)行CPU/GPU之間數(shù)據(jù)交互,非常適合第2.1節(jié)提出的數(shù)目不定的不同通信鏈路的處理過(guò)程。因此,提出了如圖6所示的分子級(jí)任務(wù)并行方案。圖6中,所有接收束被分成了多個(gè)批次。首先,第一批接收束的輸入?yún)?shù)借助多個(gè)流傳入GPU中;第二,GPU通過(guò)動(dòng)態(tài)并行技術(shù),并行執(zhí)行第一批接收束中的所有通信鏈路的DFT運(yùn)算,其中每個(gè)通信鏈路的DFT處理過(guò)程如第3.1節(jié)所述;第三,通過(guò)多流技術(shù),將處理結(jié)果傳回CPU中;最后,重復(fù)以上步驟,直到所有批次的接收束都處理完成為止。

        圖6 不同通信鏈路的并行方法

        關(guān)于接收束的并行加速方案,有如下幾個(gè)細(xì)節(jié)需要特別解釋?zhuān)菏紫龋⑿蟹桨钢兄詫?duì)接收束分批次處理,主要是因?yàn)閷?shí)際測(cè)試表明,當(dāng)一次并行的任務(wù)量過(guò)大時(shí),GPU函數(shù)的處理效率會(huì)變得極低,從而拉長(zhǎng)仿真時(shí)間。而采用分批處理,能夠規(guī)避這一問(wèn)題。此外,進(jìn)行多批次處理,也有利于將處理后的結(jié)果及時(shí)傳回,從而使CPU在GPU處理下一批接收束時(shí)能夠同步處理本次返回的接收束結(jié)果。第二,仿真中采用多流的原因是:實(shí)際測(cè)試表明,通過(guò)多個(gè)流的復(fù)用可以顯著節(jié)省程序中的數(shù)據(jù)復(fù)制時(shí)間。

        4 加速結(jié)果與分析

        本節(jié)參照典型的19小區(qū)/57扇區(qū)20 Mbit/s帶寬LTE下行鏈路提出了如下仿真參數(shù)[12],見(jiàn)表1。

        表1 系統(tǒng)仿真參數(shù)

        需要強(qiáng)調(diào)的是,傳統(tǒng)的仿真平臺(tái)為了節(jié)省仿真時(shí)間,對(duì)通信鏈路的處理過(guò)程進(jìn)行了簡(jiǎn)化,而本實(shí)驗(yàn)過(guò)程假設(shè)所有通信鏈路都進(jìn)行DFT處理,并以此為基礎(chǔ)研究運(yùn)算總量、每批次處理數(shù)量以及所用流數(shù)目對(duì)總仿真時(shí)間的影響。

        首先,對(duì)比了采用CPU、Fermi架構(gòu)GPU以及Kepler架構(gòu)GPU處理系統(tǒng)全部57×570×4×2×50≈1 300萬(wàn)次DFT運(yùn)算的總時(shí)間,見(jiàn)表2。表2中的CPU運(yùn)算時(shí)間是在單核單線程條件下得到的,多核CPU運(yùn)算時(shí)間近似為該時(shí)間/核數(shù)。從表2中數(shù)據(jù)可以看出,本文所提出的加速方法相對(duì)于CPU大約加速300倍,相對(duì)于上一代Fermi架構(gòu)GPU大約加速3倍。此外,考慮到本文所提方法代碼實(shí)現(xiàn)更簡(jiǎn)單,因此在實(shí)際應(yīng)用過(guò)程中還能進(jìn)一步節(jié)省開(kāi)發(fā)、測(cè)試和維護(hù)時(shí)間。

        表2 DFT運(yùn)算時(shí)間

        第二,研究了本文所提算法的加速效果和總體運(yùn)算量的關(guān)系,如圖7所示。可以看出,隨著運(yùn)算總量的增加,GPU運(yùn)算總時(shí)間近似呈線性增長(zhǎng);在運(yùn)算量較大的情況下,進(jìn)行單位次數(shù)DFT運(yùn)算的時(shí)間更小,其原因主要是加速過(guò)程中CPU-GPU間的數(shù)據(jù)復(fù)制、GPU線程管理等相對(duì)固定的時(shí)間開(kāi)銷(xiāo)在大計(jì)算量情況下得到了“分?jǐn)偂?,這也說(shuō)明本文所提出的加速方法在運(yùn)算量較大的情況下加速效果會(huì)更明顯。

        圖7 加速效果與總體運(yùn)算量關(guān)系

        第三,研究了1200個(gè)采樣點(diǎn)條件下加速效果和處理批次的關(guān)系,如圖8所示??梢钥闯?,如果采用單批次處理,GPU處理完全部DFT運(yùn)算大約耗時(shí)7.8 s,而改為8批次處理后,耗時(shí)降為大約1.2 s,兩者相差6倍以上。該研究結(jié)果說(shuō)明在使用CUDA技術(shù)加速通信仿真平臺(tái)時(shí),應(yīng)將每次交給GPU的計(jì)算任務(wù)控制在合適范圍內(nèi),否則可能會(huì)影響最終的加速效果。

        圖8 加速效果和處理批次的關(guān)系

        最后,研究了加速效果和輸入輸出流數(shù)目的關(guān)系,如圖9所示。可以看出,隨著輸入輸出流數(shù)目的增加,運(yùn)算時(shí)間呈現(xiàn)出明顯的遞減趨勢(shì)。當(dāng)流數(shù)超過(guò)16時(shí),仿真時(shí)間基本穩(wěn)定。該研究結(jié)果說(shuō)明輸入輸出流的數(shù)目會(huì)對(duì)加速效果構(gòu)成較大影響,應(yīng)盡量選擇盡可能多的流進(jìn)行輸入輸出,以避免數(shù)據(jù)傳輸成為加速瓶頸。

        5 結(jié)束語(yǔ)

        圖9 加速效果與輸入輸出流個(gè)數(shù)的關(guān)系

        本文提出了一種基于Kepler架構(gòu)GPU的系統(tǒng)級(jí)仿真DFT加速方法。該方法利用動(dòng)態(tài)并行和Hyper-Q等技術(shù),使DFT處理過(guò)程相對(duì)于單核單線程CPU程序加速300倍,具有較好的應(yīng)用價(jià)值。此外,該方法中提出的從接收用戶角度將加速任務(wù)分為多個(gè)接收束的思想,對(duì)于處理DFT之外的加速任務(wù)同樣有著重要的參考意義。

        總之,該方法為解決仿真時(shí)間隨計(jì)算量增加而惡性膨脹的“仿真時(shí)間瓶頸”問(wèn)題提供了切實(shí)可行的應(yīng)對(duì)方向及技術(shù)手段,是保證4G/5G大規(guī)模仿真預(yù)研工作順利開(kāi)展的基礎(chǔ)性技術(shù)。未來(lái)將基于接收束的思想,研究如何利用CUDA技術(shù)加速通信仿真中接收機(jī)信噪比計(jì)算的方法以及基于迭代容器的更加靈活的CPU、GPU接口,以構(gòu)造更易用的通信仿真基礎(chǔ)模塊。

        1 NVIDIA Corporation.CUDA toolkit documentation v7.5.http://docs.nvidia.com/cuda/pdf/CUDA_C_Programming_Guide.pdf,2015

        2 NVIDIA Corporation.Nvidia kepler GK110 next-generation CUDA compute architecture.http://www.nvidia.com/content/PDF/kepler/NV_DS_Tesla_KCompute_Arch_May_2012_LR.pdf,2012

        3 Abdelrazek A F,Kaschub M,Blankenhorn C,et al.A novel architecture using NVIDIA CUDA to speed up simulation of multi-path fast fading channels.Proceedings of the 69th IEEE Vehicular Technology Conference,Barcelona,Spain,2009

        4 Laguna-Sanchez G A,Prieto-Guerrero A,Rodriguez-Colina E.Speedup simulation for OFDM over PLC channel using a multithreading GPU.Proceedings of IEEE Latin-American Conference on Communications(LATINCOM),Belem,Brazil,2011

        5 Potluri S,Wang H,Bureddy D,et al.Optimizing MPI communication on multi-GPU systems using CUDA inter-process communication.Proceedings of the 26th IEEE International on Parallel and Distributed Processing Symposium Workshops &phD Forum(IPDPSW),Shanghai,China,2012:1848~1857

        6 Wu J,JaJa J,Balaras E.An optimized FFT-based direct Poisson solver on CUDA GPUs.IEEE Transactions on Parallel and Distributed Systems,2014(1):550~559

        7 Beermann M,Monro E,Schmalen H,et al.High speed decoding of non-binary irregular LDPC codes using GPUs.Proceedings of IEEE Workshop on Signal Processing System(SiPS),Taipei,China,2013

        8 Rodriguez A,Valverde J,Torre E,et al.Dynamic management of multikernel multithread accelerators using dynamic partial reconfiguration.Proceedings of the 9th International Symposium on Reconfigurable and Communication-Cenric Systems-on-Chip(ReCoSoC),Montpellier,France,2014

        9 Proakis J G.Digital Signal Processing,4th Revised Edition.London:Pearson Prentice Hall,2009:105~129

        10 Noga A,Topa T.Kernel execution strategies for GPU-accelerated version of method of moments.Proceedings of the 20th International Conference on Microwaves,Radar,and Wireless Communication(MIKON),Gdansk,Poland,2014

        11 Wilt N,The CUDA Handbook.Upper Saddle River:Addison-Wesley,2013

        12 Bilel B R,Navid N.Cunetsim:a GPU based simulation testbed for large scale mobile networks.Proceedings of International Conference on Communications and Information Technology(ICCIT),Hammamet,Tunisia,2012

        猜你喜歡
        運(yùn)算量線程鏈路
        家紡“全鏈路”升級(jí)
        天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
        用平面幾何知識(shí)解平面解析幾何題
        減少運(yùn)算量的途徑
        淺談linux多線程協(xié)作
        讓拋物線動(dòng)起來(lái)吧,為運(yùn)算量“瘦身”
        基于3G的VPDN技術(shù)在高速公路備份鏈路中的應(yīng)用
        高速光纖鏈路通信HSSL的設(shè)計(jì)與實(shí)現(xiàn)
        Linux線程實(shí)現(xiàn)技術(shù)研究
        么移動(dòng)中間件線程池并發(fā)機(jī)制優(yōu)化改進(jìn)
        国产av无码专区亚洲aⅴ| 久久精品成人无码观看不卡| 精品国产乱码久久久久久口爆网站| 2021国产精品久久| 久久精品久久精品中文字幕| 香蕉视频在线观看亚洲| 日韩激情无码免费毛片| www插插插无码视频网站| 少妇激情一区二区三区久久大香香 | 伊人一道本| 久久婷婷夜色精品国产| 日本一区二区三区免费精品| 国产一区二区内射最近更新| 亚洲AV永久青草无码性色av| 手机在线观看成年人视频| 日本三级香港三级人妇99| 日日噜狠狠噜天天噜av| 人妻中出精品久久久一区二| 国产视频在线观看一区二区三区| 亚洲av无码乱码国产一区二区| 欧美疯狂性xxxxxbbbbb| 中文字幕午夜AV福利片| 大香蕉国产av一区二区三区 | 性一交一乱一伦一视频一二三区| 81久久免费精品国产色夜| 少妇夜夜春夜夜爽试看视频| 人妻激情偷乱一区二区三区| 亚洲AV无码中文AV日韩A| 经典三级免费看片天堂| 中出人妻中文字幕无码| 中文字幕一区二区人妻出轨| 日本高清不卡二区三区| 亚洲国产精彩中文乱码av| 日韩精品一区二区三区视频| 国产高清亚洲精品视频| 亚洲精品中文字幕一区二区| 精品一区二区三区免费播放| 国产精品18久久久久久首页| 中文字幕在线乱码av| 欧美最大胆的西西人体44| 自拍亚洲一区欧美另类|