亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于Kepler架構(gòu)GPU的通信仿真加速方法

2015-02-28 06:14:16韓秉君黃詩(shī)銘

電信科學(xué) 2015年10期

韓秉君，黃詩(shī)銘，杜瀅

（1.中國(guó)信息通信研究院北京100191；2.北京郵電大學(xué) 北京100876）

1 引言

隨著通信領(lǐng)域的研究開(kāi)始從4G技術(shù)向5G技術(shù)過(guò)渡，以大規(guī)模多天線陣列、超密集網(wǎng)絡(luò)以及大帶寬毫米波通信等為代表的一系列技術(shù)成為未來(lái)研究的重點(diǎn)。這些技術(shù)從天線數(shù)、用戶數(shù)、總帶寬和復(fù)雜度等維度將系統(tǒng)級(jí)仿真的總體運(yùn)算量提升了1～3個(gè)數(shù)量級(jí)，進(jìn)而給系統(tǒng)級(jí)仿真平臺(tái)的搭建工作帶來(lái)巨大挑戰(zhàn)。

在計(jì)算量大增的情況下，為了使仿真總時(shí)間仍能被控制在可接受的范圍內(nèi)，仿真加速技術(shù)也成為未來(lái)構(gòu)建系統(tǒng)級(jí)仿真平臺(tái)的必選技術(shù)。傳統(tǒng)仿真過(guò)程的總體運(yùn)算量不大，采用加速技術(shù)的仿真平臺(tái)往往僅能節(jié)省數(shù)小時(shí)至數(shù)天的運(yùn)算時(shí)間，卻要在硬件購(gòu)置、代碼開(kāi)發(fā)、測(cè)試校準(zhǔn)以及平臺(tái)升級(jí)等方面花費(fèi)更多時(shí)間和成本，總體來(lái)看收益有限；而在4G到5G的過(guò)渡時(shí)代，隨著系統(tǒng)級(jí)仿真總體運(yùn)算量的增大，采用加速技術(shù)的仿真平臺(tái)有可能節(jié)約數(shù)周甚至數(shù)月的仿真時(shí)間，從而保證在總體運(yùn)算量大增的情況下依舊能將仿真時(shí)間控制在可接受的范圍內(nèi)，具有較高的應(yīng)用價(jià)值。

通常情況下，通信仿真中存在大量可并行處理的雙精度浮點(diǎn)運(yùn)算，非常適合采用GPU（graphics processing unit，圖形處理器）進(jìn)行加速。而CUDA（compute unified device architecture，統(tǒng)一計(jì)算設(shè)備架構(gòu)）作為一種能夠均衡硬件設(shè)備成本、開(kāi)發(fā)維護(hù)成本和運(yùn)行能耗成本的GPU并行計(jì)算架構(gòu)，為通信系統(tǒng)級(jí)仿真加速提供了一種理想的技術(shù)手段。CUDA程序采用類(lèi)C++語(yǔ)言開(kāi)發(fā)，其最新版開(kāi)發(fā)工具CUDA Toolkit 7.5已經(jīng)針對(duì)主流開(kāi)發(fā)環(huán)境如Visual Studio 2013實(shí)現(xiàn)較好整合，并針對(duì)目前主流的Kepler架構(gòu)GPU提供了動(dòng) 態(tài) 并行[1]、Hyper-Q[2]、統(tǒng) 一內(nèi) 存尋址、CuBLAS和CuFFT等一系列編程工具和函數(shù)庫(kù)，顯著降低了代碼開(kāi)發(fā)和維護(hù)的工作量。

目前，關(guān)于使用GPU加速通信仿真平臺(tái)問(wèn)題，一些文章從通信模塊加速和GPU加速關(guān)鍵技術(shù)兩方面提供了具有參考性的研究結(jié)果：在通信模塊加速上，參考文獻(xiàn)[3]提出了一種針對(duì)多徑信道的GPU加速方法，參考文獻(xiàn)[4]提出了一種針對(duì)OFDM系統(tǒng)蒙特卡羅仿真的GPU加速方法，參考文獻(xiàn)[5]提出了一種針對(duì)LDPC（low density parity check code，低密度奇偶校驗(yàn)碼）編碼處理的加速方法，參考文獻(xiàn)[6]提出了一種利用英偉達(dá)公司GPU加速FFT處理模塊的方法；在GPU加速關(guān)鍵技術(shù)上，參考文獻(xiàn)[7]介紹了利用MPI（multi point interface，多點(diǎn)接口）解決多GPU系統(tǒng)性能的方法，參考文獻(xiàn)[8]介紹了動(dòng)態(tài)管理多核多線程GPU資源的方法。

然而，GPU硬件和軟件能力在近兩年取得了長(zhǎng)足進(jìn)展，而目前尚未有關(guān)于如何利用這些進(jìn)展加速系統(tǒng)級(jí)仿真平臺(tái)的研究。因此，本文提出了一種在Kepler架構(gòu)顯卡下利用CUDA技術(shù)加速通信仿真中信道DFT[9]（discrete Fourier transform，離散傅里葉變換）處理過(guò)程的方法。該方法的主要?jiǎng)?chuàng)新點(diǎn)是以接收用戶為依據(jù)，將整個(gè)仿真中相互交錯(cuò)的通信鏈路拆解成一系列獨(dú)立的“多發(fā)送用戶到單接收用戶”接收束，并基于這些接收束將DFT計(jì)算量分解為對(duì)同步和數(shù)據(jù)交互要求低、易于并行處理的子任務(wù)。最后，該方法一方面利用動(dòng)態(tài)并行技術(shù)實(shí)現(xiàn)對(duì)不同接收束不同鏈路計(jì)算任務(wù)的并行處理，另一方面利用線程并行技術(shù)實(shí)現(xiàn)了對(duì)同一鏈路內(nèi)不同采樣點(diǎn)的DFT計(jì)算任務(wù)的并行處理，在控制開(kāi)發(fā)復(fù)雜度的前提下達(dá)到較好的并行加速效果。

2 通信鏈路與并行任務(wù)模型

本節(jié)主要介紹了用于加速系統(tǒng)級(jí)仿真DFT過(guò)程的邏輯模型。該邏輯模型的核心是將收發(fā)設(shè)備之間彼此交錯(cuò)的信道拆分成便于函數(shù)級(jí)并行處理的接收束結(jié)構(gòu)和便于線程級(jí)并行處理的天線—頻點(diǎn)陣狀結(jié)構(gòu)，從而可以綜合利用不同粒度并行技術(shù)達(dá)到較理想的加速效果。

2.1 接收束與分子級(jí)并行任務(wù)

一般說(shuō)來(lái)，系統(tǒng)級(jí)仿真過(guò)程中的信道關(guān)系可以抽象為發(fā)送設(shè)備、接收設(shè)備以及發(fā)送和接收設(shè)備之間的通信鏈路，如圖1所示。

圖1 發(fā)送設(shè)備、接收設(shè)備及通信鏈路

圖1 中，TE1，TE2，…，TEn表示n個(gè)發(fā)送設(shè)備，RE1，RE2，…，REm表示m個(gè)接收設(shè)備，表示TEi到REj的通信鏈路。在仿真中，不同收發(fā)設(shè)備間的通信鏈路處理過(guò)程通常是相互獨(dú)立的，可以并行進(jìn)行；而對(duì)于某一接收設(shè)備如RE1，則需要完整收集與其相連的所有通信鏈路，，，…，的處理結(jié)果后，才能繼續(xù)分析該設(shè)備的接收性能。基于以上分析，本文從邏輯上提出了一種接收束結(jié)構(gòu)，如圖2所示。

圖2 接收束結(jié)構(gòu)

圖2 中，從接收用戶角度將圖1中彼此交錯(cuò)的通信鏈路分為m個(gè)接收束。其中，每個(gè)接收束包含n個(gè)發(fā)送機(jī)、1個(gè)接收機(jī)以及它們之間的n條通信鏈路。在實(shí)際仿真過(guò)程中，因?yàn)檎{(diào)度等原因，在不同仿真時(shí)刻，一個(gè)接收束內(nèi)處于發(fā)送狀態(tài)的發(fā)射機(jī)可能是不同的，這要求處理接收束內(nèi)不同鏈路的并行機(jī)制應(yīng)具備足夠彈性，以適應(yīng)子任務(wù)規(guī)模的動(dòng)態(tài)變化。考慮到接收束中每一條通信鏈路上的處理任務(wù)還可以繼續(xù)拆分為更小的可并行子任務(wù)，因此將每條鏈路的處理任務(wù)稱為分子級(jí)子任務(wù)。按照束狀結(jié)構(gòu)進(jìn)行拆分后，不同鏈路上的分子級(jí)子任務(wù)所需的輸入數(shù)據(jù)往往是相互獨(dú)立的，不同分子級(jí)子任務(wù)的處理過(guò)程也不涉及數(shù)據(jù)共享和交互。這意味著并行處理這些分子級(jí)子任務(wù)時(shí)可以節(jié)約因數(shù)據(jù)共享和同步而造成的時(shí)間開(kāi)銷(xiāo)，以達(dá)到更好的加速效果。

2.2 天線—頻點(diǎn)與原子級(jí)并行任務(wù)

對(duì)于信道束B(niǎo)j，其中某一鏈路上的處理任務(wù)又可以從邏輯上進(jìn)一步拆解成圖3所示的多條子徑上的處理任務(wù)。圖3中為發(fā)送設(shè)備TEi的p個(gè)發(fā)送天線，表示接收設(shè)備REj的q個(gè)接收天線。第r個(gè)發(fā)送天線到第s個(gè)接收天線之間的子徑用表示。

圖3 通信鏈路中的子徑

其中，x[n]是時(shí)域上的N個(gè)采樣點(diǎn)，X[k]為轉(zhuǎn)化后的頻域上的采樣值。根據(jù)歐拉公式，可以得到：

結(jié)合式（2）和式（3）可得：

從式（3）可以看出，無(wú)論是不同子徑上的X[k]，還是同一子徑上不同采樣點(diǎn)的X[k]，其計(jì)算過(guò)程都是彼此無(wú)關(guān)的，這意味著并行進(jìn)行不同X[k]計(jì)算時(shí)不會(huì)涉及數(shù)據(jù)共享和同步問(wèn)題，能夠簡(jiǎn)化代碼開(kāi)發(fā)難度并節(jié)省較多的時(shí)間開(kāi)銷(xiāo)。每一個(gè)X[k]的計(jì)算過(guò)程很難進(jìn)行更細(xì)的拆分，因此將其稱為原子級(jí)子任務(wù)。

3 不同子任務(wù)的CUDA處理

本節(jié)提出了一種基于Kepler架構(gòu)GPU的DFT并行加速方法。具體而言，該方法首先利用線程級(jí)并行來(lái)加速某一通信鏈路內(nèi)不同子徑及不同頻域采樣點(diǎn)的DFT計(jì)算，又利用動(dòng)態(tài)并行技術(shù)將以上不同通信鏈路的DFT處理過(guò)程進(jìn)一步并行，以提高加速效果。

3.1 天線—子載波的線程級(jí)并行處理

線程是CUDA程序處理一個(gè)任務(wù)的最基本單元，CUDA程序通過(guò)啟用多個(gè)線程并行處理一個(gè)大任務(wù)中的不同部分，以實(shí)現(xiàn)加速效果。CUDA的線程通過(guò)grid、block和thread 3個(gè)級(jí)別進(jìn)行組織[10]，每個(gè)線程都可以通過(guò)其所在的3級(jí)組織編號(hào)得到自己唯一的線程編號(hào)，該編號(hào)可以是一維、二維或三維的。CUDA加速的核心原理是將一個(gè)計(jì)算任務(wù)分解成若干個(gè)子任務(wù)，并根據(jù)線程編號(hào)設(shè)計(jì)每個(gè)線程和子任務(wù)的對(duì)應(yīng)關(guān)系。程序執(zhí)行過(guò)程中會(huì)根據(jù)任務(wù)需要啟動(dòng)合適數(shù)量的線程，這些線程根據(jù)其線程編號(hào)和預(yù)設(shè)對(duì)應(yīng)關(guān)系自動(dòng)并行處理其所對(duì)應(yīng)的子任務(wù)，以達(dá)到加速效果。

因此，將任務(wù)分解并建立線程和分解后子任務(wù)的關(guān)系，是使用CUDA加速的最核心問(wèn)題。對(duì)于第2.2節(jié)描述的某一通信鏈路的DFT處理過(guò)程，由于其不同子徑和不同采樣點(diǎn)的DFT形式均相同，每一采樣點(diǎn)的求取過(guò)程運(yùn)算量不大，且很難再進(jìn)一步分解成可以并行執(zhí)行的子任務(wù)，因此非常適合采用線程級(jí)并行加速。

以圖3中通信鏈路為例，圖3中發(fā)射天線有p個(gè)，接收天線有q個(gè)，假設(shè)每個(gè)子徑有v個(gè)頻域采樣點(diǎn)需要求取，則該通信鏈路共需要進(jìn)行p×q×v次DFT運(yùn)算，這些DFT運(yùn)算之間沒(méi)有相關(guān)性，可以并行處理。因此，啟動(dòng)p×q×v個(gè)線程來(lái)一次性并行處理這些DFT運(yùn)算，其線程號(hào)與任務(wù)映射關(guān)系如圖4所示。

圖4 線程號(hào)與DFT運(yùn)算的映射關(guān)系

圖4 中每一矩形均表示某一個(gè)線程與其所承擔(dān)DFT子任務(wù)之間的對(duì)應(yīng)關(guān)系，矩形中深色部分為該線程的線程編號(hào)，采用二維編號(hào)體系，形式為(Idx_x,Idx_y)；淺色部分表示該線程所承擔(dān)DFT子任務(wù)的三維索引，形式為(NAT,NAR,Nk)，其3個(gè)維度分別代表發(fā)送天線號(hào)、接收天線號(hào)以及頻域采樣點(diǎn)號(hào)，表示線程號(hào)為(Idx_x,Idx_y)的線程負(fù)責(zé)處理第AT個(gè)發(fā)送天線與第AR個(gè)接收天線之間第k個(gè)頻域采樣點(diǎn)上的DFT運(yùn)算。其中線程編號(hào)和子任務(wù)之間的關(guān)系如式（4）所示。

其中：

按照式（4）所述的邏輯，一共啟用p×q×v個(gè)線程來(lái)并行處理對(duì)應(yīng)的p×q×v個(gè)DFT運(yùn)算。圖4中根據(jù)線程編號(hào)將不同線程排列成一個(gè)矩形陣列。處于同一行的線程表明其處理的是同一子徑上不同頻域采樣點(diǎn)的DFT，前q行的線程表明其處理的是第1個(gè)發(fā)射天線到所有q個(gè)接收天線之間子徑的DFT，即圖3中子徑的DFT。以此類(lèi)推，第p×q行表示處理的是第p個(gè)發(fā)送天線到第q個(gè)接收天線的DFT任務(wù)，即圖3中子徑。在進(jìn)行DFT任務(wù)并行處理過(guò)程中，有幾個(gè)原則需要進(jìn)一步解釋?zhuān)菏紫?，盡管CUDA支持對(duì)線程的三維編號(hào)，本部分依然將收發(fā)天線壓縮成一維，主要是考慮經(jīng)過(guò)如此方式壓縮后，輸入輸出數(shù)據(jù)都可以比較方便地采用二維矩陣存儲(chǔ)，后繼處理也可以利用MKL、CuBLAS等矩陣運(yùn)算工具，可以降低開(kāi)發(fā)難度；第二，沒(méi)有使用快速傅里葉變換（FFT）算法，主要是考慮在系統(tǒng)級(jí)仿真過(guò)程中，每一個(gè)子徑的時(shí)域采樣點(diǎn)數(shù)目通常不大，一般為20～30個(gè)，而仿真最終需要用的頻域采樣點(diǎn)數(shù)目也不確定，典型的20 Mbit/s帶寬的LTE系統(tǒng)可能有50～1200個(gè)采樣點(diǎn)，因此采用DFT實(shí)現(xiàn)會(huì)更靈活一些。

3.2 不同收發(fā)鏈路的函數(shù)級(jí)并行

圖5 動(dòng)態(tài)并行和Hyper-Q技術(shù)

如圖5所示，在Kepler架構(gòu)下，CUDA提供了全新的動(dòng)態(tài)并行和Hyper-Q技術(shù)，從而使CUDA程序能夠更加便利地實(shí)現(xiàn)多個(gè)GPU函數(shù)之間的并行。關(guān)于動(dòng)態(tài)并行，傳統(tǒng)的CUDA程序只支持由CPU函數(shù)啟動(dòng)GPU函數(shù)，而在Kepler架構(gòu)顯卡下，動(dòng)態(tài)并行技術(shù)允許一個(gè)GPU函數(shù)啟動(dòng)另一個(gè)GPU函數(shù)，該技術(shù)減少了CPU和GPU之間不必要的信息交互，在簡(jiǎn)化編程代碼復(fù)雜度的同時(shí)提升了程序的效率。關(guān)于Hyper-Q，當(dāng)使用流的形式在CPU和GPU之間復(fù)制數(shù)據(jù)時(shí)，傳統(tǒng)架構(gòu)顯卡中不同流之間的數(shù)據(jù)要在硬件隊(duì)列中排隊(duì)，而Hyper-Q允許GPU能夠同時(shí)并發(fā)執(zhí)行最多32個(gè)活動(dòng)的任務(wù)，并且增加了硬件隊(duì)列的數(shù)量[11]，從而極大提升了數(shù)據(jù)復(fù)制效率和程序的運(yùn)行速度。

由以上描述可以看出，動(dòng)態(tài)并行和Hyper-Q技術(shù)能夠根據(jù)任務(wù)量在顯卡中啟動(dòng)相應(yīng)數(shù)量的函數(shù)，并能夠較為便捷地進(jìn)行CPU/GPU之間數(shù)據(jù)交互，非常適合第2.1節(jié)提出的數(shù)目不定的不同通信鏈路的處理過(guò)程。因此，提出了如圖6所示的分子級(jí)任務(wù)并行方案。圖6中，所有接收束被分成了多個(gè)批次。首先，第一批接收束的輸入?yún)?shù)借助多個(gè)流傳入GPU中；第二，GPU通過(guò)動(dòng)態(tài)并行技術(shù)，并行執(zhí)行第一批接收束中的所有通信鏈路的DFT運(yùn)算，其中每個(gè)通信鏈路的DFT處理過(guò)程如第3.1節(jié)所述；第三，通過(guò)多流技術(shù)，將處理結(jié)果傳回CPU中；最后，重復(fù)以上步驟，直到所有批次的接收束都處理完成為止。

圖6 不同通信鏈路的并行方法

關(guān)于接收束的并行加速方案，有如下幾個(gè)細(xì)節(jié)需要特別解釋?zhuān)菏紫龋⑿蟹桨钢兄詫?duì)接收束分批次處理，主要是因?yàn)閷?shí)際測(cè)試表明，當(dāng)一次并行的任務(wù)量過(guò)大時(shí)，GPU函數(shù)的處理效率會(huì)變得極低，從而拉長(zhǎng)仿真時(shí)間。而采用分批處理，能夠規(guī)避這一問(wèn)題。此外，進(jìn)行多批次處理，也有利于將處理后的結(jié)果及時(shí)傳回，從而使CPU在GPU處理下一批接收束時(shí)能夠同步處理本次返回的接收束結(jié)果。第二，仿真中采用多流的原因是：實(shí)際測(cè)試表明，通過(guò)多個(gè)流的復(fù)用可以顯著節(jié)省程序中的數(shù)據(jù)復(fù)制時(shí)間。

4 加速結(jié)果與分析

本節(jié)參照典型的19小區(qū)/57扇區(qū)20 Mbit/s帶寬LTE下行鏈路提出了如下仿真參數(shù)[12]，見(jiàn)表1。

表1 系統(tǒng)仿真參數(shù)

需要強(qiáng)調(diào)的是，傳統(tǒng)的仿真平臺(tái)為了節(jié)省仿真時(shí)間，對(duì)通信鏈路的處理過(guò)程進(jìn)行了簡(jiǎn)化，而本實(shí)驗(yàn)過(guò)程假設(shè)所有通信鏈路都進(jìn)行DFT處理，并以此為基礎(chǔ)研究運(yùn)算總量、每批次處理數(shù)量以及所用流數(shù)目對(duì)總仿真時(shí)間的影響。

首先，對(duì)比了采用CPU、Fermi架構(gòu)GPU以及Kepler架構(gòu)GPU處理系統(tǒng)全部57×570×4×2×50≈1 300萬(wàn)次DFT運(yùn)算的總時(shí)間，見(jiàn)表2。表2中的CPU運(yùn)算時(shí)間是在單核單線程條件下得到的，多核CPU運(yùn)算時(shí)間近似為該時(shí)間/核數(shù)。從表2中數(shù)據(jù)可以看出，本文所提出的加速方法相對(duì)于CPU大約加速300倍，相對(duì)于上一代Fermi架構(gòu)GPU大約加速3倍。此外，考慮到本文所提方法代碼實(shí)現(xiàn)更簡(jiǎn)單，因此在實(shí)際應(yīng)用過(guò)程中還能進(jìn)一步節(jié)省開(kāi)發(fā)、測(cè)試和維護(hù)時(shí)間。

表2 DFT運(yùn)算時(shí)間

第二，研究了本文所提算法的加速效果和總體運(yùn)算量的關(guān)系，如圖7所示。可以看出，隨著運(yùn)算總量的增加，GPU運(yùn)算總時(shí)間近似呈線性增長(zhǎng)；在運(yùn)算量較大的情況下，進(jìn)行單位次數(shù)DFT運(yùn)算的時(shí)間更小，其原因主要是加速過(guò)程中CPU-GPU間的數(shù)據(jù)復(fù)制、GPU線程管理等相對(duì)固定的時(shí)間開(kāi)銷(xiāo)在大計(jì)算量情況下得到了“分?jǐn)偂?，這也說(shuō)明本文所提出的加速方法在運(yùn)算量較大的情況下加速效果會(huì)更明顯。

圖7 加速效果與總體運(yùn)算量關(guān)系

第三，研究了1200個(gè)采樣點(diǎn)條件下加速效果和處理批次的關(guān)系，如圖8所示?？梢钥闯?，如果采用單批次處理，GPU處理完全部DFT運(yùn)算大約耗時(shí)7.8 s，而改為8批次處理后，耗時(shí)降為大約1.2 s，兩者相差6倍以上。該研究結(jié)果說(shuō)明在使用CUDA技術(shù)加速通信仿真平臺(tái)時(shí)，應(yīng)將每次交給GPU的計(jì)算任務(wù)控制在合適范圍內(nèi)，否則可能會(huì)影響最終的加速效果。

圖8 加速效果和處理批次的關(guān)系

最后，研究了加速效果和輸入輸出流數(shù)目的關(guān)系，如圖9所示。可以看出，隨著輸入輸出流數(shù)目的增加，運(yùn)算時(shí)間呈現(xiàn)出明顯的遞減趨勢(shì)。當(dāng)流數(shù)超過(guò)16時(shí)，仿真時(shí)間基本穩(wěn)定。該研究結(jié)果說(shuō)明輸入輸出流的數(shù)目會(huì)對(duì)加速效果構(gòu)成較大影響，應(yīng)盡量選擇盡可能多的流進(jìn)行輸入輸出，以避免數(shù)據(jù)傳輸成為加速瓶頸。

5 結(jié)束語(yǔ)

圖9 加速效果與輸入輸出流個(gè)數(shù)的關(guān)系

本文提出了一種基于Kepler架構(gòu)GPU的系統(tǒng)級(jí)仿真DFT加速方法。該方法利用動(dòng)態(tài)并行和Hyper-Q等技術(shù)，使DFT處理過(guò)程相對(duì)于單核單線程CPU程序加速300倍，具有較好的應(yīng)用價(jià)值。此外，該方法中提出的從接收用戶角度將加速任務(wù)分為多個(gè)接收束的思想，對(duì)于處理DFT之外的加速任務(wù)同樣有著重要的參考意義。

總之，該方法為解決仿真時(shí)間隨計(jì)算量增加而惡性膨脹的“仿真時(shí)間瓶頸”問(wèn)題提供了切實(shí)可行的應(yīng)對(duì)方向及技術(shù)手段，是保證4G/5G大規(guī)模仿真預(yù)研工作順利開(kāi)展的基礎(chǔ)性技術(shù)。未來(lái)將基于接收束的思想，研究如何利用CUDA技術(shù)加速通信仿真中接收機(jī)信噪比計(jì)算的方法以及基于迭代容器的更加靈活的CPU、GPU接口，以構(gòu)造更易用的通信仿真基礎(chǔ)模塊。

1 NVIDIA Corporation.CUDA toolkit documentation v7.5.http://docs.nvidia.com/cuda/pdf/CUDA_C_Programming_Guide.pdf,2015

2 NVIDIA Corporation.Nvidia kepler GK110 next-generation CUDA compute architecture.http://www.nvidia.com/content/PDF/kepler/NV_DS_Tesla_KCompute_Arch_May_2012_LR.pdf,2012

3 Abdelrazek A F,Kaschub M,Blankenhorn C,et al.A novel architecture using NVIDIA CUDA to speed up simulation of multi-path fast fading channels.Proceedings of the 69th IEEE Vehicular Technology Conference,Barcelona,Spain,2009

4 Laguna-Sanchez G A,Prieto-Guerrero A,Rodriguez-Colina E.Speedup simulation for OFDM over PLC channel using a multithreading GPU.Proceedings of IEEE Latin-American Conference on Communications(LATINCOM),Belem,Brazil,2011

5 Potluri S,Wang H,Bureddy D,et al.Optimizing MPI communication on multi-GPU systems using CUDA inter-process communication.Proceedings of the 26th IEEE International on Parallel and Distributed Processing Symposium Workshops &phD Forum(IPDPSW),Shanghai,China,2012:1848～1857

6 Wu J,JaJa J,Balaras E.An optimized FFT-based direct Poisson solver on CUDA GPUs.IEEE Transactions on Parallel and Distributed Systems,2014(1):550～559

7 Beermann M,Monro E,Schmalen H,et al.High speed decoding of non-binary irregular LDPC codes using GPUs.Proceedings of IEEE Workshop on Signal Processing System(SiPS),Taipei,China,2013

8 Rodriguez A,Valverde J,Torre E,et al.Dynamic management of multikernel multithread accelerators using dynamic partial reconfiguration.Proceedings of the 9th International Symposium on Reconfigurable and Communication-Cenric Systems-on-Chip(ReCoSoC),Montpellier,France,2014

9 Proakis J G.Digital Signal Processing,4th Revised Edition.London:Pearson Prentice Hall,2009:105～129

10 Noga A,Topa T.Kernel execution strategies for GPU-accelerated version of method of moments.Proceedings of the 20th International Conference on Microwaves,Radar,and Wireless Communication(MIKON),Gdansk,Poland,2014

11 Wilt N,The CUDA Handbook.Upper Saddle River:Addison-Wesley,2013

12 Bilel B R,Navid N.Cunetsim:a GPU based simulation testbed for large scale mobile networks.Proceedings of International Conference on Communications and Information Technology(ICCIT),Hammamet,Tunisia,2012