亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Alltoall通信性能模型研究*

        2018-04-08 00:48:56羅紅兵張曉霞
        計(jì)算機(jī)與生活 2018年4期
        關(guān)鍵詞:進(jìn)程模型

        羅紅兵,張曉霞,魏 勇

        北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所 高性能計(jì)算中心,北京 100094

        1 引言

        MPI(message passing interface)通信性能是影響并行應(yīng)用程序性能的關(guān)鍵,特別是MPI集合通信性能對(duì)于應(yīng)用的可擴(kuò)展性往往具有決定性的作用。在MPI集合通信中,Alltoall是讓所有參與通訊的進(jìn)程彼此進(jìn)行數(shù)據(jù)交換的集合通信操作,對(duì)于采用該通信模式的應(yīng)用,例如三維快速傅里葉變換[1]和量子力學(xué)分子動(dòng)力學(xué)模擬CPMD(Car-Parrinello molecular dynamics)[2],Alltoall性能對(duì)應(yīng)用軟件性能的影響非常大。為此,Alltoall相應(yīng)的評(píng)估和優(yōu)化研究一直是并行計(jì)算領(lǐng)域的研究熱點(diǎn),包括對(duì)Alltoall等集合通信的詳細(xì)分析[3-5],針對(duì)當(dāng)前多核CPU的Alltoall的優(yōu)化[6-7],在通信算法層[8]針對(duì)特定高性能計(jì)算機(jī)[9]對(duì)Alltoall進(jìn)行的優(yōu)化等。

        已有的研究結(jié)果[5]顯示:Alltoall的理論預(yù)估值與實(shí)際測試值的差別往往較大,尤其在超大規(guī)模情況下,實(shí)測值甚至是理論值的數(shù)倍,反映出對(duì)Alltoall集合通信性能的理論建模仍然是值得深入研究的問題。如何利用理論模型解釋Alltoall的性能,是MPI通信算法設(shè)計(jì)、評(píng)估和優(yōu)化,乃至高性能計(jì)算機(jī)優(yōu)化中必須要面對(duì)的問題。當(dāng)前,對(duì)于Alltoall集合通訊的性能建模[10-11]大都基于基本的通訊模型進(jìn)行,其中被廣泛使用的通信性能模型是LogP(latency,overhead,gap,and processor)模型[12],該模型是一個(gè)針對(duì)分布式存儲(chǔ)的多處理器模型,處理器間采用點(diǎn)對(duì)點(diǎn)通信。LogGP模型[13]在LogP模型的基礎(chǔ)上增加了一個(gè)參數(shù)G,該參數(shù)可以描述在傳遞長消息時(shí)獲得的帶寬。從現(xiàn)有的研究和實(shí)驗(yàn)結(jié)果看,某些因素未在模型中準(zhǔn)確地體現(xiàn),導(dǎo)致Alltoall性能理論預(yù)測在大規(guī)模情況下的失真。

        針對(duì)超大規(guī)模情況下Alltoall的理論性能模型存在的不足,本文從MPI通信的基本特征和Alltoall實(shí)現(xiàn)算法和模型兩方面予以分析,希望刻畫出實(shí)際互連網(wǎng)絡(luò)系統(tǒng)中的某些特征,以期建立更為精確的Alltoall性能模型。

        2 Alltoall實(shí)現(xiàn)算法分析

        MPI的開源實(shí)現(xiàn)版本mpich中對(duì)Alltoall的實(shí)現(xiàn)涉及4個(gè)算法,分別面向不同的消息長度和進(jìn)程數(shù)規(guī)模,具體為:

        (1)對(duì)于短消息(缺省是不大于256 B)且MPI進(jìn)程數(shù)大于等于8,采用存儲(chǔ)前進(jìn)算法,以多傳輸數(shù)據(jù)來減少通信延遲的影響,算法需執(zhí)行l(wèi)bp步,單進(jìn)程的數(shù)據(jù)傳輸量增加到原傳輸量的lbp/2倍。

        (2)對(duì)于中等規(guī)模的消息(缺省為不大于32 KB)且MPI進(jìn)程數(shù)小于8,以同時(shí)進(jìn)行irevs和isends,再進(jìn)行一次waitall的方式實(shí)現(xiàn),其中需避免所有進(jìn)程在同一時(shí)刻向同一進(jìn)程進(jìn)行irevs和isends。

        (3)對(duì)于長消息且進(jìn)程數(shù)為2的冪,使用配對(duì)交換算法,需p-1個(gè)傳輸步。

        (4)對(duì)于長消息且進(jìn)程數(shù)不為2的冪,以第i步,每個(gè)進(jìn)程從rank-1收消息,向rank+1發(fā)消息的流程進(jìn)行,需p-1個(gè)傳輸步。

        對(duì)于大規(guī)模的Alltoall通信,分別在短消息時(shí)用算法(1),在其余長度的消息時(shí)使用算法(3)和算法(4)。用k表示消息塊的大小,p表示進(jìn)程數(shù),α表示通信延遲,β表示通信帶寬的倒數(shù),Alltoall時(shí)間開銷分別可以表示為:

        從以上算法體現(xiàn)的Alltoall時(shí)間開銷看,Alltoall通信性能建模依賴于通信延遲和通信帶寬的準(zhǔn)確刻畫。由于通信延遲和通信帶寬一方面依賴于高性能計(jì)算機(jī)互連網(wǎng)絡(luò)的實(shí)現(xiàn)技術(shù),一方面依賴于系統(tǒng)負(fù)載情況,其性能的準(zhǔn)確刻畫并非易事。Alltoall涉及到p個(gè)進(jìn)程同時(shí)進(jìn)行通信,當(dāng)p的數(shù)量達(dá)到一定規(guī)模時(shí),其通信性能不可避免地有所差別,這也是在Aalltoall性能建模時(shí)需要考慮的。

        3 Alltoall通信性能模型

        Alltoall通信性能模型依賴于互連網(wǎng)絡(luò)通信性能模型,考慮到大規(guī)?;ミB通信網(wǎng)絡(luò)中通信性能模型的復(fù)雜性,本文首先選擇一個(gè)實(shí)際系統(tǒng)進(jìn)行評(píng)測,以期總結(jié)其性能特征。在此基礎(chǔ)上,結(jié)合Alltoall的特點(diǎn),建立一個(gè)較為合理的性能模型,然后在此基礎(chǔ)上設(shè)計(jì)Alltoall通信性能模型。

        3.1 測試平臺(tái)

        測試平臺(tái)選擇某國產(chǎn)并行機(jī)(簡稱BXJ),該系統(tǒng)的每個(gè)計(jì)算節(jié)點(diǎn)包含2顆英特爾微處理器,每顆微處理器包含6個(gè)計(jì)算核心;互連系統(tǒng)采用自主設(shè)計(jì)的高階路由芯片(network route chip,NRC)和高速網(wǎng)絡(luò)接口芯片(network interface chip,NIC),實(shí)現(xiàn)光電混合的二層胖樹結(jié)構(gòu)高階路由網(wǎng)絡(luò)互連。NRC采用了16×16高階網(wǎng)絡(luò)交換部件,計(jì)算節(jié)點(diǎn)最大跳轉(zhuǎn)次數(shù)為3,工作主頻為312.5 MHz,時(shí)鐘周期為3.2 ns,基本傳輸單位為256 bit。BXJ并行機(jī)通信系統(tǒng)的性能參數(shù)詳見表1,NRC路由交換芯片的基本參數(shù)詳見表2。

        Table 1 Basic parameters for communication system of BXJ parallel computer表1 BXJ并行機(jī)通信系統(tǒng)基本參數(shù)

        Table 2 Basic parameters for NRC interconnection表2 NRC互連基本參數(shù)

        3.2 基本通信性能分析

        選用Intel IMB測試程序,測試BXJ上16至8 192個(gè)MPI進(jìn)程執(zhí)行Sendrecv操作的通信延遲和通信帶寬情況。與Alltoall類似,測試程序中的每個(gè)MPI進(jìn)程同時(shí)執(zhí)行Sendrecv操作,都參與數(shù)據(jù)通信。測試含單計(jì)算節(jié)點(diǎn)啟動(dòng)8個(gè)MPI進(jìn)程和12個(gè)MPI進(jìn)程2組測試。表3和表4是有關(guān)通信延遲的部分測試結(jié)果,圖1是測試中出現(xiàn)的通信延遲抖動(dòng)(通信延遲的最大波動(dòng)幅度與通信延遲的平均值之比)與進(jìn)程數(shù)間的關(guān)系。其中的趨勢線顯示:通信延遲的抖動(dòng)幅度隨著進(jìn)程數(shù)的增多明顯呈增大的趨勢。

        Fig.1 Relationship between latency and the number of processes圖1 通信延遲抖動(dòng)與進(jìn)程數(shù)間的關(guān)系

        表3和表4是16~8 192進(jìn)程時(shí),通信延遲的具體結(jié)果,其中單MPI進(jìn)程的消息塊分別是4 KB和16 KB。表3和表4中的數(shù)據(jù)顯示:無論是單計(jì)算節(jié)點(diǎn)啟動(dòng)8個(gè)MPI進(jìn)程,還是單計(jì)算節(jié)點(diǎn)啟動(dòng)12個(gè)MPI進(jìn)程,這種通信延遲的抖動(dòng)都在一定程度上存在。計(jì)算節(jié)點(diǎn)啟動(dòng)的MPI進(jìn)程較多時(shí),抖動(dòng)的幅度更大。

        圖2和圖3是BXJ上16進(jìn)程至8 192進(jìn)程下的通

        信帶寬情況。圖2和圖3的數(shù)據(jù)顯示:計(jì)算節(jié)點(diǎn)的通信帶寬隨消息塊的增大而增加,直到達(dá)到最大值,不同進(jìn)程數(shù)下節(jié)點(diǎn)的增長趨勢基本一致;單節(jié)點(diǎn)上所有MPI進(jìn)程分享通信帶寬,啟動(dòng)的MPI進(jìn)程數(shù)越多,分享的帶寬越少。

        Table 3 Relationship between latency and the number of processes(8 processes per node)表3 通信延遲與進(jìn)程數(shù)的關(guān)系(單節(jié)點(diǎn)8個(gè)MPI進(jìn)程)

        Table 4 Relationship between latency and the number of processes(12 processes per node)表4 通信延遲與進(jìn)程數(shù)的關(guān)系(單節(jié)點(diǎn)12個(gè)MPI進(jìn)程)

        Fig.2 Relationship between communication bandwidth of single MPI process and the size of messages圖2 單進(jìn)程時(shí)MPI通信帶寬與數(shù)據(jù)傳輸量間的關(guān)系

        Fig.3 Relationship between cumulative communication bandwidth of single node and the size of messages圖3 單計(jì)算節(jié)點(diǎn)通信帶寬與數(shù)據(jù)傳輸量間的關(guān)系

        基于以上對(duì)大規(guī)模并行情況下通信延遲和通信帶寬情況的分析,可以得出以下基本結(jié)論:

        (1)通信延遲的準(zhǔn)確刻畫并非易事,隨著進(jìn)程數(shù)和數(shù)據(jù)傳輸量的增加,網(wǎng)絡(luò)傳輸會(huì)存在競爭,導(dǎo)致通信延遲的變化和性能抖動(dòng)。

        (2)對(duì)于通信帶寬,利用MPI進(jìn)程實(shí)測通信帶寬基本可以反映其特征。

        3.3 Alltoall性能模型

        已有的研究[14]顯示,通信性能與負(fù)載有關(guān)。評(píng)估互連網(wǎng)絡(luò)性能需要定義負(fù)載模型,涉及目的分布、注入速率和消息長度等。

        對(duì)于Alltoall集合通信而言,目的分布是均勻的,數(shù)據(jù)注入規(guī)律簡單,消息長度固定,因而評(píng)估其通信延遲時(shí)可以在已有通信性能模型[15]上簡化??紤]到互連網(wǎng)絡(luò)的多樣性,本文僅僅針對(duì)多級(jí)互連網(wǎng)絡(luò)(multistage interconnection networks,MINs)進(jìn)行建模,這是當(dāng)前使用最為普遍的網(wǎng)絡(luò)類別。

        通常來說,實(shí)現(xiàn)N個(gè)計(jì)算節(jié)點(diǎn)互連的N×NMIN互連網(wǎng)絡(luò)由L=logkN級(jí)k×k交換單元構(gòu)成。為便于描述,假定網(wǎng)絡(luò)完全由k×k交換部件構(gòu)成,k×k交換部件含k個(gè)輸入端口和k個(gè)輸出端口,每個(gè)輸出端口在單時(shí)鐘周期內(nèi)分別可以接受一個(gè)報(bào)文。為防止阻塞,每個(gè)輸出端口的buffer實(shí)現(xiàn)為FIFO(first input first output)隊(duì)列。到達(dá)的報(bào)文直接進(jìn)入到與目的輸出端口對(duì)應(yīng)的buffer,不同的buffer之間不會(huì)有沖突。

        對(duì)于以上理想的交換單元,令其時(shí)鐘周期為tc,tT為從交換單元到下一交換單元的傳輸時(shí)間。假定在每個(gè)時(shí)鐘周期,報(bào)文到達(dá)每個(gè)輸入端口的可能性為ρ,令vn表示在時(shí)刻n加入到一個(gè)輸出隊(duì)列的報(bào)文的數(shù)目,那么v1,v2,…,vn為獨(dú)立的符合伯努利分布的隨機(jī)變量。到達(dá)報(bào)文數(shù)量的數(shù)學(xué)期望E=其方差令q為n時(shí)刻n在隊(duì)列中的報(bào)文數(shù)目,qn和vn有如下關(guān)系式:

        上面排隊(duì)關(guān)系可以用M/G/1隊(duì)列系統(tǒng)描述[16-17],相應(yīng)地,到達(dá)輸出端口報(bào)文數(shù)的數(shù)學(xué)期望為:

        報(bào)文通過交換部件的時(shí)間的數(shù)學(xué)期望為:

        報(bào)文通過交換部件的等待時(shí)間的數(shù)學(xué)期望為:

        求出E和V代入上式,可以得到:

        將式(3)引入到式(2),可以得到增加了網(wǎng)絡(luò)競爭因素的Alltoall性能模型:

        其中,kp是網(wǎng)絡(luò)最小傳輸單位(報(bào)文)的大小;nhop是報(bào)文需要經(jīng)過的交換單元數(shù)目。

        4 模型驗(yàn)證和評(píng)估

        由于BXJ測試平臺(tái)處于生產(chǎn)性運(yùn)行狀態(tài),實(shí)際測試時(shí)沒有機(jī)會(huì)占用全系統(tǒng),以下相關(guān)測試的最大并行規(guī)模為8 192個(gè)MPI進(jìn)程,Alltoall的實(shí)測采用Intel IMB測試程序獲得。

        4.1 傳統(tǒng)Alltoall性能模型評(píng)估

        首先,評(píng)估實(shí)測值與采用傳統(tǒng)模型時(shí)理論估值的對(duì)比情況,圖4和圖5是對(duì)比結(jié)果圖。其中,理論值按照實(shí)際實(shí)現(xiàn)算法估算,在128 B短消息時(shí)使用Bruck算法,在16 KB消息時(shí)下使用Long算法,涉及的通信延遲α和通信帶寬β分別使用系統(tǒng)標(biāo)稱的理論值和實(shí)測值。圖中,Alltoall的實(shí)測值用Real標(biāo)注,另外標(biāo)注中的8和12表示單節(jié)點(diǎn)啟動(dòng)的MPI進(jìn)程數(shù);理論值用“算法名+數(shù)字+字母”標(biāo)注,例如:Long8B表示理論值按Long算法估算,單節(jié)點(diǎn)啟動(dòng)8個(gè)MPI進(jìn)程,字母B表示通信延遲α和通信帶寬β采用理論值;Bruck12A表示理論值按Bruck算法估算,通信延遲α和通信帶寬β采用實(shí)測值。

        Fig.4 Comparison of actual value and predicted value by differentAlltoall models on BXJ(16 KB message)圖4 BXJ上Alltoall傳統(tǒng)模型估值與實(shí)測值對(duì)比(16 KB消息)

        Fig.5 Comparison of actual value and predicted value by differentAlltoall models on BXJ(128 B message)圖5 BXJ上Alltoall傳統(tǒng)模型估值與實(shí)測值對(duì)比(128 B消息)

        考慮到同一消息塊不同進(jìn)程數(shù)下Alltoall的實(shí)測值與傳統(tǒng)模型理論估值的差別太大,為方便比較,圖4和圖5中延遲值是實(shí)際數(shù)的對(duì)數(shù)值(2為冪)。圖4和圖5中的結(jié)果顯示:(1)相比使用通信延遲和通信帶寬的理論值,以實(shí)測值為參數(shù),Alltoall理論值更接近于實(shí)測值;(2)即便以實(shí)測值為參數(shù),Alltoall理論值的準(zhǔn)確性有所提高,但僅在MPI進(jìn)程數(shù)小于128時(shí)有效,超過128進(jìn)程后實(shí)測值基本上是理論值的數(shù)倍,顯示出傳統(tǒng)的Alltoall模型在大規(guī)模并行時(shí)對(duì)于Alltoall的性能評(píng)估存在明顯缺陷。

        4.2 新Alltoall性能模型評(píng)估

        表5和表6分別是4 KB消息塊和16 KB消息塊時(shí)Alltoall實(shí)測性能(延遲值)與理論預(yù)估的對(duì)比,分為單計(jì)算節(jié)點(diǎn)啟動(dòng)8個(gè)MPI進(jìn)程和12個(gè)MPI進(jìn)程兩組,MPI并行規(guī)模從512進(jìn)程至最大8 192進(jìn)程。表中“原模型”為利用式(2)的估算結(jié)果,“新模型”為式(4)的估算結(jié)果。

        Table 5 Comparison of actual value and predicted value by differentAlltoall models(4 KB message)表5 Alltoall實(shí)測性能與理論值對(duì)比(4 KB消息塊)

        Table 6 Comparison of actual value and predicted value by differentAlltoall models(16 KB message)表6 Alltoall實(shí)測性能與理論值對(duì)比(16 KB消息塊)

        在理論估算中,通信延遲α,使用表1中的MPI通信延遲值和MPI單向通信帶寬值,計(jì)算通信數(shù)據(jù)量時(shí)考慮單計(jì)算節(jié)點(diǎn)啟動(dòng)8個(gè)MPI進(jìn)程和12個(gè)MPI進(jìn)程對(duì)應(yīng)到單個(gè)通信端口數(shù)據(jù)量的差別。在使用新模型時(shí),依照數(shù)量傳輸量換算公式(3)的p值,其余參數(shù)選擇表2中的數(shù)據(jù)。

        表5和表6中的數(shù)據(jù)顯示:(1)引入網(wǎng)絡(luò)競爭后的Alltoall性能預(yù)估值與實(shí)測值非常接近,體現(xiàn)出網(wǎng)絡(luò)競爭是可以預(yù)測的;(2)從數(shù)值上看,影響大規(guī)模Alltoall性能的主要因素是網(wǎng)絡(luò)競爭開銷,而網(wǎng)絡(luò)的基本傳輸延遲和傳輸帶寬的占比很??;(3)Alltoall性能實(shí)測時(shí)有時(shí)會(huì)有很大的波動(dòng),如表5中2 048個(gè)進(jìn)程(單節(jié)點(diǎn)啟動(dòng)8個(gè)MPI進(jìn)程)時(shí)Alltoall實(shí)測值存在明顯的跳躍,這種現(xiàn)象是由于突發(fā)的網(wǎng)絡(luò)擁塞造成的。

        5 小結(jié)

        綜合以上測試和分析,不難看出:

        (1)MPI通信性能對(duì)于底層互連通信系統(tǒng)性能的依賴性很強(qiáng),并且與負(fù)載有關(guān)。尤其是對(duì)于Alltoall這種讓所有參與通訊的進(jìn)程進(jìn)行彼此數(shù)據(jù)交換的集合通信操作,其性能對(duì)于底層互連通信系統(tǒng)的要求最高,最難實(shí)現(xiàn)非常好的可擴(kuò)展性。

        (2)預(yù)估Alltoall通信的理論值時(shí),需要考慮網(wǎng)絡(luò)競爭的影響,否則,無論是采用MPI的通信延遲和通信帶寬的理論,還是采用實(shí)測值,都不一定能夠反映出Alltoall的真實(shí)特性,尤其是面對(duì)大規(guī)模Alltoall操作。

        (3)在大規(guī)模并行時(shí),主導(dǎo)Alltoall性能的主要因素是網(wǎng)絡(luò)競爭開銷,而不是網(wǎng)絡(luò)的基本傳輸延遲和傳輸帶寬。

        [1]Luszczek P,Dongarra J,KoesterD,et al.Introduction to the HPC challenge benchmark suite[R].Springfield:Lawrence Berkeley National Laboratory,2005.

        [2]The CPMD Consortium.CPMD:Car-Parrinello molecular dynamics,Version3.15.3[EB/OL].(2015)[2016-07-30].http://cpmd.org/downloadable-files-authentication/manual.pdf.

        [3]Rao Li,Zhang Yunquan,Li Yucheng.Performance test and analysis of Alltoall collective communication on domestic hundred trillion times cluster system[J].Computer Science,2010,37(8):186-188.

        [4]Liu Yang,Cao Jianwen,Li Yucheng.Testing and analyzing of collective communication models[J].Computer Engineering andApplications,2006,42(9):30-33.

        [5]Luo Hongbing,Zhang Xiaoxia.Analysis of scalability for MPI collective communication[J].Journal of Frontiers of Computer Science and Technology,2017,11(2):252-261.

        [6]Xu Cong,Venkata M G,Graham R L,et al.SLOAVx:scalable logarithmic AlltoallV algorithm for hierarchical multicore systems[C]//Proceedings of the 13th International Symposium on Cluster,Cloud,and Grid Computing,Delft,May 13-16,2013.Washington:IEEE Computer Society,2013:369-376.

        [7]Li Qiang,Sun Ninghui,Huo Zhigang,et al.Optimizing MPI Alltoall communications in multicore clusters[J].Journal of Computer Research and Development,2013,50(8):1744-1754.

        [8]Bruck J,Ho C T,Kipnis S,et al.Efficient algorithms for all-to-all communications in multiport message-passing systems[J].IEEE Transactions on Parallel and Distributed Systems,1997,8(11):1143-1156.

        [9]Kumar S,Mamidala A,Heidelberger P,et al.Optimization of MPI collective operations on the IBM blue gene/Q supercomputer[J].International Journal of High Performance ComputingApplications,2014,28(4):450-464.

        [10]Mamadou H N,Nanri T,Murakami K,et al.Performance analysis and linear optimization modeling of all-to-all collective communication algorithms[C]//Proceedings of the 19th Symposium on Computer Architecture and High Performance Computing,Gramado,Oct 24-27,2007.Washington:IEEE Computer Society,2007:203-210.

        [11]Chan E,Heimlich M,Purkayastha A,et al.Collective communication:theory,practice,and experience[J].Concurrency and Computation:Practice and Experience,2007,19(13):1749-1783.

        [12]Culler D E,Karp R M,Patterson D,et al.LogP:a practical model of parallel computation[J].Communications of the ACM,1996,39(11):78-85.

        [13]Alexanddrov A,Ionescu M F,Schauser K E,et al.LogGP:incorporating long messages into the LogP model-one step closer towards a realistic model for parallel computation[C]//Proceedings of the 7th Annual ACM Symposium on Parallel Algorithms and Architectures,Santa Barbara,Jul 17-19,1995.New York:ACM,1995:95-105.

        [14]Duato J,Yalamanchili S,Ni L.Interconnection network:an engineering approach[M].Xie Lunguo,Zhang Minxuan,Dou Qiang,et al.Beijing:Publishing House of Electronics Industry,2004:341-345.

        [15]Garofalakis J,Stergiou E.An analytical model for the performance evaluation of multistage interconnection networks with two class priorities[J].Future Generation Computer Systems,2013,29(1):114-129.

        [16]Kruskal C P,Snir M.The performance of multistage interconnection networks for multiprocessors[J].IEEE Transactions on Computers,1983,32(12):1091-1098.

        [17]Agarwal A.Limits on interconnection network performance[J].IEEE Transactions on Parallel and Distributed Systems,1991,2(4):398-412.

        附中文參考文獻(xiàn):

        [3]饒立,張?jiān)迫?李玉成.國產(chǎn)百萬億次機(jī)群系統(tǒng)Alltoall性能測試與分析[J].計(jì)算機(jī)科學(xué),2010,37(8):186-188.

        [4]劉洋,曹建文,李玉成.聚合通信模型的測試與分析[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(9):30-33.

        [5]羅紅兵,張曉霞.MPI集合通信性能可擴(kuò)展性研究與分析[J].計(jì)算機(jī)科學(xué)與探索,2017,11(2):252-261.

        [7]李強(qiáng),孫凝暉,霍志剛,等.MPI Alltoall通信在多核機(jī)群中的優(yōu)化[J].計(jì)算機(jī)研究與發(fā)展,2013,50(8):1744-1754.

        [14]Duato J,YalamanchiliS,Ni L.并行計(jì)算機(jī)互連網(wǎng)絡(luò)技術(shù):一種工程方法[M].謝倫國,張民選,竇強(qiáng),譯.北京:電子工業(yè)出版社,2004:341-345.

        猜你喜歡
        進(jìn)程模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        債券市場對(duì)外開放的進(jìn)程與展望
        中國外匯(2019年20期)2019-11-25 09:54:58
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        我國高等教育改革進(jìn)程與反思
        Linux僵死進(jìn)程的產(chǎn)生與避免
        男女平等進(jìn)程中出現(xiàn)的新矛盾和新問題
        俄羅斯現(xiàn)代化進(jìn)程的阻礙
        蜜桃av噜噜一区二区三区策驰| 美女高潮流白浆视频在线观看| 久久久亚洲精品免费视频| 国产激情一区二区三区不卡av| 欧美老熟妇乱xxxxx| 免费观看又色又爽又黄的韩国| 国内精品国产三级国产av另类| 91久久精品一二三区色| 亚洲av免费手机在线观看| 国产亚洲精品bt天堂精选| 国产精品大屁股1区二区三区| 午夜一区二区在线视频| 日韩女同视频在线网站| 国产国拍精品av在线观看按摩| 中文字幕在线久热精品| 少妇又色又爽又刺激的视频| 久久综合九色欧美综合狠狠| 亚洲综合无码无在线观看| 亚洲国产成人AⅤ片在线观看| 白色白色白色在线观看视频 | 丰满老熟妇好大bbbbb| 91青草久久久久久清纯| 亚洲综合一区二区三区久久| 亚洲一区二区三区四区五区黄| 欧美成年黄网站色视频| 99久久精品国产片| 手机在线免费观看av不卡网站| 人妻体内射精一区二区三四| 亚洲男人的天堂网站| 国产成人自拍视频在线观看网站| 亚洲国产高清精品在线| 樱花草在线播放免费中文| 欧美性爱一区二区三区无a| 一级一片内射视频网址| 亚洲综合av一区二区三区| 一出一进一爽一粗一大视频免费的| 日韩人妖一区二区三区| 国产人妻高清国产拍精品| 乱子伦视频在线看| 激情亚洲综合熟女婷婷| 日本二一三区免费在线|