亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高速互連串行協(xié)議RapiIO的性能優(yōu)化

2017-07-12 16:05:57楊帆，朱峰

電子設(shè)計工程 2017年12期

關(guān)鍵詞：寄存器中斷數(shù)據(jù)包

楊帆，朱峰

（江蘇科技大學(xué) 電子與信息學(xué)院，江蘇鎮(zhèn)江 212000）

高速互連串行協(xié)議RapiIO的性能優(yōu)化

楊帆，朱峰

（江蘇科技大學(xué) 電子與信息學(xué)院，江蘇鎮(zhèn)江 212000）

串行RapidIO是為了滿足嵌入式行業(yè)對更高總線速度、帶寬和可靠性的需求而發(fā)展起來的一種高性能分組交換技術(shù)。該技術(shù)不僅可以實現(xiàn)芯片間高速通信還可以實現(xiàn)板級間通信。在本文中所提出的研究成果是在對集成在數(shù)字信號處理器--多核的TMS320C6474中的串行互連協(xié)議RapidIO性能優(yōu)化的基礎(chǔ)上提來的。研究結(jié)果表明，經(jīng)過性能優(yōu)化，Nwrite（寫）和Swrite（流式寫）這兩種操作的傳輸速度都有所提升。研究結(jié)果還顯示出，使用中斷的方式發(fā)送一個數(shù)據(jù)包，不僅是最簡單的方式，它還可以增加系統(tǒng)發(fā)送端的的穩(wěn)定性。

串行RapidIO；片上系統(tǒng)；DSP；芯片間

現(xiàn)今的處理器性能很強(qiáng)大，可以提供很高計算速度，但是對其處理能力的某些應(yīng)用要求也在不斷增加。這就產(chǎn)生了擁有處理器的機(jī)器同時工作的概念。但是這種多個機(jī)器同時工作的機(jī)制需要解決兩個基本的相互關(guān)聯(lián)的問題：處理器間通信和處理器與其它信息處理部分之間的通信。為了解決處理器之間的互連問題，并滿足嵌入式系統(tǒng)對帶寬不斷增長的需求，提出了串行RapidIO（SRIO）互連協(xié)議[1]。這種結(jié)構(gòu)起初是為嵌入式計算系統(tǒng)設(shè)計的，如今應(yīng)用到邊緣網(wǎng)絡(luò)，存儲，軍事和工業(yè)設(shè)備等各個領(lǐng)域。

文中提出的對集成在DSP—TMS320C6474上的串行互連RapidIO的性能優(yōu)化結(jié)果，是以C6474作為實驗平臺的。這個板子上有兩個DSP處理器[2]，通過一條串行RapidIO總線上的兩個通道相連。

1 RapidIO互連協(xié)議的介紹

1.1 RapidIO結(jié)構(gòu)分層

RapidIO標(biāo)準(zhǔn)總共定義了3個層次架構(gòu)[3]。最低層是物理層，它規(guī)定了電信號和鏈路層的握手機(jī)制。在物理層的上面是傳輸層，這一層規(guī)定了數(shù)據(jù)包是如何路由的。最上面一層是邏輯層，它定義了分組的類型及其功能。

1.2 C6474的RapidIO功能描述

DSP TMS320C6474內(nèi)部集成了SRIO外設(shè)，而且使用了串行差分模擬信號技術(shù)[4]。該DSP設(shè)備上的點到點互連技術(shù)支持波特率1.25Gbps、2.5Gbps、3.125Gbps、5Gbps、6.25Gbps，能夠滿足不同應(yīng)用對波特率不同的需求。

1）功能操作

數(shù)據(jù)存取指令單元（LSU）不僅控制著直接I/O數(shù)據(jù)包的發(fā)送，還控制著維護(hù)包的發(fā)送[5]。而內(nèi)存訪問單元（MAU）則控制著直接I/O數(shù)據(jù)包的接收。TXU和RXU分別負(fù)責(zé)消息數(shù)據(jù)包的發(fā)送和接收[6]。

LSU，MAU，TXU和RXU這4個單元通過DMA與內(nèi)存進(jìn)行數(shù)據(jù)交互，通過緩存和收發(fā)端口與外部設(shè)備進(jìn)行交流。SerDes則可以進(jìn)行發(fā)送所需的并到串的編碼操作和接收所需的串到并的解碼操作[7]。還能夠使得外設(shè)具有非常好的適應(yīng)能力，使外設(shè)能夠勝任 5 種不同的頻率模式（1.25Gbps，2.5Gbps，3.125Gbps，5Gbps，6.25Gbps）。

2）直接I/O模式中的SRIO

直接I/O模塊是所有發(fā)送出去的直接I/O數(shù)據(jù)包的來源。通過直接I/O模塊，RapidIO數(shù)據(jù)包就可以在目標(biāo)設(shè)備上存儲地址。但是這種模式要求RapidIO數(shù)據(jù)包的源設(shè)備中必須保存有目標(biāo)設(shè)備的內(nèi)存分配表。一旦這種表創(chuàng)立起來，RapidIO源控制器就可以知道目標(biāo)設(shè)備的地址，并將地址放到數(shù)據(jù)包的包頭中去。

當(dāng)CPU想發(fā)送一個數(shù)據(jù)給外部處理元件（PE）或者從外部處理元件中讀取一個數(shù)據(jù)時，它必須使用一種方式將RapidIO數(shù)據(jù)包的包頭給填滿。加載/存儲模塊提供了一種通過將一組寄存器作為傳輸描述符的機(jī)制來解決這個問題，如圖1所示。CPU可以通過配置總線來訪問這些寄存器[8]。一旦對LSUn_REG5寄存器的寫操作完成時，數(shù)據(jù)傳輸就開始了。

圖1 RapidIO加載/存儲單元的寄存器

這種模型中存在4個LSU寄存器組[9]，能夠允許所有的操作提出4個響應(yīng)請求。一個共享的配置總線就可以訪問這4個寄存器組，而一個單核設(shè)備也可以利用4個LSU塊。一般使用軟件來管理LSU塊。

2 實驗平臺

用來評估互連協(xié)議SRIO的實驗平臺是EVMC6474實驗板。該板有2個主頻在1 GHz的DSP，這兩個DSP通過2路1X SRIO總線相連。TMS320C6474在單芯片上集成了3個核[10]，且每個核運行速率都在1 GHz，所以可以提供3 GHz的數(shù)字信號處理性能。

3 實驗結(jié)果

為了評估在EVMC6474板子上實現(xiàn)SRIO互連的性能，完成了一系列測試。

3.1 SRIO函數(shù)庫

在開始性能評估之前，可以先開發(fā)一個庫來控制TMS320C6470信號處理器的SRIO設(shè)備，而不必直接去處理那些配置寄存器。

這個SRIO庫是建立于CSL接口之上的。CSL接口是德州儀器公司提供用來配置和控制那些集成在TMS320C6474 DSP上的外設(shè)的[11]。

庫中開發(fā)的C函數(shù)有：

1）SRIO_Init（） :初始化 SRIO 模塊

2）SRIO_Write:填充LSU單元來發(fā)送一個寫操作

3）SRIO_Write_R:填充LSU單元來發(fā)送操作結(jié)束前須有響應(yīng)的寫操作

4）SRIO_Read:填充LSU單元來發(fā)送一個讀操作

5）SRIO_Doorbell:填充LSU單元來發(fā)送一個Doorbell操作

為了實現(xiàn)實驗平臺上兩個DSP之間的通信，其中一個DSP必須先初始化傳輸介質(zhì)，然后發(fā)起一個操作，之后再發(fā)送一個Doorbell操作來說明已經(jīng)傳輸完成的目標(biāo)DSP[12]。

3.2 Non-posted操作的性能

RapidIO定義的6種基本操作中的Nread和Nwrite_R都屬于Non-posted類型操作[12]，因為它們都是有響應(yīng)的。這些響應(yīng)可能包含讀操作或者非寫操作時的數(shù)據(jù)。

對Non-posted操作的性能評估實驗結(jié)果是在RapidIO速率為6.25Gbps時，通過改變操作數(shù)據(jù)的大小得出的。利用MATLAB可以繪出了1路1X和2路1X時Non-posted操作的性能，如圖2所示。

圖2 帶寬為6.125Gbps時Nread和Nwrite_r操作性能

從圖中可以看出，Nread操作和Nwrite_R操作都沒有達(dá)到理想的數(shù)據(jù)率。最大數(shù)據(jù)率時1個1X端口只達(dá)到了2.12 Gbps的速率，而2個1X端口也就達(dá)到了4.38 Gbps的速率。由此看來Nread和Nwrite_R這兩種操作僅僅利用串行RapidIO可提供帶寬的48%而已，優(yōu)化空間很大。

3.3 Posted操作的性能

在RapidIO的6種基本操作中，Nwrite和Swrite操作不需要返回完成響應(yīng)包或者是確認(rèn)包，所以這兩種操作是屬于Posted操作的[13]。

圖3顯示了分別使用1個1X端口和2個1X端口時Posted操作的性能試驗結(jié)果。

圖3 帶寬為6.125Gbps時Nwrite和Swrite操作性能

如圖所示，Nwrite和Swrite操作都達(dá)到了很高的數(shù)據(jù)率。那么這些操作能達(dá)到的理論數(shù)據(jù)率是多少呢？可以通過下面這個公式計算出來：

1） 6.125Gbps：TMS320C6474 所能達(dá)到的最大數(shù)據(jù)率

2）0.8：8b/10b編碼器的效率

3）128：發(fā)送操作所需要的頭的大?。ò碽it計算）

在使用1個1X端口的情況下，當(dāng)數(shù)據(jù)大小超過512字節(jié)時，理論上的傳輸速率是4.32 Gbps。而實驗時測得，當(dāng)數(shù)據(jù)大小超過512字節(jié)時，傳輸速率是4.15 Gbps，非常接近理論值。

3.4 發(fā)送大于4KB的數(shù)據(jù)

LSU單元能夠發(fā)送的最大數(shù)據(jù)是4 096字節(jié)，但是很多實際應(yīng)用中的嵌入式系統(tǒng)要求的傳輸數(shù)據(jù)大小都超過了4 096字節(jié)。如何解決這個問題呢，文中提出了3種方法。

1）中斷方法

為了發(fā)送大于4 KB的數(shù)據(jù)流，必須在RapidIO傳輸結(jié)束時立即填充LSU單元。當(dāng)需要需要發(fā)送的數(shù)據(jù)大于4 KB時，可以分N次來完成，但是LSU也必須填充N次。例如我們需要發(fā)送的數(shù)據(jù)大小是32 KB時，可以將32 KB的數(shù)據(jù)分成8次發(fā)送，每次發(fā)送4 KB。

LSU有6個寄存器需填充，在第五個寄存器填充完成時，傳輸開始。以上這些工作可以用中斷控制器（INTRC）來完成。每次RapidIO傳輸結(jié)束時，CPU都會產(chǎn)生一個中斷。在中斷程序中，CPU會填充LSU并且發(fā)起一個新的傳輸操作。在傳輸結(jié)束時再次產(chǎn)生中斷，進(jìn)入中斷操作，如此反復(fù)N次，直到將所有數(shù)據(jù)傳輸完成。

2）在手動模式中使用EDMA

第二種發(fā)送大于4 KB數(shù)據(jù)流的方法需要使用EDMA設(shè)備來填充LSU。EDMA是一種存儲器控制器，它能夠?qū)?shù)據(jù)從一個存儲器位置直接拷貝到另外一個存儲器中，不需要CPU的干預(yù)，效率高。在當(dāng)前實驗中，另一個存儲器位置當(dāng)然是LSU單元了。使用EDMA方法時，每一次的傳輸操作都必須根據(jù)LSU的配置來完成，總共需要做N次傳輸操作（數(shù)據(jù)大小：4 KB*N）。配置LSU需要配置6個32位的寄存器，也就是說每次傳輸操作，RapidIO都必須從存儲器中拷貝192 bit的配置信息到LSU中。

第一次傳輸操作是CPU發(fā)起的，在傳輸操作結(jié)束時，CPU啟動手動模式中的EDMA來填充LSU，從而發(fā)起另外的RapidIO傳輸。

3）在RapidIO事件的同步模式中使用EDMA

最后一種方法是在同步模式中使用EDMA設(shè)備操作。在這種模式中，當(dāng)RapidIO傳輸結(jié)束時，自動啟動EDMA設(shè)備操作，這就大大減少了CPU的干預(yù)。正如前面所解釋的每一次的傳輸操作都需要192bit的配置信息。所以執(zhí)行N次傳輸，必須將N次的配置文件放到存儲器中。

在EDMA的事件同步表中沒有RapidIO事件，但是它卻有CIC（中斷路由）[14]，可以將RapidIO中斷，路由到EDMA。

4）3種方法的性能比較

之前提出的3種方法都可以發(fā)送大于4KB的數(shù)據(jù)流而不對數(shù)據(jù)率有所影響。圖7顯示了，使用不同方法時Swrite操作的性能評估實驗結(jié)果。

圖4 3種方法中的Swrite操作性能

下面的條形圖顯示了，在不同方法中CPU干預(yù)所占的百分比。

圖5 3種方法中的CPU干預(yù)度

根據(jù)這張圖我們可以知道，在同步模式中CPU干預(yù)最小。所以同步模式就是發(fā)送大于4KB數(shù)據(jù)流的最有效的方式。但是這種方式有一個缺點，就是它比較難以實現(xiàn)，而且它還需要使用EDMA。相比之下，中斷模式是最簡單的方法，比較容易實現(xiàn)，也不需要任何的外圍設(shè)備。介于同步方法難以實現(xiàn)，那么中斷方法稍低的性能也是可以接受的，畢竟它簡單又易實現(xiàn)。

4 結(jié)束語

文中提出了RapidIO互連，更確切的說集成在TMS320C6474上外圍設(shè)備SRIO的互連。評估了Rapidio互連協(xié)議中3個主要邏輯層規(guī)范的性能[15]。測試了Nwrite，Nread，Nwrite_R和 Swrite等操作。實驗結(jié)果表明：Nwrite和Swrite操作的性能要比其他操作的性能更好。正因為如此，推薦使用這兩種操作來解決處理器間互連的問題，也能夠滿足嵌入式系統(tǒng)對更高帶寬、更高效信號處理和數(shù)據(jù)傳輸速率不斷增長的需求。在最后提出3種傳輸大數(shù)據(jù)流的方法，中斷方法，手動模式中的EDMA方法和同步模式中的EDMA方法。并通過對3種方法的性能對比，得出了結(jié)論：中斷方法不僅是3種方法中最簡單的方法，它還能增加系統(tǒng)傳輸?shù)姆€(wěn)定性。

[1]施春輝，柴小麗，宋慰軍，等.基于SoPC的前端RapidIO接口設(shè)計 [J].計算機(jī)工程，2011，37（21）:235-244.

[2]田澤，郭海英.RapidIO傳輸性能測試分析[J].電腦知識與技術(shù)，2010（28）:8122-8124.

[3]Sam Fuller.RapidIO The embedded System Interconnect[M].Trade Association，USA John Wiley&Sons，Ltd.

[4]李少龍，高俊，婁景藝.基于SRIO總線的數(shù)字信號處理系統(tǒng)的實現(xiàn)[J].通信技術(shù)，2012，45（5）:100-104.

[5]Zhang Yong，Wang Yong.Research on Physical LayerTraffic ManagementSchemesin Serial RapidIOInterconnect [J]. Joumal of China Universities of Posts and Telecommunication.2011（1）:65-70.

[6]梁廣勝，劉倩茹，姚海洋.RapidIO應(yīng)用系統(tǒng)及其驗證模型的設(shè)計與測試 [J].電子設(shè)計工程，2011（23）:60-64.

[7]Bin Ji.Design and Implementation of High-speed Serial RapidIO Based on PowePC[J].In TelelcommunicationEnginering， 2011，51（3）：74-78.

[8]劉琳.基于RapidIO的高速數(shù)據(jù)傳輸系統(tǒng)設(shè)計[D].哈爾濱：哈爾濱工程大學(xué)，2013.

[9]PrzemyslawWlodarczyk， SzymonPustelny， Dmitry Budker.Multi-channeldata acquisition with absolute time synchronizaton[J].Nuclear Inst and Methods in PhysicsResearch，A， 2014：763.

[10]陳宏銘，李蕾，姚益武，等.基于AXI總線串行RapidIO端點控制器的FPGA實現(xiàn)[J].北京大學(xué)學(xué)報，2014，50（4）：697-703.

[11]尹亞明，李瓊，郭御風(fēng)，等.新型高性能RapidIO互連技術(shù)研究[J].計算機(jī)工程與科學(xué)，2014:26（10）:26-32.

[12]陳程.串行RapidIO總線在存儲系統(tǒng)中的應(yīng)用研究[D].西安：西安電子科技大學(xué)，2013.

[13]PILLI-SIHVOLA E， RANTASILA K，HINKKA V，et al.The European approach to addressing RFID privacy [J].International Journal of Radio Frequency Identification Technology and Applications，2014，4（3）:258-272.

[14]吳峰峰.一種低時延的串行RapidIO端點設(shè)計方案[J]. 北京大學(xué)學(xué)報：自然科學(xué)版，2013，49（4）：570-578.

[15]陳強(qiáng).串行RapidIO互連系統(tǒng)的設(shè)計與實現(xiàn)[D].南京：南京理工大學(xué)，2013.

Performance optimization of high-speed interconnect serial protocol RapidIO

YANG Fan，ZHU Feng
（School of Electronics and Information ，Jiangsu University of Science and Technology，Zhenjiang 212000，China）

Serial RapidIO is high performance packet switching technology，it can meet the embedded industry demand for higher bus speed，bandwidth and reliability.The technology can not only achieve communication between chips within high-speed，but also can implement inter-plate communication.In this paper，the proposed research results are on the base that performance optimization of interconnect serial RapidIO which is integrated in the digital signal processor multi-core TMS320C6474.The results show that ，through performance optimization，the transfer speed of Nwrite transaction and Swrite transaction has improved.And from the results， we also know that if we want to send a data packet， the interrupt method is the simplest and it can improve the stability of transfer system.But compared to the method of EDMA（Enhanced Direct Memory Access），it's performance is not so good.

serial RapidIO；Soc；DSP；between chips

TP399

1674－6236（2017）12-0134-04

2016-05-25稿件編號：201605241

楊帆（1989—），男，江蘇淮安人，碩士研究生。研究方向：雷達(dá)信息理論與技術(shù)應(yīng)用。