,,,
(南瑞集團(tuán)有限公司(國網(wǎng)電力科學(xué)研究院有限公司),南京 210003)
作為第三代I/O總線,PCI express(簡稱PCIe)總線采用了高速串行傳輸方式,不但簡化了接口部分的硬件連線,而且大幅度提高了傳輸速率。在單通道模式下,PCIe Gen2的單向傳輸速率為5 Gbps,PCIe Gen3的單向傳輸速率達(dá)到了8 Gbps;在多通道模式下,PCIe的單向傳輸速率還可以成倍增加,最高可達(dá)128 Gbps。但是在實(shí)際使用中,受讀寫順序、器件速度和I/O方式等因素影響,PCIe總線的通道帶寬難以被充分地利用。
本文在Xilinx PCIe硬核的基礎(chǔ)上設(shè)計(jì)了一個Scatter-Gather DMA(簡稱SG-DMA)控制器,使得在傳輸過程中盡量少地調(diào)用低速I/O讀寫操作;在DMA控制器的前后分別設(shè)計(jì)了環(huán)形隊(duì)列和FIFO,使得主機(jī)讀寫PCIe外設(shè)數(shù)據(jù)包呈異步方式,數(shù)據(jù)傳輸和數(shù)據(jù)處理也呈異步模式。如同多級流水線一樣,不同數(shù)據(jù)包的接收、處理、發(fā)送可以在同一個時刻進(jìn)行,這樣可以最大限度地利用PCIe通道的傳輸帶寬,實(shí)現(xiàn)基于PCIe總線的高速異步傳輸。
PCIe總線是2001年由Intel提出的,是一種基于數(shù)據(jù)包的串行總線。由于其帶寬高、延時低、應(yīng)用靈活等特點(diǎn),PCIe總線可以將整個I/O系統(tǒng)統(tǒng)一起來,簡化設(shè)計(jì),提高可擴(kuò)展性,目前已經(jīng)成為計(jì)算機(jī)行業(yè)流行的總線結(jié)構(gòu)。
PCIe總線自下而上分為三層,分別是物理層、數(shù)據(jù)鏈路層和事務(wù)層。
物理層采用了串行差分信號,點(diǎn)對點(diǎn)傳輸,收發(fā)獨(dú)立,相對于并行共享總線,PCIe總線非常便利和高效,這也是CMOS工藝不斷發(fā)展的結(jié)果。為了嵌入時鐘和保持直流平衡,PCIe Gen1和PCIe Gen2還采用了8b/10b編碼,單通道實(shí)際數(shù)據(jù)速率分別為2 Gbps和4 Gbps,PCIe Gen3沒有使用8b/10b編碼,單通道實(shí)際數(shù)據(jù)速率為8 Gbps。
數(shù)據(jù)鏈路層主要負(fù)責(zé)鏈路管理、電源管理和數(shù)據(jù)完整性檢測。事務(wù)層將往來于PCIe主從設(shè)備之間的數(shù)據(jù)封裝成一個或多個TLP包,TLP包的類型主要有存儲器讀寫、I/O讀寫和配置讀寫。一個完整的TLP包由前綴(Prefix)、頭(Header)、數(shù)據(jù)載荷(Data payload)和摘要(Digest)組成,如圖1所示。
圖1 TLP包格式
DMA寫傳輸要使用存儲器寫請求TLP包,DMA讀傳輸要使用存儲器讀請求TLP包和存儲器讀完成TLP包。
本設(shè)計(jì)的硬件部分主要采用了一片Xilinx FPGA器件,型號是XC7A100T,該器件具有101 440個邏輯門,4 860 KB Block RAM,8個GTP收發(fā)器,可以支持四通道的PCIe Gen2。通過邏輯設(shè)計(jì),在FPGA內(nèi)部構(gòu)建了一個PCIe硬核、TLP包接收引擎、TLP包發(fā)送引擎、DMA接收控制器、DMA發(fā)送控制器、接收FIFO和發(fā)送FIFO。這些模塊構(gòu)成了數(shù)據(jù)包發(fā)送和接收兩條通道,通過PCIe總線與驅(qū)動程序中的兩個環(huán)形隊(duì)列連接,系統(tǒng)結(jié)構(gòu)如圖2所示。
圖2 系統(tǒng)結(jié)構(gòu)圖
DMA描述符表是一個由若干個描述符組成的鏈表,每一個描述符都指向環(huán)形隊(duì)列中的一個緩沖區(qū)。DMA描述符表和每個緩沖區(qū)都需要在一個連續(xù)的地址空間中,而緩沖區(qū)之間不必地址連續(xù),可以分散分布。驅(qū)動程序在硬件初始化階段將DMA描述符表的地址和長度寫入FPGA的寄存器中。SG-DMA控制器在讀取緩沖區(qū)之前首先讀入描述符表,根據(jù)描述符中的物理地址、總線地址和長度信息向主機(jī)發(fā)出讀請求TLP包,主機(jī)回復(fù)帶數(shù)據(jù)的TLP包。SG-DMA控制器解析帶數(shù)據(jù)的TLP包就得到了緩沖區(qū)中的數(shù)據(jù)。
PCIe IP核連接Serdes收發(fā)器,負(fù)責(zé)TLP包編解碼、從數(shù)據(jù)流中恢復(fù)時鐘。Xilinx的PCIe IP核提供的用戶接口是AXI總線接口形式,因此TLP接收引擎從AXI總線上獲取TLP包,然后分發(fā)到不同的DMA控制器或者是MEM寄存器。RX-FIFO和TX-FIFO的作用是允許DMA傳輸和后面的業(yè)務(wù)處理能夠異步并行,也允許DMA接收和發(fā)送異步并行。
DMA操作的過程需要主機(jī)驅(qū)動程序和FPGA內(nèi)部的DMA控制器協(xié)同工作,二者通過DMA描述符表來聯(lián)系。主機(jī)將待發(fā)數(shù)據(jù)包寫入環(huán)形隊(duì)列的緩沖區(qū)后,通過修改FPGA中的更新寄存器來觸發(fā)DMA控制器進(jìn)行下一階段的操作。當(dāng)DMA控制器將處理好的數(shù)據(jù)包發(fā)送到主機(jī)的緩沖區(qū)后,以中斷方式通知主機(jī)驅(qū)動程序。詳細(xì)過程如圖3所示。
圖3 DMA操作流程
主機(jī)讀寫FPGA內(nèi)部寄存器和響應(yīng)中斷,相對于DMA讀寫一個數(shù)據(jù)包的時間要長得多,如果頻繁地讀寫FPGA內(nèi)部寄存器,會產(chǎn)生大量的中斷,極大地限制主機(jī)與PCIe卡之間的傳輸速度。為了提高效率,主機(jī)每寫8個待傳輸?shù)臄?shù)據(jù)包到環(huán)形隊(duì)列后,再寫一次FPGA內(nèi)部寄存器;SD-DMA發(fā)送控制器將128個數(shù)據(jù)包發(fā)送到環(huán)形隊(duì)列后向主機(jī)申請一次中斷,避免主機(jī)將過多的CPU時間片耗費(fèi)在中斷上下文切換過程中。圖3所示步驟可以分為6個階段:①主機(jī)寫入環(huán)形隊(duì);②DMA讀入RX-FIFO;③從RX-FIFO中讀出處理;④處理后寫入TX-FIFO;⑤DMA寫入環(huán)形隊(duì)列;⑥中斷服務(wù)程序?qū)h(huán)形隊(duì)列中的數(shù)據(jù)交給用戶程序。
在傳輸和處理過程中,一個特定的數(shù)據(jù)包順序經(jīng)過這6個階段。在本設(shè)計(jì)中,當(dāng)主機(jī)傳輸請求的速度大于一個包的傳輸處理速度時,將有多個步驟同時執(zhí)行,每個步驟處理不同的數(shù)據(jù)包。整個系統(tǒng)的速度取決于處理速度最慢的那一個處理步驟。
本設(shè)計(jì)的實(shí)驗(yàn)驗(yàn)證是在一個基于FPGA的PCIe加密卡上進(jìn)行的。該加密卡以一片Xilinx XC7A100T芯片作為核心處理器,并通過芯片內(nèi)置的IP Core實(shí)現(xiàn)四通道的PCIe Gen2接口。加密卡上配置了兩片對稱密碼算法芯片,最大可以實(shí)現(xiàn)2 Gbps速度的加解密速度。主機(jī)處理器是Cavium CN7230,具有64位MIPS指令集處理器、4個內(nèi)核,主頻為1.2 GHz,支持四通道PCIe Gen2接口,運(yùn)行的操作系統(tǒng)為Linux-3.12。
首先在固定包長1024字節(jié)的條件下,測試在不同讀寫模式下對傳輸性能的影響。測試數(shù)據(jù)如表1所列。
表1 不同模式下的讀寫速度
實(shí)驗(yàn)結(jié)果表明,異步并發(fā)模式可以顯著提升系統(tǒng)的傳輸性能,減少中斷次數(shù)有利于降低主機(jī)CPU的負(fù)荷,將更多的時間片投入到數(shù)據(jù)包的搬運(yùn)操作中。另外,加密芯片的處理速度也制約著系統(tǒng)性能。
實(shí)驗(yàn)還在數(shù)據(jù)包不經(jīng)過加密芯片、全速異步并發(fā)的情況下,測試了包長對系統(tǒng)傳輸速度的影響,結(jié)果如圖4所示。
圖4 速度與包長關(guān)系
結(jié)果表明,數(shù)據(jù)包長度對傳輸速度也有著明顯的影響,包長越大傳輸速度越高,在1024字節(jié)時包長對性能的影響深度最大。在實(shí)際應(yīng)用時,可以考慮對小于256字節(jié)的小包進(jìn)行拼接,以提高系統(tǒng)性能。
實(shí)驗(yàn)還發(fā)現(xiàn),在速度較快的情況下,主機(jī)CPU讀取接收環(huán)形隊(duì)列中數(shù)據(jù)包的速度總是慢于主機(jī)向發(fā)送環(huán)形隊(duì)列中寫入數(shù)據(jù)包的速度,主機(jī)寫操作往往要等待讀操作騰空一些接收緩沖區(qū)。在多核CPU中通過使用中斷廣播功能或者多個內(nèi)核線程可以大幅度提高主機(jī)讀取并騰空環(huán)形隊(duì)列的速度,從而提高系統(tǒng)的整體性能。