,,,
(南瑞集團有限公司(國網(wǎng)電力科學研究院有限公司),南京 210003)
作為第三代I/O總線,PCI express(簡稱PCIe)總線采用了高速串行傳輸方式,不但簡化了接口部分的硬件連線,而且大幅度提高了傳輸速率。在單通道模式下,PCIe Gen2的單向傳輸速率為5 Gbps,PCIe Gen3的單向傳輸速率達到了8 Gbps;在多通道模式下,PCIe的單向傳輸速率還可以成倍增加,最高可達128 Gbps。但是在實際使用中,受讀寫順序、器件速度和I/O方式等因素影響,PCIe總線的通道帶寬難以被充分地利用。
本文在Xilinx PCIe硬核的基礎上設計了一個Scatter-Gather DMA(簡稱SG-DMA)控制器,使得在傳輸過程中盡量少地調(diào)用低速I/O讀寫操作;在DMA控制器的前后分別設計了環(huán)形隊列和FIFO,使得主機讀寫PCIe外設數(shù)據(jù)包呈異步方式,數(shù)據(jù)傳輸和數(shù)據(jù)處理也呈異步模式。如同多級流水線一樣,不同數(shù)據(jù)包的接收、處理、發(fā)送可以在同一個時刻進行,這樣可以最大限度地利用PCIe通道的傳輸帶寬,實現(xiàn)基于PCIe總線的高速異步傳輸。
PCIe總線是2001年由Intel提出的,是一種基于數(shù)據(jù)包的串行總線。由于其帶寬高、延時低、應用靈活等特點,PCIe總線可以將整個I/O系統(tǒng)統(tǒng)一起來,簡化設計,提高可擴展性,目前已經(jīng)成為計算機行業(yè)流行的總線結(jié)構(gòu)。
PCIe總線自下而上分為三層,分別是物理層、數(shù)據(jù)鏈路層和事務層。
物理層采用了串行差分信號,點對點傳輸,收發(fā)獨立,相對于并行共享總線,PCIe總線非常便利和高效,這也是CMOS工藝不斷發(fā)展的結(jié)果。為了嵌入時鐘和保持直流平衡,PCIe Gen1和PCIe Gen2還采用了8b/10b編碼,單通道實際數(shù)據(jù)速率分別為2 Gbps和4 Gbps,PCIe Gen3沒有使用8b/10b編碼,單通道實際數(shù)據(jù)速率為8 Gbps。
數(shù)據(jù)鏈路層主要負責鏈路管理、電源管理和數(shù)據(jù)完整性檢測。事務層將往來于PCIe主從設備之間的數(shù)據(jù)封裝成一個或多個TLP包,TLP包的類型主要有存儲器讀寫、I/O讀寫和配置讀寫。一個完整的TLP包由前綴(Prefix)、頭(Header)、數(shù)據(jù)載荷(Data payload)和摘要(Digest)組成,如圖1所示。
圖1 TLP包格式
DMA寫傳輸要使用存儲器寫請求TLP包,DMA讀傳輸要使用存儲器讀請求TLP包和存儲器讀完成TLP包。
本設計的硬件部分主要采用了一片Xilinx FPGA器件,型號是XC7A100T,該器件具有101 440個邏輯門,4 860 KB Block RAM,8個GTP收發(fā)器,可以支持四通道的PCIe Gen2。通過邏輯設計,在FPGA內(nèi)部構(gòu)建了一個PCIe硬核、TLP包接收引擎、TLP包發(fā)送引擎、DMA接收控制器、DMA發(fā)送控制器、接收FIFO和發(fā)送FIFO。這些模塊構(gòu)成了數(shù)據(jù)包發(fā)送和接收兩條通道,通過PCIe總線與驅(qū)動程序中的兩個環(huán)形隊列連接,系統(tǒng)結(jié)構(gòu)如圖2所示。
圖2 系統(tǒng)結(jié)構(gòu)圖
DMA描述符表是一個由若干個描述符組成的鏈表,每一個描述符都指向環(huán)形隊列中的一個緩沖區(qū)。DMA描述符表和每個緩沖區(qū)都需要在一個連續(xù)的地址空間中,而緩沖區(qū)之間不必地址連續(xù),可以分散分布。驅(qū)動程序在硬件初始化階段將DMA描述符表的地址和長度寫入FPGA的寄存器中。SG-DMA控制器在讀取緩沖區(qū)之前首先讀入描述符表,根據(jù)描述符中的物理地址、總線地址和長度信息向主機發(fā)出讀請求TLP包,主機回復帶數(shù)據(jù)的TLP包。SG-DMA控制器解析帶數(shù)據(jù)的TLP包就得到了緩沖區(qū)中的數(shù)據(jù)。
PCIe IP核連接Serdes收發(fā)器,負責TLP包編解碼、從數(shù)據(jù)流中恢復時鐘。Xilinx的PCIe IP核提供的用戶接口是AXI總線接口形式,因此TLP接收引擎從AXI總線上獲取TLP包,然后分發(fā)到不同的DMA控制器或者是MEM寄存器。RX-FIFO和TX-FIFO的作用是允許DMA傳輸和后面的業(yè)務處理能夠異步并行,也允許DMA接收和發(fā)送異步并行。
DMA操作的過程需要主機驅(qū)動程序和FPGA內(nèi)部的DMA控制器協(xié)同工作,二者通過DMA描述符表來聯(lián)系。主機將待發(fā)數(shù)據(jù)包寫入環(huán)形隊列的緩沖區(qū)后,通過修改FPGA中的更新寄存器來觸發(fā)DMA控制器進行下一階段的操作。當DMA控制器將處理好的數(shù)據(jù)包發(fā)送到主機的緩沖區(qū)后,以中斷方式通知主機驅(qū)動程序。詳細過程如圖3所示。
圖3 DMA操作流程
主機讀寫FPGA內(nèi)部寄存器和響應中斷,相對于DMA讀寫一個數(shù)據(jù)包的時間要長得多,如果頻繁地讀寫FPGA內(nèi)部寄存器,會產(chǎn)生大量的中斷,極大地限制主機與PCIe卡之間的傳輸速度。為了提高效率,主機每寫8個待傳輸?shù)臄?shù)據(jù)包到環(huán)形隊列后,再寫一次FPGA內(nèi)部寄存器;SD-DMA發(fā)送控制器將128個數(shù)據(jù)包發(fā)送到環(huán)形隊列后向主機申請一次中斷,避免主機將過多的CPU時間片耗費在中斷上下文切換過程中。圖3所示步驟可以分為6個階段:①主機寫入環(huán)形隊;②DMA讀入RX-FIFO;③從RX-FIFO中讀出處理;④處理后寫入TX-FIFO;⑤DMA寫入環(huán)形隊列;⑥中斷服務程序?qū)h(huán)形隊列中的數(shù)據(jù)交給用戶程序。
在傳輸和處理過程中,一個特定的數(shù)據(jù)包順序經(jīng)過這6個階段。在本設計中,當主機傳輸請求的速度大于一個包的傳輸處理速度時,將有多個步驟同時執(zhí)行,每個步驟處理不同的數(shù)據(jù)包。整個系統(tǒng)的速度取決于處理速度最慢的那一個處理步驟。
本設計的實驗驗證是在一個基于FPGA的PCIe加密卡上進行的。該加密卡以一片Xilinx XC7A100T芯片作為核心處理器,并通過芯片內(nèi)置的IP Core實現(xiàn)四通道的PCIe Gen2接口。加密卡上配置了兩片對稱密碼算法芯片,最大可以實現(xiàn)2 Gbps速度的加解密速度。主機處理器是Cavium CN7230,具有64位MIPS指令集處理器、4個內(nèi)核,主頻為1.2 GHz,支持四通道PCIe Gen2接口,運行的操作系統(tǒng)為Linux-3.12。
首先在固定包長1024字節(jié)的條件下,測試在不同讀寫模式下對傳輸性能的影響。測試數(shù)據(jù)如表1所列。
表1 不同模式下的讀寫速度
實驗結(jié)果表明,異步并發(fā)模式可以顯著提升系統(tǒng)的傳輸性能,減少中斷次數(shù)有利于降低主機CPU的負荷,將更多的時間片投入到數(shù)據(jù)包的搬運操作中。另外,加密芯片的處理速度也制約著系統(tǒng)性能。
實驗還在數(shù)據(jù)包不經(jīng)過加密芯片、全速異步并發(fā)的情況下,測試了包長對系統(tǒng)傳輸速度的影響,結(jié)果如圖4所示。
圖4 速度與包長關系
結(jié)果表明,數(shù)據(jù)包長度對傳輸速度也有著明顯的影響,包長越大傳輸速度越高,在1024字節(jié)時包長對性能的影響深度最大。在實際應用時,可以考慮對小于256字節(jié)的小包進行拼接,以提高系統(tǒng)性能。
實驗還發(fā)現(xiàn),在速度較快的情況下,主機CPU讀取接收環(huán)形隊列中數(shù)據(jù)包的速度總是慢于主機向發(fā)送環(huán)形隊列中寫入數(shù)據(jù)包的速度,主機寫操作往往要等待讀操作騰空一些接收緩沖區(qū)。在多核CPU中通過使用中斷廣播功能或者多個內(nèi)核線程可以大幅度提高主機讀取并騰空環(huán)形隊列的速度,從而提高系統(tǒng)的整體性能。