尹亞明,劉秋麗,陳書明
(1.國防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院,湖南長沙410073;2.河南信息工程學(xué)校計(jì)算機(jī)科學(xué)系,河南鄭州450003)
當(dāng)前,單處理器系統(tǒng)芯片SoC(System-on-Chip)已遠(yuǎn)不能滿足日益復(fù)雜的嵌入式應(yīng)用需求,而硅工藝技術(shù)的快速發(fā)展也為日趨復(fù)雜的IC設(shè)計(jì)提供了充分的土壤。多處理器系統(tǒng)芯片MPSoC(Multi-processor System-on-Chip)[1]的提出與研究獲得了廣泛關(guān)注,憑借其高性能、并行處理和靈活編程性等優(yōu)點(diǎn),MPSoC已經(jīng)成為超大規(guī)模集成電路VLSI研究領(lǐng)域的前沿和熱點(diǎn)。
PCI Express作為第三代高性能I/O互連技術(shù)[2],繼承了第二代總線體系結(jié)構(gòu)最有用的特點(diǎn),并且采用了計(jì)算機(jī)體系結(jié)構(gòu)中新的研究成果,能夠?qū)崿F(xiàn)兩臺(tái)設(shè)備之間通信的串行、點(diǎn)對(duì)點(diǎn)的互連,同時(shí)采用基于報(bào)文交換技術(shù)來互連大量的設(shè)備。當(dāng)前,PCI Express的發(fā)送和接收數(shù)據(jù)的速率是2.5 Gb/s,具有很高的串行傳輸速率,適用于大量成塊的數(shù)據(jù)傳輸任務(wù),廣泛應(yīng)用于芯片設(shè)計(jì)當(dāng)中。但是,PCI Express更多地是在通用計(jì)算機(jī)領(lǐng)域的應(yīng)用與實(shí)現(xiàn),鮮有嵌入式系統(tǒng)設(shè)計(jì)采用PCI Express技術(shù)。
本文綜合考慮嵌入式MPSoC系統(tǒng)設(shè)計(jì)中的數(shù)據(jù)傳輸需求與PCI Express技術(shù)特點(diǎn),采用基于IP的快速設(shè)計(jì)方法,將PCI Express互連技術(shù)應(yīng)用于一款自行研制的嵌入式片上多處理器YHFT-QDSP(Quadruplex DSP)[3]系統(tǒng)中,縮短了設(shè)計(jì)周期并簡化了設(shè)計(jì)過程,同時(shí)獲得了良好的設(shè)計(jì)結(jié)果。
傳統(tǒng)的PCI總線協(xié)議存在可擴(kuò)展性差、安全性與容錯(cuò)性差和系統(tǒng)I/O整體吞吐率低等缺陷,導(dǎo)致I/O互連技術(shù)及體系結(jié)構(gòu)發(fā)生了重大變革,相繼涌現(xiàn)出PCI Express、RapidIO、Hyper Transport以及InfiniBand等新型I/O互連技術(shù)[4],它們采用基于報(bào)文交換的點(diǎn)到點(diǎn)的互連替代共享總線結(jié)構(gòu),提供了高帶寬、可擴(kuò)展的I/O互連,克服了傳統(tǒng)的共享I/O總線結(jié)構(gòu)的種種弊端。
2001年正式發(fā)布的PCI Express的前身是Intel公司率先開發(fā)的第三代I/O總線技術(shù)3GIO,其目標(biāo)之一是提供芯片間的局部互連總線,二是以較低開銷提高現(xiàn)有PCI結(jié)構(gòu)的性能。PCI Express采用基于報(bào)文交換的點(diǎn)對(duì)點(diǎn)串行傳輸技術(shù)為每個(gè)設(shè)備分配獨(dú)立通道,所有設(shè)備均通過各自獨(dú)立的通道發(fā)送和接收數(shù)據(jù),設(shè)備之間無需共享資源。其串行鏈路采用LVDS接口電路和時(shí)鐘數(shù)據(jù)恢復(fù)CDR(Clock Data Recovery)同步技術(shù),利用8 b/10 b編碼機(jī)制將時(shí)鐘信號(hào)嵌入數(shù)據(jù)信號(hào)中,單線單向數(shù)據(jù)傳輸率可達(dá)2.5 Gb/s。除了高帶寬以外,PCI Express還支持?jǐn)?shù)據(jù)交換、信息封包優(yōu)化、虛信道和頻率帶寬可變等技術(shù),可通過2、4、8、12、16或32線多路技術(shù)線性地?cái)U(kuò)展I/O帶寬。PCI Express基于Load Store結(jié)構(gòu)、PCI尋址模式,沿用PCI-X分割事務(wù)、生產(chǎn)消費(fèi)者排序規(guī)則等關(guān)鍵技術(shù)與思想;但是,與PCI和PCI-X總線不同的是,PCI Express可延伸到系統(tǒng)之外,可將外部設(shè)備直接與系統(tǒng)內(nèi)部的PCI Express總線連接。跨平臺(tái)兼容是PCI Express非常重要的特點(diǎn)之一,為廣大用戶提供了平滑的升級(jí)平臺(tái)。PCI Express作為第三代I/O互連技術(shù),無論是在速度、性能、功能,還是可擴(kuò)展性和兼容性等各方面,與PCI和PCI-X總線相比都有了顯著改進(jìn)和提高,可為臺(tái)式機(jī)、筆記本、服務(wù)器、通信平臺(tái)、工作站和嵌入式系統(tǒng)提供統(tǒng)一標(biāo)準(zhǔn)的高性能I/O互連。
由于PCI Express是標(biāo)準(zhǔn)的計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)I/O互連技術(shù)規(guī)范,因此在國際上關(guān)于PCI Express技術(shù)的學(xué)術(shù)性研究并不多見。更多的是使用PCI Express技術(shù)的工程實(shí)現(xiàn)型研究或針對(duì)PCI Express協(xié)議中某個(gè)子問題的研究。
文獻(xiàn)[5]中給出了基于Xilinx的Virtex-II Pro、Virtex-4和Virtex-5系列FPGA設(shè)備的PCI Express 1.0規(guī)范的設(shè)計(jì)實(shí)現(xiàn)。為了實(shí)現(xiàn)PCI Express 2.0規(guī)范,將原有設(shè)計(jì)從Virtex-5系列移植到Virtex-6系列上,解決了相關(guān)頻率需求和板級(jí)設(shè)計(jì)問題。文獻(xiàn)[6]詳細(xì)分析了PCI Express物理層技術(shù)特點(diǎn),針對(duì)串行接收端的數(shù)據(jù)時(shí)鐘恢復(fù)技術(shù)進(jìn)行研究,采用基于鎖相環(huán)結(jié)構(gòu)的數(shù)據(jù)時(shí)鐘恢復(fù)技術(shù)設(shè)計(jì)了一款速率為2.5 Gb/s的高速物理層電路。國際上也有在片上多核系統(tǒng)中集成PCI Express技術(shù)的研究,如第四代UltraSPARC T3片上多核處理器[7]中集成了兩路PCI Express 2.0規(guī)范的接口,實(shí)現(xiàn)了5.0 Gb/s的高速外部擴(kuò)展功能。文獻(xiàn)[8]中給出一款四核嵌入式原型系統(tǒng)芯片RP-1,其設(shè)計(jì)目標(biāo)是滿足高能效、高性能的嵌入式系統(tǒng)應(yīng)用。RP-1的片上系統(tǒng)總線也集成了PCI Express擴(kuò)展接口,作為系統(tǒng)外設(shè)擴(kuò)展使用。此類多核系統(tǒng)雖集成了PCI Express技術(shù),但其應(yīng)用目的是為整個(gè)系統(tǒng)擴(kuò)展外設(shè)所用,而本文的目標(biāo)是將PCI Express的高速數(shù)據(jù)傳輸能力用于多核芯片的擴(kuò)展連接,屬于對(duì)該技術(shù)的一種創(chuàng)新型嘗試。
YHFT-QDSP是一款異構(gòu)多核DSP超結(jié)點(diǎn)芯片,其主體由一個(gè)RISC內(nèi)核和四個(gè)高效精簡的DSP內(nèi)核構(gòu)成[9]。以QDSP超結(jié)點(diǎn)為中心,采用PCI Express技術(shù)實(shí)現(xiàn)的片間互連組件可以擴(kuò)展為更大規(guī)模的眾核系統(tǒng)。
QDSP超結(jié)點(diǎn)結(jié)構(gòu)如圖1所示,包括Leon3通用處理器及其AMBA總線上針對(duì)設(shè)計(jì)需求而保留的外部設(shè)備。Leon3在QDSP中負(fù)責(zé)整片SoC的啟動(dòng)、簡單的任務(wù)派發(fā)和結(jié)果回收等工作,通過AH/MB(Master Bus)橋接模塊和32位的MB總線實(shí)現(xiàn)與四個(gè)DSP內(nèi)核的連接,其中MB總線掛接在每個(gè)DSP內(nèi)核的EDMA外設(shè)總線上。DSP內(nèi)核是QDSP系統(tǒng)的主體運(yùn)算模塊,四個(gè)DSP運(yùn)算核同構(gòu),每個(gè)DSP內(nèi)核包含獨(dú)立的一級(jí)指令和數(shù)據(jù)Cache、一個(gè)二級(jí)Cache和獨(dú)立地址空間的EMIF外部存儲(chǔ)器模塊。共享數(shù)據(jù)緩沖池模塊SDP(Shared Data Pool)[10],為四個(gè)DSP內(nèi)核共享,采用請(qǐng)求隊(duì)列和信號(hào)燈共同實(shí)現(xiàn)各DSP內(nèi)核對(duì)共享數(shù)據(jù)的一致性操作,完成片內(nèi)DSP間的小數(shù)據(jù)量交換。全局通信模塊QLink[11]掛接在每個(gè)DSP內(nèi)核的EDMA外設(shè)總線上,負(fù)責(zé)實(shí)現(xiàn)全局片內(nèi)及片間數(shù)據(jù)傳輸任務(wù),其內(nèi)部實(shí)現(xiàn)自行設(shè)計(jì)的QLink協(xié)議,具有發(fā)送和接收全雙工數(shù)據(jù)通路。定制實(shí)現(xiàn)的8端口、16位數(shù)據(jù)寬度的crossbar交叉開關(guān),其中四個(gè)端口與片內(nèi)各DSP內(nèi)核的QLink相連,另外四個(gè)端口則與QDSP的四個(gè)片間互連模塊相連,實(shí)現(xiàn)全交叉靈活的數(shù)據(jù)交換。片間互連模塊采用PCI Express協(xié)議實(shí)現(xiàn)片間高速數(shù)據(jù)傳輸,四個(gè)片間互連模塊可實(shí)現(xiàn)多SoC的靈活結(jié)構(gòu)擴(kuò)展,同時(shí)通過交叉開關(guān)實(shí)現(xiàn)片間模塊與片內(nèi)模塊的全交叉互連,能夠自由靈活地實(shí)現(xiàn)多種通路的數(shù)據(jù)傳輸。
QDSP系統(tǒng)實(shí)現(xiàn)了層次化的互連結(jié)構(gòu),按照其應(yīng)用目的與設(shè)計(jì)指標(biāo)可分為三個(gè)層次:片內(nèi)快速緊耦合共享緩沖池(FCC-SDP)、片內(nèi)實(shí)時(shí)大粒度數(shù)據(jù)傳輸引擎(QLink)和片間高速互連模塊(PCI Express)。
FCC-SDP是QDSP超結(jié)點(diǎn)內(nèi)四個(gè)DSP內(nèi)核的一種共享存儲(chǔ)結(jié)構(gòu)。FCC-SDP在存儲(chǔ)層次上與一級(jí)Cache平行,如圖1所示,可以被訪存指令直接訪問;采用多體并行結(jié)構(gòu),支持雙體交叉訪問模式和基于硬件信號(hào)燈的自動(dòng)同步機(jī)制,支持多個(gè)DSP內(nèi)核的并行訪問與快速核間數(shù)據(jù)交換,兩核之間交換單個(gè)數(shù)據(jù)只需四拍;采用八體并行SRAM存儲(chǔ)器實(shí)現(xiàn),容量為8 KB,具有四個(gè)DSP內(nèi)核共享的全局地址,具有訪問延遲小、存取速度快、同步開銷低和編程使用靈活等特點(diǎn)。FCCSDP在QDSP的層次化互連結(jié)構(gòu)中處于第一級(jí),實(shí)現(xiàn)了DSP內(nèi)核之間最緊密的一級(jí)互連,傳輸粒度最小但速度很快,適用于少量數(shù)據(jù)或某些標(biāo)量的核間傳遞。
QLink片內(nèi)通信機(jī)制的設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)QDSP超結(jié)點(diǎn)芯片中DSP核間的大粒度批量數(shù)據(jù)通信,并能夠在多個(gè)DSP之間實(shí)現(xiàn)組播通信。QLink傳輸模塊向內(nèi)與DSP的DMA總線掛接,數(shù)據(jù)傳輸通路寬為32位;向外與交叉開關(guān)端口掛接,數(shù)據(jù)通路寬為16位。相對(duì)于片內(nèi)快速緩沖池來說,QLink能更有效地完成大批量數(shù)據(jù)的核間通信,對(duì)于某些運(yùn)算量比較大的應(yīng)用,使用QLink進(jìn)行DSP間數(shù)據(jù)傳輸能獲得更好的效果。QLink通信過程采用基于報(bào)文交換的QLink協(xié)議完成,QLink協(xié)議是自主設(shè)計(jì)的一種可同時(shí)用于片內(nèi)與片間數(shù)據(jù)傳輸?shù)耐ㄐ艆f(xié)議。QLink通信機(jī)制在QDSP的層次化互連結(jié)構(gòu)中處于第二級(jí),實(shí)現(xiàn)了QDSP片內(nèi)DSP核間的數(shù)據(jù)通信。相對(duì)于第一級(jí)的片內(nèi)快速緩沖池,其傳輸能力更強(qiáng),適用于大粒度批量的數(shù)據(jù)傳輸,是一種典型的基于報(bào)文交換的數(shù)據(jù)傳輸網(wǎng)絡(luò)。
Figure 1 Architecture of YHFT-QDSP圖1 YHFT-QDSP系統(tǒng)結(jié)構(gòu)
片間PCI Express高速互連模塊處于QDSP層次化互連結(jié)構(gòu)第三級(jí),其設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)QDSP超結(jié)點(diǎn)芯片間的擴(kuò)展連接,通過這種擴(kuò)展可以構(gòu)成更大規(guī)模的處理系統(tǒng),從而完成某些大型特定應(yīng)用。
圖2給出一種典型的QDSP超結(jié)點(diǎn)擴(kuò)展連接應(yīng)用結(jié)構(gòu),其拓?fù)浣Y(jié)構(gòu)為二維Mesh。片間互連模塊分為東、西、南、北四個(gè)擴(kuò)展接口,分別掛接于片內(nèi)交叉開關(guān)中的四個(gè)端口,實(shí)現(xiàn)片內(nèi)DSP核到片外的數(shù)據(jù)交換網(wǎng)絡(luò)。QDSP超結(jié)點(diǎn)之間通過PCI Express高速互連接口進(jìn)行連接。系統(tǒng)中屬于不同超結(jié)點(diǎn)的DSP核之間可以通過PCI Express高速互連網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)通信。
一個(gè)QDSP超結(jié)點(diǎn)含有四個(gè)片間互連模塊,本文以其中任意一個(gè)為例來說明PCI Express互連技術(shù)是如何應(yīng)用于QDSP嵌入式超結(jié)點(diǎn)中的。圖3所示為QDSP超結(jié)點(diǎn)中片間互連模塊的結(jié)構(gòu)圖,其中左側(cè)為QDSP超結(jié)點(diǎn)結(jié)構(gòu)簡圖,僅體現(xiàn)了四個(gè)內(nèi)DSP核與四個(gè)片間PCI Express互連模塊,這8個(gè)模塊通過一個(gè)8×16位的交叉開關(guān)實(shí)現(xiàn)交叉互連,可以實(shí)現(xiàn)任意兩個(gè)模塊之間的數(shù)據(jù)傳輸。這里結(jié)合圖2來說明片間數(shù)據(jù)傳輸?shù)墓ぷ鬟^程,一次批量數(shù)據(jù)傳輸是在兩個(gè)DSP內(nèi)核之間進(jìn)行的,即數(shù)據(jù)發(fā)出者與數(shù)據(jù)接收者是系統(tǒng)中某兩個(gè)QDSP超結(jié)點(diǎn)中的某兩個(gè)DSP內(nèi)核。含有數(shù)據(jù)發(fā)出者和接收者的QDSP分別為源結(jié)點(diǎn)和目的結(jié)點(diǎn),其他在數(shù)據(jù)傳輸路徑上經(jīng)過的QDSP均為過路結(jié)點(diǎn)。對(duì)于一次數(shù)據(jù)傳輸過程,路徑上經(jīng)過的QDSP超結(jié)點(diǎn)內(nèi)部僅完成了兩個(gè)PCI Express片間模塊之間的數(shù)據(jù)傳輸,只有源結(jié)點(diǎn)與目的結(jié)點(diǎn)內(nèi)部才實(shí)現(xiàn)了DSP內(nèi)核與PCI Express片間模塊之間的數(shù)據(jù)交換。圖3右側(cè)所示虛線框內(nèi)為PCI Express片間互連模塊各子模塊與接口,主體包括三部分:QLink-PCIE橋接模塊QPB(QLink PCIE Bridge)[12]、PCIE IP核和PCIE全定制物理層模塊(PCIE PHY)。
QLink-PCIE橋接模塊負(fù)責(zé)完成QDSP超結(jié)點(diǎn)內(nèi)部的QLink協(xié)議到片間數(shù)據(jù)傳輸?shù)腜CI Express協(xié)議之間的轉(zhuǎn)換,橋接模塊上、下接口分別與交叉開關(guān)和PCIE IP核接口相連接。圖4為QLink-PCIE橋接模塊結(jié)構(gòu)圖,其主體模塊的實(shí)現(xiàn)按照發(fā)送(QDSP超結(jié)點(diǎn)片外方向)和接收(QDSP超結(jié)點(diǎn)片內(nèi)流動(dòng)方向)兩個(gè)方向來完成,內(nèi)部包括了數(shù)據(jù)的拆分與拼裝、數(shù)據(jù)的接收緩沖與發(fā)送。另外,在QLink-PCIE橋內(nèi)部實(shí)現(xiàn)了源路由與XY路由兩種全局路由策略。因此,QLink-PCIE橋接模塊既是一個(gè)協(xié)議轉(zhuǎn)換器,同時(shí)也是一個(gè)全局互連路由器。
Figure 2 Super-node interconnection of QDSP圖2 QDSP超結(jié)點(diǎn)擴(kuò)展互連示意圖
Figure 3 Inter-chip interconnection module of PCI express圖3 PCI Express片間互連模塊
Figure 4 Structure diagram of QLink-PCIE圖4 QLink-PCIE橋接模塊結(jié)構(gòu)圖
PCIE IP核為PCI Express標(biāo)準(zhǔn)協(xié)議的主體實(shí)現(xiàn)模塊,采用Verilog描述語言完成,是一款第三方IP核,包括PCI Express協(xié)議的事務(wù)傳輸層、數(shù)據(jù)鏈路層和物理層的PCS子層三個(gè)部分。其用戶層接口給出了明確定義的傳輸模式和接口信號(hào),主要包括128位的PCIE協(xié)議報(bào)文頭和64位數(shù)據(jù)信號(hào)線,還有一些其他的控制信號(hào)。物理層接口為與PCIE全定制物理模塊的PCS子層接口協(xié)議,為250 MHz的10位數(shù)據(jù)信號(hào)。采用基于IP核的設(shè)計(jì)方法有效簡化了設(shè)計(jì)復(fù)雜度和設(shè)計(jì)周期。
全定制PCIE物理層模塊,即PCIE PHY,是PCI Express協(xié)議電器物理層模塊,包括高速串行-解串Ser Des(Serializer-Deserializer)電路的定制實(shí)現(xiàn),接收端還包括從接收到的數(shù)據(jù)信號(hào)流中恢復(fù)出時(shí)鐘信號(hào)的CDR模塊。PCIE PHY還完成高速差分I/O,即LVDS接口的定制實(shí)現(xiàn)。
設(shè)計(jì)采用SMIC的0.13μm工藝單元庫,QLink-PCIE橋模塊單獨(dú)綜合面積為0.12 mm2,QLink-PCIE與PCIE IP共同綜合總面積為0.65 mm2。
本文構(gòu)建了如圖2所示的RTL級(jí)SoC測(cè)試平臺(tái),但考慮測(cè)試復(fù)雜度和運(yùn)行速度問題,將系統(tǒng)規(guī)模選定為四個(gè)QDSP超結(jié)點(diǎn)構(gòu)成一個(gè)2×2的二維Mesh網(wǎng)絡(luò)結(jié)構(gòu)。其中互連模塊均采用真實(shí)的RTL級(jí)代碼實(shí)現(xiàn),DSP的數(shù)據(jù)發(fā)送與接收采用模擬方法實(shí)現(xiàn),通過文件讀入寫出方式對(duì)片間互連操作進(jìn)行驗(yàn)證和性能統(tǒng)計(jì)分析。
片間互連通路性能統(tǒng)計(jì)數(shù)據(jù)如表1所示。從表1中可知,片間通路適合于連續(xù)大量數(shù)據(jù)的傳輸,從而能更好地掩蓋通路的建立時(shí)間;同時(shí),獲得了約1.6 Gb/s的有效數(shù)據(jù)帶寬,滿足了系統(tǒng)片間數(shù)據(jù)傳輸?shù)男阅苄枨?。?duì)QPB模塊的延遲信息進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),QPB內(nèi)異步FIFO傳輸延遲為2~3拍PCI Express時(shí)鐘(PCLK);發(fā)送方向異步FIFO輸出到PCI Express接口報(bào)文請(qǐng)求產(chǎn)生延遲最短為16 PCLK,這是由于發(fā)送方向內(nèi)部具有緩沖區(qū)存儲(chǔ)轉(zhuǎn)發(fā)導(dǎo)致的;接收方向由于使用蟲孔路由其延遲為固定的4 PCLK。
Table 1 Performance of inter-chip route path表1 片間互連通路性能統(tǒng)計(jì)
我們?cè)诂F(xiàn)有測(cè)試平臺(tái)的基礎(chǔ)上進(jìn)行了改進(jìn),每個(gè)QDSP內(nèi)加入一個(gè)真實(shí)DSP模塊,生在其上運(yùn)行32×32的FFT程序。目的是測(cè)試整個(gè)環(huán)境運(yùn)行真實(shí)程序的能力,每個(gè)SoC內(nèi)的一個(gè)DSP內(nèi)核參與到運(yùn)算當(dāng)中,四個(gè)DSP內(nèi)核共同完成FFT程序的運(yùn)算并得到正確結(jié)果。
工藝技術(shù)不斷發(fā)展,應(yīng)用需求日益復(fù)雜,帶來了單處理器片上系統(tǒng)時(shí)代向多處理器片上系統(tǒng)時(shí)代的轉(zhuǎn)變。面對(duì)層出不窮的多核處理器芯片,如何能將現(xiàn)有技術(shù)更好地應(yīng)用于片上系統(tǒng)是設(shè)計(jì)者和研究者都要進(jìn)行思考的問題。PCI Express是一種成熟、高效的大規(guī)模高性能計(jì)算機(jī)互連技術(shù),針對(duì)其技術(shù)特點(diǎn)和片上多處理器系統(tǒng)的設(shè)計(jì)需求,本文將其應(yīng)用于一款自行研制的片上多DSP系統(tǒng)QDSP芯片中,取得了良好的設(shè)計(jì)結(jié)果,同時(shí)為片外設(shè)計(jì)技術(shù)向片上設(shè)計(jì)的移植給出了很好的思路。在未來的工作中將考慮嘗試更多的技術(shù)融合,并將其應(yīng)用于多處理器片上系統(tǒng)的設(shè)計(jì)中。
[1] Ahmed A J,Wayne W.Multiprocessor systems-on-chips[M].San Francisco:Morgan Kaufmann,2005.
[2] Budruk R,Anderson D,Shanlev T.PCI express system architecture[M].Boston:Addison Wesley,2003.
[3] Chen Shu-ming,Wan Jiang-h(huán)ua,Lu Jian-zhuang,et al.YHFT-QDSP:High-performance heterogeneous multi-core DSP[J].Journal of Computer Sicence and Technology,2010,25(2):214-224.
[4] Li Qiong,Guo Yu-feng,Liu Guang-ming,et al.Research and development of I/O interconnection and architecture[J].Computer Engineering,2006,32(12):93-95.(in Chinese)
[5] Nambiar S O S,Abhyankar Y,Chandrababu S.Migrating FPGA based PCI express Gen1 design to Gen2[C]∥Proc of 2010 International Conference on Computer and Communication Technology,2010:617-620.
[6] Wang Kun,Xu Wen-qiang,Ma Zhuo.Design and implementation of the 2.5 Gbps high-speed ser Des for PCI-express[J].Computer Engineering &Science,2009,32(11):62-65.(in Chinese)
[7] Shin J L,Huang D,Petrick B,et al.A 40 nm 16-core 128-thread SPARC SoC processor[J].IEEE Journal of Solid-State Circuits,2011,46(1):131-144.
[8] Arakawa F.Multicore SoC for embedded systems[C]∥Proc of 2008 International SoC Design Conference,2008:I180-I183.
[9] Chen Shu-ming,Li Zhen-Tao,Wan Jiang-h(huán)ua,et al.Research and development of high performance YHFT digital signal processor[J].Journal of Computer Research and Development,2006,43(6):993-1000.(in Chinese)
[10] Chen Shu-ming,Wang Dong,Chen Xiao-wen,et al.A small close-coupled fast shared data pool for multi-core DSPs[J].Chinese Journal of Computers,2008,31(10):1737-1744.(in Chinese)
[11] Guo Bao-dong,Liu Xiang-yuan,Xu Yi,et al.Research and implementation of Qlink——a communicaiton mechanism to heterogeneous multi-core DSP[C]∥Proc of NCCET,2007:1.(in Chinese)
[12] Yin Ya-ming,Chen Shu-ming.Design and implementation of a inter-chip bridge in a multi-core SoC[C]∥Proc of the 4th International Conference on Design &Technology of Integrated Systems in Nanoscal Era,2009:102-106.
附中文參考文獻(xiàn):
[4] 李瓊,郭御風(fēng),劉光明,等.I/O互聯(lián)技術(shù)及體系結(jié)構(gòu)的研究與發(fā)展[J].計(jì)算機(jī)工程,2006,32(12):93-95.
[6] 王堃,許文強(qiáng),馬卓.PCI Express中2.5 Gbps高速Ser Des的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2009,31(11):62-65.
[9] 陳書明,李振濤,萬江華,等.“銀河飛騰”高性能數(shù)字信號(hào)處理器研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2006,43(6):993-1000.
[10] 陳書明,汪東,陳小文,等.一種面向多核DSP的小容量緊耦合快速共享數(shù)據(jù)池[J].計(jì)算機(jī)學(xué)報(bào),2008,31(10):1737-1744.
[11] 郭保東,劉祥遠(yuǎn),徐毅,等.一種異構(gòu)多核DSP互連通信機(jī)制Qlink的研究與實(shí)現(xiàn)[C]//第十一屆計(jì)算機(jī)工程與工藝全國年會(huì),2007:1.