亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CC-NUMA架構(gòu)下4路龍芯3B服務(wù)器設(shè)計(jì)與實(shí)現(xiàn)*

        2018-02-26 10:12:56
        關(guān)鍵詞:龍芯以太網(wǎng)內(nèi)存

        張 鵬

        (江蘇自動(dòng)化研究所,江蘇連云港222061)

        1 引言

        從信息安全角度出發(fā),自主可控的服務(wù)器在現(xiàn)代電子信息系統(tǒng)中起到越來越重要的作用。由于“wintel”平臺(tái)核心技術(shù)極為封閉,在硬件開發(fā)、程序設(shè)計(jì)、操作流程、代碼測試等方面均存在“后門”隱患。為擺脫電子信息系統(tǒng)對(duì)國外產(chǎn)品的依賴,實(shí)現(xiàn)電子信息系統(tǒng)核心技術(shù)國產(chǎn)化勢(shì)在必行。

        目前,較成熟的國產(chǎn)處理器產(chǎn)品主要有龍芯、飛騰、申威三大品牌系列,相比成熟的x86架構(gòu)處理器,普遍存在計(jì)算性能不夠高、產(chǎn)業(yè)生態(tài)不夠健全等現(xiàn)狀。本文重點(diǎn)針對(duì)龍芯3B處理器平臺(tái)提出一種服務(wù)器設(shè)計(jì)方法,通過4路處理器提升并行計(jì)算能力,使用TCP協(xié)議卸載引擎TOE(TCP Offload Engine)技術(shù)實(shí)現(xiàn)10G以太網(wǎng)通信能力并釋放對(duì)處理器資源的占用,同時(shí)盡可能選用國產(chǎn)關(guān)鍵芯片,提高服務(wù)器的自主可控能力。

        2 基于龍芯3B的服務(wù)器架構(gòu)分析

        2.1 龍芯3B3000處理器架構(gòu)

        龍芯3B3000 處理器[1,2]基于可伸縮的多核互連架構(gòu)設(shè)計(jì),在單個(gè)芯片上集成多個(gè)高性能處理器核以及大量的二級(jí)Cache,還通過高速I/O接口實(shí)現(xiàn)多芯片的互連以組成更大規(guī)模的系統(tǒng)。龍芯3B3000是一個(gè)配置為單節(jié)點(diǎn)4核的處理器,采用28 nm工藝制造,最高工作主頻為1.5 GHz。如圖1所示,處理器集成4個(gè)64位的四發(fā)射超標(biāo)量GS464e高性能處理器核,片內(nèi)集成8 MB的分體共享三級(jí)Cache(由4個(gè)體模塊組成,每個(gè)體模塊容量為2 MB),通過目錄協(xié)議維護(hù)多核及I/O DMA訪問的Cache一致性。龍芯3B3000處理器集成兩個(gè)16位1.6 GHz的 HyperTransport控制器(以下簡稱HT),每個(gè)16位的HT端口拆分成兩個(gè)8路的HT端口使用。

        2.2CC-NUMA技術(shù)原理

        NUMA(Non Uniform Memory Access)即非統(tǒng)一內(nèi)存訪問技術(shù)[3],它是由若干通過高速專用網(wǎng)絡(luò)連接起來的獨(dú)立節(jié)點(diǎn)構(gòu)成的系統(tǒng),各個(gè)節(jié)點(diǎn)可以是單個(gè)的CPU或是SMP系統(tǒng)。NUMA模式采用了分布式存儲(chǔ)器模式,所有節(jié)點(diǎn)中的處理器都可以訪問系統(tǒng)的全部物理存儲(chǔ)器。每個(gè)處理器訪問本地存儲(chǔ)器和訪問遠(yuǎn)程節(jié)點(diǎn)存儲(chǔ)器所需的時(shí)間是不一致的,因此稱為非一致訪問分布共享存儲(chǔ)技術(shù)。NUMA同時(shí)具備了MPP良好的擴(kuò)展性以及SMP編程模式簡潔、易于管理的特點(diǎn)。

        CC-NUMA(Cache Coherent NUMA)是NUMA的一種類型,即高速緩存相關(guān)的非一致性內(nèi)存訪問。在CC-NUMA系統(tǒng)中,分布式內(nèi)存相連接形成單一內(nèi)存,內(nèi)存之間沒有頁面復(fù)制或數(shù)據(jù)復(fù)制,也沒有軟件消息傳送。CC-NUMA只有一個(gè)內(nèi)存映象,存儲(chǔ)部件利用銅纜和某些智能硬件進(jìn)行物理連接。Cache Coherent是指不需要軟件來保持多個(gè)數(shù)據(jù)拷貝的一致性,也不需要軟件來實(shí)現(xiàn)操作系統(tǒng)與應(yīng)用系統(tǒng)的數(shù)據(jù)傳輸,如同在SMP模式中一樣,單一操作系統(tǒng)和多個(gè)處理器完全在硬件級(jí)實(shí)現(xiàn)管理。

        2.3 TOE 技術(shù)原理

        隨著信息系統(tǒng)中網(wǎng)絡(luò)通信帶寬的不斷增加,處理器資源被大量消耗,國產(chǎn)處理器尤其容易成為集群系統(tǒng)中的主要瓶頸,例如在10G以太網(wǎng)的應(yīng)用場景中,處理器往往需要滿負(fù)荷工作來應(yīng)對(duì)計(jì)算和通信任務(wù)。為解決上述問題,需要將處理器承擔(dān)的網(wǎng)絡(luò)協(xié)議棧處理任務(wù)剝離,以減輕處理器負(fù)荷。

        TOE即TCP協(xié)議卸載引擎技術(shù),將對(duì)TCP/IP協(xié)議進(jìn)行處理的功能交給網(wǎng)卡上的硬件來完成,實(shí)現(xiàn)協(xié)議卸載功能,處理器只需要承擔(dān)TCP/IP相關(guān)控制信息和維持TCP連接狀態(tài)信息,減輕CPU校驗(yàn)和計(jì)算的負(fù)載。TOE技術(shù)可以從中斷處理、上下文切換、網(wǎng)絡(luò)數(shù)據(jù)拷貝和進(jìn)行TCP/IP協(xié)議處理這幾方面來對(duì)處理器進(jìn)行減負(fù),能夠滿足系統(tǒng)應(yīng)用對(duì)高吞吐量、低延遲、高帶寬和低開銷的要求。

        3 基于CC-NUMA架構(gòu)的龍芯3B服務(wù)器設(shè)計(jì)

        基于CC-NUMA架構(gòu)的龍芯3B服務(wù)器設(shè)計(jì)主要包括三個(gè)部分:一是CC-NUMA架構(gòu)的4路處理器拓?fù)潢P(guān)系,二是對(duì)外功能接口的擴(kuò)展,三是TOE網(wǎng)絡(luò)接口設(shè)計(jì)。

        3.1 處理器拓?fù)浞绞?/h3>

        4路處理器之間主要通過HT高速總線互連,每個(gè)處理器的2路16位HT總線均拆分為4路8位 HT 總線,通過 HT0-L、HT0-H、HT1-L、HT1-H 分別與其余3個(gè)處理器連接,拓?fù)潢P(guān)系如圖2所示。每個(gè)處理器通過兩個(gè)內(nèi)存控制器擴(kuò)展雙通道內(nèi)存,本地內(nèi)存容量4 GB,整板內(nèi)存容量16 GB。

        3.2 功能接口擴(kuò)展

        CPU0的低8位HT1-L總線與龍芯7A橋片[4,5]互連,用于擴(kuò)展系統(tǒng)通用接口,包括 PCIE 總線、SATA、USB、LAN、VGA、UART 等常規(guī)接口[6]。其中,龍芯7A橋片通過1路PCIE×8總線連接到T5萬兆網(wǎng)卡,擴(kuò)展2路SFP+萬兆以太網(wǎng)絡(luò)接口;通過1路PCIE×1總線連接到AST2500板級(jí)管理芯片,擴(kuò)展1路管理網(wǎng)絡(luò)接口和1路管理串口。

        3.3 TOE網(wǎng)絡(luò)接口設(shè)計(jì)

        服務(wù)器對(duì)外通信的高速接口通常包括以太網(wǎng)、FC、Infiniband等,其中 FC和Infiniband主要在鏈路層實(shí)現(xiàn),在應(yīng)用層需要大量協(xié)議開發(fā)工作;以太網(wǎng)4層協(xié)議相對(duì)完善,通用性較強(qiáng),因此龍芯3B服務(wù)器選用10G以太網(wǎng)作為服務(wù)器對(duì)外通信接口。

        T5作為獨(dú)立的ASIC能夠提供多種以太網(wǎng)典型應(yīng)用,包括網(wǎng)卡、TCP/IP卸載,iSCSI等協(xié)議功能。T5以太網(wǎng)端口可以直接驅(qū)動(dòng)各種各樣的信號(hào)標(biāo)準(zhǔn),比如 40Gbase-kr4、40Gbase-cr4、10Gbase-cr、10Gbase-kr、SFP+ 、1Gbase-kx、SGMII 10Gbase-T 和1Gbase-T[7]。T5在任何時(shí)候都有四個(gè)以太網(wǎng)端口可用。對(duì)于這些端口,T5集成了兩個(gè)40G CGMAC、四個(gè)XGMAC(10GbE)和四個(gè)XGMII(1GbE)協(xié)議MAC。這些MAC接口根據(jù)標(biāo)準(zhǔn)和電路板要求被復(fù)用到各種以太網(wǎng)發(fā)送和接收對(duì)中。每個(gè)發(fā)送/接收對(duì)能夠被編程為任何支持的接口標(biāo)準(zhǔn)。TOE網(wǎng)絡(luò)接口設(shè)計(jì)的難點(diǎn)一方面在于龍芯3B處理器、龍芯7A橋片、T5網(wǎng)絡(luò)芯片等主要芯片硬件鏈路的正確設(shè)計(jì);另一方面在于驅(qū)動(dòng)層實(shí)現(xiàn)TCP/IP卸載功能并進(jìn)行優(yōu)化。

        4 測試與分析

        服務(wù)器的各項(xiàng)測試與分析在中標(biāo)麒麟服務(wù)器版操作系統(tǒng)環(huán)境下開展,主要包括對(duì)處理器的單核計(jì)算性能測試、整體計(jì)算性能測試、網(wǎng)絡(luò)通信能力測試三個(gè)部分。

        4.1 單核計(jì)算性能測試

        SPEC CPU2006是一款測試CPU處理性能的工具,包括 CINT2006和 CFP2006兩個(gè)子項(xiàng)目。CINT2006用于測量和對(duì)比整數(shù)性能,包括C編譯程序、量子計(jì)算機(jī)仿真、下象棋程序等12種整型基準(zhǔn)程序;CFP2006用于測量和對(duì)比浮點(diǎn)性能,包括有限元模型結(jié)構(gòu)化網(wǎng)格法、分子動(dòng)力學(xué)質(zhì)點(diǎn)法、流體動(dòng)力學(xué)稀疏線性代數(shù)法等17種浮點(diǎn)型基準(zhǔn)程序。

        Table 1 Computing performance test results of SPEC CPU2006 single-core computers表1 SPEC CPU2006單核計(jì)算性能測試結(jié)果

        為簡化測試結(jié)果,SPEC將被測計(jì)算機(jī)每個(gè)基準(zhǔn)程序的執(zhí)行時(shí)間除一個(gè)參考處理器的執(zhí)行時(shí)間,結(jié)果稱為SPECratio。CINT2006或 CFP2006的綜合測試結(jié)果是取每個(gè)基準(zhǔn)程序SPECratio的幾何平均值,如表1所示。測試結(jié)果數(shù)值越高,表明計(jì)算性能越強(qiáng)。

        4.2 整體計(jì)算性能測試

        Unixbench是一款用于測試類Unix系統(tǒng)綜合性能的工具,將測試結(jié)果與基準(zhǔn)系統(tǒng)的分?jǐn)?shù)比較,產(chǎn)生一個(gè)指數(shù)值,綜合一系列的指數(shù)值得出系統(tǒng)整體指標(biāo)。當(dāng)系統(tǒng)為多CPU核系統(tǒng)時(shí),默認(rèn)的處理方式是運(yùn)行兩次測試:一次是運(yùn)行每個(gè)測試程序的1個(gè)副本,另一次是運(yùn)行每個(gè)測試程序的N個(gè)副本,N表示CPU的核心數(shù)。

        Table 2 Computing performance test results of Unixbench表2 Unixbench計(jì)算性能測試結(jié)果

        通過對(duì)比表2中4路龍芯3B服務(wù)器與單路龍芯3B開發(fā)板的計(jì)算性能測試結(jié)果,可以計(jì)算出CC-NUMA架構(gòu)4路龍芯3B服務(wù)器的計(jì)算性能是單路龍芯3B處理器的3.125倍,CPU之間的協(xié)同計(jì)算帶來了一定的性能開銷。

        同時(shí),選擇了一款基于2路 Intel至強(qiáng) E5-2628L處理器(8核心,主頻1.8 GHz)的商用主流服務(wù)器進(jìn)行對(duì)比測試,測試結(jié)果表明,在核心總數(shù)均為16的情況下,4路龍芯3B3000服務(wù)器的計(jì)算性能已接近Intel同檔服務(wù)器產(chǎn)品水平。

        4.3 網(wǎng)絡(luò)通信能力測試

        Netperf是一種網(wǎng)絡(luò)性能的測量工具,主要針對(duì)基于TCP或UDP的傳輸。Netperf根據(jù)應(yīng)用的不同,可以進(jìn)行不同模式的網(wǎng)絡(luò)性能測試,即批量數(shù)據(jù)傳輸(bulk data transfer)模式和請(qǐng)求/應(yīng)答(request/reponse)模式。Netperf測試結(jié)果所反映的是一個(gè)系統(tǒng)能夠以多快的速度向另外一個(gè)系統(tǒng)發(fā)送數(shù)據(jù),以及另外一個(gè)系統(tǒng)能夠以多快的速度接收數(shù)據(jù)。

        Table 3 Network communication capability test results and CPU utilization表3 網(wǎng)絡(luò)通信能力測試結(jié)果與CPU占用率

        通過對(duì)比表3中的測試數(shù)據(jù)可以發(fā)現(xiàn),使用具有TOE技術(shù)的網(wǎng)絡(luò)芯片,能夠在占用很少CPU資源的情況下達(dá)到接近10 Gbit/s的傳輸帶寬,釋放了絕大部分CPU資源用于提高并行計(jì)算能力,搭配國產(chǎn)處理器使用能夠大幅提高服務(wù)器綜合性能。

        5 結(jié)束語

        本文基于CC-NUMA并行處理架構(gòu)設(shè)計(jì)了4路龍芯3B3000高性能服務(wù)器核心模塊,針對(duì)國產(chǎn)處理器擴(kuò)展10G以太網(wǎng)接口大幅消耗處理器資源的問題,通過使用TOE芯片提高了網(wǎng)絡(luò)響應(yīng)效率,同時(shí)大幅降低10G以太網(wǎng)接口對(duì)處理器資源的占用消耗,有效提高了服務(wù)器的綜合性能。測試和分析結(jié)果表明,該服務(wù)器在選用國產(chǎn)關(guān)鍵芯片的基礎(chǔ)上,同時(shí)具備了高效的并行計(jì)算能力和10G以太網(wǎng)通信能力,國產(chǎn)元器件種類占比和數(shù)量占比均可達(dá)95%以上,有效提高了服務(wù)器自主可控能力。

        猜你喜歡
        龍芯以太網(wǎng)內(nèi)存
        基于國產(chǎn)化龍芯的動(dòng)環(huán)數(shù)據(jù)采集系統(tǒng)
        基于1500以太網(wǎng)養(yǎng)豬場的智能飼喂控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        “春夏秋冬”的內(nèi)存
        談實(shí)時(shí)以太網(wǎng)EtherCAT技術(shù)在變電站自動(dòng)化中的應(yīng)用
        電子制作(2017年24期)2017-02-02 07:14:44
        “龍芯之父”胡偉武
        龍芯發(fā)布新一代處理器產(chǎn)品
        一種90W高功率以太網(wǎng)供電系統(tǒng)的設(shè)計(jì)
        淺談EPON與工業(yè)以太網(wǎng)在貴遵高速公路中的應(yīng)用
        基于內(nèi)存的地理信息訪問技術(shù)
        “龍芯1號(hào)”:電腦中國“芯”
        亚洲国产另类久久久精品黑人| 亚洲色图专区在线视频| 日韩精品无码一区二区三区四区| 疯狂撞击丝袜人妻| 亚洲综合免费| 亚洲精品一区二区三区国产| 黄片小视频免费观看完整版| 任我爽精品视频在线播放| 久久久久99精品成人片试看| 亚洲免费观看一区二区三区| 丝袜美腿福利视频在线| 啦啦啦中文在线观看日本| 大地资源中文第三页| 亚洲乱精品中文字字幕| 国产一区二区av免费观看| 国内成+人 亚洲+欧美+综合在线 | 国产精品成人va| 中文字幕乱码亚洲无线| 中国黄色一区二区三区四区| 国产精品久线在线观看| 大香视频伊人精品75| 91亚洲最新国语中文字幕| 亚洲视频高清一区二区| a级毛片高清免费视频就| 日韩一区二区超清视频| 日本免费三片在线视频| 性久久久久久| 国产精品久久无码一区二区三区网 | 国产三级精品三级在线观看 | 日本视频精品一区二区| 国产亚洲av成人噜噜噜他| 朝鲜女人大白屁股ass| 一本无码av一区二区三区| 在线观看亚洲视频一区二区| 国内免费高清在线观看| 真人男女做爰无遮挡免费视频| 日韩熟女一区二区三区 | 内射中出后入内射极品女神视频| 欧洲美女黑人粗性暴交视频| 国产在线无码制服丝袜无码| 国产成人精品aaaa视频一区 |