亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CC-NUMA架構(gòu)下4路龍芯3B服務(wù)器設(shè)計(jì)與實(shí)現(xiàn)*

2018-02-26 10:12:56張鵬

計(jì)算機(jī)工程與科學(xué) 2018年12期

張鵬

(江蘇自動(dòng)化研究所，江蘇連云港222061)

1 引言

從信息安全角度出發(fā)，自主可控的服務(wù)器在現(xiàn)代電子信息系統(tǒng)中起到越來越重要的作用。由于“wintel”平臺(tái)核心技術(shù)極為封閉，在硬件開發(fā)、程序設(shè)計(jì)、操作流程、代碼測試等方面均存在“后門”隱患。為擺脫電子信息系統(tǒng)對(duì)國外產(chǎn)品的依賴，實(shí)現(xiàn)電子信息系統(tǒng)核心技術(shù)國產(chǎn)化勢(shì)在必行。

目前，較成熟的國產(chǎn)處理器產(chǎn)品主要有龍芯、飛騰、申威三大品牌系列，相比成熟的x86架構(gòu)處理器，普遍存在計(jì)算性能不夠高、產(chǎn)業(yè)生態(tài)不夠健全等現(xiàn)狀。本文重點(diǎn)針對(duì)龍芯3B處理器平臺(tái)提出一種服務(wù)器設(shè)計(jì)方法，通過4路處理器提升并行計(jì)算能力，使用TCP協(xié)議卸載引擎TOE(TCP Offload Engine)技術(shù)實(shí)現(xiàn)10G以太網(wǎng)通信能力并釋放對(duì)處理器資源的占用，同時(shí)盡可能選用國產(chǎn)關(guān)鍵芯片，提高服務(wù)器的自主可控能力。

2 基于龍芯3B的服務(wù)器架構(gòu)分析

2．1 龍芯3B3000處理器架構(gòu)

龍芯3B3000 處理器［1，2］基于可伸縮的多核互連架構(gòu)設(shè)計(jì)，在單個(gè)芯片上集成多個(gè)高性能處理器核以及大量的二級(jí)Cache，還通過高速I/O接口實(shí)現(xiàn)多芯片的互連以組成更大規(guī)模的系統(tǒng)。龍芯3B3000是一個(gè)配置為單節(jié)點(diǎn)4核的處理器，采用28 nm工藝制造，最高工作主頻為1．5 GHz。如圖1所示，處理器集成4個(gè)64位的四發(fā)射超標(biāo)量GS464e高性能處理器核，片內(nèi)集成8 MB的分體共享三級(jí)Cache(由4個(gè)體模塊組成，每個(gè)體模塊容量為2 MB)，通過目錄協(xié)議維護(hù)多核及I/O DMA訪問的Cache一致性。龍芯3B3000處理器集成兩個(gè)16位1．6 GHz的 HyperTransport控制器(以下簡稱HT)，每個(gè)16位的HT端口拆分成兩個(gè)8路的HT端口使用。

2．2CC-NUMA技術(shù)原理

NUMA(Non Uniform Memory Access)即非統(tǒng)一內(nèi)存訪問技術(shù)［3］，它是由若干通過高速專用網(wǎng)絡(luò)連接起來的獨(dú)立節(jié)點(diǎn)構(gòu)成的系統(tǒng)，各個(gè)節(jié)點(diǎn)可以是單個(gè)的CPU或是SMP系統(tǒng)。NUMA模式采用了分布式存儲(chǔ)器模式，所有節(jié)點(diǎn)中的處理器都可以訪問系統(tǒng)的全部物理存儲(chǔ)器。每個(gè)處理器訪問本地存儲(chǔ)器和訪問遠(yuǎn)程節(jié)點(diǎn)存儲(chǔ)器所需的時(shí)間是不一致的，因此稱為非一致訪問分布共享存儲(chǔ)技術(shù)。NUMA同時(shí)具備了MPP良好的擴(kuò)展性以及SMP編程模式簡潔、易于管理的特點(diǎn)。

CC-NUMA(Cache Coherent NUMA)是NUMA的一種類型，即高速緩存相關(guān)的非一致性內(nèi)存訪問。在CC-NUMA系統(tǒng)中，分布式內(nèi)存相連接形成單一內(nèi)存，內(nèi)存之間沒有頁面復(fù)制或數(shù)據(jù)復(fù)制，也沒有軟件消息傳送。CC-NUMA只有一個(gè)內(nèi)存映象，存儲(chǔ)部件利用銅纜和某些智能硬件進(jìn)行物理連接。Cache Coherent是指不需要軟件來保持多個(gè)數(shù)據(jù)拷貝的一致性，也不需要軟件來實(shí)現(xiàn)操作系統(tǒng)與應(yīng)用系統(tǒng)的數(shù)據(jù)傳輸，如同在SMP模式中一樣，單一操作系統(tǒng)和多個(gè)處理器完全在硬件級(jí)實(shí)現(xiàn)管理。

2．3 TOE 技術(shù)原理

隨著信息系統(tǒng)中網(wǎng)絡(luò)通信帶寬的不斷增加，處理器資源被大量消耗，國產(chǎn)處理器尤其容易成為集群系統(tǒng)中的主要瓶頸，例如在10G以太網(wǎng)的應(yīng)用場景中，處理器往往需要滿負(fù)荷工作來應(yīng)對(duì)計(jì)算和通信任務(wù)。為解決上述問題，需要將處理器承擔(dān)的網(wǎng)絡(luò)協(xié)議棧處理任務(wù)剝離，以減輕處理器負(fù)荷。

TOE即TCP協(xié)議卸載引擎技術(shù)，將對(duì)TCP/IP協(xié)議進(jìn)行處理的功能交給網(wǎng)卡上的硬件來完成，實(shí)現(xiàn)協(xié)議卸載功能，處理器只需要承擔(dān)TCP/IP相關(guān)控制信息和維持TCP連接狀態(tài)信息，減輕CPU校驗(yàn)和計(jì)算的負(fù)載。TOE技術(shù)可以從中斷處理、上下文切換、網(wǎng)絡(luò)數(shù)據(jù)拷貝和進(jìn)行TCP/IP協(xié)議處理這幾方面來對(duì)處理器進(jìn)行減負(fù)，能夠滿足系統(tǒng)應(yīng)用對(duì)高吞吐量、低延遲、高帶寬和低開銷的要求。

3 基于CC-NUMA架構(gòu)的龍芯3B服務(wù)器設(shè)計(jì)

基于CC-NUMA架構(gòu)的龍芯3B服務(wù)器設(shè)計(jì)主要包括三個(gè)部分:一是CC-NUMA架構(gòu)的4路處理器拓?fù)潢P(guān)系，二是對(duì)外功能接口的擴(kuò)展，三是TOE網(wǎng)絡(luò)接口設(shè)計(jì)。

3．1 處理器拓?fù)浞绞?/h3>
4路處理器之間主要通過HT高速總線互連，每個(gè)處理器的2路16位HT總線均拆分為4路8位 HT 總線，通過 HT0-L、HT0-H、HT1-L、HT1-H 分別與其余3個(gè)處理器連接，拓?fù)潢P(guān)系如圖2所示。每個(gè)處理器通過兩個(gè)內(nèi)存控制器擴(kuò)展雙通道內(nèi)存，本地內(nèi)存容量4 GB，整板內(nèi)存容量16 GB。

3．2 功能接口擴(kuò)展

CPU0的低8位HT1-L總線與龍芯7A橋片［4，5］互連，用于擴(kuò)展系統(tǒng)通用接口，包括 PCIE 總線、SATA、USB、LAN、VGA、UART 等常規(guī)接口［6］。其中，龍芯7A橋片通過1路PCIE×8總線連接到T5萬兆網(wǎng)卡，擴(kuò)展2路SFP+萬兆以太網(wǎng)絡(luò)接口;通過1路PCIE×1總線連接到AST2500板級(jí)管理芯片，擴(kuò)展1路管理網(wǎng)絡(luò)接口和1路管理串口。

3．3 TOE網(wǎng)絡(luò)接口設(shè)計(jì)

服務(wù)器對(duì)外通信的高速接口通常包括以太網(wǎng)、FC、Infiniband等，其中 FC和Infiniband主要在鏈路層實(shí)現(xiàn)，在應(yīng)用層需要大量協(xié)議開發(fā)工作;以太網(wǎng)4層協(xié)議相對(duì)完善，通用性較強(qiáng)，因此龍芯3B服務(wù)器選用10G以太網(wǎng)作為服務(wù)器對(duì)外通信接口。

T5作為獨(dú)立的ASIC能夠提供多種以太網(wǎng)典型應(yīng)用，包括網(wǎng)卡、TCP/IP卸載，iSCSI等協(xié)議功能。T5以太網(wǎng)端口可以直接驅(qū)動(dòng)各種各樣的信號(hào)標(biāo)準(zhǔn)，比如 40Gbase-kr4、40Gbase-cr4、10Gbase-cr、10Gbase-kr、SFP+ 、1Gbase-kx、SGMII 10Gbase-T 和1Gbase-T［7］。T5在任何時(shí)候都有四個(gè)以太網(wǎng)端口可用。對(duì)于這些端口，T5集成了兩個(gè)40G CGMAC、四個(gè)XGMAC(10GbE)和四個(gè)XGMII(1GbE)協(xié)議MAC。這些MAC接口根據(jù)標(biāo)準(zhǔn)和電路板要求被復(fù)用到各種以太網(wǎng)發(fā)送和接收對(duì)中。每個(gè)發(fā)送/接收對(duì)能夠被編程為任何支持的接口標(biāo)準(zhǔn)。TOE網(wǎng)絡(luò)接口設(shè)計(jì)的難點(diǎn)一方面在于龍芯3B處理器、龍芯7A橋片、T5網(wǎng)絡(luò)芯片等主要芯片硬件鏈路的正確設(shè)計(jì);另一方面在于驅(qū)動(dòng)層實(shí)現(xiàn)TCP/IP卸載功能并進(jìn)行優(yōu)化。

4 測試與分析

服務(wù)器的各項(xiàng)測試與分析在中標(biāo)麒麟服務(wù)器版操作系統(tǒng)環(huán)境下開展，主要包括對(duì)處理器的單核計(jì)算性能測試、整體計(jì)算性能測試、網(wǎng)絡(luò)通信能力測試三個(gè)部分。

4．1 單核計(jì)算性能測試

SPEC CPU2006是一款測試CPU處理性能的工具，包括 CINT2006和 CFP2006兩個(gè)子項(xiàng)目。CINT2006用于測量和對(duì)比整數(shù)性能，包括C編譯程序、量子計(jì)算機(jī)仿真、下象棋程序等12種整型基準(zhǔn)程序;CFP2006用于測量和對(duì)比浮點(diǎn)性能，包括有限元模型結(jié)構(gòu)化網(wǎng)格法、分子動(dòng)力學(xué)質(zhì)點(diǎn)法、流體動(dòng)力學(xué)稀疏線性代數(shù)法等17種浮點(diǎn)型基準(zhǔn)程序。

Table 1 Computing performance test results of SPEC CPU2006 single-core computers表1 SPEC CPU2006單核計(jì)算性能測試結(jié)果

為簡化測試結(jié)果，SPEC將被測計(jì)算機(jī)每個(gè)基準(zhǔn)程序的執(zhí)行時(shí)間除一個(gè)參考處理器的執(zhí)行時(shí)間，結(jié)果稱為SPECratio。CINT2006或 CFP2006的綜合測試結(jié)果是取每個(gè)基準(zhǔn)程序SPECratio的幾何平均值，如表1所示。測試結(jié)果數(shù)值越高，表明計(jì)算性能越強(qiáng)。

4．2 整體計(jì)算性能測試

Unixbench是一款用于測試類Unix系統(tǒng)綜合性能的工具，將測試結(jié)果與基準(zhǔn)系統(tǒng)的分?jǐn)?shù)比較，產(chǎn)生一個(gè)指數(shù)值，綜合一系列的指數(shù)值得出系統(tǒng)整體指標(biāo)。當(dāng)系統(tǒng)為多CPU核系統(tǒng)時(shí)，默認(rèn)的處理方式是運(yùn)行兩次測試:一次是運(yùn)行每個(gè)測試程序的1個(gè)副本，另一次是運(yùn)行每個(gè)測試程序的N個(gè)副本，N表示CPU的核心數(shù)。

Table 2 Computing performance test results of Unixbench表2 Unixbench計(jì)算性能測試結(jié)果

通過對(duì)比表2中4路龍芯3B服務(wù)器與單路龍芯3B開發(fā)板的計(jì)算性能測試結(jié)果，可以計(jì)算出CC-NUMA架構(gòu)4路龍芯3B服務(wù)器的計(jì)算性能是單路龍芯3B處理器的3．125倍，CPU之間的協(xié)同計(jì)算帶來了一定的性能開銷。

同時(shí)，選擇了一款基于2路 Intel至強(qiáng) E5-2628L處理器(8核心，主頻1．8 GHz)的商用主流服務(wù)器進(jìn)行對(duì)比測試，測試結(jié)果表明，在核心總數(shù)均為16的情況下，4路龍芯3B3000服務(wù)器的計(jì)算性能已接近Intel同檔服務(wù)器產(chǎn)品水平。

4．3 網(wǎng)絡(luò)通信能力測試

Netperf是一種網(wǎng)絡(luò)性能的測量工具，主要針對(duì)基于TCP或UDP的傳輸。Netperf根據(jù)應(yīng)用的不同，可以進(jìn)行不同模式的網(wǎng)絡(luò)性能測試，即批量數(shù)據(jù)傳輸(bulk data transfer)模式和請(qǐng)求/應(yīng)答(request/reponse)模式。Netperf測試結(jié)果所反映的是一個(gè)系統(tǒng)能夠以多快的速度向另外一個(gè)系統(tǒng)發(fā)送數(shù)據(jù)，以及另外一個(gè)系統(tǒng)能夠以多快的速度接收數(shù)據(jù)。

Table 3 Network communication capability test results and CPU utilization表3 網(wǎng)絡(luò)通信能力測試結(jié)果與CPU占用率

通過對(duì)比表3中的測試數(shù)據(jù)可以發(fā)現(xiàn)，使用具有TOE技術(shù)的網(wǎng)絡(luò)芯片，能夠在占用很少CPU資源的情況下達(dá)到接近10 Gbit/s的傳輸帶寬，釋放了絕大部分CPU資源用于提高并行計(jì)算能力，搭配國產(chǎn)處理器使用能夠大幅提高服務(wù)器綜合性能。

5 結(jié)束語

本文基于CC-NUMA并行處理架構(gòu)設(shè)計(jì)了4路龍芯3B3000高性能服務(wù)器核心模塊，針對(duì)國產(chǎn)處理器擴(kuò)展10G以太網(wǎng)接口大幅消耗處理器資源的問題，通過使用TOE芯片提高了網(wǎng)絡(luò)響應(yīng)效率，同時(shí)大幅降低10G以太網(wǎng)接口對(duì)處理器資源的占用消耗，有效提高了服務(wù)器的綜合性能。測試和分析結(jié)果表明，該服務(wù)器在選用國產(chǎn)關(guān)鍵芯片的基礎(chǔ)上，同時(shí)具備了高效的并行計(jì)算能力和10G以太網(wǎng)通信能力，國產(chǎn)元器件種類占比和數(shù)量占比均可達(dá)95%以上，有效提高了服務(wù)器自主可控能力。