李曼
1993年9月,美國(guó)政府宣布實(shí)施一項(xiàng)新的高科技計(jì)劃――“國(guó)家信息基礎(chǔ)設(shè)施”(National Information Infrastructure,簡(jiǎn)稱NII),旨在以因特網(wǎng)為雛形興建 “信息高速公路”,使所有的美國(guó)人方便地共享海量的信息資源?!靶畔⒏咚俟贰钡陌l(fā)展為美國(guó)帶來(lái)了巨大的社會(huì)經(jīng)濟(jì)效益,同時(shí)也在世界范圍內(nèi)掀起了建設(shè)信息高速公路的熱潮。
信息基礎(chǔ)設(shè)施關(guān)系國(guó)家安全和重大利益,攸關(guān)產(chǎn)業(yè)命脈。中國(guó)自改革開(kāi)放以來(lái),與發(fā)達(dá)國(guó)家相比信息基礎(chǔ)設(shè)施仍十分薄弱,一直依賴于美國(guó)政府主導(dǎo)構(gòu)建的“信息高速公路”,核心芯片也主要來(lái)源于美國(guó)進(jìn)口。隨著IT3.0時(shí)代的到來(lái),人-機(jī)-物三元高度融合,傳統(tǒng)的“信息高速公路”已無(wú)法滿足中國(guó)人的海量數(shù)據(jù)處理需求,同時(shí)為徹底解決信息技術(shù)“卡脖子”的問(wèn)題,就要走中國(guó)人自己的路——構(gòu)建“信息高速鐵路”。為此,2018年底,北京中科睿芯科技有限公司研發(fā)完成了全球首臺(tái)高通量計(jì)算機(jī)——“金剛”?!敖饎偂钡某晒ρ邪l(fā)離不開(kāi)睿芯團(tuán)隊(duì)的堅(jiān)持與努力。
用心鉆研,從“芯”出發(fā)
2000年,范東睿從北京交通大學(xué)理學(xué)院應(yīng)用數(shù)學(xué)系畢業(yè)。4年的學(xué)習(xí)仍無(wú)法滿足他對(duì)知識(shí)的渴望,大學(xué)畢業(yè)后范東睿選擇進(jìn)入中國(guó)科學(xué)院計(jì)算技術(shù)研究所(以下簡(jiǎn)稱“中科院計(jì)算所”)學(xué)習(xí)。在這里,開(kāi)啟了他的科研之路。
2009年范東睿被評(píng)為中科院計(jì)算所卓越之星;2010年獲評(píng)北京市科技新星;2013年獲北京市科學(xué)技術(shù)獎(jiǎng);2014年獲中科院卓越青年科學(xué)家獎(jiǎng);2017年獲首都科技領(lǐng)軍人才;2018年入選科技部創(chuàng)新人推進(jìn)計(jì)劃;2019年成為中組部“萬(wàn)人計(jì)劃”領(lǐng)軍人才。一個(gè)個(gè)傲人的成績(jī)?cè)从谝淮未斡眯牡你@研。
范東睿在中科院計(jì)算所接觸到了第一批芯片——龍芯處理器設(shè)計(jì)。然而范東睿發(fā)現(xiàn),若是只專注于做芯片,卻沒(méi)有相配套的板卡整機(jī),也沒(méi)有匹配的應(yīng)用軟件、應(yīng)用系統(tǒng),無(wú)法形成完整的生態(tài)鏈,即使研發(fā)成功了芯片,也無(wú)用武之地。美國(guó)早在20多年前就已經(jīng)擁有了信息高速公路計(jì)劃,而中國(guó)只能走在美國(guó)為我們鋪好的道路上,一旦美國(guó)不再為我們鋪路的時(shí)候,中國(guó)的信息發(fā)展將會(huì)受到掣肘,從“中興事件”中我們不難看出這一點(diǎn)。
2005年,研發(fā)團(tuán)隊(duì)成立,專門從事“延長(zhǎng)摩爾定律的處理芯片新原理、新結(jié)構(gòu)、新方法”的新體系結(jié)構(gòu)研究。2009年研發(fā)團(tuán)隊(duì)自主研發(fā)的并行加速千核萬(wàn)線程模擬器SMARTSIMU研制成功,在北京理工大學(xué)、華中科技大學(xué)、美國(guó)特拉華大學(xué)等科研機(jī)構(gòu)均有試用。2010年,睿芯團(tuán)隊(duì)自主研發(fā)眾核處理芯片睿芯一號(hào)SmarCo-1(Godson-T)成功流片,并于2011年入選“全球十大服務(wù)器芯片設(shè)計(jì)”。2013年,高通量眾核視頻處理芯片睿芯二號(hào)SmarCo-2(DPU-m)成功流片,研發(fā)團(tuán)隊(duì)獲“北京市科學(xué)技術(shù)獎(jiǎng)”。
“我們肩上擔(dān)負(fù)的責(zé)任重大,中國(guó)的信息發(fā)展缺乏完整的系統(tǒng)的解決方案,不管是視頻大數(shù)據(jù),還是對(duì)特殊場(chǎng)景的模擬,都需要一個(gè)軟硬件一體的協(xié)同創(chuàng)新的平臺(tái)。作為中科院所屬的企業(yè),要以做出中國(guó)人自己的睿智的芯片為己任,公司就叫‘中科睿芯吧。公司名中帶了創(chuàng)始人的名字,如果做不好,那就丟了自己的臉?!敝锌圃河?jì)算所所長(zhǎng)孫凝暉說(shuō)。因此,2014年11月,北京中科睿芯科技有限公司(以下簡(jiǎn)稱“中科睿芯”)正式成立,總部設(shè)立于北京市中關(guān)村地區(qū),由中國(guó)科學(xué)院計(jì)算技術(shù)研究所和中科院計(jì)算所高通量計(jì)算中心團(tuán)隊(duì)共同投資建立。中科睿芯致力于成為高通量計(jì)算的引領(lǐng)者,提供高通量計(jì)算的前沿技術(shù)研究、實(shí)現(xiàn)和整體解決方案。
自2014年成立以來(lái),中科睿芯的技術(shù)研發(fā)實(shí)力和市場(chǎng)營(yíng)銷能力快速提升,相繼獲得中關(guān)村高新、國(guó)家高新、瞪羚企業(yè)等資質(zhì),并先后獲得中科院科技成果轉(zhuǎn)化獎(jiǎng)、德勤明日之星、北京市科學(xué)技術(shù)二等獎(jiǎng)等榮譽(yù),已具備以自主高端芯片為核心的全系統(tǒng)級(jí)研發(fā)及產(chǎn)品體系。
用心鉆研,用“芯”成就
“我國(guó)現(xiàn)有的信息基礎(chǔ)設(shè)施經(jīng)歷了一個(gè)漫長(zhǎng)的過(guò)程,從以單機(jī)計(jì)算為代表的IT1.0時(shí)代,到后來(lái)的以人-機(jī)二元計(jì)算為代表的IT2.0時(shí)代,再到目前正在進(jìn)入以人-機(jī)-物三元網(wǎng)絡(luò)計(jì)算為代表的IT3.0時(shí)代。計(jì)算機(jī)的核心需求已經(jīng)從以計(jì)算為中心轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心?!狈稏|睿表示。
他認(rèn)為,傳統(tǒng)計(jì)算機(jī)系統(tǒng)設(shè)計(jì)所賴以生存的業(yè)務(wù)基礎(chǔ)已經(jīng)發(fā)生巨變,新的應(yīng)用需求集中體現(xiàn)在高并發(fā)負(fù)載和強(qiáng)實(shí)時(shí)服務(wù)保障等方面,而傳統(tǒng)計(jì)算機(jī)在高負(fù)載環(huán)境下不僅無(wú)法達(dá)到實(shí)時(shí)的響應(yīng)需求,也無(wú)法確保高并發(fā)、高利用率和強(qiáng)實(shí)時(shí)的同時(shí)滿足。為此,中科睿芯研發(fā)團(tuán)隊(duì)根據(jù)中國(guó)科學(xué)院率先在國(guó)際上提出的“高通量計(jì)算”技術(shù)的研究,展開(kāi)了高通量技術(shù)的產(chǎn)品研發(fā)和產(chǎn)業(yè)化。終于,在 2018年底完成了全球首臺(tái)高通量計(jì)算機(jī)——“金剛”。
“金剛”針對(duì)高通量應(yīng)用場(chǎng)景所體現(xiàn)出的高并發(fā)特點(diǎn),采用了計(jì)算所自主研發(fā)的全球首款高通量眾核處理器,在網(wǎng)絡(luò)視頻處理場(chǎng)景下可支持千路視頻的實(shí)時(shí)并發(fā)處理;并應(yīng)用了計(jì)算所自主研制的國(guó)內(nèi)首款云端深度學(xué)習(xí)加速芯片,該芯片在全球首次系統(tǒng)性提出了深度學(xué)習(xí)指令集;為了高效發(fā)揮出上述核心芯片的處理性能,“金剛”首次提出并研制了具備大數(shù)據(jù)處理和深度學(xué)習(xí)平臺(tái)深度融合的高通量計(jì)算軟件平臺(tái),該平臺(tái)支持軟硬件協(xié)同的垂直優(yōu)化,從而進(jìn)行最大化系統(tǒng)處理。
“金剛”依靠上述技術(shù),實(shí)現(xiàn)了遠(yuǎn)高于傳統(tǒng)服務(wù)器的高密度和高能效,還可針對(duì)業(yè)務(wù)環(huán)境的高并發(fā)特點(diǎn),采用可擴(kuò)展眾核設(shè)計(jì),支持海量線程并發(fā),以滿足高通量計(jì)算“算的多”這一核心需求。通過(guò)軟硬件協(xié)同技術(shù)支持實(shí)時(shí)性感知的任務(wù)調(diào)度和數(shù)據(jù)訪問(wèn),從而實(shí)現(xiàn)了高并發(fā)、高利用率的同時(shí)還能確保應(yīng)用的服務(wù)質(zhì)量。“金剛”擁有的核心技術(shù)自主可控,其核心加速芯片和軟件平臺(tái)均是國(guó)產(chǎn)自研技術(shù),整機(jī)安全可控。
“‘金剛的研發(fā)成功不是一蹴而就的,是經(jīng)歷了一次又一次的研究和挫折的?!敝锌祁P究偨?jīng)理王達(dá)說(shuō)。研發(fā)之初,團(tuán)隊(duì)大多以九零后為主,他們年輕有活力,有向上的沖勁,雖然他們?nèi)狈?shí)踐經(jīng)驗(yàn),但是在團(tuán)隊(duì)的相互配合和鼓勵(lì)下,又有老員工從旁協(xié)助發(fā)揮帶頭作用,很完美地完成了項(xiàng)目。不僅使老員工發(fā)揮了自己的專業(yè)所長(zhǎng),也使團(tuán)隊(duì)中的年輕人得到了成長(zhǎng),團(tuán)隊(duì)得到了更好的融合。
“金剛”的服務(wù)器包含數(shù)千種各類元器件,工程師們把每個(gè)元器件的特性,以及可替換的同類元器件的特性都牢記在腦海里,以便于在研發(fā)過(guò)程中可以及時(shí)合理的調(diào)配,在滿足各種性能指標(biāo)的同時(shí)最大限度的降低成本。為了節(jié)約研發(fā)時(shí)間,睿芯團(tuán)隊(duì)在項(xiàng)目管理上建立了嚴(yán)格的開(kāi)發(fā)流程和規(guī)范,做到在“規(guī)范與效率”和“質(zhì)量與風(fēng)險(xiǎn)”之間的完美平衡。睿芯團(tuán)隊(duì)還充分利用國(guó)內(nèi)現(xiàn)有的成熟產(chǎn)業(yè)鏈,以外包或外協(xié)的方式完成一些非關(guān)鍵部件的生產(chǎn)加工,充分發(fā)揮專業(yè)分工的優(yōu)勢(shì),有效地提高了時(shí)間的利用率。
“金剛”的研發(fā)成功,一方面改善了我國(guó)服務(wù)器市場(chǎng)核心芯片受制于人的境況,極大提升了服務(wù)器核心部件的國(guó)產(chǎn)化率和整體安全性;另一方面,高通量計(jì)算機(jī)有效解決了當(dāng)前數(shù)據(jù)中心服務(wù)器利用率偏低的問(wèn)題(當(dāng)前基于傳統(tǒng)架構(gòu)的數(shù)據(jù)中心服務(wù)器的平均利用率普遍僅在10%~30%)。王達(dá)表示,目前“金剛”高通量計(jì)算機(jī)已經(jīng)在一系列典型場(chǎng)景中開(kāi)展示范應(yīng)用,并將逐步應(yīng)用到國(guó)民經(jīng)濟(jì)主戰(zhàn)場(chǎng)中,貢獻(xiàn)于國(guó)計(jì)民生。