宋辰
從科研到落地,作為高性能計算(以下簡稱“HPC”)領域的佼佼者,中科曙光(以下簡稱“曙光”)如何完成“從硬件提供商向綜合服務提供商轉型”?
當下科技界最熱門的不外乎就是大數(shù)據(jù)和人工智能,而這背后,實則是計算能力的比拼。這也就不難理解為何各國如此重視在HPC領域的投入。據(jù)IDC統(tǒng)計,2015年全球高性能計算的預算投入增長了11%,2016年還將有更大的增長,中國也持續(xù)保持15%以上的增速。
2015年,曙光提出了”數(shù)據(jù)中國"戰(zhàn)略,5年內(nèi)要在國內(nèi)百個城市百個行業(yè)建成云計算數(shù)據(jù)中心,構建一個覆蓋全國的數(shù)據(jù)平臺,為用戶提供基于數(shù)據(jù)的服務。曙光作為高性能計算行業(yè)的佼佼者,該如何支持數(shù)據(jù)中國戰(zhàn)略的落地、完成“從硬件提供商向綜合服務提供商轉型”呢?
硬實力
“汽車業(yè)界的法拉利拉力賽、F1賽車,那種賽車不一定會出現(xiàn)在我們生活中,但它卻是整個企業(yè)業(yè)界最先進性能和技術的代表?!笔锕飧咝阅墚a(chǎn)品事業(yè)部副總經(jīng)理吉青在采訪中對《計算機世界》報記者說,“HPC就相當于IT界的F1賽車,是IT界最先進技術的集中體現(xiàn)。”
她補充道,現(xiàn)在HPC已經(jīng)慢慢滲透到了每個人的日常生活中。以剛剛過去的“雙十一”為例,大量用戶同時在線時,服務器需要負載短時間內(nèi)的高并發(fā),同時,不同的數(shù)據(jù)中心的數(shù)據(jù)資源要同步,“比如,1000雙鞋的庫存,你這邊都賣了900雙了,我那邊顯示還剩200雙單,那就有很大的問題。其實這里面用到的很多都是高性能計算的技術。”
新一期中國高性能計算機TOP100排行榜單如期在“2016年全國高性能計算學術年會”(HPC China 2016)上發(fā)布。曙光以34%的市場份額再次占得榜首,這是它連續(xù)第八年蟬聯(lián)中國高性能計算機TOP100市場份額第一。在TOP10榜單中,曙光占有4套系統(tǒng),在TOP30榜單中曙光占有15套系統(tǒng)上榜。
據(jù)榜單顯示,曙光、聯(lián)想以34套系統(tǒng)并列第一;國產(chǎn)高性能計算三強企業(yè)合計占系統(tǒng)份額87%;總國產(chǎn)系統(tǒng)份額占比98%。在應用層面,大數(shù)據(jù)挖掘和深度學習成為應用熱點,曙光相關領域系統(tǒng)TC6000和HC2000均榜上有名。
深入到產(chǎn)業(yè)和應用場景中去,高性能計算才能更快走出實驗室。“近年來,曙光通過上下游合作伙伴將創(chuàng)新鏈與產(chǎn)業(yè)鏈結合,深入應用場景進行產(chǎn)品的優(yōu)化和開發(fā)應用。”曙光公司高性能產(chǎn)品事業(yè)部總經(jīng)理曹振南介紹說。
今年5月,曙光液冷高性能計算系統(tǒng)中標國家電網(wǎng)電力科學研究院,超過700節(jié)點的TC4600E-LP液冷刀片將在國家電網(wǎng)仿真中心超級計算系統(tǒng)上部署,邁出了液冷技術在國內(nèi)商用化的第一步。
玩數(shù)據(jù)
“千人基因組計劃”每月產(chǎn)生1萬億條堿基序列信息,我國30多個在軌民用航天平臺每年有超過3PB遙感衛(wèi)星數(shù)據(jù),F(xiàn)AST射電望遠鏡的數(shù)據(jù)產(chǎn)出速度是6000億條記錄/年,大型強子對撞機實驗每年產(chǎn)生15PB原始數(shù)據(jù)。
“科學研究正變成一個又一個的大數(shù)據(jù)問題。”曙光公司高性能產(chǎn)品事業(yè)部總工程師戴榮說,“未來,基于對科學大數(shù)據(jù)的處理和分析將成為發(fā)現(xiàn)新知識的基本特征?!?/p>
的確,大數(shù)據(jù)研究已經(jīng)成為繼理論、實驗和計算模擬之后的第四種科學范式,在新型材料、生物基因、精準醫(yī)學、地球科學、生態(tài)環(huán)境、衛(wèi)星遙感、天文、空間地理、高能物理、現(xiàn)代農(nóng)業(yè)等領域的科學發(fā)現(xiàn)將越來越依賴數(shù)據(jù)密集型計算來驅動。
科學大數(shù)據(jù)的海量、多源、異構、高維等特征,向傳統(tǒng)HPC系統(tǒng)發(fā)起了全新的挑戰(zhàn)?!岸鄶?shù)科研項目的數(shù)據(jù)量非常巨大并快速變化,且往往是分布、異構的,傳統(tǒng)的數(shù)據(jù)管理模式已不能滿足需要;此外,對科學大數(shù)據(jù)的‘計算包括了從數(shù)據(jù)獲取、管理到分析、可視化的全過程,傳統(tǒng)的高性能計算亟需將服務向外延拓展。”戴榮解釋說。
針對科學大數(shù)據(jù)的行業(yè)應用特征,曙光發(fā)布了“科學大數(shù)據(jù)引擎”。曙光公司認為,科學大數(shù)據(jù)引擎將實現(xiàn)計算存儲分析一體化,充當連接數(shù)據(jù)源和業(yè)務應用的“黑匣子”,完成對數(shù)據(jù)的清洗轉換、存儲與管理、數(shù)據(jù)處理與挖掘、數(shù)據(jù)分析及可視化等工作。
據(jù)戴榮介紹,在科學大數(shù)據(jù)引擎的“黑匣子”里,部署著曙光全系列數(shù)據(jù)計算技術及服務產(chǎn)品,主要由5個引擎組件構成,分別是:針對海量非結構化數(shù)據(jù)的曙光ParaStor并行存儲系統(tǒng)、曙光高性能計算平臺、提升系統(tǒng)整體效能的曙光深度學習計算平臺、曙光XData大數(shù)據(jù)處理平臺以及能覆蓋科學大數(shù)據(jù)中心全生命周期的曙光EasyOP運維管理平臺。
超算中心屆的“滴滴”
曙光希望通過EasyOP構建一個資源交易平臺,而這不同于超算中心“賣計時”。吉青解釋道,“HPC行業(yè)更高的價值是‘人?!彼e例說,“比如某個超算中心出了問題需要專家維護,他在平臺上發(fā)出需求,平臺上的運維經(jīng)驗專家,可以像‘滴滴專車司機一樣去接單;再比如一個有著20年經(jīng)驗的CAE專家,也可以將自己的經(jīng)驗和知識在平臺上變現(xiàn)?!?/p>
EasyOP是曙光在今年4月正式上線的一款SaaS級、針對高性能計算集群的運維平臺。通過EasyOP能夠為HPC在線7×24小時的全生命周期的運維、調(diào)優(yōu)服務,將各行各業(yè)的專家從HPC的運維和管理中解放出來。
采用EasyOP,HPC運維人員不僅可以隨時了解HPC集群的運營情況和故障,還可通過網(wǎng)頁或微信等在線咨詢服務與線上專家進行一對一的交流。EasyOP還會將常見、有代表性的故障解決方案上傳至知識庫,以便于HPC運維人員積累。
另據(jù)吉青透露,曙光目前正在建立HPC界的維基百科,“主要的基礎數(shù)據(jù)都已經(jīng)上去了,只是等待一個時機上線。將來大家在曙光官網(wǎng)的首頁就會看到?!?