隨著我國(guó)近幾年人工智能新基建與大規(guī)模計(jì)算系統(tǒng)的逐步落地,為了使大規(guī)模人工智能計(jì)算系統(tǒng)健康持續(xù)發(fā)展,需要一個(gè)能夠有效地評(píng)價(jià)計(jì)算系統(tǒng)的人工智能算力的評(píng)價(jià)指標(biāo),而現(xiàn)有的測(cè)試方法無(wú)法滿(mǎn)足這一需求。
目前,已有一些大規(guī)模計(jì)算系統(tǒng)的評(píng)測(cè)程序,例如Linpack是一個(gè)目前被廣泛使用的高性能計(jì)算機(jī)雙精度浮點(diǎn)運(yùn)算性能基準(zhǔn)評(píng)測(cè)程序,國(guó)際超算Top500榜單依據(jù)Linpack值來(lái)進(jìn)行排名。然而典型的人工智能應(yīng)用并不需要雙精度浮點(diǎn)數(shù)運(yùn)算,大部分人工智能訓(xùn)練任務(wù)以單精度浮點(diǎn)數(shù)或16位浮點(diǎn)數(shù)為主,推理以Int8為主。各大企業(yè)、高校和相關(guān)組織也相繼開(kāi)發(fā)了各類(lèi)人工智能算力基準(zhǔn)評(píng)測(cè)程序,如MLPerf、Mobile AI Bench、DeepBench、AIIA DNN Benchmark,以及在雙精度的Linpack基礎(chǔ)上改成混合精度的HPL-AI等基準(zhǔn)評(píng)測(cè)程序,但是這些程序并不適用于大規(guī)模和可變規(guī)模人工智能計(jì)算系統(tǒng)的評(píng)測(cè)。
為了填補(bǔ)大規(guī)模計(jì)算系統(tǒng)人工智能算力評(píng)測(cè)這一領(lǐng)域的空白,清華大學(xué)與鵬城實(shí)驗(yàn)室聯(lián)合研制并開(kāi)發(fā)了人工智能算力基準(zhǔn)測(cè)試程序——AIPerf Benchmark(以下簡(jiǎn)稱(chēng)AIPerf)。AIPerf基于微軟NNI(neural network intelligence)開(kāi)源框架實(shí)現(xiàn),以自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)為負(fù)載,使用網(wǎng)絡(luò)態(tài)射(network morphism)網(wǎng)絡(luò)結(jié)構(gòu)搜索和樹(shù)狀結(jié)構(gòu)Parzen估計(jì)(tree-structured Parzen estimator,TPE)方法超參搜索來(lái)尋找精度更高的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和(或)超參數(shù)。用戶(hù)可以通過(guò)配置文件指定AutoML的相關(guān)參數(shù),如訓(xùn)練使用的批大?。╞atch size)、最大epoch數(shù)、學(xué)習(xí)率、最大搜索模型總個(gè)數(shù)、最長(zhǎng)搜索總時(shí)間、最大同時(shí)搜索模型個(gè)數(shù)(并發(fā)數(shù))等多個(gè)參數(shù)。
AIPerf的設(shè)計(jì)達(dá)到了以下4個(gè)關(guān)鍵的設(shè)計(jì)目標(biāo)。
(1)一個(gè)統(tǒng)一的分?jǐn)?shù)
AIPerf能夠報(bào)告一個(gè)分?jǐn)?shù),該分?jǐn)?shù)可以作為被評(píng)測(cè)計(jì)算集群系統(tǒng)的評(píng)價(jià)指標(biāo)。AIPerf目前的評(píng)價(jià)指標(biāo)是Tops,即平均每秒處理的混合精度AI浮點(diǎn)操作數(shù)。使用一個(gè)而不是多個(gè)分?jǐn)?shù)能方便進(jìn)行不同機(jī)器的橫向比較,且方便公眾宣傳。
(2)可變的問(wèn)題規(guī)模
人工智能計(jì)算集群往往有不同的系統(tǒng)規(guī)模,差異性體現(xiàn)在節(jié)點(diǎn)數(shù)量、加速器數(shù)量、加速器類(lèi)型、內(nèi)存大小等指標(biāo)上。因此,為了適應(yīng)各種規(guī)模的高性能計(jì)算集群,AIPerf能夠使用AutoML調(diào)整問(wèn)題規(guī)模來(lái)適應(yīng)集群規(guī)模的變化,從而充分利用人工智能計(jì)算集群的計(jì)算資源來(lái)體現(xiàn)其算力。
(3)具有實(shí)際的人工智能意義
具有人工智能意義的計(jì)算(如神經(jīng)網(wǎng)絡(luò)運(yùn)算)是人工智能基準(zhǔn)測(cè)試程序相較于傳統(tǒng)高性能計(jì)算機(jī)基準(zhǔn)測(cè)試程序的重要區(qū)別,也是其能夠檢測(cè)集群人工智能算力的核心所在。目前,AIPerf通過(guò)在ImageNet數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)運(yùn)行計(jì)算機(jī)視覺(jué)應(yīng)用程序;將來(lái),計(jì)劃將自然語(yǔ)言處理等其他人工智能任務(wù)加入AIPerf的評(píng)測(cè)范圍。
(4)包含必要的多機(jī)通信
網(wǎng)絡(luò)通信是人工智能計(jì)算集群設(shè)計(jì)的主要指標(biāo)之一,也是其龐大計(jì)算能力的重要組成部分。作為面向高性能計(jì)算集群的人工智能基準(zhǔn)測(cè)試程序,AIPerf包括必要的多機(jī)通信(如任務(wù)的分發(fā)、結(jié)果的收集與多機(jī)訓(xùn)練),從而將網(wǎng)絡(luò)通信性能作為最終性能的影響因素之一。
在第二屆中國(guó)超級(jí)算力大會(huì)(ChinaSC2020)上,基于AIPerf大規(guī)模人工智能算力基準(zhǔn)評(píng)測(cè)程序的國(guó)際人工智能性能算力排行榜首次發(fā)布。鵬城實(shí)驗(yàn)室研制的基于ARM架構(gòu)和華為加速處理器的鵬城云腦二主機(jī)以194 527 Tops的AIPerf算力榮登榜首,其性能是排名第二的聯(lián)泰集群NVIDIA系統(tǒng)性能的12倍以上。
AIPerf基準(zhǔn)評(píng)測(cè)程序還處于積極的開(kāi)發(fā)和完善階段,目前AIPerf正在應(yīng)用負(fù)載、硬件適應(yīng)性以及國(guó)際推廣等方面大力推進(jìn)。AIPerf目前只支持面向計(jì)算機(jī)視覺(jué)的人工智能應(yīng)用程序。為了更好地評(píng)估大規(guī)模智能系統(tǒng)在各個(gè)典型應(yīng)用領(lǐng)域的性能,研究團(tuán)隊(duì)計(jì)劃之后支持更多種網(wǎng)絡(luò)搜索與訓(xùn)練算法以及評(píng)測(cè)數(shù)據(jù)集,同時(shí)支持更多類(lèi)型的人工智能計(jì)算集群系統(tǒng);此外,將積極推動(dòng)AIPerf在國(guó)際上的影響力,將其打造成有國(guó)際影響力和公信力的大規(guī)模人工智能系統(tǒng)基準(zhǔn)評(píng)測(cè)程序。 □