陳 絲 中國(guó)信息通信研究院信息化與工業(yè)化融合研究所助理工程師
以圖像識(shí)別、語(yǔ)音識(shí)別等為代表的智能化技術(shù)水平大幅提升和應(yīng)用起步,掀起了新一輪人工智能研發(fā)和應(yīng)用熱潮,對(duì)底層芯片的計(jì)算能力需求呈現(xiàn)爆發(fā)式增長(zhǎng)。據(jù)Tractica預(yù)估,全球人工智能芯片出貨量持續(xù)走高,市場(chǎng)規(guī)模將從2016年的5億美元增長(zhǎng)至2025年的122億美元,復(fù)合年均增長(zhǎng)率保持超過(guò)40%的高速率。與此同時(shí),伴隨人工智能芯片技術(shù)不斷成熟和應(yīng)用落地,人工智能芯片占據(jù)人工智能總體市場(chǎng)規(guī)模的比例逐年遞增,據(jù)CITICS預(yù)計(jì)將從2016年的8%提高至2020年的12%?,F(xiàn)階段,人工智能應(yīng)用正處于應(yīng)用起量階段,產(chǎn)業(yè)鏈上下游企業(yè)紛紛結(jié)合自身優(yōu)勢(shì)加入芯片領(lǐng)域布局,試圖搶占市場(chǎng)發(fā)展先機(jī),圍繞人工智能芯片領(lǐng)域的競(jìng)賽已經(jīng)拉開(kāi)序幕。
本輪人工智能研究的關(guān)鍵詞是基于概率統(tǒng)計(jì)學(xué)的深度學(xué)習(xí),采用日益復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型和更大規(guī)模數(shù)據(jù)樣本實(shí)現(xiàn)識(shí)別精度不斷突破,但同時(shí)產(chǎn)生的計(jì)算量也持續(xù)攀升,這種暴力計(jì)算模式對(duì)底層芯片的計(jì)算能力提出了更高要求并相應(yīng)產(chǎn)生更多能耗。例如,2012年的ImageNet比賽中,采用8層神經(jīng)網(wǎng)絡(luò)的AlexNet網(wǎng)絡(luò)取得16%的錯(cuò)誤率,迭代一次的計(jì)算量約為1.4GFLOP(10億次浮點(diǎn)計(jì)算);2015年,擁有152層神經(jīng)元的ResNet網(wǎng)絡(luò)錯(cuò)誤率降至3.5%,但計(jì)算量為22.6GFLOP,大約達(dá)到AlexNet的16倍。與此同時(shí),深度學(xué)習(xí)需要處理的數(shù)據(jù)規(guī)模及其龐大,如采用卷積神經(jīng)網(wǎng)絡(luò)基于ImageNet數(shù)據(jù)集訓(xùn)練模型,統(tǒng)計(jì)掃描100遍樣本即達(dá)到E級(jí)計(jì)算規(guī)模,即使提供充足的計(jì)算資源,仍需幾天甚至幾周的訓(xùn)練時(shí)長(zhǎng)。
深度學(xué)習(xí)算法區(qū)別于傳統(tǒng)算法特征,既是計(jì)算密集型也是存儲(chǔ)密集型運(yùn)算,對(duì)芯片的專用計(jì)算能力和內(nèi)存存取能效等提出新的升級(jí)需求。一方面,具備復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)卷積、矩陣乘加等線性代數(shù)類運(yùn)算任務(wù)密集又頻繁,因而集成矩陣乘加等專用運(yùn)算單元的計(jì)算芯片能顯著加速深度學(xué)習(xí)處理效率;另一方面,深度學(xué)習(xí)需要處理海量數(shù)據(jù)樣本,強(qiáng)調(diào)芯片高并行計(jì)算能力,同時(shí)大量數(shù)據(jù)搬運(yùn)操作對(duì)內(nèi)存存取帶寬等要求更高,而內(nèi)存存取尤其是片外內(nèi)存訪問(wèn)消耗的功耗要遠(yuǎn)大于計(jì)算功耗,因而高能效的內(nèi)存訪存架構(gòu)設(shè)計(jì)對(duì)芯片應(yīng)用尤其是端側(cè)部署至關(guān)重要。
深度學(xué)習(xí)處理任務(wù)應(yīng)用主要分為訓(xùn)練和推理兩個(gè)階段,實(shí)現(xiàn)高精度模型提取的訓(xùn)練階段需快速處理海量數(shù)據(jù),現(xiàn)階段集中在云端執(zhí)行,對(duì)芯片計(jì)算能力、通用性、擴(kuò)展性有較高要求;實(shí)現(xiàn)模型最終應(yīng)用部署的推理階段既可以在云端執(zhí)行,也可在智能手機(jī)、智能攝像頭、智能汽車等終端操作,多樣化細(xì)分場(chǎng)景對(duì)人工智能芯片性能、功耗、延時(shí)以及成本等標(biāo)準(zhǔn)需求各異。諸多差異化的應(yīng)用階段和細(xì)分場(chǎng)景導(dǎo)致人工智能芯片處于多種技術(shù)方案競(jìng)爭(zhēng)發(fā)展起步階段。
現(xiàn)階段,常見(jiàn)的人工智能芯片類型包括GPU、FPGA、ASIC等芯片(見(jiàn)表1)。其中,GPU芯片集成大量計(jì)算單元和高速內(nèi)存,通用性較強(qiáng)且適合大規(guī)模并行計(jì)算任務(wù),能顯著縮減數(shù)據(jù)的訓(xùn)練時(shí)長(zhǎng),但高能耗引發(fā)散熱問(wèn)題以及高售價(jià)限制,使其多應(yīng)用于數(shù)據(jù)中心或自動(dòng)駕駛場(chǎng)景。FPGA硬件配置靈活,能快速適應(yīng)算法迭代更新,且能效優(yōu)于GPU,但開(kāi)發(fā)復(fù)雜度較高,開(kāi)發(fā)者生態(tài)建設(shè)仍需增強(qiáng)。針對(duì)特定算法定制的專用ASIC芯片量產(chǎn)后性能、功耗、成本相對(duì)于FPGA具備更強(qiáng)優(yōu)勢(shì),但人工智能算法仍處于快速演進(jìn)階段,定制化ASIC開(kāi)發(fā)周期長(zhǎng)、面臨風(fēng)險(xiǎn)高。目前,深度學(xué)習(xí)訓(xùn)練任務(wù)多集中在云端執(zhí)行,以GPU和ASIC芯片居多;推理芯片根據(jù)云端、終端場(chǎng)景區(qū)別,F(xiàn)PGA、ASIC和GPU芯片均有涉及。此外,CPU芯片架構(gòu)絕大部分為控制和緩存單元,更擅長(zhǎng)復(fù)雜的邏輯控制和通用類型數(shù)據(jù)運(yùn)算,并行計(jì)算效率低,在人工智能任務(wù)中多用于樣本數(shù)據(jù)預(yù)處理操作。
表1 常見(jiàn)人工智能芯片類型
基于大數(shù)據(jù)量、復(fù)雜算法模型的人工智能模型訓(xùn)練階段多集中在云端處理,需求高并行、高吞吐量的芯片架構(gòu)?,F(xiàn)階段,英偉達(dá)憑借高性能的GPU芯片占據(jù)應(yīng)用規(guī)模優(yōu)勢(shì),快速推出業(yè)內(nèi)高并行計(jì)算能力的Tesla GPU系列產(chǎn)品,其中V100 GPU芯片集成專為人工智能運(yùn)算設(shè)計(jì)的大型矩陣乘加計(jì)算核心和16G的高帶寬內(nèi)存,實(shí)現(xiàn)每秒120萬(wàn)億次的峰值運(yùn)算能力。AMD也加速追趕,2018年6月初發(fā)布全球首款7nm制程的Radeon Instinct VegaGPU芯片產(chǎn)品,針對(duì)云端人工智能市場(chǎng)研發(fā),設(shè)計(jì)引入可編程幾何流水線、混合精度計(jì)算單元等架構(gòu)技術(shù),內(nèi)置32G的高帶寬內(nèi)存,正式產(chǎn)品將于2018年下半年推出。
谷歌面向谷歌云業(yè)務(wù)需求自研人工智能ASIC系列芯片TPU,并于2017年5月正式發(fā)布第二代產(chǎn)品Cloud TPU,采用了脈動(dòng)陣列架構(gòu),增添了浮點(diǎn)計(jì)算單元和高帶寬內(nèi)存,同時(shí)具備深度訓(xùn)練和推理能力,Cloud TPU于2018年2月初通過(guò)谷歌云平臺(tái)正式面向客戶服務(wù),但開(kāi)放數(shù)量有限且按時(shí)收費(fèi),每小時(shí)成本為6.50美元。英特爾收購(gòu)人工智能芯片初創(chuàng)企業(yè)Nervana后積極整合推廣其訓(xùn)練芯片技術(shù),推出面向人工智能計(jì)算密度優(yōu)化的ASIC訓(xùn)練芯片,最新Spring Crest芯片產(chǎn)品將于2019年下半年向用戶開(kāi)放,功耗小于210W。
云端推理平臺(tái)需求高能效、高吞吐量或低延時(shí)的人工智能芯片,主要包括3類:一是英偉達(dá)針對(duì)推理市場(chǎng)需求推出TeslaP系列GPU芯片,可提供低時(shí)延或低功耗的推理性能;二是賽靈思和英特爾主導(dǎo)的FPGA芯片憑借靈活架構(gòu)、高能效、低延時(shí)特性,吸引亞馬遜和微軟等云服務(wù)商進(jìn)行部署。賽靈思推出基于FPGA架構(gòu)的新型多核異構(gòu)計(jì)算平臺(tái)ACAP,可針對(duì)人工智能任務(wù)需求,實(shí)現(xiàn)硬件層面低至毫秒級(jí)別的高效靈活配置。英特爾收購(gòu)FPGA廠商Altera后推出了基于FPGA的專用深度學(xué)習(xí)加速卡,結(jié)合自有CPU芯片打造可編程、高能效比的推理功能;三是以谷歌為代表的自研ASIC芯片陣營(yíng),谷歌于2016年5月最先發(fā)布專為數(shù)據(jù)中心推理任務(wù)定制的ASIC芯片產(chǎn)品TPU,計(jì)算核心是矩陣乘加單元,峰值計(jì)算能力達(dá)到每秒92萬(wàn)億次計(jì)算操作。
伴隨人工智能市場(chǎng)大幅擴(kuò)張,實(shí)現(xiàn)應(yīng)用部署的終端推理芯片將具備更廣闊的市場(chǎng)前景和應(yīng)用需求,其中智能手機(jī)、安防監(jiān)控、自動(dòng)駕駛等領(lǐng)域?qū)⒊蔀槭袌?chǎng)首輪爆發(fā)焦點(diǎn)。在智能手機(jī)領(lǐng)域,蘋果發(fā)布iPhone X智能手機(jī)內(nèi)置A11bionic芯片,集成雙核神經(jīng)引擎,運(yùn)算速度達(dá)到每秒6000億次,支持快速人臉解鎖、增強(qiáng)現(xiàn)實(shí)等功能。高通推出的驍龍845移動(dòng)芯片基于CPU+GPU+DSP的移動(dòng)異構(gòu)計(jì)算平臺(tái),并重點(diǎn)提升DSP單元針對(duì)神經(jīng)網(wǎng)絡(luò)處理速度和能效至CPU的8和24倍。在安防監(jiān)控領(lǐng)域,英特爾收購(gòu)Movidius芯片廠商推出高速低功耗Mybriad系列視覺(jué)芯片,最新款Myriad X芯片具備每秒超過(guò)1萬(wàn)億的次運(yùn)算能力。在自動(dòng)駕駛領(lǐng)域,英偉達(dá)推出高能效、高可靠性的車用Xaiver SoC芯片,性能達(dá)到每秒30萬(wàn)億的次計(jì)算能力,功耗僅為30W,支持L3~L4級(jí)別自動(dòng)駕駛。
受限于國(guó)內(nèi)在GPU和FPGA芯片領(lǐng)域基礎(chǔ)薄弱,企業(yè)多采用ASIC路線布局云端謀求戰(zhàn)略突破,參與企業(yè)包括百度、寒武紀(jì)、比特大陸等。百度面向自身業(yè)務(wù)需求開(kāi)發(fā)云端人工智能芯片“昆侖”,峰值處理速度達(dá)到每秒260萬(wàn)億次定點(diǎn)運(yùn)算,可滿足訓(xùn)練和推理的需求。寒武紀(jì)發(fā)布云端智能芯片MLU 100,最高峰值速度可達(dá)166.4萬(wàn)億次定點(diǎn)運(yùn)算,對(duì)應(yīng)功耗110W,可支持各類深度學(xué)習(xí)和常見(jiàn)機(jī)器學(xué)習(xí)算法,滿足計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、數(shù)據(jù)挖掘等計(jì)算需求;同時(shí),寒武紀(jì)聯(lián)合聯(lián)想、中科曙光分別推出深度學(xué)習(xí)專用服務(wù)器Think System SR650和PHANERON,可面向多類云處理任務(wù)提供服務(wù)。比特大陸針對(duì)云端推理任務(wù)設(shè)計(jì)專用處理器SOPHON,采用類似谷歌的脈動(dòng)陣列架構(gòu),提供每秒2萬(wàn)億次的計(jì)算能力,具備60W低功耗優(yōu)勢(shì),支持CNN、RNN、DNN等常見(jiàn)深度神經(jīng)網(wǎng)絡(luò)算法的推理預(yù)測(cè)。
國(guó)內(nèi)企業(yè)面向智能手機(jī)、安防監(jiān)控、自動(dòng)駕駛等終端重點(diǎn)細(xì)分領(lǐng)域加速人工智能芯片研發(fā),試圖搶占市場(chǎng)先機(jī)。在智能手機(jī)領(lǐng)域,華為發(fā)布麒麟970芯片集成寒武紀(jì)的深度學(xué)習(xí)IP內(nèi)核,峰值計(jì)算能力達(dá)到每秒1.93萬(wàn)億次運(yùn)算,重點(diǎn)提升智能手機(jī)的圖像識(shí)別、機(jī)器翻譯、語(yǔ)音降噪等功能。紫光展銳針對(duì)中端智能手機(jī)開(kāi)發(fā)SC9863處理器,應(yīng)用ARM Dynam lQ技術(shù)和Cortex-A55CPU內(nèi)核,支持智能場(chǎng)景檢測(cè)識(shí)別、智能拍照增強(qiáng)、人臉識(shí)別等功能。在自動(dòng)駕駛領(lǐng)域,地平線機(jī)器人開(kāi)發(fā)嵌入式人工智能視覺(jué)芯片——征程處理器,具備每秒一萬(wàn)次運(yùn)算性能,功耗低至1.5W,支持L2級(jí)別ADAS系統(tǒng),可實(shí)時(shí)檢測(cè)和識(shí)別行人、機(jī)動(dòng)車、車道線等多類目標(biāo)。在安防監(jiān)控領(lǐng)域,深鑒科技發(fā)布聽(tīng)濤SoC芯片,基于自研架構(gòu)提供4.1TOPS的峰值性能,功耗1.1W,可面向多類應(yīng)用場(chǎng)景提供人臉檢測(cè)識(shí)別、視頻結(jié)構(gòu)化處理等解決方案。此外,海康規(guī)劃開(kāi)發(fā)視覺(jué)加速芯片,由智能攝像頭整機(jī)設(shè)備向底層芯片滲透,完善產(chǎn)業(yè)鏈布局。
我國(guó)人工智能應(yīng)用市場(chǎng)規(guī)模龐大,數(shù)據(jù)積累形成海量規(guī)模,為國(guó)內(nèi)人工智能芯片發(fā)展提供巨大空間。現(xiàn)階段我國(guó)企業(yè)緊跟人工智能芯片創(chuàng)新機(jī)遇,積極開(kāi)展定制ASIC芯片研發(fā),并在部分領(lǐng)域取得一定進(jìn)展,為人工智能產(chǎn)業(yè)持續(xù)升級(jí)夯實(shí)基礎(chǔ)。與此同時(shí),我國(guó)集成電路產(chǎn)業(yè)基礎(chǔ)薄弱問(wèn)題再次凸顯。一是國(guó)內(nèi)企業(yè)在高性能GPU和FPGA芯片領(lǐng)域研發(fā)滯后,企業(yè)多采用ASIC芯片架構(gòu)進(jìn)行創(chuàng)新,影響國(guó)內(nèi)人工智能芯片全產(chǎn)品線布局;二是國(guó)內(nèi)布局人工智能芯片研發(fā)多為初創(chuàng)企業(yè),缺乏長(zhǎng)期芯片架構(gòu)設(shè)計(jì)和軟件編譯等經(jīng)驗(yàn)累積,應(yīng)用生態(tài)尚未搭建完善,市場(chǎng)關(guān)系仍需持續(xù)開(kāi)拓;三是現(xiàn)有人工智能芯片研發(fā)人員也遠(yuǎn)遠(yuǎn)不能滿足需求,芯片產(chǎn)品創(chuàng)新發(fā)展源動(dòng)力不足。
(1)強(qiáng)化核心技術(shù)攻關(guān),優(yōu)化產(chǎn)業(yè)發(fā)展環(huán)境。積極推動(dòng)產(chǎn)、學(xué)、研、用各主體加強(qiáng)技術(shù)攻關(guān),促進(jìn)深度學(xué)習(xí)指令集、芯片體系架構(gòu)等基礎(chǔ)核心技術(shù)創(chuàng)新升級(jí),鼓勵(lì)技術(shù)新路徑探索。促進(jìn)人才、資金、資源等要素集聚,切實(shí)推進(jìn)人工智能芯片產(chǎn)業(yè)發(fā)展。
(2)加強(qiáng)產(chǎn)業(yè)鏈上下聯(lián)動(dòng),實(shí)現(xiàn)芯片、算法、應(yīng)用、生態(tài)協(xié)同發(fā)展。推動(dòng)人工智能應(yīng)用企業(yè)、終端企業(yè)、平臺(tái)企業(yè)、算法企業(yè)與芯片企業(yè)間的深度合作和協(xié)同創(chuàng)新,面向應(yīng)用市場(chǎng)需求加快推動(dòng)“芯片與算法”、“芯片與整機(jī)”、“芯片與應(yīng)用”等各參與主體間的資源協(xié)調(diào)與協(xié)同設(shè)計(jì)優(yōu)化。
(3)注重應(yīng)用市場(chǎng)導(dǎo)向,推動(dòng)人工智能芯片產(chǎn)業(yè)規(guī)模快速放大。積極把握人工智能的發(fā)展機(jī)遇,加快推進(jìn)產(chǎn)品研發(fā)布局,發(fā)揮應(yīng)用市場(chǎng)的帶動(dòng)效應(yīng),鼓勵(lì)國(guó)際合作交流,促進(jìn)人工智能芯片在安防、醫(yī)療、交通等多領(lǐng)域的推廣應(yīng)用。