賽迪智庫
在萬物互聯(lián)的大背景下,預(yù)計未來將有數(shù)以百億計的智能設(shè)備連接至互聯(lián)網(wǎng)。思科公司最新數(shù)據(jù)顯示,到2021 年在全球271 億連接設(shè)備中,物聯(lián)網(wǎng)設(shè)備將占據(jù)連接主導(dǎo)地位。這一趨勢無疑推動了物聯(lián)網(wǎng)向各行各業(yè)滲透,并將開啟一個“萬物皆有智能”的新型社會,人們能夠享受到更加智慧的生活。在這個大連接、大智能的時代中,具有人工智能要素的芯片需求廣闊,依靠人工智能芯片構(gòu)建數(shù)據(jù)中心,為實現(xiàn)萬物互聯(lián)和人工智能提供基礎(chǔ)計算環(huán)境,包括英偉達在內(nèi)的芯片廠商快速崛起,圍繞人工智能芯片領(lǐng)域的創(chuàng)新企業(yè)也倍受資本支持,芯片廠商成為這個時代最大的受益者。與此同時,作為產(chǎn)業(yè)制高點,人工智能芯片可應(yīng)用范圍廣,如智能手機、醫(yī)療健康、金融、零售等,發(fā)展空間巨大。
人工智能芯片的發(fā)展綜述
概念與范疇
根據(jù)清華大學(xué)教授魏少軍的觀點,“人工智能”可被劃分為三個層次:第一個層次是應(yīng)用(即:能體現(xiàn)深度學(xué)習(xí)和機器學(xué)習(xí)功能的應(yīng)用);第二個層次是方法(即:人工智能的算法);第三個層次是工具(即:開發(fā)工具和芯片)。因此,人工智能芯片是實現(xiàn)人工智能的根本因素。我們對人工智能芯片進行了定義:從廣義上講,能運行人工智能算法的芯片稱為人工智能芯片;從狹義上講,人工智能芯片是專門針對人工智能算法做了特殊加速設(shè)計的芯片。
深度學(xué)習(xí)的搭建,可分為訓(xùn)練和推斷兩個環(huán)節(jié):
1.訓(xùn)練。通過大量的數(shù)據(jù)輸入,或采取增強學(xué)習(xí)等非監(jiān)督學(xué)習(xí)方法,訓(xùn)練出一個復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練過程由于涉及海量的訓(xùn)練數(shù)據(jù)(大數(shù)據(jù))和復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),需要的計算規(guī)模非常龐大,通常需要GPU集群訓(xùn)練幾天甚至數(shù)周的時間,在訓(xùn)練環(huán)節(jié)GPU目前暫時扮演著難以輕易替代的角色。
2.推斷。指利用訓(xùn)練好的模型,使用新的數(shù)據(jù)去“推斷”出各種結(jié)論。雖然推斷環(huán)節(jié)的計算量相比訓(xùn)練環(huán)節(jié)少,但仍然涉及大量的矩陣運算。在推斷環(huán)節(jié),除了使用CPU或GPU進行運算外,F(xiàn)PGA以及ASIC均能發(fā)揮作用。
人工智能芯片的生態(tài)環(huán)境
算法層面:機器學(xué)習(xí)算法不斷成熟
自20世紀(jì)80年代起,機器學(xué)習(xí)算法開始快速發(fā)展,包括決策樹學(xué)習(xí)、推導(dǎo)邏輯規(guī)劃、強化學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)等在內(nèi)的多種機器學(xué)習(xí)算法現(xiàn)已被廣泛應(yīng)用于網(wǎng)絡(luò)搜索、垃圾郵件過濾、推薦系統(tǒng)、網(wǎng)頁搜索排序、廣告投放等領(lǐng)域。深度學(xué)習(xí)作為機器學(xué)習(xí)的一種技術(shù)手段,近年來取得重大突破,因此掀起了人工智能新一輪的發(fā)展熱潮。
深度學(xué)習(xí)本質(zhì)上就是利用深度神經(jīng)網(wǎng)絡(luò)處理海量數(shù)據(jù),其優(yōu)勢在于利用海量數(shù)據(jù)讓神經(jīng)網(wǎng)絡(luò)自己學(xué)習(xí)如何抓取特征,進而提高算法性能,加快了人工智能大規(guī)模商業(yè)化步伐。2016年,谷歌的圍棋人工智能程序AlphaGo以4:1大比分戰(zhàn)勝韓國頂尖棋手李世石,讓世界震驚。隨后僅一年的時間,谷歌又推出新程序AlphaGo Zero,可以不依靠人類指導(dǎo)和經(jīng)驗,僅憑自身算法強化學(xué)習(xí),就以100:0的戰(zhàn)績擊敗了AlphaGo。同時新版對計算力的消耗也大幅降低,相比于舊版的多臺機器和48個TPU,新版只用了一臺機器和4個TPU。由此可以看出,深度學(xué)習(xí)算法的不斷成熟,以及迭代速度的加快,為人工智能硬件環(huán)境的提升和完善提供了支撐條件。
數(shù)據(jù)層面:結(jié)構(gòu)性數(shù)據(jù)獲取能力不斷提升
以往數(shù)據(jù)收集終端和場景缺失,缺少易于處理的結(jié)構(gòu)化數(shù)據(jù),使得數(shù)據(jù)樣本非常稀缺,達不到有效的訓(xùn)練目的,現(xiàn)在智能手機、可穿戴式設(shè)備、智能汽車等智能終端的快速發(fā)展使得數(shù)據(jù)的感知、獲取、分析及存儲能力都在不斷提升。
數(shù)據(jù)感應(yīng)能力提升。隨著傳感器種類的不斷豐富以及物聯(lián)網(wǎng)體系的建立,使得可獲取的數(shù)據(jù)越來越多。
數(shù)據(jù)的分析、存儲能力提升。云計算、大數(shù)據(jù)的發(fā)展進一步提升了數(shù)據(jù)的存儲分析與處理能力。塊存儲、文件存儲、對象存儲支撐起多種數(shù)據(jù)類型的讀取;集中式存儲已經(jīng)不再是存儲架構(gòu),面對海量數(shù)據(jù)的存儲訪問,擴展性、伸縮性更強的分布式存儲架構(gòu)也逐步替代集中式存儲,成為數(shù)據(jù)中心的主流。目前全球數(shù)據(jù)中心單體建設(shè)的規(guī)模在不斷加大。思科預(yù)測,到2020年超大規(guī)模數(shù)據(jù)中心數(shù)量將從2016年的300個增長到485個。
網(wǎng)絡(luò)傳輸能力不斷提升。隨著通信技術(shù)的發(fā)展,有線網(wǎng)絡(luò)從電纜傳輸?shù)焦饫w傳輸,無線網(wǎng)絡(luò)從2G/3G到4G/5G,均帶來了傳輸速度的提升。另一方面,傳輸架構(gòu)的變革帶來傳輸能力飛躍。集中式存儲使得內(nèi)存成為數(shù)據(jù)傳輸?shù)钠款i之一,而分布式網(wǎng)絡(luò)傳輸架構(gòu)的出現(xiàn),產(chǎn)生了分布式隊列技術(shù),如Kafka,拓寬了傳輸?shù)耐ǖ?,使得傳輸能力大幅提升?/p>
計算能力:摩爾定律無法支撐數(shù)據(jù)量爆發(fā)增長
人工智能的基礎(chǔ)是針對海量數(shù)據(jù)的深度學(xué)習(xí),無論是無人駕駛,還是圖像識別、語音識別等,系統(tǒng)底層架構(gòu)都是基于大數(shù)據(jù)的邏輯算法。
根據(jù)IDC研究報告,全球數(shù)據(jù)總量正呈指數(shù)級增長,從2003年的5EB,到2016年12ZB,預(yù)計于2020年達到44ZB。然而,現(xiàn)有硬件算力遠無法匹配大數(shù)據(jù)的高速增長,計算能力已成為限制人工智能發(fā)展的主要瓶頸。
目前提升計算能力主要有三條發(fā)展路徑。一是持續(xù)強化CPU處理能力。然而,隨著CPU特征尺寸不斷逼近物理極限,新產(chǎn)品研發(fā)成本越來越高,2016年英特爾宣布停用“Tick-Tock”處理器研發(fā)模式,研發(fā)周期將從2年期向3年期轉(zhuǎn)變。摩爾定律正逐步失效,CPU處理能力升級速度遠遠落后于數(shù)據(jù)增長速度,已無法支撐人工智能海量數(shù)據(jù)的并行計算。二是采用CPU+X的異構(gòu)計算模式。短期來看,異構(gòu)計算的方式已基本滿足人們對處理器更快速、更高效、更方便的使用要求,但如果讓處理器可以達到模擬人腦神經(jīng)元和腦電信號脈沖這樣復(fù)雜的結(jié)構(gòu),就必須突破現(xiàn)有馮諾依曼的體系結(jié)構(gòu)框架,使計算能力實現(xiàn)質(zhì)的飛躍?;谏鲜鲈?,提升算力的根本方法在于采取非馮諾依曼架構(gòu)的處理器。例如,類腦計算機通過模仿人類大腦的工作機制,進而徹底打破了馮諾依曼體系的發(fā)展瓶頸。
人工智能芯片的主要技術(shù)路線
FPGA技術(shù)
FPGA(Field Programmable Gate Array)是在可編程器件的基礎(chǔ)上進一步發(fā)展的半定制電路,通過將門電路與存儲器有機結(jié)合,并設(shè)計門電路間互聯(lián),進而達到定制目的。
FPGA由于是非馮諾依曼架構(gòu),使得其在運算單元和存儲單元間的信息交換量大幅降低,因此具有流水處理和響應(yīng)迅速的特點。FPGA芯片行業(yè)的生產(chǎn)廠商較多,其中Xilinx(賽靈思)、Altera(阿爾特拉)、Lattice(萊迪思)和Microsemi(美高森美)4家美國企業(yè)握有大部分FPGA專利,且壟斷98%以上的市場份額。
其中Xilinx和Altera分別占比49%和39%,剩余2家占比12%。如今國際半導(dǎo)體巨頭看好基于FPGA的人工智能芯片應(yīng)用前景,紛紛布局基于FPGA的人工智能芯片,例如,英特爾收購了Altera;IBM與Xilinx合作等。國內(nèi)研發(fā)FPGA產(chǎn)品的公司主要有紫光國芯、深鑒科技、廣東高云、上海安路、西安智多晶和上海遨格芯等。
FPGA技術(shù)主要劣勢
FPGA芯片中包含大量的邏輯器件與陣列,其批量生產(chǎn)成本高、產(chǎn)品功耗大和編程設(shè)計較難,使其應(yīng)用領(lǐng)域受到局限。
批量生產(chǎn)成本高。由于FPGA流片成本高昂,實現(xiàn)同樣的人工智能應(yīng)用,制作FPGA芯片的成本可能會超過ASIC的成本10倍以上。如果在流片量高于5萬片的人工智能終端產(chǎn)品等領(lǐng)域,如:車載、手機、音箱、機器人等,生產(chǎn)成本將十分高昂。
產(chǎn)品功耗大。為適應(yīng)下游用戶復(fù)雜多樣的需求和應(yīng)用,F(xiàn)PGA的門電路集成度往往很高,然而具體到某一應(yīng)用,冗余的門電路會提升FPGA的功耗。然而在功耗敏感的領(lǐng)域中,這是非常致命的缺陷。例如,無人駕駛的汽車?yán)脠D像視覺技術(shù)和深度學(xué)習(xí)技術(shù),實時分析周圍環(huán)境,每小時處理的數(shù)據(jù)量接近3TB,汽車本身無法承受,基于FPGA的智能芯片所產(chǎn)生的耗電量。
編程設(shè)計難。在FPGA編程設(shè)計時,要考慮諸多因素,例如:應(yīng)用場景多樣性、復(fù)雜性和運行效率。這些因素導(dǎo)致軟件開發(fā)工作十分復(fù)雜,需要投入大量研發(fā)人員,例如:Xilinx公司的員工中,60%~70%的研發(fā)人員,在進行軟件開發(fā)工作。同時,由于FPGA開發(fā)需要采用專用工具進行HDL編譯,技術(shù)門檻過高。眾多公司已經(jīng)從基于GPU和ASIC人工智能芯片產(chǎn)品研發(fā),轉(zhuǎn)入基于FPGA人工智能芯片產(chǎn)品研發(fā),短期內(nèi)這些公司產(chǎn)品開發(fā)效率受到影響。
FPGA技術(shù)主要優(yōu)勢
FPGA適用于快速變化的人工智能領(lǐng)域。FPGA兼容了PLD和通用門陣列的優(yōu)點,可實現(xiàn)較大規(guī)模的電路。目前人工智能算法的更新迭代速度很快,通用化邏輯芯片更能適應(yīng)變化迅速的人工智能領(lǐng)域。理論上分析,F(xiàn)PGA可以實現(xiàn)任意ASIC和DSP的邏輯功能。在實際應(yīng)用中,開發(fā)人員可通過FPGA的軟件來修改芯片,而不是替換和重新設(shè)計芯片。現(xiàn)有FPGA軟件也可通過互聯(lián)網(wǎng)進行遠程升級。這將極大地方便人員在人工智能領(lǐng)域進行自由開發(fā)、調(diào)試和升級換代。
FPGA的開發(fā)周期短,研發(fā)費用低,有利于更早占據(jù)市場。由于FPGA的開發(fā)流程,不涉及布線、掩模和流片等步驟,使得開發(fā)周期縮減,一款產(chǎn)品的平均設(shè)計周期大約在7個月到12個月之間。FPGA產(chǎn)品的全球最大廠商Xilinx認(rèn)為,更快的研發(fā)速度,可以更早的占據(jù)市場。如果產(chǎn)品晚上市6個月,5年內(nèi)將會少33%的利潤,晚上市4周約等于損失了14%的市場份額。因此,基于FPGA的人工智能芯片可以快速占領(lǐng)市場。同時, FPGA的商業(yè)模式與GPU、ASIC略有不同,眾多的客戶會共同分擔(dān)FPGA芯片的研發(fā)費用(NRE),從而降低研發(fā)成本。所以FPGA可以采用最先進的工藝,不斷降低產(chǎn)品的功耗,增加晶體管的數(shù)量,從而提升了FPGA在人工智能市場上的競爭力。伴隨著人工智能芯片NRE費用的指數(shù)級上升,基于FPGA開發(fā)設(shè)計新一代人工智能產(chǎn)品的優(yōu)勢會更加明顯。
FPGA并行計算效率高,整數(shù)運算能力出眾。FPGA率先使用最先進工藝,單個計算單元的計算頻率突破500MHz。在某些應(yīng)用場景下,大量低速并行單元的計算效率要高于少量高速串行單元。同時,F(xiàn)PGA芯片的整數(shù)運算效率大大超過CPU。在當(dāng)前人工智能的企業(yè)級應(yīng)用中,F(xiàn)PGA占據(jù)了主導(dǎo)地位,如:圖像識別、卷積神經(jīng)網(wǎng)絡(luò)算法、安全控制、壓縮算法等。
GPU技術(shù)
GPU即圖形處理器,原本是在個人電腦、工作站、游戲機和一些移動終端上專門進行圖像處理工作的微處理器。由于GPU在并行運算上的優(yōu)化設(shè)計使其非常適合于深度學(xué)習(xí)算法的訓(xùn)練階段,因此GPU成為目前深度學(xué)習(xí)領(lǐng)域使用最為廣泛的核心芯片。對比GPU和CPU的架構(gòu),雖然GPU依然為馮諾依曼架構(gòu),但其含有的邏輯核心更多,且不依賴緩存(Cache),可使用更多的內(nèi)核進行數(shù)據(jù)的并行運算。因此GPU善于處理SIMD(單指令多數(shù)據(jù)流),即多個執(zhí)行單元以同樣的步伐來處理不同的數(shù)據(jù)。在GPU領(lǐng)域,目前AMD公司以及NVIDIA公司占有絕對的技術(shù)優(yōu)勢和市場優(yōu)勢。
GPU技術(shù)主要優(yōu)勢
GPU作為現(xiàn)在主流的人工智能芯片之一,具有易于開發(fā)、軟件生態(tài)齊全、并行計算能力強的優(yōu)點。
GPU設(shè)計、開發(fā)的周期較短。GPU作為已經(jīng)成熟的通用型人工智能芯片,有更多的軟件和深度學(xué)習(xí)標(biāo)準(zhǔn)庫的支持。通用性強,性能較高,GPU已經(jīng)構(gòu)建了CUDA、cuDNN及DIGITS等工具,支持各種主流開源框架,提供友好的界面和可視化的方式,并得到了合作伙伴的支持,例如浪潮集團開發(fā)了一個支持多GPU的Caffe,曙光集團也研發(fā)了基于PCI總線的多GPU的技術(shù),對熟悉串行程序設(shè)計的開發(fā)者更加友好。依靠這些輔助的軟件和應(yīng)用,開發(fā)人員可以將精力更多的投入到復(fù)雜算法的研究和實現(xiàn)上,使得開發(fā)高復(fù)雜度系統(tǒng)的難度大大降低。
并行計算能力較強。從峰值性能來說,GPU遠高于FPGA,GPU基本單元的計算能力很強。對比于FPGA,雖然FPGA內(nèi)部有大量極細粒度的基本單元,但是每個單元的計算能力(主要依靠LUT查找表)都遠遠低于CPU和GPU中的ALU模塊。而兩者目前在基本單元數(shù)量上的差距并不大,同時目前機器學(xué)習(xí)大多使用SIMD架構(gòu),即只需一條指令可以平行處理大量數(shù)據(jù),在這樣的場景下,GPU的計算性能優(yōu)勢就比較明顯了。
GPU技術(shù)主要劣勢
架構(gòu)相對固定,缺乏靈活性。GPU由于架構(gòu)固定,硬件原生支持的指令也就固定了,無法像FPGA一樣進行編程。而在有些領(lǐng)域可編程性十分關(guān)鍵,因為它讓軟件與終端應(yīng)用公司能夠提供與其競爭對手不同的解決方案,并且能夠靈活地針對自己所用的算法修改電路。
功耗較高,不利于大規(guī)模應(yīng)用。在人工智能領(lǐng)域,GPU與FPGA和ASIC相比,在使用過程中會出現(xiàn)冗余的計算流程,因此會產(chǎn)生較高的功耗。這在功耗敏感的領(lǐng)域,例如工業(yè)應(yīng)用中是非常致命的缺陷。
成本較高。相比于FPGA和ASIC,GPU價格要明顯高出很多,這大大限制了GPU在一些場景的應(yīng)用。
全定制人工智能芯片(ASIC)
ASIC芯片是針對特定的應(yīng)用需求而設(shè)計和定制,與所應(yīng)用的人工智能算法相關(guān)。人工智能機器學(xué)習(xí)算法種類繁多,一般分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、深度學(xué)習(xí)、遷移學(xué)習(xí)等。算法的多樣性使得不同的ASIC芯片應(yīng)用不同,內(nèi)部結(jié)構(gòu)差異性較大。
ASIC芯片從目前發(fā)展進程來看,分為前階段基于FPGA平臺的半定制ASIC、中階段針對深度學(xué)習(xí)算法的全定制ASIC和后階段針對類腦計算算法的神經(jīng)網(wǎng)絡(luò)ASIC。例如,國內(nèi)深鑒科技的設(shè)計的DPU芯片就屬于半定制ASIC;國內(nèi)寒武紀(jì)設(shè)計的寒武紀(jì)系列NPU則屬于全定制ASIC;IBM開發(fā)的TrueNorth就屬于后階段的類腦ASIC。半定制ASIC通常需要設(shè)計芯片架構(gòu),組裝標(biāo)準(zhǔn)化的邏輯單元,如門電路(SSI)、運算器(MSI)、數(shù)據(jù)通路(ALU)、IP核等。在全定制ASIC中,除架構(gòu)設(shè)計外,邏輯單元也需要自行設(shè)計。類腦ASIC芯片相當(dāng)于全定制ASIC的加強版,集成的單元數(shù)量與架構(gòu)復(fù)雜度幾何倍數(shù)增加,力求模仿人腦神經(jīng)元的分析原理。
近兩年,人工智能ASIC芯片發(fā)展迅速。全球范圍內(nèi)各大企業(yè)布局頻繁,軟件企業(yè)與集成電路制造企業(yè)頻頻聯(lián)手,ASIC芯片層出不窮。英偉達與谷歌公司聯(lián)手,布局深度學(xué)習(xí),秘密研發(fā)了ASIC芯片TPU。IBM,高通,英特爾等巨頭也隨勢紛紛在深度學(xué)習(xí)和類腦計算ASIC芯片上投入技術(shù)研發(fā),展開技術(shù)布局。中國的中星微、寒武紀(jì)等企業(yè)也果斷把握時機,積極投入ASIC芯片研發(fā)。然而目前中國半導(dǎo)體初創(chuàng)公司實力有限,大部分企業(yè)都選擇在風(fēng)險較低的半定制或全定制深度學(xué)習(xí)ASIC芯片領(lǐng)域布局,只有深井科技一家在研發(fā)類腦計算領(lǐng)域芯片。
ASIC芯片主要優(yōu)勢
ASIC芯片是專用芯片,其計算能力和計算效率都可以根據(jù)算法需要進行定制,所以ASIC芯片在人工智能領(lǐng)域的應(yīng)用中,主要有以下優(yōu)越性。
體積小,功耗低。ASIC芯片在專用化設(shè)計過程中,充分利用每個運算單元的功能,不會出現(xiàn)冗余的計算單元,有利于芯片體積小型化。在人工智能領(lǐng)域,ASIC芯片與FPGA和GPU相比,不會出現(xiàn)冗余的計算流程,可以實現(xiàn)更低的功耗。非常適合于本地終端上的人工智能運算,如智能手機,智能家電,可穿帶智能設(shè)備等。
性能最優(yōu),效率最高。人工智能應(yīng)用需要大量計算。ASIC芯片通過專用化的設(shè)計可以將數(shù)據(jù)傳輸時間與數(shù)據(jù)等待時間壓制到最低,極大提升了計算效率與性能。
出貨量與成本呈正相關(guān)性。ASIC芯片專門應(yīng)用于特定的人工智能場景。ASIC芯片生產(chǎn)所投入的成本將嚴(yán)重依賴于出貨量,出貨量越大,成本越低。對于出貨量大的人工智能應(yīng)用場景,如本地終端設(shè)備等,ASIC芯片尤為適合。
ASIC芯片主要劣勢
雖然在人工智能應(yīng)用中,ASIC芯片擁有高性能、低功耗等優(yōu)勢,但是同種ASIC芯片的應(yīng)用范圍過窄,導(dǎo)致其局限性十分明顯。
設(shè)計開發(fā)周期過長,上市時間較慢。與FPGA和GPU不同,ASIC設(shè)計需要做物理設(shè)計和可靠性驗證將會占據(jù)更多時間,導(dǎo)致ASIC芯片設(shè)計開發(fā)周期時間過長。
過度依賴算法,市場風(fēng)險高。ASIC芯片對算法的依賴性極高,缺乏靈活性,應(yīng)用較窄。目前人工智能算法高速更新迭代,處在爆發(fā)期遠沒有達到平穩(wěn)期。舊ASIC芯片大概率無法應(yīng)用于新的人工智能算法,因此市場風(fēng)險較高。
研發(fā)成本投入大,小批量出貨,成本將升高。作為人工智能芯片,ASIC單次研發(fā)過程復(fù)雜,需要做光刻掩膜,需要大量流片,對芯片性能功耗進行測試,驗證設(shè)計可行性。這些流程所需的成本投入較大。