趙艷秋
未來支撐人工智能大規(guī)模應(yīng)用的芯片將是什么?
在北京,一家研發(fā)人員全部來自清華、斯坦福的人工智能初創(chuàng)企業(yè)——深鑒科技,正在研發(fā)一種新技術(shù),讓機(jī)器學(xué)習(xí)的“推斷”效率得到最大的提高。
常聽說機(jī)器學(xué)習(xí)分為“訓(xùn)練”和“推斷”。前者是對(duì)模型進(jìn)行訓(xùn)練,讓模型更智能,一般在研發(fā)中心完成;后者是模型訓(xùn)練完成后,在數(shù)據(jù)中心進(jìn)行生產(chǎn)部署。一般來說,95%以上的機(jī)器學(xué)習(xí)計(jì)算都用于“推斷”,只有不到5%用于一開始的模型訓(xùn)練,各大企業(yè)如火如荼的機(jī)器學(xué)習(xí)“訓(xùn)練”,著實(shí)讓一家芯片企業(yè)——英偉達(dá)——變得炙手可熱。這家企業(yè)提供的GPU(圖形處理器)特別擅長(zhǎng)模型訓(xùn)練。
但到了“推斷”階段,情況發(fā)生了變化。如果說機(jī)器學(xué)習(xí)的“訓(xùn)練”需要非常高的性能,關(guān)注浮點(diǎn)運(yùn)算,功耗很高的話,那么“推斷”這種大規(guī)模部署,就必須大幅提高效率,降低能耗。而英偉達(dá)確實(shí)還沒有大規(guī)模生產(chǎn)部署的成功例證。
當(dāng)機(jī)器學(xué)習(xí)大規(guī)模應(yīng)用
深鑒科技的研究是為了加速機(jī)器學(xué)習(xí)的生產(chǎn)部署。它將精簡(jiǎn)過的神經(jīng)系統(tǒng)模型進(jìn)一步壓縮,變成更小的模型,來提高運(yùn)行效率。
“不僅如此,深鑒科技的一項(xiàng)工作處于業(yè)界尖端——他們研究怎么在數(shù)據(jù)精度降低后,最小限度地?fù)p失模型的精確性?!辟愳`思戰(zhàn)略與市場(chǎng)營(yíng)銷部高級(jí)副總裁Steve Glaser說,“以往精度降低的數(shù)據(jù)類型,對(duì)機(jī)器學(xué)習(xí)在大規(guī)模運(yùn)行,尤其是超大規(guī)模運(yùn)行時(shí),有非常大的影響?!?/p>
今年夏季,深鑒科技在硅谷召開的重要技術(shù)會(huì)議Hot chips上公布研究結(jié)果,他們的方法在機(jī)器學(xué)習(xí)推斷方面超過了GPU的速度,而能效卻比GPU高10倍。
深鑒科技的研究基于賽靈思的FPGA(現(xiàn)場(chǎng)可編程門陣列)芯片。這是一種可以通過反復(fù)編程執(zhí)行特定任務(wù)的芯片。這個(gè)在機(jī)器學(xué)習(xí)大規(guī)模部署方面的研究令賽靈思興奮不已。
不僅如此,2016年10月,百度宣布采用賽靈思FPGA芯片,來加速他們的機(jī)器學(xué)習(xí)進(jìn)程,涉及語(yǔ)音和汽車應(yīng)用。同樣在Hot chips會(huì)議上,百度研究人員公布,他們發(fā)現(xiàn)用賽靈思FPGA可以加速序列數(shù)據(jù)分析,提速達(dá)到10倍。
更令賽靈思振奮的是,亞馬遜AWS這個(gè)全球最大的公有云企業(yè),在11月底美國(guó)拉斯維加斯舉辦的一年一度的re:invent大會(huì)上,宣布選擇賽靈思FPGA,發(fā)布它的F1計(jì)算實(shí)例服務(wù),這是一種由2個(gè)CPU和8個(gè)FPGA組成的計(jì)算類型,支撐的應(yīng)用多為大數(shù)據(jù)分析、視頻分析和機(jī)器學(xué)習(xí)。目前FI計(jì)算實(shí)例已開始預(yù)覽服務(wù),明年早些時(shí)候在全球公布。
芯片探索從未中斷
伴隨人工智能規(guī)模應(yīng)用的嘗試和推進(jìn),而傳統(tǒng)CPU芯片成本昂貴,功耗密度有局限,市場(chǎng)上出現(xiàn)了各類芯片技術(shù)。
今年中,谷歌宣布專門為人工智能設(shè)計(jì)了一款自己的芯片TPU,它更適合運(yùn)行谷歌人工智能系統(tǒng)TensorFlow,這個(gè)系統(tǒng)也是AlphaGo的基礎(chǔ)。TPU是一款專用芯片,能在更低能耗下,在更短時(shí)間完成更多任務(wù)。
谷歌認(rèn)為,對(duì)機(jī)器學(xué)習(xí)來說,現(xiàn)在火熱的GPU不夠?qū)>?,畢竟GPU在設(shè)計(jì)之初不是針對(duì)人工智能用途的,而是針對(duì)游戲和其他圖形密集型應(yīng)用。谷歌認(rèn)為,定制芯片可以進(jìn)一步提高效率。
另一種芯片是FPGA。微軟已測(cè)試FPGA在機(jī)器學(xué)習(xí)領(lǐng)域的運(yùn)用,英特爾為此花費(fèi)167億美元收購(gòu)FPGA芯片供應(yīng)商Altera。而賽靈思目前是市場(chǎng)上獨(dú)立的FPGA供應(yīng)商,其產(chǎn)品更迭更領(lǐng)先一籌。
“谷歌的定制芯片只用于執(zhí)行某項(xiàng)任務(wù),它的應(yīng)用廣度遠(yuǎn)遠(yuǎn)不能滿足超大規(guī)模數(shù)據(jù)中心的要求。”賽靈思Steve Glaser說,“人們使用的應(yīng)用越來越多,數(shù)據(jù)中心也要為此部署越來越多的應(yīng)用,還要適應(yīng)應(yīng)用不斷變化的數(shù)據(jù)和性能。”
不過,F(xiàn)PGA目前要解決的最大瓶頸是它的開發(fā)便利性。過去,F(xiàn)PGA應(yīng)用在通信、航空航天等高端應(yīng)用領(lǐng)域?,F(xiàn)在,它要更適合廣泛的開發(fā)者,特別是嵌入式及大規(guī)模數(shù)據(jù)中心的應(yīng)用。針對(duì)數(shù)據(jù)中心應(yīng)用,賽靈思最近推出了可重配置的加速堆棧。“加速堆?!钡耐瞥鲆馕吨愳`思提供的不止是 FPGA,它還提供優(yōu)化的數(shù)學(xué)函數(shù)庫(kù)與應(yīng)用函數(shù)庫(kù)、軟件框架實(shí)現(xiàn)方案、支持 OpenCL 和 C/C++ 等高級(jí)語(yǔ)言的工具、便于配置和管理的 Openstack 支持,以及預(yù)期的加速器板參考設(shè)計(jì)。
賽靈思期望借助這個(gè)新型的、用于數(shù)據(jù)中心工作負(fù)載加速的可重配置加速堆棧,加速 FPGA 在數(shù)據(jù)中心中的更廣泛應(yīng)用。該產(chǎn)品專為世界最大的數(shù)據(jù)中心而設(shè)計(jì),例如阿里巴巴、亞馬遜、百度、Facebook、谷歌、微軟和騰等“超七大”數(shù)據(jù)中心公司。賽靈思的戰(zhàn)略是既要充分利用 FPGA 的靈活性、性能和計(jì)算效率,同時(shí)又要讓該技術(shù)隨著業(yè)務(wù)需求變化易于開發(fā)、部署和演進(jìn)。
“這并不是一個(gè)交鑰匙工程,但我們也替大規(guī)模數(shù)據(jù)中心的開發(fā)者和管理者完成了80%的工作,還有20%有待他們優(yōu)化、細(xì)化,來實(shí)現(xiàn)他們定制化的目的?!盨teve Glaser說,“我想這是一個(gè)開端,但現(xiàn)在還沒完全達(dá)到我們的目標(biāo)?!?/p>
產(chǎn)業(yè)界的探索從未中斷,可能等到一些年后才能知道什么是最佳的方案,畢竟,人工智能這個(gè)概念本身也在繼續(xù)進(jìn)化中。