徐國亮,陳淑珍
(1.國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作江蘇中心,江蘇 蘇州 215163;2.國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心福建分中心,福建 福州 350000)
自1956 年達(dá)特茅斯會議上提出人工智能的概念以來,經(jīng)歷數(shù)十載的起起浮浮[1-3],從2006 年起,隨著深度學(xué)習(xí)算法的進(jìn)一步優(yōu)化,伴隨著芯片計(jì)算能力的不斷提升,人工智能技術(shù)進(jìn)入高速發(fā)展的快車道,為迎接由移動時(shí)代向智能時(shí)代的歷史變革,我國于2017 年開啟了人工智能發(fā)展的新紀(jì)元。在黨的十九大報(bào)告中提到“加快建設(shè)制造強(qiáng)國,加快發(fā)展先進(jìn)制造業(yè),推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合”;同年編制印發(fā)了《新一代人工智能發(fā)展規(guī)劃的通知》,為人工智能產(chǎn)業(yè)的發(fā)展?fàn)I造了積極有利的紅利時(shí)期,是我國在自動駕駛、人臉識別、智能安防、工業(yè)機(jī)器人等人工智能應(yīng)用行業(yè)的百花齊放。
2018 年中美貿(mào)易戰(zhàn)中,美國禁止企業(yè)向中興通訊銷售元器件,一度讓我國的通訊行業(yè)龍頭陷入癱瘓,最后以中興通訊的天價(jià)罰單和美方派遣工程師入駐中興行使技術(shù)監(jiān)管暫告一段落。痛定思痛,由此引發(fā)了國人對于芯片自主知識產(chǎn)權(quán)的深刻思考。
人工智能產(chǎn)業(yè)技術(shù)上可分為基礎(chǔ)層、中間層與應(yīng)用層,其中基礎(chǔ)層包括人工智能芯片、算法、大數(shù)據(jù)[2];中間層又稱技術(shù)層,主要定義人工智能的技術(shù)方向,具體分為自然語言處理、計(jì)算機(jī)視覺、語音識別和云服務(wù);最上層則是直接與日常生活息息相關(guān)的應(yīng)用層,直接定義人工智能的應(yīng)用場景或具體行業(yè)[3],例如自動駕駛、智能安防、機(jī)器人、智慧醫(yī)療、智能家居、智慧城市等,然而真正定義人工智能產(chǎn)業(yè)生態(tài)的卻是基礎(chǔ)層,尤其是芯片運(yùn)行機(jī)器學(xué)習(xí)算法的計(jì)算力及其功耗,構(gòu)成了人工智能產(chǎn)業(yè)發(fā)展的基石和原始推動力。
圖1 人工智能產(chǎn)業(yè)結(jié)構(gòu)
人工智能芯片從技術(shù)架構(gòu)上主要分為通用芯片和專用芯片[4]。其中通用芯片是指本質(zhì)上傳統(tǒng)芯片架構(gòu),通過軟件編程支持深度學(xué)習(xí)和復(fù)雜神經(jīng)網(wǎng)絡(luò)算法的芯片,主要包括CPU、GPU、DSP、FPGA 等;而專用芯片,又稱ASIC 芯片,是具有為人工智能算法量身定制的新架構(gòu)[5]的芯片類型,例如谷歌公司推出的TPU 芯片、寒武紀(jì)科技推出的Cambricon 芯片和IBM 公司研發(fā)的TrueNorth 類腦芯片。各種人工智能芯片的優(yōu)缺點(diǎn)及在人工智能領(lǐng)域的表現(xiàn)整理如表1 所示。
表1 AI 芯片分類及對比
雖然目前占據(jù)市場主流的仍是以GPU、FPGA為主的通用芯片,但隨著算法的不斷發(fā)展與完善,通用芯片由于運(yùn)算與存儲相分離的架構(gòu),即便可以通過軟件編程實(shí)現(xiàn)復(fù)雜運(yùn)算,但在訪存時(shí)的帶寬限制與隨之而來的功耗問題將成為限制其性能的瓶頸,而某種意義上來說,專用芯片是專為特定算法開發(fā)的芯片,是算法芯片化的直接結(jié)果,因此業(yè)內(nèi)大膽預(yù)測專用芯片將成為未來人工智能芯片的終端主流形態(tài),至少能夠與通用芯片并駕齊驅(qū)地發(fā)展。
專用芯片又稱為ASIC 芯片,在人工智能領(lǐng)域已經(jīng)商業(yè)化的ASIC 芯片企業(yè)主要集中在中美兩國,其中的龍頭企業(yè)當(dāng)屬美國谷歌公司和中國寒武紀(jì)科技。
谷歌公司從2013 年就開始研發(fā)張量處理單元,即TPU 芯片,2016 年谷歌公司首次公開了TPU 芯片的概念圖,但關(guān)鍵部分并沒有展示出來,直到2017 年才在國際計(jì)算機(jī)體系結(jié)構(gòu)頂級會議ISCA 上正式發(fā)表了論文《在數(shù)據(jù)中心分析中對張量處理器性能進(jìn)行分析》,詳細(xì)解構(gòu)了TPU 芯片的結(jié)構(gòu)組成,在此之前,谷歌已將TPU 芯片用于Google 街景以及被谷歌收購的Deepmind 公司研發(fā)的AlphaGo 機(jī)器人,正是AlphaGo 戰(zhàn)勝頂尖職業(yè)棋手讓谷歌公司的TPU 芯片名聲大躁,但當(dāng)時(shí)的TPU 芯片只能用于終端推理,并且功耗實(shí)在讓人瞠目。2017 年5 月,谷歌公司推出了第二代TPU 芯片,又稱Cloud TPU 或TPU2.0,并聲稱已將該芯片用于谷歌的計(jì)算引擎平臺,用于圖像和語音識別,機(jī)器翻譯等,相比于第一代TPU 芯片,TPU2.0 最大的特色在于它既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),又可以用于推理。時(shí)間再回到2018 年5 月,谷歌公司時(shí)隔僅1 年,又推出了第三代專用處理器芯片TPU3.0,實(shí)現(xiàn)了超過100PFLOPS的處理能力,大約是TPU2.0 的8 倍,其中來自于芯片制造技術(shù)換代的貢獻(xiàn)只有2 倍,意味著更多的改進(jìn)在于芯片架構(gòu)層面。
客觀地說,谷歌公司的TPU 系列芯片仍然用于谷歌自營業(yè)務(wù),基本上還屬于閉環(huán)生態(tài)的狀態(tài),然而谷歌公司采取的策略是第一時(shí)間開源其TensorFlow開發(fā)平臺,并且開放Cloud service,讓全球范圍內(nèi)的開發(fā)人員可以參與到其芯片研發(fā)環(huán)節(jié),無形中實(shí)現(xiàn)了芯片設(shè)計(jì)、邏輯實(shí)現(xiàn)、平臺模式和應(yīng)用環(huán)境的生態(tài)循環(huán),也只有谷歌的體量能夠充分實(shí)現(xiàn)這一進(jìn)程。
寒武紀(jì)科技是我國人工智能芯片領(lǐng)域的龍頭企業(yè),由中科院計(jì)算所的陳天石、陳云霽兄弟于2016 年成立,宗旨是打造各類智能云服務(wù)器、智能終端以及智能機(jī)器人的核心處理器芯片。2011 年,寒武紀(jì)初創(chuàng)團(tuán)隊(duì)即與華為合作成立了聯(lián)合實(shí)驗(yàn)室,致力于神經(jīng)網(wǎng)絡(luò)處理器架構(gòu)優(yōu)化。2014 年,寒武紀(jì)團(tuán)隊(duì)共發(fā)表37 篇論文,其中15 篇論文與法國國家信息與自動化研究所Inria 的Olivier Temam 教授合作,公開提出國際首個深度學(xué)習(xí)處理器架構(gòu)DianNao、首個多核深度學(xué)習(xí)處理器架構(gòu)DaDianNao,在頂級會議發(fā)表論文并獲獎。2015 年,寒武紀(jì)初創(chuàng)團(tuán)隊(duì)開始研發(fā)世界首款深度學(xué)習(xí)專用處理器樣片。2016 年3 月,北京中科寒武紀(jì)科技有限公司正式成立,并完成天使輪投資數(shù)千萬元,此外獲得了1 億元訂單實(shí)現(xiàn)盈利,當(dāng)年,寒武紀(jì)團(tuán)隊(duì)發(fā)布國際首個智能處理器指令集Cambricon ISA,最初命名為DianNaoYu,對應(yīng)的論文發(fā)表于ISCA2016,位列第一。2017 年8月,寒武紀(jì)科技獲得了價(jià)值1 億美元的A 輪融資,該輪投資由國投創(chuàng)業(yè)領(lǐng)投,阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投、國科投資、中科圖靈、元禾原點(diǎn)(天使輪領(lǐng)投方)、涌鏵投資(天使輪投資方)聯(lián)合投資。在本輪融資過后,這家背靠中科院計(jì)算所的創(chuàng)業(yè)公司估值已接近10 億美元,成為了全球第一家智能芯片領(lǐng)域獨(dú)角獸公司,集成了寒武紀(jì)1A 處理器的世界首款人工智能手機(jī)芯片華為麒麟970 正式發(fā)布并在Mate10 手機(jī)中大規(guī)模商用,市場為之沸騰。移動終端是否成功最終取決于用戶的使用體驗(yàn),事實(shí)證明,搭載寒武紀(jì)1A 處理器的華為麒麟970 以每分鐘識別2005 張照片擊敗了當(dāng)時(shí)蘋果公司A11 芯片每分鐘識別889 張照片的記錄。2017 年底,寒武紀(jì)科技在首場發(fā)布會上又發(fā)布了第二代終端雙核處理器Cambricon 1H 以及面向開發(fā)者的軟件平臺Cambricon NeuWare;2018 年5 月,寒武紀(jì)科技發(fā)布了第三代終端處理器Cambricon 1M 以及第一代云端機(jī)器學(xué)習(xí)芯片MLU100,標(biāo)志著寒武紀(jì)成為國內(nèi)首家、并且是世界少數(shù)幾家(如英偉達(dá))同時(shí)擁有終端和云端處理器芯片的公司。1 個月后,寒武紀(jì)科技完成數(shù)億美元的B 輪融資,公司估值達(dá)25 億美元,領(lǐng)跑初創(chuàng)AI 芯片公司。2018 年10 月底,華為海思推出最新旗艦芯片麒麟980,搭載寒武紀(jì)1H 雙核處理器,為華為手機(jī)帶來更加卓越的AI 算力。
谷歌公司是美國互聯(lián)網(wǎng)科技巨頭,寒武紀(jì)科技則是底蘊(yùn)深厚的時(shí)代新貴,兩者遵循著符合各自切身利益的發(fā)展模式,并且在業(yè)內(nèi)都取得了成功,看似各自經(jīng)營,實(shí)則內(nèi)里關(guān)系錯綜復(fù)雜。
前文提到,寒武紀(jì)團(tuán)隊(duì)在確定AI 芯片研發(fā)方向時(shí),就與法國國家信息與自動化研究所的Olivier Teman 教授共同合作,并且首個神經(jīng)網(wǎng)絡(luò)加速器的命名DianNao,也是由Temam 教授提出,正是由于雙方的研究成果在業(yè)內(nèi)引起了軒然大波,Temam 教授隨后被谷歌招致麾下,成為TPU2.0 芯片的奠基人,Temam 教授也將于寒武紀(jì)團(tuán)隊(duì)合作時(shí)的設(shè)計(jì)理念融入了TPU 芯片的研發(fā)中,從某種程度上來說,寒武紀(jì)科技推出的Cambricon 芯片和谷歌公司的TPU芯片也算是同宗同源。
此外,寒武紀(jì)團(tuán)隊(duì)和谷歌公司都做了同樣的一件事情,就是在國際頂級的計(jì)算機(jī)學(xué)術(shù)會議ASPLOS、MICRO、ISCA 上發(fā)表了自己的研究成果,其中寒武紀(jì)團(tuán)隊(duì)的DianNao 獲得ASPLOS2014 的最佳論文獎、DaDianNao 獲得MICRO2014 最佳論文獎、ShiDianNao 發(fā)表于ISCA2015、PuDianNao 發(fā)表于ASPLOS2015、DianNaoYu 獲得ISCA2016 評分第一名;谷歌公司盛名已久,但在人工智能專用芯片方面的成績依然要通過披露TPU 芯片技術(shù)細(xì)節(jié)的論文獲評ISCA2017 的最佳論文加以證明,值得一提的是,谷歌公司的TPU 論文全文引用了寒武紀(jì)團(tuán)隊(duì)前期的6 篇論文。可以說在頂級學(xué)術(shù)會議上發(fā)表論文是一個迅速打開知名度的捷徑,也是近幾年上述頂級會議上收到有關(guān)神經(jīng)網(wǎng)絡(luò)加速器論文逐年增多的主要原因。
谷歌公司在2013—2014 年完成了多筆收購,其中包括2014 年1 月收購英國AI 初創(chuàng)公司Deepmind,連勝圍棋好手李世石、聶衛(wèi)平、柯潔的AlphaGo 就出自Deepmind 公司,除了在每局棋要耗電3 000 美元的AlphaGo 機(jī)器人上使用以搏人眼球之外,TPU 芯片的商用主要還是在谷歌自營的業(yè)務(wù),并不對外售賣。但是谷歌公司開發(fā)了可以直接對TPU 進(jìn)行加速的第二代深度學(xué)習(xí)框架平臺Tensorflow 并且立即開源,Tensorflow 平臺可以支持各種深度學(xué)習(xí)算法,并且用Python、C++、CUDA 語言開發(fā),可以說編程人員用起來得心應(yīng)手,結(jié)合Cloud TPU 業(yè)務(wù),使得全世界范圍內(nèi)的研發(fā)人員都在利用谷歌的軟件開發(fā)平臺和硬件服務(wù)器來進(jìn)行平臺搭建和系統(tǒng)開發(fā),無形中就助力谷歌建立了自己的生態(tài)圈,讓人不免聯(lián)想到移動時(shí)代幾乎一統(tǒng)天下的開源的安卓系統(tǒng)。
寒武紀(jì)團(tuán)隊(duì)則是另一種發(fā)展策略,除了搶占市場先機(jī)之外,借鑒了PC 時(shí)代的intel 和移動時(shí)代的ARM,他們先后推出了x86 和ARM 指令集,實(shí)現(xiàn)了對PC 和移動終端軟硬件的壟斷。指令集是軟件、硬件之間的接口,在人工智能算法多樣化的今天,設(shè)計(jì)一套調(diào)用靈活,且兼容性好的指令集,可以說直接影響AI 生態(tài)的發(fā)展。寒武紀(jì)科技推出的Cambricon ISA 指令集,通過對10 種典型的神經(jīng)網(wǎng)絡(luò)算法測試后,證明了其適應(yīng)性更強(qiáng),該指令集受RISC 啟發(fā),將復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算分解成模塊,從而設(shè)計(jì)簡單短小的調(diào)用指令,簡化了芯片設(shè)計(jì),并且預(yù)留了支持未來多變算法的空間,相較于目前僅較好地支持CNN 卷積網(wǎng)絡(luò)的TPU 而言,擁有自己的指令集的寒武紀(jì)芯片的前景更為樂觀。表2 是谷歌TPU 芯片和寒武紀(jì)Cambricon 芯片的產(chǎn)品對比。
芯片性能提升推動人工智能產(chǎn)業(yè)的發(fā)展,AI 專用芯片是基于特定算法研制的芯片類型,相較于通用芯片具有性能更優(yōu)、功耗更小的優(yōu)勢,未來有望成為人工智能產(chǎn)業(yè)的主流芯片,本文比較了中美兩國AI 專用芯片龍頭企業(yè)的發(fā)展路線,希望能為致力于AI 專用芯片研發(fā)的從業(yè)人員提供一些借鑒。
表2 谷歌TPU 芯片與寒武紀(jì)Cambricon 對比