我國人工智能發(fā)展基本原則包括四點:一是要科技引領(lǐng),二是系統(tǒng)布局,三是市場主導(dǎo),四是開源開放。開源開放在國家整體新一代的人工智能發(fā)展規(guī)劃里占非常重要的位置。既然有了布局,那么我們的長項在哪里?短板在哪里?
四個優(yōu)勢
第一,政策優(yōu)勢。所謂政策優(yōu)勢,國家對人工智能產(chǎn)業(yè)發(fā)展特別重視,無論從國家層面,還是地方層面,都有很多布局和規(guī)劃,具備政策優(yōu)勢。
第二,數(shù)據(jù)優(yōu)勢。中國的數(shù)據(jù)量非常大,不管是互聯(lián)網(wǎng)的數(shù)據(jù),旅游的數(shù)據(jù),還是老百姓看病的醫(yī)療數(shù)據(jù),都是全世界規(guī)模最大的。有了這些數(shù)據(jù),做人工智能就有米下鍋了。
第三,應(yīng)用場景優(yōu)勢。聽起來好像全世界的應(yīng)用場景都是一樣的,其實不是!人工智能要想用,它要有強烈的需求,這個應(yīng)用場景才能起來,中國人工智能應(yīng)用場景比任何一個地方都豐富。
第四,青年人多。中國本來人口就多,大學(xué)生里面學(xué)工科的人很多。工科的里面,現(xiàn)在又是人工智能最熱。后面我們?nèi)瞬诺墓?yīng)會非常充足,而且他們成長的速度也很快?,F(xiàn)在不管是在國際上最頂級的人工智能國際會議,還是最頂級的國際雜志,投稿人、參會人差不多一半是中國年輕人,所以這是我們最大的優(yōu)勢之一。
四個短板
第一,基礎(chǔ)理論和原創(chuàng)算法方面差距還是比較大。一是因為我們起步晚,另外前些年的科研評估體系使得大家都追熱門,很難在一件事上做二三十年、三四十年,能坐冷板凳的人比較少,所以基礎(chǔ)理論方面還是有比較大的差距。
第二,在高端器件方面有差距。不管是GPU、FPGA,還是高端傳感器等,特別是和模擬、射頻有關(guān)方面的傳感器都是我們的弱項。
第三,開源開放平臺有差距。現(xiàn)在做人工智能基本上都用開源開放平臺,在開源的基礎(chǔ)上快速搭建一個系統(tǒng)就可以做應(yīng)用了。但是現(xiàn)在大家用得比較多的都是谷歌、Facebook、亞馬遜、微軟、或者IBM的。排在前六名的開源開放平臺都是國外的大企業(yè)。國內(nèi)盡管有很多互聯(lián)網(wǎng)巨頭都在開始這方面的工作,像百度等都在推開源開放平臺,但是從市場影響力和規(guī)模來講,還沒有那么大。
第四,高端人才不足。與美國的人工智能高端人才數(shù)量相比,我們大概只有他們的20%左右。
云腦 ?建設(shè)新一代人工智能開源開放共享平臺
既然存在這四個短板,我們怎么辦?我們要補什么?其實,就是要解決開源開放平臺的短板。現(xiàn)在還有一個很大的事,就是現(xiàn)在大家做的開源開放的源程序放在哪兒?像谷歌、微軟、Facebook的源程序是放在GitHub,如果全放在GitHub上行不行?GitHub原來是基金會管理下的托管平臺,后來被微軟收購了,所以現(xiàn)在是微軟下面的托管平臺。這個平臺的母公司微軟公司是注冊在美國的,按照美國法律,GitHub要受美國法律的管轄。對于中國用戶來講,如果將來所有做的東西都放在GitHub上面,如果有一天GitHub不讓某些企業(yè)用,人工智能就變成沒根了,就懸在半空中了。有沒有一個辦法找到一個高效的、風(fēng)險可控的托管平臺。
我們的應(yīng)對策略就是這兩件事,第一件事是開源開放平臺怎么辦?我的想法是通過云腦來建設(shè)新一代開源共享創(chuàng)新平臺,現(xiàn)在我們的想法是做硬件和做軟件。硬件怎么做?現(xiàn)在已經(jīng)有15家企業(yè)的開放創(chuàng)新平臺,這是科技部布局的。我們要做的是在下面再做一個更廣泛的平臺。
為了做這個平臺,我們成立了一個新一代人工智能產(chǎn)業(yè)創(chuàng)新聯(lián)盟。這個聯(lián)盟希望能構(gòu)造一個很好的開源開放生態(tài),生態(tài)里面包括硬件生態(tài)、軟件生態(tài)和應(yīng)用生態(tài)。
軟件怎么辦?我們啟動了啟智平臺治理體系。目前,平臺擁有很多核心成員,包括深圳的鵬城實驗室、北京智源人工智能研究院、北京大學(xué)、國防科技大學(xué)、華為、百度、商湯、京東,等等。同時還有不同領(lǐng)域的社區(qū),既有最底下的基礎(chǔ)設(shè)施、硬件和上面的算法框架的布局,在孵化方面也有生態(tài)的布局。
硬件怎么辦?現(xiàn)在深圳鵬城實驗室牽頭推出鵬城云腦,準備做開源硬件。鵬城云腦一期是100P操作的大型集群系統(tǒng),既有英偉達的GPU,也有華為、寒武紀的人工智能芯片等構(gòu)成的服務(wù)器。之后大概就會建成1000P的一臺機器,這臺機器建成了以后,全國做科研的,不管是高校的、研究所,還是中小微創(chuàng)新創(chuàng)業(yè)的,都可以用來做訓(xùn)練。
當(dāng)前階段,云腦的使命是要聯(lián)合全國所有愿意開源資源的群體一起做。然后,通過分布式的資源調(diào)動管理系統(tǒng),把所有的服務(wù)器資源調(diào)動管理起來,讓它可以為人工智能各行各業(yè)的賦能工作。
這是我們關(guān)于云腦的對策,希望能做人工智能開源開放共享創(chuàng)新平臺,提供給國內(nèi)做人工智能研究和人工智能創(chuàng)業(yè)的人來使用。
匯智 ?建設(shè)風(fēng)險可控的人工智能代碼托管平臺
剛才的那些東西都說好了,但是大家做的源代碼貢獻放到哪里去,是不是仍然放到GitHub?當(dāng)然沒有問題。但是放到GitHub上基本上有兩個問題是需要我們考慮的。數(shù)據(jù)顯示,從國內(nèi)訪問的工程師占GitHub整體訪問人數(shù)的36%左右,就是1/3,但是不到一半。中國的工程師用GitHub的非常多,但是中國的工程師給GitHub做貢獻的不到6%,大概5%左右。也就是說很多人其實只是去拿東西,沒有做貢獻。為什么?有兩種可能性:
第一種可能性是本來他就是要拿東西的,也沒有想要做貢獻。第二種可能性是因為你要做貢獻,你要寫很多文檔,而且要用英文。好多工程師的英文不是第一語言,寫文檔還有障礙,如果用中文寫文檔或者用中文討論問題就簡單了,所以我們要建設(shè)一個高效的托管平臺。首先上面用的語言可以是中文,這樣討論就比較方便。同時,這個托管平臺應(yīng)該放在中國境內(nèi)。這樣國內(nèi)所有做人工智能的人,不管是大學(xué)的,還是企業(yè)的,都可以用。
這個問題我們能不能解決?能解決!怎么解決呢?就是在中國搞一個托管平臺。這個托管平臺我們已經(jīng)發(fā)起了,叫匯智,匯集大家的智慧。匯智的托管平臺已經(jīng)于2019年的7月18日在深圳上線。當(dāng)然目前這個服務(wù)器也不是放在實驗室的服務(wù)器上,而是放在公有云上。但是公有云給我們提供服務(wù),我們花錢在公有云上開一個平臺,大家就可以到那兒去訪問。
現(xiàn)在上邊放的是什么東西呢?剛才我說的像OpenI等,現(xiàn)在有一大堆人工智能框架的東西已經(jīng)都上線了。除了這個以外,我們還鼓勵人工智能、RISC-V等開源項目和代碼。當(dāng)然我們不排他,這個托管平臺不僅有自己的東西,我們還可以做GitHub在中國的鏡像,甚至其他的一些開源代碼在中國的鏡像,我們都可以做。通過這樣的托管平臺,大家可以不用擔(dān)心,打雷下雨照樣可以種自己的自留地。
總結(jié)一下,開源軟件是人類智慧的有效傳承方式,做人工智能必須要做開源,中國要想發(fā)展好新一代的人工智能,必須要有高效和風(fēng)險可控的開源開放平臺。我們現(xiàn)在做了兩個嘗試,第一是做了云腦,希望它能在軟件和硬件方面提供開放的共享創(chuàng)新平臺。第二是匯智,提供一個代碼托管平臺,希望這個平臺能夠高效、風(fēng)險可控,為中國的人工智能發(fā)展夯實基石。
(本文根據(jù)中國工程院院士高文公開演講整理而成,未經(jīng)本人確認。)