文/周峻宇 于磊 李信 姚強
人工智能(Artif icial Intelligence)是由人類所研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學,主要目的是理解自然智能奧秘,創(chuàng)制人工智能機器,增強人類智力能力。自1956年在達特茅斯人工智能夏季研究會正式提出以來,人工智能經(jīng)歷了上升、衰退、突破和重生等60多年的歷史沉浮。2016年,人工智能領(lǐng)域在全世界掀起了第三次熱潮。本輪人工智能發(fā)展將打破傳統(tǒng)創(chuàng)新模式和學科的壁壘,實現(xiàn)理論創(chuàng)新與實踐創(chuàng)新的最大化融合,帶來顛覆性的創(chuàng)新并極大地促進創(chuàng)新成果的應(yīng)用。目前,學界、產(chǎn)業(yè)界和政府層面紛紛將人工智能視為國際競爭的關(guān)鍵所在,并全力開展人工智能研究與產(chǎn)業(yè)創(chuàng)新布局。全面了解人工智能領(lǐng)域的科研態(tài)勢和最新進展,對于科研人員、企業(yè)和管理人員把握人工智能的發(fā)展趨勢具重要意義。因此,本研究主要目的是通過科學計量學的方法,全面揭示國際人工智能領(lǐng)域的科研進展情況,包括科研產(chǎn)出、影響及其合作情況,熱點主題的演化進程,領(lǐng)域的最新研究前沿等,以期為我國人工智能領(lǐng)域相關(guān)科研人員、企業(yè)和管理人員了解自身狀況,制定相關(guān)戰(zhàn)略提供依據(jù)。
圖1:1900-2019年人工智能領(lǐng)域研究年度分布情況
表1:1900-2019人工智能Top 10 國家/地區(qū)及影響力情況
表2:1900-2019人工智能Top 10 機構(gòu)及影響力情況
圖2:人工智能研究國家合作網(wǎng)絡(luò)圖譜(F≥60,N=55)
選擇Clarivate Analytics公司旗下的Web of Science核心數(shù)據(jù)庫為數(shù)據(jù)源,其收錄了科學、社會科學、藝術(shù)和人文科學領(lǐng)域的世界一流學術(shù)性期刊、書籍和會議錄等文獻,最早可以追溯到1900年,是世界范圍內(nèi)最具影響力的科學引文索引。同時,考慮到人工智能領(lǐng)域會議的重要性,本研究的文獻類型確定為研究論文(Article)、綜述(Review)以及會議論文(Proceedings Paper)。具體檢索策略為:主題="*Artif icial intelligence*" AND文獻類型= (Article OR Proceedings Paper OR Review) AND 年份=1900-2019. 數(shù)據(jù)庫索引: SCI-EXPANDED, SSCI, A&HCI, CPCI-S, CPCISSH。檢索時間2019年3月10日,共檢索到31,218數(shù)據(jù)。然后,選擇“全記錄與引用的參考文獻”下載為txt文本格式。
本研究采用科學計量學研究方法和可視化技術(shù),利用自編文獻處理軟件和VOSViewer軟件,將下載的題錄導(dǎo)入到相關(guān)軟件程序,從時間序列、國家分布、機構(gòu)分布、學科和主題分布等方面全面分析目前國際人工智能的科研產(chǎn)出、研究熱點前沿及其發(fā)展趨勢。國家和機構(gòu)的產(chǎn)出數(shù)量通過發(fā)文數(shù)量測量,產(chǎn)出質(zhì)量及影響通過引用和H-index測量,合作情況主要通過合作網(wǎng)絡(luò);人工智能主題分布、熱點前沿主要通過學科分布和關(guān)鍵詞的共詞聚類分析以及同年度關(guān)聯(lián)可視化進行研究。
國際人工智能研究的發(fā)文量時間分布如圖1所示,1960年,Shubik在美國統(tǒng)計學會會刊(Journal of the American Statistical Association) 發(fā)表了“Bibliography on Simulation, Gaming, Artificial Intelligence and Allied Topics”一文,系統(tǒng)整理和推薦了人工智能領(lǐng)域的讀物,1960年至1990年,人工智能領(lǐng)域研究進入緩慢發(fā)展階段,文章數(shù)量緩慢增長,1990年僅達到246篇。1991年至2009年,人工智能領(lǐng)域進入了一個穩(wěn)定發(fā)展的階段,文章數(shù)量從1991年510篇增長到2009年的1271篇。2010年之后,人工智能研究迅速增長,2018年人工智能年度文章數(shù)量迅速增長到3296篇。因此,人工智能研究目前處于快速發(fā)展的新階段,目前已經(jīng)成為科學界的焦點領(lǐng)域之一。
人工智能研究產(chǎn)出前十名的國家/地區(qū)情況如表1所示。157個國家和地區(qū)發(fā)表了31,218文獻,其中前10名國家發(fā)表了21761篇次文章,占總發(fā)文量的69.71%。研究數(shù)量方面,美國作為人工智能研究歷史最悠久的國家發(fā)文量最高,6376篇(占17.25%),中國大陸發(fā)文量緊隨其后,4186篇(13.41%)。研究質(zhì)量方面,美國篇均被引頻次最高,17.25次/篇,英國和加拿大緊隨其后,分別為15.17次/篇和12.29次/篇;中國和印度在相當對較低,分別為4.46次/篇和4.76次/篇。綜合科研實力方面,H指數(shù)表明,美國遠遠高于其他國家(133),其次為英國(83),中國大陸排名第三(56)。
國家或地區(qū)之間的合作情況如圖2所示,其中點的大小代表國家的合作總次數(shù),國家之間的連線代表合作次數(shù),合作次數(shù)越高,點和連線越大,不同顏色表示不同通過合作行程了不同的國家聚類,圖中顯示發(fā)文量大于等于60的55個高產(chǎn)國家之間的合作情況。通過國家之間的合作網(wǎng)絡(luò)圖譜,美國處于人工智能合作網(wǎng)絡(luò)的中心,具有最廣泛的合作伙伴,同英國、中國、加拿大、法國、德國、西班牙等過一同支撐起全世界人工智能合作的主干。形成了以德國為代表的歐洲、以中國為代表的亞洲、巴西為代表拉丁美洲美、阿爾及利亞和突尼斯為代表的北非等合作群體。同時,金磚國家(俄羅斯除外)以及澳大利亞同美國形成了緊密的合作群體,以色列形成了獨立的研究網(wǎng)絡(luò),并且同時主要與主干國家合作。
圖3:人工智能研究機構(gòu)合作網(wǎng)絡(luò)圖譜(F≥50, N=100)
人工智能研究產(chǎn)出前二十名的機構(gòu)如表2所示。14319個機構(gòu)中發(fā)文量前10名機構(gòu)發(fā)表了1615篇次文章,占總發(fā)文量的5.17%。數(shù)量方面,中國科學院發(fā)表257篇排名第一,其次為伊朗伊斯蘭阿扎德大學(190篇),麻省理工學院和斯坦福大學發(fā)文180篇并列第三。研究質(zhì)量方面,美斯坦福大學、麻省理工學院、卡內(nèi)基梅隆大學篇均被引次數(shù)均超過排名前三,平均被引次數(shù)均超過20;香港理工大學排名第四(19.97);中國科學院較低在10次以下。總體研究實力方面,麻省理工學院和斯坦福大學以H指數(shù)33并列第一,卡內(nèi)基梅隆大學、香港理工大學、南洋理工大學位列2-5名,中國科學院排名第六,H指數(shù)為24。此外,我們發(fā)現(xiàn)發(fā)文量排名12位的加拿大多倫多大學篇均被引40.26次,在所有單位中排名最高。
機構(gòu)之間的合作情況如圖3所示,目前主要形成了以美國斯坦福和麻省理工學院等大學為中心和以中國科學院為中心的兩大合作集團。其中斯坦福大學主要與美洲機構(gòu)合作,同時包含了荷蘭、日本、韓國和中國等國家的機構(gòu),是一個全球性的合作集團;而麻省理工學院主要與英國牛津大學和倫敦學院等高校合作并且形成了英國屬性的合作集團;中國集團里包含了新加坡國立大學。此外,還形成了以伊朗伊斯蘭阿扎德大學為核心的伊朗-馬來西亞合作集團、以西班牙瓦倫西亞理工大學等為核心的西班牙合作集團、以澳大利亞悉尼科技大學等為核心的澳大利亞-希臘合作集團等。新加坡南洋理工大學、印度理工學院和波蘭AGH科技大學主要同各大集團同時均勻的合作,但是沒有與某些機構(gòu)固定緊密的合作,因此形成了合作性的特點但是并沒有形成各自為中心的研究集團。
人工智能關(guān)鍵詞主題聚類圖譜如圖4所示,其中點的大小代表關(guān)鍵詞共現(xiàn)頻次,線粗細代表兩個詞之間聯(lián)系緊密程度,顏色反映關(guān)鍵詞或主題的時間分布。通過人工智能主題圖譜的時間變化可以發(fā)現(xiàn),
(1)人工智能早期主要關(guān)注知識管理和智能決策系統(tǒng)等知識表達的研究(藍紫色主題),如專家系統(tǒng)(Expert Systems)、多代理系統(tǒng)(Multi-Agent Systems)、決策支持系統(tǒng)(Decision Support Systems),分布式人工 智 能(Distributed Artif icial Intelligence)、基于案例推理(case-based reasoning)、基于知識的系統(tǒng)(Knowledge-Based Systems)以及本體論(ontology)、知識表示(Knowledge Representation)、知 識 管 理(Knowledge Management)、 知 識 工 程(Knowledge Engineering)、 智 能 代 理 商(Intelligent Agents)等數(shù)據(jù)管理技術(shù)和理論。
(2)隨后,以機器學習為代表的研究成為人工智能重要方向(黃綠色),主要包括機器學習(Machine Learning)、強化學習(Ref inement Learning)、數(shù)據(jù)挖掘(Data Mining)、模式識別(Pattern Recognition),故障診斷(Fault Diagnosis),決策樹(Decision Trees),分類(Classif ication),計算機視覺(Computer Vision),圖 像 處 理(Image Processing)等。
(3)在此基礎(chǔ)上,目前人工智能最前沿和熱點的研究主要聚焦深度學習(Deep Learning)和大數(shù)據(jù)(Big Data)。主要包括特征提?。‵eature extraction)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)、支持向量機(Support Vector Machines)、自適應(yīng)神經(jīng)模糊推理系統(tǒng)(Adaptive Neuro Fuzzy Inference System)、物聯(lián)網(wǎng)(Internet of Things)等。
(4)同時,以神經(jīng)網(wǎng)絡(luò)為代表的算法模型作為人工智能的核心一直伴隨和推動著人工智能的發(fā)展(淺藍色主題),主要包括人工神經(jīng)網(wǎng)絡(luò)(Artif icial Neural Network)、遺傳算法(Genetic Algorithms)、模糊邏輯(Fuzzy Logic)、粒子群優(yōu)化算法(Particle Swarm Optimization)、遺傳編程(Genetic Programming)等一系列算法和預(yù)測模型的研究及優(yōu)化。同時,自然語言處理(Natural Language Processing)也是近年來人工智能重要的研究方向,強化學習(Ref inement Learning)也成為推動人工智能領(lǐng)域發(fā)展的新動力。此外,機器人(Robots)作為人工智能的重要應(yīng)用表現(xiàn),一直伴隨著人工智能的全過程,最新前沿技術(shù)和算法革新將進一步推動機器人的發(fā)展。
通過研究發(fā)現(xiàn)人工智能研究目前處于爆發(fā)式發(fā)展階段,美國和中國及其大學和科研院所是引工智能科研大國。美國作在人工智能研究方面具有悠久的歷史,一直保持高度的活躍性,是全球人工智能研究的中心。同時,英國、加拿大、西班牙、法國和德國等國家也有不俗的表現(xiàn)。中國作為新興國家的代表,盡管近年來科研產(chǎn)出已經(jīng)比肩美國,但是在科研積淀和影響力方面仍然有較大差距,目前科研影響力方面仍然是地區(qū)性的中心,并且與美國合作緊密??蒲袡C構(gòu)方面,斯坦福大學、麻省理工學院和卡內(nèi)基梅隆大學在人工智能方面具有深厚的積淀和超強的科研實力及全球性的影響力。加拿大多倫多大學因“深度學習之父”Hinton團隊的貢獻在論文篇均被引方面表現(xiàn)突出。同時,美國的伊利諾伊大學在影響力方面也而表現(xiàn)不俗。相比之下,中國科學院和伊斯蘭阿扎德大學作為新興國家的科研機構(gòu)代表,科研產(chǎn)出近年來迅速提高,逐漸成為引領(lǐng)地區(qū)的核心機構(gòu),但是研究質(zhì)量和影響力方面與歐美等發(fā)達國家科研機構(gòu)相比仍然有很大的差距。因此,總體上,人工智能研究形成了“一超多強”的局面,美國作為人工智能研究的科研大國和超級強國在整個人工智能領(lǐng)域處于全面領(lǐng)跑地位,同時,英國、加拿大、西班牙、法國、德國等發(fā)達國家同樣在人工智能領(lǐng)域具有較為深厚的積淀并且在某些領(lǐng)域處于世界領(lǐng)先。中國、印度、巴西等世界新興經(jīng)濟體近年來在人工智能領(lǐng)域正在從追趕到部分超越的過程,中國作為人工智能的科研大國和應(yīng)用強國在人工智能領(lǐng)域具有廣闊的前景。
圖4:人工智能關(guān)鍵詞主題聚類與發(fā)展趨勢圖譜(F>=100, N=52)
人工智能的研究主題經(jīng)歷了知識表達、機器學習和深度學習的發(fā)展歷程,以神經(jīng)網(wǎng)絡(luò)為代表的算法作為人工智能的核心要素是推動人工智能發(fā)展的核心因素,同時大數(shù)據(jù)時代、應(yīng)用場景多元化和計算機算力的提高進一步加快了人工智能發(fā)展的步伐。通過對人工智能科研產(chǎn)出和研究內(nèi)容的綜合分析發(fā)現(xiàn),1943年由McCulloch和Pitts提出的人工神經(jīng)元模型開了啟結(jié)構(gòu)模擬方法,同1956年由McCarthy發(fā)起、Simon和Newell等功能模擬方法占成為人工智能20世紀50和60年代的主流。20世紀70至80年代,人工智能的發(fā)展主要聚焦在知識表達技術(shù)和系統(tǒng)的開發(fā),以專家系統(tǒng)和知識系統(tǒng)等為代表的智能決策系統(tǒng)希望通過知識的積累和相關(guān)規(guī)則的制定,實現(xiàn)智能決策。然后,由于人類決策的規(guī)則復(fù)雜海量導(dǎo)致專家系統(tǒng)的決策成本急劇增加,人工智能的發(fā)展進入了瓶頸期。20世紀90年代開始,人工智能研究人員開始轉(zhuǎn)向機器學習,希望通過機器自主學習解決一系列決策相關(guān)規(guī)則的制定問題。隨后,貝葉斯網(wǎng)絡(luò)、支持向量機、神經(jīng)網(wǎng)絡(luò)、進化算法、遺傳算法等成為研究人員研究的焦點。最終,隨著加拿大多倫多大學Hinton團隊與于2006年提出的由一系列受限波爾茲曼機組成的深度置信網(wǎng)絡(luò)以及非監(jiān)督貪心逐層訓(xùn)練使得神經(jīng)網(wǎng)絡(luò)突破瓶頸,2012年提出通過阻止特征檢測器的共同作用來改進神經(jīng)網(wǎng)絡(luò),使得神經(jīng)網(wǎng)絡(luò)又向前推進了一步。神經(jīng)網(wǎng)絡(luò)算法方面獲得的突破性進展突破了深度學習的瓶頸,再一次讓人工神經(jīng)網(wǎng)絡(luò)重新走到了人工智能研究的中心,并且將人工智能發(fā)展從機器學習帶進了深度學習的新時代,卷積神經(jīng)網(wǎng)絡(luò)等一系列圍繞神經(jīng)網(wǎng)絡(luò)開展的算法和強化學習等研究和應(yīng)用迎來了熱潮。同時,隨著大數(shù)據(jù)的產(chǎn)生、計算機算力的提高、應(yīng)用場景的多元化進一步推動了人工智能在現(xiàn)實生活中的應(yīng)用。
人工智能正逐步從弱人工智能時代步入強人工智能時代,人工智能在某些領(lǐng)域已經(jīng)可以比肩甚至超越人類,并且廣泛應(yīng)用到顯示生活中的各個方面。目前,人工智能語音處理、計算機視覺、自然語言處理等方面取得了重要進展,已經(jīng)在圖像識別、語音識別、文本處理、游戲博弈、軟件設(shè)計等諸多方面全面趕超人類,并且開始廣泛應(yīng)用到安防、醫(yī)療、教育、金融、零售等數(shù)據(jù)集規(guī)范且密集的行業(yè)。未來,深度學習將成為人工智能研究的焦點和各國競爭的關(guān)鍵,大數(shù)據(jù)時代將進一步助力深度學習發(fā)展,同時也是從強智能時代到超智能時代的重要路徑,即不僅在各方面都能和人類比肩,甚至可以在各個領(lǐng)域均可以超越人類,可解決任何人類無法解決的問題。