本文梳理 2021 年度斯坦福大學《人工智能指數(shù)報告》主要結論①報告鏈接:https://hai.stanford.edu/research/ai-index-2021;版權協(xié)議鏈接:https://creativecommons.org/licenses/by-nd/4.0/。,以期為讀者提供人工智能(AI)這一復雜領域的直觀感知,并從多個角度展示新冠肺炎(COVID-19)疫情對人工智能發(fā)展的影響,為政策制定者、研究人員、企業(yè)高管及普通公眾提供來源于全球的人工智能相關重要數(shù)據(jù)。
2019—2020 年,全球發(fā)表人工智能領域論文的數(shù)量增長了 34.5%。這一數(shù)據(jù)大幅超出 2018—2019 年的增長比例(19.6%)。
在主要國家和地區(qū)中,發(fā)表同行評審人工智能論文數(shù)量最多的機構類型均是學術機構。但產(chǎn)出論文數(shù)量排名第 2 的機構類型在不同國家和地區(qū)卻各不相同:在美國,各大企業(yè)附屬的研究機構所發(fā)表的論文占論文總數(shù)量的 19.2%;而在中國和歐盟,產(chǎn)出論文數(shù)量排名第 2 的機構為政府。其中,中國政府機構產(chǎn)出論文數(shù)量占論文總數(shù)量的 15.6%,而歐盟的該數(shù)據(jù)為 17.2%。
2020 年,中國在世界范圍內(nèi)的人工智能期刊論文被引用次數(shù)首次超過了美國。2004 年,中國的人工智能期刊論文發(fā)表總數(shù)量曾短暫超過美國,后續(xù)在 2017 年又重新奪回領先優(yōu)勢。然而,在過去 10 年中,美國的人工智能領域相關會議論文被引用次數(shù)一直且明顯高于中國。
受到 COVID-19 的影響,2020 年主要的人工智能相關學術會議大都以線上方式召開,因此登記的參會人數(shù)大幅增加。2020 年,9 個會議的參會人數(shù)相對 2019 年幾乎翻了一番。
在過去的 6 年里,arXiv 上與人工智能相關的論文數(shù)量增長了 6 倍多,從 2015 年的 5 478 篇增長到 2020 年的 34 736 篇。
2019 年公開發(fā)表的人工智能論文的數(shù)量占全球同行評審科學論文總數(shù)量的 3.8%,高于 2011 年的 1.3%。
自 2017 年加拿大發(fā)布全球首個國家人工智能戰(zhàn)略以來,截至 2020 年 12 月,已有 30 多個國家和地區(qū)發(fā)布了類似文件。
全球人工智能伙伴關系(GPAI)和經(jīng)濟合作與發(fā)展組織(OECD)的人工智能政策觀察站、人工智能專家網(wǎng)絡于 2020 年啟動。這些國際組織的成立推動了政府間的協(xié)作,以共同支持面向所有人的人工智能發(fā)展。
在美國,第 116 屆國會(2019 年 1 月—2021 年1 月)是美國歷史上對人工智能關注度最高的國會。該屆國會在立法、委員會報告和國會研究服務報告中提到人工智能的次數(shù)是第 115 屆國會的 3 倍多。
巴西、印度、加拿大、新加坡和南非是 2016—2020 年人工智能行業(yè)雇用人數(shù)增長最多的國家。盡管受到了 COVID-19 的影響,2020 年各國的人工智能行業(yè)雇傭的員工人數(shù)仍在繼續(xù)增長。
更多人工智能領域的私人投資集中到了更少的初創(chuàng)公司中。2020 年的私人人工智能投資金額比 2019 年增加了 9.3%。這一數(shù)字比 2018—2019 年(5.7%)增加的比例更高。不過,新融資的人工智能相關公司數(shù)量連續(xù) 3 年減少。
盡管解決與使用人工智能相關的倫理問題的呼聲越來越高,但行業(yè)內(nèi)解決這些問題的努力仍然是非常有限的。例如,人工智能中的公平性和公正性等問題仍然很少受到公司的關注。此外,與 2019 年相比,2020 年認為“個人或個體隱私的風險與人工智能相關”的公司仍然很少,正在試圖減輕或規(guī)避這些風險的公司比例并沒有變化。
盡管 COVID-19 大流行導致了經(jīng)濟衰退,但麥肯錫的一項調(diào)查中有一半的受訪者表示 COVID-19 并沒有對他們在人工智能領域的投資產(chǎn)生影響。而實際上有 27% 的人表示他們的投資仍有所增加。只有不到 1/4 的企業(yè)減少了它們對人工智能的投資。
2019—2020 年,美國的人工智能相關工作崗位比例有所下降,這是 6 年來的首次下降。2019—2020 年,美國發(fā)布的人工智能總數(shù)也下降了 8.2%(從 2019 年的 325 724 個工作崗位減少到 2020 年的 300 999 個)。
過去 4 年,世界頂尖大學加大了對人工智能領域教育的投入。構建或部署實用人工智能模型所需技能的本科和研究生課程數(shù)量分別增加了 102.9% 和 41.7%。
過去 10 年,北美地區(qū)更多的人工智能專業(yè)博士畢業(yè)生選擇在產(chǎn)業(yè)界工作,而選擇在學術界工作的則較少。其中,選擇進入產(chǎn)業(yè)界工作的人工智能專業(yè)應屆博士比例增加了 48%,從 2010 年的 44.4% 增至 2019 年的 65.7%。相比之下,進入學術界的人工智能專業(yè)應屆博士比例下降了 44%,從 2010 年的 42.1% 降至 2019 年的 23.7%。
在過去 10 年中,在美國獲得計算機科學博士學位的總人數(shù)中,人工智能專業(yè)博士人數(shù)所占比例從 14.2% 上升到 2019 年的 23% 左右。與此同時,其他以前非常流行的計算機科學博士學位的受歡迎程度有所下降,包括網(wǎng)絡、軟件工程和編程語言。與 2010 年相比,程序編譯專業(yè)博士學位人數(shù)都有所減少,而人工智能和機器人/視覺專業(yè)則大幅增加。
在經(jīng)歷了 2 年的增長之后,北美地區(qū)的人工智能領域由大學轉到產(chǎn)業(yè)界工作的教師人數(shù)從 2018 年的 42 人下降到了 2019 年的 33 人。2004—2019 年,美國卡內(nèi)基梅隆大學(Carnegie Mellon University)人工智能領域的教師離職人數(shù)最多(16 人),其次是喬治亞理工學院(14 人)和華盛頓大學(12 人)。
2019 年,北美人工智能專業(yè)博士中國際學生的比例繼續(xù)上升,達到 64.3%,比 2018 年增長 4.3%。在外國畢業(yè)生中,有 81.8% 的人留在美國。
在歐盟,絕大多數(shù)人工智能專業(yè)的學術課程都是在碩士及以上階段開設的。學士和碩士階段最常開設的課程是機器人學和自動化,而相關短期課程中最常開設的專業(yè)是機器學習(ML)。
自 2015 年以來,提交給人工智能相關學術會議的論文標題中包含倫理相關關鍵詞的論文數(shù)量有所增長。不過,在主要人工智能會議上標題能夠匹配倫理相關關鍵詞的論文平均數(shù)量多年來仍然較小。
2020 年,與人工智能倫理道德使用相關的五大最受關注的新聞話題分別是:歐盟委員會發(fā)布的人工智能白皮書、谷歌解聘道德研究員 Timnit Gebru、聯(lián)合國成立的人工智能道德委員會、梵蒂岡的人工智能道德計劃,以及美國 IBM 公司正在取消其人臉識別相關業(yè)務。
10 多年來,人工智能專業(yè)女性博士畢業(yè)生和計算機科學終身教職員工中的比例一直很低。美國計算機研究協(xié)會(CRA)的一項年度調(diào)查顯示,北美人工智能專業(yè)博士的女性畢業(yè)生人數(shù)占該專業(yè)博士畢業(yè)生人數(shù)的比例還不到 18%。一項人工智能指數(shù)調(diào)查結果顯示,在世界上的幾所大學中計算機科學系終身教職員工中僅有 16% 是女性。
2019 年,在美國人工智能專業(yè)博士畢業(yè)生新移民中,45% 是白人,22.4% 是亞裔,3.2% 是西班牙裔,2.4% 是非裔美國人。
在過去 10 年中,白人(非西班牙裔)新畢業(yè)計算機博士的比例變化不大,平均約為 62.7%。而同期黑人或非裔美國人(非西班牙裔)和西班牙裔計算機博士的比例則明顯下降,平均分別下降了 3.1% 和 3.3%。
近年來,全球人工智能頂級學術會議 NeurIPS 中的“Black-in-AI”(黑種人從事人工智能小組)研討會的參與人數(shù)顯著增加。2019 年參會人數(shù)和提交論文數(shù)是 2017 年的 2.6 倍,而接受論文數(shù)是 2017 年的 2.1 倍。
生成一切。人工智能系統(tǒng)現(xiàn)在可以處理文本、音頻和圖像并生成足夠高質量的產(chǎn)品,且有望生成大量的人工智能下游應用程序。這也促使研究人員致力于檢測生成模型的技術研究。DeepFake 檢測挑戰(zhàn)賽的數(shù)據(jù)表明了計算機區(qū)分不同輸出的能力。
計算機視覺的產(chǎn)業(yè)化。過去 10 年,得益于機器學習技術(特別是深度學習技術)的應用,計算機視覺研究取得了巨大進展。新的數(shù)據(jù)顯示,計算機視覺正在實現(xiàn)產(chǎn)業(yè)化。在一些較大的基準庫中,算法或模型的性能已經(jīng)開始趨于平穩(wěn)。這表明計算機視覺社區(qū)需要致力于開發(fā)和確定難度更大的基準,以進一步測試性能。各公司正在投入越來越多的計算資源,以比以往更快的速度訓練計算機視覺系統(tǒng)。同時,用于已部署系統(tǒng)的技術,如用于分析視頻靜止幀的對象檢測框架,正在迅速成熟,這表明人工智能將會進一步在產(chǎn)業(yè)場景中部署。
自然語言處理(NLP)超越了它的評估指標。得益于 NLP 的快速發(fā)展,已經(jīng)出現(xiàn)了語言能力顯著提升的人工智能系統(tǒng),并且這些系統(tǒng)已經(jīng)開始對世界產(chǎn)生了有意義的經(jīng)濟影響。谷歌和微軟都在其搜索引擎中部署了 BERT 語言模型,而微軟、OpenAI 等公司也開發(fā)了其他大型語言模型。NLP 的研究進展如此迅速,以至于它已經(jīng)開始超過了用于測試它們的基準。例如,在 SuperGLUE②SuperGLUE是針對早期NLP進展超過自然語言處理領域權威排行榜GLUE(通用語言理解評估基準)評估能力而開發(fā)的NLP評估套件。上獲得能和人類的智能水平相當?shù)能浖a(chǎn)品正在快速涌現(xiàn)。
關于推理的新分析。大多數(shù)技術問題的測量標準都會在固定的基準上顯示出在當前時間點上的最佳系統(tǒng)的性能。而為人工智能指數(shù)開發(fā)的新分析方法提供了允許不斷發(fā)展的基準的測量標準,并將一段時間內(nèi)一組系統(tǒng)的總體性能歸因于各個單獨的系統(tǒng)。這些新分析方法應用于 2 個符號推理問題:自動定理證明和布爾公式的可滿足性。
機器學習正在改變醫(yī)療和生物學領域的“游戲規(guī)則”。隨著機器學習技術的引入,醫(yī)療和生物行業(yè)的格局發(fā)生了實質性的變化。DeepMind 公司的 AlphaFold 應用深度學習技術,在蛋白質折疊這一長達數(shù)十年的生物學難題上取得了重大突破??茖W家利用機器學習模型學習化學分子的表示,以制定更有效的化學合成規(guī)劃。一家人工智能初創(chuàng)公司在 COVID-19 流行期間使用基于機器學習的技術來加速發(fā)現(xiàn)相關的藥物。