李 會,陳紅羽,李 俠,王麗葉
(安徽財經(jīng)大學 管理科學與工程學院,安徽 蚌埠 233030)
20世紀90年代中期,支持向量機(SVM)算法誕生,隨后各種淺層機器學習模型被提出,如Boosting、最大熵方法(如Logistic Regression)等[1],帶來了機器學習研究熱潮并一直持續(xù)到今天。伴隨著移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等新一代信息技術的高速發(fā)展,產(chǎn)生了大量的類型多樣的數(shù)據(jù)資源。淺層機器模型主要解決數(shù)據(jù)存儲、轉(zhuǎn)換、處理等功能,但無法適應大數(shù)據(jù)背景下自主發(fā)現(xiàn)數(shù)據(jù)信息即時變化的需求,這對淺層機器學習模型提出了更多的挑戰(zhàn)。因此,需要將深度學習能力運用于數(shù)據(jù)分析中,借助機器自主學習能力實現(xiàn)用戶與計算機之間的溝通與協(xié)調(diào),并作出明智決策,這是機器學習努力的方向。因此,了解和探索機器學習領域的熱點及演化過程,對下一步機器學習領域的研究具有借鑒意義。
本文選取Web of Science核心集為數(shù)據(jù)源,以“machine learning”作為標題詞,時間范圍設定為2008年1月—2019年7月,對初步檢索得到的文獻根據(jù)文獻類型進行篩選,共得到7 279條文獻記錄,將其作為研究數(shù)據(jù)集合。對7 279條文獻進行初步統(tǒng)計,文獻共被引243 433次,涉及27 292位作者。
信息計量分析是借助信息計量分析工具,采用定量分析的方法挖掘文獻內(nèi)容特征,并通過可視化的方式呈現(xiàn)文獻內(nèi)在關聯(lián)及趨勢預測。 本文采用HistCite、CiteSpace、VOSViewer和SciMAT等工具對文獻進行可視化分析和社會網(wǎng)絡分析,以此獲得文獻內(nèi)容特征、研究熱點及發(fā)展趨勢。 HistCite是由Thomson Reuters公司開發(fā)的專門針對WOS數(shù)據(jù)庫進行文獻引文關系分析的工具。 它可以發(fā)現(xiàn)文獻之間的引文關系,迅速找出研究領域內(nèi)引用頻次最高、質(zhì)量最好的文獻,并可以通過引文編年圖了解文獻引證關系。 CiteSpace是由美國德雷塞爾大學信息科學與技術學院陳超美博士代領的團隊與大連理工大學WISE實驗室聯(lián)合開發(fā)的科學文獻分析工具。 該軟件可以通過可視化手段呈現(xiàn)科學知識的結構、規(guī)律和分布情況,是一款在科學計量學、數(shù)據(jù)可視化背景下發(fā)展起來的引文可視化分析軟件。 VOSViewer由荷蘭萊頓大學科技研究中心發(fā)布,是一款可以對文獻進行大數(shù)據(jù)分析的工具,可對文獻引用、關鍵詞共現(xiàn)進行可視化聚類分析。 SciMAT是由西班牙格拉納達大學研發(fā)的知識圖譜分析工具。 本文在利用HistCite分析樣本文獻,并進行基本描述統(tǒng)計的基礎上,借助CiteSpace、VOSViewer計量分析軟件對樣本文獻的國家(地區(qū))發(fā)文情況及關鍵詞進行聚類分析,再通過SciMAT科學圖譜分析工具,獲取不同時間區(qū)間的研究主題,分析主題間的關系演化,并以此獲得機器學習領域的熱點主題問題。
文獻計量學認為,某研究領域年度發(fā)文數(shù)量是評價該領域發(fā)展狀況的重要指標之一。本文設定的采集周期是2008年1月—2019年7月,對該時間區(qū)間內(nèi)的年度發(fā)文量進行統(tǒng)計分析,得到機器學習領域年度發(fā)文情況,如圖1所示。
圖1 機器學習研究領域年度發(fā)文情況
由圖1可以看出,機器學習領域研究的文獻數(shù)量呈現(xiàn)穩(wěn)步增長的趨勢。2008—2011年,機器學習領域發(fā)文數(shù)量增長較為緩慢,年發(fā)文數(shù)量在200篇以下,該領域的研究未引起學術界廣泛關注;2012—2016年,發(fā)文數(shù)量年均增長接近100篇;2017年以來,機器學習領域發(fā)文數(shù)量增長較為迅速,年發(fā)文數(shù)量均突破千篇,2018年增長幅度超過100%。這也驗證了隨著大數(shù)據(jù)、人工智能、商務智能分析等新技術的發(fā)展與成熟,機器學習領域的研究越來越被學者關注。
在對樣本文獻年度發(fā)文量進行統(tǒng)計分析的基礎上,利用HistCite信息計量分析工具進一步統(tǒng)計機器學習領域各國家(地區(qū))發(fā)文情況,具體如表1所示。
通過發(fā)文作者所在國家(地區(qū))的統(tǒng)計數(shù)據(jù)可以看出,該領域研究力量主要分布在美國、中國、英國、德國、加拿大等國家。由表1可知,前10位國家的發(fā)文量累計占比高達97.8%,而這些國家和地區(qū)在《世界主要國家2018年互聯(lián)網(wǎng)發(fā)展指數(shù)TOP20排名》中,大部分表現(xiàn)也比較突出,尤其是美國、中國、英國,在全球互聯(lián)網(wǎng)發(fā)展指數(shù)中位列前3名[2]。它們在機器學習領域發(fā)文量也領跑其他國家,這也間接印證了互聯(lián)網(wǎng)發(fā)展水平對機器學習領域的研究及應用起到了很好的推廣及促進作用。雖然德國、加拿大、西班牙、韓國、印度、澳大利亞、意大利等國家發(fā)文數(shù)量占比在4.0%~7.2%之間,但是在全球范圍內(nèi),這些國家在機器學習領域的研究仍然走在前列。從總被引頻次來看,頻次較高的3個國家分別是美國、德國、英國;從篇均引用頻次來看,德國、英國、美國排在前3位。德國雖然在發(fā)文量方面僅占7.2%,但篇均被引頻次達28.60次,比發(fā)文數(shù)量最多的美國高出14.10次,比發(fā)文數(shù)量排名第二的中國高出21.85次。從信息計量統(tǒng)計分析的角度來看,德國在機器學習領域的研究取得很多創(chuàng)新性的成果,而且研究成果得到學術界廣泛的認可和引用。中國的發(fā)文量雖然排在第二位,但是篇均被引頻次表現(xiàn)不是很突出。這說明我國需要進一步提高論文質(zhì)量,以提高論文的引用率,要在注重發(fā)文數(shù)量的基礎上加強交流合作,注重顛覆性技術突破研究。
表1中僅能體現(xiàn)發(fā)文量排在前10位國家的情況,如果需要進一步了解國家(地區(qū))之間的科研合作情況,需要借助VOSViewer進行國家(地區(qū))合作關系可視化分析。本文將樣本文獻預處理后,導入VOSViewer中,選取發(fā)文量在50篇及以上的國家(地區(qū))進行可視化分析,有33個國家(地區(qū))滿足條件,最終形成國家(地區(qū))間的合作關系網(wǎng)絡圖譜,如圖2所示。
圖2中:節(jié)點代表發(fā)文數(shù)量,節(jié)點越大說明發(fā)文數(shù)量越多,反之則越少;節(jié)點與節(jié)點之間的連線代表合作關系,連線越粗說明合作越密切。從圖2可以看出,美國、中國、英國在合作關系中處于核心位置,美國與日本、中國、韓國、西班牙、德國聯(lián)系最為密切,與中國合作較為密切的有美國、日本、韓國、英國、加拿大、德國等。從發(fā)文時間來看,以色列、瑞士、法國、葡萄牙、伊朗、威爾士等國家(地區(qū))在機器學習領域研究較早,而隨著時間的推移,目前在機器學習領域研究表現(xiàn)較為突出的是美國、日本、加拿大、英國、西班牙、巴西、韓國等國家。
文獻的關鍵詞是對文獻內(nèi)容的高度凝練和概括,是文獻的核心和精華所在。通過關鍵詞共現(xiàn)分析,發(fā)現(xiàn)主題詞之間的關聯(lián)性,揭示時間推移過程中主題詞的演化過程,可以為該領域的相關研究提供輔助支持。本文在對樣本文獻資料中的關鍵詞進行規(guī)范化處理的基礎上,選擇詞頻數(shù)量大于100的關鍵詞進行分析,最終有37個關鍵詞符合要求。對這37個詞進行共現(xiàn)分析,形成圖3所示的聚類圖譜。節(jié)點代表關鍵詞的詞頻數(shù)量,節(jié)點越大說明以該節(jié)點作為關鍵詞的文獻越多,也說明該節(jié)點在該領域研究中被學者關注得越多。節(jié)點與節(jié)點之間的連線代表這兩個節(jié)點出現(xiàn)在同一篇文獻中。連線越粗說明兩個節(jié)點同時出現(xiàn)在一篇文章中的頻率越高。
圖2 機器學習研究領域的國家合作關系圖譜
圖3 機器學習研究領域關鍵詞共現(xiàn)網(wǎng)絡圖譜
參照圖3中形成的聚類效果,結合每個關鍵詞之間的連接程度,本文將機器學習領域中的研究主題概括為以下4個方面:
(1) 支持向量機領域的研究。主要針對隨機森林、證實、回歸分析、變量選擇、特征選擇等。
(2) 分類領域的研究。主要涵蓋了特征識別、醫(yī)學診斷、決策樹、預測等。
(3) 神經(jīng)網(wǎng)絡領域的研究。主要針對算法、人工神經(jīng)網(wǎng)絡、支持向量回歸、模型研究等。
(4) 深度學習領域的研究。主要從大數(shù)據(jù)、人工智能、數(shù)據(jù)挖掘、系統(tǒng)、管理、網(wǎng)絡等角度開展研究。
使用SciMAT工具進行主題演化分析,可以很直觀形象地觀察機器學習領域在不同時間的熱點主題及主題之間的關系,從而了解該領域主題詞演化過程,為該領域后續(xù)的研究提供支撐。本文將數(shù)據(jù)劃分為2008—2009年、2010—2011年、2012—2013年、2014—2015年、2016—2017年、2018—2019年,6個區(qū)間。 以文獻關鍵詞作為分析單位,以共現(xiàn)矩陣作為網(wǎng)絡構建方式,以等價性指數(shù)作為網(wǎng)絡標準化方式,以簡單中心算法作為聚類算法,通過內(nèi)部鏈接和外部鏈接構建機器學習不同時間區(qū)間的主題演化視圖,如圖4所示。
機器學習早期關注支持向量機、蛋白質(zhì)、基因等領域。隨著時間的推移,預測、神經(jīng)網(wǎng)絡、人工神經(jīng)網(wǎng)絡、數(shù)據(jù)庫、序列模式等領域成為學者關注的焦點。2014年之后,預測、系統(tǒng)、決策樹、圖像識別等成為機器學習領域的主要研究對象。2016—2017年,隨機森林、基因表達、影響因素、性能分析等內(nèi)容開始受到學術界的關注。2018年以來,人工神經(jīng)網(wǎng)絡、算法、風險、模式、相變逐漸成為研究的側(cè)重點。從圖4中6個時期的主題詞演化過程來看,機器學習研究主題分布范圍較為廣泛,各主題詞之間的交互較為頻繁,人工神經(jīng)網(wǎng)絡自2010年被關注后,經(jīng)過幾年的發(fā)展,在近兩年來仍然是研究者關注的主要問題。除了常規(guī)的支持向量機、預測、分類等之外,算法優(yōu)化、相變、風險等逐漸成為研究的熱點問題。
圖4 機器學習研究領域不同時期的主題演化
從關鍵詞共現(xiàn)網(wǎng)絡圖譜及主題詞演化過程可以看出,機器學習研究涉及醫(yī)學、分類、預測、模型、神經(jīng)網(wǎng)絡、深度學習等領域,研究領域也在不斷擴展,尤其在醫(yī)學診斷、圖像識別、算法優(yōu)化等方面表現(xiàn)較為突出?;谏鲜鼋o出的聚類及不同時期主題詞演化過程,機器學習領域的研究主題可以歸納為5大類:支持向量機、分類問題、神經(jīng)網(wǎng)絡、人工智能、深度學習。其中,“深度學習”是機器學習領域近年研究的熱點問題。
“支持向量機”在1964年被提出,20世紀90年代以后得到快速發(fā)展,是一類有監(jiān)督的學習過程,主要依據(jù)數(shù)據(jù)分布情況求解最大邊距超平面,從而解決二元分類問題。由于突出的學習性能,該項技術已成為國內(nèi)外機器學習領域新的研究熱點。目前,該技術主要應用于圖像識別、文本分類、手寫字符識別、生物信息學等領域。在圖像識別領域,遙感圖像的土地覆蓋識別、農(nóng)作物生長情況監(jiān)測等取得了較為突出的成果[3];在文本分類領域,對故障排查、特征排名等內(nèi)容展開研究[4-5];在手寫字符識別方面,實現(xiàn)了打字、手寫和印刷文本圖像的自動轉(zhuǎn)換及英文數(shù)字識別[6-7];在生物信息學領域,利用SVM技術可以自動準確地檢測某些事件,提高檢測疾病的效率[8]。
分類和預測是利用現(xiàn)有數(shù)據(jù)進行預測的方法,分類是對離散類別的數(shù)據(jù)對象進行預測,預測是針對連續(xù)的、有序的數(shù)據(jù)對象進行預測。目前,分類和預測已在很多領域得到廣泛應用。如近年來,為了更好地完成對土地不同類型特征的判斷,學術界開始針對遙感圖像進行分類領域的研究。研究證實,運用SVM、神經(jīng)網(wǎng)絡、隨機森林等技術實現(xiàn)遙感圖像分類的總體準確率有較大幅度的提升。Lotte團隊[9]針對自適應分類器、矩陣和張量分類器、轉(zhuǎn)移學習和深度學習及其他一些雜類分類器的原理及如何使用進行分析,為進一步推進BCI中腦電分類提供了參考。
1943年,“似腦機器(mindlike machine)”思想的提出開啟了人工神經(jīng)網(wǎng)絡的研究。經(jīng)過幾十年的發(fā)展,神經(jīng)網(wǎng)絡已在模式識別、圖像處理、自動控制、機器人、信號處理、商業(yè)管理、醫(yī)療診斷和軍事等領域均有廣泛的應用。Tien等[10]以Son La水電站為研究對象,利用神經(jīng)網(wǎng)絡技術實現(xiàn)淺層滑坡敏感性模型的訓練和驗證。Carleo等[11]將神經(jīng)網(wǎng)絡應用在量子物理學中的多體問題研究領域,提出的強化學習方案能夠找到基態(tài)并描述復雜相互作用的量子系統(tǒng)的單位時間演化。Zhu等[12]將神經(jīng)網(wǎng)絡技術應用于河流系統(tǒng)中河流水溫領域的研究,提出的關鍵控制學習模型被有效地用于河水溫度模擬。李曉峰團隊在基于卷積神經(jīng)網(wǎng)絡的多樣性關鍵數(shù)據(jù)方面改進了現(xiàn)有的并行推薦算法,解決了傳統(tǒng)數(shù)據(jù)推薦算法易受干擾因素影響的問題[13]。
“人工智能”在1956年的達特茅斯會議上被首次提出,這次會議也開啟了對這一新興領域的研究。研究人工智能的初心是希望它能在實現(xiàn)自然智能的基礎上,不斷擴展甚至加快人類智能的發(fā)展水平,并逐漸實現(xiàn)超智能。雖然人工智能研究已經(jīng)走過60多年,但它依然在模擬、延伸和擴展人的智能方面不斷探索,應用領域在不斷擴大,取得了許多驕人的成績。如Salehi等學者[14]將人工智能技術應用于專家系統(tǒng),提出一種基于概率方法的數(shù)據(jù)挖掘方法,可有效地用于重建延遲和丟失的信號,從而解決能源可用性的問題,解決各類智能基礎設施監(jiān)控系統(tǒng)和智能城市中使用的專家系統(tǒng)收集的嘈雜信號和不完整信號可解釋的問題。Ramkumar[15]等學者將人工智能技術應用于醫(yī)學領域,探索下肢關節(jié)置換術的機器學習模型,這些模型能夠有效預測患者術前的價值指標。Liu等學者[16]將人工智能技術引入暴雨風險的早期識別中。
大腦的工作過程是對接收的信號不斷迭代、不斷抽象并概念化的過程,是一個深度的認知過程。而深度學習就是通過組合低層特征,形成更加抽象的高層特征的過程,是學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次的過程,突破了淺層結構學習模型的局限性。因此,深度學習已然成為機器學習領域中的一個全新的研究方向,主要目的是讓機器同人一樣具有深度的分析學習能力。Gulshan等學者[17]應用深度學習創(chuàng)建一種自動檢測視網(wǎng)膜底照片中糖尿病性視網(wǎng)膜病變和糖尿病性黃斑水腫的算法,該算法具有很高的靈敏度和特異性。Ghorbanzadeh團隊[18]將深度學習技術應用于地質(zhì)災害的預測,通過大量的衛(wèi)星光學數(shù)據(jù)和地形地貌數(shù)據(jù),借助先進的深度學習方法,不斷滿足全球?qū)υ敿毝鴾蚀_的滑坡圖和清單的需求。Peng團隊[19]則將深度學習應用在通信系統(tǒng)中,依托大量數(shù)據(jù),自動完成數(shù)據(jù)特征的選擇,大大降低了調(diào)制分類中任務的復雜程度。
機器學習是人工智能及模式識別領域共同的研究熱點,其理論和方法已被廣泛應用于解決工程應用和科學領域的各類復雜問題,取得了豐碩的研究成果。本文以機器學習研究領域的文獻為研究對象,借助文獻計量分析軟件,利用描述性分析、聚類分析、主題演化分析等方法,從該領域的年度發(fā)文情況、國家(地區(qū))合作情況、研究熱點趨勢、主題演化等角度,對機器學習研究進行綜合分析和總結。從年度發(fā)文情況來看,機器學習論文呈現(xiàn)每年遞增的趨勢,尤其在2017年以后,發(fā)文數(shù)量急劇增長,說明該領域的研究引起全球?qū)W者越來越多的關注,成為重點研究領域之一。從地區(qū)發(fā)文統(tǒng)計來看,美國、中國、英國在機器學習領域發(fā)文量領跑其他國家,3國發(fā)文量累計占比高達約63%,德國發(fā)文總量雖然不夠突出,但在篇均被引頻次上位居第一,充分說明德國在機器學習領域的研究成果被學術界認可。從合作關系來看,美國、日本、中國、韓國、英國、加拿大等國家聯(lián)系較為密切。從研究聚類情況來看,機器學習的研究基本集中在支持向量機、分類與預測、神經(jīng)網(wǎng)絡、人工智能、深度學習等領域。而通過主題演化分析來看,機器學習將會在量子計算、算法改進、相變、風險等領域展開新一輪的研究。