亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基金項目研究的主題挖掘與動態(tài)演化分析
        ——以美國NSF數(shù)據(jù)中AI領(lǐng)域為例

        2022-10-18 06:05:56靳嘉林王曰芬巴志超岑詠華
        情報學報 2022年9期
        關(guān)鍵詞:人工智能研究

        靳嘉林 ,王曰芬 ,,巴志超 ,岑詠華

        (1.南京理工大學經(jīng)濟管理學院,南京 210094;2.天津師范大學管理學院,天津 300387;3.天津師范大學大數(shù)據(jù)科學研究院,天津 300387;4.南京大學數(shù)據(jù)智能與交叉創(chuàng)新實驗室,南京 210023)

        1 引 言

        研究主題作為學術(shù)成果的一種隱性特征,反映了該學術(shù)成果的主要研究內(nèi)容。領(lǐng)域研究是由大量該領(lǐng)域?qū)W術(shù)成果及其主要研究內(nèi)容構(gòu)成的,因此,領(lǐng)域研究的方向和熱點及其演進態(tài)勢的深入揭示需要從研究主題切入。基金項目資助領(lǐng)域的研究主題更具有科技發(fā)展的政策引領(lǐng)性、學術(shù)前瞻性、應用迫切性和未來探索性,所以,基于情報學視角與數(shù)據(jù)驅(qū)動思想,審查與分析國家級基金項目數(shù)據(jù)特性,通過數(shù)據(jù)表征間的內(nèi)在關(guān)聯(lián)構(gòu)建面向國家級基金項目數(shù)據(jù)的主題挖掘與演化分析框架,具備情報研究的重要意義。

        在國家級基金中,美國國家科學基金會(National Science Foundation,NSF)在美國科學進步中發(fā)揮著重要作用并且資助領(lǐng)域具有廣泛的覆蓋面,其資助的科研項目能夠在一定程度上反映美國科學研究和工程開發(fā)的政策導向和發(fā)展趨勢。同時,人工智能(artificial intelligence,AI)的飛速發(fā)展引發(fā)世界各國政策規(guī)劃與科技資助計劃的競相涌現(xiàn),各國紛紛通過加大研究投入推動人工智能發(fā)展。美國也相繼采取了一系列措施來維護其在AI 領(lǐng)域的領(lǐng)先地位,基金項目的資助便是主要形式之一。

        由此,本文以科學基金數(shù)據(jù)為研究對象,采用關(guān)鍵詞提取、詞向量建模、主題挖掘等方法,構(gòu)建基金項目數(shù)據(jù)主題挖掘與演化分析框架和研究流程,以探測基金項目領(lǐng)域研究主題分布與變化,并通過主題演化路徑變動識別出演化主路徑。在實證中,選取NSF 資助的AI 領(lǐng)域為例,研究美國人工智能領(lǐng)域政策引導的方向、前沿瞄準的范圍、應用示范的側(cè)重及其發(fā)展變化,為學術(shù)研究與政策規(guī)劃提供參考借鑒。

        2 相關(guān)研究

        目前,關(guān)于基金數(shù)據(jù)的研究中以NSF 為數(shù)據(jù)來源的較少。在國內(nèi),多是使用明確學科劃分的領(lǐng)域數(shù)據(jù),例如,王文娟等[1]選擇NSF 資助的海洋酸化相關(guān)研究項目作為研究數(shù)據(jù),徐路路等[2]選擇NSF石墨烯領(lǐng)域項目作為研究數(shù)據(jù)。在國外,有關(guān)NSF數(shù)據(jù)的研究則更多地是通過直接限定年份來獲得數(shù)據(jù),例如,Coccia 等[3]和 Barrios 等[4]選擇 1997—2012年NSF 研究項目作為研究數(shù)據(jù),Kawamura 等[5]選擇2012—2016 年NSF 研究項目作為實驗對比數(shù)據(jù)。

        主題挖掘是利用文本集合中文本特征項之間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)研究主題的過程,目前常見的主題挖掘方法有詞頻分析法、共詞分析法、引文分析法、主題模型法等。例如,趙常煜等[6]基于LDA(latent Dirichlet allocation)模型和情感分析進行主題情感交叉分析;王艷東等[7]以微博為節(jié)點構(gòu)建共詞網(wǎng)絡(luò),結(jié)合Louvain 社區(qū)探測算法進行文本主題挖掘;楊玉娟等[8]通過結(jié)合詞向量模型、凝聚型層次聚類算法和k-means 算法進行主題聚類;Nichols[9]通過構(gòu)建主題模型來測量NSF 項目的跨學科性。通過現(xiàn)有大量研究可以發(fā)現(xiàn),LDA 模型由于其詞性標注的便捷性,在情感分析中能夠發(fā)揮不錯的效果,但短文本的主題分析不盡如人意;共詞網(wǎng)絡(luò)能夠很好地構(gòu)建詞之間的相關(guān)關(guān)系,但忽略了語義在主題中的重要作用;而詞向量模型能夠很好地結(jié)合上下文關(guān)系和語義特征構(gòu)建模型,以此為基礎(chǔ)的聚類算法能夠得到更準確的主題挖掘結(jié)果。因此,在以主題內(nèi)容挖掘為目的的主題分析中,選擇基于詞向量和聚類的方法,能夠得到更優(yōu)的結(jié)果。

        隨著主題挖掘研究的不斷加深,主題演化的研究也逐漸引起重視,研究方法根據(jù)需求也有所不同。有直接使用研究工具的,例如,隗玲等[10]使用NEV-iewer(network evolution viewer)工具進行主題演化,并結(jié)合社區(qū)活躍度、社區(qū)節(jié)點數(shù)量、社區(qū)變化情況等指標確定學科主題演化路徑;有進行標簽梳理的,例如,陳悅等[11]以論文發(fā)表時間和作者輔助信息的外生標簽梳理出中國科學學研究主題的變遷;有使用相關(guān)算法的,例如,李海林等[12]提出基于時間序列聚類的主題發(fā)現(xiàn)與演化分析方法,將發(fā)現(xiàn)的文獻主題轉(zhuǎn)化為反映主題熱度時間序列數(shù)據(jù),并結(jié)合時間序列聚類方法對各主題進行分類以及演化趨勢的分析。雖然演化研究的方法不盡相同,但通過時間維度的演化分析,能夠有效地把握主題變化趨勢。

        3 研究設(shè)計與方法

        3.1 分析框架設(shè)計

        本文遵循“數(shù)據(jù)獲取-數(shù)據(jù)預處理-數(shù)據(jù)挖掘與分析-結(jié)果展示與驗證”的研究范式設(shè)計針對國家級基金數(shù)據(jù)的主題挖掘與演化分析框架,在“數(shù)據(jù)層-分析層-展示層”的三層結(jié)構(gòu)中融入基金項目數(shù)據(jù)單元的表征及其信息含義,開展針對基金項目研究內(nèi)容的分布與演變研究,如圖1 所示。

        數(shù)據(jù)層執(zhí)行的是數(shù)據(jù)準備環(huán)節(jié),包括數(shù)據(jù)獲取與數(shù)據(jù)預處理。數(shù)據(jù)獲取階段,由于基金項目本身不同于論文發(fā)表,具備一定的政策引導性,所以在獲取數(shù)據(jù)時應考慮基金數(shù)據(jù)特征。領(lǐng)域檢索詞的選擇一方面要完整覆蓋學術(shù)研究方向,另一方面要緊密貼合國家政策導向,從而確保數(shù)據(jù)的全面性。數(shù)據(jù)預處理階段,在完成初步清洗去重后,對已獲得數(shù)據(jù)進行二次篩選,特別是基金代碼未覆蓋的研究領(lǐng)域,以確保數(shù)據(jù)的準確性。由于基金數(shù)據(jù)的獲取過程難以獲得關(guān)鍵詞信息,蘊含內(nèi)容屬性的只有標題和摘要,需要采用關(guān)鍵詞提取、術(shù)語切分等手段提取出能夠表征基金內(nèi)容的特征。

        分析層執(zhí)行的是數(shù)據(jù)挖掘環(huán)節(jié),是實現(xiàn)主題挖掘與演化分析的主要過程,通過詞向量模型、主題模型、深度學習等方法,實現(xiàn)主題抽取和相似度的計算,從而形成基金研究的主題分布與動態(tài)演化。

        展示層執(zhí)行的是結(jié)果分析與驗證環(huán)境,主要針對主題分布和動態(tài)演化兩個部分開展。從分析的角度來看,通過主題抽取獲得研究領(lǐng)域基金項目數(shù)據(jù)的主題分布,引入基金分析的獨特視角,如學部視角等,將主題分布落實至不同的維度中。從驗證的角度來看,主題抽取部分需要對結(jié)果進行效果評估,在確定主題模型主題數(shù)時通常需要進行預檢驗,諸如k-means 算法中的誤差平方和與輪廓系數(shù)、LDA 算法中的困惑度與一致性等指標。主題演化部分需要對識別出的主路徑進行檢驗,可以從兩個途徑進行,一是現(xiàn)實檢驗,利用已有數(shù)據(jù)溯源到具體基金項目中,判斷現(xiàn)實中的基金的實際支持力度是否契合演化主路徑;二是交叉檢驗,針對基金相關(guān)的政策文本或受基金資助的學術(shù)成果等多源數(shù)據(jù)開展相關(guān)挖掘工作,利用不同數(shù)據(jù)的實驗結(jié)果交叉驗證演化主路徑是否合理。

        3.2 研究流程與方法

        為了發(fā)掘AI 基金數(shù)據(jù)中的主題內(nèi)容,本文從數(shù)據(jù)挖掘與分析的角度出發(fā),運用RAKE(rapid automatic keyword extraction)算法、word2vec 建模、kmeans 聚 類 、 WMD (word mover's distance) 算 法等,選取美國NSF 數(shù)據(jù)中AI 領(lǐng)域主題發(fā)展態(tài)勢進行挖掘分析,研究流程如圖2 所示。

        首先,在檢索數(shù)據(jù)并對初始數(shù)據(jù)集進行篩選過濾的基礎(chǔ)上,采用RAKE 算法從標題和摘要中提取關(guān)鍵詞,將基金項目數(shù)據(jù)表示為關(guān)鍵詞的集合;然后,進行主題挖掘,使用word2vec 建模方法對基金項目數(shù)據(jù)進行詞向量建模,針對詞向量模型,通過手肘法確定k值,并進行k-means 聚類,得到AI 領(lǐng)域研究主題以及學部視角下的主題分布;最后,開展動態(tài)演化分析,在主題分布中加入時間維度,利用WMD 算法計算不同主題間的相似度,得到主題演化態(tài)勢,對比所有演化路徑的演化強度,識別出演化主路徑。

        3.2.1 基于RAKE算法的關(guān)鍵詞提取

        基于語料庫的關(guān)鍵詞抽取方法存在一定的缺陷,例如,盡管某些關(guān)鍵詞很可能被評估為在語料庫內(nèi)具有統(tǒng)計區(qū)別性,但在語料庫內(nèi)的許多文檔中出現(xiàn)的關(guān)鍵詞卻被認為不具備區(qū)別性。面向語料庫的方法通常也僅對單個單詞起作用。這進一步限制了統(tǒng)計上有區(qū)別的單詞的度量,因為單個單詞經(jīng)常在多個不同的上下文中使用。而快速自動關(guān)鍵詞提取算法(RAKE),是一種非監(jiān)督的、與文本域和語言無關(guān)的方法,用于從單個文檔中提取關(guān)鍵詞,能夠有效避免上述弊端。

        RAKE 算法的輸入?yún)?shù)包括停用詞列表、一組詞組定界符和一組詞定界符。RAKE 通過使用停用詞和詞組定界符將文本解析為一組候選關(guān)鍵詞來對文本進行關(guān)鍵詞提取。首先,通過指定的單詞定界符將文本分成單詞數(shù)組;接著,將數(shù)組在短語定界符和停用詞位置分成連續(xù)的詞序列,序列區(qū)域內(nèi)在文本中的相同位置的單詞被分配在一起,視為候選關(guān)鍵詞,并構(gòu)建候選關(guān)鍵詞共現(xiàn)圖;最后,對每個候選關(guān)鍵詞計算得分,并將其定義為其成員單詞分數(shù)的總和[13]。其中,關(guān)鍵詞得分的計算公式為

        即單詞w的得分是該單詞的度(每與另一個單詞共現(xiàn)在一個短語中,度就加1) 除以該單詞的詞頻(該單詞在該文檔中出現(xiàn)的總次數(shù))。

        3.2.2 基于word2vec的詞向量建模

        在自然語言處理中,詞在計算機中有兩種表示方式:離散表示和分布式表示。傳統(tǒng)的基于規(guī)則或基于統(tǒng)計的自然語義處理方法將單詞看作一個原子符號,把每個詞表示為一個長向量,這個向量的維度是詞表大小,向量中只有一個維度的值為1,其余維度為0,這個維度就代表了當前的詞。分布式表示則將詞表示成一個定長的連續(xù)的稠密向量,即詞向量。

        word2vec 是Google 于2013 年以深度學習的思想為基礎(chǔ)開發(fā)的一種詞向量模型,主要用于實現(xiàn)文本信息由非結(jié)構(gòu)化形式到向量化形式的轉(zhuǎn)變[14]。word2vec 包含 CBOW(continuous bag-of-word model)和skip-gram 兩個模型,CBOW 模型是拿一個詞語的上下文作為輸入,來預測這個詞語本身;skip-gram模型是拿一個詞語作為輸入,來預測這個詞語的上下文,如圖3 所示[15]。由于word2vec 方法在獲得詞向量時會考慮上下文情況,與其他詞嵌入方法相比,其得到的詞向量效果更好,維度更少,所以,處理速度也更快,更適合應用在自然語言處理的任務(wù)中。

        4 實證分析

        4.1 數(shù)據(jù)來源

        本文以AI 領(lǐng)域為例,采用關(guān)鍵詞組合檢索的策略,根據(jù)前期綜合研究確定的418 個關(guān)鍵詞[16],構(gòu)造檢索式“"semantic analysis" or "neural network" or"support vector machine" or "machine learning"…”,在NSF 官網(wǎng)上檢索相關(guān)基金項目,限定基金資助時段為2008.01.01—2018.12.31 (檢索時間為2020 年2月)。去重處理后,共獲取42126 條基金項目數(shù)據(jù);經(jīng)人工篩選與研判后,最終得到AI 領(lǐng)域基金項目數(shù)據(jù)20524 條。

        4.2 研究主題挖掘

        為了充分利用NSF 數(shù)據(jù),從整體與局部兩個方面把握美國AI 領(lǐng)域基金項目發(fā)展概況,本文分別從學術(shù)領(lǐng)域和學部兩個視角進行主題分布的研究。經(jīng)過關(guān)鍵詞抽取,將各基金項目用關(guān)鍵詞的集合來表示,刪除掉無效的關(guān)鍵詞以及關(guān)鍵詞數(shù)量為1 的基金項目,最終剩余19743 條基金項目數(shù)據(jù),涉及關(guān)鍵詞8291 個,表1 顯示了Top 20 的高頻關(guān)鍵詞。

        進一步解讀表1 所示數(shù)據(jù)以及其他高頻關(guān)鍵詞,可以明顯地發(fā)現(xiàn),一些傾向于計算機和數(shù)理方向的詞匯,如機器學習、計算機科學、數(shù)據(jù)分析、大數(shù)據(jù)、數(shù)據(jù)科學、計算模型、數(shù)學模型等,在表格中排名前列,表明在基金項目資助方面人工智能領(lǐng)域的技術(shù)需求以計算機技術(shù)和數(shù)理科學為主,其他學科理論知識則依照相關(guān)應用起輔助作用。大規(guī)模、先進技術(shù)、實時、一致狀態(tài)、開放資源等則體現(xiàn)出人工智能研究中數(shù)據(jù)與方法的特征。在這些關(guān)鍵詞中,出現(xiàn)最多的單詞就是數(shù)據(jù),這充分顯示在數(shù)據(jù)密集型的第四科學研究范式下,基金項目的研究同樣以數(shù)據(jù)為驅(qū)動,合理使用計算機技術(shù)對各類數(shù)據(jù)進行挖掘與分析,進而實現(xiàn)人工智能。除此之外,決策支持、氣候挑戰(zhàn)、材料科學、科學教育等詞語則展示受資助項目的主要應用方向。由此可見,NSF 資助的人工智能研究項目側(cè)重于研究計算機方法并用于解決美國所面臨的實際問題。

        表1 NSF人工智能領(lǐng)域Top 20高頻關(guān)鍵詞

        4.2.1 領(lǐng)域研究主題挖掘與分布

        開展主題挖掘之前需要首先確定研究主題個數(shù)。誤差平方和(square sum of error,SSE) 是所有樣本的聚類誤差,能夠代表聚類效果的好壞,換句話說,SSE 值的計算與比較可以實現(xiàn)對聚類結(jié)果的預檢驗。實驗過程中,隨著聚類個數(shù)k的逐漸增大,每個類簇的劃分都變得更加細粒度,聚合程度也相應提高,但并非k取值越大越好。當k值達到真實聚類個數(shù)時,SSE 值隨k值增加而減小的幅度會迅速降低進而趨于平穩(wěn)。因此,可以通過SSE 值對聚類結(jié)果進行預檢驗,根據(jù)其隨k值變化的曲線來確定最優(yōu)聚類數(shù)。

        使用python 的gensim 包將項目關(guān)鍵詞數(shù)據(jù)通過word2vec 轉(zhuǎn)化為 300 維詞向量,隨后k取值從 2 到50 并依此計算SSE 值,圖4 展示了誤差平方和隨k值的變化曲線。

        在圖4 中,縱軸的上下邊界分別為誤差平方和的最大值和最小值,橫軸表示k的取值,范圍為2~50。觀察發(fā)現(xiàn),在k取值15 前后,誤差平方和的變化首次明顯減緩,因此確定k的取值為15。在此基礎(chǔ)上,進行詞向量的聚類,得到的結(jié)果如表2所示。

        NSF 所資助的AI 研究項目涉及15 個主題。表2展示了各主題的前10 個主題詞,研究涵蓋了計算機、數(shù)學、教育、環(huán)境、材料等多個領(lǐng)域。各主題間界限相對清晰,這反映出融入基金特征的分析框架能夠針對基金數(shù)據(jù)獲得較好的結(jié)果,其中:

        表2 主題分布情況

        Topic1 主要涉及使用數(shù)學或計算機理論方法解決用戶行為問題或經(jīng)濟問題;Topic2 主要涉及各種類型多源數(shù)據(jù)的研究與采集;Topic3 主要涉及在實際工程項目中使用計算機方法解決所遇到的復雜問題;Topic4 主要涉及生命科學領(lǐng)域的研究,并在此基礎(chǔ)上使用計算機方法仿真出生物運作的機能,以此解決醫(yī)療、生物、計算機等多方面問題;Topic5主要涉及AI 在材料和化學領(lǐng)域的應用,通過AI 方法處理多維空間以及不同環(huán)境的數(shù)據(jù),從而找到改良材料的突破口;Topic6 主要涉及AI 硬件及系統(tǒng)設(shè)計中的問題;Topic7 主要涉及教育領(lǐng)域,一方面是教育AI 領(lǐng)域知識,另一方面是使用AI 方法進行教育;Topic8 主要涉及數(shù)學與物理的理論方法,在AI研究中要大量應用數(shù)學與物理的相關(guān)知識,這是理論研究的重點;Topic9 主要涉及數(shù)據(jù)挖掘與機器學習的典型方法,是AI 領(lǐng)域的方法論基礎(chǔ);Topic10主要涉及光電領(lǐng)域工程以及信號降噪等問題研究;Topic11 主要涉及對各類系統(tǒng)的持續(xù)性檢測、優(yōu)化與評價問題;Topic12 主要涉及數(shù)據(jù)的處理與分析,在數(shù)據(jù)密集型的第四研究范式下,數(shù)據(jù)是所有研究的基礎(chǔ),這一主題的研究為其他研究提供有效的數(shù)據(jù)支撐;Topic13 主要涉及物聯(lián)網(wǎng)的研究,從效率、能源、數(shù)據(jù)、安全、隱私等多方面進行傳感器的研發(fā);Topic14 主要研究美國氣候環(huán)境變化所造成的影響,并預測短期內(nèi)的環(huán)境變化,為決策者提供決策支持;Topic15 主要涉及服務(wù)提供商的虛擬系統(tǒng)及現(xiàn)實工程的構(gòu)建。

        4.2.2 學部研究主題挖掘與分布

        NSF 人工智能領(lǐng)域基金項目共涉及7 個學部和1 個辦公室。同一學部下的研究者和研究項目通常擁有著相似的研究領(lǐng)域或?qū)W科,而人工智能領(lǐng)域研究的15 個主題涵蓋了大量的學術(shù)領(lǐng)域以及現(xiàn)實應用場景。因此,學部下的研究主題分布能夠反映該學部學科交叉度以及應用范圍。

        通過對比各學部項目關(guān)鍵詞與各主題所包含的主題詞,得到各學部研究項目在各個主題下的分布情況,如圖5 所示。雷達圖的各個指標分別對應Topic1~Topic15(12 點方向為Topic1,按逆時針方向依次遞增至Topic15),每個學部在各主題下陰影的長度代表該學部研究與各主題的相關(guān)性。

        雷達圖中各學部的陰影部分形狀越接近正15 邊形,說明該學部研究的學科交叉程度越高,現(xiàn)實應用范圍越廣泛。從學部涉及的研究主題來看,計算機信息科學與工程學部、工程科學學部、數(shù)學與物理科學學部的項目在人工智能領(lǐng)域覆蓋廣泛,15 個主題的研究均位列前茅,顯示出這3 個學部的學科交叉研究明顯優(yōu)于其他學部;主任辦公室由于不與具體學科相關(guān)且項目較少,在各個主題上的研究均不突出;社會行為與經(jīng)濟科學學部在Topic1(用戶行為與經(jīng)濟問題)和Topic9(數(shù)據(jù)挖掘與機器學習等方法)中研究表現(xiàn)突出;地理科學學部的優(yōu)勢集中在Topic8(數(shù)學與物理理論方法)和Topic14(氣候環(huán)境問題) 中;教育與人力資源學部在Topic7(教育問題及應用)上彰顯了該學部的特點,同時,在Topic9(數(shù)據(jù)挖掘與機器學習等方法)、Topic12(數(shù)據(jù)處理與分析等基礎(chǔ))等主題都表現(xiàn)不錯;生物科學學部除了在Topic4 (生物仿真與應用) 和Topic5(材料與化學及應用)有側(cè)重外,在Topic9(數(shù)據(jù)挖掘與機器學習等方法)、Topic12(數(shù)據(jù)處理與分析等基礎(chǔ))等主題涉及的也比較多。

        從研究主題所屬的學部來看,研究主題Topic9(數(shù)據(jù)挖掘與機器學習等方法)、Topic12(數(shù)據(jù)處理與分析等基礎(chǔ))、Topic13(物聯(lián)網(wǎng)與傳感器)、Topic14(氣候環(huán)境問題)等是各個學部都關(guān)注的研究,體現(xiàn)出人工智能研究的領(lǐng)域?qū)傩耘c需求;而Topic3(復雜工程問題)、Topic6 (硬件與系統(tǒng)設(shè)計) 和Topic11(系統(tǒng)檢測與優(yōu)化評價)在各個學部的研究都明顯弱于其他主題,主要的研究集中在計算機信息科學與工程學部、工程科學學部、數(shù)學與物理科學學部這3 個學部中,這可能是由于現(xiàn)實問題的復雜性導致研究難度過大,進而使項目的資助受到一定的影響。但從獲得資助項目的經(jīng)費額度看,其中計算機信息科學與工程學部在這3 個研究主題上的投入不低,說明NSF正在加強攻克難關(guān),突破技術(shù)瓶頸。

        綜上可見,NSF 在對人工智能的資助上,既重視根據(jù)現(xiàn)實需求與學科領(lǐng)域核心而展開的研究,也鼓勵多學科的交叉發(fā)展,同時,又針對攻關(guān)項目加大重點投入與支持。

        4.3 研究主題演化

        通過領(lǐng)域主題挖掘能夠揭示美國NSF 基金項目人工智能領(lǐng)域的整體態(tài)勢,但是缺乏對演化趨勢的把握。因此加入時間維度,以時間切片的形式展示各時間段主題分布以及相鄰時間段的演化關(guān)系。同時,根據(jù)各演化路徑的演化強度比較,識別出主演化路徑及其對應的研究主題,從而更加深入地研究NSF 基金資助的側(cè)重點及其變化。

        由于2014 年之前每年項目數(shù)量較少,且關(guān)鍵詞分布散亂,所以將2008—2014 年作為第一個時間切片,其后每一年為一時間切片,按時間維度將數(shù)據(jù)集分為6 份。分別對各時間段數(shù)據(jù)進行主題挖掘處理,圖6 展示了歷年數(shù)據(jù)的誤差平方和隨k值變化曲線,各圖橫軸均為k值,范圍2~50,縱軸均為誤差平方和SSE 值,范圍從SSE 的最小值到最大值。

        在所獲得的數(shù)據(jù)集中,有2019 年的部分數(shù)據(jù),但是不完整,數(shù)據(jù)量明顯少于其他年份,沒有形成固定的主題,所以在時間切片中剔除2019 年數(shù)據(jù),僅使用前5 個時間段。從圖6 可以看出,前5 份數(shù)據(jù)的誤差平方和變化趨勢相似,因此在進行聚類時k值均取 9。

        4.3.1 領(lǐng)域主題演化趨勢分析

        為分析NSF 基金資助的人工智能領(lǐng)域演化態(tài)勢,需要首先計算主題間的相似度。WMD 是2015年提出的一種衡量文本相似度的方法[17],通過兩個主題間詞語的相互轉(zhuǎn)移,使其轉(zhuǎn)移代價降到最小,這個最小的轉(zhuǎn)移代價即為兩個主題之間的WMD,計算公式為

        其中,c(i,j)表示詞向量i和j的歐幾里得距離;n是詞的個數(shù);分別是兩個主題中各個詞權(quán)重(模)組成的向量。

        通過計算相鄰時間各主題的WMD 得到主題的動態(tài)演化情況,如圖7 所示。從圖7 呈現(xiàn)的不同主題的大小與主題之間的變化上看,各時間段人工智能領(lǐng)域的研究主題在統(tǒng)計的范圍內(nèi)都處于不斷的擴張、分裂和融合的過程狀態(tài)。2008—2014 年各個主題規(guī)模都較小且分散,隨著時間的推進,2015—2017 年逐漸形成規(guī)模較大的幾個主題,主題規(guī)模呈現(xiàn)兩極分化態(tài)勢。到2018 年,大規(guī)模的主題開始出現(xiàn)縮減,而小規(guī)模主題有擴張趨勢,表明人工智能研究正在經(jīng)歷從零散到融合的過程,也就是研究性質(zhì)與發(fā)展事態(tài)逐漸從探索性研究步入到系統(tǒng)化研究。

        同時,從圖7 中代表該主題詞頻最高術(shù)語的標簽看,主題演化呈現(xiàn)出明顯的融合、分裂、再融合的復雜過程,每年大小規(guī)模的主題均有不同程度的裂變,并從前序主題中吸納大量研究內(nèi)容。其中,2008—2014 年的 Topic7、2015 年的 Topic3 和 Topic5、2016 年的Topic8 在演化過程中向后時間段均未出現(xiàn)強相似度主題。經(jīng)調(diào)查發(fā)現(xiàn)這些主題所涉及項目均屬于融合多個學科基礎(chǔ)理論方法進行實踐的,其研究主題術(shù)語在下個時間段被分裂至各個主題中,導致每個主題與其相似度均不為0 但都不高,屬于普適性質(zhì)的主題。而2016 年的Topic3(復雜系統(tǒng)中高維空間數(shù)據(jù)的計算與應用)和2017 年的Topic6(物聯(lián)網(wǎng)中信號處理問題及對開放環(huán)境數(shù)據(jù)的學習)向前未出現(xiàn)強相似度的主題,在演化過程中突然出現(xiàn)并持續(xù)作用,屬于新興主題。

        4.3.2 領(lǐng)域主題演化路徑分析

        為研究主題演化過程的完整路徑,將演化子路徑界定為相鄰時間切片主題間的路徑,演化強度定義為演化子路徑前后主題的相似度。通過計算得到表3 所示的各時間段演化強度較高的演化子路徑。同時,圖7 所展示的主題動態(tài)演化中共存在212 條演化子路徑,通過對比這些子路徑的演化強度以及是否能構(gòu)成完整演化路徑,得到人工智能領(lǐng)域主題演化的主路徑。

        由表3 所顯示的演化強度可以發(fā)現(xiàn),每個時間段演化強度最高的路徑組成了一條完整的演化路徑,即 2008—2014:Topic9→2015:Topic2→2016:Topic1→2017:Topic3→2018:Topic2。 2008—2014 年 Topic9 代表的是視頻動作捕捉,屬于人工智能中的計算機視覺研究;2015 年Topic2 在此基礎(chǔ)上擴充了智能檢索、語音識別的研究;2016 年Topic1 開始追求圖像保真,并根據(jù)用戶需求進行虛擬組織;2017 年Topic3 則致力于研究路徑規(guī)劃和遠程控制;2018 年Topic2 中,一批無人控制設(shè)備顯現(xiàn)出來,無人機、無人駕駛汽車等成為該主題的研究熱點。在這條主路徑的基礎(chǔ)上參照表3 中的高演化強度子路徑進行溯源,如表4 和圖8 所示。

        表3 各時間段高演化強度子路徑

        表4 主題演化主路徑演化強度

        圖8 中的標簽為主題內(nèi)容相近的主題詞,代表該主題研究的主要內(nèi)容。從圖8 可見,2008—2014年涉及的5 個主題分別是視頻圖像捕捉、圖像處理、系統(tǒng)工程、信息處理、編程模型。2015 年,圖像捕捉、圖像處理和系統(tǒng)工程的部分研究內(nèi)容相融合,形成以圖像為基礎(chǔ)的智能檢索研究,并在此基礎(chǔ)上增加語音識別研究,建立起較為系統(tǒng)的計算機視覺研究;系統(tǒng)工程與信息處理通過加強對數(shù)據(jù)本身的研究,構(gòu)成數(shù)據(jù)管理相關(guān)研究;信息處理和編程模型則融合出社會網(wǎng)絡(luò)研究,余下的編程模型研究更為深入形成以神經(jīng)網(wǎng)絡(luò)為主的機器學習方法研究。2016 年,計算機視覺研究繼續(xù)深入,結(jié)合數(shù)據(jù)管理的相關(guān)問題,著重研究成像問題;社會網(wǎng)絡(luò)與數(shù)據(jù)管理進行融合,形成以用戶需求為基礎(chǔ)的項目管理與知識管理研究,技術(shù)方法研究則參考社會網(wǎng)絡(luò)構(gòu)建,建立復雜系統(tǒng)并進行定量評估。2017 年,計算機視覺研究結(jié)合項目管理經(jīng)驗,形成遠程控制研究并進行最優(yōu)路徑規(guī)劃;項目管理和定量評估則融合成視頻直播與動作控制管理方向。2018 年,前序積累的所有技術(shù)與應用相融合,形成無人設(shè)備方面的研究。

        通過溯源主題對應的基金項目發(fā)現(xiàn),主路徑中主題對應的基金項目數(shù)量在歷年各主題中均處于前列,但受設(shè)備需求所限,資助金額并非處于領(lǐng)先位置。這在一定程度上佐證了演化主路徑的研究內(nèi)容確實受到NSF 的高度關(guān)注,在現(xiàn)實層面驗證了結(jié)果的可靠性。

        5 結(jié)論與討論

        本文以科學基金數(shù)據(jù)為研究對象,從情報研究的視角設(shè)計了分析框架與研究流程,以開展基于基金數(shù)據(jù)的領(lǐng)域研究主題挖掘與演化路徑分析;并以美國NSF 數(shù)據(jù)中AI 領(lǐng)域為例,通過word2vec 方法將項目轉(zhuǎn)化為300 維的詞向量模型,在此基礎(chǔ)上使用k-means 算法進行主題挖掘,發(fā)掘出了15 個人工智能領(lǐng)域研究主題,以及NSF 各學部的主題分布。最后加入時間維度,探索了NSF 資助的人工智能領(lǐng)域的主題演化情況,得出以下結(jié)論。

        (1)對主題涉及的范圍與集中度開展研究,能夠把握國家級基金在領(lǐng)域研究中的覆蓋程度,體現(xiàn)其對該研究領(lǐng)域的整體支持力度。在人工智能領(lǐng)域,NSF 資助的研究在理論基礎(chǔ)與技術(shù)方法上覆蓋得比較全面,應用的產(chǎn)業(yè)范圍廣泛,集中支持的研究主題明晰。

        (2)對學部主題分布的學科屬性與側(cè)重度開展研究,能夠識別國家級基金在學科研究與交叉研究中的權(quán)衡,在彰顯該領(lǐng)域的學科屬性的同時,落實其政策傾向。在人工智能領(lǐng)域,NSF 一方面大力資助該領(lǐng)域核心學科廣泛開展相關(guān)研究,另一方面鼓勵該領(lǐng)域的應用學科或者關(guān)聯(lián)學科突出重點研究,加大投入由核心學科進行攻關(guān)項目的研究,將交叉研究與重點突出相結(jié)合。

        (3) 對領(lǐng)域主題演化狀態(tài)與路徑變化開展研究,能夠監(jiān)測國家級基金對領(lǐng)域核心技術(shù)關(guān)注與資助的狀況,揭示相關(guān)技術(shù)發(fā)展的過程。在人工智能領(lǐng)域,NSF 資助的研究呈現(xiàn)明顯的融合-分裂-再融合的特征,研究導向從嘗試多種方法解決現(xiàn)實問題向特定方法解決特定問題的方向發(fā)展,研究狀態(tài)正趨于系統(tǒng)化。整個演化過程的主路徑呈現(xiàn)的是一條從圖像處理、信息處理逐漸通過成像研究、系統(tǒng)優(yōu)化、遠程控制過渡到無人設(shè)備研究的路線軌跡,它顯示了NSF 是如何資助研究人員一步步將各類無人設(shè)備相關(guān)技術(shù)融合起來,并使技術(shù)從萌芽到逐漸成熟的發(fā)展過程。

        因此,挖掘和分析基金資助項目領(lǐng)域主題的分布與演化,從政府投入支持角度把握領(lǐng)域研究的主題內(nèi)容、發(fā)展態(tài)勢與趨向,并借助國外相關(guān)數(shù)據(jù)進行實證分析,對于我國的學術(shù)研究與政府規(guī)劃將提供有力的決策參考。

        本文也存在一定的局限性。雖然k-means 聚類算法在確定k值的過程中存在SSE 值的檢驗,但是在主題演化的分析中僅通過與已有數(shù)據(jù)的比較來檢驗結(jié)果的可靠性,缺乏與多源數(shù)據(jù)相結(jié)合的對比分析。后續(xù)研究可采用不同來源的數(shù)據(jù),如政府科技政策文本、國家級基金資助項目的論文產(chǎn)出等,對多源數(shù)據(jù)的主題分析進行交叉驗證,增強結(jié)果的可靠性。

        猜你喜歡
        人工智能研究
        我校新增“人工智能”本科專業(yè)
        FMS與YBT相關(guān)性的實證研究
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        視錯覺在平面設(shè)計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        新版C-NCAP側(cè)面碰撞假人損傷研究
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        免费无码又爽又刺激高潮的视频网站| 久青草影院在线观看国产 | 免费网站看av片| 好大好硬好爽免费视频| 国产精品久久久久亚洲| 久久精品国产亚洲av豆腐| 4455永久免费视频| 黑人大荫道bbwbbb高潮潮喷| 日韩欧美国产自由二区| 成人性生交c片免费看| 国产高清在线视频一区二区三区| 国产精品多p对白交换绿帽| 国内少妇自拍区免费视频| 麻豆成年视频在线观看| 精品国产一区二区三区性色| 亚洲乱码一区av春药高潮| 少妇太爽了在线观看| 亚洲日韩成人无码不卡网站| 亚洲中文字幕第15页| 国产精品99无码一区二区| .精品久久久麻豆国产精品| 无码国产一区二区色欲| 亚洲中文字幕人成乱码在线| 又色又爽又黄高潮的免费视频 | 午夜一区二区在线视频| 一本色道久久婷婷日韩| 久久久久香蕉国产线看观看伊| 国产精品99久久久久久98AV| 久久国产女同一区二区| 国产香港明星裸体xxxx视频| 朝鲜女子内射杂交bbw| 亚洲Va中文字幕无码毛片下载| 水蜜桃网站视频在线观看| 日本熟妇色xxxxx日本妇| 四虎影视在线观看2413| 亚洲一区二区观看网站| 亚洲av免费不卡在线观看| 亚洲av蜜桃永久无码精品| 亚洲三级香港三级久久| 日韩精品国产精品亚洲毛片| 色欲综合一区二区三区|