亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新興主題識別方法研究綜述

        2023-12-18 14:30:25柴文越劉小平梁爽
        現(xiàn)代情報 2023年12期
        關鍵詞:引文分析文本挖掘文獻計量

        柴文越 劉小平 梁爽

        關鍵詞: 新興主題; 主題識別; 文獻計量; 引文分析; 文本挖掘; 綜述

        DOI:10.3969 / j.issn.1008-0821.2023.12.014

        〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 12-0164-14

        隨著科技的發(fā)展, 越來越多的新目標、新方向、新方法、新成果噴涌而出, 如何快速把握國際科技新形勢, 了解各國(地區(qū))科技創(chuàng)新的攻關重點, 及時準確地追蹤新興研究趨勢與前沿熱點, 以謀劃科技發(fā)展戰(zhàn)略布局, 是提高國家科技實力的重要環(huán)節(jié)。《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035 年遠景目標綱要》中提出, 國家應面向世界科技前沿, 實施具有前瞻性、戰(zhàn)略性的科技項目, 強化國家的戰(zhàn)略科技力量[1] 。因此, 通過設計快速高效的識別方法, 發(fā)現(xiàn)各學科的最新研究動向, 能為科研工作者規(guī)劃其后續(xù)的研究方向提供參考、為研究機構合理分配資源提供便利、為國家制定科技戰(zhàn)略提供數(shù)據(jù)支持, 具有十分重要的現(xiàn)實意義。因此, 面向新興主題識別的整個研究流程,對研究的現(xiàn)狀與進展進行全面的梳理和述評, 能夠發(fā)現(xiàn)研究存在的局限, 找到需要深入研究的問題,為后續(xù)研究提供參考。

        現(xiàn)已有部分學者對新興主題識別相關研究展開述評, 為進一步開展新興主題識別提供了重要參考。如盧超等[2] 、劉小玲等[3] 分別對新興研究話題和新興技術主題的概念、主題提取方法、探測指標構建和結果驗證方法進行歸納; 楊金慶等[4] 從數(shù)據(jù)特征的視角入手, 梳理了新興主題識別的方法。然而, 相關研究對新興主題概念界定的視角關注較少;對數(shù)據(jù)源的選擇, 尤其是多源數(shù)據(jù)融合方面存在的問題關注不夠充分; 對新興主題的內(nèi)在屬性以及各學者所關注的特性總結不夠全面; 最新發(fā)表的成果尚待梳理, 所以相關工作還待進一步剖析。因此,本文首先對相關概念進行辨析, 并對新興主題的起源與內(nèi)涵和新興主題識別的研究視角進行梳理; 其次, 面向新興主題識別的流程, 本文將分別對新興主題識別研究選取的數(shù)據(jù)源與分析對象、面向分析對象的主題識別及表征方法, 以及用于篩選新興主題的屬性與指標進行述評, 并對比不同方法間的優(yōu)劣; 最后, 本文將綜合目前的研究現(xiàn)狀對新興主題識別領域的研究進行歸納總結, 發(fā)現(xiàn)研究存在的局限, 指出未來研究的方向, 以期為后續(xù)研究提供參考。

        1新興主題的概念與辨析

        1.1相關概念辨析

        與“新興主題” 經(jīng)常一起出現(xiàn)的概念為“前沿主題”, 二者因具有類似的特性而經(jīng)常被混淆。1965年, 學者Price D J D[5] 提出的“研究前沿”, 被認為是某領域近期發(fā)表的被引頻率較高的參考文獻集合, 以表征一個研究領域的前沿思想。研究早期,學者對研究前沿的定義通常為方法性描述, 主要通過引文分析方法, 利用高被引文獻集、高被引文獻集的施引文獻、共被引中的核心文獻等來表征前沿主題[6-7] 。隨著研究的深入, 學者對研究前沿的定義更強調(diào)主題的特性, 認為前沿主題是受到高度關注, 具有較高影響力、較大發(fā)展?jié)摿?、較高水平的研究問題, 代表了當前研究的熱點與難點[8] 。

        總的來說, 二者都是具備一定創(chuàng)新性和影響力的主題, 存在交叉但又各有側重。“新興主題” 也被稱為新興研究話題、新興研究趨勢, 主要強調(diào)時間維度上的“新”, 以及發(fā)展維度上的“興”, 是受到新技術出現(xiàn)或環(huán)境變化等影響, 在近期出現(xiàn)或得到一定關注但尚未被廣泛研究的主題, 這類主題具有一定的發(fā)展?jié)摿Γ?正在快速興起。而“前沿主題” 主要強調(diào)研究水平的“高”, 研究難度的“大”, 以及研究質量的“優(yōu)”, 代表了某一領域的最高水平和最新成果。這類主題的研究價值往往已經(jīng)被充分認可, 但仍然需要深入探索和挖掘, 研究存在一定的挑戰(zhàn)。而隨著研究的愈發(fā)深入, 一部分新興研究主題將成長為前沿主題, 其他主題將成為非前沿性熱點主題或衰老主題。

        1.2新興主題的起源與內(nèi)涵

        新興主題(Emerging Topics) 這一概念最早由Matsumura N 等[9] 于2002 年提出, 被認為是新出現(xiàn)且重要的主題。根據(jù)這一定義, Matsumura N 等基于社會進化的視角, 在社區(qū)網(wǎng)絡上進行實驗, 證明了新興主題是與多個強鏈接社區(qū)存在弱鏈接關系的主題。時至今日, 已有不少學者進行了新興主題識別的相關研究, 但“新興主題” 的概念和其基本屬性仍然沒有較為明確和被公認的定義。

        通過閱讀發(fā)現(xiàn), 國內(nèi)外學者對新興主題概念的界定通常從3 個角度入手: ①新興主題的外部表現(xiàn):根據(jù)生命周期理論, 一個主題從誕生到衰落通常會經(jīng)歷4 個階段: 萌芽期、快速發(fā)展期、成熟期、衰落或轉型期, 根據(jù)主題的外部表現(xiàn), 新興主題通常被定義為處于快速發(fā)展期的主題; ②新興主題的外部表現(xiàn)與未來趨勢: 在新興主題現(xiàn)有表現(xiàn)的基礎上,強調(diào)新興主題的未來發(fā)展趨勢、影響與效應, 認為新興主題具有更強的影響力和較大的發(fā)展?jié)摿Γ?③新興主題的外部表現(xiàn)與產(chǎn)生機制: 即在新興主題現(xiàn)有表現(xiàn)的基礎上, 從主題的產(chǎn)生機制或成因入手,對新興主題進行定義與識別。有關新興主題概念的描述, 如表1 所示。

        綜上發(fā)現(xiàn), 目前學界對新興主題的概念并沒有達成共識, 且各研究關注的特性也不同。然而, 無論是從外部表現(xiàn)還是從產(chǎn)生機制入手, 幾乎所有學者都認同新興主題的新穎性和成長性, 并以“新”和“興” 作為基礎屬性為“新興主題” 賦予定義。筆者根據(jù)以往的研究, 嘗試在學術場景下對新興主題作出如下定義: 新興主題是一類新穎的、發(fā)展速度較快的、具有一定創(chuàng)新性和持久性并且具有一定影響力的研究主題。

        2新興主題識別方法研究進展

        通過閱讀相關文獻發(fā)現(xiàn), 在研究前期, 學者們通常立足于回顧的視角, 基于歷史數(shù)據(jù)對新興研究主題進行識別。隨著機器學習技術的進步以及相關研究的愈發(fā)深入, 越來越多的學者立足于對未來趨勢進行洞察與探測, 利用文本挖掘與神經(jīng)網(wǎng)絡等技術對新興主題進行預測。在此基礎上, 本文選定CNKI 和Web of Science 核心合集分別作為中英文文獻數(shù)據(jù)來源, 在CNKI 上以檢索式SU = (“新興主題”+“新興研究” +“新興技術主題” +“新興趨勢”) AND SU=(“識別”+“探測”+“預測”)對中文文獻進行檢索;在Web of Science 核心合集中,以檢索式TS = ((“emerg? theme? ” or “emerg? topic? ”or“theme? emerg?” or “topic? emerg?” or “emerg?of theme?” or “emerg? of topic? ” or (“emerg? re?search” and “trend”)) and (“identif? ” or“recog?ni?” or “forecast? ” or“detect? ”))對英文文獻進行檢索, 限制索引=(SCI-Expanded, SSCI), 并根據(jù)專家建議將WOS 類別限定為計算機科學、信息科學相關的7 個WOS 類別。在閱讀過程中, 筆者將未被檢索到的相關被引文獻等納入文獻集內(nèi), 最終得到符合研究內(nèi)容的重要文獻。本文將梳理上述文獻, 以對新興主題識別方法進行總結與分析。

        2.1數(shù)據(jù)源與分析對象

        選擇數(shù)據(jù)源與分析對象是新興主題識別的首要環(huán)節(jié), 能夠決定研究適用的方法, 影響研究結果的呈現(xiàn)。通過文獻調(diào)研發(fā)現(xiàn), 新興主題識別的數(shù)據(jù)源主要可以分為單源數(shù)據(jù)和多源數(shù)據(jù), 而對于不同的研究階段, 學者選取的研究對象也存在差異。如圖1 所示, 在主題挖掘階段, 學者常用文獻標題、摘要、關鍵詞、參考文獻、引文內(nèi)容等最能反映研究重點的內(nèi)容數(shù)據(jù)作為語料來源進行主題挖掘。在主題新興與否的判別階段, 學者常用科技文獻發(fā)表年份、被引或下載情況等能夠反映文獻新穎性、關注度特性的外部數(shù)據(jù)進行新興主題識別。

        2.1.1基于單源數(shù)據(jù)的新興主題識別

        單源數(shù)據(jù)即研究的數(shù)據(jù)集來自單一數(shù)據(jù)源, 學者通常選擇一類數(shù)據(jù)如期刊論文[15] 、專利文獻[18] 、基金項目數(shù)據(jù)[19] 、政策報告[20] 等進行新興主題的識別。單源數(shù)據(jù)因其數(shù)據(jù)結構統(tǒng)一、分類方式一致、內(nèi)容獲取便捷等優(yōu)勢被學者廣泛應用于新興主題的識別研究。然而, 各類科技文獻的研究內(nèi)容、重點與研究方法不同, 單憑一種數(shù)據(jù)源可能難以真實反映復雜的科研主題, 因此不少學者試圖通過多類數(shù)據(jù)對新興研究主題進行全面識別。

        2.1.2基于多源數(shù)據(jù)的新興主題識別

        多源數(shù)據(jù)即研究的數(shù)據(jù)集來自多種數(shù)據(jù)源, 為了彌補單源數(shù)據(jù)對科學研究現(xiàn)狀反映能力不足等問題, 學者們開始使用多源數(shù)據(jù)對研究問題進行分析,以保證對學科領域進行更為全面的認知[21-23] 。通過調(diào)研發(fā)現(xiàn), 新興主題識別研究使用多源數(shù)據(jù)的方式主要分為3 類, 如圖2 所示。

        1) 先融合研究, 即先將不同數(shù)據(jù)集進行合并,再對合并后的多源數(shù)據(jù)集進行主題識別。如邱悅文[24] 將論文的標題與摘要、專利的說明書內(nèi)容、基金數(shù)據(jù)的標題與結項摘要、政策的標題等數(shù)據(jù)進行融合, 利用LDA 主題模型與構建的判別指標實現(xiàn)新興技術主題識別。先融合方法將多類數(shù)據(jù)看作一個整體, 簡化了數(shù)據(jù)匹配和結果解讀的難度, 提升了研究效率。但由于對不同數(shù)據(jù)源選取的分析對象不同、各數(shù)據(jù)源之間存在時滯等原因[25] , 先融合方法存在一定的局限, 且難以分析不同數(shù)據(jù)源在主題表現(xiàn)情況上的差異。

        2) 后融合研究, 即首先分別對不同的數(shù)據(jù)集進行主題識別, 再根據(jù)識別結果將不同數(shù)據(jù)源得到的主題進行融合, 進而識別新興主題。如白如江等[26] 選擇科技規(guī)劃文本、基金項目數(shù)據(jù)以及期刊論文為數(shù)據(jù)源, 分別對3 類數(shù)據(jù)進行主題識別, 在此基礎上對主題進行相似度計算, 將相似度超過閾值的主題進行融合, 進而識別新興主題。后融合研究方法能夠全局性地觀測不同數(shù)據(jù)源上主題的表現(xiàn)情況, 但時滯問題仍未得到解決, 決定主題是否相似的閾值設置比較主觀, 識別結果容易受到人為因素影響。

        3) 各數(shù)據(jù)源獨立, 即對不同數(shù)據(jù)分別進行新興主題識別研究。如Tu T N 等[10] 分別識別了期刊論文和會議論文的新興主題, 并得到同一領域下期刊主題更加趨同、會議主題更加分散, 且新主題在會議論文中出現(xiàn)時間更早等結論。該方法雖然考慮到了不同數(shù)據(jù)間的差異, 但無法綜合代表復雜的科研主題。

        多源數(shù)據(jù)分析能夠更全面地反映科研內(nèi)容, 但也存在一定的局限: 由于產(chǎn)出模式與研究目的不同,多源數(shù)據(jù)間存在時間維度上的差異, 若對在同一時段內(nèi)發(fā)表的不同文檔進行簡單的融合, 會出現(xiàn)“主題不對齊” 等問題[27-28] , 在一定程度上會對主題新穎性等特性的測度造成干擾。目前, 少有研究考慮到不同數(shù)據(jù)源之間的差異, 結合數(shù)據(jù)源的特點以及各數(shù)據(jù)源之間的聯(lián)系進行更為精準的新興主題識別。而在先前的研究中, 已有學者對不同科技文獻主題間的時滯差異進行了分析[29-30] , 學者可以進行相關研究并根據(jù)研究結果對不同數(shù)據(jù)進行提前或滯后等操作, 進而實現(xiàn)主題對齊, 并依據(jù)主題相似度等指標實現(xiàn)更為精準的多源數(shù)據(jù)融合。

        2.2主題識別方法研究現(xiàn)狀

        實現(xiàn)科研主題的識別與表征是識別新興主題的基礎, 本文根據(jù)研究實體的不同, 將國內(nèi)外學者用于識別新興主題的方法分為基于關鍵詞匯的主題識別、基于傳統(tǒng)引文分析的主題識別、基于文本挖掘的主題識別方法, 如圖3 所示。

        2.2.1基于關鍵詞匯的主題識別

        自1949 年齊普夫發(fā)現(xiàn)了文章內(nèi)詞匯的出現(xiàn)頻率存在一定的規(guī)律后, 基于關鍵詞的分析成為圖書情報領域專家研究的熱點之一[31] 。在新興主題識別的研究前期, 學者通常利用突變檢測方法以及共詞分析與社會網(wǎng)絡分析相結合的方法進行新興主題的識別。

        突變檢測(Burst Detection) 算法最早由Klein?berg 教授于2002 年提出, 該算法通過找到頻率急劇上升的實體來發(fā)現(xiàn)新出現(xiàn)的主題。突變檢測算法能夠反映關鍵詞匯的增長性, 并且不要求該詞是一個高頻詞匯, 因此被部分學者用于新興主題的識別。如Katsurai M 等[32] 提出了名為TrendNets 的能夠反映共詞網(wǎng)絡中邊權重快速變化的可視化方法, 通過計算連續(xù)時段內(nèi)詞語共現(xiàn)頻率的差異, 得到突然被大量討論的新興主題。而部分學者認為, 孤立的詞匯難以準確表達一個研究主題, 研究主題應由一組具有強文本表示功能的關鍵詞集表征[10,33] 。因此,也有研究開始利用共詞分析與社交網(wǎng)絡分析相結合的方法實現(xiàn)關鍵詞匯的聚類, 并由各類間詞頻最高的詞匯、共詞網(wǎng)絡中的核心詞匯或根據(jù)詞匯的語義對主題進行規(guī)范命名來表征主題。如馮佳等[34] 對持續(xù)出現(xiàn)且詞頻呈增長趨勢的高頻詞匯進行共現(xiàn)分析, 并將詞匯聚類成為8 個類團, 每一個類團代表一個新興主題。而由于一般詞匯缺乏一致性、準確性和專業(yè)性, 因此利用更加權威的主題詞或關鍵術語進行主題識別逐漸成為一種趨勢。如Ohniwa R L等[16] 先根據(jù)PubMed 數(shù)據(jù)庫中出現(xiàn)的MeSH 術語在不同時段下頻率的增量篩選出“新興關鍵詞”, 再對新興關鍵詞形成的共現(xiàn)網(wǎng)絡進行聚類分析, 進而識別新興主題。

        基于關鍵詞匯的主題識別方法不需要構建復雜模型, 操作較為簡單, 指標計算相對容易。文章一經(jīng)發(fā)表便可以得到其中的關鍵詞匯, 因此有利于及時發(fā)現(xiàn)新興主題。然而該方法對語義和語境的關注不足, 難以解決一詞多義造成的主題識別不精確等問題, 也難以揭示文檔與主題、主題與詞匯間的隱含關系和語義聯(lián)系。由于突變檢測更注重關鍵術語在短期內(nèi)“增長性” 的測度、共詞聚類方法也多強調(diào)詞頻的數(shù)量, 這導致該方法對新興主題其他屬性的關注度不足。最后, 突變檢測與聚類方法都是基于回顧的視角進行的主題識別, 因此該方法難以預測未來的新興主題。

        2.2.2基于傳統(tǒng)引文分析的主題識別

        引文分析是對科技期刊、專利文獻等分析對象的引證和被引證情況進行分析, 以揭示知識流動規(guī)律的文獻計量手段[35] 。一篇文獻往往會引用與其研究主題相同的文獻, 因此通過構建引文網(wǎng)絡, 并對文獻進行聚類是識別研究主題的方法之一。在新興主題識別研究中, 學者主要通過直接引文網(wǎng)絡分析、共被引網(wǎng)絡分析、文獻耦合網(wǎng)絡分析3 種方法進行主題識別。

        文獻共被引(Co-citation)這一概念于1973 年被美國學者Small H[35] 提出, 表示兩篇或多篇文獻被同一篇或多篇文獻共同引證。如Chen C M[36] 開發(fā)并利用新版本的CiteSpace, 將突變檢測算法與共被引分析方法相結合, 對共被引文獻及施引文獻的關鍵術語構成的異質網(wǎng)絡進行分析, 進而發(fā)現(xiàn)新興主題。文獻耦合的概念(Bibliographic Coupling)于1963 年被美國學者Kessler M M 提出, 表示兩篇或多篇文獻引用了同一篇或多篇文獻[37-38] 。由于共被引分析主要關注的是高被引文獻, 而文獻耦合分析主要關注的是施引文獻, 因此, 文獻耦合分析更具時效性, 也被部分學者認為更適用于新興主題的識別研究[39-40] 。如Gl?nzel W 等[41] 利用文獻耦合分析與文本相似性分析得到了文檔集合的核心文獻, 并將文獻集的異常增長、文獻集的新生、文獻集研究內(nèi)容的轉移視作新興主題誕生的3 種范式,以4 個學科為例證明了方法的有效性。直接引用網(wǎng)絡能夠揭示文獻間的直接關聯(lián)關系, 相比共被引和耦合關系更易形成, 且文獻一經(jīng)發(fā)表, 直接引用關系將不再變化, 因此直接引用分析更具時效性和選擇性, 更容易發(fā)現(xiàn)大型和新穎的文獻集群。但直接引用分析方法也存在同一類別內(nèi)文獻的相似性較小、類內(nèi)文獻的聚集性相較于文獻共被引和文獻耦合分析較弱等劣勢[42-43] 。如Shibata N 等[44] 考慮到研究時效性等問題, 選擇構建直接引文網(wǎng)絡, 利用網(wǎng)絡分析方法和時間序列分析方法對“氮化鎵” 和“復雜網(wǎng)絡” 領域的文獻進行分析, 發(fā)現(xiàn)了新興研究趨勢并實現(xiàn)了研究結果的可視化呈現(xiàn)。

        由于文獻的引用現(xiàn)象是普遍存在的, 并且分析引文時不要求過高的先決和輔助條件, 研究的深度和廣度也可以由學者自行調(diào)節(jié), 所以引文分析具有簡單易用和廣泛適用的優(yōu)點[45] 。此外, 文獻間具有單向且清晰的引證關系, 因此基于引用網(wǎng)絡聚類得到的研究主題也更容易被解釋。然而, 受期刊論文發(fā)表周期以及專利審查周期等限制, 文章從完成到被引用需要經(jīng)歷較長的時間周期, 因此基于引文分析的主題識別方法具有較為明顯的時滯問題, 不利于新興主題的早期發(fā)現(xiàn)。其次, 引文數(shù)據(jù)庫無法收集所有的引證信息, 且只有當文獻被引次數(shù)達到一定的數(shù)量時, 才會得到關注, 因此基于引文分析的主題識別方法很難做到研究主題的全面覆蓋, 容易忽略最新的研究主題。此外, 由于引文無法直觀地表征主題, 因此往往需要對文獻集進行進一步的處理, 來得到主題詞以表征主題。最后, 基于被引頻次的傳統(tǒng)引文分析方法忽視了引用動機、引用情感、引用內(nèi)容及引文重要程度, 將所有的引文同等看待, 不利于準確識別主題?;谝陨戏治觯?可以發(fā)現(xiàn)基于傳統(tǒng)引文分析的新興主題識別方法仍然存在一定的缺陷, 發(fā)表時滯、引用時滯、引證數(shù)據(jù)的全面性、引用情境的多樣性等問題可能會對新興主題識別結果產(chǎn)生影響。

        2.2.3基于文本挖掘的主題識別

        文本挖掘是從大量半結構或非結構化的文本信息中提取未知的、潛在的、可理解的知識或數(shù)據(jù)模式的過程[46-47] 。與關鍵詞和傳統(tǒng)引文分析不同的是, 文本挖掘方法能夠自動挖掘非結構化文本中的語義信息, 并實現(xiàn)主題識別。通過調(diào)研發(fā)現(xiàn), 目前用于新興主題識別的文本挖掘方法主要分為主題模型和文本聚類兩種方法。

        作為機器學習領域熱門的文本分析方法之一,主題模型能夠自動地從大規(guī)模文本集中發(fā)現(xiàn)和提煉隱含的主題信息[48] 。LDA 作為經(jīng)典的主題模型被廣泛應用于輿情監(jiān)測、社區(qū)發(fā)現(xiàn)、研究熱點探測等文本分析領域, 但其仍存在著在短文本上的表現(xiàn)一般、對文本的語境信息考慮不足、無法反映主題的動態(tài)變化等局限。因此隨著機器學習技術的進步,學者針對更具象的領域, 擴展出更加有針對性的主題挖掘方法, 如動態(tài)主題模型、相關主題模型、作者主題模型、有監(jiān)督主題模型、貝葉斯非參數(shù)模型等[49] 。而在新興主題識別領域, 學者仍然多利用LDA 及其擴展模型, 搭配時間序列分析或主題演化分析方法進行主題識別。如Xu M 等[50] 利用LDA模型生成主題并計算每個時間片下的主題概率, 接著利用主題概率的突變情況識別新興主題, 最后利用關聯(lián)規(guī)則挖掘和詞匯相似度計算來表征主題。由于LDA 主題模型存在前文所述的局限, 不少學者開始利用LDA 的擴展模型進行新興主題識別。如范云滿等[51] 、徐路路等[29] 、Zhou Y 等[52] 分別利用TNG、PLDA、Labeled-DMM 等模型實現(xiàn)新興主題識別。目前有關主題模型的研究已經(jīng)產(chǎn)生大量成果, 新興主題識別研究也需要對更前沿的新模型進行深入探索與應用, 以提高新興主題識別的效果。

        文本聚類是利用機器學習等方法對大量文本內(nèi)容進行聚類的方法, 該方法能夠更好地考慮到文本間語義的相似程度, 實現(xiàn)更為精準的主題識別。學者多利用文檔的句子結構或構建文本的向量化表示,結合聚類算法進行主題識別。如在句子結構或實體與關系表示方面, 黃魯成等[53] 提取了突現(xiàn)文獻的施引文獻, 從文獻摘要中提?。樱粒?結構, 并利用語義相似度計算程序和多維尺度分析方法實現(xiàn)新興主題的聚類。在文本向量化表示方面, 任惠超等[54]使用TF-IDF 方法對每篇文檔進行向量化表示, 并利用K-means++算法對文檔進行聚類實現(xiàn)主題識別, 最后利用指標評估和突發(fā)檢測方法篩選新興主題; 郝雯柯等[55] 通過Sentence-BERT 和UMAP 算法對文本進行語義表示和向量降維, 利用HDBSCAN聚類算法進行文檔聚類, 最后選擇新穎度、成長性、影響力全部符合閾值的主題作為新興主題。

        隨著開放獲取模式的推廣和文本挖掘技術的發(fā)展, 基于全文本的分析方法成為一種新的研究思路[56] 。因此, 除上述兩種常用方法外, 基于引文內(nèi)容分析和未來工作句子識別的全文本分析方法逐漸被用于新興趨勢發(fā)現(xiàn)或未來主題預測研究。

        在施引文獻中, 引文位置分布不均勻[57] , 各位置的引文重要程度不同[58] , 引文在文中的作用不同[59] , 不加區(qū)分地看待引文則無法準確反映施引與被引文獻之間的關系和知識流動的情況。因此,在Garfield E[60] 開創(chuàng)了與引用行為相關的研究方向之后, 學者開始抽取施引文獻的引文句和引文上下文, 并利用基于規(guī)則和基于機器學習的分類方法識別重要引文[61] , 在此基礎上可以利用基于詞頻、聚類、主題模型等分析方法實現(xiàn)被引主題的識別與分析[62] 。如祝清松等[63] 利用C-value 算法對高被引文獻在施引文獻中的引用句進行主題識別, 得到核心主題。Jebari C 等[64] 利用DTM 動態(tài)主題模型對引用句進行主題識別, 發(fā)現(xiàn)了主題演化情況以及研究趨勢。張金柱等[65] 利用K-means 算法對引用句及其前后句進行主題聚類, 并通過時序分析發(fā)現(xiàn)被引主題的變化與當下的新熱點。引用內(nèi)容是作者對被引文獻主題的進一步總結, 能夠實現(xiàn)對被引文獻的語義補充[63,66] 。研究證明, 將引用內(nèi)容引入主題識別, 能夠增強主題識別結果, 反映知識的繼承和發(fā)展情況。因此將時序分析與引文路徑、引文主題分析相結合, 能夠發(fā)現(xiàn)研究主題的遷移情況以及科技創(chuàng)新的發(fā)展路徑, 有助于探測新興主題。

        未來工作句子(FWS)包含了作者對未來研究方向的構想。通過提取和分析未來工作句, 能夠輔助預測未來的研究趨勢[67] 。宋若璇等[68] 利用BERT 抽取未來工作句, 并結合文章關鍵詞、相關關鍵短語和論文摘要等形成創(chuàng)新提要, 最后利用UniLM 文本生成模型生成創(chuàng)新構想話題。Zhang C Z 等[67] 將未來工作句分為方法、資源、評估、應用、問題和其他6 種類型, 利用SciBERT 和KeyBert 模型實現(xiàn)未來工作句的分類與解讀, 從而對未來研究主題進行挖掘。當前學界對未來工作句子的研究還存在分類粒度不夠細、識別效率不夠高、預測結果不夠準等問題, 在新興主題的預測方面仍有較大的發(fā)展空間。

        與傳統(tǒng)的文獻計量學方法相比, 文本挖掘法能夠以全局視角對文本進行深層分析, 挖掘文檔與主題、主題與詞匯間的隱含關系。由于文本挖掘方法的特性, 該方法更容易實現(xiàn)新興主題的預測, 更符合新興主題識別的目標與需求, 因此成為近年來更為熱門的新興主題識別方法。然而, 多數(shù)主題模型在運行前需要確定主題數(shù)量, 聚類結果也對計算方法較為敏感, 因此對于不同的方法, 新興主題識別的結果可能會有較大的差異; 引文內(nèi)容分析在引文推薦、學科交叉文獻識別、創(chuàng)新路徑構建等領域發(fā)展較快, 但在對新興主題識別方面應用不夠, 對隱式句子的發(fā)現(xiàn)仍面臨挑戰(zhàn); 有關未來工作句子的研究也需要進一步提升新興主題預測的準確率。因此如何選擇適用的文本挖掘方法, 需要結合實際應用場景進一步探討。不同識別方法的特點與優(yōu)劣如表2 所示。

        2.3新興主題識別的關注屬性與測度指標

        對主題進行篩選是識別新興主題的最后一步,學者通常使用3 種方法對新興主題進行識別: ①定性方法, 即德爾菲法, 領域專家依靠個人經(jīng)驗對新興主題進行識別[69] ; ②定量方法, 即依靠一系列指標對主題進行測度。如Wang Q[70] 以激進的新穎性、快速的成長性、一定的連貫性、高科學影響力4 個一級指標通過設定閾值的方法識別新興主題;③定性與定量相結合法, 該方法主要有兩種應用模式, a. 先利用指標對主題進行初步篩選后, 再交由專家判定。如任智軍等[71] 將識別的新興主題下最相關的論文和專利提供給專家進行最終判定, 以識別新興主題; b. 先由專家組確定候選主題名單,再依據(jù)指標對新興主題進行識別[8] 。如Jang W 等[72]首先通過在線社區(qū)的帖子和報告收集專家意見, 再對技術文檔進行主題建模, 最后利用候選技術的多樣性和中心性指數(shù)得分進行模糊聚類, 以識別新興主題。由于定性研究方法較為主觀, 受限于專家個人的知識積累和評分偏好, 學者們更傾向于選擇定量以及定性與定量相結合的方法來識別新興主題。而關注特性及測度指標的合理與否直接影響了新興主題的識別結果。因此有必要對國內(nèi)外學者使用的評價指標進行述評, 以期總結出更為全面和規(guī)范的指標體系。

        本文通過梳理文獻, 總結了以下8 種用于識別新興主題的主要特性, 每個屬性涉及的主要測度指標及內(nèi)涵如表3 所示。

        1) 新穎性。該特性考慮的是主題出現(xiàn)的時間,一個主題出現(xiàn)的時間越晚, 其新穎程度越高, 是新興主題的概率越高[73] 。針對該特性, 學者們分別從主題平均年齡和主題首次出現(xiàn)年份對主題新穎性進行測度。

        2) 學科交叉性。學科交叉往往是新的科學生長點, 可能產(chǎn)生重大的科學突破, 并形成新的研究趨勢。因此, 部分學者將學科交叉融合視為新興主題形成的內(nèi)驅動力之一, 并利用該屬性進行新興主題識別[17,74-75] 。如陳虹樞等[76] 提出學科多樣性指標, 利用主題下文檔的WOS 學科分類表征主題的學科交叉程度, 主題跨學科程度越高, 則越可能是新興主題。

        3) 未來不確定性。部分學者認為新興主題處于主題發(fā)展前期, 其研究結果、影響力都未能充分體現(xiàn), 具有一定的不確定性[77-78] , 研發(fā)具有更高的風險[79] 。許海云等[79] 構建了基于引文的主題共現(xiàn)網(wǎng)絡, 在利用新穎度和增長率指標識別新興主題后,通過觀測主題在引文網(wǎng)絡中的社區(qū)數(shù)量、強連通數(shù)量、弱連通數(shù)量的變化情況, 來測度主題的未來不確定性以及未來發(fā)展趨勢。

        4) 成長性。根據(jù)生命周期理論, 新知識在產(chǎn)生后的一段時間內(nèi)關注度較低[80] , 隨著時間的變化, 其關注度和影響力將不斷提高, 主題開始發(fā)展。而新興主題往往擁有更快的發(fā)展速度和較大的發(fā)展?jié)摿Γ?更有可能解決科研難題, 因此新興主題往往表現(xiàn)出高增長的特性[81] 。學者通常從主題發(fā)文數(shù)、主題引文量等多個角度衡量主題的成長性。如RanaeiS 等[82] 通過LDA 主題模型輸出的文檔—主題概率矩陣計算主題在每一年內(nèi)的支持文檔數(shù)量, 找到發(fā)文量隨時間增長的主題, 以發(fā)現(xiàn)潛在的新興主題。李雅倩等[83] 綜合主題被引量、主題作者數(shù)量、主題學科數(shù)量、主題機構數(shù)量、主題強度指標計算主題的成長性, 以識別新興主題。

        5) 高主題強度。主題強度即主題熱度、主題關注度, 部分學者指出, 新興主題應該具備高關注度屬性[84] , 代表著該領域的研究趨勢, 因此主題強度也被經(jīng)常用來識別新興主題。

        6) 高主題影響力。一個新的且發(fā)展速度較快的主題往往會具有較大的科學影響。測度影響力最普遍的做法是利用文獻的被引數(shù)量來表征文章的影響力, 如果引文曲線持續(xù)攀升, 則更有可能產(chǎn)生突破性創(chuàng)新[85-86] 。如Wang Q[70] 利用出版物的被引次數(shù)來表征主題在一個時間間隔內(nèi)的科學影響力,認為新穎、增長、具有高科學影響的連貫主題才是一個新興主題。而由于論文從產(chǎn)出到被引用需要一定的時間, 并且期刊的出版周期較長, 不利于快速得到一篇文獻的影響力, 借助社交媒體數(shù)據(jù)如Alt?metrics(替代計量學)指標對主題影響力進行測度的方法開始被學者使用。如段慶鋒等[87] 利用Altmet?rics 指標和引文數(shù)據(jù)構建相對落差指標Rgap, 并用該指標識別新興主題。此外, 還有學者基于社會網(wǎng)絡理論, 通過測量主題的網(wǎng)絡屬性來尋找高影響力的主題。如黃璐等[88] 、孫蒙鴿等[89] 選?。校幔纾澹遥幔睿胫笜瞬⒔Y合鄰居節(jié)點的數(shù)量及影響力來計算主題影響力, 并選取新穎性強和影響力高的主題為新興技術主題。

        7) 突變性。突變原指DNA 分子的變異, 用于描述基因的表述失調(diào)[90-91] , 在文獻計量領域被用于描述隨著主題的出現(xiàn), 某些特征的頻率急劇上升等情況[92] 。主題突變往往能夠代表一個主題的新興趨勢, 因此突變性被部分學者用于檢測新興主題。如Guo H N 等[93] 將關鍵詞的突發(fā)、新作者的突然出現(xiàn)以及跨學科參考文獻的增加看作是新興領域的誕生標志。

        8) 持續(xù)性。持續(xù)性是指一個主題隨時間的推移而持續(xù)存在的特性。許海云等[94] 提出, 新興研究主題是創(chuàng)新路徑上可以持續(xù)發(fā)展的主題; PorterA L 等[95] 認為, 該特性是與新穎性存在“拉扯”的特性, 新穎性要求主題出現(xiàn)時間較短, 而持續(xù)性反映的是一個主題持續(xù)存在、持續(xù)增長、與其他主題存在較為緊密的聯(lián)系的性質。因此, 如何綜合考慮主題的新穎性和持續(xù)性是識別新興主題的難點之一。白敬毅等[14] 通過融合主題強度與主題新穎度構建了新興主題探測指標ETD, 并通過某一年份主題的ETD 減去平均ETD 構建主題演化偏離度指標TEDD, 如果某主題的TEDD 超過4 年持續(xù)增長,則符合持續(xù)性特征, 可被視為新興主題。該研究綜合考慮了主題新穎性與持久性, 對同時具備持續(xù)發(fā)展特性和新穎程度高的新興主題進行了識別。

        通過文獻調(diào)研可以發(fā)現(xiàn), 用于篩選新興主題的特性與指標較為豐富, 學者們分別從主題的外部表現(xiàn)、研究內(nèi)容、未來影響等多個方面對主題進行測度。然而, 目前尚未形成學者公認的用來識別新興主題的指標體系, 各研究存在關注維度不全、各維度之間聯(lián)系不緊密等情況。多數(shù)研究在測度新興主題時, 孤立地看待各個維度與指標, 并篩選符合全部指標的主題作為新興主題, 這可能會導致某一特征不明顯的新興主題被遺漏的情況。同時在設置判別指標時, 多利用事先設定閾值與權重的方法去判斷主題新興程度, 這種設置方法比較主觀, 理論支撐不足。因此, 如何更精準地篩選新興主題尚需進一步深入研究。

        3總結與展望

        通過對新興主題概念和新興主題識別方法進行梳理和分析可以發(fā)現(xiàn), 新興主題識別研究日趨完善。然而該領域仍然存在不足之處, 本文提出以下局限并對未來工作進行展望:

        3.1研究局限

        1) 理論支撐不足, 對新興主題的定義尚不明確。目前學界對新興主題的概念并沒有達成共識,因此用來衡量主題是否為新興主題的指標各異, 導致評估方式多樣, 評估結果說服力不強。

        2) 在數(shù)據(jù)集構建方面, 數(shù)據(jù)源的選擇與融合有待完善。目前新興主題識別研究使用的數(shù)據(jù)源仍以單一數(shù)據(jù)源為主, 該方法可操作性較高, 但難以真實反映復雜的科研主題。因此, 部分學者開始嘗試用多源數(shù)據(jù)進行新興主題識別。然而異類數(shù)據(jù)間內(nèi)容、結構以及時間上的差異較大, 如何克服差異實現(xiàn)更為精準的融合是需要攻克的難題。

        3) 在主題識別方面, 研究方法時滯性較強,識別結果粒度較大, 對語義關注和解釋不足, 且研究多為面向過去的回顧式發(fā)現(xiàn)而非面向未來的前瞻性預測, 對未來研究的導向性不足。

        4) 在篩選新興主題方面, 缺乏客觀完整的評價體系, 主觀性較強。由于新興主題的定義尚不明確, 學者用于篩選新興主題的屬性各異, 各指標的測度方法與標準具有較強的主觀性和孤立性。并且在制定篩選規(guī)則時, 現(xiàn)多用依賴于數(shù)據(jù)的閾值方法,指標難被廣泛應用。此外, 學者對主題的動態(tài)變化情況關注不足, 難以及時發(fā)現(xiàn)從現(xiàn)有主題中分化出的新主題, 不利于新興主題的早期識別。

        5) 研究各環(huán)節(jié)人工參與程度較高, 反饋實時性較差。目前數(shù)據(jù)的采集和清洗往往需要人工參與,識別方法多數(shù)為有監(jiān)督學習, 標注數(shù)據(jù)集短缺, 需要投入大量人力成本進行標注。這些因素共同導致新興主題識別的結果難以實現(xiàn)實時反饋, 使其在實際應用中受到了限制。

        3.2未來工作展望

        1) 重視理論基礎, 完善新興主題理論框架。在研究過程中, 應充分學習生命周期理論、傳播動力學等相關理論基礎, 理解新興主題的內(nèi)涵和形成機制, 明確與其類似概念間的異同。此外, 在撰寫相關文章時對新興主題概念進行明確定義, 也有利于進一步完善新興主題識別的相關理論與方法框架。

        2) 提高多源數(shù)據(jù)融合與多模態(tài)分析精度, 優(yōu)化新興主題識別性能。未來研究可以通過分析不同數(shù)據(jù)源之間主題的時滯差異, 對不同數(shù)據(jù)進行提前或滯后等操作, 進而實現(xiàn)主題對齊, 避免對不同數(shù)據(jù)進行簡單合并處理。同時, 應著力探索多模態(tài)數(shù)據(jù)融合方式, 綜合利用文本、圖片、表格、音視頻等數(shù)據(jù), 實現(xiàn)不同模態(tài)間語義的相互補充印證, 以提升新興主題識別性能。

        3) 面向全文本分析, 提高語料質量。未來研究應重視全文本分析, 從全文本中挖掘重要功能句,如利用深度學習模型提煉文章創(chuàng)新句、未來工作句、引用句等能夠反映文章創(chuàng)新性、前瞻性的重要功能句, 排除大量無關內(nèi)容, 進而提高語料的質量。同時后續(xù)研究應結合語言模型, 更深入地挖掘主題、文檔、術語間的隱含關系和語義聯(lián)系, 彌補語義表達層面的不足, 提高新興主題識別的準確性。

        4) 加強新興主題探索性研究, 實現(xiàn)從回顧向預測轉型。新興主題識別研究應選擇時效性更強的方法作為主要的主題識別方法, 以捕捉新興主題的早期弱信號。并利用時間序列分析、復雜網(wǎng)絡分析等方法對未來新興主題進行預測, 提高研究的前瞻性和實用性。

        5) 探索半監(jiān)督或無監(jiān)督學習方法, 推動新興主題識別的自動化和可視化。未來研究應積極開發(fā)半監(jiān)督、自監(jiān)督或無監(jiān)督方法, 以減少人工標注數(shù)據(jù)的需求和成本, 提升模型的準確性和泛化能力。此外, 開發(fā)新興主題識別的自動化和可視化工具有助于及時探測新興主題, 具有更高的普適性和研究價值。

        猜你喜歡
        引文分析文本挖掘文獻計量
        數(shù)據(jù)挖掘技術在電站設備故障分析中的應用
        軟件導刊(2016年12期)2017-01-21 15:55:21
        我國醫(yī)學數(shù)字圖書館研究的文獻計量分析
        基于WOS數(shù)據(jù)庫的近十年教育游戲文獻分析
        基于LDA模型的95598熱點業(yè)務工單挖掘分析
        國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
        國內(nèi)外政府信息公開研究的脈絡、流派與趨勢
        從《遠程教育》35年載文看遠程教育研究趨勢
        基于文獻計量分析我國生物科學素養(yǎng)研究狀況(2001~2016年)
        基于引文分析與內(nèi)容分析的專利計量與評價的理論探索
        科技視界(2016年23期)2016-11-04 10:01:05
        《圖書館》2000—2011高被引論文統(tǒng)計與分析
        科技視界(2016年24期)2016-10-11 09:32:50
        在线丝袜欧美日韩制服| 国产av无码专区亚洲av毛网站| 国产美女露脸口爆吞精| 欧美综合区| 久久综合加勒比东京热| av在线观看一区二区三区| 亚洲综合国产一区二区三区| 樱花AV在线无码| 三级日本午夜在线观看| 本道天堂成在人线av无码免费| 94久久国产乱子伦精品免费| chinese国产在线视频| 蜜桃人妻午夜精品一区二区三区| 亚无码乱人伦一区二区| 亚洲精品成人区在线观看| 精品人妻丰满久久久a| 国产精品毛片一区二区三区| 国产卡一卡二卡3卡4乱码| 欧美成人看片黄a免费看| 日韩人妻无码精品系列专区无遮 | 极品美女aⅴ在线观看| 亚洲色欲大片AAA无码| 亚洲精品一区二区三区麻豆| 欧美成人猛片aaaaaaa| 成人做爰高潮尖叫声免费观看| 99在线国产视频| 久久亚洲精品国产av| 欧美黑人性暴力猛交喷水| 国产午夜亚洲精品理论片不卡| 亚洲国产av午夜福利精品一区| 中文区中文字幕免费看| 免费观看又色又爽又黄的韩国| 2022精品久久久久久中文字幕| 美女免费视频观看网址| 东京热人妻一区二区三区| 毛片无遮挡高清免费久久| 国产在线一区二区三区不卡| 特黄熟妇丰满人妻无码| 亚洲人在线观看| 国产av自拍在线观看| 成人免费无码大片a毛片抽搐色欲|