亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于三維主題特征測度的新興主題識別研究

        2024-03-11 07:18:08鄭德俊程為
        情報學報 2024年2期
        關(guān)鍵詞:語義特征文本

        鄭德俊,程為

        (南京農(nóng)業(yè)大學信息管理學院,南京 210095)

        0 引 言

        新興主題是一個相對概念,隨時間推移而動態(tài)變化,是指在觀測時間點的未來一段時間內(nèi),具有發(fā)展?jié)摿εc應用價值并處于萌芽期或上升期階段的研究主題[1-2]。識別領域新興主題有利于及時跟蹤領域發(fā)展的最新動態(tài),厘清領域前沿研究主題的分布概況,輔助認知學科內(nèi)在的發(fā)展機制與軌跡[3-4],能夠為領域未來發(fā)展與應用提供可參考的方向,為科研工作者的選題以及科研管理者的決策提供情報支撐。領域新興主題識別是情報分析領域的一項熱點研究內(nèi)容,相關(guān)研究總結(jié)了其研究路徑,識別方法部分包括主題建模與主題新興程度測度兩個遞進階段[5]。目前,一方面,主題建?;陉P(guān)鍵詞、摘要或全文抽取特征詞進行主題聚類與表示,但該方法強調(diào)特征詞的共現(xiàn)或語義關(guān)聯(lián),通常忽視單篇文獻更豐富的內(nèi)外部特征信息,使得后續(xù)主題的特征測度與分析維度相對單一[6];另一方面,主題新興程度測度以時間、引文網(wǎng)絡與相似度作為切入點,選用一個或少數(shù)幾個定量指標進行計算,當面臨領域特點不同或主題類型不同時,較少指標由于揭示的主題信息不夠系統(tǒng)、全面,難以適應具體問題下的合適指標選用[7]。

        基于此,本文以完整摘要內(nèi)容為基本單位進行語義向量表示和主題建模,并以摘要代表單篇文獻作為線索串聯(lián)時間、引用等相關(guān)特征信息,探索構(gòu)建綜合時間、引用與關(guān)聯(lián)的多維度指標框架,以更全面、細致地挖掘與表示主題特征,實現(xiàn)新興主題的識別。在理論層面,能夠為新興主題的特征挖掘與測度提供一套可借鑒與擴展的特征指標框架,以期為新興主題識別的相關(guān)研究提供一種可參考的方法和思路;在實踐層面,本文提出的新興主題識別方法可作為一種參考工具應用于科技情報分析、領域發(fā)展態(tài)勢分析等場景,為新興主題發(fā)現(xiàn)提供數(shù)據(jù)支持。

        1 相關(guān)研究

        新興主題識別包括主題識別與新興主題發(fā)現(xiàn)兩個階段的任務。其中,主題識別方法分為兩類:一是網(wǎng)絡社區(qū)發(fā)現(xiàn)法,構(gòu)建共被引網(wǎng)絡、直接引文網(wǎng)絡、文獻耦合網(wǎng)絡、共詞網(wǎng)絡、語義網(wǎng)絡等識別研究主題[8-10];二是基于內(nèi)容挖掘法,實現(xiàn)主題特征詞抽取與表示[11]。新興主題發(fā)現(xiàn)則通常采用主題新興度、主題新穎性、主題成長度等指標,識別并衡量新興主題的發(fā)展?jié)摿11-13]。本文以文本內(nèi)容為主題建模的基礎,從基于內(nèi)容挖掘的主題建模與主題新興程度測度指標兩個方面梳理相關(guān)研究。

        1.1 基于內(nèi)容挖掘的主題建模

        主題建模是一種無監(jiān)督的聚類算法,挖掘數(shù)據(jù)集中語義單元的潛在關(guān)聯(lián)性進而劃分主題。在建模算法上,LDA(latent Dirichlet allocation)及其改進模型應用較為廣泛[14],比較有影響力的改進算法有LDA2vec[15]、動態(tài)LDA算法[16]、融合高斯函數(shù)加權(quán)的LDA算法[17]等,其面向科技文獻的主要應用場景有主題挖掘[18-19]、主題演化分析[20-21]、學術(shù)評價[22-23]等。近年來,隨著語義向量嵌入模型的廣泛應用,topic2vec[24-25]、BERTopic[26-27]等算法在主題建模中取得了較好效果。在特征詞抽取上,相關(guān)研究基于年份-關(guān)鍵詞詞頻矩陣識別研究熱點[10];結(jié)合客戶價值細分模型,對高價值關(guān)鍵詞進行篩選進而識別熱點主題[28];融合關(guān)鍵詞順序與詞頻、文獻與關(guān)鍵詞關(guān)聯(lián)關(guān)系等構(gòu)建關(guān)鍵詞綜合影響力模型,進而識別領域熱點主題[29]等,使得主題建模的結(jié)果具有更強的可解釋性。上述研究雖然有在關(guān)鍵詞的基礎上深入文獻摘要或全文進行主題挖掘,但仍以主題特征詞為基本單位對主題進行建模,導致文獻更豐富的內(nèi)外部特征信息無法得到充分利用。

        1.2 主題新興程度測度指標

        主題新興程度測度指標的特征基礎可以分為時間要素、引文網(wǎng)絡與語義挖掘三大類,主要包括如下代表性研究。在時間要素中,時序關(guān)系下特征詞的首次出現(xiàn)時間、平均時間和拐點時間是衡量主題新穎度的重要指標[12,30],另外,按時間切片的形式衡量主題的發(fā)展歷程與成長性也具有有效性[13,31]。引文網(wǎng)絡是指基于引用關(guān)系(引用、共被引和引用耦合)構(gòu)建復雜網(wǎng)絡,在主題聚類的基礎上,分析不同階段主題的知識流動路徑與強度[32-33],進而明確主題在引用網(wǎng)絡中的定位與影響力,將其作為新興主題不確定性和模糊性的測度指標[34],實現(xiàn)新興主題的預測。在語義挖掘中,主要通過相似度計算考量不同主題之間的語義距離[35],從內(nèi)容層面測度主題之間的差異性,并將這種差異性表達為主題創(chuàng)新度、主題新穎性或主題新興度[36-37]。上述主題測度指標都在一定程度上反映了主題新興程度,并得到了實踐檢驗,具有深入研究的價值,是本文的借鑒對象。但是,在科學計量與評價領域強調(diào)具體問題具體分析的要求下[38],需要集成側(cè)重不同主題特征的已有指標與新指標,以強化多指標融合視角下識別結(jié)果的可解釋性,提升人工判定的準確性與客觀性。

        1.3 相關(guān)研究述評

        目前,一方面,在主題建模上,基于特征詞的主題表示難以充分挖掘與表示主題的多維特征,有必要利用摘要的完整語義信息進行主題建模,使無監(jiān)督的主題聚類取得更符合領域知識分布特征的結(jié)果,具有更強的可解釋性,并且能夠充分融合文獻發(fā)表時間等信息豐富主題特征的觀測視角;另一方面,以時間、引用或關(guān)聯(lián)3個維度中的某一指標作為新興主題識別的依據(jù),越來越難以適應主題多元化發(fā)展的場景,因此,有研究嘗試融合不同指標進行新興主題識別并比單一指標取得了更好的效果[39-40]。然而,這部分研究仍是選用單維度或多維度的少數(shù)幾個指標,未形成系統(tǒng)的指標框架,在主題特征的挖掘深度與廣度上仍具有一定局限性,有必要在篩選現(xiàn)有指標的基礎上,提出新的主題特征指標,構(gòu)建3個維度并列共存、相互補充、相互驗證的指標框架,以不同主題特征作為切入點識別新興主題。

        更全面的主題語義知識表示是優(yōu)化主題建模結(jié)果的重要手段,系統(tǒng)指標框架的建立是更客觀評估主題新興程度的工具。因此,以摘要作為主題建模、表示與特征測度的基本單位,符合深度主題知識挖掘的需求;探索基于時間、引用和關(guān)聯(lián)的三維主題特征指標框架,對新興主題識別具有更廣泛的應用價值。

        2 新興主題識別方法

        2.1 識別方法概述

        現(xiàn)有研究中基于特征詞的主題表示,存在難以充分揭示主題特征信息、單個或少數(shù)指標難以全面且深入地挖掘主題特征信息的問題。本文嘗試解決這兩個方面的問題,提出新興主題識別方法的實現(xiàn)框架,如圖1所示。主要操作如下:第一,獲取數(shù)據(jù)包括領域文獻題錄及引用數(shù)據(jù),通過數(shù)據(jù)預處理構(gòu)建摘要語料;第二,以文獻為基本單位,基于語義詞向量嵌入摘要語料實現(xiàn)領域主題建模及評估,并通過主題置信概率保證主題建模的效果;第三,構(gòu)建三維主題特征指標框架,分別基于3個維度的指標計算識別新興主題;第四,融合各個維度下的識別結(jié)果相互補充來輔助人工判定,匯總形成領域新興主題識別結(jié)果;第五,通過基于LDA+word2vec+similarity的方法對比分析、指標相關(guān)性計算分析、資料分析法來綜合評估本文方法的有效性。其中,充分挖掘文獻的語義內(nèi)涵并以文獻摘要為基本單位進行主題建模、構(gòu)建融合多因素的細粒度主題特征指標框架是本文的創(chuàng)新所在。

        圖1 新興主題識別方法的實現(xiàn)框架

        2.2 主題建模及評估

        2.2.1 BERTopic主題建模

        傳統(tǒng)主題建模算法,如LSA(latent semantic analysis)、PLSA(probabilistic latent semantic analy‐sis)、LDA等,通過詞袋表示進行建模,忽略了詞間的語義關(guān)系,不能解釋文檔語料中詞的上下文,難以準確表示文檔。BERT(bi-directional encoder representations from transformers)及其改進模型能夠生成融合文檔語料上下文語義信息詞向量與句子向量,在該方式下,相似文本在向量空間中更接近[41]。BERTopic融合深度語義向量與傳統(tǒng)聚類方法對主題進行建模,本文舍棄抽取特征詞進行主題表示的過程,核心思路分為兩個階段:①通過詞嵌入的預訓練模型得到文檔語料的深度語義向量;②通過HDBSCAN(hierarchical density-based spatial clus‐tering of applications with noise)、k-means等聚類算法進行聚簇處理,以文檔為基本單位實現(xiàn)領域研究主題建模。以摘要文本為語料,基于BERTopic挖掘更深層次的語義信息進行向量表示,進而以摘要為基本單位進行主題聚類與表示,相較于主題特征詞,能夠融合更豐富的信息如參考文獻與施引文獻的語義信息作為后續(xù)主題特征測度的數(shù)據(jù)基礎。

        2.2.2 評估方法

        當存在N個樣本與K個主題時,BERTopic模型會計算任意一個樣本分別聚類至K個主題的概率,并最終將其聚類至最大概率對應的主題;將N個樣本被聚類至最大概率對應的主題的平均概率稱為主題置信概率,用于評估主題建模的結(jié)果。主題置信概率最小取值為1/K,此時建模效果最差,N個樣本聚類至各主題完全隨機;理想狀態(tài)下,主題置信概率取值為1,即樣本屬于某一主題的概率為100%且屬于其他主題的概率為0%,此時建模達到理想的最佳效果,主題內(nèi)部樣本高度集中,且與主題外部的樣本高度分離,聚類結(jié)果不存在任何誤差可能。在區(qū)間[1/K, 1]內(nèi),主題置信概率取值越高,主題建模效果越好。

        2.3 三維主題特征指標框架

        主題的時間、引用和語義特征是評估主題新興程度的主要參考線索,吸納現(xiàn)有指標并補充新指標,本文構(gòu)建了包含14個指標的三維主題特征指標框架。

        2.3.1 時間維度

        時間維度下,主題新興度計算思路有主題中最新樣本的時間屬性、主題中最早樣本與觀測時間的時間間隔、主題內(nèi)樣本的時間屬性的平均值等。雖然以上計算方法可以直觀反映主題的重要時間點,但是容易受到極端單樣本的影響。因此,基于上述指標,著重關(guān)注觀測時間的最近一段時間的主題樣本分布情況,考慮到觀測時間點不一定能夠以完整的年份為間隔劃分樣本,將主題中樣本的局部分布與領域中樣本的整體分布進行對比,按不均等劃分時間段的方式衡量主題在觀測時間點的發(fā)展?jié)摿?。時間維度的各主題特征指標如表1所示。

        表1 時間維度的主題特征測度指標

        2.3.2 引用維度

        文獻間的引用關(guān)系通常用于探測知識的跨主題流動,可以揭示主題間的關(guān)聯(lián)程度、測度主題在領域中所處的位置,相關(guān)測度指標主要基于主題的被引頻次、施引頻次等基本計量指標衡量主題在領域中的核心度。但是,被引文獻與施引文獻客觀存在的時間先后關(guān)系在一定程度上反映了知識更新的周期,而上述指標對引用關(guān)系潛在的時間關(guān)系關(guān)注較少。因此,融合主題內(nèi)部和跨主題引用數(shù)據(jù)的時間屬性,采用表2中的指標來綜合測度主題引用維度的特征。

        表2 引用維度的主題特征測度指標

        2.3.3 關(guān)聯(lián)維度

        相似度計算是衡量主題新興度的重要手段,當前新興主題發(fā)現(xiàn)研究通常以詞共現(xiàn)關(guān)系及其頻次、詞向量等作為相似度計算基礎。但是,詞在主題中不是孤立存在或以簡單的共現(xiàn)關(guān)系存在的。因此,本文以標題為基本單位,充分挖掘標題的語義信息構(gòu)建向量,進而測度主題內(nèi)外部的語義關(guān)聯(lián)程度。同時,僅考慮主題內(nèi)部或主題間的語義關(guān)聯(lián)會忽略非領域內(nèi)的相關(guān)數(shù)據(jù),在當前多學科領域知識交叉融合的背景下,跨領域知識流動程度能夠揭示研究的潛在價值,有必要獲取文獻完整引用數(shù)據(jù)用于主題特征測度。SimCSE(simple contrastive sentence embedding)基于對比學習的思想,利用自監(jiān)督學習來提升句子的表示能力,能夠充分學習文本的語義知識[45]。因此,本文以文獻標題作為輸入,選擇sup-simcse-bert-base-uncased預訓練模型,輸出表示文獻的768維語義向量。以主題中各文獻語義向量的平均向量作為主題的語義向量。關(guān)聯(lián)維度的各指標詳情如表3所示。

        表3 關(guān)聯(lián)維度的主題特征測度指標

        3 實證研究

        3.1 數(shù)據(jù)來源與預處理

        以“文本分類”領域為例進行實證,限定Web of Science核心合集,為提升檢索結(jié)果與領域的相關(guān)性,不額外限制“text classification”這一通用概念,并限制其同義概念必須以詞組形式出現(xiàn)。因此,構(gòu)建檢索式“TS=((text classification) OR ("docu‐ment classification") OR ("document categorization")OR ("text categorization") OR ("text tagging") OR("document tagging"))”進行檢索,檢索時間為2022年10月2日,出版日期截至2022年9月30日,得到檢索結(jié)果28095條,經(jīng)過人工判斷初步剔除不相關(guān)或弱相關(guān)記錄,得到25714條記錄。為獲取更規(guī)范、完整的數(shù)據(jù),在2022年10月7日至2022年10月11日,遍歷檢索結(jié)果中每一文獻的DOI(digital object identifier),通過開源學術(shù)搜索引擎Semantic Scholar提供的API(application programming interface)獲取文獻的題錄信息、參考文獻與施引文獻數(shù)據(jù)。由于檢索結(jié)果中部分文獻沒有DOI或文獻未被Semantic Scholar收錄,最終通過API獲得23096條文獻的JSON(JavaScript object notation)數(shù)據(jù),包括770559條參考文獻記錄和685406條施引文獻記錄。本文實驗所用數(shù)據(jù)雖然無法涵蓋領域所有文獻,但數(shù)據(jù)已具有一定規(guī)模,能夠較全面地反映領域的主要研究內(nèi)容。

        基于NLTK(natural language toolkit)庫,對23096條文獻的摘要進行大寫轉(zhuǎn)小寫、分詞、詞形還原和去停用詞的預處理,形成摘要語料。由于領域文獻的主題均與“文本分類”相關(guān),為防止詞頻過高的詞集中于某一主題進而導致過多文獻被分類至該主題,在基本去停用詞表的基礎上,選取詞頻超過10000的詞并基于人工篩選補充停用詞表,基本統(tǒng)計信息如表4所示。

        表4 補充停用詞表的統(tǒng)計信息

        3.2 主題建模

        基于23096條文獻的摘要語料進行主題建模實驗,主要分為4個步驟:①選擇BERTopic中處理英文文本的默認嵌入模型all-MiniLM-L6-v2,將每一摘要文本的語義信息映射到一個384維的稠密向量空間;②基于默認的UMAP(uniform manifold ap‐proximation and projection)降維算法對摘要向量進行降維,為平衡計算開銷與信息量大小,以區(qū)間[2,10]內(nèi)的整數(shù)作為候選空間維數(shù);③選擇HDB‐SCAN算法進行聚類,以區(qū)間[2,100]內(nèi)的整數(shù)作為候選最小聚類樣本數(shù);④基于sklearn庫的文本特征抽取實現(xiàn)主題序列化,訓練BERTopic模型時,nr_topics設為“auto”,由模型自動迭代生成最佳主題數(shù)。當降維空間維數(shù)為5時,模型聚類結(jié)果相對穩(wěn)定,重復實驗,可以獲得相似的聚類結(jié)果;當最小聚類樣本數(shù)分別為65、66、68時,模型取得較好效果,主題置信概率均在90%左右。對實驗結(jié)果進行人工審查后,最終確定最小聚類樣本數(shù)為66,此時有4319條樣本屬于離群文檔或無法劃分主題歸屬的文檔,剩余18777條樣本被模型分別聚類至42個主題,主題置信概率為90.12%,從定量評估的角度可以認為主題建模結(jié)果較為合理。

        分別在42個主題中隨機選取部分摘要樣本人工研讀,總結(jié)各主題的基本內(nèi)涵,42個主題的基本信息如表5所示。將18777條摘要樣本由高維空間映射至二維語義空間,其在42個主題的分布情況如圖2所示,圖中各主題的示例特征詞由BERTopic模型給出以便區(qū)分與可視化,并非主題的實際表示方式。

        表5 42個主題基本信息

        圖2 摘要樣本在二維語義空間的可視化分布

        在定性評估方面,圖2中主題內(nèi)部的樣本分布相對集中,不同主題間的界限明顯,達到了較好的聚類效果。其中,部分主題如“功能性磁共振成像”的樣本相對游離孤立,考慮到該部分主題也具有分析的需要,不對聚類結(jié)果做進一步人工處理。綜合來看,主題建模結(jié)果具有較強的可解釋性,未出現(xiàn)違反客觀事實的重大誤判,建模結(jié)果可信。

        3.3 新興主題識別

        3.3.1 指標計算

        基于三維主題特征指標框架,計算各主題特征指標值。在時間維度,有4個主題的最早發(fā)文點為1991年,取值最?。?個主題最早發(fā)文點為2012年,取值最大;除極少數(shù)主題外,其他主題的最新發(fā)文點均為2022年。以上兩個指標的區(qū)分度較差,難以用于各主題的對比分析。計算各主題平均發(fā)文點與相對增長度,如圖3a所示。在引用維度,基于參考文獻數(shù)據(jù)集,構(gòu)建領域18777篇文獻的引用網(wǎng)絡,共包含45658條引用關(guān)系,計算指標值如圖3b和圖3c所示。圖3b和圖3c中的節(jié)點數(shù)字代表主題編號,節(jié)點大小分別代表內(nèi)引時差和主題內(nèi)引度。在關(guān)聯(lián)維度,對于施引豐富度與被引豐富度兩個指標,構(gòu)建每一文獻的參考文獻標題集與施引文獻標題集,基于SimCSE,以標題文本輸入sup-simcsebert-base-uncased預訓練模型構(gòu)建語義向量,采用余弦相似度分別計算參考文獻標題集與施引文獻標題集的相似度矩陣,進而計算指標值,如圖3d所示。

        圖3 各主題三維主題特征指標值對比圖

        3.3.2 識別結(jié)果

        由圖3a可以發(fā)現(xiàn),“虛假信息監(jiān)測”的平均發(fā)文點(2020.008)距觀測點最近,表明在2020年前后有關(guān)虛假信息監(jiān)測的研究引起領域?qū)W者的廣泛關(guān)注;另外,“網(wǎng)絡平臺負面言論檢測”“圖神經(jīng)網(wǎng)絡技術(shù)”“對抗式生成網(wǎng)絡模型”等主題的平均發(fā)文點都在2019年以后,表明它們具有較新的研究場景與內(nèi)容。“音樂流派與情感分類”和“創(chuàng)新技術(shù)發(fā)現(xiàn)”兩個主題的平均發(fā)文點都在2016年左右,但二者的相對增長度遙遙領先其他主題,均超過0.58,表明與領域整體發(fā)展相比,這兩個主題的研究在當下具有貼合外部需求、融合新興技術(shù)并且更與時俱進的研究內(nèi)容,迎來了新的小高峰。

        由圖3b可以發(fā)現(xiàn),主題的出度時差與入度時差基本都在兩年以上,而“融合多模態(tài)的情感分類”“網(wǎng)絡平臺負面言論檢測”“圖神經(jīng)網(wǎng)絡技術(shù)”等主題內(nèi)引時差、出度時差與入度時差均較小,知識更新的速度較快,更具有產(chǎn)生新知識的潛力。

        由圖3c可以發(fā)現(xiàn),“用戶消費滿意度情感分析”“引文分類與推薦”等跨主題入度較高且跨主題出度較小,即它們廣泛吸收了同領域其他主題的知識,但還未在其他主題大范圍知識擴散,在將來具有更廣闊的發(fā)展前景?!翱臻g知識標注與計算”“自動問答”“自動摘要”等主題內(nèi)引度較小且跨主題出度較小,表明其仍處于發(fā)展上升期,具有發(fā)展?jié)摿Α?/p>

        由圖3d可以發(fā)現(xiàn),“醫(yī)學信息挖掘”由于樣本數(shù)最多,主題內(nèi)聚度最低;而“功能性磁共振成像”是一個比較孤立的主題,主題內(nèi)聚度高而交叉度低,在前面各項指標中它也是一個具有明顯特征差異的主題,與文本分類領域本身關(guān)聯(lián)性較弱?!白髡唢L格與文本體裁分類”“金融信息分類與挖掘”等主題內(nèi)聚度與主題交叉度均較低,表明主題具有相對新穎、獨到的研究內(nèi)容,仍處于發(fā)展上升期?!敖鹑谛畔⒎诸惻c挖掘”“法律文本智能挖掘”“用戶消費滿意度情感分析”“作者風格與文本體裁分類”等被引豐富度與施引豐富度均較高,表明這些主題在未來具有跨領域知識融合與發(fā)現(xiàn)的價值。

        在2022年10月這個觀測點上,綜合圖3的各指標結(jié)果,判定文本分類領域的新興主題,如表6所示。結(jié)合表6,基于對部分領域文獻的內(nèi)容分析,歸納文本分類領域未來的新興研究主題如下:①文本分類前沿技術(shù)的改進,如圖神經(jīng)網(wǎng)絡、對抗式生成網(wǎng)絡等模型的優(yōu)化;②文本分類方法在通用場景下的下游任務創(chuàng)新,如網(wǎng)絡信息的智能挖掘與質(zhì)量評估、情感分析在多模態(tài)數(shù)據(jù)與細粒度分類標準上的擴展等;③文本分類方法結(jié)合領域知識特征在垂直領域的深入應用,如金融、法律等領域的知識結(jié)構(gòu)化建模與價值發(fā)現(xiàn);④文本分類與其他相關(guān)技術(shù)的協(xié)同優(yōu)化,如增強自動問答與自動摘要的自然語言可理解性、提升多模態(tài)數(shù)據(jù)細粒度分類的準確性等。

        表6 三維特征指標測度下的文本分類領域新興主題識別結(jié)果

        3.3.3 結(jié)果與分析

        在實驗中,最早發(fā)文點和最新發(fā)文點由于區(qū)分度較差未作為新興主題識別的依據(jù),因此,對任意一個主題,由3個維度共12個指標值定量描述。例如,“虛假信息監(jiān)測”可表示為[({平均發(fā)文點:2020.008}, {相對增長度: -0.0259}); ({主題內(nèi)引度:0.9280}, {內(nèi)引時差:2.4138}, {跨主題出度: 0.5120},{出度時差: 2.1875}, {跨主題入度: 1.0720}, {入度時差: 4.1716}); ({被引豐富度: 0.5548}, {施引豐富度:0.6169}, {主題內(nèi)聚度: 0.4882}, {主題交叉度:0.3409})]。對任意一個主題,分別取12個指標值在42個主題中的升序排名值,對于平均發(fā)文點等與新興程度正相關(guān)的指標,單指標的新興程度量化結(jié)果為排名值,對于主題內(nèi)聚度等與新興程度負相關(guān)的指標,單指標的新興程度量化結(jié)果為43減去排名值;3個維度量化結(jié)果取下屬單指標量化結(jié)果的平均值;整體量化結(jié)果取3個維度量化結(jié)果的平均值。例如,“虛假信息監(jiān)測”在時間、引用與關(guān)聯(lián)維度的新興程度量化結(jié)果分別為24、28.6667、25.25,整體量化結(jié)果為25.9722。匯總表6中的新興主題,基于上述處理過程繪制圖4,主題標簽大小取決于整體新興程度。

        圖4 主題新興程度在三維空間的量化分布

        在圖4中,“作者風格與文本體裁分類”“自動摘要”等主題僅在單一維度新興程度較高,“引文分類與推薦”“融合多模態(tài)的情感分類”等主題同時在2個維度新興程度較高,而僅有“用戶消費滿意度情感分析”“法律文本智能挖掘”等少數(shù)主題在3個維度新興程度均較高。各主題在三維空間中分布較為離散,且極少有主題在3個維度的新興程度均較高,這說明從不同維度分類討論新興主題是有價值且符合客觀結(jié)果的,結(jié)合具體主題的實際特征,綜合考量各維度的指標值能夠有效識別不同類型的新興主題。

        3.4 方法評估

        3.4.1 方法對比分析

        遞進式組合使用LDA、word2vec與similarity是目前較為常用的新興主題識別方法,為驗證本文識別方法(以下簡稱“A方法”)的有效性,增加LDA+word2vec+similarity方法(以下簡稱“B方法”)作為實驗對照組。首先,對于預處理后的摘要語料,基于LDA識別領域主題及主題特征詞;其次,利用word2vec訓練主題特征詞的詞向量;最后,基于特征詞向量,計算主題與其他主題余弦相似度的平均值,用1減去該值來表示主題的新興度?;趃ensim庫訓練LDA主題模型,訓練時通過語料庫的次數(shù)為10,文檔-主題分布的先驗al‐pha與主題-詞分布的先驗均設置為“auto”,以區(qū)間[2,50]內(nèi)的整數(shù)作為候選主題數(shù),主題數(shù)為27時主題困惑度最低,達到最優(yōu)建模效果;主題由分布概率較高的N個特征詞表示,設置N為30,設置詞向量維度為100。經(jīng)計算,得到對照組新興主題識別結(jié)果,如表7所示。

        通過表7可以發(fā)現(xiàn),與A方法識別結(jié)果相比,B方法難以有效表示主題的語義信息,導致難以識別更細致的主題差異,同時,因為僅有新興度一個指標,難以綜合考慮主題的各特征因素,導致結(jié)果具有一定的局限性。例如,排名第1、3、6位的主題在內(nèi)涵上隸屬對照實驗中的“醫(yī)學信息挖掘”,而實驗數(shù)據(jù)集更多是文本分類技術(shù)與應用的相關(guān)文獻,大量醫(yī)學相關(guān)文獻的缺失導致對照實驗高估了其新興度,導致誤判;排名第4位的主題“情感識別”屬于新興主題,但其主題范疇過于寬泛,A方法能識別出更細分的新興主題“用戶消費滿意度情感分析”“融合多模態(tài)的情感分類”“網(wǎng)絡平臺負面言論檢測”等;單個指標的局限性也導致A方法識別出的新興主題在對照實驗中被大量漏識。

        通過與B方法的對比分析,可以認為本文方法具有新興主題識別粒度更細、更準確、更全面的優(yōu)勢。

        3.4.2 指標相關(guān)性分析

        對42個主題的各指標值進行相關(guān)性分析,樣本數(shù)小于50條,因此,選擇夏皮洛-威爾克(Shapiro-Wilk,S-W)法進行檢驗,變量檢驗結(jié)果均不符合正態(tài)分布;根據(jù)變量的數(shù)據(jù)類型和分布形態(tài),選取斯皮爾曼(Spearman)相關(guān)系數(shù)法對變量進行相關(guān)性檢驗,結(jié)果如表8所示。從表8可以發(fā)現(xiàn),一方面,14個指標兩兩之間大部分不存在顯著的相關(guān)關(guān)系,這表明各指標具有差異性,形式上相互補充,能夠從不同角度更加全面地揭示主題特征,這在3.3節(jié)中的實證得以驗證。另一方面,部分指標之間存在正向或負向的顯著性相關(guān)關(guān)系,正向相關(guān)性反映了相關(guān)指標之間內(nèi)在的協(xié)同性,如內(nèi)引時差、入度時差與出度時差3個指標彼此存在正向相關(guān)性,從圖3b中也可發(fā)現(xiàn)這一規(guī)律,“融合多模態(tài)的情感分類”等主題在3個指標上的取值均較小,在圖中的分布相對集中且與其他主題存在明顯特征差異,能夠更準確地發(fā)現(xiàn)新興主題;負向相關(guān)性反映了指標之間在極端值內(nèi)涵上的互斥性,如最早發(fā)文點通常較早,反映了一個主題的發(fā)展時間與成熟度,與新興程度相互對立,因此,它與內(nèi)引時差等多個指標存在負向相關(guān)性,從側(cè)面反映了這些指標作為新興主題識別依據(jù)的科學性與合理性。

        表8 各指標相關(guān)性分析

        3.4.3 識別結(jié)果驗證

        由于新興主題識別是一種預測性任務,沒有一種通用的定量標準衡量識別結(jié)果的準確性[5,30],因此,采用資料分析法驗證文本分類領域新興主題識別結(jié)果的科學性。在2022年1月1日至2023年3月1日,收集Web of Science核心合集、中文社會科學引文索引(Chinese Social Sciences Citation Index,CSSCI)與中國科學引文數(shù)據(jù)庫(Chinese Science Citation Database,CSCD)里文本分類相關(guān)的中英文綜述,對其內(nèi)容進行深入分析。相關(guān)文獻談到如何優(yōu)化深度學習模型、改進前沿技術(shù)[48];文本分類將重點關(guān)注算法改進、信息拓展以及二者的相互融合,并探索特定領域應用[49];應當加強情感分析與知識問答對自然語言的理解能力[50]等。綜合來看,本文結(jié)合識別結(jié)果總結(jié)的新興研究主題基本貼合了上述相關(guān)表述,證明了本文方法的有效性與準確性。

        4 結(jié)論與展望

        4.1 研究結(jié)論

        (1)以文獻為基本單位表示主題能輔助主題深入挖掘。傳統(tǒng)以特征詞進行主題表示的方法通常依靠詞間共現(xiàn)或關(guān)聯(lián)關(guān)系進行主題特征測度,在一定程度上限制了對主題的深入挖掘。本文以文獻為基本單位進行主題表示。其一,主題表示由一系列詞的集合替換為包含更豐富語義信息的摘要文本集合,使得主題能夠涵蓋更細致的語義內(nèi)容,為主題內(nèi)涵的凝練與分析提供更易理解的數(shù)據(jù)支撐,更精準地溯源主題的某一文獻進行深入分析;其二,以文獻為基本單位表示主題能夠擴展主題的內(nèi)外部關(guān)聯(lián)類型,如特征詞之間難以準確表示的引用關(guān)系可以通過文獻精準表示,為主題的關(guān)聯(lián)分析提供不同的切入點;其三,以文獻為基本單位能夠融合更多樣的相關(guān)數(shù)據(jù)輔助主題特征的測度,如領域文獻與非領域文獻之間基于引用的相關(guān)關(guān)系,可以探測知識跨領域流向特定主題的方向及強度,豐富主題觀測的思路。

        (2)三維主題特征指標框架具有較好的適應性與擴展性。本文從時間、引用與關(guān)聯(lián)3個維度構(gòu)建了包含14個指標的主題特征指標框架,從更全面的角度深入考察新興主題區(qū)別于一般主題的特征因素,并通過各指標的整體協(xié)同分析定量評估主題,以得到更客觀的識別結(jié)果。一方面,3個維度的各指標有不同的側(cè)重因素,以定量指標形式科學化、精細化地展示與描述主題,有利于輔助人工更客觀、有效地判定新興主題。在宏觀上,立足領域考量其知識生產(chǎn)及擴散的特殊性選取適用指標對具體問題具體分析,如引用數(shù)據(jù)較少的領域應適當降低相關(guān)指標的重要性;在微觀上,針對不同主題類型可以綜合各項指標進行差異化解讀與評估,如交叉主題、迎來新發(fā)展機遇的經(jīng)典主題、新誕生的主題等。另一方面,指標框架具有較強的擴展性,在面向特定領域或特定需求時,可靈活新增具有測度價值的定量或定性指標,建立更完善適用的指標框架,更好地服務于新興主題發(fā)現(xiàn)。

        (3)本文提出的新興主題識別方法存在泛化應用的參考價值。首先,實驗所用數(shù)據(jù)的時間跨度為1991—2022年,領域經(jīng)歷了較長的發(fā)展歷程,共有18777篇文獻聚類至42個主題,數(shù)據(jù)具有一定規(guī)模,實驗數(shù)據(jù)選取具有合理性。其次,文本分類本身是一個隨技術(shù)進步不斷迭代發(fā)展的領域,同時與醫(yī)學、金融、法律等領域形成具有交叉領域特色的研究內(nèi)容。除此之外,與圖像分類、語音識別等相關(guān)領域存在諸多共通性與差異性,實證領域特點鮮明,具有一定代表性。最后,實驗證明了本文方法的可操作性,通過與LDA+word2vec+similarity方法的對比分析、指標相關(guān)性分析及資料分析法討論了實驗結(jié)果的科學性與有效性。因此,在結(jié)合其他泛化領域自身特征的基礎上,參考本文方法,選取適用指標組合使用能夠幫助人工動態(tài)識別領域新興主題。

        4.2 未來展望

        (1)以文獻為線索充分挖掘主題特征。以文獻為線索,可以串聯(lián)文獻題錄各字段信息、全文本內(nèi)容、引文信息等各類型數(shù)據(jù),以更全面的數(shù)據(jù)作為深入觀測主題的切入點。本文初步探討了從不同視角評估主題新興度的可行性,未來可從兩個方面做進一步的探索。一是在數(shù)據(jù)范圍廣度上,融合更多元的數(shù)據(jù)拓展可能影響新興主題預測的因素和維度,完善現(xiàn)有指標框架,使得新興主題的識別結(jié)果更加準確、豐富。例如,參考文獻與施引文獻的發(fā)表時間及其被引量等、評估主題跨領域的知識擴散強度及可賦予更高權(quán)重的高影響力知識擴散強度等,還可關(guān)聯(lián)專利、政策文件等多源數(shù)據(jù)觀測新興主題的其他相關(guān)特征因素。二是在指標內(nèi)涵深度上,基于更深層次的語義知識挖掘,定量描述主題的細粒度特征以更微觀地觀測主題。例如,針對引用維度的相關(guān)指標,可以通過更細致的分類,綜合考量引用位置、引用情感與引用動機等語義信息,使得指標在簡單計數(shù)的基礎上向更復雜的語義計量進行深化。

        (2)智能評估的需求下減少人工干預。當前,新興主題的自動識別無法完全消除人工干預,主要體現(xiàn)為兩個方面。一是在主題建模階段,由于不同主題獨特的內(nèi)涵與語境,算法無法準確理解并概括主題,仍依賴人工對主題內(nèi)涵進行總結(jié);二是在新興主題識別結(jié)果分析階段,指標雖然能客觀量化主題,但是無法自動分析新興主題的內(nèi)容,依賴人工進一步評估與解讀。針對上述問題,可以明確各指標的權(quán)重,提出綜合多因素的唯一指標,以主題排序的形式自動生成新興主題,但仍無法解決新興主題的智能解讀問題。因此,還可以借助現(xiàn)有生成式人工智能技術(shù),面向特定場景下的需求,基于領域知識輸入對預訓練模型進行繼續(xù)訓練,在人工提示的基礎上,根據(jù)定量指標計算結(jié)果,由機器智能化概括主題內(nèi)涵并生成新興主題的定性評估報告,在減少人工干預的同時,通過人機合作達到相互參照、相互驗證的效果,以實現(xiàn)更高效的新興主題發(fā)現(xiàn)。

        5 結(jié) 語

        本文提出一種基于三維主題特征測度的領域新興主題識別方法,具體包括兩個方面的優(yōu)勢:①基于BERTopic模型對領域知識進行主題建模,相較于特征詞,采用包含更豐富語義信息的摘要文本進行主題表示,能夠挖掘到更深層次的主題特征;②構(gòu)建融合時間、引用與關(guān)聯(lián)因素的三維主題特征指標框架,對14個指標進行計算與觀測,能夠基于更廣泛、更深入的主題特征挖掘?qū)崿F(xiàn)更有效的新興主題發(fā)現(xiàn)。

        然后,利用文本分類領域相關(guān)數(shù)據(jù)進行了實證研究,驗證了本文方法的可行性,識別出虛假信息監(jiān)測、網(wǎng)絡平臺負面言論檢測、自動問答、自動摘要、圖神經(jīng)網(wǎng)絡技術(shù)、作者風格與文本體裁分類等新興主題,并將識別結(jié)果歸納為文本分類前沿技術(shù)的改進、文本分類方法在通用場景下的下游任務創(chuàng)新、文本分類方法結(jié)合領域知識特征在垂直領域的深入應用、文本分類與其他相關(guān)技術(shù)的協(xié)同優(yōu)化四個方面。通過方法對比分析、指標相關(guān)性分析和資料分析法驗證了本文方法的有效性,說明該方法具有泛化應用至其他領域的價值。

        此外,本文存在一定的局限性:①僅獲取領域文獻的參考文獻與施引文獻標題,沒有利用相關(guān)的更豐富的信息做進一步的挖掘與分析;②僅初步討論了各指標的有效性,需要進一步明確各指標的權(quán)重,進而提出綜合性指標。未來研究將做進一步的改進。

        猜你喜歡
        語義特征文本
        語言與語義
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        認知范疇模糊與語義模糊
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        蜜桃视频免费进入观看| 国产成人福利在线视频不卡| 国产偷闻隔壁人妻内裤av| 欧美精品中文字幕亚洲专区| 精品久久久久久99人妻| 男女视频一区二区三区在线观看| 国产猛男猛女超爽免费视频| 亚洲av无码潮喷在线观看| 亚洲色欲久久久久综合网| 久久一区二区三区四区| 全程国语对白资源在线观看| 色大全全免费网站久久| 国产激情无码一区二区三区| 娇妻玩4p被三个男人伺候电影| 亚洲无线码1区| 亚洲综合在不卡在线国产另类 | 一本一道久久a久久精品综合蜜桃| 国内偷拍国内精品多白86| 亚洲国产精品无码专区| 麻豆精品久久久久久久99蜜桃 | 国产精品成人午夜久久| 日本一区二区三区在线观看视频| 日本无遮挡真人祼交视频| 又粗又硬又黄又爽的免费视频| 中文幕无线码中文字蜜桃| 亚洲日本欧美产综合在线| av免费一区在线播放| 亚洲中文字幕午夜精品| 亚洲精品无码乱码成人| 在线看片国产免费不卡| 日本免费大片一区二区三区 | 中文字幕一区二区三区综合网| 欧美xxxxx在线观看| 亚洲欧洲巨乳清纯| 国产亚洲AV片a区二区| 中文字字幕在线中文乱码解| 风韵多水的老熟妇| 无码不卡免费一级毛片视频| 一区二区三区在线乱码| 亚洲精品国产一区二区 | 国产自拍视频免费在线观看|