逯萬輝
關(guān)鍵詞:主題建模;LDA;Top2vec;Bertopic;科學(xué)文獻(xiàn);主題識(shí)別
科學(xué)文獻(xiàn)是科學(xué)知識(shí)傳播與交流的重要載體和媒介,其中蘊(yùn)含著豐富的語義信息和主題信息,基于特定領(lǐng)域的文獻(xiàn)數(shù)據(jù)集,挖掘和識(shí)別其中的研究主題并對(duì)其進(jìn)行有效的知識(shí)關(guān)聯(lián)和主題表示,是揭示領(lǐng)域知識(shí)演化脈絡(luò)、探測(cè)領(lǐng)域研究前沿的一項(xiàng)基礎(chǔ)工作。許多學(xué)者從不同角度對(duì)科學(xué)文獻(xiàn)主題挖掘方法與應(yīng)用進(jìn)行了研究和探索,通過對(duì)科學(xué)文獻(xiàn)的內(nèi)容特征、引文網(wǎng)絡(luò)、語義信息等不同維度信息的挖掘與計(jì)算,實(shí)現(xiàn)了科學(xué)文獻(xiàn)的文本聚類與主題抽取,以輔助科研人員快速把握領(lǐng)域研究現(xiàn)狀和趨勢(shì),提升科研效率。目前,科學(xué)文獻(xiàn)主題挖掘技術(shù)已成為情報(bào)學(xué)與情報(bào)分析方法領(lǐng)域的重要技術(shù)基礎(chǔ),在研究前沿探測(cè)、技術(shù)主題演化分析、新興研究領(lǐng)域主題結(jié)構(gòu)挖掘、知識(shí)組織與知識(shí)圖譜構(gòu)建、學(xué)術(shù)評(píng)價(jià)與推薦研究等方面均表現(xiàn)出廣闊的應(yīng)用前景??茖W(xué)文獻(xiàn)主題挖掘方法主要來源于計(jì)算機(jī)領(lǐng)域的主題建模技術(shù),該技術(shù)是一種較為通用的文本特征計(jì)算與隱性知識(shí)挖掘方法,主要應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)處理與分析之中。近年來,隨著深度學(xué)習(xí)算法的不斷發(fā)展和大語言模型技術(shù)的廣泛應(yīng)用,Doc2vec、BERT等新的文本特征計(jì)算方法的出現(xiàn)為主題建模技術(shù)提供了新的實(shí)現(xiàn)途徑,隨之出現(xiàn)的Top2Vec.BERTopic等新興主題建模工具,為科學(xué)文獻(xiàn)主題建模提供了新的解決方案。相較于傳統(tǒng)主題建模方法(如LDA主題模型),新興主題建模方法在文本特征計(jì)算過程和主題建模結(jié)果上均存在較大的差異性。研究和對(duì)比不同主題建模方法的算法特點(diǎn)及其在科學(xué)文獻(xiàn)主題識(shí)別上的結(jié)果差異與優(yōu)勢(shì)表現(xiàn),是針對(duì)研究目標(biāo)科學(xué)選擇主題建模方法開展主題挖掘?qū)嵺`與應(yīng)用的重要前提?;诖耍疚木劢箍茖W(xué)文獻(xiàn)主題建模方法的主題識(shí)別效果評(píng)估視角展開實(shí)驗(yàn)研究,通過對(duì)不同類型主題建模技術(shù)的算法特點(diǎn)和建模效果進(jìn)行對(duì)比分析,以期為科學(xué)文獻(xiàn)主題挖掘在不同應(yīng)用場(chǎng)景中選擇合適的主題建模技術(shù)提供科學(xué)支撐。
1科學(xué)文獻(xiàn)主題建模研究現(xiàn)狀
1.1主題建模技術(shù)研究現(xiàn)狀
主題建模(Topic Modeling)最早產(chǎn)生并應(yīng)用于信息檢索和自然語言處理領(lǐng)域,是一種數(shù)據(jù)降維和特征抽取技術(shù),該技術(shù)引入了主題這一概念,通過掃描一組文檔并檢測(cè)其中的單詞和短語模式,將文檔集合中的詞語規(guī)約到主題維度,從而達(dá)到高維數(shù)據(jù)降維的目的,同時(shí)主題中也包含了文檔及其詞語的潛在語義信息,因此具備更強(qiáng)的語義表達(dá)能力。LSA(Latent Semantic Analysis,潛在語義分析)、pL-SA(Probabilistic Latent Semantic Analysis.概率潛在語義分析)和LDA(Latent Dirichlet Alocation,隱含狄利克雷分布)等都是較為常用的主題建模方法。近年來,隨著深度學(xué)習(xí)算法與大語言模型的快速發(fā)展,新興主題建模技術(shù)如Top2Vec和BERTopic等也廣泛應(yīng)用于文本主題挖掘過程。
潛在語義分析(LSA),也稱作潛在語義索引(Latent Semantic Indexing,LSI),是一種較為簡(jiǎn)單的主題建模技術(shù),該技術(shù)最初主要用于解決語義檢索領(lǐng)域中一詞多義問題。潛在語義分析利用詞語的上下文信息,可以捕獲隱藏的概念或主題,操作過程中通過奇異值分解(SVD)技術(shù)將任意矩陣分解為3個(gè)獨(dú)立矩陣的乘積:M=UxSxV,其中S是矩陣M的奇異值對(duì)角矩陣。通過LSA技術(shù)將原始的文本矩陣處理后提取出k維語義空間,在保留大部分信息的同時(shí),使得k值遠(yuǎn)小于文檔和詞語維度,這樣用低維詞條、文本向量代替原始的空間向量,可以有效地處理大規(guī)模文本語料庫。但是由于LSA技術(shù)將文檔中的每一個(gè)詞映射為潛在語義空間中的一個(gè)點(diǎn),并沒有很好地區(qū)分和解決多詞一義的問題.因此,近年來不少學(xué)者也針對(duì)此問題進(jìn)行了改進(jìn)。Kim S等在此基礎(chǔ)上結(jié)合深度學(xué)習(xí)算法提出了一種新的主題建模方法,即利用Word2vec捕獲和表示語料庫上下文信息的特性,構(gòu)建了基于Word2vec的潛在語義分析方法(W2V-LSA)。概率潛在語義分析(pLSA)最初是Hofmann T在潛在語義分析(LSA)的基礎(chǔ)上提出的一種新的主題建模方法,該方法使用概率模型來衡量文檔、潛在語義、詞語三者之間的關(guān)系,與潛在語義分析方法相比,pLSA中的多義詞和同義詞均可在潛在語義空間中得到合理的表示。
LDA主題模型是在概率潛在語義分析的基礎(chǔ)上又進(jìn)一步衍生出的主題建模技術(shù),該模型為三層貝葉斯概率模型,包含“文檔一主題一詞”三層結(jié)構(gòu),實(shí)現(xiàn)了對(duì)文檔中隱含主題建模,并且考慮了上下文語義之間的關(guān)系。其中,主題即詞匯表上詞語的條件概率分布,與主題關(guān)系越密切的詞語,它的條件概率越大,反之則越小。LDA主題模型被提出以來,在文本分類、文本聚類、查詢檢索、話題檢測(cè)與追蹤、學(xué)術(shù)文獻(xiàn)挖掘、時(shí)態(tài)文本流分析等眾多領(lǐng)域產(chǎn)生了廣泛且深入的應(yīng)用,已成為處理篇章級(jí)文本數(shù)據(jù)挖掘的重要工具。同時(shí),隨著研究的不斷深入,研究人員對(duì)LDA主題模型的研究和應(yīng)用也在不斷拓展,例如利用文檔作者與文章內(nèi)容間的關(guān)系衍生出了作者主題模型(Author Topic Model,ATM)、通過對(duì)主題間的關(guān)系建模衍生出了相關(guān)主題模型(Correlated Topic Model,CTM) cis],以及考慮主題的時(shí)序動(dòng)態(tài)演化因素所提出的動(dòng)態(tài)主題模型(Dynamic Topic Model,
DTM)等。
近年來,深度學(xué)習(xí)算法與大語言模型的融合與應(yīng)用不斷拓展,衍生出了Top2Vec、BERTopic等基于預(yù)訓(xùn)練詞嵌入算法的主題建模技術(shù)。這類方法首先通過嵌入(Embedding)模型(如Word2Vec、Doc2Vec、BERT等)計(jì)算出文檔和詞語的向量表示,然后把它們嵌入到同一個(gè)語義空間中進(jìn)行相關(guān)計(jì)算。例如,Top2Vec模型使用Doc2Vec等算法在同一向量空間中訓(xùn)練詞向量和文檔向量,構(gòu)造出在特定主題以及上下文環(huán)境中的詞向量,能夠在大型數(shù)據(jù)集和非常獨(dú)特的詞匯表中生成更加準(zhǔn)確的主題向量。BERTopic采用基于BERT的深度學(xué)習(xí)預(yù)訓(xùn)練模型,通過Sentence-Transformers等嵌入模型和c-TF-IDF算法對(duì)句子進(jìn)行編碼和計(jì)算,實(shí)現(xiàn)了語義層面上的文檔主題聚類與主題表示,相較于LDA主題模型等主題建模技術(shù),BERTopic在NPMI(Nor-malized Pointwise Mutual Information)指標(biāo)上能夠表現(xiàn)出更好的主題識(shí)別效果。
1.2科學(xué)文獻(xiàn)主題建模及其應(yīng)用現(xiàn)狀
科學(xué)文獻(xiàn)主題建模一直是情報(bào)研究與知識(shí)發(fā)現(xiàn)領(lǐng)域的研究熱點(diǎn),特別是基于大規(guī)??茖W(xué)文獻(xiàn)的研究主題探測(cè)和前沿識(shí)別成為近年來情報(bào)學(xué)領(lǐng)域的重要研究方向。在科學(xué)文獻(xiàn)的主題建模過程中,主題由具有同樣研究基礎(chǔ)的一組文章構(gòu)成,對(duì)科學(xué)文獻(xiàn)的主題建模實(shí)際上也就是通過科學(xué)文獻(xiàn)聚類并自動(dòng)抽取類別標(biāo)簽的過程。目前,眾多學(xué)者在此領(lǐng)域開展了大量工作,并且在實(shí)踐中已經(jīng)拓展出廣泛應(yīng)用,國(guó)際大型數(shù)據(jù)庫商愛斯維爾開發(fā)的SciVal工具在主題創(chuàng)建過程中,對(duì)旗下的Scopus數(shù)據(jù)庫中論文和參考文獻(xiàn)進(jìn)行聚類后,識(shí)別形成了全域微觀主題及其顯著性指標(biāo)排序,為探測(cè)全域研究前沿提供了重要的數(shù)據(jù)支撐。
在學(xué)術(shù)界,從方法論層面研究主題建模技術(shù)在科學(xué)文獻(xiàn)知識(shí)挖掘上的應(yīng)用,并用之探索特定領(lǐng)域的科學(xué)研究趨勢(shì),是當(dāng)前國(guó)內(nèi)外學(xué)者們關(guān)注的焦點(diǎn),基于LDA主題模型的領(lǐng)域主題抽取與研究趨勢(shì)分析是當(dāng)前學(xué)者們主要采用的方法。如Palanichamy Y等基于LDA主題模型探析國(guó)際環(huán)境科學(xué)與工程領(lǐng)域的主要研究趨勢(shì)和區(qū)域差異:王日芬等基于LDA主題模型比較分析了主題模型方法在全局主題和學(xué)科主題抽取中所存在的差異:Daud A等構(gòu)建了基于LDA主題模型的群體層面的主題建模方法并進(jìn)行了會(huì)議信息挖掘。隨著深度學(xué)習(xí)算法的興起,陳翔等通過引入分段線性表示方法和Word2Vec模型構(gòu)建了動(dòng)態(tài)關(guān)鍵詞語義網(wǎng)絡(luò),在此基礎(chǔ)上利用社區(qū)發(fā)現(xiàn)算法識(shí)別動(dòng)態(tài)網(wǎng)絡(luò)中的社區(qū)來表征主題,實(shí)現(xiàn)了信息科學(xué)領(lǐng)域的主題演化路徑識(shí)別,并在基于專家意見構(gòu)建的領(lǐng)域“主題一關(guān)鍵詞”標(biāo)準(zhǔn)集上與LDA主題模型等方法對(duì)識(shí)別出的主題詞集合的差異性進(jìn)行了對(duì)比。
在科學(xué)文獻(xiàn)主題建模及其效果評(píng)價(jià)方面,關(guān)鵬等通過對(duì)不同語料下基于LDA主題模型的科學(xué)文獻(xiàn)主題抽取效果進(jìn)行分析,采用查全率、查準(zhǔn)率、F值以及信息熵等定量指標(biāo)對(duì)主題抽取效果進(jìn)行評(píng)價(jià)后發(fā)現(xiàn),摘要作為語料的LDA主題抽取的效果要優(yōu)于單純使用關(guān)鍵詞作為語料的主題建模。隨著主題模型使用范圍的不斷擴(kuò)大,有關(guān)主題模型建模效果評(píng)價(jià)的指標(biāo)也不斷豐富,為科學(xué)使用主題建模工具、優(yōu)化主題建模過程和評(píng)估主題建模效果等提供了極大的便利,但是在科學(xué)文獻(xiàn)主題建模的應(yīng)用效果評(píng)估方面,尚未形成統(tǒng)一客觀的評(píng)價(jià)方法與評(píng)價(jià)準(zhǔn)則。近年來,以LDA主題模型為代表的主題建模技術(shù)在科學(xué)文獻(xiàn)主題挖掘過程中被廣泛使用,但主題模型的建模效果是否優(yōu)于傳統(tǒng)聚類技術(shù),LDA主題模型是否是科學(xué)文獻(xiàn)主題建模的最優(yōu)選擇,這些問題也引起了學(xué)者們關(guān)注和討論。與此同時(shí),隨著Top2Vec、BERTopic等基于深度學(xué)習(xí)算法與大語言模型技術(shù)等新興主題建模工具的出現(xiàn),相較于傳統(tǒng)主題模型來說,不同主題建模方法的建模效果之間的差異性如何,需要做出科學(xué)系統(tǒng)的對(duì)比評(píng)估。特別是在科學(xué)文獻(xiàn)主題建模過程中,該如何選擇最優(yōu)的主題建模工具或構(gòu)建最適用的主題建模方法來實(shí)現(xiàn)研究目標(biāo),是擺在科研人員面前的一個(gè)重要問題。從上述這些問題出發(fā),本文將聚焦科學(xué)文獻(xiàn)主題建模方法的效果對(duì)比研究,通過構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,分別基于LDA主題模型、Top2Vec和BERTopic等算法,采用量化指標(biāo)對(duì)不同建模工具的使用效果進(jìn)行對(duì)比分析,以期為主題建模工具在科學(xué)文獻(xiàn)主題建模應(yīng)用過程中提供科學(xué)的選擇依據(jù)。
2研究思路與方法
2.1研究目標(biāo)與整體研究思路
為了對(duì)比不同類型主題建模技術(shù)在科學(xué)文獻(xiàn)主題建模過程中的實(shí)現(xiàn)方式和使用效果,分析不同類型語料環(huán)境下的主題建模方法對(duì)主題建模質(zhì)量的影響,研究如何優(yōu)化主題建模參數(shù)并提升主題建模效果,進(jìn)而為面向?qū)嶋H科研問題的解決、選擇和構(gòu)建適用的主題建模方法提供參照,是本文的主要研究目標(biāo)。一般來說,主題建模過程包含主題聚類與主題表示兩個(gè)步驟,主題聚類效果反映了主題建模工具對(duì)文檔內(nèi)容的挖掘深度,主題表示結(jié)果反映了主題建模工具對(duì)文檔主題的抽取效果,對(duì)不同建模工具從主題聚類效果和主題表示結(jié)果兩個(gè)方面展開研究,是完整評(píng)價(jià)主題建模工具的建模效果的必要環(huán)節(jié)?;谏鲜鏊悸?,本文重點(diǎn)選擇LDA主題模型、Top2Vec模型和BERTopic模型3種比較具有代表性的主題建模方法,分別在中英文科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)集上展開實(shí)驗(yàn),進(jìn)行主題建模效果評(píng)價(jià)。同時(shí),為了全面反映主題建模技術(shù)的特點(diǎn),本文也將采用傳統(tǒng)聚類算法進(jìn)行聚類實(shí)驗(yàn)作為對(duì)照,并與基于主題建模的聚類進(jìn)行對(duì)比。本文的研究思路如圖1所示。
2.2實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建與評(píng)估指標(biāo)
為了同時(shí)反映不同主題建模技術(shù)在聚類效果與主題識(shí)別方面的效果,本文需要開展兩個(gè)方面的實(shí)驗(yàn):一是關(guān)于不同算法的聚類效果的對(duì)比和評(píng)價(jià),即開展實(shí)驗(yàn)①的相關(guān)研究。二是對(duì)不同主題建模技術(shù)在科學(xué)文獻(xiàn)主題建模上的應(yīng)用效果評(píng)價(jià),即開展實(shí)驗(yàn)②的相關(guān)研究。為了充分展現(xiàn)不同主題建模工具的使用場(chǎng)景與效果差異,在實(shí)驗(yàn)數(shù)據(jù)集的構(gòu)建與選擇上,本文將分別采集科學(xué)技術(shù)領(lǐng)域的中、英文學(xué)術(shù)文獻(xiàn)數(shù)據(jù)集,構(gòu)建實(shí)驗(yàn)語料來展開上述實(shí)驗(yàn)研究。
在評(píng)估指標(biāo)的選擇上,本文采用主題內(nèi)容相似度的方法來判斷主題建模過程中的聚類效果,通過計(jì)算聚類后各個(gè)主題內(nèi)部文檔間的平均相似度與不同主題間的平均相似度的比值,來反映聚類結(jié)果的內(nèi)聚性與耦合性特征,即以類簇內(nèi)主題高相似度和類簇間主題的低相似度共同構(gòu)成評(píng)價(jià)主題聚類效果的指標(biāo)。該指標(biāo)的最終得分與類內(nèi)主題的內(nèi)聚性呈正比變化關(guān)系,與跨類主題的耦合性呈現(xiàn)反比關(guān)系,從而實(shí)現(xiàn)以高內(nèi)聚低耦合來評(píng)價(jià)主題聚類效果的最終指標(biāo)(HCLC,High Cohesion&Low Coupling)。在主題內(nèi)文檔相似度計(jì)算方法上,不同主題建模方法均分別采用向量空間模型(Vector Space Model,簡(jiǎn)稱“VSM”)和Doc2vec算法作為文檔相似度的基礎(chǔ)算法,進(jìn)行實(shí)驗(yàn)①的聚類效果評(píng)價(jià)實(shí)驗(yàn)。HCLC指標(biāo)的計(jì)算方法如式(1)所示:
式中,K為聚類主題數(shù)目,n為每個(gè)類簇內(nèi)文檔的數(shù)目,sim(di,d)表示類簇內(nèi)兩個(gè)文檔間的相似度,通過迭代計(jì)算類簇內(nèi)兩兩文檔間的相似度,得到該主題數(shù)目下各類簇內(nèi)文檔的平均相似度:』7v為跨主題的文檔對(duì)數(shù)量,sim(d,d)為跨主題文檔對(duì)(m,n)的文檔相似度,通過上述兩個(gè)步驟的計(jì)算得到聚類效果。
在實(shí)驗(yàn)②中,本文在現(xiàn)有主題建模測(cè)度指標(biāo)和工具的基礎(chǔ)方法上,結(jié)合科學(xué)文獻(xiàn)主題建模的特點(diǎn),選擇主題多樣性(Topic Diversity,亦稱“主題差異性”,簡(jiǎn)稱TD)、主題語義一致性(TopicCoherence,簡(jiǎn)稱TC)、主題穩(wěn)定性(Topic Stability,簡(jiǎn)稱TS)和主題離散性(Topic Variability,簡(jiǎn)稱TV)等指標(biāo)開展不同主題建模方法的科學(xué)文獻(xiàn)主題建模效果評(píng)價(jià)。
主題多樣性(主題差異性)的計(jì)算過程相對(duì)簡(jiǎn)單,該指標(biāo)通過計(jì)算主題建模結(jié)果中所有主題中不重復(fù)出現(xiàn)的主題詞的占比情況后得出。主題多樣性數(shù)值越小,表示模型識(shí)別出的主題信息冗余度較高;主題多樣性數(shù)值越大,則表示模型識(shí)別出了更加多樣的主題,主題多樣性(TD)的計(jì)算方法如式(2)所示:
主題語義一致性指標(biāo)主要用于評(píng)估主題模型的主題連貫性。從邏輯上看,語義上高度相關(guān)的詞也應(yīng)當(dāng)被分配到同一個(gè)主題下。因此,連貫性衡量的是主題中各單詞彼此之間的相似程度、是否互相支撐。當(dāng)前基于詞共現(xiàn)模式的主題連貫性已經(jīng)被驗(yàn)證是一種可靠的主題分類質(zhì)量指標(biāo),根據(jù)詞組確認(rèn)度(Confirmation)計(jì)算方法的不同,主題語義一致性的計(jì)算方法包括UCI Coherence、UMass Coherence等。有研究表明,采用Normalized PMI(NPMI)方法計(jì)算詞組確認(rèn)度的主題一致性指標(biāo)表現(xiàn)更好,因此,本文將其作為主題語義一致性(TC)評(píng)價(jià)指標(biāo)來進(jìn)行主題建模工具的建模效果對(duì)比研究,其計(jì)算方法如式(3)所示:
主題穩(wěn)定性(TS)和主題離散性(TV)指標(biāo)是基于主題建模過程數(shù)據(jù)產(chǎn)生的評(píng)價(jià)指標(biāo)。在主題建模過程中會(huì)產(chǎn)生兩個(gè)矩陣,一個(gè)是主題一詞分布,另一個(gè)是文檔一主題分布。主題穩(wěn)定性即在考慮主題一詞分布的基礎(chǔ)上產(chǎn)生的測(cè)度指標(biāo),其計(jì)算方法如式(4)所示:
主題離散性是在文檔一主題分布基礎(chǔ)上產(chǎn)生的主題建模效果測(cè)度指標(biāo)。LDA主題模型和Top2vec模型在訓(xùn)練后能夠直接得出文檔可能歸屬的多個(gè)主題以及其概率排序,而Bertopic模型則需要在模型訓(xùn)練時(shí)設(shè)置“calculate _probabilities=True”參數(shù),輸出計(jì)算過程數(shù)據(jù)來得到文檔主題分布。主題離散性指標(biāo)計(jì)算使用了主題建模的過程數(shù)據(jù),由于不同主題建模算法的文本抽樣方式不同,計(jì)算出的“文檔一主題”分布概率存在較大差異。因此,為了消除量綱差異,本文在文獻(xiàn)的基礎(chǔ)上,采用變異系數(shù)的方法對(duì)主題離散性指標(biāo)進(jìn)行改進(jìn),使得不同建模方法得出的主題離散性具有可比性。主題離散性計(jì)算方法如式(5)所示:
式中,D表示文檔集的規(guī)模,主題K的離散性指標(biāo)可以概括為文檔集內(nèi)每個(gè)文檔在該主題上的概率分布的變異系數(shù),該值越大,表示文檔被劃分到相關(guān)主題的傾向性越強(qiáng),也可以反映出文檔主題識(shí)別的質(zhì)量越高。
3科學(xué)文獻(xiàn)主題建模方法與效果評(píng)估
3.1實(shí)驗(yàn)數(shù)據(jù)描述與主題抽取
按照上述研究思路和方法,本文在開展基于LDA主題模型、Top2vec模型和Bertopic模型的科學(xué)文獻(xiàn)主題建模效果評(píng)估實(shí)驗(yàn)過程中,分別選取中英文科學(xué)文獻(xiàn)構(gòu)建實(shí)驗(yàn)語料并進(jìn)行對(duì)比試驗(yàn)。其中,英文實(shí)驗(yàn)語料以Web of Science(簡(jiǎn)稱“WoS”)數(shù)據(jù)庫為數(shù)據(jù)源,檢索并下載SSCI和SCI數(shù)據(jù)庫收錄的自然語言處理領(lǐng)域?qū)W術(shù)文獻(xiàn)作為實(shí)驗(yàn)對(duì)象構(gòu)建英文科學(xué)文獻(xiàn)數(shù)據(jù)集:中文實(shí)驗(yàn)語料以中國(guó)人文社會(huì)科學(xué)引文數(shù)據(jù)庫(簡(jiǎn)稱“CHSSCD”)為基礎(chǔ),按照不同學(xué)科文獻(xiàn)規(guī)模,等比例隨機(jī)抽取人文社會(huì)科學(xué)領(lǐng)域的中文學(xué)術(shù)文獻(xiàn)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集。中英文語料實(shí)驗(yàn)數(shù)據(jù)集的基本信息如表1所示。
在實(shí)驗(yàn)環(huán)境搭建上,以一臺(tái)硬件配置為Intel(R)
Core(TM)
i7-7700雙核3.60GHz CPU+16GBRAM的臺(tái)式計(jì)算機(jī)搭建科學(xué)文獻(xiàn)主題建模實(shí)驗(yàn)環(huán)境,基于Python3.8編程語言,以Gensim4.3.1(LdaModel).Top2vec1.0.29和Bertopic0. 14.1等開源工具包為基礎(chǔ),進(jìn)行編程運(yùn)算和文本數(shù)據(jù)處理,并開展主題建模實(shí)驗(yàn)研究。
通過采用LDA、Top2vec和Bertopic主題模型方法對(duì)上述語料進(jìn)行主題建模后,可以直觀展現(xiàn)不同主題建模方法的建模結(jié)果及其差異。由于在基于LDA主題模型進(jìn)行主題建模時(shí),需要在其參數(shù)中設(shè)置文檔的主題數(shù)目,并且主題數(shù)目會(huì)直接影響主題建模效果。Top2vec和Bertopic雖然不需要預(yù)先設(shè)置該參數(shù),但是在默認(rèn)參數(shù)條件下的主題建模中會(huì)出現(xiàn)大量的冗余主題,因此也需要在主題建模后通過主題相似度閾值的設(shè)定來實(shí)現(xiàn)主題歸并。在對(duì)比實(shí)驗(yàn)中,為了保證不同建模工具的最終建模效果可比,本文基于困惑度指標(biāo)以及主題重疊度和完整度等算法,對(duì)實(shí)驗(yàn)語料文本特征進(jìn)行計(jì)算,獲取文檔集內(nèi)的最優(yōu)主題數(shù)目范圍,并將其作為L(zhǎng)DA主題模型的基本參數(shù)(主題數(shù)量K)進(jìn)行建模;由于Top2vec模型在訓(xùn)練過程中不能預(yù)設(shè)主題個(gè)數(shù),因此需要在模型訓(xùn)練完成后對(duì)基于該模型的topic_merge_delta參數(shù)進(jìn)行調(diào)整,將主題間較為相似的主題進(jìn)行冗余主題的合并;Bertopic模型則需在訓(xùn)練完成后,用基于該模型的reduce_outliers方法將訓(xùn)練過程中的離散主題再次進(jìn)行合并歸類:最終使得不同主題模型識(shí)別的主題數(shù)目保持一致,從而具有可比性。
基于上述思路,分別對(duì)本文構(gòu)建的中英文實(shí)驗(yàn)語料進(jìn)行主題建模并得到主題識(shí)別結(jié)果。通過困惑度指標(biāo)以及主題重疊度和完整度等算法對(duì)文檔集內(nèi)的最優(yōu)主題數(shù)目進(jìn)行計(jì)算,得到中文語料的最優(yōu)主題數(shù)目在75+1個(gè),英文語料的最優(yōu)主題數(shù)目在62+1個(gè),在下文中基于K-Means算法的文本聚類實(shí)驗(yàn)中也將其作為類簇?cái)?shù)目參數(shù)。通過對(duì)不同主題模型識(shí)別出的主題集合的相似度計(jì)算后發(fā)現(xiàn),不同建模工具的主題識(shí)別結(jié)果表現(xiàn)出較大的差異性。其中,LDA模型和Bertopic模型的主題識(shí)別結(jié)果中具有相似性關(guān)系的主題占比僅為9.81%(英文語料)和7.46%(中文語料),Top2vec模型識(shí)別出主題與LDA模型和Bertopic模型的識(shí)別結(jié)果相似度均僅在2%左右,具體結(jié)果如圖2所示。該結(jié)果直觀展現(xiàn)了不同建模方法在主題識(shí)別與表示上的不同,但是另一方面也顯示出不同建模工具的主題詞抽取算法的巨大差異。因此,為了進(jìn)一步研究和評(píng)估不同方法和工具的主題建模效果,本文接下來將對(duì)不同主題建模方法在文檔處理過程中的表現(xiàn)進(jìn)行更深層次的對(duì)比研究,具體包含兩個(gè)方面:一方面是在文檔聚類上的表現(xiàn)能力:另一方面是主題詞抽取能力的對(duì)比。
3.2不同建模方法的文本聚類效果對(duì)比
前文基于不同主題建模方法和工具的主題識(shí)別結(jié)果可以看出,不同建模方法在主題識(shí)別與主題表示上存在巨大差異,這種差異一方面可能存在于主題建模前期文檔的聚類算法上,另一方面也可能存在于聚類后期的主題詞抽取與表示方面。為了進(jìn)一步評(píng)估不同主題建模方法的效果與差異,本小節(jié)先對(duì)主題建模過程中的文檔聚類效果進(jìn)行對(duì)比研究。
本文分別采用LDA主題模型、Top2vec模型和Bertopic模型對(duì)中英文實(shí)驗(yàn)語料進(jìn)行主題建模,對(duì)建模后的文檔主題分布進(jìn)行提取后,實(shí)際上可以將主題建模轉(zhuǎn)化為文檔聚類。同時(shí),采用K-Mean聚類算法對(duì)文檔進(jìn)行聚類作為對(duì)比實(shí)驗(yàn),采用前文構(gòu)建的HCLC指標(biāo)(即High Cohesion&Low CouplingIndex)進(jìn)行聚類效果評(píng)價(jià),結(jié)果如表2所示。
從計(jì)算結(jié)果來看,在英文實(shí)驗(yàn)語料中,Bertop-IC模型表現(xiàn)出相對(duì)較好的聚類效果,其HCLC指標(biāo)得分為1.5108,經(jīng)過預(yù)訓(xùn)練的語言模型在科學(xué)文獻(xiàn)主題聚類上也展現(xiàn)出較好的應(yīng)用表現(xiàn),其次是Top2vec模型,其在英文語料上的聚類效果稍遜于Bertopic模型,但是相較于LDA算法和K-Means算法的文檔聚類表現(xiàn)來說表現(xiàn)較好,在沒有特征優(yōu)化與參數(shù)調(diào)整的環(huán)境下,LDA算法的文檔聚類效果相較于K-Means算法來說,其優(yōu)勢(shì)并沒有得到很好的發(fā)揮。因此,在使用LDA主題模型進(jìn)行科學(xué)文獻(xiàn)主題建模過程中,必須結(jié)合實(shí)驗(yàn)數(shù)據(jù)特征進(jìn)行必要的參數(shù)優(yōu)化和特征抽取以發(fā)揮其最佳效果。在中文實(shí)驗(yàn)語料中,文檔聚類效果表現(xiàn)最優(yōu)的是Top2vec模型,因?yàn)楸緦?shí)驗(yàn)中該方法采用了基于Doc2vec的文檔相似度計(jì)算,在中文語料的復(fù)雜語義環(huán)境中該算法的優(yōu)勢(shì)得到了充分發(fā)揮,其次是LDA算法,由于相較于英文文檔的詞語特征多變問題(形態(tài)、時(shí)態(tài)等),中文詞語的類型相對(duì)單一,但是語義更加復(fù)雜,因此其面向語義的文檔處理優(yōu)勢(shì)在中文科學(xué)文獻(xiàn)主題聚類上得到了較好的表現(xiàn)。而Bertopic模型是基于其預(yù)訓(xùn)練的文檔嵌入算法,雖然也集成了多語言模型,但是在針對(duì)科學(xué)文獻(xiàn)的文檔建模具體任務(wù)中,必須對(duì)其預(yù)訓(xùn)練模型進(jìn)一步微調(diào)(Finetune)才能發(fā)揮其最佳效果。
3.3不同建模方法的主題識(shí)別效果對(duì)比
在基于不同主題建模工具的科學(xué)文獻(xiàn)主題識(shí)別與主題表示的效果評(píng)估指標(biāo)選擇上,本文分別采用主題多樣性(TD,也稱主題差異性)、主題一致性(TC)、主題穩(wěn)定性(TS)和主題離散性(TV)4個(gè)指標(biāo)來進(jìn)行主題建模效果對(duì)比。為了充分對(duì)比不同方法工具的建模表現(xiàn),在對(duì)中英文語料上的主題建模過程中,LDA主題模型分別采用詞袋(Bag ofWords)和TFIDF算法進(jìn)行文檔特征抽取與主題建模比較;Top2vec模型則分別采用Doc2vec算法和預(yù)訓(xùn)練文檔嵌入算法(分別在英文語料和中文語料中使用All-MiniLM-L6-v2和Paraphrase-Multilin-gual-MiniLM-L12-v2預(yù)訓(xùn)練模型,下文均簡(jiǎn)稱為“MiniLM”)進(jìn)行文檔嵌入表示;Bertopic模型采用通用預(yù)訓(xùn)練文檔嵌入算法(MiniLM和SciBert)進(jìn)行主題建模。
分別采用上述3種主題建模工具(LDA、Top2vec和Bertopic)和5種文檔特征表示方法(Bagof Words、TFIDF、Doc2vec、MiniLM、SciBert)進(jìn)行中英文科學(xué)文獻(xiàn)主題建模,并對(duì)主題建模后的主題多樣性、主題一致性、主題穩(wěn)定性和主題離散性指標(biāo)進(jìn)行對(duì)比,結(jié)果如表3所示??梢园l(fā)現(xiàn),在主題多樣性(TD)指標(biāo)上,基于Doc2vec算法的Top2vec主題模型(以Top2vec-Doc2vec表示,下同)在中英文語料中均表現(xiàn)最優(yōu),這一指標(biāo)說明基于該方法獲取的主題重合度較低,能夠獲取具有較強(qiáng)差異性的主題信息;在主題一致性(TC)指標(biāo)上,Bertopic-SciBert模型在英文語料上表現(xiàn)出較好的效果,但是由于沒有對(duì)照專門的中文科學(xué)文獻(xiàn)大語言模型,基于通用語言模型的Bertopic主題建模的主題語義一致性指標(biāo)略遜于Top2vec-Doc2vec方法;在主題穩(wěn)定性(TS)指標(biāo)和主題離散性(TV)指標(biāo)上,Bertopic-SciBert模型在英文語料上均表現(xiàn)出較優(yōu)的識(shí)別效果,但是對(duì)中文語料而言,在沒有垂直領(lǐng)域訓(xùn)練模型的情況下,利用通用語言模型開展主題建模識(shí)別仍然是次優(yōu)選擇,其中Top2vec-MiniLM模型的主題穩(wěn)定性指標(biāo)較高,Bertopic-MiniLM模型的主題識(shí)別離散性指標(biāo)較高,可根據(jù)具體應(yīng)用場(chǎng)景和目標(biāo)選擇使用不同方法。通過上述研究,可以得出以下幾點(diǎn)結(jié)論:在科學(xué)文獻(xiàn)主題建模過程中,若希望獲取包含更加豐富的主題信息,優(yōu)先推薦使用基于Doc2vec的Top2vec模型進(jìn)行主題抽??;如果需要使最終獲取的主題信息具有更加強(qiáng)健的穩(wěn)定性和離散性,優(yōu)先推薦使用Bertopic模型進(jìn)行主題建模。此外,在基于LDA主題模型進(jìn)行主題建模的過程中,基于詞袋的方法和基于TFIDF特征選擇的方法在主題多樣性上存在一些差異,但是在主題一致性、穩(wěn)定性和離散性等指標(biāo)上的表現(xiàn)差異不大,如果希望建模后的主題之間具有較強(qiáng)差異,則優(yōu)先推薦使用TFIDF進(jìn)行LDA主題建模。
4研究結(jié)果與討論
針對(duì)主題建模技術(shù)的不斷發(fā)展和廣泛應(yīng)用,不同建模方法和實(shí)現(xiàn)算法在科學(xué)文獻(xiàn)主題建模實(shí)踐應(yīng)用上的表現(xiàn)情況和使用局限是本文的主要研究問題。本文通過構(gòu)建中英文科學(xué)文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)集,選擇LDA主題模型、Top2vec和BERTopic等算法工具,以及基于詞袋和TFIDF的特征提取算法,結(jié)合Doc2vec算法、All-MiniLM-L6-v2和SciBert等文本預(yù)訓(xùn)練模型,對(duì)不同主題建模方法和工具的建模效果進(jìn)行了實(shí)驗(yàn)和對(duì)比。通過對(duì)不同主題建模方法工具的文本聚類效果和主題識(shí)別結(jié)果的多樣性(差異性)、一致性、穩(wěn)定性、離散性等指標(biāo)計(jì)算,本文得出以下幾點(diǎn)結(jié)論:①不同建模工具的主題識(shí)別結(jié)果表現(xiàn)出較大的差異性,在不同建模工具識(shí)別的主題上,LDA模型和Bertopic模型的主題識(shí)別結(jié)果中具有相似性關(guān)系的主題僅占比9.81%(英文語料)和7.46%(中文語料),而Top2vec方法識(shí)別出主題與LDA和Bertopic的結(jié)果相似度均在2%左右;②在文檔的主題聚類效果上,Top2vec模型在中文語料上的聚類效果較好.BertoDic模型在英文語料上的聚類效果較好,LDA主題模型必須結(jié)合實(shí)驗(yàn)數(shù)據(jù)特征進(jìn)行必要的參數(shù)優(yōu)化和特征抽取才可以發(fā)揮其最佳效果;③在主題識(shí)別結(jié)果與主題表示方面,基于Doc2vec算法的Top2vec工具在科學(xué)文獻(xiàn)主題識(shí)別的主題多樣性(主題差異性)指標(biāo)上的表現(xiàn)相對(duì)最優(yōu),能夠獲取具有較強(qiáng)差異性的主題信息;在主題語義一致性指標(biāo)上,Bertopic-SciBert模型在英文語料上表現(xiàn)出較好的效果,基于通用語言模型的Bertopic-MiniLM方法在中文語料上的主題識(shí)別效果略遜于Top2vec-Doc2vec方法;采用文本預(yù)訓(xùn)練模型(MiniLM)的不同主題建模方法(Top2vec、Bertopic)的主題識(shí)別結(jié)果在主題穩(wěn)定性和主題離散性指標(biāo)上的表現(xiàn)均優(yōu)于傳統(tǒng)建模方法。
在具體應(yīng)用過程中,主題多樣性、主題一致性、主題穩(wěn)定性和主題離散性指標(biāo)不僅可以用于評(píng)測(cè)主題模型的建模效果,也可以將之應(yīng)用于主題建模參數(shù)優(yōu)化。例如,在基于LDA主題模型和Ber-topic模型的主題建模過程中,主題數(shù)目?jī)?yōu)化是模型訓(xùn)練中最為關(guān)鍵的基礎(chǔ)問題,不同主題數(shù)目對(duì)建模效果影響巨大,實(shí)際使用過程中可以結(jié)合主題多樣性、主題一致性、主題穩(wěn)定性和主題離散性指標(biāo)等評(píng)估指標(biāo)評(píng)價(jià)建模效果并優(yōu)化模型訓(xùn)練參數(shù):Top2vec雖不能直接設(shè)定主題數(shù)目,但是也可以基于建模結(jié)果的各類評(píng)估指標(biāo)并結(jié)合其“topic_merge_delta”參數(shù)來調(diào)整和優(yōu)化最終的主題建模信息。本文的不足之處在于未構(gòu)建和使用基于中文科學(xué)文獻(xiàn)的文本預(yù)訓(xùn)練模型,伴隨著大語言模型技術(shù)的快速發(fā)展和廣泛應(yīng)用,基于大語言模型技術(shù)的科學(xué)文獻(xiàn)自動(dòng)化處理技術(shù)已是大勢(shì)所趨,后續(xù)需要加快實(shí)現(xiàn)科學(xué)文獻(xiàn)的預(yù)訓(xùn)練模型研發(fā),并將之應(yīng)用于科技情報(bào)業(yè)務(wù)具體實(shí)踐,這是當(dāng)前的重要工作,也是未來科技情報(bào)研究的重要方向。