龍藝璇 安源 王東晉 翟夏普 伊惠芳
(1. 中國鐵道科學(xué)研究院科學(xué)技術(shù)信息研究所,北京 100081;2. 中國科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)
“千古百業(yè)興,先行在交通?!敝袊F路營業(yè)里程從1949年時(shí)僅有2.18萬公里到2021年底突破15萬公里[1],中國鐵路已然成為中國走向世界的亮麗名片。中國鐵路取得舉世矚目成就的背后,離不開科研人員的努力和科研成果的支撐。如今,鐵路領(lǐng)域科研成果數(shù)量與日俱增,科研成果類型百花齊放。面對海量的多源異構(gòu)鐵路領(lǐng)域科研成果資源,如何在短時(shí)間內(nèi)對科研成果內(nèi)容開展有效遴選,成為鐵路科研人員亟待解決的重要問題。
在科學(xué)學(xué)視角下,主題的內(nèi)涵包含兩個(gè)層面:一是單篇科技文獻(xiàn)中的主題思想,二是某學(xué)科領(lǐng)域下多篇科技文獻(xiàn)的總體研究方向。從主題的表現(xiàn)形式來看,主題由可以表征主題語義的主題詞或主題短語構(gòu)成[2]。本文探討的主題為第二種,即某學(xué)科領(lǐng)域下的主要研究方向,并聚焦于鐵路領(lǐng)域。主題發(fā)現(xiàn)可以實(shí)現(xiàn)從海量的文本中抽取主要語義內(nèi)容,有助于科研知識(shí)的梳理與歸納。當(dāng)前已有眾多學(xué)者嘗試?yán)弥黝}發(fā)現(xiàn)算法開展特定科研領(lǐng)域的主題發(fā)現(xiàn)研究[3-5]。本文通過調(diào)研得知,相較于傳統(tǒng)的文獻(xiàn)計(jì)量方法,以LDA(Latent Dirichlet Allocation)主題模型為代表的主題發(fā)現(xiàn)算法因其能深入文本內(nèi)容、適應(yīng)大規(guī)模文本分析、支持計(jì)算主題之間的相關(guān)關(guān)系等優(yōu)勢,成為主題發(fā)現(xiàn)的主流算法[6]。不過傳統(tǒng)的LDA主題模型基于詞袋(bag of words)模型實(shí)現(xiàn),即假設(shè)所有的單詞都是相互獨(dú)立的,由于鐵路行業(yè)技術(shù)化程度高、專業(yè)交叉屬性強(qiáng)、科研成果類型豐富,使得鐵路領(lǐng)域科研成果呈現(xiàn)多源異構(gòu)及多單詞短語居多等特點(diǎn)[7],這就極大地限制了傳統(tǒng)LDA主題模型在鐵路領(lǐng)域科研成果主題發(fā)現(xiàn)上的應(yīng)用。
基于此,本文從鐵路領(lǐng)域科研成果特點(diǎn)出發(fā),在傳統(tǒng)LDA主題模型基礎(chǔ)上,提出一種適用于英文文獻(xiàn)的LDA模型改進(jìn)算法。該算法與傳統(tǒng)LDA算法相比,能夠提升多單詞短語的識(shí)別效果,增加主題發(fā)現(xiàn)結(jié)果的可解釋性和可識(shí)別性,最終實(shí)現(xiàn)鐵路領(lǐng)域海量科研成果數(shù)據(jù)的語義內(nèi)容分析,為科研人員快速遴選科研內(nèi)容以及提高科研工作效率提供支持。
主題發(fā)現(xiàn)(topic discovery)又被稱為主題識(shí)別,指利用一系列語義理解方法,從復(fù)雜的大規(guī)模信息源中抽取關(guān)鍵詞或術(shù)語,并在此基礎(chǔ)上加以聚類,從而發(fā)現(xiàn)文獻(xiàn)主題的技術(shù)方法,旨在處理和分析大規(guī)模信息并且使用戶以快速有效的方式了解信息內(nèi)容,發(fā)現(xiàn)信息中的主題[8]。
目前,主題發(fā)現(xiàn)主要有基于文獻(xiàn)計(jì)量的方法和基于文本挖掘的方法兩大類。文獻(xiàn)計(jì)量分析是科學(xué)學(xué)和情報(bào)學(xué)領(lǐng)域的重要研究方法,基于文獻(xiàn)計(jì)量的主題發(fā)現(xiàn)方法依靠文獻(xiàn)引證、關(guān)鍵詞等文獻(xiàn)特征,采用引文網(wǎng)絡(luò)聚類、詞頻分析、共詞分析等方法開展主題挖掘研究,以期為研究前沿發(fā)現(xiàn)、技術(shù)機(jī)會(huì)識(shí)別、學(xué)科領(lǐng)域演化、研究趨勢歸納等研究提供方法支持。這類主題發(fā)現(xiàn)方法計(jì)算成本普遍較低,且方法相對成熟,但普遍存在語義表示匱乏、主題之間關(guān)系無法揭示等缺點(diǎn),不利于主題內(nèi)容的解讀與領(lǐng)域知識(shí)內(nèi)容的分析。隨著計(jì)算機(jī)技術(shù)逐漸滲透各個(gè)學(xué)科,加之文獻(xiàn)數(shù)量急劇增加,近年來以文本聚類、主題模型為代表的文本挖掘方法開始應(yīng)用于主題發(fā)現(xiàn),為主題發(fā)現(xiàn)研究提供了新思路與新方法?;谖谋就诰虻闹黝}發(fā)現(xiàn)方法的優(yōu)勢在于能夠深入文本內(nèi)容揭示主題,但基于文本聚類的方法仍處于探索階段,文本特征提取和聚類方法仍需進(jìn)一步完善。目前,主題模型已成為基于文本挖掘主題發(fā)現(xiàn)領(lǐng)域的主流方法,近年來已有眾多學(xué)者嘗試?yán)弥黝}模型開展主題發(fā)現(xiàn)研究,例如:Fang等[9]采用LDA模型從圖書館領(lǐng)域文獻(xiàn)摘要中提取潛在主題,然后對文檔-主題進(jìn)行回歸分析,并區(qū)分出冷門研究主題和熱門研究主題;王曰芬等[10]采用LDA模型以國內(nèi)知識(shí)流領(lǐng)域?yàn)槔嗑S度對比該領(lǐng)域全局主題和學(xué)科主題的差異性。
主題模型是一種語言模型,可以發(fā)現(xiàn)一系列文檔中隱藏的主題信息,最終實(shí)現(xiàn)文本語義層面的挖掘。應(yīng)用主題模型可以快速掃描大數(shù)據(jù)量文本,協(xié)助研究人員理解文本內(nèi)容,迅速掌握文本內(nèi)容重點(diǎn)。目前主題模型已經(jīng)廣泛應(yīng)用到文本聚類[11]、主題演化[12]等眾多研究中。從主題模型的原理來看,可以將其視為一種生成概率模型,其基本思想可以總結(jié)為:每一篇文檔都可以看作多個(gè)主題構(gòu)成的概率分布,而每一個(gè)主題都可以看作多個(gè)主題特征詞構(gòu)成的概率分布[13]。1999年,Hofmann[14]提出PLSA(Probabilistic Latent Semantic Analysis)主題模型,開啟了文本分析領(lǐng)域主題挖掘新篇章。目前最具有代表性的主題模型是Blei等[15]提出的LDA模型。
隨著LDA主題模型在主題發(fā)現(xiàn)領(lǐng)域的廣泛應(yīng)用,有學(xué)者發(fā)現(xiàn)LDA主題模型的識(shí)別結(jié)果在語義可解釋性上仍存在很大提升空間[16]。這是因?yàn)長DA主題模型依賴詞袋模型實(shí)現(xiàn),即假設(shè)所有的單詞都是相互獨(dú)立的,而在許多文本挖掘任務(wù)開展過程中,語序和短語往往是捕獲文本語義的關(guān)鍵,不但對于句法分析很重要,而且對于單詞語義同樣重要,一個(gè)短語的語義遠(yuǎn)遠(yuǎn)超越了單一單詞[17]。本文聚焦的鐵路領(lǐng)域正是傳統(tǒng)LDA主題模型使用受限的典型領(lǐng)域,多單詞短語形式表現(xiàn)的科研術(shù)語占比多。以機(jī)電系統(tǒng)(electromechanical system)為例,主要研究方向包含信號(hào)通信系統(tǒng)(signal communication system)、控制系統(tǒng)設(shè)備(control system equipment)、牽引供電系統(tǒng)設(shè)備(traction power supply system equipment)、車站設(shè)備(station equipment)、監(jiān)控設(shè)備(monitoring equipment)等,因此語序與短語對于鐵路領(lǐng)域科研成果的內(nèi)容表示至關(guān)重要。
經(jīng)調(diào)研,目前國內(nèi)外學(xué)者在LDA主題模型基礎(chǔ)上開展語義優(yōu)化方面的改進(jìn)模型主要有LDA Collocation模型[18]、PhraseLDA模型[19-20]和Chunk-LDAvis模型[17],現(xiàn)有模型的改進(jìn)體現(xiàn)出兩種思路:一是在預(yù)處理階段開展短語抽取研究,之后采用LDA主題模型對詞組進(jìn)行建模:二是主題模型構(gòu)建完成后再對主題詞進(jìn)一步豐富語義。筆者認(rèn)為,兩種改進(jìn)思路均有可取之處,且可以互為補(bǔ)充。第一種思路在預(yù)處理階段抽取短語,可以盡可能將原有語序信息保留;第二種思路可以解決主題詞中短語占比較低問題,進(jìn)一步擴(kuò)充語義。因此,筆者嘗試從這兩個(gè)角度同時(shí)對LDA主題模型進(jìn)行改進(jìn),充分?jǐn)U充其主題發(fā)現(xiàn)結(jié)果的語義內(nèi)涵,具體算法流程如圖1所示。
圖1 改進(jìn)LDA模型算法流程
(1)深度預(yù)處理。在構(gòu)建LDA主題模型前需要對文本進(jìn)行預(yù)處理。除了進(jìn)行常規(guī)的特殊字符剔除、分詞、詞性標(biāo)注、詞形還原、去停用詞等,還基于Python語言nltk自然語言處理庫中的pos_tag對文獻(xiàn)標(biāo)題和摘要進(jìn)行詞性標(biāo)注,標(biāo)注的詞性包含名詞(NN)、動(dòng)詞(VB)、形容詞(JJ)、副詞(RB)、介詞或從屬連詞(IN)、連詞(CC)和感嘆詞(UH)。再根據(jù)詞性標(biāo)注結(jié)果在語料中抽取其中的名詞短語、動(dòng)詞短語、名詞和動(dòng)詞。
(2)LDA主題模型。對文檔進(jìn)行LDA主題識(shí)別后,計(jì)算每一個(gè)文檔所屬概率最大的主題,將其標(biāo)識(shí)為該文檔所屬主題。按照所屬主題對文檔進(jìn)行分類,同一主題的文檔劃分為一組,作為該主題下主題詞擴(kuò)充的語料來源。
(3)TextRank算法抽取關(guān)鍵詞。目前文本關(guān)鍵詞抽取算法主要有TF-IDF算法和TextRank算法。兩者的區(qū)別在于以下3點(diǎn)。①從時(shí)間復(fù)雜度來看,TF-IDF算法在開始運(yùn)算之前需要構(gòu)建一個(gè)語料庫,在之后的統(tǒng)計(jì)過程中還需要在已構(gòu)建的語料庫中進(jìn)行讀取操作,這些步驟的時(shí)間代價(jià)比較高;TextRank算法的時(shí)間主要花費(fèi)在迭代算法的計(jì)算上,因此當(dāng)文本數(shù)據(jù)量較小時(shí),TextRank算法的時(shí)間復(fù)雜度應(yīng)更低一些,而當(dāng)文本數(shù)據(jù)量特別大時(shí),兩者差距不大。②從空間復(fù)雜度來看,TF-IDF算法主要集中在語料庫對空間的需求;對于TextRank算法來說,主要集中在圖鏈接矩陣的存儲(chǔ),但相比較而言,TF-IDF算法對內(nèi)存的要求更高一些。③從語義復(fù)雜度來看,TF-IDF在計(jì)算的過程中沒有考慮文檔中詞間的關(guān)聯(lián)性,僅基于單詞出現(xiàn)的次數(shù)計(jì)算,而TextRank算法在構(gòu)建有向加權(quán)圖時(shí)考慮了詞間的關(guān)聯(lián)性?;谝陨戏治?,使用TextRank算法對每一主題下的擴(kuò)充語料抽取其關(guān)鍵詞,并按照關(guān)鍵詞權(quán)重降序排列。
(4)PMI算法抽取關(guān)鍵詞組塊。使用TextRank算法抽取某主題下的關(guān)鍵詞之后,為了擴(kuò)展主題詞語義信息,需要考慮關(guān)鍵詞之間的相關(guān)性,因此提出關(guān)鍵詞組塊的概念,即關(guān)聯(lián)程度密切的關(guān)鍵詞。在信息論中,互信息(NMI)是對信號(hào)之間關(guān)聯(lián)程度的描述[21]。PMI正是從互信息中衍生而來。PMI從統(tǒng)計(jì)的角度出發(fā),通過計(jì)算詞語之間的共現(xiàn)次數(shù),得出詞語之間的相關(guān)性,即統(tǒng)計(jì)兩個(gè)關(guān)鍵詞在文本中同時(shí)出現(xiàn)的概率,如果概率越大,其相關(guān)性就越高,關(guān)聯(lián)度也越高。通過PMI算法計(jì)算詞語之間的相關(guān)性,可以找到與關(guān)鍵詞最相關(guān)的組塊,相比于單詞而言,關(guān)鍵詞組塊包含的語義信息會(huì)更加豐富。因此,用PMI算法計(jì)算結(jié)果中最大概率的關(guān)鍵詞組塊替換相應(yīng)主題下的主題詞,可以提高主題發(fā)現(xiàn)結(jié)果的可解釋性與可識(shí)別性。
本文從Web of Science核心合集(以下簡稱WoS核心合集)中獲取相關(guān)實(shí)驗(yàn)數(shù)據(jù),并選擇“牽引供電系統(tǒng)”(traction power supply system)研究方向開展實(shí)證研究。牽引供電系統(tǒng)可以將地方電網(wǎng)中的電能源源不斷地輸送至動(dòng)車組,為動(dòng)車組的高速運(yùn)行持續(xù)提供強(qiáng)大電能,其安全性與穩(wěn)定性是動(dòng)車組運(yùn)行的重要保障。鐵路牽引供電系統(tǒng)主要包含三部分,分別是牽引變電所、自耦所和牽引網(wǎng),其設(shè)計(jì)與實(shí)現(xiàn)離不開材料科學(xué)與工程、計(jì)算機(jī)科學(xué)與技術(shù)、電氣工程、交通運(yùn)輸工程等多學(xué)科的交叉融合,技術(shù)性強(qiáng)、精度要求高、結(jié)構(gòu)復(fù)雜、專業(yè)性明顯,是鐵路領(lǐng)域重要的研究方向。因此,通過主題發(fā)現(xiàn)研究協(xié)助科研人員及時(shí)梳理牽引供電系統(tǒng)的研究進(jìn)展,把握牽引供電系統(tǒng)的研究主題具有重要意義。
依托中國鐵道科學(xué)研究院,在鐵路領(lǐng)域相關(guān)研究方向?qū)<业闹笇?dǎo)下,構(gòu)建英文檢索式。由于WoS核心合集類別中未將“鐵路”相關(guān)研究單獨(dú)列為一個(gè)研究領(lǐng)域,因此以“traction power supply”為主題詞進(jìn)行英文文獻(xiàn)檢索,檢索時(shí)間限定為2017—2021年,文獻(xiàn)類型選擇“paper”,再請相關(guān)研究方向?qū)<胰斯z索結(jié)果進(jìn)行篩選,剔除與鐵路領(lǐng)域不相關(guān)的文獻(xiàn),最終得到774條檢索結(jié)果。
實(shí)驗(yàn)基于Window10系統(tǒng),內(nèi)存為16GB,處理器為X64。經(jīng)典LDA算法選擇的Python3版本下第三方模塊LDA工具包,具體運(yùn)行時(shí)LDA主題模型的參數(shù)設(shè)定為alpha(document—topic associations)=50/k,beta(topic—term associations)=0.01,5 000次迭代,其中k代表設(shè)定語料庫中的最優(yōu)主題個(gè)數(shù)。關(guān)于最優(yōu)主題個(gè)數(shù)的選取,選擇Perplexity-Var指標(biāo),該指標(biāo)將主題相似度與困惑度相結(jié)合,使用JS散度表征主題相似度,并將相似度視為隨機(jī)變量,引入隨機(jī)變量方法作為主題抽取結(jié)果差異性與穩(wěn)定性的評判依據(jù)[22],改善了困惑度指標(biāo)數(shù)目偏大、辨識(shí)度不高的缺陷[23]。
第一,將WoS核心合集中獲取的數(shù)據(jù)導(dǎo)入MySQL數(shù)據(jù)庫,利用中英文標(biāo)題、摘要和關(guān)鍵詞開展深度預(yù)處理,抽取其中的名詞短語、動(dòng)詞短語、名詞和動(dòng)詞。
第二,利用傳統(tǒng)LDA主題模型對2017—2021年時(shí)間窗內(nèi)深度預(yù)處理后的數(shù)據(jù)進(jìn)行建模,根據(jù)Perplexity-Var指標(biāo),最優(yōu)主題個(gè)數(shù)確定為10。
第三,對建模后的數(shù)據(jù)開展語義擴(kuò)充。使用PMI算法和TextRank算法融合處理,成功抽取出共同出現(xiàn)頻率高且相對重要的詞語組塊,按照PMI值降序排列,與原有主題詞對比后替換,實(shí)現(xiàn)關(guān)鍵詞組塊對主題詞擴(kuò)充。由于篇幅有限,下文實(shí)驗(yàn)結(jié)果部分僅列出語義擴(kuò)充后主題強(qiáng)度排名前三的主題,對比主題語義擴(kuò)充前后主題詞變化,展示改進(jìn)LDA模型主題發(fā)現(xiàn)結(jié)果的可解釋性與可識(shí)別性的優(yōu)越性。主題強(qiáng)度主要描述主題在某時(shí)間窗口中的活躍程度。在同一時(shí)間窗口中主題強(qiáng)度值越大,說明主題熱度越高,受到的關(guān)注程度越高。主題強(qiáng)度計(jì)算參考任智軍等[24]在2015年提出的算法,該算法已被業(yè)內(nèi)學(xué)者認(rèn)可并廣泛應(yīng)用[25]。
為更清晰地展示改進(jìn)LDA主題模型與傳統(tǒng)LDA主題模型建模結(jié)果的不同,本文以表格形式展示建模結(jié)果(見表1)。
表1 兩種主題模型對比結(jié)果(主題強(qiáng)度排名前三)
表1中,右側(cè)展示的為采用改進(jìn)LDA主題模型進(jìn)行語義擴(kuò)充后的關(guān)鍵詞組塊,可見經(jīng)語義擴(kuò)充后,語義信息明顯更加豐富。T0中,左側(cè)表格根據(jù)“traction power system”“energy conservation”“renewable energy”等主題詞確定該研究方向主要內(nèi)容為鐵路領(lǐng)域牽引供電系統(tǒng)環(huán)保相關(guān)研究,但難以聚焦到具體研究方向,在右側(cè)表格中“energy efficiency”“regenerative braking energy”“energy management”“l(fā)oad modeling”等新增關(guān)鍵詞組塊,可以進(jìn)一步將研究方向集中在通過再生制動(dòng)能量的充分利用以及新興復(fù)合材料嘗試等方式開展?fàn)恳╇娤到y(tǒng)的能源效率研究,具體主要包括制動(dòng)儲(chǔ)能控制、能量評估方法研究、再生制動(dòng)仿真建模研究等研究內(nèi)容;T4中,左側(cè)表格根據(jù)“traction power supply system”“power quality”“electric railway”等主題詞確定該研究方向主要內(nèi)容為鐵路領(lǐng)域牽引供電系統(tǒng)電能質(zhì)量研究,但主題詞描述相對模糊,在右側(cè)表格中“harmonic resonance”“power system harmonics”“power harmonic filter”“reactive power compensation”等新增關(guān)鍵詞組塊,將研究方向進(jìn)一步集中于無功、諧波、負(fù)序和末端電壓偏低等4類電能質(zhì)量問題,由于電氣化鐵路的單相獨(dú)立不對稱性、負(fù)載電流隨機(jī)波動(dòng)性、諧波的頻譜分布廣等特點(diǎn),負(fù)序、諧波問題影響也日益嚴(yán)重,從而影響到電力系統(tǒng)公共電網(wǎng)。無源和有源電力濾波器的應(yīng)用研究用以諧波治理,其中SVG控制無功補(bǔ)償、APF控制諧波補(bǔ)償,在交流牽引網(wǎng)中逐步使用SVG來兼顧低次諧波的治理;T7中,左側(cè)表格根據(jù)“rail transportation”“traction power supply system”“fault”等主題詞確定該研究方向總結(jié)為鐵路領(lǐng)域牽引供電系統(tǒng)故障處理研究,而在右側(cè)表格中,根據(jù)擴(kuò)充的“mathematical model”“fault diagnosis”“traction transformer”“catenary fault”等關(guān)鍵詞組塊,可以將研究內(nèi)容進(jìn)一步鎖定在牽引變壓器、接觸網(wǎng)故障、牽引電機(jī)故障等,此外,采用數(shù)學(xué)模型或仿真模型針對牽引供電系統(tǒng)故障分析屬于故障定位分析的主要途徑。通過以上分析,可以證明本文提出的主題模型改進(jìn)方法對鐵路領(lǐng)域文本數(shù)據(jù)的主題發(fā)現(xiàn)有較為明顯的提升作用。
本文主要采取了主觀與客觀兩種實(shí)驗(yàn)驗(yàn)證方式。首先,本文依托中國鐵道科學(xué)研究院,采用專家驗(yàn)證方式,咨詢機(jī)車車輛研究所牽引供電系統(tǒng)相關(guān)研究專家對于本文主題發(fā)現(xiàn)結(jié)果的指導(dǎo)意見。專家認(rèn)可本文提出的改進(jìn)LDA主題模型在提升主題發(fā)現(xiàn)語義時(shí)發(fā)揮的積極作用,認(rèn)為該算法相比較于傳統(tǒng)的LDA主題模型發(fā)現(xiàn)結(jié)果,更為準(zhǔn)確地總結(jié)了國際上牽引供電系統(tǒng)的主要研究方向,并相對明確地指出了每個(gè)方向的主要研究突破點(diǎn),同時(shí)提出增加可視化效果等未來工作指導(dǎo)。此外,本文通過將2017—2021年鐵路領(lǐng)域牽引供電系統(tǒng)研究方向下WoS核心合集所有科技文獻(xiàn)數(shù)據(jù)導(dǎo)入VOSviewer軟件,依據(jù)共現(xiàn)關(guān)系,構(gòu)建關(guān)鍵詞共詞網(wǎng)絡(luò),自動(dòng)生成“Network Visualization”,通過調(diào)整“Attraction”參數(shù)為1,“Repulsion”參數(shù)為0,“Resolution”參數(shù)為0.7,最終得出界限較為清晰的3個(gè)關(guān)鍵詞聚類簇。通過與本文提出的改進(jìn)LDA主題模型的主題發(fā)現(xiàn)結(jié)果對比,關(guān)鍵詞聚類結(jié)果與本文改進(jìn)LDA主題模型建模后得出的主題強(qiáng)度排名前三的主題基本吻合。其中,關(guān)鍵詞類1根據(jù)“traction power supplies”“energy management”“energy storge system”等關(guān)鍵詞可以得出與T0內(nèi)容基本一致,均為鐵路領(lǐng)域牽引供電系統(tǒng)能源節(jié)約環(huán)保相關(guān)研究;關(guān)鍵詞類2根據(jù)“power quality”“harmonics”“electrified railway”等關(guān)鍵詞可以得出與T4內(nèi)容相符,均為鐵路領(lǐng)域牽引供電系統(tǒng)電能質(zhì)量提升相關(guān)研究;關(guān)鍵詞類3根據(jù)“traction power supply system”“fault diagnosis”“analytical model”等關(guān)鍵詞可以得出與T7內(nèi)容更為吻合,均為鐵路領(lǐng)域牽引供電系統(tǒng)故障發(fā)現(xiàn)與處理相關(guān)研究。此外,通過對比可以得出,本文主題發(fā)現(xiàn)結(jié)果的主題詞中,多單詞短語出現(xiàn)頻率要比關(guān)鍵詞共現(xiàn)聚類結(jié)果更高,因此對于研究內(nèi)容的概括更全面,主題發(fā)現(xiàn)結(jié)果語義可解釋性更強(qiáng)。綜上,證明本文提出的改進(jìn)LDA主題模型可以極大提升鐵路領(lǐng)域英文文本數(shù)據(jù)主題發(fā)現(xiàn)能力。
伴隨著大科學(xué)時(shí)代的到來,科研管理信息服務(wù)除滿足日??蒲泄芾硇枨笾?,面對科研人員科研信息服務(wù)的新需求,亟需調(diào)整自身服務(wù)業(yè)態(tài),實(shí)現(xiàn)從信息服務(wù)到知識(shí)服務(wù)的結(jié)構(gòu)性變革??焖馘噙x重要研究成果,是鐵路領(lǐng)域科研人員面對海量國際鐵路科研成果資源時(shí)亟待解決的重要問題。以LDA主題模型為代表的主題發(fā)現(xiàn)方法可以實(shí)現(xiàn)從海量的文本數(shù)據(jù)中快速抽取主要語義內(nèi)容,為海量鐵路科技信息資源的有效梳理與組織提供支持。本文針對傳統(tǒng)LDA主題模型在面對多單詞短語居多的鐵路領(lǐng)域研究文本時(shí)使用受限的問題,創(chuàng)新性地提出改進(jìn)LDA主題模型,并以鐵路領(lǐng)域“牽引供電系統(tǒng)”為例,驗(yàn)證了該算法有助于提升鐵路領(lǐng)域主題發(fā)現(xiàn)結(jié)果的可解釋性與可識(shí)別性,可以為后續(xù)鐵路領(lǐng)域科研管理中知識(shí)服務(wù)的實(shí)現(xiàn)提供技術(shù)支撐,也可以為科研人員在針對其他多單詞短語居多的領(lǐng)域開展主題發(fā)現(xiàn)研究時(shí)提供有效的方法支持。