寧 珊,嚴(yán) 馨,周 楓,王紅斌,張金鵬
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650504;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500; 3.云南財經(jīng)大學(xué)信息管理中心,云南 昆明 650221)
關(guān)鍵詞抽取是文本挖掘、自然語言處理和信息檢索的重要研究方向。關(guān)鍵詞抽取使我們能夠以簡潔的方式表示文本文檔。文檔的緊湊表示在多個應(yīng)用場景中都很有用,例如自())動索引、自動摘要、自動分類、聚類和過濾等。目前關(guān)于關(guān)鍵詞抽取的主流方法主要集中在基于最頻繁度量的關(guān)鍵詞抽取、基于詞頻-逆文本頻率TF-IDF(Term Frequency-Inverse Document Frequency)的關(guān)鍵詞抽取和基于共現(xiàn)統(tǒng)計(jì)信息的關(guān)鍵詞抽取[1]。隨著關(guān)鍵詞抽取技術(shù)的發(fā)展,研究者們發(fā)現(xiàn)僅僅考慮詞語的共現(xiàn)頻率已經(jīng)不能滿足關(guān)鍵詞抽取任務(wù)的要求。牛萍等[2]融合TF-IDF和位置特征及詞性特征自動抽取關(guān)鍵詞;Abilhoa等[3]和Nagarajan等[4]提出基于圖模型的算法,利用節(jié)點(diǎn)之間的特征信息抽取關(guān)鍵詞;Abdelhaq等[5]根據(jù)詞語的位置加權(quán),調(diào)整TextRank算法中邊的傳遞權(quán)重;Habibi[6]等通過隱含狄利克雷分布LDA(Latent Dirichlet Allocation)主題模型構(gòu)建獎勵函數(shù)計(jì)算詞的主題特征,構(gòu)造關(guān)鍵詞抽取模型;Hulth等[7]通過將句法特征融入詞語表示獲得比N-Gram更高的精度;Yang等[8]通過LDA與TextRank算法相結(jié)合抽取關(guān)鍵詞;Onan等[9]將基礎(chǔ)學(xué)習(xí)算法與廣泛使用的集合方法進(jìn)行比較,評估統(tǒng)計(jì)關(guān)鍵字抽取方法與集成學(xué)習(xí)算法相結(jié)合的有效性;陳憶群等[10]將關(guān)鍵詞抽取問題轉(zhuǎn)化為分類問題,利用支持向量機(jī)SVM(Support Vector Machine)抽取關(guān)鍵詞;Yang等[11]在抽取關(guān)鍵詞時考慮了句子影響度;Bordoloi等[12]利用節(jié)點(diǎn)之間的鄰居頻率、中心置和強(qiáng)度等各種特征,在面向Twitter文本方面達(dá)到了當(dāng)前關(guān)鍵詞抽取的較好水平。以上基于統(tǒng)計(jì)學(xué)習(xí)的方法,通過融合多種特征在一定程度上提高了關(guān)鍵詞抽取的準(zhǔn)確率,但是忽略了語義信息對關(guān)鍵詞抽取的影響。
隨著深度學(xué)習(xí)的發(fā)展,其已被廣泛應(yīng)用于自然語言處理的多種任務(wù)中,寧建飛等[13]利用word2vec和TextRank抽取關(guān)鍵詞;Xu等[14]通過融合多種關(guān)鍵詞抽取算法計(jì)算偏移損失,抽取關(guān)鍵詞;Mahata等[15]提出使用主題加權(quán)個性化PageRank算法和神經(jīng)短語嵌入相結(jié)合來抽取和排序關(guān)鍵詞;陳傳鵬[16]提出一種詞向量與 TextRank 的關(guān)鍵詞抽取方法,彌補(bǔ)了語義對TextRank的影響;夏天[17]提出利用詞向量聚類與TextRank結(jié)合的方法抽取關(guān)鍵詞;Wen等[18]使用word2vec計(jì)算詞之間的相似度作為節(jié)點(diǎn)權(quán)重的轉(zhuǎn)移概率,通過迭代方法計(jì)算詞得分,提高了關(guān)鍵詞抽取性能;Colla等[19]在關(guān)鍵詞抽取中考慮到語義度量,將語義信息融入到關(guān)鍵詞抽取算法;Villmow等[20]提出使用基于長短時記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)的端到端模型抽取關(guān)鍵詞。以上研究利用深度學(xué)習(xí)模型并融合多種特征,改善了關(guān)鍵詞抽取的效果,但是仍然存在對于短文本文檔信息不足,無法利用多特征的問題。
本文在借鑒上述研究的基礎(chǔ)上同時針對語義信息對TextRank的影響,以及考慮新聞標(biāo)題信息高度濃縮以及關(guān)鍵詞的覆蓋性與差異性的特點(diǎn),提出一種新的方法,融合LSTM和LDA差異的關(guān)鍵詞抽取方法:首先,對新聞文本進(jìn)行預(yù)處理,得到候選關(guān)鍵詞;其次,利用LDA主題模型得到候選關(guān)鍵詞的主題差異影響度;然后,利用訓(xùn)練好的word2vec模型得到候選詞的向量表示,同時利用LSTM模型得到新聞標(biāo)題向量,計(jì)算候選關(guān)鍵詞與標(biāo)題的語義相關(guān)性影響度;最后將主題差異影響度和語義相關(guān)性影響度融入TextRank算法,得到最終的候選關(guān)鍵詞排序,抽取出關(guān)鍵詞。
本文基于TextRank并融合語義信息和LDA主題模型的方式計(jì)算詞語的重要性,方法包括4個模塊:詞表示模型模塊、主題差異性模塊、語義相關(guān)性計(jì)算模塊和概率轉(zhuǎn)移矩陣構(gòu)建模塊,如圖1所示。
Figure 1 Method frame圖1 方法框架圖
在傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域,一般采用分布式的方法表示詞,將詞用一種低維實(shí)數(shù)向量表示,其優(yōu)點(diǎn)在于相似的詞在距離上更相近,能體現(xiàn)出不同詞之間的相關(guān)性,從而反映詞之間的依賴關(guān)系。對于詞表示模型的訓(xùn)練,Mikolov等[21]在2013年提出詞表示模型:Skip-gram和連續(xù)詞袋CBOW(Continuous Bag-Of-Word)模型,用低維稠密的詞向量代替原有的分布式的方法表示詞語,可以反映出詞語的依賴關(guān)系以及深層語義信息。本文選擇Google的開源工具包word2vec[22],采用Skip-gram模型在搜狗全網(wǎng)新聞?wù)Z料上進(jìn)行詞表示模型的訓(xùn)練。由于本文不是針對詞表示模型的評估,并沒有針對Skip-gram模型的不同超參數(shù)對關(guān)鍵詞抽取結(jié)果的影響做特定實(shí)驗(yàn)。根據(jù)前期詞表示訓(xùn)練的經(jīng)驗(yàn),本文將窗口大小設(shè)為5,向量維數(shù)設(shè)為200。
關(guān)鍵詞不僅要能代表新聞文本的主要內(nèi)容,還要具有主題差異性以及文本覆蓋性[23]。如果只考慮語義重要性,有可能會使得抽取出的關(guān)鍵詞只表達(dá)了文檔某一方面的重要信息,從而出現(xiàn)冗余信息,同時造成抽取出的關(guān)鍵詞沒有覆蓋整個文檔的信息。即關(guān)鍵詞的屬性不僅有語義重要性還有差異性和覆蓋性,如表1所示。
Table 1 Keyword extraction examples表1 關(guān)鍵詞抽取實(shí)例
如表1所示,抽取出的關(guān)鍵詞不僅考慮了關(guān)鍵詞的語義重要性,同時也考慮了關(guān)鍵詞之間的差異性和覆蓋性。為了表征關(guān)鍵詞之間的差異性和覆蓋性,本文引入主題差異影響度,它表示候選關(guān)鍵詞在不同主題之間的共享率:在主題之間共享得越少,認(rèn)為這個詞的主題差異性越明顯,越能反映一個詞區(qū)別于其他詞的特殊性。本文通過LDA主題模型得到候選關(guān)鍵詞的主題差異影響度。
LDA主題模型認(rèn)為一篇文檔由若干個主題組成,同時每個主題又由若干個詞構(gòu)成,如圖2所示。
Figure 2 LDA theme model圖2 LDA主題模型
在圖2中,M表示文檔的數(shù)目,T表示主題的數(shù)目,Nm表示第m篇文檔的特征詞總數(shù),Wm,n和Zm,n分別表示第m篇文檔的第n個特征詞及其主題。θm和φt分別表示服從超參數(shù)α和β的Dirichlet先驗(yàn)分布,θm表示第m篇文檔的主題概率分布,φt表示主題t中的特征詞概率分布。在本文中設(shè)定超參數(shù)α=0.1和β=0.1,通過LDA主題模型,得到第m篇文檔屬于主題t的概率p(t|m)和在第m篇文檔中詞u由主題t產(chǎn)生的概率p(t|u,m)。
對于文檔中的每個詞u來說,定義TS(u)為u在文檔中的主題差異影響度,用于表征關(guān)鍵詞之間的差異性和覆蓋性,它表示候選關(guān)鍵詞在不同主題之間的共享率:在主題之間共享得越少,其主題差異性TS(u)越高。在本文中,用KL(Kullback-Leibler)距離來衡量主題差異性TS(u),計(jì)算公式為:
(1)
(2)
(3)
關(guān)鍵詞體現(xiàn)了文本中的重要語義信息,基本的TextRank算法認(rèn)為共現(xiàn)頻率高的詞具有重要信息,但是沒有考慮候選關(guān)鍵詞的語義重要性。隨著深度學(xué)習(xí)的發(fā)展,各種基于深度學(xué)習(xí)的語言模型在自然語言處理中得到應(yīng)用,同時由于LSTM可以很好地處理序列信息,被廣泛應(yīng)用在自然語言處理的各種任務(wù)中。
為了得到候選關(guān)鍵詞,本文首先對新聞文本進(jìn)行預(yù)處理(分詞、去停用詞、詞性標(biāo)注),對預(yù)處理后的新聞文本選擇其中的名詞、動詞、形容詞作為候選關(guān)鍵詞。針對新聞文本標(biāo)題信息突出的特點(diǎn),結(jié)合訓(xùn)練好的word2vec模型得到候選詞向量表示,同時利用LSTM模型[24]得到新聞標(biāo)題向量;然后計(jì)算候選關(guān)鍵詞與標(biāo)題的語義相關(guān)性影響度,構(gòu)建計(jì)算語義相關(guān)性的網(wǎng)絡(luò)模型,如圖3所示。
Figure 3 Network model of semantic correlation圖3 語義相關(guān)性的網(wǎng)絡(luò)模型
2.3.1 新聞標(biāo)題句向量表示
首先,對新聞標(biāo)題進(jìn)行文本預(yù)處理(分詞、去停用詞),得到新聞標(biāo)題詞集合H={x1,x2,…,xn-1,xn},其中n為標(biāo)題詞個數(shù);再將新聞標(biāo)題詞向量初始化,依次輸入到LSTM模型中,得到隱藏狀態(tài):
ht=LSTM(ht-1,xt)
(4)
其中,ht-1為上一時間步的隱藏狀態(tài)t∈[1,n];xt為當(dāng)前時刻的新聞標(biāo)題詞的輸入;依次將新聞標(biāo)題詞輸入到LSTM模型中,將最后時間步的隱藏狀態(tài)hn輸出模型作為新聞標(biāo)題句的向量表示形式。
2.3.2 語義相關(guān)性計(jì)算
利用LSTM模型得到的新聞標(biāo)題句向量表示形式設(shè)為hn,利用word2vec模型得到候選關(guān)鍵詞向量表示形式為vi,計(jì)算兩者的距離和角度:
(5)
(6)
(7)
(8)
(9)
(10)
其中,0≤i≤2;[y]為大于y的最小整數(shù);{y}表示當(dāng)y≤0.5時舍棄,y>0.5時進(jìn)一位。
令損失函數(shù)為:
(11)
其中,K為訓(xùn)練的總樣本數(shù);i表示第i個詞-句對樣本。
通過訓(xùn)練語義相關(guān)性計(jì)算模型,得到候選關(guān)鍵詞與新聞標(biāo)題句的語義相似度。
根據(jù)TextRank算法,給定詞圖中節(jié)點(diǎn)之間的跳轉(zhuǎn)概率轉(zhuǎn)移矩陣,節(jié)點(diǎn)的重要性就可以通過迭代計(jì)算得到。令矩陣M表示概率轉(zhuǎn)移矩陣,如下所示:
其中,M中的第j列表示由詞語節(jié)點(diǎn)j跳轉(zhuǎn)到其他節(jié)點(diǎn)的概率分布,每列的跳轉(zhuǎn)概率之和為 1。
在傳統(tǒng)的TextRank算法中,p(v→a)表示從節(jié)點(diǎn)v轉(zhuǎn)移到節(jié)點(diǎn)a的概率,是均勻分布的,即對每個節(jié)點(diǎn)的重要性不加以區(qū)分,我們稱之為覆蓋影響度。本文在覆蓋影響度的基礎(chǔ)上加入了主題差異性影響度和語義相關(guān)性影響度。令pf(v→a)表示覆蓋影響度的轉(zhuǎn)移概率,即:
(12)
令pt(v→a)表示主題差異性影響度的轉(zhuǎn)移概率,計(jì)算公式為:
(13)
其中,TS(a)表示詞語a的主題差異性影響度,adj(v)表示v的鄰接節(jié)點(diǎn)集合。
令py(v→a)表示語義相關(guān)性影響度的轉(zhuǎn)移概率,計(jì)算公式為:
(14)
其中,py(v→a)表示從節(jié)點(diǎn)v轉(zhuǎn)移到節(jié)點(diǎn)a的語義相關(guān)性影響度轉(zhuǎn)移概率。y′(a)表示詞語a的語義相關(guān)性影響度,adj(v)表示v的鄰接節(jié)點(diǎn)集合。
將3種轉(zhuǎn)移概率進(jìn)行融合,得到最終的轉(zhuǎn)移概率p(v→a),計(jì)算公式為:
p(v→a)=φpf(v→a)+
(15)
通過p(v→a)構(gòu)建最終的概率轉(zhuǎn)移矩陣M。
在抽取關(guān)鍵字的迭代計(jì)算過程中,假設(shè)文本中共有n個候選關(guān)鍵詞,即構(gòu)建的詞圖中共有n個節(jié)點(diǎn),則將所有節(jié)點(diǎn)的重要性分?jǐn)?shù)均勻化得到初始重要性分?jǐn)?shù)向量B0,即:
(16)
利用融合覆蓋率影響度、主題差異影響度、語義相關(guān)性影響度構(gòu)造的最終轉(zhuǎn)移矩陣,迭代計(jì)算:
(17)
其中,Bi為當(dāng)前迭代的節(jié)點(diǎn)重要性分?jǐn)?shù)向量;d為阻尼系數(shù);n為節(jié)點(diǎn)總數(shù);e為所有分量均為1的n維向量。當(dāng)2次迭代結(jié)果Bi和Bi-1之差小于設(shè)定的閾值,即對應(yīng)節(jié)點(diǎn)之差都小于給定的閾值,本文設(shè)定閾值m=0.05,則認(rèn)為迭代收斂,認(rèn)為向量Bi為節(jié)點(diǎn)最終的重要性得分,按照從大到小進(jìn)行排序,選出前topK個詞語作為關(guān)鍵詞。
本文使用來自搜狗實(shí)驗(yàn)室的全網(wǎng)新聞數(shù)據(jù),數(shù)據(jù)包含了來自全網(wǎng)的2012年6月~7月期間國內(nèi)、國際、體育、社會、娛樂等 18 個專題的新聞數(shù)據(jù),共 1.4 GB 作為Skip-gram模型的訓(xùn)練集;對于相似度計(jì)算模塊的訓(xùn)練,由于沒有針對詞-句相似度的公共數(shù)據(jù)集,本文隨機(jī)抽取搜狗新聞?wù)Z料的18個專題,采用人工標(biāo)注的方式,構(gòu)建詞-句相似度計(jì)算模塊的數(shù)據(jù)集,其中訓(xùn)練集含有詞-句對3 869對,測試集含有詞-句對2 158對;為了驗(yàn)證本文方法的可行性和優(yōu)越性,在本文中,我們對18個專題隨機(jī)分別抽取10篇新聞,共計(jì)180篇新聞?wù)Z料作為測試集,針對測試集,采用多人人工交叉標(biāo)注的形式抽取新聞關(guān)鍵詞,每篇新聞人工抽取 10 個關(guān)鍵詞作為人工標(biāo)注的結(jié)果集(通常10個關(guān)鍵詞足以概括一篇新聞主要內(nèi)容)。
實(shí)驗(yàn)包括word2vec模型和LDA主題模型的訓(xùn)練、候選關(guān)鍵詞與新聞標(biāo)題詞的向量表示、構(gòu)建詞圖和概率轉(zhuǎn)移矩陣等過程,語料的預(yù)處理過程采用中國科學(xué)院漢語詞法分析系統(tǒng)ICTCLAS 完成,包括分詞、去停用詞等過程,使用word2vec模型對背景語料進(jìn)行訓(xùn)練。word2vec模型的訓(xùn)練采用Google的開源工具包word2vec的Skip-gram模型實(shí)現(xiàn),窗口大小設(shè)置為5,向量維度為200。針對新聞標(biāo)題特點(diǎn),設(shè)置LSTM模型展開時間步H=20,向量維度同樣設(shè)為200。LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1,主題個數(shù)T=3。利用訓(xùn)練好的詞表示模型和LDA主題模型,結(jié)合TextRank算法,構(gòu)建詞圖和概率轉(zhuǎn)移矩陣,抽取新聞關(guān)鍵詞。本文采用準(zhǔn)確率P、召回率R以及F值來評估本文提出的新聞文本關(guān)鍵詞抽取方法,準(zhǔn)確率定義如式(18)所示:
(18)
召回率公式如式(19)所示:
(19)
F值計(jì)算公式如式(20)所示:
(20)
其中,N()表示集合中元素個數(shù)。
實(shí)驗(yàn)1不同共現(xiàn)窗口的實(shí)驗(yàn)對比。共現(xiàn)窗口的大小直接影響關(guān)鍵詞抽取效果,為了驗(yàn)證不同共現(xiàn)窗口的大小對實(shí)驗(yàn)結(jié)果的影響,設(shè)定l(窗口大小)分別等于2,3,4,5,以驗(yàn)證窗口的大小對結(jié)果的影響。本文就窗口的大小l的確定做了4組實(shí)驗(yàn),分別測試l在取2,3,4,5時對關(guān)鍵詞抽取的影響。在進(jìn)行不同共現(xiàn)窗口的實(shí)驗(yàn)對比時,同時考慮TextRank、LDA差異性和語義影響度,設(shè)置3者的權(quán)重為0.3,0.4,0.3,LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1;設(shè)置抽取出的關(guān)鍵詞個數(shù)q=9。實(shí)驗(yàn)結(jié)果如表2所示。
Table 2 Comparison of experimental results of different co-occurrence window sizes表2 不同共現(xiàn)窗口大小的對比實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)共現(xiàn)窗口l=3時,F(xiàn)值為最大,F(xiàn)=0.73;當(dāng)共現(xiàn)窗口大于3時,準(zhǔn)確率、召回率和F值都有降低。分析原因主要是當(dāng)共現(xiàn)窗口太小時,共現(xiàn)關(guān)系沒有得到充分利用,造成信息利用率不高,從而影響準(zhǔn)確率;當(dāng)共現(xiàn)窗口太大時,會出現(xiàn)冗余信息,造成候選關(guān)鍵詞之間的錯誤關(guān)系信息,所以準(zhǔn)確率也會降低。根據(jù)不同共現(xiàn)窗口的實(shí)驗(yàn)對比,本文選取窗口大小l=3。
實(shí)驗(yàn)2不同關(guān)鍵詞抽取特征組合的實(shí)驗(yàn)對比,以驗(yàn)證在實(shí)際關(guān)鍵詞抽取任務(wù)中,TextRank、語義影響度、主題差異影響度對關(guān)鍵詞抽取的貢獻(xiàn)程度。本實(shí)驗(yàn)通過依次加入不同特征進(jìn)行對比實(shí)驗(yàn)。在進(jìn)行特征組合對比實(shí)驗(yàn)時,設(shè)置共現(xiàn)窗口大小l=3,抽取出的關(guān)鍵詞個數(shù)q=9;LDA主題模型的超參數(shù)分別設(shè)置為α=0.1和β=0.1。實(shí)驗(yàn)結(jié)果如表3所示。
Table 3 Comparison of experimental results of different keyword extraction feature combinations表3 不同關(guān)鍵詞抽取特征組合的對比實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),僅僅利用TextRank,其準(zhǔn)確率明顯低于結(jié)合LDA差異和語義影響度的,分析原因?yàn)門extRank僅僅利用詞語的共現(xiàn)信息構(gòu)造詞語之間的關(guān)系信息,沒有考慮詞語與詞語之間的語義影響度,也沒有考慮關(guān)鍵詞的差異性和覆蓋性。本文提出的新方法,在TextRank抽取共現(xiàn)信息的基礎(chǔ)上,同時也充分考慮候選關(guān)鍵詞的語義影響度和關(guān)鍵詞的差異性和覆蓋性,因此準(zhǔn)確率有了很大的提高。
實(shí)驗(yàn)3為了驗(yàn)證本文方法的可行性,將本文方法與其他幾種主流關(guān)鍵詞抽取方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表4所示。
Table 4 Comparison of experimental results of different keyword extraction methods表4 不同關(guān)鍵詞抽取方法的對比實(shí)驗(yàn)結(jié)果
從表4中可知,本文提出的方法與傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比較準(zhǔn)確率有明顯的提升;本文的方法與LDA+TextRank[4]方法相比較,LDA+TextRank[4]通過LDA主題模型,得到候選關(guān)鍵詞的主題重要性,并融合TextRank進(jìn)行關(guān)鍵詞抽取,而本文方法利用LDA主題差異性的概念,不僅考慮到關(guān)鍵詞之間的覆蓋性,也同時考慮關(guān)鍵詞之間差異性,提高了抽取關(guān)鍵詞的質(zhì)量;在本文中,我們利用新聞文本標(biāo)題信息,通過LSTM模型和word2vec模型結(jié)合,計(jì)算候選關(guān)鍵詞的語義影響度,與word2vec+TextRank[8]方法相比較,不僅提高了計(jì)算效率,也提高了關(guān)鍵詞抽取的準(zhǔn)確率。通過與現(xiàn)有方法相比較,證明了本文方法的優(yōu)越性,以及本文方法在關(guān)鍵詞抽取方面的可行性。
實(shí)驗(yàn)4抽取不同關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)。為了驗(yàn)證抽取不同關(guān)鍵詞的個數(shù)對實(shí)驗(yàn)結(jié)果的影響,選取了抽取q個詞作為抽取結(jié)果,以驗(yàn)證抽取不同關(guān)鍵詞的個數(shù)對結(jié)果的影響。本實(shí)驗(yàn)就抽取不同關(guān)鍵詞的個數(shù)q的確定做了5組實(shí)驗(yàn),分別測試q在取6,7,8,9,10時對關(guān)鍵詞抽取的影響。在進(jìn)行抽取不同候選關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)時,同時考慮TextRank、LDA差異性和語義影響度,設(shè)置3者的權(quán)重為0.3,0.4,0.3,LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1,共現(xiàn)窗口大小l=3。實(shí)驗(yàn)結(jié)果如表5所示。
由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)抽取的關(guān)鍵詞個數(shù)q=9時,準(zhǔn)確率、召回率和F值都達(dá)到最大。分析原因主要因?yàn)楫?dāng)抽取的關(guān)鍵詞個數(shù)太少時,只有少部分的重要信息詞被抽取出來,造成重要信息抽取不完全,從而影響準(zhǔn)確率;當(dāng)抽取候選關(guān)鍵詞個數(shù)太多時,又會出現(xiàn)冗余信息,造成多余信息被抽取出來,所以準(zhǔn)確率也會降低。根據(jù)抽取不同候選關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn),本文選抽取出的關(guān)鍵詞個數(shù)q=9。
Table 5 Comparison of experimental results of different number of keywords表5 抽取不同關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)5為了驗(yàn)證所提方法的優(yōu)越性,本文選取了3個基線模型。其中TKG(Twitter Keyword Graph)模型[3]和KEGBA(Keyword Extraction using Graph-Based Approach)模型[4]作為經(jīng)典的關(guān)鍵詞抽取模型,都是基于圖模型的方式,通過融合復(fù)雜的節(jié)點(diǎn)特征,用中心度量來抽取關(guān)鍵詞。KCW(Keyword from Collective Weights)模型[12]作為最新的關(guān)鍵詞抽取模型,通過融合節(jié)點(diǎn)、位置、強(qiáng)度等特征信息,在面向Twitter文本的關(guān)鍵詞抽取方面取得了很好的F值。本實(shí)驗(yàn)以這3個模型作為基線模型,通過與經(jīng)典的基于圖模型方法和最新的關(guān)鍵詞抽取方法相比較,驗(yàn)證本文方法的可行性與優(yōu)越性。
Table 6 Comparison of experimental results between the proposed method and baseline models表6 本文方法與基線模型的對比實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本文方法與TKG模型[3]和KEGBA模型[4]相比較,F(xiàn)值有明顯提升。分析原因主要是因?yàn)檫@2種方法均基于圖模型,利用節(jié)點(diǎn)之間的特征信息抽取關(guān)鍵詞。而本文方法在圖模型的基礎(chǔ)上,綜合考慮了主題差異和語義影響,考慮的信息更全面。KCW模型[12]在我們搜集到的新聞?wù)Z料上,其F值有所下降,分析原因主要是因?yàn)樾侣勎谋拘畔⑤^長,主題分布更復(fù)雜,語義信息相較于Twitter短文本更不好把握。只考慮節(jié)點(diǎn)位置、強(qiáng)度等信息忽略了關(guān)鍵詞之間的差異性,也無法準(zhǔn)確分析出新聞的主要內(nèi)容。實(shí)驗(yàn)結(jié)果表明,本文方法的F值與KCW模型的基本持平,說明本文方法達(dá)到了較高的水平。
本文針對現(xiàn)有的關(guān)鍵詞抽取方法,沒有考慮候選關(guān)鍵詞的語義重要性、覆蓋性、差異性,提出了一種簡單高效的融合LSTM和LDA差異的關(guān)鍵詞抽取方法。本文方法利用LDA主題模型和LSTM語言模型、word2vec詞表示模型,并融合了候選關(guān)鍵詞的共現(xiàn)關(guān)系、語義重要性、覆蓋性和差異性的多種不同屬性。實(shí)驗(yàn)結(jié)果表明,本文方法與現(xiàn)有的關(guān)鍵詞抽取方法相比,準(zhǔn)確率和召回率都有明顯提升。下一步的工作是在現(xiàn)有基礎(chǔ)上,針對新聞?wù)Z料信息高度濃縮的特點(diǎn),融入外部知識信息,提高關(guān)鍵詞抽取質(zhì)量。