亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合LSTM和LDA差異的新聞文本關(guān)鍵詞抽取方法*

2020-03-04 07:56:52王紅斌張金鵬

計(jì)算機(jī)工程與科學(xué) 2020年1期

寧珊，嚴(yán) 馨，周楓，王紅斌，張金鵬

(1.昆明理工大學(xué)信息工程與自動化學(xué)院，云南昆明 650504；2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室，云南昆明 650500； 3.云南財經(jīng)大學(xué)信息管理中心，云南昆明 650221)

1 引言

關(guān)鍵詞抽取是文本挖掘、自然語言處理和信息檢索的重要研究方向。關(guān)鍵詞抽取使我們能夠以簡潔的方式表示文本文檔。文檔的緊湊表示在多個應(yīng)用場景中都很有用，例如自())動索引、自動摘要、自動分類、聚類和過濾等。目前關(guān)于關(guān)鍵詞抽取的主流方法主要集中在基于最頻繁度量的關(guān)鍵詞抽取、基于詞頻-逆文本頻率TF-IDF(Term Frequency-Inverse Document Frequency)的關(guān)鍵詞抽取和基于共現(xiàn)統(tǒng)計(jì)信息的關(guān)鍵詞抽取[1]。隨著關(guān)鍵詞抽取技術(shù)的發(fā)展，研究者們發(fā)現(xiàn)僅僅考慮詞語的共現(xiàn)頻率已經(jīng)不能滿足關(guān)鍵詞抽取任務(wù)的要求。牛萍等[2]融合TF-IDF和位置特征及詞性特征自動抽取關(guān)鍵詞；Abilhoa等[3]和Nagarajan等[4]提出基于圖模型的算法，利用節(jié)點(diǎn)之間的特征信息抽取關(guān)鍵詞；Abdelhaq等[5]根據(jù)詞語的位置加權(quán)，調(diào)整TextRank算法中邊的傳遞權(quán)重；Habibi[6]等通過隱含狄利克雷分布LDA(Latent Dirichlet Allocation)主題模型構(gòu)建獎勵函數(shù)計(jì)算詞的主題特征，構(gòu)造關(guān)鍵詞抽取模型；Hulth等[7]通過將句法特征融入詞語表示獲得比N-Gram更高的精度；Yang等[8]通過LDA與TextRank算法相結(jié)合抽取關(guān)鍵詞；Onan等[9]將基礎(chǔ)學(xué)習(xí)算法與廣泛使用的集合方法進(jìn)行比較,評估統(tǒng)計(jì)關(guān)鍵字抽取方法與集成學(xué)習(xí)算法相結(jié)合的有效性；陳憶群等[10]將關(guān)鍵詞抽取問題轉(zhuǎn)化為分類問題，利用支持向量機(jī)SVM(Support Vector Machine)抽取關(guān)鍵詞；Yang等[11]在抽取關(guān)鍵詞時考慮了句子影響度；Bordoloi等[12]利用節(jié)點(diǎn)之間的鄰居頻率、中心置和強(qiáng)度等各種特征，在面向Twitter文本方面達(dá)到了當(dāng)前關(guān)鍵詞抽取的較好水平。以上基于統(tǒng)計(jì)學(xué)習(xí)的方法，通過融合多種特征在一定程度上提高了關(guān)鍵詞抽取的準(zhǔn)確率，但是忽略了語義信息對關(guān)鍵詞抽取的影響。

隨著深度學(xué)習(xí)的發(fā)展，其已被廣泛應(yīng)用于自然語言處理的多種任務(wù)中，寧建飛等[13]利用word2vec和TextRank抽取關(guān)鍵詞；Xu等[14]通過融合多種關(guān)鍵詞抽取算法計(jì)算偏移損失，抽取關(guān)鍵詞；Mahata等[15]提出使用主題加權(quán)個性化PageRank算法和神經(jīng)短語嵌入相結(jié)合來抽取和排序關(guān)鍵詞；陳傳鵬[16]提出一種詞向量與 TextRank 的關(guān)鍵詞抽取方法，彌補(bǔ)了語義對TextRank的影響；夏天[17]提出利用詞向量聚類與TextRank結(jié)合的方法抽取關(guān)鍵詞；Wen等[18]使用word2vec計(jì)算詞之間的相似度作為節(jié)點(diǎn)權(quán)重的轉(zhuǎn)移概率，通過迭代方法計(jì)算詞得分，提高了關(guān)鍵詞抽取性能；Colla等[19]在關(guān)鍵詞抽取中考慮到語義度量，將語義信息融入到關(guān)鍵詞抽取算法；Villmow等[20]提出使用基于長短時記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)的端到端模型抽取關(guān)鍵詞。以上研究利用深度學(xué)習(xí)模型并融合多種特征，改善了關(guān)鍵詞抽取的效果，但是仍然存在對于短文本文檔信息不足，無法利用多特征的問題。

本文在借鑒上述研究的基礎(chǔ)上同時針對語義信息對TextRank的影響，以及考慮新聞標(biāo)題信息高度濃縮以及關(guān)鍵詞的覆蓋性與差異性的特點(diǎn)，提出一種新的方法，融合LSTM和LDA差異的關(guān)鍵詞抽取方法：首先，對新聞文本進(jìn)行預(yù)處理，得到候選關(guān)鍵詞；其次，利用LDA主題模型得到候選關(guān)鍵詞的主題差異影響度；然后，利用訓(xùn)練好的word2vec模型得到候選詞的向量表示，同時利用LSTM模型得到新聞標(biāo)題向量，計(jì)算候選關(guān)鍵詞與標(biāo)題的語義相關(guān)性影響度；最后將主題差異影響度和語義相關(guān)性影響度融入TextRank算法，得到最終的候選關(guān)鍵詞排序，抽取出關(guān)鍵詞。

2 研究方法

本文基于TextRank并融合語義信息和LDA主題模型的方式計(jì)算詞語的重要性，方法包括4個模塊：詞表示模型模塊、主題差異性模塊、語義相關(guān)性計(jì)算模塊和概率轉(zhuǎn)移矩陣構(gòu)建模塊，如圖1所示。

Figure 1 Method frame圖1 方法框架圖

2.1 詞表示模塊

在傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域，一般采用分布式的方法表示詞，將詞用一種低維實(shí)數(shù)向量表示，其優(yōu)點(diǎn)在于相似的詞在距離上更相近，能體現(xiàn)出不同詞之間的相關(guān)性，從而反映詞之間的依賴關(guān)系。對于詞表示模型的訓(xùn)練，Mikolov等[21]在2013年提出詞表示模型：Skip-gram和連續(xù)詞袋CBOW(Continuous Bag-Of-Word)模型，用低維稠密的詞向量代替原有的分布式的方法表示詞語，可以反映出詞語的依賴關(guān)系以及深層語義信息。本文選擇Google的開源工具包word2vec[22]，采用Skip-gram模型在搜狗全網(wǎng)新聞?wù)Z料上進(jìn)行詞表示模型的訓(xùn)練。由于本文不是針對詞表示模型的評估，并沒有針對Skip-gram模型的不同超參數(shù)對關(guān)鍵詞抽取結(jié)果的影響做特定實(shí)驗(yàn)。根據(jù)前期詞表示訓(xùn)練的經(jīng)驗(yàn)，本文將窗口大小設(shè)為5，向量維數(shù)設(shè)為200。

2.2 主題差異性模塊

關(guān)鍵詞不僅要能代表新聞文本的主要內(nèi)容，還要具有主題差異性以及文本覆蓋性[23]。如果只考慮語義重要性，有可能會使得抽取出的關(guān)鍵詞只表達(dá)了文檔某一方面的重要信息，從而出現(xiàn)冗余信息，同時造成抽取出的關(guān)鍵詞沒有覆蓋整個文檔的信息。即關(guān)鍵詞的屬性不僅有語義重要性還有差異性和覆蓋性，如表1所示。

Table 1 Keyword extraction examples表1 關(guān)鍵詞抽取實(shí)例

如表1所示，抽取出的關(guān)鍵詞不僅考慮了關(guān)鍵詞的語義重要性，同時也考慮了關(guān)鍵詞之間的差異性和覆蓋性。為了表征關(guān)鍵詞之間的差異性和覆蓋性，本文引入主題差異影響度，它表示候選關(guān)鍵詞在不同主題之間的共享率：在主題之間共享得越少，認(rèn)為這個詞的主題差異性越明顯，越能反映一個詞區(qū)別于其他詞的特殊性。本文通過LDA主題模型得到候選關(guān)鍵詞的主題差異影響度。

LDA主題模型認(rèn)為一篇文檔由若干個主題組成，同時每個主題又由若干個詞構(gòu)成，如圖2所示。

Figure 2 LDA theme model圖2 LDA主題模型

在圖2中，M表示文檔的數(shù)目，T表示主題的數(shù)目，Nm表示第m篇文檔的特征詞總數(shù)，Wm,n和Zm,n分別表示第m篇文檔的第n個特征詞及其主題。θm和φt分別表示服從超參數(shù)α和β的Dirichlet先驗(yàn)分布，θm表示第m篇文檔的主題概率分布，φt表示主題t中的特征詞概率分布。在本文中設(shè)定超參數(shù)α=0.1和β=0.1，通過LDA主題模型，得到第m篇文檔屬于主題t的概率p(t|m)和在第m篇文檔中詞u由主題t產(chǎn)生的概率p(t|u,m)。

對于文檔中的每個詞u來說，定義TS(u)為u在文檔中的主題差異影響度，用于表征關(guān)鍵詞之間的差異性和覆蓋性，它表示候選關(guān)鍵詞在不同主題之間的共享率：在主題之間共享得越少，其主題差異性TS(u)越高。在本文中，用KL(Kullback-Leibler)距離來衡量主題差異性TS(u)，計(jì)算公式為:

(1)

(2)

(3)

2.3 語義相關(guān)性計(jì)算模塊

關(guān)鍵詞體現(xiàn)了文本中的重要語義信息，基本的TextRank算法認(rèn)為共現(xiàn)頻率高的詞具有重要信息，但是沒有考慮候選關(guān)鍵詞的語義重要性。隨著深度學(xué)習(xí)的發(fā)展，各種基于深度學(xué)習(xí)的語言模型在自然語言處理中得到應(yīng)用，同時由于LSTM可以很好地處理序列信息，被廣泛應(yīng)用在自然語言處理的各種任務(wù)中。

為了得到候選關(guān)鍵詞，本文首先對新聞文本進(jìn)行預(yù)處理(分詞、去停用詞、詞性標(biāo)注)，對預(yù)處理后的新聞文本選擇其中的名詞、動詞、形容詞作為候選關(guān)鍵詞。針對新聞文本標(biāo)題信息突出的特點(diǎn)，結(jié)合訓(xùn)練好的word2vec模型得到候選詞向量表示，同時利用LSTM模型[24]得到新聞標(biāo)題向量；然后計(jì)算候選關(guān)鍵詞與標(biāo)題的語義相關(guān)性影響度，構(gòu)建計(jì)算語義相關(guān)性的網(wǎng)絡(luò)模型，如圖3所示。

Figure 3 Network model of semantic correlation圖3 語義相關(guān)性的網(wǎng)絡(luò)模型

2.3.1 新聞標(biāo)題句向量表示

首先，對新聞標(biāo)題進(jìn)行文本預(yù)處理(分詞、去停用詞)，得到新聞標(biāo)題詞集合H={x1,x2,…,xn-1,xn}，其中n為標(biāo)題詞個數(shù)；再將新聞標(biāo)題詞向量初始化，依次輸入到LSTM模型中，得到隱藏狀態(tài)：

ht=LSTM(ht-1,xt)

(4)

其中,ht-1為上一時間步的隱藏狀態(tài)t∈[1,n]；xt為當(dāng)前時刻的新聞標(biāo)題詞的輸入；依次將新聞標(biāo)題詞輸入到LSTM模型中，將最后時間步的隱藏狀態(tài)hn輸出模型作為新聞標(biāo)題句的向量表示形式。

2.3.2 語義相關(guān)性計(jì)算

利用LSTM模型得到的新聞標(biāo)題句向量表示形式設(shè)為hn,利用word2vec模型得到候選關(guān)鍵詞向量表示形式為vi，計(jì)算兩者的距離和角度：

(5)

(6)

(7)

(8)

(9)

(10)

其中,0≤i≤2；[y]為大于y的最小整數(shù)；{y}表示當(dāng)y≤0.5時舍棄，y>0.5時進(jìn)一位。

令損失函數(shù)為：

(11)

其中,K為訓(xùn)練的總樣本數(shù)；i表示第i個詞-句對樣本。

通過訓(xùn)練語義相關(guān)性計(jì)算模型，得到候選關(guān)鍵詞與新聞標(biāo)題句的語義相似度。

2.4 構(gòu)建概率轉(zhuǎn)移矩陣模塊

根據(jù)TextRank算法，給定詞圖中節(jié)點(diǎn)之間的跳轉(zhuǎn)概率轉(zhuǎn)移矩陣，節(jié)點(diǎn)的重要性就可以通過迭代計(jì)算得到。令矩陣M表示概率轉(zhuǎn)移矩陣，如下所示：

其中,M中的第j列表示由詞語節(jié)點(diǎn)j跳轉(zhuǎn)到其他節(jié)點(diǎn)的概率分布,每列的跳轉(zhuǎn)概率之和為 1。

在傳統(tǒng)的TextRank算法中，p(v→a)表示從節(jié)點(diǎn)v轉(zhuǎn)移到節(jié)點(diǎn)a的概率，是均勻分布的，即對每個節(jié)點(diǎn)的重要性不加以區(qū)分，我們稱之為覆蓋影響度。本文在覆蓋影響度的基礎(chǔ)上加入了主題差異性影響度和語義相關(guān)性影響度。令pf(v→a)表示覆蓋影響度的轉(zhuǎn)移概率，即：

(12)

令pt(v→a)表示主題差異性影響度的轉(zhuǎn)移概率，計(jì)算公式為：

(13)

其中，TS(a)表示詞語a的主題差異性影響度，adj(v)表示v的鄰接節(jié)點(diǎn)集合。

令py(v→a)表示語義相關(guān)性影響度的轉(zhuǎn)移概率，計(jì)算公式為：

(14)

其中，py(v→a)表示從節(jié)點(diǎn)v轉(zhuǎn)移到節(jié)點(diǎn)a的語義相關(guān)性影響度轉(zhuǎn)移概率。y′(a)表示詞語a的語義相關(guān)性影響度，adj(v)表示v的鄰接節(jié)點(diǎn)集合。

將3種轉(zhuǎn)移概率進(jìn)行融合，得到最終的轉(zhuǎn)移概率p(v→a)，計(jì)算公式為：

p(v→a)=φpf(v→a)+

(15)

通過p(v→a)構(gòu)建最終的概率轉(zhuǎn)移矩陣M。

2.5 抽取關(guān)鍵詞

在抽取關(guān)鍵字的迭代計(jì)算過程中，假設(shè)文本中共有n個候選關(guān)鍵詞，即構(gòu)建的詞圖中共有n個節(jié)點(diǎn)，則將所有節(jié)點(diǎn)的重要性分?jǐn)?shù)均勻化得到初始重要性分?jǐn)?shù)向量B0，即：

(16)

利用融合覆蓋率影響度、主題差異影響度、語義相關(guān)性影響度構(gòu)造的最終轉(zhuǎn)移矩陣，迭代計(jì)算：

(17)

其中,Bi為當(dāng)前迭代的節(jié)點(diǎn)重要性分?jǐn)?shù)向量；d為阻尼系數(shù)；n為節(jié)點(diǎn)總數(shù)；e為所有分量均為1的n維向量。當(dāng)2次迭代結(jié)果Bi和Bi-1之差小于設(shè)定的閾值,即對應(yīng)節(jié)點(diǎn)之差都小于給定的閾值，本文設(shè)定閾值m=0.05，則認(rèn)為迭代收斂，認(rèn)為向量Bi為節(jié)點(diǎn)最終的重要性得分，按照從大到小進(jìn)行排序，選出前topK個詞語作為關(guān)鍵詞。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用來自搜狗實(shí)驗(yàn)室的全網(wǎng)新聞數(shù)據(jù)，數(shù)據(jù)包含了來自全網(wǎng)的2012年6月～7月期間國內(nèi)、國際、體育、社會、娛樂等 18 個專題的新聞數(shù)據(jù)，共 1.4 GB 作為Skip-gram模型的訓(xùn)練集；對于相似度計(jì)算模塊的訓(xùn)練，由于沒有針對詞-句相似度的公共數(shù)據(jù)集，本文隨機(jī)抽取搜狗新聞?wù)Z料的18個專題,采用人工標(biāo)注的方式，構(gòu)建詞-句相似度計(jì)算模塊的數(shù)據(jù)集，其中訓(xùn)練集含有詞-句對3 869對，測試集含有詞-句對2 158對；為了驗(yàn)證本文方法的可行性和優(yōu)越性，在本文中，我們對18個專題隨機(jī)分別抽取10篇新聞，共計(jì)180篇新聞?wù)Z料作為測試集，針對測試集，采用多人人工交叉標(biāo)注的形式抽取新聞關(guān)鍵詞，每篇新聞人工抽取 10 個關(guān)鍵詞作為人工標(biāo)注的結(jié)果集(通常10個關(guān)鍵詞足以概括一篇新聞主要內(nèi)容)。

3.2 實(shí)驗(yàn)設(shè)置和評價指標(biāo)

實(shí)驗(yàn)包括word2vec模型和LDA主題模型的訓(xùn)練、候選關(guān)鍵詞與新聞標(biāo)題詞的向量表示、構(gòu)建詞圖和概率轉(zhuǎn)移矩陣等過程，語料的預(yù)處理過程采用中國科學(xué)院漢語詞法分析系統(tǒng)ICTCLAS 完成，包括分詞、去停用詞等過程，使用word2vec模型對背景語料進(jìn)行訓(xùn)練。word2vec模型的訓(xùn)練采用Google的開源工具包word2vec的Skip-gram模型實(shí)現(xiàn)，窗口大小設(shè)置為5，向量維度為200。針對新聞標(biāo)題特點(diǎn)，設(shè)置LSTM模型展開時間步H=20，向量維度同樣設(shè)為200。LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1，主題個數(shù)T=3。利用訓(xùn)練好的詞表示模型和LDA主題模型，結(jié)合TextRank算法，構(gòu)建詞圖和概率轉(zhuǎn)移矩陣，抽取新聞關(guān)鍵詞。本文采用準(zhǔn)確率P、召回率R以及F值來評估本文提出的新聞文本關(guān)鍵詞抽取方法，準(zhǔn)確率定義如式(18)所示：

(18)

召回率公式如式(19)所示：

(19)

F值計(jì)算公式如式(20)所示：

(20)

其中，N()表示集合中元素個數(shù)。

3.3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)1不同共現(xiàn)窗口的實(shí)驗(yàn)對比。共現(xiàn)窗口的大小直接影響關(guān)鍵詞抽取效果，為了驗(yàn)證不同共現(xiàn)窗口的大小對實(shí)驗(yàn)結(jié)果的影響，設(shè)定l(窗口大小)分別等于2,3,4,5，以驗(yàn)證窗口的大小對結(jié)果的影響。本文就窗口的大小l的確定做了4組實(shí)驗(yàn)，分別測試l在取2，3，4，5時對關(guān)鍵詞抽取的影響。在進(jìn)行不同共現(xiàn)窗口的實(shí)驗(yàn)對比時，同時考慮TextRank、LDA差異性和語義影響度，設(shè)置3者的權(quán)重為0.3，0.4,0.3，LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1；設(shè)置抽取出的關(guān)鍵詞個數(shù)q=9。實(shí)驗(yàn)結(jié)果如表2所示。

Table 2 Comparison of experimental results of different co-occurrence window sizes表2 不同共現(xiàn)窗口大小的對比實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，當(dāng)共現(xiàn)窗口l=3時，F(xiàn)值為最大，F(xiàn)=0.73；當(dāng)共現(xiàn)窗口大于3時，準(zhǔn)確率、召回率和F值都有降低。分析原因主要是當(dāng)共現(xiàn)窗口太小時，共現(xiàn)關(guān)系沒有得到充分利用，造成信息利用率不高，從而影響準(zhǔn)確率；當(dāng)共現(xiàn)窗口太大時，會出現(xiàn)冗余信息，造成候選關(guān)鍵詞之間的錯誤關(guān)系信息，所以準(zhǔn)確率也會降低。根據(jù)不同共現(xiàn)窗口的實(shí)驗(yàn)對比，本文選取窗口大小l=3。

實(shí)驗(yàn)2不同關(guān)鍵詞抽取特征組合的實(shí)驗(yàn)對比，以驗(yàn)證在實(shí)際關(guān)鍵詞抽取任務(wù)中，TextRank、語義影響度、主題差異影響度對關(guān)鍵詞抽取的貢獻(xiàn)程度。本實(shí)驗(yàn)通過依次加入不同特征進(jìn)行對比實(shí)驗(yàn)。在進(jìn)行特征組合對比實(shí)驗(yàn)時，設(shè)置共現(xiàn)窗口大小l=3，抽取出的關(guān)鍵詞個數(shù)q=9；LDA主題模型的超參數(shù)分別設(shè)置為α=0.1和β=0.1。實(shí)驗(yàn)結(jié)果如表3所示。

Table 3 Comparison of experimental results of different keyword extraction feature combinations表3 不同關(guān)鍵詞抽取特征組合的對比實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，僅僅利用TextRank，其準(zhǔn)確率明顯低于結(jié)合LDA差異和語義影響度的，分析原因?yàn)門extRank僅僅利用詞語的共現(xiàn)信息構(gòu)造詞語之間的關(guān)系信息，沒有考慮詞語與詞語之間的語義影響度，也沒有考慮關(guān)鍵詞的差異性和覆蓋性。本文提出的新方法，在TextRank抽取共現(xiàn)信息的基礎(chǔ)上，同時也充分考慮候選關(guān)鍵詞的語義影響度和關(guān)鍵詞的差異性和覆蓋性，因此準(zhǔn)確率有了很大的提高。

實(shí)驗(yàn)3為了驗(yàn)證本文方法的可行性，將本文方法與其他幾種主流關(guān)鍵詞抽取方法進(jìn)行比較，實(shí)驗(yàn)結(jié)果如表4所示。

Table 4 Comparison of experimental results of different keyword extraction methods表4 不同關(guān)鍵詞抽取方法的對比實(shí)驗(yàn)結(jié)果

從表4中可知，本文提出的方法與傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比較準(zhǔn)確率有明顯的提升；本文的方法與LDA+TextRank[4]方法相比較，LDA+TextRank[4]通過LDA主題模型，得到候選關(guān)鍵詞的主題重要性，并融合TextRank進(jìn)行關(guān)鍵詞抽取，而本文方法利用LDA主題差異性的概念，不僅考慮到關(guān)鍵詞之間的覆蓋性，也同時考慮關(guān)鍵詞之間差異性，提高了抽取關(guān)鍵詞的質(zhì)量；在本文中，我們利用新聞文本標(biāo)題信息，通過LSTM模型和word2vec模型結(jié)合，計(jì)算候選關(guān)鍵詞的語義影響度，與word2vec+TextRank[8]方法相比較，不僅提高了計(jì)算效率，也提高了關(guān)鍵詞抽取的準(zhǔn)確率。通過與現(xiàn)有方法相比較，證明了本文方法的優(yōu)越性，以及本文方法在關(guān)鍵詞抽取方面的可行性。

實(shí)驗(yàn)4抽取不同關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)。為了驗(yàn)證抽取不同關(guān)鍵詞的個數(shù)對實(shí)驗(yàn)結(jié)果的影響，選取了抽取q個詞作為抽取結(jié)果，以驗(yàn)證抽取不同關(guān)鍵詞的個數(shù)對結(jié)果的影響。本實(shí)驗(yàn)就抽取不同關(guān)鍵詞的個數(shù)q的確定做了5組實(shí)驗(yàn)，分別測試q在取6，7，8，9，10時對關(guān)鍵詞抽取的影響。在進(jìn)行抽取不同候選關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)時，同時考慮TextRank、LDA差異性和語義影響度，設(shè)置3者的權(quán)重為0.3，0.4,0.3，LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1，共現(xiàn)窗口大小l=3。實(shí)驗(yàn)結(jié)果如表5所示。

由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，當(dāng)抽取的關(guān)鍵詞個數(shù)q=9時，準(zhǔn)確率、召回率和F值都達(dá)到最大。分析原因主要因?yàn)楫?dāng)抽取的關(guān)鍵詞個數(shù)太少時，只有少部分的重要信息詞被抽取出來，造成重要信息抽取不完全，從而影響準(zhǔn)確率；當(dāng)抽取候選關(guān)鍵詞個數(shù)太多時，又會出現(xiàn)冗余信息，造成多余信息被抽取出來，所以準(zhǔn)確率也會降低。根據(jù)抽取不同候選關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)，本文選抽取出的關(guān)鍵詞個數(shù)q=9。

Table 5 Comparison of experimental results of different number of keywords表5 抽取不同關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)5為了驗(yàn)證所提方法的優(yōu)越性，本文選取了3個基線模型。其中TKG(Twitter Keyword Graph)模型[3]和KEGBA(Keyword Extraction using Graph-Based Approach)模型[4]作為經(jīng)典的關(guān)鍵詞抽取模型，都是基于圖模型的方式，通過融合復(fù)雜的節(jié)點(diǎn)特征，用中心度量來抽取關(guān)鍵詞。KCW(Keyword from Collective Weights)模型[12]作為最新的關(guān)鍵詞抽取模型，通過融合節(jié)點(diǎn)、位置、強(qiáng)度等特征信息，在面向Twitter文本的關(guān)鍵詞抽取方面取得了很好的F值。本實(shí)驗(yàn)以這3個模型作為基線模型，通過與經(jīng)典的基于圖模型方法和最新的關(guān)鍵詞抽取方法相比較，驗(yàn)證本文方法的可行性與優(yōu)越性。

Table 6 Comparison of experimental results between the proposed method and baseline models表6 本文方法與基線模型的對比實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，本文方法與TKG模型[3]和KEGBA模型[4]相比較，F(xiàn)值有明顯提升。分析原因主要是因?yàn)檫@2種方法均基于圖模型，利用節(jié)點(diǎn)之間的特征信息抽取關(guān)鍵詞。而本文方法在圖模型的基礎(chǔ)上，綜合考慮了主題差異和語義影響，考慮的信息更全面。KCW模型[12]在我們搜集到的新聞?wù)Z料上，其F值有所下降，分析原因主要是因?yàn)樾侣勎谋拘畔⑤^長，主題分布更復(fù)雜，語義信息相較于Twitter短文本更不好把握。只考慮節(jié)點(diǎn)位置、強(qiáng)度等信息忽略了關(guān)鍵詞之間的差異性，也無法準(zhǔn)確分析出新聞的主要內(nèi)容。實(shí)驗(yàn)結(jié)果表明，本文方法的F值與KCW模型的基本持平，說明本文方法達(dá)到了較高的水平。

4 結(jié)束語

本文針對現(xiàn)有的關(guān)鍵詞抽取方法，沒有考慮候選關(guān)鍵詞的語義重要性、覆蓋性、差異性，提出了一種簡單高效的融合LSTM和LDA差異的關(guān)鍵詞抽取方法。本文方法利用LDA主題模型和LSTM語言模型、word2vec詞表示模型，并融合了候選關(guān)鍵詞的共現(xiàn)關(guān)系、語義重要性、覆蓋性和差異性的多種不同屬性。實(shí)驗(yàn)結(jié)果表明，本文方法與現(xiàn)有的關(guān)鍵詞抽取方法相比，準(zhǔn)確率和召回率都有明顯提升。下一步的工作是在現(xiàn)有基礎(chǔ)上，針對新聞?wù)Z料信息高度濃縮的特點(diǎn)，融入外部知識信息，提高關(guān)鍵詞抽取質(zhì)量。