亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合LSTM和LDA差異的新聞文本關(guān)鍵詞抽取方法*

        2020-03-04 07:56:52王紅斌張金鵬
        關(guān)鍵詞:新聞標(biāo)題語義向量

        寧 珊,嚴(yán) 馨,周 楓,王紅斌,張金鵬

        (1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650504;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500; 3.云南財經(jīng)大學(xué)信息管理中心,云南 昆明 650221)

        1 引言

        關(guān)鍵詞抽取是文本挖掘、自然語言處理和信息檢索的重要研究方向。關(guān)鍵詞抽取使我們能夠以簡潔的方式表示文本文檔。文檔的緊湊表示在多個應(yīng)用場景中都很有用,例如自())動索引、自動摘要、自動分類、聚類和過濾等。目前關(guān)于關(guān)鍵詞抽取的主流方法主要集中在基于最頻繁度量的關(guān)鍵詞抽取、基于詞頻-逆文本頻率TF-IDF(Term Frequency-Inverse Document Frequency)的關(guān)鍵詞抽取和基于共現(xiàn)統(tǒng)計(jì)信息的關(guān)鍵詞抽取[1]。隨著關(guān)鍵詞抽取技術(shù)的發(fā)展,研究者們發(fā)現(xiàn)僅僅考慮詞語的共現(xiàn)頻率已經(jīng)不能滿足關(guān)鍵詞抽取任務(wù)的要求。牛萍等[2]融合TF-IDF和位置特征及詞性特征自動抽取關(guān)鍵詞;Abilhoa等[3]和Nagarajan等[4]提出基于圖模型的算法,利用節(jié)點(diǎn)之間的特征信息抽取關(guān)鍵詞;Abdelhaq等[5]根據(jù)詞語的位置加權(quán),調(diào)整TextRank算法中邊的傳遞權(quán)重;Habibi[6]等通過隱含狄利克雷分布LDA(Latent Dirichlet Allocation)主題模型構(gòu)建獎勵函數(shù)計(jì)算詞的主題特征,構(gòu)造關(guān)鍵詞抽取模型;Hulth等[7]通過將句法特征融入詞語表示獲得比N-Gram更高的精度;Yang等[8]通過LDA與TextRank算法相結(jié)合抽取關(guān)鍵詞;Onan等[9]將基礎(chǔ)學(xué)習(xí)算法與廣泛使用的集合方法進(jìn)行比較,評估統(tǒng)計(jì)關(guān)鍵字抽取方法與集成學(xué)習(xí)算法相結(jié)合的有效性;陳憶群等[10]將關(guān)鍵詞抽取問題轉(zhuǎn)化為分類問題,利用支持向量機(jī)SVM(Support Vector Machine)抽取關(guān)鍵詞;Yang等[11]在抽取關(guān)鍵詞時考慮了句子影響度;Bordoloi等[12]利用節(jié)點(diǎn)之間的鄰居頻率、中心置和強(qiáng)度等各種特征,在面向Twitter文本方面達(dá)到了當(dāng)前關(guān)鍵詞抽取的較好水平。以上基于統(tǒng)計(jì)學(xué)習(xí)的方法,通過融合多種特征在一定程度上提高了關(guān)鍵詞抽取的準(zhǔn)確率,但是忽略了語義信息對關(guān)鍵詞抽取的影響。

        隨著深度學(xué)習(xí)的發(fā)展,其已被廣泛應(yīng)用于自然語言處理的多種任務(wù)中,寧建飛等[13]利用word2vec和TextRank抽取關(guān)鍵詞;Xu等[14]通過融合多種關(guān)鍵詞抽取算法計(jì)算偏移損失,抽取關(guān)鍵詞;Mahata等[15]提出使用主題加權(quán)個性化PageRank算法和神經(jīng)短語嵌入相結(jié)合來抽取和排序關(guān)鍵詞;陳傳鵬[16]提出一種詞向量與 TextRank 的關(guān)鍵詞抽取方法,彌補(bǔ)了語義對TextRank的影響;夏天[17]提出利用詞向量聚類與TextRank結(jié)合的方法抽取關(guān)鍵詞;Wen等[18]使用word2vec計(jì)算詞之間的相似度作為節(jié)點(diǎn)權(quán)重的轉(zhuǎn)移概率,通過迭代方法計(jì)算詞得分,提高了關(guān)鍵詞抽取性能;Colla等[19]在關(guān)鍵詞抽取中考慮到語義度量,將語義信息融入到關(guān)鍵詞抽取算法;Villmow等[20]提出使用基于長短時記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)的端到端模型抽取關(guān)鍵詞。以上研究利用深度學(xué)習(xí)模型并融合多種特征,改善了關(guān)鍵詞抽取的效果,但是仍然存在對于短文本文檔信息不足,無法利用多特征的問題。

        本文在借鑒上述研究的基礎(chǔ)上同時針對語義信息對TextRank的影響,以及考慮新聞標(biāo)題信息高度濃縮以及關(guān)鍵詞的覆蓋性與差異性的特點(diǎn),提出一種新的方法,融合LSTM和LDA差異的關(guān)鍵詞抽取方法:首先,對新聞文本進(jìn)行預(yù)處理,得到候選關(guān)鍵詞;其次,利用LDA主題模型得到候選關(guān)鍵詞的主題差異影響度;然后,利用訓(xùn)練好的word2vec模型得到候選詞的向量表示,同時利用LSTM模型得到新聞標(biāo)題向量,計(jì)算候選關(guān)鍵詞與標(biāo)題的語義相關(guān)性影響度;最后將主題差異影響度和語義相關(guān)性影響度融入TextRank算法,得到最終的候選關(guān)鍵詞排序,抽取出關(guān)鍵詞。

        2 研究方法

        本文基于TextRank并融合語義信息和LDA主題模型的方式計(jì)算詞語的重要性,方法包括4個模塊:詞表示模型模塊、主題差異性模塊、語義相關(guān)性計(jì)算模塊和概率轉(zhuǎn)移矩陣構(gòu)建模塊,如圖1所示。

        Figure 1 Method frame圖1 方法框架圖

        2.1 詞表示模塊

        在傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域,一般采用分布式的方法表示詞,將詞用一種低維實(shí)數(shù)向量表示,其優(yōu)點(diǎn)在于相似的詞在距離上更相近,能體現(xiàn)出不同詞之間的相關(guān)性,從而反映詞之間的依賴關(guān)系。對于詞表示模型的訓(xùn)練,Mikolov等[21]在2013年提出詞表示模型:Skip-gram和連續(xù)詞袋CBOW(Continuous Bag-Of-Word)模型,用低維稠密的詞向量代替原有的分布式的方法表示詞語,可以反映出詞語的依賴關(guān)系以及深層語義信息。本文選擇Google的開源工具包word2vec[22],采用Skip-gram模型在搜狗全網(wǎng)新聞?wù)Z料上進(jìn)行詞表示模型的訓(xùn)練。由于本文不是針對詞表示模型的評估,并沒有針對Skip-gram模型的不同超參數(shù)對關(guān)鍵詞抽取結(jié)果的影響做特定實(shí)驗(yàn)。根據(jù)前期詞表示訓(xùn)練的經(jīng)驗(yàn),本文將窗口大小設(shè)為5,向量維數(shù)設(shè)為200。

        2.2 主題差異性模塊

        關(guān)鍵詞不僅要能代表新聞文本的主要內(nèi)容,還要具有主題差異性以及文本覆蓋性[23]。如果只考慮語義重要性,有可能會使得抽取出的關(guān)鍵詞只表達(dá)了文檔某一方面的重要信息,從而出現(xiàn)冗余信息,同時造成抽取出的關(guān)鍵詞沒有覆蓋整個文檔的信息。即關(guān)鍵詞的屬性不僅有語義重要性還有差異性和覆蓋性,如表1所示。

        Table 1 Keyword extraction examples表1 關(guān)鍵詞抽取實(shí)例

        如表1所示,抽取出的關(guān)鍵詞不僅考慮了關(guān)鍵詞的語義重要性,同時也考慮了關(guān)鍵詞之間的差異性和覆蓋性。為了表征關(guān)鍵詞之間的差異性和覆蓋性,本文引入主題差異影響度,它表示候選關(guān)鍵詞在不同主題之間的共享率:在主題之間共享得越少,認(rèn)為這個詞的主題差異性越明顯,越能反映一個詞區(qū)別于其他詞的特殊性。本文通過LDA主題模型得到候選關(guān)鍵詞的主題差異影響度。

        LDA主題模型認(rèn)為一篇文檔由若干個主題組成,同時每個主題又由若干個詞構(gòu)成,如圖2所示。

        Figure 2 LDA theme model圖2 LDA主題模型

        在圖2中,M表示文檔的數(shù)目,T表示主題的數(shù)目,Nm表示第m篇文檔的特征詞總數(shù),Wm,n和Zm,n分別表示第m篇文檔的第n個特征詞及其主題。θm和φt分別表示服從超參數(shù)α和β的Dirichlet先驗(yàn)分布,θm表示第m篇文檔的主題概率分布,φt表示主題t中的特征詞概率分布。在本文中設(shè)定超參數(shù)α=0.1和β=0.1,通過LDA主題模型,得到第m篇文檔屬于主題t的概率p(t|m)和在第m篇文檔中詞u由主題t產(chǎn)生的概率p(t|u,m)。

        對于文檔中的每個詞u來說,定義TS(u)為u在文檔中的主題差異影響度,用于表征關(guān)鍵詞之間的差異性和覆蓋性,它表示候選關(guān)鍵詞在不同主題之間的共享率:在主題之間共享得越少,其主題差異性TS(u)越高。在本文中,用KL(Kullback-Leibler)距離來衡量主題差異性TS(u),計(jì)算公式為:

        (1)

        (2)

        (3)

        2.3 語義相關(guān)性計(jì)算模塊

        關(guān)鍵詞體現(xiàn)了文本中的重要語義信息,基本的TextRank算法認(rèn)為共現(xiàn)頻率高的詞具有重要信息,但是沒有考慮候選關(guān)鍵詞的語義重要性。隨著深度學(xué)習(xí)的發(fā)展,各種基于深度學(xué)習(xí)的語言模型在自然語言處理中得到應(yīng)用,同時由于LSTM可以很好地處理序列信息,被廣泛應(yīng)用在自然語言處理的各種任務(wù)中。

        為了得到候選關(guān)鍵詞,本文首先對新聞文本進(jìn)行預(yù)處理(分詞、去停用詞、詞性標(biāo)注),對預(yù)處理后的新聞文本選擇其中的名詞、動詞、形容詞作為候選關(guān)鍵詞。針對新聞文本標(biāo)題信息突出的特點(diǎn),結(jié)合訓(xùn)練好的word2vec模型得到候選詞向量表示,同時利用LSTM模型[24]得到新聞標(biāo)題向量;然后計(jì)算候選關(guān)鍵詞與標(biāo)題的語義相關(guān)性影響度,構(gòu)建計(jì)算語義相關(guān)性的網(wǎng)絡(luò)模型,如圖3所示。

        Figure 3 Network model of semantic correlation圖3 語義相關(guān)性的網(wǎng)絡(luò)模型

        2.3.1 新聞標(biāo)題句向量表示

        首先,對新聞標(biāo)題進(jìn)行文本預(yù)處理(分詞、去停用詞),得到新聞標(biāo)題詞集合H={x1,x2,…,xn-1,xn},其中n為標(biāo)題詞個數(shù);再將新聞標(biāo)題詞向量初始化,依次輸入到LSTM模型中,得到隱藏狀態(tài):

        ht=LSTM(ht-1,xt)

        (4)

        其中,ht-1為上一時間步的隱藏狀態(tài)t∈[1,n];xt為當(dāng)前時刻的新聞標(biāo)題詞的輸入;依次將新聞標(biāo)題詞輸入到LSTM模型中,將最后時間步的隱藏狀態(tài)hn輸出模型作為新聞標(biāo)題句的向量表示形式。

        2.3.2 語義相關(guān)性計(jì)算

        利用LSTM模型得到的新聞標(biāo)題句向量表示形式設(shè)為hn,利用word2vec模型得到候選關(guān)鍵詞向量表示形式為vi,計(jì)算兩者的距離和角度:

        (5)

        (6)

        (7)

        (8)

        (9)

        (10)

        其中,0≤i≤2;[y]為大于y的最小整數(shù);{y}表示當(dāng)y≤0.5時舍棄,y>0.5時進(jìn)一位。

        令損失函數(shù)為:

        (11)

        其中,K為訓(xùn)練的總樣本數(shù);i表示第i個詞-句對樣本。

        通過訓(xùn)練語義相關(guān)性計(jì)算模型,得到候選關(guān)鍵詞與新聞標(biāo)題句的語義相似度。

        2.4 構(gòu)建概率轉(zhuǎn)移矩陣模塊

        根據(jù)TextRank算法,給定詞圖中節(jié)點(diǎn)之間的跳轉(zhuǎn)概率轉(zhuǎn)移矩陣,節(jié)點(diǎn)的重要性就可以通過迭代計(jì)算得到。令矩陣M表示概率轉(zhuǎn)移矩陣,如下所示:

        其中,M中的第j列表示由詞語節(jié)點(diǎn)j跳轉(zhuǎn)到其他節(jié)點(diǎn)的概率分布,每列的跳轉(zhuǎn)概率之和為 1。

        在傳統(tǒng)的TextRank算法中,p(v→a)表示從節(jié)點(diǎn)v轉(zhuǎn)移到節(jié)點(diǎn)a的概率,是均勻分布的,即對每個節(jié)點(diǎn)的重要性不加以區(qū)分,我們稱之為覆蓋影響度。本文在覆蓋影響度的基礎(chǔ)上加入了主題差異性影響度和語義相關(guān)性影響度。令pf(v→a)表示覆蓋影響度的轉(zhuǎn)移概率,即:

        (12)

        令pt(v→a)表示主題差異性影響度的轉(zhuǎn)移概率,計(jì)算公式為:

        (13)

        其中,TS(a)表示詞語a的主題差異性影響度,adj(v)表示v的鄰接節(jié)點(diǎn)集合。

        令py(v→a)表示語義相關(guān)性影響度的轉(zhuǎn)移概率,計(jì)算公式為:

        (14)

        其中,py(v→a)表示從節(jié)點(diǎn)v轉(zhuǎn)移到節(jié)點(diǎn)a的語義相關(guān)性影響度轉(zhuǎn)移概率。y′(a)表示詞語a的語義相關(guān)性影響度,adj(v)表示v的鄰接節(jié)點(diǎn)集合。

        將3種轉(zhuǎn)移概率進(jìn)行融合,得到最終的轉(zhuǎn)移概率p(v→a),計(jì)算公式為:

        p(v→a)=φpf(v→a)+

        (15)

        通過p(v→a)構(gòu)建最終的概率轉(zhuǎn)移矩陣M。

        2.5 抽取關(guān)鍵詞

        在抽取關(guān)鍵字的迭代計(jì)算過程中,假設(shè)文本中共有n個候選關(guān)鍵詞,即構(gòu)建的詞圖中共有n個節(jié)點(diǎn),則將所有節(jié)點(diǎn)的重要性分?jǐn)?shù)均勻化得到初始重要性分?jǐn)?shù)向量B0,即:

        (16)

        利用融合覆蓋率影響度、主題差異影響度、語義相關(guān)性影響度構(gòu)造的最終轉(zhuǎn)移矩陣,迭代計(jì)算:

        (17)

        其中,Bi為當(dāng)前迭代的節(jié)點(diǎn)重要性分?jǐn)?shù)向量;d為阻尼系數(shù);n為節(jié)點(diǎn)總數(shù);e為所有分量均為1的n維向量。當(dāng)2次迭代結(jié)果Bi和Bi-1之差小于設(shè)定的閾值,即對應(yīng)節(jié)點(diǎn)之差都小于給定的閾值,本文設(shè)定閾值m=0.05,則認(rèn)為迭代收斂,認(rèn)為向量Bi為節(jié)點(diǎn)最終的重要性得分,按照從大到小進(jìn)行排序,選出前topK個詞語作為關(guān)鍵詞。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文使用來自搜狗實(shí)驗(yàn)室的全網(wǎng)新聞數(shù)據(jù),數(shù)據(jù)包含了來自全網(wǎng)的2012年6月~7月期間國內(nèi)、國際、體育、社會、娛樂等 18 個專題的新聞數(shù)據(jù),共 1.4 GB 作為Skip-gram模型的訓(xùn)練集;對于相似度計(jì)算模塊的訓(xùn)練,由于沒有針對詞-句相似度的公共數(shù)據(jù)集,本文隨機(jī)抽取搜狗新聞?wù)Z料的18個專題,采用人工標(biāo)注的方式,構(gòu)建詞-句相似度計(jì)算模塊的數(shù)據(jù)集,其中訓(xùn)練集含有詞-句對3 869對,測試集含有詞-句對2 158對;為了驗(yàn)證本文方法的可行性和優(yōu)越性,在本文中,我們對18個專題隨機(jī)分別抽取10篇新聞,共計(jì)180篇新聞?wù)Z料作為測試集,針對測試集,采用多人人工交叉標(biāo)注的形式抽取新聞關(guān)鍵詞,每篇新聞人工抽取 10 個關(guān)鍵詞作為人工標(biāo)注的結(jié)果集(通常10個關(guān)鍵詞足以概括一篇新聞主要內(nèi)容)。

        3.2 實(shí)驗(yàn)設(shè)置和評價指標(biāo)

        實(shí)驗(yàn)包括word2vec模型和LDA主題模型的訓(xùn)練、候選關(guān)鍵詞與新聞標(biāo)題詞的向量表示、構(gòu)建詞圖和概率轉(zhuǎn)移矩陣等過程,語料的預(yù)處理過程采用中國科學(xué)院漢語詞法分析系統(tǒng)ICTCLAS 完成,包括分詞、去停用詞等過程,使用word2vec模型對背景語料進(jìn)行訓(xùn)練。word2vec模型的訓(xùn)練采用Google的開源工具包word2vec的Skip-gram模型實(shí)現(xiàn),窗口大小設(shè)置為5,向量維度為200。針對新聞標(biāo)題特點(diǎn),設(shè)置LSTM模型展開時間步H=20,向量維度同樣設(shè)為200。LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1,主題個數(shù)T=3。利用訓(xùn)練好的詞表示模型和LDA主題模型,結(jié)合TextRank算法,構(gòu)建詞圖和概率轉(zhuǎn)移矩陣,抽取新聞關(guān)鍵詞。本文采用準(zhǔn)確率P、召回率R以及F值來評估本文提出的新聞文本關(guān)鍵詞抽取方法,準(zhǔn)確率定義如式(18)所示:

        (18)

        召回率公式如式(19)所示:

        (19)

        F值計(jì)算公式如式(20)所示:

        (20)

        其中,N()表示集合中元素個數(shù)。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)1不同共現(xiàn)窗口的實(shí)驗(yàn)對比。共現(xiàn)窗口的大小直接影響關(guān)鍵詞抽取效果,為了驗(yàn)證不同共現(xiàn)窗口的大小對實(shí)驗(yàn)結(jié)果的影響,設(shè)定l(窗口大小)分別等于2,3,4,5,以驗(yàn)證窗口的大小對結(jié)果的影響。本文就窗口的大小l的確定做了4組實(shí)驗(yàn),分別測試l在取2,3,4,5時對關(guān)鍵詞抽取的影響。在進(jìn)行不同共現(xiàn)窗口的實(shí)驗(yàn)對比時,同時考慮TextRank、LDA差異性和語義影響度,設(shè)置3者的權(quán)重為0.3,0.4,0.3,LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1;設(shè)置抽取出的關(guān)鍵詞個數(shù)q=9。實(shí)驗(yàn)結(jié)果如表2所示。

        Table 2 Comparison of experimental results of different co-occurrence window sizes表2 不同共現(xiàn)窗口大小的對比實(shí)驗(yàn)結(jié)果

        由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)共現(xiàn)窗口l=3時,F(xiàn)值為最大,F(xiàn)=0.73;當(dāng)共現(xiàn)窗口大于3時,準(zhǔn)確率、召回率和F值都有降低。分析原因主要是當(dāng)共現(xiàn)窗口太小時,共現(xiàn)關(guān)系沒有得到充分利用,造成信息利用率不高,從而影響準(zhǔn)確率;當(dāng)共現(xiàn)窗口太大時,會出現(xiàn)冗余信息,造成候選關(guān)鍵詞之間的錯誤關(guān)系信息,所以準(zhǔn)確率也會降低。根據(jù)不同共現(xiàn)窗口的實(shí)驗(yàn)對比,本文選取窗口大小l=3。

        實(shí)驗(yàn)2不同關(guān)鍵詞抽取特征組合的實(shí)驗(yàn)對比,以驗(yàn)證在實(shí)際關(guān)鍵詞抽取任務(wù)中,TextRank、語義影響度、主題差異影響度對關(guān)鍵詞抽取的貢獻(xiàn)程度。本實(shí)驗(yàn)通過依次加入不同特征進(jìn)行對比實(shí)驗(yàn)。在進(jìn)行特征組合對比實(shí)驗(yàn)時,設(shè)置共現(xiàn)窗口大小l=3,抽取出的關(guān)鍵詞個數(shù)q=9;LDA主題模型的超參數(shù)分別設(shè)置為α=0.1和β=0.1。實(shí)驗(yàn)結(jié)果如表3所示。

        Table 3 Comparison of experimental results of different keyword extraction feature combinations表3 不同關(guān)鍵詞抽取特征組合的對比實(shí)驗(yàn)結(jié)果

        由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),僅僅利用TextRank,其準(zhǔn)確率明顯低于結(jié)合LDA差異和語義影響度的,分析原因?yàn)門extRank僅僅利用詞語的共現(xiàn)信息構(gòu)造詞語之間的關(guān)系信息,沒有考慮詞語與詞語之間的語義影響度,也沒有考慮關(guān)鍵詞的差異性和覆蓋性。本文提出的新方法,在TextRank抽取共現(xiàn)信息的基礎(chǔ)上,同時也充分考慮候選關(guān)鍵詞的語義影響度和關(guān)鍵詞的差異性和覆蓋性,因此準(zhǔn)確率有了很大的提高。

        實(shí)驗(yàn)3為了驗(yàn)證本文方法的可行性,將本文方法與其他幾種主流關(guān)鍵詞抽取方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表4所示。

        Table 4 Comparison of experimental results of different keyword extraction methods表4 不同關(guān)鍵詞抽取方法的對比實(shí)驗(yàn)結(jié)果

        從表4中可知,本文提出的方法與傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比較準(zhǔn)確率有明顯的提升;本文的方法與LDA+TextRank[4]方法相比較,LDA+TextRank[4]通過LDA主題模型,得到候選關(guān)鍵詞的主題重要性,并融合TextRank進(jìn)行關(guān)鍵詞抽取,而本文方法利用LDA主題差異性的概念,不僅考慮到關(guān)鍵詞之間的覆蓋性,也同時考慮關(guān)鍵詞之間差異性,提高了抽取關(guān)鍵詞的質(zhì)量;在本文中,我們利用新聞文本標(biāo)題信息,通過LSTM模型和word2vec模型結(jié)合,計(jì)算候選關(guān)鍵詞的語義影響度,與word2vec+TextRank[8]方法相比較,不僅提高了計(jì)算效率,也提高了關(guān)鍵詞抽取的準(zhǔn)確率。通過與現(xiàn)有方法相比較,證明了本文方法的優(yōu)越性,以及本文方法在關(guān)鍵詞抽取方面的可行性。

        實(shí)驗(yàn)4抽取不同關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)。為了驗(yàn)證抽取不同關(guān)鍵詞的個數(shù)對實(shí)驗(yàn)結(jié)果的影響,選取了抽取q個詞作為抽取結(jié)果,以驗(yàn)證抽取不同關(guān)鍵詞的個數(shù)對結(jié)果的影響。本實(shí)驗(yàn)就抽取不同關(guān)鍵詞的個數(shù)q的確定做了5組實(shí)驗(yàn),分別測試q在取6,7,8,9,10時對關(guān)鍵詞抽取的影響。在進(jìn)行抽取不同候選關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)時,同時考慮TextRank、LDA差異性和語義影響度,設(shè)置3者的權(quán)重為0.3,0.4,0.3,LDA主題模型的訓(xùn)練設(shè)置α=0.1和β=0.1,共現(xiàn)窗口大小l=3。實(shí)驗(yàn)結(jié)果如表5所示。

        由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)抽取的關(guān)鍵詞個數(shù)q=9時,準(zhǔn)確率、召回率和F值都達(dá)到最大。分析原因主要因?yàn)楫?dāng)抽取的關(guān)鍵詞個數(shù)太少時,只有少部分的重要信息詞被抽取出來,造成重要信息抽取不完全,從而影響準(zhǔn)確率;當(dāng)抽取候選關(guān)鍵詞個數(shù)太多時,又會出現(xiàn)冗余信息,造成多余信息被抽取出來,所以準(zhǔn)確率也會降低。根據(jù)抽取不同候選關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn),本文選抽取出的關(guān)鍵詞個數(shù)q=9。

        Table 5 Comparison of experimental results of different number of keywords表5 抽取不同關(guān)鍵詞個數(shù)的對比實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)5為了驗(yàn)證所提方法的優(yōu)越性,本文選取了3個基線模型。其中TKG(Twitter Keyword Graph)模型[3]和KEGBA(Keyword Extraction using Graph-Based Approach)模型[4]作為經(jīng)典的關(guān)鍵詞抽取模型,都是基于圖模型的方式,通過融合復(fù)雜的節(jié)點(diǎn)特征,用中心度量來抽取關(guān)鍵詞。KCW(Keyword from Collective Weights)模型[12]作為最新的關(guān)鍵詞抽取模型,通過融合節(jié)點(diǎn)、位置、強(qiáng)度等特征信息,在面向Twitter文本的關(guān)鍵詞抽取方面取得了很好的F值。本實(shí)驗(yàn)以這3個模型作為基線模型,通過與經(jīng)典的基于圖模型方法和最新的關(guān)鍵詞抽取方法相比較,驗(yàn)證本文方法的可行性與優(yōu)越性。

        Table 6 Comparison of experimental results between the proposed method and baseline models表6 本文方法與基線模型的對比實(shí)驗(yàn)結(jié)果

        由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本文方法與TKG模型[3]和KEGBA模型[4]相比較,F(xiàn)值有明顯提升。分析原因主要是因?yàn)檫@2種方法均基于圖模型,利用節(jié)點(diǎn)之間的特征信息抽取關(guān)鍵詞。而本文方法在圖模型的基礎(chǔ)上,綜合考慮了主題差異和語義影響,考慮的信息更全面。KCW模型[12]在我們搜集到的新聞?wù)Z料上,其F值有所下降,分析原因主要是因?yàn)樾侣勎谋拘畔⑤^長,主題分布更復(fù)雜,語義信息相較于Twitter短文本更不好把握。只考慮節(jié)點(diǎn)位置、強(qiáng)度等信息忽略了關(guān)鍵詞之間的差異性,也無法準(zhǔn)確分析出新聞的主要內(nèi)容。實(shí)驗(yàn)結(jié)果表明,本文方法的F值與KCW模型的基本持平,說明本文方法達(dá)到了較高的水平。

        4 結(jié)束語

        本文針對現(xiàn)有的關(guān)鍵詞抽取方法,沒有考慮候選關(guān)鍵詞的語義重要性、覆蓋性、差異性,提出了一種簡單高效的融合LSTM和LDA差異的關(guān)鍵詞抽取方法。本文方法利用LDA主題模型和LSTM語言模型、word2vec詞表示模型,并融合了候選關(guān)鍵詞的共現(xiàn)關(guān)系、語義重要性、覆蓋性和差異性的多種不同屬性。實(shí)驗(yàn)結(jié)果表明,本文方法與現(xiàn)有的關(guān)鍵詞抽取方法相比,準(zhǔn)確率和召回率都有明顯提升。下一步的工作是在現(xiàn)有基礎(chǔ)上,針對新聞?wù)Z料信息高度濃縮的特點(diǎn),融入外部知識信息,提高關(guān)鍵詞抽取質(zhì)量。

        猜你喜歡
        新聞標(biāo)題語義向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        語言與語義
        談新聞標(biāo)題的現(xiàn)實(shí)性
        活力(2019年22期)2019-03-16 12:49:06
        網(wǎng)絡(luò)新聞標(biāo)題與報紙新聞標(biāo)題的對比
        活力(2019年22期)2019-03-16 12:48:00
        無意間擊中幽默的新聞標(biāo)題
        喜劇世界(2016年9期)2016-08-24 06:17:26
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        淺談新聞標(biāo)題的裝扮技巧
        新聞傳播(2015年22期)2015-07-18 11:04:06
        国产精品.xx视频.xxtv| 精品人妻中文av一区二区三区| 电驱蚊液可以插一晚上吗 | 日韩欧美成人免费观看| 蜜臀久久99精品久久久久久小说| 久久麻豆精品国产99国产精| 国产美女被遭强高潮露开双腿| 亚洲香蕉久久一区二区| 少妇免费av一区二区三区久久| 国产日产欧洲系列| 欲妇荡岳丰满少妇岳| 国产成人久久精品激情91| 亚洲成人av一区二区| 国产一区二区精品久久岳| www国产亚洲精品久久网站| 欧美性xxx久久| 丰满人妻一区二区三区52| 亚洲av福利院在线观看| 亚洲日韩中文字幕一区| 亚洲中文欧美日韩在线| 国产一区二区三区不卡在线播放| 狠狠躁夜夜躁av网站中文字幕| 少妇人妻偷人精品免费视频| 91老司机精品视频| 国产高潮精品一区二区三区av| 久久亚洲中文字幕精品熟| av 日韩 人妻 黑人 综合 无码| 免费特级黄毛片| 亚洲精品一品二品av| 日韩三级一区二区三区| 在线视频观看免费视频18| 欧美伊人久久大香线蕉在观 | 精品不卡视频在线网址| 国产高清乱码又大又圆| 7777奇米四色成人眼影| 国产免费网站看v片元遮挡| 亚洲av色香蕉一区二区三区软件| 日本顶级metart裸体全部| 亚洲av无码专区电影在线观看 | 亚洲人妻有码中文字幕| 国产性自爱拍偷在在线播放|