王 瑞,秦永彬,2,張 麗+,閆盈盈
(1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;2.貴州大學(xué) 貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025)
短文本關(guān)鍵詞抽取對(duì)于用戶檢索和定位符合自身需求的信息非常重要。然而,由于短文本特征過度稀疏,關(guān)鍵詞抽取存在兩個(gè)問題:①詞匯差異問題:關(guān)鍵詞在短文本中出現(xiàn)次數(shù)不多,甚至不出現(xiàn)。②主題相關(guān)性問題:由于短文本缺乏足夠的上下文信息,很難保證抽取的關(guān)鍵詞與短文本主題相關(guān)。針對(duì)以上兩個(gè)問題,本文提出一種用于短文本關(guān)鍵詞抽取的TTKE主題翻譯模型。與傳統(tǒng)方法相比,該模型能夠有效地抽取短文本關(guān)鍵詞。
目前,關(guān)鍵詞抽取方法主要分為兩類:無監(jiān)督方法和監(jiān)督方法。
無監(jiān)督方法首先選取一些候選關(guān)鍵詞,然后通過一定策略對(duì)候選關(guān)鍵詞進(jìn)行排序,選擇其中排名靠前的若干作為最終關(guān)鍵詞。李鵬等利用了基于圖模型的TextRank方法,該方法認(rèn)為一個(gè)詞語的重要程度由指向它的其它詞語的重要程度決定,將圖節(jié)點(diǎn)作為候選詞,邊作為詞與詞之間的共現(xiàn)關(guān)系,根據(jù)PageRank算法選出排名最高的若干作為關(guān)鍵詞[1]。文獻(xiàn)[2,3]提出的關(guān)鍵詞抽取算法都是對(duì)TextRank的改進(jìn)。
在有監(jiān)督的方法中,關(guān)鍵詞抽取被視作一個(gè)分類任務(wù),首先使用訓(xùn)練數(shù)據(jù)來學(xué)習(xí)關(guān)鍵詞抽取模型,其次,在測試數(shù)據(jù)上進(jìn)行文本關(guān)鍵詞抽取。Liu等提出利用決策樹學(xué)習(xí)方法進(jìn)行文本關(guān)鍵詞抽取[4]。文獻(xiàn)[5,6]分別提出了基于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞抽取方法。Zhang等利用條件隨機(jī)場實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)標(biāo)注[7]。
上述兩類方法僅依靠詞匯的統(tǒng)計(jì)信息,未考慮文本內(nèi)容與關(guān)鍵詞的詞匯差異問題以及主題相關(guān)性問題的影響。文獻(xiàn)[8,9]利用LDA(latent dirichlet allocation)主題模型進(jìn)行關(guān)鍵詞自動(dòng)抽取,解決主題相關(guān)問題,但未考慮詞匯差異問題。Koeh和Knight考慮詞匯差異問題,提出了IBM model-1方法,該方法能夠有效學(xué)習(xí)詞語和關(guān)鍵詞的對(duì)齊概率,但忽視了主題相關(guān)問題[10]。Ding等考慮以上兩類問題,提出TSTM(topic-specific translation model)主題翻譯模型,該模型利用LDA進(jìn)行主題發(fā)現(xiàn),再計(jì)算詞語與關(guān)鍵詞的對(duì)齊概率[11],但是由于短文本的特征稀疏性問題,導(dǎo)致上述方法主題發(fā)現(xiàn)效果不佳,進(jìn)而影響了關(guān)鍵詞抽取的精度。因此,本文提出的TTKE主題翻譯模型利用長文本降低短文本的特征稀疏,解決上述兩類問題,提高短文本關(guān)鍵詞抽取的效果。
(1)一個(gè)詞w是文本的基本單元,是詞匯表 {1,2,…,V} 中的一項(xiàng)。
(2)一個(gè)關(guān)鍵詞t是關(guān)鍵詞詞匯表 {1,2,…,T} 中的一項(xiàng)。
(3)一個(gè)主題k是 {1,2,…,K} 中的一項(xiàng)。
TTKE模型是一個(gè)結(jié)合主題模型和翻譯模型優(yōu)點(diǎn)的關(guān)鍵詞抽取模型。圖形化表示如圖1所示,流程如圖2所示。
圖1 TTKE模型的圖形化表示
圖2 TTKE模型的生成流程
該模型包括以下3個(gè)方面:
(1)與LDA主題模型相結(jié)合。TTKE模型認(rèn)為:用戶寫一篇短文本s時(shí),首先根據(jù)主題分布θs選擇若干主題,然后根據(jù)每個(gè)主題下的詞語分布φk選擇詞語。為短文本s標(biāo)注關(guān)鍵詞時(shí),從該短文本的主題中選擇若干主題,然后綜合考慮選定的主題和短文本詞語,進(jìn)而標(biāo)注關(guān)鍵詞,保證了短文本與關(guān)鍵詞的主題的一致性。
(2)與統(tǒng)計(jì)機(jī)器翻譯模型相結(jié)合。TTKE模型基于短文本和關(guān)鍵詞的主題一致性原則,學(xué)習(xí)特定主題下詞語與關(guān)鍵詞的對(duì)齊概率Q,實(shí)現(xiàn)為未標(biāo)注關(guān)鍵詞的短文本生成關(guān)鍵詞的目的。
(3)利用與短文本主題相關(guān)的長文本。TTKE模型引入了輔助長文本降低短文本數(shù)據(jù)的稀疏性。長短文本共享相同的主題空間K和每個(gè)主題下詞語的分布φk,將長文本豐富的詞語信息遷移到短文本,改善短文本主題發(fā)現(xiàn)效果,進(jìn)而影響對(duì)齊概率Q,提高短文本關(guān)鍵詞抽取的效果。
根據(jù)圖1和圖2,TTKE模型假設(shè)如下的生成過程:
(1)對(duì)于每一個(gè)主題k:選擇φk~Dirichlet(β);
(2)對(duì)于每一篇長文本dl:
1)選擇Nl~Poisson(ξ);
2)選擇θl~Dirichlet(α);
3)對(duì)于Nl中的每一個(gè)詞wln:①選擇主題zln~Multinomial(θl); ②選擇wln~Multinomial(wln|zln,φ)。
(3)對(duì)于每一篇短文本ds:
1)選擇Ns~Poisson(ζ)
2)選擇θs~Dirichlet(α);
3)對(duì)于Ns中的每一個(gè)詞wsn:①選擇主題zsn~Multinomial(θs); ②選擇wsn~Multinomial(wsn|zsn,φ)。
4)對(duì)于Ms中的每一個(gè)關(guān)鍵詞tsm:①選擇主題csm~Multinomial(ηs); ②選擇關(guān)鍵詞tsm~P(tsm|ws,csm,Q)。
(1)
式中:p(wsn|ws) 是短文本ws中每個(gè)詞語的權(quán)重,本文采用IDF(inverse document frequency)方式計(jì)算。
p(L,S,zL,zS,T,cS|α,β,γ,Q)=
p(zL|α)p(zS|α)p(L|zL,β)·
p(S|zS,β)p(cS|zS,γ)p(T|cS,S,Q)
(2)
首先,采用Collapsed Gibbs方法給訓(xùn)練短文本集中的詞語和關(guān)鍵詞采樣。
(1)對(duì)于長文本wl∈L中第n∈[1,Nl] 個(gè)詞語,通過以下公式選擇一個(gè)主題zln∈[1,K]
(3)
(2)對(duì)于短文本ws∈S中第n∈[1,Ns] 個(gè)詞語,通過以下公式選擇一個(gè)主題zsn∈[1,K]
(4)
式中:Msk是短文本ws中主題為k的關(guān)鍵詞的個(gè)數(shù)。其余符號(hào)解釋與式(3)類似。
(3)對(duì)于短文本ws∈S中第m∈[1,Ms] 個(gè)關(guān)鍵詞,通過以下公式選擇一個(gè)主題csm∈[1,K]
(5)
其次,當(dāng)短文本中詞語和關(guān)鍵詞的主題穩(wěn)定后,通過如下的公式估計(jì)特定主題下詞語與關(guān)鍵詞的對(duì)齊概率
(6)
首先,采用Collapsed Gibbs方法給測試短文本集中的詞語進(jìn)行主題標(biāo)注
(7)
其次,短文本的詞語的主題穩(wěn)定之后,得到第s′篇短文本的主題分布
(8)
最后,利用主題分布和特定主題下的詞語和關(guān)鍵詞的對(duì)齊概率Q,通過如下的公式給測試數(shù)據(jù)集抽取關(guān)鍵詞,第s′篇短文本中關(guān)鍵詞m的概率為
(9)
為了驗(yàn)證TTKE模型的有效性,本文從新浪微博爬取了4個(gè)主題共53 171條包含用戶標(biāo)注關(guān)鍵詞的微博作為短文本集,主題分別為“北京馬拉松”、“iPhone6s”、“亞洲杯”、“花千骨”。在這些微博中,有12 121(22.79%)條微博包含網(wǎng)頁鏈接,可訪問的鏈接為9438(17.75%)條,因此,爬取這些可訪問鏈接的內(nèi)容作為長文本集。
本文隨機(jī)選擇12 000條微博,并選擇與其主題相關(guān)的8000條輔助長文本組成實(shí)驗(yàn)所用的數(shù)據(jù)集WeiboSet,其中,10 000條微博作為短文本訓(xùn)練數(shù)據(jù)集,2000條作為短文本測試數(shù)據(jù)集。
對(duì)數(shù)據(jù)集進(jìn)行分詞、去停用詞等文本預(yù)處理。數(shù)據(jù)集總結(jié)見表1。
表1 數(shù)據(jù)集介紹
注:L:長文本篇數(shù);S:短文本篇數(shù);K:主題個(gè)數(shù);V:詞匯庫大?。籘:關(guān)鍵詞庫大??;Nt:平均每條短文本的關(guān)鍵詞的個(gè)數(shù)。
本文采用準(zhǔn)確率Precision,召回率Recall和綜合指標(biāo)F-measure作為關(guān)鍵詞抽取效果的評(píng)價(jià)標(biāo)準(zhǔn)。計(jì)算公式如下所示
(10)
(11)
(12)
其中,Ncorrect為抽取正確關(guān)鍵詞的數(shù)目,Nextract為抽取的關(guān)鍵詞總數(shù),Nall為文檔標(biāo)注的關(guān)鍵詞數(shù)目。Precision和Recall的取值范圍是0-1之間。越接近1表示結(jié)果越好,F(xiàn)-measure 為Precision和Recall的調(diào)和平均值。
TTKE模型初始化α=0.5,β=0.1,γ=0.5,K=4,每次實(shí)驗(yàn)的迭代次數(shù)為2000次,詞語的IDF值為短文本詞語重要度。本文將TTKE模型與LDA主題模型,IBM Mode-1翻譯模型,TSTM主題翻譯模型進(jìn)行比較。LDA和TSTM的初始化設(shè)置與TTKE相同,IBM Mode-1使用GIZA++(http://code.google.com/p/giza-pp/)訓(xùn)練。
圖3展示了不同關(guān)鍵詞抽取方法的Precision-Recall曲線。曲線上的每個(gè)點(diǎn)表示抽取不同個(gè)數(shù)關(guān)鍵詞的實(shí)驗(yàn)結(jié)果,由右至左的5個(gè)點(diǎn)表示抽取的關(guān)鍵詞個(gè)數(shù)分別為1-5。一條Precision-Recall曲線越靠近右上方,說明該方法的效果越好。
圖3 不同關(guān)鍵詞抽取方法的Precision-Recall曲線
由圖3我們可以看出:當(dāng)關(guān)鍵詞個(gè)數(shù)由5下降為1時(shí),所有模型的Precision-Recall曲線呈現(xiàn)下降趨勢。原因是WeiboSet數(shù)據(jù)集每篇短文本平均關(guān)鍵詞個(gè)數(shù)是1.08個(gè),當(dāng)為每篇短文本抽取出的關(guān)鍵詞個(gè)數(shù)下降時(shí),各模型抽取出的關(guān)鍵詞會(huì)包含更少的文檔已標(biāo)注好的關(guān)鍵詞,召回率降低,準(zhǔn)確率升高。當(dāng)抽取出的關(guān)鍵詞個(gè)數(shù)固定時(shí),TTKE實(shí)現(xiàn)了最好的短文本關(guān)鍵詞抽取效果,其余依次為TSTM,IBM Mode-1和LDA。
與TSTM模型相比,TTKE模型在做短文本關(guān)鍵詞抽取時(shí),曲線最接近右上角,因此表明實(shí)驗(yàn)效果最好。其原因是TSTM直接利用LDA對(duì)短文本進(jìn)行主題發(fā)現(xiàn),但是由于短文本字?jǐn)?shù)較少,特征過度稀疏的問題,主題發(fā)現(xiàn)效果一般,影響模型學(xué)習(xí)特定主題下詞語與關(guān)鍵詞的對(duì)齊概率。而本文所提出的TTKE模型利用長文本輔助短文本進(jìn)行主題發(fā)現(xiàn),在主題發(fā)現(xiàn)效果上得到提升,并使得模型學(xué)習(xí)到的特定主題下詞語與關(guān)鍵詞的對(duì)齊概率更為精準(zhǔn),提高了短文本關(guān)鍵詞抽取的精度。
IBM model-1模型的曲線位于TSTM和TTKE的下方,說明它比TSTM和TTKE模型的效果差。因?yàn)镮BM model-1僅依賴于統(tǒng)計(jì)詞語和關(guān)鍵詞的共現(xiàn)次數(shù),忽略了短文本詞語與關(guān)鍵詞的主題不相關(guān)問題。在短文本中,由于短文本字?jǐn)?shù)少,詞語與關(guān)鍵詞的翻譯過程容易出現(xiàn)歧義,從而導(dǎo)致主題不相關(guān)問題。而TSTM和TTKE模型中,引入的主題模型可以使抽取出的關(guān)鍵詞與原文本主題一致,提高關(guān)鍵詞抽取的效果。
LDA模型的曲線位于最下方,相較于以上3種模型斜率較大,說明當(dāng)抽取的關(guān)鍵詞個(gè)數(shù)變化時(shí),LDA的抽取效果變化較大,穩(wěn)定性差,并且整體的抽取效果最差。造成這種結(jié)果的主要原因是LDA根據(jù)特定主題下的關(guān)鍵詞分布對(duì)候選關(guān)鍵詞排序,忽視了短文本中具體的詞語信息。所以LDA模型只能抽取泛化的關(guān)鍵詞,但泛化的關(guān)鍵詞顯然不是我們想要的結(jié)果。
由于TTKE使用LDA的過程中,主題個(gè)數(shù)需要在實(shí)驗(yàn)前給定,因此我們考慮了主題數(shù)對(duì)于實(shí)驗(yàn)結(jié)果的影響。針對(duì)WeiboSet數(shù)據(jù)集,我們討論當(dāng)主題個(gè)數(shù)K取2,4和10時(shí),TTKE模型對(duì)于關(guān)鍵詞抽取的效果。實(shí)驗(yàn)結(jié)果見表2。
表2 主題個(gè)數(shù)對(duì)TTKE模型關(guān)鍵詞抽取的影響
由表2可以看出,當(dāng)主題個(gè)數(shù)K被設(shè)置為真實(shí)主題數(shù)目時(shí),即K=4時(shí),TTKE模型取得了最好的效果。而當(dāng)主題的個(gè)數(shù)小于真實(shí)主題數(shù)目時(shí),效果會(huì)相對(duì)較差,原因是較少的主題個(gè)數(shù)導(dǎo)致主題泛化,特定主題下詞語與關(guān)鍵詞的對(duì)齊概率不精準(zhǔn),抽取到的關(guān)鍵詞很可能與原短文本的主題相關(guān)性不大。當(dāng)主題個(gè)數(shù)大于真實(shí)主題數(shù)目時(shí),TTKE模型的關(guān)鍵詞抽取效果下降,主要原因是計(jì)算特定主題下短文本詞語和關(guān)鍵詞的對(duì)齊概率時(shí),較大的主題個(gè)數(shù)會(huì)加劇數(shù)據(jù)的稀疏性,計(jì)算的對(duì)齊概率也同樣不精確,降低關(guān)鍵詞抽取效果。
此外,TTKE模型假設(shè)長文本與短文本的主題是相關(guān)的。因此,我們討論長文本與短文本主題相關(guān)度變化時(shí),對(duì)短文本關(guān)鍵詞抽取效果的影響。本文使用相關(guān)度不同的5種數(shù)據(jù)集,分別為Weibo_1,Weibo_2,Weibo_3,Weibo_4和Weibo_5。其中,Weibo_1數(shù)據(jù)集中,長文本與短文本的相關(guān)度為0.2,即主題相關(guān)的長文本數(shù)量占WeiboSet中長文本數(shù)量20%,其余為主題不相關(guān)的長文本。同理Weibo_2,Weibo_3,Weibo_4的相關(guān)度分別為0.4,0.6和0.8,Weibo_5使用WeiboSet全部的長文本集,即相關(guān)度為1.0。5種數(shù)據(jù)集中的短文本集與WeiboSet相同。本實(shí)驗(yàn)設(shè)置抽取的關(guān)鍵詞個(gè)數(shù)為1,利用F-measure衡量短文本關(guān)鍵詞抽取的效果。
由圖4我們可以看出:長文本與短文本的相關(guān)度越高,實(shí)驗(yàn)的F-measure值越高,即短文本關(guān)鍵詞抽取效果越好。實(shí)驗(yàn)結(jié)果表明使用長文本輔短文本進(jìn)行關(guān)鍵詞抽取是有效的。
圖4 不同長短文本主題相關(guān)度的關(guān)鍵詞抽取效果
以“iPhone6S真機(jī)曝光:厚度略上升攝像頭仍突出”這條微博為例,展示LDA,IBM model-1,TSTM,TTKE這4種模型在短文本關(guān)鍵詞抽取中的效果。本文列舉了各個(gè)方法抽取到的5個(gè)關(guān)鍵詞,使用(×)來表示抽取出的不合適的關(guān)鍵詞。由表3,我們可以看出LDA模型抽取出的關(guān)鍵詞大多以蘋果手機(jī)為主題,抽取出了蘋果,iPhone6SPlus,iPhone6,雖然這些關(guān)鍵詞主題相關(guān),但與這條微博所要講的真實(shí)內(nèi)容關(guān)系不大。IBM model_1模型也會(huì)抽取出一些質(zhì)量不高的關(guān)鍵詞,原因是該模型僅考慮到詞語和關(guān)鍵詞的共現(xiàn)關(guān)系,而沒有考慮短文本主題的信息,其中關(guān)鍵詞“蘋果”是由詞語“iPhone6S”翻譯而來,外觀是由“厚度略上升攝像頭仍突出”翻譯而來。TSTM模型對(duì)關(guān)鍵詞抽取的結(jié)果較好,但由于短文本的特征稀疏性問題,直接使用LDA模型對(duì)短文本進(jìn)行主題發(fā)現(xiàn)導(dǎo)致抽取出了主題相關(guān)但內(nèi)容與這條微博不相關(guān)的關(guān)鍵詞,例如“ios”。TTKE模型的關(guān)鍵詞抽取效果最好,抽取出的關(guān)鍵詞在主題上與內(nèi)容上都與這條微博相關(guān)度更大,這表明本文提出的TTKE模型能夠有效地解決由短文本特征稀疏問題導(dǎo)致的短文本內(nèi)容和關(guān)鍵詞的詞匯差異與主題不一致性問題。
表3 不同關(guān)鍵詞抽取方法的標(biāo)注
本文提出了一個(gè)用于短文本關(guān)鍵詞抽取的TTKE主題翻譯模型。該模型與LDA模型相結(jié)合,利用輔助長文本提高短文主題發(fā)現(xiàn)效果,并與翻譯模型相結(jié)合,提高特定主題下詞語與關(guān)鍵詞對(duì)齊概率的精準(zhǔn)度。大量的實(shí)驗(yàn)結(jié)果表明,TTKE模型能夠有效提高短文本關(guān)鍵詞抽取的效果。在未來,我們將研究短文本關(guān)鍵詞抽取在實(shí)際中的應(yīng)用,以及如何使用關(guān)鍵詞抽取技術(shù)構(gòu)建領(lǐng)域知識(shí)圖譜。
參考文獻(xiàn):
[1]LI Peng,WANG Bin,SHI Zhiwei,et al.Tag-TextRank:A webpage keyword extraction method based on Tags[J].Journal of Computer Research and Development,2012,49(11):2344-2351(in Chinese).[李鵬,王斌,石志偉,等.Tag-TextRank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(11):2344-2351.]
[2]GU Yijun,XIA Tian.Study on keyword extraction with LDA and TextRank combination[J].New Technology of Library and Information Service,2014,30(7):41-47(in Chinese).[顧益軍,夏天.融合LDA與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(7):41-47.]
[3]NING Jianfei,LIU Jiangzhen.Using Word2vec with Text-Rank to extract keywords[J].New Technology of Library and Information Service,2016(6):20-27(in Chinese).[寧建飛,劉降珍.融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016(6):20-27.]
[4]Liu J,Zou DS,Xing XL,et al.Keyphrase extraction based on topic feature[J].Application Research of Computers,2012,29(11):4224-4227.
[5]Danilevsky M,Wang C,Desai N,et al.KERT:Automatic extraction and ranking of topical keyphrases from content-representative document titles[J].Computer Science,2013.
[6]Zhang Q,Wang Y,Gong Y,et al.Keyphrase extraction using deep recurrent neural networks on twitter[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,2016:836-845.
[7]Zhang C.Automatic keyword extraction from documents using conditional random fields[J].Journal of Computational Information Systems,2008,4.
[8]LIU Xiaojian,XIE Fei.Keyword extraction method combining topic distribution with statistical features[J].Computer Engineering,2017,43(7):217-222(in Chinese).[劉嘯劍,謝飛.結(jié)合主題分布與統(tǒng)計(jì)特征的關(guān)鍵詞抽取方法[J].計(jì)算機(jī)工程,2017,43(7):217-222.]
[9]Cho T,Lee JH.Latent keyphrase extraction using LDA model[J].Journal of Korean Institute of Intelligent Systems,2015,25(2):180-185.
[10]Koehn P,Knight K.Statistical machine translation[P].US:US7624005,2009.
[11]Ding Z,Zhang Q,Huang X.Automatic hashtag recommendation for microblogs using topic-specific translation model[C]//Coling:Posters,2012:265-274.