亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

結(jié)合詞語(yǔ)分布信息的TFIDF關(guān)鍵詞抽取方法研究

2014-04-02 02:06:56,

中原工學(xué)院學(xué)報(bào) 2014年6期

(1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院，鄭州 450001;2.數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室，北京 100871)

關(guān)鍵詞抽取旨在從文本中選擇少量的、最能代表文本語(yǔ)義內(nèi)容的詞或短語(yǔ)，而這些關(guān)鍵詞構(gòu)成了文本的一種濃縮表示，可以看作是文本的一個(gè)高度概括的摘要。正因?yàn)槿绱耍P(guān)鍵詞抽取在信息檢索與文本挖掘(如文本摘要、文本分類(lèi)、文本聚類(lèi)和自動(dòng)問(wèn)答等)中有著非常廣泛的應(yīng)用。

目前關(guān)鍵詞抽取方法主要分為有監(jiān)督方法和無(wú)監(jiān)督方法2種。有監(jiān)督方法需要借助人工標(biāo)注的大規(guī)模語(yǔ)料獲取關(guān)鍵詞抽取模型，而無(wú)監(jiān)督方法不要求有人工標(biāo)注的語(yǔ)料，只利用待處理文本中詞語(yǔ)的統(tǒng)計(jì)信息確定文本關(guān)鍵詞。無(wú)監(jiān)督方法因?yàn)椴恍枰獦?biāo)注語(yǔ)料，所以具有更高的實(shí)用價(jià)值。文獻(xiàn)[1]對(duì)5種無(wú)監(jiān)督關(guān)鍵詞抽取算法(TFIDF、TextRank、SingleRank、ExpandRank、KeyCluster)在4個(gè)語(yǔ)料上做了全面測(cè)試，發(fā)現(xiàn)基于TFIDF的方法簡(jiǎn)單且總體性能最優(yōu)[1]；基于TFIDF的抽取算法，考慮了詞頻以及詞語(yǔ)的常用程度等信息，但卻忽略了詞語(yǔ)在文本中的分布信息，如詞語(yǔ)分布規(guī)律、詞語(yǔ)出現(xiàn)的位置等。在直覺(jué)上，這些詞語(yǔ)分布信息對(duì)于確定代表文本內(nèi)容的關(guān)鍵詞應(yīng)當(dāng)很有幫助。例如，如果兩個(gè)詞語(yǔ)A和B在文本中的分布分別為 “-A——A——A——A-”、“——————BBBB——————”(“-”代表其他詞匯)，那么詞語(yǔ)A作為關(guān)鍵詞的可能性應(yīng)當(dāng)大于B。另外，出現(xiàn)在標(biāo)題和篇首的詞語(yǔ)成為關(guān)鍵詞的可能性相對(duì)要大得多。本文試圖結(jié)合詞語(yǔ)的分布信息，進(jìn)一步提高基于TFIDF的關(guān)鍵詞抽取方法的性能。

1 相關(guān)工作

與關(guān)鍵詞自動(dòng)抽取緊密相關(guān)的是自動(dòng)標(biāo)引技術(shù)，它試圖用一組能描述文本內(nèi)容的詞或短語(yǔ)標(biāo)注文本。自動(dòng)標(biāo)引可以分為抽詞標(biāo)引和賦詞標(biāo)引兩種[2]。賦詞標(biāo)引是從預(yù)先編制的規(guī)范詞表中選取能夠表達(dá)文本主題內(nèi)容的詞或短語(yǔ)，這些詞或短語(yǔ)未必在文本中出現(xiàn)。而抽詞標(biāo)引則使用文本中出現(xiàn)的詞語(yǔ)來(lái)標(biāo)注文本的語(yǔ)義內(nèi)容。相比而言，抽詞標(biāo)引靈活，更適合計(jì)算機(jī)自動(dòng)處理，也是目前大多數(shù)自動(dòng)標(biāo)引研究者使用的方法。抽詞標(biāo)引即為本文所說(shuō)的關(guān)鍵詞抽取。

在20世紀(jì)70年代，有學(xué)者將機(jī)器學(xué)習(xí)算法引入關(guān)鍵詞自動(dòng)抽取領(lǐng)域，其中常見(jiàn)的有最大熵模型、決策樹(shù)、SVM[3]、貝葉斯和bagging等算法。這些基于有監(jiān)督的方法，其主要思路是將關(guān)鍵詞抽取視為一個(gè)分類(lèi)任務(wù)，對(duì)已經(jīng)標(biāo)注好的數(shù)據(jù)進(jìn)行訓(xùn)練，獲得分類(lèi)模型；通過(guò)分類(lèi)模型，判斷給定的詞是否為文檔的關(guān)鍵詞，最終實(shí)現(xiàn)對(duì)文檔關(guān)鍵詞抽取。比較典型的有Turney實(shí)現(xiàn)的GenEx系統(tǒng)(利用決策樹(shù)和遺傳算法實(shí)現(xiàn))和Witten實(shí)現(xiàn)的Kea系統(tǒng)(利用樸素貝葉斯算法實(shí)現(xiàn))。這些模型的特點(diǎn)是在取得較好效果的同時(shí)，需要標(biāo)注好具有一定規(guī)模的語(yǔ)料，而且，不同領(lǐng)域的抽取效果是無(wú)法估計(jì)的[4]。

基于無(wú)監(jiān)督的關(guān)鍵詞抽取方法也受到了重視，主要包括基于語(yǔ)言模型的分析方法、基于統(tǒng)計(jì)的方法等，其中以基于統(tǒng)計(jì)的方法較為常見(jiàn)，它主要利用了N-gram、詞頻、TFIDF、詞的同現(xiàn)、Pat-tree等信息[4-5]?；趫D的算法[6-7]、基于聚類(lèi)的算法[8]以及基于話題模型的算法等無(wú)監(jiān)督方法的優(yōu)點(diǎn)在于不需要標(biāo)注語(yǔ)料作訓(xùn)練，適用面較廣。

2 基于TFIDF的關(guān)鍵詞抽取算法

首先，借助TFIDF公式計(jì)算文本中所有詞語(yǔ)對(duì)文本語(yǔ)義內(nèi)容的代表程度；然后，直接取最重要的若干詞語(yǔ)作為關(guān)鍵詞，然而這只是一種最簡(jiǎn)單的情況。實(shí)際上，關(guān)鍵詞常常是由多個(gè)詞語(yǔ)組成的短語(yǔ)。因此，在計(jì)算得到單個(gè)詞語(yǔ)的TFIDF值之后，先利用一些啟發(fā)式規(guī)則(如窗口大小、短語(yǔ)邊界、詞性組合等)確定候選的關(guān)鍵詞或關(guān)鍵詞短語(yǔ)，然后利用詞語(yǔ)的TFIDF值計(jì)算這些候選詞或短語(yǔ)作為關(guān)鍵詞的可能性大小，最終取可能性最大的若干候選詞或短語(yǔ)作為關(guān)鍵詞。在計(jì)算候選短語(yǔ)作為關(guān)鍵詞的可能性時(shí)，通常由其所含詞語(yǔ)的TFIDF值加和得到。

上述基于TFIDF的關(guān)鍵詞抽取算法中，詞語(yǔ)的TFIDF值是最主要的依賴(lài)因素。

TFIDF是信息檢索領(lǐng)域用于計(jì)算文本特征值的重要技術(shù)，用于表示一個(gè)特征項(xiàng)(可以是一個(gè)詞、一個(gè)短語(yǔ)等)對(duì)于一個(gè)文檔語(yǔ)義內(nèi)容的代表能力。TFIDF的主要思想是：如果某個(gè)特征項(xiàng)(詞或短語(yǔ))在一篇文檔中出現(xiàn)的頻率高并且不常用，那么該特征項(xiàng)就具有很好的文檔代表能力。其中，特征項(xiàng)的常用程度是由文檔頻率決定的：在文檔中出現(xiàn)越多，就越常用。

傳統(tǒng)的TFIDF計(jì)算可由TF(w,d)×IDF(w)求得，TF(w,d)即TF，代表項(xiàng)w(詞或短語(yǔ))在文檔d中出現(xiàn)的次數(shù)；IDF(w)即IDF，可通過(guò)DF(w)求出。

(1)

其中：Nall代表語(yǔ)料中文檔的總數(shù)；DF(w)代表包含詞語(yǔ)w的文檔數(shù)量。

3 結(jié)合詞語(yǔ)分布信息的算法

通過(guò)引入詞語(yǔ)分布信息，本文將傳統(tǒng)的TFIDF計(jì)算公式修改為

(TF*(1-STDdist)+RFPos)*IDF

(2)

其中：TF和IDF的計(jì)算方法與傳統(tǒng)的TFIDF方法一致；RFPos描述了詞語(yǔ)在文本中首次出現(xiàn)的相對(duì)位置；STDdist描述了詞語(yǔ)在文本中分布的均衡程度，值越小分布越均勻。RFPos以及STDdist的計(jì)算公式如下：

(3)

(4)

其中：RD(i,i+1)為詞語(yǔ)第i次出現(xiàn)與第i+1次出現(xiàn)之間的相對(duì)距離，值為間隔中的詞語(yǔ)數(shù)與文本長(zhǎng)度的比值。當(dāng)計(jì)算i=TF(最后一次的RD(i,i+1)值)時(shí)，假設(shè)文本頭尾相連，計(jì)算最后一次出現(xiàn)與第一次出現(xiàn)之間的相對(duì)距離；參數(shù)α的取值范圍在0到1之間。

改進(jìn)的TFIDF算法將RFPos以及STDdist引入TFIDF值的計(jì)算中，其中對(duì)于不同的語(yǔ)料，參數(shù)α的相對(duì)最優(yōu)取值可以由實(shí)驗(yàn)獲得。

4 實(shí)驗(yàn)及結(jié)果分析

為了驗(yàn)證改進(jìn)算法的有效性，本文對(duì)選自不同領(lǐng)域的3個(gè)語(yǔ)料進(jìn)行了測(cè)試。關(guān)鍵詞抽取一般通過(guò)將自動(dòng)抽取的關(guān)鍵詞與人工標(biāo)注的關(guān)鍵詞相比較進(jìn)行評(píng)價(jià)，使用的評(píng)價(jià)指標(biāo)主要是準(zhǔn)確率與召回率等。

4.1 實(shí)驗(yàn)語(yǔ)料

為方便對(duì)比，本文參照文獻(xiàn)[1]，選用3個(gè)語(yǔ)料進(jìn)行測(cè)試，分別為Inspec、DUC2001、NUS語(yǔ)料。3個(gè)語(yǔ)料中的文檔數(shù)量、文檔平均長(zhǎng)度以及格式不同，具體統(tǒng)計(jì)信息如表1所示。

Inspec語(yǔ)料[6,9-10]：作為關(guān)鍵詞抽取領(lǐng)域流行語(yǔ)料之一的Inspec語(yǔ)料，包含了來(lái)自2 000篇學(xué)術(shù)文章的摘要。它包含3種后綴名的文件：后綴名為abstr的文件內(nèi)容是論文的標(biāo)題和摘要；后綴名為contr和uncontr的文件內(nèi)容分別是人工標(biāo)注的關(guān)鍵詞短語(yǔ)和由Hulth實(shí)驗(yàn)標(biāo)注的關(guān)鍵詞短語(yǔ)。本文采用該語(yǔ)料測(cè)試集合中的500篇文檔作為實(shí)驗(yàn)語(yǔ)料。從表1可以看出，該語(yǔ)料中文檔平均長(zhǎng)度是3個(gè)語(yǔ)料中最短的。

表1 3個(gè)語(yǔ)料的統(tǒng)計(jì)信息

DUC2001語(yǔ)料[4]：含有308篇新聞，采用SGML格式，標(biāo)識(shí)了每篇新聞報(bào)道的標(biāo)題、時(shí)間及正文信息。本文選用全部的308篇文檔，僅對(duì)新聞的正文部分進(jìn)行處理，采用由萬(wàn)小軍整理標(biāo)注的關(guān)鍵詞集合[6]。

NUS語(yǔ)料[10]：該語(yǔ)料包括211篇科技論文全文，每篇文檔有PDF、HTML、文本及XML 4種格式，且已經(jīng)由作者或其他人標(biāo)注。需要注意的是，該語(yǔ)料中每個(gè)文檔可能有多人進(jìn)行標(biāo)注，保存在不同的文件中。該語(yǔ)料的主要特點(diǎn)：每篇文檔平均包含8 291個(gè)詞，是3個(gè)語(yǔ)料中最長(zhǎng)的。在實(shí)驗(yàn)中，本文選用全部的211篇文檔，考慮到不同標(biāo)注者側(cè)重點(diǎn)的不同且方便與文獻(xiàn)[1]進(jìn)行對(duì)比，按照文獻(xiàn)[1]中的處理方式，將每篇文檔由不同人標(biāo)注的關(guān)鍵詞短語(yǔ)統(tǒng)計(jì)排序后的集合，作為該文檔的關(guān)鍵詞短語(yǔ)人工標(biāo)注結(jié)果。因此，該語(yǔ)料中每篇文檔的平均關(guān)鍵詞數(shù)是最多的。

從表1可以看出，3個(gè)語(yǔ)料人工標(biāo)注的關(guān)鍵詞平均包含的詞語(yǔ)數(shù)都超過(guò)了2。

4.2 實(shí)驗(yàn)設(shè)置

對(duì)3個(gè)語(yǔ)料中的文檔進(jìn)行預(yù)處理，利用斯坦福大學(xué)的詞性標(biāo)注工具POS Tagger進(jìn)行詞性標(biāo)注[11]。將這些經(jīng)過(guò)詞性標(biāo)注的文檔作為輸入，計(jì)算出k個(gè)關(guān)鍵詞短語(yǔ)，作為抽取結(jié)果。

(1)關(guān)鍵詞提取的前期階段采用文獻(xiàn)[7]中的方法，選用形容詞、名詞作為候選單詞；利用N-gram算法，篩選并得到包含候選詞的最長(zhǎng)n元詞集合。

(2)公式(4)中參數(shù)α的設(shè)定依據(jù)：從給定的語(yǔ)料中任意抽出一篇文檔進(jìn)行測(cè)試，設(shè)定α的取值從0變化到1，步長(zhǎng)為0.1，取抽取結(jié)果最優(yōu)時(shí)的α值作為處理其他文檔時(shí)的參數(shù)值。

(3)候選詞或短語(yǔ)作為關(guān)鍵詞的度量值由其所含詞語(yǔ)的TFIDF值加和得到。

(4)對(duì)于每篇文檔的候選關(guān)鍵詞短語(yǔ)，按照上面計(jì)算的度量值進(jìn)行排序，選取前k個(gè)作為抽取結(jié)果。

(5)評(píng)測(cè)時(shí)，將抽取得到的關(guān)鍵詞與人工標(biāo)注的結(jié)果進(jìn)行對(duì)比，采用標(biāo)準(zhǔn)的準(zhǔn)確率P、召回率R和F1測(cè)度值(F1-measure)作為評(píng)價(jià)指標(biāo)。其中F1為準(zhǔn)確率P與召回率R的調(diào)和平均值，計(jì)算公式如下：

(5)

(6)

(7)

4.3 實(shí)驗(yàn)分析

圖1、圖2和圖3分別給出了改進(jìn)的TFIDF(TFIDF-POS)和傳統(tǒng)的TFIDF算法(TFIDF)在Inspec、DUC2001和NUS 3個(gè)語(yǔ)料上的F1測(cè)度值的變化情況。在TFIDF算法的基礎(chǔ)上引入詞語(yǔ)的位置及分布信息，使得關(guān)鍵詞抽取的準(zhǔn)確率有所提高。Inspec語(yǔ)料的每篇文檔長(zhǎng)度比DUC2001和NUS語(yǔ)料的短得多，曲線變化不夠明顯。但從統(tǒng)計(jì)顯著量(0.42)來(lái)看，準(zhǔn)確率提高的效果是顯著的。從圖2和圖3可以發(fā)現(xiàn)，隨著文檔長(zhǎng)度的增加，詞語(yǔ)的位置信息及分布信息的有效性變得更為明顯。TFIDF算法對(duì)于200以上單詞數(shù)的文章效果較好，這與文獻(xiàn)[12]的觀點(diǎn)一致。

圖1 在Inspec語(yǔ)料上F1測(cè)度值的變化

圖2 在DUC2001語(yǔ)料上F1測(cè)度值的變化

圖3 在NUS語(yǔ)料上F1測(cè)度值的變化

為了更好地分析不同語(yǔ)料受首次出現(xiàn)的位置信息和分布均衡度信息兩者影響的差異，本文在公式(2)的基礎(chǔ)上進(jìn)行修改：若僅考慮分布均衡度信息，將RFPos置為0(情況一)；若僅考慮首次出現(xiàn)的位置信息，將STDdist設(shè)置為0(情況二)；傳統(tǒng)的TFIDF算法為情況三。限于篇幅，本文僅對(duì)Inspec和DUC2001兩個(gè)語(yǔ)料進(jìn)行測(cè)試，測(cè)試結(jié)果如圖4和圖5所示。

圖4 對(duì)Inspec語(yǔ)料的測(cè)試結(jié)果

圖5 對(duì)DUC2001語(yǔ)料的測(cè)試結(jié)果

從實(shí)驗(yàn)得到的數(shù)據(jù)來(lái)看，對(duì)于類(lèi)似于Inspec文檔長(zhǎng)度較短的語(yǔ)料而言，僅考慮首次出現(xiàn)的位置得到的抽取準(zhǔn)確率比僅考慮分布均衡度及傳統(tǒng)的TFIDF的效果好，而對(duì)于類(lèi)似于DUC2001中文檔長(zhǎng)度較長(zhǎng)的語(yǔ)料正好相反。因此，在抽取關(guān)鍵詞時(shí)要充分考慮語(yǔ)料的特點(diǎn)。

實(shí)驗(yàn)還研究了參數(shù)α的設(shè)定對(duì)關(guān)鍵詞抽取性能的影響。表2列出了TFIDF算法與改進(jìn)的TFIDF算法在3個(gè)語(yǔ)料上的最佳參數(shù)設(shè)置。表中參數(shù)k為設(shè)定的每篇文檔要抽取的關(guān)鍵詞數(shù)目；參數(shù)α的取值體現(xiàn)了詞語(yǔ)首次出現(xiàn)的位置和詞語(yǔ)在文中出現(xiàn)位置的均衡度的關(guān)系。其值越小則詞語(yǔ)首次出現(xiàn)的位置信息越重要；值越大則詞語(yǔ)在文中出現(xiàn)位置的均衡度越重要；F代表F1測(cè)度值。

表2 兩個(gè)算法的最佳參數(shù)設(shè)置

5 結(jié) 語(yǔ)

本文在經(jīng)典的、基于TFIDF的關(guān)鍵詞抽取算法基礎(chǔ)上，考慮了詞語(yǔ)在文檔中分布的均衡程度以及首次出現(xiàn)的相對(duì)位置等信息，構(gòu)建了一種改進(jìn)的關(guān)鍵詞抽取算法，并對(duì)3個(gè)語(yǔ)料進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，改進(jìn)方法是有效的。

下一步將進(jìn)一步考慮文本數(shù)據(jù)的特點(diǎn)，利用位置及順序等信息，改進(jìn)關(guān)鍵詞抽取的性能。同時(shí)也計(jì)劃嘗試?yán)脵C(jī)器學(xué)習(xí)算法，充分利用多種信息特征，來(lái)提高關(guān)鍵詞抽取的準(zhǔn)確率。

參考文獻(xiàn)：

[1] Kazi Saidul Hasan, Vincent N.Conundrums in Unsupervised Keyphrase Extraction: Making Sense of The-art[C]//Rroceedings of the 23rd International Conference on Computational Linguistics, Beijing, 2010: 365-373.

[2] Kathrin Eichler, Günter Neumann.DFKI KeyWE: Ranking Keyphrases Extracted from Scientific Articles[C]//Proceedings of The 5th International Workshop on Semantic Evaluation,Uppsala, Sweden, 2010: 150-153.

[3] Zhang K, Xu H, Tang J, et al.Keyword Extraction Using Support Vector Machine[C]//Proceedings of the Seventh International Conference on Web-Age Information Management, HongKong, 2006: 85-96.

[4] Kim S N, Medelyan O, Kan M Y, et al.Evaluating N-gram Based Evaluation Metrics for Automatic Keyphrase Extraction [C]//Proceedings of the 23rd International Conference on Computational Linguistics, Beijing, 2010: 572-580.

[5] Niraj Kumar, Kannan Srinathan.Automatic Keyphrase Extraction from Scientific Documents Using N-gram Filtration Technique[C]//Proceedings of the Eighth ACM Symposium on Document Engineering, New York, 2001:199-208.

[6] Rada Mihalcea, Paul Tarau.TextRank: Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing，Barcelona, 2004:120-128.

[7] WAN Xiaojun, XIAO Jianguo.Single Document Keyphrase Extraction Using Neighborhood Knowledge[C]//Proceedings of the 23rd AAAI Conference on Artificial Intelligence, Chicago, 2008: 855-860.

[8] LIU Zhiyuan, LI Peng, ZHANG Yabin, et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Singapore, 2009: 257-266.

[9] Anette Hulth.Improved Automatic Keyword Extraction Given More Linguistic Knowledge[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, Sapporo, 2003: 216-223.

[10] LIU Feifan, Deana Pennell, LIU Fei, et al.Unsupervised Approaches for Automatic Keyword Extraction Using Meeting Transcripts[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, New York, 2009: 620-628.

[11] Thuy Dung Nguyen, Min-Yen Kan.Keyphrase Extraction in Scientific Publications[C]//Proceedings of the International Conference on Asian Digital Libraries, Hanoi, 2007:317-326.

[12] Kristina Toutanova, Christopher D Manning.Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-speech Tagger[C]//Proceedings of the 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, Hong Kong, 2000:63-70.