,
(1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001;2.數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100871)
關(guān)鍵詞抽取旨在從文本中選擇少量的、最能代表文本語(yǔ)義內(nèi)容的詞或短語(yǔ),而這些關(guān)鍵詞構(gòu)成了文本的一種濃縮表示,可以看作是文本的一個(gè)高度概括的摘要。正因?yàn)槿绱耍P(guān)鍵詞抽取在信息檢索與文本挖掘(如文本摘要、文本分類(lèi)、文本聚類(lèi)和自動(dòng)問(wèn)答等)中有著非常廣泛的應(yīng)用。
目前關(guān)鍵詞抽取方法主要分為有監(jiān)督方法和無(wú)監(jiān)督方法2種。有監(jiān)督方法需要借助人工標(biāo)注的大規(guī)模語(yǔ)料獲取關(guān)鍵詞抽取模型,而無(wú)監(jiān)督方法不要求有人工標(biāo)注的語(yǔ)料,只利用待處理文本中詞語(yǔ)的統(tǒng)計(jì)信息確定文本關(guān)鍵詞。無(wú)監(jiān)督方法因?yàn)椴恍枰獦?biāo)注語(yǔ)料,所以具有更高的實(shí)用價(jià)值。文獻(xiàn)[1]對(duì)5種無(wú)監(jiān)督關(guān)鍵詞抽取算法(TFIDF、TextRank、SingleRank、ExpandRank、KeyCluster)在4個(gè)語(yǔ)料上做了全面測(cè)試,發(fā)現(xiàn)基于TFIDF的方法簡(jiǎn)單且總體性能最優(yōu)[1];基于TFIDF的抽取算法,考慮了詞頻以及詞語(yǔ)的常用程度等信息,但卻忽略了詞語(yǔ)在文本中的分布信息,如詞語(yǔ)分布規(guī)律、詞語(yǔ)出現(xiàn)的位置等。在直覺(jué)上,這些詞語(yǔ)分布信息對(duì)于確定代表文本內(nèi)容的關(guān)鍵詞應(yīng)當(dāng)很有幫助。例如,如果兩個(gè)詞語(yǔ)A和B在文本中的分布分別為 “-A——A——A——A-”、“——————BBBB——————”(“-”代表其他詞匯),那么詞語(yǔ)A作為關(guān)鍵詞的可能性應(yīng)當(dāng)大于B。另外,出現(xiàn)在標(biāo)題和篇首的詞語(yǔ)成為關(guān)鍵詞的可能性相對(duì)要大得多。本文試圖結(jié)合詞語(yǔ)的分布信息,進(jìn)一步提高基于TFIDF的關(guān)鍵詞抽取方法的性能。
與關(guān)鍵詞自動(dòng)抽取緊密相關(guān)的是自動(dòng)標(biāo)引技術(shù),它試圖用一組能描述文本內(nèi)容的詞或短語(yǔ)標(biāo)注文本。自動(dòng)標(biāo)引可以分為抽詞標(biāo)引和賦詞標(biāo)引兩種[2]。賦詞標(biāo)引是從預(yù)先編制的規(guī)范詞表中選取能夠表達(dá)文本主題內(nèi)容的詞或短語(yǔ),這些詞或短語(yǔ)未必在文本中出現(xiàn)。而抽詞標(biāo)引則使用文本中出現(xiàn)的詞語(yǔ)來(lái)標(biāo)注文本的語(yǔ)義內(nèi)容。相比而言,抽詞標(biāo)引靈活,更適合計(jì)算機(jī)自動(dòng)處理,也是目前大多數(shù)自動(dòng)標(biāo)引研究者使用的方法。抽詞標(biāo)引即為本文所說(shuō)的關(guān)鍵詞抽取。
在20世紀(jì)70年代,有學(xué)者將機(jī)器學(xué)習(xí)算法引入關(guān)鍵詞自動(dòng)抽取領(lǐng)域,其中常見(jiàn)的有最大熵模型、決策樹(shù)、SVM[3]、貝葉斯和bagging等算法。這些基于有監(jiān)督的方法,其主要思路是將關(guān)鍵詞抽取視為一個(gè)分類(lèi)任務(wù),對(duì)已經(jīng)標(biāo)注好的數(shù)據(jù)進(jìn)行訓(xùn)練,獲得分類(lèi)模型;通過(guò)分類(lèi)模型,判斷給定的詞是否為文檔的關(guān)鍵詞,最終實(shí)現(xiàn)對(duì)文檔關(guān)鍵詞抽取。比較典型的有Turney實(shí)現(xiàn)的GenEx系統(tǒng)(利用決策樹(shù)和遺傳算法實(shí)現(xiàn))和Witten實(shí)現(xiàn)的Kea系統(tǒng)(利用樸素貝葉斯算法實(shí)現(xiàn))。這些模型的特點(diǎn)是在取得較好效果的同時(shí),需要標(biāo)注好具有一定規(guī)模的語(yǔ)料,而且,不同領(lǐng)域的抽取效果是無(wú)法估計(jì)的[4]。
基于無(wú)監(jiān)督的關(guān)鍵詞抽取方法也受到了重視,主要包括基于語(yǔ)言模型的分析方法、基于統(tǒng)計(jì)的方法等,其中以基于統(tǒng)計(jì)的方法較為常見(jiàn),它主要利用了N-gram、詞頻、TFIDF、詞的同現(xiàn)、Pat-tree等信息[4-5]?;趫D的算法[6-7]、基于聚類(lèi)的算法[8]以及基于話題模型的算法等無(wú)監(jiān)督方法的優(yōu)點(diǎn)在于不需要標(biāo)注語(yǔ)料作訓(xùn)練,適用面較廣。
首先,借助TFIDF公式計(jì)算文本中所有詞語(yǔ)對(duì)文本語(yǔ)義內(nèi)容的代表程度;然后,直接取最重要的若干詞語(yǔ)作為關(guān)鍵詞,然而這只是一種最簡(jiǎn)單的情況。實(shí)際上,關(guān)鍵詞常常是由多個(gè)詞語(yǔ)組成的短語(yǔ)。因此,在計(jì)算得到單個(gè)詞語(yǔ)的TFIDF值之后,先利用一些啟發(fā)式規(guī)則(如窗口大小、短語(yǔ)邊界、詞性組合等)確定候選的關(guān)鍵詞或關(guān)鍵詞短語(yǔ),然后利用詞語(yǔ)的TFIDF值計(jì)算這些候選詞或短語(yǔ)作為關(guān)鍵詞的可能性大小,最終取可能性最大的若干候選詞或短語(yǔ)作為關(guān)鍵詞。在計(jì)算候選短語(yǔ)作為關(guān)鍵詞的可能性時(shí),通常由其所含詞語(yǔ)的TFIDF值加和得到。
上述基于TFIDF的關(guān)鍵詞抽取算法中,詞語(yǔ)的TFIDF值是最主要的依賴(lài)因素。
TFIDF是信息檢索領(lǐng)域用于計(jì)算文本特征值的重要技術(shù),用于表示一個(gè)特征項(xiàng)(可以是一個(gè)詞、一個(gè)短語(yǔ)等)對(duì)于一個(gè)文檔語(yǔ)義內(nèi)容的代表能力。TFIDF的主要思想是:如果某個(gè)特征項(xiàng)(詞或短語(yǔ))在一篇文檔中出現(xiàn)的頻率高并且不常用,那么該特征項(xiàng)就具有很好的文檔代表能力。其中,特征項(xiàng)的常用程度是由文檔頻率決定的:在文檔中出現(xiàn)越多,就越常用。
傳統(tǒng)的TFIDF計(jì)算可由TF(w,d)×IDF(w)求得,TF(w,d)即TF,代表項(xiàng)w(詞或短語(yǔ))在文檔d中出現(xiàn)的次數(shù);IDF(w)即IDF,可通過(guò)DF(w)求出。
(1)
其中:Nall代表語(yǔ)料中文檔的總數(shù);DF(w)代表包含詞語(yǔ)w的文檔數(shù)量。
通過(guò)引入詞語(yǔ)分布信息,本文將傳統(tǒng)的TFIDF計(jì)算公式修改為
(TF*(1-STDdist)+RFPos)*IDF
(2)
其中:TF和IDF的計(jì)算方法與傳統(tǒng)的TFIDF方法一致;RFPos描述了詞語(yǔ)在文本中首次出現(xiàn)的相對(duì)位置;STDdist描述了詞語(yǔ)在文本中分布的均衡程度,值越小分布越均勻。RFPos以及STDdist的計(jì)算公式如下:
(3)
(4)
其中:RD(i,i+1)為詞語(yǔ)第i次出現(xiàn)與第i+1次出現(xiàn)之間的相對(duì)距離,值為間隔中的詞語(yǔ)數(shù)與文本長(zhǎng)度的比值。當(dāng)計(jì)算i=TF(最后一次的RD(i,i+1)值)時(shí),假設(shè)文本頭尾相連,計(jì)算最后一次出現(xiàn)與第一次出現(xiàn)之間的相對(duì)距離;參數(shù)α的取值范圍在0到1之間。
改進(jìn)的TFIDF算法將RFPos以及STDdist引入TFIDF值的計(jì)算中,其中對(duì)于不同的語(yǔ)料,參數(shù)α的相對(duì)最優(yōu)取值可以由實(shí)驗(yàn)獲得。
為了驗(yàn)證改進(jìn)算法的有效性,本文對(duì)選自不同領(lǐng)域的3個(gè)語(yǔ)料進(jìn)行了測(cè)試。關(guān)鍵詞抽取一般通過(guò)將自動(dòng)抽取的關(guān)鍵詞與人工標(biāo)注的關(guān)鍵詞相比較進(jìn)行評(píng)價(jià),使用的評(píng)價(jià)指標(biāo)主要是準(zhǔn)確率與召回率等。
為方便對(duì)比,本文參照文獻(xiàn)[1],選用3個(gè)語(yǔ)料進(jìn)行測(cè)試,分別為Inspec、DUC2001、NUS語(yǔ)料。3個(gè)語(yǔ)料中的文檔數(shù)量、文檔平均長(zhǎng)度以及格式不同,具體統(tǒng)計(jì)信息如表1所示。
Inspec語(yǔ)料[6,9-10]:作為關(guān)鍵詞抽取領(lǐng)域流行語(yǔ)料之一的Inspec語(yǔ)料,包含了來(lái)自2 000篇學(xué)術(shù)文章的摘要。它包含3種后綴名的文件:后綴名為abstr的文件內(nèi)容是論文的標(biāo)題和摘要;后綴名為contr和uncontr的文件內(nèi)容分別是人工標(biāo)注的關(guān)鍵詞短語(yǔ)和由Hulth實(shí)驗(yàn)標(biāo)注的關(guān)鍵詞短語(yǔ)。本文采用該語(yǔ)料測(cè)試集合中的500篇文檔作為實(shí)驗(yàn)語(yǔ)料。從表1可以看出,該語(yǔ)料中文檔平均長(zhǎng)度是3個(gè)語(yǔ)料中最短的。
表1 3個(gè)語(yǔ)料的統(tǒng)計(jì)信息
DUC2001語(yǔ)料[4]:含有308篇新聞,采用SGML格式,標(biāo)識(shí)了每篇新聞報(bào)道的標(biāo)題、時(shí)間及正文信息。本文選用全部的308篇文檔,僅對(duì)新聞的正文部分進(jìn)行處理,采用由萬(wàn)小軍整理標(biāo)注的關(guān)鍵詞集合[6]。
NUS語(yǔ)料[10]:該語(yǔ)料包括211篇科技論文全文,每篇文檔有PDF、HTML、文本及XML 4種格式,且已經(jīng)由作者或其他人標(biāo)注。需要注意的是,該語(yǔ)料中每個(gè)文檔可能有多人進(jìn)行標(biāo)注,保存在不同的文件中。該語(yǔ)料的主要特點(diǎn):每篇文檔平均包含8 291個(gè)詞,是3個(gè)語(yǔ)料中最長(zhǎng)的。在實(shí)驗(yàn)中,本文選用全部的211篇文檔,考慮到不同標(biāo)注者側(cè)重點(diǎn)的不同且方便與文獻(xiàn)[1]進(jìn)行對(duì)比,按照文獻(xiàn)[1]中的處理方式,將每篇文檔由不同人標(biāo)注的關(guān)鍵詞短語(yǔ)統(tǒng)計(jì)排序后的集合,作為該文檔的關(guān)鍵詞短語(yǔ)人工標(biāo)注結(jié)果。因此,該語(yǔ)料中每篇文檔的平均關(guān)鍵詞數(shù)是最多的。
從表1可以看出,3個(gè)語(yǔ)料人工標(biāo)注的關(guān)鍵詞平均包含的詞語(yǔ)數(shù)都超過(guò)了2。
對(duì)3個(gè)語(yǔ)料中的文檔進(jìn)行預(yù)處理,利用斯坦福大學(xué)的詞性標(biāo)注工具POS Tagger進(jìn)行詞性標(biāo)注[11]。將這些經(jīng)過(guò)詞性標(biāo)注的文檔作為輸入,計(jì)算出k個(gè)關(guān)鍵詞短語(yǔ),作為抽取結(jié)果。
(1)關(guān)鍵詞提取的前期階段采用文獻(xiàn)[7]中的方法,選用形容詞、名詞作為候選單詞;利用N-gram算法,篩選并得到包含候選詞的最長(zhǎng)n元詞集合。
(2)公式(4)中參數(shù)α的設(shè)定依據(jù):從給定的語(yǔ)料中任意抽出一篇文檔進(jìn)行測(cè)試,設(shè)定α的取值從0變化到1,步長(zhǎng)為0.1,取抽取結(jié)果最優(yōu)時(shí)的α值作為處理其他文檔時(shí)的參數(shù)值。
(3)候選詞或短語(yǔ)作為關(guān)鍵詞的度量值由其所含詞語(yǔ)的TFIDF值加和得到。
(4)對(duì)于每篇文檔的候選關(guān)鍵詞短語(yǔ),按照上面計(jì)算的度量值進(jìn)行排序,選取前k個(gè)作為抽取結(jié)果。
(5)評(píng)測(cè)時(shí),將抽取得到的關(guān)鍵詞與人工標(biāo)注的結(jié)果進(jìn)行對(duì)比,采用標(biāo)準(zhǔn)的準(zhǔn)確率P、召回率R和F1測(cè)度值(F1-measure)作為評(píng)價(jià)指標(biāo)。其中F1為準(zhǔn)確率P與召回率R的調(diào)和平均值,計(jì)算公式如下:
(5)
(6)
(7)
圖1、圖2和圖3分別給出了改進(jìn)的TFIDF(TFIDF-POS)和傳統(tǒng)的TFIDF算法(TFIDF)在Inspec、DUC2001和NUS 3個(gè)語(yǔ)料上的F1測(cè)度值的變化情況。在TFIDF算法的基礎(chǔ)上引入詞語(yǔ)的位置及分布信息,使得關(guān)鍵詞抽取的準(zhǔn)確率有所提高。Inspec語(yǔ)料的每篇文檔長(zhǎng)度比DUC2001和NUS語(yǔ)料的短得多,曲線變化不夠明顯。但從統(tǒng)計(jì)顯著量(0.42)來(lái)看,準(zhǔn)確率提高的效果是顯著的。從圖2和圖3可以發(fā)現(xiàn),隨著文檔長(zhǎng)度的增加,詞語(yǔ)的位置信息及分布信息的有效性變得更為明顯。TFIDF算法對(duì)于200以上單詞數(shù)的文章效果較好,這與文獻(xiàn)[12]的觀點(diǎn)一致。
圖1 在Inspec語(yǔ)料上F1測(cè)度值的變化
圖2 在DUC2001語(yǔ)料上F1測(cè)度值的變化
圖3 在NUS語(yǔ)料上F1測(cè)度值的變化
為了更好地分析不同語(yǔ)料受首次出現(xiàn)的位置信息和分布均衡度信息兩者影響的差異,本文在公式(2)的基礎(chǔ)上進(jìn)行修改:若僅考慮分布均衡度信息,將RFPos置為0(情況一);若僅考慮首次出現(xiàn)的位置信息,將STDdist設(shè)置為0(情況二);傳統(tǒng)的TFIDF算法為情況三。限于篇幅,本文僅對(duì)Inspec和DUC2001兩個(gè)語(yǔ)料進(jìn)行測(cè)試,測(cè)試結(jié)果如圖4和圖5所示。
圖4 對(duì)Inspec語(yǔ)料的測(cè)試結(jié)果
圖5 對(duì)DUC2001語(yǔ)料的測(cè)試結(jié)果
從實(shí)驗(yàn)得到的數(shù)據(jù)來(lái)看,對(duì)于類(lèi)似于Inspec文檔長(zhǎng)度較短的語(yǔ)料而言,僅考慮首次出現(xiàn)的位置得到的抽取準(zhǔn)確率比僅考慮分布均衡度及傳統(tǒng)的TFIDF的效果好,而對(duì)于類(lèi)似于DUC2001中文檔長(zhǎng)度較長(zhǎng)的語(yǔ)料正好相反。因此,在抽取關(guān)鍵詞時(shí)要充分考慮語(yǔ)料的特點(diǎn)。
實(shí)驗(yàn)還研究了參數(shù)α的設(shè)定對(duì)關(guān)鍵詞抽取性能的影響。表2列出了TFIDF算法與改進(jìn)的TFIDF算法在3個(gè)語(yǔ)料上的最佳參數(shù)設(shè)置。表中參數(shù)k為設(shè)定的每篇文檔要抽取的關(guān)鍵詞數(shù)目;參數(shù)α的取值體現(xiàn)了詞語(yǔ)首次出現(xiàn)的位置和詞語(yǔ)在文中出現(xiàn)位置的均衡度的關(guān)系。其值越小則詞語(yǔ)首次出現(xiàn)的位置信息越重要;值越大則詞語(yǔ)在文中出現(xiàn)位置的均衡度越重要;F代表F1測(cè)度值。
表2 兩個(gè)算法的最佳參數(shù)設(shè)置
本文在經(jīng)典的、基于TFIDF的關(guān)鍵詞抽取算法基礎(chǔ)上,考慮了詞語(yǔ)在文檔中分布的均衡程度以及首次出現(xiàn)的相對(duì)位置等信息,構(gòu)建了一種改進(jìn)的關(guān)鍵詞抽取算法,并對(duì)3個(gè)語(yǔ)料進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法是有效的。
下一步將進(jìn)一步考慮文本數(shù)據(jù)的特點(diǎn),利用位置及順序等信息,改進(jìn)關(guān)鍵詞抽取的性能。同時(shí)也計(jì)劃嘗試?yán)脵C(jī)器學(xué)習(xí)算法,充分利用多種信息特征,來(lái)提高關(guān)鍵詞抽取的準(zhǔn)確率。
參考文獻(xiàn):
[1] Kazi Saidul Hasan, Vincent N.Conundrums in Unsupervised Keyphrase Extraction: Making Sense of The-art[C]//Rroceedings of the 23rd International Conference on Computational Linguistics, Beijing, 2010: 365-373.
[2] Kathrin Eichler, Günter Neumann.DFKI KeyWE: Ranking Keyphrases Extracted from Scientific Articles[C]//Proceedings of The 5th International Workshop on Semantic Evaluation,Uppsala, Sweden, 2010: 150-153.
[3] Zhang K, Xu H, Tang J, et al.Keyword Extraction Using Support Vector Machine[C]//Proceedings of the Seventh International Conference on Web-Age Information Management, HongKong, 2006: 85-96.
[4] Kim S N, Medelyan O, Kan M Y, et al.Evaluating N-gram Based Evaluation Metrics for Automatic Keyphrase Extraction [C]//Proceedings of the 23rd International Conference on Computational Linguistics, Beijing, 2010: 572-580.
[5] Niraj Kumar, Kannan Srinathan.Automatic Keyphrase Extraction from Scientific Documents Using N-gram Filtration Technique[C]//Proceedings of the Eighth ACM Symposium on Document Engineering, New York, 2001:199-208.
[6] Rada Mihalcea, Paul Tarau.TextRank: Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing,Barcelona, 2004:120-128.
[7] WAN Xiaojun, XIAO Jianguo.Single Document Keyphrase Extraction Using Neighborhood Knowledge[C]//Proceedings of the 23rd AAAI Conference on Artificial Intelligence, Chicago, 2008: 855-860.
[8] LIU Zhiyuan, LI Peng, ZHANG Yabin, et al.Clustering to Find Exemplar Terms for Keyphrase Extraction[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Singapore, 2009: 257-266.
[9] Anette Hulth.Improved Automatic Keyword Extraction Given More Linguistic Knowledge[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, Sapporo, 2003: 216-223.
[10] LIU Feifan, Deana Pennell, LIU Fei, et al.Unsupervised Approaches for Automatic Keyword Extraction Using Meeting Transcripts[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, New York, 2009: 620-628.
[11] Thuy Dung Nguyen, Min-Yen Kan.Keyphrase Extraction in Scientific Publications[C]//Proceedings of the International Conference on Asian Digital Libraries, Hanoi, 2007:317-326.
[12] Kristina Toutanova, Christopher D Manning.Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-speech Tagger[C]//Proceedings of the 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, Hong Kong, 2000:63-70.