賈 強(qiáng), 馮錫煒, 王志峰, 朱 睿, 秦 航
(1.遼寧石油化工大學(xué) 計算機(jī)與通信工程學(xué)院,遼寧 撫順 113001; 2.遼寧省撫順市望花區(qū)教師進(jìn)修學(xué)校,遼寧 撫順 113001)
?
基于改進(jìn)的TF-IDF文本特征詞提取算法研究
賈 強(qiáng)1, 馮錫煒1, 王志峰1, 朱 睿1, 秦 航2
(1.遼寧石油化工大學(xué) 計算機(jī)與通信工程學(xué)院,遼寧 撫順 113001; 2.遼寧省撫順市望花區(qū)教師進(jìn)修學(xué)校,遼寧 撫順 113001)
在特征詞提取算法中,TF-IDF算法是最常見的特征權(quán)重計算方法。在傳統(tǒng)TF-IDF算法的基礎(chǔ)上,提出新的基于文本詞語長度的關(guān)鍵詞提取算法。利用中文短語分詞技術(shù),識別文本中的長詞與普通詞匯,對于不同長度的詞語利用提出的TF-IDF-WL方法重新計算權(quán)重,按權(quán)值排序結(jié)果得到關(guān)鍵詞。實驗對比發(fā)現(xiàn),新的特征詞提取算法能夠更加精確地反映出特征詞的詞長情況,該算法與傳統(tǒng)的TF-IDF算法相比,在準(zhǔn)確率和召回率上都有較大的提升。
TF-IDF; 特征詞提?。?詞長; 文本預(yù)處理; 文本分類
隨著計算機(jī)語言學(xué)、信息學(xué)、人工智能等多種學(xué)科的發(fā)展,文本特征詞提取也變得更加語義化、智能化、數(shù)字化,在網(wǎng)絡(luò)知識管理、學(xué)科知識檢索等方面發(fā)揮越來越重要的作用。文本特征詞提取的主要思想是利用相關(guān)的數(shù)學(xué)工具降低詞語空間的維度,提取能代表文本特征的詞語,從而提高文本檢索和文本分類的效率[1]。
常用的文本特征詞提取方法主要是基于語義分析、統(tǒng)計和詞語網(wǎng)絡(luò)的三種方法?;谡Z義分析的方法,利用語義特征提取特征詞,如基于語境框架,引入同義詞概念提高關(guān)鍵詞提取的準(zhǔn)確度[2];基于詞語網(wǎng)絡(luò)的方法,根據(jù)特定的規(guī)則將文本映射為詞語網(wǎng)絡(luò),如利用情感傾向詞類的詞語降低特征空間[3];基于統(tǒng)計的方法,通過構(gòu)造評估函數(shù),提取預(yù)定數(shù)目的最優(yōu)特征作為提取結(jié)果的特征子集?;诮y(tǒng)計的方法有多種,如詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)、互信息(Mutual Information)、期望交叉熵(Expected Cross Entropy)、信息增益(Information Gain)、X2統(tǒng)計量等方法,其中應(yīng)用最廣的便是TF-IDF方法。
TF-IDF方法由Salton在1988 年提出[4],20世紀(jì)90年代,國內(nèi)學(xué)者開始關(guān)注并不斷對其進(jìn)行優(yōu)化改進(jìn)。本文在TF-IDF算法的基礎(chǔ)上提出一種區(qū)分文本詞語長度的特征詞提取算法詞頻-逆文本頻率-詞語長度(Term Frequency-Inverse Document Frequency-Word Length,TF-IDF-WL),旨在其他研究人員的研究基礎(chǔ)上,將詞長考慮到TF-IDF算法內(nèi)部,從而提高特征詞提取的準(zhǔn)確度。實驗結(jié)果表明,本文提出的算法從準(zhǔn)確率和召回率考慮,均優(yōu)于之前的算法。
TF-IDF算法是基于統(tǒng)計方法的文本特征詞提取中常用的加權(quán)技術(shù),主要通過統(tǒng)計詞頻對文本進(jìn)行分類[5]。詞頻 (Term Frequency, TF)用來表示詞語在文本中出現(xiàn)的頻率, 逆文本頻率(Inverse Document Frequency, IDF)表示詞語在文本集中的類別區(qū)分能力,IDF值越大,說明該詞語具有很好的類別區(qū)分能力。TF-IDF算法的主要思想,如果某個詞或短語在文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞或短語具有很好的類別區(qū)分能力,適合用來做主題分類。通常采用的表達(dá)式:
(1)
TF-IDF算法的優(yōu)點是簡單快速,結(jié)果比較符合實際情況。但是,單純以TF衡量一個詞的重要性,不夠全面[8],經(jīng)過傳統(tǒng)TF-IDF算法提取出的文本關(guān)鍵詞,往往也只是一些長度較短的表示相對抽象、上位的詞語。在實際應(yīng)用中發(fā)現(xiàn),關(guān)鍵詞通常是一些專業(yè)學(xué)術(shù)組合詞匯[9],長度較一般詞長,而這些詞卻沒有像短詞那樣擁有更高的詞頻。因此,在特征選擇的過程中不宜僅將詞頻作為考量因素,面向功能、語義較泛的短詞語和面向內(nèi)容、語義較具體的長詞語被賦予相同的權(quán)重是不正確的。
在中文語言處理中,詞的長度對于其所表達(dá)的信息和所攜帶的信息量有很大不同[10]。通常情況下,詞的長度越短,其表達(dá)的語義越泛,攜帶的信息量也越少,對于同一件事物的描述,長詞表達(dá)的信息會更詳細(xì),精確度也會更高[11]。例如“科學(xué)”、“計算機(jī)”兩個詞,僅根據(jù)該詞無法獲取具體的相關(guān)信息,“計算機(jī)科學(xué)”則將“科學(xué)”做了進(jìn)一步限定,描述了它所屬的領(lǐng)域,所指的范圍縮小,使之不會與其他領(lǐng)域的科學(xué)混淆,描述的范圍更小,所攜帶的信息量也更大[12]。一般而言,中文文本中詞長較短的詞往往表示相對抽象、上位的概念,而詞長較長的詞或短語常常表示比較具體、下位的概念[13]。短詞頻率較高,而且具有更多的含義,是面向功能的;長的詞或短語頻率較低,是面向內(nèi)容的,但是含義更明確,更能反映文本主題,適合作為特征詞[14]。增加長的詞或短語的權(quán)重,詞匯分割會變得更加有效,特征詞在文本中的重要程度也會更加準(zhǔn)確地反映出來。齊波等[15]采用機(jī)器學(xué)習(xí)的方法對長詞進(jìn)行識別,得到了較好的反饋,本文將借鑒該方法提取文本中的長詞,并對全文長短詞進(jìn)行詞頻統(tǒng)計,便于對文本進(jìn)行后續(xù)TF-IDF處理。
在算法執(zhí)行的過程中,四元組
圖1 TF-IDF-WL算法流程
3.1 詞長權(quán)值
考慮到長的詞或短語所攜帶的信息要遠(yuǎn)高于短詞,并且其特征與其他外部文檔無關(guān),本文將詞長權(quán)重加入到TF-IDF算法內(nèi)部,重新衡量關(guān)鍵詞權(quán)重,確定候選特征詞,詞長權(quán)重計算公式定義為:
(2)
為了減小權(quán)重對詞長的過度依賴,利用分母maxlen對leni進(jìn)行歸一化處理;maxlen為當(dāng)前文檔中最長詞語的長度。
3.2 改進(jìn)TF-IDF算法
對于文本中的所有候選特征詞,設(shè)計一個基于詞長權(quán)值的改進(jìn)TF-IDF加權(quán)公式定義為:
(3)
使用公式(3)求出每個候選特征詞的綜合權(quán)值,并根據(jù)綜合權(quán)值對所有候選特征詞排序。
3.3 關(guān)鍵詞選取
根據(jù)前面所計算得到的候選特征詞排序,選取前5個候選特征詞作為該文本的關(guān)鍵詞。當(dāng)前5個候選特征詞中有3個以上的長詞時,取前3個綜合權(quán)值最高的加入候選特征詞,另外2個候選特征詞為普通詞;當(dāng)前5個候選特征詞中不含有長詞時,去除綜合權(quán)值最低的1個候選特征詞,將綜合權(quán)值最高的1個長詞加入候選特征詞,組成文本的關(guān)鍵詞,從而保證關(guān)鍵詞中有1~3個長詞。
4.1 數(shù)據(jù)來源
實驗數(shù)據(jù)來源于科研共享平臺——數(shù)據(jù)堂所提供的語料庫中文數(shù)據(jù)集,包含教育(Education)、哲學(xué)(Philosophy)、歷史(History)等20個類別,每篇文章都是純文本格式保存,包括期刊文獻(xiàn)、雜志、書目等類別,為驗證本實驗的正確性,從中選取已標(biāo)引出關(guān)鍵詞的歷史(History)、空間(Space)、能量(Energy)、通信(Communication)、計算機(jī)(Computer)、環(huán)境(Enviornment)、經(jīng)濟(jì)(Economy)、法律(Law)、政治(Politics)、運動(Sports)等10類不相關(guān)文本各20篇,作為測試文本集。
4.2 評估指標(biāo)
由于一般關(guān)鍵詞提取算法的性能評估都是通過特定的評估函數(shù)進(jìn)行比較,因此采用兩個文本關(guān)鍵詞提取效果的度量指標(biāo)——準(zhǔn)確率與召回率來測評算法性能。準(zhǔn)確率及召回率定義為:
(4)
(5)
式中,P為準(zhǔn)確率;R為召回率;a為提取正確的關(guān)鍵詞數(shù);b為提取的關(guān)鍵詞數(shù);c為文本中的關(guān)鍵詞數(shù)。
4.3 結(jié)果及分析
在文本長詞的識別階段,使用文獻(xiàn)[11]提供的長詞識別方法,對于簡單的文本中的長詞,綜合識別準(zhǔn)確率為95.6%,與選定的文本中特征詞對比顯示,文本中長的特征詞98%均包含在所識別的長詞中,基本排除長詞識別準(zhǔn)確率對實驗結(jié)果的影響;對于如述賓詞“改革開放的偉大旗幟”這樣復(fù)雜的文本中的長詞,綜合識別準(zhǔn)確率為83.2%,但是以這種復(fù)雜長詞作為特征詞的實驗文本幾乎沒有,故排除了復(fù)雜的長詞組合對實驗結(jié)果的影響。
使用TF、TF-IDF以及TF-IDF-WL算法進(jìn)行對比實驗。實驗結(jié)果如表1所示,表1中的所有數(shù)據(jù)都是針對10類20篇文本進(jìn)行計算后的均值。
表1 TF、TF-IDF與TF-IDF-WL算法提取文本關(guān)鍵詞對比結(jié)果
實驗結(jié)果表明,Economy文本集中TF算法的準(zhǔn)確率高于TF-IDF算法的準(zhǔn)確率。分析發(fā)現(xiàn),是由于在計算準(zhǔn)確率時,TF算法誤用了文本中的特征詞個數(shù)作為計算標(biāo)準(zhǔn),個別文本特征詞個數(shù)低于5個,導(dǎo)致局部TF準(zhǔn)確率過高,后期的實驗中糾正了錯誤,得到了較穩(wěn)定的結(jié)果;在Space文本集中,在計算TF-IDF算法召回率時,由于計算時少加了1個文本的召回率,因此Space文本集TF-IDF算法的平均召回率較低,后續(xù)的計算中糾正了錯誤,計算所得的召回率為0.694,基本穩(wěn)定。
TF、TF-IDF與TF-IDF-WL算法準(zhǔn)確率、召回率對比結(jié)果如圖2所示。
(a) 準(zhǔn)確率(b) 召回率圖2 TF、TF-IDF與TF-IDF-WL算法識別準(zhǔn)確率、召回率對比結(jié)果
由表1和圖2可以看出,本文算法提取關(guān)鍵詞的識別準(zhǔn)確率和召回率明顯優(yōu)于傳統(tǒng)算法,得出的文本關(guān)鍵詞更加精確。由于傳統(tǒng)的TF、TF-IDF算法沒有考慮特征詞的詞長,因此在文本識別準(zhǔn)確率及召回率上出現(xiàn)的誤差較大。在Economy類目中,由于整個類目文本中頻繁出現(xiàn)“風(fēng)險”、“企業(yè)”等比較抽象的詞,使其在TF算法中排序很靠前,導(dǎo)致局部的TF值較高,而改進(jìn)后的TF-IDF-WL算法按詞長比例對這些文本進(jìn)行篩選,很好地將這類詞排除在5個關(guān)鍵詞之外,產(chǎn)生相對平衡的準(zhǔn)確率和召回率,進(jìn)一步驗證了本文算法的可取性。
利用文獻(xiàn)[15]的中文短語識別方法將文本中長詞及普通詞進(jìn)行劃分,在傳統(tǒng)TF、TF-IDF算法的基礎(chǔ)上將詞語長度考慮在內(nèi),將詞長比例作為文本候選特征詞去除噪音的權(quán)值,有效地抑制了與測試文本同類語料庫對所提取關(guān)鍵詞權(quán)重的影響,修正了傳統(tǒng)TF、TF-IDF算法的計算偏差。實驗結(jié)果表明,TF-IDF-WL算法相較于傳統(tǒng)TF、TF-IDF算法效果更優(yōu),得出的關(guān)鍵詞能基本反映文本內(nèi)容。
[1] 徐建民, 王金花, 馬偉瑜. 利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[J].情報科學(xué), 2011, 29(2):279-283.
[2] 程濤,施水才,王霞,等.基于同義詞詞林的中文文本主題詞提取[J].廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2007, 25(2):145-148.
[3] 王帥. 情感分析的特征提取算法與觀點的聚類算法研究[D]. 昆明:昆明理工大學(xué), 2015.
[4] Zhang Y, Li Z, Ren F, et al. Semi-automatic emotion recognition from textual input based on the constructed emotion thesaurus[C]//Natural Language Processing and Knowledge Engineering, 2005. IEEE NLP-KE'05. Proceedings of 2005 IEEE International Conference on. IEEE, 2005:571-576.
[5] 張瑜, 張德賢. 一種改進(jìn)的特征權(quán)重算法[J]. 計算機(jī)工程, 2011, 37(5):210-212.
[6] 黃賢英, 陳紅陽, 劉英濤,等. 一種新的微博短文本特征詞選擇算法[J]. 計算機(jī)工程與科學(xué), 2015, 37(9):1761-1767.
[7] Zhang B F Shi H J,Ma S Q .An improved text feature weighting algorithm based on TFIDF[J]. Computer Applications and Software, 2011, 28(2):17-20.
[8] 程傳鵬,蘇安婕.一種短文本特征詞提取的方法[J]. 計算機(jī)應(yīng)用與軟件, 2014, 31(6):162-165.
[9] 徐冬冬,吳韶波.一種基于類別描述的TF-IDF特征選擇方法的改進(jìn)[J].現(xiàn)代圖書情報技術(shù), 2015, 31(3):39-48.
[10] 孫飛. 基于改進(jìn)的TF-IDF算法的中文微博話題檢測與研究[D].北京:北京理工大學(xué), 2015.
[11] 馮瑤,馮錫煒,黃越洋,等.基于一階邏輯的個性化E-Learning本體推理研究[J] .遼寧石油化工大學(xué)學(xué)報, 2016, 36(1):65-70.
[12] 劉俊,鄒東升,邢欣來,等.基于主題特征的關(guān)鍵詞抽取[J].計算機(jī)應(yīng)用研究, 2012, 29(11):4224-4227.
[13] Hong B, Zhen D.An extended keyword extraction method[J]. Physics Procedia,2012,24:1120-1127.
[14] 李原.中文文本分類中分詞和特征選擇方法研究[D].長春:吉林大學(xué),2011.
[15] 齊波,王成良.現(xiàn)代漢語短語的機(jī)器識別[J].重慶工學(xué)院學(xué)報(自然科學(xué)),2007,21(12):144-147.
(編輯 陳 雷)
Research on Keyword Extraction Algorithm Based on Improved TF-IDF
Jia Qiang1, Feng Xiwei1, Wang Zhifeng1, Zhu Rui1, Qin Hang2
(1.SchoolofComputerandCommunicatingEngineering,LiaoningShihuaUniversity,F(xiàn)ushunLiaoning113001,China;2.TeacherContinuingEducationSchoolofWanghuaDistrict,F(xiàn)ushunCityofLiaoningProvince,FushunLiaoning113001,China)
In the text feature word extraction algorithm,TF-IDF algorithm is the most common feature weight calculation method. On the basis of the traditional TF-IDF extract algorithm, a new keyword extraction algorithm based on the text word length is proposed.Using chinese phrase word segmentation technique to identify long words and ordinary words in text,the proposed TF-IDF-WL method is used to recompute weights for different lengths of words, and the keywords are sorted by weights. Experimental results show that the new feature word extraction algorithm can more accurately reflect the lexical length of the feature words.Compared with the traditional TF-IDF algorithm, the algorithm has greatly improved accuracy and recall rate.
TF-IDF; Keyword extraction; Word length; Text preprocessing; Text classification
1672-6952(2017)04-0061-04
2017-03-08
2017-04-11
遼寧省教育科學(xué)“十三五”規(guī)劃課題資助項目(JG16DB253);遼寧石油化工大學(xué)教育教學(xué)改革研究項目(20165230060003)。
賈強(qiáng)(1989-),男,碩士研究生,從事語義網(wǎng)和Hadoop大數(shù)據(jù)處理研究;E-mail:616649172@qq.com。
馮錫煒(1970-),男,博士,教授,從事語義網(wǎng)、分布式計算與計算機(jī)網(wǎng)絡(luò)技術(shù)方面的研究;E-mail:feng.xw@163.com。
TP391
A
10.3969/j.issn.1672-6952.2017.04.014
投稿網(wǎng)址:http://journal.lnpu.edu.cn