王 勇,王李福,鄒 輝,何養(yǎng)明
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)
在進(jìn)行文本處理時,目前應(yīng)用最廣泛的文本表示方法是由Salton等[1]提出的向量空間模型,但是該模型在計(jì)算特征項(xiàng)權(quán)重時假設(shè)特征項(xiàng)之間相互獨(dú)立,沒有任何關(guān)聯(lián),是一種純統(tǒng)計(jì)的表示方法。事實(shí)上,在特征項(xiàng)之間存在一定的語義相關(guān)性,應(yīng)將特征項(xiàng)的語義關(guān)系引入到文本表示中[2]。另外該方法在計(jì)算tfi和idfi時未考慮特征項(xiàng)在不同類別的分布情況對權(quán)重的影響[3]。
針對文本處理實(shí)際應(yīng)用中,各文本沒有明確的類別信息以及基于傳統(tǒng)向量空間模型的TF-IDF方法在計(jì)算特征項(xiàng)權(quán)重時缺乏語義關(guān)系和類別區(qū)分度的問題,姚海英[4]提出了一種基于類內(nèi)信息熵和特征項(xiàng)頻度的卡方統(tǒng)計(jì)方法ICHI,該方法引入了類內(nèi)信息熵和特征項(xiàng)頻度兩個因子,對特征權(quán)重計(jì)算忽略低頻詞以及內(nèi)部分布情況對權(quán)重的影響的不足進(jìn)行了優(yōu)化。李明濤等[5]提出了結(jié)合TF-IDF與基于WordNet的詞義相似度的權(quán)重計(jì)算方法,該方法優(yōu)化了權(quán)重計(jì)算時忽略特征語義相似關(guān)系影響的問題,但是該方法未考慮特征項(xiàng)類別分布對權(quán)重計(jì)算的影響。李學(xué)明等[6]為提高特征權(quán)重準(zhǔn)確度,提出了一種基于信息增益與信息熵的TF-IDF計(jì)算方法。陶舒怡等[7]利用詞項(xiàng)之間的語義關(guān)系,通過計(jì)算新增文本與已知類別簇的相關(guān)性實(shí)現(xiàn)聚類。翟東海等[8]通過計(jì)算平均語義相似度獲得特征詞和報道之間的關(guān)聯(lián)度,但是該方法未考慮特征詞在不同類別的分布對關(guān)聯(lián)度的影響。
以上都是在知道文本集合中文本所屬類別的前提下計(jì)算特征項(xiàng)權(quán)重,但是在文本處理實(shí)際應(yīng)用中事先沒有提供分類的參考模式,不知道文本屬于哪一類。而模糊聚類可以得到文本屬于各個類別的不確定性程度,建立起了文本對于類別的不確定性程度的描述,能夠客觀反映文本的類別信息。因此為先獲取含有類別信息的文本,采用了模糊聚類[9]的方法,然后提出了類別信息熵,結(jié)合語義貢獻(xiàn)度,對特征權(quán)重計(jì)算方法進(jìn)行了改進(jìn)。
模糊集相關(guān)定義及定理參見文獻(xiàn)[9],由模糊集定義及定理可知,任意一個模糊相似矩陣可以經(jīng)過處理得到一個模糊等價矩陣。因?yàn)樵诓捎媚:垲惙治鰰r,需要找到論域中各元素的等價關(guān)系,但是它們通常不是等價關(guān)系。因此需要將標(biāo)準(zhǔn)化后的數(shù)據(jù)處理成模糊相似矩陣,然后將模糊相似矩陣處理成模糊等價矩陣,最后進(jìn)行聚類得到聚類簇。模糊聚類的步驟參見文獻(xiàn)[10]。
在文本處理前,獲得文本數(shù)據(jù)集合的類別信息可以提高文本表示的準(zhǔn)確程度;同時考慮到特征項(xiàng)語義關(guān)系對特征項(xiàng)權(quán)重計(jì)算造成的影響,本文提出了一種有效的特征權(quán)重計(jì)算方法。
一篇文本通過向量空間模型表示,并且一篇文本表示一個概念,因此組成向量空間模型的各個特征項(xiàng)就共同表示了該篇文本。針對文本的概念受到各個特征項(xiàng)之間語義關(guān)系影響的問題,提出了一種語義貢獻(xiàn)度的特征詞權(quán)重計(jì)算方法。
在計(jì)算語義貢獻(xiàn)度的過程中需要知道兩個詞語之間的相似度,由于一個詞語通常表達(dá)了很多意思,也即有多個義項(xiàng),因此在進(jìn)行特征項(xiàng)相似度計(jì)算時需要考慮所有的義項(xiàng),本文在計(jì)算特征詞之間相似度時采用文獻(xiàn)[11]的方法。
在向量空間模型中的m(本文m取10)個特征詞之間計(jì)算相似度,用m階方陣表示它們之間的相似度,如下所示
(1)
對稱矩陣Sm×m的行、列數(shù)為特征詞的個數(shù)m,第i和j個特征項(xiàng)之間的相似度用sij表示。如果一個特征項(xiàng)的語義由該特征項(xiàng)和其余特征項(xiàng)相似程度關(guān)系的集合組成,則該特征項(xiàng)與其余特征項(xiàng)的語義關(guān)系為它在語義上所做出的貢獻(xiàn)。
本文提出了一種語義貢獻(xiàn)度的計(jì)算方式
(2)
其中,φ(ti)為特征項(xiàng)ti的語義貢獻(xiàn)權(quán)重因子。
為了得到含有類別信息的文本集合,在數(shù)據(jù)標(biāo)準(zhǔn)化過程中各個元素的權(quán)重按照式(3)計(jì)算
wi=TF×IDF×φ(ti)
(3)
其中,wi為特征項(xiàng)i的特征權(quán)重。
采用文獻(xiàn)[9]中第2.5節(jié)的模糊聚類方法,就能夠得到帶類別信息的文本數(shù)據(jù)集合。
由于在采用TF-IDF方法計(jì)算向量空間模型中特征項(xiàng)權(quán)重的IDF時未考慮特征項(xiàng)在類別之間的分布情況。如果所計(jì)算的特征項(xiàng)集中出現(xiàn)在某一個類別中,則計(jì)算出來的IDF值可以代表該類別,但是當(dāng)該特征項(xiàng)在不同類別中均勻分布,并且出現(xiàn)的該特征項(xiàng)次數(shù)和相同時,得到的IDF值也與集中分布的值相同,顯然不能代表該類別。因此在權(quán)重計(jì)算時應(yīng)當(dāng)考慮特征詞在不同類別中的分布情況,增加集中分布特征詞的權(quán)重,降低沒有集中分布特征詞的權(quán)重。
信息熵表示能量在空間中分布的均勻程度[12]。根據(jù)其定義,信息熵可以用來描述特征項(xiàng)在不同類別之間的分布情況。因此應(yīng)當(dāng)降低分布在不同類別的特征項(xiàng)即信息熵較大的特征項(xiàng)權(quán)重,提高分布在同一類別的特征項(xiàng)即信息熵較小的特征項(xiàng)權(quán)重。因此提出了一種IDF權(quán)重調(diào)節(jié)系數(shù)的計(jì)算方法
(4)
其中,Tj表示是否在第j篇文檔中出現(xiàn)特征詞ti,如果不出現(xiàn)為0,出現(xiàn)為1;NCi表示在類別Ci中出現(xiàn)特征詞ti的文本數(shù);N表示文檔總數(shù);k表示類別總數(shù)。
改進(jìn)后的特征項(xiàng)權(quán)重計(jì)算公式如下所示
改進(jìn)的特征權(quán)重計(jì)算方法的流程具體如下:
(1)將原文檔分詞、去停用詞處理;
(2)計(jì)算各特征項(xiàng)的TF-IDF值,將得到的值從高到低排序;
(4)經(jīng)平移標(biāo)準(zhǔn)差變換將數(shù)據(jù)標(biāo)準(zhǔn)化,再根據(jù)建立模糊相似矩陣的步驟將矩陣變成模糊相似矩陣Rs,將得到的模糊相似矩陣采用平方自合成法得到模糊等價矩陣Re;
(6)據(jù)式(4)計(jì)算ti的I(ti);
(7)據(jù)式(5)計(jì)算ti的權(quán)重值;
(8)重復(fù)(6)、(7)計(jì)算文本向量空間模型中各個特征項(xiàng)新權(quán)重。
文本采用包括環(huán)境(200)、計(jì)算機(jī)(200)、經(jīng)濟(jì)(325)、交通(214)、藝術(shù)(248)、軍事(249)、政治(505)、教育(220)、體育(450)、醫(yī)藥(204)這10個類別文檔的復(fù)旦大學(xué)中文文本分類語料庫數(shù)據(jù)集進(jìn)行測試。本文在4個類別中分別選取20篇文檔作為測試數(shù)據(jù)集,分別是醫(yī)藥、計(jì)算機(jī)、藝術(shù)、經(jīng)濟(jì)。實(shí)驗(yàn)采用聚類效果通用測試指標(biāo)準(zhǔn)確率(9)和召回率(10)進(jìn)行評價。準(zhǔn)確率和召回率計(jì)算方法如下所示
Precision=TP/(TP+FP)
(6)
Recall=TP/(TP+FN)
(7)
其中,F(xiàn)N為同一類的樣本點(diǎn)被分到不同類別的樣本點(diǎn)個數(shù);TP為同一個類別的樣本點(diǎn)被分配到同一個類簇的樣本點(diǎn)個數(shù);FP為不同類別的樣本點(diǎn)被分配到同一個類簇的樣本點(diǎn)個數(shù)。
(1)考慮語義關(guān)系與不考慮語義關(guān)系的模糊聚類的實(shí)驗(yàn)效果對比,實(shí)驗(yàn)結(jié)果見表1。
表1 語義貢獻(xiàn)度的模糊聚類實(shí)驗(yàn)對比
為增加實(shí)驗(yàn)效果的直觀性,采用折線圖方式呈現(xiàn)實(shí)驗(yàn)結(jié)果,如圖1所示。
圖1 語義貢獻(xiàn)度的模糊聚類實(shí)驗(yàn)對比
醫(yī)藥、計(jì)算機(jī)、藝術(shù)、經(jīng)濟(jì)分別用1、2、3、4表示。實(shí)驗(yàn)結(jié)果表明,考慮特征項(xiàng)的語義貢獻(xiàn)度實(shí)驗(yàn)效果更好。
(2)將得到的含有類別信息的文本集合用新的特征項(xiàng)權(quán)重計(jì)算方法得到每篇文檔的向量空間模型,采用經(jīng)典的K-means算法測試算法類別影響的改進(jìn)效果。類別對特征項(xiàng)權(quán)重影響的實(shí)驗(yàn)結(jié)果見表2。
表2 采用K-means聚類算法測試類別區(qū)分實(shí)驗(yàn)對比
為增加實(shí)驗(yàn)效果的直觀性,采用折線圖的方式呈現(xiàn)實(shí)驗(yàn)結(jié)果,如圖2所示。
圖2 采用K-means聚類算法測試類別區(qū)分實(shí)驗(yàn)對比
醫(yī)藥、計(jì)算機(jī)、藝術(shù)、經(jīng)濟(jì)分別用1、2、3、4表示。實(shí)驗(yàn)結(jié)果表明,考慮特征項(xiàng)在類別之間的分布情況時效果更好。
本文針對文本聚類實(shí)際應(yīng)用中大量文本類別信息未知,并且基于向量空間模型的TF-IDF方法進(jìn)行特征項(xiàng)權(quán)重計(jì)算只考慮統(tǒng)計(jì)信息而不考慮特征項(xiàng)在類別分布對權(quán)重影響的問題,提出了一種結(jié)合類別信息熵和語義貢獻(xiàn)度的特征權(quán)重計(jì)算方法。該方法在計(jì)算向量空間模型中的特征項(xiàng)權(quán)重時不僅僅考慮了統(tǒng)計(jì)信息,特征項(xiàng)之間的語義關(guān)系對文本表示的影響同樣作為考慮的因素,因此提出了文本表示的特征項(xiàng)語義貢獻(xiàn)度的方法,結(jié)合模糊聚類得到文本的類別信息;在得到類別信息后,根據(jù)特征項(xiàng)在不同類別的分布情況,提出了類別信息熵的方法,對特征項(xiàng)權(quán)重的計(jì)算進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該方法是有效的。
在后續(xù)的研究中,將在如何得到更加合理的特征項(xiàng)個數(shù)m,能否找到一個合理的取值模型而不是靠人為給定的方面重點(diǎn)考慮;此外特征項(xiàng)在文本中的詞性以及出現(xiàn)的位置對權(quán)重計(jì)算的影響也將納入考慮,得到更加合理的權(quán)重計(jì)算方法。
參考文獻(xiàn):
[1]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the Acm,1975,18(11):613-620.
[2]ZHU Jianlin,YANG Xiaoping,PENG Jingqiao.Research on effect of adding internal semantic relationship into text categorization[J].Computer Science,2016,43(9):82-86(in Chinese).[朱建林,楊小平,彭鯨橋.融入內(nèi)部語義關(guān)系對文本分類的影響研究[J].計(jì)算機(jī)科學(xué),2016,43(9):82-86.]
[3]ZHANG Yufang,WAN Binhou,XIONG Zhongyang.Research on feature dimension reduction in text classification[J].Application Research of Computers,2012,29(7):2541-2543(in Chinese).[張玉芳,萬斌候,熊忠陽.文本分類中的特征降維方法研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(7):2541-2543.]
[4]YAO Haiying.Research on chi-square static feature selection method and TF-IDF feature weighting method for Chinese text classification[D].Changchun:Jilin University,2016(in Chinese).[姚海英.中文文本分類中卡方統(tǒng)計(jì)特征選擇方法和TF-IDF權(quán)重計(jì)算方法的研究[D].長春:吉林大學(xué),2016.]
[5]LI Mingtao,LUO Junyong,YIN Meijuan,et al.Weight computing method for text feature terms by integrating word sense[J].Journal of Computer Applications,2012,32(5):1355-1358(in Chinese).[李明濤,羅軍勇,尹美娟,等.結(jié)合詞義的文本特征詞權(quán)重計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2012,32(5):1355-1358.]
[6]LI Xueming,LI Hairui,XUE Liang,et al.TFIDF algorithm based on information gain and information entropy[J].Computer Engineering,2012,38(8):37-40(in Chinese).[李學(xué)明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計(jì)算機(jī)工程,2012,38(8):37-40.]
[7]TAO Shuyi,WANG Mingwen,WAN Jianyi,et al.An incremental text clustering algorithm based on cluster congruence[J].Computer Engineering,2014,40(6):195-200(in Chinese).[陶舒怡,王明文,萬劍怡,等.一種基于簇相合性的文本增量聚類算法[J].計(jì)算機(jī)工程,2014,40(6):195-200.]
[8]ZHAI Donghai,CUI Jingjing,NIE Hongyu,et al.Topic link detection method based on semantic similarity[J].Journal of Southwest Jiaotong University,2015,50(3):517-522(in Chinese).[翟東海,崔靜靜,聶洪玉,等.基于語義相似度的話題關(guān)聯(lián)檢測方法[J].西南交通大學(xué)學(xué)報,2015,50(3):517-522.]
[9]CHEN Donghui.Research of key techniques in fuzzy clustering based on objective function[D].Xi’an:Xidian University,2012(in Chinese).[陳東輝.基于目標(biāo)函數(shù)的模糊聚類算法關(guān)鍵技術(shù)研究[D].西安:西安電子科技大學(xué),2012.]
[10]WANG Lifu.Research on clustering algorithm of K-medoids and its application in text clustering[D].Chongqing:Chongqing University of Technology,2017(in Chinese).[王李福.K-medoids聚類算法研究及其在文本聚類中的應(yīng)用[D].重慶:重慶理工大學(xué),2017.]
[11]TIAN Jiule,ZHAO Wei.Words similarity algorithm based on tongyici cilin semantic web adaptive learning system[J].Journal of Jilin University(Information Science Edition),2010,28(6):602-608(in Chinese).[田久樂,趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報信息科學(xué)版,2010,28(6):602-608.]
[12]ZHOU Wei,LI Xiaojing.Comprehensive evaluation method based on information entropy theory[J].Science Technology and Engineering,2010,10(23):5839-5843(in Chinese).[周薇,李筱菁.基于信息熵理論的綜合評價方法[J].科學(xué)技術(shù)與工程,2010,10(23):5839-5843.]