趙旭東,亞森·艾則孜
(新疆警察學(xué)院 信息安全工程系,新疆 烏魯木齊 830011)
基于互信息和余弦相似度的維吾爾文不良文檔信息過(guò)濾方案
趙旭東,亞森·艾則孜
(新疆警察學(xué)院 信息安全工程系,新疆 烏魯木齊830011)
針對(duì)網(wǎng)頁(yè)中的維吾爾文不良文檔信息的過(guò)濾問(wèn)題,提出一種基于互信息和余弦相似度的不良文檔信息過(guò)濾方案。首先,對(duì)輸入文檔進(jìn)行預(yù)處理,過(guò)濾掉無(wú)用單詞。然后,利用文檔頻率(DF)和互信息(MI)相結(jié)合,從文檔中提取出高區(qū)分度的特征向量。最后,利用TF-IDF方法對(duì)特征進(jìn)行加權(quán),并計(jì)算加權(quán)特征向量與分類模板中的各類加權(quán)特征向量之間的余弦相似度,來(lái)分類文檔并過(guò)濾掉不良文檔信息。實(shí)驗(yàn)結(jié)果表明,該方案能夠有效過(guò)濾不良維吾爾文文檔,正確過(guò)濾率達(dá)到了83.5%。
維吾爾文;不良文檔過(guò)濾;互信息;余弦相似度;TF-IDF
互聯(lián)網(wǎng)的高速發(fā)展促使著人類社會(huì)的進(jìn)步,其蘊(yùn)涵的共享資源不僅提高了人們的工作學(xué)習(xí)效率,還豐富著人們的業(yè)余生活。但由于其開(kāi)放性的特點(diǎn),各種良莠不齊的垃圾信息也隨之泛濫,特別是反動(dòng)、色情、暴力或帶有明顯情緒煽動(dòng)言論的不良信息的入侵,不僅威脅著網(wǎng)絡(luò)信息的安全,更極大地危害著社會(huì)的穩(wěn)定和人們的身心健康[1]。因此,開(kāi)發(fā)網(wǎng)頁(yè)文檔信息過(guò)濾技術(shù)尤為重要。
隨著國(guó)家對(duì)新疆地區(qū)的大力投入,使其信息化建設(shè)得到快速發(fā)展,維吾爾文等少數(shù)民族語(yǔ)種的大量文字信息開(kāi)始以數(shù)字化形式呈現(xiàn)。對(duì)維吾爾文書(shū)寫(xiě)的大量網(wǎng)頁(yè)文檔數(shù)據(jù)進(jìn)行信息過(guò)濾,對(duì)新疆地區(qū)的穩(wěn)定具有重要的意義[2]。目前,對(duì)于英文和中文等大語(yǔ)種的文檔過(guò)濾技術(shù)已經(jīng)得到大量研究,并趨于成熟。然而,對(duì)于維吾爾文表述的數(shù)字文檔的過(guò)濾,相關(guān)方面的研究還處于起步階段[3]。維吾爾文是一種黏著性語(yǔ)言,具有比較復(fù)雜的時(shí)態(tài)變化和豐富的形態(tài)結(jié)構(gòu)[4]。目前,學(xué)者提出了一些對(duì)維吾爾文的文檔分類技術(shù),例如文獻(xiàn)[5]提出一種基于語(yǔ)義詞特征提取的維吾爾文文本的分類方法,用一種組合統(tǒng)計(jì)量(DME)來(lái)度量文本中相鄰單詞之間的關(guān)聯(lián)程度,以此來(lái)提取特征詞。文獻(xiàn)[6]利用χ2統(tǒng)計(jì)量來(lái)提取詞干,并利用支持向量機(jī)(SVM)算法來(lái)構(gòu)造了維吾爾文文本分類器。
本文結(jié)合維吾爾文特點(diǎn),提出一種基于互信息和余弦相似度的維吾爾文不良文檔信息過(guò)濾方案。首先,對(duì)輸入文檔進(jìn)行預(yù)處理,過(guò)濾掉無(wú)用信息。然后,利用文檔頻率(Document Frequency,DF)和互信息(Mutual Information,MI)相結(jié)合,提取文檔中最能代表文檔屬性的特征向量。最后,計(jì)算提取的特征向量與分類模板中的各類特征向量之間的余弦相似度,來(lái)分類文檔并過(guò)濾掉不良文檔信息。實(shí)驗(yàn)結(jié)果表明,本文方案能夠有效過(guò)濾不良維吾爾文文檔。
本文提出一種維吾爾文文檔信息過(guò)濾方案,首先,需要收集一些已分類的文檔作為訓(xùn)練文檔集。本文過(guò)濾方案主要包括3個(gè)部分:1)維吾爾文文檔預(yù)處理階段:在該階段,過(guò)濾掉停留詞,并提取維吾爾文單詞的詞干,以降低文檔維度。2)特征提取階段:本文使用文檔頻率(DF)法根據(jù)特征出現(xiàn)頻率提取初始特征集,然后利用互信息(MI)法計(jì)算特征與類之間的互信息來(lái)獲得最終特征集,以一組特征向量來(lái)表示一個(gè)文檔,即用向量空間模型(VSM)表示文檔。3)文檔過(guò)濾階段:通過(guò)詞頻-逆向文件頻率 (TF-IDF)方法對(duì)提取的特征進(jìn)行加權(quán),計(jì)算輸入文檔特征向量與訓(xùn)練文檔集獲得的分類模板中各類的特征向量之間的余弦相似度,來(lái)判斷輸入文檔的屬性。另外,在文檔過(guò)濾之后,通過(guò)人為判斷文檔過(guò)濾正確性,并作為反饋來(lái)調(diào)整相似度比較的判斷閾值R,以獲得最佳過(guò)濾性能。本文文檔過(guò)濾方案框架如圖1所示。
圖1 本文文檔過(guò)濾方案框架
1.1文檔預(yù)處理
維吾爾文文檔預(yù)處理主要包括兩個(gè)部分:文檔過(guò)濾和詞干提取。其中,文檔過(guò)濾用于過(guò)濾掉文檔中非維吾爾文文字和停用詞;詞干提取是用來(lái)提取文檔中具有真正含義的詞匯。經(jīng)過(guò)文檔預(yù)處理,可將文檔原始特征維度降低約一半。
文檔去噪過(guò)程中,首先對(duì)文檔進(jìn)行過(guò)濾,獲得維吾爾文單詞集。然后,通過(guò)和事先準(zhǔn)備好的停用詞表進(jìn)行比對(duì),過(guò)濾掉停用詞。停用詞為對(duì)文檔主題沒(méi)有貢獻(xiàn),不包含文章類別信息的詞,例如介詞、副詞、代詞等。去掉停留詞能夠?qū)崿F(xiàn)特征降維,提高分類精度[7]。
詞干提取過(guò)程中,首先,根據(jù)維吾爾文單詞與單詞之間的空格符來(lái)進(jìn)行分詞。由于維吾爾文單詞是由字母拼寫(xiě)而成的,通過(guò)將不同的詞綴粘貼到單詞的頭部來(lái)實(shí)現(xiàn)語(yǔ)法功能,所以,提取文檔中能夠代表真實(shí)含義的詞匯是困難的。維吾爾文中,同一詞干可以演變?yōu)楹芏嗖煌x的詞語(yǔ),雖然這些詞語(yǔ)的詞形不同,但詞義卻不會(huì)有很大區(qū)別[8]。其中一個(gè)典型例子如表1所示。為了提取單詞的詞義,并考慮特征的數(shù)量,本文以詞干(學(xué)校)作為特征項(xiàng),以此從文檔中提取出詞干集。
1.2基于DF和MI的特征提取
目前,主流的特征提取方法有文檔頻率(DF)、信息增益(IG)、χ2統(tǒng)計(jì)量(CHI)和互信息(MI)等[9]。這些特征選擇方法基本思想都是基于一種評(píng)估函數(shù),評(píng)估每個(gè)特征詞的價(jià)值,然后根據(jù)價(jià)值將特征詞從高到低進(jìn)行排序,根據(jù)設(shè)定的特征數(shù)量,從高到低提取特征詞作為特征集合,以此獲得具有高區(qū)別能力的特征集并降低特征維數(shù)。
表1 維吾爾詞語(yǔ)變體
DF方法只計(jì)算文檔集中具有特征項(xiàng)文檔的數(shù)量,若只利用其來(lái)提取特征較為粗糙[10]。MI方法根據(jù)特征和類別共同出現(xiàn)的概率,度量特征和類別的相關(guān)性,所提取的特征較為精確,但計(jì)算量較大[11]。為此,本文將DF方法和MI方法相結(jié)合,首先,在預(yù)處理后的文檔中利用DF方法,計(jì)算出具有每個(gè)詞條的文檔數(shù),將在設(shè)定上下限閾值之間的特征加入到初始特征集中,以此去掉一些低頻詞和高頻詞。然后,在生成的初始特征集上,根據(jù)每個(gè)詞干和每個(gè)類別之間的MI值來(lái)選擇具有較高類別區(qū)分能力的詞干作為最終特征,進(jìn)一步降低特征維數(shù)。
DF方法中的文檔頻率指文檔集中出現(xiàn)某個(gè)特征項(xiàng)的文檔個(gè)數(shù)。在文檔集中含有該特征的文檔數(shù)量為:
本文設(shè)定DF(v)的上下閾值分別為5%~70%。出現(xiàn)頻率低于5%的特征視為很少出現(xiàn)的特征,其在文檔分類中的作用較小。而出現(xiàn)頻率大于70%的特征,由于在文檔中廣泛分布,所以其區(qū)別性較低。
特征V=(v1,v2,…,vd)和類C=(c1,c2,…,ck)之間的MI可表示為:
特征v1在類c1中出現(xiàn)的概率越高,則互信息I(c1,v1)就越大,則相關(guān)性越大。若本文設(shè)定對(duì)每類提取N個(gè)特征,那么則將互信息從大到小排名前N的特征作為特征向量。
1.3基于余弦相似度的文檔過(guò)濾
在提取文檔特征之后,可通過(guò)計(jì)算輸入文檔和訓(xùn)練模板之間的相似度來(lái)判斷文檔屬性。其中,訓(xùn)練模板是通過(guò)從已知文檔類別的訓(xùn)練集中提取的特征訓(xùn)練獲得,其由每種文檔類別的特征向量組成。
目前,計(jì)算相似度的主流方法是計(jì)算兩個(gè)文檔特征向量的內(nèi)積或內(nèi)積的某種相關(guān)系數(shù)。其中,向量?jī)?nèi)積表示的是一個(gè)向量在另一個(gè)向量上的投影,內(nèi)積越大,兩個(gè)文本相似度就越大。本文采用夾角余弦距離公式來(lái)計(jì)算其相似度,夾角余弦相似度衡量的是向量空間兩個(gè)向量的夾角,更加體現(xiàn)的是方向上的差異,而不是位置,這就是歐式距離和夾角余弦的最大不同之處。向量夾角的余弦值越大,表明兩者之間的相似度越大。
在計(jì)算余弦相似度之前,需要對(duì)特征進(jìn)行加權(quán)。本文利用經(jīng)典的TF-IDF方法[12],根據(jù)特征項(xiàng)的詞頻(TF)和逆文檔頻率(IDF)來(lái)加權(quán)特征,并進(jìn)行歸一化處理到[0,1]范圍內(nèi),表達(dá)式為:
其中,tfvi為詞頻,表示特征vi在文檔d中出現(xiàn)的次數(shù);idfvi為逆文檔頻率,表示訓(xùn)練文檔集中包含特征vi的文檔數(shù)量(即DF(vi))倒數(shù)的log值,表達(dá)式為:
令A(yù)=(a1,a2,…,an)和B=(b1,b2,…,bn)表示兩個(gè)特征向量對(duì)應(yīng)的權(quán)重向量,那么這兩個(gè)特征權(quán)重向量之間的余弦相似度如式(5)所示:
在相似度計(jì)算結(jié)束后,設(shè)定將相似度大于閾值R的文檔返回給用戶,否則屏蔽該文檔。
2.1實(shí)驗(yàn)數(shù)據(jù)
為了評(píng)估本文方案的性能,構(gòu)建一個(gè)計(jì)算平臺(tái),以Intel酷睿i5作為CPU,主頻為2.4 Ghz,應(yīng)用Windows7系統(tǒng)環(huán)境,利用Matlab2011進(jìn)行實(shí)驗(yàn)。
對(duì)于維吾爾文的文本分類應(yīng)用,目前還沒(méi)有可使用的標(biāo)準(zhǔn)文本集。由于本文方案是應(yīng)用于不良信息過(guò)濾領(lǐng)域,所以本文從新疆政府網(wǎng)、天山網(wǎng)和新疆公安犯罪數(shù)據(jù)庫(kù)中的不良文檔中收集了2 000篇文檔,通過(guò)人工方式將其分為5類文檔:1)正常文檔、2)暴恐傾向文檔、3)色情文檔、4)賭博文檔、5)反動(dòng)言論文檔,其中正常文檔800篇,其它各類不良文檔分別為300篇。在數(shù)據(jù)集中均勻選取1 200篇文本作為訓(xùn)練集,剩余800篇作為測(cè)試集。
2.2性能指標(biāo)
本文采用分類中常用的性能指標(biāo)F1值[13]來(lái)評(píng)估方案性能,其由分準(zhǔn)確率(Precision)和召回率(Recall)計(jì)算獲得。對(duì)于某一個(gè)類別i,其準(zhǔn)確率、召回率、F1值分別可以描述為:
在對(duì)過(guò)濾器性能進(jìn)行統(tǒng)計(jì)計(jì)算時(shí),用宏均值(Macro-F1)參數(shù)來(lái)反應(yīng)過(guò)濾器的性能,表達(dá)式為:
2.3分類過(guò)濾實(shí)驗(yàn)
實(shí)驗(yàn)中,首先對(duì)維吾爾文文本集進(jìn)行預(yù)處理,為了方便后續(xù)處理,把文本轉(zhuǎn)換成UTF-8二進(jìn)制編碼格式[14]。然后,過(guò)濾掉文本中的非維吾爾文字符和停用詞。預(yù)處理結(jié)束后,獲得一個(gè)具有24 420個(gè)詞的初始詞語(yǔ)集。然后進(jìn)行詞干提取,將同一詞根演變而來(lái)的特征進(jìn)行聚合,使詞干數(shù)降維到13 826個(gè)。
然后通過(guò)本文提出DF+MI特征提取算法,提取出和類別具有高互信息(高區(qū)分度)的詞干組成最終特征向量。設(shè)定每個(gè)類別提取500~2 000個(gè)特征詞作為特征向量,表2列出了暴恐和反動(dòng)文檔類中的前5個(gè)特征詞。
表2 2種類別的前5名高區(qū)分度的特征詞
將本文方案與文獻(xiàn)[5]和文獻(xiàn)[6]提出的方案進(jìn)行比較,在特征向量大小為500~2 000個(gè)特征詞下,以Macro-F1作為性能指標(biāo)評(píng)估正確分類過(guò)濾的性能。實(shí)驗(yàn)中,每次實(shí)驗(yàn)計(jì)算所有測(cè)試文檔被分為5個(gè)類的F1值,并取宏均值Macro-F1,相同實(shí)驗(yàn)執(zhí)行10次,最終獲得平均Macro-F1值,結(jié)果如圖2所示。
圖2 各種方案分類過(guò)濾的Macro-F1值
從圖2可以看出,隨著特征數(shù)量的增加,各種方案的過(guò)濾性能逐漸提高,但當(dāng)達(dá)到一定程度上呈現(xiàn)平穩(wěn)狀態(tài)。這是因?yàn)椋卣鬟x取數(shù)量過(guò)少時(shí),導(dǎo)致很多對(duì)分類過(guò)濾具有較大貢獻(xiàn)的特征詞被遺漏[15];當(dāng)特征數(shù)量過(guò)多時(shí),就會(huì)造成特征冗余,增加計(jì)算復(fù)雜度,從而影響了分類過(guò)濾性能。然而,本文方案始終保持最高的分類過(guò)濾性能,當(dāng)特征向量長(zhǎng)度為1 400左右時(shí),性能最佳,獲得的F1值達(dá)到了0.835。這是因?yàn)楸疚脑谔卣魈崛‰A段首先利用DF方法過(guò)濾掉一些特征詞,降低了特征提取的計(jì)算量。同時(shí),利用余弦距離來(lái)計(jì)算輸入文檔
為了凈化新疆地區(qū)維吾爾文網(wǎng)頁(yè)中的不良文檔,促進(jìn)地區(qū)穩(wěn)定,文中提出一種基于互信息和余弦相似度的維吾爾文網(wǎng)頁(yè)不良文檔信息過(guò)濾方案。利用文檔頻率(DF)和互信息(MI)相結(jié)合,從文檔中提取出高區(qū)分度的特征向量。利用TF-IDF方法對(duì)特征進(jìn)行加權(quán),并計(jì)算加權(quán)特征向量與分類模板中的各類加權(quán)特征向量之間的余弦相似度,來(lái)分類文檔并過(guò)濾掉不良文檔信息。實(shí)驗(yàn)結(jié)果表明,與其它方案相比,本文方案能夠有效過(guò)濾網(wǎng)頁(yè)中的不良維吾爾文文檔。
[1]丁霄云,劉功申,孟魁.基于一類SVM的不良信息過(guò)濾算法改進(jìn)[J].計(jì)算機(jī)科學(xué),2013,40(11):86-90.
[2]阿力木江·艾沙,庫(kù)爾班·吾布力,吐?tīng)柛ひ啦祭?維吾爾文Bigram文本特征提?。跩].計(jì)算機(jī)工程與應(yīng)用,2015,51 (3):216-221.
[3]熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計(jì)算機(jī)工程,2014,40(10):132-136.
[4]亞力青·阿里瑪斯,哈力旦·阿布都熱依木,陳洋.基于向量空間模型的維吾爾文文本過(guò)濾方法[J].新疆大學(xué)學(xué)報(bào):自然科學(xué)版,2015(2):221-226.
[5]吐?tīng)柕亍ね泻咸?,艾克白爾·帕塔爾,艾斯卡爾·艾木都?語(yǔ)義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J].中文信息學(xué)報(bào),2014,28(6):140-144.
[6]阿力木江·艾沙,吐?tīng)柛ひ啦祭?,?kù)爾班·吾布力.基于SVM的維吾爾文文本分類研究[J].計(jì)算機(jī)工程與科學(xué),2012,34(12):140-144.
[7]Uysal A K,Gunal S.The impact of preprocessing on text classification[J].Information Processing&Management,2014,50(7):104-112.
[8]田生偉,鐘軍,禹龍.維吾爾文多詞領(lǐng)域術(shù)語(yǔ)的自動(dòng)抽?。跩].中文信息學(xué)報(bào),2015,29(2):133-141.
[9]李建林.一種基于PCA的組合特征提取文本分類方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2398-2401.
[10]Bharti K K,Singh P K.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J].Expert Systems with Applications,2015,42(6):3105-3114.
[11]Shadvar A.Dimension reduction by mutual information feature extraction[J].International Journal of Computer Science&Information Technology,2012,4(3):231-245.
[12]張保富,施化吉,馬素琴.基于TFIDF文本特征加權(quán)方法的改進(jìn)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(2):17-20.
[13]Liu J.A Network Information filtering method based on node energy transfer[J].Advanced Materials Research,2014,25 (9):4400-4404.
[14]阿力木江·艾沙,吐?tīng)柛ひ啦祭?,艾山·吾買爾,等.基于機(jī)器學(xué)習(xí)的維吾爾文文本分類研究 [J].計(jì)算機(jī)工程與應(yīng)用,2012,48(5):110-112.
[15]Arasaratnam I.Sensor fusion with square-root cubature information filtering[J].Intelligent Control&Automation,2013,4(1):11-17.
A uyghur bad text information filtering scheme based on mutual information and Cosine similarity
ZHAO Xu-dong,Yasen·AIZEZI
(Department of Information Safety Engineering,Xinjiang Police College,Urumqi 830011,China)
For the issues that the Uyghur bad text information filtering in the web page,an information filtering scheme based on mutual information and cosine similarity is proposed.First,the input document is preprocessed to filter out useless words. Then,the combination of document frequency(DF)and mutual information(MI)is used to extract the feature vector which with high degree of differentiation.Finally,the feature is weighted by the TF-IDF method,and calculate the cosine similarity between the weighted feature vector and the weighted feature vectors in the classification template,so as to classify the documents and filter out the bad document information.Experimental results show that the proposed scheme can effectively filter the bad Uyghur documents,and the correct filtering rate is 83.5%.
Uyghur;bad text information;mutual information;cosine similarity;TF-IDF
TN918
A
1674-6236(2016)16-0109-04
2016-02-06稿件編號(hào):201602020
新疆維吾爾自治區(qū)自然科學(xué)基金科研項(xiàng)目(2015211A016)
趙旭東(1977—),男,安徽蕪湖人,碩士,講師。研究方向:信息安全、軟件工程等。