朱敏玲, 吳海艋, 石 磊
1(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101)
2(中國(guó)科學(xué)院 軟件研究所,北京 100190)
隨著信息技術(shù)的飛速發(fā)展,萬(wàn)維網(wǎng)的文本信息量急劇增長(zhǎng)[1]. 2008年7月26日,谷歌在官方微博中稱,其索引的網(wǎng)頁(yè)數(shù)量已經(jīng)突破1萬(wàn)億幅,截止至2014年12月底,這一數(shù)值更是突破了30萬(wàn)億幅大關(guān),并以每日50億的增長(zhǎng)速度持續(xù)遞增[2]. 可見,如何從龐大的網(wǎng)頁(yè)數(shù)據(jù)中獲得有用信息成為人們的迫切需求,而自動(dòng)文本分類是獲取相關(guān)信息的一種方法[3].
目前,文本分類領(lǐng)域常用的方法有支持向量機(jī)(SVM),樸素貝葉斯 (Na?ve Bayes),K 近鄰 (KNN),決策樹方法(Decision Tree)等[4],與這些傳統(tǒng)的分類方法相比,粗糙集理論用于分類的優(yōu)點(diǎn)在于其能夠通過(guò)屬性約簡(jiǎn)在不影響分類精度條件下降低特征向量的維數(shù),從而獲得分類所需的最小特征子集,并配合值約簡(jiǎn)得到最簡(jiǎn)的顯式分類規(guī)則[5],最后根據(jù)粗糙集的規(guī)則匹配方法對(duì)待分類文本進(jìn)行有效的分類.
本文首先對(duì)粗糙集理論和中文文本分類的相關(guān)知識(shí)進(jìn)行介紹與分析,及如何將中文文本轉(zhuǎn)化為粗糙集所能處理的知識(shí)庫(kù)系統(tǒng),和如何通過(guò)粗糙集的屬性約簡(jiǎn)和值約簡(jiǎn)來(lái)實(shí)現(xiàn)規(guī)則的提取; 然后,分析本研究中提出的粗糙集規(guī)則匹配的改進(jìn)算法; 再次,對(duì)原始方法和改進(jìn)算法進(jìn)行對(duì)比實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比和分析; 最后,對(duì)本研究工作進(jìn)行了總結(jié).
粗糙集 (Rough Set,RS) 理論是由波蘭華沙理工大學(xué)的Pawlak教授在1982年提出的一種新的數(shù)學(xué)工具,它能有效地處理和分析不精確、不協(xié)調(diào)和不完備的信息,并從中發(fā)現(xiàn)隱含的知識(shí)和潛在的規(guī)律[6]. 本文通過(guò)粗糙集理論中的知識(shí)約簡(jiǎn)對(duì)文本進(jìn)行分類規(guī)則提取,并通過(guò)改進(jìn)的粗糙集匹配方法對(duì)新的待分類文本進(jìn)行規(guī)則匹配和文本分類[7].
定義2. 設(shè)有信息系統(tǒng)S,是記載x在屬性a上的值,表示矩陣中的第i行,第j列元素,被定義為:
定義3. (區(qū)分函數(shù))區(qū)分函數(shù)是從分辨矩陣中創(chuàng)造的. 約簡(jiǎn)算法是先求的每個(gè)屬性的析取,再求其合取[9].
相比于英文文本分類,中文文本分類的一個(gè)主要差別在于預(yù)處理階段,因?yàn)橹形奈谋镜脑~與詞之間沒(méi)有明顯的切分標(biāo)志,不像英文文本的單詞那樣有空格來(lái)區(qū)分. 首先,通過(guò)現(xiàn)有的分詞技術(shù)來(lái)對(duì)中文文本進(jìn)行分詞處理,并在此基礎(chǔ)上提取一些重要的文本特征來(lái)將文本表示在向量空間. 本文的重點(diǎn)在于如何通過(guò)向量空間模型(VSM)和特定的特征選擇函數(shù),將文本分出的字、詞、詞組或概念轉(zhuǎn)化為粗糙集理論所能處理的知識(shí)庫(kù)或信息系統(tǒng),關(guān)鍵詞集即為信息系統(tǒng)中的條件屬性集,文本類別集即為決策屬性集. 通過(guò)Skowron提出的區(qū)分矩陣進(jìn)行屬性約簡(jiǎn)和規(guī)則提取[10],生成決策規(guī)則表,最后采用改進(jìn)的規(guī)則匹配方法確定每條規(guī)則的規(guī)則支持度,最終作用于新文本的分類匹配中.
文本預(yù)處理的過(guò)程主要包括:分詞處理、停用詞過(guò)濾、文本特征提取等[11]. 本文采用IKAnalyzer分詞工具,它是一款以開源項(xiàng)目Lucene為應(yīng)用主體,結(jié)合詞典分詞和文法分析算法的中文分詞組件,其采用了特有的“正向迭代最細(xì)粒度切分算法”,有詞性標(biāo)注、命名實(shí)體識(shí)別、分詞排歧義處理和數(shù)量詞合并輸出等功能,并支持個(gè)人詞條的優(yōu)化的詞典存儲(chǔ),如“北京奧運(yùn)會(huì)”,“1949 年”,“反裝甲狙擊車”被納入用戶詞典后,可被正確分為一個(gè)詞條,而不會(huì)拆分為“北京”、“奧運(yùn)會(huì)”,“1949”,“年”,“反”,“裝甲”,“狙擊”,“車”,同時(shí)停用詞過(guò)濾可以將文本使用頻率較大但對(duì)文本分類沒(méi)有實(shí)際作用的字、詞和詞組,例如:“的”,“和”,“同時(shí)”等,以及網(wǎng)絡(luò)文本中的格式標(biāo)簽進(jìn)行去除,例如:“@123456”,“本文來(lái)源”,“相關(guān)新聞”,“組圖”等,該分詞工具可在不影響文本原信息表達(dá)的情況下進(jìn)行中文分詞,在文本分詞預(yù)處理中具有比較好的效果[12].
在文本分類中,常用的特征選擇函數(shù)有信息增益IG (Information Gain),期望交叉熵ECE (Expected Cross Entropy),互信息MI (Mutual Information)等[13].但是它們并不按類別計(jì)算統(tǒng)計(jì)值,所以選出的特征詞往往都是全局意義上的,而實(shí)際情況中,往往很多極具類別區(qū)分度的詞,如“劇組”,“直升機(jī)”,“導(dǎo)彈”,“演員”,“電子書”等,根據(jù)函數(shù)計(jì)算出的值不是很大,很可能被除掉,為了避免以上情的發(fā)生,本文采用CHI統(tǒng)計(jì)方法進(jìn)行特征詞的選擇[14],選出的特征詞往往更具備類別區(qū)分度,其定義如公式(1)所示.
其中,w代表特定詞匯,Dj代表文本類別,N為文本總篇數(shù);A為詞匯w與類別Dj共現(xiàn)的文本篇數(shù);B為詞匯w出現(xiàn)類別Dj不出現(xiàn)的文本篇數(shù)C為類別Dj出現(xiàn)而詞而匯w不出現(xiàn)的文本篇數(shù);D為詞匯w和類別Dj均不出現(xiàn)的文本篇數(shù).
一般特征項(xiàng)的CHI值選取為對(duì)所有類別的CHI平均值或最大值,但是CHI統(tǒng)計(jì)方法由于考慮了特征項(xiàng)與類別的負(fù)相關(guān)性. 所以,在實(shí)際情況中,選詞結(jié)果往往偏向于類別區(qū)分度更高的那一類或那幾類文本,而對(duì)于文本內(nèi)容比較相似、區(qū)分度較低的文本,選出的詞函數(shù)值普遍偏低,從而只有較少的類別區(qū)分詞被選中,對(duì)后續(xù)的粗糙集知識(shí)庫(kù)的知識(shí)約簡(jiǎn)造成影響.故本文對(duì)CHI特征選擇算法進(jìn)行了改進(jìn),規(guī)定選取時(shí)特征項(xiàng)的CHI值為其對(duì)所有類別的CHI最大值,并加入新的選擇公式對(duì)每類文本的特征詞數(shù)量進(jìn)行重新分配,使選擇出的特征詞更偏向于類別區(qū)分度較低的幾類文本. 假設(shè)從K類文本中選取出N個(gè)特征項(xiàng),改進(jìn)后的公式(2).
即在原方法中,每類文本平均分到的特征詞數(shù)量為N/k,由于原CHI方法在特征選擇上對(duì)類別區(qū)分度較高的文本的偏袒,因此類別區(qū)分度較低的那幾類文本實(shí)際分到的特征詞數(shù)量將小于N/k,改進(jìn)后的公式在N/k的基礎(chǔ)上乘以類別因子AVG(N)/AVGN,Dj消除后者在特征詞數(shù)量上的劣勢(shì),其中為全部文本的前N個(gè)特征項(xiàng)的CHI平均值,AVGN,Dj為類別Dj中前N個(gè)特征項(xiàng)的CHI值平均值. 從式(2)可以看出,類別區(qū)分度較小的類別,其AVG(N)/AVGN,Dj更大,故實(shí)際分到的特征詞數(shù)也更多. 這也更有利于接下來(lái)的粗糙集屬性約簡(jiǎn),因?yàn)樵陬悇e區(qū)分度較大的類別中,過(guò)多的特征詞必定造成條件屬性的冗余,加大屬性約簡(jiǎn)的負(fù)擔(dān),甚至影響屬性約簡(jiǎn)的結(jié)果.
根據(jù)改進(jìn)后的CHI特征選擇方法選出前N個(gè)特征詞組成了決策表的條件屬性集,文本類別集合組成了決策屬性集. 特征詞的權(quán)重根據(jù)TF-IDF公式計(jì)算,如公式(3).
其中,tfik為特征項(xiàng)tk在文本di中出現(xiàn)的頻率,idfik為特征項(xiàng)tk的逆向文檔頻率.
考慮到TF-IDF公式計(jì)算出的權(quán)值為連續(xù)值,因此還需要對(duì)連續(xù)值進(jìn)行離散化,如公式(4).
其中,Weightik表示該特征詞i在文本k中的權(quán)值,Wmin和Wmax分別表示特征詞i在所有決策表中的最小值和最大值.a和b表示縮放范圍[a,b].本文中對(duì)為0的項(xiàng),取0,其余項(xiàng)根據(jù)縮放范圍取[1,3]進(jìn)行權(quán)值離散化.并對(duì)最終結(jié)果取整(如1.123取值為1)作為離散化后的權(quán)值. 經(jīng)過(guò)離散化后的決策表1所示.
表1 文本分類決策表
在規(guī)則提取上分兩步走,首先進(jìn)行特征詞的屬性約簡(jiǎn),隨后再進(jìn)行屬性值約簡(jiǎn).
為刪除對(duì)文本分類決策沒(méi)有影響的特征詞,利用粗糙集的屬性約簡(jiǎn)能力在保證決策表分類能力不變的前提之下,刪除其中不相關(guān)、對(duì)決策結(jié)果不會(huì)造成影響的條件屬性,即文本特征詞,從而達(dá)到屬性約簡(jiǎn)和降低特征維數(shù)的目的[15].
Skowron教授提出的區(qū)分矩陣和區(qū)分函數(shù)可以通過(guò)區(qū)分函數(shù)中的極小析取范式進(jìn)行合取,獲得知識(shí)系統(tǒng)中的所有屬性約簡(jiǎn)的集合,但是對(duì)于最優(yōu)約簡(jiǎn)子集的選擇一直都是一個(gè)NP問(wèn)題[16],因此不在本文的討論范圍之內(nèi). 本文直接選取所有屬性約簡(jiǎn)集合中條件屬性最少的約簡(jiǎn)子集生成新的約簡(jiǎn)決策表,并通過(guò)從約簡(jiǎn)決策表中減少條件屬性的方法,依次計(jì)算每個(gè)條件屬性的重要程度,作為后續(xù)規(guī)則匹配中的一個(gè)重要參數(shù),如公式(5).
與粗糙集理論的屬性約簡(jiǎn)相比,值約簡(jiǎn)再次用到了區(qū)分矩陣獲取每一項(xiàng)中的極小析取范式,但兩者的不同之處在于,在對(duì)結(jié)果進(jìn)行合取轉(zhuǎn)化時(shí),屬性約簡(jiǎn)是從全局出發(fā),對(duì)所有的極小析取范式進(jìn)行統(tǒng)一的合取化,其結(jié)果為所有屬性約簡(jiǎn)結(jié)果的集合[17]. 而值約簡(jiǎn)中是對(duì)區(qū)分矩陣的每一行進(jìn)行合取化,每一條完整的規(guī)則最終被約簡(jiǎn)為了多個(gè)能區(qū)分其他不同類別的最小規(guī)則集合.
表2 決策表
根據(jù)表2構(gòu)造的區(qū)分矩陣如表3所示.
表3 區(qū)分矩陣
以表3的第2行為例,根據(jù)區(qū)分矩陣獲取第i行完全規(guī)則的約簡(jiǎn)規(guī)則的步驟如下.
步驟1. 把每一行的空項(xiàng)和重復(fù)項(xiàng)去除,獲得互不重復(fù)的最小析取范式集.處理后的第2行,第2項(xiàng)和第
步驟2. 把每一行的最小析取范式進(jìn)行合取化,獲得約簡(jiǎn)規(guī)則集的條件屬性下標(biāo)集合. 第2行提取出的規(guī)則集合表示為:
步驟3. 根據(jù)離散定律中的吸收律和冪等律刪除冗余和包含關(guān)系,獲得每一行的最簡(jiǎn)規(guī)則集合. 第2行的最簡(jiǎn)規(guī)則集合表示為:
經(jīng)過(guò)值約簡(jiǎn)后導(dǎo)出的約簡(jiǎn)規(guī)則如表4所示,*代表約簡(jiǎn)掉的屬性權(quán)值.
表4 決策規(guī)則表
然后,對(duì)約簡(jiǎn)后的決策表中的重復(fù)規(guī)則和冗余規(guī)則進(jìn)行合并,可得出表5的決策規(guī)則表.
表5 決策規(guī)則表
則,化簡(jiǎn)后的規(guī)則如下:
對(duì)表2和表5分析可知,經(jīng)過(guò)值約簡(jiǎn)后的決策規(guī)則表,每條規(guī)則的條件前件長(zhǎng)度得到了進(jìn)一步的縮減,同時(shí)每?jī)蓷l規(guī)則之間互不沖突,并且與原決策表的完整規(guī)則一一對(duì)應(yīng). 約簡(jiǎn)后的規(guī)則集更加清晰明了,也具可解釋性.
決策規(guī)則生成之后,就可以運(yùn)用規(guī)則對(duì)新數(shù)據(jù)項(xiàng)或文本進(jìn)行預(yù)測(cè)和分類. 基于粗糙集的規(guī)則匹配分為完全匹配和部分匹配兩個(gè)階段.
1)完全匹配的基本步驟
步驟1. 在分類器中對(duì)新數(shù)據(jù)項(xiàng)進(jìn)行規(guī)則化處理,抽取出與完全規(guī)則條件屬性一一對(duì)應(yīng)的表達(dá)式.
步驟2. 在決策規(guī)則集中進(jìn)行規(guī)則查找,如果有且只有一條規(guī)則與之完全對(duì)應(yīng),則新數(shù)據(jù)項(xiàng)的類別歸至該決策規(guī)則所屬的類別; 如果遍歷完所有規(guī)則后,沒(méi)有任何規(guī)則與之相匹配,則把該數(shù)據(jù)項(xiàng)歸入待定項(xiàng)進(jìn)入部分匹配階段.
步驟3. 如果出現(xiàn)多個(gè)規(guī)則的前件與該數(shù)據(jù)項(xiàng)相匹配,則根據(jù)規(guī)則支持度的排序,把支持度最高的規(guī)則的決策類別定義為新對(duì)象的類別,如公式(7).
其中,Strength(R)是規(guī)則強(qiáng)度(Strength),即訓(xùn)練集中與之匹配的訓(xùn)練項(xiàng)個(gè)數(shù);Specificity(R)是規(guī)則專指度(Specificity),即規(guī)則中條件屬性前件的個(gè)數(shù); ω (R)是規(guī)則支持度[19].
但是,由于規(guī)則專指度會(huì)對(duì)規(guī)則中屬性條件較長(zhǎng)的規(guī)則有所偏袒,導(dǎo)致完全匹配的規(guī)則結(jié)果往往選出條件屬性數(shù)較多的規(guī)則作為分類的依據(jù),這與粗糙集理論的本意有所矛盾. 故本文對(duì)完全匹配的算法進(jìn)行了改進(jìn),在完全匹配階段之前,對(duì)約簡(jiǎn)規(guī)則進(jìn)行規(guī)則預(yù)檢驗(yàn).
2)規(guī)則預(yù)檢驗(yàn)
規(guī)則預(yù)檢驗(yàn)的過(guò)程分為如下幾個(gè)步驟.
步驟1. 選取一份新的驗(yàn)證集,并進(jìn)行規(guī)則化.
步驟2. 將約簡(jiǎn)規(guī)則與驗(yàn)證集進(jìn)行比較,依次求出規(guī)則強(qiáng)度和規(guī)則置信度(Confidence).
此時(shí)的規(guī)則支持度可表示為公式(8).
其中,Confidence(R)是規(guī)則置信度,即約簡(jiǎn)規(guī)則與驗(yàn)證集的規(guī)則條件匹配且類別標(biāo)簽相同的比率. ω (R)值越大,表示根據(jù)該規(guī)則推導(dǎo)出的類別標(biāo)簽的可信賴程度越大,在多個(gè)規(guī)則同時(shí)滿足匹配條件的情況下選擇ω(R)值最高的規(guī)則的類別進(jìn)行匹配,其結(jié)果的準(zhǔn)確率往往更高. 同時(shí),如果某一新數(shù)據(jù)項(xiàng)完全匹配出的規(guī)則的 ω (R)=0或沒(méi)有任何規(guī)則與之相匹配,則把該數(shù)據(jù)項(xiàng)歸入待定項(xiàng)進(jìn)入部分匹配階段.
從以上步驟得知,規(guī)則預(yù)檢驗(yàn)的方法是基于規(guī)則支持度 ω (R)而展開的,其也存在一些缺憾. 若選取的支持度過(guò)高,則某些有價(jià)值的規(guī)則模式不能被獲取; 反之,過(guò)低時(shí)會(huì)產(chǎn)生很多無(wú)實(shí)際意義的規(guī)則模式,分類系統(tǒng)性能下降. 本文通過(guò)實(shí)際訓(xùn)練來(lái)選取合適的特征詞數(shù)來(lái)彌補(bǔ)其缺憾.
部分匹配的基本過(guò)程是逐一減少新數(shù)據(jù)項(xiàng)的條件屬性個(gè)數(shù),直到出現(xiàn)一條或多條規(guī)則能與之匹配為止.其匹配思路與完全匹配基本相同. 因此,部分匹配的規(guī)則支持度 ω (R)可以表示為公式(9).
其中,N為表示新對(duì)象的總條件屬性個(gè)數(shù),Nc表示部分匹配過(guò)程中去掉的條件屬性個(gè)數(shù).
同時(shí),關(guān)于對(duì)新數(shù)據(jù)項(xiàng)條件屬性的去除次序的確定方法,本文規(guī)定,條件屬性去除的先后次序與文章之前的屬性約簡(jiǎn)過(guò)程中計(jì)算的SIG(a,R,D)的升序次序保持一致,即屬性重要程度低的屬性會(huì)在部分匹配的過(guò)程中優(yōu)先被去除.
經(jīng)過(guò)完全匹配和部分匹配之后,如果出現(xiàn)沒(méi)有與現(xiàn)有規(guī)則相匹配的數(shù)據(jù)項(xiàng),則將驗(yàn)證集中規(guī)則支持度最高的結(jié)果賦給該項(xiàng). 到此為止,規(guī)則匹配完全結(jié)束.
為驗(yàn)證該分類器的效果,進(jìn)行了如下的實(shí)驗(yàn)驗(yàn)證.首先,選取合理的訓(xùn)練集是非常必要的. 因?yàn)橛?xùn)練集的文本數(shù)、類別數(shù)及特征項(xiàng)數(shù)對(duì)于分類器的執(zhí)行效果都有重大影響[20]. 在此,選取了UCI(University of California Irvine)數(shù)據(jù)庫(kù)中的iris和diabetes數(shù)據(jù)集和Statlog中的australian和heart數(shù)據(jù)集作為訓(xùn)練樣本,在每個(gè)數(shù)據(jù)集中任意選擇了3類數(shù)據(jù). 同時(shí),考慮到分類器默認(rèn)情況下假設(shè)的樣本數(shù)是大致均勻分布的,如果一類比其他類數(shù)據(jù)量大得過(guò)分,分類器會(huì)把其他類的數(shù)據(jù)判為大的類別上,從而換取平均誤差最小. 為了避免該情況的發(fā)生,采取不同的樣本比例進(jìn)行訓(xùn)練的方法.
然后,采用第2節(jié)中提到的方法對(duì)原始數(shù)據(jù)進(jìn)行處理,并把數(shù)據(jù)樣本分別按 1:1:1 和 5:2:3 的比例隨機(jī)打亂,各生成10份不同的訓(xùn)練集,并記錄平均的分類準(zhǔn)確率情況,實(shí)驗(yàn)結(jié)果如表6所示. 改進(jìn)后的匹配方法在4組數(shù)據(jù)集上的準(zhǔn)確率相比于原方法,分類效果均有不同程度的提升. 同時(shí),改進(jìn)后的匹配方法在訓(xùn)練集數(shù)據(jù)較少的情況下仍獲得不錯(cuò)的分類效果.
表6 4種訓(xùn)練集的訓(xùn)練結(jié)果
表7為特征詞數(shù)相同而取不同訓(xùn)練樣本數(shù)量時(shí),2種匹配方法的訓(xùn)練結(jié)果,數(shù)據(jù)集采用UCI的iris數(shù)據(jù)集. 對(duì)表7進(jìn)行對(duì)比分析,可以看出改進(jìn)后的匹配方法在訓(xùn)練數(shù)據(jù)取不同數(shù)量的情況下,均獲得不錯(cuò)的分類效果; 同時(shí),在訓(xùn)練數(shù)據(jù)小于測(cè)試數(shù)據(jù)的情況下分類效果的提升更加明顯. 因此,在對(duì)訓(xùn)練數(shù)據(jù)量有限的數(shù)據(jù)進(jìn)行分類的時(shí)候,改進(jìn)后的匹配方法更加實(shí)用.
表7 iris訓(xùn)練集的訓(xùn)練結(jié)果(特征詞數(shù)=125)
表8為訓(xùn)練樣本數(shù)相同,而特征詞數(shù)不同的情況下,原方法與本文改進(jìn)后方法的執(zhí)行結(jié)果. 可以看出,并不是特征詞數(shù)量越多準(zhǔn)確率越高. 當(dāng)訓(xùn)練文本數(shù)都取360時(shí),特征詞數(shù)量較少的情況下,改進(jìn)方法的分類效果更佳; 特征詞數(shù)大于125后,兩種匹配方法的分類效果相差不大.
表8 特征詞數(shù)對(duì)分類效果的影響(訓(xùn)練文本數(shù)=360)
經(jīng)過(guò)訓(xùn)練集的訓(xùn)練后,不僅驗(yàn)證了粗糙集約簡(jiǎn)的效率,也驗(yàn)證了本文規(guī)則提取方法的合理性,同時(shí)得到比較好的特征詞參數(shù)范圍.
最后,運(yùn)用一般數(shù)據(jù)進(jìn)行測(cè)試,驗(yàn)證其泛化能力等.從網(wǎng)上下載和收集了來(lái)自騰訊新聞、鳳凰新聞、新浪新聞及網(wǎng)易新聞的新聞報(bào)道組成的語(yǔ)料庫(kù),從中選用了軍事、娛樂(lè)、閱讀和法制四個(gè)類別共600篇文章作為實(shí)驗(yàn)語(yǔ)料. 從特征詞數(shù)量和訓(xùn)練文本數(shù)量?jī)蓚€(gè)方面對(duì)改進(jìn)前后的匹配方法進(jìn)行分析,實(shí)驗(yàn)結(jié)果如表9所示. 由表9可知,當(dāng)特征詞數(shù)都取125時(shí),測(cè)試文本取不同數(shù)量的情況下,改進(jìn)方法的分類效果均有不同程度的提高; 同時(shí),在測(cè)試文本數(shù)較少時(shí),改進(jìn)方法對(duì)分類效果的提升更加明顯.
表9 訓(xùn)練文本數(shù)對(duì)分類效果的影響(特征詞數(shù)=125)
本文把粗糙集理論應(yīng)用于中文文本分類的規(guī)則提取和規(guī)則匹配中,并對(duì)基于CHI方法的類別特征詞選取方法進(jìn)行了相應(yīng)的改進(jìn),使其更加適用于粗糙集的知識(shí)約簡(jiǎn). 在訓(xùn)練階段使用區(qū)分矩陣對(duì)完整決策規(guī)則進(jìn)行屬性約簡(jiǎn)和規(guī)則提取,并通過(guò)規(guī)則預(yù)驗(yàn)證的方法對(duì)規(guī)則支持度進(jìn)行優(yōu)化; 同時(shí),通過(guò)調(diào)整特征詞的數(shù)量來(lái)彌補(bǔ)規(guī)則預(yù)檢驗(yàn)方法所帶來(lái)的信息損失而影響有效規(guī)則提取的問(wèn)題. 實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的規(guī)則匹配方法在實(shí)際的文本分類中分類準(zhǔn)確率更高,同時(shí)在一定程度上克服了原匹配方法容易選出條件前件數(shù)較多的規(guī)則的缺點(diǎn),也使得匹配出的規(guī)則更加簡(jiǎn)單明了,更具可解釋性.
1 Fan W,Bifet A. Mining big data:Current status,and forecast to the future. ACM SIGKDD Explorations Newsletter,2012,14(2):1-5.
2 朱基釵,高亢,劉碩. 互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì). 黨政論壇·干部文摘,2016,(9):19. [doi:10.3969/j.issn.1006-1754.2017.01.016]
3 Shen YD,Eiter T. Evaluating epistemic negation in answerset programming. Artificial Intelligence,2016,237:115-135. [doi:10.1016/j.artint.2016.04.004]
4 吳德,劉三陽(yáng),梁錦錦. 多類文本分類算法GS-SVDD. 計(jì)算機(jī) 科 學(xué),2016,43(8):190-193. [doi:10.11896/j.issn.1002-137X.2016.08.038]
5 程學(xué)旗,蘭艷艷. 網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析. 大數(shù)據(jù),2015,(3):62-71.
6 朱敏玲. 屬性序下的粗糙集與KNN相結(jié)合的英文文本分類研究. 黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2015,32(3):404-408.
7 Mitra S,Pal SK,Mitra P. Data mining in soft computing framework:A survey. IEEE Transactions on Neural Networks,2002,13(1):3-14. [doi:10.1109/72.977258]
8 Miao DQ,Duan QG,Zhang HY,et al. Rough set based hybrid algorithm for text classification. Expert Systems with Applications,2009,36(5):9168-9174. [doi:10.1016/j.eswa.2008.12.026]
9 Grzymala-Busse WJ. Rough set theory with applications to data mining. In:Negoita M,Reusch B,eds. Real World Applications of Computational Intelligence. Berlin,Heidelberg,Germany:Springer,2005.
10 Pawlak Z,Skowron A. Rudiments of rough sets. Information Sciences,2007,177(1):3-27. [doi:10.1016/j.ins.2006.06.003]
11 朱敏玲. 基于粗糙集與向量機(jī)的文本分類算法研究. 北京信息科技大學(xué)學(xué)報(bào),2015,30(4):31-34.
12 馬曉玲,金碧漪,范并思. 中文文本情感傾向分析研究. 情報(bào)資料工作,2013,34(1):52-56.
13 李揚(yáng),潘泉,楊濤. 基于短文本情感分析的敏感信息識(shí)別.西 安 交 通 大 學(xué) 學(xué) 報(bào),2016,50(9):80-84. [doi:10.7652/xjtuxb201609013]
14 黃章樹,葉志龍. 基于改進(jìn)的CHI統(tǒng)計(jì)方法在文本分類中的應(yīng)用. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(11):136-140.
15 梁海龍. 基于鄰域粗糙集的屬性約簡(jiǎn)和樣本約減算法研究及在文本分類中的應(yīng)用[碩士學(xué)位論文]. 太原:太原理工大學(xué),2015.
16 楊傳健,葛浩,汪志圣. 基于粗糙集的屬性約簡(jiǎn)方法研究綜述. 計(jì)算機(jī)應(yīng)用研究,2012,29(1):16-20.
17 胡清華,于達(dá)仁,謝宗霞. 基于鄰域?;痛植诒平臄?shù)值屬性約簡(jiǎn). 軟件學(xué)報(bào),2008,19(3):640-649.
18 段潔,胡清華,張靈均,等. 基于鄰域粗糙集的多標(biāo)記分類特征選擇算法. 計(jì)算機(jī)研究與發(fā)展,2015,52(1):56-65.[doi:10.7544/issn1000-1239.2015.20140544]
19 時(shí)希杰,沈睿芳,吳育華. 基于粗糙集的兩階段規(guī)則提取算法與有效性度量. 計(jì)算機(jī)工程,2006,32(3):60-62.
20 李湘東,曹環(huán),黃莉. 文本分類中訓(xùn)練集相關(guān)數(shù)量指標(biāo)的影響研究. 計(jì)算機(jī)應(yīng)用研究,2014,31(11):3324-3327. [doi:10.3969/j.issn.1001-3695.2014.11.028]