崔超, 黃德海, 崔連和, 申利民
(1.齊齊哈爾大學(xué) 應(yīng)用技術(shù)學(xué)院,黑龍江,齊齊哈爾 161006;2.燕山大學(xué) 信息學(xué)院,河北,秦皇島 066004)
?
目標(biāo)字符串頻率變化對(duì)WCNB分類(lèi)器精度的影響
崔超1, 黃德海1, 崔連和1, 申利民2
(1.齊齊哈爾大學(xué) 應(yīng)用技術(shù)學(xué)院,黑龍江,齊齊哈爾 161006;2.燕山大學(xué) 信息學(xué)院,河北,秦皇島 066004)
為解決MNB分類(lèi)器在測(cè)試樣本變化時(shí)分類(lèi)精度誤差較大的問(wèn)題,采用權(quán)重標(biāo)準(zhǔn)補(bǔ)集分類(lèi)器(WCNB)代替MNB分類(lèi)器,并研究WCNB分類(lèi)器對(duì)不同測(cè)試樣本分類(lèi)精度的變化,針對(duì)WCNB技術(shù)存在目標(biāo)字符串變化所產(chǎn)生的權(quán)重計(jì)數(shù)問(wèn)題,采用目標(biāo)字符串頻率轉(zhuǎn)換技術(shù),建立一種有誤差補(bǔ)償功能的WCNB分類(lèi)器數(shù)學(xué)模型并進(jìn)行了實(shí)驗(yàn)仿真. 實(shí)驗(yàn)仿真結(jié)果驗(yàn)證了WCNB數(shù)學(xué)模型的可行性.
文本分類(lèi);數(shù)學(xué)模型;計(jì)算機(jī)仿真
采用貝頁(yè)斯多項(xiàng)式數(shù)學(xué)模型的文本分類(lèi)器(MNB)在實(shí)際文本處理中運(yùn)行速度快、分類(lèi)效率高,在中小型郵件服務(wù)器的垃圾郵件排查中應(yīng)用廣泛. 但當(dāng)測(cè)試樣本變化時(shí)MNB分類(lèi)器分類(lèi)篩選的誤差比較大,同用戶對(duì)文本文件處理的要求比較,MNB分類(lèi)器即使在單標(biāo)記的文本集合中,對(duì)樣本文件進(jìn)行目標(biāo)字符串匹配檢索時(shí)也存在字符串分割和統(tǒng)計(jì)上的錯(cuò)誤,影響最終的分類(lèi)結(jié)果,更無(wú)法對(duì)多標(biāo)記的文本集合進(jìn)行分類(lèi)篩選. 為解決文本分類(lèi)精度不高的問(wèn)題,分析分類(lèi)質(zhì)量較低的原因,在數(shù)學(xué)處理上將分類(lèi)器數(shù)學(xué)模型當(dāng)成線性對(duì)象處理,利用比MNB模型更成熟的WCNB技術(shù)[1],采用權(quán)重標(biāo)準(zhǔn)補(bǔ)集技術(shù)的WCNB分類(lèi)器,增加獨(dú)立變量,改進(jìn)了同一測(cè)試樣本的分類(lèi)精度. 并以頗具代表性的單標(biāo)記文本Industry Set、20Newsgroups和多標(biāo)記文本(包括macro、micro兩種)為測(cè)試樣本,通過(guò)仿真試驗(yàn)研究了方案的可行性.
1.1 MNB文本分類(lèi)器存在的問(wèn)題
在郵件服務(wù)器對(duì)垃圾郵件的甄別工作中,由于貝頁(yè)斯多項(xiàng)式數(shù)學(xué)模型線性度高、工作原理簡(jiǎn)單[2],所以采用貝頁(yè)斯多項(xiàng)式數(shù)學(xué)模型的文本分類(lèi)器(MNB)得到了廣泛應(yīng)用. 但由于測(cè)試文本標(biāo)記數(shù)量不等和大小不同、貝頁(yè)斯模型獨(dú)立變量在不同級(jí)別分類(lèi)權(quán)重錯(cuò)誤等原因,使貝頁(yè)斯模型產(chǎn)生權(quán)重向量偏移,導(dǎo)致MNB分類(lèi)器文本分類(lèi)精度下降. 在實(shí)際應(yīng)用中,貝頁(yè)斯模型權(quán)重向量有多個(gè)級(jí)別,級(jí)別越高權(quán)重向量越大,MNB系統(tǒng)運(yùn)行時(shí)更容易選擇有較大權(quán)重向量級(jí)別的分類(lèi).
在垃圾郵件分類(lèi)研究領(lǐng)域,由于貝頁(yè)斯模型權(quán)重向量存在級(jí)別差異,針對(duì)一個(gè)分類(lèi)級(jí)別的權(quán)重向量影響研究比較少. 實(shí)際上,對(duì)于不同分類(lèi)級(jí)別,可以把分類(lèi)權(quán)重向量差異視作在貝頁(yè)斯模型中引入獨(dú)立變量后,對(duì)樣本數(shù)據(jù)分類(lèi)的建模操作. 這與符合貝頁(yè)斯模型獨(dú)立假定原則的分類(lèi)級(jí)別相比,引入獨(dú)立變量的模型對(duì)于不符合獨(dú)立假定原則分類(lèi)級(jí)別的影響更突出.
1.2 測(cè)試樣本分析
實(shí)驗(yàn)中有A、B兩個(gè)測(cè)試樣本文件,實(shí)驗(yàn)?zāi)康氖欠謩e研究“北京”和“哈爾濱”兩個(gè)詞在對(duì)應(yīng)樣本內(nèi)權(quán)重變化規(guī)律,建立相應(yīng)的數(shù)學(xué)模型. 利用貝頁(yè)斯模型研究?jī)稍~權(quán)重的區(qū)別,假定名詞“北京”和“哈爾濱”在相應(yīng)文件內(nèi)出現(xiàn)幾率相同,“哈”和“爾濱”在第2個(gè)樣本中單獨(dú)出現(xiàn)概率忽略,則測(cè)試樣本出現(xiàn)1次“哈爾濱”,貝頁(yè)斯模型會(huì)對(duì)本級(jí)別分類(lèi)權(quán)重自動(dòng)計(jì)數(shù)2次,對(duì)“哈”和“爾濱”兩個(gè)對(duì)象所對(duì)應(yīng)權(quán)重分別加1. 由于“北京”和“哈爾濱”在與其所對(duì)應(yīng)分類(lèi)級(jí)別的文件內(nèi)出現(xiàn)的次數(shù)相等,所以,“哈爾濱”出現(xiàn)1次,在權(quán)重累加上是“北京”的2倍,導(dǎo)致樣本B分類(lèi)級(jí)別累加權(quán)重2倍于樣本A分類(lèi)級(jí)別累加權(quán)重,結(jié)果使貝頁(yè)斯模型(MNB)對(duì)分類(lèi)級(jí)別判斷出現(xiàn)錯(cuò)誤. 如果在測(cè)試樣本文檔A中“北京”出現(xiàn)5次,在測(cè)試樣本文檔B中“哈爾濱”出現(xiàn)3次,基于上面錯(cuò)誤計(jì)數(shù)方法,貝頁(yè)斯模型(MNB)對(duì)A、B樣本的分類(lèi)級(jí)別累加權(quán)重分別為5和6,系統(tǒng)從而誤選中測(cè)試樣本文檔B.
實(shí)際分類(lèi)中,貝頁(yè)斯模型(MNB)總會(huì)在兩個(gè)測(cè)試樣本文檔中選擇1個(gè). 以標(biāo)準(zhǔn)的Reuters-21578文集為例,討論包含“furious”一詞的測(cè)試樣本文檔子集,測(cè)試中一種比較準(zhǔn)確的做法是,選擇一個(gè)經(jīng)驗(yàn)閾值b,數(shù)學(xué)表示為
(1)
式中b+,b-為貝頁(yè)斯多項(xiàng)式數(shù)學(xué)模型中的門(mén)檻值[3],相比用單個(gè)測(cè)試樣本文檔選定的閾值,前兩者要小得多,即準(zhǔn)確率更高.
(2)
式中:P函數(shù)為概率函數(shù);θ為αi變化時(shí)的概率變量.
得到的準(zhǔn)確率要略低于b=-94.6時(shí)所對(duì)應(yīng)的分類(lèi)精度,究其原因是貝頁(yè)斯模型(MNB)中引入的獨(dú)立變量比較偏重于包含“furious”目標(biāo)字符串的測(cè)試樣本文檔類(lèi),此時(shí)由MNB確定的“邊界定義權(quán)重”Wci采用的是常用對(duì)數(shù)形式,下標(biāo)c和i分別代表分類(lèi)級(jí)別和相應(yīng)指數(shù),在由測(cè)試數(shù)據(jù)組成的不同集合中,每一個(gè)集合都對(duì)應(yīng)一個(gè)有相應(yīng)數(shù)值范圍的對(duì)數(shù)變量θci,用以標(biāo)記相應(yīng)級(jí)別的測(cè)試樣本,數(shù)學(xué)表示如下,
(3)
2.1 利用WCNB分類(lèi)技術(shù)對(duì)多個(gè)數(shù)據(jù)集合分類(lèi)測(cè)試
在系統(tǒng)權(quán)重向量在標(biāo)準(zhǔn)化過(guò)程中,存在著某一文件分類(lèi)相對(duì)于其他文件分類(lèi)有較高獨(dú)立性的問(wèn)題,為解決這類(lèi)問(wèn)題對(duì)系統(tǒng)精度帶來(lái)的影響,需要對(duì)式(3)的“邊界定義權(quán)重”進(jìn)行優(yōu)化,對(duì)原來(lái)對(duì)數(shù)性質(zhì)的參數(shù)估算值進(jìn)行優(yōu)化,數(shù)學(xué)表示為
(4)
將式(4)稱為基于貝頁(yè)斯模型的權(quán)重標(biāo)準(zhǔn)補(bǔ)集(WCNB)模型,分別采用貝頁(yè)斯多項(xiàng)式數(shù)學(xué)模型分類(lèi)器和WCNB分類(lèi)器,表1為基于4個(gè)著名數(shù)據(jù)集合的分類(lèi)計(jì)算結(jié)果[4-5]. 數(shù)據(jù)集合包括Industry sector、20 Newsgroup、Reuters(micro)和Reuters(macro)等,前2個(gè)集合是單標(biāo)記性質(zhì)的集合,即對(duì)每個(gè)集合中的測(cè)試樣本文檔只分配一個(gè)分類(lèi)標(biāo)記(級(jí)別),對(duì)于每個(gè)二進(jìn)制對(duì)象,采用標(biāo)準(zhǔn)“1對(duì)多冗余”的處理手段,在表中同單分類(lèi)級(jí)別相對(duì)應(yīng)的兩組數(shù)據(jù)是采用MNB分類(lèi)器和WCNB分類(lèi)器的分類(lèi)精度值;Reuters數(shù)據(jù)集是多分類(lèi)標(biāo)記的數(shù)據(jù)集,每個(gè)文檔可以包含多個(gè)標(biāo)記,一個(gè)測(cè)試樣本文檔可分配多個(gè)分類(lèi)級(jí)別,與前兩個(gè)數(shù)據(jù)集相比,對(duì)多標(biāo)記數(shù)據(jù)集的分類(lèi)操作更復(fù)雜,采用標(biāo)準(zhǔn)“多對(duì)多冗余”的處理手段,每次計(jì)算生成大量數(shù)據(jù). 后兩個(gè)數(shù)據(jù)分別對(duì)應(yīng)Reuters數(shù)據(jù)集合在全局和局部精度重調(diào)臨界點(diǎn)的概率分布值,由表中數(shù)據(jù)可以看出,對(duì)于單/多標(biāo)記文集,MNB分類(lèi)器分類(lèi)精度總要低于WCNB分類(lèi)器. 對(duì)于單標(biāo)記性質(zhì)數(shù)據(jù)集合,集中表現(xiàn)在WCNB比MNB有更高的準(zhǔn)確率;對(duì)于多標(biāo)記數(shù)據(jù)集,WCNB比MNB有更高的召回率,郵件接收者在客戶端的郵件統(tǒng)計(jì)也證明WCNB分類(lèi)效果更好.
表1 基于4個(gè)典型數(shù)據(jù)集的MNB和WCNB的文本分類(lèi)精度實(shí)驗(yàn)數(shù)據(jù)對(duì)比
Tab.1 Text classification precision experiments by MNB and WCNB in 4 data sets
數(shù)據(jù)集文本分類(lèi)精度MNBWCNBIndustrysector0589089220Newsgroup08510867Reuters(micro)08390882Reuters(macro)02900589
由表1可以看到,對(duì)MNB分類(lèi)器的應(yīng)用可以進(jìn)一步優(yōu)化到基于貝頁(yè)斯模型的權(quán)重標(biāo)準(zhǔn)補(bǔ)集分類(lèi)器(WCNB)的應(yīng)用,從兩種分類(lèi)器對(duì)于4種不同數(shù)據(jù)集的分類(lèi)精度可以看出,對(duì)目標(biāo)文本確定未標(biāo)記字符串,使用WCNB分類(lèi)器取代MNB分類(lèi)器,可以提高測(cè)試樣本文檔分類(lèi)質(zhì)量.
2.2 WCNB分類(lèi)器工作原理
為解決系統(tǒng)參數(shù)評(píng)估結(jié)果的精度受目標(biāo)字符串頻率變化影響的問(wèn)題,WCNB分類(lèi)器首先對(duì)系統(tǒng)輸入的字符串的出現(xiàn)頻率進(jìn)行調(diào)低處理. 在WCNB分類(lèi)器中非目標(biāo)字符串對(duì)文檔分類(lèi)級(jí)別影響很小,但字符串的隨機(jī)變化會(huì)造成一種兩者有關(guān)聯(lián)的偽表象,對(duì)系統(tǒng)參數(shù)評(píng)估帶來(lái)干擾,進(jìn)而影響目標(biāo)文檔分類(lèi)權(quán)重. 由于眾多的非目標(biāo)字符串出現(xiàn)頻率高,即使它們對(duì)不同級(jí)別的權(quán)重差異比較小,也會(huì)對(duì)目標(biāo)文檔分類(lèi)邊界的確定帶來(lái)干擾,為解決該問(wèn)題,WCNB分類(lèi)器首先利用下面的數(shù)學(xué)模型來(lái)降低字符串頻率變化所帶來(lái)的影響,
(5)
式中δij為一個(gè)邏輯變量,如果字符(串)i在文檔j中出現(xiàn)時(shí),δij值為1、否則為0,其累加和是對(duì)所有目標(biāo)文檔相應(yīng)字符串邏輯變量計(jì)數(shù)結(jié)果的求和.
WCNB解決系統(tǒng)參數(shù)評(píng)估結(jié)果的精度受目標(biāo)字符串所在目標(biāo)文檔長(zhǎng)度變化影響的問(wèn)題,任何一個(gè)目標(biāo)文檔具有很強(qiáng)的字符串獨(dú)立性,一個(gè)特定的字符串如果在文檔A中某位置首次出現(xiàn),則在該位置后的剩余篇幅出現(xiàn)的概率非常大,MNB分類(lèi)器對(duì)這種現(xiàn)象會(huì)產(chǎn)生很大的誤差. 為解決問(wèn)題,WCNB分類(lèi)器對(duì)字符串計(jì)數(shù)進(jìn)行規(guī)范化處理來(lái)提高分類(lèi)精度. 與普通信息檢索轉(zhuǎn)換相似,WCNB通過(guò)對(duì)特定目標(biāo)字符串的頻率轉(zhuǎn)換為每個(gè)文檔生成一個(gè)長(zhǎng)度為1的目標(biāo)字符串頻率向量,以降低文檔長(zhǎng)度不同的影響,數(shù)學(xué)模型為
(6)
式中:k為文檔數(shù)量;i為目標(biāo)字符串. 這種轉(zhuǎn)換在普通信息檢索中是常用的,因?yàn)閷?duì)在一個(gè)數(shù)學(xué)模型內(nèi)生成多個(gè)文檔的概率要進(jìn)行跨文檔比較操作,如要避免小文檔字符串?dāng)?shù)量少的干擾,上面分類(lèi)過(guò)程則只需跨級(jí)別而不跨文檔[6].
上述兩方面轉(zhuǎn)換使WCNB分類(lèi)器在系統(tǒng)參數(shù)評(píng)估中降低了任一個(gè)文檔有過(guò)高的權(quán)重.
通過(guò)對(duì)采用貝頁(yè)斯模型權(quán)重標(biāo)準(zhǔn)補(bǔ)集分類(lèi)器(WCNB)和貝頁(yè)斯多項(xiàng)式數(shù)學(xué)模型分類(lèi)器(MNB)所得到的分類(lèi)結(jié)果數(shù)據(jù)的比較,可以看出WCNB的改進(jìn)效果還是比較明顯的,對(duì)Reuters和Industry sector兩類(lèi)樣本文件集的分類(lèi)結(jié)果進(jìn)行分析,在不同數(shù)據(jù)集內(nèi)測(cè)試數(shù)據(jù)數(shù)量發(fā)生變化的情況下,WCNB的性能改進(jìn)是顯著的. 表中Reuters(macro)局部精度重調(diào)臨界點(diǎn)概率值(召回率)有成倍的提高,利用WCNB可以實(shí)現(xiàn)只用較少的測(cè)試樣本,全面優(yōu)化多分類(lèi)標(biāo)記數(shù)據(jù)集多級(jí)別分類(lèi)質(zhì)量的目標(biāo). 對(duì)于20Newsgroup數(shù)據(jù)集,WCNB還顯示出具備對(duì)跨數(shù)據(jù)集測(cè)試樣本處理的能力,這點(diǎn)對(duì)建立跨數(shù)據(jù)集合的分類(lèi)模型意義重大. 借助于交叉驗(yàn)證手段,當(dāng)對(duì)貝頁(yè)斯多項(xiàng)式分類(lèi)器進(jìn)行平滑參數(shù)優(yōu)化時(shí)[4],所得到的結(jié)果是相似的,這一結(jié)論又提高了WCNB的性能. 實(shí)驗(yàn)證明,使用MNB時(shí),不同的特征變量選擇、分值評(píng)判機(jī)制及預(yù)處理系統(tǒng),都會(huì)對(duì)分類(lèi)計(jì)算結(jié)果精度有影響.
根據(jù)前述使用貝頁(yè)斯分類(lèi)器在文本分類(lèi)時(shí)所帶來(lái)的誤差問(wèn)題,基于貝頁(yè)斯分類(lèi)器的多項(xiàng)式數(shù)學(xué)模型對(duì)目標(biāo)文本建模,系統(tǒng)偏差量較大,效果不佳,采用WCNB過(guò)濾技術(shù)使誤差問(wèn)題得到緩解. 為進(jìn)一步提高測(cè)試樣本準(zhǔn)確率,提出優(yōu)化目標(biāo)字符串頻率參數(shù)的解決方案,分析不同目標(biāo)字符串頻率分布的多個(gè)作業(yè),在與權(quán)重標(biāo)準(zhǔn)補(bǔ)集分類(lèi)器(WCNB)測(cè)試值相比后,調(diào)整目標(biāo)字符串頻率參數(shù),由轉(zhuǎn)換頻率分布曲線顯示的解決方案有更高數(shù)量級(jí)的概率,經(jīng)過(guò)這種轉(zhuǎn)換,使目標(biāo)數(shù)據(jù)更好地匹配于權(quán)重標(biāo)準(zhǔn)補(bǔ)集分類(lèi)器(WCNB),系統(tǒng)分類(lèi)性能比沒(méi)有執(zhí)行調(diào)整目標(biāo)字符串頻率參數(shù)解決方案的MNB顯著提高.
3.1 目標(biāo)字符串頻率轉(zhuǎn)換
為測(cè)試權(quán)重標(biāo)準(zhǔn)補(bǔ)集分類(lèi)器(WCNB)能否按設(shè)計(jì)要求完成文本分類(lèi),參考測(cè)試文本目標(biāo)字符串頻率分布的缺省值,發(fā)現(xiàn)目標(biāo)字符串頻率的轉(zhuǎn)換能呈現(xiàn)出比MNB分類(lèi)器更高數(shù)量級(jí)的概率曲線,代替已有的冪率形狀的分布曲線. 經(jīng)過(guò)簡(jiǎn)單變換,可以使多條冪率形狀分布曲線的多項(xiàng)性更強(qiáng). 為測(cè)量多項(xiàng)式的模型曲線同測(cè)試文本目標(biāo)字符串(頻率)分布曲線的吻合度,將目標(biāo)字符串頻率分布的缺省值與擬采用的多項(xiàng)式分布最大可能值相比較.
為使測(cè)試方案更具有操作性,采用一個(gè)由多個(gè)詞語(yǔ)所組成的集合A,集合中每個(gè)詞語(yǔ)有大致相同出現(xiàn)概率,并以一組有相似長(zhǎng)度的文檔所組成的集合B為作用域,在集合B中創(chuàng)建集合A詞語(yǔ)的目標(biāo)字符串頻率,設(shè)定上述目標(biāo)字符串頻率和由最佳匹配的多項(xiàng)式模型(WCNB)所預(yù)示的頻率用橫軸表示、并設(shè)定長(zhǎng)度1為記錄單位,如圖1所示.
由圖1可以發(fā)現(xiàn),目標(biāo)字符串頻率分布的缺省值同權(quán)重標(biāo)準(zhǔn)補(bǔ)集分類(lèi)器可能提供的預(yù)期值不同,前者的缺省值有更高數(shù)量級(jí)的概率,表示目標(biāo)詞語(yǔ)在當(dāng)前多項(xiàng)式中發(fā)生的概率要遠(yuǎn)大于由最佳匹配的多項(xiàng)式模型所預(yù)示的概率. 例如,在一個(gè)文檔中檢測(cè)到一個(gè)指定詞語(yǔ)平均出現(xiàn)q次,概率的數(shù)學(xué)表達(dá)式為
(7)
可見(jiàn)該事件發(fā)生的概率非常小,但當(dāng)目標(biāo)文檔數(shù)量級(jí)增加到4時(shí),事件發(fā)生概率在現(xiàn)實(shí)中就成為實(shí)際,將這類(lèi)行為發(fā)生在概率上的差異稱為突發(fā)性,概率的數(shù)學(xué)表達(dá)式為
(8)
測(cè)試證明,即使目標(biāo)字符串頻率分布曲線有更高數(shù)量級(jí)的概率,目標(biāo)字符串頻率冪律[6]分布也能很好地實(shí)現(xiàn)目標(biāo)文本建模,完成WCNB模型特征向量建立.
3.2 測(cè)試數(shù)據(jù)曲線的驗(yàn)證
(9)
由于目標(biāo)字符串頻率分布的經(jīng)驗(yàn)值曲線同貝頁(yè)斯多項(xiàng)式分類(lèi)器概率曲線相似,為使WCNB測(cè)試系統(tǒng)的實(shí)際分布概率更加緊密地趨近測(cè)試文本的概率分布. 首先,合理選擇參數(shù)d值以滿足WCNB數(shù)學(xué)表達(dá)式,使目標(biāo)字符串頻率分布經(jīng)驗(yàn)值曲線緊貼冪率分布曲線,確保經(jīng)驗(yàn)值曲線的概率同同冪律分布對(duì)應(yīng)級(jí)別成比例的發(fā)生變化,其次,在系統(tǒng)工作時(shí),調(diào)整當(dāng)d>1時(shí)對(duì)目標(biāo)字符串計(jì)數(shù)的統(tǒng)計(jì),雖然當(dāng)d=1時(shí)的數(shù)據(jù)不如d值取最優(yōu)時(shí)的數(shù)據(jù),但與MNB分布曲線相比,不論對(duì)于單標(biāo)記性質(zhì)數(shù)據(jù)和多標(biāo)記數(shù)據(jù)集集合,WCNB比MNB有更高的準(zhǔn)確率,利用WCNB優(yōu)點(diǎn)的基礎(chǔ)上對(duì)文本做現(xiàn)實(shí)可行的處理. 實(shí)驗(yàn)證明同MNB相比,WCNB分類(lèi)效果更好.
[1] Kush E N. Learning to remove internet advertisements[C]∥Proceedings of the 3rd International Conference on Autonomous Agents Seattle. Washington D.C.: [s.n.],1999:175-181.
[2] Hall R J. How to avoid unwanted e-mail[J]. Communication of ACM, 1998,41(3):88-95.
[3] Cohen W W. Learning rule that classify E-mail[C]∥Proceedings of the AAAI Spring Symposium on Machine Learning in Information Access.Stanford, California: [s.n.],1996:78-84.
[4] 崔超,吳雙,張憲忠,等.基于貝葉斯概率理論的防火墻技術(shù)研究[J].北京理工大學(xué)學(xué)報(bào),2012,32(8):801-804.
Cui Chao, Wu Shuang, Zhang Xianzhong, et al. Firewall technology based on Bayesian probability theory[J]. Transactions of Beijing Institute of Technology, 2012,32(8):801-804.(in Chinese)
[5] 崔超,張憲忠,吳雙.測(cè)試樣本空間變化對(duì)貝頁(yè)斯常規(guī)及補(bǔ)集規(guī)則權(quán)重評(píng)估影響的分析[J].北京理工大學(xué)學(xué)報(bào),2014,34(10):1040-1043.
Cui Chao, Zhang Xianzhong, Wu Shuang. Impact of the change of training sample space on Bayesian regular and complement class rules weight estimate[J]. Transactions of Beijing Institute of Technology, 2014,34(10):1040-1043. (in Chinese)
[6] 崔超,楊威,張憲忠,等.貝葉斯網(wǎng)絡(luò)在垃圾郵件算法中的應(yīng)用研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2011,43(11):145-148.
Cui Chao, Yang Wei, Zhang Xianzhong, et al. Bayesian application study on arithmetic for filtering junk e-mail[J]. Journal of Harbin Institute of Technology, 2011,43(11):145-148.(in Chinese)
(責(zé)任編輯:劉雨)
Effect of String Frequency Changing on the Accuracy of WCNB Classifier
CUI Chao1, HUANG De-hai1, CUI Lian-he1, SHEN Li-min2
(1.School of Applied Science and Technology, Qiqihar University, Qiqihar, Heilongjiang 161006,China;2.School of Information, Yanshan University, Qinhuangdao, Hebei 066004, China)
In order to solve the problems of classification accuracy that produced in text variety testing with MNB classifier, a WCNB classifier was presented to replace MNB classifier. The classification precision changes of the WCNB classifier were studied for different test samples. Due to the weight counting mistakes arisen from target strings changing in the WCNB classification, a target strings frequency conversion technology was adopted to develop a WCNB classifier mathematic model with error compensation function. The simulation result verifies the feasibility of the WCNB mathematic model.
text classification; mathematical model; computer simulation
2015-10-28
國(guó)家自然科學(xué)基金資助項(xiàng)目(61272125)
崔超(1961—),男,教授,博士生導(dǎo)師,E-mail:cv63@163.com.
TP 393
A
1001-0645(2016)04-0382-05
10.15918/j.tbit1001-0645.2016.04.009