亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        QBC主動(dòng)采樣學(xué)習(xí)在垃圾郵件在線過(guò)濾中的應(yīng)用

        2014-08-04 02:38:22陳念唐振民
        關(guān)鍵詞:垃圾郵件訓(xùn)練樣本分類器

        陳念,唐振民

        1.池州學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,安徽池州 247000

        2.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094

        QBC主動(dòng)采樣學(xué)習(xí)在垃圾郵件在線過(guò)濾中的應(yīng)用

        陳念1,2,唐振民2

        1.池州學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,安徽池州 247000

        2.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094

        垃圾郵件指的是通過(guò)群發(fā)方式,未經(jīng)許可強(qiáng)行向用戶發(fā)送的電子郵件,其承載的信息多為商業(yè)廣告,但也充斥著相當(dāng)數(shù)量的詐騙、色情信息,嚴(yán)重干擾了人們的日常生活,甚至?xí)斐梢欢ǖ慕?jīng)濟(jì)損失。提供郵件服務(wù)的網(wǎng)站都有一些垃圾郵件在線過(guò)濾的方法,其實(shí)質(zhì)都是解決二值文本的在線分類問(wèn)題[1],但由于垃圾郵件本身的格式、內(nèi)容等都在不斷地發(fā)生變化,因此分類器也需要獲取相應(yīng)的樣本進(jìn)行更新。網(wǎng)絡(luò)上存在著一些已被標(biāo)注的郵件樣本,但更多的是未經(jīng)用戶標(biāo)注的樣本。當(dāng)前研究方向是:以較小的標(biāo)注成本獲取高價(jià)值的樣本,快速地建立訓(xùn)練集,使得垃圾郵件在線過(guò)濾既能滿足低計(jì)算量的要求,又能兼顧高識(shí)別率的期望。

        主動(dòng)學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)研究的熱點(diǎn),它改變了原先分類器被動(dòng)接受訓(xùn)練樣本的學(xué)習(xí)方式[2],在已有帶標(biāo)簽樣本數(shù)量不足,分類器充分訓(xùn)練得不到保證的條件下,在無(wú)標(biāo)簽樣本池中通過(guò)一定的采樣策略主動(dòng)選擇樣本,經(jīng)專家或用戶標(biāo)注類別后,加入訓(xùn)練集?,F(xiàn)有的采樣策略主要分三種[3]:一是基于不確定性的采樣策略,文獻(xiàn)[4]中提出的邊界采樣(Margin Sampling)是目前廣泛被使用的一種方法,它在SVM超平面附近采集類別歸屬不確定性大的樣本進(jìn)行機(jī)器訓(xùn)練,并在各種實(shí)際應(yīng)用中取得很好分類效果。Huang等人提出的最小—最大視圖方法[5](QUIRE)由于充分考慮了樣本的分布信息,因此能很好地克服噪音帶來(lái)的干擾,是該策略下采樣效果較好的方法。二是基于版本空間縮減的采樣策略,它將所有可能成為目標(biāo)參數(shù)的模型假設(shè)集中在一起,構(gòu)成版本空間(Version Space),在某種算法思想下,逐步淘汰錯(cuò)誤的假設(shè),使版本空間最終收斂于目標(biāo)假設(shè)。委員會(huì)投票算法QBC就是這種策略下最具代表性的采樣方法,由此衍生出的Boosting_QBC[6]和Bagging_QBC[7],都能很好地適應(yīng)多種分類器模型。三是基于誤差縮減的采樣策略,它采集的訓(xùn)練樣本可以最大程度地縮減泛化誤差,如Fisher Information方法。

        本文根據(jù)垃圾郵件在線過(guò)濾應(yīng)用的特點(diǎn),在分析縮減版本空間采樣策略的思想基礎(chǔ)上,采用投票熵度量樣本類別歸屬的不確定性,將熵值超過(guò)閾值θ的樣本進(jìn)行標(biāo)注學(xué)習(xí)。文中提出一種基于QBC的快速采樣方法,即在算法執(zhí)行過(guò)程中,隨著分類器預(yù)測(cè)能力的增強(qiáng),以Δθ的幅度逐步調(diào)高閾值,這樣可以減少采樣次數(shù),降低樣本采集帶來(lái)的標(biāo)注成本和學(xué)習(xí)時(shí)間成本,同時(shí)對(duì)分類精度不會(huì)產(chǎn)生大的影響。

        1 縮減版本空間采樣策略

        設(shè)樣本空間χ={xi|i=1,2,…,n},類標(biāo)識(shí)空間C= {ck|k=1,2,…,m},對(duì)xi∈χ,存在ωj={ωj1,ωj2,…,ωjs}使得表達(dá)式f(ωjp,xi)=ck成立,其中f為分類器模型,ωj為模型參數(shù)集合,p=1,2,…,s。χ中任一樣本都對(duì)應(yīng)有ωj,可以將它映射到空間C中,那么由所有ωj構(gòu)成的集合稱為f參數(shù)的版本空間(Version Space),表示為:

        VS={ωj|j=1,2,…,t}(1)

        圖1(a)中顯示了樣本x1可被4個(gè)超平面劃歸到Class1中(可能的分類面遠(yuǎn)不止4個(gè)),每個(gè)分類面對(duì)應(yīng)的模型參數(shù)ωj構(gòu)成了x1的版本空間。縮減版本空間的做法在于:對(duì)新采集的樣本,版本空間中現(xiàn)有的參數(shù)預(yù)測(cè)其類別,在與專家標(biāo)注的真實(shí)類別比對(duì)后,預(yù)測(cè)錯(cuò)誤的參數(shù)將被淘汰出去。該過(guò)程迭代若干次,版本空間最終將收斂于目標(biāo)參數(shù)ω0。

        如圖1(b)中所示,新樣本x2被plane1、plane2錯(cuò)誤地劃分到Class1中,那么這兩個(gè)分類面對(duì)應(yīng)的參數(shù)被淘汰之后,版本空間的規(guī)模將縮減一半,而新樣本x3對(duì)版本空間的縮減則沒(méi)有產(chǎn)生貢獻(xiàn)。

        從上例可以看,版本空間收斂的速度取決于采集樣本的質(zhì)量。平分版本空間是縮減策略的理想化實(shí)踐,它假設(shè)VS中的t個(gè)元素服從平均概率分布,即每個(gè)元素成為目標(biāo)參數(shù)的概率都是相同的,有P(ω0|ωj)=,則第i次采樣后,樣本空間規(guī)模的數(shù)學(xué)期望是:

        圖1 版本空間概念與縮減過(guò)程圖解

        當(dāng)然,這種獲取分類器參數(shù)的方法,和其他很多方法一樣,不能避免噪音樣本的干擾。設(shè)想如果采集到的新樣本是野值點(diǎn),那么依此訓(xùn)練得出的目標(biāo)參數(shù)可能就是錯(cuò)誤的。

        2 委員會(huì)投票算法

        2.1 算法思想與實(shí)現(xiàn)步驟

        Seung和Freund提出的委員會(huì)投票算法QBC[9-10],是基于版本空間縮減策略中最具代表性的采樣學(xué)習(xí)方法。它依據(jù)采集樣本的歸類不確定性的高低,來(lái)決定該樣本是否用于機(jī)器訓(xùn)練,圖2簡(jiǎn)單表達(dá)了QBC的算法思想。

        圖2 委員會(huì)投票算法的一般步驟

        設(shè)有帶標(biāo)簽樣本集L={<xi,ck>},無(wú)標(biāo)簽樣本集UL={xj},分類器模型f。從L中分離出若干個(gè)子集SL分別訓(xùn)練f獲取分類器當(dāng)前版本空間VS,從VS中選擇r個(gè)元素組成委員會(huì)com。對(duì)采集的樣本xi∈UL,com中的每個(gè)成員對(duì)其類別歸屬有一票的表決權(quán),計(jì)算xi的歸類不確定性值,如果超出了設(shè)定門檻θ,則需經(jīng)專家標(biāo)注獲取其真實(shí)類別ci。調(diào)整L,UL集合的組成:L+xi→L,UL-xi→UL,用L訓(xùn)練模型f,并在測(cè)試集上檢驗(yàn)其泛化精度。

        投票熵是度量樣本歸類不確定性的一種方式[11],由于它沒(méi)有考慮樣本的概率分布情況,因此在采樣時(shí)不會(huì)遺漏有價(jià)值的訓(xùn)練樣本,公式為:

        樣本存在屬于或不屬于某類兩種情況,式中V(c,xi)是委員會(huì)判斷樣本xi屬于c類的票數(shù),|C|是類別數(shù),ε是為防止某類得票數(shù)為0,而出現(xiàn)lb 0這種情況的微調(diào)常量,可取非常小的值。

        QBC算法可描述如下:

        輸入條件:有標(biāo)簽樣本集L,無(wú)標(biāo)簽樣本集UL,標(biāo)注閾值θ

        輸出:訓(xùn)練樣本集L及對(duì)應(yīng)目標(biāo)參數(shù)ω0

        算法將UL中的無(wú)標(biāo)簽樣本逐一取出判斷其歸類不確定性,然后將其熵值超過(guò)門檻θ與否,作為是否進(jìn)行標(biāo)注且作為訓(xùn)練數(shù)據(jù)的依據(jù)。θ∈[0,1]對(duì)算法的執(zhí)行效果影響很大。θ偏大時(shí),由于門檻過(guò)高,很多高價(jià)值樣本得不到作為訓(xùn)練數(shù)據(jù)的機(jī)會(huì),分類器的精度會(huì)降低;而其值偏小時(shí),大量信息量近似的樣本會(huì)被冗余標(biāo)注和訓(xùn)練,增加了學(xué)習(xí)過(guò)程的時(shí)間成本。

        實(shí)際問(wèn)題處理中,Boosting和Bagging方法有效結(jié)合了投票查詢的過(guò)程,使分類模型適應(yīng)復(fù)雜數(shù)據(jù)環(huán)境的能力更強(qiáng)。Boosting_QBC中每個(gè)委員會(huì)成員被賦予不同的動(dòng)態(tài)權(quán)重wj,其投票結(jié)果wj×f(ωj,xi)對(duì)熵值的影響也相應(yīng)存在差異。一次采樣投票后,預(yù)測(cè)誤差e被作為權(quán)值調(diào)整的依據(jù),wj=ln((1-e)/e),低預(yù)測(cè)誤差的成員將被賦予更高的權(quán)重參與下一次投票。Bagging_QBC算法則每次在有標(biāo)簽池L中隨機(jī)選擇由n個(gè)樣本構(gòu)成的子集Li,迭代i次訓(xùn)練分類模型f,由此獲得委員會(huì)成員。Bagging方法對(duì)諸如判定樹、神經(jīng)網(wǎng)絡(luò)等受訓(xùn)練規(guī)模影響較大的不穩(wěn)定模型,具有較強(qiáng)的預(yù)測(cè)能力。

        2.2 快速訓(xùn)練樣本采樣方法

        對(duì)于一些在線應(yīng)用,如垃圾郵件的在線過(guò)濾,由于時(shí)效性要求較高,因此應(yīng)選擇高信息量樣本進(jìn)行針對(duì)性訓(xùn)練,使分類器在較短的時(shí)間內(nèi)獲得強(qiáng)的泛化能力。分類器學(xué)習(xí)效率η與識(shí)別準(zhǔn)確率facc及所需訓(xùn)練樣本數(shù)量nosam之間的關(guān)系顯然滿足:

        訓(xùn)練樣本規(guī)模nosam由兩部分組成:初始訓(xùn)練樣本數(shù)量|L|和標(biāo)注后加入訓(xùn)練集的樣本數(shù)量labelsam。初始樣本是機(jī)器學(xué)習(xí)開始之前就已具備的,可以給分類器提供前期經(jīng)驗(yàn),后續(xù)的學(xué)習(xí)樣本則是訓(xùn)練過(guò)程中主動(dòng)選擇的。labelsam與熵值votentropy及標(biāo)注門檻θ的關(guān)系是:

        隨著機(jī)器學(xué)習(xí)過(guò)程的推進(jìn),版本空間中錯(cuò)誤的模型參數(shù)被逐步淘汰,保留下的參數(shù)成為目標(biāo)參數(shù)的概率也在增加。分類器應(yīng)傾向于選擇具有更高熵值,即信息量更豐富的樣本來(lái)加快版本空間的收斂,而樣本標(biāo)注依據(jù)的閾值θ卻是靜態(tài)的。本文在主動(dòng)采樣學(xué)習(xí)的過(guò)程中,以相同的幅度Δθ逐步增加θ的值,以達(dá)到分類器訓(xùn)練效果不變的前提下,削減訓(xùn)練樣本數(shù)量,提高學(xué)習(xí)速度的目的。

        機(jī)器的學(xué)習(xí)目的是用最小的訓(xùn)練代價(jià)獲得最高的識(shí)別準(zhǔn)確率,即maxη,假定分類器訓(xùn)練后可達(dá)到的準(zhǔn)確率facc=δ,δ為常量,由式(5)得:

        因此,閾值增加幅度Δθ應(yīng)滿足條件:

        與θ的取值一樣,過(guò)大的Δθ值雖然能使采樣的過(guò)程快速地結(jié)束,但也會(huì)遺漏樣本集中有價(jià)值的數(shù)據(jù),分類器由于得不到充分訓(xùn)練而泛化精度不高;Δθ偏小的取值,同樣會(huì)造成冗余采樣,出現(xiàn)獲取樣本對(duì)版本空間的縮減貢獻(xiàn)較低的現(xiàn)象。

        一般的做法是,在分類器學(xué)習(xí)的初始階段,設(shè)置的門檻θ值較低,讓更多的樣本能獲得訓(xùn)練分類器的機(jī)會(huì)。隨著學(xué)習(xí)過(guò)程的推進(jìn),分類器預(yù)測(cè)能力的提升,逐步提高采樣標(biāo)注門檻,以求獲取更高價(jià)值的樣本,更快地結(jié)束分類器的學(xué)習(xí)過(guò)程。

        3 實(shí)驗(yàn)與分析

        UCI的Spambase是從實(shí)際e-mail應(yīng)用中收集出的郵件集合,可用于郵件過(guò)濾器的訓(xùn)練。它包含有4 601個(gè)樣本,分成Non-Spam(正常郵件2 788個(gè))和Spam(垃圾郵件1 813個(gè))兩個(gè)類別,每個(gè)樣本由58個(gè)屬性描述,其中包含1個(gè)類別屬性。認(rèn)定垃圾郵件的依據(jù)有:特定的單詞或字符在e-mail中出現(xiàn)的頻率,及不間斷的大寫字母長(zhǎng)度信息等。表1給出了Spambase集中各樣本的屬性描述。

        實(shí)驗(yàn)在Spambase數(shù)據(jù)集上進(jìn)行,采用SVM二分類模型,分別用隨機(jī)采樣(Random Sampling),委員會(huì)投票采樣(QBC Sampling),衍生的投票采樣(Boosting_ QBC Sampling和Bagging_QBC Sampling)及本文提出的快速Q(mào)BC采樣(Fast QBC Sampling)五種方法在無(wú)標(biāo)簽樣本池中采集訓(xùn)練樣本。通過(guò)實(shí)驗(yàn),比較這些方法的工作效率,并分析θ,Δθ不同取值下,快速Q(mào)BC采樣算法表現(xiàn)出的性能。

        3.1 不同采樣方法分析與比較

        將Spambase按4∶1的比例隨機(jī)劃分成訓(xùn)練集和測(cè)試集,做交叉驗(yàn)證。設(shè)算法中各相關(guān)量初始化為|L|=90,θ=0.2,Δθ=0.002,計(jì)算在測(cè)試集上進(jìn)行不同規(guī)模的采樣,分類器訓(xùn)練所能達(dá)到的精度,表2給出了5次實(shí)驗(yàn)的平均值。

        表2的對(duì)比主要是展現(xiàn)同等采樣規(guī)模下泛化精度的變化,可以看出,隨著由采樣獲得的訓(xùn)練樣本不斷加入,用不同方法獲得樣本訓(xùn)練分類器,獲得的精度都是逐步上升的。隨機(jī)采樣方法在選擇樣本時(shí),由于帶有一定盲目性,因此在不同采樣次數(shù)下,其所能達(dá)到的精度在85%~86%之間,低于表中其他方法。QBC采樣選擇類別不確定性大的樣本加入訓(xùn)練集,相比較于隨機(jī)采樣,同等規(guī)模下能提升泛化精度2%左右。Boosting_QBC和Bagging_QBC采樣優(yōu)勢(shì)在這個(gè)數(shù)據(jù)集上并沒(méi)有體現(xiàn)出來(lái),相同數(shù)量的采樣獲得的泛化精度與QBC采樣相近,最大差值只有0.6%。這是因?yàn)榍罢叩募訖?quán)投票策略更適用于難區(qū)分樣本數(shù)量較多的情形,而后者則在受訓(xùn)練規(guī)模影響偏大的不穩(wěn)定分類模型上更能體現(xiàn)其針對(duì)性,可以推斷,郵件分類數(shù)據(jù)集Spambase和當(dāng)前模型并不滿足充分發(fā)揮它們預(yù)測(cè)優(yōu)勢(shì)的條件。Fast QBC方法則在采樣過(guò)程,不斷尋找更高價(jià)值訓(xùn)練樣本,因而能獲得優(yōu)于其他方法的效率,實(shí)驗(yàn)結(jié)果證實(shí)了這點(diǎn),例如在采樣規(guī)模為130時(shí),精度較常規(guī)QBC方法有1.4%的提升,比Boosting_QBC也增加了1%。

        圖3給出了相同θ前提下,幾種QBC方法在無(wú)標(biāo)簽樣本池中采樣次數(shù)的對(duì)比,其中Fast QBC采用Δθ=0.005。

        由圖3可見,四種投票采樣方法隨著采樣閾值θ的遞增,在無(wú)標(biāo)簽池中采樣的次數(shù)呈現(xiàn)明顯的下降趨勢(shì)。QBC、Boosting_QBC及Bagging_QBC由于使用固定值的采樣標(biāo)注門檻,相同閾值下的采樣次數(shù)差別并不明顯。而Fast QBC以Δθ的步長(zhǎng)動(dòng)態(tài)提升門檻設(shè)置,因此能更為快速地結(jié)束采樣過(guò)程,建立訓(xùn)練樣本集。

        3.2 參數(shù)設(shè)置對(duì)Fast QBC的影響

        在2.2節(jié)中提到,參數(shù)θ和Δθ的取值是影響Fast QBC采樣數(shù)量與質(zhì)量的重要因素,而引入調(diào)整幅度Δθ是該方法區(qū)別與其他投票算法的最主要特點(diǎn)。表3記錄了不同參數(shù)設(shè)置時(shí),F(xiàn)ast QBC的采樣次數(shù)情況,其中|L|=90,表中數(shù)據(jù)為5次實(shí)驗(yàn)均值。

        表1 Spambase數(shù)據(jù)集樣本屬性情況

        表2 不同算法在不同采樣規(guī)模時(shí)獲得的泛化精度對(duì)比

        圖3 幾種QBC算法采樣次數(shù)對(duì)比

        表3結(jié)果與理論分析一致,隨著采樣門檻θ和調(diào)整幅度Δθ的增加,算法在數(shù)據(jù)集上的采樣次數(shù)呈現(xiàn)遞減趨勢(shì),且調(diào)高Δθ可以更快地降低采樣數(shù)量。由于初始訓(xùn)練樣本L是從訓(xùn)練集中隨機(jī)產(chǎn)生的,它的組成也會(huì)影響到后續(xù)的采樣,因此從表中看出,遞減的過(guò)程并不是單調(diào)的。

        表3 不同參數(shù)對(duì)應(yīng)的Fast QBC采樣數(shù)量情況

        θ和Δθ值增加時(shí),能夠快速地從樣本池中收集訓(xùn)練樣本,使機(jī)器學(xué)習(xí)的過(guò)程盡快結(jié)束,但過(guò)大的值設(shè)置同樣會(huì)帶來(lái)識(shí)別率的下降。

        圖4顯示,θ在0.25附近取值時(shí),Δθ用不同值采樣訓(xùn)練后得到的分類器識(shí)別精度能夠保持在90%附近。隨著參數(shù)值設(shè)置得增大,訓(xùn)練獲得的分類器泛化精度會(huì)呈現(xiàn)下降的趨勢(shì)。在兩個(gè)參數(shù)都有較大取值時(shí)(如圖θ=0.5,Δθ=0.008),識(shí)別率僅有86%,這是由于相鄰的兩次采樣間門檻跨度過(guò)大,一些信息量大,但熵值未超過(guò)門檻設(shè)置的樣本沒(méi)有獲得訓(xùn)練分類模型的機(jī)會(huì),而導(dǎo)致識(shí)別率不高。因此θ和Δθ值的選擇要綜合考慮采樣數(shù)量和泛化精度兩個(gè)方面的因素,以達(dá)到用較小的訓(xùn)練代價(jià)獲得相對(duì)較高識(shí)別準(zhǔn)確率的目標(biāo)。

        4 結(jié)束語(yǔ)

        圖4 Fast QBC識(shí)別精度隨參數(shù)變化情況

        本文針對(duì)垃圾郵件在線過(guò)濾的實(shí)際應(yīng)用,在委員會(huì)投票QBC算法的基礎(chǔ)上,通過(guò)逐步提高采樣門檻的做法,在無(wú)標(biāo)簽樣本池中選擇高信息量的樣本用于分類器的訓(xùn)練。根據(jù)應(yīng)用的時(shí)效性要求,需要在盡可能短的時(shí)間內(nèi)建立最有學(xué)習(xí)價(jià)值的訓(xùn)練集,QBC采樣算法是一種高效的主動(dòng)學(xué)習(xí)方法,它通過(guò)計(jì)算樣本的熵值高低,來(lái)評(píng)價(jià)其訓(xùn)練價(jià)值。本文充分考慮了機(jī)器學(xué)習(xí)過(guò)程中,分類器識(shí)別能力逐步增強(qiáng)這一特點(diǎn),用動(dòng)態(tài)提升采樣閾值的方法,梯度增加采集樣本的質(zhì)量,進(jìn)一步壓縮樣本標(biāo)注和學(xué)習(xí)所需的時(shí)間成本,提高學(xué)習(xí)的效率。

        [1]劉伍穎,王挺.結(jié)構(gòu)化集成學(xué)習(xí)垃圾郵件過(guò)濾[J].計(jì)算機(jī)研究與發(fā)展,2012,49(3):628-635.

        [2]陳榮.基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的多類圖像分類[J].自動(dòng)化學(xué)報(bào),2011,37(8):954-962.

        [3]吳偉寧.基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2012,49(6):1162-1173.

        [4]Tong S,Koller D.Support vector machine active learning with applications to text classification[J].The Journal of Machine Learning Research,2002(2):45-66.

        [5]Huang Shengjun,Jin Rong,Zhou Zhihua.Active learning by querying informative and representative examples[C]// Proc of NIPS 2010.Cambridge,MA:MIT Press,2010:892-900.

        [6]Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences,1997,55(1):119-139.

        [7]Breiman L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.

        [8]龍軍.選取最大可能預(yù)測(cè)錯(cuò)誤樣例的主動(dòng)學(xué)習(xí)算法[J].計(jì)算機(jī)研究與發(fā)展,2008,45(3):472-478.

        [9]Seung H S,Opper M,Sompolinsky H.Query by committee[C]//Proceedings of the 15th Annual ACM Workshop on Computational Learning Theory,California,1992:287-294.

        [10]Freund Y,Seung H S,Samir E,et al.Selective sampling usingthequerybycommitteealgorithm[J].Machine Learning,1997,28(23):133-168.

        [11]Argamon E S,Dagan I.Committee-based sample selection for probabilistic classifiers[J].Journal of Artificial Intelligence Research,1999,11:335-360.

        CHEN Nian1,2,TANG Zhenmin2

        1.Department of Mathematics and Computer Science,Chizhou College,Chizhou,Anhui 247000,China
        2.College of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China

        A method is put forward in the paper which can get informative samples from unlabeled-sample pool with stepped way.The method which is based on query-by-committee algorithm increases the sampling threshold dynamically and it is in order to solve the problem of spam filtering online.Through the new method,the number of samples which is used for labeling and training is further reduced and the accuracy of classifier can remain stable.By experiments on Spambase datasets,the effectiveness which can improve efficiency of machine learning is certificated.

        spam filtering;version space;active learning;vote entropy;query-by-committee algorithm

        針對(duì)垃圾郵件在線過(guò)濾的實(shí)際應(yīng)用,在委員會(huì)投票算法采樣學(xué)習(xí)的基礎(chǔ)上,提出動(dòng)態(tài)提升采樣門檻,在無(wú)標(biāo)簽樣本池中階梯式獲取高信息量訓(xùn)練樣本的方法。該方法能夠在穩(wěn)定識(shí)別精度的前提下,進(jìn)一步降低用于標(biāo)注和學(xué)習(xí)的樣本數(shù)量,壓縮由此帶來(lái)的時(shí)間成本。通過(guò)在UCI的Spambase數(shù)據(jù)集上仿真,證明了該方法在改善學(xué)習(xí)效率方面的有效性。

        垃圾郵件過(guò)濾;版本空間;主動(dòng)學(xué)習(xí);投票熵;委員會(huì)投票算法

        A

        TP393

        10.3778/j.issn.1002-8331.1211-0016

        CHEN Nian,TANG Zhenmin.Method of spam filtering online based on QBC active sampling learning algorithm. Computer Engineering and Applications,2014,50(22):170-174.

        安徽省教育廳自然重點(diǎn)項(xiàng)目(No.KJ2012A211)。

        陳念(1978—),男,副教授,主研方向:機(jī)器學(xué)習(xí)與人工智能;唐振民,教授,博導(dǎo)。E-mail:njustchennian@gmail.com

        2012-11-01

        2013-01-23

        1002-8331(2014)22-0170-05

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-02-28,http://www.cnki.net/kcms/detail/11.2127.TP.20130228.1148.012.html

        ◎圖形圖像處理◎

        猜你喜歡
        垃圾郵件訓(xùn)練樣本分類器
        從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
        一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
        人工智能
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        融合原始樣本和虛擬樣本的人臉識(shí)別算法
        基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
        基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過(guò)濾模型
        视频一区精品自拍| 成人欧美日韩一区二区三区| 精品国产乱码久久久久久1区2区| 麻豆精品网站国产乱子伦| 女同性恋亚洲一区二区| 日本精品一区二区三区在线观看| 久久久中文久久久无码| 夜夜揉揉日日人人| 亚洲AV秘 片一区二区三区| 在线国产丝袜自拍观看| 偷拍激情视频一区二区三区| 又爆又大又粗又硬又黄的a片| 高清高速无码一区二区| 成人av一区二区三区四区| 日日摸天天碰中文字幕你懂的| 成人做爰高潮尖叫声免费观看| 国产超碰人人一区二区三区| 国产亚洲中文字幕一区| 午夜男女很黄的视频| 18禁男女爽爽爽午夜网站免费| 中文字幕亚洲精品码专区| 日本视频一中文有码中文| 精品久久久久久成人av| 久久久亚洲av成人网站| 人禽无码视频在线观看| 日本av一区二区播放| 蜜臀av一区二区三区免费观看| 色偷偷噜噜噜亚洲男人| 中文字幕一区二区人妻出轨| 国产高清在线精品一区不卡| 人妻少妇精品久久久久久| 亚洲欧洲日产国码高潮αv| 中文字幕麻豆一区二区| 97中文字幕精品一区二区三区| 琪琪的色原网站| 久久精品免视看国产明星| 国产一区二区熟女精品免费| 欧美牲交videossexeso欧美| 老熟女多次高潮露脸视频| 在线日本高清日本免费| 激情综合婷婷色五月蜜桃|