亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究綜述

        2020-07-04 02:14:28彭革
        電腦知識(shí)與技術(shù) 2020年14期

        彭革

        摘要:樸素貝葉斯算法是理想化的算法模型,且基于條件特征相互獨(dú)立的假設(shè),不能滿(mǎn)足實(shí)際應(yīng)用。本文通過(guò)探究樸素貝葉斯算法的原理和操作步驟,并介紹基于此類(lèi)算法的優(yōu)化和改進(jìn),從而規(guī)避算法的不足,同時(shí)提高算法工作效率和文本過(guò)濾準(zhǔn)確度。

        關(guān)鍵詞:樸素貝葉斯;算法優(yōu)化;文本過(guò)濾

        中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)14-0244-02

        1引言

        隨著科學(xué)技術(shù)的飛速發(fā)展發(fā)展,伴隨5G時(shí)代的到來(lái)。電子郵件成為人們?nèi)粘I詈凸ぷ鹘涣髦胁豢苫蛉钡姆绞絑--,但垃圾郵件也一直困擾著我們。根據(jù)卡巴斯基實(shí)驗(yàn)室表明,2019年第三季度,全球郵件流量中垃圾郵件的平均比例為56.26%,其中,前5個(gè)垃圾郵件來(lái)源國(guó):中國(guó)排名第一(20.43%),其次是美國(guó)(13.37%)和俄羅斯(5.60%)。第四位是巴西(5.14%),第五位是法國(guó)(3.35%)。由此可見(jiàn),我國(guó)的垃圾郵件處理形式依然不容樂(lè)觀。因此,對(duì)于垃圾郵件過(guò)濾的需求愈發(fā)強(qiáng)烈,對(duì)垃圾郵件過(guò)濾技術(shù)的研究越來(lái)越先進(jìn)。

        2研究現(xiàn)狀

        垃郵件過(guò)濾的手段主要有以下3種。

        (1)黑白名單過(guò)濾。該方法主要分為黑白2個(gè)名單列表,當(dāng)某個(gè)IP地址頻繁發(fā)送垃圾郵件,這個(gè)lP地址將會(huì)被加人黑名單中,此后默認(rèn)該地址發(fā)送的郵件為垃圾郵件。郵件白名單,顧名思義,也就是沒(méi)有被標(biāo)記為發(fā)送垃圾郵件的地址名單,此類(lèi)郵件能夠正常發(fā)送與接收。實(shí)時(shí)黑白名單技術(shù),將黑白名單列表交給第三方的技術(shù)部門(mén)來(lái)維護(hù),通過(guò)DNS來(lái)動(dòng)態(tài)檢測(cè)某個(gè)IP地址是否存在列表中。但這種方法存在弊端,當(dāng)發(fā)送者采用動(dòng)態(tài)或隱藏IP地址,那么此方法將受到限制。

        (2)基于規(guī)則的過(guò)濾技術(shù)。決策樹(shù)模型是基于規(guī)則過(guò)濾技術(shù)的典型代表,早在1966年,在國(guó)外學(xué)者研究的關(guān)于概念學(xué)習(xí)的系統(tǒng)中就出現(xiàn)了決策樹(shù)模型的身影,到1979年,迭代分類(lèi)器算法的提出,再到后來(lái)這類(lèi)算法在處理連續(xù)值屬性數(shù)據(jù)的缺點(diǎn)上進(jìn)行了改進(jìn)?,F(xiàn)在基于規(guī)則的過(guò)濾技術(shù)的算法雖然在一定程度上能夠滿(mǎn)足垃圾郵件的過(guò)濾需求,但其核心原理都是根據(jù)與預(yù)設(shè)規(guī)則進(jìn)行比較,從而來(lái)判定是否為垃圾郵件,并且這些規(guī)則一般都是靜態(tài)設(shè)置的,缺少可信度的學(xué)習(xí)策略,在規(guī)律不明顯的應(yīng)用領(lǐng)域中過(guò)濾效果較差,準(zhǔn)確度較低。

        (3)基于內(nèi)容統(tǒng)計(jì)的過(guò)濾技術(shù)。這類(lèi)方法效率較高、速度較快、耗費(fèi)較少,在文本過(guò)濾方面應(yīng)用較為廣泛?;诖祟?lèi)過(guò)濾技術(shù)中,最常用的算法是樸素貝葉斯算法。其中樸素貝葉斯算法實(shí)現(xiàn)思想簡(jiǎn)單、分類(lèi)速度快,使用較少的訓(xùn)練集就能夠獲取一個(gè)待檢文本數(shù)據(jù)的預(yù)估值,通常在使用樸素貝葉斯算法的時(shí)候,都要先對(duì)其樣本特征屬性進(jìn)行分析。找到一個(gè)樣本屬性對(duì)樣本數(shù)據(jù)全局的影響與其他特征屬性是相互獨(dú)立的,而這種假設(shè)往往是不符合實(shí)際應(yīng)用的。因此,這類(lèi)算法分類(lèi)和過(guò)濾的準(zhǔn)確率存在誤差。

        3樸素貝葉斯算法模型

        樸素貝葉斯是一種基于貝葉斯決策理論的分類(lèi)方法,它是貝葉斯分類(lèi)器的一種拓展與衍生。樸素貝葉斯是在實(shí)踐問(wèn)題中基于“獨(dú)立特征”的一種監(jiān)督學(xué)習(xí)算法,其核心思想就是:將新數(shù)據(jù)與已知數(shù)據(jù)集作比較,選擇高概率的結(jié)果來(lái)對(duì)新數(shù)據(jù)進(jìn)行決策的一類(lèi)學(xué)習(xí)方法。因此,又稱(chēng)樸素貝葉斯分類(lèi)法為基于概率論的分類(lèi)方法。

        樸素貝葉斯模型的一般過(guò)程為:收集數(shù)據(jù)(實(shí)際問(wèn)題的數(shù)據(jù)集)—>準(zhǔn)備數(shù)據(jù)(對(duì)數(shù)據(jù)類(lèi)型進(jìn)行處理)一>分析數(shù)據(jù)—>訓(xùn)練算法(根據(jù)數(shù)據(jù)不同特征,計(jì)算其條件概率)—>測(cè)試算法(計(jì)算并分析算法的錯(cuò)誤率)一>算法的應(yīng)用(把算法運(yùn)用到實(shí)際問(wèn)題)。

        機(jī)器學(xué)習(xí)的一個(gè)重要應(yīng)用就是實(shí)現(xiàn)文檔的自動(dòng)分類(lèi),而基于樸素貝葉斯算法的分類(lèi)算法在這一方面有著顯著的優(yōu)勢(shì)。下面將介紹樸素貝葉斯算法的具體操作原理:

        3.1收集準(zhǔn)備數(shù)據(jù)

        因?yàn)闃闼刎惾~斯是根據(jù)樣本特征分析的方法,而在機(jī)器學(xué)習(xí)的過(guò)程中,算法的假設(shè)與決策難免存在風(fēng)險(xiǎn)或失誤。所以找出樣本最優(yōu)的特征類(lèi)型數(shù)據(jù)就是該算法的關(guān)鍵。

        在實(shí)際操作中,為了算法能夠更好地測(cè)試和基于條件概率的運(yùn)算。在實(shí)際問(wèn)題的處理中,首先,需要將文本文檔進(jìn)行基于詞向量的切分處理,使之轉(zhuǎn)換為數(shù)據(jù)向量,并對(duì)樣本數(shù)據(jù)進(jìn)行特征分類(lèi),規(guī)定具體的特征標(biāo)簽,以便于算法的計(jì)算和自動(dòng)檢測(cè)。然后,獲取需要效驗(yàn)和測(cè)試的數(shù)據(jù),基于python程序?qū)颖具M(jìn)行檢測(cè)并給出結(jié)論。

        3.2訓(xùn)練并測(cè)試算法模型

        公式演變到這一步,再計(jì)算條件概率也就簡(jiǎn)單明了,算法的分類(lèi)主旨也就變得清晰了很多。

        3.3對(duì)算法進(jìn)行測(cè)試以及問(wèn)題的修復(fù)

        在機(jī)器學(xué)習(xí)方法中,往往會(huì)出現(xiàn)許多缺陷。對(duì)于樸素貝葉斯分類(lèi)方法而言,計(jì)算概率值為0和下溢這兩類(lèi)錯(cuò)誤導(dǎo)致的問(wèn)題是尤為常見(jiàn)的。

        (1)對(duì)于計(jì)算概率值出現(xiàn)為0的情況,即這一特征類(lèi)別在測(cè)試樣本中沒(méi)有出現(xiàn)過(guò),從而會(huì)使計(jì)算公式中某一個(gè)p(xj ci)的值為0,造成最后總乘積為0。這種情況很常見(jiàn),我們只需在python程序中將每個(gè)屬性特征在向量化的時(shí)候?qū)⒊跏贾翟O(shè)定為1,并將分母初始化值設(shè)定為2,即可避免這種不必要的干擾。

        4優(yōu)化的樸素貝葉斯算法

        基于前面對(duì)于樸素貝葉斯算法內(nèi)容的介紹,對(duì)于其工作的原理已經(jīng)有了清晰的認(rèn)識(shí),但是在應(yīng)用中往往不能滿(mǎn)足實(shí)際需求。所以,基于現(xiàn)階段樸素貝葉斯算法的垃圾郵件的分類(lèi)技術(shù)還需要進(jìn)行改進(jìn)和優(yōu)化。

        最突出的優(yōu)化手段有以下三種。

        (1)優(yōu)化的樸素貝葉斯增量學(xué)習(xí)算法

        樸素貝葉斯算法結(jié)合增量學(xué)習(xí)的方法。待檢樣本數(shù)據(jù)的分類(lèi),是一個(gè)動(dòng)態(tài)的過(guò)程,在不斷更新的垃圾文檔樣本當(dāng)中,往往會(huì)有新的特征屬性出現(xiàn),如果待檢樣本出現(xiàn)某一個(gè)詞向量不存在于先驗(yàn)樣本的訓(xùn)練集中,那么系統(tǒng)對(duì)這個(gè)詞將無(wú)法判斷。結(jié)合增量學(xué)習(xí)的方法,當(dāng)算法模型檢測(cè)到某個(gè)詞向量不存在于先驗(yàn)樣本中,于是,將該詞語(yǔ)添加至屬性列表中,然后重新計(jì)算相關(guān)概率?;诖?,添加了增量學(xué)習(xí)方法進(jìn)行改進(jìn)和優(yōu)化的樸素貝葉斯算法在垃圾郵件分類(lèi)過(guò)程中將是一個(gè)動(dòng)態(tài)學(xué)習(xí)的過(guò)程,根據(jù)不斷變更的網(wǎng)絡(luò)語(yǔ)言以及層出不窮的垃圾信息,實(shí)時(shí)更新,這樣才能具有更好的適應(yīng)能力和篩查力度,從而提高文檔過(guò)濾的準(zhǔn)確率,達(dá)到更好的機(jī)器學(xué)習(xí)效果。

        (2)利用支持向量機(jī)改進(jìn)的樸素貝葉斯算法

        首先利用樸素貝葉斯算法對(duì)樣本集進(jìn)行初次訓(xùn)練,然后利用支持向量機(jī)構(gòu)造一個(gè)最優(yōu)分類(lèi)超平面,每個(gè)樣本根據(jù)與其距離最近樣本的類(lèi)型是否相同進(jìn)行取舍,這樣既降低樣本空間規(guī)模,又提高每個(gè)樣本類(lèi)別的獨(dú)立性,最后再次用樸素貝葉斯算法訓(xùn)練樣本集從而生成分類(lèi)模型。仿真實(shí)驗(yàn)結(jié)果表明,該算法在樣本空間進(jìn)行取舍過(guò)程當(dāng)中消除了冗余屬性,可以快速得到分類(lèi)特征子集,提高了垃圾郵件過(guò)濾的分類(lèi)速度、召回率和正確率。

        (3)改進(jìn)EM算法的樸素貝葉斯分類(lèi)算法

        EM算法因其操作簡(jiǎn)單,結(jié)構(gòu)穩(wěn)定的特點(diǎn)被廣泛運(yùn)用于數(shù)據(jù)處理問(wèn)題當(dāng)中,該算法的核心思想是通過(guò)數(shù)據(jù)迭代的方式,通過(guò)期望值最大化不完整數(shù)據(jù)的概率和預(yù)估值。該算法也存在弊端,那就是對(duì)于初始值的設(shè)定嘲。一個(gè)不恰當(dāng)?shù)某跏贾?,?huì)使EM算法無(wú)法恰好滿(mǎn)足局部最優(yōu)也使得算法模型全局最優(yōu),于是就有了基于EM算法的樸素貝葉斯分類(lèi)方法。首先,計(jì)算缺損數(shù)據(jù)與完整數(shù)據(jù)的相關(guān)度,將其相關(guān)度最大的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的特征屬性選定為初始值,并求出極大似然估計(jì),然后通過(guò)EM算法進(jìn)行迭代,從而完成缺失數(shù)據(jù)的預(yù)測(cè)和填補(bǔ),最后再利用樸素貝葉斯分類(lèi)算法對(duì)已經(jīng)處理過(guò)的完整數(shù)據(jù)進(jìn)行分類(lèi)和過(guò)濾。該方法有扎實(shí)的理論基礎(chǔ),同時(shí)也提高了算法分類(lèi)的準(zhǔn)確率。

        5結(jié)束語(yǔ)

        本文基于現(xiàn)今垃圾郵件問(wèn)題日益嚴(yán)峻的大背景下,根據(jù)樸素貝葉斯分類(lèi)模型為基礎(chǔ)展開(kāi)。首先談到了目前比較主流的垃圾郵件過(guò)濾的三種方法一黑白名單過(guò)濾、基于規(guī)則的過(guò)濾技術(shù)、基于內(nèi)容統(tǒng)計(jì)的過(guò)濾技術(shù)。每種方法都有各自的優(yōu)勢(shì),同時(shí)也存在弊端。于是就基于內(nèi)容統(tǒng)計(jì)的過(guò)濾技術(shù)中的樸素貝葉斯算法為出發(fā)點(diǎn),深人認(rèn)識(shí)了樸素貝葉斯算法模型的內(nèi)容與其工作原理。該算法是一種理想化的貝葉斯衍生模型,依賴(lài)于條件獨(dú)立,特征互不影響的假設(shè)。在算法模型的構(gòu)建過(guò)程中會(huì)出現(xiàn)下溢和計(jì)算概率值為0的情況,樸素貝葉斯算法要想在垃圾郵件過(guò)濾實(shí)踐當(dāng)中還不能夠獨(dú)當(dāng)一面。文章最后探究了通過(guò)改進(jìn)和優(yōu)化樸素貝葉斯算法的三種方法一優(yōu)化的樸素貝葉斯增量學(xué)習(xí)算法、利用支持向量機(jī)改進(jìn)的樸素貝葉斯算法、改進(jìn)EM算法的樸素貝葉斯分類(lèi)算法,這三類(lèi)優(yōu)化算法都能提高過(guò)濾效率和準(zhǔn)確率?,F(xiàn)今,垃圾郵件將不再僅僅只局限于文本的形式,還會(huì)以圖片、視頻、音頻等各種形式出現(xiàn),本文也只對(duì)文本形式的垃圾郵件過(guò)濾進(jìn)行概述,所以,要想徹底過(guò)濾掉垃圾郵件,還需要不斷的探索和研究。

        国产精品久久久久久久妇| 在线亚洲国产一区二区三区| 久久精品国产精品亚洲艾| 国产熟女盗摄一区二区警花91| 欧美成人看片一区二区三区尤物| 老师脱了内裤让我进去| 亚洲国产cao| 一本久久伊人热热精品中文| 亚洲第一女人的天堂av| 久久婷婷五月综合色丁香| 国产精品免费观看久久| 国产成人精品日本亚洲专区6 | 日韩av不卡一二三区| 国产一区二区av在线免费观看| 久久婷婷色香五月综合缴缴情| 中文字幕精品久久久久人妻红杏ⅰ| 亚洲一级无码片一区二区三区| 熟女丝袜美腿亚洲一区二区三区| 女同一区二区三区在线观看| 国产成人精品999视频| 欧美丰满熟妇aaaaa片| 草莓视频中文字幕人妻系列| 亚洲二区精品婷婷久久精品| 国产一级内射视频在线观看| 十八18禁国产精品www| 国产精品原创巨作av无遮| 久久色悠悠亚洲综合网| 久久伊人精品中文字幕有尤物| 精品一区二区三区免费视频| 老头巨大挺进莹莹的体内免费视频| 久久精品视频按摩| 日本韩国亚洲三级在线| 人妻无码一区二区三区| 人人玩人人添人人澡| 久久亚洲精彩无码天堂| 成人爽a毛片在线播放| 国产精品区一区二区三在线播放| 国产亚洲情侣一区二区无| 99久久久久久亚洲精品| 放荡成熟人妻中文字幕| 国内精品伊人久久久久网站|