亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        郵件分類

        2016-10-26 03:10:21陳銳峰王碩楊
        科學(xué)中國(guó)人 2016年26期
        關(guān)鍵詞:垃圾郵件錯(cuò)誤率維數(shù)

        陳銳峰,王碩楊

        山東大學(xué)

        郵件分類

        陳銳峰,王碩楊

        山東大學(xué)

        當(dāng)今社會(huì),郵件是人們交流信息的一個(gè)重要途徑。然而隨著廣告業(yè)的迅猛發(fā)展,垃圾郵件逐漸成為了困擾廣大郵件用戶的最大的問(wèn)題。本文的核心就是利用機(jī)器學(xué)習(xí)的方法,區(qū)分出垃圾郵件與普通郵件,意在對(duì)網(wǎng)絡(luò)凈化做出微薄貢獻(xiàn)。

        垃圾郵件;分類;機(jī)器學(xué)習(xí)

        1.問(wèn)題闡述

        在現(xiàn)如今的社會(huì),人們每天都用電子郵件與彼此進(jìn)行交流,無(wú)論是業(yè)務(wù)往來(lái)還是個(gè)人行為,電子郵件的作用不言而喻。據(jù)報(bào)道,現(xiàn)如今已存在超過(guò)四十億的電子郵件賬戶,這個(gè)數(shù)字可占現(xiàn)今存在詞匯數(shù)量的幾乎一半。但與之相伴而來(lái)一種現(xiàn)象,那就是越來(lái)越多的垃圾郵件出現(xiàn)在我們的電腦屏幕前。據(jù)估計(jì),僅在2009年,超過(guò)97%的電子郵件被認(rèn)為是垃圾郵件,這的確是個(gè)大問(wèn)題。我們這篇文章的主要目的是將我們需要的郵件與垃圾郵件進(jìn)行郵件分類,以挑選出我們所感興趣的郵件。

        理論介紹:支持向量機(jī):在機(jī)器學(xué)習(xí)的領(lǐng)域中,支持向量機(jī)是一種與學(xué)習(xí)算法有關(guān)的可以為分類與回歸問(wèn)題分析數(shù)據(jù)的有監(jiān)督學(xué)習(xí)模型。它的一種很重要的應(yīng)用就是對(duì)有標(biāo)簽的數(shù)據(jù)進(jìn)行分類。其目的是通過(guò)已知類別的兩種數(shù)據(jù)點(diǎn)來(lái)預(yù)測(cè)新的數(shù)據(jù)點(diǎn)所屬類別。其動(dòng)機(jī)是將已知k維空間上的數(shù)據(jù)降維,并在k-1維的超平面上對(duì)其進(jìn)行分類。

        主成分分析:主成分分析是一種統(tǒng)計(jì)方法。通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量。它是用來(lái)簡(jiǎn)化數(shù)據(jù)的重要方法。其目的是用某幾個(gè)主成分代替整個(gè)數(shù)據(jù)及以解釋整個(gè)因變量,從而達(dá)到降維簡(jiǎn)化數(shù)據(jù)的目的。

        2.方法描述

        2.1數(shù)據(jù)集

        我們的數(shù)據(jù)來(lái)自于https://archive.ics.uci.edu/ml/datasets/Spambase.

        此數(shù)據(jù)集包含4691個(gè)樣本,58個(gè)變量。最后一個(gè)變量(數(shù)據(jù)的最后一列)代表的是每一封郵件是否被判定為垃圾郵件,它是一個(gè)0-1變量。絕大多數(shù)的變量代表了某個(gè)單詞或字母在電子郵件里出現(xiàn)的頻數(shù)。第55到57三個(gè)變量測(cè)量了連續(xù)的大寫字母序列的長(zhǎng)度。

        2.2核支持向量機(jī)

        我們隨機(jī)選擇了全數(shù)據(jù)集的2/3作為訓(xùn)練數(shù)據(jù)集來(lái)找到合適的核函數(shù),并且我們將剩余的1/3數(shù)據(jù)集作為檢驗(yàn)數(shù)據(jù)集來(lái)進(jìn)行預(yù)測(cè)并計(jì)算錯(cuò)誤率。而后我們分別用交叉驗(yàn)證法以及循環(huán)來(lái)挑選高斯核,多項(xiàng)式核以及線性核的最優(yōu)參數(shù)(交叉驗(yàn)證法是準(zhǔn)確的,但同時(shí)又是耗時(shí)的)。

        我們選擇的最好的核是K(x,y)=0.9xTy(線性核)。

        2.3線性主成分分析

        為了減少數(shù)據(jù)集的維數(shù)并簡(jiǎn)化問(wèn)題,我們?cè)趹?yīng)用支持向量機(jī)之前先應(yīng)用了主成分分析方法降維。我們?cè)噲D使錯(cuò)誤率最小化,將0.1作為分界水平,并同時(shí)降低數(shù)據(jù)集的維數(shù)。因此,在權(quán)衡了這其中的交換取舍后,我們最終將數(shù)據(jù)集的維數(shù)減少到13,這是一個(gè)可以接受的維數(shù),并且可以簡(jiǎn)化本來(lái)維數(shù)很高的原問(wèn)題。最終我們計(jì)算得到的錯(cuò)誤率是0.099.

        2.4核主成分分析

        在完成線性主成分分析后,本文考慮在超平面上對(duì)數(shù)據(jù)進(jìn)行分類來(lái)得到一個(gè)更好的結(jié)果,因?yàn)閿?shù)據(jù)本身并不在線性平面上,因此本文嘗試用核主成分分析對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化。本文首先運(yùn)用多項(xiàng)式核函數(shù)來(lái)完成核主成分分析。和線性主成分分析的方法一樣,在這里本文確定維數(shù)為15。選擇新的數(shù)據(jù)后,本文重復(fù)高斯、多項(xiàng)式和線性三種核函數(shù)來(lái)完成核支持向量機(jī)。

        我們選擇的最好的核是K(x,y)=(xTy+10)3(多項(xiàng)式核)。

        2.5其他方法

        2.5.1logistic回歸QDA LDA。本文嘗試用logistic回歸、QDA、LDA的方法對(duì)數(shù)據(jù)進(jìn)行分類,作為與核方法的比較,從而檢驗(yàn)先前所用的核方法是否具有顯著的優(yōu)勢(shì)。我們已經(jīng)了解到在支持向量機(jī)的運(yùn)用上,線性核函數(shù)是最佳選擇,所以我們可以推測(cè)在logistic回歸部分可以得到相似的結(jié)果。在QDA LDA部分,因?yàn)槲覀兗僭O(shè)數(shù)據(jù)是呈正態(tài)分布的,我們可以推測(cè)最終得到的結(jié)果應(yīng)該是不如核支持向量機(jī)得到的結(jié)果精確的。

        2.5.2kmeans聚類。最后,本文嘗試采用kmeans聚類的方法對(duì)數(shù)據(jù)進(jìn)行分類。kmeans聚類在處理線性空間上的數(shù)據(jù)時(shí)表現(xiàn)非常好,然而在非線性空間上表現(xiàn)一般。通過(guò)應(yīng)用kmeans聚類的方法,本文也佐證了我們的數(shù)據(jù)處于非線性空間上面。在kmeans聚類這部分,我們選擇k=2(垃圾郵件和非垃圾郵件),最終本文得到的錯(cuò)誤率是0.341。

        3 結(jié)論

        從R的輸出結(jié)果我們可以發(fā)現(xiàn),通過(guò)運(yùn)用線性支持向量機(jī),我們可以得到最小的預(yù)測(cè)錯(cuò)誤率0.06323338.同時(shí)當(dāng)我們運(yùn)用由多項(xiàng)式主成分分析處理過(guò)的數(shù)據(jù)(降低維度至15)做支持向量機(jī)時(shí),我們得到預(yù)測(cè)錯(cuò)誤率為0.07170795。這些結(jié)果表明當(dāng)我們想要得到最精確的結(jié)果時(shí),我們最好運(yùn)用線性支持向量機(jī)而不是在高維空間上直接運(yùn)用復(fù)雜的數(shù)據(jù)。再有我們還可以先采用多項(xiàng)式主成分分析對(duì)數(shù)據(jù)進(jìn)行降維處理,將維數(shù)降至15,這樣一來(lái)我們可以降低問(wèn)題的復(fù)雜性,讓數(shù)據(jù)在一個(gè)較低的維度上呈現(xiàn),這樣我們也可以得到一個(gè)比較好的結(jié)果和可接受的預(yù)測(cè)錯(cuò)誤率。

        在我們的應(yīng)用中,郵件分類的主要依據(jù)是高頻出現(xiàn)在垃圾郵件中的詞匯和字符,這些詞匯和字符的出現(xiàn)率是有別于普通郵件的。鑒于此,我們還可以考慮更多諸如此類的因素作為郵件分類的依據(jù)。舉個(gè)例子說(shuō)明,很多垃圾郵件會(huì)在凌晨發(fā)送給用戶(即發(fā)送時(shí)間因素)。

        [1]Ron Kohavi;Foster Provost(1998)."Glossary of terms".Machine Learning 30:271-274.

        [2]Mannila,Heikki(1996).Data mining:machine learning,statistics,and databases.Int'l Conf.Scientific and Statistical Database Management.IEEE Computer Society.

        陳銳峰(1994-),男,漢族,重慶市人,學(xué)生,統(tǒng)計(jì)學(xué)士,單位:山東大學(xué),研究方向:數(shù)理統(tǒng)計(jì)。

        王碩楊(1994-),男,漢族,山東省青島市人,數(shù)學(xué)學(xué)士,單位:山東大學(xué),研究方向:數(shù)理統(tǒng)計(jì)。

        猜你喜歡
        垃圾郵件錯(cuò)誤率維數(shù)
        限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
        β-變換中一致丟番圖逼近問(wèn)題的維數(shù)理論
        從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
        一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
        一類齊次Moran集的上盒維數(shù)
        正視錯(cuò)誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        關(guān)于齊次Moran集的packing維數(shù)結(jié)果
        解析小學(xué)高段學(xué)生英語(yǔ)單詞抄寫作業(yè)錯(cuò)誤原因
        涉及相變問(wèn)題Julia集的Hausdorff維數(shù)
        基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過(guò)濾模型
        加勒比特在线视频播放| 成人国产精品免费视频| 色综合久久无码中文字幕app| 男女干逼视频免费网站| 91精品国产乱码久久中文| 国产精品中文久久久久久久| 久久国产精品无码一区二区三区| 国产日韩三级| 丝袜美足在线视频国产在线看| 亚洲av永久无码天堂网小说区| 亚洲有码转帖| 欧美日韩国产高清| 综合亚洲二区三区四区在线 | 在线中文字幕有码中文| 果冻国产一区二区三区| 人妖国产视频一区二区| 精品无码无人网站免费视频| 狠狠久久亚洲欧美专区| 色综合久久五月天久久久| 国产精品国产三级国产专播下| 精品少妇人妻av无码专区| 国内无遮码无码| 白白色发布视频在线播放| 国产精品186在线观看在线播放| 中文字幕人妻丝袜美腿乱| 中文亚洲AV片在线观看无码| 人妻经典中文字幕av| 国模无码一区二区三区| 亚洲夜夜骑| 色妞一区二区三区免费视频| 国产人妖乱国产精品人妖| 无码人妻丰满熟妇区五十路百度| 国产精品国产三级国产av创| 中文字幕有码在线人妻| 色先锋av影音先锋在线| 久久永久免费视频| 日韩中文字幕一区在线| 无套内内射视频网站| 国产欧美精品区一区二区三区 | 精品女同一区二区三区不卡| 凌辱人妻中文字幕一区|