亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Scikit-Learn的垃圾短信過濾方法實(shí)證研究

        2016-12-20 05:25:19李建國(guó)葛方振
        關(guān)鍵詞:樸素貝葉斯分類器

        楊 憶,李建國(guó),葛方振

        (1.淮北師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 淮北 235000;2.河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        基于Scikit-Learn的垃圾短信過濾方法實(shí)證研究

        楊 憶1,2,李建國(guó)1,葛方振1

        (1.淮北師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 淮北 235000;2.河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        文章為有效應(yīng)對(duì)垃圾短信,在短信數(shù)據(jù)集“SMS Spam Collection”上,以Scikit-Learn為工具,通過實(shí)驗(yàn)對(duì)比驗(yàn)證,結(jié)果表明,在比較的7種垃圾短信過濾統(tǒng)計(jì)學(xué)習(xí)方法中,樸素貝葉斯和支持向量機(jī)方法在判別準(zhǔn)確率方面明顯優(yōu)于其他方法,這2種方法可以作為其他方法用以比較的基準(zhǔn)測(cè)試方法.

        垃圾短信;Scikit-Learn;分類;樸素貝葉斯法;支持向量機(jī)

        0 引言

        在移動(dòng)手機(jī)高度普及的今天,垃圾短信泛濫成災(zāi).手機(jī)用戶的短信箱被五花八門的垃圾短信充斥著.據(jù)百度手機(jī)衛(wèi)士《2015上半年中國(guó)移動(dòng)互聯(lián)網(wǎng)安全報(bào)告》顯示,截至2015年6月,全國(guó)垃圾短信的總量為 199億條,每月人均接收垃圾短信7條.不得不說垃圾短信已經(jīng)嚴(yán)重侵?jǐn)_到了手機(jī)用戶的正常生活.因此垃圾短信的過濾成為當(dāng)前人們生活急需解決的一個(gè)重要任務(wù),垃圾短信智能過濾技術(shù)的研究具有重要的意義.

        治理垃圾短信的方案層出不窮,技術(shù)也在日益革新.目前主要應(yīng)用于過濾垃圾短信的2種技術(shù)分別是黑白名單和統(tǒng)計(jì)文本分類[1].黑白名單技術(shù)即用戶可以將手機(jī)號(hào)碼放入黑名單和白名單中.當(dāng)用戶收到的短信息來自于黑名單中的手機(jī)號(hào)碼,應(yīng)用程序會(huì)自動(dòng)將這些短信息放入垃圾短信文件夾.該方法簡(jiǎn)單易用,但缺乏智能性,當(dāng)發(fā)送者采用動(dòng)態(tài)號(hào)碼或者號(hào)碼欺騙(Phishing)等方式發(fā)送短信,該方法將無法正確過濾.統(tǒng)計(jì)文本分類技術(shù)是基于短信內(nèi)容的過濾方法.目前成熟的統(tǒng)計(jì)文本分類方法有決策樹法、K近鄰法、樸素貝葉斯法、支持向量機(jī)等方法.這些方法都可以用于垃圾短信檢測(cè)與過濾.

        鑒于統(tǒng)計(jì)文本分類方法在垃圾短信的過濾方面的成熟和有效性,本文主要通過使用開源機(jī)器學(xué)習(xí)工具Scikit-Learn對(duì)目前常用的幾種統(tǒng)計(jì)文本分類方法在垃圾短信過濾方面的性能進(jìn)行實(shí)驗(yàn)對(duì)比研究.

        1 Scikit-Learn介紹

        Scikit-Learn是基于python的機(jī)器學(xué)習(xí)模塊,基于BSD開源許可證.它是一款簡(jiǎn)單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具[2].Scikit-Learn的基本功能主要被分為6個(gè)部分:分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理,軟件包的下載官方網(wǎng)站:http://scikit-learn.org/stable/.Scikit-Learn中的機(jī)器學(xué)習(xí)模型非常豐富,包括支持向量機(jī)、決策樹、樸素貝葉斯、K近鄰等,可以根據(jù)問題的類型選擇合適的模型.對(duì)于具體的機(jī)器學(xué)習(xí)問題,通??梢苑譃?個(gè)步驟:數(shù)據(jù)準(zhǔn)備與預(yù)處理、模型選擇與訓(xùn)練、模型驗(yàn)證與參數(shù)調(diào)優(yōu),每個(gè)步驟只需調(diào)用Scikit-Learn中封裝好的API函數(shù).以羅斯諦回歸(Logistic Regression)分類器進(jìn)行垃圾短信分類過濾為例.

        步驟1:加載短信數(shù)據(jù)集,并進(jìn)行IF-IDF特征向量化數(shù)據(jù)預(yù)處理的代碼如下:

        步驟2:模型選擇與訓(xùn)練的代碼如下:

        步驟3:模型驗(yàn)證與參數(shù)調(diào)優(yōu).以使用Scikit-Learn中提供的GridSearch機(jī)制進(jìn)行參數(shù)調(diào)優(yōu),代碼如下:

        2 數(shù)據(jù)集

        用以垃圾短信分類檢測(cè)過濾試驗(yàn)公開的數(shù)據(jù)集很少,大多數(shù)是由作者自己采集構(gòu)造.本文實(shí)驗(yàn)采用文獻(xiàn)[3]中的數(shù)據(jù)集,該數(shù)據(jù)集下載地址http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/.數(shù)據(jù)集中樣本只包含短信息(message)和短信所屬類別標(biāo)簽(label)2個(gè)屬性.數(shù)據(jù)集中短信共5 574條,其中垃圾短信(spam)474條,正常短信(ham)4 827條.數(shù)據(jù)集中前5個(gè)樣本如表1所示.

        表1 SMS Spam Collection數(shù)據(jù)集中樣本示例

        3 實(shí)驗(yàn)驗(yàn)證與分析

        3.1 評(píng)價(jià)指標(biāo)度量

        設(shè)測(cè)試集合中共有N條短信,為方便敘述,先定義A、B、C、D 4個(gè)變量.A表示為數(shù)據(jù)集中短信息的標(biāo)簽為垃圾短信(spam),同時(shí)分類器判定其為垃圾短信(spam)的短信數(shù),B表示為數(shù)據(jù)集中短信息的標(biāo)簽為正常短信(ham),同時(shí)分類器判定其為垃圾短信(spam)的短信數(shù),C表示為數(shù)據(jù)集中短信息的標(biāo)簽為垃圾短信(spam),同時(shí)分類器判定其為正常短信(ham)的短信數(shù),D表示為數(shù)據(jù)集中短信息的標(biāo)簽為正常短信(ham),同時(shí)分類器判定其為正常短信(ham)的短信數(shù).具體如表2所示,且N=A+B+C+D.

        表2 樣本實(shí)際與判定結(jié)果4種情況

        根據(jù)表2,定義如下4個(gè)評(píng)價(jià)指標(biāo):

        1)精確率(Accuracy):Accuracy=(A+D)/N*100%,即對(duì)所有短信的判對(duì)率.

        2)正確率(Precision):Precision=A(/A+B)*100%,即垃圾短信檢對(duì)率.正確率反應(yīng)了分類系統(tǒng)“找對(duì)”垃圾短信的能力,正確率越大,將非垃圾短信誤判為垃圾短信的數(shù)量越少.

        3)召回率(Recall):Recall=A(/A+C)*100%,即垃圾短信檢出率.這個(gè)指標(biāo)反映了分類器發(fā)現(xiàn)垃圾短信的能力,召回率越高,“漏網(wǎng)”的垃圾短信就越少.

        4)F1值:F1=2*Precision*Recall(/Precision+Recall)*100%.

        3.2 實(shí)驗(yàn)結(jié)果與分析

        使用Scikit-Learn加載數(shù)據(jù)集后,特征選取采用IF-IDF方法計(jì)算,對(duì)常用的7種統(tǒng)計(jì)學(xué)分類方法[4]:羅斯諦回歸(Logistic Regression,簡(jiǎn)稱LR)、樸素貝葉斯(Na?ve Bayes,簡(jiǎn)稱NB)、K近鄰(K-Nearst Neigh?bour,簡(jiǎn)稱KNN)、隨機(jī)森林(Radom Forest,簡(jiǎn)稱RF)、決策樹(Decision Tree,簡(jiǎn)稱DT)、梯度提升決策樹(Gradient Boosting Decision Tree,簡(jiǎn)稱GBDT)、支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)進(jìn)行實(shí)驗(yàn)比較.每次選取75%的樣本作為訓(xùn)練集,25%的樣本作為測(cè)試集,采用“5次交叉驗(yàn)證”,結(jié)果取平均值,7種統(tǒng)計(jì)方法實(shí)驗(yàn)結(jié)果如表3所示.在表3中給出了每種統(tǒng)計(jì)學(xué)分類方法在精確率、正確率、召回率和F1值4個(gè)方面的實(shí)驗(yàn)結(jié)果.

        根據(jù)表3,經(jīng)分析得出如下結(jié)論:

        (1)樸素貝葉斯與SVM在檢測(cè)的精確率方面分別達(dá)到98.4%和98.3%,高于其他幾種分類方法.

        (2)Recall的值樸素貝葉斯方法最高,達(dá)到93.74%.即樸素貝葉斯使得垃圾短信“漏網(wǎng)”的幾率減少.

        (3)Precision最高的K近鄰和隨機(jī)森林高達(dá)100%,表明二者把非垃圾短信誤判為垃圾短信的數(shù)量大大減少.識(shí)別正常短信的能力因?yàn)閿?shù)據(jù)集樣本分布不平衡,導(dǎo)致更傾向于把正常的短信分到ham類.

        綜上所述,在實(shí)驗(yàn)比較的幾種統(tǒng)計(jì)分類方法中,樸素貝葉斯更適用于被實(shí)際垃圾短信檢測(cè)過濾系統(tǒng)采用.

        4 結(jié)語(yǔ)

        實(shí)驗(yàn)過程中發(fā)現(xiàn),雖然SVM精確率較高,但訓(xùn)練分類器花費(fèi)的時(shí)間太長(zhǎng),若能采用并行技術(shù)以減少SVM訓(xùn)練的時(shí)間,SVM也不失為一種有效的垃圾短信過濾方法.本文短信的形式僅為純文本形式,隨著大量以文本、圖片、音頻為載體的彩信得到廣泛的普及,如何高效準(zhǔn)確識(shí)別和過濾垃圾彩信將是今后研究的重要課題.

        [1]TUFIQ M,ABDULLAH M F A.A survey of preventing,blocking and filtering short message services(SMS)spam[C]// Proc of International Conference on Computer and Electrical Engineering,IACSIT,2010(1):462-466.

        [2]PEDROGOSA F,VAROQUAUX G.Scikit-learn:machine learning in python[J].JMLR,2011(12):2825-2830.

        [3]ALMEIDA T A,GóMEZ HIDALGO J M.Contributions to the study of SMS spam filtering:new collection and results[C]// Proceedings of the 2011 ACM Symposium on Document Engineering(DOCENG′11),Mountain View,CA,USA,2011.

        [4]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:48-97.

        An Empirical Study on Spam Messages Detection Method Based on Scikit-Learn

        YANG Yi1,2,LI Jianguo1,GE Fangzhen1
        (1.School of Computer Science and Technology,Huaibei Normal University,235000,Huaibei,Anhui,China;2.School of Computer and Information,Hehai University,211100,Nanjing,Jiangsu,China)

        In order to effectively deal with spam messages,this paper is verified by experiment in the SMS da?taset“SMS spam collection”.It is found that in the experimental comparison of seven kinds of spam filtering statistical method,naive Bayesian and support vector machine in the discriminant accuracy was significantly better than the other methods.These two methods can be used as a benchmark test(baseline)method for the other methods.

        spam messages;Scikit-learn;classification;na?ve Bayes;support vector machine

        TP 3-0

        A

        2095-0691(2016)04-0039-03

        2016-03-01

        安徽省高校自然科學(xué)重點(diǎn)項(xiàng)目(KJ2015A315,KJ2013A229);安徽省自然科學(xué)基金項(xiàng)目(1408085MF130);淮北師范大學(xué)青年科研項(xiàng)目(2013xqz06)

        楊 憶(1980- ),男,安徽鳳陽(yáng)人,博士生,講師,研究方向:網(wǎng)絡(luò)與信息安全,機(jī)器學(xué)習(xí).

        猜你喜歡
        樸素貝葉斯分類器
        隔離樸素
        樸素的安慰(組詩(shī))
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        貝葉斯公式及其應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        8ⅹ8x擦拨擦拨成人免费视频 | 亚洲 自拍 另类 欧美 综合| 中文字幕无码专区一VA亚洲V专| 一亚洲一区二区中文字幕| 日本一级二级三级不卡| 无码人妻一区二区三区兔费| 日日碰狠狠丁香久燥| 久久亚洲国产精品123区| 丝袜美腿在线播放一区二区| 国产精品免费无遮挡无码永久视频| 丰满少妇被猛烈进入| 亚洲黄色性生活一级片| 久久中文字幕国产精品| 亚洲国产精品久久艾草| av无码免费永久在线观看| 天天插天天干天天操| 日本女优久久精品久久| 欧美又粗又长又爽做受| 中国极品少妇videossexhd| 熟女少妇av免费观看| 国产tv不卡免费在线观看| 国产人妻丰满熟妇嗷嗷叫| av中文字幕不卡无码| 蜜桃av福利精品小视频| 日本三级片在线观看| 日韩精品无码av中文无码版| 91日本在线精品高清观看| 久久精品女同亚洲女同| 国产美女精品一区二区三区| 一级呦女专区毛片| 热综合一本伊人久久精品| 精品人妻一区二区三区四区在线| 亚洲巨乳自拍在线视频| 亚洲精品一区二区三区播放| 久久免费看的少妇一级特黄片 | 色哟哟av网站在线观看| 久久一区二区国产精品| 特级毛片a级毛片100免费播放 | 337p日本欧洲亚洲大胆精品| 欧洲午夜视频| 国产一区二三区中文字幕|