亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林的異常郵件檢測(cè)方法研究與實(shí)現(xiàn)

        2020-01-17 11:34:02,,
        關(guān)鍵詞:決策樹(shù)郵件特征提取

        ,,

        (1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007;2.中南大學(xué) 自動(dòng)化學(xué)院,湖南 長(zhǎng)沙 410083)

        0 引言

        近年來(lái),隨著網(wǎng)絡(luò)通信技術(shù)飛速發(fā)展,電子郵件成為人們?nèi)粘I詈凸ぷ鞯闹饕涣鞣绞街?,但異常郵件問(wèn)題也隨之而來(lái)。異常郵件占用了大量的網(wǎng)絡(luò)資源,對(duì)互聯(lián)網(wǎng)中的用戶造成了巨大影響和威脅,甚至導(dǎo)致用戶損失數(shù)據(jù)和金錢(qián)。異常郵件破壞性強(qiáng)、傳播速度快、危害范圍廣,如何有效阻斷異常郵件的傳播,提高對(duì)異常郵件的判別能力是當(dāng)前研究的迫切要求。為了保護(hù)用戶的權(quán)益、減少網(wǎng)絡(luò)帶寬和資源的消耗,異常郵件的鑒別與過(guò)濾技術(shù)也逐漸受到研究者的重視。本文結(jié)合隨機(jī)森林算法的優(yōu)點(diǎn),突破郵件特征提取、分類及異常郵件檢測(cè)等關(guān)鍵技術(shù)難點(diǎn),并與典型的算法進(jìn)行實(shí)驗(yàn)對(duì)比分析,實(shí)驗(yàn)結(jié)果表明該方法在準(zhǔn)確率等方面具有明顯優(yōu)勢(shì)。

        1 國(guó)內(nèi)外研究現(xiàn)狀與分析

        異常郵件概念自1978年提出以來(lái),全世界的專家學(xué)者對(duì)異常郵件檢測(cè)技術(shù)進(jìn)行研究與實(shí)踐,至今為止已取得了豐碩的研究成果。

        郵件分類檢測(cè)方法大體可以分為兩類:基于IP地址的郵件檢測(cè)技術(shù)和基于內(nèi)容的郵件檢測(cè)技術(shù)[1]。在基于IP地址的郵件檢測(cè)技術(shù)中主要包括黑白名單檢測(cè)技術(shù)[2]、實(shí)時(shí)黑名單檢測(cè)技術(shù)以及主機(jī)名反向驗(yàn)證技術(shù)[3]等。實(shí)際應(yīng)用中,黑名單檢測(cè)技術(shù)和白名單檢測(cè)技術(shù)通常結(jié)合起來(lái)應(yīng)用于服務(wù)器。而基于內(nèi)容的異常郵件檢測(cè)技術(shù)是目前主流異常郵件檢測(cè)過(guò)濾技術(shù)。為了提高過(guò)濾效果,反異常郵件產(chǎn)品往往結(jié)合使用多種過(guò)濾技術(shù)[4-5]。

        郵件的分類其實(shí)質(zhì)是對(duì)文本信息進(jìn)行處理,現(xiàn)有的K-近鄰、貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)等經(jīng)典機(jī)器學(xué)習(xí)算法[6-9]被廣泛應(yīng)用到專利文本分類領(lǐng)域。于是,研究者試圖將對(duì)文本的處理方法引入郵件分類處理中,通過(guò)文本聚類或分類方法將郵件分為異常和正常兩類。但是與普通文本相比,郵件具有不一樣的特點(diǎn),它是一種非結(jié)構(gòu)化的文本,采用一般的文本分類算法和傳統(tǒng)的機(jī)器學(xué)習(xí)方法不能很好地區(qū)分正常和異常郵件,錯(cuò)誤率較高[10]。

        為了緩解此問(wèn)題,在研究大量參考文獻(xiàn)的基礎(chǔ)上,課題組發(fā)現(xiàn)隨機(jī)森林(random forest,RF)算法是機(jī)器學(xué)習(xí)中一個(gè)可嘗試的精確分類算法[11-12],該算法由 Leo Breiman等在21世紀(jì)初提出[13]。它是一種利用多棵決策樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的分類器,與其他算法相比具有以下幾個(gè)方面的優(yōu)點(diǎn):1)具有通用性,適合多種環(huán)境,可用于聚類分析,引導(dǎo)無(wú)監(jiān)督聚類、異常檢測(cè)和數(shù)據(jù)透視等;2)不需要剪枝,相比單一決策樹(shù)算法不易產(chǎn)生過(guò)擬合;3)對(duì)異常值、噪聲數(shù)據(jù)不敏感,能保持良好的精確度;4)能提取高維數(shù)據(jù)的主要特征,可用于數(shù)據(jù)降維。本文在異常郵件中的過(guò)濾技術(shù)基礎(chǔ)上,結(jié)合隨機(jī)森林算法,設(shè)計(jì)并實(shí)現(xiàn)了異常郵件檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,該算法獲得了較高判別率。

        2 整體思路

        本研究采用的方法在機(jī)器學(xué)習(xí)領(lǐng)域被稱作有監(jiān)督學(xué)習(xí)[14-15](supervised learning)方法,因此實(shí)現(xiàn)的流程也按照有監(jiān)督學(xué)習(xí)的基本步驟完成。有監(jiān)督學(xué)習(xí)是指用已知某種特性的樣本作為訓(xùn)練集,以建立一個(gè)數(shù)學(xué)模型再用已建立的模型來(lái)預(yù)測(cè)未知樣本,其流程如圖1所示。

        圖1 整體流程圖Fig.1 Overall flow chart

        如圖1所示,本文具體思路如下。

        1)數(shù)據(jù)清洗。數(shù)據(jù)收集完畢后,由于數(shù)據(jù)集中可能存在無(wú)關(guān)或冗余信息,將影響郵件分類的精確度,有必要進(jìn)行數(shù)據(jù)清洗。具體步驟:根據(jù)indexFolder/indexFile索引文件對(duì)郵件數(shù)據(jù)集合(dataSet/data/…)處理,得到處理后的數(shù)據(jù)文件processxx_xxx到dataSet/processSet文件夾下,以及Result_process01到dataSet/firstResult文件夾下。

        2)特征提取[16]。分別對(duì)獲取的郵件地址、郵件服務(wù)器數(shù)量、郵件發(fā)送時(shí)間及郵件內(nèi)容進(jìn)行特征提取,具體是:對(duì)Result_process01文件中數(shù)據(jù)進(jìn)行特征提取,生成數(shù)據(jù)文件Result_process02到dataSet/secondResult文件夾下,本文為了判斷郵件長(zhǎng)度對(duì)異常郵件信息量的影響,得到了在不同郵件長(zhǎng)度下異常郵件占比,以及在不同郵件長(zhǎng)度大小下郵件信息量的大小。

        3)數(shù)據(jù)分割。將收集的郵件集按照比例分為測(cè)試集和訓(xùn)練集,并輸出到對(duì)應(yīng)的文件夾,具體是:對(duì)Result_process02文件進(jìn)行分割(train_test_split)得到x_train、x_test、y_test3個(gè)集合,分別對(duì)應(yīng)輸出到testSet文件夾下和trainSet文件夾下。

        4)模型訓(xùn)練[17]。首先對(duì)訓(xùn)練集進(jìn)行詞頻權(quán)重計(jì)算(term frequency-inverse document frequency,tfidf)并做奇異值降解(singular value decomposition,SVD),構(gòu)建對(duì)應(yīng)的數(shù)據(jù)矩陣用來(lái)填充。

        5)結(jié)果分析。經(jīng)過(guò)訓(xùn)練后,對(duì)分割好的測(cè)試集進(jìn)行預(yù)測(cè)得到結(jié)果并進(jìn)行對(duì)比,輸出結(jié)果圖以及結(jié)果表到result文件夾下。

        算法的詳細(xì)流程如下。

        2.1 郵件數(shù)據(jù)集合處理

        本研究收集了近10 000封郵件,其中有異常郵件和非異常郵件,已通過(guò)索引文件對(duì)各個(gè)郵件分類,并且按照(spam../data/000/000 或者 ham../data/000/001,前者標(biāo)記為data/000/000是異常郵件,后者標(biāo)記為data/000/001是非異常郵件)格式存放,之后的數(shù)據(jù)處理利用索引文件中存放的信息定位到各個(gè)郵件,并獲取各個(gè)郵件數(shù)據(jù)。對(duì)于單一的文本信息類型郵件,每一封郵件都有著固定的格式(From為發(fā)送方,To為接收方,Date為日期,Content為具體內(nèi)容)。為了方便后續(xù)特征提取,此處按照郵件固定格式將所有郵件合并,每一封郵件內(nèi)所有信息按照固定格式排成一行(將一封郵件按照From、To、Date、Content的格式放在一行上),制作成二維表的形式合并到一個(gè)文本文件中。即從10 000封郵件文本中,將各個(gè)郵件文本按格式提取,之后壓縮到同一個(gè)文本文件中方便處理。

        2.2 特征提取

        異常郵件的建模與過(guò)濾過(guò)程中,無(wú)法直接對(duì)異常郵件進(jìn)行過(guò)濾操作,首先需要對(duì)異常郵件進(jìn)行分析,找出一些關(guān)鍵元素,如詞、字或短詞等,從而提取郵件特征[18]。為了提高過(guò)濾效果,使用正則表達(dá)式對(duì)分詞后的郵件進(jìn)行二次處理[19]。對(duì)郵件數(shù)據(jù)集合處理完畢后,得到一個(gè)由二維表[20]填充的文本文檔。具體方法如下:

        1)對(duì)郵件地址的提取。采用正則表達(dá)式re.findall(r"@([A-Za-z0-9]*.[A-Za-z0-9.]+)",str(str1))根據(jù)郵件格式獲取郵件地址。

        2)對(duì)郵件服務(wù)器數(shù)量提取。str(df.xx_address.unique().shape)將獲取的郵件地址進(jìn)行歸一化處理,得到郵件收發(fā)服務(wù)器類別的數(shù)量。

        3)對(duì)時(shí)間的提取。采用rex=r"([A-Za-z]+d?[AZa-z]*).*?(d{2}):d{2}:d{2}.*"提取時(shí)間。

        同樣利用正則表達(dá)式根據(jù)格式對(duì)時(shí)間進(jìn)行提取,獲取的結(jié)果少數(shù)為none,另外一部分則根據(jù)時(shí)間段劃分(由于某一封郵件是否是異常郵件并不能僅根據(jù)一個(gè)準(zhǔn)確的時(shí)間來(lái)判斷,因此劃分不同時(shí)間段作為特征提取出來(lái))。

        4)對(duì)內(nèi)容長(zhǎng)度提取。根據(jù)數(shù)據(jù)清洗完成后的文件,通過(guò)二維表格形式讀取,并獲取內(nèi)容列中不同的長(zhǎng)度,然后對(duì)不同長(zhǎng)度段分不同類型(由于某一封郵件是否是異常郵件并不能僅根據(jù)一個(gè)準(zhǔn)確的內(nèi)容長(zhǎng)度來(lái)判斷,因此劃分不同內(nèi)容長(zhǎng)度類型作為特征提取出來(lái)),此處將內(nèi)容長(zhǎng)度不大于10的劃分為0,不大于100的劃分為1,不大于500的劃分為2,不大于1 000的劃分為3,…,不大于50 000的劃分為13,否則為14。圖2為郵件長(zhǎng)度對(duì)異常郵件所占比例的影響。

        圖2 郵件長(zhǎng)度對(duì)異常郵件所占比例的影響Fig.2 Effect of mail length on the proportion of abnormal mail

        從圖2的實(shí)驗(yàn)結(jié)果可以看出,郵件內(nèi)容長(zhǎng)度類型不大于1時(shí),異常郵件占比高,不小于2時(shí)占比逐漸下降。而郵件內(nèi)容長(zhǎng)度類型在2到10之間時(shí),異常郵件占比隨內(nèi)容長(zhǎng)度呈現(xiàn)凸增長(zhǎng),在7的位置達(dá)到極大值,而后趨減。

        2.3 數(shù)據(jù)集分割以及模型訓(xùn)練

        在經(jīng)過(guò)了上述的郵件集合處理以及特征提取之后,讀取得到的文件并進(jìn)行分割。利用sklearn.model_selection 中的train_test_split隨機(jī)將 10 000 封郵件集按照比例分為測(cè)試集和訓(xùn)練集,并輸出到對(duì)應(yīng)的文件夾下。再將訓(xùn)練集合中已經(jīng)分詞好的內(nèi)容部分進(jìn)行類型轉(zhuǎn)換,從文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)以進(jìn)行特征提取,也就是tf-idf權(quán)重計(jì)算部分,即詞頻以及逆文本頻率指數(shù)的計(jì)算,再將數(shù)據(jù)進(jìn)行模型轉(zhuǎn)換得到數(shù)據(jù)模型。

        2.4 模型填充

        由于在sklearn庫(kù)中已有對(duì)各個(gè)算法的詳細(xì)實(shí)現(xiàn),本文只需按參數(shù)要求,向各個(gè)算法實(shí)現(xiàn)的函數(shù)填充數(shù)據(jù)參數(shù)即可獲得對(duì)應(yīng)的算法模型。另因本文主要研究隨機(jī)森林算法,而隨機(jī)森林算法又基于決策樹(shù),所以此處僅列出決策樹(shù)算法和隨機(jī)森林算法在模型填充時(shí)候的參數(shù)選擇。本文經(jīng)過(guò)多次調(diào)參,力求得到最精確的結(jié)果。下面提供關(guān)于決策樹(shù)分類器以及隨機(jī)森林分類器主要參數(shù)。

        decision_tree算法:

        在構(gòu)建decision_tree模型時(shí),采用sklearn.tree下的DecisionTreeClassisfier的決策樹(shù)分類器模型,設(shè)置參數(shù)如下。

        1)criterion為切分質(zhì)量的評(píng)價(jià)準(zhǔn)則。默認(rèn)為'mse'(mean squared error)。

        2)splitter為在每個(gè)節(jié)點(diǎn)切分的策略。

        3)max_depth為指定樹(shù)的最大深度。如果為None,則表示樹(shù)的深度不限,直到每個(gè)葉子都是純凈的,即葉節(jié)點(diǎn)中所有樣本都屬于同一個(gè)類別,或者葉子節(jié)點(diǎn)中包含小于min_samples_split個(gè)樣本。

        4)random_state。該參數(shù)如果為整數(shù),則它指定了隨機(jī)數(shù)生成器的種子;如果為RandomState實(shí)例,則指定了隨機(jī)數(shù)生成器;如果為None,則使用默認(rèn)的隨機(jī)數(shù)生成器。

        5)max_leaf_nodes。如果為None,則葉子節(jié)點(diǎn)數(shù)量不限。如果不為None,則max_depth被忽略。

        random_forest算法:

        random_forest本身是建立在decision_tree的基礎(chǔ)上,在構(gòu)建random_forest模型時(shí),采用sklearn.svm下的隨機(jī)森林分類器模型,設(shè)置參數(shù)如下:

        1)n_estimators。該參數(shù)為弱學(xué)習(xí)器的最大迭代次數(shù),或者是最大弱學(xué)習(xí)器的個(gè)數(shù)。一般來(lái)說(shuō)參數(shù)越小,越容易欠擬合;越大,越容易過(guò)擬合。默認(rèn)為10,實(shí)際參數(shù)和learning_rate一起考慮。

        2)criterion。對(duì)樹(shù)做劃分時(shí),對(duì)特征的評(píng)價(jià)標(biāo)準(zhǔn)。分類模型和回歸模型的損失函數(shù)不同。分類RF對(duì)應(yīng)的有基尼指數(shù)gini,另一個(gè)標(biāo)準(zhǔn)是信息增益,回歸RF默認(rèn)是均方差mse,另一個(gè)可選擇的標(biāo)準(zhǔn)是絕對(duì)值差mae,本文采用信息增益作為劃分標(biāo)準(zhǔn),下文將進(jìn)行討論。

        3)max_depth。該參數(shù)為樹(shù)的最大深度,默認(rèn)為None,直到使每一個(gè)葉節(jié)點(diǎn)只有一個(gè)類別,或是達(dá)到min_samples_split。

        4)random_state。如果給定相同的參數(shù)和訓(xùn)練數(shù)據(jù),random_state的確定值將始終產(chǎn)生相同的結(jié)果。一個(gè)具有不同隨機(jī)狀態(tài)的多個(gè)模型的集合,并且所有最優(yōu)參數(shù)有時(shí)比單個(gè)隨機(jī)狀態(tài)更好。

        3 算法描述

        3.1 決策樹(shù)算法

        決策樹(shù)是數(shù)據(jù)挖掘領(lǐng)域應(yīng)用最廣泛的方法之一,在很多實(shí)際應(yīng)用中都被采用。它是一種非線性監(jiān)督學(xué)習(xí)模型,能將數(shù)據(jù)分成不同的類別并對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)。決策模型將結(jié)果分解為if-then-else規(guī)則,并以樹(shù)型結(jié)構(gòu)展示。這種樹(shù)形模型的高可讀性使得人機(jī)更易于理解發(fā)現(xiàn)的知識(shí)。推斷決策樹(shù)的過(guò)程主要由以下幾個(gè)方面決定:

        1)分割標(biāo)準(zhǔn),即用于選擇要插入節(jié)點(diǎn)和分支屬性的方法;

        2)停止分支的標(biāo)準(zhǔn);

        3)在葉節(jié)點(diǎn)上分配類標(biāo)簽或概率分布的方法;

        4)用于簡(jiǎn)化樹(shù)結(jié)構(gòu)的后修剪過(guò)程。

        目前有兩種分割標(biāo)準(zhǔn):傳統(tǒng)的分割標(biāo)準(zhǔn)和基于不精確概率的分割標(biāo)準(zhǔn)。區(qū)分它們的一個(gè)基本點(diǎn)是如何從數(shù)據(jù)中獲得概率。通常,傳統(tǒng)標(biāo)準(zhǔn)使用香農(nóng)準(zhǔn)則作為信息的基本測(cè)度。而基于不精確概率的準(zhǔn)則使用最大熵測(cè)度,這種測(cè)量方法基于最大不確定度原理,在經(jīng)典信息理論中被廣泛使用,稱為最大信息增益(information gain,IG)原理,本文在構(gòu)建決策樹(shù)時(shí)也是采用這種方法。

        設(shè)屬性X為一般特征,其值屬于 {x1,x2,…,xt},信息增益IG解釋如下:

        1)數(shù)據(jù)集D的熵C定義為

        2)屬性X生成的平均熵為

        3)最后可得信息增益(IG)為

        3.2 隨機(jī)森林算法

        隨機(jī)森林是由多顆決策樹(shù)構(gòu)成的。如果必須對(duì)一個(gè)新實(shí)例進(jìn)行分類,那么這個(gè)實(shí)例的特性將呈現(xiàn)給森林中的每顆決策樹(shù),每顆決策樹(shù)返回一個(gè)分類值,投票給該類。最后,由隨機(jī)森林給出的分類值是與類變量的最優(yōu)投票相關(guān)聯(lián)的值,超過(guò)了森林中的所有決策樹(shù)。每顆決策樹(shù)具有以下特征:

        1)若N是一個(gè)數(shù)據(jù)集中的實(shí)例數(shù),那么隨機(jī)森林從原始數(shù)據(jù)中選擇一個(gè)隨機(jī)樣本,替換N個(gè)實(shí)例,此樣本將作為構(gòu)建決策樹(shù)的訓(xùn)練集。

        2)若M是數(shù)據(jù)集中的特征數(shù),則指定一個(gè)m<

        3)對(duì)于樹(shù)中的每一個(gè)節(jié)點(diǎn),

        ①?gòu)腗個(gè)原始特征中隨機(jī)選擇m個(gè)特征;

        ②根據(jù)這m個(gè)特征計(jì)算分割標(biāo)準(zhǔn),具有最佳值的特征用于拆分節(jié)點(diǎn)。

        4)在構(gòu)建完每顆決策樹(shù)之后沒(méi)有修剪。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)說(shuō)明

        實(shí)驗(yàn)平臺(tái)包括:

        操作系統(tǒng)為Windows10;

        IDE 為Pycharm 2019.1.1,Python 3.7.3;

        實(shí)驗(yàn)數(shù)據(jù)為10 000封郵件,其中有一定數(shù)量異常郵件和一定數(shù)量非異常郵件,均由IndexFile的索引文件指明(spam代表異常郵件,ham代表非異常郵件)。

        4.2 實(shí)驗(yàn)結(jié)果及分析

        本文從3個(gè)指標(biāo)對(duì)算法性能進(jìn)行對(duì)比分析,具體定義如下:

        FN(false negative),被判定為負(fù)樣本、事實(shí)上是正樣本的數(shù)目。

        FP(false positive),被判定為正樣本、事實(shí)上是負(fù)樣本的數(shù)目。

        TN(true negative),被判定為負(fù)樣本、事實(shí)上也是負(fù)樣本的數(shù)目。

        TP(true positive),被判定為正樣本、事實(shí)上也是正樣本的數(shù)目。

        準(zhǔn)確率=所有預(yù)測(cè)正確的樣本/總的樣本,即,(TP+TN)/總樣本數(shù)目;在本文中,準(zhǔn)確率=對(duì)異常郵件測(cè)試集中預(yù)測(cè)的樣本數(shù)目/所有測(cè)試集中的樣本數(shù)目;

        召回率=將正類預(yù)測(cè)為正類/所有正真的正類,即,TP/(TP+TN);在本文中召回率=對(duì)異常郵件測(cè)試集中預(yù)測(cè)的樣本數(shù)目/所有測(cè)試集中的異常郵件樣本數(shù)目。

        F1值=正確率*召回率*2/(正確率+召回率);F1值是精確率和召回率的調(diào)和平均數(shù)。

        本文采用了準(zhǔn)確率、召回率、F1值3個(gè)主要的評(píng)判標(biāo)準(zhǔn),并對(duì)6種算法,包括隨機(jī)森林、K最近鄰(k-NearestNeighbor,KNN)、梯度提升樹(shù)(gradient Boosting decison tree,gbdt)、貝葉斯、決策樹(shù)、支持向量機(jī)(support vector machine,SVM),在上述3個(gè)標(biāo)準(zhǔn)和模型構(gòu)建時(shí)間上進(jìn)行對(duì)比。測(cè)試郵件集合的大小分別為500,1 000,1 500,2 000,2 500,對(duì)比結(jié)果分別如圖3~6所示。

        圖3 準(zhǔn)確率對(duì)比圖Fig.3 Accuracy comparison chart

        圖4 召回率對(duì)比圖Fig.4 Recall rate comparison chart

        圖5 F1值對(duì)比圖Fig.5 Comparison chart of F1 values

        圖6 模型構(gòu)建時(shí)間對(duì)比圖Fig.6 Model construction time contrast diagram

        從控制臺(tái)輸出結(jié)果以及對(duì)比圖中不難發(fā)現(xiàn),在同組訓(xùn)練集與測(cè)試集的情況下,隨機(jī)森林算法的準(zhǔn)確率為0.985 89,召回率為0.993 68,F(xiàn)1 值為0.989 77,均優(yōu)于其它算法。但在模型構(gòu)建時(shí)間上隨機(jī)森林算法慢于貝葉斯算法、決策樹(shù)算法、KNN。不過(guò),由于計(jì)算機(jī)性能不斷增強(qiáng),并且出現(xiàn)了云計(jì)算以及并行計(jì)算等計(jì)算模式,在模型構(gòu)建時(shí)間上,并不是一個(gè)嚴(yán)重的問(wèn)題。

        5 總結(jié)與展望

        異常郵件檢測(cè)是一個(gè)概率性問(wèn)題,準(zhǔn)確率不高或者誤判都會(huì)給用戶帶來(lái)困擾。通過(guò)實(shí)驗(yàn)分析表明本文采用的隨機(jī)森林算法比其他幾種算法有明顯優(yōu)勢(shì)。但仍存在以下幾個(gè)方面可以進(jìn)一步研究:

        1)一個(gè)足夠大的郵件集合數(shù)據(jù)庫(kù)對(duì)異常郵件的檢測(cè)非常重要,樣本量越大也越能高精準(zhǔn)的預(yù)判未知郵件。因此合理構(gòu)建一個(gè)共享的郵件集合倉(cāng)庫(kù)是有必要的。

        2)異常郵件類型件在不斷變化,利用單一的異常郵件檢測(cè)機(jī)制是不合理的,可以考慮在不同的算法之間取長(zhǎng)補(bǔ)短,將各種算法進(jìn)行整合,以達(dá)到更高的準(zhǔn)確率。

        3)也同樣由于本文只是針對(duì)于純文本的郵件格式,格式單一,而異常郵件在當(dāng)今社會(huì)不只是文本類型,比如音頻、視頻、壓縮文件等異常郵件。近年來(lái),研究人員對(duì)圖像異常郵件的識(shí)別和過(guò)濾技術(shù)的研究較為關(guān)注,但當(dāng)前研究出的過(guò)濾系統(tǒng)都不能很好地實(shí)現(xiàn)異常郵件圖像的識(shí)別和分類,難以滿足圖像型異常郵件過(guò)濾的準(zhǔn)確性、實(shí)時(shí)性及高效性要求。

        猜你喜歡
        決策樹(shù)郵件特征提取
        基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        一封郵件引發(fā)的梅賽德斯反彈
        車迷(2018年12期)2018-07-26 00:42:32
        Bagging RCSP腦電特征提取算法
        基于決策樹(shù)的出租車乘客出行目的識(shí)別
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        將當(dāng)前郵件快速轉(zhuǎn)發(fā)到QQ群
        電腦迷(2012年21期)2012-04-29 22:16:01
        青青草原精品99久久精品66| 国产一区二区三区免费av| 国产高清一区二区三区四区色| 中文字幕久久熟女蜜桃| 久久精品国产一区二区电影| 一区二区三区国产高潮| 日本中文字幕有码在线播放| 一本一道vs无码中文字幕| 亚洲成色www久久网站夜月| 美女高潮流白浆视频在线观看| 精品亚洲av一区二区| 久久成人成狠狠爱综合网| 精品亚洲国产成人av| 在线观看一区二区女同| 亚洲av资源网站手机在线| 国产精品亚洲片在线观看不卡| 中文字幕爆乳julia女教师| 亚洲av高清在线观看三区| 日本国产一区在线观看| 日本爽快片100色毛片| 毛茸茸性xxxx毛茸茸毛茸茸| 久久精品综合国产二区| 中文字幕高清不卡视频二区| 日本特黄特色特爽大片| 成人爽a毛片一区二区免费| av成人资源在线播放| 天堂av在线美女免费| 水蜜桃无码视频在线观看| 亚洲欧洲日韩另类自拍| 午夜少妇高潮在线观看视频| 国产精品无码一区二区三区| 91精品一区国产高清在线gif| 国产美女黄性色av网站| av影院手机在线观看| 国产精品9999久久久久| 国产桃色在线成免费视频| 亚洲av调教捆绑一区二区三区| 国产超碰人人做人人爽av大片| 精品久久久久久久久午夜福利| 亚洲视频综合在线第一页| 中国免费看的片|