亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于增量學習算法的校園網(wǎng)垃圾郵件檢測模型

        2017-04-17 05:13:28東一舟毛明榮
        計算機應用 2017年1期
        關(guān)鍵詞:宿主機鍵值垃圾郵件

        陳 斌,東一舟,毛明榮

        (南京師范大學 信息化建設管理處,南京 210023)

        (*通信作者電子郵箱njnuchenbin@njnu.edu.cn)

        基于增量學習算法的校園網(wǎng)垃圾郵件檢測模型

        陳 斌*,東一舟,毛明榮

        (南京師范大學 信息化建設管理處,南京 210023)

        (*通信作者電子郵箱njnuchenbin@njnu.edu.cn)

        針對大量垃圾郵件對用戶帶來困擾的問題,提出了一種增量被動攻擊學習算法。該方法基于半年時間的對本校校園網(wǎng)內(nèi)郵件宿主機上所發(fā)起的簡單郵件傳輸協(xié)議(SMTP)會話日志的采集,針對會話中記錄的投遞率狀態(tài)及多種類型的失敗消息進行了宿主機行為分析,最終達到有效地適應被檢測垃圾郵件源宿主機對最近郵件分類行為的目的。實驗結(jié)果表明,在執(zhí)行了若干回合分類策略的調(diào)整后,該檢測的準確度可以達到94.7%。該設計可以有效地檢測內(nèi)部垃圾郵件宿主機行為,繼而從根源上抑制了垃圾郵件的產(chǎn)生。

        垃圾郵件宿主機;簡單郵件傳輸協(xié)議會話;增量學習;分類器;失敗信息

        0 引言

        如今,垃圾郵件越來越日常性地充斥著使用者的郵箱,這主要是由于電子郵件傳遞的零成本所致。按照Anti-Abuse消息工作組2011年度發(fā)布的調(diào)查報告顯示,互聯(lián)網(wǎng)電子郵件總量中超過90%的都是垃圾郵件[1],這不僅浪費了互聯(lián)網(wǎng)帶寬及郵件服務提供商的存儲空間,同時干擾甚至傷害了部分用戶的正當權(quán)益。雖然大多數(shù)用戶都會忽視垃圾郵件,但由于它的體量巨大,故其帶來的綜合利潤還是足以使得該不端行為存在。更有甚者,垃圾郵件的發(fā)送者通過發(fā)送嵌入了惡意軟件的垃圾郵件,或含有驅(qū)動下載攻擊類型的有害鏈接,使得缺乏免疫能力的宿主機成為被其控制的僵尸網(wǎng)絡中的一臺僵尸機[2],從而迫使它作為其有效垃圾郵件的分發(fā)者。有研究報告顯示,僵尸網(wǎng)絡產(chǎn)生了全球超過82%的垃圾郵件[3]。

        解決該問題最通常的策略是,最大限度地為終端用戶過濾來自于外部的垃圾郵件,它的實際效果取決于郵件服務商、郵件客戶端或郵件代理所提供的過濾器能力[4]。即便終端過濾器可以精準隔離垃圾郵件,但其仍無法從源頭上遏制垃圾郵件的發(fā)出,故而大量網(wǎng)絡帶寬還是會被無端消耗,這無疑讓本已吃緊的校園網(wǎng)帶寬雪上加霜。因此,如何從源頭上制止垃圾郵件的產(chǎn)生,成為該領(lǐng)域緊急而重要的問題。如果垃圾郵件宿主機的行為可以盡早被抑制,其所造成的垃圾郵件隱患即可隨之被排除。對于如何有效檢測及認定垃圾郵件宿主機存在兩個主要問題:1)對于企圖避開檢測的垃圾郵件宿主機而言,其有什么確定的特征可以作為鑒別的依據(jù);2)針對可能存在的海量數(shù)據(jù)集所產(chǎn)生的簡單郵件傳輸協(xié)議(Simple Mail Transfer Protocol, SMTP)日志,檢測模型如何建立,其又如何與最新垃圾郵件的行為相適應?

        本文從外部郵件服務器和消息分類器運作細節(jié)的角度,描述了多種失敗消息相應情況下垃圾郵件的行為特征,每一個垃圾郵件宿主機檢測的重要特征都是經(jīng)過了深度學習的,同時使用了一種增量被動攻擊學習算法來從大量的SMTP日志中適應性地檢測垃圾郵件宿主機。該設計可以幫助校園網(wǎng)絡的管理者檢測垃圾郵件宿主機,從而抑制這些宿主機的行為,當然該方法在其他機構(gòu)和場景下也是適用的。

        1 相關(guān)工作

        之所以將垃圾郵件宿主機檢測作為研究焦點,是因為僵尸網(wǎng)絡類檢測與其相關(guān)性較低,下面介紹近些年對其的相關(guān)研究。垃圾郵件追蹤器是一款開發(fā)于2007年的基于行為黑名單算法的垃圾郵件宿主機識別系統(tǒng),它通過具有相似模式的目標域宿主機聚類的收發(fā)郵件消息進行分析,垃圾郵件可以較容易地分發(fā)至郵件地址的接收者,這些接收者在不同的垃圾郵件宿主機消息域中,這可能使得檢測結(jié)果變得混亂難以理解[5]。自2011年起,有學者開始研究采集的垃圾郵件消息與具有相似內(nèi)容的宿主機的識別工作。作者提取了業(yè)務日志對垃圾郵件宿主機進行了分組,它們作為既定相似目標的傳播源,并主動發(fā)現(xiàn)其他的垃圾郵件宿主機的傳播行為[6]。相比較而言,該工作并不依賴于任何必須優(yōu)先建立的垃圾郵件內(nèi)容或行為觀測器,檢測可以通過增量學習方式,自動適應于最近的垃圾郵件的行為。2012年有研究人員專門針對大學校園垃圾郵件過濾器接收的輸出消息進行嘗試性研究,實驗使用了時序化測試來檢測內(nèi)部宿主機持續(xù)發(fā)送垃圾郵件的概率[7]。該工作不依賴于外部的垃圾郵件過濾器,這主要取決于以下兩點因素:1)一個SMTP會話可以因為協(xié)商過程存在問題而失敗,而若一個會話在交互階段持續(xù)保持失敗狀態(tài),服務器將會發(fā)送一封垃圾郵件消息,在該情況下不會針對內(nèi)容進行過濾。2)一個用戶可以向郵件服務器自動轉(zhuǎn)發(fā)配置,這也將導致轉(zhuǎn)發(fā)器收到包括垃圾郵件在內(nèi)的郵件,對于一個用戶的特定外部賬戶來說,垃圾郵件過濾器將察覺到來自于郵件服務器的垃圾郵件消息,繼而這種檢測可以得到更明確的判斷結(jié)果[8]。

        對于增量學習和在線學習,周期性數(shù)據(jù)分析請求出現(xiàn)于部分應用,其中包括了網(wǎng)絡交易分析、匿名檢測以及干擾檢測等,應用需要周期性地適配近期數(shù)據(jù)的分類[9]。同樣地,垃圾郵件宿主機分類檢測,對于從SMTP日志中識別最近的垃圾郵件行為來說是必須的[10]。大多數(shù)針對該目標的增量學習方法是基于決策樹、神經(jīng)網(wǎng)絡以及向量機的,與之相關(guān)的典型設計用例有,將它用于建立靜態(tài)分類模式,該模式基于之前的實例,并可以從實例中糾錯,從而形成新的實例標簽。虛擬機已經(jīng)被證實可以用來較好地分離不同標簽的實例,它通過最大化標簽實例邊緣從而產(chǎn)生不同的超平面,這里的邊緣是實例與分離超平面之間的距離,該方法可通過識別每一個新的實例的向量支持能力,進而調(diào)節(jié)虛擬機增量分類,它的優(yōu)勢是可以保持之前有用的實例作為支持向量,并同步獲取有效的更新步驟信息作為知道依據(jù)[11]。然而,虛擬機超平面方法在分發(fā)出現(xiàn)錯誤的情況下,未必能進行有效的調(diào)節(jié),換句話說,當監(jiān)控實例的分發(fā)與固有的支撐向量存在明顯的差異時,監(jiān)控實例可能由于支撐向量概率的減小而導致分類錯誤。出于對更新步驟效率的考慮,同樣可以用在線學習的方法來解決周期性調(diào)整分類的問題。在線學習過程中,每一個標簽實例都會在被用于分類器更新處理后被丟棄。與增量學習的設置不同,其無需維護之前的標簽實例,更新步驟只需要使用一個標簽實例就可以完成基本的執(zhí)行動作,更新分類器可以彈性地適配多種實例的分發(fā)。一些類似模擬人類視神經(jīng)控制系統(tǒng)的圖形識別感知器算法,以及基于邊界的算法已經(jīng)被證實在大范圍的應用中都是非常有效的。分類器更新通常是基于各類特征表示的,相對支持向量機(Support Vector Machine, SVM)、提升方法(boosting)、最大熵方法等“淺層學習”方法而言,深度學習所學得的模型中,非線性操作的層級數(shù)更多。淺層學習依靠人工經(jīng)驗抽取樣本特征,網(wǎng)絡模型學習后獲得的是沒有層次結(jié)構(gòu)的單層特征;而深度學習通過對原始信號進行逐層特征變換,將樣本在原空間的特征表示變換到新的特征空間,自動地學習得到層次化的特征表示[12]。為了與分類器的垃圾郵件分類任務相對抗,攻擊者通常都會嘗試通過誘騙的方式使得分類器產(chǎn)生錯誤結(jié)果從而躲避檢測。在對抗性研究領(lǐng)域,已經(jīng)有一些專門針對精準化分類器而建立的偽裝攻擊研究,這些研究的貢獻就在于,對惡意攻擊及正常分類實例的最小代價可以作出合理化區(qū)分及評估[13]。對于攻擊者而言,垃圾郵件制造者不能對外部服務器的回復消息進行修改,這也就限制了其對郵件的控制權(quán),因此,使用攻擊學習的作用是微乎其微的。本文的主要工作將集中在對持續(xù)改變其行為的垃圾郵件的適應性檢測上。

        2 垃圾郵件行為特征分析及檢測模型

        垃圾郵件行為失敗消息特征分析及檢測分為五個階段,即:1)通過干擾檢測系統(tǒng)對校園網(wǎng)絡與互聯(lián)網(wǎng)之間的SMTP交互日志進行捕獲;2)從日志中提取出校園網(wǎng)內(nèi)部宿主機與外部宿主機初始會話中的SMTP報文;3)計算來自于每臺內(nèi)部宿主機個體的多種類型SMTP會話投遞成功及失敗消息的數(shù)量及類型;4)按照宿主機狀態(tài),通過行為檢測的方式,針對訓練集中的內(nèi)部宿主機打上垃圾郵件源標簽或正常宿主機標簽;5)在此基礎上,可以通過增量學習算法持續(xù)檢測校園中的垃圾郵件宿主機。特征分析和檢測常用的兩種分類方法分別為基于規(guī)則的方法和基于機器學習的方法[14]。針對分類后的特征結(jié)果集合,淘汰歷史樣本集中的非支持向量,將支持向量同新增樣本一起訓練,以達到增量學習的目的[15]。一旦通過檢測確認當前存在垃圾郵件行為,則會將發(fā)現(xiàn)的垃圾郵件宿主機列表發(fā)送給管理者從而對其加以限制。

        圖1描述了部署于計算中心的專門用于監(jiān)控SMTP會話的宿主機。該宿主機內(nèi)嵌了網(wǎng)絡監(jiān)控卡以進行網(wǎng)絡交互的檢測,其檢測對象是一臺位于校園網(wǎng)關(guān)的思科路由器。由于本文只關(guān)注于校園內(nèi)的垃圾郵件宿主機,所以對來自于外部的SMTP會話進行了忽略處理。值得注意的是,垃圾郵件僵尸網(wǎng)絡可能會通過基于網(wǎng)頁的郵件服務發(fā)送垃圾郵件,同樣也可能通過SMTP服務來發(fā)送,故而很難在沒有對SMTP會話進行檢測的前提下來定義可靠的垃圾郵件特征。一種可行的解決方案是按照短會話模式來查找SMTP會話日志,該方法背后的基本原理是一個失敗會話的終結(jié)必然在失敗當下立即發(fā)生,所以該會話將比正常情況下要短。換句話說,如果一個宿主機經(jīng)常在SMTP會話時發(fā)生短會話,則可以認為該會話是容易失敗的,并且其容易被外部干擾所控制,從而成為一臺垃圾郵件宿主機。真正難于被可靠檢測到的垃圾郵件發(fā)送者,是基于安全超文本傳輸協(xié)議(Hyper Text Transfer Protocol over Secure socket layer, HTTPS)的頁面郵件會話,對于該種情況,干擾檢測系統(tǒng)可以檢測到垃圾郵件宿主機,但發(fā)送者可以通過行為隨機化處理輕易地躲避檢測,所以其需要檢測垃圾郵件的加密通道,這不在本文的研究范圍之內(nèi)。

        網(wǎng)絡干擾檢測系統(tǒng)通過宿主機監(jiān)控及關(guān)鍵日志信息進行總結(jié),以此來進行對SMTP會話的分析,這其中包括了郵件接收地址和回復碼。以下是采集自192.168.92.154設備的日志消息示例,由于其主機網(wǎng)絡互連協(xié)議(Internet Protocol, IP)地址被垃圾郵件檢測掃描并被列入黑名單后,接收到了一條來自于SMTP服務器223.1.106.1的拒絕消息,頭兩行是消息的時間戳以及會話標識碼,對其解析后可知消息出現(xiàn)的時間,以及區(qū)分SMTP會話消息對[DENY,605]的意思,是SMTP響應碼605與郵件命令在請求響應中雖被拒絕但狀態(tài)是保持接續(xù)的。該日志不包含郵件體,否則日志內(nèi)容的體積將會非常龐大,并且這會導致嚴重的隱私泄露,日志中的消息包括了多種類型的成功分發(fā)和失敗情況,同時還有一些關(guān)鍵域信息。通過這些檢測細節(jié)信息,已經(jīng)足夠?qū)σ粋€宿主機是否進行了垃圾郵件的分發(fā)行為作出判斷。

        圖1 計算中心宿主機SMTP會話監(jiān)控架構(gòu)

        一個來自于服務器的SMTP響應消息,標志著一個SMTP郵件分發(fā)會話的成功與失敗狀態(tài),如果失敗總是發(fā)生,意味著其異常等級較高。起初試圖通過SMTP響應碼對日志中的失敗消息進行分類,但事實上響應碼和真正的失敗原因是多元的關(guān)系,無法做到一一對應。表1中列出了一些實驗過程中的實例,從中可以看出有很多比響應碼更合理的鍵值選項,這些鍵值選項都是從多種失敗消息中提取的。

        表1 相同SMTP響應碼情況下不同響應消息示例

        另外,郵件服務器可以針對同樣的失敗原因給出不同的響應消息。例如由于黑名單而造成的郵件阻塞在表1中就給出了多種列舉,所以在實驗過程中通過人工識別鍵值的方式,根據(jù)語義分析對垃圾郵件進行了標注,并基于失敗原因的鍵值域組織了響應消息。作為一個檢測系統(tǒng),在默認SMTP策略腳本中并沒有列出所謂的期望回復結(jié)果,只是在默認腳本中添加了附加鍵值信息,以幫助其進行垃圾郵件會話的識別。附加信息包括了日志是否成功轉(zhuǎn)發(fā)、郵件頭的格式、郵件回復路徑、發(fā)送者以及接收者的地址和主題等。

        在記錄了SMTP會話日志后,就可以開始針對SMTP會話進行成功投遞及失敗消息的統(tǒng)計。按照SMTP的轉(zhuǎn)發(fā)實現(xiàn)規(guī)則,失敗消息存在多種不同的語義,按照實際情況可以進行分類,主要分為6大類,實驗步驟中的鍵值是通過人工設定的。表2中列出了典型的鍵值子集,這些鍵值在實驗過程中的分類處理中都有用到,并且在失敗消息中以模糊匹配加正則表達式的方式進行鍵值的查找,需要說明的是,在實驗中的鍵值是不完備的,因為針對數(shù)百GB的日志中的潛在鍵值是無法窮舉的。

        表2 針對各種失敗原因的語義鍵值歸類

        類似拉丁語義檢索的自然語言處理技術(shù),可以對相似語義的上下文語句的檢索匹配有所幫助。針對郵件的不同區(qū)域,包括郵件標題和正文,可以進行概念分析、分類、標引、描述和處理,形成具有語義關(guān)聯(lián)的資源元數(shù)據(jù)集合,并使用RDF(Resource Description Framework)和OWL(Web Ontology Language)語言進行語義層面的表述和描述,通過適應于郵件類型的自然語言關(guān)系模型學習處理,結(jié)合針對郵件上下文的語義分析,形成用以與分類器預定義分揀數(shù)據(jù)集較為匹配的語義關(guān)鍵詞或語句?;貜拖⑼ǔV话粌蓚€短句,示意失敗的鍵值通常只在消息中出現(xiàn)一次。回復消息中隱含的失敗原因可以對垃圾郵件宿主機的行為產(chǎn)生影響,在這些原因中,由于發(fā)送域可能被篡改,所以必須針對失敗域進行核查,因為這往往是垃圾郵件的征兆所在。在接收到的失敗消息中,標識為郵件接收者未找到的類別通常有以下三種情況:目標郵件地址已經(jīng)過期停用,但垃圾郵件制造源依然在持續(xù)向其發(fā)送郵件;目標郵件地址由于解析錯誤而造成拼寫問題,這種解析錯誤是由于垃圾郵件制造源的惡意探測器在網(wǎng)絡上掃描目標源后,對其地址試探性輪詢分析產(chǎn)生的過程結(jié)果;另外,垃圾郵件制造源也會隨機產(chǎn)生郵件地址作為目標郵件地址,對于之前已經(jīng)發(fā)送過垃圾郵件的宿主機而言,對端服務器可能會將其列入IP黑名單,每次接收到郵件的檢索過程中,可能會對這些宿主機的郵件進行退信處理。

        對于外部郵件服務器,由于其響應消息中的一些情況及其狀態(tài)并不確定,所以實驗中將其歸入單獨的類別。還有一類特別的不常用命令對,例如SMTP會話數(shù)據(jù)無響應,這類錯誤通常與響應碼702相關(guān)聯(lián),所以將該響應碼作為該分類的鍵值。對于校園里的每一個IP地址,均可按照相應鍵值計算其回復消息數(shù)量,該統(tǒng)計結(jié)果對識別疑似垃圾郵件宿主機是有幫助的。實驗中使用了8維特征向量對內(nèi)部宿主機的每一個實例的SMTP會話進行了描繪,該特征向量中的八元組其中第1元記錄的是成功投遞情況,第2至第7元記錄的是失敗消息的6種分類(如表2),第8元標識了宿主機是否是郵件服務器。需要說明的是,如表2所列舉的,域名系統(tǒng)(Domain Name System, DNS)過濾器或者IP黑名單的方法都只是導致失敗的一部分原因,也就是說,垃圾郵件會話的動機檢測機制對象是多樣的,并且是隨著實際情況的演變而變化的,特別在針對外部郵件服務器的情況下,更是如此。

        實驗通過使用內(nèi)部宿主機行為結(jié)果作為訓練集,并且手工檢測以下郵件頭區(qū)域,以建立基本的垃圾郵件宿主機判斷機制。主要郵件頭區(qū)域為:主題,通過檢查郵件消息的主題,判斷其是否疑似為垃圾郵件,例如其是否包含了攻擊性關(guān)鍵詞,該區(qū)域通常是非常有代表性的垃圾郵件識別信息源;發(fā)送者,垃圾郵件發(fā)送者通常都會對自己進行偽裝,例如使用隨機產(chǎn)生的郵件地址或者域名,故對此域進行檢查也是非常有必要的;接收者,該域可以在垃圾郵件中被隨機產(chǎn)生,所以一旦檢測到有序列化的隨機目標的行為產(chǎn)生,則可以斷定其來源為垃圾郵件宿主機。通過掃描傳輸控制協(xié)議(Transmission Control Protocol, TCP)綁定的25號端口,并檢查宿主機域名稱,進而判斷宿主機是否為SMTP服務器。

        當一系列打著不同標簽的報文到來時,分類器需要不斷更新以保持與最新的垃圾郵件行為相適配,在此使用了被動攻擊增量學習算法,用以對當前分類器的郵件樣本分類工作進行調(diào)整。對于每一個潛在的樣本實例,都需要做如下兩步更新操作,即糾正當前分類器的預測錯誤,并且通過主動調(diào)整來更新當前分類器。最終,當前已經(jīng)被最小化錯誤處理后的分類器將作為下一次數(shù)據(jù)集采集選擇的分類器而使用,進而實現(xiàn)優(yōu)化分類的精確度提升。前述方法的具體標記需要在對其建模進行公式化之前進行定義,打上了標簽的周期化數(shù)據(jù)集Pt在周期t時被采集,|Pt|的實驗標簽都是成對的,在{(u1,v1),(u2,v2),…,(u|Pt|,v|Pt|)}實例數(shù)組中的un是宿主機在八元組周期觀測值條件下的SMTP行為,相應的類標簽vn是垃圾郵件或非垃圾郵件標識符。設置kt為周期t下分類器組成向量的權(quán)重,當每一個實例un∈Pt到達時,被更新的分類器kt+1都會修正之前kt分類器的錯誤,所以kt也只是進行最小化的修正。如果un從kt獲得了不正確的預測值,則kt的調(diào)節(jié)將被un的自身邊界值所取代。設置Q為kt的基于(un,vn)鍵值對的更新模型,分類器優(yōu)化調(diào)整可以公式化描述如下:

        在按照上述公式對kt對應的分類器進行更新時,{Q(kt,(uK,vK),Pt):1≤n≤|Pt|}是新分類器的備選鍵值組對。為防止新的分類器過多地被當前分類器影響,選擇策略會按照最準確的分類性能在Pt中挑選最合適的分類器,當超過一個已經(jīng)更新過的分類器具有非常高的分類準確性時,則可以選擇該分類器中與kt差別最小的,因此新的分類器kt+1可以按照該策略從備選分類器中進行選擇。按照上述對基礎過程的描述,垃圾郵件過濾器的更新所使用的增量學習算法流程如下所述。

        步驟1 初始化數(shù)據(jù)集Pt、分類器kt以及分類優(yōu)化調(diào)整內(nèi)核函數(shù)Q。

        步驟2 在每一個周期t,按照所采集數(shù)據(jù)的具體不同情況對數(shù)據(jù)集Pt進行更新,以用于增量學習。

        算法1 增量學習算法形式語義建模。

        1)

        Initialize:k1=(0,0,…,0);

        2)

        fort=1,2,…do

        3)

        Recpt_Collect_data(Pt);

        4)

        5)

        6)

        foreachun∈Ptdo

        7)

        8)

        9)

        end

        10)

        choose

        11)

        12)

        end

        3 實驗及分析

        通過實驗證實增量學習算法對垃圾郵件分類檢測的準確性及其性能優(yōu)劣的影響。實驗在核心機房搭建的信息系統(tǒng)平臺上實施。實驗環(huán)境基礎配置為:八核4.8GHz×4CPU、64GB內(nèi)存、16TB硬盤,雙200GB/s網(wǎng)卡的機架型服務器。虛擬機操作系統(tǒng)選擇了64位的Linux,虛擬機最大并發(fā)數(shù)為256臺。實驗采用基于徑向基內(nèi)核(RadialBasisFunction,RBF)的支持向量機(SupportVectorMachine,SVM)以實現(xiàn)分類器的設計,同時使用Matlab算法分析包對讀取參數(shù)與內(nèi)核參數(shù)進行有效開采和識別。在實驗中,分類器是定期增量更新的,這里更新周期為6h,更新對象是打了標簽的數(shù)據(jù)集,分類器kt在周期t中由實例標簽鍵值對Pt進行更新。增量學習算法的性能在不同設置條件下,對分類器錯誤修正的實際效果是不同的,同時在分類器更新后這種差別又可以被最大限度地減小,在選擇潛在分類器時起到了最小化評估錯誤的作用。按照分類器性能進行評估時,需要同時強調(diào)垃圾郵件和非垃圾郵件宿主機的分類效果,所以測量平均分類準確率也是由這兩大類別共同計算得出的。表3中列出了周期為月計的實驗數(shù)據(jù)集,每行中的數(shù)字是具有郵件行為的宿主機數(shù)量,垃圾郵件宿主機數(shù)量以及非垃圾郵件宿主機數(shù)量。對于每一個實例來說,數(shù)據(jù)集中的un包含了第2章特征分析模型中介紹的八元組向量中的SMTP行為,每一個un的標簽都被打上了垃圾郵件(vn=+1)或非垃圾郵件(vn=-1)。

        表3 2015-11至2016-04校園網(wǎng)內(nèi)垃圾郵件宿主機統(tǒng)計

        在不同E0和E(E代表E0的權(quán)衡結(jié)果,1代表校正,0表示不校正)調(diào)節(jié)系數(shù)背景下,針對混合郵件集的增量學習算法檢測結(jié)果如表4所示,實驗中嘗試了多種E0和E值情況下的調(diào)節(jié)效果,在表4中只列出了部分有代表性結(jié)果。根據(jù)調(diào)節(jié)效果顯示,大多數(shù)分類精確度都是通過t=2或t=3情況下的增量學習分類調(diào)節(jié)后提升的,增量學習算法當E=1時有著最優(yōu)的檢測能力,根據(jù)結(jié)果顯示,從第2個周期開始平均分揀準確度在80%以上,并保持在穩(wěn)定水平。另外,當E0=0,E=1以及E0=0.25,E=1時,較E0=0.5,E=1時準確性更穩(wěn)定。對于分類器產(chǎn)出者來說,當一個新的分類器衍生出之后,產(chǎn)出者錯誤檢測修正權(quán)重將會變小以避免過擬合問題的出現(xiàn),增量學習算法在本實驗中保守地采取了最小化調(diào)節(jié)效果。

        表4 增量學習算法在不同參數(shù)情況下的檢測結(jié)果 %

        Tab.4Detectionresultofincrementallearningalgorithmwithdifferentparameters%

        增量參數(shù)(E0,E)P1P2P3P4P5P6(0,1)72.2782.2483.8783.7283.7282.37(0.25,1)72.2782.1182.7483.5182.1781.69(0.5,1)72.2782.2583.1883.4184.2878.10(0.25,0)72.2772.4276.2776.3176.3272.72(0,0)72.2772.2772.2772.2772.2772.27

        表5中顯示了在不同增量學習配置類條件下的分析細節(jié),主要為E0=0.25,E=1以及E0=0,E=1兩種情況。從表5中可以看到非垃圾郵件宿主機(NoneSpamHost,NSPH)的識別準確度普遍低于80%,一些不確定的宿主機也由于其接收到了失敗響應而被認定為垃圾郵件宿主機。非垃圾郵件宿主機可以誤導預測結(jié)果并降低綜合檢測準確度。在實踐中,類似錯誤識別的情況已經(jīng)通過白名單的方式給予了糾正,所以綜合準確度顯著提高,對垃圾郵件宿主機(SpamHost,SPH)的3到4個周期的平均檢測識別準確度達到了90%以上。垃圾郵件宿主機與非垃圾郵件宿主機基于不同增量學習配置條件下的調(diào)節(jié)預測準確度結(jié)果如圖2所示。

        表5 垃圾郵件宿主機與非垃圾郵件宿主機的檢測結(jié)果

        圖2 SPH與NSPH基于不同增量學習配置調(diào)節(jié)的預測準確度

        除了討論特征權(quán)重的重要性,實驗通過手工檢測SMTP日志的研究方法,對可能誤導檢測結(jié)果的因素進行了分析,主要有以下幾類情況:1)“接收者未響應”應答,通常是由于接收者Email地址錯誤或郵件格式出現(xiàn)了問題,特別是當已經(jīng)超期停用的郵件地址添加在了接收列表中的情況下,很容易出現(xiàn)這種問題。出現(xiàn)類似錯誤通常的主要原因是宿主機向郵件列表進行了宣告,稱其可以持續(xù)接收響應,這種情況一般可以通過郵件列表或白名單列表更新并修正。在該情況中,還發(fā)現(xiàn)部分郵件地址為假造的情形,由于連續(xù)出現(xiàn)了多次雷同的郵件地址,其均投遞失敗,故確定歸類為該情況。2)郵件服務器“黑名單”應答,該應答意味著某些用戶賬號可能曾經(jīng)被盜取后用來發(fā)送垃圾郵件,這種情況下郵件服務器管理員可以通過解析郵件日志的方式對該賬號進行確認分析。3)垃圾郵件宿主機接收到新的失敗響應,通常這種情況并不多見,但在實驗中仍然對其原因進行了分析。當一個實例看起來和過去的郵件賬戶中的命令相類似的話,其成功率相對較高。另外,一個新的宿主機在觀測周期內(nèi),只會初始化少量的SMTP會話,其觀測行為的缺乏可能是錯分類中偶然的結(jié)果。

        垃圾郵件發(fā)送者往往都會企圖躲避檢測,但躲避畢竟不可能總是成功的,因為其無法控制外部郵件服務器,根據(jù)表2中的失敗原因鍵值歸類情況,垃圾郵件發(fā)送者需要通過域認證,在垃圾郵件會話中避開非正常的命令,并且頻繁地拒絕傳遞垃圾郵件。郵件接收者地址列表需要很仔細地采集以確保列表中的每一項都是有效的,因為郵件地址可能是非正確的,或者已經(jīng)過期。然而在網(wǎng)頁或磁盤組中檢索郵件地址往往是不精確的,垃圾郵件發(fā)送者也不可能在海量數(shù)據(jù)中手工認證郵件地址的有效性,但任何非正確的轉(zhuǎn)發(fā)或向過期地址的轉(zhuǎn)發(fā)都將導致失敗的結(jié)果。另外,郵件服務器列出了一個黑名單以阻止垃圾郵件的進入企圖,宿主機在控制了垃圾郵件轉(zhuǎn)發(fā)的同時,也會不斷補充更新其黑名單內(nèi)容。

        本實驗與同類垃圾郵件分揀實驗相比,最本質(zhì)的不同是,本實驗使用的是增量學習算法為基礎的分類器,而其他實驗主要以堆疊器編碼機為主。相比較而言,使用堆疊器編碼機的分類器其優(yōu)點是分揀穩(wěn)定速度快,準確度在有條件背景下能快速達到較高值;但其缺點在于通常與分揀對象數(shù)據(jù)集屬性強關(guān)聯(lián),針對著名的Enron數(shù)據(jù)集則效率很高(主要體現(xiàn)在1,2,3,5版本,4版本并不穩(wěn)定),但關(guān)聯(lián)其他類型數(shù)據(jù)集則效果并不明顯。而使用增量學習算法為基礎的分類器,則與數(shù)據(jù)集屬性沒有強關(guān)聯(lián)關(guān)系,對各種數(shù)據(jù)集效果差異并不明顯,但分揀準確度提升和穩(wěn)定需要一定周期,且準確度最高值低于堆疊編碼機方式。

        本實驗的檢測工作依賴于對獨立宿主機的統(tǒng)計,這些獨立宿主機以IP地址為識別符號,所以對主機地址做過網(wǎng)絡地址轉(zhuǎn)換(NetworkAddressTranslation,NAT)映射的內(nèi)網(wǎng)地址,或者對使用了動態(tài)主機配置協(xié)議(DynamicHostConfigurationProtocol,DHCP)獲取的地址而言,可能會存在不確定性。對于前者來說,網(wǎng)絡管理員仍可以識別近似源地址繼而分析其垃圾郵件行為,但需要對NAT所對應的真實設備進行處理;對于后者而言,垃圾郵件宿主機可能被認為來自于多個源,同樣地,網(wǎng)絡管理員可以對實際分配IP地址的DHCP服務器進行分析,以查找到真實的地址源。最難處理的情況是由移動終端獲取到一個動態(tài)IP地址,并且該地址又是做過NAT映射的。當一個移動終端在某一個點稍作停留,其垃圾郵件發(fā)送行為可能就會演變得非常嚴重,除非當前垃圾郵件已經(jīng)造成了擁堵。因此,一個可能的解決方案是,通過灰名單的方式僅僅阻塞該IP地址接收擁堵失敗消息,如果該源是一個正常的郵件服務器,一段時間后它將會再次發(fā)起請求。該途徑至少阻止了垃圾郵件移動終端對其停留區(qū)域其他終端的垃圾郵件的轉(zhuǎn)發(fā)。

        4 結(jié)語

        本文使用了增量學習算法用于垃圾郵件宿主機的檢測工作,該工作基于大量的SMTP會話中嵌套的成功及失敗轉(zhuǎn)發(fā)消息,以及其中嵌入的郵件服務器信息。增量學習算法可以有效地根據(jù)待檢測者情況調(diào)節(jié)分類器,以適配垃圾郵件宿主機的多變行為,故而垃圾郵件發(fā)送行為可以被識別甚至被弱化。實驗結(jié)果顯示,增量學習算法可以對檢測者在很短的周期內(nèi)進行調(diào)節(jié),并且檢測成功率可以大幅度提升。特征分析結(jié)果說明對于垃圾郵件宿主機檢測來說,IP黑名單是其中最重要的特征。對垃圾郵件行為的觀測是通過SMTP綁定的,然而研究中也發(fā)現(xiàn)有些宿主機可能通過基于SSL(SecureSocketLayer)安全協(xié)議之上的簡單郵件傳輸協(xié)議(SimpleMailTransferProtocolOverSSL,SMTPS)或者純網(wǎng)頁郵件服務發(fā)送垃圾郵件,由于從加密會話中觀測純文本信息是不可能的,宿主機可以通過模仿正常郵件網(wǎng)絡行為,從而輕易躲避檢測,所以找到一種健壯而徹底的解決方法是接下來的研究方向。

        )

        [1] 楊峰,曹麒麟,段海新,等.基于DNSBlocklist的反垃圾郵件系統(tǒng)的設計與實現(xiàn)[J].計算機工程與應用,2003,39(7):11-12.(YANGF,CAOQL,DUANHX,etal.Designandimplementationofananti-spamsystembasedonDNSBlocklist[J].ComputerEngineeringandApplications, 2003, 39(7): 11-12.)

        [2]LIUWY,WANGT.Onlineactivemulti-fieldlearningforefficientemailspamfiltering[J].KnowledgeandInformationSystems, 2012, 33(1): 117-136.

        [3]BERTINIJR,ZHAOL,LOPESAA.AnincrementallearningalgorithmbasedontheK-associated graph for non-stationary data classification [J].Information Sciences, 2013, 246: 52-68.

        [4] COSTA J, SILVA C, ANTUNES M, et al.Customized crowds and active learning to improve classification [J].Expert System with Application, 2013, 40(18): 7212-7219.

        [5] HU L S, LU S X, WANG X Z.A new and informative active learning approach for support vector machine [J].Information Sciences, 2013, 244: 142-160.

        [6] 王學軍,趙琳琳,王爽.基于主動學習的視頻對象提取方法[J].吉林大學學報:工學版,2013,43(S1):51-54.(WANG X J, ZHAO L L, WANG S.Video object extraction method based on active learning SVM [J].Journal of Jilin University (Engineering and Technology Edition), 2013, 43(S1): 51-54.)

        [7] 丁文軍,薛安榮.基于SVM的Web文本快速增量分類算法[J].計算機應用研究,2012,29(4):1275-1278.(DING W J, XUE A R.Fast incremental learning SVM for Web text classification[J].Application Research of Computers, 2012, 29(4): 1275-1278.)

        [8] LENG Y, XU X Y, QI G H.Combining active learning and semi-supervised learning to construct SVM classifier [J].Knowledge Based Systems, 2013, 44(5): 121-131.

        [9] 劉伍穎,王挺.集成學習和主動學習相結(jié)合的個性化垃圾郵件過濾[J].計算機工程與科學,2011,33(9):34-41.(LIU W Y, WANG T.Ensemble Learning and active learning based personal spam email filtering [J].Computer Engineering & Science, 2011, 33(9): 34-41.)

        [10] ALI HAJI N, IBRAHIM N S.Porter stemming algorithm for semantic checking [EB/OL].[2016-07-16].https://www.researchgate.net/profile/Noraida_Haji_Ali/publication/260385215_Porter_Stemming_Algorithm_for_Semantic_Checking/links/5584e9d708ae7bc2f448474f.pdf.

        [11] 吳偉寧,劉揚,郭茂祖.基于采樣策略的主動學習算法研究進展[J].計算機研究與發(fā)展,2012,49(6):1162-1173.(WU W N, LIU Y, GUO M Z.Advances in active learning algorithms based on sampling strategy [J].Journal of Computer Research and Development, 2012,49(6): 1162-1173.)

        [12] 李艷濤,馮偉森.堆疊去噪自編碼器在垃圾郵件過濾中的應用[J].計算機應用,2015,35(11):3256-3260.(LI Y T, FENG W S.Application of stacked denoising autoencoder in spamming filtering [J].Journal of Computer Applications, 2015, 35(11): 3256-3260.)

        [13] YANG J M, LIU Y N, ZHU X D, et al.A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization [J].Information Processing & Management, 2012, 48(4): 741-754.

        [14] 沈承恩,何軍,鄧揚.基于改進堆疊自動編碼機的垃圾郵件分類[J].計算機應用,2016,36(1):159-162.(SHEN C E, HE J, DENG Y.Spam filtering based on modified stack auto-encoder [J].Journal of Computer Applications, 2016, 36(1): 158-162.)[15] 張文興,樊捷杰.基于KKT和超球結(jié)構(gòu)的增量SVM算法的云架構(gòu)入侵檢測系統(tǒng)[J].計算機應用,2015,35(10):2886-2890.(ZHANG W X, FAN J J.Cloud architecture intrusion detection system based on KKT condition and hyper-sphere incremental SVM algorithm [J].Journal of Computer Applications, 2015, 35(10): 2886-2890.)

        This work is supported by the Digital Campus Construction Project of Nanjing Normal University (2013JSJG069).

        CHEN Bin, born in 1978, Ph.D., engineer.His research interests include distributed computing, cloud computing.

        DONG Yizhou, born in 1978, experimentalist.His research interests include Internet of things application.

        MAO Mingrong, born in 1958, senior experimentalist.His research interests include network application.

        Spam detection model of campus network based on incremental learning algorithm

        CHEN Bin*, DONG Yizhou, MAO Mingrong

        (InformatizationOffice,NanjingNormalUniversity,NanjingJiangsu210023,China)

        Concerning the problem brought by a large number of spam, an incremental passive attack learning algorithm was proposed.The passive attack learning method was based on the Simple Mail Transfer Protocol (SMTP) session log initiated by the email host in the campus during half a year.Analysis on the status of delivery rate and many types of failure message of the host behavior in the session record was conducted, and the effective adaptation was ultimately achieved by detecting spam source host behavior on the recent email classification.The experimental results show that after implementing several rounds of classification strategy adjustment, the detection accuracy of the proposed model can reach 94.7%.The design is very useful to effectively detect internal spam host and control the spam from the source.

        spam host; Simple Mail Transfer Protocol (SMTP) session; incremental learning; classifier; failure information

        2016-08-04;

        2016-09-13。 基金項目:南京師范大學數(shù)字校園建設研究項目(2013JSJG069)。

        陳斌(1978—),男,江蘇南京人,工程師,博士,CCF會員,主要研究方向:分布式計算、云計算; 東一舟(1978—),男,江蘇海門人,實驗師,主要研究方向:物聯(lián)網(wǎng)應用; 毛明榮(1958—),男,江蘇靖江人,高級實驗師,主要研究方向:網(wǎng)絡應用。

        1001-9081(2017)01-0206-06

        10.11772/j.issn.1001-9081.2017.01.0206

        TP393.08

        A

        猜你喜歡
        宿主機鍵值垃圾郵件
        從“scientist(科學家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
        英語文摘(2021年10期)2021-11-22 08:02:36
        一種基于SMOTE和隨機森林的垃圾郵件檢測算法
        非請勿進 為注冊表的重要鍵值上把“鎖”
        虛擬網(wǎng)絡實驗室在農(nóng)村職校計算機網(wǎng)絡技術(shù)教學中的應用研究
        嵌入式計算機軟件測試關(guān)鍵技術(shù)的思考
        一鍵直達 Windows 10注冊表編輯高招
        電腦愛好者(2017年9期)2017-06-01 21:38:08
        基于支持向量機與人工免疫系統(tǒng)的垃圾郵件過濾模型
        嵌入式計算機軟件測試關(guān)鍵技術(shù)研究
        石器部落
        在不連接網(wǎng)線的情況下Windows與VM之間如何ping通
        蜜臀aⅴ永久无码一区二区| 亚洲视频专区一区二区三区| 国产精品黑丝美女av| 国产精品高清免费在线| 久久国产精品免费专区| 国产一区二区三区不卡视频| 在线观看在线观看一区二区三区| 国产亚洲精品精品综合伦理| 少妇下面好爽好紧好湿一区二区| 日本在线一区二区三区不卡| 午夜人妻久久久久久久久| 免费人成在线观看视频高潮| 国产精品国产三级国产专播| 成年女人粗暴毛片免费观看| 狠狠色噜噜狠狠狠狠7777米奇| 老色鬼永久精品网站| 欧美最猛黑人xxxxx猛交| 久久久久久亚洲AV成人无码国产| 色系免费一区二区三区| 亚洲无码美韩综合| 久久精品天堂一区二区| 日韩麻豆视频在线观看| 日本精品一区二区三区福利视频| 日韩视频在线观看| 欧洲女人性开放免费网站| 久久精品无码中文字幕| 国产成人精品日本亚洲语音1| 日韩少妇无码一区二区免费视频| 日韩成精品视频在线观看| 人妻av在线一区二区三区| 尤物国产一区二区三区在线观看| 无遮挡很爽很污很黄的女同| 人妻少妇久久中文字幕| 国语对白嫖老妇胖老太| 久久人人爽人人爽人人片av麻烦| 囯产精品无码va一区二区| 男人深夜影院无码观看| 精品国产一区二区三区毛片| 成人水蜜桃视频在线观看| 亚洲成人av在线第一页| 日韩精品专区av无码|