馮軍軍 李力
摘要:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,郵件作為通信和傳輸文件的方式越來(lái)越普遍,伴隨著垃圾郵件也出現(xiàn)在工作中。垃圾郵件對(duì)企業(yè)和用戶(hù)的危害極大,該文主要討論垃圾郵件的檢測(cè)技術(shù)和繞過(guò)技術(shù)。
關(guān)鍵詞:垃圾郵件;檢測(cè);繞過(guò)
中圖分類(lèi)號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)07-0036-02
Abstract:With the development of Internet technology, mail is becoming more and more popular as a means of communication and file transfer, along with spam also appears in the work.Spam is harmful to enterprises and users. This paper mainly discusses the detection technology and bypass technology of spam.
Key words: spam; detection; bypass
1引言
垃圾郵件是指收件人拒絕接收或者不同意接收但是仍然收到的郵件[1],主要包含商業(yè)類(lèi)、廣告類(lèi)、培訓(xùn)類(lèi)、推廣類(lèi)、報(bào)價(jià)類(lèi)等郵件。這些郵件的關(guān)鍵特征是強(qiáng)制性和批量發(fā)送。如2020年護(hù)網(wǎng)爆出的案例,就是攻擊方通過(guò)信息收集獲取防守方用戶(hù)的郵箱,通過(guò)群發(fā)郵件,引誘用戶(hù)更新釣魚(yú)flash,從而實(shí)現(xiàn)權(quán)限獲取進(jìn)而內(nèi)網(wǎng)滲透獲取關(guān)鍵信息。垃圾郵件對(duì)企業(yè)、用戶(hù)的危害極大,對(duì)其檢測(cè)進(jìn)行研究是非常有必要的。
2垃圾電子郵件檢測(cè)過(guò)濾技術(shù)
垃圾郵件的檢測(cè)技術(shù)一般分為內(nèi)容過(guò)濾技術(shù)、驗(yàn)證校驗(yàn)技術(shù)和規(guī)則過(guò)濾技術(shù)。
2.1內(nèi)容過(guò)濾技術(shù)
基于內(nèi)容的垃圾郵件過(guò)濾技術(shù),是根據(jù)郵件中的內(nèi)容進(jìn)行過(guò)濾的[2]。通常來(lái)說(shuō),利用關(guān)鍵字技術(shù)或者郵件特征統(tǒng)計(jì)技術(shù),與已知的垃圾郵件內(nèi)容進(jìn)行匹配,從而判斷是否是垃圾郵件。同樣,也可以根據(jù)檢測(cè)的垃圾郵件進(jìn)行特征提取,更新垃圾郵件檢索庫(kù),從而進(jìn)行新的研究。常見(jiàn)的基于內(nèi)容過(guò)濾的方法有決策樹(shù)過(guò)濾技術(shù)、關(guān)鍵詞過(guò)濾技術(shù)等,近幾年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,樸素貝葉斯過(guò)算法、支持向量機(jī)算法、多層感知機(jī)算法、卷積神經(jīng)網(wǎng)絡(luò)算法等也在垃圾郵件識(shí)別中應(yīng)用[3-4]。
2.1.1樸素貝葉斯過(guò)濾技術(shù)
隨著機(jī)器學(xué)習(xí)在大數(shù)據(jù)技術(shù)中的應(yīng)用,樸素貝葉斯算法廣泛應(yīng)用于智能應(yīng)用中[5]。在垃圾郵件檢測(cè)過(guò)濾中,通過(guò)樸素貝葉斯算法,在不設(shè)置任何過(guò)濾規(guī)則和不分析郵件的含義與內(nèi)容的前提下,通過(guò)可以學(xué)習(xí)單詞、漢字和特殊符號(hào)的頻率和模式進(jìn)行學(xué)習(xí)。學(xué)習(xí)后,智能化的對(duì)用戶(hù)接收的郵件,進(jìn)行垃圾郵件和正常郵件識(shí)別,判斷是否為垃圾郵件。相對(duì)于傳統(tǒng)的關(guān)鍵字過(guò)濾技術(shù),該方法更加方便快捷智能化[6]。并且也會(huì)使垃圾郵件的發(fā)送者,無(wú)法根據(jù)何種關(guān)鍵字過(guò)濾的,從而進(jìn)行攔截,提高垃圾郵件的識(shí)別率。
2.1.2支持向量機(jī)過(guò)濾技術(shù)
基于支持向量機(jī)過(guò)濾技術(shù),支持向量機(jī)是一種面向二分類(lèi)任務(wù)的機(jī)器學(xué)習(xí)模型,模型結(jié)構(gòu)能夠在特征空間上產(chǎn)生最大間隔的超平面。在垃圾郵件過(guò)濾中,可以采用支持向量機(jī)分類(lèi)技術(shù),實(shí)現(xiàn)垃圾郵件和正常郵件的分類(lèi)。在垃圾郵件過(guò)濾中,通過(guò)詞袋模型,即如果一個(gè)詞在文檔中出現(xiàn)不止一次,并統(tǒng)計(jì)其出現(xiàn)的次數(shù)的方法,實(shí)現(xiàn)內(nèi)容學(xué)習(xí)。利用支持向量機(jī)過(guò)濾技術(shù),從而實(shí)現(xiàn)智能化的垃圾郵件識(shí)別,提高識(shí)別效率。
2.1.3多層感知機(jī)過(guò)濾技術(shù)
基于多層感知的過(guò)濾技術(shù),利用多層感知機(jī)模型,在輸入層和輸出層之間增加隱含層,通過(guò)輸入郵件的特征,選擇合適的權(quán)重值,實(shí)現(xiàn)郵件的線性分類(lèi),從而區(qū)分垃圾郵件和正常郵件[7]。垃圾郵件識(shí)別中,在輸入層輸入過(guò)濾的關(guān)鍵字,通過(guò)多層感知機(jī)過(guò)濾技術(shù),從而實(shí)現(xiàn)牢記郵件識(shí)別,提高垃圾郵件攔截率。
2.1.4卷積神經(jīng)網(wǎng)絡(luò)過(guò)濾技術(shù)
基于卷積神經(jīng)網(wǎng)絡(luò)過(guò)濾技術(shù),根據(jù)生物神經(jīng)系統(tǒng)的特性而提出的一種神經(jīng)網(wǎng)絡(luò)模型。在垃圾郵件過(guò)濾中,根據(jù)輸入的郵件數(shù)據(jù)的特征提取,通過(guò)神經(jīng)網(wǎng)絡(luò)模型,獲得并輸出相應(yīng)的特征圖。然后根據(jù)輸出的特征圖,進(jìn)行適當(dāng)抽象的方式去除特征圖中不重要的信息,突出有效特征信息的效果,從而實(shí)現(xiàn)郵件的分類(lèi)。
2.2驗(yàn)證查詢(xún)技術(shù)
基于驗(yàn)證查詢(xún)技術(shù),就是在不侵犯?jìng)€(gè)人隱私的前提下,發(fā)現(xiàn)垃圾郵件,從而阻斷其發(fā)送。該模式下,企業(yè)郵箱可以根據(jù)其工作方式改變電子郵件系統(tǒng),個(gè)人郵件可以根據(jù)現(xiàn)存的郵件缺點(diǎn)進(jìn)行過(guò)濾,從而提高郵件系統(tǒng)的安全性。
2.2.1郵箱地址驗(yàn)證技術(shù)
基于郵箱地址驗(yàn)證技術(shù),通過(guò)將寄來(lái)電子郵件的地址,與系統(tǒng)的黑白名單對(duì)比,凡是黑名單中列出垃圾郵件的郵箱,收到的郵件都直接過(guò)濾掉,凡是白名單的地址都是合法郵件。通過(guò)黑白名單內(nèi)的郵件地址比對(duì),提高垃圾郵件驗(yàn)證的可靠性,且杜絕大部分垃圾郵件入侵的反垃圾郵件技術(shù)。
2.2.2 IP地址驗(yàn)證技術(shù)
基于IP地址驗(yàn)證技術(shù),是在建立IP連接后,對(duì)郵件的發(fā)送地址進(jìn)行黑名單驗(yàn)證,如果在黑名單中就拒絕接收。如果某IP發(fā)送垃圾郵件,可以對(duì)其進(jìn)行標(biāo)記,如標(biāo)記的次數(shù)多了,就自動(dòng)加入黑名單中,實(shí)現(xiàn)實(shí)時(shí)更新。同理,如果可以采用白名單技術(shù),對(duì)于自己的好友或者企業(yè)經(jīng)常用的IP地址設(shè)置白名單,減少檢測(cè)的次數(shù)。但是如果好友或者企業(yè)的IP地址被掛馬,而進(jìn)行郵件發(fā)送,就無(wú)法實(shí)現(xiàn)垃圾郵件的過(guò)濾。
2.3規(guī)則過(guò)濾技術(shù)
基于規(guī)則的垃圾郵件過(guò)濾技術(shù),對(duì)垃圾郵件的樣本進(jìn)行統(tǒng)計(jì)和分析,進(jìn)行數(shù)據(jù)建模。該模型中利用垃圾郵件的發(fā)送的時(shí)間、發(fā)送的IP、發(fā)送的地址和發(fā)送的頻率等特征,進(jìn)行郵件類(lèi)型和特點(diǎn)的分析,根據(jù)分析的情況,制定垃圾郵件的過(guò)濾規(guī)則,從而根據(jù)這些規(guī)則構(gòu)建過(guò)濾的評(píng)分系統(tǒng)。在垃圾郵件識(shí)別過(guò)程中,當(dāng)達(dá)到相應(yīng)的規(guī)則庫(kù)的時(shí)候就會(huì)有相應(yīng)的評(píng)分顯示,根據(jù)評(píng)分標(biāo)準(zhǔn),超過(guò)臨界值,判斷為垃圾郵件。該技術(shù)對(duì)垃圾郵件的過(guò)濾具有良好的效率,但是隨著垃圾郵件的特征變化,從而也會(huì)存在一定的缺陷。
3垃圾電子郵件反檢測(cè)繞過(guò)技術(shù)
隨著垃圾郵件的檢測(cè)技術(shù)發(fā)展,很多垃圾郵件經(jīng)常采用偽裝發(fā)送內(nèi)容、內(nèi)容加噪、利用圖片代替文字、動(dòng)態(tài)IP等方式,從而避免被過(guò)濾。
1)郵件內(nèi)容偽裝技術(shù)。該偽裝技術(shù)指郵件發(fā)送的內(nèi)容和郵件發(fā)送的標(biāo)題等進(jìn)行偽裝。利用計(jì)算機(jī)技術(shù)生成偽裝的內(nèi)容,比如說(shuō)偽裝標(biāo)題、附件發(fā)件人等,來(lái)偽裝正常的郵件,使收件人無(wú)法區(qū)分而查看。正文偽裝技術(shù)利用明顯的錯(cuò)別字、多余的回車(chē)、換行符和制表符等不影響人的閱讀,但是對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)卻可以破壞基于單詞、詞組的識(shí)別機(jī)制,通過(guò)隨機(jī)增加TAB、隨機(jī)增加回車(chē)、大小寫(xiě)混淆、隨機(jī)增加換行符、隨機(jī)增加連字符、使用錯(cuò)別字等繞過(guò)垃圾郵件檢測(cè)。
2)利用視覺(jué)效果繞過(guò)郵件檢測(cè)[8]。該技術(shù)利用視覺(jué)效果,通過(guò)顏色的反差,將要顯示的內(nèi)容與背景色相反,不顯示的內(nèi)容與背景色一致,從而實(shí)現(xiàn)發(fā)送垃圾內(nèi)容。該技術(shù)通過(guò)一些特殊處理,利用網(wǎng)頁(yè)代碼的設(shè)置,從而實(shí)現(xiàn)收件人看到垃圾郵件的內(nèi)容,但是又無(wú)法準(zhǔn)確識(shí)別垃圾郵件,從而實(shí)現(xiàn)繞過(guò)。
3)利用圖片繞過(guò)郵件檢測(cè)。該技術(shù)利用圖片的方式代替文字,將要發(fā)送的內(nèi)容制作成圖片,以附件的形式,發(fā)送給收件人,從而避免發(fā)垃圾郵件技術(shù)的繞過(guò)。
4)利用動(dòng)態(tài)的IP地址和發(fā)送人地址,繞過(guò)垃圾郵件黑名單檢測(cè)。利用肉雞、后門(mén)的軟件等方式,在用戶(hù)不知道情況下,向目標(biāo)方發(fā)送郵件。通過(guò)這種方式,在感染者不知情況下,向其過(guò)往的郵件聯(lián)系地址或者好友地址發(fā)送垃圾郵件,從而繞過(guò)黑名單檢測(cè),實(shí)現(xiàn)垃圾郵件繞過(guò)。
4結(jié)束語(yǔ)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,垃圾郵件一直是廣泛關(guān)注的問(wèn)題。由于其成本比較低,特別是受到商業(yè)利益的驅(qū)動(dòng),其越來(lái)越頻繁。特別是隨意垃圾郵件檢測(cè)繞過(guò)技術(shù)的發(fā)展,利用郵件內(nèi)容偽裝、利用視覺(jué)效果、利用圖片和利用動(dòng)態(tài)的IP和地址等方式實(shí)現(xiàn)垃圾郵件的繞過(guò)技術(shù)也在不斷發(fā)展。同樣,在垃圾郵件檢測(cè)中也隨著機(jī)器學(xué)習(xí)的發(fā)展,智能化的檢測(cè)技術(shù)也在不斷發(fā)展??傊?,垃圾郵件的發(fā)送方式多種多樣,形式層出不窮,檢測(cè)技術(shù)不斷更新,繞過(guò)技術(shù)也不斷更新,所謂的“道高一尺,魔高一丈”,兩種技術(shù)是相互促進(jìn)、相互發(fā)展。
參考文獻(xiàn):
[1] 羅婧雯.垃圾郵件過(guò)濾技術(shù)綜述[J].電腦知識(shí)與技術(shù),2016,12(14):13-14.
[2] 李敬瑤.反垃圾郵件過(guò)濾技術(shù)方法的研究[J].福建電腦,2016,32(10):61-62.
[3] 徐丹丹.個(gè)性化垃圾郵件過(guò)濾的擴(kuò)展研究[D].南京:南京航空航天大學(xué),2019.
[4] 黃鶴.基于深度學(xué)習(xí)的垃圾郵件過(guò)濾方法研究[D].南京:南京郵電大學(xué),2019.
[5] 袁連海,李湘文,徐晶.基于改進(jìn)貝葉斯原理的垃圾郵件過(guò)濾算法研究[J].計(jì)算機(jī)與數(shù)字工程,2020,48(3):513-516,712.
[6] 彭革.基于樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究綜述[J].電腦知識(shí)與技術(shù),2020,16(14):244-245,247.
[7] 徐娟,卞良.基于SVM的中文垃圾郵件預(yù)測(cè)系統(tǒng)研究[J].數(shù)字技術(shù)與應(yīng)用,2020,38(1):38-39.
[8] 趙俊生,候圣,王鑫宇,等.基于集成學(xué)習(xí)的圖像垃圾郵件過(guò)濾方法[J].計(jì)算機(jī)工程與科學(xué),2020,42(6):1049-1059.
【通聯(lián)編輯:代影】