蔣亞平 田月霞 梅 驍
(鄭州輕工業(yè)學院計算機與通信工程學院 河南 鄭州 450001)
?
基于免疫Agent的垃圾郵件過濾模型
蔣亞平田月霞*梅驍
(鄭州輕工業(yè)學院計算機與通信工程學院河南 鄭州 450001)
針對傳統(tǒng)的垃圾郵件過濾方法不能有效識別未知特征及變異特征、終端服務器負載較大和接收郵件時延較長等問題,借鑒生物免疫學原理和多Agent技術,設計一種基于免疫多Agent垃圾郵件過濾模型SF-MA。該模型通過對SMTP協(xié)議改進,可快速地判斷垃圾郵件的產(chǎn)生,并記憶特征信息;設計抗原提呈算法,擴大自體庫的規(guī)模;將疫苗概念引入模型,保留優(yōu)良基因,實現(xiàn)各個Agent的信息交互,增強了整個模型“記憶”機制,有效地提取垃圾郵件的信息和變異特征。利用郵件樣本集對該模型進行訓練和測試,仿真結(jié)果表明,該模型與其他模型相比具有更好的性能,有效地提高了垃圾郵件模型的正確率等特性,降低了虛報率。
人工免疫SMTP協(xié)議垃圾郵件抗原提呈疫苗多Agent
現(xiàn)今,網(wǎng)絡技術日益發(fā)達,通信方式已由原始的信件收發(fā)等方式,轉(zhuǎn)變?yōu)楝F(xiàn)在郵件發(fā)送。雖然,郵件的存在極大地方便了用戶,但存在的大量垃圾郵件嚴重影響用戶的日常生活,不僅占用大量的傳輸與存儲資源,而且造成網(wǎng)絡資源的浪費[1]。因此,垃圾郵件過濾技術的研究成為了網(wǎng)絡安全技術領域研究的熱點之一。
在垃圾郵件中存在的信息一般具有不易發(fā)現(xiàn)、變異能力強等特點?,F(xiàn)有的垃圾郵件過濾方法,如樸素貝葉斯[2]、k鄰近算法[3]、支持向量機(SVM)[4]和神經(jīng)網(wǎng)絡[5]等文本分類方法,可有效地實現(xiàn)垃圾郵件的檢測和過濾功能,但對于郵件中變異的特征或新出現(xiàn)的特征則往往不能及時發(fā)現(xiàn)與提取郵件特征,信息交互不及時。近年來,人工免疫系統(tǒng)AIS(ArtificialImmuneSystem)以生物免疫系統(tǒng)為原型進行模擬已被成功運用[6]。采用人工免疫技術構(gòu)造效率高,信息交互性強的反垃圾郵件模型也逐漸成為研究的熱點。
對于單一的郵件服務器收轉(zhuǎn)發(fā)節(jié)點,發(fā)現(xiàn)新型垃圾郵件特征信息對整個郵件系統(tǒng)并不明顯,且隨著各種應用不斷增加,網(wǎng)絡終端負載日益加重,垃圾郵件數(shù)量越來越多。為解決終端服務器負載較大、特征不能提取或提取時延較長等問題,可將多Agent技術應用于垃圾郵件過濾模型。在模型中將郵件過濾模型中不同的單個聯(lián)網(wǎng)轉(zhuǎn)發(fā)節(jié)點看作不同的進程Agent,每個Agent都具有提取垃圾郵件特征的能力,且能單獨完成各自的任務,然后將所有Agent組合起來組成一個多Agent系統(tǒng)。這既能夠?qū)蝹€Agent進行相對獨立的檢測,又可以互相交流信息,學習積累郵件特征信息,實現(xiàn)復雜環(huán)境下的問題求解。
結(jié)合人工免疫特性及多Agent原理,提出一種基于免疫多Agent的垃圾郵件過濾模型SF-MA。該模型通過對SMTP協(xié)議該進,可以在郵件的第一道防線,快速對垃圾郵件進行識別判斷,并歸類郵件信息特征;設計抗原提呈算法,擴大自體庫的規(guī)模;并將疫苗概念引入模型,通過疫苗提取和疫苗接種保留優(yōu)良基因,增強了整個模型“記憶”能力,以有效地提取垃圾郵件的信息和變異特征。通過對該模型訓練和測試,結(jié)果表明該模型能夠準確地判斷垃圾郵件,有效地提高垃圾郵件的過濾效率。
經(jīng)過分析免疫細胞和Agent之間、人工免疫系統(tǒng)和郵件過濾模型之間在性質(zhì)和行為上的相似性,建立了具有不同功能的免疫Agent組成具有垃圾郵件過濾模型 (如圖1所示)。
圖1 免疫多Agent垃圾郵件過濾模型
IA=
SF-MA模型主要借鑒免疫系統(tǒng)的學習、記憶等機制,把過濾過程中的待檢測的郵件類比于生物免疫系統(tǒng)中的抗原;類似于免疫系統(tǒng)中抗體識別抗原并做出反應的過程,該模型對待檢郵件進行判斷識別、分類。定義自體為合法郵件集合(Self),非自體為垃圾郵件集合(Nonself) ??乖?Ag)定義為自體和非自體的并集(Ag=Self∪Nonself)[8]。郵件集合為P,p為P的子集,定義正常郵件集合H,H∈P;垃圾郵件集合S,S∈P,滿足:H∩S=?,H∪S=P。
在免疫Agent中,根據(jù)免疫系統(tǒng)中抗體對抗原的記憶、防御和耐受以及抗體之間相互作用機制,實現(xiàn)自垃圾郵件的過濾和學習記憶。
1.1改進的IMTA
在模型中,除了引入Agent外,通過對郵件傳輸協(xié)議SMTP進行改進,類分非自體集合和自體集合,可更有效地對垃圾郵件判斷,提取郵件信息特征。在郵件傳輸系統(tǒng)中,SMTP是過濾垃圾郵件的第一道防線,也是網(wǎng)絡中傳輸電子郵件的標準協(xié)議[9]。在郵件傳輸過程中,每個節(jié)點間都可以看作一個代理Agent。在SMTP協(xié)議中存在接收方被動接收郵件等缺點,這是導致現(xiàn)今垃圾郵件泛濫原因之一,故在SMTP協(xié)議的基礎上,提出了一種改進的IMTA(Improvedmailtransferagent)。改進型IMTA進一步細化了分類規(guī)則粒度,根據(jù)IMTA的IP地址和發(fā)送方的郵件地址兩個分類條件確定發(fā)送方類別,判斷是垃圾郵件還是合法郵件,如表1所示。
表1 改進型IMTP新定義的命令以及返回碼
改進型DMTP在DMTP基礎上添加1個返回碼:252,通過過濾合法的郵件被加入到自體集合,垃圾郵件加入到非自體集合,處理信息傳輸請求算法如下:
輸入: 未知抗原,檢測器集合
輸出: 檢測結(jié)果
1)ip=getsendmailserver’sIPaddress;
2)if(ip∈denied)then
3)判定為垃圾郵件,將抗原加到自體集合;
4)use554toresponse(refusetcpsessionopeningrequire);
5)elseif(ip∈accept)then
6)判定為正常郵件,將抗原加到非自體集合;
7) 更新自體庫和非自體庫;
8)SAdd=GetSender-ADDinEnvelopeData;
9)if(SAdd∈deniedAdd)then
10)判定為垃圾郵件,將抗原加到自體集合;
11)use554torespons(refusetcpsessionopeningrequire);
12)elseif(SAdd∈ReceivedAdd)then;
13)判定為正常郵件, 將抗原加到非自體集合;
14) 更新自體庫和非自體庫;
15)use220toresponse(receivetcpsessionopeningrequire);
16)proceedasifSMTPused;
17)else
18)use252toresponse(見表1);
19)rejectDATAcommand;
20)endif;
21)endif.
(1)
T用來表示模型判斷郵件的總時間,基于SMTP郵件過濾模型與改進協(xié)議IMTA的SF-MA模型郵件所需處理總時間T分別為:
(2)
(3)
通過對協(xié)議進行改進,可以減小用戶處理時間,快速地判斷垃圾郵件的產(chǎn)生。合法的郵件被加入到自體集合,垃圾郵件加入到非自體集合,以更好提取郵件特征信息。
1.2抗原提呈
要實現(xiàn)垃圾郵件過濾,需將待測郵件數(shù)據(jù)特征轉(zhuǎn)變成計算機可識別的語言,再經(jīng)過一定模式的過濾,實現(xiàn)郵件分類。在郵件樣本中,數(shù)據(jù)經(jīng)過抗原提呈APC(antigenpresentingcells),形成抗原集合,由特定長度的抗原提呈基因庫對郵件進行特征提取,從而得到郵件的特征,即抗原決定基,存儲在郵件特征向量[10]。
抗原提呈基因定義為從郵件子集中提取的IM(InformationFeatureofMail)。定義長度為l的抗原提呈基因集合ag-l為:
ag-l={ag|fe(p,i,l),1≤i≤|p|-l
p∈{H∪S′},|ag|=l,l∈N}
(4)
其中:函數(shù)fe執(zhí)行從郵件中提取IM的操作,l為提取的IM的長度,單位為比特,H′、S′為合法郵件和垃圾郵件的子集。即提取郵件子集中的所有長度為l的、不重復的IM,并將其添加到抗原提呈基因集合ag-l中。
定義郵件(抗原)特征集合為F:
F={
p∈P,xi=fc(p,ag-l,l),i=1,…,n;n,l∈N}
(5)
其中:xi(i=1,2,…,n)為抗原提呈基因庫中的基因;ag-li為提取到的郵件p∈P的特征信息;n代表郵件特征向量的維數(shù),與抗原提呈基因庫大小相等;l為抗原提呈基因庫ag-l中基因片段的大??;函數(shù)fc(p,ag-l,l)為特征信息提取操作,如式(6),即從p∈P郵件類型中提取長度為l的IM字符串,然后計算IM是否在對應的抗原提呈基因庫中出現(xiàn),獲取郵件的特征信息。函數(shù)fe(p,j,l)表示從郵件中提取長度為l的IM。用特定的抗原提呈基因庫對郵件進行特征提取,從而組成了郵件特征向量如下:
(6)
在SF-MA模型中,根據(jù)郵件特征,對郵件進行分類。對于每一類郵件p,從它的起始位置從i=1開始,每次滑動1比特,直至郵件結(jié)尾(i=|p|-l),依次提取長度為l的IM。如果該IM不在基因長度為l的基因集合ag-l中,則把郵件新特征,添加到集合。抗原提呈的過程為依次從待提取特征的郵件p∈P中提取長度為l的IM字符串,然后通過計算提取的IM字符串在抗原提呈基因庫ag-l中是否出現(xiàn)來獲取。若出現(xiàn),取值為1,若沒有,取值為0??傻玫洁]件p∈P的郵件狀態(tài)向量(x1,x2,…,xn)中的每一維數(shù)值xi(xi∈{0,1},i=1,2,…,n)。經(jīng)抗原提呈后,在模型記憶庫中到的郵件特征是一個長度與基因庫大小相同的計算機可識別的二進制串,這樣就完成了程序的抗原提呈若的過程。滿足條件的抗原對其進行體呈,符合條件的加入到自體庫中,否則加入到非自體庫中[11]。這樣既保證了選擇的特征向量對郵件內(nèi)容的代表意義,同時又限制了特征向量長度的過度膨脹。
1.3疫苗提取與接種
在模型中,通過引入疫苗(包含疫苗提取與疫苗接種兩模塊),用以提高抗體的適應度、穩(wěn)定性、自學習性等特性,保存郵件種類中的優(yōu)良基因。
在模型中,疫苗提取的過程即是對垃圾郵件特征信息的提取過程。檢測模型中,設計了執(zhí)行層Agent、檢測層Agent、通信層Agent、和決策層Agent。采用免疫多Agent結(jié)構(gòu), 分別完成垃圾郵件模型的檢測、通信、執(zhí)行和決策等任務將不同的檢測Agent聯(lián)合起來,同時引入疫苗提取算法,可以快速地提取疫苗信息。模塊圖如圖2所示。
圖2 免疫多Agent模塊
執(zhí)行層Agent:是指在服務器中正在發(fā)送或接收郵件狀態(tài)的Agent模塊。歸類郵件信息,并實時與執(zhí)行Agent和通信Agent保持通信。
檢測層Agent:檢測層Agent在網(wǎng)絡服務器各個節(jié)點之間監(jiān)視檢測,并與特定意圖的設備通信。在模型中,用戶層尋找異常用戶行為模式;監(jiān)視并檢測郵件的大小、數(shù)目以及所屬的類型、源地址與目的地址,信封郵件主要內(nèi)容等。若可疑,則上報給通信Agent,請求作出決策。
通信層Agent:通信Agent充當其他Agent模塊的通信網(wǎng)絡的任務。
決策層Agent: 接收來自各個免疫檢測Agent的模塊檢測結(jié)果,對是否為垃圾郵件或異常異常郵件結(jié)果做出判定。
如果在檢測過程中,檢測群中Agent檢測到可疑的垃圾郵件抗原,則上報給通信Agent模塊。若通信Agent確定其包含垃圾郵件信息特征的抗原D,則從正在執(zhí)行Agent中選取若干個Agent,將D所包含的信息共享給這些進程Agent并要求提取疫苗。當不同Agent接收到提取疫苗的信息指令后,從檢測器中選取能與抗原D匹配的種群A(個體數(shù)量為s),然后提取疫苗v。疫苗提取算法如下:
Step1依據(jù)郵件抗原特征,Agent首先初始化一條空白的疫苗v;
Step2計算出在Agent檢測器集合中能與D匹配的所有個體(s) ,記為A;
Step3從A中的優(yōu)良個體(a1,a2,…,as)中提取一部分優(yōu)良基因,再將其優(yōu)良基因填入空白疫苗v中,當疫苗被完全填充后,則成功提取出一條抗原D的疫苗。
各個Agent提取到抗原疫苗后,將取得的疫苗回傳至通信Agent,通信Agent接收到疫苗后,從接收到的疫苗群中選取優(yōu)良個體,然后對模型的單個Agent進行免疫接種。
疫苗提取結(jié)束后,進行疫苗接種。疫苗接種是指用提取的疫苗用來修改抗體的某些基因位,將優(yōu)良基因傳遞給下一代,以提高優(yōu)良個體繁殖的概率。
(7)
在模型中,采用每間隔一定時間隨機從樣本郵件中選取一定比例的抗體進行接種的方式進行疫苗接種,來對種群中的抗體和記憶細胞進行更新。利用多個Agent并行提取疫苗,可以加快疫苗的生成速度以及接種速度,使抗體快速的記憶郵件特征信息,提高模型檢測效率。
2.1實驗評測數(shù)據(jù)集
測試環(huán)境為:內(nèi)存2GB, 操作系統(tǒng)為WindowsXP。在模型的郵件傳輸中,因為JAMES(Javaapachemailenterpriseserver)性能較為穩(wěn)定,可配置性強,能實現(xiàn)SMTP、POP3和NNTP等多種郵件相關協(xié)議,選用JAMES開源郵件服務器。在測試中使用CCERT中文郵件2005年7月份的樣本集,其中包含正常郵件(Ham)9042封,垃圾郵件(Spam)20 308封,數(shù)值實驗環(huán)境為Matlab2014a。
通過對郵件樣本集構(gòu)建的過濾模型進行實時監(jiān)控與檢測,引入改進的SMTP協(xié)議。選取郵件IP數(shù)據(jù)信息構(gòu)成的二進制串模擬免疫系統(tǒng)中的抗原,對抗原進行提呈,使其轉(zhuǎn)化為計算機可識別的語言,模擬郵件收發(fā)功能,對模型進行效率測試。
將數(shù)據(jù)集分為訓練集和測試集,選擇3062封郵件(1024封正常郵件和2038垃圾郵件樣本)作為訓練集。實驗初期選取自體集合大小為50,每次訓練生成10 個未成熟檢測器。郵件過濾模型每次輸入200個抗原,其中自體與非自體比例為8∶2,即郵件過濾模型所發(fā)的10個包中2個非自體包,得到初始檢測樣本,保存在免疫記憶庫中。然后將剩余的8000封正常郵件和18 000封垃圾郵件平均分為10組,組成測試集進行測試。
實驗結(jié)果取10次的平均值作為評判該模型的最后實驗數(shù)據(jù),計算出來的平均值即為模型的效率結(jié)果。在仿真實驗中,先比較SMTP和SF-MA模型的正確率與精準率,用來驗證改進協(xié)議的有效性。然后仿真SF-MA模型與樸素貝葉斯、人工免疫模型的虛報率和召回率,驗證模型的效率。
2.2性能評價指標
SF-MA垃圾郵件過濾模型,主要的評價標準:(1)召回率:即垃圾郵件檢出率;(2)正確率:反映過濾模型檢測出垃圾郵件的能力;(3)精確率:模型對所有郵件的判斷正確的概率;(4)虛報率:即系統(tǒng)將正常郵件判為垃圾郵件的概率。
設測試集合中共有N封郵件,先定義幾個變量,N=CH→S+CH→H+CS→S+CS→H。其中,CS→S表示垃圾郵件判斷為垃圾郵件的數(shù)目;CH→S表示正常郵件判斷為垃圾郵件的數(shù)目;CS→H表示垃圾郵件判斷為正常郵件的數(shù)目;CH→H表示正常郵件判斷為正常郵件的數(shù)目。
召回率Recall=CS→S/(CS→S+CS→L),在模型中,召回率越高,檢測出的垃圾郵件越多;正確率Precision=CS→S/(CS→S+CH→S),即判定郵件為垃圾郵件,正確的概率;精準率Accuracy=(CS→S+CH→H)/N,即對所有郵件進行判斷,并且判斷正確的概率;虛報率Fallout=CH→S/(CH→S+CH→H),即模型將正常郵件判為垃圾郵件的概率。
2.3實驗結(jié)果及分析
圖3是模型在仿真環(huán)境下進行垃圾郵件過濾實驗所獲得的SF-MA模型統(tǒng)計數(shù)據(jù),主要為正確率、精確率、召回率、虛報率四個指標,橫坐標(X軸)為實驗次數(shù),縱坐標為(Y軸)百分比指標值。
圖3 郵件過濾指標曲線圖
從圖3中可以看出,SF-MA模型的正確率比較穩(wěn)定,正確率呈先呈上升趨勢,后部分基本保持穩(wěn)定,正確率都能達到90%以上,說明SF-MA模型可以很好地判別出垃圾郵件,穩(wěn)定性較高;精準率在檢測過程亦呈上升趨勢,說明隨著模型中抗體的自我學習,模型能夠正確判斷垃圾郵件與合法郵件的能力在上升;在召回率方面,當郵件出現(xiàn)新的信息特征時,模型具有較好的學習和記憶識別能力,對于判斷垃圾郵件的能力有所提升;虛報率比較低較穩(wěn)定,在這種情況下,由于具有Agent機制及免疫記憶庫,信息之間可以及時交互,郵件很少被誤刪,SF-MA模型具有較高的可靠性。
相同條件下,為更好地比較引入改進協(xié)議的SF-MF模型與基于SMTP郵件過濾模型的效率,實驗選用多組封郵件進行測試,橫坐標表示測試郵件數(shù)量,縱坐標各表示召回率和虛報率的測試結(jié)果值。由圖4和圖5可知,利用改進協(xié)議的引入改進協(xié)議的SF-MF模型的精準率和正確率方面都高于基于SMTP協(xié)議模型。通過對協(xié)議進行改進,合法的郵件可更快地被加入到自體集合,垃圾郵件加入到非自體集合,以更好提取郵件特征信息。
圖4 改進的IMTA與SMTP正確率比較圖
圖5 改進的IMTA與SMTP精準率比較圖
2.4算法比較
2.4.1算法的性能比較
為了更進一步驗證模型的效率,本文在同等條件下用SF-MA模型與基于貝葉斯的垃圾郵件過濾模型[12]和基于AIS的垃圾過濾模型[13]進行對比試驗。如圖6和圖7所示,橫坐標表示測試郵件數(shù)量,縱坐標表示正確率與精準率的測試結(jié)果,模型選幾組測試郵件集,進行測試。實驗結(jié)果表明SF-MA模型較基于Bayesian方法的模型和AIS模型較召回率有大幅提高,虛報率降低且波動較小。
圖6 AIS、Bayesian、SF-MA模型召回率比較圖
圖7 AIS、Bayesian、SF-MA模型虛報率比較圖
基于Bayesian的模型采用先驗概率的規(guī)則來測試郵件,如果在檢測階段檢測的郵件包含了很多在訓練階段郵件沒有出現(xiàn)過的新詞,即新特征信息,則該模型需要一段較長時間的學習適應,學習記憶能力較低,對郵件的召回能力不是很理想,在虛報率較高且不穩(wěn)定;基于AIS的模型則可以分布式方式識別垃圾郵件,并能學習和記憶郵件的特征,郵件召回能力有所提升,虛報率有所降低,但是存在檢測器的靈活性較差,在測試階段不能精確地對垃圾郵件進行分類,記憶抗體特征;本文提出的模型SF-MA,能夠?qū)蝹€Agent進行相對獨立的檢測,又可以多Agent互相交流信息,檢測能力較強,虛報率較低。除此之外,模型對SMTP協(xié)議進行了改進,能快速地判斷垃圾郵件的產(chǎn)生,記憶并保存垃圾郵件特征,引入疫苗機制,保留優(yōu)良基因,實現(xiàn)各個Agent的信息交互,增強了整個模型“記憶”機制,有效地提取垃圾郵件的信息和變異特征。
通過多組樣本進行實驗,可以表明:該模型對垃圾郵件識別Recall、Fallout等指標均有提高,對新數(shù)據(jù)特征及原有類型特征的識別效率的可以很好地識別,反映出改進的模型比基于貝葉斯和基于AIS的垃圾過濾模型具有更穩(wěn)定效率,且對垃圾郵件新型特征和新有數(shù)據(jù)特征均表現(xiàn)出較好的識別性。同時,將疫苗提取和疫苗接種等思想引入到模型中,使各類檢測器中的抗體以疫苗作為媒介相互通信,保留優(yōu)良基因,對垃圾郵件特征的變化做出及時的反應,比Bayesian和AIS分類算法有較好的自適應性能,提高了模型的正確檢測率的穩(wěn)定性。
2.4.2算法時間復雜度比較
通過算法復雜度的分析,將改進的IMTA協(xié)議和Bayesian、AIS分別從兩個方面對比:訓練時間復雜度和分類時間復雜度。
設N表示訓練集中包含的樣本數(shù),而n為特征數(shù)量,比較改進算法與Bayesian、AIS算法的復雜度。訓練時間復雜度方面:Bayesian算法是時間復雜度是O(nN),AIS算法是O(n2N2),改進算法是O(n2N2);分類時間復雜度方面:Bayesian算法是時間復雜度是O(nN),AIS算法是O(n2N),改進算法是O(nN)。由于改進IMTA協(xié)議設計了抗原提呈算法,擴大了自體庫的規(guī)模,這樣就可以加速檢測器的進化過程,同時保留了原有特征的優(yōu)勢,大大減少了二次識別大量舊特征信息的時間消耗。可以看到和其他方法比起來,改進算法保證了在檢測分類的過程有穩(wěn)定的正確識別率,因而在分類環(huán)節(jié)改進算法的時間復雜性最優(yōu)。
結(jié)合人工免疫特性的自學習能力等特性及多Agent原理使信息之間及時交互能力,本文提出了基于免疫Agent的垃圾郵件過濾模型SF-MA。在模型中,SMTP作為過濾垃圾郵件的第一道放線,通過對協(xié)議進行改進,可以快速判斷垃圾郵件的產(chǎn)生,記憶并保存垃圾郵件特征,可以減小用戶處理時間,合法的郵件信息特征被加入到自體集合,垃圾郵件加入到非自體集合,以更好提取郵件特征信息。在此基礎上將疫苗提取和疫苗接種等思想引入到模型中,使各類檢測器中的抗體以疫苗作為媒介相互通信,保留優(yōu)良基因,實現(xiàn)各個Agent的信息交互,并有效提取垃圾郵件的信息和變異特征。該模型與選用貝葉斯模型、人工免疫模型對該進行測試和對比,實驗證明,該模型對垃圾郵件的過濾性能要高于它們的性能,具有較高的召回率和準確率。該模型在性能上具有一定的提升,如何再進一步地提升模型的效率,是下一步研究的方向。
[1]GanstererW,IlgerM,NeumayerP,etal.Anti-spammethodsstate-of-the-art[D].Vienna:FacultyofComputerScience.UniversityofVienna,2005.
[2]MarsonoMN,El-KharashMW,GebaliF.Targetingspamcontrolonmiddleboxes:Spamdetectionbasedonlayer-3e-mailcontentclassification[J].ComputerNetworks,2009,53(6):835-848.
[3]MehmetAci,CigdemInan,MutluAvci.Ahybridclassificationmethodofknearestneighbor,Bayesianmethodsandgeneticalgorithm[J].ExpertSystemsWithApplications,2010,37(7):5061-5067.
[4]YuBo,XuZongben.Acomparativestudyforcontent-baseddynamicspamclassificationusingfourmachinelearningalgorithms[J].Knowledge-BasedSystems,2008,21(4):355-362.
[5]ClarkJ,KoprinskaI,PoonJ.ANeuralNetworkBasedApproachtoAutomatedE-MailClassification[C]//WebIntelligence:Proceedingsofthe2003IEEE/WICInternationalConferenceonWebIntelligence,2003:13-17.
[6]QingJJ,MaoRL,BieRF,etal.AnAIS-basede-mailclassificationmethod[C]//The2009InternationalConferenceonIntelligentComputing,Ulsan,Korea,2009:492-499.
[7] 王軍,趙曉哲,張瑛涵,等.基于免疫多智能體的艦艇編隊協(xié)同防空體系模型[J].系統(tǒng)仿真學報,2012,24(2):263-268.
[8] 李濤.基于免疫的網(wǎng)絡監(jiān)控模型[J].計算機學報,2006,29(9):1515-1522.
[9] 劉海韜,陽潔.云計算平臺下一種新型反垃圾郵件系統(tǒng)的研究[J].中南大學學報:自然科學版,2013,44(5):1869-1874.
[10] 覃仁超,劉念,黃曉芳.基于免疫和D-S證據(jù)理論的計算機病毒檢測方法[J].計算機應用研究,2012,29(8):3062-3066.
[11] 秦逸.基于行為的垃圾郵件檢測技術[J].計算機科學,2012,39(11):86-89.
[12]ZhangLe,ZhuJingbo,YaoTianshun.Anevaluationofstatisticalspamfilteringtechinques[J].ACMTransactionsonAsianLanguageInformationProcessing(TALIP),2004,3(4):243-269.
[13]GuzellaTS,Mota-SantosTA,UchaJQ,etal.IdentificationofSPAMmessagesusinganapproachinspiredontheimmunesystem[J].Biosystems,2008,92(3):215-225.
ASPAMFILTERINGMODELBASEDONIMMUNE-AGENT
JiangYapingTianYuexia*MeiXiao
(School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450001,Henan,Chima)
Fortheproblemsoftraditionalspamfilteringmethodssuchascannoteffectivelyidentifyingtheunknownandvariationfeatures,heavierloadinterminalserverandlongerdelaysinreceivingmails,etc.,bymakinguseofbiologicalimmunologyprincipleandmulti-Agenttechnology,wedesignedanimmunemulti-Agent-basedspamfilteringmodelSF-MA.ThemodelisabletoquicklyjudgespamgenerationandtorememberthefeatureinformationbyimprovingtheSMTPprotocol;wealsodesignedanantigenpresentationalgorithm,andexpandedthescaleofselflibrary;weintroducedthevaccineconceptintomodeltokeepgoodgenesandtorealisetheinteractionofeachAgent’sinformation,theseenhancedthe“memory”mechanismofentiremodel,andeffectivelyextractedtheinformationandvariationfeaturesofthespam.Usingthemailsamplesettotrainandtestthemodel,simulationresultsshowedthattheproposedmodelhadbetterperformancethanothermodels,andeffectivelyimprovedthecharacteristicsofaccuracyrateofspammodel,aswellasreducedfalsealarmrate.
ArtificialimmuneSMTPprotocolSpamAntigenpresentationVaccineMulti-agent
2014-08-20。國家自然科學基金項目(61272038);河南省科技廳科技攻關項目(0624220084)。蔣亞平,副教授,主研領域:網(wǎng)絡安全,智能計算。田月霞,碩士生。梅驍,碩士生。
TP393.08
ADOI:10.3969/j.issn.1000-386x.2016.03.070