亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于多模匹配的敏感郵件實(shí)時(shí)檢測(cè)方法

        2015-03-16 03:51:53田崢田建偉薛海偉漆文輝
        湖南電力 2015年1期
        關(guān)鍵詞:關(guān)鍵字字符附件

        田崢,田建偉,薛海偉,漆文輝

        (國(guó)網(wǎng)湖南省電力公司電力科學(xué)研究院,湖南 長(zhǎng)沙 410007)

        一種基于多模匹配的敏感郵件實(shí)時(shí)檢測(cè)方法

        田崢,田建偉,薛海偉,漆文輝

        (國(guó)網(wǎng)湖南省電力公司電力科學(xué)研究院,湖南 長(zhǎng)沙 410007)

        文中對(duì)Wu-Manber算法進(jìn)行改進(jìn),將3種不同編碼格式的模式串引入到算法的預(yù)處理過(guò)程,并改進(jìn)算法對(duì)字符串的掃描過(guò)程,提出一種支持多編碼格式的多模匹配算法,使得算法可適用于對(duì)當(dāng)前主流郵件格式和附件格式的檢索。實(shí)驗(yàn)結(jié)果和實(shí)際應(yīng)用過(guò)程表明,文中算法是實(shí)時(shí)且有效的。

        郵件過(guò)濾系統(tǒng);Wu-Manber;多編碼格式;實(shí)時(shí);郵件附件

        隨著電力系統(tǒng)信息化和網(wǎng)絡(luò)化的不斷推進(jìn),國(guó)家電網(wǎng)公司面臨的信息安全形勢(shì)日益嚴(yán)峻。公司敏感數(shù)據(jù)不但面臨著病毒、木馬等外部環(huán)境的攻擊,由人員故意破壞和泄露等造成的內(nèi)部威脅也逐漸增多。美國(guó)計(jì)算機(jī)安全學(xué)會(huì) (Computer Security Institute,CSI)歷年的調(diào)查報(bào)告顯示,雖然從數(shù)量上來(lái)看,來(lái)自于外部的網(wǎng)絡(luò)攻擊事件的發(fā)生頻率遠(yuǎn)遠(yuǎn)超過(guò)來(lái)自內(nèi)部的泄密,但是從造成的損失來(lái)看,內(nèi)部威脅卻遠(yuǎn)大于外部威脅〔1,2〕。從美國(guó)中央情報(bào)局前雇員斯諾登泄密引發(fā)的 “棱鏡門(mén)事件”到國(guó)內(nèi)華為員工離職泄密導(dǎo)致的 “滬科案”事件,這些都表明來(lái)自內(nèi)部的數(shù)據(jù)泄密會(huì)給企業(yè)帶來(lái)嚴(yán)重的損失。

        電子郵件是電力系統(tǒng)內(nèi)部人員最常用的一種信息通信工具,同時(shí)也是導(dǎo)致內(nèi)部數(shù)據(jù)泄露的一個(gè)最主要的源頭。據(jù)權(quán)威調(diào)查報(bào)告顯示,30%~40%的安全漏洞造成的損失是由于公司內(nèi)部員工通過(guò)電子郵件發(fā)送了內(nèi)部涉密文件造成的〔3〕。為了加強(qiáng)對(duì)電力敏感郵件的監(jiān)管,國(guó)家電網(wǎng)公司在公司與社會(huì)互聯(lián)網(wǎng)的出口處部署了網(wǎng)絡(luò)審計(jì)設(shè)備,對(duì)從內(nèi)部發(fā)送的電子郵件進(jìn)行審查。但是,由于網(wǎng)絡(luò)審計(jì)設(shè)備無(wú)法對(duì)郵件進(jìn)行實(shí)時(shí)過(guò)濾,不能從根本上杜絕郵件泄密事件的發(fā)生,仍然存在員工誤操作或惡意泄露的可能。

        目前針對(duì)敏感郵件進(jìn)行監(jiān)管的設(shè)備可分為審計(jì)和過(guò)濾兩類設(shè)備。審計(jì)設(shè)備主要是將郵件內(nèi)容(包括附件)進(jìn)行轉(zhuǎn)存,然后以離線方式檢測(cè)郵件是否包含敏感內(nèi)容,這種方法無(wú)法實(shí)現(xiàn)對(duì)郵件實(shí)時(shí)攔截;而過(guò)濾設(shè)備可以對(duì)郵件進(jìn)行實(shí)時(shí)分析,判斷其是否包含敏感關(guān)鍵字,并進(jìn)行實(shí)時(shí)攔截,但是這類設(shè)備通常部署在網(wǎng)絡(luò)出口處或內(nèi)部的郵件服務(wù)器上,由于受到計(jì)算性能和實(shí)時(shí)性的約束,只能對(duì)郵件正文進(jìn)行分析,對(duì)附件中包含敏感內(nèi)容的郵件則無(wú)能為力。當(dāng)前市面上還沒(méi)有一款成熟的產(chǎn)品能夠做到對(duì)郵件內(nèi)容和附件進(jìn)行實(shí)時(shí)分析并攔截。

        為了解決現(xiàn)有郵件過(guò)濾系統(tǒng)因處理大量郵件數(shù)據(jù)而造成的性能瓶頸問(wèn)題,國(guó)網(wǎng)湖南省電力公司電力科學(xué)研究院研制出了一種分布式的郵件過(guò)濾系統(tǒng),該系統(tǒng)在每個(gè)發(fā)送郵件的終端主機(jī)上部署一個(gè)客戶端程序,對(duì)從該主機(jī)上發(fā)送的郵件進(jìn)行攔截和檢測(cè),這樣就很好地解決了集中式郵件過(guò)濾系統(tǒng)存在的性能瓶頸問(wèn)題。分布式郵件過(guò)濾系統(tǒng)的核心問(wèn)題是如何在計(jì)算資源相對(duì)較弱的普通PC機(jī)上實(shí)時(shí)地對(duì)用戶發(fā)送的郵件內(nèi)容和附件進(jìn)行準(zhǔn)確、高效的信息檢索,做到速度快且對(duì)用戶透明。要實(shí)現(xiàn)這一目標(biāo),一個(gè)高效且穩(wěn)健的多模匹配算法是其中的關(guān)鍵。為此,文中提出一種基于改進(jìn)Wu-Manber的多模匹配算法來(lái)實(shí)現(xiàn)對(duì)郵件中多個(gè)電力敏感關(guān)鍵字的實(shí)時(shí)檢索,以滿足分布式郵件過(guò)濾系統(tǒng)的準(zhǔn)確性和實(shí)時(shí)性要求。

        1 多模匹配算法需求分析

        文中提出的多模匹配算法需要部署在分布式郵件檢測(cè)系統(tǒng)的客戶端中。經(jīng)過(guò)對(duì)該郵件過(guò)濾系統(tǒng)的需求分析,文中多模匹配算法的設(shè)計(jì)主要面臨如下幾個(gè)挑戰(zhàn):

        1)高準(zhǔn)確性和實(shí)時(shí)性要求

        分布式郵件過(guò)濾系統(tǒng)的客戶端程序需要實(shí)現(xiàn)的目標(biāo)主要有2個(gè):一是能實(shí)時(shí)準(zhǔn)確地?cái)r截包含電力敏感關(guān)鍵字的電子郵件,阻斷其發(fā)送;二是要能正常且無(wú)延時(shí)地發(fā)送未包含電力敏感關(guān)鍵字的電子郵件,即對(duì)用戶透明。這2點(diǎn)都與多模匹配算法的準(zhǔn)確性和實(shí)時(shí)性密切相關(guān),特別是當(dāng)被檢測(cè)的郵件正文或附件內(nèi)容非常大時(shí),算法的性能就顯得尤其重要。

        2)多附件格式

        分布式郵件過(guò)濾系統(tǒng)客戶端不僅需要對(duì)郵件正文和標(biāo)題進(jìn)行檢索,還需要對(duì)郵件附件進(jìn)行實(shí)時(shí)檢索,這就要求算法支持對(duì)多種常見(jiàn)的辦公文件類型的解析,如文本文檔、Office/WPS文檔、PDF文檔、壓縮文檔等,而每一類文檔的解析都不一樣,壓縮文檔還有可能出現(xiàn)嵌套的壓縮格式,這無(wú)疑大大增加了算法的復(fù)雜度。

        3)中英文語(yǔ)言環(huán)境,多種中文編碼標(biāo)準(zhǔn)

        電力敏感關(guān)鍵字可能是中文、英文或中英文混合的文本字符串,而郵件正文和附件中還有可能出現(xiàn)多種中文編碼格式,如郵件正文通常采用URL和UTF-8編碼,而郵件附件中,文本文檔通常采用GB2312編碼,Office文檔則采用Unicode編碼。為了不漏掉可能存在敏感信息的郵件,算法必須要支持中英文混合環(huán)境和多種中文編碼標(biāo)準(zhǔn)。

        目前主流的多模匹配算法包括:Commentz-Walter算法〔4〕,Aho-Corasick算法〔5〕,Wu-Manber算法〔6〕等。其中,基于后綴搜索和字符塊匹配思想的Wu-Manber算法繼承了Boyer-Moore(BM算法)單模式匹配算法〔7〕進(jìn)行跳躍的思想和hash散列的方法。在實(shí)際應(yīng)用中,是進(jìn)行大規(guī)模多模式匹配效率最高、最穩(wěn)定的算法;而且Wu-Manber算法對(duì)字符集不敏感,可以方便地應(yīng)用于中文環(huán)境。因此,文中選用Wu-Manber算法作為分布式郵件過(guò)濾系統(tǒng)進(jìn)行電力敏感關(guān)鍵字檢索的參考算法。同時(shí),針對(duì)系統(tǒng)的特定需求,對(duì)Wu-Manber算法進(jìn)行了改進(jìn),提出了一種支持中英文混合模式的改進(jìn)多模匹配算法,使其支持GB2312,Unicode和UTF-8 3種中文編碼格式,并可對(duì)郵件正文和附件進(jìn)行實(shí)時(shí)高效的多關(guān)鍵字檢索。

        2 Wu-Manber算法改進(jìn)

        通用的多模匹配問(wèn)題可以用如下的形式化語(yǔ)言進(jìn)行描述:已知一個(gè)待處理數(shù)據(jù)串Text[1…n],其定義在一個(gè)有限的字符表Σ(大小為c)上,對(duì)于給定的模式串集合Pattern= {P1,P2,…,Pk}共k個(gè)模式,假設(shè)m為最短模式串的長(zhǎng)度,即m=min{length(Pi) |1≤i≤k},要求找到數(shù)據(jù)串Text中與模式串Pattern中的模式完全相等的子串的所有出現(xiàn)位置。

        為了解決該問(wèn)題,Wu-Manber算法借鑒了BM算法的后綴搜索思想和 “壞字符”轉(zhuǎn)移機(jī)制,并且也使用Hash散列表來(lái)篩選匹配階段應(yīng)進(jìn)行匹配的模式串,因此可以說(shuō)Wu-Manber算法是BM算法在處理多模式匹配問(wèn)題上的一種派生方法。但是與BM算法不同的是,Wu-Manber算法將相鄰的B (B={2,3})個(gè)字符聯(lián)合作為1個(gè)字符塊,利用字符塊的計(jì)算來(lái)擴(kuò)展 “壞字符”轉(zhuǎn)移機(jī)制的效果,通過(guò)比較文本Text中的字符塊與樣本模式集合Pattern中字符塊的關(guān)系決定樣本右移的距離。

        Wu-Manber算法步驟分為預(yù)處理和字符匹配2個(gè)階段。在預(yù)處理階段,為了加速后續(xù)的匹配過(guò)程,Wu-Manber算法需要構(gòu)造SHIFT,HASH和PREFIX3張表〔8〕。其中,SHIFT表記錄了 “壞字符”規(guī)則,即當(dāng)掃描遇到該字符塊X時(shí)可以向前移動(dòng)的字符數(shù)。其計(jì)算方法如公式 (1)所示,其中X表示長(zhǎng)度為B的字符塊:

        這樣,在后續(xù)對(duì)數(shù)據(jù)串Text進(jìn)行掃描的時(shí)候,只需根據(jù)讀入字符塊的散列值就能夠計(jì)算出可以往前跳躍的字符數(shù),如果相應(yīng)的跳躍值為0,則說(shuō)明可能產(chǎn)生匹配,就要用到HASH表和PREFIX表進(jìn)一步判斷,以快速查找出待匹配的候選模式串,并驗(yàn)證是否存在完全匹配的模式串。

        通過(guò)分析,傳統(tǒng)的 Wu-Manber算法只支持ASCII或GB2312格式編碼的模式串,即在算法預(yù)處理過(guò)程僅對(duì)一種編碼格式的模式串進(jìn)行處理,這使得算法不支持中英文混合模式的字符串搜索,同時(shí)也無(wú)法對(duì)采用Unicode或UTF-8格式編碼的字符串進(jìn)行搜索,這就無(wú)法滿足本文中分布式郵件過(guò)濾系統(tǒng)對(duì)電力敏感郵件進(jìn)行檢測(cè)的需求,因?yàn)樽远x的電力敏感關(guān)鍵字需要支持中英文混合模式,而郵件附件中經(jīng)常會(huì)出現(xiàn)采用Unicode或UTF-8編碼的字符串,例如office文檔就是采用Unicode編碼,而txt文本文檔也可以保存成 UTF-8編碼格式。

        為解決這個(gè)問(wèn)題,文中提出在算法預(yù)處理之前,先對(duì)模式串 (即電力敏感關(guān)鍵字)進(jìn)行編碼格式之間的轉(zhuǎn)換,得到該模式串在3種不同編碼格式 (GB2312,Unicode,UTF-8)下的不同的二進(jìn)制流,然后將這3種不同二進(jìn)制流作為3種不同的模式串,同時(shí)參與算法的預(yù)處理過(guò)程。這樣就使得算法可以同時(shí)支持對(duì)3種編碼格式的數(shù)據(jù)串進(jìn)行匹配。

        在完成Wu-Manber算法的預(yù)處理階段后,后續(xù)的字符匹配階段的過(guò)程就相對(duì)比較簡(jiǎn)單了,它從數(shù)據(jù)串Text的末端開(kāi)始掃描,計(jì)算字符塊的散列值,并根據(jù)SHIFT表的值從后往前移動(dòng);如果遇到SHIFT值為0的情況,則通過(guò)HASH表找到待匹配的模式串,并根據(jù)PREFIX表進(jìn)行進(jìn)一步的匹配;如此循環(huán),直至到達(dá)數(shù)據(jù)串Text的最前端。

        但是,由于傳統(tǒng)的 Wu-Manber算法僅支持ASCII或GB2312編碼格式,因此它通常采用標(biāo)準(zhǔn)字符串變量來(lái)存放模式集Patterns,如表達(dá)式 (2)所示:

        在對(duì)模式串的掃描過(guò)程中,算法通過(guò)查看當(dāng)前字符是否為0來(lái)判斷是否到達(dá)模式串的末尾,因?yàn)樵贏SCII或GB2312編碼格式中,串結(jié)束符總是僅出現(xiàn)在字符串的末尾。然而,這種方法無(wú)法在采用Unicode編碼的模式串上使用,因?yàn)閁nicode編碼采用 2個(gè)字節(jié)來(lái)表示 1個(gè)字符,當(dāng)這個(gè)字符是ASCII字符時(shí),它的高位字節(jié)就為0,這樣就有可能出現(xiàn)在字符串中間存在0值的情況,這也是為什么傳統(tǒng)Wu-Manber算法不支持Unicode編碼模式串的原因。

        為了解決這個(gè)問(wèn)題,文中構(gòu)造了一個(gè)新的結(jié)構(gòu)體來(lái)表示模式集 Patterns,如表達(dá)式 (3) (4)所示:

        該結(jié)構(gòu)體包含一個(gè)字符串指針變量和一個(gè)表示該字符串長(zhǎng)度的變量,這樣,在掃描時(shí)算法就可以通過(guò)該字符串的長(zhǎng)度來(lái)判斷是否到達(dá)模式串的末尾,從而很好地解決了對(duì)Unicode編碼的字符串進(jìn)行掃描的問(wèn)題。

        下面的偽代碼給出了改進(jìn)的Wu-Manber算法進(jìn)行字符匹配過(guò)程的完整流程。

        Wu-Manber算法主要優(yōu)勢(shì)是匹配入口點(diǎn)少,從而使得字符比較的次數(shù)減少。傳統(tǒng)Wu-Manber算法的平均時(shí)間復(fù)雜度是,其中B是塊字符的長(zhǎng)度,n是文本的長(zhǎng)度,m是模式集合中最短模式的長(zhǎng)度。因此,文中對(duì)Wu-Manber算法改進(jìn)后雖然增加了模式串的個(gè)數(shù)(是原來(lái)的3倍),但是算法的時(shí)間復(fù)雜度并沒(méi)有增加。

        3 多模匹配算法在郵件過(guò)濾系統(tǒng)中的應(yīng)用

        圖1展示了分布式郵件過(guò)濾系統(tǒng)框架示意圖。該系統(tǒng)部署在普通的電力辦公終端上,當(dāng)員工利用郵件客戶端(如Hotmail,F(xiàn)irefox等)或者Web瀏覽器登錄到外網(wǎng)郵件服務(wù)器上發(fā)送郵件時(shí),敏感郵件過(guò)濾系統(tǒng)會(huì)在郵件發(fā)送之前對(duì)其進(jìn)行實(shí)時(shí)捕獲和處理,僅允許那些未包含電力敏感關(guān)鍵字的郵件正常發(fā)送。

        圖1 分布式郵件過(guò)濾系統(tǒng)框圖

        郵件過(guò)濾系統(tǒng)主要包含3個(gè)模塊:郵件攔截模塊、郵件檢測(cè)模塊和預(yù)警模塊。郵件攔截模塊主要負(fù)責(zé)實(shí)時(shí)捕獲用戶發(fā)送的郵件信息,并將信息發(fā)送給郵件檢測(cè)模塊進(jìn)行分析處理;郵件檢測(cè)模塊主要集成了文中提出的一種基于Wu-Manber的改進(jìn)多模匹配算法,用于實(shí)現(xiàn)對(duì)郵件正文和附件的實(shí)時(shí)解析和敏感關(guān)鍵字搜索功能,并將檢測(cè)結(jié)果通知郵件攔截模塊和預(yù)警模塊;預(yù)警模塊用于向員工展示提示信息,當(dāng)員工發(fā)送的郵件因含有電力敏感關(guān)鍵字被攔截時(shí),預(yù)警模塊會(huì)在屏幕右下角彈出一個(gè)窗口,提示郵件已被攔截,并顯示郵件中出現(xiàn)的敏感關(guān)鍵字。

        下面是文中提出的一種基于多模匹配的電力敏感郵件實(shí)時(shí)檢測(cè)方法的程序執(zhí)行流程:

        1)對(duì)郵件攔截模塊發(fā)送過(guò)來(lái)的郵件信息進(jìn)行實(shí)時(shí)解析,提取出郵件的收發(fā)件人地址,郵件標(biāo)題、郵件正文、附件標(biāo)題、附件內(nèi)容等信息。

        2)根據(jù)用戶自定義的電力敏感關(guān)鍵字對(duì)多模匹配引擎進(jìn)行初始化。該多模匹配引擎即文中所述的改進(jìn)Wu-Manber匹配算法。

        3)將郵件正文轉(zhuǎn)化成二進(jìn)制字節(jié)流,如果郵件正文采用了URL編碼,則對(duì)其進(jìn)行URL解碼操作。將轉(zhuǎn)換后的二進(jìn)制字節(jié)流輸入到多模匹配引擎中,進(jìn)行電力敏感關(guān)鍵字的匹配。

        4)根據(jù)匹配結(jié)果判斷該郵件是否包含電力敏感關(guān)鍵字,如果是,直接判斷該郵件為敏感郵件,轉(zhuǎn)到第8)步;否則,進(jìn)行下一步郵件附件的檢測(cè)。

        5)判斷郵件是否包含附件,如果有,轉(zhuǎn)到下一步;否則,轉(zhuǎn)到第9)步。

        6)將郵件附件的標(biāo)題和正文轉(zhuǎn)化成二進(jìn)制流,附件格式支持文本文檔、ZIP/RAR壓縮文檔、Office和WPS辦公文檔或PDF文檔中的一種或多種;如果附件是PDF格式,則讀取出其中的文本信息;如果是壓縮文檔,則對(duì)壓縮文檔進(jìn)行解析,提取出其中的二進(jìn)制文件流;將轉(zhuǎn)換后的二進(jìn)制字節(jié)流輸入到多模匹配引擎中,進(jìn)行電力敏感關(guān)鍵字的匹配。

        7)根據(jù)匹配結(jié)果判斷該郵件是否包含電力敏感關(guān)鍵字,如果有,則判斷該郵件為敏感郵件,轉(zhuǎn)到下一步。

        8)通知郵件攔截模塊對(duì)該郵件進(jìn)行實(shí)時(shí)攔截,并向預(yù)警模塊發(fā)出告警信息,結(jié)束。

        9)通知郵件攔截模塊正常發(fā)送該郵件,結(jié)束。

        4 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證算法的實(shí)時(shí)性和有效性,在電力辦公終端上對(duì)算法及其所應(yīng)用的郵件過(guò)濾系統(tǒng)進(jìn)行了測(cè)試。測(cè)試環(huán)境為:Intel i5-3337U 1.8 GHz四核CPU,4 GB內(nèi)存,window 7 32位操作系統(tǒng)。選取了不同大小的文件(100 kB-150 MB)對(duì)算法的執(zhí)行時(shí)間進(jìn)行測(cè)試,圖2給出了算法對(duì)不同文件大小進(jìn)行檢索的平均執(zhí)行時(shí)間。

        圖2 文中算法的執(zhí)行時(shí)間

        可以看到,隨著文件大小的增長(zhǎng),算法的執(zhí)行時(shí)間基本是呈線性增長(zhǎng)的趨勢(shì),這基本符合前面對(duì)算法時(shí)間復(fù)雜度的分析。另外,常見(jiàn)的郵件附件大小一般不會(huì)超過(guò)20 MB,對(duì)于這個(gè)量級(jí)來(lái)說(shuō),算法的檢索時(shí)間在200~300 ms范圍內(nèi),這種延時(shí)對(duì)于用戶來(lái)說(shuō)基本是透明的。而對(duì)于150 MB的大附件來(lái)說(shuō),算法也僅需要不到2 s的時(shí)間來(lái)進(jìn)行檢索,這遠(yuǎn)遠(yuǎn)小于通過(guò)網(wǎng)絡(luò)上傳這個(gè)附件所需要的時(shí)間。

        下面的表1和表2則給出了文中算法應(yīng)用在郵件過(guò)濾系統(tǒng)后在功能上的優(yōu)勢(shì)。相對(duì)于傳統(tǒng)的Wu-Manber算法,文中改進(jìn)的多模匹配算法能夠支持中英文混合的模式串,可同時(shí)支持 GB2312,Unicode,UTF-8等3種二進(jìn)制編碼格式,并且可以檢索采用URL編碼的郵件信息。而在郵件附件方面,文中算法全面支持當(dāng)前的主流辦公格式,包括文本格式、常見(jiàn)壓縮格式、PDF格式,以及 WPS和Office的文檔格式。

        表1 文中算法與傳統(tǒng)Wu-Manber算法功能對(duì)比

        表2 文中算法所支持的郵件附件格式

        5 結(jié)論

        文中針對(duì)國(guó)家電網(wǎng)公司對(duì)電力敏感郵件進(jìn)行實(shí)時(shí)檢測(cè)的特定需求,在傳統(tǒng)Wu-Manber多模匹配算法的基礎(chǔ)上提出一種支持多編碼格式的模式匹配算法,將GB2312,Unicode和UTF-8這3種不同編碼格式的模式串引入到算法的預(yù)處理過(guò)程中,并改進(jìn)算法對(duì)字符串的掃描過(guò)程,使得算法可適用于對(duì)當(dāng)前主流郵件格式和附件格式的檢索。實(shí)驗(yàn)結(jié)果和實(shí)際應(yīng)用過(guò)程表明,文中提出的一種面向多編碼格式的電力敏感郵件實(shí)時(shí)檢測(cè)方法在速度上具有較好的實(shí)時(shí)性,能提供較好的用戶體驗(yàn),在功能上也能夠支持當(dāng)前主流的郵件附件格式,具有很好的實(shí)用性和應(yīng)用前景。

        〔1〕R.Richardson.2007 Csi Computer Crime and Security Survey〔EB/OL〕. Orlando,F(xiàn)lorida:Computer Security Institute,2007.〔2014-08-15〕. http://i.cmpnet.com/v2.gocsi.com/pdf/CSISurvey2007.pdf.

        〔2〕R.Richardson.2008 Csi Computer Crime and Security Survey〔EB/OL〕. Orlando,F(xiàn)lorida:Computer Security Institute,2008.〔2014-08-15〕. http://www.cse.msstate.edu/~cse6243/readings/CSIsurvey2008.pdf.

        〔3〕R.Richardson.2009 Csi Computer Crime and Security Survey〔EB/ OL〕.Orlando,F(xiàn)lorida:Computer Security Institute,2009.〔2014-08-15〕.http://pathmaker.biz/whitepapers/CSISurvey2009.pdf.

        〔4〕B.Commentz-Walter.A string matching algorithm fast on the average〔C〕//In Proceedings of the 6thInternational Colloquium on Automata,Language and Programming.GRE:Springer-Verlag,1979:118-132,

        〔5〕A.V.Aho,M.J.Corasick.Efficient string matching:an aid to bibliographic search〔J〕.Communication of the ACM,1975,18 (6):333-340.

        〔6〕S.Wu, U.Manber.Fasttextsearching allowing errors〔J〕. Communications of the ACM,1992,35(10):83-91.

        〔7〕R.S.Boyer, J.S.Moore.A fast string searching algorithm〔J〕. Communications of the ACM,1977,20(10):762-772.

        〔8〕張宏莉,徐東亮,梁敏,等.海量模式高效匹配方法研究〔J〕.電子學(xué)報(bào),2014,42(6):1220-1224.

        A real-time sensitive e-mail detection method based on multi-pattern matching

        TIAN Zheng,TIAN Jian-wei,XUE Hai-wei,QI Wen-hui

        (State Grid Hunan Electric Power Corporation Research Institute,Changsha 410007,China)

        In this paper,an improved multiple pattern matching algorithm is presented.Different pattern in three different coding formats are introduced into the pretreatment process of the algorithm,and the texts scanning process is optimized in order to support the main stream format of the text and attachments of mail.The experimental results and the practical application show that the proposed algorithm is effective and real-time.

        mail filtering system;Wu-Manber;multiple coding formats;real-time;attachment of mail

        TP309

        A

        1008-0198(2015)01-0029-05

        10.3969/j.issn.1008-0198.2015.01.008

        田崢(1983),男,湖南長(zhǎng)沙人,博士,從事信息通信安全技術(shù)研究等工作。

        2014-09-03 改回日期:2014-11-17

        猜你喜歡
        關(guān)鍵字字符附件
        尋找更強(qiáng)的字符映射管理器
        履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤(pán)點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
        附件三:擬制定的標(biāo)準(zhǔn)匯總表
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        成功避開(kāi)“關(guān)鍵字”
        關(guān)于TSG 07——2019附件M與TSG Z0004——2007內(nèi)容的對(duì)照
        消失的殖民村莊和神秘字符
        新型武器及附件展呈
        輕兵器(2017年3期)2017-03-13 19:15:42
        附件 注釋體例
        国产精品无码一区二区三级| 国产女主播福利一区在线观看| 国产精品一品二区三区| 久久亚洲道色综合久久| a级毛片免费完整视频| 在线视频你懂的国产福利| 加勒比东京热久久综合| 亚洲精品中文字幕视频色| 成年女人粗暴毛片免费观看| 久操视频新免费伊人| 喷潮出白浆视频在线观看 | 91精品国产色综合久久| 久久久www成人免费精品| 99热成人精品免费久久| 午夜男女视频一区二区三区| 日产精品高潮一区二区三区5月| 亚洲精品无amm毛片| a观看v视频网站入口免费| 色婷婷一区二区三区四| 亚洲av日韩av激情亚洲| 中文字幕人妻丝袜乱一区三区 | 亚洲av无码国产精品色软件下戴| 国产精品理人伦国色天香一区二区| 亚洲黄色官网在线观看| 男人天堂这里只有精品| 国产精品久久久久影院嫩草| 在线av野外国语对白| 免费人妻精品一区二区三区| 97久久精品人妻人人搡人人玩 | 久久精品熟女不卡av高清| 日韩一本之道一区中文字幕| 波多野结衣久久精品99e| 精品日韩国产欧美在线观看| 中文字幕一区二区三区在线乱码| 国产亚洲一区二区在线观看| 午夜成人理论无码电影在线播放 | 亚洲伊人av天堂有码在线| 五月综合激情婷婷六月色窝| 丁香婷婷色| 精品人妻码一区二区三区红楼视频| 永久黄网站色视频免费看|