亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于半監(jiān)督學習的惡意URL檢測方法①

2020-11-24 05:46:00麻甌勃劉雪嬌唐旭棟周宇軒胡亦承

計算機系統(tǒng)應用 2020年11期

麻甌勃,劉雪嬌,唐旭棟,周宇軒,胡亦承

(杭州師范大學杭州國際服務工程學院,杭州 311121)

萬維網是人們接入互聯(lián)網的主要入口,用戶能夠通過URL (統(tǒng)一資源定位符)直接或間接地獲取互聯(lián)網上的各類信息.在這種方式給生活帶來便利的同時,攻擊者也可利用惡意URL 實現不同類型的攻擊.據2018年卡巴斯基安全公告[1]中統(tǒng)計,2017年11月至2018年10月間,該實驗室Web 防病毒組件共識別554 159 621個惡意URL,而其在2014年的安全公告中統(tǒng)計通過惡意URL 實現的攻擊占當年整個網絡攻擊的75.76%,這一數值在2015年也達到了73.70%.因此,檢測惡意URL 成為了應對網絡攻擊的重要組成部分.

惡意URL 是指欺騙用戶訪問,達到執(zhí)行惡意行為或非法竊取用戶數據目的的URL.攻擊者在URL 中嵌入惡意代碼就可以實現XSS、SQL 注入等攻擊,用戶訪問這些URL 會被竊取個人隱私信息,例如賬號密碼、個人資料,或者被迫下載和執(zhí)行惡意程序或腳本(例如病毒、木馬、蠕蟲等)[2].為了防止被檢測系統(tǒng)攔截,攻擊者不斷設計新型惡意URL,如何及時有效應對這些惡意URL 成為了一大挑戰(zhàn).

目前惡意URL 檢測主要基于黑名單(blacklisting)和規(guī)則庫[3],這種方式實現簡單、檢測高效,但卻難以應對新型惡意URL.機器學習已經在入侵檢測領域有了廣泛應用,它可以一定程度解決未知攻擊難以檢測的問題,所以有一些研究[4-10]將其應用在惡意URL 檢測上.應用機器學習實現惡意URL 檢測遇到的主要困難是:與豐富的攻擊手段相似,網絡中數據的高復雜性使得統(tǒng)計特征有較大的可變性[11].這導致無監(jiān)督學習訓練出的檢測模型雖然能夠判斷出一些未知的惡意URL,但模型若沒有高度可靠,則易出現誤報[12].許多檢測系統(tǒng)每日報警數可達到幾十萬次,人為從所有報警中排錯是一件極其困難的事情,所以低誤報率的檢測系統(tǒng)更具實用性.由于存在以上問題,結合有監(jiān)督學習訓練惡意URL 檢測模型是目前的主要應用方式.但有監(jiān)督學習訓練檢測模型需要大量有標簽樣本,為樣本打標簽將增加成本開銷并消耗更多時間.

本文結合半監(jiān)督學習訓練惡意URL 檢測模型,改進了協(xié)同訓練算法,只需用少量有標簽數據和大量無標簽數據即可實現兩個不同分類器的相互學習和共同進步.此外,在數據預處理中,除了基于專家知識外,還引用基于統(tǒng)計的Doc2Vec 工具將URL 作為帶情感文本處理,這種方式考慮了詞序,保留上下文聯(lián)系,有助于訓練的分類器區(qū)分惡意URL 與正常URL.

1 相關工作

1.1 惡意URL 檢測

黑名單是檢測惡意URL 最常用的方法,其本質是過去已被確認為惡意URL 的數據庫.每當訪問新URL時,都會執(zhí)行數據庫查找.如果該URL 存在于黑名單中,則被判定惡意,系統(tǒng)生成警告,否則判定為良性.但是由于每天都會生成新的URL,維護一個詳盡的惡意URL 列表是不現實的.文獻[3]中研究顯示,為了逃避黑名單檢測,許多攻擊者會對原始URL 進行少量修改,或通過混淆將URL 修改為“看起來”合法的形式迷惑檢測系統(tǒng)[13].因此,黑名單方法具有嚴重的局限性,繞過它們并不是一件困難的事情,尤其是黑名單對于新生成的惡意URL 缺乏檢測能力[4].盡管黑名單面臨著上述問題,但由于其實現簡單且查詢效率高,仍是當今惡意URL 檢測系統(tǒng)最常用的技術[14].

啟發(fā)式(heuristic)方法是對黑名單的一種擴展,主要思想是創(chuàng)建“簽名黑名單”,識別常見的攻擊,并將簽名分配給該攻擊類型.檢測系統(tǒng)可以在網頁上掃描此類簽名,并且在發(fā)現某些可疑行為時發(fā)出標記,這種方法可以檢測新URL 中的威脅,比黑名單具有更好的泛化能力.但是,啟發(fā)式方法只能用于有限數量的常見威脅,不能推廣到所有類型的新型攻擊,且攻擊者使用混淆技術依然可以繞過[4].

為了提高惡意URL 檢測器的通用性,近年來對其與機器學習結合的研究日益受到關注.機器學習方法可基于統(tǒng)計屬性,訓練得到的分類器可以區(qū)分URL 為惡意或良性,能夠一定程度檢測新型惡意URL.支持向量機(SVM)是監(jiān)督式學習方法之一,在惡意URL 檢測中有著較多的應用[15-17],它基于結構風險最小化原則避免了過學習問題,泛化能力強,但應對大規(guī)模訓練樣本時存在計算量過大、訓練時間長的問題.邏輯回歸是惡意URL 檢測中另一種常用的監(jiān)督式學習方法[18,19],實現簡單,計算量小,訓練速度快,但容易欠擬合,得到的模型預測準確率相比其它方法不高.文獻[15,18]還介紹了樸素貝葉斯(naive Bayes)與決策樹(decision trees)在惡意URL 檢測中的應用.

1.2 半監(jiān)督學習

有監(jiān)督學習需要大量有標簽數據訓練模型,準確判斷一條URL 是否惡意需要豐富的專家知識,這會造成時間開銷的增加[20,21].并且當需要標記的URL 數量過多時,標記的準確性會受到影響.由于新型惡意URL的產生速度快,數量多,只應用有監(jiān)督學習訓練檢測模型顯得低效.半監(jiān)督學習的引入就是為了一定程度解決上述問題.隨著網絡應用的普及,無標簽數據的獲取變得更為容易.半監(jiān)督學習因為可以借助大量的未標記數據來輔助少量的有標記數據提高訓練模型的性能而受到關注[22,23],其利用分類器代替人力進行數據標注,并在此過程中不斷學習提升自身區(qū)分數據類型的能力.半監(jiān)督學習的基本依據在于:數據的分布必然不是完全隨機的,通過一些有標簽數據的局部特征,以及更多沒標簽數據的整體分布,就能得到可以接受甚至是非常好的分類結果.這表明半監(jiān)督學習訓練的分類器性能不一定優(yōu)于有監(jiān)督學習,而最終的訓練效果與應用的有標簽數據量有關,這需要訓練者根據目標進行抉擇.一些典型半監(jiān)督學習算法的優(yōu)劣勢比較如表1所示.

表1 典型半監(jiān)督學習算法的優(yōu)劣勢比較

自訓練(self-training)只需要一個分類器和少量有標簽數據就可以實現,核心思想是選擇高置信度的未標記樣本來擴充訓練集,存在的不足是如果無標簽URL預測錯誤,隨著訓練的進行會造成錯誤的累積[24,25].協(xié)同訓練由Blum 和 Mitchell 等[26,27]提出,Nigam 等曾將其應用在文本處理中[28],它需要兩個不同分類器共同工作,實現簡單,計算量小,但若兩個初始分類器性能不夠接近,弱分類器容易對強分類器產生較大負面影響.協(xié)同正則法(co-regularization)[29]基于正則化框架,試圖直接最小化有標記樣本上的錯誤率和兩個視圖上未標記樣本的標記不一致性,不涉及對未標記樣本賦予偽標記的過程.該方法有多種算法實現[30,31],并可在信息論框架下解釋工作原理[32].但其對于視圖構建要求苛刻,易出現高誤報率,不適合用于惡意URL 檢測.Goldman 和 Zhou[33]提出了一種可用于單視圖數據的協(xié)同訓練法變體,通過使用兩種不同的決策樹算法在相同屬性集上生成兩個不同的分類器,然后按協(xié)同訓練法的方式來進行分類器增強.這種方法嚴重依賴10 折交叉驗證法[34]估計標記置信度,只適用于大量有標記樣本的情況.Zhou 和 Li[35]提出三體訓練法(tritraining),該方法從單視圖訓練集中產生3 個分類器后利用預測結果以“少數服從多數”的形式來挑選數據.但由于只用了單視圖,分類器間的獨立性不足,相互學習效果不佳.

基于以上半監(jiān)督學習算法遇到的問題,本文提出一種以協(xié)同訓練與自訓練的思想為基礎的半監(jiān)督學習算法,基于雙視圖,結合兩個分類器預測結果共同判斷來提升標記偽標簽的準確率,依賴的原始打標簽數據量少,計算量較小.

2 惡意URL 檢測方案設計

本章將先設計基于協(xié)同訓練的改進算法,用于訓練惡意URL 檢測分類器.在2.2 節(jié)介紹兩個初始分類器的訓練細節(jié).

2.1 協(xié)同訓練改進算法

圖1給出了本文方法的訓練流程.我們先分別用基于專家知識和統(tǒng)計預處理過的少量帶標簽URL 數據訓練兩個初始分類器,用這兩個初始分類器對剩余的無標簽訓練集進行預測,設定預測結果良性為正例,惡意為反例.對于同一無標簽訓練集中的某條URL,只有兩個分類器給出的預測結果相同才會通過第一輪篩選,預測結果不相同則將該URL 重新放入無標簽訓練集中等待下一輪預測.

在第二輪篩選中,會將每條數據的兩個分類器預測結果置信度求和,以求出的置信度和作為標準由高到低排序,且正例與反例數據分開處理.本文方法在訓練開始前會定義每輪挑選的正例數p和反例數n,即選出置信度和前p名的正例和前n名的反例.將選出的共p+n個數據以分類器預測結果打上偽標簽,加入有標簽訓練集.應用這兩個新訓練集重新訓練生成兩個分類器,即代表完成一輪類協(xié)同訓練.

以上步驟循環(huán)執(zhí)行,直至某一輪訓練中兩個分類器共同判斷的正例個數不足p個或者反例個數不足n個,則跳出訓練循環(huán).該階段無標簽訓練集中的數據量較少,若通過改變p和n的值繼續(xù)訓練,則后續(xù)兩個分類器的相同預測結果會不斷減少,導致每一輪都需要修改p與n的值,降低了訓練效率,且由于每一輪打上偽標簽的數據過少而使模型訓練效果變化不明顯.基于以上原因,本文提出在跳出原有循環(huán)后,以協(xié)同訓練算法繼續(xù)工作,重新設定一個后續(xù)不再改變且數值更小的p與n,直到所有的訓練集都被打上偽標簽為止.基于上述流程,算法1 中給出了算法實現.

圖1 本文方法工作流

∪(Djp∪Djn);19.Dj l=Djl 20.end for 21.end if 22.end while q

提供的有標簽數據量越多,則兩個初始分類器URL 惡意與否的區(qū)分能力越強.這對算法執(zhí)行的影響是,在整體數據集數量相同的情況下,初始分類器性能強代表判定URL 類型正確的可能性更大,則設置的每輪挑選正例數p與反例數n可相對較大,整體的訓練輪數較少.初始分類器弱則相反.

2.2 數據預處理與兩個初始分類器訓練

本文設計構建兩種視圖用于分類器訓練,分別基于專家知識和統(tǒng)計.在構建視圖時,若生成的視圖不夠充分,學習過程會受到標記噪聲和采樣偏差的制約,僅以學習器相互提供偽標記樣本這種方式很難學得近似最優(yōu)分類器.Wang 和Zhou[36]對此分析指出,分類器在提供預測結果之外,還可提供對預測結果置信度的估計,則能在一定程度上緩解標記噪聲和采樣偏差的制約,提升學習效果.這表明我們得到的視圖即使不充分,基于分歧的半監(jiān)督學習仍是可行的.

圖1中兩個分類器訓練所需數據在預處理上并不相同.前者需要應用專家知識,通過已判別為惡意URL中的一些特殊規(guī)則來處理數據生成視圖一,并訓練出分類器1.基于統(tǒng)計的方法將結合文本處理實現,應用Doc2Vec 工具預處理數據后生成視圖二,訓練分類器2.由于兩個分類器的預測結果要共同判斷,所以原始數據應該完全相同,分別通過兩種不同方式進行數據預處理,并劃分為訓練集和測試集,如圖2所示.對于得到的每份訓練集需要進行第二次劃分,保留大部分沒有標簽的URL 條目,并將小部分人工打上標簽,用于初始分類器的訓練,如圖3所示.

圖2 基于不同方法的數據預處理

圖3 訓練集中的數據劃分

2.2.1 基于專家知識預處理URL

視圖1的構建主要依據URL 中出現的特殊符號.在Canali 等的研究中發(fā)現[19],惡意URL 中的特殊符號數量普遍多于正常URL,以此為基礎,本文設計基于專家知識進行數據預處理后的特征由3 部分組成.URL與普通的英文字符串有所不同,字符之間并非完全獨立,且其中會存在一些特殊字符.某些特殊字符在正常請求的URL 中也會出現,但通常占據字符數少,所以可以通過觀察后從中選擇有代表性的特殊字符作為第一部分特征.另一些特殊字符或關鍵詞在正常的URL中不會出現,一旦檢測發(fā)現則可以判斷為惡意URL,這些特殊字符或關鍵詞是特征的重要組成部分.通過觀察發(fā)現惡意URL 的字符數在整體上要多于正常的URL 字符數,所以URL 的總字符數將被作為最后一部分特征.

結合參考資料與所用數據集URL 條目的特點,最終確定作為特征的特殊符號與關鍵詞為:“#”、“%”、“&”、“=”、“+”、“-”、“_”、“*”、“.”、“or”、“NULL”,計算每個URL 條目對應特殊符號或者關鍵詞的字符數,加上URL 的總字符數構成一共12 個特征,完成第一類數據預處理.

2.2.2 使用Doc2Vec 預處理URL

視圖2的構建思想是將URL 作為文本,通過文本處理器實現向量化.Ma 等[37]提出利用URL 的詞匯和主機信息特征訓練分類器,可以更快適應惡意URL不斷變化的新特征.徐冬冬等[38]利用TF-IDF 將URL作為文本處理實現向量化,并以此訓練模型來檢測SQL 注入攻擊.這兩篇文獻說明了將URL 作為文本處理的可行性.

文本處理的方法很多,表2給出了目前常用方法的對比.目前通常使用bag-of-words、average word vectors、TF-IDF、Word2Vec 等方式把數據投影到向量空間中.Bag-of-words 沒有考慮詞序(word order),且忽略了單詞的語義信息;average word vectors 對句子中的所有詞向量取平均,但也沒有考慮到單詞的順序;TF-IDF 是一種加權技術,采用統(tǒng)計方法,根據字詞在文本中出現的次數和在整個語料中出現的文檔頻率來計算重要程度,能過濾掉一些常見卻無關緊要的詞語,保留影響整個文本的重要詞語,但依然沒有考慮到詞的順序;Word2Vec 可以通過訓練把對文本內容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度.在獲得詞向量后,對詞向量進行平均處理,最終得到句子向量.Word2Vec考慮了詞序,但忽視了上下文的聯(lián)系,沒有對單詞的順序進行特殊處理,在面對長段落時效果并不理想.惡意URL 普遍較長,只用Word2Vec 的方式來處理并不理想.

表2 多種文本處理方式的對比

為了更少損失文本中的重要信息,本文中將應用Doc2Vec 實現URL 作為文本的處理.Doc2Vec 是Word2Vec 的拓展,目前在情感分析等問題上有著廣泛應用.Doc2Vec 不但生成詞向量,每個句子同樣被映射到向量空間中,可以用矩陣的一列來表示.句向量能和詞向量級聯(lián)或者求平均得到特征,預測句子中的下一個單詞,這實現了上下文的聯(lián)系.Doc2Vec 考慮了文本的詞頻、語義和語序,還能保留上下文關聯(lián)信息[39-42].我們可將URL 作為附帶情感信息的文本處理,利用Doc2Vec 進行數據處理.

首先,對URL 條目進行分詞,Doc2Vec 會把URL每個被分出的詞與句都映射到向量空間,將上下文的詞向量與句向量級聯(lián)或者求平均得到特征,用于預測URL 中下一個詞.給定如下訓練序列,目標函數是:

其中,w代表著URL 中的詞與句.URL 中的下一個詞存在多種可能,即這是一個多分類問題.我們希望可能性大的詞能經常取到,但可能性小的偶爾也可以被選取,所以分類器最后一層使用Softmax 函數來給出各種可能性的評估,計算公式為:

每一個yi可以理解為預測出每個類別i的概率.在該任務中,每個詞或句可以看成一個類別.計算的公式為:

其中,U,b是Softmax 函數中的參數,h由從W提取的詞向量與句向量的級聯(lián)或平均構成[41].

Doc2Vec 中有PV-DM 和PV-DBOW 兩種語言模型[43,44].對比兩種語言模型,PV-DM 預測行為的次數跟整個文本的詞句數相近,時間復雜度低,速度快.PVDBOW 則是通過更多的時間、計算開銷來生成更精準的向量.本文設計的方法基于半監(jiān)督思想,初始帶標簽的數據量基數小,應用PV-DBOW 開銷并不大.且由于初始數據量少,若是用PV-DM 會降低初始分類器的預測準確度,在后續(xù)多輪學習中這一影響會被放大.綜上兩點考慮,選擇PV-DBOW 來處理向量.

3 實驗與分析

3.1 數據處理

本次仿真實驗所使用的數據集為西班牙國家研究委員會開發(fā)的CSIC 2012.該數據集由Paros 和W3AF等工具生成,異常請求包括SQL 注入、緩沖區(qū)溢出、CRLF 注入、XSS、SSI 等,涵蓋的類別全面,且使用的所有參數數據都從真實數據庫中提取,含有大量實際攻擊數據.CSIC 2012 本身是針對Web 攻擊檢測而誕生的,只需要對該數據集進行一定的處理就能夠較好滿足惡意URL 檢測仿真實驗的需求.

實驗需要提取數據集中的URL 部分,保留其路徑與參數信息.通過去重、清洗等步驟保留下20 441 條URLs 用于本次實驗,劃分為訓練集以及測試集,具體的組成情況如表3所示.

表3 數據集劃分與組成

分類器訓練分為兩部分,第一部分基于有監(jiān)督學習,用全部打標簽的訓練集訓練分類器.第二部分基于少量有標簽與大量無標簽訓練集進行的半監(jiān)督學習.半監(jiān)督訓練中包含自訓練、協(xié)同訓練以及本文的設計方法,目的是進行更全面的分類器性能對比,分析本文提出方法的可行性以及優(yōu)勢.為了控制變量,所有方法的訓練集URL 條目相同,且全部采用訓練量小且訓練速度快的邏輯回歸二分類算法作為基算法.

本次仿真實驗中,得到的所有數據本身已有標簽.如表4所示,有監(jiān)督學習的訓練集保留全部標簽,即有標簽數據量為15 000,而半監(jiān)督學習初始只保留100個有標簽數據.

表4 不同訓練方法的打標簽數據量統(tǒng)計

對于有監(jiān)督學習,用2 種不同預處理得到的訓練集訓練至收斂,最終得到兩個分類器.對于3 個不同的半監(jiān)督學習算法,模型訓練將進行多輪,每次有標簽數據集更新后需重新訓練,且每輪都需要將分類器訓練至收斂,直至所有的無標簽數據被打上偽標簽且被用于最終的分類器訓練,每種方法同樣會得到兩個不同的分類器.4 種方法全部訓練完成后,進行分類器測試,根據不同的評估指標對比性能.

3.2 分類器評價標準

對于每個待檢測的URL,分類器最終可能產生4 種不同的結果,本實驗中這4 種情況分別解釋為:

(1)TP(True Positive):惡意URL 樣本,且模型預測結果為惡意;

(2)TN(True Negative):正常URL 樣本,且模型預測結果為正常;

(3)FP(False Positive):正常URL 樣本,模型預測結果為惡意;

(4)FN(False Negative):惡意URL 樣本,模型預測結果為正常.

基于以上4 種可能情況,對于分類器的性能評判引入了精準度、F1、AUC 和KS4 個指標,精準度和F1 主要判斷訓練完成的分類器預測結果的準確性,AUC和KS主要判斷分類器對于URL 是否惡意的區(qū)分能力強弱.

精準度即精確率,在本實驗中表示正確判斷為惡意的URL 樣本占全部判斷為惡意樣本的比例:

F1 值是Precision和Recall的調和平均數.因為Precision和Recall有時候會出現矛盾,所以需要對它們進行綜合考慮:

AUC值是ROC 曲線下方的面積.ROC 曲線繪制的橫坐標是FPR,而縱坐標是TPR.當TPR越大,而TPR越小時,說明分類結果是較好的.TPR與FPR的計算如式(7)、式(8)所示.

KS值源自KS曲線,同樣反應分類器的劃分能力,不同的是KS曲線采取了另一個視角展示模型功效.KS曲線是將概率從小到大進行排序,取10%的值為閾值,同理將10%×k(k=1,···,9)處值作為閾值,計算不同的FPR和TPR,以10%×k(k=1,···,9)為橫坐標,同時分別以TPR和FPR為縱坐標畫出兩條曲線.兩條曲線之間最遠的距離就是KS值,而此處對應的閾值,就是劃分模型最優(yōu)異的閾值.

精準度是本次實驗中最重要的指標.我們的目標并不是訓練出一個能檢測出所有惡意URL 的分類器,而是希望能高效、低成本的部署分類器來一定程度上減少惡意URL 帶來的損失,且分類器不會有過多的誤報而降低可用性,即得到精準度越高越好.當分類器精準度相近時,可綜合考慮F1、AUC、KS3 個指標來判斷分類器性能的優(yōu)劣.

3.3 實驗結果與對比分析

4種不同訓練方法最終分別得到的2 個分類器用設定的實驗指標進行對比,結果如表5和表6所示.

表5 分類器1 在4 種不同訓練方法下的結果

表6 分類器2 在4 種不同訓練方法下的結果

表5顯示,對于分類器1,通過本文方法能夠得到的精準度明顯高于自訓練,且略高于有監(jiān)督學習以及協(xié)同訓練,說明本文方法得到的分類器1 有最低的誤報率.再比較F1、AUC、KS值,可見本文方法在該3 項指標的表現上雖稍低于有監(jiān)督學習,但在半監(jiān)督學習中數值與其它2 種方法得到的分類器1 相近.

表6顯示4 種不同方法得到的分類器2 的精準度相近,綜合比較下有監(jiān)督學習的F1、AUC、KS3 個評估指標最高,本文方法4 項指標與其接近并稍高于自訓練與協(xié)同訓練.

綜合表5與表6,可以分析出本文方法在所用有標簽數據遠少于有監(jiān)督學習的情況下得到的2 個分類器4 項指標與有監(jiān)督學習所得分類器相近,精準度更是分別達到了99.42%與95.23%,即誤報率在4 種方式中最低,滿足惡意URL 檢測應用中的低誤報率要求.通過其它3 項指標的對比可知本文方法所的分類器在低誤報的同時,保證了對URL 良性或惡意的區(qū)分能力.

通過表5和表6的對比我們定義分類器1 為強分類器,分類器2 為弱分類器.在協(xié)同訓練中由于每輪2 個分類器所新增的偽標簽數據來自另一分類器的預測,則可能導致弱分類器的過多錯誤預測對強分類器的性能產生負面影響.如圖4～圖7所示,在協(xié)同訓練的執(zhí)行過程中強分類器的精準度會有較大起伏,這表明分類器性能在訓練過程中的不穩(wěn)定性,對最終的分類器性能產生較大影響.而本文方法基于共同判斷,強分類器每輪新增的偽標簽數據依然全部來自自身預測,雖然存在因為與弱分類器的判斷結果不同而未選擇少量高置信度數據的情況,但卻降低了受到弱分類器影響的可能.從圖中可以看到本文方法中強分類器的精確度曲線雖也有起伏,但相對平穩(wěn),且整體呈上升趨勢.綜上得出,本文方法相較于協(xié)同訓練犧牲了一定的性能提升速率得到了更高的穩(wěn)定性.

圖4 分類器1 精準度變化趨勢圖

圖5 分類器1 F1 值變化趨勢圖

圖6 分類器1 AUC 值變化趨勢圖

圖7 分類器1 KS 值變化趨勢圖

4 總結

本文惡意URL 檢測方法結合了特征與文本處理預處理數據,并對協(xié)同訓練算法進行了改進,僅用0.67%有標簽數據訓練出的兩個分類器預測精準度分別達到99.42%與95.23%,低誤報率使得該方法訓練得到的檢測模型有較高的實用性.這種方式在現實應用中大幅度節(jié)約了人為打標簽的成本,減少了時間開銷,且檢測效果接近有監(jiān)督學習得到的分類器,提供了有效應對新型惡意URL 的方案.未來的工作將考慮如何把這種半監(jiān)督思想應用于惡意URL 的在線學習中,在節(jié)約開銷的同時保證檢測模型的定時更新.