葉志雄,王丹弘
(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,廣州 510635)
基于海量數(shù)據(jù)的不平衡SVM增量學(xué)習(xí)的釣魚網(wǎng)站檢測(cè)方法
葉志雄,王丹弘
(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,廣州 510635)
釣魚網(wǎng)站每年在電子商務(wù)、通信、銀行等領(lǐng)域給用戶造成極大損失,成功有效的防范釣魚網(wǎng)站成為一項(xiàng)艱巨任務(wù)。本文通過(guò)對(duì)實(shí)際數(shù)據(jù)的分析,提取了URL相關(guān)特點(diǎn)、網(wǎng)頁(yè)文本內(nèi)容兩方面特征描述網(wǎng)頁(yè),然后對(duì)不同特征構(gòu)建相應(yīng)分類器,根據(jù)增量學(xué)習(xí)思想優(yōu)化各分類器,提升算法在線學(xué)習(xí)能力。最后采用分類集成的方法綜合各個(gè)分類器的預(yù)測(cè)結(jié)果,達(dá)到對(duì)釣魚網(wǎng)站在線智能檢測(cè)的目標(biāo)。實(shí)驗(yàn)表明,集成分類具有良好的在線學(xué)習(xí)能力和泛化能力。
增量學(xué)習(xí);釣魚網(wǎng)站;不平衡SVM方法;集成分類
隨著互聯(lián)網(wǎng)的高速發(fā)展,人們消費(fèi)模式的改變,網(wǎng)絡(luò)消費(fèi)成為一種普遍的消費(fèi)方式,但網(wǎng)絡(luò)給人們帶來(lái)生活便利的同時(shí),也帶來(lái)了財(cái)產(chǎn)安全威脅。因此,如何有效保證網(wǎng)絡(luò)安全成為一個(gè)重要的熱點(diǎn)問(wèn)題。釣魚威脅是眾多網(wǎng)絡(luò)安全問(wèn)題比較突出的一個(gè),釣魚網(wǎng)站的智能檢測(cè)已然成為網(wǎng)絡(luò)安全領(lǐng)域最關(guān)注的問(wèn)題之一。釣魚網(wǎng)站是通過(guò)模仿正規(guī)網(wǎng)站的URL地址、網(wǎng)站內(nèi)容等,欺騙用戶瀏覽、注冊(cè)、登錄,釣魚者通過(guò)網(wǎng)站后臺(tái)獲取用戶私人信息,盜取用戶網(wǎng)上賬戶財(cái)產(chǎn),或出售用戶信息獲得非法利益。
針對(duì)釣魚網(wǎng)站帶來(lái)的威脅,互聯(lián)網(wǎng)公司紛紛推出相關(guān)瀏覽器插件,雖然取得了良好效果,但這些插件對(duì)釣魚網(wǎng)站的檢測(cè)效果仍不盡人意。目前關(guān)于防范釣魚網(wǎng)站的研究很多,但以國(guó)外研究為主,針對(duì)的主要是英文網(wǎng)站,且在網(wǎng)站的特征選擇上,以網(wǎng)站URL地址、網(wǎng)站排名等信息作為網(wǎng)站特征進(jìn)行檢測(cè)釣魚網(wǎng)站。而通過(guò)實(shí)驗(yàn),對(duì)收集到的釣魚網(wǎng)站進(jìn)行分析,以URL地址等為特征的釣魚網(wǎng)站只占約10%,而模仿正規(guī)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容是釣魚網(wǎng)站的主要表現(xiàn)形式。因此,以網(wǎng)頁(yè)內(nèi)容為主要特征,結(jié)合URL等特征,可以有效的對(duì)釣魚網(wǎng)站進(jìn)行智能檢測(cè)。
在實(shí)際網(wǎng)絡(luò)構(gòu)成中,正規(guī)網(wǎng)站的數(shù)量往往遠(yuǎn)大于釣魚網(wǎng)站的數(shù)量,因此檢測(cè)數(shù)據(jù)集存在嚴(yán)重的類別不平衡現(xiàn)象,而常用的分類預(yù)測(cè)算法對(duì)不平衡數(shù)據(jù)集的分類結(jié)果存在偏斜性。另一方面,釣魚網(wǎng)站層出不窮,不斷更新,分類預(yù)測(cè)算法利用原來(lái)數(shù)據(jù)集訓(xùn)練好的分類器,面對(duì)新增數(shù)據(jù)集具有一定局限性,需要重新訓(xùn)練,這會(huì)增加模型復(fù)雜程度,及系統(tǒng)計(jì)算時(shí)間?;谝陨系姆治?,本文提出了一種新的檢測(cè)釣魚網(wǎng)站方法,基于URL和網(wǎng)頁(yè)內(nèi)容的綜合特征,采用增量式的不平衡支持向量機(jī)方法,在降低誤判率和漏判率的同時(shí),也降低了檢測(cè)網(wǎng)站的時(shí)間開銷,達(dá)到快速有效的檢測(cè)釣魚網(wǎng)站的目的。通過(guò)對(duì)大量、真實(shí)的數(shù)據(jù)集的實(shí)驗(yàn)表明,新提出的方法分類效果要優(yōu)于傳統(tǒng)分類方法,并具有良好的魯棒性和實(shí)用性。
1.1 釣魚網(wǎng)站特征選取
通過(guò)實(shí)驗(yàn)觀察,釣魚網(wǎng)站主要在以下幾個(gè)方面與正規(guī)網(wǎng)站不同:host長(zhǎng)度,和目標(biāo)網(wǎng)站的編輯距離,服務(wù)器位置,首頁(yè)包含的資源數(shù),網(wǎng)站內(nèi)的連接數(shù),網(wǎng)站深度,文本內(nèi)容等,大部分主要表現(xiàn)在URL上,稱為URL特征,URL特征的分析是檢測(cè)釣魚網(wǎng)站的基礎(chǔ)環(huán)節(jié)。
除了URL特征,網(wǎng)站內(nèi)容是釣魚欺騙信息的主要展示渠道,對(duì)釣魚者意圖具有較強(qiáng)的表達(dá)能力。因此對(duì)于給定的網(wǎng)站,首先檢查網(wǎng)頁(yè)中是否含有文本輸入部分,如果網(wǎng)頁(yè)中至少有一個(gè)文本輸入部分,則對(duì)網(wǎng)頁(yè)進(jìn)行頁(yè)面內(nèi)容特征提取,如果沒(méi)有,就判定這個(gè)網(wǎng)站是可信的,接著提取下一個(gè)網(wǎng)站。通過(guò)已有文獻(xiàn)分析結(jié)合實(shí)驗(yàn)觀察,選取以下特征來(lái)表征頁(yè)面內(nèi)容。
URL相關(guān)特征。包括host長(zhǎng)度、和目標(biāo)網(wǎng)站host的編輯距離、服務(wù)器位置、首頁(yè)包含的資源數(shù)、網(wǎng)站內(nèi)的鏈接數(shù)、網(wǎng)站深度等6個(gè)維度。
網(wǎng)頁(yè)文本內(nèi)容主要通過(guò)TF-IDF算法進(jìn)行詞頻統(tǒng)計(jì),頻次高的作為分類維度。
根據(jù)以上分析,可以選取URL特征、網(wǎng)頁(yè)文本內(nèi)容兩種特征來(lái)描述網(wǎng)站,每種特征可以構(gòu)造基礎(chǔ)分類器,通過(guò)集成分類結(jié)果得到綜合判定結(jié)果。
1.2 釣魚網(wǎng)站檢測(cè)過(guò)程
對(duì)于給定檢測(cè)網(wǎng)站,先提取各部分特征信息,構(gòu)建各個(gè)基礎(chǔ)分類器,綜合各分類結(jié)果得到最終判定結(jié)果,具體檢測(cè)過(guò)程如下。
(1) 對(duì)待檢測(cè)網(wǎng)站提取特征信息。
(2) 對(duì)各部分特征構(gòu)建基礎(chǔ)分類器。
(3) 集成各分類結(jié)果,對(duì)待檢測(cè)網(wǎng)站進(jìn)行判定,得到判定結(jié)果。
2.1 支持向量機(jī)
對(duì)于給定分類問(wèn)題,其訓(xùn)練樣本集為{xi, yi},i=1, 2, 3, … n, {xi}∈R, yi∈{±1}。SVM的目標(biāo)就是構(gòu)造一個(gè)最優(yōu)分類超平面,使得類別間的分類間隔最大。通過(guò)選取適當(dāng)核函數(shù)使k(xi,xj)=φ(xxi) φ(xj),引入松弛變量ε1,ε2,…εn,及懲罰因子C,求解如下規(guī)劃問(wèn)題。
為了求解該優(yōu)化問(wèn)題,建立了拉格朗日函數(shù):
其中αi,βi為拉格朗日乘子。
根據(jù)對(duì)偶原理,轉(zhuǎn)化其對(duì)偶問(wèn)題為
求得超平面法向量為
選取某個(gè)0<αi<C所對(duì)應(yīng)的xi, yi,代入
求得判別函數(shù)為
2.2 增量學(xué)習(xí)
在現(xiàn)實(shí)應(yīng)用中,訓(xùn)練初期對(duì)數(shù)據(jù)理解的局限性和面對(duì)問(wèn)題的復(fù)雜性,很難定義完整的訓(xùn)練集,面對(duì)不斷更新的數(shù)據(jù),也很難收集一個(gè)完整的訓(xùn)練集,因此需要分類器具備學(xué)習(xí)能力,并且在學(xué)習(xí)過(guò)程中保持學(xué)習(xí)精度甚至提高學(xué)習(xí)精度,這是增量學(xué)習(xí)的思想。
在SVM理論中,支持向量SV對(duì)增量學(xué)習(xí)具有十分重要意義,SV集充分描述了整個(gè)訓(xùn)練數(shù)據(jù)集的特征,對(duì)SV集的劃分等價(jià)于對(duì)整個(gè)樣本集的劃分,因此可以用SV集取代整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練。
對(duì)(7)式求得最優(yōu)解α=(α1,α2,…αn)使得每個(gè)樣本滿足優(yōu)化問(wèn)題的KKT條件:
其中非零的αi為SV??紤]函數(shù)系f(x)=h,可知f(x)=0為分類面,f(x)=±1為分類間隔面,則α=0對(duì)應(yīng)的樣本分布在分類器分類間隔面之外,0<α<C對(duì)應(yīng)的樣本位于分類間隔面之上,α=C對(duì)應(yīng)的樣本位于分類間隔面關(guān)于本類的異側(cè)。研究表明,滿足KKT條件的新增樣本將不會(huì)改變SV集,而違背KKT條件的新增樣本將使SV集發(fā)生變化。增量學(xué)習(xí)的目標(biāo)就是在樣本增加過(guò)程中找出能夠使SV集發(fā)生變化的新樣本并加以訓(xùn)練得到新的模型,關(guān)注SV集的變化可以保持訓(xùn)練精度的同時(shí)有效降低訓(xùn)練數(shù)據(jù)的數(shù)量,這是區(qū)別重復(fù)學(xué)習(xí)的主要特點(diǎn)。
根據(jù)以上的分析,增量學(xué)習(xí)算法主要過(guò)程如下。
(1)定義初始訓(xùn)練樣本集合為N,定義增量學(xué)習(xí)過(guò)程中滿足KKT條件的樣本存放集合M,對(duì)于給定的初始樣本集L1,則有N=L1。
(2)以初始樣本集L1訓(xùn)練得到初始分類器H1,以H1檢驗(yàn)增量樣本集W1,其中違背KKT條件的樣本記為M1,符合KKT條件的樣本記為K1,若M1=φ則本輪增量學(xué)習(xí)結(jié)束,否則轉(zhuǎn)到第三步。
(3)令N=N∪M1,M=M∪K1,對(duì)N訓(xùn)練得到增量分類器ZH1。
(4)對(duì)M用ZH1進(jìn)行再次分類得到違背KKT條件的樣本ZM1,若ZM1=φ,則ZH1為最終分類器,否則令N=N∪ZM1,進(jìn)行再次訓(xùn)練得到修正增量分類器XZH1。
在第四步可以不斷迭代直到對(duì)形成的分類器在對(duì)數(shù)據(jù)分類時(shí)不存在違背KKT條件的情況,但不限制迭代次數(shù)會(huì)影響分類效率,因此,可以人為限定一個(gè)閾值,具體可以根據(jù)實(shí)驗(yàn)決定。通過(guò)上述過(guò)程就完成了一次增量學(xué)習(xí)。
2.3 不平衡SVM算法
在釣魚網(wǎng)站檢測(cè)中,正規(guī)網(wǎng)站的數(shù)量遠(yuǎn)遠(yuǎn)大于釣魚網(wǎng)站的數(shù)量,樣本集存在類別不平衡的情況,用標(biāo)準(zhǔn)的SVM方法進(jìn)行分類時(shí)結(jié)果存在偏斜性。對(duì)此提出了不平衡SVM方法,在標(biāo)準(zhǔn)SVM方法中,影響SVM精度的是沿分離超平面的法向量w方向的分散程度,用投影標(biāo)準(zhǔn)差來(lái)表示,在實(shí)際應(yīng)用時(shí),先用標(biāo)準(zhǔn)SVM方法訓(xùn)練得到一個(gè)分離超平面的法向量,計(jì)算各類樣本投影到法向量上的投影值的標(biāo)準(zhǔn)差,根據(jù)各類樣本數(shù)和標(biāo)準(zhǔn)差得到各類懲罰因子,再用標(biāo)準(zhǔn)SVM方法訓(xùn)練得到新的分離超平面。在增量學(xué)習(xí)過(guò)程中,計(jì)算SV集在法向量上的投影值的標(biāo)準(zhǔn)差,進(jìn)而得到懲罰因子。
設(shè)給定有S個(gè)樣本點(diǎn)的訓(xùn)練集s={(xi, yi)},其中xi∈R, y_i∈{+1,-1}, i=1, 2, …n。不平衡SVM模型的形式如下。
為了求解(11)式,建立拉格朗日函數(shù)為
其中,αi,βi,γi為拉格朗日乘子。
轉(zhuǎn)化為求其對(duì)偶規(guī)劃問(wèn)題如第(3)式,其中
0≤αi≤C+,yi=1, i=1, 2, … n+
0≤αi≤C-,yi=1, i=n++1, … n
由此可得αi(i=1, 2, … n),選取位于區(qū)間(0, C)的分量計(jì)算b*得
圖1 實(shí)驗(yàn)框架圖
最后構(gòu)造決策函數(shù)為
2.4 集成分類
集成學(xué)習(xí)是用有限個(gè)學(xué)習(xí)器對(duì)同一個(gè)問(wèn)題進(jìn)行學(xué)習(xí),按照分類器之間的種類關(guān)系可以把集成學(xué)習(xí)分為以下兩種。
(1)同態(tài)集成學(xué)習(xí):指集成的基礎(chǔ)分類器都是同一種分類器,只是這些基礎(chǔ)分類器的參數(shù)不大相同。
(2)異態(tài)集成學(xué)習(xí):指使用各種不同訓(xùn)練算法的分類器進(jìn)行集成。
本文采用的是同態(tài)集成學(xué)習(xí),對(duì)于不同的特征,采用的都是增量學(xué)習(xí)的不平衡SVM方法,通過(guò)對(duì)各個(gè)基礎(chǔ)分類器預(yù)測(cè)結(jié)果的加權(quán)平均取符號(hào)得到最終預(yù)測(cè)結(jié)果,計(jì)算公式如下。
其中T為基礎(chǔ)分類器個(gè)數(shù),αt為對(duì)應(yīng)基礎(chǔ)分類器權(quán)重,ht(xi)為對(duì)用基礎(chǔ)分類器預(yù)測(cè)結(jié)果。
實(shí)驗(yàn)使用數(shù)據(jù)以用戶上網(wǎng)日志數(shù)據(jù)和分布式爬蟲獲得的頁(yè)面數(shù)據(jù)為主,通過(guò)相關(guān)技術(shù)提取了兩個(gè)方面特征描述檢測(cè)網(wǎng)站,利用本文提出的基于增量學(xué)習(xí)的不平衡SVM方法,采用配置的大數(shù)據(jù)檢測(cè)平臺(tái),集成各方面的分類結(jié)果得到實(shí)驗(yàn)最終結(jié)果,實(shí)現(xiàn)可疑網(wǎng)站的釣魚檢測(cè)。
3.1 大數(shù)據(jù)檢測(cè)平臺(tái)
獲取用戶上網(wǎng)日志數(shù)據(jù),結(jié)合爬蟲集群,以海量的頁(yè)面數(shù)據(jù)作為數(shù)據(jù)源;在數(shù)據(jù)存儲(chǔ)上采用經(jīng)典的分布式存儲(chǔ)系統(tǒng)HDFS與NOSQL類分布式數(shù)據(jù)庫(kù)(如MongoDB)相結(jié)合的方式;在計(jì)算層上則采用目前如火如荼的Spark計(jì)算框架,在Spark上實(shí)現(xiàn)關(guān)鍵的釣魚網(wǎng)站甄別算法。具體實(shí)現(xiàn)框架如圖1所示。
3.2 評(píng)估方法
本次實(shí)驗(yàn)利用混淆矩陣(表1)中的數(shù)據(jù)計(jì)算準(zhǔn)確率、覆蓋率等評(píng)估模型,用到的評(píng)估參數(shù)有負(fù)類準(zhǔn)確率(NA)、正類覆蓋率(PA),根據(jù)不平衡數(shù)據(jù)集特點(diǎn),采用G-means值評(píng)價(jià)預(yù)測(cè)結(jié)果。計(jì)算公式如下。
表1 混淆矩陣
其中,TP表示本來(lái)為正類預(yù)測(cè)也為正類的個(gè)數(shù),F(xiàn)P表示本來(lái)為負(fù)類預(yù)測(cè)為正類的個(gè)數(shù),F(xiàn)N表示本來(lái)為正類預(yù)測(cè)為負(fù)類的個(gè)數(shù),TN表示本來(lái)為負(fù)類預(yù)測(cè)為負(fù)類的個(gè)數(shù)。
3.3 實(shí)驗(yàn)結(jié)果分析
本次實(shí)驗(yàn)數(shù)據(jù)共有100 000個(gè)樣本,其中釣魚網(wǎng)站樣本1 000個(gè),根據(jù)前面提出的算法,選定初始樣本集,并進(jìn)行9次增量學(xué)習(xí)實(shí)驗(yàn),為了得到和其它方法的結(jié)果比較,用同一個(gè)樣本集分別使用標(biāo)準(zhǔn)SVM方法和本文提出的基于增量學(xué)習(xí)思想的不平衡SVM方法進(jìn)行檢測(cè),并通過(guò)集成學(xué)習(xí)綜合各基礎(chǔ)分類器的預(yù)測(cè)結(jié)果,得到最終判定標(biāo)準(zhǔn)。每次實(shí)驗(yàn)中遵循訓(xùn)練集和測(cè)試集為3:1的比例,測(cè)試集從總樣本中隨機(jī)抽取得到,并且每次實(shí)驗(yàn)訓(xùn)練集和測(cè)試集中正規(guī)網(wǎng)站和釣魚網(wǎng)站的比例相近,具體實(shí)驗(yàn)結(jié)果如表2所示。
表2 標(biāo)準(zhǔn)SVM方法和增量不平衡SVM方法增量學(xué)習(xí)過(guò)程預(yù)測(cè)結(jié)果
在圖2中,1表示標(biāo)準(zhǔn)SVM方法,2表示不平衡SVM方法,通過(guò)圖2(a)知道,標(biāo)準(zhǔn)SVM方法具有較高的漏判率,較低誤判率,不平衡SVM方法具有較低漏判率,較高的誤判率。在增量學(xué)習(xí)過(guò)程中,不平衡SVM方法具有較低的漏判率,盡可能多的檢測(cè)出要檢測(cè)的目標(biāo),雖然起始誤判率較高,但在后續(xù)分類器學(xué)習(xí)過(guò)程中,誤判率呈下降趨勢(shì),而且誤判的負(fù)類部分可以通過(guò)人工檢測(cè)剔除,誤判的正類部分可不斷加入后續(xù)的學(xué)習(xí)過(guò)程繼續(xù)檢測(cè)。因此,增量式不平衡SVM方法相較于傳統(tǒng)SVM方法對(duì)不平衡數(shù)據(jù)集具有更好的分類效果。
圖2 不平衡SVM方法和標(biāo)準(zhǔn)SVM方法誤漏判率(a)和準(zhǔn)確率(b)比較
通過(guò)圖2(b)可以看出,增量不平衡SVM方法整體預(yù)測(cè)精度要好于標(biāo)準(zhǔn)SVM方法,雖然開始有所下降,但隨著樣本量增加,標(biāo)準(zhǔn)SVM方法預(yù)測(cè)準(zhǔn)確率維持在92%~93%之間并有少許波動(dòng),波動(dòng)的原因可能是隨著增加新的數(shù)據(jù)集,模型重新訓(xùn)練造成分類器改變較大,因此分類準(zhǔn)確率不穩(wěn)定;而不平衡SVM方法準(zhǔn)確率在97%以上,且隨著增量學(xué)習(xí)過(guò)程,準(zhǔn)確率穩(wěn)定并有少量提高,這是在學(xué)習(xí)過(guò)程中,分類器不斷得到了修正,所以具有更好的分類效果??傊?,增量式的不平衡SVM方法為不平衡數(shù)據(jù)集提供了一條在線學(xué)習(xí)的有效途徑。
本文提出了一種有效的釣魚網(wǎng)站檢測(cè)方法,根據(jù)數(shù)據(jù)集特點(diǎn),提取了兩方面網(wǎng)頁(yè)的特征,基于增量學(xué)習(xí)思想,采用不平衡SVM方法構(gòu)建各基礎(chǔ)分類器,通過(guò)集成學(xué)習(xí)綜合各基礎(chǔ)分類器的預(yù)測(cè)結(jié)果,得到最終分類。通過(guò)實(shí)驗(yàn)結(jié)果分析,說(shuō)明增量不平衡SVM方法在準(zhǔn)確度上略好于標(biāo)準(zhǔn)SVM方法,訓(xùn)練速度上有較大提升,并具備在線學(xué)習(xí)能力,是一種有效的釣魚網(wǎng)站在線智能檢測(cè)技術(shù)。
[1]JCranor L F, Egelman S, Hong J I, et al. Phinding phish: Evaluating anti-phishing tools[C]. Proceedings of the 14th Annual Network and Distributed System Security Symposium (NDSS'07), USA:ACM New York 2007:88-99.
[2]Pan Y, Ding X H. Anomaly based web phishing page detection[C].Computer Security Applications Conference,Miami: ACSAC 2006 22nd Annual, 2006: 381-392.
[3]Sanglerdsinlapachai N, Rungsawang A. Using domain top-page similarity feature in machine learning-based web phishing detection[C]. 2010 Third International Conference on Knowledge Discovery and Data Mining,Phuket:CPS,2010: 187-190.
[4]Kim Y G, Cho S Y, Lee J S, et al. Method for evaluating the security risk of a website against phishing attacks[J]. Lecture Notes in Computer Science, 2010(5075):21-31.
[5]Santhana L V,Vijaya M S. Efficient prediction of phishing websites using supervised learning algorithms[J]. Procedia Engineering, 2012(30):798-805.
[6]He Mingxing, Homg Shi-Jinn. An efficient phishing webpage detector[J].Expert Systems with Applications,2011(38):12018-12027.
[7]周偉達(dá),張莉,焦李成. 支撐矢量機(jī)推廣能力分析[J]. 電子學(xué)報(bào),2001,29(5):590-594.
[8]肖嶸, 王繼成, 孫正興, 等. 一種SVM增量學(xué)習(xí)算法α-ISVM [J].軟件學(xué)報(bào), 2001,12(12)pp.1818-1824.
[9]劉萬(wàn)里, 劉三陽(yáng), 薛貞霞. 不平衡支持向量機(jī)的平衡方法[J].模式識(shí)別與人工智能, 2008(4):136-141.
Detection method of phishing website based on imbalance SVM-incremental learning of massive data
YE Zhi-xiong, WANG Dan-hong
(China Mobile Group Guangdong Co., Ltd., Guangzhou 510625, China)
For each year, phishing website in electronic commerce, communications, banking and other areas to give users a great loss, so successfully and effectively prevent phishing website become a diffi cult task. In this paper, through the analysis of the actual data, extracts 2 kinds of characteristics such as the characteristics of URL, webpage text content to describe the page, classifiers are then built based on these different feature representations, and optimized based on the theory of incremental learning, the online learning ability of the algorithm is improved. Finally, the classifi cation ensemble method is used to synthesize the prediction results of each classifi er, which can achieve the goal of online intelligent detection for phishing website. According to the experimental results, the ensemble classifi cation has good online learning ability and generalization ability.
incremental learning; phishing website; imbalance SVM method; ensemble classifi cation
TN918
A
1008-5599(2016)12-0026-06
2016-11-24