郭延鋒,孫 娜
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州121001)
傳統(tǒng)網(wǎng)絡(luò)管理往往是針對網(wǎng)絡(luò)進(jìn)行操作、監(jiān)督、維護(hù)和提供網(wǎng)絡(luò)操作系統(tǒng)以及相關(guān)軟件[1]。這些年,隨著網(wǎng)絡(luò)信息化迅猛發(fā)展,網(wǎng)絡(luò)用戶數(shù)量呈現(xiàn)指數(shù)級增長,這也使得如何更好、更高效地管理網(wǎng)絡(luò)成為網(wǎng)絡(luò)管理的難點(diǎn)和國內(nèi)外學(xué)者研究熱點(diǎn)。在現(xiàn)有的網(wǎng)絡(luò)管理機(jī)制中,網(wǎng)絡(luò)管理員起到了舉足輕重的作用,但是面對成千上萬網(wǎng)絡(luò)用戶時,管理員往往表現(xiàn)出力不從心,因?yàn)樗麄儾粌H僅要維護(hù)網(wǎng)絡(luò)系統(tǒng)的穩(wěn)定,還要應(yīng)對各種網(wǎng)絡(luò)病毒和攻擊。
個人信用管理模型最早產(chǎn)生在美國,伴隨著世界金融的發(fā)展,目前已在金融領(lǐng)域廣泛使用,例如保險業(yè),銀行業(yè)等。金融機(jī)構(gòu)通過分析客戶在一定時間內(nèi)的消費(fèi)行為,對客戶進(jìn)行個人信用評估,最終建立個人信用評估系統(tǒng),并利用其用戶進(jìn)行管理和分類,為金融決策提供支持。隨著信用評估技術(shù)的發(fā)展,目前已經(jīng)產(chǎn)生了很多信用分析和管理的方法,例如,線性概率方法,人工神經(jīng)網(wǎng)絡(luò) (artificial neural networks,ANN)和數(shù)學(xué)規(guī)劃方法等[2-4]。其中最為流行和被行業(yè)認(rèn)可的是人工神經(jīng)網(wǎng)技術(shù),由于其高準(zhǔn)確率和穩(wěn)定性被廣泛使用[5-10]。支持向量機(jī) (support vector machine,SVM)是人工神經(jīng)網(wǎng)絡(luò)技術(shù)之一,它繼承了人工神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)并結(jié)合有監(jiān)督學(xué)習(xí)方法,對分類和預(yù)測問題效果明顯[11],目前多用于解決各類實(shí)際問題,例如模式匹配,生物醫(yī)學(xué)等。
本文提出一種新的網(wǎng)絡(luò)用戶行為管理方法。該方法利用信用模型并結(jié)合網(wǎng)絡(luò)用戶行為,對用戶進(jìn)行信用評估,并給出相應(yīng)的信用值,通過對信用值排序和分析,對網(wǎng)絡(luò)用戶進(jìn)行管理,這樣大大減輕了網(wǎng)絡(luò)管理員的工作強(qiáng)度,提高網(wǎng)絡(luò)運(yùn)行的穩(wěn)定性。實(shí)驗(yàn)結(jié)果證明了基于信用的管理用戶模型的可行性和有效性。
服務(wù)器中的網(wǎng)絡(luò)日志可以看成一種高維時間序列,其中記錄著網(wǎng)絡(luò)中用戶的任何網(wǎng)絡(luò)行為,并且隨著時間而更新,考慮到日志中各個屬性之間的關(guān)系復(fù)雜性和數(shù)據(jù)的海量性。傳統(tǒng)方法,尤其是基于數(shù)學(xué)統(tǒng)計和概率的,因其自身的不可學(xué)習(xí)性和自身調(diào)節(jié)不靈活,往往顯得力不從心。
1998年Vapnik等人首次提出支持向量機(jī)模型,該模型本身是一種基于空間風(fēng)險和時間風(fēng)險最小化原則的機(jī)器學(xué)習(xí)算法,通過多年發(fā)展,其泛化能力和魯棒性大大增強(qiáng),并且在不同領(lǐng)域使用反饋來看表現(xiàn)優(yōu)異[12]。支持向量機(jī)模型的基本思想是基于Mercer定理,通過非線性變換函數(shù)將輸入向量從低維空間映射到高維空間中,并根據(jù)結(jié)構(gòu)風(fēng)險最小化原則構(gòu)造最優(yōu)線性回歸函數(shù),即最優(yōu)分類超平面。最優(yōu)分類超平面必須滿足能夠盡可能多的將兩類數(shù)據(jù)點(diǎn)正確分開,同時使分開的兩類數(shù)據(jù)點(diǎn)距離分類超平面最遠(yuǎn)[13]。
假設(shè)給定訓(xùn)練樣 本:(x1,y1),(x2,y2),...,(xn,yn),其中xi∈Rn是樣本輸入向量值,yi∈R是樣本輸出 (即類別標(biāo)簽),支持向量機(jī)模型的決策函數(shù)可以表示為
式中:w——權(quán)值向量,b——函數(shù)偏置常量。
由于最優(yōu)超平面必須滿足向量到超平面距離最大的原則,因此支持向量模型在高維空間求最優(yōu)分類超平面問題可以表示為
式中:‖w2‖——結(jié)構(gòu)風(fēng)險,代表模型的復(fù)雜程度,使函數(shù)變化曲線更為平緩,提高魯棒性能力;——經(jīng)驗(yàn)風(fēng)險,代表模型的錯誤分類;C——懲罰系數(shù),ξi——松弛系數(shù)。
其對偶問題采用拉格朗日方法進(jìn)行求解,式 (2)變?yōu)?/p>
當(dāng)樣本點(diǎn)無法被線性可分時,SVM模型將原始樣本集通過一個非線性映射函數(shù)φ(x),映射到高維特征空間中,在此空間中進(jìn)行線性分類。在高維空間中使用核函數(shù)進(jìn)行內(nèi)積運(yùn)算,核函數(shù)表示為K(xi,xj)=φ(xi)·φ(xj),因此高維空間的計算只需在原低維空間進(jìn)行核函數(shù)運(yùn)算即可,則式 (3)修改為
得到最優(yōu)解α*=(α*1,α*2,...,α*n)T。
選取的α*一個小于C的正分量α*j,計算
則SVM分類決定函數(shù)表示為
常用的SVM核函數(shù)包括,線性核函數(shù)、多項(xiàng)式核函數(shù)、Sigmoid核函數(shù)和高斯徑向基核函數(shù) (RBF)[14-16]。
利用個人信用進(jìn)行決策和分析,目前在金融領(lǐng)域已廣為應(yīng)用,產(chǎn)生了很多方法和工具。尤其是2008年美國經(jīng)濟(jì)危機(jī)爆發(fā)以后,如何更好的利用信用機(jī)制去管理客戶和為金融決策服務(wù)成為新的研究熱點(diǎn)。本文首次在網(wǎng)絡(luò)用戶管理中引入個人信用管理機(jī)制,在傳統(tǒng)網(wǎng)絡(luò)管理方式的基礎(chǔ)上有所突破,為網(wǎng)絡(luò)管理提供了一個新的思路。方法整體流程如圖1所示,主要包括3個部分,首先是使用網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練集對支持向量機(jī)模型進(jìn)行訓(xùn)練;其次是優(yōu)化支持向量機(jī)模型內(nèi)部參數(shù)以提高分類準(zhǔn)確率;最后是根據(jù)模型的分類結(jié)果對網(wǎng)絡(luò)中用戶進(jìn)行信用評估。
圖1 信用模型整體流程
個人信用網(wǎng)絡(luò)管理具體步驟如下:
(1)使用公開的網(wǎng)絡(luò)數(shù)據(jù):在本文中,為了保證算法的有效性和可重復(fù)性,我們使用公開的網(wǎng)絡(luò)數(shù)據(jù)KDD CUP 99作為基本數(shù)據(jù),此數(shù)據(jù)集包含了豐富的網(wǎng)絡(luò)用戶行為信息,并且數(shù)據(jù)是平衡的 (正常的數(shù)據(jù)數(shù)量和異常的基本相等)有利于此后對模型訓(xùn)練和分析。
(2)訓(xùn)練支持向量機(jī)模型:為了保證網(wǎng)絡(luò)數(shù)據(jù)各維度之間關(guān)系的完整性,盡可能的減少數(shù)據(jù)損失,本文中我們沒有對數(shù)據(jù)進(jìn)行歸一化和降維處理,而是直接使用原始數(shù)據(jù),通過隨機(jī)抽取的方式產(chǎn)生出訓(xùn)練集和測試集。而支持向量機(jī)模型,我們使用比較流行的LIBSVM作為實(shí)驗(yàn)工具。通過使用不同核函數(shù),我們構(gòu)成了3種不同的支持向量機(jī)模型。在訓(xùn)練的過程中,將數(shù)據(jù)直接輸入到模型中,并進(jìn)行訓(xùn)練,建立一個粗糙的模型,并比較這3種不同內(nèi)核SVM模型的分類準(zhǔn)確率高低。
(3)參數(shù)優(yōu)化和構(gòu)建信用模型:由于SVM自身的特點(diǎn),因此對SVM模型參數(shù)進(jìn)行尋優(yōu)是十分重要和必要的步驟。在本文中我們使用的SVM模型屬于C-SVM類型,因此更有必要對其優(yōu)化。試驗(yàn)中使用網(wǎng)格優(yōu)化 (grid search)算法對參數(shù) (C和g)尋優(yōu)以提高模型的分類準(zhǔn)確率。
(4)用戶信用值計算:支持向量機(jī)模型建立并進(jìn)行優(yōu)化后,將測試集輸入到SVM模型中,通過計算將網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)測分類,分為正常 (+1)和異常 (-1)兩類,而后使用數(shù)據(jù)向量到超平面的距離作為信用度量,進(jìn)行信用評估。
(5)利用信用進(jìn)行網(wǎng)絡(luò)管理:使用步驟 (4)提供的信用評估結(jié)果進(jìn)行匯總分析,進(jìn)而對網(wǎng)絡(luò)用戶進(jìn)行管理。針對低信用值用戶加強(qiáng)管理,甚至采取斷網(wǎng)等極端措施,而對信用度好的網(wǎng)絡(luò)用戶則減少管理或不需要管理。
使用信用機(jī)制作為管理手段,主要是從心理學(xué)角度上來控制和規(guī)范網(wǎng)絡(luò)用戶的行為,并且在將來可以引入類似于足球升降級制度,對網(wǎng)絡(luò)用戶信用值進(jìn)行動態(tài)調(diào)整。
本實(shí)驗(yàn)使用KDD CUP 99數(shù)據(jù)集作為原始數(shù)據(jù)集,此數(shù)據(jù)集是完全公開的,可從UCI數(shù)據(jù)庫中獲得 (http://archive.ics.uci.edu/ml/datasets/KDD+Cup+1999+Data),此數(shù)據(jù)集包含494021條記錄,每條記錄42維。試驗(yàn)中我們將數(shù)據(jù)分為兩類,一類是正常網(wǎng)絡(luò)連接,另一類是異常連接,例如網(wǎng)絡(luò)攻擊等,分別用+1和-1表示。為了方便運(yùn)算,本試驗(yàn)中,我們從原始數(shù)據(jù)中分別隨機(jī)抽出20000條記錄作為訓(xùn)練集和2000條數(shù)據(jù)作為測試集。
由于SVM模型核函數(shù)對實(shí)驗(yàn)結(jié)果的重要性,因此我們首先使用不同的核函數(shù)進(jìn)行比較試驗(yàn),以便從中挑選出最合適核函數(shù),為模型所用。試驗(yàn)結(jié)果如表1所示。
表1 不同核函數(shù)比較
從表1中我們可以看到,在沒有對支持向量機(jī)模型參數(shù)優(yōu)化的前提下,這4個核函數(shù)中RBF核函數(shù)準(zhǔn)確率最高,達(dá)到了90.2%,Sigmoid核函數(shù)準(zhǔn)確率最低僅77.6%,而Line核函數(shù)與Polynomial核函數(shù)準(zhǔn)確率幾乎一樣,因此通過比較我們選擇RBF作為信用模型的核函數(shù),為下一步做準(zhǔn)備。
除了核函數(shù)外,影響SVM模型分類準(zhǔn)確率另一個因素是模型內(nèi)部的變量,因此為了進(jìn)一步提高模型分類準(zhǔn)確率我們還應(yīng)該對模型參數(shù)進(jìn)行尋優(yōu)操作。
本次試驗(yàn)中為方便計算,我們使用網(wǎng)格尋優(yōu)算法對模型中懲罰系數(shù)C和RBF核函數(shù)參數(shù)g進(jìn)行尋優(yōu),具體來說使用交叉驗(yàn)證 (cross validation)[13]方法對進(jìn)行兩次尋優(yōu)。第一次為粗尋優(yōu),C和g的變化范圍都是2-10,2-9,…,29,210,搜索結(jié)果如圖2所示,其中x和y軸分別表示C和g取以2為底的對數(shù)后的值,等高線表示取相應(yīng)的C和g所得到的準(zhǔn)確率,從圖2中可看到把C縮小到2-2到24,同時g的范圍可以縮小到2-4到24,這樣在粗選參數(shù)的基礎(chǔ)上可以進(jìn)行二次尋優(yōu)。在第二次尋優(yōu)中我們限定C的變化 范 圍 為 2-2,2-1.5, …,24,g的 取 值 范 圍 為 2-4,2-3.5,…,24,最終尋優(yōu)結(jié)果如圖3所示。
通過兩次尋優(yōu)操作對SVM模型進(jìn)行優(yōu)化,可以更為精準(zhǔn)的獲得參數(shù)C和g的最優(yōu)值,從而保證信用模型的準(zhǔn)確性和可靠性。
由于網(wǎng)絡(luò)數(shù)據(jù)是實(shí)時的、海量的,因此為了鎖定網(wǎng)絡(luò)用戶身份,在具體實(shí)踐中,我們使用IP地址和MAC地址捆綁方式來識別用戶,作為用戶的身份標(biāo)識,并且在實(shí)際應(yīng)用中發(fā)現(xiàn),使用支持向量機(jī)模型分類后,距離超平面距離較遠(yuǎn)的數(shù)據(jù),往往是比較穩(wěn)定的,即非常好或非常壞的。因此我們可以通過計算數(shù)據(jù)向量點(diǎn)到超平面的距離作為信用度量標(biāo)準(zhǔn),對同一用戶在一定時間內(nèi)的信用均值作為其信用值。從整體角度,按照信用值進(jìn)行排序,從中選擇信用最差的用戶 (例如選100個)加強(qiáng)跟蹤和管理,而對于信用好的用戶則減少或不進(jìn)行管理,這樣做將大大減輕網(wǎng)絡(luò)管理員的工作負(fù)擔(dān)。信用排序如圖4所示。右下角表示信用差的用戶分布,從圖4可以看出,大部分用戶信用都可以,只有小部分用戶信用值低,對網(wǎng)絡(luò)產(chǎn)生危害。
圖4 網(wǎng)絡(luò)用戶信用值分布
除了引入信用機(jī)制外,我們還引入升降級制度,在一定時間內(nèi)對網(wǎng)絡(luò)用戶信用值進(jìn)行動態(tài)調(diào)整,信用不好的用戶若 “改過自新”,則可以成為信用度好的,同理信用好的用戶也有可能變成差的,這樣提高了網(wǎng)絡(luò)用戶管理的彈性和可靠性。
鑒于網(wǎng)絡(luò)管理的重要性和必要性,本文提出了一種新的網(wǎng)絡(luò)管理方法——基于個人信用機(jī)制的網(wǎng)絡(luò)管理方法。盡管目前,個人信用評估機(jī)制已經(jīng)廣泛應(yīng)用于金融領(lǐng)域,并取得了很好的效果,而在網(wǎng)絡(luò)管理中目前還沒有相關(guān)研究。本文通過實(shí)驗(yàn)分析表明,基于個人信用的網(wǎng)絡(luò)管理方法可以在一定程度上減輕網(wǎng)絡(luò)管理員的工作壓力,提高網(wǎng)絡(luò)整體的穩(wěn)定性,并且由于針對網(wǎng)絡(luò)用戶行為控制,從根源上提高了網(wǎng)絡(luò)的穩(wěn)定性,也為未來網(wǎng)絡(luò)管理發(fā)展提供了一個新的思路和發(fā)展方向。
[1]WANG J L,MING C D,John C S L.Credit-based network management[C].International Conference on Communication Systems and Networks and Workshops,2009:473-482.
[2]LING G.Insurance credit evaluation incorporated qualitative and quantitative information [C].2nd International Symposium on Computational Intelligence and Design,2009:68-72.
[3]Gutierrez P A,Hervas-Martinez C,Martinez-Estudillo F J.Logistic regression by means of evolutionary radial basis function neural networks[J].IEEE Transactions on Neural Networks,2010,22(2):246-263.
[4]MIN J H,LEE Y C.A practical approach to credit scoring[J].Expery System with Applications,2008,25 (2):1762-1770.
[5]PING Y.Hybrid classifier using neighborhood rough set and SVM for credit scoring [C].International Conference on Business Intelligence and Financial Engineering,2009:138-142.
[6]WU C,XIA H.Study of personal credit evaluation under C2C environment based on support vector machines ensemble [C].International Conference on Management Science and Engineering 15th Annual Conference,2008:25-31.
[7]ZHANG D,HIFI M,CHEN Q,et al.A hybrid credit scoring model based on genetic programming and support vector machines[C].4th International Conference on Natural Computation,2008:8-12.
[8]YU L,YUE W,WANG S,et al.Support vector machine based multiagent ensemble learning for credit risk evaluation[J].Expert Systems with Applications,2010,37 (4):1351-1360.
[9]KIM H S,SOHN S Y.Support vector machines for default prediction of SMEs based on technology credit [J].European Journal of Operational Research,2010,201 (3):838-846.
[10]Hsieh N C,Hung L P.A data driven ensemble classifier for credit scoring analysis [J].Expert Systems with Applications,2010,37 (1):534-545.
[11]WANG N,NIU D X.Credit card customer churn prediction based on the RST and LS-SVM [C].Xiamen:6th International Conference on Service Systems and Service Management,2009:275-279.
[12]LUO S T,CHEN B W,HSIEH C H.Prediction model building with clustering-launched classification and support vector machines in credit scoring [J].Expert System with Application,2009,36 (4):7562-7566.
[13]HUANG C L,WANG C J.A GA-based feature selection and parameters optimization for support vector machines [J].Expert Systems with Applications,2006,30 (2):231-240.
[14]CHOU P H,WU M J,Chen K K.Integrating support vector machine and genetic algorithm to implement dynamic wafer quality prediction system [J].Expert Systems with Applications,2010,37 (6):4413-4424.
[15]HUANG C C,CHUNG R G,CHEN R C,et al.Finding an optimal combination of key training items using genetic algorithms and support vector machines [J].Information Technology Journal,2010,9 (4):652-658.
[16]GUO L,XIAO H T,F(xiàn)U Q.SVM model optimal multi-parameter selection method for imbalanced data target recognition[J].Journal of Infrared and Millimeter Waves,2009,28(2):141-145.