周勝利,徐嘯煬
研究與開發(fā)
基于網(wǎng)絡(luò)流量的用戶網(wǎng)絡(luò)行為被害性分析模型
周勝利,徐嘯煬
(浙江警察學(xué)院,浙江 杭州 310051)
網(wǎng)絡(luò)行為被害性分析對于電信網(wǎng)絡(luò)詐騙犯罪的防控具有深遠(yuǎn)意義。通過研究用戶與網(wǎng)站交互產(chǎn)生的網(wǎng)絡(luò)流量,提出一種基于網(wǎng)絡(luò)流量分析的電信網(wǎng)絡(luò)詐騙犯罪用戶網(wǎng)絡(luò)行為被害性識別模型,分析不同網(wǎng)絡(luò)行為特征之間的關(guān)聯(lián)規(guī)則,重構(gòu)網(wǎng)絡(luò)行為序列特征,同時結(jié)合隨機森林算法評估網(wǎng)絡(luò)行為的被害性。在被害人網(wǎng)絡(luò)行為數(shù)據(jù)集基礎(chǔ)上進行實驗,證明模型能夠有效提升網(wǎng)絡(luò)行為被害性識別準(zhǔn)確率。
網(wǎng)絡(luò)流量;網(wǎng)絡(luò)行為編碼;關(guān)聯(lián)規(guī)則挖掘;被害性分析
隨著電信網(wǎng)絡(luò)技術(shù)和互聯(lián)網(wǎng)金融業(yè)務(wù)的快速發(fā)展,電信網(wǎng)絡(luò)詐騙正逐步取代傳統(tǒng)詐騙犯罪,成為當(dāng)前犯罪的主要形式,嚴(yán)重威脅人民生命財產(chǎn)安全。公安部統(tǒng)計數(shù)據(jù)顯示,全國電信網(wǎng)絡(luò)詐騙犯罪從2011年的84 514起飆升至2019年的808 730起;受騙金額從2011年的100億元飆升至2019年的192億元。盡管當(dāng)前國家采取了形式多樣的預(yù)警和防控措施,取得了一定成效,但仍舊缺乏精準(zhǔn)、高效的智能監(jiān)測預(yù)警方法,打擊防范犯罪形勢依然非常嚴(yán)峻。開展基于網(wǎng)絡(luò)行為流量分析的電信網(wǎng)絡(luò)詐騙犯罪被害性識別技術(shù)研究能夠有效提高犯罪預(yù)警的精準(zhǔn)性和效率,從而更好地保護人民生命財產(chǎn)安全。
針對電信網(wǎng)絡(luò)詐騙犯罪防控研究中網(wǎng)絡(luò)行為特征選取表面化、特征間內(nèi)在規(guī)則挖掘不足、網(wǎng)絡(luò)行為稀疏、行為序列間關(guān)系難以確定等問題,本文提出基于網(wǎng)絡(luò)行為流量分析的電信網(wǎng)絡(luò)詐騙犯罪被害性識別模型(victimization identification model of telecom fraud crime based on network behavior traffic,VIM-TFCN),分析用戶行為特征,挖掘潛在關(guān)聯(lián)規(guī)則,綜合評估用戶被害風(fēng)險,達到電信網(wǎng)絡(luò)詐騙犯罪高效預(yù)警的目的。
國內(nèi)外與本文相關(guān)的研究主要集中在電信網(wǎng)絡(luò)詐騙犯罪識別與防控、網(wǎng)絡(luò)流量分析、網(wǎng)絡(luò)行為分析。
電信網(wǎng)絡(luò)詐騙犯罪研究領(lǐng)域,國內(nèi)外學(xué)者主要利用數(shù)據(jù)挖掘、自然語言處理等方法進行電信網(wǎng)絡(luò)詐騙犯罪特征態(tài)勢[1]、異常通信分析模型[2-3]、語音識別模型[4]等方面研究以及采用網(wǎng)頁相似度分析[5]、基于網(wǎng)頁關(guān)系檢測與網(wǎng)站鏈接評估的檢測方法[6]、惡意域名檢測方法[7-8]與BERT遷移學(xué)習(xí)方法[9]進行電信網(wǎng)絡(luò)詐騙平臺識別預(yù)警研究。以上方法主要針對電信網(wǎng)絡(luò)詐騙犯罪平臺或者詐騙通信進行識別,缺少對電信網(wǎng)絡(luò)詐騙犯罪被害人網(wǎng)絡(luò)行為分析預(yù)測,且在具體研究方法上存在特征冗余程度較高、識別維度單一等問題。電信網(wǎng)絡(luò)詐騙防控實戰(zhàn)應(yīng)用領(lǐng)域,Endgame公司開發(fā)網(wǎng)絡(luò)平臺實時分析可疑網(wǎng)絡(luò)活動,為電信網(wǎng)絡(luò)詐騙案件偵破助力。360公司在“通用算法引擎”與“定制化算法引擎”機制構(gòu)建上取得重大進展,開發(fā)智控?商業(yè)反欺詐平臺實現(xiàn)黑/灰產(chǎn)業(yè)鏈的動態(tài)監(jiān)視。阿里巴巴公司為移動保障安全,開發(fā)安全錢盾反詐平臺。
對于異常流量檢測研究,Zolotukhin等[10]以流量日志分析為基礎(chǔ),提出了一種對攻擊Web應(yīng)用行為的異常檢測方法。Yu等[11]、Yang等[12]等采用自然語言識別的方法,通過建立相關(guān)詞庫進行分詞預(yù)處理,最終以神經(jīng)網(wǎng)絡(luò)模型進行異常檢測。Park等[13]提出了基于二值圖變換的卷積自動編碼器,對流量數(shù)據(jù)分組進行異常檢測。在提取流量的有效數(shù)據(jù)上,Arzhakov等[14]提出使用蜜罐技術(shù)收集用戶行為統(tǒng)計信息,并基于統(tǒng)計結(jié)果來區(qū)分不同種類的流量。Thang等[15]建立了基于密度的噪聲應(yīng)用空間聚類模型來提取流量中的有效數(shù)據(jù)。在混合模型方面,Zhang等[16-17]提出采用隱馬爾可夫模型、概率分布模型、支持向量機等模型對HTTP請求進行異常檢測。
當(dāng)前對網(wǎng)絡(luò)行為分析的研究主要包括網(wǎng)絡(luò)行為異常行為檢測和推薦系統(tǒng)研究。
異常行為檢測方面,連一峰等[18]采用關(guān)聯(lián)分析與序列挖掘技術(shù),通過比較用戶當(dāng)前行為模式與歷史行為模式的相似度判斷異常。該方法能夠?qū)崿F(xiàn)對用戶異常行為的檢測,但缺少應(yīng)對大規(guī)模數(shù)據(jù)的能力。田新廣等[19]針對上述模型的不足,改進了用戶行為模式的表示方式,聯(lián)合采用多個判決門限對用戶行為進行判斷,并提出IDS異常檢測模型。該模型具備更高的檢測效能,但存在應(yīng)用范圍有限和檢測邊界模糊的問題。陳勝等[20]為了解決傳統(tǒng)異常行為檢測方法難以應(yīng)對海量數(shù)據(jù),無法及時響應(yīng)新行為的問題,提出了一種基于深度神經(jīng)網(wǎng)絡(luò),并能夠自定義用戶行為的檢測模型。該模型擁有海量數(shù)據(jù)檢測能力,能夠檢測未知的異常行為,具有較高精確度與魯棒性。胡富增等[21]探究用戶行為特征及行為模式,采用聚類分析算法,對用戶日志數(shù)據(jù)進行數(shù)據(jù)挖掘與聚類分析,最終實現(xiàn)行為模型的建立。該方法具有簡便的特點,但不足之處在于識別成功率偏低,準(zhǔn)確率不足。
推薦系統(tǒng)研究方面,Wang等[22]通過比較其他傳統(tǒng)的推薦系統(tǒng)(recommender system,RS),提出了一種基于會話的推薦系統(tǒng)(session-based recommender system,SBRS)模型分析用戶行為,并在此基礎(chǔ)上引入了等級分層框架,分析討論了推薦模型在用戶行為分析上的優(yōu)點與不足。Tang等[23]建立了一種卷積嵌入的Top-序列推薦模型,采用卷積濾波器進行分析,具有較理想的效果。Sun等[24]同樣使用卷積神經(jīng)網(wǎng)絡(luò)進行建模,提出一種雙向編碼的序列推薦模型。該模型對用戶行為采用雙向自注意機制,解決了當(dāng)下推薦模型中普遍存在的用戶動態(tài)取向及歷史行為問題。Hidasi等[25]采用了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,通過調(diào)整等級損失函數(shù)來解決特定問題,因此獲得了優(yōu)秀的效果。Kang等[26]分析了常用的兩種用于順序動態(tài)捕獲的方法:馬爾可夫鏈和循環(huán)神經(jīng)網(wǎng)絡(luò)。為兼顧前者簡約的優(yōu)勢和后者在高密度數(shù)據(jù)集中表現(xiàn)優(yōu)秀的特性,提出一種基于自我注意的順序模型。該模型能夠捕獲長期語義,同時使用關(guān)注機制來進行短期預(yù)測。
綜上所述,當(dāng)前對于網(wǎng)絡(luò)行為分析的研究主要應(yīng)用于推薦系統(tǒng)并服務(wù)于移動式應(yīng)用中,在電信網(wǎng)絡(luò)詐騙犯罪防控領(lǐng)域應(yīng)用較少。在網(wǎng)絡(luò)行為分析的具體技術(shù)上,當(dāng)前網(wǎng)絡(luò)行為編碼技術(shù)主要以挖掘網(wǎng)絡(luò)流量的表面特征為主,存在特征冗余大且選取困難的問題;對用戶行為傾向性的分析大多只考慮單次網(wǎng)絡(luò)行為,缺少對內(nèi)部特征的挖掘。因此,針對網(wǎng)絡(luò)行為分析中特征間關(guān)系難以確定、特征選取困難、行為稀疏且行為間關(guān)系不確定、行為無法表達真實意圖等問題,本文提出了VIM-TFCN模型。模型主要貢獻:用隨機森林算法結(jié)合行為特征關(guān)聯(lián),解決行為稀疏、關(guān)系不明確與某些行為無法表達真實意圖的問題,達到精確地預(yù)測網(wǎng)絡(luò)行為序列的被害性的目的。
定義1 (隱性行為特征)包括從網(wǎng)絡(luò)流量的交互情況、數(shù)據(jù)量、時間3個角度提取的特征,用feat表示,feat∈Feature。
定義2 (顯性行為特征)指用戶在進行單擊、評論、注冊、登錄、交易等的行為特征序列,用act表示,act∈Feature。
定義3 (網(wǎng)絡(luò)行為編碼)將每一條用戶行為的特征序列進行行為編碼,其中feat采用means算法進行離散化,不考慮連續(xù)數(shù)值的意義;act則通過預(yù)先設(shè)立的字典,使用label_binarize二值化編碼。重構(gòu)特征序列Feature并表示為action,action∈Action。以此得出行為矩陣Action。
定義4 (顯隱性行為特征間的關(guān)聯(lián)規(guī)則(rule))通過挖掘特征序列發(fā)現(xiàn),當(dāng)顯隱性行為呈現(xiàn)出特定的組合后,該行為序列的被害性會大大增加。這種特定的組合關(guān)系被稱作顯隱性行為的關(guān)聯(lián)規(guī)則。
定義5 (關(guān)聯(lián)規(guī)則特征序列)通過挖掘已知的被害行為序列顯隱性行為,得到關(guān)聯(lián)規(guī)則列表。被害與非被害行為序列全部使用關(guān)聯(lián)規(guī)則列表進行重構(gòu),將重構(gòu)后的特征序列稱為關(guān)聯(lián)規(guī)則特征序列。
問題定義 給定用戶與服務(wù)器之間交互時所提取的行為特征矩陣,判斷用戶行為特征序列是否具有被害性。
VIM-TFCN模型主要包括兩個部分:網(wǎng)絡(luò)行為特征挖掘、電信網(wǎng)絡(luò)詐騙被害性分析。模型流程如圖1所示。
圖1 VIM-TFCN模型流程
用戶在訪問網(wǎng)站時存在顯性與隱性的行為特征。通過顯性與隱性網(wǎng)絡(luò)行為特征研究,能夠提高行為編碼的準(zhǔn)確性與模型的可靠性。
隱性行為特征序列主要從流量特征中提取,從時間、數(shù)量以及交互情況的角度分為3類。由于隱性特征無須挖掘其連續(xù)數(shù)值上的內(nèi)容,因此將采集到的隱性特征數(shù)據(jù)進行離散化處理。
顯性行為是抓取HTTP數(shù)據(jù)分組中的各字段內(nèi)容,通過行為分類字典篩選獲得,能夠準(zhǔn)確地反映用戶在該網(wǎng)站進行的操作。本文顯性行為特征僅考慮行為是否出現(xiàn)及其所屬種類,并不考慮行為出現(xiàn)的頻率與次數(shù),因此采用label_binarize編碼方式對顯性行為特征進行編碼。
初始行為特征參數(shù)見表1。
通過對實際數(shù)據(jù)的分析,可觀測到用戶訪問詐騙網(wǎng)站與訪問正常網(wǎng)站的網(wǎng)絡(luò)行為具有一定的相似性,單一考慮用戶單次網(wǎng)絡(luò)行為的被害風(fēng)險是片面的。因此,通過挖掘用戶的顯性行為特征與用戶與服務(wù)器交互的隱性行為特征間的關(guān)系,能實現(xiàn)用戶網(wǎng)絡(luò)行為風(fēng)險預(yù)測,顯著增強網(wǎng)絡(luò)行為同用戶行為是否被害的關(guān)聯(lián)性。顯/隱性行為互相不存在直接映射關(guān)系,各自內(nèi)部也不存在關(guān)聯(lián)性;同時大部分顯性特征行為同用戶是否被害同樣沒有直接性的關(guān)聯(lián)。但可以發(fā)現(xiàn)許多被害用戶行為特征序列Feature中的若干特征指數(shù)明顯較高的情況下發(fā)生了一些不指向電信網(wǎng)絡(luò)詐騙的顯性行為。
表1 初始行為特征參數(shù)
基于上述情況,本文提出一種網(wǎng)絡(luò)行為被害性分析算法解決該問題。其中,行為關(guān)聯(lián)規(guī)則挖掘示意圖如圖2所示。
步驟1 獲取行為頻繁項,挖掘行為關(guān)聯(lián)規(guī)則。初步的實驗表明,被害行為序列同非被害行為序列的關(guān)聯(lián)規(guī)則具有明顯差異。在一個用戶行為序列中,單個act行為的出現(xiàn)無法表示該序列具有被害風(fēng)險,但當(dāng)該act行為與其他顯/隱性特征關(guān)聯(lián)關(guān)系大量滿足從被害行為序列中提取的關(guān)聯(lián)規(guī)則時,就可以在一定程度上證明該序列存在被害的風(fēng)險。
圖2 行為關(guān)聯(lián)規(guī)則挖掘示意圖
獲取頻繁項。計算行為支持度,通過設(shè)定閾值生成行為頻繁項。如針對圖2中{feat1,feat2,act1}這一頻繁項,支持度計算式:
挖掘行為關(guān)聯(lián)規(guī)則。{feat1,feat2}→ {act1}→ {true}中,{feat1,feat2→act2}作為頻繁項具有關(guān)聯(lián)性,據(jù)此計算置信度,將關(guān)聯(lián)規(guī)則量化,設(shè)定關(guān)聯(lián)規(guī)則置信度取值范圍,達到排除低被害風(fēng)險關(guān)聯(lián)規(guī)則、提升規(guī)則有效性的目的,計算式如式(2)所示。
頻繁項與關(guān)聯(lián)規(guī)則的挖掘與量化表示,顯著增強行為序列之間各項行為的關(guān)聯(lián)性,其優(yōu)點在于當(dāng)行為序列出現(xiàn)某項無法表征用戶實際意圖的黑名單行為時,該序列不會被直接認(rèn)為具有被害風(fēng)險。同樣,當(dāng)行為序列中不存在黑名單行為時,也能判斷其被害風(fēng)險系數(shù)。
步驟2 結(jié)合顯隱性行為本身的特征與各行為特征間的內(nèi)在關(guān)聯(lián)規(guī)則,重構(gòu)特征序列。原始行為特征序列用于直接表達存在的顯/隱性行為特征,重構(gòu)后的特征序列則用于表達該行為序列存在哪些可疑的關(guān)聯(lián)關(guān)系。
圖3 隨機森林算法示意圖
該算法的決策樹在創(chuàng)建的過程當(dāng)中,并不會拉取特征序列中所有的規(guī)則用于分裂,而是采取隨機抽取的策略,從中獲取最優(yōu)解。通過合理設(shè)置每棵決策樹拉取特征的數(shù)量與決策樹的數(shù)量,可以在被害識別的準(zhǔn)確度和模型運行效率間尋找最優(yōu)的平衡點。
VIM-TFCN模型通過挖掘網(wǎng)絡(luò)行為關(guān)聯(lián)規(guī)則,排除非意圖表達行為,研究網(wǎng)絡(luò)行為深層關(guān)系,判斷行為序列被害性,從而達到增加被害性風(fēng)險分析精確度的目的。
VIM-TFCN算法偽代碼如算法1所示。
算法1 網(wǎng)絡(luò)行為被害性分析算法VIM-TFCN
輸入 已標(biāo)定行為序列數(shù)據(jù)集,待檢測行為序列數(shù)據(jù)集
輸出 網(wǎng)絡(luò)行為被害性評估結(jié)果集合Result
Begin
Result=[]//被害性評估結(jié)果集
TrainData=getTrainingData()//獲取訓(xùn)練數(shù)據(jù)
TestData=getTestingData()//獲取待檢測數(shù)據(jù)
Rules=getAssociationRules()//生成關(guān)聯(lián)規(guī)則列表
TrainSeq=getSeqbyRules(TrainData,Rules)//根據(jù)挖掘完畢的關(guān)聯(lián)規(guī)則,獲取訓(xùn)練行為序列集
TestSeq=getSeqbyRules(TestData,Rules)//根據(jù)關(guān)聯(lián)規(guī)則,獲取測行為序列集
Forest=TrainRandomForest(TrainSeq)//訓(xùn)練改進的監(jiān)督式隨機森林模型
For seq in TestSeq://對于每一條測試序列進行測試
Judgeresult=Forest.predict(seq)//通過隨機森林模型獲得風(fēng)險評估結(jié)果
Result.append(Judgeresult)//將每一條風(fēng)險評估結(jié)果放入被害性評估結(jié)果集
End
本實驗數(shù)據(jù)集主要包括被害人網(wǎng)絡(luò)行為數(shù)據(jù)2 051條,非被害人網(wǎng)絡(luò)行為數(shù)據(jù)2 386條。收集從公安部門獲取的詐騙網(wǎng)站地址與公開的非詐騙網(wǎng)站地址,分類后模擬正常用戶訪問,使用Wireshark工具進行流量抓取,所得數(shù)據(jù)作為實驗的數(shù)據(jù)集編寫腳本從流量包中提取對每一個網(wǎng)站訪問時產(chǎn)生的行為特征,形成原始特征序列。數(shù)據(jù)集網(wǎng)站種類與數(shù)量見表2。
表2 數(shù)據(jù)集網(wǎng)站種類與數(shù)量
選取以上類型的非詐騙網(wǎng)站,使詐騙網(wǎng)站與非詐騙網(wǎng)站所提取的網(wǎng)絡(luò)行為序列具備相似性,從而驗證本文結(jié)論。
本實驗的實驗環(huán)境設(shè)置如下。
數(shù)據(jù)庫系統(tǒng)版本為MySQL5,系統(tǒng)環(huán)境為內(nèi)存4 GB,處理器8個,操作系統(tǒng)為kali_linux_ 2020.1,編程語言為g++,python3.8.1。
本實驗提取特征過程需要大量字典比對,且采用多線程模式提高效率,需要占用較大的內(nèi)存,因此選取4 GB以上的運行內(nèi)存;對Wireshark抓取的pcapng格式流量引用Python程序語言的Pyshark庫批量化解析。
(1)混淆矩陣
混淆矩陣(confusion matrix)是用來評價分類的標(biāo)準(zhǔn)方式,采用的矩陣表示。在本文中,混淆矩陣為一個2×2矩陣,矩陣中每一列的總數(shù)表示模型預(yù)測為該種類時數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬種類,每一行的數(shù)據(jù)總數(shù)表示該種類數(shù)據(jù)實例的數(shù)目。
(2)ROC曲線
ROC曲線指在特定條件下,以FPR=為橫坐標(biāo),表示負(fù)樣本錯誤預(yù)測為正樣本的比例;以TPR=SN為縱坐標(biāo),表示預(yù)測正確的正樣本在所有正樣本中所占比例。
對于ROC曲線,對角線稱為純機遇線,代表辨別力為0;距離純機遇線越遠(yuǎn),辨別能力越好。
(3)精確率與召回率
用TP表示將正類預(yù)測為正類,F(xiàn)P表示將負(fù)類預(yù)測為正類,F(xiàn)N表示為正類預(yù)測為負(fù)類;精確率(Precision)計算式為:
召回率(Recall)計算式為:
精確率與召回率通常呈現(xiàn)此消彼長的狀況??梢酝ㄟ^調(diào)整提升度的閾值,確定最佳的關(guān)聯(lián)規(guī)則表。
5.3.1 實驗步驟
(1)對原始特征序列中的行為特征字段采用label_binarize二值化編碼,該字段由流量中的各項具有行為代表性的單詞按照發(fā)生先后順序組成;其中行為字典構(gòu)建是基于對詐騙網(wǎng)站各類變量的常用命名方式、相關(guān)英文與中文拼音的組合。行為特征字段中的各單詞在去重、統(tǒng)一小寫、去除特殊字符等操作后采用最大公共串與行為字典進行匹配識別顯性行為種類,并加入行為特征序列。其中,設(shè)定大于0.5。越大表示顯性行為更精確,但會出現(xiàn)行為無法識別的現(xiàn)象。計算式如式(5)所示。
(2)對表1中的隱性行為特征序列進行離散化。實驗采用-means算法對隱性行為特征進行離散化處理,設(shè)為5個等級。對于每一項隱性行為特征使用0~5的數(shù)值表示,刪去原有的具體值。
(3)采用Apriori算法對顯/隱性行為特征序列進行關(guān)聯(lián)規(guī)則挖掘,設(shè)定提升度為大于0.9減小開銷,最終挖掘規(guī)則共計600余條。提升度越大,規(guī)則越多,精度越高,但開銷顯著增加。關(guān)聯(lián)規(guī)則參數(shù)見表3。
表3 關(guān)聯(lián)規(guī)則參數(shù)
(4)通過挖掘的關(guān)聯(lián)規(guī)則來對于每一條行為序列進行特征重構(gòu)。先使用關(guān)聯(lián)規(guī)則的編號與權(quán)重表達每一條行為序列的關(guān)聯(lián)規(guī)則搭配規(guī)律;然后使用隨機森林算法對重構(gòu)后特征進行機器學(xué)習(xí),識別網(wǎng)絡(luò)行為被害性。
(5)本文所提方法VIM-TFCN與另外兩種分類算法進行對比,可在Github獲取開源代碼。
?·C45算法:ID3算法的擴展,通過決策樹找到行為特征與屬性的映射,對未知個體分類進行識別。
?·貝葉斯算法:對缺失數(shù)據(jù)不敏感,假設(shè)行為特征相互獨立,結(jié)合先驗概率與后驗概率進行分類,避免過度擬合。
5.3.2 參數(shù)調(diào)優(yōu)
在隨機森林算法的實際應(yīng)用當(dāng)中,子決策樹的數(shù)量(Numtree)與決策樹拉取特征數(shù)(Numfeature)對分類效果影響較大。隨著子決策樹數(shù)量和拉取特征數(shù)變多,分類的精度會呈現(xiàn)先上升后下降,最后趨于穩(wěn)定的情況,且模型運行速度與性能會顯著降低。根據(jù)控制變量的原則,通過調(diào)整參數(shù)大小來對分類結(jié)果進行對比??刂谱兞繀?shù)調(diào)優(yōu)結(jié)果見表4。
隨著Numfeature參數(shù)增大,精準(zhǔn)率與召回率上下浮動,MCC區(qū)域呈現(xiàn)減小的趨勢,在同等結(jié)果下選取內(nèi)存開銷較小值,確定該參數(shù)值為4;隨著Numfeature參數(shù)增大,精準(zhǔn)率、召回率、MCC區(qū)域呈現(xiàn)波動上升,最后趨于穩(wěn)定,內(nèi)存開銷與時耗呈現(xiàn)指數(shù)增加。根據(jù)實驗結(jié)果確定Numfeature參數(shù)為4,Numtree參數(shù)為50~70時達到最優(yōu)。
VIM-TFCN模型同樸素貝葉斯、C45分類算法在用戶網(wǎng)絡(luò)行為被害性識別效果對比見表5和圖4所示。
圖4 ROC曲線對比
由圖4可知,VIM-TFCN模型的ROC曲線貼近TPR軸,而C45模型和樸素貝葉斯模型的ROC曲線更貼近對角線。由表5混淆矩陣可得,VIM-TFCN模型的精確率為0.982,召回率為0.984;C45模型和樸素貝葉斯模型的精確率分別為0.804和0.760,召回率分別為0.788和0.798。根據(jù)對ROC曲線以及混淆矩陣的評估分析可知,通過顯/隱性行為的關(guān)聯(lián)規(guī)則組合判斷連續(xù)行為被害性的效果,優(yōu)于通過一項或多項行為判斷連續(xù)行為被害性的效果。
表4 控制變量參數(shù)調(diào)優(yōu)結(jié)果
表5 混淆矩陣對比
本文針對電信網(wǎng)絡(luò)詐騙犯罪中網(wǎng)絡(luò)行為特征選取表面化、特征間內(nèi)在規(guī)則挖掘不足、網(wǎng)絡(luò)行為稀疏、行為序列間關(guān)系難以確定等問題,提出基于網(wǎng)絡(luò)行為流量分析的電信網(wǎng)絡(luò)詐騙犯罪被害性識別模型,分析各類網(wǎng)絡(luò)行為的內(nèi)在相關(guān)性,深度挖掘顯/隱性網(wǎng)絡(luò)行為,達到識別網(wǎng)絡(luò)行為是否具有被害性的目的。通過公安機關(guān)被害人網(wǎng)絡(luò)行為數(shù)據(jù)分析驗證,模型可以有效地進行被害人網(wǎng)絡(luò)行為分類,識別網(wǎng)絡(luò)行為是否具有被害性。下一步研究將加入特征存取棧模塊,實現(xiàn)實時監(jiān)控異常網(wǎng)絡(luò)行為,并增強模型魯棒性,發(fā)掘更深層次的關(guān)聯(lián)規(guī)則。
[1]佟暉, 唐衛(wèi)中, 蔡家艷, 等. 電信詐騙態(tài)勢與反詐新思路研究[J]. 北京警察學(xué)院學(xué)報, 2021(1): 1-14.
TONG H, TANG W Z, CAI J Y, et al. Research on the situation of telecom fraud and new ideas of anti fraud[J]. Journal of Beijing Police College, 2021(1): 1-14.
[2]周堅, 石永革, 何美斌. 基于A-D模型的-means算法在通話異??蛻敉诰蛑械膽?yīng)用[J]. 電信科學(xué), 2018, 34(4): 81-89.
ZHOU J, SHI Y G, HE M B. Application of-means algorithm based on A-D model in calling abnormal customer mining[J]. Telecommunications Science, 2018, 34(4): 81-89.
[3]李力卡, 馬澤雄, 陳慶年, 等. 電話詐騙防治技術(shù)解決方案與運維對策研究[J]. 電信科學(xué), 2014, 30(11): 166-172.
LI L K, MA Z X, CHEN Q N, et al. Research of technology solutions and operation countermeasures to telephone fraud prevention and control[J]. Telecommunications Science, 2014, 30(11): 166-172.
[4]王海坤, 潘嘉, 劉聰. 語音識別技術(shù)的研究進展與展望[J]. 電信科學(xué), 2018, 34(2): 1-11.
WANG H K, PAN J, LIU C. Research development and forecast of automatic speech recognition technologies[J]. Telecommunications Science, 2018, 34(2): 1-11.
[5]張蕾, 張鵬, 孫偉, 等. 面向高速網(wǎng)絡(luò)流量的惡意鏡像網(wǎng)站識別方法[J]. 通信學(xué)報, 2019, 40(7): 87-94.
ZHANG L, ZHANG P, SUN W, et al. IMM4HT: an identification method of malicious mirror website for high-speed network traffic[J]. Journal on Communications, 2019, 40(7): 87-94.
[6]韓浩, 劉博文, 林果園. 基于改進的TrustRank算法的釣魚網(wǎng)站檢測[J]. 電信科學(xué), 2018, 34(3): 86-94.
HAN H, LIU B W, LIN G Y. Detection of phishing websites based on the improved TrustRank algorithm[J]. Telecommunications Science, 2018, 34(3): 86-94.
[7]臧小東, 龔儉,胡曉艷. 基于AGD的惡意域名檢測[J]. 通信學(xué)報, 2018, 39(7): 15-25.ZANG X D, GONG J, HU X Y. Detecting malicious domain names based on AGD[J]. Journal on Communications, 2018, 39(7): 15-25.
[8]韓春雨, 張永錚, 張玉. Fast-flucos: 基于DNS流量的Fast-flux惡意域名檢測方法[J]. 通信學(xué)報, 2020, 41(5): 37-47.
HAN C Y, ZHANG Y Z, ZHANG Y. Fast-flucos: malicious domain name detection method for Fast-flux based on DNS traffic[J]. Journal on Communications, 2020, 41(5): 37-47.
[9]ZHOU S L , WANG X , YANG Z R . Monitoring and early warning of new cyber-telecom crime platform based on BERT migration learning[J]. China Communications, 2020, 17(3): 140-148.
[10]ZOLOTUKHIN M, H?M?L?INEN T, KOKKONEN T, et al. Analysis of http requests for anomaly detection of Web attacks[C]//Proceedings of 2014 IEEE 12th International Conference on Dependable, Autonomic and Secure Computing. Piscataway: IEEE Press, 2014: 406-411.
[11]YU Y, LIU G, YAN H, et al. Attention-based Bi-LSTM model for anomalous HTTP traffic detection[C]//Proceedings of 2018 15th International Conference on Service Systems and Service Management. Piscataway: IEEE Press, 2018: 1-6.
[12]YANG W, ZUO W, CUI B. Detecting malicious URLS via a keyword-based convolutional gated-recurrent-unit neural network[J]. IEEE Access, 2019(7): 29891-29900.
[13]PARK S, KIM M, LEE S. Anomaly detection for HTTP using convolutional autoencoders[J]. IEEE Access, 2018(6): 70884-70901.
[14]ARZHAKOV A V, TROITSKIY S S, VASILYEV N P, et al. Development and implementation a method of detecting an attacker with use of HTTP network protocol[C]//Proceedings of 2017 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering. Piscataway: IEEE Press, 2017: 100-104.
[15]THANG T M, KIM J. The anomaly detection by using DBSCAN clustering with multiple parameters[C]//Proceedings of 2011 International Conference on Information Science and Applications. Piscataway: IEEE Press, 2011: 1-5
[16]ZHANG M, LU S, XU B. An anomaly detection method based on multi-models to detect Web attacks[C]//Proceedings of 2017 10th International Symposium on Computational Intelligence and Design. Piscataway: IEEE Press, 2017(2): 404-409.
[17]ERFANI S M, RAJASEGARAR S, KARUNASEKERA S, et al. High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning[J]. Pattern Recognition, 2016(58): 121-134.
[18]連一峰, 戴英俠, 王航. 基于模式挖掘的用戶行為異常檢測[J]. 計算機學(xué)報, 2002(3): 325-330.
LIAN Y F, DAI Y X, WANG H. Anomaly detection of user behaviors based on profile mining[J]. Chinese Journal of Computers, 2002(3): 325-330.
[19]田新廣, 孫春來, 段洣毅, 等. 基于機器學(xué)習(xí)的用戶行為異常檢測模型[J]. 計算機工程與應(yīng)用, 2006(19): 101-103, 111.
TIAN X G, SUN C L, DUAN M Y, et al. Model of anomaly detection of users behaviors based on machine learning[J]. Computer Engineering and Applications, 2006(19): 101-103, 111.
[20]陳勝, 朱國勝, 祁小云, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的自定義用戶異常行為檢測[J]. 計算機科學(xué), 2019, 46(S2): 442-445, 472.
CHEN S, ZHU G S, QI X Y, et al. Custom user anomaly behavior detection based on deep neural network[J]. Computer Science, 2019, 46(S2): 442-445, 472.
[21]胡富增, 王勇軍. 基于數(shù)據(jù)挖掘的計算機用戶行為分析與識別[J]. 自動化技術(shù)與應(yīng)用, 2020, 39(6): 42-47.
HU F Z, WANG Y J. Analysis and recognition of computer user behavior based on data mining[J]. Techniques of Automation and Applications, 2020, 39(6): 42-47.
[22]WANG S, CAO L, WANG Y. A survey on session-based recommender systems[J]. arXiv: 1902. 04864, 2019.
[23]TANG J, WANG K. Personalized top-n sequential recommendation via convolutional sequence embedding[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 565-573.
[24]SUN F, LIU J, WU J, et al. BERT4Rec: sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2019: 1441-1450.
[25]HIDASI B, KARATZGLOU A, BALTRNAS L, et al. Session-based recommendations with recurrent neural networks[J]. arXiv: 1511. 06939, 2015.
[26]KANG W C , MCAULEY J . Self-attentive sequential recommendation[C]//Proceedings of 2018 IEEE International Conference on Data Mining (ICDM). Piscataway: IEEE Press, 2018.
Victimization analysis model of user network behavior based on network traffic
ZHOU Shengli, XU Xiaoyang
Zhejiang Police College, Hangzhou 310051, China
The analysis of network victimization is of great significance to the prevention and control of telecom fraud. By studying the network traffic generated by the interaction between users and websites, a victimization identification model of telecom fraud crime based on network behavior flow analysis was proposed, the association rules between different behavior characteristics were analyzed, the behavior sequence features were reconstructed, and the victimization of network behavior sequence with random forest algorithm was evaluated. Based on the network behavior data set of public security organs, the experiment proves that the model can effectively improve the recognition accuracy of network behavior victimization.
network traffic, network behavior coding, association rules mining, victimization analysis
TP311
A
10.11959/j.issn.1000?0801.2021041
2020?12?21;
2021?02?11
徐嘯煬,76933768@qq.com
浙江省公益技術(shù)研究計劃(No.LGF20G030001);校局合作項目(No.2020XJY011);國家級創(chuàng)新項目(No.11483)
The Basic Public Welfare Research Program of Zhejiang Province of China (No.LGF20G030001), School Bureau Cooperation Project (No.2020XJY011), The National Innovation Project national Innovation Project(No. 11483)
周勝利(1982?),男,博士,浙江警察學(xué)院碩士生導(dǎo)師,主要研究方向為大數(shù)據(jù)安全、機器學(xué)習(xí)。
徐嘯煬(1999?),男,浙江警察學(xué)院在讀,主要研究方向為網(wǎng)絡(luò)安全與機器學(xué)習(xí)。