亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Stacking集成學(xué)習(xí)的區(qū)塊鏈異常交易檢測(cè)技術(shù)研究

        2023-02-17 05:32:38王志強(qiáng)王姿旖倪安發(fā)
        信息安全研究 2023年2期
        關(guān)鍵詞:子集排序區(qū)塊

        王志強(qiáng) 王姿旖 倪安發(fā)

        (北京電子科技學(xué)院 北京 102627)

        區(qū)塊鏈技術(shù)和數(shù)字貨幣的興起顛覆了傳統(tǒng)的交易模式,同時(shí)也導(dǎo)致許多交易安全問題,嚴(yán)重威脅經(jīng)濟(jì)社會(huì)的發(fā)展和用戶資產(chǎn)安全.近年來,區(qū)塊鏈交易安全事件層出不窮,如洗錢、勒索病毒、智能合約攻擊和雙花攻擊等.

        目前,針對(duì)區(qū)塊鏈交易的安全研究是區(qū)塊鏈研究的熱門問題,國內(nèi)外研究人員雖然提出了不同的異常檢測(cè)方法,也取得不錯(cuò)的檢測(cè)效果,但仍存在數(shù)據(jù)分布不均衡導(dǎo)致模型表現(xiàn)不好、特征選擇方法過于粗糙等問題.因此針對(duì)極度不平衡數(shù)據(jù)集,本文基于Stacking算法設(shè)計(jì)了MLP_Stacking算法,結(jié)合SUNDO重采樣技術(shù)平衡數(shù)據(jù)集,設(shè)計(jì)多模型聯(lián)合特征排序法進(jìn)行特征選擇,并利用網(wǎng)格搜索算法優(yōu)化模型,提高了異常交易檢測(cè)的效率,為實(shí)現(xiàn)區(qū)塊鏈異常交易檢測(cè)研究提供了一定的參考價(jià)值.

        1 相關(guān)工作與技術(shù)

        1.1 相關(guān)工作

        區(qū)塊鏈交易是一種逐漸興起的新型交易范式,基于區(qū)塊鏈技術(shù)的共識(shí)機(jī)制以及分布式特點(diǎn),能夠在無可信第三方的環(huán)境下進(jìn)行交易行為,用戶的所有操作包括交易記錄將會(huì)被安全地存儲(chǔ)在區(qū)塊中,具有去中心化、不可篡改、公開透明的特點(diǎn),被廣泛運(yùn)用于金融交易、工業(yè)管理和醫(yī)療數(shù)據(jù)共享等場(chǎng)景中,為新的商業(yè)模式和新穎的分布式應(yīng)用程序鋪平道路.伴隨著區(qū)塊鏈應(yīng)用在各行各業(yè)的井噴式涌現(xiàn),如何在區(qū)塊鏈金融應(yīng)用中實(shí)現(xiàn)快速的異常交易檢測(cè)成為當(dāng)前研究的熱點(diǎn).

        國內(nèi)外研究人員針對(duì)區(qū)塊鏈交易安全問題提出了不同的異常檢測(cè)方法.2019年,Sayadi等人[1]提出了一種新的比特幣電子交易異常檢測(cè)模型,使用了2種機(jī)器學(xué)習(xí)算法,即單類支持向量機(jī)(OCSVM)算法來檢測(cè)異常值,以便將具有相同異常類型的相似異常值進(jìn)行分組,通過實(shí)驗(yàn)表明,該模型能獲得高度精確的檢測(cè)結(jié)果.2021年,Voronov等人[2]提出了幾種有效的基于Sketch的異常檢測(cè)和攻擊緩解解決方案,通過識(shí)別單筆高價(jià)值交易、交易頻率或交易總量來檢測(cè)可疑賬戶的異常情況,與全數(shù)據(jù)方法相比,該算法在不影響檢測(cè)精度的情況下顯著減少了內(nèi)存占用空間和運(yùn)行時(shí)間.2022年, Fan等人[3]設(shè)計(jì)了一個(gè)輕量級(jí)和標(biāo)識(shí)符模糊的模型LION用于加密貨幣網(wǎng)絡(luò)的異常檢測(cè),利用流量分析使其對(duì)挖掘速率的影響最小,并且其計(jì)算效率大大優(yōu)于以前的機(jī)器學(xué)習(xí)方法,他們?cè)谝粋€(gè)活躍的比特幣節(jié)點(diǎn)搭建了LION原型,成本最低,為最先進(jìn)的機(jī)器學(xué)習(xí)方法的12%,并且檢測(cè)精確度大于97%.2022年, Jin等人[4]針對(duì)區(qū)塊鏈交易中的龐氏騙局提出了通用異構(gòu)特征增強(qiáng)模型HFAug,該模型在一個(gè)輔助的異構(gòu)交互圖中學(xué)習(xí)基于元路徑的行為特征,并將異構(gòu)特征聚合到同構(gòu)圖里對(duì)應(yīng)的賬戶節(jié)點(diǎn)中,最后執(zhí)行龐氏檢測(cè)方法,綜合實(shí)驗(yàn)結(jié)果表明,HFAug可以幫助現(xiàn)有的龐氏檢測(cè)方法在以太坊數(shù)據(jù)集上實(shí)現(xiàn)顯著的性能改進(jìn),體現(xiàn)了異構(gòu)信息在區(qū)塊鏈龐氏騙局檢測(cè)中具有高效性.

        1.2 相關(guān)技術(shù)

        1.2.1 LightGBM

        GBDT(gradient boosting decision tree)是機(jī)器學(xué)習(xí)中被廣泛運(yùn)用的一個(gè)模型,能夠利用多個(gè)弱訓(xùn)練器迭代訓(xùn)練得到一個(gè)訓(xùn)練效果好、不易過擬合的最優(yōu)模型,2018年杜煒等人[5]使用GBDT算法提升了安卓惡意軟件檢測(cè)效率.LightGBM(light gradient boosting machine)是對(duì)傳統(tǒng)GBDT算法的一種改進(jìn),由微軟亞洲研究院在NIPS系列論文[6-7]中提出,常應(yīng)用于多分類、點(diǎn)擊率預(yù)測(cè)、搜索排序等機(jī)器學(xué)習(xí)任務(wù)中,支持高效率并行訓(xùn)練,比其他框架內(nèi)存消耗更小、訓(xùn)練速度更快、準(zhǔn)確率更高.

        LightBGM對(duì)GBDT算法的優(yōu)化有:基于直方圖改進(jìn)決策樹算法[6];采用帶深度限制的Leaf-wise算法[6,8];使用單邊梯度采樣技術(shù)在減少數(shù)據(jù)量的同時(shí)平衡精確度[6,8-9];對(duì)互斥特征進(jìn)行捆綁減少特征維度[6,10-11];直接支持類別特征[7,10,12];支持高效并行[7]與緩存優(yōu)化[7,13].

        1.2.2 XGBoost

        XGBoost(extreme gradient boosting)是由華盛頓大學(xué)Chen等人[14]提出的一種端對(duì)端的可以大規(guī)模并行計(jì)算的梯度提升樹模型,XGBoost分別在算法層面和系統(tǒng)設(shè)計(jì)層面對(duì)GBDT進(jìn)行了改進(jìn).

        在算法層面,XGBoost在目標(biāo)函數(shù)中對(duì)優(yōu)化目標(biāo)使用二階求導(dǎo),使得優(yōu)化目標(biāo)的定義范圍縮小,加快了模型迭代速度,還利用正則項(xiàng)控制模型的復(fù)雜度以防過擬合現(xiàn)象出現(xiàn).此外,XGBoost對(duì)缺失值處理進(jìn)行了優(yōu)化,使用稀疏感知算法自動(dòng)處理缺失值,在生成樹時(shí)對(duì)劃分節(jié)點(diǎn)的選取利用加權(quán)分位數(shù)草圖算法減少了時(shí)間消耗.在系統(tǒng)設(shè)計(jì)層面,XGBoost采用塊結(jié)構(gòu)存儲(chǔ)不同的特征并進(jìn)行排序,使XGBoost能夠在不同的線程中進(jìn)行并行訓(xùn)練,大大加快訓(xùn)練速度[15].

        1.2.3 CatBoost

        CatBoost(gradient boosting + categorical features)[16]是一款以對(duì)稱決策樹(oblivious trees)為基學(xué)習(xí)器的GBDT拓展框架,它能夠支持類別性變量,減少了對(duì)非數(shù)值型特征進(jìn)行預(yù)處理的繁瑣步驟.還能夠組合類別特征,使得特征之間的關(guān)系成為一個(gè)新的特征屬性,解決屬性較少的訓(xùn)練集特征維度不夠的問題.CatBoost還使用排序提升方法對(duì)數(shù)據(jù)集中的噪聲點(diǎn)進(jìn)行過濾,有效緩解了最終模型預(yù)測(cè)偏移的問題.

        1.2.4 LCE

        LCE(local cascade ensemble)[17]是一種基于集成方法中處理偏置-方差權(quán)衡的新型機(jī)器學(xué)習(xí)方法,結(jié)合了隨機(jī)森林與XGBoost的優(yōu)勢(shì),能夠獲得更優(yōu)的泛化預(yù)測(cè)期,實(shí)現(xiàn)對(duì)目標(biāo)的精準(zhǔn)預(yù)測(cè).LCE的基分類器一般是基于boosting的分類器,用以減少?zèng)Q策樹分治過程的誤差.boosting分類器沿著樹的路徑將基分類器正確率作為新屬性添加到數(shù)據(jù)集中,在下一樹級(jí)中利用該正確率對(duì)下一樹級(jí)的特征進(jìn)行加權(quán)計(jì)算,對(duì)之前錯(cuò)誤分類的特征加以標(biāo)記用于下一輪訓(xùn)練.此外,LCE利用bagging緩和了boosting決策樹的過擬合現(xiàn)象.

        1.2.5 MLP

        MLP(multi-layer perception)[18]也稱為人工神經(jīng)網(wǎng)絡(luò),是對(duì)生物神經(jīng)元的模擬和簡(jiǎn)化,分別由輸入層、輸出層和隱藏層組成,其中隱藏層可能有多層,被廣泛用于數(shù)據(jù)和圖像分類的監(jiān)督型機(jī)器學(xué)習(xí)模型中.隱藏層和輸出層的神經(jīng)元與其前一層的神經(jīng)元相連,這種拓?fù)浣Y(jié)構(gòu)中的網(wǎng)絡(luò)連接可以是完全連接的或部分連接的.在MLP神經(jīng)網(wǎng)絡(luò)中,每個(gè)單元對(duì)輸入執(zhí)行一個(gè)偏加權(quán)和,并通過傳遞函數(shù)來產(chǎn)生輸出.

        2 基于Stacking集成學(xué)習(xí)的區(qū)塊鏈異常交易檢測(cè)模型

        本文設(shè)計(jì)的集成模型如圖1所示,包含3個(gè)模塊,分別是數(shù)據(jù)預(yù)處理模塊、特征選擇模塊和異常檢測(cè)模塊.

        圖1 MLP_Stacking集成模型

        2.1 數(shù)據(jù)預(yù)處理模塊

        本文實(shí)驗(yàn)使用Kaggle平臺(tái)提供的Credit Card Fraud數(shù)據(jù)集,該數(shù)據(jù)集包含了8 950個(gè)賬戶在過去6個(gè)月中的交易行為,共21個(gè)標(biāo)識(shí),其中20個(gè)為特征,1個(gè)為標(biāo)簽.數(shù)據(jù)集中正常賬戶被標(biāo)記為0,異常賬戶被標(biāo)記為1. 表1為該數(shù)據(jù)集變量說明:

        表1 Credit Card Fraud數(shù)據(jù)集變量說明

        本文采用k折交叉驗(yàn)證[19]的思想,將數(shù)據(jù)劃分為k份,其中k-1份用來訓(xùn)練,1份用來測(cè)試.直到每份數(shù)據(jù)都進(jìn)行了測(cè)試.本文采用重復(fù)的分層抽樣的k折交叉驗(yàn)證,分層抽樣是對(duì)每個(gè)類均按照一定比例抽取數(shù)據(jù),本文中的k取5,重復(fù)次數(shù)為3.

        2.1.1 數(shù)據(jù)清洗和相關(guān)性分析

        本文通過數(shù)據(jù)清洗去除空數(shù)據(jù)樣本,進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換,得到干凈樣本,此時(shí)剩余8 497條數(shù)據(jù).經(jīng)數(shù)據(jù)分析發(fā)現(xiàn),數(shù)據(jù)中存在activated_data和last_payment_data這2個(gè)字符串類型的字段,表示信用卡激活和上次使用信用卡支付的時(shí)間,將這2個(gè)字符串轉(zhuǎn)換成時(shí)間變量,并求得用戶使用信用卡時(shí)長diff_days,作為新的特征,加入到原特征集中.由圖2可知,正常賬戶的用戶使用信用卡時(shí)間分布較為分散,而異常賬戶的用戶使用信用卡時(shí)間較為集中,由此猜測(cè)異常交易是集中在某一時(shí)間段成規(guī)模發(fā)生的.同時(shí),經(jīng)過對(duì)正常賬戶的用戶使用信用卡時(shí)長和異常賬戶的用戶使用信用卡時(shí)長統(tǒng)計(jì)分析,發(fā)現(xiàn)存在負(fù)的時(shí)間,不符合現(xiàn)實(shí)中的邏輯,將負(fù)的時(shí)間樣本作為異常樣本去除.

        圖2 用戶使用信用卡時(shí)長分析

        對(duì)特征進(jìn)行歸一化后進(jìn)行相關(guān)性分析,圖3所示的熱力圖表示各變量之間的相關(guān)性,由于本文檢測(cè)目標(biāo)是區(qū)塊鏈交易異常,所以更加關(guān)注每個(gè)變量與異常變量的相關(guān)性,與異常變量正相關(guān)性較高的是用戶完成的付款金額(相關(guān)性權(quán)值為0.53)和一次性完成的最大購買金額(相關(guān)性權(quán)值為0.48),由此推斷用戶完成的付款金額對(duì)預(yù)測(cè)異常賬戶最相關(guān).先初步假設(shè)所有變量對(duì)于測(cè)試中發(fā)現(xiàn)異常都是重要的.

        圖3 連續(xù)數(shù)值變量之間的相關(guān)性分析

        2.1.2 類不平衡處理

        如圖4所示,數(shù)據(jù)集存在嚴(yán)重的類不均衡現(xiàn)象,異常賬戶僅占樣本集的0.85%,而類樣本分布不均衡會(huì)影響分類算法性能,降低模型性能.

        圖4 賬戶類型分布

        常用的處理方法分為過采樣和欠采樣.欠采樣是指減少大樣本的數(shù)量,使之與小樣本數(shù)量達(dá)到均衡狀態(tài).但很明顯欠采樣并不適合當(dāng)前樣本,因?yàn)槠墼p交易數(shù)量本來就很少,若采用欠采樣會(huì)大大減少樣本總數(shù),起不到訓(xùn)練模型的作用.本文采用一種結(jié)合過采樣和欠采樣技術(shù)的新型重采樣技術(shù)(SUNDO)[20]對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充.該方法結(jié)合了欠采樣技術(shù)和過采樣技術(shù),通過欠采樣移除的樣本量等于通過過采樣添加的樣本量,因此既不會(huì)丟失大量信息同時(shí)也不會(huì)添加過多的合成數(shù)據(jù).計(jì)算公式如式(1)所示:

        N=round[(0.5·n0)-(0.5·n1)],

        (1)

        1) 基于正態(tài)分布的過采樣.

        (2)

        (3)

        2) 基于相似性的欠采樣.

        首先使Xo條目對(duì)其自身的最大值進(jìn)行靜態(tài)歸一化,得到變換矩陣π,其中第k行和第j列的條目計(jì)算如下:

        (4)

        通過計(jì)算π各列之間的歐氏距離,得到1個(gè)對(duì)稱的平方距離矩陣DI,該DI在第p行和第q列處的計(jì)算如下:

        (5)

        DIp,q越小,Xp和Xq這2種模式就越“相似”,根據(jù)相似性指數(shù)對(duì)模式對(duì)進(jìn)行排序,消除最相似模式對(duì)里的其中1個(gè)模式,此過程完成欠采樣且沒有顯著丟失原始類分布的信息.

        2.2 特征選擇模塊

        XGBoost,LightGBM,CatBoost,LCE 都是基于決策樹構(gòu)建的模型,擁有天然的特征排序功能.特征J的全局重要度[21]是特征J在單棵樹中的重要度的平均值,計(jì)算公式如式(6)所示:

        (6)

        其中M是樹的數(shù)量.特征t在單棵樹中的重要度[12]如式(7)所示:

        (7)

        其中L為樹的葉子節(jié)點(diǎn)數(shù)量,L-1即為樹的非葉子節(jié)點(diǎn)數(shù)量(構(gòu)建的樹都是具有左右孩子的二叉樹),vt是和節(jié)點(diǎn)t相關(guān)聯(lián)的特征.

        本文基于基模型特征重要性排序結(jié)果,設(shè)計(jì)多模型聯(lián)合特征排序算法,生成最優(yōu)特征子集.算法基本思路為:每次特征排序時(shí)都會(huì)對(duì)每個(gè)特征進(jìn)行打分,將得分高的特征排在前面,得分低的排在后面.每個(gè)基分類器都重復(fù)排序100次,防止只進(jìn)行1次排序?qū)е碌碾S機(jī)性影響結(jié)果可靠性.第1次訓(xùn)練選擇第1列中出現(xiàn)次數(shù)最多的特征進(jìn)行分類,輸出結(jié)果;第2次選擇前2列中出現(xiàn)次數(shù)最多的2個(gè)特征進(jìn)行分類,輸出訓(xùn)練結(jié)果……以此類推直至訓(xùn)練完所有特征.多模型聯(lián)合特征排序算法偽代碼如算法1所示:

        算法1.多模型聯(lián)合特征排序.

        輸出:最優(yōu)特征子集S.

        ① fori=1 tondo

        ③ 利用特征子集從原始數(shù)據(jù)集D中獲得數(shù)據(jù)集D′;

        ④ 利用集成模型獲得D′的分類指標(biāo)metrici;

        ⑤ end for

        ⑥Metric∈{metric1,metric2,…,metricn};

        ⑦Ind∈{ind1,ind2,…,indn};

        ⑧ 輸出max(Metric)所對(duì)應(yīng)的特征子集S∈Ind.

        算法1結(jié)束時(shí),將獲得400個(gè)特征排序表,可以聯(lián)合構(gòu)建18個(gè)特征子集.為了確定最優(yōu)特征子集,使用AUC,F1,G-mean作為評(píng)價(jià)指標(biāo),采用5折交叉驗(yàn)證獲得每個(gè)特征子集的評(píng)價(jià)指標(biāo)值,將得分最高的子集作為最優(yōu)特征子集.

        2.3 異常檢測(cè)模塊

        2.3.1 MLP_Stacking算法設(shè)計(jì)

        本文將基于XGBoost,LightGBM,CatBoost,LCE分別對(duì)處理后的數(shù)據(jù)集進(jìn)行建模并預(yù)測(cè)類別,然后基于Stacking的思想,將4種模型的預(yù)測(cè)結(jié)果進(jìn)行編碼作為新的樣本輸入,將初始數(shù)據(jù)集的標(biāo)簽作為新的樣本標(biāo)簽,在其上訓(xùn)練MLP模型,通過MLP模型對(duì)基模型的預(yù)測(cè)結(jié)果分配權(quán)重,目的是實(shí)現(xiàn)4種算法的融合以取得更好的分類效果.圖5是MLP_Stacking算法流程圖:

        圖5 MLP_Stacking算法流程圖

        2.3.2 基于網(wǎng)格搜索的參數(shù)調(diào)優(yōu)

        網(wǎng)格搜索法[22]通過窮舉法遍歷參數(shù)列表,對(duì)參數(shù)自動(dòng)進(jìn)行排列組合,從而篩選出最佳參數(shù)組合,參數(shù)設(shè)置范圍如表2、表3所示.其原理是:首先選擇當(dāng)前對(duì)各個(gè)模型影響最大的參數(shù)進(jìn)行調(diào)優(yōu),每組參數(shù)都采用5折交叉驗(yàn)證來評(píng)估,通過給定取值區(qū)間,按照順序進(jìn)行搜索,直到最優(yōu),再對(duì)下一個(gè)影響較大的參數(shù)進(jìn)行調(diào)優(yōu),以此類推,直至所有的參數(shù)調(diào)優(yōu)結(jié)束,選出最佳參數(shù)組合.函數(shù)輸入為分類器需要優(yōu)化的參數(shù)及參數(shù)列表,輸出為5折交叉驗(yàn)證的模型評(píng)價(jià)指標(biāo)的平均值.

        表2 XGBoost,LightGBM,CatBoost的被調(diào)參數(shù)設(shè)置和范圍

        表3 LCE的被調(diào)參數(shù)設(shè)置和范圍

        3 模型訓(xùn)練及實(shí)驗(yàn)結(jié)果

        3.1 評(píng)價(jià)指標(biāo)

        本文使用了極度不平衡數(shù)據(jù)集, 由于AUC值、F1和G-mean不會(huì)受到數(shù)據(jù)分布不均的影響,能更有效地反映模型分類性能,因此本文選用AUC,F1,G-mean作為評(píng)價(jià)指標(biāo).

        AUC為ROC曲線下的面積,ROC曲線的橫坐標(biāo)為假正例率(FPR),縱坐標(biāo)為TPR(真正例率).FPR,TPR具體定義如式(8)和式(9)所示:

        (8)

        (9)

        F1和G-mean具體定義如式(10)和式(11)所示:

        (10)

        (11)

        3.2 實(shí)驗(yàn)環(huán)境

        本文編程語言為python,操作系統(tǒng)為Windows10,64位,處理器為Intel?CoreTMi7-1065G7 CPU@1.30 GHz 1.50 GHz,16 GB內(nèi)存.

        3.3 實(shí)驗(yàn)結(jié)果展示

        本文分別對(duì)單個(gè)模型和Stacking集成模型進(jìn)行實(shí)驗(yàn)研究,以驗(yàn)證模型性能.

        3.3.1 單模型分類實(shí)驗(yàn)

        本文在進(jìn)行Stacking集成模型分類實(shí)驗(yàn)前,先分別測(cè)試基分類器XGBoost,LightGBM,CatBoost,LCE在不采用數(shù)據(jù)生成方法下的AUC,F(xiàn)1,G-mean,如表4所示.由于存在嚴(yán)重的類不均衡現(xiàn)象,采用SUNDO技術(shù)對(duì)訓(xùn)練樣本進(jìn)行擴(kuò)充,這里利用了smote_variants python工具包.經(jīng)比較發(fā)現(xiàn)使用SUNDO對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充之后4種模型性能均有提升,后續(xù)的集成學(xué)習(xí)和特征排序算法均采用SUNDO.采用SUNDO數(shù)據(jù)生成方法后各模型性能如表5所示.通過多次訓(xùn)練調(diào)參后,各模型較優(yōu)的參數(shù)如表6所示.XGBoost,LightGBM,CatBoost的learning_rate分別為0.15,0.05,0.2;depth分別為4,5,7;n_estimators分別為200,300,200;LCE的depth和n_estimators分別為5和30.通過對(duì)比可見各模型性能又進(jìn)一步提高.AUC分別提高0.3,0.6,1.3,0.6;F1分別提高1.6,1.0,1.3,0.9;G-mean分別提高2.1,0.8,1.2,0.7.

        表4 不采用數(shù)據(jù)生成方法時(shí)各模型性能 %

        表5 采用SUNDO數(shù)據(jù)生成方法時(shí)各模型性能 %

        表6 各模型參數(shù)設(shè)置及性能

        3.3.2 Stacking集成模型分類實(shí)驗(yàn)

        在集成模型分類實(shí)驗(yàn)中,將不平衡數(shù)據(jù)處理后的樣本數(shù)據(jù)進(jìn)行多模型聯(lián)合特征選取,5折交叉驗(yàn)證后得到的各模型的特征重要性排序結(jié)果(重要的特征排在前面)如圖6~9所示.從圖中可以發(fā)現(xiàn),各模型特征重要性較為一致.用戶完成的付款金額對(duì)預(yù)測(cè)異常賬戶最相關(guān),與3.1.1節(jié)相關(guān)性分析預(yù)測(cè)一致.

        圖6 XGBoost特征重要性排序結(jié)果

        圖7 LightGBM特征重要性排序結(jié)果

        圖8 CatBoost特征重要性排序結(jié)果

        圖9 LCE特征重要性排序結(jié)果

        通過多模型聯(lián)合特征排序的方法進(jìn)行特征選擇,將最優(yōu)特征子集作為Stacking_MLP模型的輸入進(jìn)行分類預(yù)測(cè),訓(xùn)練最優(yōu)特征子集得到的AUC,F(xiàn)1,G-mean如圖10所示,又經(jīng)5折交叉驗(yàn)證網(wǎng)格搜索參數(shù)調(diào)優(yōu)后得到的AUC,F(xiàn)1,G-mean如圖11所示.模型訓(xùn)練全部特征和訓(xùn)練最優(yōu)特征子集性能對(duì)比如表7所示,對(duì)比發(fā)現(xiàn),網(wǎng)格調(diào)優(yōu)前,AUC,F(xiàn)1,G-mean分別提高了1.7, 1.6,1.6;網(wǎng)格調(diào)優(yōu)后,訓(xùn)練全部特征和訓(xùn)練最優(yōu)特征子集得到的AUC,F(xiàn)1,G-mean又進(jìn)一步提高,最終得到AUC為90.94%,F(xiàn)1為81.54%,G-mean為82.43%.

        圖10 網(wǎng)格調(diào)優(yōu)前的模型性能

        圖11 網(wǎng)格調(diào)優(yōu)后的模型性能

        表7 集成模型的性能對(duì)比(全部特征和最優(yōu)特征子集特征) %

        4 結(jié) 語

        為檢測(cè)異常交易賬戶,本文提出了一種基于Stacking集成學(xué)習(xí)的區(qū)塊鏈異常交易檢測(cè)方法.利用多模型聯(lián)合特征排序算法進(jìn)行特征篩選,得到新的特征子集,通過多次訓(xùn)練得到最優(yōu)特征子集,將得到的最優(yōu)特征子集作為MLP_Stacking輸入數(shù)據(jù)集進(jìn)行分類訓(xùn)練,網(wǎng)格搜索5折交叉驗(yàn)證確定模型最優(yōu)參數(shù),實(shí)現(xiàn)模型優(yōu)化.實(shí)驗(yàn)結(jié)果顯示本文設(shè)計(jì)的集成模型訓(xùn)練效果明顯優(yōu)于單個(gè)模型.未來將探索選取新的特征選擇方法來提高檢測(cè)性能,設(shè)計(jì)新的異常檢測(cè)模型或異常檢測(cè)算法.

        猜你喜歡
        子集排序區(qū)塊
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        排序不等式
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        區(qū)塊鏈:一個(gè)改變未來的幽靈
        科學(xué)(2020年5期)2020-11-26 08:19:12
        恐怖排序
        關(guān)于奇數(shù)階二元子集的分離序列
        區(qū)塊鏈:主要角色和衍生應(yīng)用
        科學(xué)(2020年6期)2020-02-06 08:59:56
        節(jié)日排序
        區(qū)塊鏈+媒體業(yè)的N種可能
        讀懂區(qū)塊鏈
        日本一区不卡高清在线观看| 国产午夜福利在线播放| 国产精品久久久久久久成人午夜 | 亚洲av性色精品国产| 一道本久久综合久久鬼色| 亚洲精品美女久久久久久久| 国产欧美精品在线一区二区三区| 被驯服人妻中文字幕日本| 久久国产在线精品观看| 国产超碰人人爽人人做人人添| 少妇高潮喷水久久久影院| 性感人妻一区二区三区| 精品高清免费国产在线| 专干老肥熟女视频网站300部| 久久久精品国产亚洲成人满18免费网站 | 国产精品白浆在线观看无码专区| 久久精品国产亚洲一区二区| 情头一男一女高冷男女| 久久精品中文字幕| 亚洲最大av资源站无码av网址| 亚洲精品AⅤ无码精品丝袜无码 | 人妻精品在线手机观看| 久久久午夜精品福利内容| 国产精品深夜福利免费观看| 亚洲精品大全中文字幕| 久久不见久久见免费影院| 久久久久国色av∨免费看| 国产高跟丝袜在线诱惑| av影院在线免费观看不卡 | 蜜桃av夺取一区二区三区| 成年人观看视频在线播放| 国产精品无码成人午夜电影 | 成人免费毛片在线播放| 图片小说视频一区二区| 久久发布国产伦子伦精品| 久久精品国产亚洲AV高清y w| 手机久草视频福利在线观看| 亚洲国产午夜精品理论片在线播放| 久久AV中文综合一区二区| 久久久精品国产三级精品| 男人边做边吃奶头视频|