亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向區(qū)塊鏈平臺(tái)的龐氏騙局模式檢測(cè)方法

        2022-05-30 04:29:40毛典輝梁秀霞郝治昊
        關(guān)鍵詞:分類特征智能

        毛典輝,梁秀霞,趙 爽,郝治昊

        (北京工商大學(xué) 計(jì)算機(jī)學(xué)院,北京 100048)

        1 概 述

        2008年,中本聰發(fā)表了《Bitcoin: A Peer-to-Peer Electronic Cash System》[1]一文,討論了一個(gè)電子現(xiàn)金系統(tǒng),它是以區(qū)塊鏈[2-3]為底層架構(gòu)的虛擬貨幣平臺(tái),由此奠定了區(qū)塊鏈技術(shù)發(fā)展的基礎(chǔ)。由于區(qū)塊鏈具有不依賴于第三方管理機(jī)構(gòu),可通過(guò)分布式進(jìn)行數(shù)據(jù)的核算和存儲(chǔ),具有去中心化、不可篡改、可追溯和匿名性等特點(diǎn),為區(qū)塊鏈奠定了堅(jiān)實(shí)的“信任”基礎(chǔ)。正是由于去中心化特性,區(qū)塊鏈技術(shù)游走于法律灰色地帶,缺乏有關(guān)部門的監(jiān)管;匿名性隱藏了用戶的真實(shí)身份,更是增加了區(qū)塊鏈監(jiān)管難度。因此,各種詐騙組織借助區(qū)塊鏈技術(shù)[4]大肆進(jìn)行金融犯罪,如洗錢[5]、釣魚網(wǎng)址[6-7]和龐氏騙局[8]等。根據(jù)加密分析專家Chainalysis的最新報(bào)告[9],以區(qū)塊鏈作為底層技術(shù)的以太坊平臺(tái)(ETH)是深受歡迎的二代區(qū)塊鏈,已經(jīng)成為區(qū)塊鏈詐騙的首選加密平臺(tái)。因此,加強(qiáng)對(duì)以太坊為代表的區(qū)塊鏈平臺(tái)的金融詐騙監(jiān)管迫在眉睫。

        基于智能合約[10-11]的以太坊詐騙又稱為智能龐氏騙局。在龐氏騙局持續(xù)過(guò)程中,隨著投資者的加入,合約將獲得的投資優(yōu)先返還最先加入的人,后續(xù)投資者無(wú)法獲得回報(bào)而失去他們的投資。前者和后者使用相同的投資金額卻沒(méi)有相同金額的回報(bào),這是極其不公平的。顯然,這種合約給大多數(shù)后來(lái)者造成了損失,騙取了大量的財(cái)富。

        對(duì)龐氏騙局智能合約進(jìn)行監(jiān)測(cè)時(shí)面臨了以下挑戰(zhàn):(1)在特征提取方面,要求提取貼近詐騙本質(zhì)的特征,使龐氏騙局能夠具有更好的區(qū)分度;(2)在檢測(cè)分類方面,要求能夠提出減小目標(biāo)泄漏導(dǎo)致的預(yù)測(cè)偏移問(wèn)題,提高分類準(zhǔn)確率的算法。

        針對(duì)上述挑戰(zhàn),該文設(shè)計(jì)了一種基于智能合約混合特征的龐氏騙局檢測(cè)算法,提取交易主體間符合龐氏騙局中回報(bào)不公平的金字塔形式交易特征和能夠區(qū)分龐氏騙局的智能合約操作碼特征,并采用Catboost集成學(xué)習(xí)[12]的分類算法解決算法訓(xùn)練過(guò)程中的梯度偏差以及預(yù)測(cè)偏移問(wèn)題。

        2 技術(shù)方案

        首先從Etherscan.io爬取智能合約相關(guān)交易及合約代碼,從交易記錄中可獲得合約賬戶得到投資的具體金額和時(shí)間戳,以及在回報(bào)分配上的比例,統(tǒng)計(jì)相關(guān)信息得到交易特征。由于智能合約以字節(jié)碼的形式保存于以太坊平臺(tái),該文通過(guò)反匯編將字節(jié)碼轉(zhuǎn)換為操作碼,利用改進(jìn)的TF-IDF[13]獲取合約的代碼特征。將交易特征和代碼特征結(jié)合成混合特征向量,進(jìn)入由若干個(gè)弱分類器組成的Catboost[14]集成學(xué)習(xí),得到龐氏騙局分類訓(xùn)練模型,最終實(shí)現(xiàn)對(duì)新交易合約的預(yù)測(cè)。因此,設(shè)計(jì)的龐氏騙局智能合約檢測(cè)算法技術(shù)路線如圖1所示。

        圖1 整體技術(shù)流程

        2.1 交易特征

        為吸引更多投資者的加入,前期的龐氏騙局賬戶頻繁與投資者互動(dòng),互動(dòng)形式表現(xiàn)為給前期投資者返還回報(bào)利息。因此,龐氏騙局的賬戶余額通常保持在較低水平,而展現(xiàn)在投資者面前的則是一個(gè)守信的合約賬戶,它能夠時(shí)常給投資者返還回報(bào)利息,并且保證所有的投資者都能夠獲得應(yīng)得的回報(bào)。因此,以下交易特征對(duì)分類效果有很好的作用:

        活躍度:記錄智能合約賬戶與外部賬戶(即投資者賬戶)頻繁交易的特點(diǎn)。

        賬戶余額:智能合約賬戶余額。

        投資交易數(shù):對(duì)智能合約進(jìn)行投資交易的次數(shù)。

        返利交易數(shù):從智能合約獲取返利交易的次數(shù)。

        返利者比率:返利者占投資者的百分比。

        最大返利次數(shù):參與者獲得返利的最大次數(shù)。

        通過(guò)觀察交易記錄,發(fā)現(xiàn)在龐氏騙局中,大部分的投資進(jìn)入合約創(chuàng)建者的口袋,而使得回報(bào)總返利金額遠(yuǎn)低于總投資金額。完整詐騙過(guò)程中,在所有投資者獲得回報(bào)之前龐氏騙局便宣告破產(chǎn),使得多數(shù)遲到的投資者得不到回報(bào)。此外,獲得回報(bào)的投資者,其回報(bào)利息的高低也受投資時(shí)間影響,使得回報(bào)差異呈現(xiàn)出一個(gè)高水平?;诖?,提取了可結(jié)合投資與回報(bào)相關(guān)特點(diǎn)的特征,如下:

        總投資額:智能合約賬戶獲得的投資總額。

        總返利額:智能合約賬戶指出的返利總額(詐騙者需要從合約中獲取利益。大部分龐氏騙局不會(huì)將全部投資作為返利返回給參與者,而是將一部分投資作為手續(xù)費(fèi)返利給合約創(chuàng)建者,因此可以看到龐氏騙局中回報(bào)交易的金額高于投資金額)。

        總投資人:進(jìn)行投資的地址賬戶數(shù)。

        總返利人:獲得回報(bào)的地址賬戶數(shù)(并不是所以投資者都可以獲得相應(yīng)的回報(bào)。所以,獲得返利的賬戶地址會(huì)少于投資賬戶地址)。

        返利標(biāo)準(zhǔn)差:智能合約賬戶返利的標(biāo)準(zhǔn)差(投資者回報(bào)金額的標(biāo)準(zhǔn)差反映了回報(bào)的不平衡,并由此判斷處龐氏騙局的回報(bào)金額呈現(xiàn)金字塔結(jié)構(gòu))。

        2.2 代碼特征

        以太坊上龐氏騙局以字節(jié)碼的形式存在,字節(jié)碼可反匯編為操作碼。由于龐氏騙局的行為與普通智能合約的經(jīng)濟(jì)行為有一定的區(qū)別,在操作碼中表現(xiàn)為對(duì)龐氏騙局的重要性不同。獲取操作碼重要指標(biāo)ITF的準(zhǔn)備階段需將從以太坊區(qū)塊鏈瀏覽器上爬取的字節(jié)碼進(jìn)行反匯編以得到操作碼集合,之后通過(guò)ITF算法得到操作碼的重要性。詳細(xì)過(guò)程如下:

        (1)使用pyevmasm工具將EVM字節(jié)碼反匯編成操作碼,通過(guò)預(yù)處理操作,最終得到可作為研究使用的數(shù)據(jù)集合。

        (2)統(tǒng)計(jì)在特定合約內(nèi)特定操作碼出現(xiàn)的次數(shù)以及合約操作碼數(shù),通過(guò)計(jì)算TF實(shí)現(xiàn)對(duì)于操作碼數(shù)量的歸一化處理。

        (3)通過(guò)統(tǒng)計(jì)特定操作碼在合約數(shù)據(jù)集合中出現(xiàn)的頻率和合約數(shù)據(jù)集內(nèi)操作碼的數(shù)量來(lái)度量該詞語(yǔ)對(duì)于合約代碼特征的重要程度。

        (4)計(jì)算特定操作碼的重要指標(biāo)ITF值,即特定操作碼對(duì)特定合同的重要性。

        在特定的智能合約操作碼片段中,操作碼出現(xiàn)的頻率呈現(xiàn)一定的概率,高頻率的特定操作碼是龐氏騙局的代碼特征。該文首先對(duì)操作碼數(shù)量進(jìn)行歸一化處理,以得到龐氏騙局中各操作碼的頻率。以操作碼m為例,對(duì)m進(jìn)行歸一化處理,如公式(1):

        (1)

        其中,TFm為歸一化處理后的頻率;nm為特定操作碼在某一個(gè)龐氏騙局中出現(xiàn)的次數(shù);N為特定操作碼在所有智能合約中出現(xiàn)的次數(shù)。

        之后,公式(2)通過(guò)統(tǒng)計(jì)“m”在合約數(shù)據(jù)集合中出現(xiàn)的頻率來(lái)度量該詞語(yǔ)對(duì)于合約代碼特征的重要程度,即對(duì)該詞語(yǔ)的IDF值進(jìn)行計(jì)算:

        (2)

        其中,S為智能合約數(shù)據(jù)集合中所有操作碼總數(shù);Dm表示智能合約數(shù)據(jù)集合中操作碼“m”的數(shù)量。

        最后,在上述基礎(chǔ)上,通過(guò)公式(3)即可計(jì)算得出詞語(yǔ)“m”的ITF值,若該詞語(yǔ)在龐氏騙局中出現(xiàn)頻率較高,而在智能合約數(shù)據(jù)集合(即其他合約)中出現(xiàn)頻率較低,則認(rèn)為該詞語(yǔ)對(duì)龐氏騙局代碼具有良好的表征能力,有利于與其他智能合約進(jìn)行區(qū)分并實(shí)現(xiàn)分類。

        ITFm=TFm*IFm

        (3)

        其中,TFm和IFm分別來(lái)自公式(1)、公式(2)。ITF與傳統(tǒng)的TF-IDF算法并不十分相同,ITF中采用的是結(jié)合操作碼“m”分別在龐氏騙局的詞頻與在所有數(shù)據(jù)集中的詞頻表示其對(duì)于龐氏騙局的重要程度,這種算法更適合于提取操作碼的特征。

        3 分類模型

        由于交易是一種復(fù)雜的經(jīng)濟(jì)行為,龐氏騙局與其他經(jīng)濟(jì)行為相似度高,易混淆。普通的機(jī)器學(xué)習(xí)在龐氏騙局檢測(cè)上得不到優(yōu)秀的準(zhǔn)確率,一般的集成學(xué)習(xí)也容易在一定程度上產(chǎn)生預(yù)測(cè)偏離的問(wèn)題,使得最終的準(zhǔn)確率并不讓人信服其分類效果。

        該文采用了Catboost集成學(xué)習(xí)算法來(lái)訓(xùn)練龐氏騙局檢測(cè)模型。與其他的集成學(xué)習(xí)方法相比,Catboost為訓(xùn)練集生成一個(gè)隨機(jī)序列處理特征類別,同時(shí)使用完全對(duì)稱的二叉決策樹[15]作為基礎(chǔ)預(yù)測(cè)器解決預(yù)測(cè)偏移的問(wèn)題,提高了分類效果的準(zhǔn)確性。圖2是分類器的技術(shù)框架。

        圖2 分類模型技術(shù)框架 把爬取到的數(shù)據(jù)視為一個(gè)數(shù)據(jù)集D={(xk,yk)|k=1,2,…,n},其中

        是m個(gè)特征的隨機(jī)向量,yk是數(shù)據(jù)xk的標(biāo)簽,若yk=1,表示xk是數(shù)據(jù)集里的一個(gè)龐氏騙局賬戶,反之則表示xk是其他正規(guī)的賬戶。每個(gè)(xk,yk)都是獨(dú)立的,它根據(jù)某個(gè)未知的分布P(.,.)恒等分布。設(shè)置σ=(σ1,σ2,…,σn)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)排列。根據(jù)式(4)得到數(shù)值型特征:

        (4)

        其中,[xσj,k=xσp,k]是一個(gè)艾弗森括號(hào),當(dāng)xσj,k=xσp,k時(shí)可得結(jié)果k=1,否則等于0。這里表示隨機(jī)排列的數(shù)據(jù)集與原來(lái)的數(shù)據(jù)集進(jìn)行匹配,p是一個(gè)先驗(yàn)值,其權(quán)值為a,其中a>0。

        需要訓(xùn)練近似函數(shù)F:Rm->R來(lái)盡可能降低在特征轉(zhuǎn)換過(guò)程的損失:

        L(F):=EL(y,F(x))

        (5)

        其中,L(.,.)是平滑損失函數(shù),(x,y)是獨(dú)立于訓(xùn)練集D的測(cè)試集P中的樣例。

        根據(jù)近似函數(shù)Ft=Ft-1+?ht,可以得到一系列迭代Ft:Rm->R,其中α是步長(zhǎng),函數(shù)ht是一個(gè)基礎(chǔ)預(yù)測(cè)器,可以將預(yù)期的損失降到最低。

        使用最小二乘近似,負(fù)梯度步近似最小化問(wèn)題:

        (6)

        在Catboost的基本預(yù)測(cè)器中,完全對(duì)稱二叉決策樹遞歸地將特征空間Rm劃分為若干個(gè)獨(dú)立區(qū)域Rj(樹節(jié)點(diǎn)),bj為葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)被分配一個(gè)值,該值是被預(yù)測(cè)的類別。根據(jù)xk>t判斷最終所屬類別。決策樹h可以寫成:

        (7)

        4 實(shí)驗(yàn)結(jié)果

        4.1 實(shí)驗(yàn)環(huán)境及參數(shù)

        提取特征及分類模型訓(xùn)練實(shí)驗(yàn)都是在anaconda內(nèi)使用Python 3.6環(huán)境下來(lái)完成的。在實(shí)驗(yàn)過(guò)程中,采用Catboost深度學(xué)習(xí)框架構(gòu)建龐氏騙局檢測(cè)模型并進(jìn)行模型訓(xùn)練。使用了anaconda自帶的一些工具包數(shù)據(jù)的處理分析,如pandas、numpy等。

        4.2 數(shù)據(jù)集

        獲取的代碼數(shù)據(jù)有重復(fù)或破損,手動(dòng)檢查并刪除了無(wú)效地址,最終實(shí)際得到1 393個(gè)非龐氏騙局的地址和123個(gè)龐氏騙局的地址。在數(shù)據(jù)集中交易數(shù)據(jù)與合約數(shù)據(jù)分別保存在不同的文件夾。其中,每個(gè)合約地址都有對(duì)應(yīng)的若干個(gè)歷史交易。每個(gè)交易都含有時(shí)間戳、交易金額和手續(xù)費(fèi)等信息。合約操作碼以文本文檔文件保存,每一個(gè)智能合約都是一個(gè)字典格式。

        4.3 評(píng)判標(biāo)準(zhǔn)

        需要通過(guò)優(yōu)秀的性能指標(biāo)來(lái)判斷分類模型的性能。使用精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)來(lái)評(píng)判分類模型的性能。各項(xiàng)指標(biāo)計(jì)算公式如下:

        (8)

        (9)

        (10)

        4.4 實(shí)驗(yàn)結(jié)果與分析

        4.4.1 特征提取結(jié)果

        該文利用交易數(shù)據(jù)提取了11個(gè)相關(guān)特征。提取的特征中不僅有與合約相關(guān)的余額、活躍度等特征,同時(shí)包含從參與者角度的投資和返利相關(guān)數(shù)據(jù)。最后以龐氏騙局和非龐氏騙局為集合分別將提取的特征值計(jì)算得到均值和標(biāo)準(zhǔn)差,結(jié)果如表1所示。

        表1 交易特征

        表1中清楚地展示了各項(xiàng)交易特征的均值和標(biāo)準(zhǔn)值。發(fā)現(xiàn)龐氏騙局各項(xiàng)標(biāo)準(zhǔn)差都小于非龐氏騙局,表示龐氏騙局各項(xiàng)交易特征的值比較接近,更有可能具有相似的行為。例如:龐氏騙局的活躍度標(biāo)準(zhǔn)差小于非龐氏騙局的活躍度標(biāo)準(zhǔn)差,而其均值卻相對(duì)大得多?;钴S度越高表示龐氏騙局希望通過(guò)與投資者互動(dòng)返利以吸引越多的投資者。

        該文參考了TF-IDF的思想,利用改進(jìn)的新算法ITF提取合約的操作碼特征。操作碼特征分別在龐氏騙局和非龐氏騙局中的均值如表2所示,其中,Ponzi為1的列數(shù)據(jù)表示龐氏騙局的數(shù)據(jù)。

        表2 智能合約部分ITF取值

        在表2中最后一項(xiàng),當(dāng)Ponzi=1時(shí)表示為龐氏騙局,Ponzi=0表示為非龐氏騙局。表中所有的數(shù)據(jù)表示為代碼特征的均值,可以看到此九個(gè)操作碼在龐氏騙局的ITF值較非龐氏騙局的高,將其作為特征進(jìn)行分類有極大可能增加分類的準(zhǔn)確率。

        4.4.2 分類結(jié)果

        使用的Catboost集成學(xué)習(xí)分別與Knn、SVM[16]、DT、XGBoost[17]和RF[18]做了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示,其中Tra表示分類過(guò)程僅使用交易特征進(jìn)行實(shí)驗(yàn),Code表示僅使用代碼特征進(jìn)行實(shí)驗(yàn),而Com表示用混合特征進(jìn)行分類實(shí)驗(yàn)。

        從表3中可以看到,提出的混合特征和基于Catboost的龐氏騙局檢測(cè)方法性能更好,原因在于Catboost對(duì)新增的特征有很好的適應(yīng)性,其完全對(duì)稱樹可在最大程度上避免預(yù)測(cè)便宜問(wèn)題。提出的Catboost模型雖然在僅使用交易特征的實(shí)驗(yàn)中結(jié)果并不好,但結(jié)合代碼特征卻能夠得出最好的結(jié)果。在使用混合特征的Catboost實(shí)驗(yàn)各項(xiàng)評(píng)判指標(biāo)均達(dá)到最優(yōu),因此可以認(rèn)為Catboost能夠很好地利用交易特征與代碼特征,使得結(jié)果最優(yōu)化。若是僅使用代碼特征進(jìn)行實(shí)驗(yàn),XGBoost與RF的表現(xiàn)似乎都不錯(cuò),但是不要忽視了在Recall指標(biāo)上XGBoost比RF高了3個(gè)百分點(diǎn),其表明XGBoost更容易得到龐氏騙局的正確分類。如果僅使用代碼特征結(jié)果都不算好。分析各種模型后,發(fā)現(xiàn)DT在僅使用交易特征的實(shí)驗(yàn)中可以得出相對(duì)較好的結(jié)果,尤其在Recall和F1-score指標(biāo)上明顯強(qiáng)于其他分類模型。在缺少智能合約的龐氏騙局上可能能夠得到最優(yōu)的結(jié)果,因此DT可能更加適應(yīng)于Bitcoin或其他第一代區(qū)塊鏈的詐騙檢測(cè)。

        表3 分類結(jié)果對(duì)比實(shí)驗(yàn)

        采用Catboost在特征提取前后的實(shí)驗(yàn)效果對(duì)比如圖3所示。其中,其他交易特征指的是僅與合約相關(guān)的余額、活躍度等特征,文中交易特征在其他交易特征的基礎(chǔ)上考慮了提取投資與回報(bào)相關(guān)特征;其他代碼特征值操作碼詞頻,文中代碼特征是提取操作碼的ITF值;相應(yīng)的混合特征則是將交易特征與代碼特征混合形成特征向量。

        圖3(a)、(b)、(c)表示僅使用交易特征、僅使用代碼特征和使用了混合特征。新提取的特征能夠在各項(xiàng)指標(biāo)上勝于先前提取的特征,這表明了提取的交易特征與代碼特征都對(duì)龐氏騙局有更好的表征能力。且從圖3(d)中可以看到,代碼特征可以輔助代碼特征,使得結(jié)合二者的混合特征可以在代碼特征的實(shí)驗(yàn)上略勝一籌。鑒于此,在所有的詐騙中,即使代碼特征可以很好地作用檢測(cè)的特點(diǎn),也不能忽視交易數(shù)據(jù)的幫助。

        圖3 特征提取前后實(shí)驗(yàn)結(jié)果

        4.4.3 模型參數(shù)變化影響分析

        在使用Catboost模型對(duì)龐氏騙局進(jìn)行檢測(cè)分類時(shí),參數(shù)會(huì)影響分類模型的性能,需要通過(guò)實(shí)驗(yàn)選取最好的參數(shù)值。該文選取對(duì)模型性能影響較大的參數(shù)進(jìn)行實(shí)驗(yàn),包括交叉驗(yàn)證的K值、損失函數(shù)、樹的深度depth以及學(xué)習(xí)率learning rate。各參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響如圖4所示。

        (1)K折交叉驗(yàn)證(K-fold cross validation)指的是把訓(xùn)練數(shù)據(jù)D分為K份,用其中的K-1份訓(xùn)練模型,剩余的1份數(shù)據(jù)用于評(píng)估模型的質(zhì)量。將這個(gè)過(guò)程在K份數(shù)據(jù)上依次循環(huán),并對(duì)得到的K個(gè)評(píng)估結(jié)果進(jìn)行合并,如回歸問(wèn)題求平均或分類問(wèn)題投票。由圖4中可以看到,混合特征各項(xiàng)性能指標(biāo)隨交叉驗(yàn)證K值變化而變化。

        圖4(a)中,在K=5時(shí),Precision達(dá)到最高,然而此時(shí)Recall與F1-score指標(biāo)過(guò)低,龐氏騙局大量被誤判為非龐氏騙局,分類模型最好的情況是三項(xiàng)指標(biāo)均接近1;在K=12時(shí),各指標(biāo)分別為:Precision=0.90,Recall=0.77,F(xiàn)1-score=0.82,幾乎都已達(dá)到最優(yōu)。若K值進(jìn)一步增加,三項(xiàng)指標(biāo)迅速下滑,幾乎可以認(rèn)為,在K=12時(shí)提出的分類模型達(dá)到最優(yōu)的值。

        (2)在loss參數(shù)的選擇上,Catboost適用的loss函數(shù)包括Logloss、CrossEntropy和MultiClassOeaVsAll,Logloss損失函數(shù)能非常好地表征概率分布,對(duì)于分類問(wèn)題可以很好地判斷分類結(jié)果屬于每個(gè)類別的置信度,非常適合于該文的分類問(wèn)題。由圖4(b)可以看出,Logloss函數(shù)對(duì)分類確實(shí)得到了良好的效果,因此,該文選用Logloss作為分類模型的損失函數(shù)。

        (3)在基學(xué)習(xí)器的分類中,二叉樹的深度對(duì)分類效果有一定的影響。過(guò)深的depth不僅不會(huì)提高分類的效果,同時(shí)極有可能造成分類結(jié)果的過(guò)擬合。從圖4(c)可以看出,在depth=9之前,隨著depth深度的提高,分類效果呈現(xiàn)先增后減的趨勢(shì),同時(shí)在depth=6時(shí)達(dá)到最優(yōu)的性能,因此,選取depth=6作為實(shí)驗(yàn)過(guò)程中的深度參數(shù)。

        圖4 參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

        (4)學(xué)習(xí)率作為監(jiān)督學(xué)習(xí)中重要的超參,其決定著目標(biāo)函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值。合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到局部最小值。從圖4(d)可以看出,隨著學(xué)習(xí)率的遞增,分類效果的三項(xiàng)指標(biāo)均大致呈現(xiàn)一個(gè)遞減的趨勢(shì),雖然在0.3時(shí)有一定的提升,但是提升效果沒(méi)有超過(guò)0.1時(shí)的,因此,斷定在learning_rate=0.1分類效果達(dá)到最優(yōu)。

        在實(shí)驗(yàn)的最后發(fā)現(xiàn),部分龐氏騙局所有投資人都獲得了回報(bào),從交易特征觀察似乎并不符合龐氏騙局。這樣的龐氏騙局占比達(dá)到1∶5。查看這些賬戶的源代碼,發(fā)現(xiàn)其回報(bào)分配依舊呈現(xiàn)金字塔形態(tài)。另外,這些賬戶的投資者數(shù)量都太小。因此可以判斷,這部分龐氏騙局是被正確分類的,但是由于是創(chuàng)建初期,其仍屬于吸引投資時(shí)期,需要靠給投資者分配回報(bào)增加它的影響力。

        5 結(jié)束語(yǔ)

        在對(duì)以太坊平臺(tái)的龐氏騙局進(jìn)行檢測(cè)中,提出了一種新的特征提取方法。在交易特征上還原龐氏騙局的金字塔回報(bào)率形式。在代碼特征提取方面,借助TF-IDF的思想,提出了一種結(jié)合頻率的操作碼重要指數(shù)的特征提取方式,提取的代碼特征從數(shù)據(jù)集出發(fā),表示其對(duì)龐氏騙局的重要程度。針對(duì)訓(xùn)練過(guò)程梯度偏差以及預(yù)測(cè)偏移問(wèn)題,提出了新的集成學(xué)習(xí)方法Catboost,使用完全二叉樹作為基礎(chǔ)分類器在最大程度上解決計(jì)算梯度估計(jì)時(shí)存在目標(biāo)泄漏導(dǎo)致的預(yù)測(cè)偏移問(wèn)題。

        該方法在一定程度上仍存在少許不足,如召回率只達(dá)到了82%,意味18%的龐氏騙局被遺漏。在未來(lái)工作中,需對(duì)分類模型進(jìn)行改進(jìn),以期達(dá)到更高的準(zhǔn)確率。此外,類別不平衡對(duì)實(shí)驗(yàn)結(jié)果仍存在一定的影響,后續(xù)工作中不可將類別不平衡問(wèn)題的處理全部寄托于模型中,可考慮擴(kuò)大龐氏騙局類別數(shù)量,一定最大限度類別不平衡帶來(lái)的影響。

        猜你喜歡
        分類特征智能
        分類算一算
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        亚洲无码精品免费片| 蜜臀av在线播放一区二区三区| 女人被躁到高潮嗷嗷叫| 国产杨幂AV在线播放| 一区二区三区日本视频| 日本一区二区三级在线| 91九色人妻精品一区二区三区| 91久久精品国产综合另类专区| 宅男亚洲伊人久久大香线蕉| 久久无码高潮喷水抽搐| 国产不卡视频一区二区三区| 在线涩涩免费观看国产精品 | 久久九九青青国产精品| 精品国产乱码一区二区三区在线| 亚洲国产精品日韩专区av| 丰满人妻一区二区三区精品高清| 亚洲中文字幕在线第六区| 亚洲人成人无码www| 777国产偷窥盗摄精品品在线| 国产麻豆剧传媒精品国产av| 2019年92午夜视频福利| 午夜免费福利在线观看| 国产美女裸身网站免费观看视频| 亚洲精品中文有码字幕| 91中文在线九色视频| 性感女教师在线免费观看| 国产白嫩护士被弄高潮| 国产一区二区三区在线观看免费 | 91露脸半推半就老熟妇| 精精国产xxxx视频在线播放| a国产一区二区免费入口| 国产精品女同久久免费观看| 操老熟妇老女人一区二区| 国产精品自产拍在线18禁 | 欧美精品亚洲精品日韩专区| 熟妇人妻无乱码中文字幕| 精品性影院一区二区三区内射| 色爱无码A V 综合区| 国产精品人成在线观看不卡| 永久天堂网av手机版| 国产精品_国产精品_k频道|