亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于并行的區(qū)塊鏈異常交易檢測隨機森林模型研究

        2022-01-24 08:04:22趙永斌尤軍考
        河北省科學院學報 2021年5期
        關(guān)鍵詞:決策樹進程邏輯

        趙永斌,陳 苗,李 濤,尤軍考

        (1.石家莊鐵道大學信息科學與技術(shù)學院,河北 石家莊 050043;2.中國鐵路北京局集團有限公司石家莊電務段,河北 石家莊 050000;3.中國移動通信集團河北有限公司,河北 石家莊 050000)

        0 引言

        比特幣作為區(qū)塊鏈的首個廣泛應用,伴隨著區(qū)塊鏈技術(shù)發(fā)展逐漸成為區(qū)塊鏈研究的重點。作為第一個公開使用的私人數(shù)字貨幣,其具有去中心化、匿名性、轉(zhuǎn)賬成本低、全球流通便捷等特性,降低了人們踏入金融行業(yè)的門檻[1]。但是,由于加密貨幣不受政府控制,允許個人和組織繞過法律及監(jiān)管部門的監(jiān)管,由此導致洗錢等一些非法交易逐漸猖獗。根據(jù)美國聯(lián)邦調(diào)查局(FBI)的報告稱,從2015年到2017年,與虛擬貨幣相關(guān)的案件增長了近6倍,僅在2018年上半年中,加密貨幣犯罪就在2017年全年數(shù)量的基礎(chǔ)上增長了3倍。2020年,Mirror Trading International在南非實施了世界上最大的加密貨幣騙局,數(shù)十萬受害者被騙走了價值5.88億美元的比特幣。2021年4月,南非再次出現(xiàn)了更大一起的加密貨幣案件,一家名為Africrypt公司的兩位創(chuàng)始人,在幾個小時內(nèi)從投資者那里竊取了36億美元。Chainalysis發(fā)布的最新加密犯罪報告指出,俄羅斯、中國、美國、英國、法國、烏克蘭、韓國、越南、土耳其和南非是從非法地址接收加密貨幣數(shù)量最多的國家[2]。因此,對以比特幣為代表的區(qū)塊鏈異常交易行為檢測刻不容緩。

        異常交易檢測方法主要分為無監(jiān)督、有監(jiān)督兩類。無監(jiān)督學習技術(shù)包括自組織映射[3]和Peer Group Analysis[4];監(jiān)督學習技術(shù)有決策樹[5]、邏輯回歸[6]、貝葉斯信念網(wǎng)絡(貝葉斯網(wǎng)絡)[7]、關(guān)聯(lián)規(guī)則[8]、支持向量機[6]、遺傳算法[9]。近年來,發(fā)展起來的基于多學習器組合的集成學習方法,在欺詐檢測領(lǐng)域取得良好的效果。2018年,Navanushu Khare等人在高度傾斜的欺詐數(shù)據(jù)集上進行了邏輯回歸、隨機森林、決策樹、SVM對比實驗,指出隨機森林效果明顯優(yōu)于其他算法[10]。同年,Massimo Bartoletti等人進行了多組對比實驗,實驗同樣表明隨機森林方法是檢測龐氏騙局最為有效且通用的方法[11]。2019年,Mark Weber等人指出:邏輯回歸具有較強的可解釋性,隨機森林具有較強的準確性,能有效用于比特幣反洗錢檢測[12]。隨機森林準確性較高但訓練時間較長,邏輯回歸雖然訓練時間較短但準確性較差,因此本文提出了一種并行隨機森林訓練模型的方法,通過創(chuàng)建多個進程并行處理計算任務,提升數(shù)據(jù)計算的效率,有效解決了隨機森林訓練時間較長的問題。

        1 相關(guān)技術(shù)與研究

        1.1 邏輯回歸

        目前邏輯回歸主要用于解決二分類問題,其內(nèi)容主要包含假設(shè)函數(shù)、決策邊界、代價函數(shù)和參數(shù)優(yōu)化[13]。

        (1)假設(shè)函數(shù)。構(gòu)造假設(shè)函數(shù)以多變量線性回歸為基礎(chǔ),綜合考慮多個變量得到其線性組合。二分類采用非線性函數(shù) Sigmoid將線性回歸計算的結(jié)果映射到[0,1]區(qū)間。計算邏輯回歸的假設(shè)函數(shù)為式(1)所示。

        (1)

        其中x為多維輸入變量,θ為多維輸入變量對應的權(quán)值。

        (2)決策邊界。經(jīng)過sigmoid非線性函數(shù)可以將任意連續(xù)值映射為 [0,1] 區(qū)間內(nèi)的值,但并不是二值映射,為得到二分類問題的最終結(jié)果,可以通過設(shè)定決策邊界來將連續(xù)值轉(zhuǎn)化為離散的二值。例如設(shè)定的邊界為0.5,函數(shù)的輸出大于0.5時,即將該結(jié)果視為1,否則視為0。

        (3)代價函數(shù)。代價函數(shù)用于評判對實際問題擬合效果的好壞。代價函數(shù)越小代表模型在實際問題上的適應性越好,反之則越差。邏輯回歸的代價函數(shù)計算訓練集中每一個樣本的偏差值并取平均,為更好地適應二分類問題會對每個樣本的偏差進行對數(shù)運算,代價函數(shù)的計算如公式(2)所示,代價函數(shù)的向量化表示見公式(3)。

        (2)

        (3)

        其中x為多維輸入變量,θ為多維輸入變量對應的權(quán)值,h為樣本對應的實際輸出。

        (4)參數(shù)優(yōu)化方法。不斷修改權(quán)值使代價函數(shù)減小的過程即為參數(shù)優(yōu)化。采用梯度下降算法更新邏輯回歸參數(shù)[14],通過不斷計算代價函數(shù)關(guān)于權(quán)值的梯度,并利用梯度負方向為函數(shù)下降速度最快的方向這一準則更新權(quán)值,使代價函數(shù)能隨梯度的更新不斷下降。對式(2)所示代價函數(shù)的構(gòu)造形式,可得到其相對于各個權(quán)值的梯度,從而得出權(quán)值的更新規(guī)則,如公式(4)所示,權(quán)值更新規(guī)則的向量化表達公式(5)所示。

        (4)

        (5)

        其中α為學習率,其大小代表了參數(shù)更新的速度。

        1.2 隨機森林

        隨機森林由多棵決策樹組成,決策樹是一種非常典型的分類方法,其形狀像一棵樹,其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點則代表一種類別。目前經(jīng)典的決策樹算法有ID3、C4.5和CART[15]。決策樹中的相關(guān)概念如下:

        (1)信息。香農(nóng)指出信息是事物運動狀態(tài)或存在方式的不確定的描述[16]。在決策樹中,集合分類后,某類中事件xi的信息量定義為:

        I(X=xi)=-log2(p(xi))

        (6)

        其中I(x)用來表示隨機變量的信息量,p(xi)為隨機事件xi發(fā)生時的概率。

        (2)信息熵。信息熵用于衡量事件集合的不確定性,當熵越大,集合的不確定性越大,反之則越小。事件集合X熵的定義如下:

        (7)

        對于機器學習中的分類問題,熵越大表示該類別的不確定性越大,反之則越小。

        (3)信息增益。ID3決策樹算法中使用信息增益作為選擇特征的指標,增益越大,則代表這個特征的選擇性越好。信息增益的具體定義如下:

        Gain(X,A)=H(X)-H(X|A)

        (8)

        其中H(X)是事件集的熵,H(X|A)是按照屬性A劃分后的條件熵。

        (4)信息增益率。在C4.5決策樹算法中使用信息增益率作為選擇特征的指標,優(yōu)化了信息增益偏向值個數(shù)多的屬性的缺陷。具體公式如下:

        (9)

        (5)基尼指數(shù)。CART決策樹算法中基尼指數(shù)作為選擇特征的指標,代表數(shù)據(jù)的純度?;嶂笖?shù)越大,則代表數(shù)據(jù)越不純,也就說明不確定性越大,進行分類也就越困難。

        (10)

        其中p(x)表示樣本屬于某個類別的概率。

        隨機森林屬于集成算法中的Bagging類型,訓練多個弱分類器,各自獨立做出預測,將弱分類器的結(jié)果進行投票得到最后結(jié)果,使模型得到的最終結(jié)果擁有較高的泛化能力和精確度。隨機森林之所以能具有較好的效果,是因為“隨機”使模型具有抗過擬合能力,“森林”使模型更加準確。

        1.3 區(qū)塊鏈異常交易檢測數(shù)據(jù)集

        Elliptic數(shù)據(jù)集[17]進行區(qū)塊鏈異常交易檢測,數(shù)據(jù)集包含合法的真實實體和非法實體。合法實體有礦工、錢包提供商、交易所等。非法實體有恐怖組織、詐騙、龐氏騙局、惡意軟件、勒索軟件等,共計203769個節(jié)點交易以及234355條邊,其中4545筆交易被標記為非法,42019筆交易被標記為合法,其余未被標記,其中合法與非法標記過程是由基于啟發(fā)式的推理過程決定。根據(jù)時間戳,此數(shù)據(jù)集將交易劃分為49個時間步長。每筆交易具有166個交易相關(guān)特征,其中有原生特征94個,如時間步長、手續(xù)費等;聚合特征72個,如從中心節(jié)點向前/向后一跳聚合事務信息計算得出的最小值、最大值、相關(guān)系數(shù)和標準差等[12]。

        本文采用Elliptic數(shù)據(jù)集中的前26個特征,隨機選取21000條已標記數(shù)據(jù),按照7∶3劃分訓練集,測試集。實驗數(shù)據(jù)集各類別數(shù)量如表1所示。

        表1 樣本數(shù)量分布

        1.4 基于邏輯回歸的區(qū)塊鏈異常交易檢測

        Mark Weber等人曾采用邏輯回歸進行區(qū)塊鏈異常交易檢測,其采用Elliptic數(shù)據(jù)集中帶標簽的全部數(shù)據(jù)按照7∶3劃分訓練集,測試集[12]。首先對Elliptic數(shù)據(jù)集進行預處理,然后訓練得到邏輯回歸模型,最后通過模型檢測異常交易。使用邏輯回歸進行區(qū)塊鏈異常交易檢測流程如圖1所示。

        圖1 基于邏輯回歸的區(qū)塊鏈異常交易檢測

        1.5 基于隨機森林的區(qū)塊鏈異常交易檢測

        Mark Weber等人曾采用隨機森林進行區(qū)塊鏈異常交易檢測,其采用Elliptic數(shù)據(jù)集中帶標簽的全部數(shù)據(jù)按照7∶3劃分訓練集,測試集[12]。過程中采用Bootstrap抽樣的方法得到各棵決策樹的訓練集,通過各棵決策樹得出測試結(jié)果,最終再通過投票得出區(qū)塊鏈異常交易檢測的結(jié)果。訓練測試m棵決策樹的隨機森林異常交易檢測過程如圖2所示。

        圖2 隨機森林模型

        此方法沒有利用好每棵決策樹都相互獨立的特點,導致訓練時間過長,所以完全可以開啟多個進程,讓每個進程并行生成決策樹進行異常交易檢測,優(yōu)化訓練耗時較長的弊端。

        2 基于并行隨機森林的區(qū)塊鏈異常交易檢測

        2.1 并行隨機森林檢測模型

        并行隨機森林進行區(qū)塊鏈異常交易檢測的過程中采用預處理后的Elliptic數(shù)據(jù)集,生成多個進程,由各個進程共同承擔建樹的任務,運用Bootstrap抽樣的方法得到各棵決策樹的訓練集,生成決策樹后預測結(jié)果,各進程檢測結(jié)果通過投票得出,最后再通過各進程檢測結(jié)果投票得出最終結(jié)果,n個進程并行訓練m棵決策樹的隨機森林異常交易檢測過程如圖3所示。訓練多進程隨機森林模型的具體過程為:

        Step1計算每個進程應生成決策樹的個數(shù), tree_nums←隨機森林中決策樹的數(shù)量(n_estimators)/進程數(shù)(n_processes)。

        Step2生成n_processes個進程,再分別將訓練集、標簽集、決策樹參數(shù)等信息傳入單進程訓練函數(shù)進行訓練。

        進程代碼如下:

        #detree_queue,決策樹隊列;i, 進程號;tree_nums,進程中需生成決策樹的個數(shù);Tr,訓練集;Te,標簽集;detr_args,決策樹參數(shù);processes,進程列表

        for i in range(self. n_processes):

        p =Process(target=signal_train, args=(self.detree_queue, i, tree_nums , Tr, Te, detr_args))

        p.start()

        processes.append(p)

        for p in processes:

        p.join()

        Step3單進程訓練函數(shù)(signal_train)訓練tree_nums棵樹,每棵樹用bootstrap方法生成的訓練集訓練決策樹,最后將決策樹存入隊列(隨機森林)。

        圖3 并行隨機森林模型

        2.2 實驗環(huán)境

        實驗采用聯(lián)想LiCO智能超算平臺,單節(jié)點16核進行訓練,本地計算機配置為Intel(R) Core(TM) i5-4210M CPU @ 2.60GHz,8.00 GB內(nèi)存。編程語言為python3.6.8,編程中采用scikit-learn庫,隨機森林與并行隨機森林實驗中參數(shù)n_estimators設(shè)置為500,其他參數(shù)選取為默認值。

        2.3 實驗結(jié)果分析

        2.3.1 評價指標

        區(qū)塊鏈異常交易檢測采用precision,recall和F1三個指標衡量實驗效果,具體定義如下:

        (11)

        (12)

        (13)

        實驗中異常交易為正例(positive),正常交易為負例(negative)。TN代表實際與檢測結(jié)果皆為異常交易的個數(shù)。FP代表實際為異常交易,但檢測結(jié)果為正常交易的個數(shù)。FN代表實際為正常交易,但檢測結(jié)果為異常交易的個數(shù)。TP代表實際與檢測結(jié)果皆為正常交易的個數(shù)。

        2.3.2 邏輯回歸實驗

        表2列出了基于邏輯回歸的區(qū)塊鏈異常交易檢測結(jié)果。雖然訓練時間僅為0.163s,但其較低的precision、recall、F1表明邏輯回歸不適合成為檢測區(qū)塊鏈異常交易的方法。

        表2 邏輯回歸異常交易檢測結(jié)果

        2.3.3 并行隨機森林實驗

        表3列出了隨機森林與2-8進程并行隨機森林模型的異常交易檢測結(jié)果。在采用同樣環(huán)境和數(shù)據(jù)集的情況下,結(jié)果表明隨機森林和不同進程數(shù)并行訓練出的隨機森林模型在precision,recall,F1上保持一致,且具有較高的分類準確性。

        表3 隨機森林及多進程并行隨機森林的異常交易檢測結(jié)果比較

        為了進一步驗證實驗結(jié)論,分別進行了14000條和7000條樣本的對比實驗,并行隨機森林模型的訓練時間均明顯下降,如圖4、圖5所示。

        圖4 不同樣本量數(shù)據(jù)集進程數(shù)與訓練時長的關(guān)系圖

        圖5 不同樣本量數(shù)據(jù)集訓練時間下降率圖

        從實驗結(jié)果看,不同樣本量數(shù)據(jù)集的并行隨機森林在訓練時間下降率上并沒有明顯差異。隨著進程數(shù)取值越大,訓練時長下降的效果也越來越好,當八進程并行訓練隨機森林時,時間下降率可達到85%左右,但整體并不是呈線性趨勢,時間下降先快后慢,當進程數(shù)逐漸增多時,出現(xiàn)時間下降不明顯的現(xiàn)象。因此如何能更好地平衡運算時間和通信時間極為重要。當運算時間所占比例越多,通信時間所占比例越少的時候并行運算效率達到最大。仿真實驗表明基于多進程并行隨機森林的區(qū)塊鏈異常交易檢測在不降低準確性的同時,節(jié)省了大量訓練時間。

        3 結(jié)論

        針對以比特幣為代表的區(qū)塊鏈異常交易檢測,在分析隨機森林與邏輯回歸訓練模型的特點基礎(chǔ)上,提出了并行隨機森林訓練模型,此模型在不降低準確性的前提下,大幅減少了訓練時間,為區(qū)塊鏈異常交易檢測技術(shù)提供了新的解決方案。在今后的研究工作中,將深入優(yōu)化基于并行隨機森林的異常交易檢測算法,提高檢測的效率與準確性。

        猜你喜歡
        決策樹進程邏輯
        刑事印證證明準確達成的邏輯反思
        法律方法(2022年2期)2022-10-20 06:44:24
        邏輯
        創(chuàng)新的邏輯
        債券市場對外開放的進程與展望
        中國外匯(2019年20期)2019-11-25 09:54:58
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        女人買買買的神邏輯
        37°女人(2017年11期)2017-11-14 20:27:40
        基于決策樹的出租車乘客出行目的識別
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        社會進程中的新聞學探尋
        民主與科學(2014年3期)2014-02-28 11:23:03
        女同三级伦理在线观看| 久久AⅤ无码精品为人妻系列| 四虎影视久久久免费| 久久九九av久精品日产一区免费 | 久久不见久久见免费视频6| 亚洲国产美女精品久久久| 亚洲成a人片在线网站| 日本最新在线一区二区| 亚洲av日韩一卡二卡| 屁屁影院ccyy备用地址| 国产在线一91区免费国产91| 特黄三级一区二区三区| 美女扒开腿露内裤免费看| 亚洲国产精品国自产拍av| 亚洲色偷偷色噜噜狠狠99| 国产精品人成在线观看| 久久一区二区三区少妇人妻| 最新日本一道免费一区二区| 成年女人永久免费看片| 在线观看视频日本一区二区三区 | 精品午夜福利在线观看| 亚洲日韩中文字幕一区| 国产女奸网站在线观看| 国产精品又爽又粗又猛又黄| 中文人妻熟女乱又乱精品| 精品香蕉久久久爽爽| 精品高清国产乱子伦| 中文字幕av永久免费在线| 中国丰满人妻videoshd| 国产亚洲精品看片在线观看| 男女啪啪免费视频网址| 亚洲国产日韩a在线乱码| 亚洲 自拍 另类 欧美 综合 | 国产精品自在线拍国产| 亚洲韩国在线| 蜜桃视频在线在线观看| 精品欧洲av无码一区二区14| 国产AV无码专区亚洲AⅤ| 日韩精品免费一区二区中文字幕| 精品天堂色吊丝一区二区| 四川老熟女下面又黑又肥|