亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習的比特幣去匿名化方法研究

        2021-12-20 12:34:52郭文生馮志淇張露晨楊菁林
        計算機工程 2021年12期
        關(guān)鍵詞:特征模型

        郭文生,楊 霞,馮志淇,張露晨,楊菁林

        (1.電子科技大學 信息與軟件工程學院,成都 610000;2.成都鏈安科技有限公司,成都 610000;3.國家互聯(lián)網(wǎng)應(yīng)急中心,北京 100000)

        0 概述

        比特幣是世界上第一個點對點加密貨幣系統(tǒng),其并非紙幣或金幣銀幣那樣獨立的個體,而是一套電子現(xiàn)金系統(tǒng),與支付寶有一定的類似之處。比特幣存在于網(wǎng)絡(luò)中,可以不經(jīng)過任何中心機構(gòu)就完成全球轉(zhuǎn)賬,且其發(fā)行、支付以及驗證自成系統(tǒng),因此,比特幣是一種總量有限、無國界、無發(fā)行中心、無管理中心、遍布全球且自由流通的全新貨幣。此外,比特幣具有匿名化的特點,不需要用戶進行實名認證,更不需要身份驗證,只要有比特幣地址就可進行比特幣交易,且比特幣地址無需復用,一個用戶可以擁有多個比特幣地址。比特幣具有無國界、去中心化、匿名化的優(yōu)點,因此,近年來其價格大幅提升,達到上萬億美元的市值,形成了一個遍布全球卻沒有管理中心的社區(qū),并成為加密貨幣的主流幣種。比特幣便捷低廉的跨國交易、潛在的投資價值等因素,是人們積極參與比特幣投資的主要原因。但是,比特幣地址的匿名性使交易用戶的真實身份得以隱藏,導致比特幣被一些不法分子應(yīng)用于各類非法活動中。例如,2017年5月有上百個國家和地區(qū)超過10萬臺電腦被感染勒索病毒W(wǎng)annaCry[1],病毒制造者利用比特幣獲取了大量贖金。在面對比特幣存在的非法交易問題時,執(zhí)法部門需要獲取比特幣和用戶之間的關(guān)聯(lián)信息,將其作為犯罪證據(jù),然而在比特幣資金追溯的實現(xiàn)過程中主要依靠人工進行分析,存在自動化程度低、時效慢等問題。因此,非常有必要設(shè)計一種針對比特幣交易地址的身份識別機制,以遏制不法分子利用比特幣實施犯罪行為。

        相對于傳統(tǒng)的金融系統(tǒng),比特幣獨有的地址匿名化、交易分散化等特征,使其交易具有較強的反溯源能力,也導致比特幣交易地址的身份識別機制面臨更多挑戰(zhàn):第一,比特幣地址是用戶參與比特幣交易使用的賬號,該地址是由用戶自行創(chuàng)建,與身份信息無關(guān)聯(lián),并且創(chuàng)建過程中不需要第三方參與;第二,比特幣支付系統(tǒng)支持用戶每次交易后生成不同的地址,因此,用戶的交易信息分散在不同的地址中,且這些地址都涉及海量的比特幣交易,很難通過分析單個比特幣地址的交易行為數(shù)據(jù)來識別比特幣地址的身份。

        本文通過分析比特幣交易記錄,發(fā)現(xiàn)不同交易地址之間的關(guān)聯(lián)關(guān)系,并構(gòu)造比特幣地址集群,對比特幣地址聚類后的集群進行研究,根據(jù)比特幣地址與地址集群的交易行為提取其交易特征,并設(shè)計交易特征的融合方案。在此基礎(chǔ)上,基于所有的交易特征,利用集成學習算法進行模型訓練,得到模型構(gòu)建的新特征,將新的特征引入多分類模型中進行比特幣地址的身份識別。具體地,本文提出比特幣交易系統(tǒng)中比特幣地址聚類的關(guān)聯(lián)規(guī)則,在地址集群海量的鏈上交易數(shù)據(jù)中抽取與地址集群相關(guān)的交易特征。設(shè)計比特幣地址身份識別機制中的特征提取與融合方案,分別從比特幣地址、地址集群、地址集群交易網(wǎng)絡(luò)結(jié)構(gòu)3 個方面進行特征構(gòu)造與融合。基于集成學習算法對原始的交易特征自動進行特征工程,將新的特征輸入多分類模型中進行模型訓練,從而有效識別比特幣地址的身份。

        1 相關(guān)工作

        近年來,隨著比特幣支付系統(tǒng)的不斷成熟、比特幣價格的大幅攀升以及比特幣用戶數(shù)的持續(xù)增加,比特幣的匿名性與安全性逐漸引起國內(nèi)外研究人員的廣泛關(guān)注。針對比特幣交易地址進行身份識別的研究主要分為3 種方法,分別為無監(jiān)督式、半監(jiān)督式以及監(jiān)督式。

        1)無監(jiān)督式比 特幣身份識 別研究:THAI 等[2]使用K 均值聚類、馬氏距離、無監(jiān)督式支持向量機這3 種無監(jiān)督學習算法,判斷比特幣地址是否異常,從而識別出比特幣網(wǎng)絡(luò)中的異常交易行為;RACHANA 等[3]介紹比特幣的詳細交易流程,采用時序相似度算法DTW 替代K 均值聚類中的歐式距離,得到改進的K 均值聚類,以識別比特幣異常節(jié)點與違法交易;THAI 等[4]分別從用戶地址與交易的角度進行特征構(gòu)造,并將無監(jiān)督式的K 均值聚類與離群點監(jiān)測算法LOF 相結(jié)合,以識別指定的異常交易,但是該方法識別效果不佳,且只能識別30 種已知異常交易案件中的1 種案件。

        2)半監(jiān)督式比特幣身份識別研究:吳嘉婧等[5]結(jié)合交易網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)造特征數(shù)據(jù),采用半監(jiān)督機器學習算法PU learning 建立混幣識別模型;MIT-IBM沃森人工智能實驗室[6]使用半監(jiān)督機器學習算法GCN(Graph Convolutional Networks)進行比特幣反洗錢分析,該方法從每個交易地址的所有鄰居地址處獲取該交易地址的特征信息,包括其自身特征,并對所有節(jié)點進行同樣的操作,在此基礎(chǔ)上,將這些地址特征輸入神經(jīng)網(wǎng)絡(luò)中進行模型訓練,最后將該方法與邏輯回歸(LR)、隨機森林(RF)、多層感知器進行實驗對比,結(jié)果表明,RF 算法的性能優(yōu)于LR、多層感知器與GCN。

        3)監(jiān)督式比特幣身份識別研究:HU 等[7]通過無監(jiān)督式學習算法中的Deepwalk 與Node2vec 圖嵌入學習算法,使用特定規(guī)則的游走方式在交易拓撲圖中進行序列構(gòu)建,在獲得足夠數(shù)量并滿足一定長度的節(jié)點序列之后,使用與word2vec 類似的方式將每個點作為單詞,將點的序列作為句子,從而進行訓練,最后采用Adaboost算法對embedding 進行二分類模型訓練,并識別混幣服務(wù)商,實驗結(jié)果表明,該模型準確率為92.29%,F(xiàn)1-score 為93%;KENTAROH 等[8]將比特幣地址作為單位,從海量交易數(shù)據(jù)中抽取地址相關(guān)交易特征,采用多種監(jiān)督式學習算法進行多分類模型訓練,實驗結(jié)果表明,該模型達到72%的準確率;PRANAV 等[9-10]采用RF、XGBOOST、LR、支持向量機等算法進行比特幣違法活動識別,實驗結(jié)果表明,機器學習算法(RF、XGBOOST)性能優(yōu)于LR、支持向量機,最終模型準確率為91%;MASSIMO 等[11]采用RIPPER 算法、貝葉斯網(wǎng)絡(luò)、RF 算法進行比特幣龐氏騙局地址識別,實驗結(jié)果表明,RF 算法的性能優(yōu)于其他2 種監(jiān)督式算法;文獻[12-13]多次采用梯度提升算法進行比特幣身份類別識別,模型準確率為80.42%,F(xiàn)1-score 為79.64%;STEPHEN 等[14]針對比特幣交易路徑結(jié)構(gòu)進行模體(2-motif)構(gòu)造,提取比特幣交易地址的交易特征并分別采用RF、Adaboost、SVM、LR 進行模型訓練,實驗結(jié)果表明,采用2-motif 特征進行模型訓練的效果優(yōu)于僅采用比特幣地址交易特征的模型;MARC 等[15]通過比特幣交易地址聚類,形成以地址集合為單位的比特幣交易實體,從海量交易數(shù)據(jù)中抽取比特幣交易地址特征、實體交易特征、中心度量特征、多階motif 特征等,采用LR與LightGBM 這2種算法進行多分類模型訓練,從而識別比特幣交易地址身份。

        除上述文獻外,還有研究人員[16-17]聚焦于將鏈上與鏈下信息相結(jié)合從而進行比特幣地址身份識別,其中,監(jiān)督式學習算法相關(guān)研究較多,集成學習算法識別效果較優(yōu)。本文提出一種基于RF 的自動特征工程方法,并采用Softmax 多分類算法進行模型訓練,從而識別比特幣地址身份類別。

        2 圖模型

        2.1 比特幣交易圖模型

        比特幣交易系統(tǒng)采用UTXO(Unspent Transaction Outputs)模型,所謂的錢包余額實際上是一個錢包地址的UTXO 匯總。因此,在比特幣網(wǎng)絡(luò)中,存儲比特幣余額的是未使用過的交易輸出,而每一筆交易的輸入實際上是上一筆交易的輸出。這樣成千上萬個比特幣交易匯聚在一起,相互交織構(gòu)成一個巨大的交易拓撲圖。比特幣地址交易圖如圖1(a)所示,數(shù)據(jù)直接來源于區(qū)塊鏈全節(jié)點,并展示出比特幣的流向,圖中的各頂點代表比特幣鏈上的地址(α1,α2,…,αN)與相關(guān)交易(tx1,tx2,…,txN),介于地址與交易之間的箭頭代表交易轉(zhuǎn)出方向,每個箭頭包含交易金額、時間等信息。

        圖1 比特幣交易示意圖Fig.1 Schematic diagram of Bitcoin transaction

        在比特幣交易系統(tǒng)中,一個用戶會使用單個或多個地址,本文引入實體的概念,實體(E1,E2,…,EN)指邏輯上屬于同一個用戶的地址集合,也可理解成一個實體代表一個用戶。文獻[18-20]提出在實體聚類過程中,可以認為比特幣一筆交易中的所有輸入地址都被同一個用戶(實體)擁有。當用戶支付額度超過用戶錢包中每一個可用地址中比特幣的數(shù)量時,為避免執(zhí)行多筆交易支付造成交易費用損失,用戶會從錢包中選擇多個比特幣地址聚合在一起進行匹配支付,從而實現(xiàn)多輸入交易。此外,在比特幣交易中,使用每一個地址中的資金都需要單獨簽名,可以反過來認為一個多輸入交易中的所有輸入地址來源于同一個用戶,如圖1(a)所示,α1,α2,…,α5理應(yīng)屬于同一個實體E1。因此,地址交易拓撲圖可以根據(jù)地址聚類轉(zhuǎn)化成實體交易拓撲圖,如圖1(b)所示。

        2.2 模體

        模體(motif)可以通俗地理解為網(wǎng)絡(luò)中頻繁出現(xiàn)的局部連接模式。近年來,模體已經(jīng)在生物學、神經(jīng)科學、生態(tài)學、社交網(wǎng)絡(luò)、論文引用網(wǎng)絡(luò)等領(lǐng)域得到廣泛應(yīng)用。motif的定義來源于,在復雜網(wǎng)絡(luò)中發(fā)現(xiàn)某種相互連接的模式個數(shù)顯著高于隨機網(wǎng)絡(luò)中的個數(shù)。相互連接的模式表示指定數(shù)量的節(jié)點所組成的有向圖,其中某種模式在復雜網(wǎng)絡(luò)中出現(xiàn)的概率明顯高于隨機網(wǎng)絡(luò)中出現(xiàn)的概率,就可以看成一個模體。文獻[19]闡述了motif 在比特幣區(qū)塊鏈中的應(yīng)用,motif在比特幣交易網(wǎng)絡(luò)中的異常交易監(jiān)測場景中發(fā)揮著較大作用,二階motif 結(jié)構(gòu)如圖2 所示。根據(jù)motif 的構(gòu)造方式,本文分別建立一階motif、二階motif、三階motif,并針對不同的結(jié)構(gòu)進行相應(yīng)的描述統(tǒng)計,包括不同結(jié)構(gòu)的記錄條數(shù)、交易費用、輸入與輸出方向的地址數(shù)量等。

        圖2 二階motif 結(jié)構(gòu)Fig.2 Second order motif structure

        3 聯(lián)合特征實體分類方法

        針對比特幣交易實體類別識別問題,本文提出一種聯(lián)合特征提取與RF、Softmax 相結(jié)合的分類方法,該方法主要包括2 個模塊:聯(lián)合特征提取模塊,RF 和Softmax 分類模型構(gòu)建模塊。聯(lián)合特征指每個比特幣錢包地址在進行交易時的地址特征,其為實體特征與網(wǎng)絡(luò)結(jié)構(gòu)特征的整合:地址特征指比特幣地址對應(yīng)的描述性統(tǒng)計特征;實體特征指通過地址聚類后的地址集合,每個集合對應(yīng)一個實體,然后計算每個實體的描述性統(tǒng)計特征;網(wǎng)絡(luò)結(jié)構(gòu)特征指通過motif 結(jié)構(gòu)在實體交易網(wǎng)絡(luò)中提取對應(yīng)的結(jié)構(gòu)特征。將以上特征組成特征向量用于RF、Softmax 的輸入,通過訓練學習構(gòu)建交易實體分類器。

        3.1 聯(lián)合特征

        比特幣的每筆交易信息主要包含比特幣轉(zhuǎn)出地址、轉(zhuǎn)出金額、所屬區(qū)塊號、所屬區(qū)塊創(chuàng)建時間、接收地址、接收金額等信息。本文從地址、實體、網(wǎng)絡(luò)結(jié)構(gòu)3 個方面進行聯(lián)合特征提取。

        3.1.1 地址特征

        在比特幣交易數(shù)據(jù)中,一個用戶可以在每次交易中生成找零地址,也可以對單個地址進行重復使用,因此,有必要根據(jù)比特幣地址進行用戶交易行為統(tǒng)計性描述,構(gòu)造基于單個比特幣地址的特征。為了較為充分地描述比特幣交易行為,本文通過統(tǒng)計交易金額、交易方向、交易頻次、交易時間、與該地址有過交易的交易對手信息等,構(gòu)造比特幣地址行為原生特征,特征明細如表1 所示。

        表1 地址特征Table 1 Address features

        3.1.2 實體特征

        在比特幣交易過程中,會出現(xiàn)交易輸出的金額超過用戶想要支付的金額的情況,此時,比特幣客戶端會創(chuàng)建一個新的比特幣地址,并將差額發(fā)送回這個地址,也可以將差額發(fā)送回輸出地址,該過程就是比特幣的找零機制。正是比特幣的找零機制導致大部分的比特幣地址使用過后就被廢棄,此外一個實體在業(yè)務(wù)邏輯上代表一個用戶,并且一個實體包含多個比特幣地址,因此,統(tǒng)計單個比特幣地址的特征不能全面地描述用戶的交易行為。本文首先通過地址聚類進行實體構(gòu)造,然后基于實體構(gòu)造相關(guān)的實體特征,對比特幣實體的所有關(guān)聯(lián)地址,分別從交易金額、交易方向、交易頻次、交易時間方面進行匯總統(tǒng)計,得到比特幣實體的原生特征。由于單獨通過比特幣實體的原生特征無法較為充分地闡述實體的交易行為,因此本文通過構(gòu)造多個中心性度量特征來衡量實體在交易拓撲網(wǎng)絡(luò)中的重要性,比如,間接中心性是指某節(jié)點出現(xiàn)在其他節(jié)點之間的最短路徑的個數(shù),如果這個比特幣實體的間接中心性高,那么它對整個交易網(wǎng)絡(luò)圖的轉(zhuǎn)移會有很大的影響,間接中心性考察的是節(jié)點對于其他節(jié)點信息傳播的控制能力。實體特征明細如表2 所示。

        表2 實體特征Table 2 Entity features

        3.1.3 網(wǎng)絡(luò)結(jié)構(gòu)特征

        在復雜的交易網(wǎng)絡(luò)結(jié)構(gòu)中,不同的交易對象采用不同的交易方式,通俗理解為局部統(tǒng)計顯著的連接模式,會造成交易網(wǎng)絡(luò)全局特征不同,而這些特征在僅觀察局部交易網(wǎng)絡(luò)時無法顯現(xiàn)。motif 使得交易網(wǎng)絡(luò)研究不僅局限于交易節(jié)點角色或交易網(wǎng)絡(luò)的整體結(jié)構(gòu),而是考慮交易網(wǎng)絡(luò)的微觀結(jié)構(gòu)。由于通過motif 可以在復雜網(wǎng)絡(luò)中發(fā)現(xiàn)某種相互連接的模式個數(shù)顯著高于隨機網(wǎng)絡(luò),如果特定相互連接模式在網(wǎng)絡(luò)中出現(xiàn)的概率明顯高于隨機網(wǎng)絡(luò),就可以看成一個模體。由于交易行為不一致,導致不同身份的比特幣實體在交易網(wǎng)絡(luò)拓撲圖中具有不同的相互連接模式,因此本文采用motif 的方式進行網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)特征提取。通過一階motif、二階motif、三階motif 抽取的特征明細如表3 所示。

        表3 網(wǎng)絡(luò)結(jié)構(gòu)特征Table 3 Network structure features

        3.2 分類方法

        在比特幣實體類別識別場景中,主要面臨從海量交易數(shù)據(jù)中提取高維數(shù)據(jù)特征并選擇有效特征進行建模、標注樣本數(shù)據(jù)集極度不平衡這2 個問題。為此,本文提出一種RF結(jié)合Softmax的方案進行分類模型訓練。在該方案中,RF 算法具有隨機性的特征,主要體現(xiàn)在訓練每棵樹時從全部訓練樣本中進行N次有放回的抽樣,每次抽樣1 個樣本,最終形成有N個樣本的訓練數(shù)據(jù)集進行訓練,同時隨機選取所有特征的一個子集,用以計算最佳分割方式,因此,該方法能夠處理高維度的數(shù)據(jù)并且無需做特征選擇,對于不平衡數(shù)據(jù)集而言,其可以在一定程度上平衡誤差。此外,RF 屬于典型的集成學習算法,其本身不是一個單獨的機器學習算法,而是通過構(gòu)建并結(jié)合多個機器學習器來完成學習任務(wù)。將RF 與Softmax 相結(jié)合,可以通過集成學習發(fā)現(xiàn)多種有區(qū)分性的特征并組合特征,將其作為Softmax 模型中的特征從而提升結(jié)果的準確性,同時避免單一算法的局限性。該方法在Facebook廣告點擊預(yù)測方面已經(jīng)被成功應(yīng)用,文獻[21]中闡述了其詳細實現(xiàn)過程。基于RF與Softmax 的多分類模型流程如下:

        輸入樣本集D={(X1,y1),(X2,y2),…,(Xn,yn)}

        1)對于t=1,2,…,T:

        (1)完成模型初始化并進行第t次隨機采樣,得到包含m個樣本的采樣集合Dm。

        (2)用采樣集合Dm訓練第m個決策樹模型Gm(x),在訓練決策樹模型的節(jié)點時,在節(jié)點所有樣本特征中選擇一部分樣本特征,在這些隨機選擇的樣本特征中選擇一個最優(yōu)的特征進行決策樹的左右子樹劃分。

        2)對每個樣本對應(yīng)的m個決策樹模型的輸出進行整合,輸入Softmax 進行多分類模型訓練,在每一個Epoch(一個Epoch 為對所有訓練數(shù)據(jù)的一輪遍歷)結(jié)束時,計算驗證集的正確率,當正確率不再提高時,停止訓練。

        目前,用來選擇決策樹特征的比較流行的指標是信息增益、增益率、基尼系數(shù)(Gini)和卡方檢驗。本文主要介紹基于基尼系數(shù)的特征選擇方法,原因是RF 采用的CART 決策樹就是基于基尼系數(shù)選擇特征的?;嵯禂?shù)的選擇標準是每個子節(jié)點達到最高的純度,此時基尼系數(shù)最小,純度最高,不確定度最小。對于一般的決策樹,假如總共有K類,樣本屬于第k類的概率為pk,則該概率分布的基尼指數(shù)如下:

        為更好地分析RF+Softmax 模型的分類效果,本文采用RF、LR、LightGBM 這3 種算法進行對比實驗:

        1)在第一個實驗中,建立一個比較簡單的分類器,分別采用RF、LR、LightGBM、RF+Softmax 訓練模型,得到實體特征分類器,如圖3 所示。在這個分類器中,模型訓練數(shù)據(jù)特征只包括從海量交易數(shù)據(jù)中提取的實體特征,即只將實體相關(guān)的特征輸入算法中進行訓練。

        圖3 實體特征分類器結(jié)構(gòu)Fig.3 Entity features classifier structure

        2)在第二個實驗中,本文基于實體特征分類器,構(gòu)建一個復雜的分類器,稱為聯(lián)合特征分類器,如圖4 所示。聯(lián)合特征分類器主要結(jié)合從海量比特幣交易數(shù)據(jù)中提取出的地址特征、實體特征與網(wǎng)絡(luò)結(jié)構(gòu)特征,將它們輸入到4 個不同的算法中進行訓練。

        圖4 聯(lián)合特征分類器結(jié)構(gòu)Fig.4 Joint features classifier structure

        4 實驗與結(jié)果分析

        4.1 比特幣實驗數(shù)據(jù)集

        本文實驗中的所有數(shù)據(jù)均來自于區(qū)塊高度小于等于640 000 的交易數(shù)據(jù),相當于在交易時間2020 年07 月20 日15:41:09 之前打包完成的區(qū)塊,大概包括700 000 000 個比特幣地址。地址標簽數(shù)據(jù)通過WalletExplorer(https://www.walletexplorer.com)獲取,并通過一定的方式進行擴展,所有的數(shù)據(jù)分析工作均在內(nèi)存為64 GB 的阿里云服務(wù)器上執(zhí)行。最終標注實驗數(shù)據(jù)集包括6 個類別,367個實體,27 614 172個地址,詳細數(shù)據(jù)如下:

        1)交易所:148 個實體,對應(yīng)12 685 680 個地址。

        2)服務(wù)商:56 個實體,對應(yīng)10 139 646 個地址。

        3)賭博:77 個實體,對應(yīng)2 678 281 個地址。

        4)暗網(wǎng):22 個實體,對應(yīng)1 646 237 個地址。

        5)混幣:37 個實體,對應(yīng)369 695 個地址。

        6)礦工:27 個實體,對應(yīng)94 633 個地址。

        通過觀察各類別的數(shù)據(jù)可以看出,交易所與服務(wù)商的地址數(shù)據(jù)超過總數(shù)據(jù)的80%,礦工對應(yīng)的地址數(shù)據(jù)占比僅為0.34%,樣本數(shù)據(jù)出現(xiàn)了極度不均衡的情況。

        4.2 評估指標

        本文對比特幣交易實體進行多分類識別,評價指標如下:

        1)精確率(P),又稱查準率,表示實際為正的樣本占被預(yù)測為正的樣本的比例。

        2)召回率(R),又稱查全率,表示實際為正的樣本中被預(yù)測為正的樣本所占的比例。

        3)F1-score 是精確率和召回率的調(diào)和平均值。精確率體現(xiàn)模型對負樣本的區(qū)分能力,其值越高,模型對負樣本的區(qū)分能力越強;召回率體現(xiàn)模型對正樣本的識別能力,其值越高,模型對正樣本的識別能力越強。F1-score 是兩者的綜合,值越高,說明模型越穩(wěn)健。F1-score 計算公式如下:

        4.3 結(jié)果分析

        為了方便比較,本文在RF算法的每次建模過程中,將RF 種樹的個數(shù)統(tǒng)一設(shè)置為100,其他算法參數(shù)均采用sklearn 與LightGBM 的默認參數(shù)。利用比特幣特征數(shù)據(jù)進行2 次不同的實驗,結(jié)果如表4 所示。從表4 可以看出:聯(lián)合特征分類模型的結(jié)果普遍優(yōu)于實體特征分類模型;對比聯(lián)合特征分類模型的準確率、召回率與F1-score 這3個評價指標,RF+Softmax效果最優(yōu),LightGBM 次之,RF 效果居中,LR 效果最差;對比RF 與RF+Softmax 的評估指標,RF+Softmax 的精確率與召回率相比RF 分別高出2 個與4 個百分點,表明采用RF 進行特征工程能夠抽取出有效的特征,結(jié)合多分類模型Softmax 進行訓練,更能提升分類器的準確率,避免單一算法存在的局限性。

        表4 實驗的總體結(jié)果Table 4 Overall results of the experiment

        聯(lián)合特征分類模型的實驗總體結(jié)果優(yōu)于實體特征分類模型,原因是前者結(jié)合多方面的數(shù)據(jù)特征,能夠充分學習到比特幣交易實體的多種交易行為。RF、RF+Softmax這2種模型的分類結(jié)果明細如表5所示。從表5可以看出:在RF+Softmax 模型下,交易所、服務(wù)商、賭博、暗網(wǎng)、混幣與礦工能達到0.92 以上的精確率;在所有的實驗中,混幣類別的實驗結(jié)果最佳,無誤判無漏判,主要因為混幣的行為模式較為固定,且大多采用自動化交易,所以模型能夠充分學習到混幣行為,服務(wù)商類別的交易實體召回率只有0.73,通過核查誤判結(jié)果發(fā)現(xiàn),剩余0.27 的交易實體大部分被誤判為交易所,說明交易所與服務(wù)商的交易行為存在一定的相似性。

        表5 實驗的詳細結(jié)果Table 5 Detailed results of the experiment

        5 結(jié)束語

        本文提出一種RF 與Softmax 相結(jié)合的模型訓練方案,并利用聯(lián)合特征構(gòu)造方法從海量比特幣交易數(shù)據(jù)中抽取地址特征、實體特征與網(wǎng)絡(luò)結(jié)構(gòu)特征,整合所有的數(shù)據(jù)特征形成特征向量,輸入模型進行訓練得到實體特征分類器與聯(lián)合特征分類器。其中,聯(lián)合特征分類器的性能優(yōu)于實體特征分類器,原因是聯(lián)合特征分類器中新增網(wǎng)絡(luò)結(jié)構(gòu)特征與地址特征,網(wǎng)絡(luò)結(jié)構(gòu)特征構(gòu)造方法在數(shù)據(jù)特征中引入當前實體的鄰居信息,使得模型能夠?qū)W習到實體更多的交易行為。實驗結(jié)果表明,通過RF 實現(xiàn)特征工程能夠獲取到更有效的特征,結(jié)合Softmax 進行多分類模型訓練可以進一步提高模型的準確率。但是,本文沒有考慮到每個交易類別中包括的熱錢包、冷錢包、充幣地址這3 種類型實體,此外,暗網(wǎng)實體中部分交易實體復用次數(shù)較多,然而有少數(shù)交易實體在接收賬款后幾乎再也沒有交易,數(shù)據(jù)特征較少,因此,下一步將對類別標簽數(shù)據(jù)進行細分,從而提升比特幣區(qū)塊鏈去匿名化的準確率。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        av影片手机在线观看免费网址| 久久久久亚洲av无码专区| āV第三区亚洲狠狠婷婷综合久久| 人妻无码AⅤ中文系列久久免费| 亚洲一区二区蜜桃视频| 国产av熟女一区二区三区 | 日韩性感av一区二区三区| 白白在线视频免费观看嘛| 粗大猛烈进出高潮视频| 亚洲伊人久久大香线蕉综合图片| 偷拍熟女亚洲另类| 69精品国产乱码久久久| 亚洲国产美女精品久久久久∴| 中文字幕日本最新乱码视频| 北岛玲中文字幕人妻系列| 人妻丰满熟妇一二三区| 国产 高潮 抽搐 正在播放| 欧美gv在线观看| 欧美 亚洲 国产 日韩 综AⅤ| 亚洲国产精品嫩草影院久久av| 内射人妻无套中出无码| 亚洲永久精品ww47| 91精品欧美综合在线观看| 蜜桃视频在线在线观看| 午夜dy888国产精品影院| 国产山东熟女48嗷嗷叫| 国产爆乳美女娇喘呻吟久久| 日韩一区二区av极品| 成人区人妻精品一区二区不卡网站 | 亚洲av无码第一区二区三区 | 精品一区二区亚洲一二三区| 蜜桃视频在线看一区二区三区| 东京无码熟妇人妻av在线网址| 在线观看国产三级av| 国产自拍视频免费在线观看| 情人伊人久久综合亚洲| 性夜夜春夜夜爽aa片a| 日韩av免费在线不卡一区| av网站在线观看入口| 好男人日本社区www| 丰满人妻AV无码一区二区三区|