黃家明 潘慧峰 胡 騰
自中本聰于2008年創(chuàng)建比特幣生態(tài)系統(tǒng)后,加密數(shù)字貨幣市場出現(xiàn)了爆發(fā)性增長。截至到2021年3月加密數(shù)字貨幣的總市值超過1.5萬億美元,其中僅2020年一季度的交易總額就超過8萬億美元(Helms,2020[1])。加密數(shù)字貨幣市場的巨大規(guī)模以及交易賬戶的匿名性和去中心化,導(dǎo)致該市場產(chǎn)生了許多違法行為,例如:黑客盜竊、惡意攻擊、洗錢、暗網(wǎng)交易等(M?ser等,2013[2];Huang等,2014[3];Athey等,2016[4];Vasek 等,2017[5];Foley 等,2019[6];卜凡堯,2013[7];陳躍,2018[8];李昕遠,2019[9])。另外,加密數(shù)字貨幣很難被證明是投資品或者消費品,導(dǎo)致現(xiàn)有的證券法或消費者保護法對其無法適用。與其他資產(chǎn)相比,加密數(shù)字貨幣全球“7*24”小時交易的特點使得對其進行有效監(jiān)管需要更全面和更深層次的全球監(jiān)管協(xié)調(diào),同時傳統(tǒng)的監(jiān)管技術(shù)已經(jīng)無法適用于加密數(shù)字貨幣市場,這些因素共同導(dǎo)致該市場在全球范圍內(nèi)普遍缺乏有效的監(jiān)管(Cong等,2022[10];吳云和朱瑋,2020[11])。
加密數(shù)字貨幣的匿名性和缺乏有效監(jiān)管是導(dǎo)致其市場操縱行為頻發(fā)的重要因素。Gandal等(2018)[12]首次實證了2013年比特幣從150美元瘋狂上漲到1000美元是由于操縱行為導(dǎo)致。目前,學(xué)界將加密數(shù)字貨幣市場操縱行為歸納為兩種:一是洗倉交易,不受監(jiān)管的交易所有超過70%的交易為洗倉交易,通過虛增交易量的方式提高其交易所的排名。(Aloosh和Li,2019[13];Amiram等,2020[14];Le等,2021[15],Cong等,2022[10])。二是抬價出貨(Pump and Dump,P&D),操縱者(內(nèi)部人)在網(wǎng)絡(luò)社交媒體上創(chuàng)建抬價出貨群組,并利用其平臺發(fā)布抬價出貨計劃以吸引投資者(外部人)加入抬價出貨群組,然后采用“倒計時”的方法在最后時刻公布目標加密數(shù)字貨幣,外部人在獲得交易信號之后,買入目標加密數(shù)字貨幣抬高其價格,之后內(nèi)部人再將加密數(shù)字貨幣高價出售給外部人,該模式導(dǎo)致外部交易者的財富轉(zhuǎn)移到內(nèi)部交易者中(Shifflett 和 Vigna,2018[16];Hamrick 等,2018[17];Kamps 和 Kleinberg,2018[18];Xu 和 Livshits,2019[19];Li等,2021[20])。該模式與傳統(tǒng)金融市場的操縱方式存在重大區(qū)別:傳統(tǒng)金融市場下,內(nèi)部人通過買入標的資產(chǎn)拉高其價格,之后再賣給外部人(Allen和Gorton,1991[21];Allen和Gale,1992[22])。而在加密數(shù)字貨幣市場中,內(nèi)部人無需在操縱時間點之后買入資產(chǎn)拉高價格,而是在操縱時間點之前買入目標資產(chǎn),到達操縱時間點之后由外部人買入目標資產(chǎn)推高其價格,內(nèi)部人在高點將目標資產(chǎn)賣給外部人(Li等,2021[20])。
抬價出貨操縱行為嚴重破壞了加密數(shù)字貨幣市場的價格形成機制,損害了投資者的利益尤其是中小投資者,其造成的負外部性對傳統(tǒng)金融市場的穩(wěn)定發(fā)展構(gòu)成一定的威脅(Blandin等,2019[23])。自2021年以來,全球多個國家開始加強對加密數(shù)字貨幣市場的監(jiān)管但程度有所差異。一是持禁止態(tài)度,中國嚴厲打擊和禁止國內(nèi)加密數(shù)字貨幣的挖礦和交易行為;韓國提議禁止匿名虛擬貨幣交易;印度儲備銀行贊成全面禁止加密貨幣;二是持監(jiān)管態(tài)度,美國證監(jiān)會(SEC)逐步對相關(guān)加密數(shù)字貨幣交易所進行牌照化授權(quán)管理,商品及期貨交易委員會(CFTC)將加密數(shù)字貨幣欺詐納入監(jiān)管范圍;日本提高加密數(shù)字貨幣的發(fā)行和交易的門檻,監(jiān)管趨向合規(guī)化和透明化;歐洲央行管委會發(fā)布《加密貨幣市場監(jiān)管準則》;英國和阿根廷發(fā)布將對加密數(shù)字貨幣交易所征稅的信息;瑞士金融市場監(jiān)管局批準首個加密數(shù)字貨幣基金,但僅限于合格投資者;三是持警告態(tài)度,加拿大、法國發(fā)布警告遠離加密貨幣的信息。從全球主要經(jīng)濟體來看,發(fā)達國家持監(jiān)管態(tài)度偏多。主要有兩個原因:①發(fā)達國家的金融機構(gòu)和散戶投資者持有大量的加密數(shù)字貨幣頭寸,市場操縱行為嚴重損害其投資者利益(Henry等,2019[24])。②加密數(shù)字貨幣生態(tài)圈中最賺錢的交易所受監(jiān)管的比例不到1%,不受監(jiān)管的交易所利用不道德或者違法的手段來爭奪加密數(shù)字貨幣生態(tài)圈的主導(dǎo)地位,該行為不利于加密數(shù)字貨幣市場的長期發(fā)展(Rodgers,2019[25];Vigna,2019[26])。
加密數(shù)字貨幣市場與傳統(tǒng)金融及其衍生品市場存在本質(zhì)的區(qū)別,其抬價出貨的操縱方式也存在明顯差異。Hamrick等(2018)[17]研究了抬價出貨收益率的影響因素,發(fā)現(xiàn)加密貨幣的市值和流動性是最重要的因素,但是他們對抬價出貨行為的認定是基于價格的明顯上漲,而實際加密數(shù)字貨幣市場的抬價出貨行為是利用網(wǎng)絡(luò)社交平臺發(fā)布抬價出貨時間點的信息來實現(xiàn)。因此,采用價格變化來確認抬價出貨行為會高估抬價出貨的頻率。Kamps和Kleinberg(2018)[18]、Xu和Livshits(2019)[19]將Telegram平臺上的抬價出貨文本信息與交易數(shù)據(jù)匹配構(gòu)建其訓(xùn)練集和測試集,然后采用有監(jiān)督學(xué)習(xí)模型識別抬價出貨行為。雖然,他們采用了網(wǎng)絡(luò)社交媒體文本數(shù)據(jù)來認定抬價出貨,但是交易數(shù)據(jù)采用的是小時級頻率,而加密數(shù)字貨幣抬價出貨基本在幾分鐘內(nèi)完成(Hinzen等,2019[27]),因此其預(yù)測精度方面存在不足。Li等(2021)[20]收集了逐筆交易數(shù)據(jù)和網(wǎng)絡(luò)社交平臺抬價出貨的文本信息,采用事件研究法對抬價出貨行為進行研究,為識別操縱行為提供了相關(guān)特征信息,但是未提供對抬價出貨進行實時監(jiān)控的有效模型。綜上,對加密數(shù)字貨幣市場進行有效監(jiān)管,需要結(jié)合網(wǎng)絡(luò)社交媒體、加密數(shù)字貨幣市場、傳統(tǒng)金融市場操縱三方面的特征對其綜合研究才能實現(xiàn)。
加密數(shù)字貨幣市場難以監(jiān)管的另一個重要原因在于:該市場是一個跨地區(qū)、跨國家、“7*24”小時交易的龐大市場,任何一個國家的監(jiān)管機構(gòu)無法對其進行實時全面的監(jiān)管,而加密數(shù)字貨幣交易所作為利益鏈條的核心節(jié)點,從長遠利益來看,交易所對操縱行為的監(jiān)管與金融監(jiān)管機構(gòu)的利益趨同,因此具體監(jiān)管措施由交易所執(zhí)行具備可行性。例如,2017年11月24日全球第三大加密數(shù)字貨幣交易所Bittrex宣布禁止抬價出貨操縱行為,如果Bittrex的用戶被交易所發(fā)現(xiàn)使用價格操縱的方式交易加密貨幣,則交易所將對賬號采取封禁或者永久凍結(jié)的懲罰。Li等(2021)[20]對Bittrex禁令實證研究發(fā)現(xiàn)抬價出貨行為顯著降低了加密數(shù)字貨幣的價格和流動性,同時發(fā)生在Bittrex交易所上的抬價出貨行為顯著減少。該事件說明通過交易所來監(jiān)管加密數(shù)字貨幣操縱行為具備一定的可行性。
綜上,為了解決實踐中抬價出貨操縱行為無法有效識別的問題,本文參照相關(guān)文獻并根據(jù)加密數(shù)字貨幣市場全球交易的特征,從交易所監(jiān)管的角度出發(fā),抓取網(wǎng)絡(luò)社交媒體發(fā)布的操縱信息、將傳統(tǒng)金融市場抬價出貨操縱行為的特征向量引入無監(jiān)督學(xué)習(xí)模型,構(gòu)建了分鐘級的異常交易數(shù)據(jù)預(yù)警模型。由于無監(jiān)督學(xué)習(xí)模型不需要事先花費大量時間進行模型訓(xùn)練,因此具有速度快、適用性廣的優(yōu)點。經(jīng)過參數(shù)優(yōu)化之后,其結(jié)果與網(wǎng)絡(luò)社交平臺的文本信息對比后,發(fā)現(xiàn)無監(jiān)督學(xué)習(xí)模型依然能夠獲得較高的準確率。雖然,無監(jiān)督學(xué)習(xí)模型能夠快速識別出異常的交易信號,但其模型中不包含事先標記好的操縱數(shù)據(jù)集,因此該模型無法準確判斷異常交易信號是否為抬價出貨行為。為了更近一步識別異常交易信號是否為抬價出貨行為,本文將Binance交易所中的秒級訂單數(shù)據(jù)與網(wǎng)絡(luò)社交平臺的文本操縱信息進行匹配構(gòu)成有監(jiān)督學(xué)習(xí)模型所需的訓(xùn)練集和測算集,然后再將無監(jiān)督學(xué)習(xí)模型中的特征向量進行部分修改之后引入到有監(jiān)督學(xué)習(xí)模型中進行訓(xùn)練,結(jié)果發(fā)現(xiàn)有監(jiān)督學(xué)習(xí)模型能夠很好的對抬價出貨行為進行事后識別。本文構(gòu)建的無監(jiān)督學(xué)習(xí)模型可以為交易所實時動態(tài)監(jiān)控異常交易信號提供預(yù)警功能,而有監(jiān)督學(xué)習(xí)模型能夠?qū)Ξ惓=灰仔盘栠M行事后回溯并確定其是否為抬價出貨行為,為加密數(shù)字貨幣交易所監(jiān)管提供相關(guān)的參考。
本文剩下的內(nèi)容結(jié)構(gòu)如下:第二部分為本文數(shù)據(jù)介紹及統(tǒng)計描述;第三部分為無監(jiān)督學(xué)習(xí)模型;第四部分為有監(jiān)督學(xué)習(xí)模型;第五部分為穩(wěn)健性測試;第六部分為結(jié)論及建議。
綜合考慮加密數(shù)字貨幣交易所的交易量、瀏覽量、API接口等因素,本文最終選取Binance、Huobi、KuCoin三個交易所的所有基準幣為BTC、USDT、ETH的貨幣對作為本文研究對象。加密數(shù)字貨幣交易數(shù)據(jù)來源于CCTX數(shù)據(jù)庫,時間為標準UTC日期從2021/07/01/00:00到2021/12/01/00:00,頻率為分鐘級;交易訂單數(shù)據(jù)來源于Binance的API接口,時間范圍與分鐘級數(shù)據(jù)保持一致,頻率為秒級;加密數(shù)字貨幣市值、排名等信息來源于CoinMarketCap網(wǎng)站。加密數(shù)字貨幣交易數(shù)據(jù)清洗過程包括:刪除空表數(shù)據(jù)、對空數(shù)據(jù)進行填充、去除重復(fù)數(shù)據(jù)、去除各類杠桿合約數(shù)據(jù),最終從三大交易所獲得4000多張數(shù)據(jù)表,總計50GB大小的交易數(shù)據(jù)。
加密數(shù)字貨幣操縱的直接證據(jù)——網(wǎng)絡(luò)社交媒體的非結(jié)構(gòu)化文本信息,主要對Telegram上知名度較高的抬價出貨話題組進行實時網(wǎng)絡(luò)爬蟲,然后通過自然語言處理以及關(guān)鍵詞正則化技術(shù)最終獲得3587個抬價出貨信號。抬價出貨是目前加密貨幣市場最重要也是占比最大的操縱方式,抬價出貨話題組是其最主要的信息發(fā)布載體。抬價出貨話題組通常包含兩類交易信號:付費信號和免費信號。通常來說,真正有價值的交易信號,要求投資者每月支付相關(guān)的服務(wù)費用,然后提供3-5個信號。但也有抬價出貨話題組提供免費信號,不幸的是天下沒有免費的午餐,這種免費信號質(zhì)量極差,不僅結(jié)果與現(xiàn)實不一致,同時很難保證交易的時效性。
表1展示了部分話題組的信息,包括話題組名稱、過去三個月發(fā)布的信號、每筆交易平均利潤(話題組將利潤折算成BTC的個數(shù))、相關(guān)興趣話題組的訂閱人數(shù)、訂閱費用(大部分話題組是免費)、以及支持的加密貨幣交易所名稱。從表中可以看到,大部分的加密貨幣話題組都會帶有直接或者間接的“信號”和“加密”等關(guān)鍵字作為話題組的名稱,以誘導(dǎo)潛在投資者進入。
表1 Telegram部分抬價出貨話題組
表2為Telegram話題組操縱的情況??梢钥吹酱蟛糠植倏v都集中在小市值貨幣上,排名超過75名之外的加密貨幣市值已經(jīng)非常低,但是操縱占比接近75%,這與股票市場的情形類似,即大部分操縱行為發(fā)生在小市值和交易量不活躍的股票之中。同時,大市值加密貨幣的價格波動幅度相對更小。例如,前75名的加密數(shù)字貨幣的最大價格漲幅的中位數(shù)為2.52%,而1000名以外的漲幅超過14%。
表2 貨幣市值排序下操縱情況統(tǒng)計
對比傳統(tǒng)金融市場和加密數(shù)字貨幣市場抬價出貨行為特征的異同,運用機器學(xué)習(xí)的方法(Scikit-learn庫)嘗試為加密數(shù)字貨幣的抬價出貨行為提供可行的預(yù)警模型。無監(jiān)督學(xué)習(xí)模型采用異常識別技術(shù)對抬價出貨行為進行事前預(yù)警,具有速度快,適用性廣的優(yōu)點。本文為提高模型預(yù)警性能,設(shè)定多重異常閾值、多個時間窗口進行模型訓(xùn)練,權(quán)衡過擬合和欠擬合的問題后,給出模型的平衡參數(shù)。
監(jiān)管抬價出貨這種操縱行為首先需要了解其運作模式,其中如何識別出抬價出貨的起爆點成為實現(xiàn)該目標的關(guān)鍵步驟。本文參考Kamps和Kleinberg(2018)[18]、Li等(2021)[20]的研究成果,通過對傳統(tǒng)型(股票及金融衍生品市場)和加密型(加密數(shù)字貨幣市場)的抬價出貨行為進行比較,歸納總結(jié)加密貨幣抬價出貨的特征。表3總結(jié)了傳統(tǒng)低價股和加密貨幣抬價出貨在操縱目標、操縱手段、操縱時間方面的一些相似點和不同點,從中可以看出加密貨幣的抬價出貨在選擇操縱目標方面與低價股票的抬價出貨行為極其類似。由于采取了不同的交易策略手段,加密貨幣抬價出貨的時間尺度縮小了很多,并有著向?qū)崟r的方向發(fā)展,這也印證了目前加密數(shù)字貨幣市場在缺乏有效監(jiān)管背景下,自動化程序交易機器人逐漸成為加密貨幣市場交易的主體。
表3 傳統(tǒng)低價股和加密貨幣操縱情況對比
為了提高識別抬價出貨操縱行為的準確率,本節(jié)制定出一套有助于從交易數(shù)據(jù)中偵測出抬價出貨行為的標準。如表4所示,抬價出貨的標準可以分為①突破指標:即在抬價出貨中總是會存在的信號,主要包含價格和交易量;②強化指標:即有助于確認可疑數(shù)據(jù)點為操縱行為的指標。
表4 加密數(shù)字貨幣抬價出貨的標準
直觀來看,一次成功的抬價出貨是交易窗口之內(nèi)有明顯的量價齊升現(xiàn)象(如圖1所示)。雖然事后可以從圖上清晰的觀察到這種操縱現(xiàn)象(圖中藍色菱形點為抬價出貨點),但現(xiàn)實中存在上百個交易所和成千上萬個加密貨幣對,且交易規(guī)則為“7*24”小時,從觀察到判別操縱行為是人力無法企及的。因而,本節(jié)提出一種加密貨幣交易過程中的異常監(jiān)測機制,通過計算機自動化方式對可能存在的操縱行為進行預(yù)警。
圖1 STORJ/BTC加密貨幣對的操縱現(xiàn)象
異常偵測技術(shù)本身是由計算機網(wǎng)絡(luò)的泛洪攻擊(DDos)啟發(fā)而成,該方法可以作為在高頻數(shù)據(jù)下實時監(jiān)控加密數(shù)字貨幣交易并對可疑點進行預(yù)警的一種可行性方法。
價格異常的定義:簡單的移動平均值(RA)實際是通過取一段過去特定時間窗口的平均值來估算,窗口長度被稱為滯后系數(shù)。任何一個給定時間點上的最高價比該點的估算異常閾值要高,那么該點便被認定為異常點。這個閾值是通過給定增長百分率、一個滯后系數(shù)、一個基于收盤價的簡單移動平均數(shù)來確定。變量是一個與OHLCV(開盤價、最高價、最低價、收盤價、成交量)值相對應(yīng)的時間序列內(nèi)的特定觀察值。在這種情況下,x和γ可以被認定為日期類型變量,因此γ表示時間序列中向后平移窗口的因子。
交易量異常的定義:交易量異常的定義方式基本上與價格異常相同,唯一的區(qū)別是,移動均值將被估算為
因此異常函數(shù)為:
抬價出貨的定義:①突破指標,即價格異常和交易量異常同時出現(xiàn)。②強化指標,低市值貨幣定義為加密數(shù)字貨幣市值排名100以后,貨幣對為加密幣/加密幣。
初始參數(shù):30分鐘的預(yù)測窗口,200%的交易量增長以及10%的價格漲幅。結(jié)果如表5所示,在數(shù)據(jù)集中監(jiān)測出超過14585個抬價出貨事件,即平均每種貨幣出現(xiàn)5.3次以上抬價出貨事件,這個數(shù)據(jù)顯然不太符合實際情況。說明初始參數(shù)的閾值偏低。
表5 三類不同參數(shù)下異常檢測的結(jié)果
嚴格參數(shù):將窗口調(diào)整到60分鐘、交易量和價格的閾值分別提高到300%和20%,總共檢測到1363個抬價出貨行為,大概每種貨幣被操縱的次數(shù)為0.53次。嚴格參數(shù)下的可疑操縱數(shù)量相對初始參數(shù)來說大幅減少,因此使得模型整體的準確率提高,但也屏蔽了很多真實的操縱行為。
平衡參數(shù):基于前兩個參數(shù)的結(jié)果,將窗口調(diào)整為30分鐘以限制局部搜索,交易量和價格的閾值取前兩種參數(shù)的中間值,即分別為250%和15%。如表5所示,總共監(jiān)測到3973個抬價出貨,平均每種貨幣對應(yīng)約1.38次。結(jié)果表明在實時監(jiān)測系統(tǒng)中,上述參數(shù)可以用來偵測抬價出貨活動的可疑點。平衡參數(shù)偵測的可疑操縱點與文本信息提取的結(jié)果數(shù)量十分相似,即抬價出貨驗證比率為87.04%。因此,最終將30分鐘預(yù)測窗口、交易量增長250%、價格漲幅15%作為無監(jiān)督學(xué)習(xí)模型的參數(shù)。
為了進一步優(yōu)化模型參數(shù),可以對交易所水平上的抬價出貨數(shù)量進行分析,圖2展示了抬價出貨行為在各個交易所的分布統(tǒng)計圖。Huobi交易所抬價出貨比例最高,即該交易所常被用于策劃抬價出貨。有相關(guān)事實可以佐證:Binance交易所在美國受到最嚴格的監(jiān)管,并且它主要交易的是法定貨幣對而不是加密貨幣對。這些結(jié)果表明,受監(jiān)管的交易平臺受到抬價出貨操縱的可能性相對較小。
圖2 平衡參數(shù)下三大交易所加密貨幣對占比及抬價出貨數(shù)量占比
表6展示了不同參數(shù)下模型偵測抬價出貨的數(shù)量以及不同交易所占比情況。無論參數(shù)如何變化,Binance的操縱數(shù)量占比始終最低。而Huobi和KuCoin的占比明顯高于Binance,這與網(wǎng)絡(luò)社交媒體文本信息的結(jié)果相同。Binance交易所操縱數(shù)量明顯偏低的主要原因是:2020年之后該交易所對內(nèi)設(shè)定了相關(guān)交易規(guī)則以防止其貨幣對被操縱。而其他兩個交易所沒有出臺相關(guān)規(guī)則來防止操縱行為。
表6 不同參數(shù)設(shè)定下抬價出貨數(shù)量及交易所占比
續(xù)表
表7展示了操縱數(shù)量TOP10的加密數(shù)字貨幣對,其中抬價出貨數(shù)量的最大值為28,即KuCoin交易所的DCC/ETH貨幣對在五個月內(nèi)被操縱了28次。根據(jù)排名和市值信息,發(fā)現(xiàn)操縱數(shù)量TOP10的加密數(shù)字貨幣對市值通常排名靠后且市值非常小,且大部分以ETH作為基準幣。另外,從表中可以發(fā)現(xiàn)TOP10中有六個發(fā)生在Huobi,沒有一個發(fā)生在Binance。
表7 TOP10抬價出貨數(shù)量對應(yīng)的交易所和貨幣對
圖3展示了平衡參數(shù)下的模型偵測抬價出貨行為的統(tǒng)計分布圖。從圖中的數(shù)據(jù)可以看到,近一半的加密貨幣對沒有被操縱過,重復(fù)被操縱的次數(shù)也非常少,大部分集中在3次之內(nèi)。
圖3 實時偵測中抬價出貨對應(yīng)的貨幣對統(tǒng)計圖
綜上,平衡參數(shù)、監(jiān)管嚴格的交易所、低市值、加密貨幣對特征可以對加密數(shù)字貨幣交易市場可疑抬價出貨點進行實時有效的監(jiān)測和預(yù)警。
無監(jiān)督學(xué)習(xí)模型能幫助交易所對異常交易信號進行實時動態(tài)預(yù)警,但是其模型中不包含事先標記好的操縱數(shù)據(jù)集,因此無法對異常交易信號進行準確的分類即判斷是否為抬價出貨行為。為了能夠在操縱行為發(fā)生之后對其確認為交易所進行相關(guān)懲罰提供依據(jù)。利用交易所訂單數(shù)據(jù)與網(wǎng)絡(luò)社交平臺文本信息進行匹配和標記構(gòu)建訓(xùn)練集和測試集,通過訓(xùn)練有監(jiān)督學(xué)習(xí)模型對抬價出貨操縱行為進行事后識別。
本文僅選擇在Binance交易所上出現(xiàn)的抬價出貨操縱行為。主要有兩個原因:①Binance交易所公開的API接口可以檢索歷史上的每一筆交易,其他交易所暫不提供;②抬價出貨行為一般是對成員活躍數(shù)低、經(jīng)濟資源少的交易所貨幣對進行操縱。因此本節(jié)認為研究Binance交易所上進行的抬價出貨行為更能體現(xiàn)一般性。
隨機森林是一種由決策樹分類器組成的集成型學(xué)習(xí)方法,每棵樹取決于獨立采樣的隨機向量的值,每棵樹也都進行投票,預(yù)測產(chǎn)生的結(jié)果就是所有投票類型中最受歡迎的一類。提升樹模型是一個元估值器,它將多個比隨機估值性能稍好一點的弱分類器集合成一個更強的分類器。提升樹的工作原理,首先設(shè)置一個弱分類器,給數(shù)據(jù)集里所有實例分配相同的權(quán)重,然后通過讓其在同一數(shù)據(jù)上添加分類器的其他副本,最后達到調(diào)整之前分類錯誤實例所占權(quán)重的目的。本節(jié)中,弱分類器是一個最大深度為5的決策樹。
本節(jié)的思路與無監(jiān)督學(xué)習(xí)類似,即借鑒了服務(wù)器偵測DDOS泛洪攻擊時會基于一個適應(yīng)的閾值進行調(diào)節(jié)這一思路。由于有監(jiān)督學(xué)習(xí)不再需要設(shè)立閾值,因此修訂了一部分無監(jiān)督學(xué)習(xí)的思路:將所有數(shù)據(jù)根據(jù)時間按s分鐘進行切塊,并定義一個大小為w小時的移動窗口。由于具體目標是建立一個盡可能從抬價出貨剛發(fā)生時就將其識別出來的分類器,因此時間塊必須相對較短。一旦檢測到出現(xiàn)抬價出貨行為,程序?qū)⒆詣訒和7诸惼?0分鐘,以免對同一事件重復(fù)報送,本文使用的特征向量如表8所示。
表8 有監(jiān)督學(xué)習(xí)的特征向量
將網(wǎng)絡(luò)社交平臺文本信息中發(fā)生在Binance交易所的抬價出貨事件作為本節(jié)操縱事件數(shù)據(jù)集。根據(jù)數(shù)據(jù)集中的每一例抬價出貨時間點,檢索抬價出貨附近14天之內(nèi)的數(shù)據(jù)集:即事件發(fā)生前7天和后7天的分鐘級交易數(shù)據(jù)。最后數(shù)據(jù)集包含了一共約150天的交易數(shù)據(jù)。這些數(shù)據(jù)包括交易量、價格、操作類型(買入或賣出)以及UNIX時間戳信息。
交易訂單數(shù)據(jù)來自于Binance的增量深度信息接口。由于Binance交易所的API接口并沒有注明買方的訂單類型(比如是否為市價、限價或止損價訂單類型)。為了更準確的推斷,本節(jié)利用了市價買盤交易會立即完成這一特點,將一秒內(nèi)完成的所有交易匯總成市價交易訂單。由于不知道這些訂單的原始類型,本文將其定義為快速訂單。盡管這只是一個近似值,但也能觀察到市價買盤價格突然上升的現(xiàn)象。如圖4所示,2021年7月8日STORJ/BTC加密貨幣對快速訂單數(shù)量在抬價出貨的前幾個小時前非常低,但在抬價出貨開始后數(shù)量突然增加。
圖4 STORJ/BTC在操縱期間訂單的變化量
將快速訂單作為檢測抬價出貨行為的實用特征,同時找到一個閾值,任何超過這個閾值的數(shù)量都是不正常的。獲得快速訂單閾值的步驟如下:①先計算StdRushOrders的特征值。如果抬價出貨信號的時間戳出現(xiàn)在時間塊的范圍之內(nèi),則將其標注為True,否則標注為False。②將數(shù)據(jù)集隨機按70%和30%的比例分成訓(xùn)練集和測試集兩組,計算訓(xùn)練集的精準率-召回率曲線,并在精準率和召回率中選擇一個閾值。③在測試集的閾值上測試相同的指標。精準率和召回率是機器學(xué)習(xí)之中判斷模型優(yōu)劣最常見的兩個指標,其中TP定義真實為操縱,預(yù)測為操縱的數(shù)目;FP定義真實為非操縱,預(yù)測為操縱的數(shù)目;FN定義真實為非操縱,預(yù)測為非操縱的數(shù)目;TN定義為真實為操縱,預(yù)測為非操縱的數(shù)目。則精準率 = TP/(TP+FP),召回率 = TP/(TP+FN)。
圖5和圖6展示了將快速訂單量11.8作為模型閾值的評價結(jié)果圖,超過這一閾值的快速訂單量則被認定為抬價出貨行為。這個閾值在訓(xùn)練集上達到了82%的精準率和93%的召回率,同時這一閾值在測試集上同樣可以達到類似的結(jié)果。模型的AUC曲線(Area Under Roc Curve)評分為0.83,說明該模型的質(zhì)量優(yōu)秀。根據(jù)該結(jié)果,可以將快速訂單作為判別抬價出貨行為重要特征變量。
圖5 訓(xùn)練集和測試集閾值
圖6 模型結(jié)構(gòu)的ROC曲線
從圖3中可知,同一時間段內(nèi)同一個加密數(shù)字貨幣對再次被操縱的概率較低。從社交平臺操縱信息來看,可以推測抬高話題組刪除了部分抬價出貨的操縱記錄,另外有些用俄語、法語、日語等交流的話題組無法獲取到。數(shù)據(jù)集僅有Binance交易所的抬價出貨數(shù)據(jù),因此本文無法將數(shù)據(jù)集分成標準的訓(xùn)練測試集。為了獲得相對可靠的結(jié)果,下面進行了五重交叉驗證。
對于隨機森林分類器,使用了約100棵樹進行建模,每棵樹深度為5。從表9中可以看出,盡管精準率在所有時間范圍內(nèi)都相對穩(wěn)定,召回率還是會隨著時間切塊長度的增加而增加。兩種分類器在精準率方面均非常優(yōu)秀,但提升數(shù)在精準率和召回率方面更加平衡,F(xiàn)1得分也呈現(xiàn)出了更好的結(jié)果。
表9 兩種模型的訓(xùn)練結(jié)果
綜上,有監(jiān)督學(xué)習(xí)模型主要是基于快速訂單量的不正常激增,而不是單純基于貨幣價格的變化,因此在識別抬價出貨行為和其他可能操縱行為之中表現(xiàn)優(yōu)異。
本文首先通過實時網(wǎng)絡(luò)爬蟲獲取Telegram社交平臺上加密貨幣價格操縱相關(guān)信息?;谌唠s的信息做了大量的文本處理工作,準確有效的提取了操縱事件,并結(jié)合交易數(shù)據(jù)建立了完整的價格操縱事件的數(shù)據(jù)庫。其次,收集了3個主流交易所4000多個數(shù)字貨幣對的分鐘級交易數(shù)據(jù),解決了以往在加密貨幣市場操縱研究中普遍存在的貨幣對樣本少、數(shù)據(jù)頻率低的問題。最后,分析抬價出貨操縱模式,依據(jù)操縱行為的交易量、價格、市值等指標特征,通過無監(jiān)督學(xué)習(xí)方法構(gòu)建了抬價出貨操縱行為的事前預(yù)警模型。然后再將交易所快速訂單數(shù)據(jù)與文本信息進行匹配形成訓(xùn)練和測試集,通過有監(jiān)督學(xué)習(xí)方法構(gòu)建了抬價出貨操縱行為的事后識別模型,兩個模型均表現(xiàn)出良好的準確性,無監(jiān)督學(xué)習(xí)方法平衡參數(shù)下監(jiān)測成功率高達87%。有監(jiān)督學(xué)習(xí)模型在測試集上的精準率和召回率分別為82%和93%,且有監(jiān)督學(xué)習(xí)模型的AUC曲線(Area Under Roc Curve)得分為0.83。應(yīng)用上述模型分析加密數(shù)字貨幣交易數(shù)據(jù)得到以下結(jié)論:①加密數(shù)字貨幣無論市值大小均存在價格操縱,非主流加密數(shù)字貨幣對被操縱的概率更高且以ETH貨幣對為主;②監(jiān)管環(huán)境松弛的交易所和低市值的加密數(shù)字貨幣更易發(fā)生價格操縱且容易被重復(fù)操縱,但其中大部分貨幣對被重復(fù)操縱的次數(shù)小于3次。
加密數(shù)字貨幣市場是一個匿名性、跨地區(qū)、跨國家、多 品種、“7*24”小時交易的新興市場。隨著加密數(shù)字貨幣市場規(guī)模的快速發(fā)展,其監(jiān)管問題儼然成為了一個不斷演變的重要挑戰(zhàn)。目前各個地區(qū)差異化的監(jiān)管政策難以滿足市場要求,市場缺少成熟有效的監(jiān)管體系,使得操縱行為嚴重損害加密數(shù)字貨幣市場投資者利益的同時也對傳統(tǒng)金融市場造成一定的危害。加密貨幣交易所在加密貨幣交易中起著關(guān)鍵作用,各個國家應(yīng)完善對交易所的監(jiān)管體系,對交易所防范風險的規(guī)章制度做出詳細要求,并進行定期和不定期的監(jiān)察及檢視,充分發(fā)揮交易所的間接監(jiān)管作用。具體而言,交易所首先可以基于無監(jiān)督學(xué)習(xí)構(gòu)建市場操縱的預(yù)警模型,實時動態(tài)監(jiān)測市場的操縱行為,并對全市場發(fā)布操縱預(yù)警信息,避免非知情交易者產(chǎn)生損失。然后,基于有監(jiān)督學(xué)習(xí)構(gòu)建市場操縱的識別模型,交易所可以事后識別出真實的市場操縱行為,為其處罰提供證據(jù)。最后,將數(shù)據(jù)頻率擴展到秒級,提高算法的精度。