摘 要:為了解決首次代幣發(fā)行(ICO)欺詐檢測(cè)研究中存在的特征建模單一、模型缺乏可解釋性等問題,提出一種融合多源異構(gòu)數(shù)據(jù)的ICO欺詐預(yù)測(cè)和可解釋分析模型IICOFP。首先,融合ICO項(xiàng)目基本信息、評(píng)級(jí)分?jǐn)?shù)、社交媒體等多源異構(gòu)數(shù)據(jù),通過Lasso特征選擇和Tomek-Link欠采樣更有效地實(shí)現(xiàn)對(duì)ICO的特征建模;其次,基于GBDT算法訓(xùn)練ICO欺詐預(yù)測(cè)模型,并引入SHAP框架從多個(gè)角度分析欺詐型ICO的影響因素,有力增強(qiáng)模型的可解釋性。實(shí)驗(yàn)結(jié)果表明,該模型的準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)和AUC值分別達(dá)到87.76%、85.37%、90.52%、87.87%和87.82%,各項(xiàng)性能比已有的最佳模型提高了約2%~10%,驗(yàn)證了融合多源異構(gòu)數(shù)據(jù)進(jìn)行特征建模在ICO欺詐預(yù)測(cè)中的關(guān)鍵作用(實(shí)驗(yàn)數(shù)據(jù)及代碼:https://github.com/Lujiarong1203/IICOFP)。
關(guān)鍵詞: 首次代幣發(fā)行(ICO); 欺詐預(yù)測(cè); GBDT模型; SHAP框架; 可解釋性
中圖分類號(hào): TP181 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1001-3695(2025)02-005-0357-08
doi: 10.19734/j.issn.1001-3695.2024.05.0220
Interpretable ICO fraud prediction model by fusing
multi-source heterogeneous data
Lu Jiarong1, Liao Bin2’, Liu Yi3, Chen Hailong1
(1. College of Statistics amp; Data Science, Xinjiang University of Finance amp; Economics, rümqi 830012, China; 2. College of Big Data Statistics, Guizhou University of Finance amp; Economics, Guiyang 550025, China; 3. School of Public Health, Xinjiang Medical University, rümqi 830017, China)
Abstract:Aiming at the problems of single feature modelling and models lacking interpretability in the current ICO fraud detection research, this paper proposed an interpretable ICO fraud prediction model (IICOFP) by fusing multi-source heteroge-neous data. Firstly, it fused the ICO project basic information, rating scores, social media and other multi-source heterogeneous data, and effectively achieved feature modelling of ICOs by Lasso feature selection and Tomek-Link under-sampling. Secondly, it trained the ICO fraud prediction model based on the GBDT algorithm, and introduced the SHAP framework to ana-lyze the main influencing factors of fraudulent ICOs from multiple perspectives, which strongly enhanced the interpretability of the model. The experimental results show that the proposed IICOFP model achieves accuracy, precision, recall, F1 score and AUC value of 87.76%, 85.37%, 90.52%, 87.87% and 87.82%, respectively, and the performance of each of them is improved by about 2%~10% over the existing best model, which verifies the key role of fusing multi-source heterogeneous data for feature modelling in ICO fraud prediction(experimental data and code: https://github.com/Lujiarong1203/IICOFP).
Key words:initial coin offering (ICO); fraud prediction; GBDT model; SHAP framework; interpretability
0 引言
首次代幣發(fā)行(ICO)是基于區(qū)塊鏈技術(shù)的最主要應(yīng)用之一,是指項(xiàng)目發(fā)行人向投資者發(fā)行項(xiàng)目代幣,籌集項(xiàng)目發(fā)展所需資金的一種新型融資模式。與股權(quán)融資、IPO 等傳統(tǒng)融資方式相比,ICO 的融資門檻更低、速度更快、效率更高。自2013年7月萬事達(dá)幣(Mastercoin)推出首個(gè)ICO以來,ICO市場(chǎng)規(guī)模迅速增長,并在2017—2018年經(jīng)歷了巨大的繁榮[1],僅2018 年前三個(gè)季度,區(qū)塊鏈企業(yè)通過 ICO 籌集了 20 億美元,而傳統(tǒng)風(fēng)險(xiǎn)投資僅籌集了3.5億美元[2]。截止2021年1月,已有5 728個(gè)ICO項(xiàng)目募集了超過270億美元資金[3]。顯然,ICO能夠讓初創(chuàng)企業(yè)以更小的成本在短期內(nèi)募集大量的資金,并逐漸成為區(qū)塊鏈技術(shù)企業(yè)最受歡迎的融資模式。
然而,由于區(qū)塊鏈技術(shù)的去中心化和匿名性等特性,使得這種低成本、高回報(bào)的新型融資模式成為了詐騙、黑市交易、洗錢等違法犯罪活動(dòng)的溫床。其中最具代表性的例子是2018年越南Modern Tech公司的ICO騙局,他們相繼發(fā)售了Pincoin和iFan兩種項(xiàng)目代幣,從大約3.2萬名投資者手中募集到了6.58億美元資金后攜款消失。而這只是近年來震撼加密貨幣社區(qū)的眾多欺詐案件之一。在2017—2020年期間進(jìn)行的數(shù)千次ICO中,約80%被認(rèn)定為騙局或失敗的項(xiàng)目。據(jù)估計(jì),僅在2020年,投資者就因ICO騙局損失了超過19億美元[4]。國內(nèi)ICO市場(chǎng)亦是良莠不齊,據(jù)清華大學(xué)金融研究院研究簡報(bào)統(tǒng)計(jì),我國的眾多 ICO 項(xiàng)目中90%的 ICO 項(xiàng)目涉嫌故意詐騙,而真正募集資金用作項(xiàng)目投資的 ICO項(xiàng)目不到 1%。因此,如何融合多源異構(gòu)的 ICO 信息,為投資者提供可靠的 ICO 欺詐預(yù)測(cè)和預(yù)警服務(wù),營造安全穩(wěn)定和持續(xù)健康的金融環(huán)境,是眾多金融監(jiān)管或服務(wù)機(jī)構(gòu)亟需解決的問題。為了增強(qiáng)項(xiàng)目透明度、建立信任以及吸引潛在投資者,ICO發(fā)布方會(huì)公開項(xiàng)目白皮書、募集金額、發(fā)售時(shí)間、代幣分配方案、團(tuán)隊(duì)成員背景等基本信息。而這也為研究人員評(píng)估ICO項(xiàng)目的可行性、市場(chǎng)前景、欺詐風(fēng)險(xiǎn)等提供了機(jī)會(huì)。文獻(xiàn)[5~9]通過深入分析ICO項(xiàng)目白皮書、網(wǎng)站、團(tuán)隊(duì)規(guī)模等方面的信息,幫助投資者對(duì)ICO進(jìn)行盡職調(diào)查并作出明智的投資決策。此外,利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等技術(shù)來分析和探索多源異構(gòu)的ICO數(shù)據(jù)已成為一個(gè)重要的研究方向,其主要分為兩個(gè)方面:a)利用機(jī)器學(xué)習(xí)技術(shù)建立ICO欺詐預(yù)測(cè)模型[10],其基本原理是通過特征工程技術(shù)提取項(xiàng)目基本信息、白皮書、網(wǎng)站等數(shù)據(jù)中的有效信息,實(shí)現(xiàn)對(duì)ICO的特征建模,再通過機(jī)器學(xué)習(xí)模型訓(xùn)練欺詐預(yù)測(cè)模型,但模型的檢測(cè)性能取決于對(duì)ICO完備的特征建模和充分的特征工程;b)利用深度學(xué)習(xí)技術(shù)建立ICO欺詐預(yù)測(cè)模型[11,12],其基本原理是將ICO項(xiàng)目白皮書、網(wǎng)站內(nèi)容等原始數(shù)據(jù)作為輸入,經(jīng)過自然語言處理或深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)和模型訓(xùn)練,并最終輸出欺詐預(yù)測(cè)結(jié)果。但該方法數(shù)據(jù)來源單一、計(jì)算成本較高,且模型缺乏可解釋性。
針對(duì)現(xiàn)有研究的不足,提出一種可解釋的ICO欺詐預(yù)測(cè)模型IICOFP。具體而言,該方法融合ICO項(xiàng)目基本信息、評(píng)級(jí)分?jǐn)?shù)、社交媒體平臺(tái)等多源異構(gòu)數(shù)據(jù),應(yīng)用Tomek-Link欠采樣和Lasso特征選擇對(duì)融合數(shù)據(jù)集進(jìn)行聯(lián)合預(yù)處理,更有效地實(shí)現(xiàn)了對(duì)ICO的特征建模;基于上述數(shù)據(jù)特征工程,建立預(yù)測(cè)模型,并引入SHAP框架有力地增強(qiáng)模型的可解釋性,為投資者盡職調(diào)查和金融監(jiān)管機(jī)構(gòu)風(fēng)險(xiǎn)預(yù)警提供可靠依據(jù)。
1 相關(guān)研究
目前對(duì)ICO成功影響因素的探討和構(gòu)建ICO欺詐預(yù)測(cè)模型的研究一直是金融與加密領(lǐng)域的熱點(diǎn)問題之一,長期以來,學(xué)者們?cè)谶@個(gè)領(lǐng)域進(jìn)行了大量的深入研究,形成了多種不同的理論框架和研究方法。對(duì)ICO成功影響因素的研究涵蓋了項(xiàng)目特征[13~15]、團(tuán)隊(duì)背景[16, 17]、社交媒體[18]到市場(chǎng)環(huán)境和投資者行為[19, 20]等各個(gè)層面,這不僅為投資者對(duì) ICO 項(xiàng)目進(jìn)行充分盡職調(diào)查創(chuàng)建了框架,也為ICO的特征建模提供了依據(jù)。Bian等人[21]開發(fā)了首個(gè)基于機(jī)器學(xué)習(xí)的ICO欺詐預(yù)測(cè)模型IcoRating,將一年后價(jià)格低于ICO發(fā)行價(jià)格1%的項(xiàng)目認(rèn)定為欺詐型ICO,并利用1 482個(gè)ICO項(xiàng)目信息建立了預(yù)測(cè)模型,其準(zhǔn)確率、召回率和F1值分別達(dá)到83%、77%和80%。作為首個(gè)欺詐型ICO預(yù)測(cè)模型,其ICO特征建模方法為后續(xù)研究提供了思路。Di等人[22]利用ground-truth理論將ICO分為失敗、有風(fēng)險(xiǎn)和成功三類,并基于ICO網(wǎng)站數(shù)據(jù)構(gòu)建圖神經(jīng)網(wǎng)絡(luò)(GNN)模型,但其F1值僅為59%,遠(yuǎn)不能達(dá)到實(shí)際場(chǎng)景的應(yīng)用需求。Dürr等人[23]對(duì)ICO的特征建模方法比較新穎,從白皮書靜態(tài)文檔中提取出了9個(gè)特征,通過訓(xùn)練多個(gè)模型得到XGBoost的F1值為80.42%。Xu等人[24]采集了4 286個(gè)ICO項(xiàng)目的多方面信息并建立了A-BiRNN模型,其F1值為73.2%,并通過可視化權(quán)重使得模型具備了一定的可解釋性。Chursook等人[25]收集了237個(gè)ICO的Twitter數(shù)據(jù),通過情緒分析建立了ICO成功預(yù)測(cè)模型,其中邏輯回歸模型的F1值達(dá)到74.8%。總的來說,前述研究為ICO的特征建模和構(gòu)建ICO欺詐預(yù)測(cè)模型奠定了基礎(chǔ),但仍存在兩個(gè)方面的問題值得進(jìn)一步探討:a)僅基于ICO白皮書或網(wǎng)站內(nèi)容等單方面數(shù)據(jù)建模可能存在信息不完整和不準(zhǔn)確的問題,需要考慮更多數(shù)據(jù)來源和更高維數(shù)據(jù)以提高模型的可靠性和預(yù)測(cè)性能;b)已有研究聚焦于提高模型的預(yù)測(cè)準(zhǔn)確率,忽視了模型的可解釋性,而對(duì)于ICO欺詐檢測(cè)問題,模型的可解釋性對(duì)合理決策、合規(guī)監(jiān)管至關(guān)重要。本文與已有工作的不同之處在于:a)融合ICO項(xiàng)目基本信息、評(píng)級(jí)分?jǐn)?shù)、社交媒體等多源異構(gòu)的信息,通過特征工程更完備地實(shí)現(xiàn)了對(duì)ICO的特征建模;b)基于預(yù)處理后的融合數(shù)據(jù)建立的ICO欺詐預(yù)測(cè)模型IICOFP的各項(xiàng)性能均優(yōu)于已有工作,并具有良好的泛化能力;c)引入SHAP框架分析了欺詐型ICO的影響因素,有力地增強(qiáng)了模型的可解釋性。
2 IICOFP模型的框架和方法
2.1 問題建模
本文建立的IICOFP模型其本質(zhì)是融合多源異構(gòu)的ICO數(shù)據(jù),預(yù)測(cè)未來發(fā)布的ICO是否為欺詐的二分類模型。具體地,設(shè)原始 ICO 數(shù)據(jù)集為D,特征空間為XM,其中M為特征數(shù)量,Y為標(biāo)簽空間。設(shè)i個(gè)樣本的第j個(gè)特征實(shí)例為xji=(x1i,x2i,…,xMi),其中i=1,2,…,n,j=1,2,…,M,n為樣本容量,模型預(yù)測(cè)的輸出為=1,2,…,n。因此,IICOFP旨在學(xué)習(xí)一個(gè)函數(shù)f:
f:XM→Y 或 =f(xji)(1)
如圖1所示,ICO欺詐預(yù)測(cè)模型IICOFP的構(gòu)建流程主要分為兩部分:a)特征工程,主要包括缺失值填充、One-Hot編碼、Tomek-Link欠采樣和Lasso特征選擇等工作;b)建模和可解釋性分析,主要包括模型構(gòu)建、與現(xiàn)有工作的比較、超參數(shù)調(diào)整、泛化能力分析和對(duì)欺詐型ICO影響因素的分析。
2.2 GBDT算法
本文選擇梯度提升決策樹(gradient boosting decision tree,GBDT)模型訓(xùn)練ICO欺詐檢測(cè)模型。GBDT是一種基于boosting集成學(xué)習(xí)思想的加法模型[26, 27],由于其決策樹基礎(chǔ)和逐步優(yōu)化前一步殘差的特點(diǎn),使得該模型在處理多類別、復(fù)雜和多噪聲的ICO融合數(shù)據(jù)時(shí)比其他主流機(jī)器學(xué)習(xí)模型更具優(yōu)勢(shì)。具體而言,GBDT模型可表示為
F(x)=∑Tt=1αtht(x)(2)
其中:ht(x)為分類回歸樹(classification and regression trees,CART);T是梯度提升決策樹中需要構(gòu)建的CART樹的數(shù)量;αt是第t棵樹的權(quán)重。GBDT算法采用前向分布算法(forward stagewise algorithm),首先確定F0(x)為模型F(x)的初始值,第m步的模型可以表示為
Fm(x)=Fm-1(x)+αmFm(x)(3)
其中:Fm-1(x)為當(dāng)前模型。新添加的CART樹hm(x)通過最小化損失函數(shù)求得,如式(4)所示。
arg minh∑ni=1L(yi,F(xiàn)m-1(xi)+h(xi))(4)
其中:L為損失函數(shù)。GBDT算法采用梯度下降法來求解最優(yōu)模型,將損失函數(shù)在當(dāng)前模型Fm-1(x)的負(fù)梯度值作為梯度下降的方向:
Fm(x)=Fm-1(x)-αm∑ni=1ΔFL(y,F(xiàn)m-1(xi))(5)
其中:αm通過線性搜索求得。
αm=arg minα∑ni=1[L(yi,F(xiàn)m-1(xi))-αL(yi,F(xiàn)m-1(xi))Fm-1(xi)](6)
梯度提升決策樹的正則化,可以通過設(shè)置學(xué)習(xí)率來控制:
Fm(x)=Fm-1(x)+ναmhm(x)(7)
其中:ν表示學(xué)習(xí)率。學(xué)習(xí)率越小,則需要更多的CART,最終誤差會(huì)更小,但也會(huì)增加訓(xùn)練的時(shí)間。所以,需要同時(shí)控制學(xué)習(xí)率和 CART的個(gè)數(shù),以確定一個(gè)速度快且精度高的模型。
2.3 SHAP框架
為了增強(qiáng)ICO欺詐檢測(cè)模型的可解釋性,本文引入SHAP(Shapley additive explanations)框架對(duì)模型的預(yù)測(cè)過程進(jìn)行全面的解釋分析。SHAP 框架是由Lundberg等人[28]于 2017年提出,被廣泛應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域的模型解釋性分析工具[29~32],其核心源于Shapley值這一合作博弈論概念,是一種根據(jù)眾多參與者對(duì)總支出的貢獻(xiàn)來為參與者分配支出的方法。本文將SHAP框架對(duì)機(jī)器學(xué)習(xí)模型的解釋原理和方法應(yīng)用到ICO欺詐檢測(cè)問題中,具體而言,總支出是模型對(duì)單個(gè)ICO實(shí)例的預(yù)測(cè)值,參與者是ICO實(shí)例的特征,支出是每個(gè)特征對(duì)模型預(yù)測(cè)過程的貢獻(xiàn),即SHAP 值,則模型對(duì)單個(gè)ICO實(shí)例的預(yù)測(cè)值是所有樣本預(yù)測(cè)值的平均值與每個(gè)特征的SHAP值之和:
i=ybase+∑Mj=1φ(xji)(8)
其中:xji表示ICO實(shí)例;i為模型的預(yù)測(cè)值;ybase為基線,表示模型對(duì)所有樣本預(yù)測(cè)值的均值;φ(xji)為各特征的SHAP值。
可以看出,模型的預(yù)測(cè)過程從基線ybase開始,在每個(gè)特征的SHAP值φ(xji)作用下達(dá)到最終的預(yù)測(cè)值i。當(dāng)φ(xji)gt;0時(shí),表示該特征在模型預(yù)測(cè)過程中具有拉高預(yù)測(cè)值的作用,即驅(qū)使模型的輸出為1;反之,當(dāng)φ(xji)lt;0時(shí),表示該特征在模型預(yù)測(cè)過程中具有拉低預(yù)測(cè)值的作用,即驅(qū)使模型的輸出為0。因此,本文引入 SHAP框架不僅能夠根據(jù)特征的SHAP值大小識(shí)別欺詐型ICO具有的顯著特征,而且能夠更好地理解模型的工作原理和決策過程,這對(duì)于提高監(jiān)管機(jī)構(gòu)的決策效率、增強(qiáng)投資者對(duì)模型預(yù)測(cè)的信任度具有重要意義。
3 模型構(gòu)建與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)環(huán)境:Intel? Core i7-7500U CPU 2.7 GHz,內(nèi)存8 GB和64位Windows 10操作系統(tǒng)。Python版本為 3.9,所有實(shí)驗(yàn)均在PyCharm 2022.3編譯平臺(tái)上調(diào)用scikit-learn 1.0.1完成。本文選擇準(zhǔn)確率(Acc)、精確度(Pre)、召回率(Rec)、F1值 (F1)和AUC值五個(gè)分類算法評(píng)價(jià)指標(biāo)衡量模型的預(yù)測(cè)性能。
Acc=TP+TNTP+FP+TN+FN×100%,Pre=TPTP+FP×100%(9)
Rec=TPTP+FN×100%,F(xiàn)1=2×Pre×RecPre+Rec×100%(10)
其中:TP表示正確預(yù)測(cè)為成功類ICO的樣本數(shù);FP表示錯(cuò)誤預(yù)測(cè)為成功類ICO的樣本數(shù);TN表示正確預(yù)測(cè)為欺詐類ICO的樣本數(shù);FN表示錯(cuò)誤預(yù)測(cè)為欺詐類ICO的樣本數(shù)。AUC值是ROC曲線下的面積,ROC曲線反映了真陽性率(TPR)和假陽性率(FPR)在不同分類閾值下的關(guān)系,AUC值越接近1,模型分類性能越好。
3.2 數(shù)據(jù)融合與特征工程
3.2.1 數(shù)據(jù)融合
為更有效地實(shí)現(xiàn)對(duì)ICO的特征建模,本文融合多源異構(gòu)數(shù)據(jù)構(gòu)造ICO特征集。如表1所示,應(yīng)用Python爬蟲技術(shù)從不同網(wǎng)站收集ICO項(xiàng)目基本信息、項(xiàng)目開發(fā)信息、評(píng)級(jí)分?jǐn)?shù)、社交媒體等數(shù)據(jù)。對(duì)于多類別的多源異構(gòu)ICO數(shù)據(jù)集,本文采用Python的Pandas和Numpy庫進(jìn)行特征提取和融合。如表2所示,基于項(xiàng)目代幣發(fā)售的開始和結(jié)束時(shí)間計(jì)算代幣發(fā)售天數(shù),統(tǒng)計(jì)項(xiàng)目團(tuán)隊(duì)人員數(shù)量作為衡量團(tuán)隊(duì)規(guī)模的指標(biāo),統(tǒng)計(jì)出項(xiàng)目發(fā)展所涉及的領(lǐng)域個(gè)數(shù),反映項(xiàng)目多樣性和行業(yè)覆蓋范圍。
考慮到Ethereum具有成熟的智能合約功能、廣泛的開發(fā)者社區(qū)和流行的ERC-20代幣標(biāo)準(zhǔn),因此將交易依托平臺(tái)為Ethereum的值設(shè)為1。統(tǒng)計(jì)項(xiàng)目所接受的貨幣種類數(shù)反映項(xiàng)目的市場(chǎng)接受度和吸引更廣泛投資者的能力,將存在有效的白皮書和源代碼鏈接的值設(shè)為1來反映項(xiàng)目的發(fā)展前景和技術(shù)水平。統(tǒng)計(jì)項(xiàng)目公布的社交媒體平臺(tái)數(shù)量反映項(xiàng)目的社區(qū)參與度和品牌可見度。最后,計(jì)算團(tuán)隊(duì)成員公開LinkedIn平臺(tái)、公布個(gè)人照片的比例來反映項(xiàng)目的專業(yè)性、透明度以及可執(zhí)行程度。
通過以上數(shù)據(jù)收集和特征融合,最終構(gòu)建了由1 181個(gè)ICO項(xiàng)目的多方面信息組成的融合數(shù)據(jù)集,其中包含577個(gè)融資成功的ICO項(xiàng)目以及604個(gè)欺詐的ICO項(xiàng)目,每一份數(shù)據(jù)都由項(xiàng)目ID、17個(gè)特征變量和1個(gè)標(biāo)簽變量組成。
3.2.2 特征工程
為了避免數(shù)據(jù)窺探且使得模型能夠充分學(xué)習(xí)到欺詐型ICO所具有的顯著特征,將融合數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測(cè)試集,接下來對(duì)訓(xùn)練集進(jìn)行特征工程,并將結(jié)果應(yīng)用到測(cè)試集,以此充分提升模型對(duì)真實(shí)數(shù)據(jù)的預(yù)測(cè)能力和魯棒性。
1)缺失值填充 特征Accepting_Currency_Num為ICO接受的幣種數(shù)量,在原始數(shù)據(jù)中有153個(gè)樣本的值為unknown,將其作為缺失值進(jìn)行處理。該特征的樣本值為1~11的整數(shù)型數(shù)值,其中只接受一種貨幣的項(xiàng)目數(shù)達(dá)到571,為了保持?jǐn)?shù)據(jù)的統(tǒng)計(jì)特性和整體分布趨勢(shì),選擇該特征的眾數(shù)填充其缺失值。
2)One-Hot編碼 特征Country_Region為字符型特征,是ICO項(xiàng)目所在的國家和地區(qū),不同國家ICO 的法律法規(guī)、監(jiān)管態(tài)度、投資者情緒、技術(shù)和市場(chǎng)基礎(chǔ)設(shè)施等因素對(duì)ICO有較大的影響。原始數(shù)據(jù)集中共出現(xiàn)了95個(gè)不同的國家和地區(qū),對(duì)其進(jìn)行One-Hot編碼處理,經(jīng)處理后ICO數(shù)據(jù)集的特征維度擴(kuò)充到112維。
3)樣本采樣 類別不平衡將導(dǎo)致模型在訓(xùn)練過程中偏向于多數(shù)類別樣本而降低模型的泛化能力[33],而邊界模糊會(huì)使分類器對(duì)于噪聲或異常樣本更加敏感而降低模型的魯棒性。對(duì)數(shù)據(jù)集的采樣方法主要分為對(duì)少數(shù)類樣本的過采樣、對(duì)多數(shù)類樣本的欠采樣和混合采樣。為了確定針對(duì)多源異構(gòu)的ICO數(shù)據(jù)集的最佳自適應(yīng)方法,本文分別采用三種采樣方法的代表性算法SMOTE、Tomek-Link、SMOTE+Tomek-Link,聯(lián)合不同特征選擇方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。
4)特征選擇 特征選擇通過減少冗余和相關(guān)性較低的特征來構(gòu)建最優(yōu)特征集,以加快模型收斂速度和預(yù)測(cè)精度[34]。根據(jù)不同的評(píng)價(jià)方法,特征選擇方法分為過濾法(filter)、包裹法(wrapper)和嵌入法(embedded)[35]。為了確定最佳的預(yù)處理組合,分別采用互信息分類法(MIC)、遞歸特征消除法(RFE)和Lasso算法三種特征選擇的代表性算法,和三種采樣方法的組合對(duì)訓(xùn)練集進(jìn)行聯(lián)合預(yù)處理,實(shí)驗(yàn)結(jié)果如表3所示,經(jīng)過Tomek-Link和Lasso兩種算法組合處理后,模型的準(zhǔn)確率、召回率、F1分?jǐn)?shù)、AUC值最高,最佳特征數(shù)為41。因此,本文選擇Tomek-Link欠采樣算法和Lasso特征選擇法對(duì)ICO融合數(shù)據(jù)集進(jìn)行聯(lián)合預(yù)處理,更有效地實(shí)現(xiàn)對(duì)ICO的特征建模。如圖2(a)(b)所示,Tomek-Link算法適當(dāng)?shù)匾瞥藘深悩颖局械脑肼朁c(diǎn)和邊界周圍的Tomek-Link對(duì),使得模型能夠更好地學(xué)習(xí)到分類邊界。
3.3 模型構(gòu)建與對(duì)比
本文選擇GBDT模型訓(xùn)練ICO欺詐預(yù)測(cè)模型IICOFP,將通過特征工程后的訓(xùn)練集作為模型的輸入,并將模型主要超參數(shù)均設(shè)置為默認(rèn)值。在經(jīng)過多輪迭代訓(xùn)練后,采用5個(gè)評(píng)價(jià)指標(biāo)評(píng)估模型在測(cè)試集上的預(yù)測(cè)能力,并調(diào)整超參數(shù)多次訓(xùn)練模型得到其最佳性能。通過以上實(shí)驗(yàn)得到,基于默認(rèn)參數(shù)的GBDT模型在測(cè)試集上的準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)和AUC值分別達(dá)到87.76%、85.37%、90.52%、87.87%和87.82%。結(jié)果表明,融合多源異構(gòu)數(shù)據(jù)能夠更有效地實(shí)現(xiàn)對(duì)ICO的特征建模,充分的特征工程使得模型具有較強(qiáng)的魯棒性。
為了進(jìn)一步驗(yàn)證融合多源異構(gòu)數(shù)據(jù)對(duì)ICO進(jìn)行特征建模的優(yōu)勢(shì),本文選擇IcoRating[21]、GNN[22]、XGBoost[23]、A-BiRNN[24]和LR[25]共五個(gè)模型與IICOFP進(jìn)行對(duì)比。如表4所示,IICOFP的準(zhǔn)確率和F1分?jǐn)?shù)比最佳的XGBoost提高了7.56%和7.45%,而精確率比最佳的IcoRating提高了2.37%。此外,IICOFP的召回率低于LR,這是由于Chursook等人[25]所采用的數(shù)據(jù)集樣本量較少且樣本類別不平衡,模型偏向于較多的正類樣本而導(dǎo)致召回率較高。綜合比較可得,IICOFP的綜合性能均優(yōu)于已有工作,這是由于:a)融合項(xiàng)目基本信息、評(píng)級(jí)信息、社交媒體信息等多源異構(gòu)數(shù)據(jù)對(duì)ICO進(jìn)行更完備的特征建模,因此模型具有更好的性能;b)通過Tomek-Link算法適當(dāng)移除了數(shù)據(jù)集中的噪聲點(diǎn)和Tomek-Link對(duì),并應(yīng)用Lasso特征選擇構(gòu)造最優(yōu)特征集,充分提高了模型的分類能力。
為驗(yàn)證GBDT算法對(duì)ICO融合數(shù)據(jù)集的適應(yīng)性和有效性,本文選擇15個(gè)主流機(jī)器學(xué)習(xí)模型與IICOFP進(jìn)行對(duì)比,為保證實(shí)驗(yàn)的公平性,采用相同的訓(xùn)練集和測(cè)試集作為模型的輸入,并將所有模型的參數(shù)均設(shè)置為默認(rèn)值。如表5所示,IICOFP在準(zhǔn)確率、精確率、F1分?jǐn)?shù)和AUC值上取得了最佳性能。綜合比較可得,基于GBDT算法建立的IICOFP模型在眾多模型中脫穎而出,原因在于:a)決策樹本身能夠處理多種數(shù)據(jù)類型,并且在節(jié)點(diǎn)分裂時(shí)能夠靈活選擇合適的劃分方式,使得在處理多類別的ICO融合數(shù)據(jù)時(shí)更為高效;b)GBDT通過串行訓(xùn)練多棵決策樹,且在訓(xùn)練過程中的每一輪迭代都會(huì)擬合當(dāng)前模型的殘差,這使得GBDT不僅能夠有效地捕捉多源異構(gòu)ICO數(shù)據(jù)中復(fù)雜的非線性關(guān)系,而且對(duì)于含有異常值和噪聲點(diǎn)的特征(例如特征offering_days和coin_num)具有更好的魯棒性。
3.4 學(xué)習(xí)能力和泛化能力分析
首先在訓(xùn)練集上分析IICOFP對(duì)已有數(shù)據(jù)的學(xué)習(xí)能力,運(yùn)用五折交叉驗(yàn)證法繪制了SVM、LightGBM、AdaBoost和IICOFP的學(xué)習(xí)曲線。如圖3(a)所示,隨著訓(xùn)練樣本量的增加,SVM在訓(xùn)練集和驗(yàn)證集上的得分均較低且逐漸接近,其中驗(yàn)證集得分保持不變,說明SVM存在嚴(yán)重的欠擬合,也說明單一模型無法捕捉ICO數(shù)據(jù)間的復(fù)雜非線性關(guān)系;如圖3(b)所示,隨著訓(xùn)練樣本量的增加,AdaBoost在訓(xùn)練集和驗(yàn)證集上的得分逐漸收斂,但在樣本量達(dá)到550后,驗(yàn)證集得分呈現(xiàn)下降趨勢(shì);如圖3(c)所示,隨著訓(xùn)練樣本量的增加,IICOFP在訓(xùn)練集和驗(yàn)證集上的得分呈現(xiàn)持續(xù)收斂的趨勢(shì),說明若繼續(xù)增加訓(xùn)練樣本量可能會(huì)提升模型的性能。綜合比較可得,IICOFP在驗(yàn)證集上的得分最高,對(duì)已有的樣本具有最佳的學(xué)習(xí)能力,且可以通過增加訓(xùn)練樣本量進(jìn)一步提高模型性能。
其次在測(cè)試集上驗(yàn)證IICOFP對(duì)未見數(shù)據(jù)的預(yù)測(cè)能力,測(cè)試集的樣本數(shù)為237,包含121例欺詐ICO和116例成功ICO。圖4對(duì)比了IICOFP與其他模型的混淆矩陣,可以看出,IICOFP正確預(yù)測(cè)了103例欺詐ICO和105例成功ICO,相較其他模型具有最佳的預(yù)測(cè)性能。圖5(a)為IICOFP與部分主流機(jī)器學(xué)習(xí)模型在測(cè)試集上的ROC曲線,對(duì)應(yīng)表3的AUC值可以看出,單一模型的AUC值均低于集成模型,而IICOFP對(duì)未見樣本具有最佳的預(yù)測(cè)性能。圖5(b)是IICOFP的KS曲線,可以看出,模型的最佳分類閾值為0.5,其KS值為0.756。圖5(c)是IICOFP的累計(jì)增益曲線,可以看出,模型的增益曲線呈現(xiàn)正向的偏移,對(duì)兩類樣本的分類能力明顯優(yōu)于隨機(jī)選擇。綜上比較可得,本文IICOFP模型能夠充分學(xué)習(xí)到ICO數(shù)據(jù)間的復(fù)雜非線性關(guān)系,從而對(duì)未見數(shù)據(jù)具有最佳的預(yù)測(cè)性能。
4 模型可解釋性分析
為了增強(qiáng)模型的可解釋性,本文將SHAP框架的模型解釋原理和方法引入到ICO欺詐檢測(cè)問題中,分別從全局角度、特征交互作用和樣本決策三個(gè)方面探討影響ICO欺詐的主要因素。
4.1 ICO欺詐的影響因素分析
本節(jié)從全局角度出發(fā)分析影響ICO欺詐的主要因素。如圖6所示,通過對(duì)比GBDT的特征重要性排序圖(圖6(a))和SHAP框架下的特征摘要圖(圖6(b))可得,特征overall_rating、coin_num和team_size在兩種模型中的重要性均排在前三位,其次為特征offering_days和social_media,而其他特征的排序各不一致。綜合可得,以上五個(gè)特征在ICO欺詐預(yù)測(cè)過程中起到了關(guān)鍵作用,接下來將應(yīng)用SHAP框架著重分析以上特征對(duì)模型預(yù)測(cè)過程的貢獻(xiàn)程度和正負(fù)作用。
a)綜合評(píng)級(jí)是投資者衡量項(xiàng)目質(zhì)量和風(fēng)險(xiǎn)最直接的量化指標(biāo)。特征overall_rating是評(píng)級(jí)平臺(tái)對(duì)ICO項(xiàng)目的綜合評(píng)級(jí)分?jǐn)?shù),在多個(gè)模型中的重要性都排在第一,因此認(rèn)為overall_rating是特征集中對(duì)模型影響最大的特征。由圖6(b)可以看出,綜合評(píng)級(jí)分?jǐn)?shù)越大,SHAP值也越大,在模型預(yù)測(cè)過程中起著拉高預(yù)測(cè)值的作用(驅(qū)使模型輸出為1),說明綜合評(píng)級(jí)分?jǐn)?shù)越低,ICO欺詐的可能性越大。Liu等人[36]發(fā)現(xiàn)加密專家對(duì)項(xiàng)目的樂觀評(píng)級(jí)有助于ICO初創(chuàng)公司籌集資金,這與本文結(jié)論一致。ICO項(xiàng)目發(fā)行方會(huì)聘請(qǐng)區(qū)塊鏈、金融、法律等相關(guān)行業(yè)的專家對(duì)項(xiàng)目的白皮書、源代碼、團(tuán)隊(duì)、財(cái)務(wù)、市場(chǎng)前景等方面進(jìn)行全面的評(píng)估,旨在向投資者緩解信息不對(duì)稱,傳遞項(xiàng)目的質(zhì)量和風(fēng)險(xiǎn)信號(hào),以輔助投資者決策。因此綜合評(píng)級(jí)分?jǐn)?shù)無疑是投資者了解項(xiàng)目質(zhì)量和衡量項(xiàng)目風(fēng)險(xiǎn)最直接、最重要的量化指標(biāo)。
b)項(xiàng)目發(fā)行較少或適中數(shù)量的代幣更容易獲得成功。特征coin_num是ICO項(xiàng)目發(fā)行的代幣數(shù)量,由圖6(b)看出,發(fā)行代幣數(shù)量較大的樣本SHAP值在0的左右兩側(cè)均有分布。而發(fā)行代幣數(shù)量較小的樣本的SHAP值大部分在0的右側(cè),在模型預(yù)測(cè)過程中起到了拉高預(yù)測(cè)值的作用(驅(qū)使模型輸出為1),說明在特定情況下,發(fā)行較少代幣的項(xiàng)目更容易融資成功。一方面,ICO融資成功亦受到市場(chǎng)供求關(guān)系的影響,在市場(chǎng)上存在大量ICO時(shí)的情況下,發(fā)行代幣數(shù)量較少,意味著供給相對(duì)稀缺,在這種情況下,投資者可能更加傾向于選擇發(fā)行代幣數(shù)量較少的項(xiàng)目以獲得更高的潛在回報(bào)。另一方面,代幣數(shù)量的多少可能會(huì)影響投資者的風(fēng)險(xiǎn)偏好。一些投資者更傾向于投資供應(yīng)量較少的代幣,因?yàn)檫@可能增加了代幣的稀缺性和價(jià)值潛力。在這種情況下,代幣數(shù)量較少的項(xiàng)目可能更容易吸引這些風(fēng)險(xiǎn)偏好的投資者,并提高融資成功的可能性。
c)較小的團(tuán)隊(duì)規(guī)模是識(shí)別ICO欺詐的顯著特征。特征team_size是ICO項(xiàng)目的創(chuàng)始團(tuán)隊(duì)的人數(shù),由圖6(b)看出,團(tuán)隊(duì)規(guī)模較小的樣本的SHAP值基本分布在0的左側(cè),在模型預(yù)測(cè)過程中起到拉低預(yù)測(cè)值的作用(驅(qū)使模型輸出為0),說明具有較小團(tuán)隊(duì)規(guī)模的項(xiàng)目更有可能是欺詐型ICO。大量研究者證實(shí)了該結(jié)論[10, 13~15],團(tuán)隊(duì)規(guī)??梢苑从稠?xiàng)目團(tuán)隊(duì)的技術(shù)和執(zhí)行能力。較大規(guī)模的團(tuán)隊(duì)通常集結(jié)了更多具備專業(yè)技術(shù)和豐富經(jīng)驗(yàn)的人才,可以更好地進(jìn)行任務(wù)分工和協(xié)作而專注各自的領(lǐng)域,從而更有可能開發(fā)出高質(zhì)量的產(chǎn)品和方案。另外,團(tuán)隊(duì)規(guī)模較大的項(xiàng)目通常能夠吸引更多的人才、資源和合作伙伴,從而提升項(xiàng)目的市場(chǎng)認(rèn)可度和影響力,以此吸引更多投資者和支持者,增加ICO的成功機(jī)會(huì)。
d)社交媒體平臺(tái)是ICO發(fā)布方宣傳和營銷項(xiàng)目代幣的有力渠道。特征social_media是ICO項(xiàng)目建立的社交媒體平臺(tái)數(shù)量,由圖6(b)看出,建立較少社交媒體網(wǎng)站的項(xiàng)目其SHAP值基本分布在0的左側(cè),說明具有較少的社交媒體網(wǎng)站的項(xiàng)目更有可能是欺詐型ICO。Lyandres等人[37]與Ante等人[38]的研究表明,ICO在社交媒體(Twitter、Facebook、Telegram和Reddit等)上的頁面是發(fā)布方宣傳和營銷項(xiàng)目代幣的有力工具,也是投資者了解和討論項(xiàng)目信息質(zhì)量的最佳渠道。一方面,ICO通過在社交媒體上發(fā)布和展示項(xiàng)目的信息、新聞、價(jià)值主張和愿景等,并將項(xiàng)目推廣給更多的潛在投資者和用戶,這不僅擴(kuò)大了ICO的知名度,且建立和塑造了項(xiàng)目的品牌形象。另一方面,投資者利用社交媒體平臺(tái)分享對(duì)項(xiàng)目白皮書、團(tuán)隊(duì)、技術(shù)水平和市場(chǎng)前景等的評(píng)價(jià),發(fā)表一些正面和負(fù)面的討論和態(tài)度,以此緩解潛在的信息不對(duì)稱。因此,建立的社交媒體數(shù)量是識(shí)別ICO欺詐的關(guān)鍵因素。
e)具有冗長代幣發(fā)售階段的ICO更有可能是欺詐型項(xiàng)目。特征offering_days是ICO代幣的發(fā)售天數(shù),由圖6(b)看出,大部分代幣發(fā)售階段較短的樣本其SHAP值分布在0的右側(cè),在模型預(yù)測(cè)過程中起到拉高預(yù)測(cè)值的作用,說明具有較短代幣發(fā)售階段的ICO更容易獲得成功,這與Karimov等人的結(jié)論一致[18]。一方面,較長的代幣發(fā)售階段可能導(dǎo)致投資者興趣的減退,也使投資者有更多的選擇機(jī)會(huì),這種情況下,投資者傾向于尋找更有吸引力、更緊迫的項(xiàng)目以獲得短期的回報(bào)。另一方面,較長的代幣發(fā)售階段意味著項(xiàng)目籌集資金的速度較慢,進(jìn)而引起投資者的擔(dān)憂,質(zhì)疑項(xiàng)目的執(zhí)行能力和時(shí)間管理能力。因此,具有較短代幣發(fā)售階段的ICO項(xiàng)目更容易獲得成功。
以上特征是在模型預(yù)測(cè)過程中較為重要的5個(gè)特征,但I(xiàn)CO項(xiàng)目融資成功受到多方面因素的綜合影響,如圖6(b)所示,接受的加密貨幣種類數(shù)、團(tuán)隊(duì)評(píng)級(jí)分?jǐn)?shù)、是否公開CEO照片以及項(xiàng)目所涉及的領(lǐng)域數(shù)等因素對(duì)ICO欺詐都有不同程度的影響。
4.2 部分重要特征間的交互關(guān)系分析
本節(jié)應(yīng)用SHAP框架分析部分重要特征之間的交互作用,圖7為特征的SHAP依賴圖,其中橫軸是該特征的樣本值,縱軸是該特征的SHAP值,色條由藍(lán)色到紅色,對(duì)應(yīng)交互特征的樣本值由小到大(見電子版)。
圖7(a)為特征overall_rating和team_size的交互關(guān)系,可以看出,隨著綜合評(píng)級(jí)分?jǐn)?shù)的增大,其SHAP值也逐漸增大,說明綜合評(píng)級(jí)越高的項(xiàng)目更容易獲得成功。再根據(jù)交互特征team_size的著色來看,綜合評(píng)級(jí)分?jǐn)?shù)較高的項(xiàng)目其團(tuán)隊(duì)規(guī)模也越大。圖7(b)為特征team_size和team_rating的交互關(guān)系,隨著團(tuán)隊(duì)成員數(shù)量的增大,樣本的SHAP值也逐漸增大,而根據(jù)交互特征team_rating的著色來看,團(tuán)隊(duì)成員數(shù)量超過10人左右的項(xiàng)目均具有較高的團(tuán)隊(duì)評(píng)級(jí)分?jǐn)?shù)。圖7(c)為特征offering_days和coin_num的交互關(guān)系,可以看出,隨著代幣發(fā)售天數(shù)的增加,SHAP值逐漸減小,說明具有較短代幣發(fā)售階段的ICO更容易成功;而發(fā)售天數(shù)在30~100天的樣本,其SHAP值始終在0的附近波動(dòng),說明發(fā)售天數(shù)在此范圍內(nèi)對(duì)模型輸出的影響較?。划?dāng)發(fā)售天數(shù)大于100天時(shí),樣本的SHAP值急劇減小,說明過長的代幣發(fā)售階段是ICO欺詐的顯著特征。另外,根據(jù)交互特征coin_num的著色來看,發(fā)售代幣數(shù)量較大的項(xiàng)目具有適中的發(fā)售階段。這說明,較短的代幣發(fā)售階段對(duì)ICO成功有積極的作用。圖7(d)為特征social_media和overall_rating的交互關(guān)系,項(xiàng)目建立的社交媒體網(wǎng)站越多,SHAP值越大,ICO更容易獲得成功。根據(jù)交互特征overall_rating的著色可得,項(xiàng)目擁有的社交媒體平臺(tái)數(shù)量是對(duì)項(xiàng)目進(jìn)行綜合評(píng)級(jí)的重要參考。
4.3 樣本決策分析
本節(jié)應(yīng)用SHAP力圖、SHAP瀑布圖和SHAP決策圖可視化模型對(duì)單個(gè)樣本進(jìn)行預(yù)測(cè),并分析各特征在樣本決策過程中起到的不同作用。圖8是一例被正確預(yù)測(cè)為欺詐型ICO的可視化過程。圖8(a)為SHAP力圖, f(x)表示樣本的預(yù)測(cè)值,預(yù)測(cè)過程從基值開始,紅色箭頭表示該特征在預(yù)測(cè)過程中拉高預(yù)測(cè)值,藍(lán)色箭頭表示該特征拉低預(yù)測(cè)值,箭頭的長度表示該特征對(duì)模型預(yù)測(cè)的貢獻(xiàn)程度(見電子版)。從圖8可以看出該例樣本的多源異構(gòu)信息:該ICO項(xiàng)目發(fā)行的代幣數(shù)量巨大(約55億個(gè)),綜合評(píng)級(jí)分?jǐn)?shù)較低(2.8),項(xiàng)目發(fā)展涉及的領(lǐng)域繁多(7),以上特征的值對(duì)模型具有不同程度的負(fù)向作用,驅(qū)使模型將該樣本預(yù)測(cè)為欺詐型ICO;另外,該項(xiàng)目的團(tuán)隊(duì)規(guī)模較大(17),該特征值對(duì)模型具有最大的正向作用,驅(qū)使模型將其預(yù)測(cè)為成功類ICO。圖8(b)(c)為SHAP瀑布圖和SHAP決策圖,分別展示了所有特征對(duì)模型的正負(fù)增益和模型預(yù)測(cè)的可視化過程,其中巨大的發(fā)行代幣數(shù)量對(duì)模型具有最大的負(fù)向增益,增益為-2.67,其次為較低的綜合評(píng)級(jí)分?jǐn)?shù)、較大的項(xiàng)目發(fā)展涉及領(lǐng)域數(shù)、未展示項(xiàng)目CEO照片、不存在社交媒體平臺(tái)等;而較大的團(tuán)隊(duì)規(guī)模對(duì)模型具有最大的正向增益,增益為+0.4。綜上分析可得,IICOFP在各特征的不同作用下,最終將該樣本正確預(yù)測(cè)為欺詐型ICO。
5 結(jié)束語
本文融合ICO項(xiàng)目基本信息、專家評(píng)級(jí)、社交媒體等信息提出了一種可解釋的 ICO 欺詐預(yù)測(cè)模型IICOFP。首先,利用Lasso特征選擇法和Tomek-Link欠采樣法對(duì)ICO融合數(shù)據(jù)集進(jìn)行聯(lián)合預(yù)處理,更完備地實(shí)現(xiàn)對(duì)ICO的特征建模;其次選擇GBDT建立ICO欺詐預(yù)測(cè)模型IICOFP,其各項(xiàng)性能較已有模型提高了約2%~10%,并且具有良好的泛化能力;最后,引入SHAP框架對(duì)模型的預(yù)測(cè)過程進(jìn)行解釋,識(shí)別出影響ICO欺詐的決定性因素。結(jié)論顯示,較低的綜合評(píng)級(jí)分?jǐn)?shù)、較小的團(tuán)隊(duì)規(guī)模,以及設(shè)立較少的社交媒體平臺(tái)等因素均是欺詐型ICO的顯著特征。另外,巨額的代幣發(fā)行數(shù)量以及冗長的代幣發(fā)售天數(shù)也是識(shí)別ICO欺詐的關(guān)鍵因素。相比于已有的研究,本文IICOFP能更準(zhǔn)確地預(yù)測(cè)ICO欺詐,且具有較強(qiáng)的可解釋性,為投資者對(duì)項(xiàng)目進(jìn)行盡職調(diào)查提供可靠依據(jù),為加強(qiáng)金融監(jiān)管和規(guī)范融資環(huán)境提供有力工具。下一步工作:首先,由于精確的ICO欺詐預(yù)測(cè)會(huì)對(duì)欺詐分子的非法收入產(chǎn)生影響,此時(shí)IICOFP很可能會(huì)遭受到精心設(shè)計(jì)的AI對(duì)抗攻擊(如data poisoning attack,model extraction attack,model inversion attack等);其次,隨著時(shí)間的推移或業(yè)務(wù)規(guī)則的改變,很可能出現(xiàn)特征漂移、標(biāo)簽漂移,甚至是概念漂移對(duì)模型的性能甚至是可用性產(chǎn)生影響。針對(duì)以上兩點(diǎn)不足,在將來的研究中,一方面需要在IICOFP使用過程中隨時(shí)應(yīng)用統(tǒng)計(jì)或時(shí)間尺度窗口等方法預(yù)測(cè)數(shù)據(jù)分布的變化;另一方面,需要在訓(xùn)練新版模型時(shí),通過添加對(duì)抗樣本、去噪等方法以提高模型抵御攻擊的能力。
參考文獻(xiàn):
[1]Wats S, Joshi M, Singh S. Initial coin offerings: current trends and future research directions[J]. Quality amp; Quantity, 2024, 58: 1361-1387.
[2]Nolan A R G, Dartley E T, Baker M, et al. Initial coin offerings: key US legal considerations for ICO investors and sponsors[J]. Journal of Investment Compliance, 2018, 19(1): 1-9.
[3]Karpenko O, Blokhina T, Chebukhanova L. The initial coin offering (ICO) process: regulation and risks[J]. Journal of Risk and Financial Management, 2021, 14(12): 599.
[4]Lyandres E, Rabetti D. Initial coin offerings: a review[J/OL]. SSRN Electronic Journal. (2023-01-30) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.4534554.
[5]Yadav M. Exploring signals for investing in an initial coin offering (ICO)[J/OL]. SSRN Electronic Journal. (2017-09-01) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.3037106.
[6]Hornuf L, Kück T, Schwienbacher A. Initial coin offerings, information disclosure, and fraud[J]. Small Business Economics, 2022, 58(4): 1741-1759.
[7]Teng F, Griffin P, Koh A. Picking flowers in an ICO garden [EB/OL]. (2019-03). https://ink.library.smu.edu.sg/sis_research/5900.
[8]Phua K, Sang B, Wei C, et al. Don’t trust, verify: the economics of scams in initial coin offerings[J/OL]. SSRN Electronic Journal. (2022-01-01) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.4064453.
[9]Tiwari M, Gepp A, Kumar K. The future of raising finance—a new opportunity to commit fraud: a review of initial coin offering (ICOs) scams[J]. Crime, Law and Social Change, 2020, 73: 417-441.
[10]Karimov B, Wójcik P. Identification of scams in initial coin offerings with machine learning[J]. Frontiers in Artificial Intelligence, 2021, 4: 718450.
[11]Chuanjie F, Koh A, Griffin P. Automated theme search in ICO whitepapers[J]. The Journal of Financial Data Science, 2019,1(4):140-158.
[12]Wang Jiayue, Chen Runyu, Xu Wei, et al. A document analysis deep learning regression model for initial coin offerings success prediction[J]. Expert Systems with Applications, 2022, 210: 118367.
[13]Amsden R, Schweizer D. Are blockchain crowdsales the new ‘gold rush’? Success determinants of initial coin offerings[J/OL]. SSRN Electronic Journal. (2018-4-16) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.3163856.
[14]Fisch C. Initial coin offerings (ICOs) to finance new ventures[J]. Journal of Business Venturing, 2019, 34(1): 1-22.
[15]Belitski M, Boreiko D. Success factors of initial coin offerings[J]. The Journal of Technology Transfer, 2022, 47(6): 1690-1706.
[16]Ahmad M, Kowalewski O, Pisany P. What determines initial coin offering success: a cross-country study[J]. Economics of Innovation and New Technology, 2021, 32(5): 622-645.
[17]Ayarci N, Birkan A. Determinants of ICO investment decision: an exploratory factor analysis[J]. International Journal of Financial Research, 2020, 11(5): 69-78.
[18]Burns L, Moro A. What makes an ICO successful? an investigation of the role of ICO characteristics, team quality and market sentiment[J/OL]. SSRN Electronic Journal. (2018-09-01) [2024-07-10]. http://dx.doi.org/10.2139/ssrn.3256512.
[19]Dean T, Daluwathumullagamage D, Marsden A. Predictability of ICO success and returns[J]. Journal of Applied Business and Economics, 2020, 22(13): 20-36.
[20]Hsieh H, Oppermann J. Initial coin offerings and their initial returns[J]. Asia Pacific Management Review, 2021, 26(1): 1-10.
[21]Bian Shuqing, Deng Zhenpeng, Li Fei, et al. IcoRating: a deep-learning system for scam ICO identification[EB/OL]. (2018-03-08). https://arxiv.org/abs/1803.03670.
[22]Di D, Tam N. On leveraging deep learning models to predict the success of ICOs[J/OL]. Preprint. (2019-02-30) [2024-07-10]. https://doi.org/10.13140/RG.2.2.27268.99201.
[23]Dürr A, Griebel M, Welsch G, et al. Predicting fraudulent initial coin offerings using information extracted from whitepapers[C/OL]. Proc of the 28th European Conference on Information Systems. (2020-06). https://aisel.aisnet.org/ecis2020_rp/170.
[24]Xu Wei, Wang Ting, Chen Runyu, et al. Prediction of initial coin offering success based on team knowledge and expert evaluation[J]. Decision Support Systems, 2021, 147: 113574.
[25]Chursook A, Naktnasukanjn N, Chaimaim S, et al. Can Tweets predict ICO success? Sentiment analysis for success of ICO whitepaper: evidence from Australia and Singapore markets[C]// Proc of the 15th International Joint Symposium on Artificial Intelligence and Natural Language Processing. Piscataway, NJ: IEEE Press, 2020: 1-5.
[26]Friedman J. Greedy function approximation: a gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.
[27]周杰英, 賀鵬飛, 邱榮發(fā), 等. 融合隨機(jī)森林和梯度提升樹的入侵檢測(cè)研究[J]. 軟件學(xué)報(bào), 2021, 32(10): 3254-3265. (Zhou Jieying, He Pengfei, Qiu Rongfa, et al. Research on intrusion detection based on random forest and gradient boosting tree[J]. Journal of Software, 2021, 32(10): 3254-3265.)
[28]Lundberg S, Lee S. A unified approach to interpreting model predictions[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 4768-4777.
[29]Lin Kang, Gao Yuzhuo. Model interpretability of financial fraud detection by group SHAP[J]. Expert Systems with Applications, 2022, 210: 118354.
[30]He Weilin, Li Bin, Liao Riqiang, et al. An ISHAP-based interpretation-model-guided classification method for malignant pulmonary no-dule[J]. Knowledge-Based Systems, 2022, 237: 107778.
[31]周健, 張杰, 閆石. 基于鏈上數(shù)據(jù)的區(qū)塊鏈欺詐賬戶檢測(cè)研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(4): 992-997. (Zhou Jian, Zhang Jie, Yan Shi. Research on blockchain fraud account detection based on data on chain[J]. Application Research of Computers, 2022, 39(4): 992-997.)
[32]陳小昆, 左航旭, 廖彬, 等. 融合XGBoost與SHAP的冠心病預(yù)測(cè)及其特征分析模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(6): 1796-1804. (Chen Xiaokun, Zuo Xuhang, Liao Bin, et al. Coronary artery disease prediction and feature analysis model based on XGBoost and SHAP[J]. Application Research of Computers, 2022, 39(6): 1796-1804.)
[33]Gu Qinghua, Tian Jingni, Li Xuexian, et al. A novel random forest integrated model for imbalanced data classification problem[J]. Knowledge-Based Systems, 2022, 250: 109050.
[34]Bolón-Canedo V, Sánchez-Maro?o N, Alonso-Betanzos A. Recent advances and emerging challenges of feature selection in the context of big data[J]. Knowledge-Based Systems, 2015, 86, 33-45.
[35]Liu Huan, Motoda H, Setiono R, et al. Feature selection: an ever evolving frontier in data mining[C]// Proc of the 4th International Workshop on Feature Selection in Data Mining. [S.l.]:PMLR, 2010: 4-13.
[36]Liu Baixiao, Mcconnell J, Wang Jingfang. The ICO rating game: bia-sed ratings of crypto experts in initial coin offerings[J]. Gover-nance, 2021, 2021: 1-40.
[37]Lyandres E, Palazzo B, Rabetti D. Initial coin offering (ICO) success and post-ICO performance[J]. Management Science, 2022, 68(12): 8658-8679.
[38]Ante L, Sandner P, Fiedler I. Blockchain-based ICOs: pure hype or the dawn of a new era of startup financing? [J]. Journal of Risk and Financial Management, 2018, 11(4): 80.