俞建群, 李雙宏
(東方證券股份有限公司,上海 200010)
場(chǎng)外配資是指場(chǎng)外證券資產(chǎn)融資業(yè)務(wù),其本質(zhì)是一種資金借貸關(guān)系。作為一種融資手段,場(chǎng)外配資存在諸多風(fēng)險(xiǎn)[1]。中國(guó)證券業(yè)協(xié)會(huì)頒布的《場(chǎng)外證券業(yè)務(wù)備案管理辦法》中指出場(chǎng)外配資活動(dòng)應(yīng)當(dāng)進(jìn)行備案,最高人民法院發(fā)布《全國(guó)法院民商事審判工作會(huì)議紀(jì)要》明確場(chǎng)外配資合同無(wú)效,說(shuō)明該業(yè)務(wù)存在違反法律與政策的風(fēng)險(xiǎn);在場(chǎng)外配資過(guò)程中,股票賬戶由配資方監(jiān)控,存在違約和操作風(fēng)險(xiǎn);場(chǎng)外配資系統(tǒng)的自動(dòng)平倉(cāng)功能及較高的杠桿率,易引發(fā)市場(chǎng)下行時(shí)的系統(tǒng)性風(fēng)險(xiǎn);由于配資賬戶所持股票通常波動(dòng)率和周轉(zhuǎn)率較大,在加強(qiáng)股票流動(dòng)性的同時(shí)也增大了極端事件惡化的概率,加劇股票市場(chǎng)的異常波動(dòng)。
對(duì)此,監(jiān)管部門(mén)已多次發(fā)聲表明,密切關(guān)注資本市場(chǎng)場(chǎng)外配資情況,嚴(yán)厲打擊違法違規(guī)的場(chǎng)外配資行為。對(duì)場(chǎng)外配資進(jìn)行監(jiān)管監(jiān)控,從微觀的資本市場(chǎng)參與者角度來(lái)說(shuō),有利于促進(jìn)投資者防范相應(yīng)的投資風(fēng)險(xiǎn),避免投資者受到非法配資公司非法經(jīng)營(yíng)或詐騙行為的損害;從宏觀角度來(lái)說(shuō),有利于避免場(chǎng)外配資業(yè)務(wù)通過(guò)盲目擴(kuò)張資本市場(chǎng)信用交易規(guī)模,沖擊資本市場(chǎng)交易秩序,從而維護(hù)證券市場(chǎng)的穩(wěn)定。
目前對(duì)于場(chǎng)外配資賬戶的識(shí)別與篩查,不同的監(jiān)管部門(mén)均有一定的判別標(biāo)準(zhǔn)和認(rèn)定規(guī)則,這些標(biāo)準(zhǔn)主要是來(lái)源于工作經(jīng)驗(yàn)[2]。通過(guò)對(duì)證監(jiān)會(huì)向四家證券公司和三家技術(shù)支持公司作出的監(jiān)管函進(jìn)行梳理,可以歸納出目前場(chǎng)外配資的主要監(jiān)管依據(jù)有軟件提供商非法經(jīng)營(yíng)證券業(yè)務(wù)規(guī)定、證券公司違反賬戶實(shí)名制規(guī)定和交易軟件不符合期貨公司審慎經(jīng)營(yíng)和風(fēng)險(xiǎn)管理要求[3]。
此外,傳統(tǒng)的場(chǎng)外配資識(shí)別系統(tǒng)大多采用規(guī)則驅(qū)動(dòng)的方法,根據(jù)設(shè)定的規(guī)則特征進(jìn)行篩選,比如賬戶總資產(chǎn)規(guī)模、賬戶成交量、交易頻次等,規(guī)則的制定較為主觀,需要不斷進(jìn)行規(guī)則的調(diào)整或增加。而隨著政策性或市場(chǎng)環(huán)境的變化,之前的監(jiān)管規(guī)則可能失效,出現(xiàn)誤報(bào)或漏報(bào),并且賬戶的行為模式也在不斷發(fā)生變化,被動(dòng)地制定規(guī)則存在滯后性與局限性,無(wú)法動(dòng)態(tài)靈活地根據(jù)行情變化及實(shí)際交易行為進(jìn)行及時(shí)的場(chǎng)外配資監(jiān)控。
針對(duì)場(chǎng)外配資監(jiān)控系統(tǒng)現(xiàn)狀,本文創(chuàng)新性地采用人工智能的手段,通過(guò)機(jī)器學(xué)習(xí)算法進(jìn)行市場(chǎng)交易行為分析,從而準(zhǔn)確靈活地識(shí)別出賬戶是否為配資賬戶。本文提出了基于改進(jìn)的XGBoost場(chǎng)外配資監(jiān)控算法,并結(jié)合場(chǎng)外配資識(shí)別的業(yè)務(wù)需求,在現(xiàn)有的規(guī)則篩選方法基礎(chǔ)上,設(shè)計(jì)合理的業(yè)務(wù)特征,通過(guò)特征工程及重要性分析構(gòu)建特征指標(biāo)體系。根據(jù)場(chǎng)外配資行為特性對(duì)XGBoost模型進(jìn)行改進(jìn),更好地用于配資賬戶的識(shí)別。在效果評(píng)價(jià)方面,結(jié)合實(shí)際賬戶分布及識(shí)別需求,選取召回率作為關(guān)鍵評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果顯示,本文所提出的場(chǎng)外配資監(jiān)控算法得到了更高的準(zhǔn)確率,具有更優(yōu)的識(shí)別效果,并且通過(guò)市場(chǎng)交易行為分析能夠更加靈活快速地適應(yīng)市場(chǎng)環(huán)境變化,從而更好地用于證券市場(chǎng)的場(chǎng)外配資監(jiān)控。
場(chǎng)外配資是一種金融融資手段,逐漸形成了較明確的業(yè)務(wù)流程。首先,用戶向配資公司繳納服務(wù)費(fèi)、手續(xù)費(fèi)等,并繳納賬戶初始資金(保證金)。其次,配資公司提供無(wú)限制配資、按月配資、按周配資、按天配資等業(yè)務(wù),用戶選擇配資模式和配資比例后,配資公司向用戶提供合同規(guī)定賬戶金額的賬戶,之后用戶即可進(jìn)行買(mǎi)入或賣出操作。為了確保出借資金的安全,配資公司實(shí)時(shí)監(jiān)控客戶賬戶資金情況,設(shè)置平倉(cāng)線和預(yù)警線。每日清算階段,配資公司會(huì)判斷用戶的賬戶資金是否達(dá)到相應(yīng)的臨界線。如果未觸及臨界線,用戶可正常交易;若低于補(bǔ)充保證金臨界線,則提醒用戶補(bǔ)充保證金;若低于強(qiáng)制平倉(cāng)臨界線,用戶需補(bǔ)充保證金才可進(jìn)行后續(xù)操作,若不補(bǔ)充,則配資公司會(huì)對(duì)賬戶強(qiáng)制平倉(cāng),平倉(cāng)后進(jìn)行保證金結(jié)算,用戶退出配資系統(tǒng)。具體配資流程圖如圖1所示。
圖1 配資流程圖
例如,某用戶初始資金為100萬(wàn)元,按照5倍杠桿進(jìn)行配資,則可操作資金為600萬(wàn)元。按照合同規(guī)定,警戒線(補(bǔ)充保證金臨界線)為杠桿操盤(pán)資金+本金×50%,即550×(500+100×50%),平倉(cāng)線為杠桿操盤(pán)資金+本金×30%,即530×(500+100×30%)。某天清算后,用戶總資產(chǎn)為525萬(wàn)元,則用戶至少補(bǔ)充5萬(wàn)元的保證金才可進(jìn)行第二日的交易操作。若不補(bǔ)充保證金,則公司進(jìn)行強(qiáng)制平倉(cāng)后用戶實(shí)得金額約為25萬(wàn)元,虧損約75萬(wàn)元。
在深入了解場(chǎng)外配資賬戶交易行為的基礎(chǔ)上,我們構(gòu)建了與場(chǎng)外配資識(shí)別強(qiáng)相關(guān)的特征指標(biāo)體系,并以市場(chǎng)交易行為分析為基礎(chǔ)進(jìn)行場(chǎng)外配資監(jiān)控算法設(shè)計(jì)。
場(chǎng)外配資監(jiān)控系統(tǒng)的流程如圖2所示。
圖2 場(chǎng)外配資賬戶識(shí)別流程
首先,結(jié)合實(shí)際場(chǎng)外配資背景,使用歷史行情數(shù)據(jù)生成配資和合規(guī)交易數(shù)據(jù),導(dǎo)入委托交易數(shù)據(jù)庫(kù)。隨后,進(jìn)行特征設(shè)計(jì),抽取出具有場(chǎng)外配資行為特性的特征。最后,設(shè)計(jì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練預(yù)測(cè),本文選取了兩種集成算法,隨機(jī)森林和XGBoost,相對(duì)于單一的弱學(xué)習(xí)器,集成算法的學(xué)習(xí)器更精確,魯棒性更好,并且結(jié)合業(yè)務(wù)實(shí)際,從3個(gè)角度對(duì)XGBoost模型進(jìn)行了改進(jìn)優(yōu)化。
由于賬戶交易數(shù)據(jù)涉及客戶隱私,在數(shù)據(jù)獲取途徑上,采用了數(shù)據(jù)生成的方法,即根據(jù)歷史行情數(shù)據(jù)并結(jié)合場(chǎng)外配資交易的行為特征,構(gòu)建了賬戶生成算法模型,生成相應(yīng)的交易數(shù)據(jù)。
根據(jù)配資流程,定義配資賬戶類,并按照不同的交易策略生成配資賬戶的交易數(shù)據(jù)。配資賬戶類的說(shuō)明如表1所示。
表1 配資賬戶類屬性和方法
生成交易數(shù)據(jù)的偽代碼如表2所示。數(shù)據(jù)具有隨機(jī)性。
表2 交易數(shù)據(jù)生成偽代碼
通過(guò)不斷重復(fù)上述操作,最終得到的交易數(shù)據(jù)集中共有188個(gè)正常賬戶,56個(gè)配資賬戶,共158 370條交易記錄。配資賬戶占比小的原因是在真實(shí)情況中,配資賬戶占比較小,這樣設(shè)置類別比例更符合實(shí)際。
針對(duì)數(shù)據(jù)庫(kù)中的交易操作記錄,首先進(jìn)行交易數(shù)據(jù)的特征工程。結(jié)合場(chǎng)外配資的業(yè)務(wù)特點(diǎn),抽取了交易頻率、總成交量等9個(gè)特征,具體說(shuō)明如表3所示。
表3 特征設(shè)計(jì)
偏度(skewness)是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱程度的數(shù)字特征。其表征概率分布密度曲線相對(duì)于平均值不對(duì)稱程度的特征數(shù)。直觀看來(lái)就是密度函數(shù)曲線尾部的相對(duì)長(zhǎng)度。偏度是樣本的三階標(biāo)準(zhǔn)化矩,其計(jì)算式為式(1)。
(1)
其中,k2、k3分別表示二階和三階中心距。在一般情形下,當(dāng)統(tǒng)計(jì)數(shù)據(jù)為右偏分布時(shí),Skew>0,且Skew值越大,右偏程度越高;當(dāng)統(tǒng)計(jì)數(shù)據(jù)為左偏分布時(shí),Skew<0,且Skew值越小,左偏程度越高。當(dāng)統(tǒng)計(jì)數(shù)據(jù)為對(duì)稱分布時(shí),顯然有Skew=0。
峰度(kurtosis)表征概率密度分布曲線在平均值處峰值高低的特征數(shù)。直觀看來(lái),峰度反映了峰部的尖度。如果峰度大于3,峰的形狀比較尖,比正態(tài)分布峰要陡峭。反之亦然。峰度的計(jì)算式為式(2)。
(2)
其中,μ4表示四階中心距,減3是為了方便和正態(tài)分布進(jìn)行對(duì)比。在實(shí)際計(jì)算中,常用的是樣本峰度的計(jì)算式,其表達(dá)式為式(3)。
(3)
1.5.1 基于隨機(jī)森林的特征重要性分析
隨機(jī)森林(Random Forest,RF)[4],指的是利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器。該分類器最早由Leo Breiman和Adele Cutler提出,由多棵CART(Classification And Regression Tree)構(gòu)成,每棵樹(shù)所使用的訓(xùn)練集是從總的訓(xùn)練集中有放回采樣出來(lái)的,這意味著,總訓(xùn)練集中的部分樣本可能多次出現(xiàn)在一棵樹(shù)的訓(xùn)練集中,也可能從未出現(xiàn)在任意樹(shù)的訓(xùn)練集中。在訓(xùn)練每棵樹(shù)的節(jié)點(diǎn)時(shí),使用的特征是從所有特征中按照一定比例隨機(jī)地?zé)o放回抽取的。
經(jīng)特征工程處理后的交易記錄數(shù)據(jù)集,共有9個(gè)特征和1個(gè)類別。這里采用隨機(jī)森林進(jìn)行了特征重要性分析,進(jìn)一步優(yōu)化特征指標(biāo)體系,并驗(yàn)證了所構(gòu)建特征對(duì)于場(chǎng)外配資賬戶識(shí)別的效果。接下來(lái),基于隨機(jī)森林分類器進(jìn)行了建模識(shí)別。由于樣本存在比例不協(xié)調(diào)的問(wèn)題,因此對(duì)模型的相關(guān)參數(shù)進(jìn)行了設(shè)定,使模型能夠更好地處理實(shí)際情況下的樣本分布不平衡問(wèn)題。
1.5.2 基于改進(jìn)的XGBoost的場(chǎng)外配資監(jiān)控算法
考慮到隨機(jī)森林弱化預(yù)測(cè)偏差的局限性,本文進(jìn)一步使用了XGBoost算法對(duì)配資賬戶進(jìn)行識(shí)別。XGBoost是經(jīng)過(guò)優(yōu)化的分布式梯度提升庫(kù),優(yōu)點(diǎn)在于在高效、靈活且可移植[5]。它是在Gradient Boosting框架下實(shí)現(xiàn)的一類集成樹(shù)的機(jī)器學(xué)習(xí)算法。XGBoost基于并行樹(shù)增強(qiáng)(GBDT,Gradient Boosting Decision Tree)的算法邏輯,可以快速準(zhǔn)確地解決許多數(shù)據(jù)科學(xué)問(wèn)題。與隨機(jī)森林相比,XGBoost是一種提升算法,不僅學(xué)習(xí)效果較好,而且速度也很快,并且相較于隨機(jī)森林更加關(guān)注分類錯(cuò)誤的樣本。
在算法效果分析評(píng)估過(guò)程中,結(jié)合場(chǎng)外配資行為特性,除準(zhǔn)確性指標(biāo)外,本文采用召回率(Recall)作為關(guān)鍵度量指標(biāo)。召回率的實(shí)際意義為真實(shí)的配資賬戶最終被算法正確識(shí)別出來(lái)的比例,在實(shí)際業(yè)務(wù)場(chǎng)景中,往往更希望盡可能全面地識(shí)別出配資賬戶,保證不遺漏,因此使用召回率更符合實(shí)際場(chǎng)外配資監(jiān)控場(chǎng)景。
為了提高識(shí)別的召回率,本文對(duì)所使用的XGBoost算法進(jìn)行了以下改進(jìn)。
1)加入新特征
在原有特征的基礎(chǔ)上,新加入了總交易金額。其結(jié)果為每個(gè)賬戶的每條交易信息中價(jià)格與交易量乘積的求和。對(duì)于某個(gè)賬戶,設(shè)Pi為其第i條交易記錄中的交易價(jià)格;Vi為其第i條交易記錄中的交易量,則總交易金額TOTAL_ACCOUNT定義為式(4)。
(4)
2)對(duì)部分原特征對(duì)數(shù)變換
由于某些特征的分布圖中呈現(xiàn)三峰或多峰現(xiàn)象,本問(wèn)題為二分類問(wèn)題,最理想的狀況為雙峰分布,因此對(duì)于部分特征進(jìn)行了對(duì)數(shù)特征變換。
3)自定義測(cè)評(píng)函數(shù)
在XGBoost模型中,自定義測(cè)評(píng)函數(shù)。由于本問(wèn)題更關(guān)注召回率這一指標(biāo),因此將測(cè)評(píng)函數(shù)定義為1-召回率,即若測(cè)評(píng)函數(shù)越小,說(shuō)明召回率越高,越符合實(shí)際要求。
采用隨機(jī)森林模型進(jìn)行特征重要性分析與初步識(shí)別算法構(gòu)建。考慮到樣本存在比例不協(xié)調(diào)的問(wèn)題,因此對(duì)模型的相關(guān)參數(shù)進(jìn)行了設(shè)定。模型參數(shù)如下:n_estimators=200,max_depth=5,verbose=True,class_weight={"SMF":56,"NORMAL":188}。
特征重要度占比和排序如圖3所示。
從圖3可以看出,交易頻率(TRA_FRE)重要性最高,其次是交易總量(TRA_VOL),個(gè)股交易量偏度(VOL_SKEW)等。結(jié)合特征重要度的實(shí)際意義,上述的特征排名能夠較好地反映出場(chǎng)外配資行為的特點(diǎn)。交易頻率反映出場(chǎng)外配資賬戶交易頻繁的特點(diǎn);交易總量特征說(shuō)明與正常賬戶相比,交易總量存在顯著性差異;個(gè)股交易偏度則說(shuō)明場(chǎng)外配資賬戶的歷史交易主體交易量變動(dòng)范圍大,交易行為具有不一致性的特點(diǎn)。
圖3 特征重要度占比排序
將數(shù)據(jù)集按比例劃分為測(cè)試集和訓(xùn)練集。在測(cè)試集中,正常用戶(NORMAL)和配資賬戶(SMF)的比例為4:1以上,目的盡可能反映配資賬戶與合規(guī)賬戶分布不均衡的實(shí)際情況,同時(shí)保證實(shí)驗(yàn)驗(yàn)證結(jié)果的可靠性。
首先,采用基于隨機(jī)森林的場(chǎng)外配資識(shí)別模型進(jìn)行訓(xùn)練和預(yù)測(cè)。通過(guò)調(diào)整訓(xùn)練集中樣本比例,繪制出不同的訓(xùn)練集、測(cè)試集所對(duì)應(yīng)的預(yù)測(cè)準(zhǔn)確性和召回率結(jié)果,如圖4所示。
圖4 不同比例的測(cè)試集指標(biāo)圖
由圖4可以看出,最終經(jīng)過(guò)訓(xùn)練所得到的模型在測(cè)試集上的準(zhǔn)確性達(dá)到95%以上,召回率為96%。對(duì)比預(yù)測(cè)結(jié)果和真實(shí)值,發(fā)現(xiàn)預(yù)測(cè)錯(cuò)誤的賬戶數(shù)為1,且為配資賬戶。召回率Recall=27/28=96%。召回率是評(píng)價(jià)模型較好的指標(biāo),因?yàn)樗砹四P蛷恼鎸?shí)的配資樣本中識(shí)別出配資賬戶的比例。當(dāng)測(cè)試集比例為0.8時(shí),模型識(shí)別效果最好。
本文進(jìn)一步使用改進(jìn)的XGBoost算法對(duì)配資賬戶進(jìn)行識(shí)別,并選取了Binary:logistic作為算法的目標(biāo)函數(shù)。詳細(xì)的參數(shù)設(shè)置如表4所示。
表4 Binnary:logistic關(guān)鍵參數(shù)
將XGBoost與隨機(jī)森林的預(yù)測(cè)結(jié)果匯總,在不同的測(cè)試集樣本比例下,預(yù)測(cè)召回率如圖5所示。
圖5 數(shù)據(jù)折線圖
從圖5可以看出,在測(cè)試集中樣本分布比例達(dá)到90%時(shí),改進(jìn)的XGBoost算法相比隨機(jī)森林能夠得到更高的召回率,召回率達(dá)98%。在小樣本訓(xùn)練集上,XGBoost的識(shí)別效率較高,說(shuō)明本文改進(jìn)的算法具有魯棒性。在實(shí)際業(yè)務(wù)中,配資賬戶在總賬戶中的比例非常小,改進(jìn)的XGBoost算法能夠更好地適應(yīng)實(shí)際的賬戶數(shù)據(jù)分布情況,因此改進(jìn)的XGBoost更加適用于真實(shí)的場(chǎng)外配資監(jiān)控場(chǎng)景。
場(chǎng)外配資是一種高風(fēng)險(xiǎn)的金融融資行為,其監(jiān)管是否有效關(guān)系到證券市場(chǎng)的穩(wěn)定和發(fā)展。本文創(chuàng)新性地提出了基于改進(jìn)的XGBoost的場(chǎng)外配資監(jiān)控算法。對(duì)于場(chǎng)外配資賬戶的識(shí)別,首先對(duì)不同賬戶的歷史交易信息通過(guò)特征工程進(jìn)行了特征指標(biāo)體系構(gòu)建,構(gòu)建了10個(gè)關(guān)鍵特征。針對(duì)新特征,首先使用了隨機(jī)森林算法進(jìn)行特征重要性分析與解釋驗(yàn)證,并初步進(jìn)行識(shí)別建模預(yù)測(cè),結(jié)果顯示,該模型下的查全率(Recall)平均達(dá)到90%以上。然后,使用了XGBoost這一更加關(guān)注分類錯(cuò)誤樣本的梯度提升集成樹(shù)算法,并結(jié)合實(shí)際數(shù)據(jù)特征,對(duì)測(cè)評(píng)函數(shù)、特征等進(jìn)行了改進(jìn),進(jìn)一步提升算法效果。最后,將改進(jìn)的XGBoost與隨機(jī)森林模型進(jìn)行了實(shí)驗(yàn)分析比較,結(jié)果顯示,改進(jìn)后的XGBoost算法相對(duì)于隨機(jī)森林,其在評(píng)價(jià)指標(biāo)上表現(xiàn)更優(yōu),說(shuō)明對(duì)場(chǎng)外配資的監(jiān)控效果表現(xiàn)優(yōu)異。本文通過(guò)機(jī)器學(xué)習(xí)算法對(duì)場(chǎng)外配資賬戶進(jìn)行識(shí)別,構(gòu)建場(chǎng)外配資監(jiān)控系統(tǒng),能夠有效落實(shí)監(jiān)管要求,清查場(chǎng)外配資,有助于維持股市的健康有序發(fā)展,引領(lǐng)正確的價(jià)值投資理念。