彭昌
企業(yè)非法集資具有嚴(yán)重社會危害性。一是參與者容易遭受經(jīng)濟損失。犯罪分子通過高回報利誘等方式聚攬資金后,任意揮霍、轉(zhuǎn)移或者非法占有,參與者難以收回資金。二是非法集資嚴(yán)重擾亂正常經(jīng)濟金融秩序,容易引發(fā)金融風(fēng)險。三是非法集資容易引起社會不穩(wěn)定和社會治安問題,甚至引發(fā)局部地區(qū)的社會動蕩。如何基于大量企業(yè)信息構(gòu)建預(yù)測模型,并判斷企業(yè)是否存在非法集資風(fēng)險,對于監(jiān)管機構(gòu)、公司合作伙伴和投資者具有一定價值。
根據(jù)大量企業(yè)信息,利用隨機森林和LightGBMi兩種機器學(xué)習(xí)算法分別構(gòu)建企業(yè)非法集資風(fēng)險預(yù)測模型,并對其模型性能指標(biāo)F1-score值進行對比。
(一)數(shù)據(jù)預(yù)處理
本文實驗中用到的企業(yè)信息數(shù)據(jù)集源于某競賽數(shù)據(jù)集,包含24865家企業(yè)數(shù)據(jù),其中14865家企業(yè)數(shù)據(jù)帶有是否非法集資標(biāo)注,可作為訓(xùn)練集;剩余10000家企業(yè)數(shù)據(jù)不帶是否非法集資標(biāo)注,可作為測試集。數(shù)據(jù)由企業(yè)基本信息、企業(yè)年報、企業(yè)納稅情況、企業(yè)變更信息、企業(yè)新聞輿情信息和企業(yè)其他信息等組成,數(shù)據(jù)包括數(shù)值型、字符型、日期型等眾多數(shù)據(jù)類型,部分字段內(nèi)容有缺失,其中第一列id為企業(yè)唯一標(biāo)識,label為目標(biāo)變量。
對獲取的數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)分析、變量篩選、填充缺失值、特征編碼、可解釋性特征提取等操作。
1、變量篩選
根據(jù)缺失值占比、Ⅳ值(Information Value,即信息價值)和高相關(guān)性進行變量篩選,變量缺失值大于0.5被刪除,變量Ⅳ值小于0.02被刪除(Ⅳ值是用來衡量變量預(yù)測能力的,Ⅳ值越大,表示該變量的預(yù)測能力越強,一般會舍棄lV值小于0.02的變量),兩個變量相關(guān)性高于0.7時,Ⅳ值低的變量被刪除。opto、compform、parnum、exenum、opform、ptbusscope、venind、enttypeminu、midpreindcode、protype、reccap、brreccap、forregcap、congro變量因缺失值大于0.5被刪除,adbusign、regtype變量因Ⅳ值小于0.02被刪除,enttype、enttypegb變量因高相關(guān)性被刪除。
2、企業(yè)經(jīng)營范圍關(guān)鍵詞篩選
對標(biāo)注為非法集資企業(yè)的經(jīng)營范圍進行詞頻分析,再對出現(xiàn)頻率較高的詞語進行人工篩選。若企業(yè)經(jīng)營范圍包含這些關(guān)鍵詞,則判定為特殊特征。最終篩選的關(guān)鍵詞為:投資、咨詢服務(wù)、融資、金融、擔(dān)保、代客理財、企業(yè)管理、股權(quán)、實業(yè)、資產(chǎn)、創(chuàng)業(yè)投資、證券期貨、房地產(chǎn)、咨詢服務(wù)、經(jīng)紀(jì)、營銷策劃、商務(wù)信息、財務(wù)咨詢、進出口、房產(chǎn)中介、貸款。
(二)實驗評價標(biāo)準(zhǔn)
本實驗采用分類任務(wù)的F1-score指標(biāo)作為模型性能的評判標(biāo)準(zhǔn)。F1-score值越高,說明模型預(yù)測性能越好。F1-score計算公式如下所示:
P表示精確率(precision),R表示召回率(recall),TP(True Positive)表示正確預(yù)測非法集資的企業(yè)數(shù)目,F(xiàn)N(False Negative)吲表示實際上是非法集資但預(yù)測不是非法集資的企業(yè)數(shù)目,F(xiàn)P(False Positive)是實際上不是非法集資但預(yù)測為非法集資的企業(yè)數(shù)目。
(三)實驗設(shè)計
在訓(xùn)練過程中,將數(shù)據(jù)集按4:1分成訓(xùn)練集和驗證集,構(gòu)建隨機森林、LightGBM兩種機器學(xué)習(xí)算法模型,對訓(xùn)練集進行訓(xùn)練,對驗證集進行驗證,對測試集進行預(yù)測,得到兩種算法模型的F1-score指標(biāo)。
隨機森林、LightGBM模型的F1-score指標(biāo)表現(xiàn)如表1所示,無論是否對企業(yè)經(jīng)營范圍進行特征提取,隨機森林模型的F1-score指標(biāo)都優(yōu)于LightGBM模型。
本文根據(jù)大量企業(yè)信息數(shù)據(jù),構(gòu)建基于隨機森林、LightGBM兩種機器學(xué)習(xí)算法的企業(yè)非法集資風(fēng)險預(yù)測模型?;陔S機森林模型構(gòu)建的企業(yè)非法集資風(fēng)險預(yù)測模型的F1-score指標(biāo)優(yōu)于LightGBM模型。根據(jù)企業(yè)信息,基于隨機森林算法構(gòu)建的企業(yè)非法集資風(fēng)險預(yù)測模型能夠有效預(yù)測企業(yè)是否存在非法集資風(fēng)險,有助于防范化解金融風(fēng)險,維護經(jīng)濟秩序穩(wěn)定,營造良好的金融環(huán)境。下一步工作將繼續(xù)優(yōu)化缺失值填充算法和模型參數(shù),充分挖掘算法潛力,進一步提高企業(yè)非法集資風(fēng)險預(yù)測模型的性能指標(biāo)。