亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林算法的企業(yè)非法集資風(fēng)險預(yù)測

        2021-07-17 23:13:31彭昌
        消費電子 2021年5期
        關(guān)鍵詞:集資森林變量

        彭昌

        一、背景介紹

        企業(yè)非法集資具有嚴(yán)重社會危害性。一是參與者容易遭受經(jīng)濟損失。犯罪分子通過高回報利誘等方式聚攬資金后,任意揮霍、轉(zhuǎn)移或者非法占有,參與者難以收回資金。二是非法集資嚴(yán)重擾亂正常經(jīng)濟金融秩序,容易引發(fā)金融風(fēng)險。三是非法集資容易引起社會不穩(wěn)定和社會治安問題,甚至引發(fā)局部地區(qū)的社會動蕩。如何基于大量企業(yè)信息構(gòu)建預(yù)測模型,并判斷企業(yè)是否存在非法集資風(fēng)險,對于監(jiān)管機構(gòu)、公司合作伙伴和投資者具有一定價值。

        二、研究思路

        根據(jù)大量企業(yè)信息,利用隨機森林和LightGBMi兩種機器學(xué)習(xí)算法分別構(gòu)建企業(yè)非法集資風(fēng)險預(yù)測模型,并對其模型性能指標(biāo)F1-score值進行對比。

        三、實驗過程

        (一)數(shù)據(jù)預(yù)處理

        本文實驗中用到的企業(yè)信息數(shù)據(jù)集源于某競賽數(shù)據(jù)集,包含24865家企業(yè)數(shù)據(jù),其中14865家企業(yè)數(shù)據(jù)帶有是否非法集資標(biāo)注,可作為訓(xùn)練集;剩余10000家企業(yè)數(shù)據(jù)不帶是否非法集資標(biāo)注,可作為測試集。數(shù)據(jù)由企業(yè)基本信息、企業(yè)年報、企業(yè)納稅情況、企業(yè)變更信息、企業(yè)新聞輿情信息和企業(yè)其他信息等組成,數(shù)據(jù)包括數(shù)值型、字符型、日期型等眾多數(shù)據(jù)類型,部分字段內(nèi)容有缺失,其中第一列id為企業(yè)唯一標(biāo)識,label為目標(biāo)變量。

        對獲取的數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)分析、變量篩選、填充缺失值、特征編碼、可解釋性特征提取等操作。

        1、變量篩選

        根據(jù)缺失值占比、Ⅳ值(Information Value,即信息價值)和高相關(guān)性進行變量篩選,變量缺失值大于0.5被刪除,變量Ⅳ值小于0.02被刪除(Ⅳ值是用來衡量變量預(yù)測能力的,Ⅳ值越大,表示該變量的預(yù)測能力越強,一般會舍棄lV值小于0.02的變量),兩個變量相關(guān)性高于0.7時,Ⅳ值低的變量被刪除。opto、compform、parnum、exenum、opform、ptbusscope、venind、enttypeminu、midpreindcode、protype、reccap、brreccap、forregcap、congro變量因缺失值大于0.5被刪除,adbusign、regtype變量因Ⅳ值小于0.02被刪除,enttype、enttypegb變量因高相關(guān)性被刪除。

        2、企業(yè)經(jīng)營范圍關(guān)鍵詞篩選

        對標(biāo)注為非法集資企業(yè)的經(jīng)營范圍進行詞頻分析,再對出現(xiàn)頻率較高的詞語進行人工篩選。若企業(yè)經(jīng)營范圍包含這些關(guān)鍵詞,則判定為特殊特征。最終篩選的關(guān)鍵詞為:投資、咨詢服務(wù)、融資、金融、擔(dān)保、代客理財、企業(yè)管理、股權(quán)、實業(yè)、資產(chǎn)、創(chuàng)業(yè)投資、證券期貨、房地產(chǎn)、咨詢服務(wù)、經(jīng)紀(jì)、營銷策劃、商務(wù)信息、財務(wù)咨詢、進出口、房產(chǎn)中介、貸款。

        (二)實驗評價標(biāo)準(zhǔn)

        本實驗采用分類任務(wù)的F1-score指標(biāo)作為模型性能的評判標(biāo)準(zhǔn)。F1-score值越高,說明模型預(yù)測性能越好。F1-score計算公式如下所示:

        P表示精確率(precision),R表示召回率(recall),TP(True Positive)表示正確預(yù)測非法集資的企業(yè)數(shù)目,F(xiàn)N(False Negative)吲表示實際上是非法集資但預(yù)測不是非法集資的企業(yè)數(shù)目,F(xiàn)P(False Positive)是實際上不是非法集資但預(yù)測為非法集資的企業(yè)數(shù)目。

        (三)實驗設(shè)計

        在訓(xùn)練過程中,將數(shù)據(jù)集按4:1分成訓(xùn)練集和驗證集,構(gòu)建隨機森林、LightGBM兩種機器學(xué)習(xí)算法模型,對訓(xùn)練集進行訓(xùn)練,對驗證集進行驗證,對測試集進行預(yù)測,得到兩種算法模型的F1-score指標(biāo)。

        四、實驗結(jié)果

        隨機森林、LightGBM模型的F1-score指標(biāo)表現(xiàn)如表1所示,無論是否對企業(yè)經(jīng)營范圍進行特征提取,隨機森林模型的F1-score指標(biāo)都優(yōu)于LightGBM模型。

        表1 隨機森林、LightGBM模型的F1-score指標(biāo)對比

        五、結(jié)語

        本文根據(jù)大量企業(yè)信息數(shù)據(jù),構(gòu)建基于隨機森林、LightGBM兩種機器學(xué)習(xí)算法的企業(yè)非法集資風(fēng)險預(yù)測模型?;陔S機森林模型構(gòu)建的企業(yè)非法集資風(fēng)險預(yù)測模型的F1-score指標(biāo)優(yōu)于LightGBM模型。根據(jù)企業(yè)信息,基于隨機森林算法構(gòu)建的企業(yè)非法集資風(fēng)險預(yù)測模型能夠有效預(yù)測企業(yè)是否存在非法集資風(fēng)險,有助于防范化解金融風(fēng)險,維護經(jīng)濟秩序穩(wěn)定,營造良好的金融環(huán)境。下一步工作將繼續(xù)優(yōu)化缺失值填充算法和模型參數(shù),充分挖掘算法潛力,進一步提高企業(yè)非法集資風(fēng)險預(yù)測模型的性能指標(biāo)。

        猜你喜歡
        集資森林變量
        抓住不變量解題
        太原:舉報非法集資最高獎萬元
        也談分離變量
        各式非法集資套路與反套路
        當(dāng)心非法集資搭上網(wǎng)絡(luò)傳銷
        哈Q森林
        教你識破非法集資及傳銷的“十三種表象”
        哈Q森林
        哈Q森林
        哈Q森林
        绝顶潮喷绝叫在线观看| 日韩精品视频中文字幕播放| 日本一区二区三区高清视| 粉嫩小泬无遮挡久久久久久| 国产卡一卡二卡三| 国产综合自拍| 18禁成人免费av大片一区| 国产精品一区二区三区在线蜜桃 | 热99re久久精品这里都是精品免费| 久久99精品国产99久久6尤物 | 日韩亚洲av无码一区二区不卡| 亚洲国产成人久久综合一区77| 丝袜美腿亚洲综合久久| 国产免费牲交视频| 越南女子杂交内射bbwxz| 九九在线精品视频xxx| 精品一区二区三区国产av| 久久久久国产精品| 久久久久99精品国产片| 无码流畅无码福利午夜| 日韩精品视频高清在线| 亚洲av无码专区亚洲av伊甸园| 亚洲一区二区三区成人| 在线看片免费人成视久网不卡| 熟妇高潮一区二区三区在线观看| 国产乱色精品成人免费视频| 精品国产91久久综合| 女主播国产专区在线观看| 黑人巨茎大战俄罗斯美女| 先锋影音av资源我色资源| 国产精品亚洲av国产| 丰满人妻猛进入中文字幕| 久久午夜夜伦鲁鲁片免费无码 | 国产69精品久久久久9999| 青青青国产免A在线观看| 久久夜色国产精品噜噜亚洲av | 欧性猛交ⅹxxx乱大交| 在线观看国产精品自拍| 中国一级黄色片久久久| 好屌草这里只有精品| 久久青草国产免费观看|