亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)和集成學(xué)習(xí)技術(shù)構(gòu)建金融企業(yè)風(fēng)險(xiǎn)評(píng)估系統(tǒng)

        2021-03-07 07:18:08高赫
        電子技術(shù)與軟件工程 2021年22期
        關(guān)鍵詞:金融特征模型

        高赫

        (北京金融安全產(chǎn)業(yè)園 北京市 100005)

        近年來,借助大數(shù)據(jù)、人工智能、云計(jì)算、區(qū)塊鏈等新興信息技術(shù),我國金融科技(FinTech)創(chuàng)新呈爆發(fā)式增長,在國際也處于領(lǐng)先地位。與此同時(shí),監(jiān)管科技(RegTech)作為FinTech重要分支,也日益受到重視。監(jiān)管科技是指借助信息技術(shù)手段,輔助監(jiān)管機(jī)構(gòu)提升效降本,同時(shí)對(duì)被監(jiān)管機(jī)構(gòu)合規(guī)工作提供支撐。2017年7月全國金融工作會(huì)議確定“服務(wù)實(shí)體經(jīng)濟(jì)、防控金融風(fēng)險(xiǎn)、深化金融改革”三大任務(wù),強(qiáng)調(diào)健全風(fēng)險(xiǎn)監(jiān)測預(yù)警和早期干預(yù)機(jī)制,加強(qiáng)金融基礎(chǔ)設(shè)施的統(tǒng)籌監(jiān)管和互聯(lián)互通,推進(jìn)金融業(yè)綜合統(tǒng)計(jì)和監(jiān)管信息共享,對(duì)監(jiān)管機(jī)構(gòu)的監(jiān)管能力和手段提出更高要求。RegTech具備快速、精準(zhǔn)、高效,以及可統(tǒng)籌、可規(guī)劃、可持續(xù)等特性,與上述要求高度契合。本次研究,針對(duì)金融機(jī)構(gòu)風(fēng)險(xiǎn)特點(diǎn),基于其工商、司法、經(jīng)營、關(guān)聯(lián)方等數(shù)據(jù),進(jìn)行模塊化、分層的有監(jiān)督學(xué)習(xí),構(gòu)建包含800余項(xiàng)指標(biāo)的金融企業(yè)風(fēng)險(xiǎn)評(píng)價(jià)體系,為監(jiān)管機(jī)構(gòu)對(duì)風(fēng)險(xiǎn)的有效研判提供決策依據(jù)。

        1 金融企業(yè)風(fēng)險(xiǎn)概述

        在互聯(lián)網(wǎng)金融快速發(fā)展的背景下,網(wǎng)絡(luò)小貸公司、虛擬貨幣交易所等歸屬于地方的非持牌金融機(jī)構(gòu)和組織的風(fēng)險(xiǎn)加速暴露,非法集資、債務(wù)鏈條斷裂等金融亂象及風(fēng)險(xiǎn)事件時(shí)有發(fā)生,區(qū)域性風(fēng)險(xiǎn)隱患突出,對(duì)監(jiān)管機(jī)構(gòu)的監(jiān)管能力和手段提出更高要求。

        隨類金融業(yè)態(tài)不斷發(fā)展,加大了地方金融監(jiān)管的壓力和難度,如小額貸款公司、融資擔(dān)保公司、地方資產(chǎn)管理公司、融資租賃企業(yè)等地方性金融機(jī)構(gòu)及非持牌機(jī)構(gòu),存在于“一行兩會(huì)”體系之外,其經(jīng)營活動(dòng)及派生風(fēng)險(xiǎn)主要由地方監(jiān)管部門負(fù)責(zé)管理和處置,其在金融風(fēng)險(xiǎn)防范和化解方面扮演的角色日益重要。要維護(hù)區(qū)域金融安全和經(jīng)社會(huì)健康發(fā)展,做到“把防控金融風(fēng)險(xiǎn)放到更加重要的位置,牢牢守住不發(fā)生系統(tǒng)性風(fēng)險(xiǎn)的底線”,有必要構(gòu)建以科技為支撐的金融監(jiān)管體系,以技術(shù)監(jiān)管技術(shù),以技術(shù)賦能監(jiān)管。

        本次研究針對(duì)地方“7+4”類金融機(jī)構(gòu)的潛在風(fēng)險(xiǎn),建立評(píng)價(jià)體系,以期實(shí)現(xiàn)此類風(fēng)險(xiǎn)的預(yù)警和防范。

        2 技術(shù)方案選擇

        構(gòu)建金融企業(yè)風(fēng)險(xiǎn)評(píng)價(jià)體系涉及的主要技術(shù)包括:特征衍生、集成學(xué)習(xí)、詞頻-逆文檔率(TF-IDF)算法及遺傳算法。

        首先基于公開的工商、行政、輿情、司法等數(shù)據(jù),借助特征衍生及模塊化集成學(xué)習(xí)技術(shù),通過因子分析與聚類分析,生成800多條風(fēng)險(xiǎn)指標(biāo)。隨后,使用TF-IDF算法提取經(jīng)營范圍中涉金融業(yè)務(wù)關(guān)鍵字,篩選出16余萬家注冊(cè)地為北京的金融機(jī)構(gòu)及類金融機(jī)構(gòu)。最后,通過遺傳算法進(jìn)行模塊權(quán)重學(xué)習(xí),測算風(fēng)險(xiǎn)指數(shù),形成較為完善的風(fēng)險(xiǎn)評(píng)價(jià)體系,實(shí)現(xiàn)對(duì)金融企業(yè)風(fēng)險(xiǎn)的量化評(píng)估及預(yù)警。

        2.1 特征衍生

        對(duì)于企業(yè)原始數(shù)據(jù)中部分無實(shí)際含義的特征,無法直接反映企業(yè)的深層信息。需要進(jìn)行變換或組合,提升信息價(jià)值和數(shù)據(jù)質(zhì)量。特征衍生(或特征構(gòu)建)就是基于業(yè)務(wù)邏輯和既有數(shù)據(jù),對(duì)原始特征加以重構(gòu)以生成新特征的過程。[1]常見特征衍生方法包括:

        2.1.1 基于統(tǒng)計(jì)指標(biāo)

        同類企業(yè)數(shù)據(jù)中的高維稀疏特征常具有同質(zhì)性,可有針對(duì)性的構(gòu)建統(tǒng)計(jì)類指標(biāo),量化其集中和離散程度。另外,某些特征具有取值區(qū)間敏感性,也可以針對(duì)該特征的不同取值構(gòu)建其統(tǒng)計(jì)特征。

        2.1.2 基于排序指標(biāo)

        某些特征的取值區(qū)間與企業(yè)風(fēng)險(xiǎn)程度順序相關(guān),可針對(duì)該特征的不同取值構(gòu)建其排序特征。

        2.1.3 基于特征含義

        某些特征可通過具體業(yè)務(wù)相關(guān)聯(lián),可對(duì)特征進(jìn)行組合,依據(jù)業(yè)務(wù)邏輯,并結(jié)合實(shí)際監(jiān)管需求,創(chuàng)建新特征。

        2.1.4 基于特征交叉

        針對(duì)數(shù)值型特征,根據(jù)其含義及彼此關(guān)系,進(jìn)行代數(shù)運(yùn)算,可生成企業(yè)風(fēng)險(xiǎn)在更高維中的分布特征。

        2.2 集成學(xué)習(xí)(Ensemble Learning)

        其本質(zhì)就是組合多個(gè)弱分類器,構(gòu)造預(yù)測效果更好的強(qiáng)分類器,屬于監(jiān)督學(xué)習(xí)范疇。[2]集成學(xué)習(xí)的路徑主要包括:

        2.2.1 Bagging

        即Bootstrap Aggregating的縮寫。Bootstrap采用有放回的抽樣,以得到統(tǒng)計(jì)量的分布以及置信區(qū)間。在Bagging方法中,基于bootstrap方法從整體數(shù)據(jù)集生成N個(gè)數(shù)據(jù)集,在每個(gè)數(shù)據(jù)集上學(xué)習(xí)出一個(gè)模型,各模型權(quán)重均等,綜合N個(gè)模型的輸出(投票)得到最終預(yù)測結(jié)果。隨機(jī)森林(Random Forest)即是典型的Bagging方法。

        2.2.2 Boosting

        Boosting對(duì)基礎(chǔ)模型采取差別對(duì)待,反復(fù)考驗(yàn)篩選出「精英」模型,賦予更多權(quán)重(投票),最后對(duì)所有模型輸出進(jìn)行加權(quán)得出結(jié)果。AdaBoost算法即是典型的Boosting方法。

        2.2.3 Stacking

        訓(xùn)練多個(gè)不同模型,并綜合各模型的輸出訓(xùn)練一個(gè)新模型,以該模型的輸出為最終輸出。實(shí)際操作中通常使用邏輯回歸作為組合策略。

        2.3 詞頻-逆文檔率(TF-IDF)算法

        TF-IDF常用于信息檢索與文章關(guān)鍵詞挖掘,評(píng)估某詞對(duì)某文檔集或語料庫中某文檔的重要程度,以剝離關(guān)鍵詞,實(shí)現(xiàn)文本數(shù)據(jù)的清洗。字詞的重要性與其在文檔中出現(xiàn)頻次成正比,與其在語料庫中出現(xiàn)的頻次成反比;如某罕見詞在某篇文章中多次出現(xiàn),則很可能能代表該文章特性,即需要抽取的關(guān)鍵詞,在計(jì)算時(shí)應(yīng)賦予較高權(quán)重,即逆文檔頻率。[3]

        當(dāng)獲得TF(詞頻)和IDF(逆文檔頻率)后,兩數(shù)值相乘,即得到某詞的TF-IDF值。TF-IDF值越大,該詞通常對(duì)文章重要性越高。將各詞TF-IDF降序排列,排在最前的詞,即為文章關(guān)鍵詞。

        2.4 遺傳(Genetic Algorithm)算法

        通過模擬遺傳學(xué)機(jī)理及自然進(jìn)化過程,即自動(dòng)選擇優(yōu)良基因,淘汰劣勢(shì)基因,實(shí)現(xiàn)最優(yōu)解搜索。[4]遺傳算法的一般步驟:

        采用適應(yīng)度函數(shù),評(píng)估每條染色體所對(duì)應(yīng)個(gè)體的適應(yīng)度;

        對(duì)適應(yīng)度評(píng)估值升序排列,選出前列若干個(gè)體作為待選父種群(評(píng)估值越小越好);

        從待選父種群中隨機(jī)選擇兩個(gè)個(gè)體作為父方和母方;

        將雙方染色體進(jìn)行交叉,產(chǎn)生兩個(gè)后代(交叉概率);

        對(duì)后代染色體進(jìn)行變異(變異概率);

        重復(fù)上述3,4,5步,直至新種群產(chǎn)生;

        循環(huán)以上步驟,直至出現(xiàn)最優(yōu)解。

        3 ‘主體 + 事件 + 維度變換’的特征衍生方案

        3.1 數(shù)據(jù)來源

        本次研究的原始數(shù)據(jù)包括:新聞、論壇,微博、招聘等公開數(shù)據(jù)1.2億條;專用接口讀取的工商企業(yè)數(shù)據(jù)5000余萬家;行業(yè)協(xié)會(huì)提供數(shù)據(jù)20余萬條;違法舉報(bào)記錄8000余條;立案記錄、經(jīng)濟(jì)犯罪嫌疑企業(yè)名單等6萬余條,失信公告、判決書、執(zhí)行公告等司法信息5.5億條。

        3.2 數(shù)據(jù)預(yù)處理

        本次研究對(duì)數(shù)據(jù)的預(yù)處理分兩個(gè)步驟:

        (1)特征衍生:利用上述數(shù)據(jù)對(duì)本市金融機(jī)構(gòu)進(jìn)行評(píng)估,采用“主體+事件+維度變換”的特征衍生方法(見圖1)。

        圖1:“主體+事件+維度變換”特征衍生

        (2)特征選擇。按照以下三種方式處理:

        剔除高缺失特征:有高缺失值的特征將增加噪聲和訓(xùn)練成本,設(shè)置缺失比例閾值α=60%,刪除超過閾值的特征。

        剔除常變量特征:常變量增加數(shù)據(jù)冗余性,且對(duì)訓(xùn)練效果貢獻(xiàn)極低,設(shè)置方差閾值σ=0.22,剔除低于閾值的特征。

        剔除高相關(guān)性特征:相關(guān)度較高的特征參與訓(xùn)練將增加訓(xùn)練成本,計(jì)算各特征間的相關(guān)系數(shù)(數(shù)值變量計(jì)算Pearson系數(shù),序數(shù)變量計(jì)算Spearman秩系數(shù)),設(shè)置相關(guān)系數(shù)閾值ρ=0.9,相關(guān)系數(shù)絕對(duì)值超過閾值的僅保留其一。

        最終保留近900項(xiàng)風(fēng)險(xiǎn)特征(見圖2)。

        圖2:經(jīng)選擇后的風(fēng)險(xiǎn)特征(部分)

        4 風(fēng)險(xiǎn)指數(shù)-模塊化集成學(xué)習(xí)技術(shù)

        基于上述獲得的風(fēng)險(xiǎn)特征項(xiàng),進(jìn)行模塊化、層次化的集成學(xué)習(xí),模型結(jié)構(gòu)如圖3所示。

        圖3:模型結(jié)構(gòu)圖

        5 TF-IDF算法實(shí)現(xiàn)企業(yè)分類

        基于目標(biāo)企業(yè)工商信息及經(jīng)營信息,將本市金融機(jī)構(gòu)分為網(wǎng)絡(luò)借貸、小額貸款、私募股權(quán)、眾籌、交易場所、融資租賃、典當(dāng)、融資擔(dān)保、金融倉儲(chǔ)、金融租賃、金融資產(chǎn)交易等11個(gè)行業(yè),即歸屬地方監(jiān)管的“7+4”類機(jī)構(gòu)。[5]

        一方面,依據(jù)監(jiān)管要求,按上述行業(yè)分類解析提取企業(yè)名稱和經(jīng)營范圍中的關(guān)鍵詞;另一方面,鑒于部分涉金融業(yè)務(wù)企業(yè)并未按規(guī)定申請(qǐng)經(jīng)營許可,因此使用TF-IDF算法提取經(jīng)營范圍中的關(guān)鍵字,按如下公式計(jì)算關(guān)鍵詞權(quán)重:

        最終根據(jù)提取的企業(yè)名稱和經(jīng)營范圍關(guān)鍵詞,結(jié)合行業(yè)分類計(jì)算相關(guān)性,精準(zhǔn)判定目標(biāo)企業(yè)所屬類型。

        6 分類遺傳算法學(xué)習(xí)模塊權(quán)重

        基于得到的金融機(jī)構(gòu)類型,使用遺傳算法賦予基礎(chǔ)評(píng)價(jià)模塊不同權(quán)重,搜索評(píng)價(jià)模塊間最優(yōu)組合權(quán)重,精準(zhǔn)識(shí)別目標(biāo)企業(yè)風(fēng)險(xiǎn),并進(jìn)行動(dòng)態(tài)評(píng)估。

        具體流程如下:

        隨機(jī)生成1500組基礎(chǔ)評(píng)分模塊,包括企業(yè)綜合實(shí)力、行業(yè)特征、司法誠信、經(jīng)營行為、關(guān)聯(lián)方等特征,設(shè)定初始權(quán)重約束條件:最小權(quán)重不低于0.05,最大權(quán)重不超過0.3,總和為1;

        對(duì)權(quán)重向量賦值,設(shè)定交叉概率0.5,變異概率0.25,迭代800次;

        單次迭代均進(jìn)行權(quán)重交叉及變異操作,并采用評(píng)價(jià)函數(shù)評(píng)估新權(quán)重,保留每輪迭代的最優(yōu)權(quán)重,并通過‘輪盤賭’方式進(jìn)行種群進(jìn)化;

        選擇800次迭代最優(yōu)解作為最終模塊集成的權(quán)重組合,并使用該權(quán)重對(duì)該類金融機(jī)構(gòu)進(jìn)行風(fēng)險(xiǎn)測算。

        7 總結(jié)

        依托金融企業(yè)風(fēng)險(xiǎn)評(píng)價(jià)體系,可進(jìn)一步實(shí)現(xiàn)對(duì)我市金融機(jī)構(gòu)的實(shí)時(shí)監(jiān)測預(yù)警,可視化呈現(xiàn)金融風(fēng)險(xiǎn)的地理分布和行業(yè)分布,對(duì)目標(biāo)企業(yè)進(jìn)行風(fēng)險(xiǎn)畫像,協(xié)助監(jiān)管機(jī)構(gòu)有效排查屬地金融風(fēng)險(xiǎn),實(shí)現(xiàn)金融風(fēng)險(xiǎn)的常態(tài)監(jiān)測。

        猜你喜歡
        金融特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        何方平:我與金融相伴25年
        金橋(2018年12期)2019-01-29 02:47:36
        君唯康的金融夢(mèng)
        抓住特征巧觀察
        3D打印中的模型分割與打包
        P2P金融解讀
        国产精品后入内射日本在线观看| 在线中文字幕有码中文| 乱人伦人妻中文字幕无码| 日本一区二区高清视频在线| 精品国产日韩一区2区3区| 妇女bbbb插插插视频| 中文乱码人妻系列一区二区| 综合图区亚洲另类偷窥| 青青草手机免费播放视频| 国产专区一线二线三线码| 色欲aⅴ亚洲情无码av蜜桃| 久久精品美女久久| 久久精品国产亚洲av天美| 玩弄人妻少妇精品视频| 日产精品久久久久久久蜜臀| 国产亚洲精品日韩香蕉网 | 中文字幕人妻久久久中出| 亚洲日韩国产一区二区三区| 熟妇与小伙子matur老熟妇e| 激情文学人妻中文字幕| 国产亚洲精品90在线视频| 国产成人精品午夜视频| 亚洲无码专区无码| 国产一区二区毛片视频| 亚洲中文字幕av天堂自拍| 国产av人人夜夜澡人人爽麻豆| 国产欧美另类精品久久久| 国产一区二区三区中出| 久久亚洲av成人无码电影a片| 亚洲 欧美 国产 日韩 精品| 日韩最新av一区二区| 91自拍视频国产精品| 亚洲色欲久久久综合网| 久久中文字幕日韩无码视频| 亚洲精品美女中文字幕久久| av免费网址在线观看| 国产精品天堂| 少妇性l交大片免费快色| 肉色丝袜足j视频国产| 三上悠亚av影院在线看| 日韩精品首页在线观看|