亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-means算法的企業(yè)信用無監(jiān)督分類研究

        2021-09-14 00:14:25施天虎韋詩玥
        電腦知識與技術 2021年22期
        關鍵詞:means算法企業(yè)信用信貸風險

        施天虎 韋詩玥

        摘要:企業(yè)信用分類的應用,能夠為商業(yè)銀行降低信貸業(yè)務的風險,隨著市場競爭的不斷加劇,機器學習和大數(shù)據(jù)的應用,越來越多的計量方法不斷革新,并廣泛運用到信用分析領域。本文設計了一個基于K-means算法的企業(yè)信用無監(jiān)督分類方法,通過對企業(yè)信息進行大數(shù)據(jù)分析,提取企業(yè)信用相關的內(nèi)容,再使用K-means算法對企業(yè)數(shù)據(jù)進行聚類,對目標企業(yè)根據(jù)其聚類所在簇來評估信用等級,以此對企業(yè)的信用進行分類。

        關鍵詞:企業(yè)信用;信貸風險;K-means算法;分類;特征選擇

        Abstract: The application of corporate credit classification can reduce the risk of credit business for commercial banks. With the continuous intensification of market competition, the application of machine learning and big data, more and more measurement methods continue to innovate and are widely used in the field of credit analysis. This paper designs an unsupervised classification system for corporate credit based on the K-means algorithm. Through big data analysis of corporate information, the content related to corporate credit is extracted, and then the K-means algorithm is used to cluster the companies, and the target companies are based on their The clusters where the clusters are located are used to evaluate the credit rating and thus classify the credit of the enterprise.

        Key words: Corporate credit; Credit Risk; K-means algorithm; classification; Feature selection

        1引言

        金融行業(yè)積累了大量的企業(yè)脫敏數(shù)據(jù)信息,企業(yè)的有效劃分及標識在企業(yè)信用評估、企業(yè)風險監(jiān)測中具有重要作用并受到各大平臺的重點關注[1]。金融場景中企業(yè)作為信貸主體的數(shù)據(jù)覆蓋互聯(lián)網(wǎng)、政府、線上應用等來源的方方面面,數(shù)據(jù)量大,來源廣泛、涉及企業(yè)的維度豐富[2]。企業(yè)信用分類的應用,為商業(yè)銀行降低企業(yè)信貸業(yè)務風險,創(chuàng)新風險管理理念,探索出一條行之有效的解決辦法[3]。隨著大數(shù)據(jù)、人工智能的發(fā)展和市場競爭日益加劇,大量基于機器學習的信用評估分類方法提出并廣泛應用于企業(yè)信用分析[4]。本文將企業(yè)脫敏數(shù)據(jù)信息進行特征選擇,提取信用分類相關的內(nèi)容,再使用K-means算法對數(shù)據(jù)進行聚類,按聚類簇劃分信用等級。

        2 關鍵技術

        2.1 K-means算法

        2.2 特征選擇

        特征選擇是重要的數(shù)據(jù)預處理方法,在數(shù)據(jù)中選出重要特征可以降低數(shù)據(jù)維度、去除多余的變量,提高算法的精度和效率。

        本文使用皮爾森相關系數(shù)[6]對數(shù)據(jù)進行特征選擇,皮爾森相關系數(shù)能夠獲取特征和變量之間的線性相關系,其計算公式如下:

        3 基于K-means算法的企業(yè)信用無監(jiān)督分類

        3.1 提取相關特征

        計算數(shù)據(jù)所有特征與信用分類的皮爾森相關系數(shù),根據(jù)結果判斷該特征是否與信用分類相關。設企業(yè)的信用類別為C={x1,x2,...,xn},特征項為T={t1,t2,...,tn},相關閾值為x,當該特征項與信用類別的皮爾森相關系數(shù)大于閾值x即滿足下式時選用該特征。

        3.2 使用K-means算法聚類

        在選取到相關特征后,使用K-means算法對企業(yè)數(shù)據(jù)進行聚類。K-means算法聚類效果的好壞很大程度上取決于初始聚類中心的選擇,若選取的K個中心點中有離群點或者各中心點相互距離較近,則常導致聚類的效果不佳。針對這個問題,本文使用基于最大距離和密度相結合的初始中心選取方法。其過程如下:

        Step1:設置密度閾值q,隨機選擇一個樣本密度小于q的點作為第一個初始中心點K1。

        Step2:在所有滿足樣本密度的點中,選擇離K1最遠的點作為第二個初始中心點K2。

        Step3:同上方法尋找第三個點,以此類推,直至獲得K個初始中心點。

        用此方法可以使聚類初始中心間的距離較大,且避免存在離群點。

        在將數(shù)據(jù)進行聚類后得到K個簇,以簇內(nèi)企業(yè)數(shù)據(jù)占比最多的信用類別來表示該簇的類別,對目標企業(yè)計算其到各簇中心的距離,距離最近簇所表示的信用類別即表示對該企業(yè)預測的信用類別。

        4 實驗與分析

        本文采用浪潮公司發(fā)布的企業(yè)脫敏數(shù)據(jù)進行仿真實驗,從數(shù)據(jù)集中取1萬條數(shù)據(jù),數(shù)據(jù)集共36個特征。實驗結果如下圖所示:

        從圖1可以看出,在K取值為5時,本文算法擁有最佳準確率,表示分類效果最好。

        5結束語

        本文設計了一個基于K-means算法的企業(yè)信用無監(jiān)督分類方法,首先提取企業(yè)信息中與信用分類相關的特征,再將企業(yè)數(shù)據(jù)使用改進中心點選取的K-means算法進行聚類,通過判斷目標企業(yè)所在簇判斷其信用類別,為企業(yè)信用評估提供參考。

        參考文獻:

        [1] Simon Rogers,MarkGirolami.機器學習基礎教程[M].郭茂祖,譯.北京:機械工業(yè)出版社,2014.

        [2] 李恩,劉立新.小微企業(yè)信用評價指標體系研究綜述[J].征信,2013,31(1):67-70.

        [3] 張杏枝.基于機器學習的信用評分模型研究[D].重慶:西南大學,2019.

        [4] 張萌.基于層次分析法的商務領域企業(yè)信用評價模型的構建[J].中國商論,2019(14):232-233.

        [5] 黃曉輝,王成,熊李艷,等.一種集成簇內(nèi)和簇間距離的加權k-means聚類方法[J].計算機學報,2019,42(12):2836-2848.

        [6] 馬克勤,楊延嬌,秦紅武,等.結合最大最小距離和加權密度的K-means聚類算法[J].計算機工程與應用,2020,56(16):50-54.

        【通聯(lián)編輯:梁書】

        猜你喜歡
        means算法企業(yè)信用信貸風險
        揚州市穩(wěn)步推進安全生產(chǎn)領域企業(yè)信用修復
        泰州市推行企業(yè)信用修復全鏈條服務模式
        商業(yè)銀行個人消費信貸風險的管理
        新常態(tài)下中小銀行信貸風險管理探討
        “涉軍”企業(yè)信用評價擴大試點工作即將啟動
        “涉軍”企業(yè)信用評論擴大試點工作即將啟動
        基于K—Means聚類算法入侵檢測系統(tǒng)研究
        基于Weka的Apriori算法在原油產(chǎn)量預測中的應用
        基于HSI顏色空間的小麥粉精度自動識別研究
        基于聚類的Web日志挖掘
        国产乱子伦精品免费女| 一区二区三区中文字幕| 亚洲а∨天堂久久精品2021| 色欲av一区二区久久精品| 无码精品人妻一区二区三区人妻斩| 一出一进一爽一粗一大视频免费的| 成人午夜视频在线观看高清| 国产一区二区黄色网页| 亚洲a∨无码男人的天堂| 成人免费看www网址入口| 毛片毛片免费看| 一区二区视频资源在线观看| 蜜桃av噜噜一区二区三区策驰| 亚洲精品一区国产欧美| 无国产精品白浆免费视| 免费在线av一区二区| 丰满人妻久久中文字幕| 激情偷乱人成视频在线观看| 国产精品无码久久久久免费AV| 偷拍美女一区二区三区视频| 中文无码人妻有码人妻中文字幕 | 69国产成人综合久久精| 深夜福利国产精品中文字幕| 国产精品多人p群无码| 无码人妻一区二区三区免费n鬼沢 人禽无码视频在线观看 | 国产男女插插一级| 免费在线不卡黄色大片| 国产夫妇肉麻对白| 亚洲一区爱区精品无码| 男子把美女裙子脱了摸她内裤| 日本一二三区在线观看视频| 国产麻豆剧传媒精品国产av| 丝袜美腿网站一区二区| 国产女人乱码一区二区三区| 成人做受黄大片| 久久无码一二三四| 亚洲熟女av一区少妇| 奶头又大又白喷奶水av| 亚洲中文字幕无码中字| 日韩极品免费在线观看| 中文av字幕一区二区三区|