亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python的數(shù)據(jù)挖掘技術(shù)在創(chuàng)業(yè)擔(dān)保貸款中的應(yīng)用

        2021-06-17 09:04:26高鍵季禹伶
        電子制作 2021年8期
        關(guān)鍵詞:創(chuàng)業(yè)者數(shù)據(jù)挖掘聚類

        高鍵, 季禹伶

        (1.內(nèi)蒙古科技大學(xué)信息工程學(xué)院,內(nèi)蒙古包頭,014010;2.河南大學(xué)經(jīng)濟(jì)學(xué)院,河南開封,475000)

        0 引言

        創(chuàng)業(yè)擔(dān)保貸款是由國(guó)家人社部、財(cái)政部、人民銀行出臺(tái)的一項(xiàng)普惠性的貸款政策,主要面向城鎮(zhèn)失業(yè)人員、高校畢業(yè)生、返鄉(xiāng)創(chuàng)業(yè)的農(nóng)牧民等在金融信貸方面的弱勢(shì)群體,為其提供5到20萬的信貸支持,并給予一定數(shù)額的貼息補(bǔ)助。2019年全國(guó)創(chuàng)業(yè)擔(dān)保貸款約發(fā)放1000億元,為創(chuàng)業(yè)者補(bǔ)貼利息約67.5億元。

        隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,挖掘龐大數(shù)據(jù)體量背后的潛在價(jià)值成為大數(shù)據(jù)領(lǐng)域研究的熱點(diǎn)。通過數(shù)據(jù)挖掘技術(shù),可以實(shí)現(xiàn)預(yù)測(cè)研究主體的趨勢(shì)和行為、變量關(guān)聯(lián)分析、目標(biāo)聚類分析、偏差檢測(cè)等功能。本文以包頭市為例,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到創(chuàng)業(yè)擔(dān)保貸款這項(xiàng)惠民政策中,通過構(gòu)建創(chuàng)業(yè)者創(chuàng)業(yè)能力評(píng)估模型,可以根據(jù)創(chuàng)業(yè)者的實(shí)際情況,合理測(cè)算出創(chuàng)業(yè)者的實(shí)際用款需求,實(shí)現(xiàn)國(guó)家財(cái)政資金合理分配的目的。

        1 設(shè)計(jì)過程

        本文基于Python語(yǔ)言實(shí)現(xiàn),通過matplotlib實(shí)現(xiàn)對(duì)數(shù)據(jù)的可視化,pandas實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)的分析和處理,sklearn機(jī)器學(xué)習(xí)庫(kù)實(shí)現(xiàn)數(shù)據(jù)從預(yù)處理到模型訓(xùn)練的各個(gè)步驟。具體的設(shè)計(jì)流程圖如圖1所示。

        圖1 基于Python的數(shù)據(jù)挖掘技術(shù)在創(chuàng)業(yè)擔(dān)保貸款中的應(yīng)用設(shè)計(jì)流程圖

        ■1.1 數(shù)據(jù)采集

        數(shù)據(jù)采集是進(jìn)行數(shù)據(jù)分析的第一步,采集的數(shù)據(jù)主要分為歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)。基礎(chǔ)的歷史樣本數(shù)據(jù)集主要來自于業(yè)務(wù)系統(tǒng),包括創(chuàng)業(yè)擔(dān)保貸款本身的信息管理系統(tǒng)、社會(huì)保險(xiǎn)信息管理系統(tǒng)以及工商部門的企業(yè)信用公示系統(tǒng)。創(chuàng)業(yè)擔(dān)保貸款本身的信息管理系統(tǒng)提供了創(chuàng)業(yè)者申請(qǐng)創(chuàng)業(yè)擔(dān)保貸款的歷史數(shù)據(jù),包含申貸次數(shù),申貸金額、經(jīng)營(yíng)情況等信息。社會(huì)保險(xiǎn)信息管理系統(tǒng)獲取了創(chuàng)業(yè)者的社會(huì)保險(xiǎn)信息,包含就業(yè)失業(yè)狀態(tài),就業(yè)困難人員認(rèn)定以及零就業(yè)家庭認(rèn)定等信息。工商部門的企業(yè)信用公示系統(tǒng)主要獲取創(chuàng)業(yè)者的企業(yè)信息,包含企業(yè)的營(yíng)業(yè)執(zhí)照、經(jīng)營(yíng)項(xiàng)目等信息。因創(chuàng)業(yè)擔(dān)保貸款的用款周期為兩年,創(chuàng)業(yè)者在按時(shí)還款后,仍然可以繼續(xù)申請(qǐng),為避免這些再次申請(qǐng)的數(shù)據(jù)對(duì)模型構(gòu)建產(chǎn)生影響,選取的樣本數(shù)據(jù)為近兩年的貸款數(shù)據(jù)。實(shí)時(shí)樣本數(shù)據(jù)由各個(gè)部門的工作人員實(shí)時(shí)向業(yè)務(wù)系統(tǒng)導(dǎo)入。

        ■1.2 數(shù)據(jù)存儲(chǔ)

        數(shù)據(jù)存儲(chǔ)的目的在于將采集到的樣本數(shù)據(jù)持久化,以便后續(xù)的分析與處理。因樣本數(shù)據(jù)取自不同的業(yè)務(wù)系統(tǒng),所以通過Python的requests庫(kù)分別向各個(gè)業(yè)務(wù)系統(tǒng)發(fā)送http請(qǐng)求獲取需要的數(shù)據(jù),并對(duì)獲取到的數(shù)據(jù)進(jìn)行整合,最后存儲(chǔ)到Mysql數(shù)據(jù)庫(kù)中。

        ■1.3 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理是指對(duì)樣本數(shù)據(jù)進(jìn)一步加工,得到一組仍包含原始信息且適合進(jìn)行建模的數(shù)據(jù)集。包含數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化與特征降維等步驟。數(shù)據(jù)清洗是對(duì)采集而來并存儲(chǔ)到數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行校驗(yàn)與糾正的過程,包括對(duì)缺失值、異常值、重復(fù)值等數(shù)據(jù)的處理。采集的數(shù)據(jù)主要來自業(yè)務(wù)系統(tǒng),在業(yè)務(wù)系統(tǒng)中,已對(duì)數(shù)據(jù)的輸入進(jìn)行了校驗(yàn),因此不存在異常值與重復(fù)值,所以主要是對(duì)缺失值進(jìn)行處理。

        對(duì)缺失值的處理用到了刪除存在缺失值的記錄以及插補(bǔ)的方法。例如在對(duì)申請(qǐng)創(chuàng)業(yè)擔(dān)保貸款的人員身份進(jìn)行可視化分析時(shí),通過pandas讀取樣本數(shù)據(jù)集后,調(diào)用groupby函數(shù)對(duì)人員身份信息進(jìn)行分組統(tǒng)計(jì),結(jié)果如表1所示。

        表1 不同身份人員申請(qǐng)創(chuàng)業(yè)擔(dān)保貸款數(shù)量統(tǒng)計(jì)表

        其中,“其他”類人員屬于缺失值,并且占比相對(duì)較高,將會(huì)對(duì)其他數(shù)據(jù)的建模造成較大擾動(dòng),所以該類缺失值采取刪除記錄的處理方式。在對(duì)創(chuàng)業(yè)者創(chuàng)業(yè)潛力分析時(shí),企業(yè)聘用的員工數(shù)量是分析創(chuàng)業(yè)潛力的重要指標(biāo),由人為因素導(dǎo)致的某些企業(yè)該項(xiàng)數(shù)據(jù)特征的缺失,采用插值法對(duì)缺失的數(shù)據(jù)進(jìn)行填充。在具體的操作中,對(duì)貸款次數(shù)記錄小于2的記錄進(jìn)行刪除,貸款次數(shù)記錄不小于2的記錄可通過查詢聘用員工數(shù)量的歷史數(shù)據(jù)然后利用拉格朗日插值公式計(jì)算本次申請(qǐng)貸款時(shí)缺失的聘用員工數(shù)量近似值。

        ■1.4 構(gòu)建模型

        得到了可以建模的數(shù)據(jù)后,可以根據(jù)挖掘目標(biāo)與數(shù)據(jù)形式建立分類與預(yù)測(cè)、關(guān)聯(lián)規(guī)則、聚類分析等模型?;赑ython語(yǔ)言的sklearn機(jī)器學(xué)習(xí)工具包,涵蓋了所有機(jī)器學(xué)習(xí)算法,并且提供了簡(jiǎn)單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。本文利用sklearn對(duì)建模過程中的參數(shù)進(jìn)行了調(diào)試和優(yōu)化,最后建立了創(chuàng)業(yè)者創(chuàng)業(yè)能力的聚類模型。

        2 系統(tǒng)設(shè)計(jì)與應(yīng)用

        ■2.1 挖掘潛在的申請(qǐng)群體

        創(chuàng)業(yè)擔(dān)保貸款申請(qǐng)的前提條件一般要求創(chuàng)業(yè)者持有工商營(yíng)業(yè)執(zhí)照,通過對(duì)包頭市各個(gè)旗縣區(qū)申請(qǐng)創(chuàng)業(yè)擔(dān)保貸款人數(shù)與整理的工商戶數(shù)據(jù)進(jìn)行貢獻(xiàn)度分析,并利用matplotlib將分析結(jié)果數(shù)據(jù)可視化,得出的結(jié)論如圖2所示。

        圖2 包頭市各旗縣區(qū)工商戶數(shù)量與已申請(qǐng)創(chuàng)業(yè)擔(dān)保貸款人員占比情況

        從圖2中可以看到,距離市中心較遠(yuǎn)的“外五區(qū)”申請(qǐng)創(chuàng)業(yè)擔(dān)保貸款的人員占當(dāng)?shù)毓ど虘魯?shù)量的比重明顯比繁華的“市五區(qū)”較高,一般是因?yàn)椤巴馕鍏^(qū)”地大人稀,人口密度低但聚集較為集中,所以宣傳效果較好,而“市五區(qū)”人口密度高,人口聚集地較多且不集中,因此導(dǎo)致政策覆蓋面不夠廣泛。所以主管部門可以進(jìn)一步加大在“市五區(qū)”內(nèi)的宣傳力度,擴(kuò)大政策覆蓋的廣度與深度。

        ■2.2 創(chuàng)業(yè)者創(chuàng)業(yè)能力分析

        在創(chuàng)業(yè)擔(dān)保貸款的實(shí)際工作中,創(chuàng)業(yè)者的實(shí)際用款額度由審批單位根據(jù)創(chuàng)業(yè)者的經(jīng)營(yíng)狀態(tài)認(rèn)定,這種認(rèn)定往往是帶有經(jīng)驗(yàn)性的主觀認(rèn)定,存在一定的弊端。通過對(duì)創(chuàng)業(yè)者經(jīng)營(yíng)情況的一些具體數(shù)據(jù)進(jìn)行量化,構(gòu)建創(chuàng)業(yè)者創(chuàng)業(yè)能力的聚類模型,可以將創(chuàng)業(yè)者按創(chuàng)業(yè)能力分類,進(jìn)而為其匹配相應(yīng)的貸款額度。

        從Mysql數(shù)據(jù)庫(kù)中獲取到關(guān)于創(chuàng)業(yè)者的基本信息,導(dǎo)入pandas進(jìn)行分析,取前5行數(shù)據(jù),創(chuàng)業(yè)者數(shù)據(jù)的一些特征及數(shù)據(jù)如表2所示。

        不同特征的數(shù)據(jù)之間差距較大且單位不一致,需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,消除量綱間的差距。通過對(duì)一些主要特征的數(shù)據(jù)繪制正態(tài)分布函數(shù)圖,可以發(fā)現(xiàn)這些特征近似符合正態(tài)分布,因此采用z-score標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)進(jìn)行去量綱化操作。之后對(duì)數(shù)據(jù)進(jìn)行特征降維,去除例如姓名、學(xué)歷等一些無關(guān)的特征,通過方差分析法,發(fā)現(xiàn)貸款次數(shù)的方差較小,不足以區(qū)分每個(gè)樣本在該特征上的不同,因此去除該特征。最后確定年齡、員工人數(shù)、創(chuàng)業(yè)年限、年利潤(rùn)、企業(yè)占地面積5個(gè)特征的數(shù)據(jù)進(jìn)行模型訓(xùn)練。

        表2 創(chuàng)業(yè)者信息前5行數(shù)據(jù)預(yù)覽

        采用K-Means算法對(duì)創(chuàng)業(yè)者的特征數(shù)據(jù)進(jìn)行聚類分析,通過對(duì)不同簇?cái)?shù)k下的聚類結(jié)果進(jìn)行對(duì)比,當(dāng)k取5時(shí),聚類效果較好。因此設(shè)定n_clusters的值為5對(duì)數(shù)據(jù)進(jìn)行聚類。通過繪制雷達(dá)圖對(duì)聚類結(jié)果進(jìn)行分析,如圖3所示。

        圖3 基于聚類結(jié)果的創(chuàng)業(yè)者創(chuàng)業(yè)能力雷達(dá)圖

        從圖3中可以看到,不同群體在各個(gè)特征之間的表現(xiàn)存在較大的差異,例如L5群體在年利潤(rùn)特征上表現(xiàn)突出,通過結(jié)合業(yè)務(wù)情景,該類創(chuàng)業(yè)者往往能創(chuàng)造較高的經(jīng)濟(jì)價(jià)值,可以認(rèn)定為具有極強(qiáng)創(chuàng)業(yè)能力的創(chuàng)業(yè)者,可以繼續(xù)給予較高額度的創(chuàng)業(yè)擔(dān)保貸款支持。L1群體雖然在年利潤(rùn)特征上表現(xiàn)不足,但在員工人數(shù)特征上表現(xiàn)突出,表明該類創(chuàng)業(yè)者當(dāng)前給社會(huì)帶來較多的就業(yè)崗位,在原有貸款額度的基礎(chǔ)上,可以給予重點(diǎn)扶持。

        3 結(jié)束語(yǔ)

        目前大多數(shù)的政府機(jī)構(gòu)基于業(yè)務(wù)流程的控制開發(fā)了數(shù)據(jù)信息管理系統(tǒng),但挖掘數(shù)據(jù)背后的潛藏價(jià)值,使其更好的應(yīng)用于管理與服務(wù)中,仍是需要解決的問題。本文在已有業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù),對(duì)創(chuàng)業(yè)擔(dān)保貸款的業(yè)務(wù)數(shù)據(jù)進(jìn)行了分析與挖掘,構(gòu)建了創(chuàng)業(yè)者創(chuàng)業(yè)能力分析模型,實(shí)現(xiàn)了對(duì)創(chuàng)業(yè)者創(chuàng)業(yè)能力的準(zhǔn)確評(píng)估,為政策決策提供了有效的數(shù)據(jù)支撐。

        猜你喜歡
        創(chuàng)業(yè)者數(shù)據(jù)挖掘聚類
        郭江濤:一個(gè)青年創(chuàng)業(yè)者的“耕耘夢(mèng)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于DBSACN聚類算法的XML文檔聚類
        讓創(chuàng)業(yè)者贏在起跑線上
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        互聯(lián)網(wǎng)創(chuàng)業(yè)者
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        創(chuàng)業(yè)者要勇敢地喊出“我要”
        亚洲一区二区三区四区精品在线 | 国产色视频在线观看了| 午夜dv内射一区二区| 久久亚洲国产成人精品性色 | 日韩亚洲中文图片小说| 天堂影院久久精品国产午夜18禁 | 亚洲av天堂在线免费观看| 九九在线中文字幕无码| 最新国产乱人伦偷精品免费网站| 日韩久久久久中文字幕人妻| 神马不卡影院在线播放| 精品午夜福利在线观看| 欧美人与动牲交a欧美精品| a午夜国产一级黄片| 久久成人永久婷婷99精品| 夹得好湿真拔不出来了动态图| 激情久久av一区av二区av三区| 国产极品美女到高潮视频| 亚洲激情综合中文字幕| 男人进去女人爽免费视频| 香蕉视频一级| 成年女人午夜特黄特色毛片免| 天天躁夜夜躁狠狠躁婷婷| 国内精品伊人久久久久影院对白| 日本女优中文字幕看片| 日本av不卡一区二区三区| 亚洲精品乱码久久久久久中文字幕| 青青草国产成人99久久| 国产三级精品三级在线观看粤语 | 久久久久人妻精品一区二区三区 | 亚洲欧美在线观看| 欧美日韩一区二区三区视频在线观看 | 亚洲av乱码中文一区二区三区| 亚洲中文字幕乱码一二三区| 男女主共患难日久生情的古言| 性色av闺蜜一区二区三区| 日本手机在线| 日韩中文字幕熟女人妻| 99久久婷婷国产综合精品青草免费| 亚洲福利视频一区 | 成 人 免费 在线电影|