亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Flink與Kafka的信貸逾期預(yù)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2023-08-26 19:27:39韋海蘭黃杰
        電腦知識(shí)與技術(shù) 2023年21期
        關(guān)鍵詞:大數(shù)據(jù)

        韋海蘭 黃杰

        關(guān)鍵詞:大數(shù)據(jù);Flink;Kafka;CatBoost算法

        中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2023)21-0049-03

        1 概述

        大數(shù)據(jù)技術(shù)的快速發(fā)展,給金融業(yè)帶來(lái)了全新的發(fā)展機(jī)遇。大數(shù)據(jù)第三代計(jì)算引擎Apache Flink是一個(gè)基于內(nèi)存的分布式處理框架,可對(duì)無(wú)界和有界數(shù)據(jù)流進(jìn)行所有狀態(tài)計(jì)算,在進(jìn)行實(shí)時(shí)的流計(jì)算方面性能表現(xiàn)優(yōu)異,是Apache軟件基金會(huì)目前最活躍的項(xiàng)目之一,為企業(yè)不同業(yè)務(wù)應(yīng)用場(chǎng)景提供一站式的大數(shù)據(jù)解決方案[1]。金融行業(yè)尤其是銀行具備海量的客戶交易相關(guān)數(shù)據(jù),在研究與實(shí)施大數(shù)據(jù)具有先天優(yōu)勢(shì)。整合金融單位自身的數(shù)據(jù)資源優(yōu)勢(shì),從業(yè)務(wù)的不同屬性出發(fā),在大數(shù)據(jù)平臺(tái)利用機(jī)器學(xué)習(xí)算法,深入發(fā)掘客戶的價(jià)值和潛在的風(fēng)險(xiǎn)信息,對(duì)于提高其經(jīng)營(yíng)管理水平和風(fēng)險(xiǎn)防范能力有重要意義。

        2 背景

        2.1 信貸逾期預(yù)測(cè)問(wèn)題

        當(dāng)銀行收到貸款申請(qǐng)時(shí),必須根據(jù)申請(qǐng)人的個(gè)人資料做出貸款審批決定。銀行的決策涉及兩種類(lèi)型的風(fēng)險(xiǎn):一是如果申請(qǐng)人有可能償還貸款,那么不批準(zhǔn)貸款會(huì)導(dǎo)致銀行業(yè)務(wù)損失。二是如果申請(qǐng)人不太可能償還貸款,即他可能違約,那么批準(zhǔn)貸款可能會(huì)給銀行帶來(lái)信貸風(fēng)險(xiǎn),解決上述問(wèn)題的辦法是使用歷史貸款申請(qǐng)人的信息以及相關(guān)申請(qǐng)信息進(jìn)行分類(lèi)學(xué)習(xí),識(shí)別出其中的“逾期”模式,據(jù)此做出貸款決策,如拒絕貸款或批準(zhǔn)貸款。

        2.2 大數(shù)據(jù)背景下的機(jī)器學(xué)習(xí)

        目前傳統(tǒng)機(jī)器學(xué)習(xí)算法的特點(diǎn)主要有:一是樣本獨(dú)立分布、離線、假設(shè)計(jì)算資源不受限制(例如可以把全部訓(xùn)練數(shù)據(jù)加載到主存);二是訓(xùn)練生成的模型是靜態(tài)的,要想適應(yīng)樣本數(shù)據(jù)的變化就要重新進(jìn)行學(xué)習(xí)。如今,各種新興的大數(shù)據(jù)應(yīng)用如醫(yī)療信息學(xué)和軍事應(yīng)用、智能信息檢索、自動(dòng)駕駛等,通過(guò)數(shù)量不斷增長(zhǎng)的智能設(shè)備生成大量分布式數(shù)據(jù)。大多數(shù)情況下,這些數(shù)據(jù)是瞬時(shí)的,甚至可能不會(huì)永久存儲(chǔ)。傳統(tǒng)離線型的機(jī)器學(xué)習(xí)算法已不適應(yīng)大數(shù)據(jù)背景下樣本不斷變化的機(jī)器學(xué)習(xí)任務(wù)。

        利用Apache Flink流計(jì)算引擎進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練,一是可以進(jìn)行在線實(shí)時(shí)計(jì)算,充分利用計(jì)算資源;二是可以進(jìn)行動(dòng)態(tài)模型計(jì)算,在線實(shí)時(shí)增量學(xué)習(xí)、更新模型狀態(tài)。目前已有許多Flink實(shí)時(shí)流計(jì)算引擎用戶畫(huà)像系統(tǒng)[2]、分布式實(shí)時(shí)推薦算法[3]、風(fēng)險(xiǎn)評(píng)估系統(tǒng)[4-5]等場(chǎng)景的應(yīng)用。Apache Flink已提供了Flink平臺(tái)機(jī)器學(xué)習(xí)庫(kù)FlinkML,已經(jīng)實(shí)現(xiàn)了基礎(chǔ)的機(jī)器學(xué)習(xí)算法,如Kmeans算法、邏輯回歸算法和SVC算法等。本文利用CatBoost算法實(shí)現(xiàn)大數(shù)據(jù)背景下的信貸逾期預(yù)測(cè)問(wèn)題。

        3 應(yīng)用架構(gòu)設(shè)計(jì)及系統(tǒng)流程

        3.1 應(yīng)用架構(gòu)設(shè)計(jì)

        本系統(tǒng)基于貸款實(shí)時(shí)數(shù)據(jù)采用rest-framework體系結(jié)構(gòu)開(kāi)發(fā),貸款數(shù)據(jù)通過(guò)maxwell實(shí)時(shí)傳輸?shù)絢afka 主題中,F(xiàn)link實(shí)時(shí)流計(jì)算引擎實(shí)時(shí)讀取kafka主題中的數(shù)據(jù),再調(diào)用DataStream算子處理數(shù)據(jù)流后保存至MySQL中,并利用機(jī)器學(xué)習(xí)算法CatBoost訓(xùn)練數(shù)據(jù)建立預(yù)測(cè)模型,最后應(yīng)用服務(wù)器調(diào)用模型接口得到實(shí)時(shí)貸款申請(qǐng)信息的預(yù)測(cè)結(jié)果,并進(jìn)行可視化展示。應(yīng)用架構(gòu)如圖1所示。

        3.2 系統(tǒng)框架流程

        基于大數(shù)據(jù)的信貸逾期預(yù)測(cè)計(jì)算流程可分為:數(shù)據(jù)獲取及預(yù)處理、模型數(shù)據(jù)的轉(zhuǎn)換、模型訓(xùn)練和模型預(yù)測(cè),如圖2所示:

        4 系統(tǒng)框架的設(shè)計(jì)與實(shí)現(xiàn)

        銀行向“有風(fēng)險(xiǎn)”的申請(qǐng)人發(fā)放貸款是信貸損失的最大來(lái)源。信貸損失是指當(dāng)借款人拒絕還款或帶著欠款逃跑時(shí),貸款人損失的金額。違約的借款人給貸款人造成的損失最大。如果能夠識(shí)別出這些有風(fēng)險(xiǎn)的貸款申請(qǐng)人,就可以減少信貸損失。通過(guò)機(jī)器學(xué)習(xí)有利于挖掘貸款違約背后的驅(qū)動(dòng)因素,進(jìn)一步識(shí)別出有風(fēng)險(xiǎn)的申請(qǐng)人。

        4.1 樣本數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)

        本文以天池金融風(fēng)控-貸款違約預(yù)測(cè)賽大賽中提供的信貸數(shù)據(jù)作為樣本數(shù)據(jù),選取部分特征進(jìn)行模型訓(xùn)練,刪除了部分與模型不相關(guān)的、對(duì)一組高度相關(guān)的特征進(jìn)行去重。研究貸款申請(qǐng)人的數(shù)據(jù),預(yù)測(cè)是否可能違約,以此決定是否通過(guò)貸款。具體步驟如下:

        4.2 數(shù)據(jù)預(yù)處理

        通過(guò)Maxwell實(shí)時(shí)數(shù)據(jù)管道獲取MySQL中更新及變化的數(shù)據(jù),傳入Kafka主題中,F(xiàn)link連接集群環(huán)境創(chuàng)建Kafka消費(fèi)者讀取Kafka主題中的數(shù)據(jù),把數(shù)據(jù)轉(zhuǎn)換成JsonObject類(lèi)型,再調(diào)用DataStream算子對(duì)數(shù)據(jù)流做處理,比如去除重復(fù)值、異常值處理和特征轉(zhuǎn)換等,最后再創(chuàng)建一個(gè)kafka生產(chǎn)者把DataStream算子處理后的數(shù)據(jù)保存到Kafka主題中。

        4.3 CatBoost 算法應(yīng)用

        4.3.1 模型管理

        模型管理模塊主要包括模型訓(xùn)練和模型上傳兩部分,實(shí)現(xiàn)步驟主要如下:

        1) 從數(shù)據(jù)管理模塊獲取通過(guò)特征工程篩選下來(lái)的特征數(shù)據(jù)。

        2) 設(shè)置機(jī)器學(xué)習(xí)參數(shù),通過(guò)CatBoost算法訓(xùn)練模型,查看測(cè)試集AUC,根據(jù)預(yù)測(cè)結(jié)果決定是否保留當(dāng)前模型。

        3) 上傳審核通過(guò)的模型,將模型信息加入模型信息表中,前端頁(yè)面可查看模型信息列表。

        4) 在Django后端加載模型,調(diào)用當(dāng)前模型進(jìn)行逾期預(yù)測(cè)。模型使用的測(cè)試集的AUC為0.7385。

        4.3.2 模型預(yù)測(cè)和結(jié)果可視化

        可使用貸款預(yù)測(cè)功能來(lái)預(yù)測(cè)本次貸款是否有信用風(fēng)險(xiǎn),從而判斷是否批準(zhǔn)這次貸款,主要實(shí)現(xiàn)步驟如下:

        1) 錄入用戶數(shù)據(jù)保存至oAuth_credituser(信貸用戶表)中。

        2) 通過(guò)貸款逾期預(yù)測(cè)模塊進(jìn)行預(yù)測(cè)。

        3) Django會(huì)把預(yù)測(cè)結(jié)果上傳到前端。

        4) 通過(guò)預(yù)測(cè)結(jié)果來(lái)決定是否批準(zhǔn)這次貸款。

        5 系統(tǒng)運(yùn)行效果展示

        5.1 用戶管理

        系統(tǒng)管理員可以添加用戶、修改用戶信息、搜索用戶和刪除用戶,如圖6所示:

        5.2 批量上傳信貸數(shù)據(jù)

        系統(tǒng)管理員可以選擇上傳文件的格式,比如Ex?cel、csv或txt等格式的文件,然后選擇導(dǎo)入文件即可上傳信貸數(shù)據(jù),如圖7所示:

        5.3 逾期預(yù)測(cè)結(jié)果可視化

        單擊逾期預(yù)測(cè)按鈕,右上角會(huì)彈出預(yù)測(cè)的結(jié)果。如果是0,則代表當(dāng)前貸款數(shù)據(jù)信息沒(méi)有逾期的風(fēng)險(xiǎn);如果是1,則代表當(dāng)前用戶有逾期的風(fēng)險(xiǎn)。如圖8 所示:

        6 結(jié)束語(yǔ)

        隨著Flink技術(shù)在智能金融領(lǐng)域的落地生根,給大數(shù)據(jù)技術(shù)在金融領(lǐng)域帶來(lái)更廣闊的應(yīng)用前景和充足的發(fā)展動(dòng)力。大數(shù)據(jù)技術(shù)與智能金融領(lǐng)域融合發(fā)展,其應(yīng)用場(chǎng)景也將愈發(fā)豐富,例如典型的場(chǎng)景有金融風(fēng)控、金融客戶畫(huà)像等。本文應(yīng)用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了信貸逾期風(fēng)險(xiǎn)的預(yù)測(cè),在今后的研究中會(huì)根據(jù)評(píng)估模型的預(yù)測(cè)效果進(jìn)行參數(shù)調(diào)優(yōu),提高預(yù)測(cè)效果,并應(yīng)用更多的機(jī)器學(xué)習(xí)算法開(kāi)發(fā)更多的金融智能模型,實(shí)現(xiàn)更豐富的功能。

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        基于大數(shù)據(jù)的小微電商授信評(píng)估研究
        大數(shù)據(jù)時(shí)代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        成年站免费网站看v片在线| 日日麻批视频免费播放器| 五月开心六月开心婷婷网| 无码人妻一区二区三区在线| 亚洲老妇色熟女老太| 日本久久精品免费播放| 色婷婷久久综合中文久久一本| 揄拍成人国产精品视频| 人妻av中文字幕无码专区| 亚洲 欧美 激情 小说 另类| av男人的天堂第三区| 粉嫩小泬无遮挡久久久久久| 国产av无码专区亚洲av琪琪| 青青青伊人色综合久久亚洲综合| 国产白浆一区二区三区佳柔| 亚洲色精品三区二区一区 | 日本精品久久性大片日本| 国语对白精品在线观看| 国产午夜成人av在线播放| 亚洲国际无码中文字幕| 久久99热精品免费观看麻豆| 在线观看 国产一区二区三区| 高清不卡一区二区三区| 91天堂素人精品系列全集亚洲| 美国又粗又长久久性黄大片| 成年丰满熟妇午夜免费视频| 国产精品麻豆欧美日韩ww| 少妇熟女淫荡丰满| 可以直接在线看国产在线片网址| 99久久精品免费观看国产| 北条麻妃在线视频观看| 日韩av一区二区三区在线观看| 欧美性白人极品1819hd| 亚洲人成无码www久久久| 亚洲日日噜噜噜夜夜爽爽| 最近更新中文字幕一区二区 | 亚洲不卡高清av网站| 精品无码人妻一区二区三区不卡| 麻豆变态另类视频在线观看| 国产美女一区三区在线观看| 国产精品久久久久9999无码|