亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于邏輯回歸算法構(gòu)建模型預(yù)測(cè)信用卡申請(qǐng)結(jié)果

2021-05-18 01:33:50

南方農(nóng)機(jī) 2021年9期

關(guān)鍵詞：分類模型

(貴州財(cái)經(jīng)大學(xué)信息學(xué)院，貴州貴陽(yáng) 550025)

0 引言

信用卡最早出現(xiàn)于19 世紀(jì)的英國(guó)服裝業(yè)，但隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展，世界各國(guó)銀行相繼發(fā)行信用卡，由于信用卡具有信用貸款、免息還款期、分期還款等特點(diǎn)，受到了廣大消費(fèi)者的追捧，伴隨著優(yōu)惠力度大的同時(shí)，信用卡的發(fā)展也給社會(huì)帶來(lái)了威脅，例如盲目消費(fèi)、過(guò)度消費(fèi)、信用卡詐騙等不良現(xiàn)象，造成持卡人和發(fā)卡方都遭受損失[1]。為了維護(hù)消費(fèi)者和銀行利益，保證信用卡在消費(fèi)市場(chǎng)的良好使用，在申請(qǐng)機(jī)制上，筆者運(yùn)用邏輯回歸算法對(duì)信用卡申請(qǐng)進(jìn)行研究。

本文選取的邏輯回歸作為機(jī)器學(xué)習(xí)算法中的一種，其應(yīng)用范圍更為寬廣，尤其在二分類的問(wèn)題上，邏輯回歸的處理能力較為突出，本文選取銀行客戶的基本信息作為信用評(píng)分依據(jù)，通過(guò)數(shù)量化的管理方法，對(duì)客戶信用狀態(tài)進(jìn)行數(shù)量化的度量，以此作為信用卡申請(qǐng)結(jié)果分類預(yù)測(cè)的依據(jù)，通過(guò)對(duì)訓(xùn)練模型的不斷調(diào)整和優(yōu)化，本文預(yù)測(cè)模型在處理信息量龐大的數(shù)據(jù)集上效果顯著，能夠?yàn)殂y行的信用卡服務(wù)提供有效參考，提高服務(wù)效率。

1 文獻(xiàn)綜述

伴隨著大數(shù)據(jù)時(shí)代的來(lái)臨，社會(huì)各領(lǐng)域都在力求通過(guò)技術(shù)的創(chuàng)新來(lái)實(shí)現(xiàn)產(chǎn)業(yè)的良好發(fā)展，邏輯回歸作為一種在處理分類問(wèn)題上能夠準(zhǔn)確預(yù)測(cè)未來(lái)價(jià)值的算法模型[2]，已經(jīng)普遍應(yīng)用于金融、醫(yī)學(xué)、自然科學(xué)等多個(gè)領(lǐng)域，對(duì)于邏輯回歸的學(xué)術(shù)研究成為當(dāng)前諸多學(xué)者們關(guān)注的焦點(diǎn)。筆者通過(guò)對(duì)國(guó)內(nèi)外有關(guān)邏輯回歸研究的文獻(xiàn)，利用KH Coder Folder 分析工具進(jìn)行層次聚類分析后，得出如圖1、圖2 所示的研究熱點(diǎn)。

圖1 國(guó)內(nèi)文獻(xiàn)分析結(jié)果顯示，目前我國(guó)大部分的學(xué)者對(duì)于邏輯回歸的實(shí)用性研究主要分為自然災(zāi)害預(yù)測(cè)、廣告預(yù)測(cè)和信用風(fēng)險(xiǎn)預(yù)測(cè)三個(gè)方面。

從圖2 中可以發(fā)現(xiàn)，國(guó)外學(xué)者對(duì)風(fēng)險(xiǎn)預(yù)測(cè)的也保持相同的研究熱度，尤其是在一些重大疾病的預(yù)測(cè)上。同時(shí)，國(guó)外大部分文獻(xiàn)的研究偏向于對(duì)邏輯回歸算法模型本身特點(diǎn)的研究等。

圖1 國(guó)內(nèi)文獻(xiàn)研究熱點(diǎn)

圖2 國(guó)外文獻(xiàn)研究熱點(diǎn)

綜上所述，目前國(guó)內(nèi)外對(duì)邏輯回歸的研究主要針對(duì)其實(shí)用性，在算法的實(shí)現(xiàn)原理上和優(yōu)化步驟上涉及較少，因此本文基于國(guó)內(nèi)外研究現(xiàn)狀選取邏輯回歸預(yù)測(cè)模型對(duì)信用卡申請(qǐng)結(jié)果進(jìn)行預(yù)測(cè)分類，將算法原理和實(shí)際應(yīng)用同時(shí)作為研究重點(diǎn)，并結(jié)合實(shí)例驗(yàn)證，其優(yōu)點(diǎn)在于：通過(guò)深入剖析邏輯回歸算法原理，從本質(zhì)上找到優(yōu)化策略，然后利用Kaggle 的數(shù)據(jù)集訓(xùn)練預(yù)測(cè)模型及測(cè)試模型效率，以檢查其實(shí)用性，結(jié)合前人研究成果，將預(yù)測(cè)模型應(yīng)用至信用卡申請(qǐng)服務(wù)領(lǐng)域，從而達(dá)到提高服務(wù)效率的目的。

2 基于邏輯回歸算法的信用卡申請(qǐng)結(jié)果分類預(yù)測(cè)步驟

本文構(gòu)建基于邏輯回歸算法的信用卡申請(qǐng)結(jié)果分類預(yù)測(cè)分為以下五個(gè)步驟：

1）確定預(yù)測(cè)函數(shù)。本文采用sigmoid 函數(shù)作為邏輯回歸的預(yù)測(cè)函數(shù)，sigmoid 函數(shù)可以有效處理二分類問(wèn)題[3]。

2）擬合分析。擬合分析是線性回歸和邏輯回歸中十分關(guān)鍵的步驟，其目的在于不斷優(yōu)化算法模型，尋找最優(yōu)解。

3）數(shù)據(jù)處理。本文選取Kaggle 的測(cè)試數(shù)據(jù)集，對(duì)數(shù)據(jù)集中的特征屬性進(jìn)行篩選，選取對(duì)預(yù)測(cè)結(jié)果產(chǎn)生較大影響的特征值作為模型變量。

4）訓(xùn)練預(yù)測(cè)模型。本文利用python 完成邏輯回歸模型的訓(xùn)練，通過(guò)訓(xùn)練結(jié)果分析模型優(yōu)劣，python 中自帶的邏輯回歸算法滿足本文對(duì)邏輯回歸算法的各項(xiàng)分析。

5）分析分類結(jié)果。利用保存訓(xùn)練模型預(yù)測(cè)1 000 條待預(yù)測(cè)樣本，同時(shí)尋找出影響信用卡申請(qǐng)結(jié)果的主要特征屬性，為銀行信用卡業(yè)務(wù)的良好發(fā)展提供有效的建議。

3 建立模型

3.1 確定預(yù)測(cè)函數(shù)

邏輯回歸也叫做對(duì)數(shù)幾率回歸，它是在線性回歸的基礎(chǔ)上，將線性模型通過(guò)函數(shù)，轉(zhuǎn)化為結(jié)果只有0 或1 的分類模型。它的建模過(guò)程和線性回歸基本相同[4]。

對(duì)于預(yù)測(cè)信用卡申請(qǐng)結(jié)果只存在申請(qǐng)成功和申請(qǐng)失敗兩種情況，即輸出值屬于{0,1}，而線性回歸模型產(chǎn)生的預(yù)測(cè)值為（W 是參數(shù)向量）：。其輸出值是連續(xù)的，但是需要將函數(shù)的輸出值z(mì) 轉(zhuǎn)化為僅有0 或1 兩種可能，于是引入sigmoid 函數(shù)：，由于sigmoid函數(shù)以輸出值0.5 作為分界值，因此當(dāng)輸出值大于等于0.5 時(shí)歸類為1，小于0.5 時(shí)歸類為0，至此，得到了預(yù)測(cè)函數(shù)模型：

3.2 擬合分析

在選取了預(yù)測(cè)函數(shù)之后，預(yù)測(cè)得出的曲線與實(shí)際值可能會(huì)存在較大的誤差，因此就需要進(jìn)行擬合優(yōu)化，即把平面上一系列的點(diǎn)，用一條光滑的曲線連接起來(lái)，由于該曲線存在著多種可能，因此擬合的方法也較多，擬合的曲線一般用函數(shù)表示[4]。

在運(yùn)用邏輯回歸做二分類時(shí)，可以通過(guò)python 的輸出結(jié)果，觀察訓(xùn)練集測(cè)試集的表現(xiàn)，從中找出是否存在擬合問(wèn)題，然后提出優(yōu)化方案即可。在邏輯回歸中，擬合分析可以分為兩個(gè)步驟，第一步構(gòu)造代價(jià)函數(shù)，第二步求解參數(shù)。

1）構(gòu)造代價(jià)函數(shù)。構(gòu)造邏輯回歸代價(jià)函數(shù)采用對(duì)數(shù)似然函數(shù)，根據(jù)預(yù)測(cè)函數(shù)構(gòu)造一個(gè)它的分布的概率密度，利用已知的樣本反推參數(shù)，根據(jù)上一步得到的預(yù)測(cè)函數(shù)，可以知道概率如下：

將上述兩個(gè)式子合并，得到概率公式：

由極大似然估計(jì)可知，聯(lián)合概率為：

極大似然估計(jì)的目標(biāo)是找到參數(shù)w 使得L(w)最大，對(duì)L 加一個(gè)負(fù)號(hào)，就可以得到代價(jià)函數(shù)，也就是找到參數(shù)w 使得-L(w)最小。為了簡(jiǎn)化計(jì)算，對(duì)L(w)取對(duì)數(shù)得：

最后得到代價(jià)函數(shù)：

2）求解參數(shù)。由于代價(jià)函數(shù)可能是一條無(wú)規(guī)則變動(dòng)的曲線，因此需要找到該條曲線中的最低點(diǎn)，即最優(yōu)值，其求解過(guò)程一般使用梯度下降法。梯度下降法的計(jì)算過(guò)程就是沿梯度下降的方向，不斷更新w 值，最終找出極小值[5]，梯度下降函數(shù)為：

其中，W0是自變量參數(shù)，即下降前位置坐標(biāo)，α 是學(xué)習(xí)因子，即下降步長(zhǎng)，w 是更新后的W0，即下降移動(dòng)一小步之后的位置，代表梯度。

4 實(shí)證分析

4.1 數(shù)據(jù)處理

本文共選取了5 000 條實(shí)驗(yàn)數(shù)據(jù)和1 000 條待預(yù)測(cè)數(shù)據(jù)，實(shí)驗(yàn)數(shù)據(jù)中類別為申請(qǐng)失敗的數(shù)據(jù)3 500 條，類別為申請(qǐng)成功的數(shù)據(jù)1 500 條，同時(shí)，共選取所屬國(guó)家類別、逾期記錄、預(yù)計(jì)收入、支出平衡狀態(tài)等10 個(gè)特征屬性。

為了方便數(shù)據(jù)的統(tǒng)計(jì)分析，再讀數(shù)據(jù)進(jìn)行預(yù)處理，將所屬國(guó)家類別中“西方國(guó)家”標(biāo)記為“0”，“東方國(guó)家”標(biāo)記為“1”，逾期記錄中“存在”標(biāo)記為“1”，“不存在”標(biāo)記為“0”，申請(qǐng)結(jié)果中“申請(qǐng)成功”標(biāo)記為“1”，申請(qǐng)失敗標(biāo)記為“0”，整理后的數(shù)據(jù)如表1 所示。

表1 實(shí)驗(yàn)數(shù)據(jù)

4.2 訓(xùn)練預(yù)測(cè)模型

Python 作為當(dāng)前機(jī)器學(xué)習(xí)中主流的計(jì)算機(jī)語(yǔ)言之一，其在算法模型的建立上更為清晰[6]，因此本文選擇python訓(xùn)練邏輯回歸算法模型，訓(xùn)練模型數(shù)據(jù)劃分比例為訓(xùn)練集占比75%，測(cè)試集占比25%。在使用python 訓(xùn)練邏輯回歸模型時(shí)，只需要導(dǎo)入邏輯回歸算法模塊，調(diào)整算法參數(shù)即可。表2 給出了訓(xùn)練結(jié)果。

訓(xùn)練模型輸出的結(jié)果值能夠反應(yīng)模型的優(yōu)劣程度，上表中模型準(zhǔn)確率是指分對(duì)的樣本數(shù)除以所有的樣本數(shù)，通常來(lái)說(shuō)，準(zhǔn)確率越高，模型越好；precision 表示精確率[7]，其是指在測(cè)試集中被分為申請(qǐng)失敗和申請(qǐng)成功的所有樣本中，實(shí)際類別為申請(qǐng)失敗和申請(qǐng)成功所占的比例；recall 為召回率，即測(cè)試集中實(shí)際類別為申請(qǐng)失敗或申請(qǐng)成功的樣本占所有被預(yù)測(cè)為申請(qǐng)失敗或申請(qǐng)成功的比例；f1-score 為精確率和召回率的調(diào)和平均數(shù)，評(píng)判模型一般觀察f1-score，f1-score 越高，模型越好；support 為樣本數(shù)量。由于本文的實(shí)驗(yàn)數(shù)據(jù)均來(lái)源于實(shí)際統(tǒng)計(jì)結(jié)果，因此發(fā)現(xiàn)訓(xùn)練模型的準(zhǔn)確率較高，達(dá)到0.97。

表2 訓(xùn)練結(jié)果

4.3 分類結(jié)果討論

保存模型后，對(duì)1 000 條待預(yù)測(cè)數(shù)據(jù)進(jìn)行分類預(yù)測(cè)，得出表3 的分類結(jié)果。

表3 申請(qǐng)結(jié)果分類預(yù)測(cè)

至此，文本完成了對(duì)無(wú)申請(qǐng)結(jié)果的1 000 條待預(yù)測(cè)數(shù)據(jù)集的分類預(yù)測(cè)，該模型的實(shí)現(xiàn)能夠有效節(jié)約信用卡申請(qǐng)?zhí)幚頃r(shí)間，提高相關(guān)業(yè)務(wù)部門的工作效率。

針對(duì)輸出結(jié)果，筆者認(rèn)為提高信用卡申請(qǐng)效率需要對(duì)申請(qǐng)者職業(yè)及收入重點(diǎn)審核。由于目前銀行業(yè)競(jìng)爭(zhēng)激烈，為了能夠獲得更多利益，在信用卡申請(qǐng)過(guò)程中，越來(lái)越多的嚴(yán)格要求被漸漸忽視，對(duì)于傳統(tǒng)流程中提供工作證明、財(cái)力證明等重要環(huán)節(jié)都被簡(jiǎn)化，甚至可以通過(guò)支付寶的信譽(yù)積分就可以申請(qǐng)到一張信用卡，這些現(xiàn)象存在諸多風(fēng)險(xiǎn)。因此，筆者建議，為了避免拖欠債務(wù)、無(wú)力還債帶來(lái)的危害，在職業(yè)審核階段，相關(guān)部門應(yīng)該花費(fèi)更多的人力和時(shí)間審查申請(qǐng)者職業(yè)情況。

5 結(jié)語(yǔ)

在“提前消費(fèi)”觀念盛行的現(xiàn)代社會(huì)，更多人選擇使用信用卡，對(duì)信用卡申請(qǐng)結(jié)果的有效預(yù)測(cè)，不但可以提高服務(wù)效率，而且還能避免潛在風(fēng)險(xiǎn)。本文提出基于邏輯回歸算法預(yù)測(cè)信用卡申請(qǐng)分類結(jié)果，結(jié)合用戶真實(shí)數(shù)據(jù)，選擇屬性特征，輸入分類模型，提出研究框架，使用python 訓(xùn)練邏輯回歸算法，在訓(xùn)練過(guò)程中能夠及時(shí)調(diào)整模型參數(shù)，擺脫分析工具在分析模型上的局限。為實(shí)現(xiàn)對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確分類，對(duì)邏輯回歸預(yù)測(cè)模型進(jìn)行改進(jìn)和拓展，同時(shí)實(shí)現(xiàn)數(shù)據(jù)、結(jié)果可視化，使研究思維不受限制。實(shí)驗(yàn)表明，選取職業(yè)評(píng)估、收入評(píng)估等9 個(gè)特征值對(duì)分類預(yù)測(cè)模型有顯著的正向影響。

當(dāng)然，本實(shí)驗(yàn)仍存在諸多不足之處，對(duì)于基于邏輯回歸算法的信用卡申請(qǐng)結(jié)果分類預(yù)測(cè)模型還有大量研究探索的工作要做，筆者建議對(duì)本文的后續(xù)研究應(yīng)從以下兩方面加以改進(jìn)：

1）臨界值的劃分。利用sigmoid 函數(shù)作為邏輯回歸算法的預(yù)測(cè)函數(shù)，其閾值為0.5，對(duì)于在預(yù)測(cè)過(guò)程中閾值附近的預(yù)測(cè)點(diǎn)本文是根據(jù)函數(shù)的默認(rèn)歸類，其結(jié)果不一定準(zhǔn)確，因此未來(lái)將深入研究和明確定義臨界值的劃分標(biāo)準(zhǔn)。

2）特征屬性的選取。本文選取了10 項(xiàng)訓(xùn)練特征，雖然實(shí)驗(yàn)結(jié)果表現(xiàn)很好，但是在特征屬性中也同時(shí)存在對(duì)模型影響較小的特征，從而會(huì)影響模型訓(xùn)練時(shí)長(zhǎng)，對(duì)于更大量的數(shù)據(jù)集，將會(huì)耗費(fèi)更多時(shí)間，因此，在屬性特征的選取上還可以繼續(xù)優(yōu)化，深入研究本文第4.3 章節(jié)所述的關(guān)鍵屬性特征提取。