□ 文 張湛梅 張曉川
隨著移動互聯(lián)網(wǎng)和金融創(chuàng)新業(yè)務(wù)的快速發(fā)展,客戶信用行為愈加多元化,基于銀行領(lǐng)域信貸與消費行為的傳統(tǒng)信用評分方式已無法滿足當(dāng)前互聯(lián)網(wǎng)信貸的需求,與經(jīng)濟發(fā)展水平和社會發(fā)展階段存在不匹配、不協(xié)調(diào)、不適應(yīng)的矛盾,這直接影響著中國金融市場的交易秩序。為夯實金融行業(yè)發(fā)展的基礎(chǔ),深化我國市場經(jīng)濟發(fā)展,亟需構(gòu)建更健全的信用服務(wù)體系。目前,數(shù)據(jù)獲取及處理方式有了大幅度提高,相對于傳統(tǒng)征信如央行通過統(tǒng)計信用卡等信息的征信,大數(shù)據(jù)征信擁有著更多優(yōu)勢。運營商具備客戶身份特征、消費行為、位置信息、社交活動等海量數(shù)據(jù),在大數(shù)據(jù)征信中具有顯著的數(shù)據(jù)優(yōu)勢。
本文闡述了基于運營商大數(shù)據(jù)打造個人信用評分體系模型,保證了個人信用評分模型在篩選指標的時候保持穩(wěn)定并體現(xiàn)信令數(shù)據(jù)的重要作用,進一步減少模型系數(shù)的誤差,使得評分模型更加合理,并以此為基礎(chǔ)打造標準化的信用服務(wù)產(chǎn)品,滿足信貸身份校驗、授信等市場需求,推動征信行業(yè)的發(fā)展。
個人信用系統(tǒng)是一個評估、記錄和歸檔個人信用的系統(tǒng)。貸款人可以根據(jù)家庭收入、收到和償還的貸款、超額信貸、罰款和不良貸款的起訴來決定是否借款或借款金額。
從20世紀20年代當(dāng)時的中國政府被迫頒布中國最早的個人信用檔案——《銀行工會章程》到現(xiàn)在,中國的個人信用制度經(jīng)歷了一個世紀的發(fā)展,但是從嚴格意義上來說,我國個人信用體系建設(shè)真正始于1999年中國人民銀行個人信用信息基礎(chǔ)數(shù)據(jù)庫的投入建設(shè)。比較于國際上的發(fā)達國家,我國個人信用系統(tǒng)的建設(shè)起步較晚,但是發(fā)展規(guī)模卻后來居上。早期,個人信用體系主要由央行主導(dǎo),采集的個人信用信息包含三類:身份識別信息、貸款信息和信用卡信息,但是隨著互聯(lián)網(wǎng)的飛速發(fā)展和技術(shù)迭代,個人信用體系的大數(shù)據(jù)時代也隨之到來,由芝麻信用管理有限公司、騰訊征信有限公司等為代表的金融、互聯(lián)網(wǎng)行業(yè)巨頭建立的個人征信公司,成為央行個人征信業(yè)務(wù)的有效補充。2019年中國人民銀行副行長朱鶴新介紹,中國已經(jīng)建立全球規(guī)模最大的征信系統(tǒng),累計收錄9.9億自然人、2591萬戶企業(yè)和其他組織的有關(guān)信息,在防范金融風(fēng)險、維護金融穩(wěn)定、促進金融業(yè)發(fā)展等方面發(fā)揮了不可替代的重要作用。
互聯(lián)網(wǎng)技術(shù)的進步和電信行業(yè)基礎(chǔ)設(shè)施的不斷增強,移動互聯(lián)網(wǎng)獲得了前所未有的空前繁榮。根據(jù)中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心2022年2月25日發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告》,截至2021年12月,中國移動網(wǎng)絡(luò)IPv6流量占網(wǎng)絡(luò)核心資源的35.15%;在信息通信行業(yè),建成投產(chǎn)5G基站142.5萬個;在使用互聯(lián)網(wǎng)設(shè)備方面,99.7%的中國網(wǎng)民使用手機上網(wǎng),手機仍然是上網(wǎng)的主要設(shè)備。從報告中可以判斷,電信運營商占據(jù)著獲取用戶個人信息和個人信用數(shù)據(jù)的天然優(yōu)勢。
有相關(guān)文章對大數(shù)據(jù)信用與傳統(tǒng)信用的區(qū)別進行了比較和總結(jié):第一,大數(shù)據(jù)征信拓展了征信的理念,通過對大量信息主體數(shù)據(jù)的分析,可以發(fā)現(xiàn)信息主體的歷史行為與其信用記錄之間的相關(guān)性;第二,大數(shù)據(jù)征信的數(shù)據(jù)來源更加廣泛;第三,大數(shù)據(jù)征信的數(shù)據(jù)形式更加多樣,包括文本形式的半結(jié)構(gòu)化數(shù)據(jù),以圖片、視頻、音頻等形式存在的非結(jié)構(gòu)化數(shù)據(jù)等;第四,大數(shù)據(jù)征信的數(shù)據(jù)規(guī)模更大,相較于傳統(tǒng)征信數(shù)據(jù)規(guī)模通常以GB為單位,大數(shù)據(jù)征信數(shù)據(jù)規(guī)模一般以PB計。
基于上述的比較研究,可以清晰地了解在個人信用體系中,相比傳統(tǒng)征信,大數(shù)據(jù)征信在個人信用數(shù)據(jù)獲取和處理上有其獨特優(yōu)勢。依據(jù)《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》的統(tǒng)計,我們能夠清楚判斷,基于海量移動運營商數(shù)據(jù)的大數(shù)據(jù)征信,具備其他個人征信渠道難以獲取的數(shù)據(jù)優(yōu)勢。相關(guān)如下:
1.2.1 在互聯(lián)網(wǎng)征信中具有重要數(shù)據(jù)優(yōu)勢
在目前的互聯(lián)網(wǎng)專業(yè)化征信系統(tǒng)中,排名前4的高質(zhì)量的數(shù)據(jù)是:收入、位置、熟人社交、稅務(wù)等,除去信貸評估能獲取的收入、稅務(wù)以外,熟人社交、位置等信貸機構(gòu)無法準確獲取的數(shù)據(jù)恰好是運營商的優(yōu)勢數(shù)據(jù)源。因此,運營商在互聯(lián)網(wǎng)+征信評估中占據(jù)了數(shù)據(jù)優(yōu)勢地位。
1.2.2 海量的客戶數(shù)據(jù)具有很大的潛在價值
運營商擁有客戶身份特征、消費行為、位置信息、社交活動這四維一體的核心大數(shù)據(jù),基于大數(shù)據(jù)高度融合,可清晰描繪出客戶全息精準畫像,以此為基礎(chǔ)可提供征信服務(wù)產(chǎn)品,滿足信貸身份校驗、授信等市場需求。如圖1所示。
圖1 運營商具有的數(shù)據(jù)優(yōu)勢
在個人信用體系中,相比傳統(tǒng)征信,大數(shù)據(jù)征信在個人信用數(shù)據(jù)獲取和處理上有其獨特優(yōu)勢。
本方案依托用戶的基本信息、消費能力、信用記錄、人脈關(guān)系、行為偏好等五大方面指標以及用戶的信令數(shù)據(jù),通過抽取標準樣本數(shù)據(jù)、指標分箱處理及計算、利用信令數(shù)據(jù)自適應(yīng)的個人信用評分模型訓(xùn)練和個人信用評分計算等步驟,自適應(yīng)選取對信用評分有效的指標和系數(shù),保證了個人信用評分模型在篩選指標的時候保持穩(wěn)定并體現(xiàn)信令數(shù)據(jù)的重要作用,減少模型系數(shù)的誤差,使得評分模型更加合理,最終實現(xiàn)具備運營商特色的全面、綜合、多維度的個人信用度評分指標體系建設(shè),為精準高價值用戶營銷、銀行信貸行業(yè)等方面應(yīng)用提供有效支撐。如圖2所示。
圖2 運營商大數(shù)據(jù)信用服務(wù)體系
2.2.1 提取樣本數(shù)據(jù)
利用熵值法并結(jié)合欠費方面的指標對用戶進行評分,分值由高到低排序,得分越高則用戶的欠費程度越高,違約的概率也隨之增加,所以取得分前1%的用戶作為壞用戶,即正樣本;在剩下的用戶中隨機抽取總用戶人數(shù)的10%作為好用戶,即負樣本。具體的步驟如下:
(1)選取近三個月停機總次數(shù)、近三個月欠費總金額和客戶賬期類型作為指標,這些指標均衡量了用戶的欠費違約情況。由于指標的取值范圍不一致,為了避免過于側(cè)重單個指標,需要對指標進行標準化,標準化公式如下:
其中Uij,i=1,2,…,m,j=1,2,3為原始數(shù)據(jù)中第j個指標的第i個記錄,m為總用戶人數(shù),vij為標準化后的數(shù)據(jù)。
(2)通過計算熵值可以用來判斷三個月停機總次數(shù)、近三個月欠費總金額和客戶賬期類型三個指標的離散程度,離散程度越大表明該指標對綜合評價影響越大。
首先計算指標的熵值,衡量了指標的離散程度,計算公式如下:
其中rij表示第i個記錄下第j個指標的比重
然后計算指標的權(quán)重,衡量了三個月停機總次數(shù)、近三個月欠費總金額和客戶賬期類型三個指標在計算總分時理應(yīng)乘上的系數(shù),計算公式如下:
其中hj為第j個指標的差異性系數(shù)hj=1_e,j=1,2,3。
最后根據(jù)指標的權(quán)重和指標值,計算每個用戶的熵值法得分
(3)對si分值由高到低排序,分值越高表示在欠費違約方面越嚴重,取得分前1%的用戶作為壞用戶,即正樣本;在剩下的用戶中隨機抽取總用戶人數(shù)的10%作為好用戶,即負樣本。正負樣本的合集即為標準的樣本數(shù)據(jù),用于后續(xù)建立信用評分模型。
用戶的基本信息主要包含品牌、在網(wǎng)時長和身份等信息;
2.2.2 選取指標并進行分箱處理
為了全面評估用戶的信用情況,除了從傳統(tǒng)評分角度提取用戶的基本信息、消費能力、信用記錄、人脈關(guān)系和行為偏好等五大方面指標,同時加入用戶的信令數(shù)據(jù)作為數(shù)據(jù)依據(jù)。
用戶的基本信息主要包含品牌、在網(wǎng)時長和身份等信息;消費能力是衡量用戶在通信消費的消費層次、消費級別、消費活躍度,主要包含賬戶余額、主套餐包含的費用、上月總通話次數(shù)、上三個自然月平均充值額度等等;信用記錄用于衡量用戶履約能力,包含上三個自然月欠費總額、上一自然月單停機天數(shù)、上一自然月雙停機天數(shù)等等;人脈關(guān)系用于衡量用戶社交關(guān)系強度,從社交影響力和身邊人的信用分來評估人脈關(guān)系,包括高頻對端號碼個數(shù)、高頻對端號碼平均時長、親密人員個數(shù)、親密人員平均消費水平等等;行為偏好用于衡量用戶使用App的活躍度以及應(yīng)用偏好,包括App類型偏好top1、社區(qū)交友使用次數(shù)、社區(qū)交友使用流量、電商購物使用次數(shù)、股票類App使用次數(shù)等等。用戶的信令數(shù)據(jù)主要選取工作日10:00至17:00常駐位置為高端寫字樓和CBD的次數(shù)和22:00至次日6:00常駐位置為高端小區(qū)的次數(shù)。
為方便后續(xù)的評分能形成評分表用于評估信用得分,須對指標進行分箱,對于連續(xù)型指標,一個合理的分箱應(yīng)該使得每個箱內(nèi)的數(shù)據(jù)量較為均衡,不宜過多或者過少,同時各個箱內(nèi)負樣本的占比應(yīng)呈現(xiàn)單調(diào)上升或下降的趨勢,這里采用WOE值,它既可以衡量各個分箱的趨勢情況,也是后續(xù)的回歸模型的變量輸入,其計算公式如下:
對于離散型指標,在指標的取值不多的時候,可直接按其取值作為分箱并求取WOE值;在取值較多的時候,可對某些取值進行合并,再求對應(yīng)的WOE值。
2.2.3 利用信令數(shù)據(jù)對評分模型進行自適應(yīng)訓(xùn)練
邏輯回歸在信用評分模型中使用比較廣泛,它的結(jié)構(gòu)簡單,系數(shù)的作用容易在業(yè)務(wù)上解釋。
用戶為壞用戶的概率可用P表示,則邏輯回歸模型可表示為
其中xi=(i=1,2,…,s)為指標,由于P取值在0到1之間,而通過logit變換后,取值范圍可變換為任意實數(shù)值,需要求解的是β =(β0,β1,…,βs)T。
在使用邏輯回歸預(yù)測時,可以使用全部指標進入模型,但某些對預(yù)測貢獻度不高的指標也會進入模型,導(dǎo)致模型預(yù)測的偏差變大。針對該情況,通過前進法、后退法、逐步回歸等方法篩選變量,剔除作用不明顯的指標。
同時基于信令數(shù)據(jù)自適應(yīng)的邏輯回歸模型,利用信令數(shù)據(jù)自適應(yīng)地同時進行變量選擇和系數(shù)估計,有效減小模型系數(shù)估計偏差。
首先,采用Adaptive—Lasso方法求解邏輯回歸模型。給定數(shù)據(jù)(X(i),y(i)),i=1,2,…,n,其中X(i)=(xi1,…,xis),表示樣本數(shù)據(jù)中的第i個數(shù)據(jù)的WOE值向量,共n個,xi1表示第i個數(shù)據(jù)的第一個指標對應(yīng)的WOE值,y(i)表示目標變量,若第i個數(shù)據(jù)為正樣本,則y(i)=1;若第i個數(shù)據(jù)為負樣本,則y(i)=0。則在Adaptive—Lasso方法下β=(β0,β1,…,βs)T的估計量定義為
(2)式的第一部分表示模型擬合的優(yōu)良度,這是一般邏輯回歸模型在求解時的部分,第二部分則表示系數(shù)的懲罰項,λn為懲罰參數(shù)。而表示公式(1)進行最小二乘估計得到的βj的估計值,當(dāng)|βj|系數(shù)較大的時候,給予較小的懲罰,能得到較小的偏差;而當(dāng)|βj|系數(shù)較小的時候,給予較大的懲罰,該系數(shù)則近似為0,實現(xiàn)了變量選擇的功能。
同時求解的過程需要利用信令數(shù)據(jù)方面的指標對其他指標的系數(shù)進行自適應(yīng)地控制,確保信令數(shù)據(jù)方面的指標貢獻較高的權(quán)重,所以需要在Adaptive—Lasso方法的基礎(chǔ)上增加懲罰項。
記工作日10:00至17:00常駐位置為高端寫字樓和CBD的次數(shù)和22:00至次日6:00常駐位置為高端小區(qū)的次數(shù)兩個指標在所有指標xi(i=1,2,…,s)中的下標為k1,k2,即xk1表示工作日10:00至17:00常駐位置為高端寫字樓和CBD的次數(shù),βk1表示指標xk1對應(yīng)的系數(shù)。
為了保證信令數(shù)據(jù)方面的指標xk1和xk2貢獻較高的權(quán)重,需要對βj之間的差異進行控制??紤]添加懲罰項
用于控制指標xk1和xk2的系數(shù)值,通過限制的大小,保證了指標xk1和xk2的系數(shù)必須大于其他指標的系數(shù),即確保了信令數(shù)據(jù)方面的指標在模型貢獻較高的權(quán)重,而ψ1為懲罰系數(shù)。
綜上則有基于信令數(shù)據(jù)的自適應(yīng)邏輯回歸模型β=(β0,β1,…,βs)T的估計量定義為
2.2.4 將回歸模型轉(zhuǎn)化為評分模型
將回歸系數(shù)轉(zhuǎn)換為信用評分的形式是一個量表編制的過程,為了方便業(yè)務(wù)人員使用以及評分之間的差異具有業(yè)務(wù)意義,通常需要滿足一下三點要求:
(1)評分控制在一定范圍內(nèi),如0~900分之間。
1995年9月,我曾介紹《大地上的事情》的作者、生態(tài)文學(xué)散文家葦岸加入中國作家協(xié)會。我的推薦詞寫道:“葦岸秉承著《瓦爾登湖》作者梭羅、《林中水滴》作者普利什文的傳統(tǒng),傾全力描繪生機蓬勃的大自然的一切。他在中國散文史上首先表達了土地倫理學(xué)的思想,因此我樂于介紹他加入中國作家協(xié)會。”推薦詞里,我雖然使用了“土地倫理學(xué)”的提法,但那時我并不知道這一首創(chuàng)性的概念最早是由李奧帕德提出的。這時我才感到,冬林把這本好書送我閱讀,使我得到醍醐灌頂般的醒悟,我是多么幸運。
(2)在特定的分數(shù)時,好用戶和壞用戶具有一定的比例關(guān)系,這里采用
(3)評分值的增加應(yīng)該能反映好用戶和壞用戶比例的變化,如希望評分值每增加50分,odds也增加一倍。
目前業(yè)界比較通用的信用評分方程式如下:
score=offest+factor×ln(odds),
為了滿足以上3個條件,該方程式需滿足以下兩個等式
a、score=offest+factor×ln(odds),
其中pdo表示odds增加1倍需要評分值增加的值。則有
factor=pdo/ln(2),offest=score_factor×ln(odds)。
從而得到最終的評分方程式為:
score=offest+factor×ln(odds)
假如評分值在600分的時候好用戶與壞用戶的比例為50:1,且odds增加一倍的時候,評分增加50分。則有:
factor=50/ln(2)=72.13,
offest=600_72.13×ln(50)=317.83
于是得到最終的評分方程式:
score=317.83+72.13×ln(odds)。
由于邏輯回歸方程的左邊可知_logit(P)×ln(odds),則將上一步驟中得到β的估計量代入評分方程式,得到:
這里的xi表示第i個變量的值所對應(yīng)的分箱的WOE值,為(3)式得到的回歸模型系數(shù)。
故根據(jù)評分公式可得到對應(yīng)每個變量每個分箱的評分值
其中WOE表示變量的分箱對應(yīng)的WOE值。
結(jié)合輸入?yún)?shù)和待評估用戶的指標,將待評估用戶的個人信用評分計算出來。如圖3所示。
圖3 信用報告示例
以數(shù)據(jù)對接的商務(wù)模式為切入點,信用查詢服務(wù)為載體,探索和信用分對外價值變現(xiàn)的合作方案。
2.3.1 基于信用服務(wù)體系,打造標準化的互聯(lián)網(wǎng)產(chǎn)品
基于信用服務(wù)體系及金融行業(yè)成功變現(xiàn)經(jīng)驗,通過上網(wǎng)助手/微信公眾號/運營商客戶端/App等渠道拓展應(yīng)用輻射,創(chuàng)新前后向服務(wù)模式,建立標準化產(chǎn)品體系,儲備大數(shù)據(jù)變現(xiàn)能力。以數(shù)據(jù)對接的商務(wù)模式為切入點,信用查詢服務(wù)為載體,探索和信用分對外價值變現(xiàn)的合作方案。相關(guān)做法如圖4所示,如下:
圖4 產(chǎn)品服務(wù)模式
(1)信息查詢定價標準:基于模型指標相關(guān)程度排序,劃分數(shù)據(jù)查詢價格梯度;
(2)數(shù)據(jù)脫敏處理方案:通過數(shù)據(jù)脫敏操作,對數(shù)據(jù)進行封裝,輸出泛化的數(shù)據(jù)形態(tài);
(3)合作方使用查詢服務(wù)方法:合作方提供一批用戶號碼及個性化定制的需求,以號碼為單位,輸出非明細數(shù)據(jù)的用戶畫像報告。
2.3.2 開發(fā)“個人信用度”微信公眾號,進行自媒體推廣
開發(fā)基于微信公眾號的用戶界面,為將“個人信用度”推向公眾用戶,利用全面的線下渠道對公眾號進行迅速推廣,力爭達到讓用戶感覺好玩、有用、愿意傳播分享。同時在用戶首次使用時引導(dǎo)關(guān)注其他大數(shù)據(jù)產(chǎn)品,最終實現(xiàn)基于運營商大量的自有資源低成本吸引客戶,提高用戶黏性。如圖5所示。
圖5 “個人信用度”微信公眾號
2.3.3 開拓在各行業(yè)的信用服務(wù)應(yīng)用
在確保數(shù)據(jù)安全前提下,向個人用戶以及政府、金融機構(gòu)用戶提供信用數(shù)據(jù)查詢服務(wù),個人用戶可以對歷史消費、信用評級等數(shù)據(jù)進行查詢;政府、科研機構(gòu)用戶可以對脫敏處理后的上網(wǎng)行為、地理位置等宏觀數(shù)據(jù)進行查詢使用,輔助更好的防范信用性風(fēng)險,促進征信行業(yè)的發(fā)展。如圖6所示。
圖6 場景應(yīng)用示例
運營商將持續(xù)基于大數(shù)據(jù)、區(qū)塊鏈、人工智能等技術(shù),進一步探索信用服務(wù)業(yè)務(wù)向更全面、更智能、更安全的方向深度融合發(fā)展。
金融市場不斷擴大,個人信用服務(wù)發(fā)揮了重要作用,如何提高個人信用識別率,保證多方利益,實現(xiàn)精準的信用評估,建設(shè)大數(shù)據(jù)體系下的信用服務(wù)體系具有重大意義?;谶\營商大數(shù)據(jù)的信用服務(wù)體系充分利用海量多維度用戶數(shù)據(jù),相比于傳統(tǒng)的個人信用,以運營商的視角信用服務(wù)更加多元化、全面地反映了用戶信用表現(xiàn),拓寬了信用可應(yīng)用的范圍,加強了風(fēng)險防控能力。未來,運營商將持續(xù)基于大數(shù)據(jù)、區(qū)塊鏈、人工智能等技術(shù),進一步探索信用服務(wù)業(yè)務(wù)向更全面、更智能、更安全的方向深度融合發(fā)展。