黃英持,鄭婷婷
(1.中國移動通信集團廣東有限公司數(shù)據(jù)和產(chǎn)品研發(fā)中心,廣州 510623;2.廣東開放大學信息與工程學院,廣州 510091)
移動用戶信用評估系統(tǒng)的設計與開發(fā)研究
黃英持1,鄭婷婷2
(1.中國移動通信集團廣東有限公司數(shù)據(jù)和產(chǎn)品研發(fā)中心,廣州 510623;2.廣東開放大學信息與工程學院,廣州 510091)
運營商的數(shù)據(jù)資源優(yōu)勢,為信用評估系統(tǒng)的發(fā)展帶來新的機遇。建立消費者的指標體系,借鑒已有信用評估模型,使用Apache Spark實現(xiàn)決策引擎,并經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)標準化、數(shù)據(jù)訓練等過程提高計算的準確度,計算結(jié)果以Web Service提供,用戶可通過多種方式實現(xiàn)個人信用值的快速計算與查詢。
信用評估;指標體系;決策樹;Apache Spark
對企業(yè)組織和個人的信用信息進行采集、整理、保存和加工,稱為征信,其本質(zhì)在于利用信用信息對金融主體進行數(shù)據(jù)刻畫[1]。長期以來,中國征信市場是以央行為主導的單一格局,但在用戶覆蓋面和數(shù)據(jù)多樣性方面,央行征信系統(tǒng)有很大的局限性,例如對于藍領工人、學生、個體戶、自由職業(yè)者等用戶,無法建立較準確的個人信用記錄,且金融機構(gòu)和民間團體了解這些用戶信用記錄的成本也比較高。
大數(shù)據(jù)為信用評估提供了豐富的數(shù)據(jù)資源,也改變了信用評估產(chǎn)品的設計和生產(chǎn)方式。大數(shù)據(jù)的出現(xiàn),特別是互聯(lián)網(wǎng)金融的蓬勃發(fā)展,為信用評估活動提供了全新的發(fā)展視角[2-3]。例如互聯(lián)網(wǎng)征信,主要是通過采集個人在互聯(lián)網(wǎng)交易或使用互聯(lián)網(wǎng)各類服務過程中留下的信息數(shù)據(jù),并結(jié)合線下渠道采集的信息數(shù)據(jù),利用大數(shù)據(jù)、云計算等技術(shù)進行信用評估的活動[3-4]?;ヂ?lián)網(wǎng)征信為征信發(fā)展提供了豐富的信息來源,改變了征信服務理念和傳統(tǒng)的信用評分模式,從而更好地推動我國個人征信市場的建立及社會信用體系的完善。
目前較有代表性的互聯(lián)網(wǎng)征信系統(tǒng)包括阿里巴巴的“芝麻分”的信用評級產(chǎn)品和“花唄”的個人信用消費產(chǎn)品,京東的“白條”的個人信貸消費產(chǎn)品等,這些產(chǎn)品在需要支付押金或預授權(quán)等現(xiàn)實中的各種履約場景都可以得到應用。
移動運營商具有先天的數(shù)據(jù)資源優(yōu)勢,充分利用移動運營商所擁有的優(yōu)質(zhì)數(shù)據(jù)建立個人信用記錄,并與其他征信平臺合作整合,既能挖掘移動運營商的資產(chǎn)潛力,也能順應“互聯(lián)網(wǎng)+”的發(fā)展潮流。
基于移動用戶的消費行為,選擇合適的特征指標體系,可以盡量以較少的變量反映數(shù)據(jù)的主要特征[5]。綜合可獲取的指標以及專家意見,可大致建立用戶信用評估的主要指標體系,如表1所示。
表1 移動用戶征信主要指標體系
第一層分為身份特征、行為特征、人脈特征、信用歷史、賬戶狀況5個維度。身份特征維度主要是利用運營商實名制的優(yōu)勢獲取用戶年齡、居住工作地等與通信和行為無關的基本特征;行為特征衡量用戶對移動通信,移動互聯(lián)網(wǎng)的使用情況;人脈特征主要反映用戶的社交圈子的信用程度;信用歷史和賬戶狀況反映了用戶過去和現(xiàn)在的基本信用情況。
概括而言,消費者信用評估方法可以分為統(tǒng)計模型和非統(tǒng)計模型兩類,統(tǒng)計模型包括判別分析、邏輯回歸、K近鄰規(guī)則、決策樹等;非統(tǒng)計模型包括數(shù)學規(guī)劃、支持向量機、神經(jīng)網(wǎng)絡、遺傳算法等[6]。為了獲取更準確的計算結(jié)果,可以將上述兩種或幾種方法有機地結(jié)合起來,實現(xiàn)更有效的信用評估計算。例如可以把決策樹和非統(tǒng)計模型的方法結(jié)合起來計算用戶的消費特征,使用貝葉斯網(wǎng)絡分類模型訓練得到的數(shù)據(jù),這都是系統(tǒng)中可以借鑒的實現(xiàn)方式。
信用評估計算的關鍵是科學合理地選出信用變量,并產(chǎn)生一個公式。常用于個人信用評估的數(shù)據(jù)挖掘方法包括分類、聚類、關聯(lián)規(guī)則分析、預測、孤立點檢測等[7]。數(shù)據(jù)挖掘的前提是需要采集到足夠的數(shù)據(jù)樣本,但樣本中有些特征指標的變量需要經(jīng)過歸一標準化處理后才能進行下一步的計算,例如對于離散變量,可通過標準化計算把它的值映射到[0,1]區(qū)間。然后使用熵值法計算指標的權(quán)重。熵值法的基本思路是求出指標的熵,然后根據(jù)指標熵的冗余度求權(quán)重。
當樣本庫中采集到足夠數(shù)量和經(jīng)處理后滿足質(zhì)量要求的樣本數(shù)據(jù),就可以根據(jù)樣本的指標特征值,對樣本集進行分析,得到?jīng)Q策樹。決策樹是一個類似于流程圖的樹狀結(jié)構(gòu),以樹的形式采用自上而下的方式給出分類規(guī)則[6]。決策樹方法包括兩個主要步驟:構(gòu)建和剪枝。每個決策樹都可由其分支,對該類型的對象依靠屬性進行分類,在構(gòu)建決策樹時,一般采用基于信息熵定義的信息增益來選擇內(nèi)部結(jié)點的測試屬性。而決策樹剪枝主要是識別并消除由數(shù)據(jù)集中的噪聲或異常數(shù)據(jù)所產(chǎn)生的分枝,以幫助改善決策樹對未知類別對象分類的準確性。
當完全采用決策樹方法時,由于它使用信息熵或其他的啟發(fā)式信息來選擇充當分支結(jié)點的屬性,用幾率代替概率來計算信息熵,隨著樹的深入構(gòu)造,誤差將會越來越大。因此,采用決策樹的方法往往要結(jié)合其他方法,例如聚類分析、神經(jīng)網(wǎng)絡等,以減少累積誤差。基本思路是先根據(jù)決策計算的結(jié)果作區(qū)段劃分,然后對每一個大類別進行聚類分析,得到多個子聚類,再對每個子聚類建立一個能擬合包含所有樣本的子模型。這樣,就得到一種類似樹狀的結(jié)構(gòu)——聚類樹。對于基層的子聚類,當某些子聚類滿足指定條件時,就可實現(xiàn)節(jié)點的合并。
在本系統(tǒng)中將采用分布式計算、離線更新模式。首先進行訓練數(shù)據(jù)采集,再對數(shù)據(jù)進行整理、清洗,使數(shù)據(jù)標準化,并通過訓練構(gòu)建模型的離線更新,最后通過在線加載模型進行預測。后端機器學習子系統(tǒng)中涉及大數(shù)據(jù)的部分計算量較大、實時性要求較低,獨立運行不會影響到在線子系統(tǒng)的運作。系統(tǒng)架構(gòu)示意圖如圖1、圖2所示。
圖1 移動用戶信用評估系統(tǒng)數(shù)據(jù)流程圖
信用評估接口將從基礎數(shù)據(jù)模塊獲取待評估用戶的基礎數(shù)據(jù),然后調(diào)用決策引擎進行評估。決策引擎根據(jù)策略,將不定時地從已有的決策模型庫加載決策模型以進行預測。分析維度框架包括通信行為、行為偏好、身份特征等指標體系,并使用聚類分析、決策樹、關聯(lián)分析等方法進行數(shù)據(jù)挖掘與建模。在離線部分,數(shù)據(jù)采集模塊定期從數(shù)據(jù)庫采集增量數(shù)據(jù)進行標準化,然后訓練、更新模型。
圖2 移動用戶信用評估系統(tǒng)模塊圖
圖3 MLlib算法庫
系統(tǒng)決策引擎采用Apache Spark MLlib[7-8]作為核心框架。Apache Spark是一個開源集群運算框架,由加州大學柏克利分校AMPLab所開發(fā)。Apache Spark允許將數(shù)據(jù)加載至集群內(nèi)存,并多次對其進行查詢,非常適合用于機器學習算法。Apache Spark MLlib是一種基于Spark的高效、快速、可擴展的分布式計算框架,它實現(xiàn)了常用的機器學習,如:聚類、分類、回歸等算法。MLlib算法庫核心如圖3所示。
信用評估接口管理接入平臺和移動用戶信用歷史,接入平臺通過Web Service接口獲得移動用戶信用值,用戶可以通過多種渠道,例如公眾號、App等查看自己的信用值。
本文給出了基于移動用戶消費行為數(shù)據(jù)的征信評估系統(tǒng)的設計思路,先提取用戶的特征指標體系,通過決策引擎根據(jù)需要調(diào)用信用評估方法,如決策樹、聚類分析等,利用Apache Spark MLlib算法庫實現(xiàn)高效、快速的分布式計算。該系統(tǒng)充分利用了運營商大數(shù)據(jù)的優(yōu)勢,可以高效、靈活、準確地完成用戶信用評估與預測。實踐表明,經(jīng)過一定時期的訓練及試運行后,系統(tǒng)計算的準確率可達到80%以上,具備一定的實用性。
[1]徐鑫.大數(shù)據(jù)征信“大有可為”[J].上海信息化,2016,10:29-33.
[2]張健華.互聯(lián)網(wǎng)征信發(fā)展與監(jiān)管[J].中國金融,2015,01:40-42.
[3]人民銀行石家莊中心支行征信管理處課題組,劉旭,趙玉清.大數(shù)據(jù)環(huán)境下互聯(lián)網(wǎng)征信發(fā)展與監(jiān)管研究[J].河北金融,2016,04:3-8.
[4]鄧舒仁.關于互聯(lián)網(wǎng)征信發(fā)展與監(jiān)管的思考[J].征信,2015,01:14-17.
[5]賴輝,帥理,周宗放.個人信貸客戶信用評估的一種新方法[J].技術(shù)經(jīng)濟,2014,33(9):97-103.
[6]王昱.基于組合分類的消費者信用評估[J].管理工程學報,2015,29(1):30-38.
[7]葛繼科,趙永進,王振華,等.數(shù)據(jù)挖掘技術(shù)在個人信用評估模型中的應用[J].計算機技術(shù)與發(fā)展,2006,16(12):172-174.
[8]Apache Spark.Spark文檔[EB/OL].[2017-04-14].http://spark.apache.org/docs/latest/.
[9]寧永恒.基于Spark的若干數(shù)據(jù)挖掘技術(shù)研究[D].杭州:計算機應用技術(shù),2016.
Research on the Design and Development of Credit Evaluation System for Mobile Communication Customers
HUANG Ying-chi1,ZHENG Ting-ting2
(1.China Mobile Guangdong Digital Research Center,Guangzhou 510623;2.The Open University of Guangdong,Guangzhou 510091)
The advantages of data resources of telecommunications operators bring new opportunities for the development of credit evaluation system.Establishes the index system of consumers,uses the existing credit evaluation model,and uses Apache Spark to realize the decision engine.After the procedure of date acquisition,data standardization,and data training,improves the accuracy of the calculation.The results are provided by Web Service,and users can realize the rapid calculation of querying personal credit value through a variety of ways.
黃英持(1983-),男,廣東江門人,碩士研究生,從事領域為大數(shù)據(jù)創(chuàng)新產(chǎn)品研發(fā)工作
2017-06-02
2017-06-10
1007-1423(2017)17-0081-04
10.3969/j.issn.1007-1423.2017.17.017
鄭婷婷(1984-),女,廣東湛江人,碩士研究生,講師,研究方向為移動應用技術(shù)、大數(shù)據(jù)技術(shù)
Credit Evaluation;Index System;Decision Tree;Apache Spark