亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于運營商大數(shù)據(jù)的信用風險控制模型

        2018-01-18 07:10:48賈利娟朱斌杰
        電子設計工程 2018年1期
        關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則用戶

        賈利娟,朱斌杰

        (1.陜西廣播電視大學計算機與信息管理教學部,陜西西安710119;2.中國移動北京公司北京100007)

        移動通信運營商積累大量的用戶數(shù)據(jù),包括用戶基礎信息、通信行為、上網(wǎng)行為、地理位置等數(shù)據(jù)。如何利用這些數(shù)據(jù)服務于征信領(lǐng)域是一個值得研究的問題。征信領(lǐng)域主要分為企業(yè)征信和個人征信兩類,因為運營商積累的主要是個人通信用戶的數(shù)據(jù),所以這里主要研究個人征信問題。運營商的個人征信產(chǎn)品體系中主要包括征信驗真、征信評級、業(yè)務追蹤管理3個子產(chǎn)品,其中征信評級是最重要的產(chǎn)品。征信評級產(chǎn)品基于運營商的大數(shù)據(jù)為用戶進行信用評級,信用評級應用于個人貸款、消費貸款、免押金租賃等金融和商業(yè)場景中,實現(xiàn)對業(yè)務場景下的業(yè)務風險控制。從數(shù)據(jù)挖掘的角度看信用評級問題就是數(shù)據(jù)挖掘中的分類預測問題,根據(jù)用戶歷史數(shù)據(jù)建立用戶評級模型,基于評級模型得到每個用戶的信用風險評級并應用于業(yè)務場景中。征信評級不僅應用于傳統(tǒng)信貸場景,而且應用于互聯(lián)網(wǎng)征信領(lǐng)域[1-5]。大數(shù)據(jù)征信評級中特別要注意用戶的隱私問題[6]?,F(xiàn)有基于大數(shù)據(jù)的征信模型都是基于信用場景下的數(shù)據(jù)[7-8],沒有使用運營商大數(shù)據(jù)。

        1 運營商征信系統(tǒng)

        基于運營商大數(shù)據(jù)的征信系統(tǒng)由驗真子系統(tǒng)、評級子系統(tǒng)、貸后管理子系統(tǒng)。驗真子系統(tǒng)是對用戶身份以及各種狀態(tài)真?zhèn)芜M行判別并返回是否形式的輸出。評級子系統(tǒng)通過運營商大數(shù)據(jù)建立用戶信用評級模型,根據(jù)模型計算輸出用戶的信用評級。貸后管理子系統(tǒng)管理貸款用戶的預警模型,輸出預警信息。

        如圖1所示,征信系統(tǒng)在部署上分為3個區(qū)域:數(shù)據(jù)接入?yún)^(qū)、業(yè)務邏輯區(qū)、數(shù)據(jù)處理區(qū)。數(shù)據(jù)接入?yún)^(qū)從外圍數(shù)據(jù)系統(tǒng)中接入所需數(shù)據(jù),外圍數(shù)據(jù)系統(tǒng)有CRM、BOSS、BI、網(wǎng)管系統(tǒng)、客服系統(tǒng)等。業(yè)務邏輯區(qū)處理業(yè)務邏輯響應用戶請求。數(shù)據(jù)處理區(qū)包括數(shù)據(jù)預處理、數(shù)據(jù)挖掘、指標監(jiān)控規(guī)則管理等功能。

        圖1 信用風險控制系統(tǒng)部署圖

        一個大數(shù)據(jù)系統(tǒng)要面臨3個問題:大數(shù)據(jù)存儲、大數(shù)據(jù)分析、大數(shù)據(jù)管理。Hdoop分布式云計算框架是大數(shù)據(jù)最有力的搭檔,主要由分布式文件系統(tǒng)HDFS和MapRduce編程模型組成。本系統(tǒng)的核心在數(shù)據(jù)分析處理區(qū),在預處理階段與數(shù)據(jù)挖掘階段都需要對海量大數(shù)據(jù)進行存儲和計算,HADOOP技術(shù)是為處理大數(shù)據(jù)而生的技術(shù),通過MapReduce模型把任務分配到分布式的計算機集群中,既降低了成本又提供了可伸縮性。

        在挖掘周期和規(guī)則識別周期都比較長的情況下,對內(nèi)容個性化規(guī)則挖掘的過程來說無需快速的查詢時間,Hadoop架構(gòu)是能夠勝任的。如果挖掘周期和規(guī)則識別周期都比較短,可以考慮采用SPARK技術(shù)。SPARK同樣能夠?qū)崿F(xiàn)Hadoop的基于MapReduce的并行計算,任務運行的中間結(jié)果保存在內(nèi)存中,而不需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

        2 征信評級模型

        2.1 數(shù)據(jù)預處理

        運營商的數(shù)據(jù)主要有用戶基本信息、通信行為、上網(wǎng)行為、客服投訴行為、增值業(yè)務使用行為等數(shù)據(jù)。這些數(shù)據(jù)需要從分散在各個部門的系統(tǒng)集中到統(tǒng)一的大數(shù)據(jù)平臺系統(tǒng)中。用戶基本信息包括用戶的實名認證數(shù)據(jù),主要是身份信息,從身份證號碼能解析出的信息包括籍貫、性別、年齡等信息。通信行為數(shù)據(jù)包括主要是話單數(shù)據(jù)、消費數(shù)據(jù)、終端數(shù)據(jù),話單數(shù)據(jù)主要能解析出通話行為、短信行為、位置信息。DPI技術(shù)是運營商大數(shù)據(jù)分析的基礎[9-12]。上網(wǎng)行為數(shù)據(jù)主要是對用戶上網(wǎng)行為作出DPI解析,從而得到用戶對網(wǎng)站以及APP類型的訪問記錄,然后根據(jù)訪問記錄可以得到用戶偏好。通信網(wǎng)絡是移動通信用戶上網(wǎng)的通路,通信網(wǎng)元中的Gn口中可以提取每個用戶的上網(wǎng)行為,包括APP使用行為或者網(wǎng)站訪問行為。Gn口用戶上網(wǎng)行為的獲取是通過DPI解析技術(shù)來實現(xiàn)的。深度包解析DPI中的“深度”是和普通的報文分析層次比較而言的,普通報文檢測僅分析IP包4層以下的內(nèi)容,包括源地址、目的地址、源端口、目的端口以及協(xié)議類型,而DPI除了這些層次,還增加了應用層分析,能夠識別各種應用及其內(nèi)容。對這些原始數(shù)據(jù)進行處理解析得到所需的用戶屬性維度,然后對數(shù)據(jù)進行ETL工具把數(shù)據(jù)處理成標準的基礎數(shù)據(jù)表。基礎數(shù)據(jù)表是一張存儲用戶屬性的寬表。從業(yè)務層面寬表包括身份特質(zhì)、履約能力、立信歷史、人際網(wǎng)絡、行為特征等幾個方面的數(shù)據(jù),如圖2所示。

        圖2 信用風險控制模型維度分類

        身份特質(zhì)數(shù)據(jù)對用戶的基礎信息進行畫像。身份特質(zhì)相關(guān)數(shù)據(jù)包括:會員級別、被舉報次數(shù)、惡意投訴次數(shù)、年齡、性別、職業(yè)特征。性別、年齡數(shù)據(jù)來源于用戶的實名制信息,從身份證信息上可以提取計算出性別和年齡數(shù)據(jù)。惡意投訴次數(shù)、會員級別來源于客服系統(tǒng)。被舉報次數(shù)來源于客服系統(tǒng)以及騷擾電話智能識別模型。

        履約能力對用戶的消費能力進行畫像。履約能力數(shù)據(jù)包括:賬單金額、近3個月流量、繳費方式、承諾消費、賬戶余額、終端類型、省際漫游、國際漫游。履約能力相關(guān)的數(shù)據(jù)來源于CRM、BOSS系統(tǒng)。通過系統(tǒng)數(shù)據(jù)直接計算得到。

        立信歷史數(shù)據(jù)對歷史信息用情況進行畫像。立信歷史數(shù)據(jù)包括:通信賬戶開立時長、固定電話、家庭寬帶開立時長。通信賬戶開立時長就是用戶的移動通信業(yè)務入網(wǎng)時間,固定電話、家庭寬帶等業(yè)務的開立時長也是與立信歷史相關(guān)的數(shù)據(jù)。

        人際網(wǎng)絡數(shù)據(jù)對用戶的通信圈、即時通信朋友圈等人際關(guān)系進行畫像。人際網(wǎng)絡相關(guān)數(shù)據(jù)包括:本地朋友圈比例、國際長途、朋友圈質(zhì)量、家庭套餐、親情號碼。本地朋友圈比例、國際長途、朋友圈質(zhì)量主要通過話單數(shù)據(jù)來建立模型進行計算的。家庭套餐、親情號碼來源于相應的業(yè)務平臺。

        行為特征數(shù)據(jù)對用戶的通信、上網(wǎng)等行為進行畫像。行為特征相關(guān)數(shù)據(jù)包括:欠費次數(shù)、最近一年被查詢次數(shù)、公檢法、催收號碼呼入、特服短信號碼分析、一年穩(wěn)定使用終端數(shù)量、補充業(yè)務、興趣偏好分析。

        表1 用戶屬性寬表

        前面預處理環(huán)節(jié)完成了全網(wǎng)用戶的屬性數(shù)據(jù)處理工作,得到一張全網(wǎng)用戶的屬性數(shù)據(jù)寬表,如表1所示。這是進行數(shù)據(jù)挖掘環(huán)節(jié)的基礎。用戶征信評級模型是一個分類預測問題。數(shù)據(jù)挖掘根據(jù)歷史數(shù)據(jù)挖掘出規(guī)則然后使用所得到的規(guī)則對未來預測。歷史數(shù)據(jù)就是用作模型訓練的數(shù)據(jù),是指在同樣場景下積累的已知結(jié)果的個體行為數(shù)據(jù)。可以根據(jù)不同應用場景建立不同的模型,以適應不同場景的需要。

        2.2 數(shù)據(jù)挖掘流程

        數(shù)據(jù)挖掘的流程分為5步,具體步驟如下:

        第一步:獲得訓練數(shù)據(jù)。從業(yè)務積累的歷史數(shù)據(jù)獲得訓練數(shù)據(jù)。訓練數(shù)據(jù)主要包括用戶標識主鍵和目標字段。目標字段與要預測的結(jié)果相對應,目標字段的取值是由用戶真實行為產(chǎn)生的歷史記錄。根據(jù)目標字段取值的數(shù)量訓練數(shù)據(jù)相應要取對應組數(shù)。

        在某商城小額消費貸款業(yè)務場景下,業(yè)務開展過程中積累了一些用戶使用貸款業(yè)務后是否按時還款的歷史數(shù)據(jù)記錄,根據(jù)用戶是否及時還款把用戶分為優(yōu)質(zhì)用戶、風險用戶兩個級別,對兩個級別的用戶分別采取不同的業(yè)務方案。優(yōu)質(zhì)用戶是能及時還款的用戶,風險用戶是指貸款后產(chǎn)生壞賬的用戶。這里目標字段有兩個取值:優(yōu)質(zhì)用戶、風險用戶。在選擇訓練樣本的時候需要對應提取出兩組用戶:優(yōu)質(zhì)用戶、風險用戶。兩組用戶組成了用戶行為歷史數(shù)據(jù),記錄數(shù)10萬條,如表2所示。其中8萬條做為訓練數(shù)據(jù)如表2所示,2萬條做為驗證數(shù)據(jù)。

        第二步:在用戶屬性寬表中提取出訓練數(shù)據(jù)對應的屬性數(shù)據(jù),如表3所示。

        第三步:聚類和分析算法都可以作為預測模型使用[13-14]。使用SPARK計算框架保障計算速度[15-16]。運行決策算法C4.5,決策樹。算法的輸入是第二步中的訓練樣本寬表。輸出結(jié)果是一個根據(jù)屬性重要程度從大到小排列的樹,樹的根節(jié)點屬性最重要。從樹的根節(jié)點到葉子所經(jīng)過的一條路徑上的屬性組成一條判斷規(guī)則。C4.5算法是基于基于ID3算法進行的擴展。ID3算法進行屬性劃分使用的參數(shù)是熵,熵是無序性(或不確定性)的度量指標。假如事件A的全概率劃分是(A1,A2,...,An),每部分發(fā)生的概率是(p1,p2,...,pn),那信息熵定義為:

        表2 用戶行為歷史數(shù)據(jù)表

        表3 屬性數(shù)據(jù)

        ID3中計算的是“信息增益”,C4.5中則計算“信息增益率”:

        vj表示屬性V的各種取值,在ID3中用信息增益選擇屬性時偏向于選擇分枝比較多的屬性值,即取值多的屬性,在C4.5中由于除以了H(V),可以削弱這種作用。

        算法首先會計算所有屬性的信息增益率,選出值最大的屬性作為決策樹根節(jié)點屬性,然后在葉子節(jié)點中迭代此過程。C4.5算法本身是成熟的算法,決策樹分類預測算法可以根據(jù)具體情況具體選擇,R、SPSS、SAS等專業(yè)數(shù)據(jù)挖掘工具中都有相應的算法包供調(diào)用,算法輸出的是決策樹結(jié)果文件或者可視化的決策樹。

        第四步:基于決策樹提取出規(guī)則,這些規(guī)則可以轉(zhuǎn)化為數(shù)據(jù)庫中IF-ELSE形式的查詢語句。從決策樹的根節(jié)點到葉子節(jié)點所經(jīng)過的屬性組成一條規(guī)則的判斷條件屬性,符合這些屬性的用戶被分組到對應的預測分組之中??梢园阉械穆窂教崛〕鰜碜鳛橐?guī)則庫,也可以加上專家經(jīng)驗選取出符合業(yè)務邏輯的規(guī)則然后再加入到規(guī)則庫中。前者是閉環(huán)自動的方式完成,效率較高,但準確率較低。后者加上了業(yè)務專家的經(jīng)驗,但挖掘過程不再是自動方式完成。

        第五步:在業(yè)務邏輯區(qū)進行固化規(guī)則。固化的規(guī)則一組判斷條件和結(jié)果的組合。當用戶請求到達后根據(jù)規(guī)則進行判斷評級,返回用戶相應的等級。規(guī)則要根據(jù)評級的效果進行持續(xù)的優(yōu)化。根據(jù)業(yè)務反饋的結(jié)果與評級的結(jié)果進行比較,判斷評級的質(zhì)量,進行指標。持續(xù)進行指標監(jiān)控,并持續(xù)優(yōu)化規(guī)則。

        圖3 數(shù)據(jù)挖掘流程圖

        3 模型評估

        模型質(zhì)量通過比對驗證數(shù)據(jù)與模型預測結(jié)果來進行評估。通過8萬條訓練樣本數(shù)據(jù)訓練出決策樹規(guī)則模型,然后通過2萬條驗證樣本數(shù)據(jù)進行驗證。驗證樣本數(shù)據(jù)的目標字段的實際類別是已知的,通過決策樹規(guī)則得到目標字段的預測類別,然后與實際類別進行對比來評估模型,如表4所示。

        表4 預測結(jié)果與實際結(jié)果對比表

        正確率是指模型總體的正確率,是指模型能正確預測、識別1和0的對象數(shù)量與預測對象總數(shù)的比值。正確率是綜合評價模型準確度的一個指標。

        根據(jù)公式計算正確率為98.68%。模型正確識別為正的對象占全部觀察對象中實際為正的對象數(shù)量比值,指風險用戶的識別度,風險用戶識別度越高業(yè)務風險越小。

        4 結(jié)論

        為了基于通信運營商大數(shù)據(jù)對個人信用風險進行控制,設計了一種基于運營商大數(shù)據(jù)的征信評級模型,提高了風險用戶識別準確率。可以通過征信模型對外提供用戶信用評級服務,需要與外部客戶聯(lián)合建立個性化模型,這是需要下一步要深入的研究的問題。

        [1]張健華.互聯(lián)網(wǎng)征信發(fā)展與監(jiān)管[J].中國金融,2015(1):40-42.

        [2]劉曉叢.基于P2P網(wǎng)貸的中小企業(yè)融資問題研究[J].時代金融,2014(1):216-217.

        [3]趙雅敬.P2P網(wǎng)絡借貸緩解科技型中小企業(yè)融資難問題研究[J].經(jīng)濟研究參考,2014(25):57-64.

        [4]劉金燕.基于互聯(lián)網(wǎng)金融的中小企業(yè)融資模式探討[J].中國市場,2014(43):102-103.

        [5]王朝霞,張婷婷.互聯(lián)網(wǎng)金融在小微企業(yè)融資領(lǐng)域的應用現(xiàn)狀及問題研究[J].中外企業(yè)家,2014(16):111-112.

        [6]馬義玲.我國個人信用征信過程中金融隱私權(quán)保護問題探討[J].征信,2014(1):52-54.

        [7]陳云,石松.基于PSO-BP集成的國內(nèi)外企業(yè)信用風險評估[J].計算機應用研究,2014,31(9):2705-2710.

        [8]崔東文.基于多元變量組合的回歸支持向量機集成模型及其應用[J].水利水運工程學報,2014(2):66-73.

        [9]谷紅勛,張霖.DPI:運營商大數(shù)據(jù)安全運營的基石[J].網(wǎng)絡空間安全,2016(7):23-26.

        [10]何高峰,楊明,羅軍舟,等.Tor匿名通信流量在線識別方法[J].軟件學報,2013,24(3):540-556.

        [11]董仕,丁偉.基于流記錄偏好度的多分類器融合流量識別模型[J].通信學報,2013,34(10):143-152.

        [12]趙博,郭虹,劉勤讓,等.基于加權(quán)累積和檢驗的加密流量盲識別算法[J].軟件學報,2013,24(6):1334-1345.

        [13]何廣才,周根寶.基于MapReduce的改進蟻群算法在TSP中的應用[J].內(nèi)蒙古農(nóng)業(yè)大學學報,2015,36(5):125-132.

        [14]楊倩倩,生佳根,趙海田.K-means聚類算法在民航客戶細分中的應用[J].電子設計工程,2015(12):25-27.

        [15]胡俊,胡賢德,程家興.基于Spark的大數(shù)據(jù)混合計算模型[J].計算機系統(tǒng)應用,2015(4):216-220.

        [16]龔燦,盧軍.基于Spark的實時情景推薦系統(tǒng)關(guān)鍵技術(shù)研究[J].電子測試,2016(4):48-50.

        猜你喜歡
        數(shù)據(jù)挖掘規(guī)則用戶
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        TPP反腐敗規(guī)則對我國的啟示
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        久久天天躁狠狠躁夜夜不卡| 免费a级毛片无码a∨免费| 国产日韩乱码精品一区二区| 国产av天堂亚洲av刚刚碰| 成人免费xxxxx在线观看| 欧美黑人又粗又大久久久| 无码国产精品一区二区免费式芒果| 精品一区二区三区a桃蜜| 国产丝袜美女| 色综合中文综合网| 亚洲国产精品综合久久20| 国产自拍一区在线视频| 久久人妻无码一区二区| 美女自卫慰黄网站| 亚洲蜜芽在线精品一区| 麻豆国产精品一区二区三区 | 91精品手机国产在线能| 亚洲老女人区一区二视频| 中文字幕女优av在线| 国产又黄又爽又色的免费| 欧美亚洲高清日韩成人| 国产精品又黄又爽又色| 欲香欲色天天天综合和网| 欧美成人一区二区三区| 女人被男人躁得好爽免费视频| 欧美在线专区| 国产精品久久婷婷六月| 嫩草伊人久久精品少妇av| 在线亚洲欧美日韩精品专区| 国产h视频在线观看网站免费| 亚洲a级视频在线播放| 亚洲国产成人精品无码区在线秒播| 狠狠爱无码一区二区三区| 精品日产一区2区三区| 免费人成视频网站网址| 精品av天堂毛片久久久| 国产午夜视频免费观看| 成人男性视频在线观看| 三级全黄的视频在线观看| 久久久久久人妻精品一区百度网盘| 中文亚洲第一av一区二区|