亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器學習在收單系統(tǒng)信用卡套現(xiàn)偵測中的應用分析

        2019-09-18 03:58:30陳澤瀛于衛(wèi)國
        中國科技縱橫 2019年14期
        關鍵詞:機器學習

        陳澤瀛 于衛(wèi)國

        摘 要:隨著互聯(lián)網(wǎng)金融的迅猛發(fā)展,交易欺詐手法呈現(xiàn)出快速多變的發(fā)展趨勢,而受制于人力、時間、空間等多種因素,僅憑專家經(jīng)驗的方式難以應對復雜多變的外部風險。為更好適應收單業(yè)務互聯(lián)網(wǎng)化的發(fā)展趨勢,防范各類欺詐風險,需要將以經(jīng)驗驅(qū)動為主導的工作方式轉(zhuǎn)變?yōu)橐詳?shù)據(jù)驅(qū)動為主導的工作方式,通過應用大數(shù)據(jù)、人工智能等技術(shù)將沉淀的數(shù)據(jù)轉(zhuǎn)換成有用的風控模型,提高智能化風險管控能力。本文研究利用機器學習的方法,識別收單業(yè)務中信用卡套現(xiàn)行為,并對建模方法給了完整呈現(xiàn)。

        關鍵詞:風險管理系統(tǒng);機器學習;信用卡套現(xiàn)

        中圖分類號:TP181 文獻標識碼:A 文章編號:1671-2064(2019)14-0058-03

        1 建模過程

        1.1 業(yè)務問題定義

        信用卡套現(xiàn)是指在銀行卡收單業(yè)務場景中,商家和持卡人合謀以虛構(gòu)交易的形式消費,然后商家以現(xiàn)金返還給刷卡人。傳統(tǒng)的反信用卡欺詐依賴于專家規(guī)則,需要大量的人工核查成本,并且具有明顯的滯后性。利用機器學習方法構(gòu)建分類器,從大量、高維歷史數(shù)據(jù)中學習套現(xiàn)行為模式,并精準識別存在典型套現(xiàn)行為的商家,打擊此類違法行為。

        1.2 數(shù)據(jù)基礎

        收單機構(gòu)在業(yè)務過程中積累了大量的商戶數(shù)據(jù),交易數(shù)據(jù)和樣本數(shù)據(jù)。結(jié)合以往的業(yè)務經(jīng)驗,對這些數(shù)據(jù)進行分析,盡可能的構(gòu)建更多特征來刻畫商戶行為,形成最終特征寬表。本業(yè)務構(gòu)建的特征寬表包含靜態(tài)特征21維,動態(tài)特征979維。動態(tài)特征可按照日期間隔動態(tài)配置為天、周、月、季、年等不同的維度。

        1.3 數(shù)據(jù)抽取

        在2016年1月至2017年12月的流水數(shù)據(jù)和商戶數(shù)據(jù)基礎上,構(gòu)建特征寬表。由于2016年和2017年黑樣本數(shù)量差距過大,數(shù)據(jù)分布不同,所以選擇2016年數(shù)據(jù)進行建模。訓練集選取2016年2月到2016年7月的樣本,測試集分別選取2016年8,9月的樣本。模型更新測試選取2016年4月到2016年9月的樣本為訓練集,選取2016年10月的樣本為測試集。數(shù)據(jù)抽取為分層采樣,抽取10%的白樣本和100%黑樣本,采樣比例約為1:50。特征寬表樣本數(shù)量分布如表1所示。

        按照業(yè)務要求,定義以商戶、日期為一個樣本,每個樣本需要涵蓋商戶過去交易、商戶畫像等特征信息。由于樣本特征都是按天統(tǒng)計的結(jié)果,所以首先需要將流水表里的數(shù)據(jù)按照商戶和日期分組,然后對金額、筆數(shù)等字段進行匯總,從而得到特征寬表。

        1.4 分析建模

        1.4.1 冗余處理

        為了剔除明顯沒有套現(xiàn)風險的白樣本,在數(shù)據(jù)進入模型之前采用一些規(guī)則過濾部分數(shù)據(jù)。原則是在減少少量黑樣本的條件下大幅減少白樣本。方法是首先篩選黑樣本,然后觀察商戶當天信用卡交易筆數(shù)、金額、最大交易金額、交易筆數(shù)占比、商戶分店數(shù)、終端數(shù)的分位數(shù)分布,取值大于等于1/4分位數(shù)的那些樣本。規(guī)則篩選前后樣本數(shù)量(2016-02到2016-12)分布如下。

        從上表2可以看出,規(guī)則篩選后,黑樣本減少了約40%,白樣本減少了約90%。事先用規(guī)則剔除樣本的作用有三點:

        (1)減少數(shù)據(jù)量,提高模型運算速度,減少模型運算時長。

        (2)保證在訓練集抽樣過程中,盡量抽取到與黑樣本較難區(qū)分的白樣本,使模型的訓練更有針對性,提高模型預測精度。

        (3)剔除不準確標記的黑樣本,減少錯誤標記對模型的干擾。

        1.4.2 異常值控制

        建模過程中涉及對樣本數(shù)據(jù)的異常值確認。一般通過大量的統(tǒng)計工作,將明顯異常的觀測值排除出建模樣本,或者采用分位數(shù)來確定數(shù)據(jù)的正常值范圍。樹模型對異常值不敏感,因此當選用GBDT模型來構(gòu)建分類器時,無需對異常值進行處理。

        1.4.3 特征選擇

        過高的數(shù)據(jù)維度往往增加了模型訓練和預測時的資源消耗,甚至降低模型效果。根據(jù)樹模型輸出的特征重要性排序,通過多次實驗,使用模型輸出的前100個重要特征重新建模,依然能維持甚至提升模型效果。

        利用原始特征建立模型,然后根據(jù)模型的輸出對變量重要性進行評估。線性模型系數(shù)通常反應特征對響應變量的影響程度,GBDT模型可以輸出入模特征的重要性,數(shù)值越大表示該特征重要性越強。

        1.4.4 模型訓練

        使用機器學習平臺構(gòu)建的完整建模流程圖如圖1所示。

        HiveTable:從Hive表中讀取帶有標記的特征寬表。

        TimeFilter:按時間切分,把特征寬表中數(shù)據(jù)分為訓練集和測試集,以2016-08-01為切分時間點,前6個月的數(shù)據(jù)(2016-2-1到2016-7-31)為訓練集,后1個月數(shù)據(jù)為測試集。

        QuataRandomSample:對數(shù)據(jù)進行抽樣。當輸入為訓練集時,表示對訓練集按照某一列進行抽樣。

        GbdtClassification:調(diào)用GBDT模型,輸入為抽樣之后的訓練集數(shù)據(jù)。

        EvaluateClassificationModel:觀測模型在訓練集中的表現(xiàn),評估模型效果, 默認閾值為0.5。

        PredictClassification:對測試集數(shù)據(jù)進行預測。

        EvaluateClassificationModelOnly:評估模型預測效果,展示在不同閾值下模型的Precision,Recall,F(xiàn)-Score,Auc等指標。

        1.5 模型評估

        表3是GBDT模型在相同訓練集條件下不同測試集中的表現(xiàn)結(jié)果。在2016年8月份的測試集中,閾值為0.5時,模型精度和召回分別能達到0.32和0.35。精度和召回兩項指標中套現(xiàn)場景更加注重模型的精度表現(xiàn),在提高閾值后,模型在多個測試集中的精度均能達到0.5以上。

        隨著時間增長,模型效果呈下降趨勢,但整體保持穩(wěn)定。表4顯示了用2016年4月到9月數(shù)據(jù)訓練模型之后,效果有顯著提升。閾值為0.9時,更新之后的模型將精度和召回分別從原來的0.53和0.05提升到了0.66和0.11。因此為了保證模型有較好的預測水平,應該定期對模型進行更新,用最新的數(shù)據(jù)訓練模型。隨著閾值提高,模型召回率在下降,精確率在提升。對精度要求高于召回要求的場景,應該設置較高的閾值,提高黑樣本的置信度。

        2 應用分析

        現(xiàn)有場景中只設置了規(guī)則,規(guī)則需要經(jīng)驗豐富的業(yè)務專家來設置調(diào)整,并且這個過程需要一定的時間要求和人員能力要求?,F(xiàn)有規(guī)則觸發(fā)量大,面對風險交易無法及時阻斷調(diào)查,對于風險交易需要一定的人力去調(diào)查。

        機器學習模型系統(tǒng)對于現(xiàn)有規(guī)則系統(tǒng)的主觀經(jīng)驗是一種替代和強化。機器學習模型的方式可以極大的增加預測的準確率,并且在一定程度上可以彌補規(guī)則的短板,模型的輸出是概率值,可根據(jù)實際業(yè)務情況調(diào)整閾值,比較靈活。

        在現(xiàn)有的模型中,主要能起到以下幾個作用:

        (1)能夠提供及時的預測,提高業(yè)務效率。

        (2)能夠輸出套現(xiàn)概率,有利于業(yè)務人員的決策。

        (3)能夠?qū)σ?guī)則進行補充,捕捉到大量灰樣本。

        3 結(jié)語

        一方面,目前模型的效果在以往規(guī)則基礎上提升了十余倍,極大地降低了業(yè)務人員案例核查成本。另一方面,模型仍然有很大的提升空間。優(yōu)化的方向可以參考以下幾點:

        (1)本次建模過程中測試過集成模型,具體思路是用第一個模型識別出大量的白樣本,用第二個模型針對性識別預測為黑的樣本,但效果提升不大。未來可以進一步分析該種集成方法的可行性和具體集成模型構(gòu)建方案。

        (2)有監(jiān)督模型訓練集抽樣時,先利用聚類方法,從不同的類簇中抽取白樣本,使抽取到的白樣本更能準確代表總體白樣本分布,從而提高模型識別精度。

        (3)根據(jù)業(yè)務風險,構(gòu)建更具相關性的特征,對建模過程多次迭代優(yōu)化。

        (4)更進一步分析不同的套現(xiàn)場景,建立各自不同的特征,不同的黑白樣本標注準則,對每個場景分開建模。

        (5)對每個分支機構(gòu)單獨建模。

        參考文獻

        [1] 方向,肖曉飛.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在CRM中的應用研究[J].太原科技,2008(02):39-40.

        [2] 謝平,鄒傳偉.互聯(lián)網(wǎng)金融模式研究[J].金融研究,2012(12):11-22.

        [3] 劉鎮(zhèn).人工智能和機器學習在金融領域的發(fā)展及對金融穩(wěn)定的影響[J].吉林金融研究,2018(02):36-38.

        [4] 吳載斌.互聯(lián)網(wǎng)時代的信用卡欺詐風險管理淺析[J].中國信用卡,2017(04):15-17.

        [5] 蔡文學,羅永豪,張冠湘,鐘慧玲.基于GBDT與Logistic回歸融合的個人信貸風險評估模型及實證分析[J].管理現(xiàn)代化,2017,37(02):1-4.

        猜你喜歡
        機器學習
        基于詞典與機器學習的中文微博情感分析
        基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應用
        基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        下一代廣播電視網(wǎng)中“人工智能”的應用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學習方法綜述
        機器學習理論在高中自主學習中的應用
        欧美成人片一区二区三区| 男男啪啪激烈高潮无遮挡网站网址| 中文字幕乱码亚洲三区| 一本大道熟女人妻中文字幕在线| 风韵多水的老熟妇| 久久久男人天堂| 国产三级精品三级在线观看粤语| 国内偷拍精品一区二区| 日韩av他人妻中文字幕| 国产剧情一区二区三区在线| 大胸少妇午夜三级| 黄色毛片在线看| 亚洲欧美在线视频| 少妇bbwbbw高潮| 国产高清不卡在线视频| 在线免费观看一区二区| 中文字幕日本人妻久久久免费| 无码少妇一区二区浪潮av| 亚洲性无码av在线| 国产精品白浆视频一区| 自拍偷拍亚洲视频一区二区三区| 国内嫩模自拍诱惑免费视频| 国产精品久久久久aaaa| 香蕉视频一级| 日本加勒比一区二区在线观看| 日本超级老熟女影音播放| 国产成人精品a视频| 二区三区视频| 亚洲一区二区成人在线视频| 国产在线视频网站不卡| 国产黑色丝袜在线看片| 小荡货奶真大水真多紧视频| av无码av在线a∨天堂app| 丝袜美腿久久亚洲一区| 亚洲精品久久视频网站| 亚洲综合在线一区二区三区| 国产精品白浆一区二小说| 伊人狠狠色j香婷婷综合| 最新国产激情视频在线观看| 久久久国产乱子伦精品作者 | 无码少妇一区二区性色av|