亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于本質(zhì)特征和網(wǎng)絡(luò)特征的信用卡欺詐檢測

2016-10-14 02:30:42張燕

微型電腦應(yīng)用 2016年12期

關(guān)鍵詞：欺詐信用卡商家

張燕

張燕

（寧夏工商職業(yè)技術(shù)學院，銀川，750021）

由于信用卡欺詐檢測是一種不合規(guī)則的預(yù)測任務(wù)，需要專門方法來處理并預(yù)測，提出一種基于本質(zhì)特征和網(wǎng)絡(luò)特征的檢測方法，以滿足自動化和實時處理的要求。提出的方法結(jié)合了兩種重要特征，即利用新近度—頻率—貨幣值(RFM)的基本原理，由外來交易和顧客消費歷史派生出本質(zhì)特征；采用信用卡持有人和商家的網(wǎng)絡(luò)為每個網(wǎng)絡(luò)對象派生出依賴猜測分數(shù)的網(wǎng)絡(luò)特征。然后將這些特征提供給成熟的學習方法。本文評估了邏輯回歸、神經(jīng)網(wǎng)絡(luò)和隨機森林模型。結(jié)果表明本質(zhì)特征和網(wǎng)絡(luò)特征的結(jié)合產(chǎn)生了最佳執(zhí)行結(jié)果，獲得的ROC曲線下面積(AUC)高于0.98。且提出的方法還能夠精確地從一系列欺詐交易中挑選出第一筆交易。

信用卡欺詐檢測；預(yù)測；本質(zhì)特征；網(wǎng)絡(luò)特征；新近度-頻率-貨幣值

0 引言

盡管電子商務(wù)已經(jīng)成為眾多玩家的一種成熟業(yè)務(wù)，但網(wǎng)上支付的安全性卻很滯后[1]。其主要原因是在線銷售增長快速，結(jié)果導致了許多“無卡交易”（Card Not Present，CNP）交易，通過偽裝成其他人來誤導系統(tǒng)支付，這種欺詐檢測是電子商務(wù)領(lǐng)域亟待解決的問題[2]。

由于信用卡發(fā)卡機構(gòu)保護了數(shù)據(jù)資源的共享，且大多數(shù)算法是內(nèi)部產(chǎn)生的，隱藏了模型的細節(jié)。使得公開可用的研究非常少。一般可將信用卡欺詐檢測方法分為兩大類：無監(jiān)督和監(jiān)督方法。無監(jiān)督方法單獨使用顧客交易特征，將集合分為小的或更小的聚類，然而最大化了提取特征的差異。如果某一顧客的新交易未被分配給正常的顧客群，則會為該交易拉響警報。無監(jiān)督技術(shù)包括等組分析[3]和自組織映射[4]。一般是使用過去欺詐性交易的監(jiān)督技術(shù)以推斷未來交易的可信度。監(jiān)督方法最普遍的技術(shù)是人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）[5]。盡管ANN通?？梢詫崿F(xiàn)該性能，但是缺乏解釋性的黑盒模型。集成方法如隨機森林的使用可以在信用卡詐騙檢測中獲得較好的效果[6]。當有許多要學習的輸入特征時，隨機森林效果最好。此外，欺詐中監(jiān)督學習的其他技術(shù)有貝葉斯置信網(wǎng)絡(luò)[7]、支撐向量機[8]、線性判別分析[9]和隱馬爾可夫模型[10]等。

本文研究的重點是自動檢測網(wǎng)上欺詐性交易，眾所周知，數(shù)據(jù)挖掘提供了大量技術(shù)以找到數(shù)據(jù)內(nèi)模式，從而區(qū)分正常和可疑交易。欺詐行為的一個關(guān)鍵挑戰(zhàn)是適當?shù)靥幚砥墼p的非典型特征。即很多合法交易和少數(shù)欺詐性交易的證據(jù)需要學習，這復雜化了檢測過程。因此，本文同時結(jié)合了本質(zhì)特征和網(wǎng)絡(luò)相關(guān)特征。本質(zhì)特征分析交易，比較交易是否符合正常的客戶概況，通過信用卡持卡人過去交易的RFM屬性：新近度、頻率和貨幣值，創(chuàng)建這些特征。另一方面，基于網(wǎng)絡(luò)的特征通過創(chuàng)建和分析由信用卡持有人和商家組成的網(wǎng)絡(luò)表征每筆交易，其中，信用卡持有人和商家是通過交易方式關(guān)聯(lián)的。

因此，本文通過將過去購買模式及顧客行為作為特征，以滿足信用卡交易欺詐的自動化和實時處理。同時，將這些特征和新進來的交易進行比較。通過一種傳播算法解釋從網(wǎng)絡(luò)邊緣（即交易）傳播到所有網(wǎng)絡(luò)組件（即信用卡持有人和商家）的欺詐，同時為每筆交易派生基于網(wǎng)絡(luò)的特征。將這些特征與本質(zhì)特征相結(jié)合供給學習算法。

1 提出方法的系統(tǒng)概述

信用卡欺詐檢測過程，如圖1所示。

圖1 信用卡檢測過程

該檢測過程的最終目標是阻止不符合規(guī)則的所有交易的繼續(xù)進行。當一個新交易到達系統(tǒng)時，系統(tǒng)會進行一系列的檢查驗收。例如，該交易處理系統(tǒng)檢查用戶是否進入正確的PIN或消費金額是否足夠。如果交易清除了檢查驗收，則該交易會傳至檢測系統(tǒng)的完整性檢查上。通過從過去交易中學到的檢測模型，如果該概率超過某一閾值，則該交易終止。如果一個交易未通過“在線”或“離線”完整性檢查或“客戶須知”，則該交易具有欺詐性。然而，“在線”為實時已知，“離線”和“客戶須知”需要一個星期來完成。

本文將主要討論如何實施欺詐檢測過程，檢測包括完整性檢查，如圖2所示。

圖2 使用滑動窗口的檢測模型重估過程

從一系列時間戳、標記的交易開始學習模型以推斷未來欺詐性交易。因為欺詐檢測模型能自動適應(yīng)變化的環(huán)境，所以本文介紹了滑動時間窗，該窗口基于當前(即短期)和常規(guī)(即中期和長期)的顧客過去行為刻畫一個交易。使用這三個時間窗口導出本質(zhì)的和基于網(wǎng)絡(luò)的特征。因為在六秒內(nèi)經(jīng)常不能執(zhí)行模型估計，所以本文選擇在前一天的午夜時刻每日重估計檢測模型。使用前一天數(shù)據(jù)上訓練的模型估計第二天的交易。

將實時提取交易特征注入模型，如圖2所示。其主要解決：

1.本質(zhì)特征提取。如何從信用卡持有者的先前交易中區(qū)分新進來的交易？

2.基于網(wǎng)絡(luò)的特征提取。APATE通過交易利用信用卡持有者和商家之間的關(guān)系?；诰W(wǎng)絡(luò)的特征集測量欺詐的每個網(wǎng)絡(luò)對象的曝光度。

所用的特征，如表1所示。

表1 短期(ST)、中期(MT)和長期(LT)上輸入的特征匯總

本文的第三節(jié)將詳細討論如何提取模型的每個特征。

3 特征提取

3.1本質(zhì)特征提取

一般來說，3個條件有助于預(yù)測欺詐：交易細節(jié)、時間框架和交易出現(xiàn)的位置[11]。本文變量包括給定時間框架中出現(xiàn)的交易數(shù)（頻率）、這些交易花費的貨幣量（貨幣值）和特定時期內(nèi)（新近度）兩個后續(xù)交易之間的時間。

這些變量體現(xiàn)在新近度-頻率-貨幣值（RFM）框架內(nèi)，它廣泛用于營銷[12]。本文提出研究短期、中期和長期：交易的最后一小時（企圖捕獲大量使用然后掉落的卡片），交易的最后一天（企圖捕獲特定的、有消費傾向的一天）和交易的最后一周（企圖捕獲顧客的常規(guī)行為）。一般有一個月有效的交易，所以長時期分析不可能。文獻[13]說明了提取有關(guān)商家的信息非常有用，可以聚類商家的數(shù)據(jù)，包括涉及商家本身、消費出現(xiàn)的總分類（即超市、服飾店，等等）。

創(chuàng)建附加的二元變量以標記何時不出現(xiàn)購買，如果交易是那個測量時間框架中的第一筆交易，則這些變量(第一購買)會為每個測量維度進行標記（如表1所示）。這個信息主要與廣義線性模型相關(guān)，本文創(chuàng)建15個變量對聚類和每個級別進行解釋。

總的來說，使用3個時期、三類RFM變量和五類交易聚類（單一商家、類別、國家、貨幣和全球），開發(fā)可以聚類過去交易的60（3×3×5+3×5）個變量。所有變量具有以下命名方案：聚類級別、RFM類型和時期。第二步是使用交易出現(xiàn)的位置及商家信息刻畫交易本身，給定中國信用卡用戶的特征。最后是構(gòu)造變量處理商家的分類。數(shù)據(jù)提供者表明，欺詐性交易趨于積聚某些分類。使用這個信息，利用各個類別的欺詐百分比將可用分類分割為幾個大類。

在相關(guān)交易變量構(gòu)造數(shù)據(jù)集之后，本文采用網(wǎng)絡(luò)分析的新方法補充信息，如3.2節(jié)所述。

3.2 網(wǎng)絡(luò)特征提取

3.2.1 網(wǎng)絡(luò)的定義

表示異構(gòu)節(jié)點類型的圖為多分圖。特別地，本文的信用卡詐騙網(wǎng)絡(luò)表示為二分圖，它包含了兩類節(jié)點，即信用卡持有者和商家，滿足式（1）：

為了解決欺詐的動態(tài)特征，本文將時間集定為網(wǎng)絡(luò)，所以邊界表示交易的新近度。以指數(shù)方式表示及時衰減強度關(guān)系如式（2）：

3.2.2 網(wǎng)絡(luò)欺詐傳播

本文利用每個信用卡持有者、商家和交易的分數(shù)，推導分數(shù)表達了網(wǎng)絡(luò)對象被曝光欺詐的程度，網(wǎng)絡(luò)中的影響傳播是一個廣泛研究的主題，在欺詐檢測中具有良好的結(jié)果。本文提出GOTCHA!的欺詐傳播算法以分析二分圖。GOTCHA!的傳播算法是一種迭代的欺詐分數(shù)算法，基于一個節(jié)點類型的標簽，該算法分為兩個節(jié)點類。假設(shè)圖由個一類節(jié)點和個二類節(jié)點組成。在次迭代之后，包含每個節(jié)點曝光分數(shù)的向量等于式（3）：

式（3）從一系列有限標記的節(jié)點開始以推斷剩余節(jié)點的分數(shù)。然而，在信用卡欺詐中，本文要求從一系列有限標記的邊界開始以導出邊界和節(jié)點的分數(shù)。因此，網(wǎng)絡(luò)傳播算法通過兩種變化采用式(3)：將傳播到包括交易的三分圖中，并將其作為網(wǎng)絡(luò)的節(jié)點；為指示欺詐交易的時間相依歸一化向量。

（1）邊緣到節(jié)點轉(zhuǎn)換

為了能從邊緣傳播影響，本文將邊緣包含為網(wǎng)絡(luò)中的一個單獨實體。即將邊緣轉(zhuǎn)換為節(jié)點并創(chuàng)建三分圖，，從而具有以下性質(zhì)如式（4）：

（4）

因為式（3）需要對稱矩陣，本文將三分圖轉(zhuǎn)換為對稱的不分割圖，其數(shù)學表示如式（5）：

（2）起始向量

初始向量可用以強調(diào)最終排序上某些節(jié)點的影響，而不必將初始向量初始化為均勻分布的向量。同樣的推理也適用于欺詐。因為本文不關(guān)注通過網(wǎng)絡(luò)而進行傳播的任意影響，只關(guān)注欺詐影響，所以使用初始向量通過指定確定的欺詐性交易引導算法。即大小為的初始向量等于式（6）：

將之前的修改應(yīng)用到式(3)中的二分圖傳播算法中，為邊緣和節(jié)點標號導出了傳播算法，其中式（7）：

3.2.2 特征提取

因為本文在分析中使用長期、中期和短期時間窗口，所以為了使用信息，分別推斷一個月、一周和一天的每個節(jié)點和邊緣曝光分數(shù)，本文使用不同的值計算式（7）中的和。例如，長期曝光分數(shù)交易(或商家，或信用卡持有者)在最后一個月對欺詐的敏感程度。一般地，網(wǎng)絡(luò)對象的曝光分數(shù)越高，則欺詐在其附近包圍的節(jié)點或邊緣越多。

對于每個新進來的交易，需計算以下特征：(a)信用卡持有者曝光分數(shù)(CCHScore)；(b)商家曝光分數(shù)(MCScore)和(c)交易曝光分數(shù)(TXScore)。為了為第二天出現(xiàn)的交易提取可信度特征，本文每天在午夜重新估計每個網(wǎng)絡(luò)對象的曝光分數(shù)。

交易曝光分數(shù)結(jié)合了相關(guān)信用卡持有者和商家的影響。如果交易已在信用卡持有者和商家之間出現(xiàn)，則本文使用式（7）計算的曝光分數(shù)。如果多個交易出現(xiàn)在相同的信用卡持有者和商家之間，則本文使用分配到最近交易的分數(shù)。當一個交易不在某個信用卡持有者和商家之間出現(xiàn)時，本文使用其直接鄰居的曝光分數(shù)計算那個交易的曝光分數(shù)。因此，本文更新局部網(wǎng)絡(luò)中的曝光分數(shù)如式（8）：

4 結(jié)果分析

為了檢測本文方法，使用中國大陸信用卡發(fā)行商約3.3M交易的特定數(shù)據(jù)集。該數(shù)據(jù)包括與連續(xù)5周中出現(xiàn)的交易相關(guān)的所有信息的監(jiān)督數(shù)據(jù)集，同時，還研究了可疑交易之后通過公司為每筆交易增加欺詐或不增加欺詐的行為。

本文試圖回答的三個問題是：

方法的最優(yōu)模型是什么？

如何將模型應(yīng)用于真實情境中？

使用這個問題的網(wǎng)絡(luò)變量的附加值是什么？

對于所有的問題，本文將創(chuàng)建非實時測試集，該測試集包含了上周出現(xiàn)的所有交易(約500K)，然而，前兩周將用作創(chuàng)建RFM的數(shù)據(jù)庫，接下來兩周的數(shù)據(jù)將用作網(wǎng)絡(luò)變量(訓練集)。

在數(shù)據(jù)清理和預(yù)處理期間，從數(shù)據(jù)集中消除由于常規(guī)銀行原因(錯誤PIN和其他與購物無關(guān)的相關(guān)原因)而被拒絕的所有交易。這些交易占所有交易的15%。此外，為了避免數(shù)據(jù)集中的扭曲，超過5000CN的所有交易也從數(shù)據(jù)集中排除。這些交易為明顯的異常值：由小于1%所有交易組成(它們均不具有欺詐性)，且它們與常規(guī)交易的標準偏差為25，如表1所示，所以消除它們將產(chǎn)生更穩(wěn)定的模型。最終訓練即由2.2M交易組成，且最終測試集包含500K交易。對于每種情況，計算第3節(jié)中的變量，將產(chǎn)生78個不同的變量，其中9個為基于網(wǎng)絡(luò)的變量的60RFM變量。

4.1 預(yù)測結(jié)果

本文將用基準問題測試：邏輯回歸[14]，用于許多銀行相關(guān)活動中分類的標準線性模型，就預(yù)測能力而言，其群組較弱，但很容易理解；前饋，一種隱藏層、神經(jīng)網(wǎng)絡(luò)，最強大的非線性模型之一，但它被認為是一個黑盒子；隨機森林，決策樹的強大集合。

為了處理不平衡問題，本文將應(yīng)用神經(jīng)網(wǎng)絡(luò)和邏輯回歸加權(quán)的標準情況。對于隨機森林，本文將使用隨機森林的亞采樣功能。使用所有欺詐交易和隨機選擇的非欺詐交易的子集構(gòu)建每個樹，以致它們占欺詐交易的兩倍。如文獻[15]所述，本文使用了含500個樹的隨機森林模型，與簡單隨機采樣類似，隨機森林模型給予非欺詐情況一次被選擇的先驗機會。神經(jīng)網(wǎng)絡(luò)中，為了調(diào)整參數(shù)、選擇給定網(wǎng)格上次數(shù)和神經(jīng)元數(shù)的最佳組合，本文保留了20%的訓練數(shù)據(jù)。次數(shù)增加的增量為50，神經(jīng)元的增量為1。

非常高的精度和ROC曲線下區(qū)域的AUC值如表2、表3所示。

表2 模型的比較

表3 最大誤報率為1%時的精度和AUC(測試集)

該模型幾乎是完美的，在隨機森林情況中預(yù)測了98.7%的情況，AUC為0.987。當與誤報率相比時，更高的欺詐檢測率導致其他兩個模型的精度相對較低：這兩個模型擅長檢測欺詐，但這種擅長是以一些額外非欺詐交易被檢測為欺詐為代價的，隨機森林卻沒有這種代價，獲得的AUC如圖3所示。

圖3 不同模型的ROC

為了做更公平的比較，本文設(shè)置最多可接受誤報率為1%。其背后的基本原理是，假定信用卡的用戶將拒絕非欺詐交易，則無論誤報何時出現(xiàn)，都會有聲譽成本。

這個結(jié)果繼續(xù)表現(xiàn)非常好，但是現(xiàn)在高度不平衡問題的影響出現(xiàn)了?？偟膩碚f，隨機森林為最佳模型，陽性情況下的精度為86.9%，平衡精度為92.7%。緊隨其后的是神經(jīng)網(wǎng)絡(luò)，其特異度為78.1%。該結(jié)果暗含著一個高度非線性問題，因為當使用非線性模型時會有一個明顯的優(yōu)勢，相比于邏輯回歸的隨機森林，其特異度增加高達11.9%。神經(jīng)網(wǎng)絡(luò)和隨機森林之間的差異暗示著該問題不僅僅是高度非線性。

4.2 變量重要性和網(wǎng)絡(luò)變量的影響

本文想要解決的最后一個問題是哪些變量更重要及哪些變量能全面測量它們在模型中的影響。該問題中有3組主要變量：RFM和人口統(tǒng)計變量、擴展RFM方法中暗含的變量，和網(wǎng)絡(luò)變量。為了比較這些變量，本文將估計3種傳統(tǒng)的隨機森林，因為4.1節(jié)表明該類方法的結(jié)果最佳，變量的每個子集都給出了一個最佳結(jié)果，這些模型的結(jié)果，如表4所示。

表4 變量不同子集的AUC

由表4可知，僅僅使用9個有效的網(wǎng)絡(luò)變量，模型就達到的AUC為0.927。僅使用RFM和人口變量的模型達到的AUC為0.953，略微較高。貨幣及貨幣變量及交易平均(來自文獻)的引入使得AUC略微增加到0.955。從這些結(jié)果，本文可以得出結(jié)論，RFM變量是預(yù)測欺詐的一組良好變量，允許達到一個很高的AUC測量。延伸的文獻變量的引入只略微增加了純RFM方法的AUC。

包含社會網(wǎng)絡(luò)變量及所有RFM變量對預(yù)測結(jié)果有很強的影響，AUC可達到0.987。本文從這個結(jié)果可以導出的主要結(jié)論是，鑒于社會網(wǎng)絡(luò)變量和其他集合的相關(guān)性很小(最大為0.1)，這些變量帶來的信息允許增加數(shù)據(jù)集的功能，允許與其他兩組變量多方面相互作用，這轉(zhuǎn)化為模型的AUC增加5%。三個不同模型的ROC曲線(如圖4所示)表明，在誤報率和漏報率方面，模型執(zhí)行相似，但是在模型的早期階段，完整模型的誤報率較少，且增益來自數(shù)據(jù)集的組合。

圖4 變量不同子集的ROC曲線

當處理欺詐時，在非常短的時間內(nèi)出現(xiàn)幾個具有高積累值的交易很常見。正因為如此，檢測具有欺詐性的第一筆交易非常有趣。在表4中，本文僅估計第一筆交易的AUC。由表4可知，較低的AUC都非常高，即在長期（非短期，也非中期）的欺詐中，購買模式是預(yù)測欺詐的最相關(guān)因素，且這可以通過模型中的變量正確捕獲。

變量的準確關(guān)聯(lián)還可以從隨機森林模型中獲取，同時它闡明了模型預(yù)測能力的多維度增加。當購買中有短期增加時，具有較高的欺詐風險。一些類似的事情隨著全局變量變化而發(fā)生：較高的全局頻率與較高的欺詐相關(guān)，較高的貨幣值與較低的欺詐幾率相關(guān)。所有長期社會網(wǎng)絡(luò)變量與變化的信號相關(guān)：長期商家分數(shù)具有負號表明，當處理欺詐時，危險的商家較少，但是交易和顧客長期分數(shù)是正號，即有較危險的顧客，且該顧客更容易從事欺詐活動。

5總結(jié)

本文提出了一種自動化且實時的信用卡欺詐檢測方法，其主要部分為特征提取部分，將固有屬性和基于網(wǎng)絡(luò)的屬性相結(jié)合，使用RFM框架(新近度-頻率-貨幣值)，輔以交易的人口統(tǒng)計信息來定義本質(zhì)特征。實驗表明本文方法可以有效地識別欺詐交易，盡管每組特征分別產(chǎn)生了良好的模型性能，但當本文當組合了內(nèi)在變量和網(wǎng)絡(luò)變量時獲得了最佳結(jié)果，而且還能精確地從一系列欺詐交易中挑出第一筆交易，這在縮短信用卡交易欺詐至關(guān)重要。

未來工作集中在研究群體行為，即信用卡持有者和商家的網(wǎng)絡(luò)中存在的欺詐設(shè)置。

[1] 王偉,徐平平,王華君,等. 基于概率回歸模型和 K-最近鄰的電子商務(wù)個性化推薦方案[J]. 湘潭大學自然科學學報, 2016, 38(1): 97-100.

[2] 黃妍,朱信忠,趙建民,等. 基于SSH2框架的電子商務(wù)平臺倉儲管理子系統(tǒng)設(shè)計與實現(xiàn)[J]. 微型電腦應(yīng)用, 2016, 32(2): 54-56.

[3] Pozzolo A D, Caelen O, Borgne Y A L, et al. Learned Lessons in Credit Card Fraud Detection from a Practitioner Perspective[J]. Expert Systems with Applications, 2014, 41(10):4915-4928.

[4] Olszewski D. Fraud Detection Using Self-organizing Map Visualizing the User Profiles[J]. Knowledge-Based Systems, 2014, 70(C):324-334.

[5] 凌晨添. 進化神經(jīng)網(wǎng)絡(luò)在信用卡欺詐檢測中的應(yīng)用[J]. 微電子學與計算機, 2011, 28(10):14-17.

[6] Weston D J, Hand D J, Adams N M, et al. Plastic Card Fraud Detection Using Peer Group Analysis[J]. Advances in Data Analysis & Classification, 2008, 2(1):45-62.

[7] 徐永華. 基于支持向量機的信用卡欺詐檢測[J]. 計算機仿真, 2011, 28(8):376-379.

[8] 張輝.基于圖模型的C2C電子商務(wù)欺詐行為檢測研究[D]. 重慶大學, 2014.

[9] Mahmoudi N, Duman E. Detecting Credit Card Fraud by Modified Fisher Discriminant Analysis[J]. Expert Systems with Applications, 2015, 42(5):2510-2516.

[10] 李潔.基于HMM模型的信用卡欺騙風險檢測系統(tǒng)的仿真分析[D]. 安徽工業(yè)大學, 2010.

[11] Henderson K, Gallagher B, Li L, et al. It's Who You Know: Graph Mining Using Recursive Structural Features[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2011:663-671.

[12] 盧媛媛,張劍,何海燕.基于WEKA的客戶分類信息系統(tǒng)研究[J]. 計算機工程與科學, 2011, 33(5): 132-135.

[13] Jha S, Guillen M, Westland J C. Employing Transaction Aggregation Strategy to Detect Credit Card Fraud[J]. Expert Systems with Applications, 2012, 39(16):12650-12657.

[14] 毛毅,陳穩(wěn)霖,郭寶龍,等.基于密度估計的邏輯回歸模型[J]. 自動化學報, 2014, 40(1):62-72.

[15] 姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J]. 吉林大學學報(工學版), 2014, 44(1):137-141.

Fraud Detection of Credit Card Based on Essential Characteristics and Network Characteristics

Zhang Yan

(Ningxia Vocational Technical College Industry and Commerce, Yinchuan 750021, China)

As fraud detection of credit cards is a kind of irregular prediction task and it needs special methods to process and predict, a detection method based on network characteristics and essential characteristics is proposed to meet the requirements of automation and real-time processing. Two important characteristics are combined in the proposed method, which uses the basic principle of Recency-Frequency-Monetary(RFM), and then the essential characteristics is derived by foreign trade and consumer consumption history. The other is network characteristics, in which the guessing score for each network object is derived by the network of credit card holders and merchants. Then these features are provided to mature learning methods. Logistic regression, neural network and random forest model are evaluated in this paper. The results show that the combination of essential features and network characteristics has produced the best results, and the AUC score is higher than 0.98. And the proposed method is also able to pick out the first transaction from a series of fraudulent transactions accurately.

Fraud detection of credit cards; Prediction; Essential characteristics; Network characteristics; Recency- Frequency-Monetary; principle

1007-757X(2016)12-0072-06

TP391

張燕（1974-）,女，上海人，副教授，研究方向：數(shù)據(jù)挖掘，網(wǎng)絡(luò)安全，銀川 750021

（2015.12.28）