李賽虎 張麗娟
摘 ?要: 針對傳統(tǒng)的欺詐檢測工具難以檢測信用卡欺詐模式的問題,提出一種基于特征工程的信用卡欺詐檢測策略。首先,該策略擴展了交易聚合策略,在對交易進行分組時通過納入一個結(jié)合標準,將持卡人或交易類型與國家或商戶群體等信息相結(jié)合;然后,對交易的周期性行為進行分析,使用馮米塞斯分布(循環(huán)正態(tài)分布)創(chuàng)建一組新的特征集合;最后,使用一個大型真實的信用卡欺詐數(shù)據(jù)集,比較已有的信用卡欺詐檢測模型,并評估不同特征集合對結(jié)果造成的影響。結(jié)果表明該策略較已有模型的成本大概節(jié)約13%。
關(guān)鍵詞: 特征工程; 信用卡欺詐檢測; 周期性行為; 馮米塞斯分布; 特征集合; 成本
中圖分類號: TN911.1?34; TP391 ? ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)15?0175?06
Research of credit card fraud detection strategy based on feature engineering
LI Saihu, ZHANG Lijuan
(College of Economics and Management, Shanghai Maritime University, Shanghai 201306, China)
Abstract: To solve the problem that traditional fraud detection tools are difficult to detect credit card fraud patterns, a credit card fraud detection strategy based on feature engineering is proposed, in which the transaction aggregation strategy is extended and a combining criterion is incorporated into the grouping of transactions to combine the information of the cardholder or transaction type with the information of the state or merchant group, then, the cyclical behavior of transactions is analyzed and a new set of characteristics is created by mean of Von Mises distribution (cyclic normal distribution) next, a large real credit card fraud data set is used to compare the existing credit card fraud detection models and evaluate the impact of different feature sets on the results. The result shows that the cost produced by the proposed strategy is decreased byabout 13%.
Keywords: feature engineering; credit card fraud detection; cyclical behavior; Von Mises distribution; feature sets; cost
0 ?引 ?言
近些年,隨著信用卡和借記卡的使用率大幅上升,欺詐現(xiàn)象也隨之蔓延。因此,每年使數(shù)以幾十億的金錢蒙受損失。隨著互聯(lián)網(wǎng)等新交易模式的興起,新的欺詐模式也應(yīng)運而生[1],欺詐者為避開檢測,不斷改變策略,這使得傳統(tǒng)的欺詐檢測工具[2]如專家規(guī)則等不再適用,而現(xiàn)有的欺詐檢測系統(tǒng)又難以防范信用卡欺詐。
當(dāng)構(gòu)建一個信用卡欺詐檢測模型時,數(shù)據(jù)偏斜度、應(yīng)用的代價敏感性、系統(tǒng)的短時響應(yīng)、搜索空間的維數(shù)以及對特征進行預(yù)處理的方式都會對檢測結(jié)果造成影響,目前已有一些研究成果。如文獻[3]提出一種基于代價的度量,以評估信用卡欺詐檢測模型,但該模型在欺詐檢測過程中會產(chǎn)生較大的財務(wù)成本。文獻[4]為了提高信用卡欺詐檢測準確率,提出一種支持向量機的信用卡欺詐檢測方法。文獻[5]提出一種單標準的方法,充分考慮了顧客的消費行為模式[6],在對交易分組過程的某個給定時間上加入聚合特征計算。文獻[7]使用進化算法來自適應(yīng)地生成用于欺詐檢測的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。類似研究也表明[8],神經(jīng)網(wǎng)絡(luò)可以有效地完成信用卡欺詐檢測。
本文以檢測過程中產(chǎn)生財務(wù)成本的比較為基礎(chǔ),提出節(jié)約度量,然后,提出交易聚合策略的一種擴展版本,通過在對交易進行分組時納入一個結(jié)合標準,即不僅僅針對持卡人或交易類型進行聚合,還將其與國家或商戶群體等信息相結(jié)合,這樣使得特征空間更加豐富。此外,本文還提出一個提取周期性特征的方法,以估計一個新的交易發(fā)生時間是否在以往交易發(fā)生時間的置信區(qū)間內(nèi)。
本文方法基于對交易時間的周期性行為,使用馮米塞斯分布[9]進行分析,通過一個大型信用卡欺詐數(shù)據(jù)集進行實驗,結(jié)果表明了本文方法的高效性。
1 ?信用卡欺詐檢測評估