亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)金融欺詐預(yù)測的特征工程方法研究

        2022-10-22 02:24:28
        技術(shù)與市場 2022年10期
        關(guān)鍵詞:特征選擇欺詐類別

        孟 萌

        (中國人民大學(xué)信息學(xué)院,北京 100089)

        0 引言

        2012年提出“互聯(lián)網(wǎng)+”,2017年又發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,表明在2030年之前將人工智能賦能城市建設(shè)、公共衛(wèi)生、自動(dòng)駕駛、政務(wù)司法和社會(huì)信用體系。《國務(wù)院關(guān)于印發(fā)社會(huì)信用體系建設(shè)規(guī)劃綱要(2014—2020年)的通知》闡述了提高全社會(huì)信用意識和信用水平、改善經(jīng)濟(jì)運(yùn)行環(huán)境的目的。除了國家戰(zhàn)略方向的驅(qū)動(dòng)力,人們生活的線上化也促使金融企業(yè)改變原有風(fēng)控模式。人工智能技術(shù)如“換臉”使欺詐現(xiàn)象更隱蔽,這加大了應(yīng)對欺詐團(tuán)伙和黑產(chǎn)的壓力,傳統(tǒng)的人工風(fēng)控手段需要借助金融科技做出更迭。特征工程的加持令簡單模型得到不錯(cuò)的評價(jià)指標(biāo),復(fù)雜的分析技術(shù)只能在結(jié)構(gòu)化數(shù)據(jù)集上提供邊際性能收益,這是常見分類任務(wù)如欺詐檢測、信用評分中經(jīng)常遇到的問題[1]。

        1 特征工程的分類

        1.1 特征轉(zhuǎn)換和衍生

        特征工程包括數(shù)據(jù)預(yù)處理、離散數(shù)據(jù)的編碼、連續(xù)數(shù)據(jù)的分箱、數(shù)值的歸一和標(biāo)準(zhǔn)化、對數(shù)據(jù)分布的轉(zhuǎn)換、特征衍生等。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)集成、格式統(tǒng)一、缺失數(shù)據(jù)處理等。常用編碼方法有one-hot編碼,每個(gè)類別變量取值的編碼數(shù)目和類別變量不同取值數(shù)目相同且屬性數(shù)據(jù)彼此之間距離相等,適合非排序類離散特征的編碼;另一編碼方式是標(biāo)簽編碼,數(shù)值之間存在數(shù)量關(guān)系,適合排序類離散特征編碼。最大、最小歸一化和z-score標(biāo)準(zhǔn)化等線性變換并不會(huì)改變數(shù)據(jù)的分布,但是兩者都可以弱化量綱的影響,以歐式距離作為相似度度量的算法例如k-means、KNN對量綱是敏感的,邏輯回歸、神經(jīng)網(wǎng)絡(luò)這類算法利用梯度下降優(yōu)化目標(biāo)函數(shù)求解參數(shù)時(shí)可以起到加速收斂的作用。對連續(xù)變量做Box-Cox變換可以讓偏態(tài)分布接近正態(tài)分布,以利用正態(tài)分布的良好特性。特征衍生是對特征進(jìn)行數(shù)值和邏輯運(yùn)算以增強(qiáng)特征預(yù)測能力。

        1.2 特征選擇和提取

        對屬性變量編碼和特征衍生都會(huì)增加特征維度,特征選擇是從特征集合中去除不相關(guān)特征和冗余特征的過程,特征個(gè)數(shù)為n個(gè)選擇可能性為2n。特征選擇過程包括搜索特征子集、評價(jià)特征子集、判斷是否滿足終止標(biāo)準(zhǔn)、驗(yàn)證特征子集是否有效四個(gè)步驟。每次增減特征時(shí)候都需要評價(jià)函數(shù)進(jìn)行評價(jià),直到滿足評價(jià)指標(biāo)。如圖1所示。

        圖1 特征選擇框架

        特征搜索策略分為全局最優(yōu)搜索法、序列搜索、隨機(jī)法。窮舉法試圖窮舉每個(gè)特征空間子集是否符合評價(jià)函數(shù),當(dāng)特征較多時(shí)復(fù)雜度相當(dāng)高。序列搜索分為前向搜索、后向搜索和雙向搜索,每次加入一個(gè)得分最高的特征是前向搜索,每次得分最低的特征被刪除是后向搜索,加入m個(gè)特征到已選特征集并刪除n個(gè)特征為雙向搜索[2]。隨機(jī)法主要包括遺傳算法、粒子群算法等[3],隨機(jī)法是近似全局最優(yōu)解并且平衡了窮舉法和序列搜索法的優(yōu)缺點(diǎn)。根據(jù)機(jī)器學(xué)習(xí)算法是否參與特征選擇過程分為過濾法、包裝法、嵌入法[4]。過濾法根據(jù)特征排序或者搜索策略進(jìn)行選擇,特征排序的評價(jià)指標(biāo)包括皮爾遜相關(guān)系數(shù)、fisher分?jǐn)?shù),主要?jiǎng)h除相關(guān)性小的特征。搜索策略包括CFS、mRMR、馬爾科夫毯,可以刪除冗余特征。嵌入法是指特征選擇嵌入到學(xué)習(xí)算法中進(jìn)行,典型的是決策樹類算法;另一類典型的是應(yīng)用L1和L2正則項(xiàng)作為損失函數(shù)的算法:最小二乘回歸方法Lasso、基于L1正則的SVM。封裝法搜索策略和算法訓(xùn)練迭代進(jìn)行且模型性能指標(biāo)作為特征選擇的評價(jià)指標(biāo),常見算法有支持向量機(jī)、k近鄰,穩(wěn)定性較差,具體選擇結(jié)構(gòu)和算法有很大關(guān)系。表1從3個(gè)維度展示了3種方法的區(qū)別。

        表1 特征選擇方法

        過濾法的特征評價(jià)指標(biāo)在沒有學(xué)習(xí)算法參與選擇的情況下一般是基于統(tǒng)計(jì)學(xué)和信息論對特征進(jìn)行排序。評價(jià)指標(biāo)包含對單個(gè)特征和整個(gè)特征集的評價(jià),Kira Rendel[5]提出的特征選擇過濾方法RELIEF為每個(gè)特征賦予和類別標(biāo)簽關(guān)聯(lián)程度相關(guān)的權(quán)重,此方法適合刪除不相關(guān)特征但對冗余特征無效。Koller D[6]研究了一種基于交叉熵的有監(jiān)督評價(jià)指標(biāo),算法試圖以一種保持類的條件概率盡可能接近原始分布的方式來消除特征。傳統(tǒng)信息論方法將特征相關(guān)性和冗余性分割判斷無法判斷整個(gè)特征子集的組合效應(yīng)。董紅斌等[7]將數(shù)據(jù)融合領(lǐng)域中的關(guān)聯(lián)信息熵理論應(yīng)用到特征選擇中,基于該方法度量特征間的獨(dú)立和冗余程度。

        特征提取是指對特征重新組合獲得反映事物本質(zhì)的少量特征的過程,可以減少維度災(zāi)難的影響使基于距離和密度的算法有效。主分成分析(PCA)是一種無監(jiān)督的線性降維方法,將數(shù)據(jù)做標(biāo)準(zhǔn)化處理后計(jì)算出協(xié)方差矩陣和特征值,將特征值從大到小排列并保留較大的特征值N,高維特征空間轉(zhuǎn)換成新的N個(gè)特征向量構(gòu)成的特征空間。線性判別分類器(LDA)是一種監(jiān)督學(xué)習(xí)的線性降維方法,也是數(shù)據(jù)集的每個(gè)樣本有類的別輸出,PCA是不考慮樣本類別輸出的無監(jiān)督線性降維技術(shù)。

        2 互聯(lián)網(wǎng)金融欺詐預(yù)測的特征工程

        互聯(lián)網(wǎng)金融領(lǐng)域內(nèi)的欺詐具有一定偽裝性,特征難以表征;非欺詐和欺詐類別占比嚴(yán)重不平衡,分類器難以學(xué)習(xí)到準(zhǔn)確的決策邊界;欺詐類別的誤判和漏判導(dǎo)致財(cái)務(wù)成本更高。基于以上問題,可以在特征工程階段解決問題,而不是算法層面解決問題。

        2.1 風(fēng)險(xiǎn)特征構(gòu)造方法

        2.1.1 交易類數(shù)據(jù)的特征構(gòu)造

        特征構(gòu)造是對原始特征進(jìn)行聚合或者轉(zhuǎn)換構(gòu)造出新的特征。信用卡原始特征主要有交易ID,交易類型,驗(yàn)證模式,接入模式,時(shí)間,金額,地點(diǎn),商戶代碼和群體,持卡類型,發(fā)卡行,卡號,持卡人手機(jī)號,性別,年齡。Baesens B等[8]根據(jù)最近性、頻率、貨幣(RFM)原理創(chuàng)建一些相關(guān)特征,再根據(jù)無監(jiān)督異常檢測方法檢測出欺詐模式。最近度衡量事件發(fā)生的時(shí)間,頻率統(tǒng)計(jì)單位時(shí)間內(nèi)特定事件的數(shù)量,與貨幣價(jià)值相關(guān)的特征衡量交易的強(qiáng)度。例如頻率特征和貨幣特征:一個(gè)用戶在過去Tday內(nèi)通過某種渠道或者驗(yàn)證方式向某類商戶支付一定金額的頻率,如果出現(xiàn)了和之前消費(fèi)習(xí)慣不同的模式意味著欺詐的可能性較高。最近性特征是指2種行為模式之間的時(shí)間間隔的對數(shù)轉(zhuǎn)換分?jǐn)?shù),和其他時(shí)間相關(guān)的特征比如某個(gè)特殊時(shí)間點(diǎn)消費(fèi)的行為。

        2.1.2 信貸類數(shù)據(jù)的特征構(gòu)造

        對于信貸數(shù)據(jù)而言,信用數(shù)據(jù)包括人口統(tǒng)計(jì)特征、單位信息、家庭信息、歷史逾期情況、設(shè)備信息、社交信息、收入和負(fù)債情況、消費(fèi)水平和習(xí)慣等。信用數(shù)據(jù)的特征構(gòu)造主要有以下幾種方法,聚合處理是對特征做描述性統(tǒng)計(jì),特征組合分為線性組合(對特征做加減變換)、多項(xiàng)式展開(對特征做相乘處理)、加權(quán)組合(對特征做加權(quán)運(yùn)算)、決策樹方法(對特征做邏輯運(yùn)算)。特殊的,對于和時(shí)間相關(guān)的特征,可以統(tǒng)計(jì)不同時(shí)間段的滑動(dòng)窗口下的特征、計(jì)算特征之間的時(shí)間間隔或者計(jì)算不同時(shí)間粒度下的聚合特征。

        2.1.3 自動(dòng)化和基于圖的特征構(gòu)造

        自動(dòng)化特征工程領(lǐng)域中提到的特征組合方法AutoCross將特征類型(類別特征、數(shù)值特征、時(shí)間序列等特征)作為輸入并輸出特征生成器。其使用散列技巧來提高特征生成的速度,與基于深度學(xué)習(xí)的方法相比占用的計(jì)算資源顯著減少[9]。欺詐行為有一定的偽裝性、聚眾性、多變性,基于圖特征進(jìn)行特征提取,利用標(biāo)簽傳播的半監(jiān)督算法對節(jié)點(diǎn)進(jìn)行預(yù)測。Zhao P[10]等人僅僅利用標(biāo)簽傳播算法對節(jié)點(diǎn)是否為欺詐節(jié)點(diǎn)做概率判斷從而進(jìn)行特征提取。

        2.2 不平衡類別的特征工程

        對于欺詐檢測這類任務(wù)常見問題是少數(shù)類別占比極低,分類模型處理類別均勻分布時(shí)算法和評價(jià)指標(biāo)才不失其意義。常用方法一是欠采樣:刪除訓(xùn)練集中非欺詐性樣本,缺點(diǎn)是會(huì)刪除有重要特征的非欺詐樣本。有選擇的欠采one-sided selectio算法刪減非稀有類樣本中的噪聲樣本冗余樣本和離決策邊界較遠(yuǎn)的邊界樣本,爭取保留非稀有類別的特征。另一種方法是過采樣:復(fù)制訓(xùn)練集中的欺詐性樣本,缺點(diǎn)是沒有增加新的欺詐特征。有選擇的過采樣SMOTE算法是利用每一個(gè)稀有樣本類的K近鄰中隨機(jī)的非稀有樣本類的特征和稀有類特征的差值生成稀有樣本。

        2.3 不平衡成本的特征工程

        欺詐類別被誤判為非欺詐的成本是遠(yuǎn)高于非欺詐類別的誤判成本,所以基于成本不平衡的任務(wù),大部分解決方法是加入成本敏感學(xué)習(xí)(CSL),代價(jià)敏感學(xué)習(xí)主要思想是增加錯(cuò)誤分類權(quán)重,可以在損失函數(shù)中增加錯(cuò)誤分類樣本的懲罰權(quán)重,讓分類器更好地學(xué)習(xí)少數(shù)類別的特征。成本敏感決策樹(CSDT)算法使用了新的分割準(zhǔn)則,計(jì)算了每個(gè)樹節(jié)點(diǎn)的成本。成本敏感邏輯回歸(CSLR)算法將原來的損失函數(shù)中變?yōu)榱顺杀久舾泻瘮?shù)的目標(biāo)函數(shù)?;跀?shù)據(jù)抽樣的特征工程方法沒有基于成本敏感學(xué)習(xí)的方法效果好,因?yàn)榍凡蓸雍瓦^采樣實(shí)際上是改變了數(shù)據(jù)的分布[11]。

        3 結(jié)語

        互聯(lián)網(wǎng)金融的智能風(fēng)控技術(shù)不僅包括結(jié)構(gòu)化數(shù)據(jù)的挖掘技術(shù),也包括非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù)CNN和RNN等,文章論述了結(jié)構(gòu)化數(shù)據(jù)的特征工程效用、一般的特征工程方法,然后基于互聯(lián)網(wǎng)金融風(fēng)控領(lǐng)域的欺詐特征難以表征和不平衡類別、不平衡成本等問題,簡述了領(lǐng)域內(nèi)特征工程的方法。

        猜你喜歡
        特征選擇欺詐類別
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        警惕國際貿(mào)易欺詐
        中國外匯(2019年10期)2019-08-27 01:58:04
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        網(wǎng)購遭欺詐 維權(quán)有種法
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        91精品人妻一区二区三区蜜臀 | 国产三级精品三级国产| 亚洲欧美成人久久综合中文网| 久久精品av在线视频| 99久久精品免费看国产| av无码久久久久不卡网站下载| av天堂精品久久久久| 日韩精品资源在线观看免费| 国产av无码专区亚洲aⅴ| 亚洲熟女天堂av一区二区三区| 亚洲av中文无码字幕色本草| 黄色a级国产免费大片| 初尝黑人巨砲波多野结衣| 第十色丰满无码| 亚洲熟女熟妇另类中文| 人妻洗澡被强公日日澡电影| 久久精品久久久久观看99水蜜桃 | 亚洲中文字幕无码永久在线| 制服丝袜人妻中出第一页| 亚洲成人一区二区av| 最新日本一道免费一区二区 | 亚洲春色在线视频| 亚洲欧美欧美一区二区三区| 中文字幕二区三区在线| 国产一区二区三区精品免费av | 日本免费视频| 国产狂喷潮在线观看| 亚洲精品成人网久久久久久| 亚洲一区二区av偷偷| 日韩精品第一区二区三区 | 亚洲av永久无码精品| 白浆出来无码视频在线| 色综合久久精品中文字幕| 欧洲女人与公拘交酡视频| 精品熟女少妇av免费观看| 一本大道久久a久久综合| 最新日本久久中文字幕| 97人人模人人爽人人喊网| 中文字幕 人妻熟女| 国产女主播福利一区在线观看| 国产亚洲自拍日本亚洲|