亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于隨機(jī)森林的可疑交易檢測方法

        2021-03-24 02:05:52李林瑛孫永義
        關(guān)鍵詞:特征選擇分類器交易

        盧 睿,李林瑛, 孫永義

        (1. 遼寧警察學(xué)院 信息系,遼寧 大連 116036;2. 大連外國語大學(xué) 軟件學(xué)院,遼寧 大連 116044)

        0 引言

        目前,金融欺詐犯罪案件高發(fā),但損失的追回率低,全球每年僅因信用卡詐騙遭受的損失就達(dá)數(shù)億美元.對可疑的交易進(jìn)行識(shí)別并報(bào)告,不僅是金融機(jī)構(gòu)減少損失的關(guān)鍵活動(dòng),也是公安機(jī)關(guān)打擊新型詐騙、進(jìn)行案件調(diào)查的一項(xiàng)重要手段.可疑交易的檢測是一項(xiàng)非典型的分類和預(yù)測任務(wù).許多研究已經(jīng)表明,將為某個(gè)特定行業(yè)、市場或國家而準(zhǔn)備的模型應(yīng)用于其他環(huán)境并不可行[1],因此在現(xiàn)實(shí)工作中可疑交易的檢測任務(wù)需要采用特定的方法.

        目前,實(shí)踐中采用的一些監(jiān)測指標(biāo)和模型設(shè)計(jì)存在針對性不足、未能充分結(jié)合用戶地區(qū)、職業(yè)、年齡與賬戶交易等進(jìn)行綜合評價(jià)等情況.可疑交易檢測的研究也面臨很多限制,其中一項(xiàng)重要限制是缺乏真實(shí)數(shù)據(jù)集.原因是出于隱私保護(hù),金額機(jī)構(gòu)不會(huì)將客戶交易數(shù)據(jù)輕易公布出來.另外,合法交易和非法交易的統(tǒng)計(jì)屬性隨時(shí)間變化,新特征不斷出現(xiàn),分類器需要具有更高適用性.另一方面可疑交易數(shù)據(jù)庫是典型高度不平衡的數(shù)據(jù)集合,即合法交易的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過非法或欺詐交易的數(shù)據(jù)量.通常在真實(shí)交易數(shù)據(jù)中,98%的交易是合法的,只有2%的交易為欺詐交易[2].對可疑交易檢測任務(wù)而言,一項(xiàng)核心挑戰(zhàn)是合理處理非典型特征,即眾多合法交易中只有少量非法交易樣本可以用于學(xué)習(xí).這一特點(diǎn)使傳統(tǒng)的學(xué)習(xí)方法習(xí)得的分類器表現(xiàn)不佳,檢測需要在不平衡樣本環(huán)境下研究分類方法.

        本文針對可疑信用卡詐騙犯罪偵查中的可疑交易檢測分類問題,通過考察不同參數(shù)環(huán)境下屬性重要性的敏感性,結(jié)合隨機(jī)森林方法進(jìn)行特征選擇,構(gòu)建了可疑交易的檢測模型和方法,在不平衡數(shù)據(jù)集下進(jìn)行了分類預(yù)測,并通過實(shí)驗(yàn)對方法進(jìn)行驗(yàn)證.

        1 相關(guān)研究綜述

        可疑交易檢測需要圍繞特定業(yè)務(wù),檢測方法是機(jī)器學(xué)習(xí)和計(jì)算智能領(lǐng)域廣泛關(guān)注的問題.但是目前公開可用的方法數(shù)量相當(dāng)少見,大多數(shù)算法都在內(nèi)部隱藏模型的細(xì)節(jié).在可見文獻(xiàn)中,貝葉斯算法、K-Nearest Neighbor、支持向量機(jī)等方法被應(yīng)用于檢測過程,均嘗試在提高詐騙檢測率的同時(shí)降低誤報(bào)率.目前的研究主要分為監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法.

        無監(jiān)督學(xué)習(xí)方法中沒有有關(guān)欺詐和合法的預(yù)先定義好的分類標(biāo)簽,分類器通過檢測異常模式與正常交易模式之間的顯著偏差來判斷新樣本的類別.將異?;蚍闯=灰滓暈闈撛诘脑p騙交易實(shí)例,如果某個(gè)客戶的新交易未分配給普通客戶組,則會(huì)針對該交易發(fā)出警報(bào)[3].無監(jiān)督技術(shù)包括Peer Group Analysis[4]和自組織映射[5].

        監(jiān)督學(xué)習(xí)在有分類標(biāo)簽的情況下學(xué)習(xí),基于已經(jīng)標(biāo)記為詐騙和正常交易的樣本訓(xùn)練分類模型,然后使用分類器模型對新交易的可疑性進(jìn)行判斷.最普遍的監(jiān)督學(xué)習(xí)技術(shù)是人工神經(jīng)網(wǎng)絡(luò)(ANN)[6-7],優(yōu)點(diǎn)是性能高,缺點(diǎn)是黑盒模型缺乏解釋性.

        近年來集成方法在欺詐方面表現(xiàn)良好[8-10],其核心是利用學(xué)習(xí)方法訓(xùn)練出多個(gè)分類器并以相應(yīng)的方法進(jìn)行組合.當(dāng)需要學(xué)習(xí)的特征較多時(shí),集成學(xué)習(xí)中的隨機(jī)森林(Random Forest)方法的效果顯著[11-12].其他用于欺詐監(jiān)督學(xué)習(xí)的技術(shù)是元學(xué)習(xí)[13]、基于案例推理方法[14]、貝葉斯信念網(wǎng)絡(luò)[15]、決策樹[6,16-17]、邏輯回歸[6,8]、隱馬爾可夫模型[18]、關(guān)聯(lián)規(guī)則[19]、支持向量機(jī)[8]、貝葉斯最小風(fēng)險(xiǎn)[5,21]和遺傳算法[22].

        雖然監(jiān)督學(xué)習(xí)方法是被使用最多的信用卡欺詐檢測方法,但存在較大風(fēng)險(xiǎn).因?yàn)楦鶕?jù)歷史數(shù)據(jù)得到的模型只能檢測出曾經(jīng)出現(xiàn)過的詐騙方式或手段,但無法發(fā)現(xiàn)未出現(xiàn)過的詐騙或手段和方式發(fā)生變化的詐騙交易.與大多數(shù)集合創(chuàng)建技術(shù)僅借助一種類型的分類器進(jìn)行不同,另一思路是將幾種不同類型的分類器系統(tǒng)加以組合.這些分類器系統(tǒng)可以在相同或不同的模型和數(shù)據(jù)集上構(gòu)建,使用不同規(guī)則和信息抽取方法的組合來做出分類決策,其性能可優(yōu)于只采用一種分類器的傳統(tǒng)方法.基于不同分類器創(chuàng)建集合的方法稱為多分類器系統(tǒng),目前也得到了積極的研究[23].

        2 基于隨機(jī)森林的特征選擇

        特征選擇的目的之一是為提高分類預(yù)測的準(zhǔn)確性,二是需要從候選屬性集中識(shí)別出與分類結(jié)果最為相關(guān)的屬性或最具信息性的屬性,去除對分類結(jié)果影響不大或沒有影響的屬性.通常有以下變量選擇方法:特征過濾、包裝篩選和嵌入式方法.

        本文針對兩個(gè)目標(biāo)進(jìn)行特征選擇,一是找出與反應(yīng)變量高度相關(guān)的重要變量進(jìn)行解釋,目的是放大所有重要變量;二是找出少量能獲得較好分類性能的變量,目的是獲得足夠精簡的重要變量集合.采用隨機(jī)森林方法進(jìn)行特征評價(jià)和選擇,正確選擇隨機(jī)森林參數(shù)有助于更好地區(qū)分重要變量和無用變量,還可以提高屬性重要性評分的穩(wěn)定性.

        采用2013 年9 月的一組信用卡交易數(shù)據(jù)集進(jìn)行屬性重要度的計(jì)算和特征選擇.該數(shù)據(jù)集具有典型的不平衡特征,在共284 807 筆交易中只有492筆欺詐交易,占所有交易的0.172%.為降低復(fù)雜性,在特征選擇階段采用下采樣的方式平衡交易樣本的數(shù)量關(guān)系.

        2.1 屬性重要度的敏感性

        在很多應(yīng)用問題中,屬性重要度是解釋數(shù)據(jù)和理解基本現(xiàn)象的重要依據(jù),計(jì)算屬性重要度是可疑交易檢測任務(wù)中的關(guān)鍵環(huán)節(jié)之一[24].本文借助隨機(jī)森林方法衡量屬性重要度,在逐步形成預(yù)測模型之前對變量進(jìn)行排序.根據(jù)兩個(gè)方面來研究隨機(jī)森林變量重要性:第一個(gè)是屬性重要度對獲得樣本數(shù)量n和入選屬性數(shù)量p的敏感性;第二個(gè)是屬性重要度對隨機(jī)森林中樹的數(shù)量ntree和每個(gè)分支上隨機(jī)選擇的輸入屬性數(shù)量nsplt的敏感性.

        (1)對訓(xùn)練樣本數(shù)量與屬性數(shù)量的敏感性

        考慮樣本數(shù)量與樣本屬性個(gè)數(shù)的關(guān)系,特別是高維屬性條件下樣本數(shù)量較低時(shí)對屬性重要度值的影響.

        通過隨機(jī)復(fù)制樣本中的某些屬性而獲得更多的樣本屬性,Xi?j代表通過復(fù)制屬性Xj而得到的新屬性.圖1 說明在不同樣本數(shù)量n和屬性數(shù)量p情況下,以ntree= 10和為參數(shù)迭代運(yùn)行20 次隨機(jī)森林方法所得到的屬性重要性 VI(Variance Importance).為方便展示,只繪制重要變量并按重要性排序.如果屬性Xj的重要度較高,則Xi?j成為重要屬性的機(jī)率也會(huì)增大,本節(jié)更傾向于考慮重要屬性Xj(原始或復(fù)制于屬性jX)在不同參數(shù)下的屬性重要度穩(wěn)定性.

        圖1(a)~圖1(c)中樣本數(shù)量n均為688,屬性數(shù)量p分別取原始樣本的28 和復(fù)制屬性后的50 和100.圖1(a)由原始樣本數(shù)據(jù)(p=28)求得,視為參照圖.觀察當(dāng)維度上升(p=50 和p=100)時(shí)屬性重要度及排序,并由此判斷訓(xùn)練樣本與屬性數(shù)量對屬性重要度的影響.從圖1(b)、圖1(c)可見,隨著維度升高,原始屬性入選的幾率顯著降低,更多的復(fù)制屬性入選,而且屬性被選擇的幾率越小,成為重要屬性的可能性越小.重要度相對較高的屬性的重要性值降低,且部分屬性的相對排序發(fā)生變化,如屬性12 在兩組高維樣本中的排序均較之屬性11 有所提升.但值得注意的是,通過原始樣本求得的低重要度屬性在高維復(fù)制樣本中也表現(xiàn)出相對較低的重要度,而高重要度的屬性仍然保留在入選屬性集合中.

        圖1(d)~圖1(f)中樣本的數(shù)量降低,因此求解難度較圖1(a)~圖1(c)數(shù)據(jù)有所提高,同樣觀察屬性維度p=50 和p=100 較之p=28 時(shí)屬性重要性變化,圖1(d)視為參照圖.當(dāng)屬性增加時(shí)部分屬性發(fā)生變化,如屬性12 的重要性值和排序均下降,而屬性7、9、16 和27 均在p=100 時(shí)從重要屬性集合中消失.但在參照圖中出現(xiàn)的較重要屬性也出現(xiàn)在了高維度情況下,只是排序稍有變化.另外,當(dāng)p=28 時(shí),在樣本數(shù)量提高的情況下兩個(gè)參照圖中均得到了一致的重要屬性集合.

        圖1 屬性重要性對n 和p 的敏感性Fig.1 variable importance sensitivity to n and p

        (2)對隨機(jī)森林參數(shù)的敏感性

        隨機(jī)森林中nsplt和ntree參數(shù)的選擇關(guān)系到算法的求解質(zhì)量.本節(jié)中將樣本屬性固定為n=488 和p=50,考察ntree=50,100 和nsplt=7,20,50 時(shí)的屬性重要度的表現(xiàn),見圖2.

        圖2 屬性重要性對Random Forest 參數(shù)敏感性Fig.2 variable importance sensitivity to RF parameters

        從圖2 中可見,隨著nsplt取值增大,最重要屬性的重要度顯著提升,但其他屬性重要度值急速降低,屬性重要度更加不穩(wěn)定.當(dāng)ntree增大時(shí),除圖2(d)較圖2(a)出現(xiàn)了屬性重要度和重要屬性排序上的較大變化外,在相同nsplt值的情況下,屬性重要度較為穩(wěn)定.

        2.2 特征選擇

        特征選擇需從特征候選集合中識(shí)別出最相關(guān)或最具信息性的屬性.屬性的重要性不僅僅源于屬性本身,還源于對所研究的問題具有強(qiáng)信息性.即在實(shí)際數(shù)據(jù)中,有的屬性本身并不重要,但卻與其他具有信息性的屬性有關(guān)聯(lián)且可以影響問題的結(jié)果.

        本文以兩個(gè)階段來實(shí)現(xiàn)屬性選擇:第一階段得到與反應(yīng)變量高度相關(guān)的重要屬性集合,第二階段從重要屬性集合中抽取出盡可能少量的可以達(dá)到較好分類結(jié)果的變量用于分類.通過擾動(dòng)屬性值的方式來測試該屬性與其他屬性的關(guān)聯(lián)程度.如果同時(shí)擾動(dòng)多個(gè)屬性值,反應(yīng)變量作為幾個(gè)屬性同時(shí)擾動(dòng)時(shí)得到的特例,無法如實(shí)地反應(yīng)出某一個(gè)屬性的重要性.只對單獨(dú)的某屬性Xj進(jìn)行擾動(dòng),隨機(jī)森林仍可以選擇其他具有信息性賦以較高的重要性,并可能賦予屬性Xj較低的重要性.因此仿真運(yùn)行之后,Xj的重要性分布會(huì)與以原始數(shù)據(jù)得到重要性有所不同,因此可用于測試某屬性的相關(guān)性.另外,在可疑交易的檢測中需要考慮變量之間的關(guān)系,因?yàn)榧词棺陨聿痪咝畔⑿缘膶傩砸部赡軐︻A(yù)測結(jié)果具有影響.

        通過以下步驟實(shí)現(xiàn)特征選擇:

        步驟1獲得屬性重要性的排序,初步消除非重要屬性

        通過原始數(shù)據(jù)確定屬性重要性(采用隨機(jī)森林方法),并將屬性按重要性降序排序;

        去除重要性較低的屬性(如屬性重要性低于0.03),保留下來的m0個(gè)屬性進(jìn)入步驟 2;

        步驟2屬性選擇

        結(jié)合在初始步驟中評估的原始重要性度量VI(j)和擾動(dòng)后屬性重要性的分布評估每個(gè)變量的α值,令若屬性Xj的α<0.05,則該屬性被去除,本步驟保留下來1m個(gè)屬性.

        建包含k個(gè)變量的嵌套隨機(jī)森林模型,對于,選擇模型中所涉及的能夠獲得最小OOB error 的變量;

        保留的有序變量開始,通過逐步調(diào)用和測試變量來構(gòu)建隨機(jī)森林模型的遞增序列,最后一個(gè)模型的變量被選中.

        經(jīng)過屬性選擇,保留下來的屬性為(X14,X10,X4,X12,X11,X20,X7,X17,X21,X3,X13,X8,X19,X22,X25,X16,X15).

        3 基于隨機(jī)森林的分類模型構(gòu)建

        模型的構(gòu)建和訓(xùn)練中,仍采用2 節(jié)中數(shù)據(jù)集.該數(shù)據(jù)集包含了兩天內(nèi)發(fā)生的在線交易的一個(gè)子集,具有典型的樣本不平衡特征.

        3.1 處理樣本不平衡

        處理樣本不平衡問題是模型訓(xùn)練階段需要解決的首要問題,常用方法可以為采樣方法和基于代價(jià)的方法(Cost-based Methods).基于采樣的方法在采用傳統(tǒng)分類方法之前將訓(xùn)練集中的數(shù)據(jù)進(jìn)行平衡化處理;而基于代價(jià)的方法則通過對占少數(shù)的分類設(shè)置更大的錯(cuò)誤分類代價(jià)來修改學(xué)習(xí)算法.

        本文在特征選擇階段使用了下采樣方法,但在模型訓(xùn)練階段需要大樣本,因此以過采樣方法對樣本進(jìn)行平衡化處理.統(tǒng)計(jì)數(shù)據(jù)集中正負(fù)樣本數(shù)量,對少數(shù)類樣本進(jìn)行隨機(jī)復(fù)制使其數(shù)量達(dá)到與多數(shù)類的平衡.隨機(jī)方式雖然簡單高效,但上采樣后的數(shù)據(jù)集中可能過多地出現(xiàn)重復(fù)樣本,從而產(chǎn)生一定程度的過擬合.為避免這一問題,在生成新數(shù)據(jù)時(shí)加入輕微隨機(jī)擾動(dòng),此外還考慮了改變分類器的評價(jià)指標(biāo),即加入ROC(AUC),Kappa 等評價(jià).

        3.2 構(gòu)建分類流程

        可疑交易檢測過程是面向具體業(yè)務(wù)的,其特征選擇過程更依賴于領(lǐng)域知識(shí)和專家經(jīng)驗(yàn).數(shù)據(jù)挖掘分類器通??梢栽诔跏茧A段有效地將明顯的欺詐交易案例過濾掉,將更細(xì)微的可疑交易案例交由人工審查.本節(jié)構(gòu)建基于隨機(jī)森林的分類預(yù)測流程,見圖3.

        圖3 基于隨機(jī)森林的分類預(yù)測流程Fig.3 procedure of random forest based on classification

        流程將人工審核過的記錄與待分類的原始數(shù)據(jù)一起進(jìn)行預(yù)處理.處理后的數(shù)據(jù)根據(jù)業(yè)務(wù)規(guī)則和專家經(jīng)驗(yàn),采用前文所提到的特征抽取方法進(jìn)行特征選擇,但在實(shí)際業(yè)務(wù)中還需根據(jù)業(yè)務(wù)特點(diǎn)進(jìn)行特征的衍生,形成特征集合.

        除了對特征進(jìn)行歸一化等常規(guī)處理之外,在抽取特征時(shí)也要考慮交易的時(shí)間順序?qū)π袨榻5挠绊?在實(shí)際建模過程中,根據(jù)各字段的屬性,按是否考慮與時(shí)間順序的關(guān)系,特征抽取的方式分為兩種:不考慮本條數(shù)據(jù)記錄與歷史數(shù)據(jù)的關(guān)系,如交易金額直接作為特征;另一種需要考慮與歷史數(shù)據(jù)的關(guān)系,如對本次記錄的IP 或終端進(jìn)行特征的衍化,若在以往交易中未出現(xiàn),則將此特征值記為0;若出現(xiàn)過,則將出現(xiàn)的頻度作為該特征的值.

        新的特征集合與經(jīng)驗(yàn)特征集合一起進(jìn)行訓(xùn)練,形成隨機(jī)森林模型,并進(jìn)行分類預(yù)測;將分類結(jié)果反饋到源數(shù)據(jù)庫和下一輪的分類過程中,并成為下一輪訓(xùn)練的標(biāo)記數(shù)據(jù).在檢測模型中應(yīng)考慮變化/演變因素[12,25],即持卡人通常會(huì)隨時(shí)間推移而改變消費(fèi)行為和消費(fèi)時(shí)間,如節(jié)日期間交易增多.新的欺詐行為也會(huì)隨時(shí)間推移而改變,欺詐方法也隨時(shí)間而更加復(fù)雜,因此不可能存在長期穩(wěn)定的模型.流程中增強(qiáng)模型的反饋能力,一旦模型效用降低,則需要重新學(xué)習(xí).

        4 實(shí)驗(yàn)與討論

        本文采用信用卡交易數(shù)據(jù)對所提出的方法進(jìn)行測試和討論.實(shí)驗(yàn)將數(shù)據(jù)集分為訓(xùn)練集和測試集,對支持向量機(jī)和邏輯回歸方法,以及所提出的隨機(jī)森林方法進(jìn)行比較驗(yàn)證.

        4.1 評價(jià)指標(biāo)

        可疑交易檢測是典型的樣本失衡情況下的二分類問題,準(zhǔn)確率(Accuracy)指標(biāo)不再適用.機(jī)器學(xué)習(xí)在此類問題中,對模型進(jìn)行評估的指標(biāo)一般包含精確率(Precision)、召回率(Recall)、F1 指標(biāo)和ROC 指標(biāo).其中,Precision 表示模型預(yù)測為正樣本的樣本中真正為正樣本的比例;Recall 表示模型準(zhǔn)確預(yù)測為正樣本的數(shù)量占所有正樣本數(shù)量的比例.F1 指標(biāo)是Precision 和Recall 的調(diào)和平均數(shù),用于綜合度量算法性能,F(xiàn)1 越大,分類器的效果越佳.

        ROC 提供了一種可視化不同結(jié)果的方法,通過繪制真陽性率與假陽性率來檢查分類器質(zhì)量的指標(biāo),理想的ROC 曲線具有100%的敏感性和100%的特異性.由于ROC 曲線具有不隨樣本比例而改變的良好性質(zhì),因此適用于在樣本比例不平衡的情況下評價(jià)分類器.

        4.2 實(shí)驗(yàn)結(jié)果

        首先對訓(xùn)練集進(jìn)行進(jìn)一步的分割,部分用于實(shí)際訓(xùn)練,其余部分用于尋找邏輯回歸、支持向量機(jī)和隨機(jī)森林三個(gè)模型的最佳參數(shù).從邏輯回歸、支持向量機(jī)和隨機(jī)森林三類模型中,首先確定每個(gè)模型的最佳參數(shù),通過10 次10 折交叉驗(yàn)證進(jìn)行測試.

        支持向量機(jī)利用核技巧將數(shù)據(jù)映射到高維特征空間.測試在正則化項(xiàng)C、內(nèi)核系數(shù)和Kernel 上發(fā)生變化.實(shí)驗(yàn)表明在采用徑向基核函數(shù)時(shí)效果最差;當(dāng)采用線性核函數(shù)且正則化C= 1,Gamma=1 時(shí),得到了最好的結(jié)果,見表1.

        表1 SVM 的交叉驗(yàn)證結(jié)果

        邏輯回歸是一種廣泛使用的分類和回歸方法,為簡化計(jì)算,本實(shí)驗(yàn)僅改變正則化項(xiàng),如表2 所示.

        表2 Logistic Regression 的交叉驗(yàn)證結(jié)果Tab.2 cross validation result of Logistic Regression

        隨機(jī)森林模型中變化的參數(shù)包括樹的數(shù)目、樹中每個(gè)節(jié)點(diǎn)的最小特征數(shù)、節(jié)點(diǎn)分割質(zhì)量標(biāo)準(zhǔn)(Gini 雜質(zhì)或熵).通常,樹的數(shù)量更多會(huì)得到更高的分類性能,但也會(huì)導(dǎo)致更多的計(jì)算時(shí)間.經(jīng)過測試,在本數(shù)據(jù)集上多于100 棵樹并未得到更好的性能,因此將樹的數(shù)量固定在100 棵.經(jīng)過實(shí)驗(yàn)的綜合考量,認(rèn)為使用信息熵可以獲得更好的效果,最小特征數(shù)量為6,見表3.

        表3 隨機(jī)森林的交叉驗(yàn)證結(jié)果Tab.3 cross validation result of Random Forest

        將隨機(jī)森林方法與支持向量機(jī)和邏輯回歸方法進(jìn)行比較,除了Precision、Recall 和F1 指標(biāo),還引入了適用于樣本不平衡條件下評判分類精度的指標(biāo)Cohen’s kappa 估計(jì),score>0.8 意味著好的分類.從實(shí)驗(yàn)結(jié)果可見,參數(shù)設(shè)置對支持向量機(jī)的結(jié)果較為重要,其在不同指標(biāo)上的表現(xiàn)均不理想.在眾多研究中,相對簡單和易于理解的邏輯回歸已經(jīng)成為許多實(shí)際數(shù)據(jù)挖掘應(yīng)用中的標(biāo)準(zhǔn)技術(shù).本文的實(shí)驗(yàn)中,邏輯回歸也表現(xiàn)出了良好的性能,超過支持向量機(jī)模型.由圖4可以看到,在Precision 指標(biāo)上邏輯回歸的表現(xiàn)最好,隨機(jī)森林次之;在Recall、F1 和Kappa 指標(biāo)上,隨機(jī)森林的性能均優(yōu)于其他兩種方法.

        采用AUC 衡量結(jié)果指標(biāo),ROC 曲線見圖5,隨機(jī)森林算法同樣優(yōu)于其他兩種算法.綜合幾種指標(biāo)下的表現(xiàn),可以認(rèn)為隨機(jī)森林方法考慮了屬性重要性對不同參數(shù)的敏感性并有效進(jìn)行了特征選擇,因此捕獲了更多的欺詐案例,而假陽性更少.這是欺詐檢測模型在實(shí)際應(yīng)用中的一個(gè)重要考慮因素,說明該模型具有較好的應(yīng)用效果.

        圖4 隨機(jī)森林、邏輯回歸和支持向量機(jī)的比較Fig.4 Performance Comparison of RF, LG and SV M

        圖5 ROC 曲線Fig.5 ROC Curve

        5 結(jié)論

        (1)與經(jīng)濟(jì)卡有關(guān)的詐騙通常是精心策劃和隱藏并且耗費(fèi)時(shí)間的犯罪,常表現(xiàn)為很多類型和形式.數(shù)據(jù)挖掘常用于解決涉及風(fēng)險(xiǎn)數(shù)據(jù)問題的方法,如研究信用卡風(fēng)險(xiǎn)模型、客戶流失預(yù)警和生存分析等.

        (2)因隨機(jī)森林技術(shù)的易用性和高效性,本文將其應(yīng)用于可疑交易檢測中,在樣本不平衡數(shù)據(jù)環(huán)境中,對屬性重要度的敏感性進(jìn)行了分析,設(shè)計(jì)了特征選擇的算法,提高了重要屬性和具有強(qiáng)信息性屬性的入選率.利用一個(gè)真實(shí)數(shù)據(jù)集進(jìn)行屬性選擇和分類預(yù)測,同時(shí)在同一數(shù)據(jù)集上運(yùn)用隨機(jī)森林、支持向量機(jī)和邏輯回歸方法并進(jìn)行比較,結(jié)果表明隨機(jī)森林的綜合評價(jià)要高于其他兩種方法.

        (3)本文的研究限于某月中兩天的實(shí)際交易記錄所表現(xiàn)出來的特征,且以二分類的形式給出預(yù)測結(jié)果.未來在獲取更多數(shù)據(jù)樣本的情況下,可以進(jìn)一步研究概念漂移下的預(yù)測模型,識(shí)別新的監(jiān)督信息;并在模型中允許以概率的形式給出預(yù)測結(jié)果,結(jié)合人工審查對結(jié)果進(jìn)行核實(shí).

        猜你喜歡
        特征選擇分類器交易
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        交易流轉(zhuǎn)應(yīng)有新規(guī)
        上海國資(2015年8期)2015-12-23 01:47:28
        大宗交易
        《吃飯的交易》
        驚人的交易
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        亚洲国产日韩欧美高清片a| 91精选视频在线观看| 亚洲午夜精品久久久久久人妖 | 偷窥村妇洗澡毛毛多| 久久精品黄aa片一区二区三区| 欧洲人妻丰满av无码久久不卡 | 国产乱人激情h在线观看| 少妇高潮尖叫黑人激情在线| 首页动漫亚洲欧美日韩| 国产熟女精品一区二区三区| 亚洲区1区3区4区中文字幕码| 亚洲不卡av二区三区四区| 亚洲国产精品一区二区成人av| 国产精品高清网站| 亚洲人成77777在线播放网站 | 国产精品一区二区久久毛片| 国产麻豆一区二区三区在| 国产精品一区二区久久国产| av综合网男人的天堂| 欧美最猛黑人xxxx黑人表情| 国产无线乱码一区二三区 | 免费的日本一区二区三区视频| 国产精品人妻一区二区三区四| 婷婷综合久久中文字幕蜜桃三电影 | 亚洲AⅤ永久无码精品AA| 亚洲一区二区成人在线视频| 日本国产一区二区在线观看| 插插射啊爱视频日a级| 亚洲综合区图片小说区| 国产精品精品| 国产免费三级三级三级| 女同性恋一区二区三区av| 日本一区二区三区免费播放| 97伦伦午夜电影理伦片| 国产在线视频h| 久久中文字幕国产精品| 日本女优在线一区二区三区| 五级黄高潮片90分钟视频| 欧美在线a| 久久精品国产亚洲av高清蜜臀| av天堂免费在线播放|