亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非平衡大數(shù)據(jù)下的保險(xiǎn)欺詐識(shí)別研究

        2015-05-30 10:30:46范廣哲劉瑾雯
        中國(guó)新通信 2015年1期
        關(guān)鍵詞:隨機(jī)森林

        范廣哲 劉瑾雯

        【摘要】 隨著保險(xiǎn)欺詐(Insurance Fraud)向全球蔓延,研究方法開(kāi)始由定性研究向?qū)嵶C研究過(guò)渡。然而現(xiàn)有分類器的設(shè)計(jì)都是基于類分布大致平衡這一假設(shè)的,針對(duì)現(xiàn)實(shí)世界中廣泛存在不平衡數(shù)據(jù)這一事實(shí),本研究對(duì)美國(guó)機(jī)動(dòng)車保險(xiǎn)機(jī)構(gòu)提供的車險(xiǎn)索賠非平衡大數(shù)據(jù),運(yùn)用隨機(jī)森林(Random Forest)對(duì)欺詐進(jìn)行識(shí)別預(yù)測(cè),為構(gòu)建我國(guó)保險(xiǎn)欺詐識(shí)別模型提出建議。

        【關(guān)鍵詞】 保險(xiǎn)欺詐 識(shí)別模型 隨機(jī)森林

        國(guó)內(nèi)外保險(xiǎn)欺詐(Insurance Fraud)識(shí)別研究 早期的識(shí)別模型主要是以 Logit 模型為主。Artis、Ayuso 和 Guillen 建立了 AAG 欺詐識(shí)別模型。Caudill、Ayuso、Guillen 建立多項(xiàng)分對(duì)數(shù)模型。

        Ridit模型通過(guò)建立標(biāo)準(zhǔn)組,將其他組的數(shù)據(jù)與之做對(duì)比來(lái)計(jì)算 R 值。我國(guó)學(xué)者葉明華1,運(yùn)用 Logit 回歸分析對(duì)識(shí)別因子進(jìn)行精煉,將 BP 神經(jīng)網(wǎng)絡(luò)應(yīng)用在車險(xiǎn)欺詐識(shí)別中,得到了更高的準(zhǔn)確率。

        然而,在實(shí)際操作過(guò)程中,可能會(huì)因兩方面因素影響,導(dǎo)致準(zhǔn)確率偏差:一是數(shù)據(jù)樣本小,缺乏對(duì)于現(xiàn)實(shí)中包含微弱信息的大型數(shù)據(jù)庫(kù)的數(shù)據(jù)分析。二是以理想的數(shù)據(jù)平衡狀態(tài)作為研究背景,脫離實(shí)際。

        研究數(shù)據(jù) 研究樣本為美國(guó)車輛保險(xiǎn)機(jī)構(gòu)提供的車險(xiǎn)索賠數(shù)據(jù),共包含 11336 項(xiàng)記錄。其中 94 年的數(shù)據(jù)為訓(xùn)練集(6141 條),95 年的數(shù)據(jù)為測(cè)試集(5195 條)。共有包括“車輛品牌”、“事故發(fā)生地”等在內(nèi)的 31 個(gè)自變量,一個(gè)應(yīng)變量“欺詐與否”,誠(chéng)實(shí)索賠為 0,欺詐索賠為 1,正類樣本只占樣本總量的 6%,為兩分類非平衡大數(shù)據(jù)。

        評(píng)價(jià)準(zhǔn)則

        目前分類算法常見(jiàn)的評(píng)價(jià)準(zhǔn)則主要有:

        (1) 準(zhǔn)確率(Precision ): Precision= TP / ( TP + F P ) )

        (2) 查全率(Recall): Recall = TP / ( TP + FN ))

        此外,人們從醫(yī)療分析領(lǐng)域引入了一種新的評(píng)判方法—ROC分析,其橫坐標(biāo)是將負(fù)例錯(cuò)分為正例的概率(FPR),縱坐標(biāo)是將正例分對(duì)的概率(TPR),通常采用ROC曲線下面積AUC來(lái)代替ROC曲線對(duì)分類器的性能進(jìn)行定量評(píng)估。在眾多現(xiàn)實(shí)分類任務(wù)中AUC已經(jīng)替代準(zhǔn)確率成為分類算法的性能評(píng)價(jià)指標(biāo)。

        本研究選取AUC作為分類器性能評(píng)價(jià)準(zhǔn)則。 保險(xiǎn)欺詐識(shí)別中的隨機(jī)森林(Random Forest)應(yīng)用 Leo Breiman2將統(tǒng)計(jì)學(xué)理論中的數(shù)據(jù)分析分為數(shù)據(jù)建模文化(The Data Modeling Culture),例如線性回歸,邏輯回歸,Cox 模型等;算法建模文化(The Algorithmic Modeling Culture),典型模型是 Leo Breiman 在決策樹(shù)基礎(chǔ)上建立的隨機(jī)森林3。

        相比數(shù)據(jù)建模文化,算法建模文化可以得到更有效的預(yù)測(cè)模型。隨機(jī)森林對(duì)缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,可以很好地預(yù)測(cè)多達(dá)幾千個(gè)解釋變量的作用,而不需要對(duì)解釋變量進(jìn)行交叉檢驗(yàn)及精煉,從而避免刪除隱藏的有效信息。此外,隨機(jī)森林算法還不容易產(chǎn)生過(guò)擬合現(xiàn)象,被譽(yù)為當(dāng)前最好的算法之一。

        研究采用 R 軟件的 randomForest 程序包命令對(duì)數(shù)據(jù)進(jìn)行分析。將訓(xùn)練集數(shù)據(jù)(1994 年數(shù)據(jù))全部輸入,設(shè)置參數(shù),500 顆樹(shù)(ntree),每個(gè)節(jié)點(diǎn)選取 5個(gè)特征值(mtry),構(gòu)建隨機(jī)森林欺詐識(shí)別模型。將測(cè)試集(1995 年數(shù)據(jù))輸入模型中,得到欺詐預(yù)測(cè)輸出結(jié)果。圖為預(yù)測(cè)結(jié)果ROC曲線,得到AUC面積為0.724。用ROC曲線的AUC評(píng)價(jià)診斷試驗(yàn)的準(zhǔn)確性判斷標(biāo)準(zhǔn)為:AUC在0.5~0.7之間表示診斷價(jià)值較低,在0.7~0.9之間表示診斷價(jià)值中等,大于0.9則表示診斷價(jià)值較高4。

        結(jié)論與建議

        本文針對(duì)現(xiàn)實(shí)生活中存在的多為非平衡數(shù)據(jù)這一事實(shí),對(duì)獲得的車險(xiǎn)索賠大數(shù)據(jù)進(jìn)行欺詐識(shí)別研究?;跀?shù)據(jù)的不平衡特性,選取AUC作為分類器性能的評(píng)價(jià)指標(biāo),利用94年的數(shù)據(jù)對(duì)95年的車險(xiǎn)欺詐進(jìn)行預(yù)測(cè),很好的保證了研究樣本的

        時(shí)間連貫性。 由于國(guó)內(nèi)目前的車險(xiǎn)欺詐識(shí)別研究沒(méi)有針對(duì)非平衡數(shù)據(jù)的分析,研究結(jié)果沒(méi)有準(zhǔn)確的比較標(biāo)準(zhǔn),從醫(yī)療領(lǐng)域利用AUC進(jìn)行評(píng)價(jià)的分類器性能研究中可以看到,大多數(shù)預(yù)測(cè)研究的AUC都在0.7~0.8之間,且研究樣本也并沒(méi)有如此龐大。由此可以看出,本文的研究結(jié)果在可接受范圍內(nèi)。 在進(jìn)一步的研究中,我們將會(huì)進(jìn)行國(guó)內(nèi)保險(xiǎn)數(shù)據(jù)的收集和整理,規(guī)避人為的數(shù)據(jù)篩選,保持?jǐn)?shù)據(jù)的原始性,通過(guò)進(jìn)一步的研究分析,構(gòu)建符合國(guó)內(nèi)行情的,立足于現(xiàn)實(shí)的保險(xiǎn)欺詐識(shí)別模型。

        參 考 文 獻(xiàn)

        [1]葉明華,基于 BP 神經(jīng)網(wǎng)絡(luò)的保險(xiǎn)欺詐識(shí)別研究[J].保險(xiǎn)研究,2011(3):79-86

        [2] Leo Breiman, Statistical Modeling: The Two Cultures[J].Statistical Science,2001,Vol. 16,No. 3: 199–231

        [3] Leo Breiman, Random Forests[J].Machine Learning,2001,45(1):5–32

        [4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition,1997,30(7)

        猜你喜歡
        隨機(jī)森林
        隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
        基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級(jí)體系挖掘
        基于隨機(jī)森林的HTTP異常檢測(cè)
        個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析
        隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        基于奇異熵和隨機(jī)森林的人臉識(shí)別
        軟件(2016年2期)2016-04-08 02:06:21
        基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
        亚洲成片在线看一区二区| 人妻少妇精品中文字幕av蜜桃| 国产精品熟妇视频国产偷人 | 亚洲中文字幕无码久久2018| 国产伦精品一区二区三区在线| 日韩一区av二区三区| 欧洲vat一区二区三区| 亚洲AV永久无码制服河南实里| 无码中文字幕专区一二三| 91九色极品探花内射| 骚货人妻视频中文字幕| 国语对白福利在线观看| 亚洲avav天堂av在线网爱情| 国产亚洲欧美在线观看的| 男女羞羞的视频免费网站| 国产精品亚洲三级一区二区三区| 亚洲国产av玩弄放荡人妇系列 | 性刺激的大陆三级视频| 国模无码一区二区三区不卡| 亚洲av日韩精品久久久久久 | 精品国产乱来一区二区三区| 日本伊人精品一区二区三区| 一本无码av中文出轨人妻| 99久久国产视频| 国产精品日本一区二区三区| 亚洲av免费手机在线观看| 风韵饥渴少妇在线观看| 日本高清一区二区不卡视频| 自拍偷拍韩国三级视频| 看全色黄大色黄大片 视频| 日躁夜躁狠狠躁2001| 无码一区久久久久久久绯色AV| 日本高清成人一区二区三区| 美女午夜福利视频网址| 国产成人精品123区免费视频| 国产人妖视频一区二区| 亚洲国产av剧一区二区三区| 亚洲天堂精品成人影院| 日本爽快片18禁免费看| 精品国产乱码一区二区三区在线| 福利视频偷拍一区二区|