亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Apriori算法的機(jī)動(dòng)車(chē)保險(xiǎn)欺詐索賠的關(guān)聯(lián)度分析

        2023-05-22 21:25:51金慧楊涵予崔浩浩
        時(shí)代汽車(chē) 2023年9期

        金慧 楊涵予 崔浩浩

        摘 要:在保險(xiǎn)行業(yè)中,保險(xiǎn)欺詐是當(dāng)前存在的普遍現(xiàn)象。然而,在保險(xiǎn)的全部險(xiǎn)種里面,機(jī)動(dòng)車(chē)車(chē)險(xiǎn)欺詐是保險(xiǎn)欺詐的高發(fā)區(qū)之一。本文基于25項(xiàng)特征指標(biāo),應(yīng)用車(chē)險(xiǎn)欺詐關(guān)聯(lián)分析模型對(duì)某保險(xiǎn)公司欺詐識(shí)別系統(tǒng)數(shù)據(jù)進(jìn)行了分析,得出黑色樣本的頻繁項(xiàng)集,并且在白色樣本中進(jìn)行驗(yàn)證,確定了它們之間的具體關(guān)聯(lián)規(guī)則,識(shí)別出欺詐索賠事件,得到灰色樣本的欺詐率。研究結(jié)果表明,總理賠樣本的欺詐率為37.527%。

        關(guān)鍵詞:車(chē)險(xiǎn)欺詐 關(guān)聯(lián)分析 Apriori算法 欺詐率

        1 引言

        2019年6月中國(guó)保險(xiǎn)學(xué)會(huì)與金融壹賬通聯(lián)合發(fā)布了《2019年中國(guó)保險(xiǎn)行業(yè)智能風(fēng)控白皮書(shū)》,文中說(shuō)明就目前我國(guó)的所有保險(xiǎn)行業(yè)里面,車(chē)險(xiǎn)欺詐滲透約占理賠金額比例高達(dá)20%,相應(yīng)的年損失竟有200多億元,可謂是觸目驚心[5]。在近幾年來(lái),我國(guó)車(chē)險(xiǎn)行業(yè)發(fā)展迅速,然而當(dāng)前車(chē)險(xiǎn)欺詐一直伴隨著汽車(chē)保險(xiǎn)的發(fā)展,高速的發(fā)展帶來(lái)的結(jié)果是保險(xiǎn)的經(jīng)營(yíng)成本一直在增加,隨著當(dāng)前欺詐手段和欺詐形式的多樣化,其車(chē)險(xiǎn)欺詐分別給保險(xiǎn)公司、合法投保人以及車(chē)險(xiǎn)行業(yè)的穩(wěn)定發(fā)展帶來(lái)了極大的危害[1]。為確保保險(xiǎn)行業(yè)健康并且相對(duì)穩(wěn)定的發(fā)展,減少一些大眾化的保險(xiǎn)欺詐,維護(hù)一些誠(chéng)實(shí)投保人的利益,保險(xiǎn)反欺詐技術(shù)研究具有一定的現(xiàn)實(shí)意義[4]。

        2 建立Apriori算法模型

        Apriori算法有兩個(gè)重要性質(zhì)。性質(zhì)1,頻繁項(xiàng)集的一切子集則均為頻繁項(xiàng)集;性質(zhì)2,非頻繁集項(xiàng)的超集則必然為非頻繁的[2]。

        可以將其整個(gè)發(fā)現(xiàn)頻繁項(xiàng)集的過(guò)程簡(jiǎn)述見(jiàn)圖1。首先,我們將頻繁項(xiàng)集中的“1項(xiàng)集”所有的集合尋找出來(lái),標(biāo)號(hào)為L(zhǎng)1,在此“1項(xiàng)集”的基礎(chǔ)上,找出頻繁項(xiàng)集中的“2項(xiàng)集”,標(biāo)號(hào)為L(zhǎng)2,同樣的道理,依次找出文中所需的頻繁項(xiàng)集的其他項(xiàng)集;但其間,每一次尋找項(xiàng)集時(shí)都必須掃描一次數(shù)據(jù)庫(kù)。核心是連接步以及剪枝步兩個(gè)內(nèi)容;連接步就是將其自行連接,但前提條件是前面的“K2”項(xiàng)必須要相同,它們按照26個(gè)英文字母的順序依次連接;剪枝步的目的是讓其隨便一項(xiàng)頻繁項(xiàng)集的一切非空子集都必須遵循頻繁的原則[3,6]。

        重復(fù)上述5個(gè)步驟,一直到頻繁項(xiàng)集不出現(xiàn)時(shí)即可結(jié)束。

        3 車(chē)險(xiǎn)欺詐關(guān)聯(lián)分析及欺詐率估計(jì)

        3.1 數(shù)據(jù)的收集和數(shù)據(jù)的處理

        將國(guó)內(nèi)某保險(xiǎn)公司某年的59627例索賠樣本由保險(xiǎn)公司內(nèi)部的理賠管理系統(tǒng)做出初步的篩選;其中將所有的車(chē)險(xiǎn)理賠樣本分為兩類(lèi),高風(fēng)險(xiǎn)子集樣本(欺詐樣本)和低風(fēng)險(xiǎn)子集樣本(合理索賠樣本)。表1為具體的數(shù)據(jù)量。

        在表1中將索賠樣本占有量做出具體分組,本公司針對(duì)是否為車(chē)險(xiǎn)欺詐一共利用25個(gè)特征指標(biāo)(如表2所示)對(duì)其所有理賠樣本進(jìn)行識(shí)別,最終識(shí)別是否為欺詐索賠,其中任何一項(xiàng)特征指標(biāo)都針對(duì)某一方面車(chē)險(xiǎn)欺詐與正常索賠的具體特征的差異[7-8]。

        通過(guò)以下的步驟對(duì)將樣本進(jìn)行分類(lèi)。

        (1)將高風(fēng)險(xiǎn)的子集進(jìn)行排序并從中篩選出高嫌疑和占比與高風(fēng)險(xiǎn)的子集欺詐率相等的欺詐樣本的一部分;(2)對(duì)樣本所有數(shù)據(jù)進(jìn)行排序,接著篩選出占比和總樣本的欺詐率相同的欺詐樣本;(3)將上述1與2做交集,將得到文中所需要的黑色樣本數(shù)量;(4)低風(fēng)險(xiǎn)子集按照需要排序?qū)⑵渲械臎](méi)有嫌疑與占比(1-低風(fēng)險(xiǎn)的欺詐率)相等的樣本篩選出來(lái);(5)總樣本按照所需排序?qū)⑵渲姓急扰c(1-總樣本的欺詐率)相等的樣本篩選出來(lái);(6)將上述的4與5做交集,將得到文中所需要的白色樣本的數(shù)量。用總樣本數(shù)量減去黑色樣本數(shù)量和白色樣本數(shù)量將得到灰色樣本數(shù)量。最后得出的各類(lèi)樣本數(shù)量如表3所示。

        3.2 欺詐模式與非欺詐模式兩者區(qū)別

        3.2.1 欺詐樣本的頻繁項(xiàng)集

        最初,我們需要找出頻繁項(xiàng)集(此處頻繁項(xiàng)集指的是欺詐樣本與非欺詐樣本兩者的具體頻繁項(xiàng)集)。25項(xiàng)特征指標(biāo)記為i,如果滿(mǎn)足,則i=1,如果不滿(mǎn)足,則i=0。

        在本文的研究中將最小的支持度以及最小置信度分別預(yù)設(shè)為0.3與0.7,也就是說(shuō)當(dāng)同時(shí)滿(mǎn)足兩個(gè)條件,一最小支持度>0.3;二最小置信度>0.7。接著對(duì)二、三、四項(xiàng)集進(jìn)行同樣的分析。在欺詐樣本的二頻繁項(xiàng)集中,0.8323為二項(xiàng)頻繁項(xiàng)集里面的最高支持度,對(duì)應(yīng)的二項(xiàng)集為{19,20},這也說(shuō)明當(dāng)兩個(gè)指標(biāo)同一時(shí)間同時(shí)出西現(xiàn)時(shí),有80%的把握可以認(rèn)定此樣本為欺詐樣本,表中的頻繁項(xiàng)集{10,20},{10,19},{20,5}同樣認(rèn)為是較高的支持度,對(duì)應(yīng)支持度是0.77,0.64,0.64。

        將上述的13項(xiàng)頻繁項(xiàng)集算出的支持度依次排序,順序按降序排列,如下表4所示,將其對(duì)應(yīng)的支持度做出適當(dāng)?shù)恼{(diào)整,為后面的頻繁項(xiàng)集用于灰色樣本的一些預(yù)測(cè)做鋪墊。

        3.2.2 非欺詐樣本的頻繁項(xiàng)集

        在表4里面結(jié)果可以顯示,將其最小支持度具體設(shè)為0.5的時(shí)候,可以得出其中的13項(xiàng)是頻繁項(xiàng)集,然而非欺詐樣本與欺詐樣本存在著明顯的差異;將其最小支持度設(shè)為0.4的時(shí)候,僅包含其中的兩項(xiàng)頻繁項(xiàng)集為非欺詐的樣本,它們?yōu)轫?xiàng)集{5}和項(xiàng)集{10},得出的結(jié)果均在正常的范圍之內(nèi),因?yàn)橹笜?biāo)選擇它們都指向欺詐。

        3.3 關(guān)聯(lián)規(guī)則的分析

        在挖掘關(guān)聯(lián)規(guī)則時(shí)應(yīng)該注意它們的有效性,對(duì)前文篩選后所得到的13項(xiàng)黑色樣本的頻繁項(xiàng)集在白色樣本里面都要進(jìn)行具體的驗(yàn)證,看是否是有效的,在驗(yàn)證之前需要將前文的13個(gè)頻繁項(xiàng)集分別做出標(biāo)記,方便進(jìn)行操作,如表4所示。

        驗(yàn)證頻繁項(xiàng)集是否為有效的,需要滿(mǎn)足以下條件:

        黑色樣本是基礎(chǔ),對(duì)于Ai的支持度有一定的滿(mǎn)足條件見(jiàn)式1,假如滿(mǎn)足,則視為有效。

        支持度(Ai黑)>支持度(Ai白)(1)

        得出結(jié)果如表5所示,其上述的13個(gè)頻繁項(xiàng)集均為有效的。

        接下來(lái)需要將各個(gè)項(xiàng)集之間的關(guān)聯(lián)規(guī)則挖掘出來(lái)。隨便一項(xiàng)以頻繁項(xiàng)集為基礎(chǔ)的黑色樣本的概率均可以由貝葉斯公式計(jì)算得出,運(yùn)用式2得出所有頻繁項(xiàng)集下對(duì)應(yīng)的欺詐率。

        P(黑|Ai)=

        (2)

        將P(F|Ai)記作P1,2,3,……,13。

        頻繁項(xiàng)集以及欺詐率將通過(guò)表6列舉出來(lái)。

        由上述的欺詐率可以將每個(gè)頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則全部找出,將高欺詐率頻繁項(xiàng)集{19},{22},{10},{5}等4個(gè)項(xiàng)集的相關(guān)的關(guān)聯(lián)規(guī)則分別做出列舉。

        如圖2所示,指標(biāo)19出現(xiàn)時(shí),欺詐率為0.940295,當(dāng)指標(biāo)10與19同時(shí)出現(xiàn),欺詐率為0.976921,還有當(dāng)指標(biāo)19與20同時(shí)出現(xiàn)時(shí),欺詐率變?yōu)?.962684(指標(biāo)19與指標(biāo)5同時(shí)出現(xiàn)時(shí)欺詐率變?yōu)?.941999),

        如指標(biāo)10、19、20出現(xiàn),索賠中含有欺詐的概率為97.69%;指標(biāo)19、20、5出現(xiàn),此時(shí)索賠中含有的欺詐概率為94.19%。

        如圖3,指標(biāo)22出現(xiàn)時(shí)的欺詐概率。

        如圖4,指標(biāo)20出現(xiàn)時(shí)的欺詐率。

        如圖5,指標(biāo)10出現(xiàn)時(shí)的欺詐率。

        如圖6,指標(biāo)5出現(xiàn)時(shí)的欺詐率。

        4 欺詐識(shí)別

        上文中得出的顯著關(guān)聯(lián)規(guī)則有三個(gè),最終結(jié)果顯示為項(xiàng)集{20,22},項(xiàng)集{10,19,20}和項(xiàng)集{19,20,5},它們對(duì)應(yīng)的欺詐率分別為98.00%,97.69%和94.20%。因此,用上述的三個(gè)項(xiàng)集用作欺詐識(shí)別?;疑珮颖镜木唧w占比識(shí)別詳見(jiàn)表7。

        4.1 樣本預(yù)測(cè)

        在標(biāo)記的13項(xiàng)頻繁項(xiàng)集里面,只有滿(mǎn)足條件P(黑|Ai)>0.8時(shí),才能將其作為預(yù)測(cè)對(duì)象,最后符合條件的較為顯著的頻繁項(xiàng)集共計(jì)11項(xiàng),將支持度從0.5調(diào)升至0.8,將置信度由0.85提升至0.95,再分別做出預(yù)測(cè)觀察結(jié)果。預(yù)測(cè)結(jié)果如表9所示。

        表8中的欺詐率計(jì)算見(jiàn)式3。

        pi=P(F|Ai) (3)

        4.2 估計(jì)灰色樣本的欺詐率

        根據(jù)從B1至B13有無(wú)交集,將對(duì)灰色的樣本欺詐率進(jìn)行估計(jì)分為兩種情況。

        第一種情況,假如B1至B13沒(méi)有交集,則可用公式4將總的欺詐率算出來(lái)。

        (4)

        其中,X=23085為灰色樣本的總數(shù)

        第二種情況,假如B1至B13有交集。將P1至P13的大小進(jìn)行比較,用科學(xué)的方法,將交集的部分分到概率大的集合中,假如只有四個(gè)頻繁項(xiàng)集并且滿(mǎn)足P1>P2>P3>P4。

        因?yàn)锽1+B2+B3+B4+B5+B6+B7+B8+B9+B10+B11+B12+B13相加之和遠(yuǎn)遠(yuǎn)大于23085,所有樣本之間存在著交集,因此運(yùn)用第二種情況來(lái)計(jì)算。由前文的表格中可以得出:

        P(F|A11)>P(F|A9)≥P(F|A8)>P(F|A3)>P(F|A5)>P(F|A13)≥P(F|A12)>P(F|A2)>P(F|A10)>P(F|A7)>P(F|A1)

        上面所述的13項(xiàng)的頻繁項(xiàng)集的區(qū)分度都是一致的。而且將它們的全部支持度都按照大小進(jìn)行相關(guān)順序排列,假如它們的支持度與區(qū)分度的大小兩者之間是相同的,就要用它們頻繁項(xiàng)集的具體個(gè)數(shù)將其進(jìn)行排列順序;灰色樣本的欺詐率計(jì)算大致為三步。

        (1)首先將排序后的第一個(gè)B11與(B9,B8,B3,B5,B13,B12,B2,B10,B7,B1)做交集,其交集的結(jié)果屬于B11,然后計(jì)算,S11=B11*P(F|A11);

        (2)去掉計(jì)算過(guò)的B11,將B9與剩下的幾項(xiàng)(B8,B3,B5,B13,B12,B2,B10,B7,B1)做交集,同樣交集的結(jié)果屬于B9,接著計(jì)算,S9=B9*P(F|A9);

        (3)循環(huán)1和2步驟,計(jì)算到所有的樣本沒(méi)有交集為止。最后用公式4計(jì)算出灰色樣本的欺詐率:

        (5)

        調(diào)整支持度與置信度,由小向大調(diào),從而預(yù)測(cè)灰色樣本的最終欺詐率見(jiàn)表9;其取值越大,那么結(jié)果也就也接近真實(shí)數(shù)據(jù),得出灰色樣本的具體欺詐率達(dá)到51.1%時(shí),對(duì)應(yīng)它們的支持度與區(qū)分度兩個(gè)數(shù)據(jù)分別為0.8與0.95。

        由此可以得出,灰色樣本的欺詐率為0.5110,灰色樣本中的欺詐個(gè)數(shù)為(23085*0.5110)11796個(gè),黑色樣本為10580個(gè),最終的欺詐樣本個(gè)數(shù)(10580+11796)為22376個(gè);結(jié)果得出的總體欺詐率為:

        5 結(jié)語(yǔ)

        本文以國(guó)內(nèi)某保險(xiǎn)公司車(chē)險(xiǎn)理賠數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,運(yùn)用相關(guān)的25項(xiàng)特征指標(biāo)將所有具有明顯欺詐行為特征的頻繁項(xiàng)集全部挖掘出來(lái),最終用于欺詐索賠的識(shí)別。

        (1)本文基于Apriori算法,對(duì)保險(xiǎn)公司已知的黑色樣本做出關(guān)聯(lián)分析,運(yùn)用算法得出研究所需的13項(xiàng)頻繁項(xiàng)集,接著在白色樣本中對(duì)比驗(yàn)證,結(jié)果發(fā)現(xiàn)均有效,將所有頻繁項(xiàng)集各項(xiàng)之間的關(guān)聯(lián)規(guī)則進(jìn)行具體的挖掘,用于灰色樣本部分的欺詐識(shí)別。結(jié)果顯示,當(dāng)項(xiàng)集{20,22}、{10,19,20}和{19,20,5}分別出現(xiàn)時(shí),識(shí)別的欺詐個(gè)數(shù)分別為7960、5894和3294,對(duì)應(yīng)的灰色樣本占比分別為34.48%、25.53%和14.72%,灰色樣本預(yù)測(cè)欺詐結(jié)果顯示,在不確定的索賠樣本中約有50%的樣本為欺詐樣本。

        (2)灰色樣本最終得出的欺詐率預(yù)計(jì)結(jié)果將直接受到頻繁項(xiàng)集支持度的影響,隨支持度的升高,其預(yù)計(jì)結(jié)果越接近真實(shí)的數(shù)據(jù),文中將支持度與置信度做出調(diào)整(支持度由0.5調(diào)至0.8,置信度由0.85調(diào)至0.95)后得出灰色樣本欺詐率的預(yù)測(cè)結(jié)果是0.5110,此時(shí)計(jì)算出的總理賠樣本的欺詐率為37.527%;保監(jiān)局公布的一些調(diào)查數(shù)據(jù)中顯示,國(guó)內(nèi)的車(chē)險(xiǎn)欺詐索賠金額占據(jù)整個(gè)車(chē)險(xiǎn)索賠金額的30%之多,所以符合車(chē)險(xiǎn)欺詐的預(yù)測(cè)范圍。

        基金項(xiàng)目:甘肅省教育廳創(chuàng)新能力提升項(xiàng)目(2021B-315)。

        參考文獻(xiàn):

        [1]何奇龍,唐煦韓,唐娟紅.基于演化博弈的機(jī)動(dòng)車(chē)保險(xiǎn)欺詐問(wèn)題研究[J].保險(xiǎn)職業(yè)學(xué)院學(xué)報(bào),2022,36(02):51-59.

        [2]張輝. 基于改進(jìn)Apriori算法的典型民航不安全事件影響因素關(guān)聯(lián)分析[D].中國(guó)民用航空飛行學(xué)院,2022.

        [3]張碩. 基于數(shù)據(jù)挖掘的告警關(guān)聯(lián)規(guī)則研究與設(shè)計(jì)[D].貴州大學(xué),2021.

        [4]車(chē)險(xiǎn)反欺詐聯(lián)合課題組.車(chē)險(xiǎn)欺詐與反欺詐問(wèn)題研究及監(jiān)管建議[J].保險(xiǎn)研究,2021(06):3-10.

        [5]陳秀娟.國(guó)內(nèi)車(chē)險(xiǎn)欺詐滲漏率達(dá)20%[J]. 汽車(chē)觀察,2019(7):1.

        [6]楊洋.機(jī)動(dòng)車(chē)輛保險(xiǎn)欺詐風(fēng)險(xiǎn)評(píng)估模型構(gòu)建及其應(yīng)用研究[D].重慶理工大學(xué),2022.

        [7]盧冰潔,李煒卓,那崇寧,牛作堯,陳奎.機(jī)器學(xué)習(xí)模型在車(chē)險(xiǎn)欺詐檢測(cè)的研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(05):34-49.

        [8]楚宵瑩.基于機(jī)器學(xué)習(xí)的機(jī)動(dòng)車(chē)輛保險(xiǎn)的欺詐識(shí)別研究[D].山東大學(xué),2021.

        一本色道久久综合中文字幕| 蜜桃视频在线看一区二区三区| 国产最新女主播福利在线观看| 欧美激情视频一区二区三区免费| 国产无夜激无码av毛片| 国产成人av大片大片在线播放| 精品亚洲欧美无人区乱码| 在线精品免费观看| 一本色道久久综合狠狠躁中文| 日本av第一区第二区| 日本一区二区三区视频免费在线 | 久久精品国产久精国产果冻传媒| 野外少妇愉情中文字幕| 久久久久无码国产精品不卡| 亚洲AV无码一区二区三区ba| 亚洲综合久久1区2区3区 | 日韩中文字幕中文有码| 亚洲xx视频| 精品一区二区三区亚洲综合| 人妻少妇中文字幕在线| 人人爽人人爽人人片av| 麻豆成人精品国产免费| 熟妇人妻中文字幕无码老熟妇| 亚洲国产成人久久综合一区77| 国产麻豆一精品一AV一免费软件| 色噜噜狠狠色综合欧洲| 色av色婷婷18人妻久久久| 亚洲综合中文字幕日韩| 亚洲中文字幕无码av永久| 国产av丝袜旗袍无码网站| 人人妻人人澡人人爽人人精品电影 | 成人影院yy111111在线| 人妻系列无码专区久久五月天| 免费在线视频一区| 亚洲女同性恋在线播放专区| 国产一区二区三区啊啊| 凹凸国产熟女精品视频app| 三级特黄60分钟在线观看| 亚洲美女啪啪| 日本超骚少妇熟妇视频| 中文字幕亚洲乱码熟女1区|