亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯的防病患欺詐模型研究

        2014-12-18 12:20:30潘芳
        現(xiàn)代商貿(mào)工業(yè) 2014年10期

        潘芳

        摘要:為避免病患欺詐給我國(guó)相關(guān)部門(mén)帶來(lái)的極大經(jīng)濟(jì)損失,甚至?xí):Φ轿覈?guó)醫(yī)療的進(jìn)一步發(fā)展,采用貝葉斯分類(lèi)對(duì)防病患欺詐模型進(jìn)行了研究,并對(duì)其性能進(jìn)行測(cè)試。測(cè)試結(jié)果表明所建模型性能良好。研究成果可為相關(guān)部門(mén)防范病患欺詐提供理論支持。

        關(guān)鍵詞:貝葉斯;病患;欺詐; 異常檢測(cè);社會(huì)穩(wěn)定

        中圖分類(lèi)號(hào):F27

        文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1672—3198(2014)10—0080—03

        0引言

        目前社會(huì)上存在著一些不法分子在履行參保繳費(fèi)義務(wù)上虛構(gòu)事實(shí),隱瞞真相,以騙取醫(yī)保權(quán)益,或在醫(yī)療行為上虛構(gòu)事實(shí),隱瞞真相,以騙取醫(yī)?;鸹蜥t(yī)保待遇。這類(lèi)欺詐行為在各個(gè)國(guó)家普遍存在。美國(guó)聯(lián)邦政府多次表示,打擊醫(yī)療保險(xiǎn)詐騙案,是醫(yī)療保險(xiǎn)改革議程的重要組成部分。這些違法行為已經(jīng)給我們國(guó)家?guī)?lái)了極大的經(jīng)濟(jì)損失,嚴(yán)重影響我國(guó)醫(yī)療行業(yè)的進(jìn)一步發(fā)展。我國(guó)雖還沒(méi)有完整的社會(huì)醫(yī)療保險(xiǎn)欺詐統(tǒng)計(jì)數(shù)據(jù),但防病患欺詐已經(jīng)成為引起學(xué)者重視的社會(huì)問(wèn)題。

        就目前業(yè)界人士認(rèn)為,防范欺詐的手段有兩個(gè),一是政策調(diào)控,采用行政手段,依靠法律和行業(yè)互助來(lái)限制這種不良行為;二是利用技術(shù)手段,防范于未然。兩者相比,利用技術(shù)手段是目前最佳的防范欺詐手段。實(shí)踐證明較為有效的有NCR公司開(kāi)發(fā)的Teradata數(shù)據(jù)倉(cāng)庫(kù)。Taniguchi等學(xué)者也提出了三種欺詐偵測(cè)方法。國(guó)內(nèi)對(duì)這種防病患欺詐主要采用的還是行政手段。夏宏等認(rèn)為要加強(qiáng)法律法規(guī)建設(shè),完善醫(yī)療保險(xiǎn)制度等措施。李連友等梳理了相關(guān)制度,指出應(yīng)該做一些實(shí)證研究。楊鶴標(biāo)等提出了基于概率分布的異常檢測(cè)模型,但該模型只能應(yīng)用于已結(jié)束治療且有醫(yī)療欺詐嫌疑的情況。

        綜上可知,國(guó)內(nèi)對(duì)防病患欺詐問(wèn)題的研究處于起步階段,需要一種技術(shù)為作為重要手段來(lái)解決目前存在的病患欺詐問(wèn)題。與此同時(shí),貝葉斯分類(lèi)以其簡(jiǎn)單,高效與準(zhǔn)確等特點(diǎn),在一些實(shí)際的事例里得到了廣泛的研究與應(yīng)用。本文嘗試運(yùn)用貝葉斯的相關(guān)理論與方法建立防病患欺詐模型,對(duì)未知類(lèi)別屬性的患者進(jìn)行預(yù)測(cè),識(shí)別有欺詐趨向的病患。為相關(guān)醫(yī)療部門(mén)有針對(duì)性地采取處理措施,防范病患欺詐行為的發(fā)生,減少欺詐行為帶來(lái)的經(jīng)濟(jì)損失提供理論支持。

        1模型構(gòu)建

        客戶的數(shù)據(jù)主要包括兩種:靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)指的是通常不會(huì)改變的數(shù)據(jù),如客戶的基本信息等。動(dòng)態(tài)數(shù)據(jù)指的是經(jīng)?;蚨ㄆ诟淖兊臄?shù)據(jù)信息,如每月消費(fèi)金額,交費(fèi)記錄等。由于社會(huì)對(duì)人的隱私權(quán)的尊重,現(xiàn)在患者的手續(xù)已趨于簡(jiǎn)單化,一般只需提供證件號(hào)碼和地址即可辦理,所以現(xiàn)在相關(guān)部門(mén)所擁有的客戶基本信息已經(jīng)很簡(jiǎn)單,很難從中發(fā)現(xiàn)對(duì)欺詐分析有價(jià)值的信息。而動(dòng)態(tài)數(shù)據(jù)反映的是具體行為,往往可能隱藏一些行為特征,所以應(yīng)從動(dòng)態(tài)數(shù)據(jù)中進(jìn)行挖掘,嘗試從中發(fā)現(xiàn)欺詐行為的一些規(guī)律和特征。通過(guò)對(duì)欺詐行為的具體分析,本文得出貝葉斯分類(lèi)模型所需要的訓(xùn)練樣本集的各屬性(如表1)。

        模型建立如下:

        (1)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X=x1,x2,…xn表示,分別描述對(duì)n個(gè)屬性A1,A2,…,An樣本的n個(gè)度量,即為病患設(shè)定的基本屬性例如年齡、出生,消費(fèi)金額等。

        (2)假定有m個(gè)類(lèi)C1,C2,…Cm。給定一個(gè)未知的數(shù)據(jù)樣本X(即沒(méi)有類(lèi)標(biāo)號(hào)),分類(lèi)法將預(yù)測(cè)X屬于具有最高后驗(yàn)概率(條件X下)的類(lèi)。即貝葉斯分類(lèi)將未知的樣本分配給類(lèi)Ci,當(dāng)且僅當(dāng)PCiX>PCjX,1≤j≤m,j≠i。

        則,最大化PCiX。其PCiX最大的類(lèi)Ci稱為最大后驗(yàn)假定??傻茫?/p>

        PCiX=PXCiPCiPX

        (1)

        (3)由于P(X)對(duì)于所有類(lèi)為常數(shù),只需要P(X|Ci)P(Ci)最大即可。如果類(lèi)的先驗(yàn)概率未知,則通常假定這些類(lèi)是等概率的,即P(C1)=P(C2)=…=P(Cm)。并據(jù)此只對(duì)PXCi最大化。否則,最大化P(X|Ci)P(Ci)。類(lèi)的先驗(yàn)概率可以用PCi=sis計(jì)算,其中si是類(lèi)Ci中的訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù)。

        (4)給定具有許多屬性的數(shù)據(jù)集,計(jì)算PXCi的開(kāi)銷(xiāo)可能非常大。為降低計(jì)算PXCi的開(kāi)銷(xiāo),在下面的模型中我們做了類(lèi)條件獨(dú)立的假定。給定樣本的類(lèi)標(biāo)號(hào),假定屬性值相互條件獨(dú)立,即在屬性間,不存在依賴關(guān)系。這樣,

        PXCi=∏nk=1PxkCi(2)

        概率PX1Ci,PX2Ci,…PXnCi可以由訓(xùn)練樣本估值,其中Ak是分類(lèi)屬性, PXkCi=siksi,其中sik是在屬性Ak上具有值Xk的類(lèi)Ci的樣本數(shù),而si是Ci中的訓(xùn)練樣本數(shù)。

        (5)為對(duì)未知樣本X分類(lèi),對(duì)每個(gè)類(lèi)Ci,計(jì)算PXCiPCi。樣本X被指派到類(lèi)Ci,當(dāng)且僅當(dāng)

        PXCiPCi>PXCjPCj,1≤j≤m,j≠i。

        即X被指派到其PXCiPCi最大的類(lèi)Ci。

        2實(shí)驗(yàn)研究

        在射陽(yáng)中醫(yī)院相關(guān)工作人員幫助下,獲得了大約2000條病患的數(shù)據(jù)。

        2.1數(shù)據(jù)預(yù)處理

        首先把獲得的數(shù)據(jù)通過(guò)數(shù)據(jù)清理數(shù)據(jù)轉(zhuǎn)換形成滿足屬性表1所示的各類(lèi)樣本數(shù)據(jù)集,為實(shí)驗(yàn)做好準(zhǔn)備。把樣本數(shù)據(jù)集分為兩個(gè)部分:一部分用來(lái)訓(xùn)練模型,其他數(shù)據(jù)用于對(duì)模型進(jìn)行修正和檢驗(yàn)。

        2.2實(shí)驗(yàn)過(guò)程

        參照了相關(guān)資料,貝葉斯分類(lèi)對(duì)于多屬性的數(shù)據(jù)集計(jì)算量會(huì)比較大。為降低計(jì)算復(fù)雜度,我們做了獨(dú)立性假設(shè),同時(shí)選取15個(gè)訓(xùn)練樣本(見(jiàn)表2)。通過(guò)分析訓(xùn)練數(shù)據(jù),得出Age的三個(gè)離散值分別為<20,20~50,>50;Jy(Freq)的三個(gè)離散值分別為low,medium,high;Yh(Ratio)的三個(gè)離散值分別為<20,20~40,>40;Bh(Grade)的三個(gè)離散值分別為fair,excellent,bad。

        設(shè)C1對(duì)應(yīng)Is(Fraud)=“yes”,C2對(duì)應(yīng)Is(Fraud)=“no”。待分類(lèi)未知樣本為:

        X=(Age=“20~50”,JY=“medium”,YH=“<20”,BH=“fair”)。則由P(Ci|X)=P(X|Ci)P(Ci)P(X)可知,P(X)為常量,需要計(jì)算P(X|Ci)P(Ci)。然后比較值,取最大的Ci即為樣本的類(lèi)標(biāo)識(shí)屬性。

        首先計(jì)算先驗(yàn)概率P(Ci),i=1,2。

        P(C1)=P(Is_Fraud="yes")=7/15=0.47

        P(C2)=P(Is_Fraud="no")=8/15=0.54

        然后計(jì)算P(X|Ci),i=1,2。為了計(jì)算它,需要計(jì)算以下條件概率:

        P(X1|C1)=P(Age="20~50"|Is_Fraud="yes")=043

        P(X1|C2)=P(Age="20~50"|Is_Fraud="no")=013

        P(X2|C1)=P(Jy="medium"|Is_Fraud="yes")=029

        P(X2|C2)=P(Jy="medium"|Is_Fraud="no")=013

        P(X3|C1)=P(Yh="<20"|Is_Fraud="yes")=014

        P(X3|C2)=P(Yh="<20"|Is_Fraud="no")=0.75

        P(X4|C1)=P(Bh="fair"|Is_Fraud="yes")=0.43

        P(X4|C2)=P(Bh="fair"|Is_Fraud="no")=0.38

        可得:

        P(X|C1)=P(X1|C1)P(X2|C1)P(X3|C1)P(X4|C1)=P(X|Is_Fraud="yes")

        =0.43*0.29*0.14*0.43=0.0075

        P(X|C1) =P(X1|C2)P(X2|C2)P(X3|C2)P(X4|C2)

        =P(X|Is_Fraud="no")=0.13*0.13*0.75*0.38=0.0048

        P(X|C1)P(C1)

        =P(X|Is_Fraud="yes")P(Is_Fraud="yes")

        =0.0075*0.47=0.0035

        P(X|C2)P(C2)

        =P(X|Is_Fraud="no")P(Is_Fraud="no")=0.0048*0.53=0.0025

        顯然P(X|C1)P(C1)>P(X|C2)P(C2),所以預(yù)測(cè)得到該樣本的類(lèi)別屬性是Is_Fraud="yes"。

        2.3程序?qū)崿F(xiàn)

        因C++面向?qū)ο蟮膬?yōu)點(diǎn),用其編寫(xiě)了子程序BaysClass來(lái)實(shí)現(xiàn)上述模型的功能,工作流程見(jiàn)圖1。具體效果如圖2。

        數(shù)組變量p1用來(lái)存儲(chǔ)測(cè)試樣本集中如果類(lèi)標(biāo)識(shí)屬性“Is_Fraud”=“yes”時(shí)不同字段取得不同值時(shí)的條件概率;數(shù)組變量p2用來(lái)存儲(chǔ)測(cè)試樣本集中如果類(lèi)標(biāo)識(shí)屬性“Is_Fraud”=“no”時(shí)不同字段取得不同值時(shí)的條件概率;數(shù)組變量q1用來(lái)存儲(chǔ)測(cè)試樣本集中如果類(lèi)標(biāo)識(shí)屬性“Is_Fraud”=“yes”時(shí)不同字段取得不同值時(shí)的條件概率值的積;數(shù)組變量q2用來(lái)存儲(chǔ)測(cè)試樣本集中如果類(lèi)標(biāo)識(shí)屬性“Is_Fraud”=“no”時(shí)不同字段取得不同值時(shí)的條件概率值的積。

        2.4性能測(cè)試

        準(zhǔn)確率是用來(lái)衡量某個(gè)分類(lèi)模型對(duì)整個(gè)數(shù)據(jù)集分類(lèi)的準(zhǔn)確程度。在病患實(shí)際應(yīng)用中,相比有欺詐趨向的病患和正常病患,我們更關(guān)心有欺詐趨向的病患,從這個(gè)方面來(lái)講,命中率更能衡量此類(lèi)模型的優(yōu)劣。其定義分別說(shuō)明如下:

        準(zhǔn)確率=預(yù)測(cè)正確的記錄數(shù)/全部記錄數(shù)

        命中率=被準(zhǔn)確預(yù)測(cè)為某個(gè)類(lèi)別的記錄數(shù)/預(yù)測(cè)出為此類(lèi)別的記錄數(shù)

        由于k-折交叉確認(rèn)方法的優(yōu)點(diǎn),本文選擇10-折交叉法對(duì)模型進(jìn)行評(píng)估(k取10具有相對(duì)低的偏置和方差[10])。

        共取1000個(gè)數(shù)據(jù)作為測(cè)試數(shù)據(jù),其中欺詐病患共計(jì)256個(gè),正常病患744個(gè)。256/744=0.34。把這些數(shù)據(jù)分為10個(gè)大小不等且互不相交的子集:S1,S2,….,S10。其中每個(gè)子集的欺詐病患/正常病患都接近0.43。測(cè)試的結(jié)果見(jiàn)表3,表4。

        3結(jié)束語(yǔ)

        本文建立了基于貝葉斯的防病患欺詐模型,通過(guò)程序進(jìn)行了實(shí)驗(yàn),并對(duì)其性能進(jìn)行評(píng)估。需要說(shuō)明的是,經(jīng)模型分析出患者有異常行為不一定說(shuō)明該患者就發(fā)生了欺詐行為,正?;颊哂袝r(shí)也會(huì)因一些特殊的原因或突發(fā)事件而表現(xiàn)出異常行為。故模型測(cè)試結(jié)果僅作為相關(guān)醫(yī)藥部門(mén)進(jìn)行防病患欺詐的輔助手段,為其有針對(duì)性的進(jìn)行跟蹤,節(jié)省社會(huì)資源提供幫助。

        本模型在訓(xùn)練樣本集屬性的選擇上主要是分析了個(gè)人病患的就醫(yī)行為,下一步將會(huì)以病患種類(lèi)作為分析對(duì)象,并將現(xiàn)有程序延伸成為一個(gè)系統(tǒng)繼續(xù)完善。

        參考文獻(xiàn)

        [1]Taniguchi M, Haft M, Hollmen J, et al. Fraud detection in communication networks using neural and probabilistic methods. In Proceedings of The 1998 IEEE International Conference in Acoustics[C]//Speech and Signal Processing, 1998:12411244.

        [2]夏宏,汪凱,張守春.醫(yī)療保險(xiǎn)中的欺詐與反欺詐[J].現(xiàn)代預(yù)防醫(yī)學(xué), 2007,34(20):39073908.

        [3]Li Lianyou,Shen Chunyu.On overview of researches on fraud in Chinas social health insurance system[J].Journal of Xiangtan University,2009,(06):7175.

        [4]楊鶴標(biāo), 史曉麗.基于概率分布的臨床行為檢測(cè)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(8):28573860.

        [5]王玨,楊鶴標(biāo).序列挖掘在臨床行為模式發(fā)現(xiàn)中的應(yīng)用研究[D].江蘇大學(xué),2008.

        [6]陳朝大,梁柱勛,鄭士基.一種利用關(guān)聯(lián)規(guī)則的改進(jìn)樸素貝葉斯分類(lèi)算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010, 19(11):106109.

        [7]廖陽(yáng).基于拓展貝葉斯決策模型的云計(jì)算類(lèi)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)實(shí)證[J].統(tǒng)計(jì)與決策,2013(24):179182.

        [8]郭剛正.貝葉斯方法在決策分析中的應(yīng)用[J].統(tǒng)計(jì)與決策,2013(16):6769.

        [9]王姝音,印桂生,湛浩旻等.網(wǎng)構(gòu)軟件系統(tǒng)中實(shí)體協(xié)作的貝葉斯博弈分析[J].計(jì)算機(jī)工程,2014,40(2):5257.

        [10]肖可礫,熊輝.數(shù)據(jù)挖掘在金融欺詐檢測(cè)和預(yù)防中的應(yīng)用[J].金融電子化,2010,(8):8990.

        免费观看在线一区二区| 黑人巨大白妞出浆| 伊人99re| 人妻少妇精品视频一区二区三区| 一区二区视频在线国产| 亚洲精品色午夜无码专区日韩 | 一本久久a久久免费综合| 午夜福利啪啪片| 亚洲AV秘 无码一区二p区三区| 日本一区二区三区一级免费| 国产嫩草av一区二区三区| 中文字幕久久久人妻无码| 国产亚洲日韩欧美久久一区二区| 日本韩国黄色三级三级| 成人免费av色资源日日| 欧美牲交a欧美牲交aⅴ免费真| 精品人妻少妇一区二区不卡| 厕所极品偷拍一区二区三区视频| 久久精品蜜桃亚洲av高清| 日本精品无码一区二区三区久久久| 国产成人精品日本亚洲18| 久久精品国产亚洲av热一区| 就爱射视频在线视频在线| 亚洲av无码一区二区三区不卡| 精品国产91天堂嫩模在线观看| 国产99视频一区二区三区| 美女视频黄是免费| 日韩少妇激情一区二区| 精品国产AⅤ一区二区三区V免费| 久久精品国产亚洲av天美| 国产乱妇无乱码大黄aa片| 91spa国产无码| 中文字幕乱码亚洲美女精品一区| 青青草精品视频在线播放| 精品国模一区二区三区| 久久亚洲第一视频黄色| 国产精品久久av色婷婷网站| 亚洲av无码国产精品永久一区| 午夜国产在线| 成人激情视频一区二区三区 | 亚洲 日韩 激情 无码 中出|