亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計(jì)分析和AGNES算法的醫(yī)保欺詐行為自動(dòng)檢測(cè)研究

        2018-12-08 09:29:34黃陽(yáng)彭濤劉偉
        關(guān)鍵詞:粒子群優(yōu)化算法統(tǒng)計(jì)分析

        黃陽(yáng) 彭濤 劉偉

        摘要:結(jié)合深圳市某三甲醫(yī)院一個(gè)月真實(shí)數(shù)據(jù),對(duì)醫(yī)保欺詐行為進(jìn)行研究。方法:(1)了解原始數(shù)據(jù)中各屬性的含義,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,采用數(shù)據(jù)挖掘的方法對(duì)數(shù)據(jù)進(jìn)行研究,分析詐騙行為。(2)對(duì)一個(gè)病人持有多張卡、單張卡多人使用、病人死后仍有拿藥記錄這三種欺詐手段開展統(tǒng)計(jì)分析。(3)以科室和醫(yī)生為對(duì)象進(jìn)行欺詐分析。結(jié)論:基于統(tǒng)計(jì)分析和AGNES聚類算法可以成功檢測(cè)出部分醫(yī)保欺詐行為。

        關(guān)鍵詞:醫(yī)保欺詐;統(tǒng)計(jì)分析;AGNES;粒子群優(yōu)化算法

        中圖分類號(hào):TP3016 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)08-0114-03

        隨著社會(huì)保障信息系統(tǒng)的廣泛應(yīng)用和醫(yī)保制度推廣范圍的擴(kuò)大,醫(yī)保數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)別的增長(zhǎng)。這些數(shù)據(jù)中蘊(yùn)含著醫(yī)保行業(yè)極其重要的資金信息,此外,還有病人的就診信息、醫(yī)生的醫(yī)囑信息、病癥的治療方案、就診費(fèi)用等。如果這些數(shù)據(jù)能夠被挖掘出來(lái)加以利用,將對(duì)醫(yī)療行業(yè)具有重要意義??墒牵壳皣?guó)內(nèi)對(duì)這些重要的民生數(shù)據(jù)只能做一些簡(jiǎn)單的處理,例如增加、修改、圖表顯示,沒有進(jìn)行深層次的數(shù)據(jù)分析。

        國(guó)外的醫(yī)保行業(yè)起步較早,醫(yī)保檢測(cè)研究較為深入,數(shù)據(jù)挖掘技術(shù)在國(guó)外醫(yī)療保險(xiǎn)行業(yè)的應(yīng)用日益廣泛。但目前國(guó)外大多數(shù)更加側(cè)重于在數(shù)據(jù)挖掘中使用的技術(shù)方法,很少與醫(yī)保欺詐者進(jìn)行聯(lián)系。如何利用醫(yī)保數(shù)據(jù),分析其中的隱含信息,找出不同醫(yī)保欺詐行為的特征,設(shè)計(jì)不同的檢測(cè)方法就變得尤為重要。

        1 基于統(tǒng)計(jì)分析的醫(yī)保欺詐行為識(shí)別

        1.1 數(shù)據(jù)來(lái)源

        本文數(shù)據(jù)來(lái)源于深圳市某三甲醫(yī)院一個(gè)月的真實(shí)數(shù)據(jù)。在所提供的數(shù)據(jù)集中,包括病人資料數(shù)據(jù)58017條,費(fèi)用明細(xì)數(shù)據(jù)289799條,醫(yī)囑項(xiàng)目數(shù)據(jù)29434條,醫(yī)囑子類數(shù)據(jù)215條,核算分類58條,患者費(fèi)別29條,本文主要研究病人資料表與費(fèi)用明細(xì)表。

        1.2 數(shù)據(jù)預(yù)處理

        原始數(shù)據(jù)中包含了諸多屬性和復(fù)雜的關(guān)系,而且存在很多屬性缺少數(shù)據(jù)。為了讓數(shù)據(jù)更適合挖掘,算法的執(zhí)行效率更高,在進(jìn)行數(shù)據(jù)分析之前,需要先進(jìn)行數(shù)據(jù)預(yù)處理。

        本文對(duì)數(shù)據(jù)預(yù)處理的具體步驟如下:

        (1)數(shù)據(jù)準(zhǔn)備階段。將Excel表格中的數(shù)據(jù)導(dǎo)入到MySQL中,生成對(duì)應(yīng)的表。

        (2)醫(yī)保卡號(hào)為1的病人是普通病人,這類病人不存在欺詐嫌疑,所以用函數(shù)delete_PAPMI_IDNAME3_1()去刪除醫(yī)??╥d為1的數(shù)據(jù),得到pa_patmas_new表。

        (3)用函數(shù)delete_dhc_workload_not_in_pa_patmas_new()刪除藥費(fèi)明細(xì)表dhc_workload中病人ID不在pa_patmas_new中的數(shù)據(jù),得到dhc_workload_new表。

        (4)對(duì)藥費(fèi)明細(xì)表進(jìn)行降維處理,去除其他無(wú)關(guān)屬性,使用函數(shù)create_bills()創(chuàng)建新的賬單表bills,該表有賬單號(hào)、病人ID、部門ID、醫(yī)生ID、總費(fèi)用、拿藥次數(shù)6個(gè)屬性。其中,總費(fèi)用和拿藥次數(shù)是判斷是否有欺詐行為的直接因素,科室、醫(yī)生和病人也可能存在合伙欺詐的行為,所以引入部門ID和醫(yī)生ID進(jìn)行分析。

        (5)由于dhc_workload_new表中同一個(gè)賬單號(hào)擁有多條記錄,我們需要將同一個(gè)賬號(hào)的多條記錄合并為同一條記錄。根據(jù)賬單號(hào)進(jìn)行分類,統(tǒng)計(jì)每個(gè)賬單號(hào)的總費(fèi)用,使用函數(shù)insert_bills_some_ data()插入賬單號(hào)、病人ID、科室ID、醫(yī)生ID、總費(fèi)用。使用函數(shù)insert_times()統(tǒng)計(jì)每個(gè)病人ID的購(gòu)藥次數(shù)。

        (6)最后采用函數(shù)standardData(),將數(shù)據(jù)矩陣標(biāo)準(zhǔn)化為0或1。

        經(jīng)過(guò)預(yù)處理后,得到bills表數(shù)據(jù)一共54113條。數(shù)據(jù)預(yù)處理流程如圖1所示:

        1.3 統(tǒng)計(jì)分析

        對(duì)預(yù)處理后的數(shù)據(jù),運(yùn)用統(tǒng)計(jì)分析方法判斷是否存在一個(gè)病人持有多張卡、單張卡多人使用和病人死后仍有拿藥等欺詐行為。

        1.3.1 一個(gè)病人持有多張卡

        將新生成的病人資料表pa_patmas_new按照病人ID進(jìn)行分組,然后統(tǒng)計(jì)每個(gè)病人擁有的醫(yī)??ǖ臄?shù)量,最后將擁有多張卡的病人ID和醫(yī)保卡號(hào)打印出來(lái)。

        檢測(cè)結(jié)果:該數(shù)據(jù)集中無(wú)病人持有多張卡。

        1.3.2 單張卡多人使用

        對(duì)pa_patmas_new表按照醫(yī)??ㄌ?hào)進(jìn)行分組,然后統(tǒng)計(jì)每一組病人的個(gè)數(shù),最后將使用人數(shù)大于1的病人ID和醫(yī)??ㄌ?hào)打印出來(lái)。

        檢測(cè)結(jié)果:一共找到186張醫(yī)??ū恢辽賰蓚€(gè)人重復(fù)使用,375個(gè)病人之間存在2個(gè)或者3個(gè)共用一張卡。

        1.3.3 病人死后仍有拿藥記錄

        部分病人在死后,醫(yī)??ㄈ匀焕^續(xù)被使用。針對(duì)這一欺詐手段,首先需要在病人資料表pa_patmas_new中找到被標(biāo)注為死亡的病人,查詢出已經(jīng)標(biāo)注死亡的病人ID,醫(yī)??ㄌ?hào),死亡日期,然后在費(fèi)用明細(xì)表dhc_workload_new中找到該病人的拿藥記錄,比較醫(yī)囑日期與死亡日期的前后,判斷此條消費(fèi)記錄是否有欺詐。

        檢測(cè)結(jié)果:pa_patmas_new表中一共有2位標(biāo)注為死亡,拿藥日期在死亡日期之后記錄均0條,不存在醫(yī)保欺詐。

        1.3.4 統(tǒng)計(jì)分析結(jié)論

        在一個(gè)病人持有多張卡、單張卡多人使用、病人死后仍有拿藥記錄這三種欺詐手段中,只有第二種欺詐手段有欺詐記錄。在pa_patmas_new中,總共有35651張醫(yī)???,有186張卡被至少兩個(gè)病人共同使用,占總卡數(shù)的0.52%。

        2 AGNES層次聚類算法及應(yīng)用

        2.1 使用粒子群算法求解屬性權(quán)重最優(yōu)解

        2.1.1 改進(jìn)歐式距離

        經(jīng)過(guò)預(yù)處理后數(shù)據(jù)集設(shè)為X={X1,X2,…,Xn},其中,n表示數(shù)據(jù)集的個(gè)數(shù),Xi(1≤ i ≤ n)由m個(gè)屬性組成,即Xi=(xi1,xi2,…,xim)。為了描述兩個(gè)樣本點(diǎn)Xp和Xq在數(shù)據(jù)集X上的相似度,通常使用歐式距離,一般定義為:

        考慮不同屬性對(duì)于聚類效果的影響,以此歐氏距離去計(jì)算兩個(gè)樣本點(diǎn)的距離,可能導(dǎo)致聚類分析的結(jié)果不準(zhǔn)確。故在歐式距離的計(jì)算公式中加入權(quán)重的概念,其定義為:

        2.1.2 屬性權(quán)重評(píng)價(jià)函數(shù)

        為了讓聚類的結(jié)果具有模糊性相對(duì)較小的性質(zhì),通過(guò)調(diào)整ω的值,使得分類的模糊程度盡量小,不相似的數(shù)據(jù)間距離更大,我們引入了屬性評(píng)價(jià)函數(shù),用來(lái)評(píng)價(jià)聚類結(jié)果的相似度,使得總體可以達(dá)到模糊性最小。通過(guò)求取該函數(shù)的最優(yōu)解,得到一組權(quán)重值。定義度量樣本點(diǎn)Xp和Xq的相似度的函數(shù)為Spq和,在普通的歐式距離下:

        2.1.3 粒子群優(yōu)化算法

        粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法是一種搜索算法,其基本步驟如下:

        (1)初始化粒子群中群體規(guī)模N,每個(gè)粒子的速度vi和粒子位置xi;(2)計(jì)算每個(gè)粒子的適應(yīng)度值Fit[i];(3)比較各粒子的適應(yīng)度值Fit[i]與個(gè)體極值Pbest[i],若Fit[i]>Pbest[i],則Pbest[i]=Fit[i];(4)比較各粒子的適應(yīng)度值Fit[i]與全局極值gbest,如果Fit[i]>gbest[i],則gbest=Fit[i];(5)更新粒子的速度vi和位置xi;(6)如果誤差足夠好或者達(dá)到最大循環(huán)次數(shù),則程序退出。否則返回步驟2。

        通過(guò)計(jì)算,最終各屬性權(quán)重的分布情況如圖2所示。

        由圖2可知,醫(yī)保欺詐行為與賬單的總費(fèi)用和拿藥次數(shù)關(guān)系較大。

        2.2 AGNES聚類算法

        AGNES(Agglomerative Nesting) 是凝聚型層次聚類算法的一種,通過(guò)合并距離較近的簇、自底向上逐步進(jìn)行數(shù)據(jù)聚類。本文在運(yùn)用AGNES算法中,在計(jì)算類距離公式時(shí)采用平均距離:

        在公式7中|Ci|表示類i中樣本的數(shù)目,|p-q|表示樣本p,q之間的距離。

        AGNES算法的基本步驟如下:

        (1)將數(shù)據(jù)集每個(gè)樣本都當(dāng)做一個(gè)類,放入集合C中,計(jì)算任意兩個(gè)類之間的距離,設(shè)置聚類后的類的個(gè)數(shù)k;(2)得到當(dāng)前類的個(gè)數(shù)m;(3)找到當(dāng)前距離最近的兩個(gè)類ci和cj,并合并成一個(gè)類,計(jì)算新類與其他類的距離;(4)m大于k時(shí),重復(fù)2、3。否則、返回集合C。

        算法流程如圖3所示。

        2.3 聚類結(jié)果分析

        將經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)運(yùn)用到AGNES算法中,考慮到內(nèi)存溢出等問(wèn)題,我們以5000個(gè)數(shù)據(jù)為一組,分別對(duì)其進(jìn)行聚類。由于層級(jí)聚類缺乏目標(biāo)函數(shù),我們將k從[2,15]聚類結(jié)果顯示出來(lái),從而判斷最佳聚類數(shù),總共檢測(cè)出疑似欺詐點(diǎn)109個(gè),部分疑似欺詐點(diǎn)如表1所示。

        同樣以科室和醫(yī)生為對(duì)象進(jìn)行分析,在本次檢測(cè)結(jié)果中,科室191以64次地高次數(shù)的出現(xiàn),另外科室423也有22次。因此,這兩個(gè)科室很有可能存在為了自身利益騙取醫(yī)?;鸬男袨?。在本次檢測(cè)結(jié)果中,檢測(cè)結(jié)果中醫(yī)生出現(xiàn)醫(yī)保欺詐中。醫(yī)生次數(shù)較多的有1180(23次)、2928(8次)、1060(7次)、794(6次)、1028(6次),總共50次,在本次檢測(cè)結(jié)果中占46%。與醫(yī)生1180相關(guān)的數(shù)據(jù)占總數(shù)據(jù)的21%,醫(yī)生1180給病人452114、病人230476、病人523612的拿藥次數(shù)分別是21、20和18,遠(yuǎn)遠(yuǎn)超過(guò)正常水平。另外,給病人191054一次性拿藥價(jià)格1338.08元。醫(yī)生2928的數(shù)據(jù)中,要么病人的費(fèi)用為負(fù)數(shù),要么病人單次拿藥記錄高昂,表明該數(shù)據(jù)也存在異常,有待進(jìn)一步人工審查。

        3 結(jié)語(yǔ)

        本文對(duì)預(yù)處理后的醫(yī)院真實(shí)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,針對(duì)一個(gè)病人持有多張卡、單張卡多人使用、病人死后仍有拿藥記錄這三種欺詐手段設(shè)計(jì)相應(yīng)的檢測(cè)函數(shù)。其中檢測(cè)到一個(gè)病人持有多張卡0條記錄,單張卡被多人使用的醫(yī)??ü?86張,病人死后仍有拿藥的記錄為0條;采用AGNES對(duì)數(shù)據(jù)進(jìn)行聚類分析,檢測(cè)疑似欺詐點(diǎn)109個(gè),分析了檢測(cè)結(jié)果中的部門ID和醫(yī)生ID與欺詐行為的關(guān)系。

        本文應(yīng)用統(tǒng)計(jì)分析與AGNES聚類對(duì)比分析,通過(guò)在聚類過(guò)程中引入屬性權(quán)重能夠分析不同屬性的對(duì)聚類的影響程度,有效提高了聚類效果,避免了主觀評(píng)價(jià)對(duì)分類的影響。不足之處在于選取的算法時(shí)間復(fù)雜度和空間復(fù)雜度都較大,運(yùn)行時(shí)間較長(zhǎng),在今后的工作中將進(jìn)一步優(yōu)化和完善。

        參考文獻(xiàn)

        [1]陳真,秦偉,徐緒堪,房道偉.大數(shù)據(jù)環(huán)境下醫(yī)保數(shù)據(jù)監(jiān)測(cè)和預(yù)警模型構(gòu)建[J].現(xiàn)代商業(yè),2014,(20):101-103.

        [2]史徑宇,冉松靈,李晨萍.醫(yī)保欺詐行為的主動(dòng)發(fā)現(xiàn)——基于引進(jìn)指標(biāo)權(quán)重的聚類分析算法[J].數(shù)學(xué)建模及其應(yīng)用,2016,5(01):54-59.

        [3]李華,陳寧江.基于PSO的WFCM算法研究及其在醫(yī)保欺詐行為發(fā)現(xiàn)中的應(yīng)用[J].廣西科學(xué)院學(xué)報(bào),2017,33(01):32-39.

        [4]Musal, R. M. Two models to investigate medicare fraud within unsupervised databases [J].Expert Systems with Applications,2010,37(12):8628-8633.

        [5]楊維,李歧強(qiáng).粒子群優(yōu)化算法綜述[J].中國(guó)工程科學(xué),2004,(05):87-94.

        猜你喜歡
        粒子群優(yōu)化算法統(tǒng)計(jì)分析
        基于改進(jìn)SVM的通信干擾識(shí)別
        基于自適應(yīng)線程束的GPU并行粒子群優(yōu)化算法
        基于混合粒子群算法的供熱管網(wǎng)優(yōu)化設(shè)計(jì)
        基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
        財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的統(tǒng)計(jì)研究
        叩診質(zhì)量,促進(jìn)數(shù)學(xué)有效教學(xué)
        如何發(fā)揮新時(shí)期統(tǒng)計(jì)工作的作用之我見
        企業(yè)固定資產(chǎn)分析存在問(wèn)題及對(duì)策分析
        以統(tǒng)計(jì)分析為基礎(chǔ)的房地產(chǎn)稅收優(yōu)化分析
        SPSS在高校圖書館服務(wù)體系中的應(yīng)用研究
        科技視界(2016年20期)2016-09-29 11:18:30
        久久亚洲AV成人一二三区| 国内精品久久人妻性色av| 日韩一区三区av在线| 18禁止看的免费污网站| 亚洲av无码国产精品色午夜软件| 日韩中文字幕有码午夜美女| 成人精品一区二区三区电影| 老太脱裤子让老头玩xxxxx| 久久精品国产www456c0m| 亚洲色大网站www永久网站| 亚洲午夜久久久久中文字幕| 天堂精品人妻一卡二卡| 少妇又色又爽又高潮在线看| 永久天堂网av手机版| 99蜜桃在线观看免费视频网站| 乱伦一区二| 免费人成视频欧美| 熟妇人妻精品一区二区视频| 一区二区三区人妻少妇| 内射人妻视频国内| 精品88久久久久88久久久| 国产精品日韩中文字幕| 国产91久久麻豆黄片| 又黄又硬又湿又刺激视频免费| 国产女人高潮视频在线观看| 国产97色在线 | 免| 亚洲国产成a人v在线观看| 无码91 亚洲| 亚洲性av少妇中文字幕| 国产激情久久久久影院小草| 免费久久人人爽人人爽av| 欧美性久久| 国产一区二区三区视频免费在线| 国产毛片三区二区一区| 三级网站亚洲三级一区| 久久伊人精品一区二区三区| 国产一区日韩二区欧美三区| 国产亚洲精品成人av在线| 少妇一级淫片中文字幕| av无码免费永久在线观看| 亚洲AV无码日韩综合欧亚 |