尹菊芳+韓雪
摘 要 考慮到病人醫(yī)保欺詐的多種可能性,本文采用主成分分析和聚類分析方法建立病人欺詐可疑度評(píng)價(jià)模型,對(duì)病人是否存在欺詐行為作出分析和判別。
關(guān)鍵詞 主成分分析 聚類分析 醫(yī)保欺詐 防范
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkx.2017.12.069
Abstract Considering the many possibilities of patient's medical insurance and fraud, this paper uses principal component analysis and cluster analysis to establish the evaluation model of suspicious patients fraud, and analyzes and discriminates the patients' fraud.
Keywords principal component analysis; cluster analysis; medicare and fraud; prevent
0 引言
隨著醫(yī)改的不斷深入,醫(yī)療保障體系不斷拓展覆蓋保障人群,做好醫(yī)保欺詐的防范,尤其是在規(guī)范醫(yī)療行為方面顯得尤為重要。在有關(guān)機(jī)構(gòu)的調(diào)查中顯示,過(guò)度醫(yī)療,分解住院,冒用出借醫(yī)保卡,虛假收費(fèi)等為目前欺詐比例最大的幾個(gè)手段。本文將針對(duì)以深圳某醫(yī)院一個(gè)月的35810個(gè)患者記錄為例分析醫(yī)保欺詐行為。根據(jù)病人單月內(nèi)消費(fèi)次數(shù)、消費(fèi)金額、購(gòu)藥數(shù)量、購(gòu)藥種類及病人醫(yī)??ǖ氖褂萌藬?shù)等,采用主成分分析和聚類分析方法,找出可能存在欺詐行為的記錄。
1 數(shù)據(jù)處理
1.1 指標(biāo)變量的選取
目前社會(huì)上醫(yī)保欺詐的手段多種多樣,總體來(lái)說(shuō)可歸結(jié)為6種情況:拿著別人的醫(yī)保卡配藥,即一張醫(yī)??ū欢鄠€(gè)人使用;單次消費(fèi)特別高,一個(gè)病人對(duì)應(yīng)一個(gè)或多個(gè)賬單,這些賬單的費(fèi)用有高有低,選取其中最高的費(fèi)用作為一個(gè)考評(píng)指標(biāo);一張卡在一定時(shí)間內(nèi)反復(fù)多次拿藥;某段時(shí)間內(nèi)消費(fèi)總金額過(guò)高;某次購(gòu)藥數(shù)量很多;某段時(shí)間內(nèi)反復(fù)購(gòu)買大量藥品。
因此我們選取6種評(píng)價(jià)指標(biāo)進(jìn)行主成分分析:對(duì)應(yīng)的醫(yī)??ㄊ褂萌藬?shù)();單次最高消費(fèi)金額();單月消費(fèi)次數(shù)();消費(fèi)總金額();購(gòu)買藥品總數(shù)量();單次最大購(gòu)藥數(shù)量()。
1.2評(píng)價(jià)指標(biāo)標(biāo)準(zhǔn)化
對(duì)每個(gè)病人的各個(gè)指標(biāo)進(jìn)行打分。設(shè)定每個(gè)變量的滿分為10分,建立指標(biāo)評(píng)分模型:
病人的指標(biāo)變量具有不同的分?jǐn)?shù),分?jǐn)?shù)越高代表欺詐的可能性越大,分?jǐn)?shù)越低代表欺詐的可能性越小。例如,病人醫(yī)??ǖ氖褂萌藬?shù)是刻畫病人是否正常使用醫(yī)??ǖ囊粋€(gè)重要指標(biāo),即病人的醫(yī)保卡使用人數(shù)越多,則病人欺詐的可能性越大。對(duì)于指標(biāo),病人醫(yī)??ǖ氖褂萌藬?shù)可能有三種情況,僅有一人使用,即 = 1;被兩個(gè)人使用,即 = 2;被三個(gè)人使用,即 = 3。按照上面指標(biāo)評(píng)分模型,可分別計(jì)算出相應(yīng)的:
2 主成分分析
2.1 KMO和 Barrtlett的檢驗(yàn)
使用SPSS軟件對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行KMO和Barrtlett的檢驗(yàn):
由表1可以看出Barrtlett檢驗(yàn)統(tǒng)計(jì)量為950.662,相應(yīng)的Sig為0.000,相關(guān)系數(shù)矩陣與單位陣有顯著差異,此假設(shè)被拒絕,同時(shí),KMO值為0.792,原有變量適合作主成分分析。
2.2 相關(guān)系數(shù)矩陣
相關(guān)系數(shù)矩陣是6個(gè)變量?jī)蓛芍g相關(guān)系數(shù)大小的方陣,反映了變量之間的相關(guān)系數(shù)大?。ㄒ姳?)。
2.3 公因子方差
公因子方差給出了主成分從原始變量中提取的信息(表3)。
可見,所有變量的共同方差均較高,各個(gè)變量的信息丟失都較少,因此本次主成分分析提取的總體效果較理想。
2.4 解釋的總方差
各因子旋轉(zhuǎn)前和旋轉(zhuǎn)后的特征值、方差貢獻(xiàn)率和累積方差貢獻(xiàn)率的計(jì)算結(jié)果如表4:
其中第一列是因子編號(hào),以后三列組成一組,每組中數(shù)據(jù)項(xiàng)的含義依次是特征值,方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。由解釋的總方差及特征值得碎石土圖可以知道第一主成分的方差是2.476,第二主成分的方差是1.434,第三主成分的方差是1.000。根據(jù)累計(jì)貢獻(xiàn)率超過(guò)80%的一般選取原則,主成分1、主成分2和主成分3的累計(jì)貢獻(xiàn)率已達(dá)到了81.682%的水平,表明原來(lái)6個(gè)變量反映的信息可由三個(gè)主成分反映81.682%,能夠反映主要信息, 主成分分析效果較理想。
2.5 成份得分系數(shù)矩陣
2.6 成份得分協(xié)方差矩陣
協(xié)方差是反映的變量之間的二階統(tǒng)計(jì)特性,如果變量之間的相關(guān)性很小,則所得的協(xié)方差矩陣幾乎是一個(gè)對(duì)角矩陣。這里得出的主成分的協(xié)方差矩陣是一個(gè)對(duì)角陣,則說(shuō)明3個(gè)主成分相關(guān)性很小。
提取方法:主成份。構(gòu)成得分。
3 K-means聚類分析
本文中使用SPSS19.0進(jìn)行K-means聚類分析,將聚類的類別取為4,代表四種可能的欺詐程度。
3.1 初始聚類中心
SPSS軟件會(huì)自動(dòng)選擇初始中心點(diǎn),從表7得知SPSS自動(dòng)選擇的第一聚類的初始中心點(diǎn)為12.32,第二聚類的初始中心點(diǎn)為16.51,第三聚類的初始中心點(diǎn)為-0.78, 第三聚類的初始中心點(diǎn)為6.66。
當(dāng)聚類中心內(nèi)沒有改動(dòng)或改動(dòng)較小而達(dá)到收斂。本文中當(dāng)?shù)螖?shù)達(dá)到50次時(shí),達(dá)到設(shè)定的閾值,聚類中心不再更改。
3.2 最終聚類中心
表8是由綜合得分聚類得來(lái)的最終聚類中心,可知第一聚類的中心為1.81,第二聚類的中心為5.32,第三聚類的中心為-0.46,第四聚類的中心為0.36.聚類中心的值,可描述病人欺詐的可能性大小,實(shí)際上,最終聚類中心的值越大,欺詐的可能性就越大.因此,可根據(jù)表8中的最終聚類中心的大小來(lái)確定最初定義的四類與聚類產(chǎn)生的四類之間的對(duì)應(yīng)關(guān)系.
3.3 每個(gè)聚類中的案例數(shù)
可見,第一個(gè)聚類的最終中心點(diǎn)為1.81,案例數(shù)為3318,即可能存在欺詐的行為的記錄為3318條,第二個(gè)聚類的最終中心點(diǎn)為5.32,案例數(shù)為260,即極可能存在欺詐行為的記錄為260條,第三個(gè)聚類的最終中心點(diǎn)為-0.46,案例數(shù)為23050,即不存在欺詐行為的記錄為23050條,第四個(gè)聚類的最終中心點(diǎn)為0.36,案例數(shù)為9182,即基本不存在欺詐行為的記錄為9182條。
4結(jié)論
由統(tǒng)計(jì)得知,未使用醫(yī)??ㄈ藬?shù)所占的比例為38.23%,使用醫(yī)??ǘ淮嬖谄墼p行為的所占的比例為39.73%,基本不存在欺詐行為的所占的比例為15.83%,可能存在欺詐行為的所占的比例為5.72%,極可能存在欺詐行為的所占的比例為0.49%,可能存在欺詐行為的和極可能存在欺詐行為的加起來(lái)共占6.21%,通過(guò)中華人民共和國(guó)人力資源和社會(huì)保障部官方網(wǎng)站的數(shù)據(jù)得知,中國(guó)的醫(yī)療欺詐比例約為6%,得出的結(jié)果與這個(gè)比例十分接近,由此可知的結(jié)果是基本可靠的。
參考文獻(xiàn)
[1] 劉喜化,魏超.我國(guó)社會(huì)醫(yī)療保險(xiǎn)欺詐研究綜述.東方論壇,2013(6).
[2] 何俊華.數(shù)據(jù)挖掘技術(shù)在醫(yī)保領(lǐng)域中的研究與應(yīng)用.計(jì)算機(jī)軟件與理論,2011.4.20.
[3] 梁欣強(qiáng).醫(yī)保系統(tǒng)中數(shù)據(jù)挖掘的應(yīng)用.電腦知識(shí)與技術(shù),2014(19).endprint