(北京交通大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100044)
目前我國老齡化程度日益增加,對于醫(yī)療保險(xiǎn)需求也越來越多,設(shè)立完善醫(yī)療保險(xiǎn)機(jī)構(gòu)是保證人們生活水平向更好方向發(fā)展基礎(chǔ),也是維護(hù)社會(huì)環(huán)境強(qiáng)大后盾。醫(yī)療保險(xiǎn)不但能夠改善人們生活水平,還會(huì)促進(jìn)我國經(jīng)濟(jì)向穩(wěn)定、可持續(xù)方向發(fā)展。該結(jié)構(gòu)建立目的是保障人們受到基本醫(yī)療保障需求,其包含了與人們?nèi)粘I钕嚓P(guān)養(yǎng)老、失業(yè)、醫(yī)療等范圍,通過醫(yī)療機(jī)構(gòu)向個(gè)人或單位籌集???,如果出現(xiàn)資金不足問題,政府還可提供專項(xiàng)資金來支撐。近幾年,醫(yī)療保險(xiǎn)行業(yè)快速發(fā)展,促使每3個(gè)人就會(huì)有1人具有醫(yī)療保險(xiǎn),同時(shí),醫(yī)保欺詐問題逐漸增多。由于欺詐行為多種多樣,盡管使用欺詐識(shí)別技術(shù),也很難保障每個(gè)人的醫(yī)療保險(xiǎn)都不會(huì)受到欺詐行為,無疑是對我國經(jīng)濟(jì)造成較大影響。犯罪人員通過保險(xiǎn)欺詐行為,違反相關(guān)法律法規(guī),獲取醫(yī)?;?,由于我國目前有關(guān)醫(yī)保安全整治工作發(fā)展較遲,導(dǎo)致能夠安全使用醫(yī)保人群較少,因此常常出現(xiàn)醫(yī)保欺詐行為[1-2]。醫(yī)保欺詐具有多種表現(xiàn)方式,其行為涉及到多種機(jī)構(gòu)或個(gè)體,由于欺詐行為會(huì)造成治療費(fèi)用增加,為此,需對失穩(wěn)網(wǎng)絡(luò)醫(yī)保信息欺詐行為進(jìn)行檢測。采用傳統(tǒng)檢測算法存在運(yùn)行時(shí)間長、效率低問題,無法保障患者醫(yī)療保險(xiǎn)使用安全。
針對傳統(tǒng)算法存在的問題,提出了基于隨機(jī)森林算法對失穩(wěn)網(wǎng)絡(luò)醫(yī)保信息欺詐行為進(jìn)行檢測。選擇分布點(diǎn)種類和實(shí)際應(yīng)用情況進(jìn)行分析,借鑒專家領(lǐng)域?qū)Ψ植键c(diǎn)進(jìn)行深入細(xì)致研究,通過實(shí)驗(yàn)對比結(jié)果可知,采用該算法可快速對違規(guī)記錄進(jìn)行識(shí)別,并且檢測效率較高。
結(jié)合醫(yī)保數(shù)據(jù)在網(wǎng)絡(luò)不穩(wěn)定條件下不平衡屬性,采用隨機(jī)森林算法對醫(yī)保信息欺詐行為進(jìn)行檢測。通過混合抽樣可保證非平衡數(shù)據(jù)在失穩(wěn)情況下平衡化處理,使用森林分類方式,經(jīng)過迭代運(yùn)算對數(shù)據(jù)進(jìn)行平衡化處理,通過分類性能對基分類器進(jìn)行選擇,進(jìn)而提高算法檢測準(zhǔn)確性,利用模型實(shí)現(xiàn)該算法對醫(yī)保信息欺詐檢測[3]。
1.1.1 隨機(jī)森林抽取數(shù)據(jù)
多個(gè)決策簇構(gòu)成了隨機(jī)森林集成算法,在每個(gè)簇進(jìn)行訓(xùn)練完成森林集合之前,需使用前端框架有放回的對數(shù)據(jù)進(jìn)行抽樣,從原始樣本數(shù)據(jù)中抽取數(shù)量相同樣本作為訓(xùn)練集合,經(jīng)過抽樣獲取的數(shù)據(jù)組成里包(inBag)樣本集合,將沒有抽取的樣本數(shù)據(jù)組成外包(outBag)樣本集合,其中里包(inBag)樣本集合為基分類器的訓(xùn)練子集[4]。隨機(jī)森林抽取數(shù)據(jù)獲取的訓(xùn)練集合流程如圖1所示。
圖1 隨機(jī)森林獲得訓(xùn)練子集流程圖
每次迭代運(yùn)算訓(xùn)練子集的數(shù)量與原始樣本數(shù)量一致,但是采用有放回的抽樣方式會(huì)出現(xiàn)數(shù)據(jù)被重復(fù)抽到的問題,為此,當(dāng)訓(xùn)練數(shù)據(jù)為非平衡數(shù)據(jù)時(shí),其數(shù)量差異性會(huì)導(dǎo)致原始樣本數(shù)據(jù)集合抽樣時(shí),少量樣本一次都沒有抽到。如果使用較少樣本訓(xùn)練子集作為基分類集合,將導(dǎo)致基分類器無法對樣本進(jìn)行識(shí)別,為此需構(gòu)建非平衡數(shù)據(jù)分類算法抽樣機(jī)制。
1.1.2 非平衡數(shù)據(jù)分類算法抽樣機(jī)制建立
通過對非平衡數(shù)據(jù)采用smote方式,即通過合成新的少數(shù)類樣本,對每個(gè)少數(shù)類樣本a,從它最近鄰中隨機(jī)選一個(gè)樣本b,然后在a、b之間連線上隨機(jī)選一個(gè)點(diǎn)作為新合成的少數(shù)類樣本。通過該方式增加樣本數(shù)量,可以有效保障數(shù)據(jù)擬合程度,為此在每次迭代運(yùn)算過程中,使用smote方式可對全部數(shù)據(jù)進(jìn)行重構(gòu),進(jìn)而解決樣本中不平衡問題。由于采用smote方式生成的新樣本存在隨機(jī)性,對于增加樣本差異性,需使用分類器進(jìn)行屬性互補(bǔ)[5]。經(jīng)過處理之后的隨機(jī)森林訓(xùn)練樣本子集算法具體流程如下所示:
設(shè)樣本輸入的初始集合為F,進(jìn)行隨機(jī)森林迭代運(yùn)算的次數(shù)為S;輸出的訓(xùn)練樣本子集為inBag、測試樣本子集為outBag,具體機(jī)制為:
1)通過對非平衡數(shù)據(jù)處理,采用smote方式對初始數(shù)據(jù)樣本集合進(jìn)行平衡化處理:
F=smote(F)
(1)
2)經(jīng)過步驟1)中獲取的相對平衡數(shù)據(jù)樣本集合,采用有放回抽樣方法獲取輸出訓(xùn)練樣本子集;
inBag=bootstrap(F)
(2)
3)將未抽取到的樣本子集作為測試樣本子集。
outBag=F-inBag
(3)
1.2.1 隨機(jī)森林組合基分類器特點(diǎn)
進(jìn)行迭代隨機(jī)森林?jǐn)?shù)據(jù)計(jì)算過程中,需按照相同方式來抽取子集,基分類器按照并行或獨(dú)立方式生成彼此之間聯(lián)系性,由于基分類數(shù)據(jù)地位是相同的,因此采用多數(shù)投票法構(gòu)建基分類器,如圖2所示。
圖2 隨機(jī)森林組合基分類器示意圖
由圖2可知:在隨機(jī)森林組合中對分類器進(jìn)行集成,不需考慮分類器自身屬性,如果分類器中的分類屬性較多時(shí),需將集成效果降低,只有基分類器中擁有較低集成效果時(shí),才可提高算法準(zhǔn)確率。為此,待集成決策簇?cái)?shù)量越多并不代表隨機(jī)森林對數(shù)據(jù)分類效果就越好[6-8]。
1.2.2 按分類性能篩選基分類器
根據(jù)數(shù)據(jù)隨機(jī)組合,基分類器在集成過程中,會(huì)將性能較差基分類器去除,進(jìn)而降低集成效果,為此在對分類器進(jìn)行篩選時(shí),需將性能較差分類器剔除,只使用效果較好集成分類器。由于在迭代運(yùn)算過程中,抽取到的里包(inBag)樣本集合作為訓(xùn)練子集,采用smote方式進(jìn)行反復(fù)樣品,大約有40%的數(shù)據(jù)樣本沒有被抽取到,外包(outBag)樣本集合并沒有完全參與簇的決策之中,因此在隨機(jī)森林進(jìn)行迭代運(yùn)算時(shí),需使用抽取到的里包(inBag)樣本作為基本訓(xùn)練的子集,然后將沒有被抽取到的外包(outBag)樣本集合作為測試集合[9]。
針對性能較好的基分類器進(jìn)行數(shù)據(jù)分類時(shí),需采用異常數(shù)據(jù)樣本統(tǒng)計(jì)量值作為對非平衡數(shù)據(jù)分類的評(píng)價(jià)標(biāo)準(zhǔn),綜合統(tǒng)計(jì)量中的準(zhǔn)確率和召回率,評(píng)價(jià)每一個(gè)決策簇的特點(diǎn),統(tǒng)計(jì)量值越高,代表分類效果就越好。按分類性能篩選的基分類器具體步驟如圖3所示。
圖3 按分類性能篩選基分類示意圖
按照分類性能篩選出性能較好的基分類器,并由上述圖3可知,在隨機(jī)森林算法進(jìn)行迭代運(yùn)算過程中,分別使用抽取到的里包(inBag)樣本作為基本訓(xùn)練子集,將沒有被抽取到的外包(outBag)樣本集合作為測試子集對該基分類器進(jìn)行測試。經(jīng)過迭代運(yùn)算后,所有的基分類器都可按照統(tǒng)計(jì)量方式進(jìn)行倒序排序,并將分類效果較好分類器放置在最前方,根據(jù)設(shè)定函數(shù)以降序形式返回表中最前面的幾行,這些行的累積合計(jì)至少要達(dá)到指定百分比,并篩選其中一部分效果較差基分類器。如果將100個(gè)基分類器同時(shí)進(jìn)行倒序排列,那么函數(shù)百分比為80%,則有80個(gè)基分類器被選擇,剩余的20個(gè)基分類器被剔除,進(jìn)而提高集成分類效果。
根據(jù)上述基分類器選擇以及對數(shù)據(jù)處理,可構(gòu)建隨機(jī)森林算法模型,在進(jìn)行迭代運(yùn)算過程中,需通過既定原始數(shù)據(jù)直接使用反復(fù)抽樣方式進(jìn)行數(shù)據(jù)抽取,并將抽取到的數(shù)據(jù)作為訓(xùn)練子集,完成相應(yīng)簇的決策。迭代運(yùn)算結(jié)束后,將所有決策樹都參與到集合之中,由于不同決策樹是相互獨(dú)立的,且不具有任何屬性,因此按照投票結(jié)果完成簇的決策集合[10]。即使在不同決策簇中的分裂中心節(jié)點(diǎn)處具有特征集合的篩選功能,但是由于數(shù)據(jù)未被進(jìn)行特征化同化,所以不同將該部分直接展示出來,基于此,構(gòu)建隨機(jī)森林算法模型,如圖4所示。
圖4 隨機(jī)森林算法流程圖
針對醫(yī)保信息需從數(shù)據(jù)層次上和算法層次上分別對不平衡數(shù)據(jù)進(jìn)行平衡化處理,并利用集成思路完成欺詐行為的檢測。其中,在數(shù)據(jù)層次上,由于網(wǎng)絡(luò)不穩(wěn)定,導(dǎo)致醫(yī)保信息中也存在著一種不平衡的數(shù)據(jù),為此需對數(shù)據(jù)進(jìn)行平衡化處理,利用smote方式進(jìn)行混合抽樣來改善數(shù)據(jù)不平衡所造成的分類效果差的問題,進(jìn)而增加異常數(shù)據(jù),為迭代運(yùn)算smote方式所產(chǎn)生新數(shù)據(jù)進(jìn)行分類處理,并通過前端框架進(jìn)行有放回差異性訓(xùn)練處理,進(jìn)而提高數(shù)據(jù)差異性,便于檢測;在算法層次上,對數(shù)據(jù)集成之前,需進(jìn)行兩次篩選,一次是對決策簇?cái)?shù)據(jù)進(jìn)行篩選,一次是對統(tǒng)計(jì)量值進(jìn)行篩選。由于訓(xùn)練樣本存在差異性,促使決策簇形成也是不同的,每次先對決策簇?cái)?shù)據(jù)進(jìn)行篩選,將差異性較大數(shù)據(jù)識(shí)別出來,并剔除。根據(jù)基分類性能統(tǒng)計(jì)量衡量指標(biāo),獲取到每一個(gè)基分類器統(tǒng)計(jì)量值后,按照依次排列,篩選出性能較好分類器,并進(jìn)一步處理。通過不一致度量值作為衡量決策簇差異性重要指標(biāo),需綜合考慮分類器相似度,如果相似度低于正常閾值時(shí),再考慮決策簇分類性能,提出多余模型,可提高分類性能,又保證算法檢測效果。
采用基于隨機(jī)森林算法對失穩(wěn)網(wǎng)絡(luò)醫(yī)保信息欺詐行為進(jìn)行檢測,為了驗(yàn)證該檢測算法的有效性,將傳統(tǒng)算法與該算法進(jìn)
行對比驗(yàn)證,以此提高該算法的可靠性,具體實(shí)驗(yàn)內(nèi)容與結(jié)果如下所示。
在醫(yī)保數(shù)據(jù)中存在欺詐行為的主要原因就是參與人信息與正常法規(guī)數(shù)據(jù)相比出現(xiàn)誤差,導(dǎo)致在醫(yī)保數(shù)據(jù)中出現(xiàn)分布的現(xiàn)象。根據(jù)某次參與醫(yī)保的患者數(shù)據(jù),在較短時(shí)間內(nèi)有頻繁住院的情況,或者存在醫(yī)保欺詐事件,采用隨機(jī)森林檢測算法對醫(yī)保欺詐事件進(jìn)行有效識(shí)別,進(jìn)而達(dá)到實(shí)驗(yàn)的目的。實(shí)驗(yàn)選取的數(shù)據(jù)來源于某市農(nóng)村信用社與醫(yī)療機(jī)構(gòu)合作的辦公室所提供的2017年1月1日至2017年12月31日的11215條住院記錄,通過人工審計(jì)可確定其中30條記錄為異常信息,以此作為兩種檢測方法準(zhǔn)確評(píng)估標(biāo)準(zhǔn)。在內(nèi)存大小為8G的計(jì)算機(jī)上使用C++語言實(shí)現(xiàn)兩種算法的檢測。
2.1.1 第一階段
首選從上述11215條住院記錄中隨機(jī)選取一條診斷記錄作為聚類簇的中心,并將其賦予閾值,經(jīng)過計(jì)算和比較,可最終集合劃分成8個(gè)聚簇,分別為1138、3619、1123、50、672、1668、1123和1822條住院記錄,計(jì)算8個(gè)聚簇相關(guān)的3個(gè)屬性,分別是:簇基數(shù)、簇半徑、簇分布點(diǎn)可能性指標(biāo)。對聚類結(jié)果進(jìn)行統(tǒng)計(jì)與排列,結(jié)果如表1所示。
表1 聚簇相關(guān)屬性表
2.1.2 第二階段
在實(shí)驗(yàn)進(jìn)行過程中,參與的變量因素包絡(luò):住院總費(fèi)用、實(shí)際補(bǔ)償費(fèi)用、自付費(fèi)用、藥品費(fèi)用、可實(shí)際補(bǔ)償醫(yī)藥費(fèi)用、醫(yī)藥使用率、住院時(shí)間等,還包括經(jīng)過分布離散化處理之后的住院登記、患者種類、患者家庭種類、醫(yī)保補(bǔ)償方式等因素。在該階段可對已經(jīng)編號(hào)的5個(gè)聚簇進(jìn)行逐一掃描,記錄每個(gè)分布的因子,構(gòu)建優(yōu)先級(jí)隊(duì)列,實(shí)現(xiàn)鄰近分布點(diǎn)的快速搜索與排列。為了保證患者信息安全,將歷史記錄中的患者姓名進(jìn)行了編號(hào)處理,并截取部分歷史記錄數(shù)據(jù)來顯示具體分布點(diǎn)檢測結(jié)果,如表2所示。
表2 具體分布點(diǎn)檢測結(jié)果
表2中共有異常信息20條,查準(zhǔn)率為80%,該準(zhǔn)確率可用于比較傳統(tǒng)檢測方法與本文研究檢測方法的可靠性。
2.2.1 檢測運(yùn)行時(shí)間對比結(jié)果與分析
在醫(yī)保數(shù)據(jù)集上,將傳統(tǒng)檢測方法與本文檢測方法對醫(yī)保欺詐行為檢測所運(yùn)行時(shí)間進(jìn)行對比,結(jié)果如圖5所示。
圖5 兩種檢測算法運(yùn)行時(shí)間對比結(jié)果
由圖5可知:當(dāng)實(shí)驗(yàn)次數(shù)為2次時(shí),兩種算法檢測運(yùn)行時(shí)間一致,隨著實(shí)驗(yàn)次數(shù)增加,傳統(tǒng)算法運(yùn)行時(shí)間不穩(wěn)定,上下波動(dòng)幅度較大,雖然在實(shí)驗(yàn)期間有幾次運(yùn)行時(shí)間比本文算法時(shí)間要少,但網(wǎng)絡(luò)不穩(wěn)定,導(dǎo)致傳統(tǒng)算法最后運(yùn)行時(shí)間穩(wěn)定在760 s左右;而本文算法運(yùn)行時(shí)間相對穩(wěn)定,上下波動(dòng)幅度并不大,最終本文算法運(yùn)行時(shí)間穩(wěn)定在580 s左右。由此可知,采用基于隨機(jī)森林算法對失穩(wěn)網(wǎng)絡(luò)醫(yī)保信息欺詐行為進(jìn)行檢測運(yùn)行時(shí)間較短。
2.2.2 算法檢測效率對比結(jié)果與分析
根據(jù)上述實(shí)驗(yàn)過程可知,表2中共有異常信息20條,查準(zhǔn)率為80%,為了使結(jié)果更具有可靠性,將傳統(tǒng)算法與本文算法檢測效率進(jìn)行對比,從算法檢測效率和分布點(diǎn)檢測數(shù)量兩個(gè)方面進(jìn)行比較,并采用C++語言在統(tǒng)一平臺(tái)下編譯,對比結(jié)果如圖6所示。
圖6 兩種檢測算法檢測效率對比結(jié)果
由圖6可知:采用本文算法檢測效率高于傳統(tǒng)算法40%,且分布點(diǎn)檢測個(gè)數(shù)比傳統(tǒng)要多,綜合來看,本文算法具有較好實(shí)用性。
根據(jù)上述實(shí)驗(yàn)內(nèi)容,可得出結(jié)論,由于醫(yī)保欺詐記錄包含多個(gè)相關(guān)屬性,采用傳統(tǒng)算法不能全面反映實(shí)際發(fā)生情況,更無法直接篩選出分布點(diǎn),采用基于隨機(jī)森林算法對失穩(wěn)網(wǎng)絡(luò)醫(yī)保信息欺詐行為進(jìn)行檢測,可快速對違規(guī)記錄進(jìn)行識(shí)別,輔助管理人員完成審核工作,通過對比結(jié)果可知,采用本文檢測算法運(yùn)行時(shí)間較短、效率較高,且分布點(diǎn)檢測個(gè)數(shù)比傳統(tǒng)要多,綜合來看,本文算法具有較好實(shí)用性。
針對數(shù)據(jù)挖掘流程,為設(shè)計(jì)醫(yī)保欺詐檢測算法奠定理論基礎(chǔ),選擇分布點(diǎn)種類和實(shí)際應(yīng)用情況進(jìn)行分析,并對分布點(diǎn)進(jìn)行深入細(xì)致研究,比較傳統(tǒng)檢測算法可知,存在運(yùn)行時(shí)間長、效率低的問題,明確不同方法處理數(shù)據(jù)集合的使用范圍,掌握分布點(diǎn)檢測思想。借鑒專家領(lǐng)域,選擇具有數(shù)據(jù)屬性參與計(jì)算方式,通過實(shí)驗(yàn)結(jié)果可知,采用基于隨機(jī)森林算法對失穩(wěn)網(wǎng)絡(luò)醫(yī)保信息欺詐行為進(jìn)行檢測,可快速對違規(guī)記錄進(jìn)行識(shí)別,存在運(yùn)行時(shí)間較短、效率較高,且分布點(diǎn)檢測個(gè)數(shù)比傳統(tǒng)要多等優(yōu)勢,檢測效果較好。
參考文獻(xiàn):
[1] 孫 菊, 甘銀艷. 合作治理視角下的醫(yī)療保險(xiǎn)反欺詐機(jī)制:國際經(jīng)驗(yàn)與啟示[J]. 中國衛(wèi)生政策研究, 2017, 10(10):28-34.
[2] 梅麗萍. “聰明監(jiān)管”:基本醫(yī)療保險(xiǎn)監(jiān)管的模式和路徑選擇[J]. 中國衛(wèi)生經(jīng)濟(jì), 2016, 35(6):13-18.
[3] 李亞子, 虞昌亮, 吳春艷,等. 新型農(nóng)村合作醫(yī)療與城鎮(zhèn)居民基本醫(yī)療保險(xiǎn)制度整合中信息系統(tǒng)整合技術(shù)路線研究[J]. 中國衛(wèi)生經(jīng)濟(jì), 2017, 36(1):34-36.
[4] 侯 俐, 焦 锏. 經(jīng)濟(jì)信息欺詐與經(jīng)濟(jì)信息政策分析——評(píng)《網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代的信息政策》[J]. 宏觀經(jīng)濟(jì)管理, 2017, 25(1):24-26.
[5] 彭 玲, 陽作松, 楊新艷,等. 基于信息技術(shù)的醫(yī)院醫(yī)保閉環(huán)式管理[J]. 中國醫(yī)院管理, 2017, 37(1):59-61.
[6] 王雄軍, 張冰子. 我國醫(yī)保改革的地方經(jīng)驗(yàn)評(píng)述與啟示[J]. 中國黨政干部論壇, 2016, 26(5):58-62.
[7] 王娟麗, 鄧明文. 西藏城鄉(xiāng)居民基本醫(yī)療保險(xiǎn)制度并軌問題探討[J]. 中國衛(wèi)生經(jīng)濟(jì), 2017, 36(7):31-34.
[8] 鄭先平, 傅強(qiáng)輝, 劉 雅. “互聯(lián)網(wǎng)+”背景下醫(yī)療保險(xiǎn)異地結(jié)算路徑優(yōu)化[J]. 衛(wèi)生經(jīng)濟(jì)研究, 2017, 15 (5):63-65.
[9] 艾麗喚, 吳榮海, 肖 黎,等. 基于風(fēng)險(xiǎn)調(diào)整的基本醫(yī)療保險(xiǎn)門診統(tǒng)籌按人頭付費(fèi)標(biāo)準(zhǔn)測算研究 ——以深圳市為例[J]. 中國衛(wèi)生政策研究, 2017, 10(9) :12-14.
[10] 陳 穎, 魏永祥, 劉海燕,等. 商業(yè)醫(yī)療保險(xiǎn)在公立醫(yī)院中的實(shí)踐[J]. 中華醫(yī)院管理雜志, 2016, 32(2):102-104.