續(xù)婧 范杰
(1.中國中鋼集團(tuán)有限公司審計部 北京 100080;2.首都醫(yī)科大學(xué)附屬北京中醫(yī)醫(yī)院 北京 100010)
隨著綜合國力的不斷強(qiáng)大,我國的各行業(yè)發(fā)展不斷擴(kuò)大[1-2]。例如:為了便于國民使用醫(yī)療保險,定點零售藥店和定點醫(yī)療服務(wù)機(jī)構(gòu)的數(shù)量持續(xù)增加[3-5]。這給國民帶來方便的同時,也導(dǎo)致審計變得越來越困難。違規(guī)使用保險的現(xiàn)象層出不窮,違反審計的手段多樣且隱蔽,僅利用傳統(tǒng)的審核方式來加強(qiáng)資金的監(jiān)控難以滿足當(dāng)今各行業(yè)對審計的需求[6-7]。
針對上述問題,如何快速有效地對特定行業(yè)的審計數(shù)據(jù)進(jìn)行分析,從而發(fā)現(xiàn)違反審計的行為是非常重要的。關(guān)聯(lián)規(guī)則可以快速分析變量之間的依賴或關(guān)聯(lián)關(guān)系,因此常被用于分析審計數(shù)據(jù)中的異常行為數(shù)據(jù)[8-9]。例如:可以發(fā)現(xiàn)異常參保人通常同時購買那種中藥品,進(jìn)一步結(jié)合購藥金額、數(shù)量等信息分析是否存在醫(yī)保欺詐行為[10]。該文對關(guān)聯(lián)規(guī)則在特定行業(yè)審計數(shù)據(jù)分析中的應(yīng)用進(jìn)行研究,并以分析醫(yī)保欺詐審計數(shù)據(jù)為例進(jìn)行了實驗。實驗結(jié)果表明,該方法通過數(shù)據(jù)分析數(shù)據(jù)中的關(guān)聯(lián)規(guī)則能夠快速識別醫(yī)保欺詐行為。
該文篩選在定點零售藥店和定點醫(yī)療機(jī)構(gòu)都有過醫(yī)保刷卡記錄的參保人作為研究群體,總?cè)藬?shù)共計47 028 人,其中異常購藥參保人數(shù)為1 037 人,正常購藥參保人數(shù)為45 991人。購藥異常參保人判斷依據(jù)具體如表1 所示。數(shù)據(jù)包含參保人1 年以內(nèi)分別在定點零售藥店和定點醫(yī)療機(jī)構(gòu)的購藥交易記錄數(shù)據(jù)和交易明細(xì)數(shù)據(jù)。實驗中訓(xùn)練數(shù)據(jù)集占總樣本數(shù)據(jù)的75%,測試數(shù)據(jù)集占總樣本數(shù)據(jù)的25%。該文主要分析異常參保人的購藥序列中的藥品關(guān)聯(lián)情況,判斷異常情況下通常同時購買什么藥品。因此,只保留參保人的購藥記錄序列,其中時間以月為分界點,分界點內(nèi)藥品按照金額大小排序。
表1 異常數(shù)據(jù)篩選標(biāo)準(zhǔn)
項是數(shù)據(jù)庫中的最小單位,通常用符號i表示。設(shè)I={i1,i2,…,in}是項的集合,其中ij(j∈[1,n])表示第j種藥品。設(shè)購藥記錄數(shù)據(jù)庫為D,其中每個元素有若干項組成,通常表示為E。E是I的子集,表示為E?I。給定一個項集A,如果A?E,則元素E包含A。對于任意兩個項集A?I和B?I,關(guān)聯(lián)規(guī)則表示為A?B,其中A∩B=?。ms表示最小支持度,mc表示最小置信度。
定義1 項集的支持度sup(A)。在數(shù)據(jù)集D中,對于任意項集A,它的支持度為A在D中出現(xiàn)的概率,即sup(A)=P(A)。
定義2 關(guān)聯(lián)規(guī)則的支持度sup(A?B)。對于任意兩個項集A?I和B?I,關(guān)聯(lián)規(guī)則A?B的支持度sup(A?B)表示為A∪B在D中的出現(xiàn)概率,即
定義3 關(guān)聯(lián)規(guī)則的置信度conf(A?B)。對于任意兩個項集A?I和B?I,關(guān)聯(lián)規(guī)則A?B的置信度conf(A?B)表示為在包含A的元素中包含B的概率P(B|A),即
定義4 最小支持度閾值ms。最小支持度由用戶設(shè)定,取值范圍為[0,1],它表示關(guān)聯(lián)規(guī)則或項集的最低重要性/有用性。
定義5 最小置信度閾值mc。最小支持度由用戶設(shè)定,取值范圍為[0,1],它表示關(guān)聯(lián)規(guī)則的最低可靠性/確定性。
定義6 頻繁項集。給定一個項集A,如果sup(A)=P(A)≥ms,則A為頻繁項集。
定義7 強(qiáng)關(guān)聯(lián)規(guī)則。對于關(guān)聯(lián)規(guī)則A?B,如果A∪B是頻繁項集(P(A∪B)≥ms),且cconf(A?B)≥mc,則A?B是強(qiáng)關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘的基本步驟主要分為兩個部分:第一,從數(shù)據(jù)集中挖掘所有的頻繁項集,該文通過FPgrowth 算法[11]挖掘參保人購藥記錄中的頻繁項集;第二,從第一步中得到的頻繁項集中挖掘強(qiáng)關(guān)聯(lián)規(guī)則。相較于挖掘關(guān)聯(lián)規(guī)則,挖掘頻繁項集的工作較為繁瑣,且工作量大,因此該文重點介紹如何挖掘頻繁項集。
該文采用關(guān)聯(lián)規(guī)則挖掘技術(shù)對參保人的購藥記錄中的關(guān)聯(lián)藥品進(jìn)行分析,發(fā)現(xiàn)異常參保人通常同時購買什么藥品,通過藥品購買頻率和購買數(shù)量判定是否存在代刷醫(yī)???,代替購買藥物等醫(yī)保欺詐行為。圖1是基于關(guān)聯(lián)規(guī)則挖掘技術(shù)的醫(yī)保審計數(shù)據(jù)分析建模示意圖。
圖1 審計建模流程圖
FP-growth 算法的核心思想是構(gòu)建FP-tree 樹節(jié)點,以減少所需項集的數(shù)量。假設(shè)I={i1,i2,…,in}是數(shù)據(jù)庫D中所有項的集合,Eset={E1,E2,…,Ed}是數(shù)據(jù)庫D中所有元素的集合。每個元素包含I中的若干項。
假設(shè)參保人的購藥序列為i5、i2、i1、i3、i5、i2、i4、i2、i3、i5、i4、i2、i5、i3、i6、i1、i2、i4、i6、i5、i3、i5、i4、i2、…。將序列以月為分界點劃分為元素,得到元素集合列表,如表2 所示。通過掃描數(shù)據(jù)庫D,計算每個項的支持度,即包含項的元素個數(shù)與總元素個數(shù)之比。
表2中的內(nèi)容表示一個參保人的購藥序列的元素劃分,假設(shè)D中有m個參保人,則經(jīng)過元素劃分完成后得到12×m個元素。設(shè)最小支持度閾值為0.2,支持度小于0.2 的項視為可忽略項,將其從元素中刪除,剩余項按照支持度大小降序排列,假設(shè)對表2 重新排序后的結(jié)果如表3 所示,從表3 可以看出,元素E7中的項i7由于支持度小于最小支持度閾值而被去除,而sup(i2)>sup(i5)>sup(i3)>sup(i1)>sup(i4)>sup(i6)。
表2 元素劃分表
假設(shè)表3 是小型數(shù)據(jù)庫,計算每個項的支持度如圖2 中左邊表格所示,依據(jù)表3 中項的排列順序?qū)?2個元素中的項依次加入FP-tree 中,得到如圖2所示的FP-tree樹狀圖。
表3 元素包含有序項劃分表
圖2 構(gòu)建FP-tree
圖3展示了在異常參保人購藥記錄中常購買的前15種藥品。其中,前4種藥物購買率高達(dá)60%以上,除第三種藥物是糖尿病人為控制血糖可能需要長期服用以外,剩余3種藥物均為非長期服用類藥物,因此正常情況下的購買頻率較低。顯然這是一種異?,F(xiàn)象。圖4是圖3中頻繁項中存在的強(qiáng)關(guān)聯(lián)規(guī)則,其中g(shù)roup1表示“頭孢可肟分散片”和“鹽酸二甲雙胍片”組合,group2 表示“布洛芬緩釋膠囊”和“格列齊特片(II)”組合,group3 表示“布洛芬緩釋膠囊”和“蓮花清瘟顆?!苯M合,group4 表示“頭孢可肟分散片”和“牛黃解毒片”組合。這4組規(guī)則是有效的,并且是強(qiáng)規(guī)則,說明具有異常購藥行為的參保人所購的藥品是存在一定關(guān)聯(lián)的。
圖3 藥品購買頻率
圖4 藥品中的強(qiáng)關(guān)聯(lián)規(guī)則
該文基于關(guān)聯(lián)規(guī)則挖掘技術(shù)對對醫(yī)保審計數(shù)據(jù)進(jìn)行分析。首先,對參保人的購藥記錄數(shù)據(jù)進(jìn)行預(yù)處理,得到以月為單位的參保人的購藥項集;其次,通過關(guān)聯(lián)規(guī)則挖掘建立醫(yī)保審計數(shù)據(jù)集分析模型,通過模型可以得到具有異常行為的參保人購藥記錄中的不合理現(xiàn)象和組合。