傅松濤 李 玨 熊少華
(寧波市醫(yī)保中心 寧波 315010)
截至2012年底,寧波市區(qū)范圍醫(yī)保定點(diǎn)醫(yī)藥機(jī)構(gòu)已超過500家,其中定點(diǎn)零售藥店超過300家,而醫(yī)保經(jīng)辦機(jī)構(gòu)專職稽查人員僅有6人。顯然,單靠人力資源實(shí)施監(jiān)管力不從心。同時(shí),一些藥店為追求利潤最大化,將保健品、食品甚至化妝品串換成醫(yī)保藥品,記入醫(yī)保結(jié)算,不僅造成醫(yī)?;饟p失,而且對守法經(jīng)營的藥店造成負(fù)面沖擊,社會(huì)影響極為惡劣。因此,如何有效地揪出侵蝕醫(yī)?;鸬摹按T鼠”、維護(hù)基金安全是醫(yī)保監(jiān)管的難點(diǎn)和重點(diǎn)。采用數(shù)據(jù)挖掘技術(shù),使用非現(xiàn)場監(jiān)管手段核查藥店的經(jīng)營行為,應(yīng)是醫(yī)保稽查著力探索的問題。
R語言是用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境,是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),同時(shí)也是一個(gè)免費(fèi)的開源軟件。在學(xué)術(shù)領(lǐng)域, R語言是國際上統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的標(biāo)準(zhǔn)語言。在數(shù)據(jù)挖掘語言流行度方面,R語言近年連續(xù)排位第一,R語言的計(jì)算結(jié)果也已被美國FDA(美國食品藥品管理局)認(rèn)可。
關(guān)聯(lián)規(guī)則挖掘被用于發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)關(guān)系,“購物籃”分析是關(guān)聯(lián)規(guī)則挖掘的一個(gè)典型應(yīng)用。通過發(fā)現(xiàn)顧客購買的不同商品之間的聯(lián)系分析顧客的購買習(xí)慣,了解哪些商品頻繁地被顧客購買,并根據(jù)關(guān)聯(lián)規(guī)則制定營銷策略以促進(jìn)銷售。該方法目前在各類電子商務(wù)網(wǎng)站已被廣泛使用。“購物籃”分析首先找出最小支持度值的頻繁項(xiàng)集(支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集),然后由它們產(chǎn)生滿足最小置信度值A(chǔ)≥B的強(qiáng)關(guān)聯(lián)規(guī)則,其中支持度是指購買A和B商品的項(xiàng)集占所有購買項(xiàng)集的比率,置信度是指已經(jīng)購買A商品的人購買B商品的概率。關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的算法是Apriori算法(一種使用逐層搜索迭代方法找出頻繁項(xiàng)集并產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則的算法)。本文使用R語言和Apriori算法實(shí)施“購物籃”分析,所涉數(shù)據(jù)處理及繪圖均在R2.15.2系統(tǒng)下完成。
寧波醫(yī)保的個(gè)人賬戶分為當(dāng)年個(gè)賬和歷年個(gè)賬,其中當(dāng)年個(gè)賬可直接用來在零售藥店購買非處方藥物。為防止當(dāng)年個(gè)賬資金濫用,寧波醫(yī)保對藥店非處方購藥的每次購藥金額有一定限制(每人每日每次100元限額)。違規(guī)藥店將自費(fèi)藥品、保健品等出售給參保人員時(shí),必然會(huì)串換成醫(yī)保非處方藥記入醫(yī)保結(jié)算。因此,藥店一般采取若干種藥品的組合來達(dá)到或接近購買限額,這樣就會(huì)造成該若干種藥品組合頻繁出現(xiàn),稽查人員可以根據(jù)關(guān)聯(lián)規(guī)則辨識(shí)這些藥品組合,若這些藥品組合在藥理學(xué)上沒有強(qiáng)關(guān)聯(lián)性且又頻繁出現(xiàn),則可以初步判斷藥店存在串換藥品嫌疑,可在對包含這些藥品組合的就診明細(xì)記錄進(jìn)行分析的基礎(chǔ)上,現(xiàn)場稽核藥店對應(yīng)藥品組合的進(jìn)銷存數(shù)據(jù),以及時(shí)發(fā)現(xiàn)藥品串換等違規(guī)行為。若一個(gè)藥店的銷售大于藥品的進(jìn)貨和存量,極有可能將保健品等商品串換為藥品銷售。
我們采集了3家藥店1個(gè)月的非處方藥購藥明細(xì)數(shù)據(jù)進(jìn)行比對,其中兩家已查實(shí)為串換藥品違規(guī)藥店,另一家為非處方藥購藥規(guī)模居前的大型零售藥店。對這幾家藥店上傳的就診編號(hào)和藥品名稱數(shù)據(jù),應(yīng)用Apriori算法搜尋置信度大于0.6且支持度大于0.001的關(guān)聯(lián)規(guī)則,并根據(jù)支持度排序,部分結(jié)果如圖1所示:
圖2 強(qiáng)關(guān)聯(lián)規(guī)則藥品就診記錄(藥店一)
圖3 藥品強(qiáng)關(guān)聯(lián)規(guī)則(藥店二)
圖4 強(qiáng)關(guān)聯(lián)規(guī)則藥品就診記錄(藥店二)
第1家藥店違規(guī)情形非常明顯。第10-13條結(jié)果對應(yīng)的confidence=1和support=0.01018990,含義是:對川貝枇杷糖漿、六味地黃丸、蒙脫石散和復(fù)方感冒靈顆粒4種藥品而言,購買其中任3種藥品的人購買剩余1種藥品的概率為100%;購買這4種藥品的購藥次數(shù)占所有次數(shù)的比率為1.019%。由于在藥理學(xué)上這4種藥品沒有強(qiáng)關(guān)聯(lián)性,因此可以初步判斷川貝枇杷糖漿、六味地黃丸、蒙脫石散和復(fù)方感冒靈顆粒4種藥品存在被串換嫌疑。
通過調(diào)取同時(shí)購買這4種藥品的就診記錄,發(fā)現(xiàn)購藥行為只發(fā)生在9月19日和9月28日兩天,其中9月19日當(dāng)天購買該4種藥品的人同時(shí)還購買了多潘立酮片和云南白藥氣霧劑,金額合計(jì)均為93元;9月28日當(dāng)天購買該4種藥品的人同時(shí)還購買了麝香鎮(zhèn)痛膏和黃氏響聲丸,金額合計(jì)均為85元。在掌握了嫌疑藥品明細(xì)數(shù)據(jù)的基礎(chǔ)上,通過對藥店藥品進(jìn)銷存數(shù)據(jù)的現(xiàn)場稽核,證實(shí)了該藥店確實(shí)存在串換藥品的違規(guī)行為(見圖2)。
第2家藥店的嫌疑藥品組合是云南白藥膏(風(fēng)濕止痛)、珍黃丸(樂頻清膠囊)和酮康唑乳膏(金達(dá)克寧),同時(shí)購買該類藥品的共有10條記錄,其中9條記錄購買金額均為99.5元,剩余一條記錄購買金額為97.3元。酚咖麻敏膠囊(雙效)、鋁碳酸鎂片(達(dá)喜)、 云南白藥氣霧劑和烏靈膠囊則是另一組嫌疑藥品組合(見圖3、圖4)。
我們再來觀察沒有進(jìn)行藥品串換的藥店Apriori算法運(yùn)行結(jié)果,以進(jìn)行對比(見圖5):
該計(jì)算結(jié)果和違規(guī)藥店的明顯不同之處在于:一是支持度比違規(guī)藥店更低,最高的也只有0.568%,而置信度大于0.8的寥寥無幾。也就是說,如果按照支持度大于0.005和置信度大于0.8對大型零售藥店進(jìn)行計(jì)算處理的話,將會(huì)得到一個(gè)空集,和違規(guī)藥店計(jì)算結(jié)果存在較大差異。二是置信度高的藥品組合之間存在藥理學(xué)上的強(qiáng)關(guān)聯(lián)性。
從上述實(shí)踐過程可以得出結(jié)論,通過運(yùn)用R語言工具,采用“購物籃”分析方法,能夠識(shí)別使用藥品組合進(jìn)行藥品串換的行為。這樣就可以利用R語言的面向?qū)ο蟪绦蛟O(shè)計(jì)功能,編寫代碼,在后臺(tái)定期批量篩選藥品串換嫌疑藥店進(jìn)行稽查,爭取將藥品串換行為遏制在起始階段,維護(hù)醫(yī)?;鸢踩?。結(jié)合“購物籃”分析方法的實(shí)際運(yùn)用,筆者提出以下建議:
5.1 靈活使用算法閾值。由于藥店非處方藥購藥行為集中度較低,如果按照普通標(biāo)準(zhǔn)(支持度0.01,置信度0.5)對藥店交易明細(xì)進(jìn)行處理,可能會(huì)錯(cuò)失重要信息。建議根據(jù)實(shí)際情況降低支持度標(biāo)準(zhǔn),提高置信度標(biāo)準(zhǔn)。
5.2 突破內(nèi)存使用瓶頸。R語言會(huì)把所有的對象讀入內(nèi)存進(jìn)行計(jì)算,當(dāng)數(shù)據(jù)量過大時(shí)會(huì)產(chǎn)生跟內(nèi)存相關(guān)的錯(cuò)誤而無法處理,因此建議盡量使用R的數(shù)據(jù)庫連接功能。有條件的可以直接采用數(shù)據(jù)庫廠商提供的R語言企業(yè)級(jí)應(yīng)用產(chǎn)品,這樣不僅可以突破R語言內(nèi)存使用瓶頸,而且因?yàn)槭窃跀?shù)據(jù)庫內(nèi)部使用R語言,從而免去了變量映射、數(shù)據(jù)存儲(chǔ)等最易犯錯(cuò)和最費(fèi)時(shí)的前期數(shù)據(jù)準(zhǔn)備工作。
5.3 立體化數(shù)據(jù)源。對于藥品明細(xì)項(xiàng)這樣的原始層數(shù)據(jù),由于多種同類藥品分散購買,使得強(qiáng)關(guān)聯(lián)規(guī)則很難發(fā)現(xiàn)。建議在數(shù)據(jù)準(zhǔn)備期建立多個(gè)概念分層(對藥品進(jìn)行大分類,如感冒類、心血管等分類),自頂而下隨層次從高到低逐步遞減支持度,通過多層關(guān)聯(lián)規(guī)則發(fā)現(xiàn)更具普遍意義的知識(shí)。條件成熟時(shí)還可以考慮在購藥明細(xì)中加入購藥者年齡、性別等數(shù)據(jù),對多層多維關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。
[1]Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques [M].范明,孟小鋒譯.北京:機(jī)械工業(yè)出版社,2005:149-172.
[2]Robert I.Kabacoff .R In Action:Data Analysis and Graphics With R [M].高濤,肖楠,陳鋼譯.北京:人民郵電出版社,2013.
[3]Luis Torgo.Data Mining With R:Learning With Case Studies [M].李洪成,陳道輪,吳立明譯.北京:機(jī)械工業(yè)出版社,2013.