許子豪
(湖南工商大學(xué) 理學(xué)院,長沙 410006)
構(gòu)建良好的社會保障體系是當(dāng)今時代保障社會生活穩(wěn)定發(fā)展,不斷滿足人民日益增長的美好生活需要的必要舉措。作為中國社會保障體系的重要組成部分,自20 世紀(jì)50 年代以來,中國逐步建立起具有時代特征的醫(yī)療保險制度,而這一制度為中國經(jīng)濟快速發(fā)展、人民安居樂業(yè)、社會安定和諧奠定了基礎(chǔ)[1]。截至2019年末,全口徑基本醫(yī)療保險參保人數(shù)為135 436 萬人,參保覆蓋面率穩(wěn)定在95%以上[2]。
在醫(yī)保制度具體推行過程中,由相關(guān)利益驅(qū)使導(dǎo)致的醫(yī)療服務(wù)違規(guī)現(xiàn)象和過度醫(yī)療行為層出不窮[3],醫(yī)保詐騙等違法犯罪行為也一直存在。醫(yī)保詐騙一般是指基于非法方式詐騙醫(yī)療保險資金的犯罪行為。據(jù)統(tǒng)計,每年詐騙所造成的醫(yī)保基金損失數(shù)以億計,而2021 年6 月由國家醫(yī)藥保障局披露的太和縣50 家醫(yī)療機構(gòu)均存在著不同程度地違規(guī)占用醫(yī)療保險基金的問題,涉案醫(yī)療保險基金5 795.1 萬元。其中,以太和縣第五人民醫(yī)院為牽頭的11 家公立醫(yī)院的非法違規(guī)騙?,F(xiàn)象較為嚴(yán)重,涉案醫(yī)療保險基金1 387.3 萬元[4]。所以,關(guān)于醫(yī)療保險詐騙問題的深入調(diào)查是非常有必要的,政府必須及時防范,減少詐騙的產(chǎn)生。
醫(yī)療保險數(shù)據(jù)主要來自國家醫(yī)療機構(gòu)和地方衛(wèi)生行政部門的信息系統(tǒng)。它包括了數(shù)字型、文字型和日期型等類別,有結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)類型,并各自存放在不同的信息系統(tǒng)。而此類數(shù)據(jù)都具備傳統(tǒng)大數(shù)據(jù)的5 項基本特性,即規(guī)模性、價值性、高速性、真實性和多樣性[5]。
隨著醫(yī)療保險數(shù)據(jù)的爆炸增長,對醫(yī)保數(shù)據(jù)的有效合法性審查工作愈發(fā)困難。醫(yī)保大數(shù)據(jù)屬于高維數(shù)據(jù),數(shù)據(jù)提供的信息量與數(shù)據(jù)維度大小息息相關(guān)。一般來說,其信息量與維度成正比。然而,計算機的處理能力一般難以達到直接分析處理原始信息維數(shù)的水平,從而會導(dǎo)致“維數(shù)災(zāi)難”的問題。而且,直接處理原始高維數(shù)據(jù)也難以達到預(yù)期的結(jié)果。因此,通常需要對高維數(shù)據(jù)進行降維,再對降維后的數(shù)據(jù)進行處理[6]。通過降維,數(shù)據(jù)處理變得更加方便、容易,其作用大致如下:①在低維空間中,數(shù)據(jù)更易于被處理;②在低維空間中,數(shù)據(jù)能夠更清楚地表現(xiàn)出其關(guān)鍵特性,尤其是重要特性;如果數(shù)據(jù)位于二維或三維空間中,則數(shù)據(jù)還能實現(xiàn)可視化顯示;③減少計算成本;④消除數(shù)據(jù)處理噪音。
對于高維數(shù)據(jù)的降維問題,一直是各學(xué)科領(lǐng)域研究的熱點。作為矩陣分解的一種新思路,非負矩陣分解在實現(xiàn)將高維數(shù)據(jù)降維的目標(biāo)之外,還將分解后的因子做非負處理,使分解具有實際的物理意義[7]。自非負矩陣分解提出到現(xiàn)在,尤其在人臉識別領(lǐng)域,已經(jīng)收獲了豐富的研究成就,非負矩陣分解取得了重大的突破。但其在實際應(yīng)用中仍然存在許多困難需要進一步攻克,例如分解結(jié)果過多、迭代次數(shù)過多及不能充分提取特征等。因此,分析與解決非負矩陣分解存在的問題,將其運用于實例中具有非常重要的價值。
1846 年,Bracais 提出了一個使新變量彼此獨立的新策略:旋轉(zhuǎn)多元正態(tài)橢球到“主坐標(biāo)”上。Hotelling 的推導(dǎo)模型,進一步推動了主成分分析算法的發(fā)展。主成分分析(Principal Components Analysis,PCA)以正交轉(zhuǎn)換的思想方式,將原樣本隨機向量通過轉(zhuǎn)換得到新隨機向量,進而通過降維處理并建立相應(yīng)的價值函數(shù),從而使原多維變量系統(tǒng)逐漸轉(zhuǎn)化成一維系統(tǒng)[8]。
1999 年,Lee 等[9]首次建立了非負矩陣分解(Nonnegative Matrix Factorization,NMF)。NMF 算法的主要思路為對樣本集展開分析,使用低秩非負系數(shù)矩陣的乘積近似高維樣本集矩陣V,將高維矩陣中的各個樣本數(shù)據(jù)使用基向量的非負線形構(gòu)成表達,并表現(xiàn)為基矩陣W,其中線形構(gòu)成的系數(shù)構(gòu)成表現(xiàn)為系數(shù)矩陣H。他們還將其應(yīng)用于人臉圖像的表示和文本文檔的語義分析,體現(xiàn)了部分構(gòu)成整體的表現(xiàn)思想。2000 年,Lee 等[10]在初始NMF 的基礎(chǔ)上得到了新的目標(biāo)函數(shù)——廣義Kullback-Leibler 散度(GKLD),GKLD 通過實驗結(jié)果的目標(biāo)函數(shù)值就可以直接評判優(yōu)化結(jié)果的優(yōu)劣,這樣的評價方法直觀而簡便。Lee 等[10]還提供了以歐氏距離的平方(Square of Euclidian Distance,SED)為目標(biāo)函數(shù)的迭代算法,此算法有效地縮小了算法實現(xiàn)效率和實現(xiàn)簡單性間的間隙,被廣泛運用并加以拓展。
2001 年,Li 等[11]提出了局部NMF 算法(Local Non-negative Matrix Factorization,LNMF)。在GKLDEM 算法的基礎(chǔ)上,Li 做出了更深入的調(diào)整:對W 矩陣進行列正交的限制,從而使得W 矩陣更加稀疏化,但這樣操作也付出了一定的代價——使得H 非常稠密。Xu[12]等提出了受限NMF(Constrained Non-negative Matrix Factorization,CNMF)算法,CNMF 算法與LNMF 算法計算的最大差異之處就是對罰項的權(quán)重決策。2002 年,Hoyer[13]提出了NMF With Sparseness Constraints(NMFSC)算法,此算法有效提高了矩陣稀疏性,其方法是以SED 為目標(biāo)函數(shù)進行非線性投影。
2006 年,Cichocki 等使[14]用SED 中分別為W 和H的凸函數(shù)的特性,通過求非線性投影空間和在無非負約束下的解析解,達到了對非負性的要求,提高了稀疏性的精度,由此得到了SED-FD+NP 算法。Cichocki等[15]同時提出了多層非負矩陣分解(Multilayer Nonnegative Matrix Factorization,MNMF) 以解決單層的NMF 對模型的表征能力不足的問題。2008 年,Ding等[16]沖破了傳統(tǒng)思想,重新調(diào)整了原有NMF 的非負性約束,使得在初始矩陣和分解矩陣中都出現(xiàn)了負數(shù),提出了半非負矩陣分解(Semi-Nonnegative Matrix Factorization,semi-NMF),拓寬了算法的應(yīng)用范圍。2016年,Trigeorgis 等[17]提出了深度半NMF 算法(Deep Semi-Nonnegative Matrix Factorization,Deep semi -NMF),此算法對不同層次進行了深入數(shù)據(jù)分析,并顯示出無法發(fā)現(xiàn)的復(fù)雜數(shù)據(jù)特性。
主成分分析(Principal Components Analysis,PCA),是當(dāng)今數(shù)據(jù)分析和降維領(lǐng)域中一個傳統(tǒng)且較為主要的降維方式,即運用正交變換,將線性關(guān)聯(lián)的一個變量轉(zhuǎn)化為一個線性但不關(guān)聯(lián)的新變量或主要成分,以便于在更小的維度下發(fā)展使用新變量表示數(shù)據(jù)分析的主要特性。PCA 算法步驟如下[18]。
假設(shè)高維樣本集D={x1,x2,…xn},第一步是對D中樣本進行中心化:
第二步是統(tǒng)計進行中心化后的樣本的協(xié)方差矩陣XXT,再分解其特征值。
第三步是取最大的d 個特征值所相應(yīng)的特性向量為w1,w2,…,wd。則投影矩陣是W=(w1,w2,…,wd)。
最終結(jié)論為得到了d 個低維正交基v1,v2,…,vd,并使基向量與重構(gòu)高維數(shù)據(jù)結(jié)果X 的重構(gòu)偏差平方和最小化,公式如下
其中:(xi·vj)表示xi與vj做內(nèi)積運算。
PCA 通過線性投影降低更高維空間的樣本維度,且計算速度較快,因此能夠很好地解決線性相關(guān),但是無法處理高階相關(guān)性的樣本,并且數(shù)據(jù)分布須服從高斯分布,有一定的局限性。
非負矩陣分解(Non-negative Matrix Factorization,NMF)[9],指將樣本數(shù)據(jù)集分解成2 個矩陣相乘,這2 個矩陣具有低秩、非負的特性。其公式如下
公式(1)中的原數(shù)據(jù)集V 是一個m×n 維的矩陣,其中每一列就是空間中的一個向量,共m 個向量;基矩陣W 是一個m×k 維的矩陣,即k 個基;H 是k×n 的矩陣,每一列為V 投影到W 上得到的向量。實際結(jié)果中,基矩陣W 與系數(shù)矩陣H 的乘積近似于原數(shù)據(jù)集V,這是由于確保結(jié)果的非負性的過程中存在一定的誤差。
NMF 可轉(zhuǎn)換為以下優(yōu)化問題求解
式中:fA(W,H)表示V 與WH 的差異程度,fA是度量標(biāo)準(zhǔn),常用的2 種是GKLD 和SED[10]。
GKLD 定義為
其迭代公式如下
SED 定義為
其迭代公式如下
NMF 與PCA 的主要區(qū)別是:
(1)NMF 是一種內(nèi)在非負的代數(shù)分解方法和表示形式。
(2)NMF 實現(xiàn)了非線性的維數(shù)約減,這是因為NMF 算法使得基矩陣W 和系數(shù)矩陣H 兩者都與原矩陣相關(guān),故系數(shù)矩陣H 不是簡單的映射。
為使NMF 的應(yīng)用范圍更廣,Ding 等[16]放寬了非負性的約束條件,提出半非負矩陣分解(Semi-Nonnegative Matrix Factorization,semi-NMF)。其近似的分解如下:
為解決單層的NMF 對模型的表征能力不足的問題,Cichocki 等[15]提出了多層非負矩陣分解(Multilayer Non-negative Matrix Factorization,MNMF)。這一算法實則是一個簡單分層多序列分解過程,其執(zhí)行序列分解過程的公式如下:第一步,運用非負矩陣分解(NMF);第二步,從第一步的分解結(jié)果中得到類似的分解;第三步,重復(fù)分解進程,直到終止條件。最后建立起一個基矩陣為Z1Z2…ZL的模型。
但通過大量實驗證明,MNMF 的表征無法合理解釋聚類的結(jié)果。
所以,在Semi-NMF 的基礎(chǔ)上,為了解決MNMF的這一弊端,Trugeirgus 等[17]提出了深度半NMF 算法(Deep Semi -nonnegative Matrix Factorization,Deep Semi-NMF)。其主要公式如下
訓(xùn)練算法的步驟大致如下:首先分別初始化數(shù)據(jù)矩陣X≈Z1H1,接著分解特征矩陣H1≈Z2H2,直至遍歷了所有層。然后交替優(yōu)化2 個因子以減少重構(gòu)誤差,目標(biāo)函數(shù)如下
對比MNMF,Deep Semi-NMF 對每一層的分解并非獨立的,各層分解是交替實現(xiàn)的。因此更新ZL法則如下
更新Hi規(guī)則如下
Deep Semi-NMF 能自動學(xué)習(xí)潛在層次屬性,能找到最合適聚類的數(shù)據(jù)表征。
在模擬數(shù)據(jù)集合中有10 000 個樣本數(shù)據(jù),利用公式(10)和公式(11)分別對矩陣Z 和矩陣H 進行迭代更新,并對收斂后的H 矩陣進行K-means 聚類?;诰垲惖慕Y(jié)果,計算簇內(nèi)每個點到簇中心的距離,如果其大于閾值則認為是異常。對這些異常樣本點進行分析,發(fā)現(xiàn)不合理診斷治療,如參保人員多次重復(fù)檢查,甚至以某疾病為由,進行遠超出常規(guī)檢查的診療項目,后續(xù)需要人工進行跟蹤并加以核實。
本文基于醫(yī)保診療的大規(guī)模數(shù)據(jù),利用深度半非負矩陣分解模型,檢測異常參保人員,對醫(yī)保數(shù)據(jù)進行有效的評估和分類。實驗結(jié)果表明,運用深度半非負矩陣分解模型對醫(yī)保數(shù)據(jù)進行異常行為檢測和分析,檢測結(jié)果與真實結(jié)果相符。因此,在深度半非負矩陣分解模型的基礎(chǔ)上,進一步構(gòu)建完整的醫(yī)療保險異常行為的檢測和識別系統(tǒng),能夠及時有效地監(jiān)控醫(yī)保數(shù)據(jù),對提高醫(yī)保管理服務(wù)水平,維護醫(yī)?;鸢踩捅U厢t(yī)保體系高效運行有著重要的作用。