李曉峰,焦洪雙,王妍瑋
(1.黑龍江外國語學(xué)院 信息工程系,黑龍江 哈爾濱 150025;2.普度大學(xué) 機械工程系,印第安納州 西拉法葉市 IN47906)
利用大數(shù)據(jù)分析和處理方法對醫(yī)療信息進行管控、建立醫(yī)療大數(shù)據(jù)的融合調(diào)度和敏感度表征模型,有利于提高對醫(yī)療大數(shù)據(jù)的信息檢測和統(tǒng)計分析能力。通常來說,對醫(yī)療大數(shù)據(jù)進行處理的方法是建立在對醫(yī)療數(shù)據(jù)的統(tǒng)計分析和大數(shù)據(jù)融合采樣基礎(chǔ)上的[1],建立醫(yī)療數(shù)據(jù)的量化分析模型,結(jié)合模糊信息調(diào)度方法,有利于提高醫(yī)療信息的表征能力[2]。由于很多醫(yī)療應(yīng)用程序都包含敏感信息的輸入過程,為確保敏感信息的安全性,使患者的個人權(quán)益不受侵害,研究敏感信息的安全保護機制尤為重要,而這一過程,需建立在對醫(yī)療數(shù)據(jù)敏感度進行度量的基礎(chǔ)上。因此,相關(guān)的醫(yī)療數(shù)據(jù)敏感度度量和特征分析方法研究,在醫(yī)療數(shù)據(jù)的信息診斷和檢索等領(lǐng)域中具有很好的應(yīng)用價值。
目前,已有很多專家學(xué)者在該領(lǐng)域進行了研究,所得到的醫(yī)療數(shù)據(jù)的敏感度度量方法主要有統(tǒng)計特征分析方法、三維特征重構(gòu)方法、C均值重構(gòu)度量方法等??偟膩碚f,對醫(yī)療數(shù)據(jù)敏感度進行度量的方法是建立在醫(yī)療數(shù)據(jù)的譜特征分析和特征提取結(jié)果的基礎(chǔ)上的,從中提取醫(yī)療數(shù)據(jù)的敏感度特征分量,再結(jié)合高階統(tǒng)計信息融合方法對醫(yī)療數(shù)據(jù)進行三維重構(gòu)。在此基礎(chǔ)上,根據(jù)醫(yī)療數(shù)據(jù)的融合聚類分析結(jié)果結(jié)合醫(yī)療數(shù)據(jù)的表面重建,實現(xiàn)醫(yī)療數(shù)據(jù)的三維重構(gòu)和特征分析,完成對敏感度的度量[3]。文獻[4]中提出了一種基于改進全卷積神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)表面重建和敏感度度量方法,在該方法中,采用無線射頻識別技術(shù)進行大數(shù)據(jù)采樣和敏感度特征分析,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)分析方法,實現(xiàn)對數(shù)據(jù)的敏感度度量。但該方法進行醫(yī)療數(shù)據(jù)敏感度度量的自適應(yīng)性不好,統(tǒng)計分析能力不強。文獻[5]中提出了一種基于關(guān)聯(lián)規(guī)則特征檢測的醫(yī)療數(shù)據(jù)敏感度度量方法,在該方法中,首先對醫(yī)療信息管理系統(tǒng)中的醫(yī)療數(shù)據(jù)的存儲結(jié)構(gòu)進行分析,采用支持向量機算法區(qū)分醫(yī)療數(shù)據(jù)的屬性類別,再在同類屬性數(shù)據(jù)中篩選出敏感度數(shù)據(jù)并對其敏感度進行計算。然而在利用該方法進行醫(yī)療數(shù)據(jù)敏感度度量的時間開銷較大,度量過程過于繁瑣。文獻[6]中提出了一種基于秩約束密度敏感距離的自適應(yīng)聚類方法,該方法首先引入密度敏感距離相似度度量方法擴大不同類數(shù)據(jù)間的距離,并將秩約束施加于拉普拉斯矩陣,使相似矩陣的連通區(qū)域數(shù)量等于聚類數(shù)量,將數(shù)據(jù)劃分至相應(yīng)的類別中,在聚類的基礎(chǔ)上實現(xiàn)對數(shù)據(jù)敏感度的度量。然而該方法對敏感數(shù)據(jù)的查準(zhǔn)率較低,對敏感數(shù)據(jù)的采集和獲取結(jié)果不理想。
量子算法是指利用量子計算的并行性和糾纏性等特征、將量子理論與計算機技術(shù)相結(jié)合的新型計算模式。由于量子的獨特性質(zhì),使得量子算法能夠適應(yīng)大數(shù)據(jù)量的處理,計算成本也大大減少。為此,針對當(dāng)前方法中存在的度量過程自適應(yīng)性差、度量開銷大、對敏感數(shù)據(jù)查準(zhǔn)率較低的問題,該文提出一種基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法。整體思路如下:首先采用分布式樣本重構(gòu)方法對醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)進行重組,然后采用量化回歸分析方法對醫(yī)療數(shù)據(jù)進行模糊融合和聚類分析,根據(jù)融合分析結(jié)果建立定量遞歸分析模型,在此基礎(chǔ)上,結(jié)合量子計算對度量過程進行尋優(yōu)約束,并采用動態(tài)全局規(guī)劃方法實現(xiàn)對醫(yī)療數(shù)據(jù)敏感度的度量。最后通過仿真實驗結(jié)果證明了該方法在提高醫(yī)療數(shù)據(jù)敏感度度量性能方面的優(yōu)越性能。
為了實現(xiàn)對醫(yī)療數(shù)據(jù)敏感度的準(zhǔn)確度量,首先構(gòu)建醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)重組模型,采用高階統(tǒng)計特征分析方法,進行醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)重組過程中的特征提取和分布式特征檢測[7],繼而建立醫(yī)療數(shù)據(jù)度量的模糊關(guān)聯(lián)規(guī)則特征檢測模型,采用一條NURBS曲線進行醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)重組[8-9],這一過程表述如下:
(1)
其中,N表示采集到的用于進行敏感度度量的醫(yī)療數(shù)據(jù);P表示重組結(jié)果;Ci(i=0,1,…,n)表示醫(yī)療數(shù)據(jù)的分布式度量的控制頂點;Wi(i=0,1,…,n)表示自適應(yīng)學(xué)習(xí)的權(quán)因。在此基礎(chǔ)上,對醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)重組的權(quán)因子進行量化尋優(yōu),當(dāng)分布式權(quán)值滿足W0>0,Wn>0時,采用模糊加權(quán)學(xué)習(xí)方法,假設(shè)Ni,k表示第k次尋優(yōu)規(guī)范的樣條函數(shù),則由遞推公式計算醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)重組模型為:
(2)
其中,U=(u0,u1,…,ui+k+1)表示醫(yī)療數(shù)據(jù)敏感度度量節(jié)點矢量,u表示NURBS曲線的自變量。根據(jù)上述重組結(jié)果,結(jié)合關(guān)聯(lián)規(guī)則挖掘方法進行醫(yī)療數(shù)據(jù)敏感度度量的自適應(yīng)尋優(yōu),從中提取出醫(yī)療數(shù)據(jù)的關(guān)聯(lián)維特征量,再采用關(guān)聯(lián)特征檢測方法進行醫(yī)療數(shù)據(jù)敏感度度量過程中的模糊加權(quán)學(xué)習(xí)。在這一過程中,得到的統(tǒng)計特征量為:
X=xi(P-Ni,k×α)
(3)
其中,xi表示醫(yī)療數(shù)據(jù)敏感度度量的狀態(tài)矢量,α表示模糊加權(quán)系數(shù)。對于所得的統(tǒng)計特征量,結(jié)合自適應(yīng)學(xué)習(xí)方法對醫(yī)療數(shù)據(jù)進行三維特征重建。設(shè)置r個不同的聚類中心中醫(yī)療數(shù)據(jù)結(jié)構(gòu)重組的狀態(tài)因子,得到醫(yī)療數(shù)據(jù)敏感度度量的動態(tài)增量函數(shù)h1,h2,…,hi,…,hr,每一個函數(shù)滿足hi:{0,1}*→[1,m]。采用線性映射方法,建立醫(yī)療數(shù)據(jù)敏感度度量的模糊度檢測模型,結(jié)合結(jié)構(gòu)重組方法進行醫(yī)療數(shù)據(jù)敏感度度量和統(tǒng)計特征分析,所得的模糊度檢測結(jié)果為:
(4)
其中,m表示醫(yī)療數(shù)據(jù)三維特征動態(tài)重構(gòu)的模糊度分布特征集,Aj表示不同模糊度下醫(yī)療數(shù)據(jù)敏感度度量的聚類中心,其中j(j=1,2,…,n)表示模糊度。
在上述研究的基礎(chǔ)上,根據(jù)模糊度檢測結(jié)果建立醫(yī)療數(shù)據(jù)敏感度度量的統(tǒng)計分析模型,采用量化回歸分析方法進行醫(yī)療數(shù)據(jù)敏感度度量的模糊融合和聚類分析[10]。首先,采用樣本回歸分析方法進行醫(yī)療數(shù)據(jù)度量的統(tǒng)計特征分析,得到的統(tǒng)計特征量表示如下:
(5)
其中,di,j(i,j=0,1,…,n)表示醫(yī)療數(shù)據(jù)敏感度度量的控制頂點。采用插補算法進行醫(yī)療數(shù)據(jù)敏感度度量過程中的二維插值運算,以等弧長為度量尺度,進行醫(yī)療數(shù)據(jù)敏感度度量曲線分割[11-12]。使用f表示醫(yī)療數(shù)據(jù)敏感度度量的樣條曲線,根據(jù)時間t的變化,利用一階泰勒級數(shù)展開上述統(tǒng)計特征量,得到醫(yī)療數(shù)據(jù)統(tǒng)計特征量的時間尺度分解式為:
(6)
其中,H.O.T表示高階微量。對于式(6)中的ti,采用i次插補方法,進行醫(yī)療數(shù)據(jù)敏感度度量的量化回歸分析,建立統(tǒng)計分析模型,對應(yīng)的插補時刻,得到醫(yī)療數(shù)據(jù)的敏感度度量的量子計算微量[13],可定義為:
(7)
忽略醫(yī)療數(shù)據(jù)量子計算的高階微量H.O.T,根據(jù)量子計算方法[14]可得到醫(yī)療數(shù)據(jù)統(tǒng)計分析的參數(shù)增量ΔV如下:
ΔV=Ts×(V(t)-V')
(8)
其中,Ts為曲線插補周期。在此基礎(chǔ)上,采用支持向量機模型,進行醫(yī)療數(shù)據(jù)敏感度度量的動態(tài)增量控制,得到控制誤差性能曲線為:
l=ΔV(M+c)e
(9)
其中,M表示醫(yī)療數(shù)據(jù)敏感度特征分布的正定值;e表示醫(yī)療數(shù)據(jù)統(tǒng)計分析的模糊度函數(shù);c表示為聚類誤差。則根據(jù)誤差控制結(jié)果對醫(yī)療數(shù)據(jù)進行統(tǒng)計分析,結(jié)果如下:
G=l(ΔV×M-c×Z)
(10)
通過得到的醫(yī)療數(shù)據(jù)的統(tǒng)計分析模型,建立醫(yī)療數(shù)據(jù)敏感度度量的定量遞歸分析模型,采用量子計算方法進行醫(yī)療數(shù)據(jù)敏感度度量過程中的自適應(yīng)尋優(yōu)控制。
在上述采用分布式樣本重構(gòu)方法進行醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)重組,并建立醫(yī)療數(shù)據(jù)敏感度度量的統(tǒng)計分析模型的基礎(chǔ)上,進行醫(yī)療數(shù)據(jù)敏感度度量模型的設(shè)計。該文提出了基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法。采用量子計算方法進行醫(yī)療數(shù)據(jù)敏感度度量過程中的自適應(yīng)尋優(yōu)控制,采用模網(wǎng)格分區(qū)域聚類分析方法,建立醫(yī)療數(shù)據(jù)敏感度度量的關(guān)聯(lián)規(guī)則特征分布集,結(jié)合分簇融合方法進行醫(yī)療數(shù)據(jù)的敏感度度量。分布集的簇模型描述為:
(11)
其中,ρ1,…,ρn為一組醫(yī)療數(shù)據(jù)敏感度特征分布的關(guān)聯(lián)特征量。根據(jù)量子隱形傳態(tài)原理可得到共享的量子糾纏特征值O。對醫(yī)療數(shù)據(jù)的敏感度的關(guān)聯(lián)進行映射,根據(jù)映射結(jié)果,得到在鄰域空間q內(nèi),醫(yī)療數(shù)據(jù)敏感度度量的量子計算統(tǒng)計分布集為:
F=O×(G×q+E)
(12)
采用量子計算方法,得到醫(yī)療數(shù)據(jù)敏感度度量的模糊關(guān)聯(lián)度,輸出為s,得到量子尋優(yōu)進化模型為:
(13)
(14)
綜上所述,該文結(jié)合量子計算方法實現(xiàn)了對醫(yī)療數(shù)據(jù)敏感度度量。首先初始化醫(yī)療數(shù)據(jù),在建立統(tǒng)計分析模型的基礎(chǔ)上,采用樣本重構(gòu)方法重組醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu),然后采用量化回歸分析方法對醫(yī)療數(shù)據(jù)進行模糊融合和聚類分析,建立其定量遞歸分析模型,繼而采用量子計算進行醫(yī)療數(shù)據(jù)敏感度度量過程中的自適應(yīng)尋優(yōu)控制,通過全局動態(tài)規(guī)劃方法實現(xiàn)對醫(yī)療數(shù)據(jù)敏感度的度量。其實現(xiàn)過程如圖1所示。
為了測試所提的基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法的實際應(yīng)用性能,設(shè)計如下仿真實驗進行驗證。
實驗環(huán)境設(shè)置情況如下:實驗所有醫(yī)療數(shù)據(jù)來自于ADNI數(shù)據(jù)庫(adni.loni.usc.edu),醫(yī)療數(shù)據(jù)敏感度特征分布樣本長度為1 200,對醫(yī)療數(shù)據(jù)的敏感度屬性分布的維數(shù)為12,對醫(yī)療數(shù)據(jù)網(wǎng)格聚類的大小40*40,對醫(yī)療數(shù)據(jù)的統(tǒng)計特征分析的樣本訓(xùn)練集為60,關(guān)聯(lián)度特征分布系數(shù)為0.12。硬件環(huán)境為:Windows7系統(tǒng),Visual Studio2010操作平臺。
圖1 基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量實現(xiàn)
為使實驗結(jié)果具有說明性,將所提的基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法與文獻[4]中的基于改進全卷積神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)表面重建和敏感度度量方法、文獻[5]中的基于關(guān)聯(lián)規(guī)則特征檢測的醫(yī)療數(shù)據(jù)敏感度度量方法、文獻[6]中的基于秩約束密度敏感距離的自適應(yīng)聚類方法作對比。
(1)數(shù)據(jù)查準(zhǔn)率。
查準(zhǔn)率是一種衡量檢索過程的準(zhǔn)確度的指標(biāo),通過查準(zhǔn)率的對比,可以判斷不同方法對敏感醫(yī)療數(shù)據(jù)的檢索能力,其計算過程如下:
(15)
(2)度量時間開銷。
負(fù)載開銷指在數(shù)據(jù)敏感度度量過程中所花費的時間,可以判斷不同方法的時間消耗情況。度量開銷結(jié)果由Visual Studio2010操作平臺自動統(tǒng)計。
(3)查全率。
查全率是指由度量過程檢索出的相關(guān)數(shù)據(jù)量與數(shù)據(jù)總量的比率,由數(shù)據(jù)內(nèi)容、數(shù)量和運行環(huán)境的平穩(wěn)性來決定,是衡量度量成功度和自適應(yīng)性的一項指標(biāo),其計算過程如下:
(16)
根據(jù)上述實驗條件和指標(biāo)的設(shè)定情況,進行醫(yī)療數(shù)據(jù)的敏感度度量實驗。首先對醫(yī)療數(shù)據(jù)進行采集,在此基礎(chǔ)上,建立醫(yī)療數(shù)據(jù)敏感度度量的定量遞歸分析模型,采用量子計算方法進行醫(yī)療數(shù)據(jù)敏感度度量過程中的自適應(yīng)尋優(yōu)控制,實現(xiàn)敏感度表征。得到的醫(yī)療數(shù)據(jù)敏感度表征結(jié)果如圖2所示。
圖2 醫(yī)療數(shù)據(jù)敏感度表征結(jié)果
分析圖2可知,采用基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法后,醫(yī)療數(shù)據(jù)敏感度的波動幅值始終保持在[-1,1]之間,波動情況較為穩(wěn)定,證明利用基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法進行醫(yī)療數(shù)據(jù)敏感度度量過程的敏感特征辨識能力較好,信息反饋能力較強、自適應(yīng)優(yōu)勢明顯。
測試不同數(shù)據(jù)敏感度度量方法的數(shù)據(jù)查準(zhǔn)率,對比結(jié)果如表1所示。
表1 不同醫(yī)療數(shù)據(jù)敏感度度量方法的
分析表1可知,隨著實驗迭代次數(shù)的不斷增加,不同方法的度量查準(zhǔn)率也在不斷發(fā)生變化,整體表現(xiàn)出上升態(tài)勢。其中,文獻[5]方法的度量查準(zhǔn)率的上升幅度最大,但其度量查準(zhǔn)率值低于文中方法、文獻[4]方法和文獻[6]方法。文中方法的度量查準(zhǔn)率上升幅度雖小,但度量查準(zhǔn)率值更高,證明采用文中方法在醫(yī)療數(shù)據(jù)敏感度度量過程中,對醫(yī)療敏感數(shù)據(jù)的捕獲能力較強,檢索誤差較小,能夠有效實現(xiàn)敏感醫(yī)療數(shù)據(jù)的查準(zhǔn)。
為進一步對度量方法的有效性進行檢驗,測試不同數(shù)據(jù)敏感度度量方法的度量開銷和查全率,結(jié)果分別如圖3和圖4所示。
(a)文中方法
(b)文獻[4]方法
(c)文獻[5]方法
(d)文獻[6]方法
分析圖3可知,隨著數(shù)據(jù)樣本數(shù)量的增加,同醫(yī)療數(shù)據(jù)敏感度度量方法度量所需的時間也在不斷變化。文中方法和文獻[4]、文獻[5]方法的時間開銷均呈現(xiàn)出上升態(tài)勢,而文獻[6]方法的時間開銷先上升后下降。但四種方法中,文獻[5]方法的時間開銷最大,文中方法和文獻[4]方法的時間開銷較接近,但文中方法的時間開銷更小,證明采用文中方法在醫(yī)療數(shù)據(jù)敏感度度量方法的時效性更強。
圖4 不同醫(yī)療數(shù)據(jù)敏感度度量方法查全率對比
分析圖4可知,隨著實驗迭代次數(shù)的不斷增加,不同醫(yī)療數(shù)據(jù)敏感度度量方法的查全率也在不斷發(fā)生變化。但文中的基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法的查全率始終在4種方法中保持最高,維持在95%左右,證明該方法具有較強的自適應(yīng)性,對數(shù)據(jù)的統(tǒng)計分析能力較強。
為對醫(yī)療數(shù)據(jù)的敏感度進行準(zhǔn)確度量,提出基于量子計算的醫(yī)療數(shù)據(jù)敏感度度量方法。采用分布式樣本重構(gòu)方法進行醫(yī)療數(shù)據(jù)的分布式結(jié)構(gòu)重組,對醫(yī)療數(shù)據(jù)進行統(tǒng)計分析,結(jié)合量化回歸分析方法進行醫(yī)療數(shù)據(jù)敏感度度量的模糊融合和聚類分析,建立醫(yī)療數(shù)據(jù)敏感度度量的定量遞歸分析模型,采用量子計算方法建立醫(yī)療數(shù)據(jù)敏感度度量的量子尋優(yōu)約束進化模型,根據(jù)動態(tài)全局規(guī)劃結(jié)果完成醫(yī)療數(shù)據(jù)敏感度的度量。經(jīng)實驗研究得知,利用該方法進行醫(yī)療數(shù)據(jù)敏感度度量的辨識能力較好、統(tǒng)計分析能力較強,且自適應(yīng)性能較強,為保證醫(yī)療信息的安全性奠定了基礎(chǔ)。在今后的研究中,將進一步對該方法進行優(yōu)化,以期使所提的數(shù)據(jù)敏感度度量方法在度量時效和應(yīng)用范圍兩個方面有效突破。