亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合方法

        2021-12-08 02:35:38胡祥培
        管理科學(xué) 2021年4期
        關(guān)鍵詞:疾病診斷數(shù)據(jù)源正則

        鄭 毅,胡祥培

        大連理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116023

        引言

        醫(yī)療信息技術(shù)的飛速發(fā)展及其在醫(yī)療健康領(lǐng)域的普及給醫(yī)療服務(wù)行業(yè)的運(yùn)營(yíng)模式帶來(lái)重大變革,特別是疾病診斷決策支持領(lǐng)域首當(dāng)其沖[1]。診療大數(shù)據(jù)的多源性、動(dòng)態(tài)實(shí)時(shí)更新性和高度醫(yī)學(xué)專(zhuān)業(yè)性等特征給智能臨床決策支持(特別是疾病預(yù)測(cè)分析)帶來(lái)前所未有的機(jī)遇和挑戰(zhàn),使實(shí)現(xiàn)個(gè)性化和精準(zhǔn)化醫(yī)療成為可能[2]。而如何充分利用診療數(shù)據(jù),化解其內(nèi)在的復(fù)雜性和數(shù)據(jù)規(guī)模并提供臨床診斷決策支持,是未來(lái)該領(lǐng)域研究的關(guān)鍵問(wèn)題[3]。因此,智能臨床決策支持中診療數(shù)據(jù)融合方法的研究是當(dāng)前學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的熱點(diǎn)和難點(diǎn)問(wèn)題[4-5]。

        大量已有診療數(shù)據(jù)分析方法往往只使用單一數(shù)據(jù)源進(jìn)行分析建模[6],由于慢性病患者診療周期長(zhǎng),患者電子病歷中檢查項(xiàng)目的測(cè)量值隨時(shí)間推移數(shù)據(jù)不斷更新[7],利用單一階段的數(shù)據(jù)源進(jìn)行疾病預(yù)測(cè)分析難以刻畫(huà)指標(biāo)的動(dòng)態(tài)變化特征,致使分析方法準(zhǔn)確性降低[8]。目前,多階段的診療數(shù)據(jù)融合研究中關(guān)于不同階段診療數(shù)據(jù)源時(shí)間關(guān)聯(lián)性的刻畫(huà)缺少科學(xué)、有效的方法,使疾病預(yù)測(cè)滯后、診斷準(zhǔn)確性和實(shí)時(shí)性受到限制。因此,如何實(shí)現(xiàn)序列診療數(shù)據(jù)有效融合和分析、提高診療大數(shù)據(jù)分析能力、實(shí)現(xiàn)準(zhǔn)確的疾病診斷是亟待解決的問(wèn)題。

        綜上所述,已有的序列診療數(shù)據(jù)融合方法難以刻畫(huà)不同階段診療數(shù)據(jù)的時(shí)間關(guān)聯(lián)性,使疾病診斷準(zhǔn)確性和實(shí)時(shí)性降低。為了有效解決疾病診斷中序列診療數(shù)據(jù)融合這一挑戰(zhàn)性問(wèn)題,本研究利用稀疏正則化原理,提出基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合(time smoothing regularization for sequential clinical data fusion,TSRSCDF)方法。該方法針對(duì)序列診療數(shù)據(jù)構(gòu)建回歸模型,利用稀疏正則化方法使特征級(jí)具有對(duì)指標(biāo)的選擇特性、數(shù)據(jù)源級(jí)能夠保持不同階段數(shù)據(jù)源具有時(shí)間連續(xù)性,最終實(shí)現(xiàn)對(duì)序列診療數(shù)據(jù)的融合,提高疾病診斷的準(zhǔn)確性,增強(qiáng)疾病管理的有效性和科學(xué)性。

        1 相關(guān)研究評(píng)述

        疾病預(yù)測(cè)分析是指利用模型、算法和系統(tǒng)等信息技術(shù)對(duì)豐富的、大量的診療數(shù)據(jù)進(jìn)行分析,得出未來(lái)與健康相關(guān)的結(jié)果或疾病風(fēng)險(xiǎn)信息,以提高診療決策水平[9-10]。關(guān)于疾病預(yù)測(cè)分析的研究主要包括疾病診斷和疾病預(yù)警[11]、再入院率預(yù)測(cè)[12]、醫(yī)療結(jié)果預(yù)測(cè)[13]和患者死亡率預(yù)測(cè)[14]等。

        電子病歷系統(tǒng)中患者的診療數(shù)據(jù)包含數(shù)值數(shù)據(jù)、文本數(shù)據(jù)、影像學(xué)數(shù)據(jù)等大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[15],數(shù)據(jù)的非結(jié)構(gòu)化特性給數(shù)據(jù)融合過(guò)程帶來(lái)巨大困難,采用特征級(jí)融合能夠很好地克服數(shù)據(jù)異構(gòu)性障礙[16]。但不同階段診療數(shù)據(jù)包含的海量特征信息使模型構(gòu)建和參數(shù)求解更加復(fù)雜,因此,本研究將詳細(xì)介紹特征級(jí)融合方法的相關(guān)研究以及保持不同階段數(shù)據(jù)源的時(shí)間連續(xù)性對(duì)于序列診療數(shù)據(jù)融合建模帶來(lái)的挑戰(zhàn)。

        基于特征的融合方法[17]過(guò)程為:首先,對(duì)各數(shù)據(jù)源數(shù)據(jù)進(jìn)行預(yù)處理,將其轉(zhuǎn)換為特征向量;其次,將各數(shù)據(jù)源數(shù)據(jù)對(duì)應(yīng)的特征向量按次序串聯(lián),構(gòu)成合成特征向量;最后,通過(guò)數(shù)據(jù)融合算法實(shí)現(xiàn)多數(shù)據(jù)源的融合。由于診療數(shù)據(jù)的高度復(fù)雜性,合成特征向量具有高維特征[18],為了避免診療數(shù)據(jù)融合過(guò)程中過(guò)擬合,國(guó)內(nèi)外學(xué)者對(duì)診療數(shù)據(jù)融合中的特征高維問(wèn)題開(kāi)展了大量研究,主要分為兩類(lèi)。一類(lèi)方法采用先降維再融合的思路,CORREA et al.[19]采用奇異值分解降維法對(duì)數(shù)據(jù)源特征向量分別進(jìn)行降維,再利用多集合典型相關(guān)分析將醫(yī)療影像學(xué)中兩類(lèi)影像數(shù)據(jù)與一類(lèi)數(shù)值數(shù)據(jù)進(jìn)行融合,并很好地關(guān)聯(lián)三類(lèi)數(shù)據(jù)的空間分辨率和時(shí)間分辨率,進(jìn)而提高數(shù)據(jù)分析的準(zhǔn)確性。另一類(lèi)是在構(gòu)建目標(biāo)函數(shù)時(shí)采用稀疏正則化約束改進(jìn)學(xué)習(xí)模型,其本質(zhì)是在構(gòu)建模型中進(jìn)行特征選擇,以降低模型相關(guān)特征維度,代表方法有Lasso正則化方法[20]、組Lasso正則化方法[21]等。ADHIKARI et al.[22]研究高維縱向數(shù)據(jù)分類(lèi)問(wèn)題,將其方法應(yīng)用于心血管健康認(rèn)知研究中,利用縱向數(shù)據(jù)診斷患者阿爾茨海默病的病情,實(shí)驗(yàn)結(jié)果證明了該方法的有效性,并得出與病情相關(guān)的重要影響要素;LI et al.[23]使用稀疏逆協(xié)方差估計(jì)對(duì)348名受試者的多模態(tài)診療數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)患者阿爾茨海默病的病情,得到的模型在診斷準(zhǔn)確性上高于僅使用單一診療數(shù)據(jù)源進(jìn)行疾病診斷的方法。利用基于稀疏正則化理論構(gòu)建的數(shù)據(jù)融合模型,具有靈活刻畫(huà)數(shù)據(jù)源間與特征間關(guān)系的優(yōu)勢(shì),同時(shí)模型具有特征選擇的特性,使模型具有更好的可解釋性[24]。

        由于序列診療數(shù)據(jù)源具有時(shí)間關(guān)聯(lián)性,考慮不同階段數(shù)據(jù)源具有的時(shí)間關(guān)聯(lián)特性,實(shí)現(xiàn)采用基于稀疏正則化的序列診療數(shù)據(jù)有效融合、提高診療數(shù)據(jù)分析的準(zhǔn)確性是一個(gè)具有挑戰(zhàn)性的研究方向。針對(duì)具有多階段的診療數(shù)據(jù)融合問(wèn)題,其中有代表性的方法有:XIE et al.[25]提出利用疾病不同階段的序列檢查信息和診斷信息,將不同階段的診療數(shù)據(jù)按照時(shí)間順序串聯(lián)構(gòu)成合成向量,利用合成向量構(gòu)建回歸模型,預(yù)測(cè)疾病狀態(tài)的序列數(shù)據(jù)建模方法;CHEN et al.[26]提出在數(shù)據(jù)預(yù)處理過(guò)程中利用時(shí)間光滑核函數(shù),對(duì)不同階段數(shù)據(jù)賦予不同權(quán)重值,刻畫(huà)不同階段指標(biāo)的時(shí)間重要性,將多階段數(shù)據(jù)轉(zhuǎn)換為點(diǎn)模型表示的方法;安瑩等[27]針對(duì)心血管疾病的準(zhǔn)確預(yù)測(cè)問(wèn)題,提出利用循環(huán)神經(jīng)網(wǎng)絡(luò)等技術(shù)融合多種類(lèi)型的臨床數(shù)據(jù),并有效捕獲電子病歷數(shù)據(jù)中的時(shí)序特征,最終提高心血管疾病風(fēng)險(xiǎn)預(yù)測(cè)的性能。但是上述方法仍難以科學(xué)準(zhǔn)確地描述多階段的診療數(shù)據(jù)融合研究中關(guān)于不同階段診療數(shù)據(jù)源的時(shí)間關(guān)聯(lián),且存在實(shí)際使用中診斷準(zhǔn)確性較低的問(wèn)題,因此需要使用準(zhǔn)確性更高的方法刻畫(huà)多階段診療數(shù)據(jù)融合中的時(shí)間關(guān)聯(lián)性。

        基于稀疏正則化的序列診療數(shù)據(jù)融合過(guò)程存在以下困難。①對(duì)于序列診療數(shù)據(jù)融合中不同階段診療數(shù)據(jù)源時(shí)間關(guān)聯(lián)性的刻畫(huà)。建立相應(yīng)的稀疏正則化模型,使不同階段數(shù)據(jù)源具有的權(quán)重因子隨時(shí)間變化,診療數(shù)據(jù)中相同特征的權(quán)重因子隨時(shí)間的變化具有連續(xù)性和一致性。②對(duì)于序列診療數(shù)據(jù)融合中合成特征向量的處理。序列診療數(shù)據(jù)合成特征向量具有高維性,因此需要在構(gòu)建序列數(shù)據(jù)融合模型時(shí)對(duì)模型進(jìn)行降維處理,并在不同階段數(shù)據(jù)源中選擇相同特征,以提高模型泛化能力和可解釋性。③高效的數(shù)值優(yōu)化算法設(shè)計(jì)。由于引入稀疏正則化項(xiàng),使模型參數(shù)的優(yōu)化求解問(wèn)題不具有解析解,因此需要針對(duì)模型特征設(shè)計(jì)高效的數(shù)值求解算法[28]。為了有效解決上述困難,本研究構(gòu)建基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合模型以及設(shè)計(jì)高效求解算法,并利用阿爾茨海默神經(jīng)影像學(xué)計(jì)劃[29]中序列磁共振成像檢查數(shù)據(jù),針對(duì)阿爾茨海默病進(jìn)行疾病診斷,以驗(yàn)證方法的有效性。

        2 基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合方法

        針對(duì)目前關(guān)于序列診療數(shù)據(jù)融合問(wèn)題研究存在的不足和挑戰(zhàn),本研究提出基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合方法。先介紹采用回歸分析構(gòu)建的序列診療數(shù)據(jù)融合模型,在此基礎(chǔ)上在模型訓(xùn)練過(guò)程中構(gòu)建時(shí)間光滑正則化罰函數(shù),刻畫(huà)不同階段診療數(shù)據(jù)源的時(shí)間關(guān)聯(lián)性,建立基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合模型。由于提出的模型難以數(shù)值求解,本研究采用近端加速梯度下降優(yōu)化算法[30]對(duì)模型進(jìn)行求解。

        2.1 理論基礎(chǔ)

        假設(shè)診療數(shù)據(jù)為具有n個(gè)階段的序列數(shù)據(jù)x1,x2,…,xt,…,xn,xt為第t階段的檢查特征,為m維實(shí)數(shù)向量,xt∈Rm,R為實(shí)數(shù)向量集,m為各階段檢查特征的維度,第(n+1)階段對(duì)應(yīng)的診斷結(jié)果為y,y∈{+1,-1}。本研究采用回歸模型構(gòu)建疾病診斷模型,假設(shè)當(dāng)前階段為n,記X為特征矩陣,X=[x1;x2;…;xn]T∈Rn×m,T為矩陣的轉(zhuǎn)置?;颊叩?n+1)階段診斷結(jié)果的患病預(yù)測(cè)模型為

        (1)

        其中,wt為對(duì)于xt的權(quán)重向量;c為截距,c∈R;wt和c皆為需要求解的參數(shù)。針對(duì)(1)式最直接的求解方法為利用邏輯損失函數(shù)[31]進(jìn)行參數(shù)擬合,即

        (2)

        利用(2)式進(jìn)行的參數(shù)擬合未能考慮不同階段特征的時(shí)間關(guān)聯(lián)性,導(dǎo)致針對(duì)序列診療數(shù)據(jù)融合分析的精確性難以提升。

        2.2 基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合模型

        為了刻畫(huà)序列診療數(shù)據(jù)融合中不同階段特征的時(shí)間關(guān)聯(lián)性,在(2)式擬合參數(shù)模型的基礎(chǔ)上,采用結(jié)構(gòu)化稀疏的方法構(gòu)建時(shí)間光滑正則化罰函數(shù),使同一特征相鄰階段的權(quán)重系數(shù)差別較小,進(jìn)而保證預(yù)測(cè)結(jié)果的連續(xù)性和一致性,提高方法對(duì)于疾病診斷的準(zhǔn)確性。具體模型為

        (3)

        由于序列診療數(shù)據(jù)合成特征向量具有高維性,使通過(guò)(3)式擬合的預(yù)測(cè)模型難以處理“維度災(zāi)難”問(wèn)題,致使模型泛化能力降低,處理高維特征的預(yù)測(cè)問(wèn)題一般采用降維方法。為了使模型具有可解釋性,采用結(jié)構(gòu)化稀疏的方法對(duì)合成特征向量進(jìn)行降維處理,模型學(xué)習(xí)過(guò)程中構(gòu)建基于l2,1范數(shù)的組Lasso正則化罰函數(shù)[32],使預(yù)測(cè)模型能夠利用不同階段序列診療數(shù)據(jù)中的相同特征進(jìn)行疾病診斷。結(jié)合時(shí)間光滑正則化罰函數(shù),得出具有時(shí)間光滑正則化罰函數(shù)的序列診療數(shù)據(jù)融合模型,即

        (4)

        圖1 TSRSCDF模型進(jìn)行疾病診斷流程

        2.3 求解TSRSCDF模型的近端加速梯度下降優(yōu)化算法

        由于TSRSCDF模型中包含組Lasso和融合Lasso兩類(lèi)正則化罰函數(shù),使模型不可微,求解光滑優(yōu)化問(wèn)題的經(jīng)典算法難以適用;同時(shí),由于邏輯損失函數(shù)具有的復(fù)雜形式,使模型難以解析求解。

        針對(duì)TSRSCDF模型的求解,一種思路是采用對(duì)偶原理構(gòu)建輔助變量和約束條件,將(4)式等價(jià)地轉(zhuǎn)換為帶約束的光滑優(yōu)化問(wèn)題,然后利用凸優(yōu)化算法進(jìn)行數(shù)值求解[34]。TIBSHIRANI et al.[33]針對(duì)具有融合Lasso罰函數(shù)的最小平方誤差優(yōu)化問(wèn)題,引入輔助變量將模型重構(gòu)為具有線性約束和非負(fù)約束、目標(biāo)函數(shù)為光滑函數(shù)的約束優(yōu)化問(wèn)題,然后針對(duì)等價(jià)優(yōu)化問(wèn)題采用SQOPT軟件包進(jìn)行求解。AHMED et al.[35]針對(duì)具有融合Lasso罰函數(shù)的邏輯回歸問(wèn)題,引入輔助變量構(gòu)建等價(jià)優(yōu)化問(wèn)題,并對(duì)等價(jià)問(wèn)題采用CVX優(yōu)化軟件包求解。然而此種方法求解效率較低,TIBSHIRANI et al.[33]認(rèn)為,當(dāng)樣本量大于200、樣本維度高于2 000時(shí),此算法不能有效求解問(wèn)題。因此,提出近端加速梯度下降法對(duì)TSRSCDF模型進(jìn)行高效求解。

        由于加速梯度下降算法是針對(duì)求解非光滑優(yōu)化問(wèn)題具有收斂階最高的二階梯度下降求解方法[36],本研究采用加速梯度下降算法框架設(shè)計(jì)優(yōu)化算法。記

        (5)

        其中,Loss(·)為訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)誤差損失函數(shù),則TSRSCDF模型可化為

        (6)

        首先,構(gòu)建目標(biāo)函數(shù)f(·)在點(diǎn)(W,c)的近似為

        (7)

        其中,U為具有n×m維變量矩陣,U=[u1;u2;…;ut;…;un]T∈Rn×m,ut為權(quán)重向量wt的近似,t=1,2,…,n;d為截距,d∈R,R為實(shí)數(shù)集;L為L(zhǎng)oss(·,·)二階導(dǎo)數(shù)的近似值,L>0;‖U-W‖F(xiàn)為矩陣U-W的F-范數(shù)。由于(7)式是關(guān)于(6)式的近似,因此目標(biāo)函數(shù)(7)式的最優(yōu)解可作為目標(biāo)函數(shù)(6)式的最優(yōu)解的近似,導(dǎo)出針對(duì)(6)式的梯度下降迭代求解算法,即

        (8)

        其中,k為迭代次數(shù),Wk為n×m維變量矩陣,Wk∈Rn×m;ck為常量,ck∈R;Lk為搜索步長(zhǎng)。

        加速梯度下降算法迭代過(guò)程中產(chǎn)生兩組序列:{(Wk,ck)}為解近似值,{(SWk,sck)}為搜索方向,{(SWk,sck)}為(Wk-1,ck-1)和(Wk,ck)的線性組合,即

        (SWk,sck)=(Wk,ck)+βk(Wk-1,ck-1)

        (9)

        其中,SWk為n×m維變量矩陣,SWk∈Rn×m;sck為常量,sck∈R;βk為組合參數(shù)。因此,加速梯度下降算法的近似值更新算法為

        (10)

        基于Armijo-Goldstein規(guī)則[37]計(jì)算Lk,優(yōu)化問(wèn)題(10)式是求解TSRSCDF模型(6)式的關(guān)鍵,下面給出利用近端算子[38]對(duì)該問(wèn)題的求解方法。

        記(6)式的近端算子為

        μ‖W‖2,1}

        (11)

        (11)式可視為(6)式中的Loss(W,c)為平方誤差的特殊形式。為了利用(11)式求解TSRSCDF模型,下面推導(dǎo)出優(yōu)化問(wèn)題(10)式與優(yōu)化問(wèn)題(11)式最優(yōu)解的聯(lián)系,見(jiàn)定理1。

        定理1 優(yōu)化問(wèn)題(10)式的最優(yōu)解(Wk+1,ck+1)可由優(yōu)化問(wèn)題(11)式導(dǎo)出,即

        (12)

        證明:首先,將等式右側(cè)的算式按照定義展開(kāi);其次,將優(yōu)化函數(shù)中的2-范數(shù)展開(kāi)并合并同類(lèi)項(xiàng);最后,分別按照f(shuō)Lk,(SWk,sck)(W,c)和(Wk+1,ck+1)定義推導(dǎo)出左側(cè)表達(dá)式。具體推導(dǎo)過(guò)程省略,如有需要可與作者聯(lián)系。

        由定理1可得,優(yōu)化問(wèn)題(10)式的最優(yōu)解可由求解優(yōu)化(13)式問(wèn)題得出,即

        (13)

        利用LIU et al.[39]提出的融合Lasso信號(hào)近似優(yōu)化算法對(duì)優(yōu)化問(wèn)題(13)式進(jìn)行求解。具體地,由于(13)式是具有融合Lasso和組Lasso兩項(xiàng)罰函數(shù)的投影算子,可將計(jì)算分為兩步,第一步利用FLSA優(yōu)化算法對(duì)子優(yōu)化問(wèn)題進(jìn)行求解,有

        (14)

        則上述優(yōu)化問(wèn)題的最優(yōu)解即為(13)式的最優(yōu)解。

        至此,本研究給出求解TSRSCDF模型的近端加速梯度下降優(yōu)化算法,具體如下:

        輸入:W0,c0,L0>0,λ>0,μ>0

        輸出:W,c

        初始化:k=1,W1=W0,c1=c0,α-1=0,α0=1,L=L0(α為算法內(nèi)部變量計(jì)算的特定參數(shù))

        重復(fù)

        查找最小L=2pLk-1,p為任意實(shí)數(shù),p=0,1,…,使f(Wk+1,ck+1)≤fL,(SWk,sck)(Wk+1,ck+1)成立,其中,

        直至|f(Wk+1,ck+1)-f(Wk,ck)|? TOLERANCE*|f(Wk,ck)|成立

        首先初始化各參數(shù)的值,然后逐步迭代求解W和c的值。每一次循環(huán)中按照加速下降策略確定搜索方向(SWk,sck),逐漸增大搜索步長(zhǎng)L的值,并利用f(Wk+1,ck+1)≤fL,(SWk,sck)(Wk+1,ck+1)條件確定搜索步長(zhǎng),逐步更新參數(shù),直至相鄰循環(huán)中目標(biāo)函數(shù)值差值的絕對(duì)值滿(mǎn)足精度,終止循環(huán),并輸出最優(yōu)解。

        3 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析

        本研究選取阿爾茨海默病進(jìn)行疾病診斷,驗(yàn)證基于序列診療數(shù)據(jù)融合的疾病診斷方法實(shí)際效用。本研究數(shù)據(jù)來(lái)源于阿爾茨海默神經(jīng)影像學(xué)計(jì)劃數(shù)據(jù)庫(kù)[29]中837名患者的核磁共振檢查數(shù)據(jù),每個(gè)核磁共振檢查數(shù)據(jù)樣本包括患者的白質(zhì)分解體積、皮層分割體積、表面積、皮質(zhì)厚度平均值和皮質(zhì)厚度標(biāo)準(zhǔn)差5類(lèi)檢查特征指標(biāo)[40],共350項(xiàng)檢查指標(biāo)及患者的病理診斷結(jié)果。將患者第一次檢查的時(shí)間點(diǎn)稱(chēng)為基線(baesline,BL),其后不同階段的檢查數(shù)據(jù)按照相對(duì)于基線的時(shí)間間隔進(jìn)行標(biāo)注。例如,M06表示該檢查對(duì)應(yīng)的時(shí)間階段是第一次檢查后的6個(gè)月?;颊叩男蛄袡z查數(shù)據(jù)時(shí)間間隔為{BL,M06,M12,M18,M24,M36,…… }。

        實(shí)驗(yàn)中本研究將利用TSRSCDF模型融合序列診療數(shù)據(jù),對(duì)下一階段患者病情進(jìn)行預(yù)測(cè),從而達(dá)到診斷疾病的目的。患者的病理診斷結(jié)果分為癡呆-正類(lèi)和正常-負(fù)類(lèi)共兩類(lèi),采用受試者工作特征(receiver operating characteristic,ROC)曲線測(cè)量預(yù)測(cè)的性能[41]。ROC曲線是以假陽(yáng)性概率為橫軸、真陽(yáng)性概率為縱軸組成的坐標(biāo)圖,有

        (15)

        (16)

        其中,F(xiàn)PR為假陽(yáng)性概率,F(xiàn)P為假正的樣本數(shù)目,TN為真負(fù)的樣本數(shù)目,TPR為真陽(yáng)性概率,TP為真正的樣本數(shù)目,F(xiàn)N為假負(fù)的樣本數(shù)目。由于ROC曲線并不能直觀比較模型的預(yù)測(cè)性能,需根據(jù)ROC曲線下的面積(AUC)作為標(biāo)量指標(biāo)測(cè)量模型的預(yù)測(cè)性能以及量化模型均衡Ⅰ類(lèi)錯(cuò)誤與Ⅱ類(lèi)錯(cuò)誤的能力[42]。

        實(shí)驗(yàn)共分為3部分,第1部分對(duì)比TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測(cè)性能,說(shuō)明基于序列數(shù)據(jù)融合的疾病診斷方法預(yù)測(cè)性能上的優(yōu)勢(shì);第2部分比較TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測(cè)性能;第3部分比較利用相同序列診療數(shù)據(jù)針對(duì)未來(lái)不同階段疾病診斷的預(yù)測(cè)性能,分析預(yù)測(cè)時(shí)間窗長(zhǎng)度對(duì)于模型預(yù)測(cè)性能的影響。

        3.1 實(shí)驗(yàn)1:對(duì)比TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測(cè)性能

        首先用本研究提出的TSRSCDF方法融合3個(gè)階段診療數(shù)據(jù),對(duì)患者第4階段的病情進(jìn)行預(yù)測(cè),通過(guò)利用TSRSCDF方法對(duì)診療序列{BL,M06,M12}進(jìn)行分析,對(duì)患者下一階段即M18的病情進(jìn)行預(yù)測(cè)。為了實(shí)際驗(yàn)證疾病預(yù)測(cè)模型的有效性,對(duì)初始數(shù)據(jù)集進(jìn)行篩選,選擇診療序列{BL,M06,M12}中各階段診斷結(jié)果為健康的患者數(shù)據(jù),預(yù)測(cè)M18階段患者患病狀況。最終得到223名患者的序列診療數(shù)據(jù),其中M18階段健康人數(shù)為191人,患病人數(shù)為32人。

        單階段診療數(shù)據(jù)分析方法為:①采用具有Lasso正則化罰函數(shù)的線性回歸方法,利用M12階段的診療數(shù)據(jù)預(yù)測(cè)M18階段患者患病狀況;②基于多任務(wù)學(xué)習(xí)的疾病預(yù)測(cè)方法[8],利用BL階段的診療數(shù)據(jù),構(gòu)建M18階段患者患病預(yù)測(cè)子任務(wù)。TSRSCDF方法中的正則化參數(shù)λ∈{10-7,10-6,10-5,10-4,10-3},μ∈{2-9,2-8,2-7,2-6,2-5};具有Lasso正則化罰函數(shù)的線性回歸方法中的正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5},基于多任務(wù)學(xué)習(xí)的疾病預(yù)測(cè)方法中的融合Lasso正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5}。各方法中正則化參數(shù)的取值通過(guò)交叉驗(yàn)證確定[43]。隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集合,利用學(xué)習(xí)模型對(duì)余下的測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。重復(fù)實(shí)驗(yàn)并計(jì)算ROC曲線下面積的平均值,當(dāng)試驗(yàn)重復(fù)50次后,預(yù)測(cè)結(jié)果平均值對(duì)于逐步增加的試驗(yàn)次數(shù)趨于穩(wěn)定,因此采用將試驗(yàn)重復(fù)50次并計(jì)算ROC曲線下面積的平均值的做法,TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測(cè)性能見(jiàn)表1,黑體數(shù)據(jù)表示ROC曲線下面積的最高值。各方法對(duì)應(yīng)的ROC曲線見(jiàn)圖2。

        表1 TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測(cè)性能對(duì)比

        圖2 TSRSCDF方法與單階段診療數(shù)據(jù)分析方法對(duì)應(yīng)的ROC曲線

        由表1可知,由于TSRSCDF方法利用檢查指標(biāo)對(duì)應(yīng)不同階段的更多特征構(gòu)建疾病診斷模型,因此具有較高的預(yù)測(cè)性能。利用單階段診療數(shù)據(jù)的疾病診斷方法中,相對(duì)于基于多任務(wù)學(xué)習(xí)的疾病預(yù)測(cè)方法,利用具有Lasso正則化罰函數(shù)的線性回歸方法具有較高的預(yù)測(cè)性能,因?yàn)榛诙嗳蝿?wù)學(xué)習(xí)的疾病預(yù)測(cè)方法利用BL階段的診療數(shù)據(jù),對(duì)M18階段患者患病狀況進(jìn)行預(yù)測(cè),而采用具有Lasso正則化罰函數(shù)的線性回歸方法利用M12階段的診療數(shù)據(jù)進(jìn)行病情預(yù)測(cè),由于預(yù)測(cè)時(shí)間窗較長(zhǎng),利用BL階段的診療數(shù)據(jù)進(jìn)行的病情預(yù)測(cè)難以準(zhǔn)確刻畫(huà)疾病的進(jìn)展?fàn)顩r導(dǎo)致預(yù)測(cè)準(zhǔn)確性降低。圖2中TSRSCDF方法對(duì)應(yīng)的ROC曲線整體高于其他方法,也說(shuō)明TSRSCDF方法具有較高的預(yù)測(cè)性能。實(shí)驗(yàn)1的結(jié)果表明,與利用單階段診療數(shù)據(jù)的病情預(yù)測(cè)方法相比,本研究提出的利用序列診療數(shù)據(jù)融合的疾病診斷TSRSCDF方法,在構(gòu)建疾病診斷模型時(shí)將不同檢查指標(biāo)對(duì)應(yīng)的不同階段檢查值同時(shí)進(jìn)行分析,選擇相關(guān)指標(biāo)的不同階段特征值進(jìn)行融合,這一數(shù)據(jù)融合機(jī)理使TSRSCDF方法具有綜合各檢查指標(biāo)中信息變化的優(yōu)勢(shì),最終提升了疾病診斷的準(zhǔn)確性。

        3.2 實(shí)驗(yàn)2:對(duì)比TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測(cè)性能

        TSRSCDF方法具有的突出特性是模型學(xué)習(xí)過(guò)程中使同一特征相鄰階段的權(quán)重系數(shù)差別較小,進(jìn)而保證預(yù)測(cè)結(jié)果的連續(xù)性和一致性。為了驗(yàn)證利用TSRSCDF方法對(duì)提升疾病診斷準(zhǔn)確性的作用,對(duì)比的相關(guān)序列診療數(shù)據(jù)分析方法為:①采用具有組Lasso正則化罰函數(shù)的線性回歸方法;②將多階段診療數(shù)據(jù)轉(zhuǎn)換為點(diǎn)模型表示[26],對(duì)轉(zhuǎn)換特征利用具有Lasso正則化罰函數(shù)的線性回歸方法。利用與實(shí)驗(yàn)1相同的樣本數(shù)據(jù),3類(lèi)方法利用診療序列{BL,M06,M12}數(shù)據(jù)對(duì)患者M(jìn)18階段患者患病狀況預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。TSRSCDF方法中的正則化參數(shù)λ∈{10-7,10-6,10-5,10-4,10-3},μ∈{2-9,2-8,2-7,2-6,2-5};具有組Lasso正則化罰函數(shù)的線性回歸方法中的正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5};將多階段數(shù)據(jù)轉(zhuǎn)換為點(diǎn)模型表示方法,并對(duì)轉(zhuǎn)換特征利用具有Lasso正則化罰函數(shù)的線性回歸方法中的正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5}。各方法中正則化參數(shù)的取值通過(guò)交叉驗(yàn)證確定。隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集合,利用學(xué)習(xí)模型對(duì)余下的測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。重復(fù)實(shí)驗(yàn)50次并計(jì)算ROC曲線下面積的平均值,TSRSCDF方法和相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測(cè)性能見(jiàn)表2,黑體數(shù)據(jù)為ROC曲線下面積的最高值。各方法對(duì)應(yīng)的ROC曲線見(jiàn)圖3。

        由表2可知,TSRSCDF方法比相關(guān)序列診療數(shù)據(jù)分析方法具有較高的預(yù)測(cè)性能。圖3中TSRSCDF方法對(duì)應(yīng)的ROC曲線高于其他方法,也說(shuō)明TSRSCDF方法具有較高的預(yù)測(cè)性能。由于TSRSCDF方法中檢查指標(biāo)對(duì)應(yīng)不同階段特征的權(quán)重值由機(jī)器學(xué)習(xí)確定,選取的權(quán)重值更加準(zhǔn)確地刻畫(huà)指標(biāo)變化的規(guī)律,且時(shí)間光滑正則化罰函數(shù)使相同指標(biāo)不同階段權(quán)重值具有一致性,因此相對(duì)于對(duì)點(diǎn)模型表示特征[26]利用具有Lasso正則化罰函數(shù)線性回歸的疾病預(yù)測(cè)方法具有較高的預(yù)測(cè)性能。3類(lèi)方法中,具有組Lasso正則化罰函數(shù)的線性回歸方法具有最低的預(yù)測(cè)性能,因?yàn)樵摲椒ㄔ诜治鲂蛄性\療數(shù)據(jù)時(shí)未能考慮不同階段診療數(shù)據(jù)源的時(shí)間關(guān)聯(lián)性,進(jìn)而難以準(zhǔn)確刻畫(huà)指標(biāo)隨時(shí)間變化的特征。

        表2 TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測(cè)性能對(duì)比

        圖3 TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法對(duì)應(yīng)的ROC曲線

        3.3 實(shí)驗(yàn)3:預(yù)測(cè)時(shí)間窗長(zhǎng)度對(duì)于疾病診斷準(zhǔn)確性的影響

        實(shí)驗(yàn)3旨在探討預(yù)測(cè)時(shí)間窗長(zhǎng)度w對(duì)TSRSCDF方法和相關(guān)序列診療數(shù)據(jù)分析方法疾病預(yù)測(cè)準(zhǔn)確性的影響。分別利用各方法融合診療序列{BL,M06,M12}數(shù)據(jù),預(yù)測(cè)患者M(jìn)18階段、M24階段、M36階段、M48階段和M60階段患病狀況。針對(duì)不同階段的患病狀況預(yù)測(cè),由于患者的檢查序列具有不同的長(zhǎng)度,需將實(shí)驗(yàn)1使用的樣本數(shù)據(jù)進(jìn)行篩選,得到針對(duì)不同階段病情預(yù)測(cè)實(shí)驗(yàn)利用的數(shù)據(jù),詳見(jiàn)表3。

        表3 針對(duì)不同階段患病狀況預(yù)測(cè)實(shí)驗(yàn)利用的數(shù)據(jù)

        預(yù)測(cè)不同階段患者患病狀況的實(shí)驗(yàn)中,TSRSCDF方法中的正則化參數(shù)λ∈{10-7,10-6,10-5,10-4,10-3},μ∈{2-9,2-8,2-7,2-6,2-5},正則化參數(shù)的取值通過(guò)交叉驗(yàn)證確定。隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集合,利用學(xué)習(xí)模型對(duì)余下的測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。重復(fù)實(shí)驗(yàn)50次并計(jì)算ROC曲線下面積的平均值,不同階段患病狀況的預(yù)測(cè)性能見(jiàn)表4。

        由表4可知,①預(yù)測(cè)時(shí)間窗越長(zhǎng),模型的預(yù)測(cè)性能越低。TSRSCDF方法對(duì)患者M(jìn)18階段和M24階段的患病狀況預(yù)測(cè)具有較高的預(yù)測(cè)性能,對(duì)于具有較長(zhǎng)時(shí)間窗的疾病預(yù)測(cè)性能有所降低,但是整體上TSRSCDF方法針對(duì)各個(gè)階段患者的患病狀況預(yù)測(cè)具有相對(duì)穩(wěn)定的預(yù)測(cè)性能。②針對(duì)M18階段和M24階段患病狀況預(yù)測(cè)實(shí)驗(yàn),對(duì)比兩組實(shí)驗(yàn)中類(lèi)標(biāo)簽的分布和分類(lèi)的結(jié)果,說(shuō)明TSRSCDF針對(duì)M18階段處理分類(lèi)結(jié)果具有類(lèi)不均衡特征的預(yù)測(cè)問(wèn)題具有較好的預(yù)測(cè)性能。③與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測(cè)性能相比,TSRSCDF方法針對(duì)不同階段患病狀況預(yù)測(cè)的ROC曲線下面積值的標(biāo)準(zhǔn)差(σ=0.030)最小。結(jié)果表明,采用序列數(shù)據(jù)融合的TSRSCDF方法的疾病診斷結(jié)果具有穩(wěn)定性。

        表4 TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法針對(duì)不同階段患病狀況的預(yù)測(cè)性能對(duì)比

        4 結(jié)論

        本研究探討疾病診斷中序列診療數(shù)據(jù)融合問(wèn)題,針對(duì)序列診療數(shù)據(jù)融合中多個(gè)階段的診療數(shù)據(jù)時(shí)間關(guān)聯(lián)性刻畫(huà)難、合成特征向量降維難和序列診療數(shù)據(jù)融合模型求解難等問(wèn)題,提出將結(jié)構(gòu)稀疏性與不同階段診療數(shù)據(jù)源的時(shí)間關(guān)聯(lián)性有機(jī)結(jié)合,采用序列診療數(shù)據(jù)融合思想的疾病預(yù)測(cè)分析研究思路,構(gòu)建基于時(shí)間光滑正則化的序列診療數(shù)據(jù)融合方法。

        針對(duì)阿爾茨海默病進(jìn)行疾病診斷實(shí)驗(yàn),利用真實(shí)診療數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,將本研究提出的TSRSCDF方法與傳統(tǒng)單階段診療數(shù)據(jù)分析方法相比,表明本研究構(gòu)建的TSRSCDF方法在疾病診斷上具有優(yōu)越性;與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測(cè)性能對(duì)比結(jié)果表明,TSRSCDF方法構(gòu)建的時(shí)間光滑正則化罰函數(shù)保證了模型具有刻畫(huà)不同階段診療數(shù)據(jù)源的時(shí)間關(guān)聯(lián)性特征,同時(shí)采用結(jié)構(gòu)化稀疏,使該方法具有較高的預(yù)測(cè)性能和可解釋性;實(shí)驗(yàn)結(jié)果進(jìn)一步表明,預(yù)測(cè)時(shí)間窗長(zhǎng)度對(duì)于疾病診斷性能的影響及TSRSCDF方法疾病診斷性能具有魯棒性。

        該方法可以推廣到實(shí)際阿爾茨海默病的早期診斷中,提高了智能臨床決策支持系統(tǒng)識(shí)別高風(fēng)險(xiǎn)患者的能力,為科學(xué)地實(shí)施慢性病患者疾病管理提供決策支持,進(jìn)而提高患者生命質(zhì)量;同時(shí)彌補(bǔ)了傳統(tǒng)診療數(shù)據(jù)分析未能科學(xué)、準(zhǔn)確地刻畫(huà)指標(biāo)變化趨勢(shì)導(dǎo)致診斷準(zhǔn)確率較低的不足,為開(kāi)展個(gè)性化和精準(zhǔn)醫(yī)療提供決策支持。

        慢性病患者診療數(shù)據(jù)對(duì)應(yīng)于每個(gè)階段檢查數(shù)據(jù)具有多源的特征,在未來(lái)研究中將進(jìn)一步針對(duì)多源診療數(shù)據(jù)的融合方法進(jìn)行深入研究,完善診療數(shù)據(jù)融合分析方法,豐富智能臨床決策支持系統(tǒng)研究體系,并將研究結(jié)果應(yīng)用于腦卒中和腦血管疾病等相關(guān)慢性疾病的診斷,進(jìn)一步驗(yàn)證本研究提出的方法在慢性疾病診斷中的普適性和實(shí)用價(jià)值,并拓展相關(guān)應(yīng)用研究。

        猜你喜歡
        疾病診斷數(shù)據(jù)源正則
        超高頻超聲在淺表器官疾病診斷中的應(yīng)用
        《呼吸疾病診斷流程與治療策略》已出版
        剩余有限Minimax可解群的4階正則自同構(gòu)
        類(lèi)似于VNL環(huán)的環(huán)
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        基于Web及知識(shí)推理的寵物狗疾病診斷專(zhuān)家系統(tǒng)
        CD10表達(dá)在滋養(yǎng)葉細(xì)胞疾病診斷中的臨床意義
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        有限秩的可解群的正則自同構(gòu)
        岳丰满多毛的大隂户| 国产不卡一区二区三区视频| 91热久久免费频精品99| 久久青青草原国产毛片| 久激情内射婷内射蜜桃人妖| www插插插无码视频网站| 日韩少妇高潮在线视频| 校园春色人妻激情高清中文字幕| 亚洲熟妇av日韩熟妇在线| 中文字幕在线亚洲一区二区三区| 性欧美暴力猛交69hd| 女人体免费一区二区| 中文字幕日韩一区二区不卡| 中文字幕一区二三区麻豆 | 亚洲精品国产第一综合色吧| 日日拍夜夜嗷嗷叫国产| 国产精品视频二区不卡| 特黄aa级毛片免费视频播放| 亚洲中文字幕第二十三页| 亚洲黄色精品在线播放| 真实国产乱子伦精品视频| 天天躁日日躁狠狠躁人妻 | av一区二区在线网站| 男女猛烈xx00免费视频试看| 精品国产高清a毛片无毒不卡| 精品国产成人一区二区不卡在线| 亚洲乱码av乱码国产精品| 精品日产卡一卡二卡国色天香| 国产精品欧美久久久久老妞| 日日骚一区二区三区中文字幕| 狠色人妻丝袜中文字幕| 97精品一区二区视频在线观看| 国产精品自产拍在线观看免费| 人妻熟女中文字幕av| 成年免费a级毛片免费看| 成在人线av无码免费| 国产优质女主播在线观看| 精品国产三级a在线观看不卡| 中国精品18videosex性中国| 亚洲另类激情综合偷自拍图| 久久精品av一区二区免费|