摘 要:
醫(yī)學(xué)領(lǐng)域的電子健康檔案(electronic health records,EHR)數(shù)據(jù)涵蓋了大量寶貴的生物醫(yī)學(xué)知識,為醫(yī)療數(shù)據(jù)分析提供了重要的資源。然而,隱私保護和數(shù)據(jù)共享的限制成為研究的主要瓶頸,阻礙了數(shù)據(jù)分析和機器學(xué)習(xí)技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用和發(fā)展,為應(yīng)對這些挑戰(zhàn),研究者探索使用生成式建模來生成EHR數(shù)據(jù)。首先介紹并概括了擴散模型的起源與發(fā)展;深入探討了現(xiàn)有擴散模型的各種方法,對不同方法進行了詳細分析;列舉并對比了各種生成式建模方法在EHR數(shù)據(jù)生成中的應(yīng)用效果,重點分析了擴散模型的優(yōu)勢和局限性。最后,總結(jié)了擴散模型在EHR數(shù)據(jù)生成領(lǐng)域的應(yīng)用現(xiàn)狀,討論了當前研究的局限性并展望了擴散模型在該領(lǐng)域的未來發(fā)展方向。
關(guān)鍵詞:擴散模型;數(shù)據(jù)生成;電子健康檔案;生成式模型
中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2024)12-001-3521-12
doi: 10.19734/j.issn.1001-3695.2024.04.0122
Research on electronic health record data generation for diffusion models
Wei Bolun, Zhang Xiankun
(College of Artificial Intelligence, Tianjin University of Science amp; Technology, Tianjin 300457, China)
Abstract:
Electronic health records (EHR) data in the medical field contain a wealth of valuable biomedical knowledge and provide a crucial resource for healthcare data analysis. However, privacy protection and data sharing constraints have become significant bottlenecks for researchers, hindering the application and development of data analysis and machine learning techniques in healthcare. To address these challenges, researchers have been exploring the use of generative modeling methods to generate EHR data. Firstly, this paper introduced and summarized the origins and evolution of diffusion models. Next, it delved into various existing diffusion model methods, providing a detailed analysis of each approach. Then it listed and compared different generative modeling methods applied in EHR data generation, emphasized the advantages and limitations of diffusion models. Finally, it summarized the current applications of diffusion models in EHR data generation, discussed the limitations of current research, and presented an outlook on the future development and application of diffusion models in this field.
Key words:diffusion models; data generation; electronic health records; generative models
0 引言
對患者進行身體各項指標的重復(fù)測量和追蹤,進而匯總成該患者的電子健康檔案(EHR),其數(shù)據(jù)包括疾病演變、生物醫(yī)學(xué)、患者個人隱私等重要信息。大量的EHR數(shù)據(jù)為開發(fā)最先進的計算生物醫(yī)學(xué)方法奠定了堅實的數(shù)據(jù)基礎(chǔ),如用于動態(tài)疾病治療[1]、可區(qū)分自動診斷[2]、生物醫(yī)學(xué)方面自然語言處理任務(wù)[3]等。
然而,真實的EHR數(shù)據(jù)多數(shù)包含患者的個人敏感信息以及其他重要隱私信息,涉及到患者的隱私保護問題,這使得基于海量EHR數(shù)據(jù)進行的數(shù)據(jù)分析工作和在醫(yī)療保健領(lǐng)域的機器學(xué)習(xí)研究發(fā)展緩慢且有限[4]。傳統(tǒng)的數(shù)據(jù)匿名方法非常煩瑣且成本高昂,其數(shù)據(jù)加密方法可能會扭曲真實數(shù)據(jù)集的重要特征,從而顯著降低數(shù)據(jù)的使用效果[5],并且在數(shù)據(jù)敏感信息加密時,即使過程符合現(xiàn)有標準也容易受到隱私攻擊[6]。
合成EHR數(shù)據(jù)為在醫(yī)療領(lǐng)域的數(shù)據(jù)分析、數(shù)據(jù)共享等技術(shù)的發(fā)展提供了新的可能[7]。合成EHR數(shù)據(jù)應(yīng)該著重關(guān)注兩個關(guān)鍵屬性:合成數(shù)據(jù)的高保真度(即在下游任務(wù)使用時有與真實數(shù)據(jù)相同的效果);具有隱私保護特性(即使用合成數(shù)據(jù)不會泄露真實患者的任何信息)。在合成EHR數(shù)據(jù)方面,各種生成模型的研究分別取得了不同程度的進展[8]?,F(xiàn)有的合成EHR數(shù)據(jù)的算法主要采用生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[9]、自編碼器(autoencoder,AE)[10]或者兩者相互組合的變體。盡管這些方法在合成高質(zhì)量的EHR數(shù)據(jù)和隱私保護方面取得了較為理想的實驗成果,但它們面臨著模式崩潰和訓(xùn)練不穩(wěn)定的問題。部分研究者提出不同的技術(shù)來解決這些問題,但面對復(fù)雜的真實EHR數(shù)據(jù),現(xiàn)有的模型生成效果并不理想。近年來,一種名為擴散模型的生成式建模被提出,并迅速在文本[11]、音頻[12]、計算機視覺[13,14]等領(lǐng)域表現(xiàn)了較好的生成性能。隨著擴散模型被進一步深入研究,其生成內(nèi)容在質(zhì)量和多樣性方面逐漸超越了GAN和自編碼器的性能。擴散模型相較于GAN有著易于訓(xùn)練和易于處理的優(yōu)點,與自回歸模型相比生成速度較快。一般來說,擴散模型從隨機噪聲特征開始,使用經(jīng)過訓(xùn)練的去噪模型逐漸去除特征中的噪聲,最終生成與真實數(shù)據(jù)分布相同的合成特征。截止到2024年3月,近15年在Web of Science上以denoising diffusion models為關(guān)鍵詞的文獻量總體呈逐年上升趨勢(圖1),并且擴散模型被應(yīng)用的學(xué)科領(lǐng)域廣泛,在Web of Science上可查詢到擴散模型在各個領(lǐng)域的應(yīng)用取前15(圖2)。這些數(shù)據(jù)反映了對擴散模型研究的火熱程度,同時也說明了該模型在人工智能等多個領(lǐng)域的重要性。
1 擴散模型提出與發(fā)展
1.1 擴散模型提出
擴散概率模型(diffusion probabilistic model,DPM)于2015年被Sohl-Dickstein等人[15]首次提出,旨在消除訓(xùn)練圖像上連續(xù)應(yīng)用的高斯噪聲,可將其視為一系列的去噪自編碼器。其主要思路是:a)定義一個馬爾可夫鏈作正向過程,將一種數(shù)據(jù)分布不斷地加噪聲逐步轉(zhuǎn)換為另一個噪聲分布(如高斯分布)[16];b)反向擴散過程,通過學(xué)習(xí)恢復(fù)數(shù)據(jù)原始分布的過程得到一個高度靈活且可以精確采樣和評估概率的生成模型。反向擴散過程中的每一步都可以解析計算,因此整個鏈條也可以解析評估。學(xué)習(xí)只需估計反向過程中對擴散過程的小擾動,之后從初始結(jié)果中將估計出的噪聲減去,從而在理論上可以得到干凈的圖片。
該方法借鑒了非平衡統(tǒng)計物理學(xué)的思想[17],采用準靜態(tài)過程來訓(xùn)練逆向擴散過程,并與正向過程共享相同的函數(shù)形式,易于學(xué)習(xí)。相比傳統(tǒng)方法,這種模型能靈活捕獲任意分布的數(shù)據(jù),同時具備可訓(xùn)練性、精確采樣和評估的優(yōu)勢。最初只在簡單數(shù)據(jù)集上驗證,其在復(fù)雜場景中的應(yīng)用和計算成本問題仍需進一步探索。
1.2 擴散模型發(fā)展
1.2.1 去噪擴散模型的發(fā)展
自擴散概率模型在2015年被首次提出,現(xiàn)已成為最先進的深度生成模型之一,它打破了生成對抗網(wǎng)絡(luò)(GAN)[18]在圖像合成領(lǐng)域中的長期主導(dǎo)地位。但早期擴散概率模型的研究進展有限,直到2020年去噪概率擴散模型(denoising diffusion probabilistic model,DDPM)[19]的提出,使得擴散模型在圖像生成任務(wù)中變成主流,現(xiàn)在擴散模型通常指的就是DDPM。
DDPM使用兩個馬爾可夫鏈,一個是將數(shù)據(jù)擾動為高斯噪聲的正向鏈,一個是將噪聲轉(zhuǎn)換為目標數(shù)據(jù)的反向鏈。正向鏈通過手工設(shè)計將任何數(shù)據(jù)分布轉(zhuǎn)換為簡單的先驗分布(通常是高斯分布),反向鏈通過深度神經(jīng)網(wǎng)絡(luò)參數(shù)化的轉(zhuǎn)換核來逆轉(zhuǎn)正向鏈,隨后從先驗分布中采樣來生成新的數(shù)據(jù)。同年,提出去噪擴散隱式模型(denoising diffusion implicit model,DDIM)[20],DDIM與DDPM有著相同的訓(xùn)練目標,相比于需要較長正向擴散步數(shù)的DDPM,DDIM通過減少采樣步數(shù)、不局限于正向擴散過程必須是一個馬爾可夫鏈加速了生成過程。
2021年提出了余弦噪聲調(diào)度[21]對DDPM進行改進,改變了添加噪聲的schedule,相比線性調(diào)度提升了高分辨率圖像的生成質(zhì)量,并大幅加速了采樣速度。盡管這些改進提高了模型性能,模型在低分辨率圖像生成任務(wù)中的表現(xiàn)仍需進一步優(yōu)化,與其他模型(如VAE和流模型)相比也還有待全面評估。
1.2.2 基于分數(shù)的生成模型的發(fā)展
2019年,Song等人[22]提出了基于分數(shù)的生成模型(score-based generative model,SGM),通過學(xué)習(xí)數(shù)據(jù)分布的對數(shù)梯度(score)來生成數(shù)據(jù)而不是直接學(xué)習(xí)數(shù)據(jù)分布。通過分布的score function可以得到分布的梯度,再沿著學(xué)習(xí)到的梯度逐步逼近目標數(shù)據(jù);利用朗之萬動力學(xué)迭代[23,24]逐漸降低噪聲水平,最終生成與目標分布相同的數(shù)據(jù)。由于SGM同樣也有改變噪聲強度的加噪過程,其中的朗之萬動力學(xué)退火相當于DDPM中的采樣去噪過程,兩者還可以通過隨機微分方程進行統(tǒng)一,統(tǒng)一后DDPM的噪聲預(yù)測網(wǎng)絡(luò)和SGM的梯度計算網(wǎng)絡(luò)可等價替換[14]。
2021年,文獻[25]首次提出在擴散模型中使用分類器引導(dǎo)擴散,通過額外訓(xùn)練的分類器計算梯度來指導(dǎo)模型生成圖像,使U-Net模型在生成過程中更好地接近目標圖像。此外,該研究受GAN實驗的啟發(fā),還通過消融實驗優(yōu)化了模型架構(gòu)。
2022年提出了可以不訓(xùn)練分類器而是使用生成模型自己來做擴散的引導(dǎo)[26]。通過訓(xùn)練有條件和無條件的擴散模型,在采樣時混合兩個模型的score估計來實現(xiàn)樣本質(zhì)量和多樣性之間的平衡,最終輸出為有條件生成減去無條件生成的結(jié)果,達到類似分類器引導(dǎo)的效果。
1.2.3 擴散模型的統(tǒng)一
目前的擴散模型是diffusion model和score-based model兩類算法的統(tǒng)稱。從擴散模型在2015年被提出到后來的diffusion model和score-based model,可以看作是早期兩個獨立發(fā)展的算法方向,后來逐漸融合統(tǒng)一為擴散模型,并在生成模型領(lǐng)域作出了重要貢獻。
基于分數(shù)的生成模型[22]重點解決高維數(shù)據(jù)訓(xùn)練中的擴展性問題,提出了切片分數(shù)匹配方法,盡管取得了進展,模型仍無法生成高質(zhì)量樣本。擴散概率模型通過學(xué)習(xí)變分解碼器逆轉(zhuǎn)數(shù)據(jù)擾動過程,生成新樣本,并通過證據(jù)下界(ELBO)進行訓(xùn)練。這種方法與基于分數(shù)的模型使用score matching訓(xùn)練和Langevin采樣生成樣本具有等價性。DDPM解釋了這種關(guān)系:訓(xùn)練DPM的ELBO本質(zhì)上等同于基于分數(shù)模型的加權(quán)score matching目標。使用類似于基于分數(shù)模型的U-Net結(jié)構(gòu),DPM能夠生成媲美甚至超越GAN的高質(zhì)量圖像樣本[14]。
Song等人進一步深入研究了DDPM和SGM之間的相關(guān)性,發(fā)現(xiàn)兩者的采樣方法可以結(jié)合從而構(gòu)建出Predictor-Corrector samplers。更重要的是當可變噪聲強度的噪聲擾動擴展到無窮個尺度的噪聲,便可以得出DDPM和SGM都是由score function決定的隨機微分方程(SDE)的離散形式,從此兩者得到了統(tǒng)一。下文將分別介紹DDPM和SGM以及兩者連續(xù)時間擴散的SDE。
經(jīng)過之前的發(fā)展,已經(jīng)將擴散模型的性能優(yōu)化到了可以超越同期的GAN和VAE等模型的水平。后續(xù)OpenAI又提出了在GLIDE[27]基礎(chǔ)上改進的DALL-E2[28],將擴散模型引入到了更為廣泛的視野中,并引發(fā)了圖片生成領(lǐng)域各類性能較好的模型出現(xiàn)。Google公司的研究人員提出了Imagen[29]以及Imagen2,Stability AI提出了Stable Diffusion[30],以及廣受關(guān)注的Midjourney[31]。
如今,擴散模型已經(jīng)在圖像生成領(lǐng)域占據(jù)長期主導(dǎo)地位[32],并且應(yīng)用于多個重要領(lǐng)域如計算機視覺[33,34]、時態(tài)數(shù)據(jù)建模[35,36]、魯棒機器學(xué)習(xí)[37]以及跨學(xué)科的計算化學(xué)[38,39]和醫(yī)學(xué)圖像重建[40,41]等。
2 擴散模型的原理及數(shù)學(xué)實現(xiàn)
擴散模型發(fā)展至今有三種主要的形式,分別是去噪擴散概率模型(DDPM)[15,19]、基于分數(shù)的生成模型(SGM)[22,32]和隨機微分方程(stochastic differential equation, SDE)[14,42]。
2.1 去噪擴散概率模型(DDPM)
2.1.1 正向過程
DDPM中,原始數(shù)據(jù)及其分布用x0~q(x0)表示,正向過程中,前向馬爾可夫過程生成的一系列加噪時的隨機變量序列x1,x2,…,xT的轉(zhuǎn)換核為q(xt|xt-1)。根據(jù)概率鏈式法則以及馬爾可夫性質(zhì),可以分解x1,x2,…,xT在x0條件下的聯(lián)合概率密度q(x1,…,xT|x0),分解后表達為
已知,就可已知反向SDE和ODE,隨后便可通過其他數(shù)值求解技術(shù)生成新樣本,如退火朗之萬動力學(xué)[22]、數(shù)值SDE求解器[14,50]、數(shù)值ODE求解器[14,20,42,51,53]。與SGM估計得分函數(shù)一樣,可以創(chuàng)造一個與時間相關(guān)的評分模型sθ(xt,t),通過分數(shù)匹配來估計評分函數(shù),得到目標函數(shù):
3 擴散模型在EHR數(shù)據(jù)生成中的應(yīng)用
近年來擴散模型推動了數(shù)據(jù)生成領(lǐng)域的發(fā)展并逐漸應(yīng)用于各領(lǐng)域,本文著重探討擴散模型在EHR數(shù)據(jù)生成領(lǐng)域的研究。
獲取具有統(tǒng)計性和臨床代表性的患者健康數(shù)據(jù)對于推進疾病診療研究、提升患者護理和開發(fā)新型藥物具有巨大潛力。然而,電子健康記錄中含有敏感信息,數(shù)據(jù)共享會帶來隱私問題,并且EHR數(shù)據(jù)獲取成本高、時間長、樣本有限[54,55]。使用生成模型生成合成數(shù)據(jù)是一種有效的解決方案,能夠減輕這些風(fēng)險。
真實的EHR數(shù)據(jù)包含患者敏感的私人信息,在使用或公開前需要進行去識別化[56,57],在此過程中需要進行加密并且需要煩瑣嚴格的人工審查。另外由于法律和道德限制,其發(fā)布也需要數(shù)月時間[58],這嚴重阻礙了精準醫(yī)學(xué)方法研究的進步。于是研究者將目光轉(zhuǎn)向如何生成高質(zhì)量的EHR合成數(shù)據(jù),各類生成模型被投入在該領(lǐng)域中并取得了不錯的成果。近年來興起的擴散模型[4,59~63]具有高效的生成效率,在某些方面的評價可超越一些經(jīng)典的生成式模型,如變分自編碼器(variational autoencoder,VAE)[64,65]、生成對抗網(wǎng)絡(luò)(GAN)[8,9,66~68]及兩者的各種組合及變式[69]。
3.1 擴散模型生成不同類型EHR數(shù)據(jù)
EHR數(shù)據(jù)常見類型包括表格數(shù)據(jù)、時間序列數(shù)據(jù)、圖像數(shù)據(jù)和非結(jié)構(gòu)化文本數(shù)據(jù)。近年來,生成建模主要應(yīng)用于表格數(shù)據(jù)和時間序列數(shù)據(jù),兩者都以唯一的病人身份ID標識數(shù)據(jù)(如圖5、6所示)。在圖5(a)~(c)分別表示表格數(shù)據(jù)常見的三種類型:離散表格數(shù)據(jù)、連續(xù)表格數(shù)據(jù)和分類表格數(shù)據(jù)。離散表格數(shù)據(jù)一般包括病人每月看診次數(shù)、病人年齡、收縮壓、ICD編碼等具有多個不連續(xù)可能值的數(shù)據(jù),最開始引入擴散模型的數(shù)據(jù)類型就是離散表格數(shù)據(jù)的生成[59]。連續(xù)表格數(shù)據(jù)一般包括用藥記錄、血液、尿檢等檢查記錄,患者的部分醫(yī)學(xué)影像數(shù)據(jù)等檢查結(jié)果也可以用連續(xù)表格數(shù)據(jù)按照時間、部位和結(jié)果等信息進行記錄。由于連續(xù)數(shù)據(jù)的時序特性,在進行實際操作時有部分不同于離散表格數(shù)據(jù)的數(shù)據(jù)預(yù)處理方式。分類表格數(shù)據(jù)是表示起來最簡單的EHR數(shù)據(jù),一般包括性別、國籍、膚色、是否患某病等基本信息。在進行數(shù)據(jù)生成時,雖然其是有限數(shù)量個分類,但與其他信息有著強關(guān)聯(lián)性,所以分類表格數(shù)據(jù)的生成任務(wù)也是一大難點。
時間序列數(shù)據(jù)依然會包括連續(xù)數(shù)據(jù)、離散數(shù)據(jù)和分類數(shù)據(jù),但由于其時序特性,其數(shù)據(jù)表現(xiàn)形式有所不同。如圖6所示,其中,的每一張表格代表一個人的EHR數(shù)據(jù),表中的第二、三列是連續(xù)時序數(shù)據(jù),第四、五列是分類時序數(shù)據(jù)和離散時序數(shù)據(jù);中將數(shù)據(jù)按照時間表示為更為方便處理的形式,為EHR數(shù)據(jù)生成提供了新的思路。
3.2 EHR數(shù)據(jù)生成任務(wù)的挑戰(zhàn)與困難
由于隱私和安全問題,大部分EHR數(shù)據(jù)限制了醫(yī)學(xué)信息挖掘和機器學(xué)習(xí)任務(wù)的發(fā)展。一些研究者轉(zhuǎn)而關(guān)注生成與原始數(shù)據(jù)分布相同且具備隱私保護的合成數(shù)據(jù)。通過生成模型學(xué)習(xí)原始數(shù)據(jù)的高維分布,訓(xùn)練生成具有相同分布的合成數(shù)據(jù),從而避免隱私問題。圖7展示了EHR數(shù)據(jù)生成的步驟:a)對原始數(shù)據(jù)進行逆行去識別化處理,保護數(shù)據(jù)隱私,并將處理后的數(shù)據(jù)通過公開數(shù)據(jù)庫供研究者使用,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等;b)將處理好的數(shù)據(jù)用于訓(xùn)練適合的生成模型,以生成EHR數(shù)據(jù),本文主要探討使用各類擴散模型進行EHR數(shù)據(jù)生成;c)對生成的數(shù)據(jù)進行隱私性評價,確保生成的合成數(shù)據(jù)符合安全隱私標準。
早期EHR數(shù)據(jù)生成缺乏規(guī)范步驟,研究者多關(guān)注離散代碼特征如ICD編碼,而較少生成臨床敘述的表格、時序、圖像和非結(jié)構(gòu)化文本數(shù)據(jù)。例如Buczak等人[72]的方法主要針對特定疾病生成EHR數(shù)據(jù),靈活性差且易泄露隱私。Walonoski等人[67]開發(fā)的Synthea軟件涵蓋了20種常見情況,但數(shù)據(jù)類型仍不夠豐富。引入機器學(xué)習(xí)模型后,GAN生成高質(zhì)量醫(yī)學(xué)數(shù)據(jù)但常遇到模式崩潰問題,只能生成部分數(shù)據(jù)分布。為解決此問題,研究者結(jié)合自編碼器減少特征維度,但參數(shù)不當會導(dǎo)致數(shù)據(jù)質(zhì)量下降和維度特征丟失。
總的來說,在引入擴散模型到EHR數(shù)據(jù)生成領(lǐng)域之前,該領(lǐng)域相較于其他數(shù)據(jù)生成任務(wù)存在以下問題:
a)數(shù)據(jù)類型單一,生成數(shù)據(jù)僅限于某類疾病或編碼,疾病類型不夠多樣化;
b)隱私安全性不足,生成數(shù)據(jù)與原始數(shù)據(jù)高度相關(guān),無法確保合成數(shù)據(jù)獨立且具有相同分布;
c)模型性能問題,現(xiàn)有模型泛化能力和魯棒性不足,生成性能較差;
d)數(shù)據(jù)格式復(fù)雜,EHR數(shù)據(jù)格式多樣且復(fù)雜,導(dǎo)致生成工作難以取得突破;
e)數(shù)據(jù)質(zhì)量不統(tǒng)一,缺乏有效的評價標準,無法保證生成數(shù)據(jù)質(zhì)量。
3.3 擴散模型應(yīng)用于EHR數(shù)據(jù)生成
由于EHR數(shù)據(jù)的使用法規(guī)和隱私問題,限制了研究中真實EHR數(shù)據(jù)的使用。機器學(xué)習(xí)模型需要大量多樣化的數(shù)據(jù)集進行訓(xùn)練,生成模型如GAN和VAE在EHR數(shù)據(jù)生成中快速發(fā)展。近年來,擴散模型因其強生成能力引起關(guān)注,但尚未在EHR數(shù)據(jù)生成領(lǐng)域建立統(tǒng)一評價體系[73]。本節(jié)介紹了近年來基于擴散模型的EHR數(shù)據(jù)生成任務(wù)及其改進模型,表1列出了常用的評價標準。
3.3.1 MedDiff
He等人[59]首次成功將擴散模型應(yīng)用于EHR數(shù)據(jù)生成,并將模型命名為MedDiff。該模型經(jīng)過調(diào)試可以生成高質(zhì)量、穩(wěn)健的樣本,并且通過安德森加速提升了模型的生成速度,MedDiff生成樣本的質(zhì)量優(yōu)于基于GAN的方法。
MedDiff采用改進的U-Net架構(gòu),包括更深更寬的模型、位置嵌入、殘差塊用于上采樣和下采樣,以及重新縮放的殘差連接。傳統(tǒng)的DDPM適用于圖像和音頻生成,但在一維信號中效果有限[25],通過改進U-Net架構(gòu)以適應(yīng)一維結(jié)構(gòu)的數(shù)據(jù)。為每一個患者生成一個向量,MedDiff可以很好地捕獲相鄰特征的相關(guān)性。該模型的基本架構(gòu)是基于擴散模型改進的DDIM過程[20],其正向過程是將原始的EHR真實數(shù)據(jù)x0逐步加入噪聲,最后轉(zhuǎn)變?yōu)橥耆辉肼暩采w的樣本xT;其反向過程通過訓(xùn)練后的生成器網(wǎng)絡(luò)來反向推斷樣本,通過預(yù)測出的噪聲從xT中逐步去除噪聲,最后還原到類似于原始樣本。
MedDiff模型訓(xùn)練過程中采用DDPM的重構(gòu)誤差最小化目標,并通過反向傳播優(yōu)化生成器網(wǎng)絡(luò)參數(shù)。在采樣過程中,使用安德森加速算法通過線性組合近K步迭代結(jié)果來提高采樣效率。評價標準包括維度分布概率、相關(guān)系數(shù)和絕對誤差以及密度估計方法來評估有條件生成樣本的分布匹配度。研究中與其他生成模型如MedGAN、CorGAN和DDPM進行了比較,結(jié)果顯示MedDiff在多個指標上表現(xiàn)優(yōu)于這些模型。
盡管MedDiff成功實現(xiàn)了高質(zhì)量醫(yī)療記錄的有條件生成,并通過加速算法提升了生成效率,但仍存在一些缺陷。未來的發(fā)展方向包括多模態(tài)學(xué)習(xí)處理更復(fù)雜的醫(yī)療記錄、生成更多動態(tài)和高關(guān)聯(lián)性的臨床時間序列數(shù)據(jù)。
3.3.2 EHRDiff
EHRDiff[4]探究了擴散模型在EHR數(shù)據(jù)生成領(lǐng)域的可能性,并在公開數(shù)據(jù)集MIMIC-Ⅲ上進行了大量實驗,結(jié)果表明,EHRDiff生成的EHR數(shù)據(jù)質(zhì)量優(yōu)于以往基于GAN模型的方法,更加接近真實醫(yī)療記錄。
相較于MedDiff,EHRDiff使用的是基于SGM的擴散模型,直接使用了常規(guī)的確定性O(shè)DE解決方程進行逆向生成,不需要額外的采樣技術(shù)。該模型首次將SGM引入到EHR數(shù)據(jù)生成領(lǐng)域,在解耦網(wǎng)絡(luò)輸出方面,MedDiff采用了直接預(yù)測噪聲的方法,這種設(shè)計可能會受到輸入噪聲尺度變化的影響,從而影響網(wǎng)絡(luò)的訓(xùn)練。相比之下,EHRDiff采用了適應(yīng)性解耦的方法,利用cin、cout等參數(shù)將網(wǎng)絡(luò)輸入統(tǒng)一為單位方差,這樣做有助于緩解因輸入噪聲尺度變化而帶來的問題。EHRDiff訓(xùn)練過程可能需要更多的參數(shù)和計算資源,所以生成速度略慢于其他生成方法,其實驗在MIMIC-Ⅲ[56,57]數(shù)據(jù)集上進行,其泛化性可能還需要進一步驗證。
模型的評價標準采用多個指標進行評估,分為效用指標如特征分布相似度、相關(guān)性、樣本聚類和醫(yī)學(xué)概念豐富度等,隱私指標如隱私風(fēng)險評估、屬性判斷風(fēng)險、會員資格判斷風(fēng)險等。其對比模型選用了medGAN[74]、medBGAN[75]、CorGAN[76]等,并證明EHRDiff效果最好。但該模型依然存在一些改進方向,如后續(xù)可以嘗試在更大規(guī)模數(shù)據(jù)集上訓(xùn)練與測試,可以結(jié)合注意力機制設(shè)計更大的解耦網(wǎng)絡(luò),或如SC-GAN[77]一樣利用臨床關(guān)系建模生成流程。
3.3.3 ScoEHR
Naseer等人[62]提出了一種新的深度學(xué)習(xí)框架ScoEHR,解決了如何通過模型生成符合臨床標準的合成電子醫(yī)療記錄數(shù)據(jù)的問題。ScoEHR通過結(jié)合自編碼器和連續(xù)時間擴散模型,同時考慮了EHR數(shù)據(jù)中的離散值和連續(xù)值特征及其關(guān)聯(lián)關(guān)系,在保留生成數(shù)據(jù)醫(yī)學(xué)真實性上優(yōu)于當前主流GAN方法,為醫(yī)療機構(gòu)提供了一種擴充代表性樣本數(shù)據(jù)的方法,供下游應(yīng)用。
ScoEHR框架結(jié)合了自編碼器和連續(xù)時間擴散模型,能夠捕獲EHR數(shù)據(jù)中離散值和連續(xù)值的分布,并有效控制特征之間的相關(guān)性。它利用預(yù)訓(xùn)練的編碼器和解碼器進行低維表示,然后通過變方差SDE進行正向擴散來加噪處理樣本;反向SDE和得分預(yù)測網(wǎng)絡(luò)用于重構(gòu)樣本,通過訓(xùn)練得分函數(shù)預(yù)測模型[22]可以生成符合臨床標準的EHR合成數(shù)據(jù);最終使用解碼器將低維樣本投影到原始特征空間,完成EHR數(shù)據(jù)的生成。通過此過程ScoEHR模型可以學(xué)習(xí)EHR數(shù)據(jù)分布的結(jié)構(gòu),有效地生成符合臨床標準的EHR合成數(shù)據(jù)。
文獻[62]對該模型的實驗效果進行評估時使用了medGAN[74]、medWGAN和medBGAN[75]三個基線模型,在數(shù)據(jù)生成效用的四個關(guān)鍵性指標上進行了比較。目前的合成數(shù)據(jù)領(lǐng)域并沒有普遍建立的指標可供比較,所以作者選用了較為符合該模型的評價標準:保留特征邊緣關(guān)系、保留特征相關(guān)性、使用對數(shù)聚類度量(捕獲真實數(shù)據(jù)和合成數(shù)據(jù)的相似性)、下游患者結(jié)果預(yù)測中的綜合數(shù)據(jù)性能(訓(xùn)練下游機器學(xué)習(xí)模型,通過下游任務(wù)來從側(cè)面反映數(shù)據(jù)質(zhì)量)。ScoEHR 生成數(shù)據(jù)的真實性由一組美國委員會認證的醫(yī)生進行評估,其與實際 EHR 高度一致。最后作者還對模型的隱私披露進行了簡要審查。
ScoEHR的未來工作方向主要體現(xiàn)在:a)模型的泛化能力,未來可以考慮在更多類型的不同EHR數(shù)據(jù)集上評估該模型的泛化能力;b)隱私保護方面,可以考慮在模型結(jié)構(gòu)中加入隱私保護機制,例如對抗隱私或微分隱私技術(shù)來降低從生成數(shù)據(jù)中推斷個人隱私信息的可能性;c)目前ScoEHR主要針對結(jié)構(gòu)化EHR數(shù)據(jù),未來可以研究如何生成更豐富和語義連貫的臨床敘述文檔,例如結(jié)合生成對抗網(wǎng)絡(luò)或變異自動編碼器等自然語言生成技術(shù)。
3.3.4 TabDDPM
Ceritli等人[61]對使用擴散模型生成混合類型的EHR數(shù)據(jù)進行了探討分析,模型被命名為TabDDPM,該模型可以同時生成連續(xù)值和分類值,從而更好地擬合包含這兩種特征類型的醫(yī)療數(shù)據(jù)。
TabDDPM模型可以生成混合類型的EHR數(shù)據(jù),首先使用高斯擴散過程和多項式擴散過程分別生成連續(xù)值和分類值特征。對于連續(xù)值特征未采用高斯擴散過程,通過對原始數(shù)據(jù)加噪的方法將數(shù)據(jù)逐步轉(zhuǎn)變?yōu)闃藴矢咚狗植?;對離散的分類值特征,采用了多項式擴散過程[78],通過給分類值加上隨機性使其逐步轉(zhuǎn)變?yōu)榫鶆蚍植?。該模型的反向過程可以兼容兩種正向擴散過程,模型使用MLP神經(jīng)網(wǎng)絡(luò)實現(xiàn)反向過程,對于連續(xù)值特征直接使用回歸預(yù)測噪聲,對于分類值離散特征,MLP預(yù)測后連接softmax函數(shù)來生成類條件概率分布。因此,通過組合高斯擴散和多項式擴散過程以及反向過程的特定設(shè)計,TabDDPM模型可以一并學(xué)習(xí)生成混合類型EHR數(shù)據(jù)中連續(xù)值和分類值的分布,從而生成真實而有效的合成EHR樣本,解決了僅使用單一擴散過程的限制。
TabDDPM進行實驗時選用變分自編碼器、medGAN和CorGAN這些該領(lǐng)域較為經(jīng)典模型,從數(shù)據(jù)分布正確性、隱私風(fēng)險、下游任務(wù)實用性等四個維度對比模型生成數(shù)據(jù)的優(yōu)劣。最終結(jié)果表示TabDDPM在維度概率和預(yù)測性能等數(shù)據(jù)質(zhì)量指標上優(yōu)于基線模型,但在隱私指標上,TabDDPM效果不如基線,這是因為它生成的數(shù)據(jù)質(zhì)量更高,但也增加了泄露隱私信息的風(fēng)險。
3.3.5 擴散模型生成EHR混合縱向數(shù)據(jù)
Kuo等人[63]設(shè)計了基于U-Net的擴散概率模型,可以在不同時間步估計和去除數(shù)據(jù)中的不同強度噪聲,從而逐步重建出清晰無噪的數(shù)據(jù)。為了處理混合類型數(shù)據(jù),作者提出了將數(shù)據(jù)轉(zhuǎn)換為數(shù)值和one-hot表示的方法,以將DPM框架應(yīng)用于臨床變量;利用該DPM模型生成兩組臨床數(shù)據(jù)集,一個用于急性低血壓,一個用于艾滋病治療,包含觀測值、操作和獎勵等各類變量。
DPM的前向過程中,通過定義好的方差函數(shù),每一時間步都將高斯噪聲加入原始數(shù)據(jù),最后得到由原始數(shù)據(jù)變化而來的接近于高斯分布的噪聲數(shù)據(jù)。反向擴散過程中,采用基于U-Net網(wǎng)絡(luò)的DPM框架來輸入時間步和位置嵌入,從而預(yù)測該時間步加入的噪聲量,其中U-Net包含下采樣、卷積塊和上采樣等模塊。
在模型評價方面,作者選用MedGAN[74]、Health Gym GAN和MVAE作為基線模型,并在統(tǒng)計分布特征匹配度、模式崩塌程度、RL應(yīng)用效果和隱私風(fēng)險評估等方面進行模型的橫向?qū)Ρ?。最終結(jié)果表明DPM生成數(shù)據(jù)在統(tǒng)計特征上超過極限,并且不易發(fā)生模式崩塌,以及DPM的數(shù)據(jù)隱私風(fēng)險也控制得較好。
目前DPM僅使用位置嵌入來區(qū)分不同時間步,未來可以嘗試加入更豐富的上下文信息,如治療行為等,生成出更具解釋性和臨床意義的記錄。作者還指出,目前模型主要關(guān)注記錄層面,未來可以嘗試生成更細粒度的生物標志數(shù)據(jù),滿足不同下游任務(wù)要求。
3.3.6 TIMEDIFF
與基于GAN模型的EHR數(shù)據(jù)生成研究相似,生成的數(shù)據(jù)類型也逐漸開始從單個時間點的表格數(shù)據(jù)向具有時間序列的數(shù)據(jù)過渡[77]。Tian等人[60]提出了一個名為TIMEDIFF的基于雙向遞歸神經(jīng)網(wǎng)絡(luò)(BRNN)的架構(gòu)生成高效的時間序列數(shù)據(jù)。
TIMEDIFF是第一個將混合擴散方法應(yīng)用于EHR時間序列數(shù)據(jù)生成的模型。為了對EHR時間序列中的混合變量類型進行建模,TIMEDIFF提出一種混合序列擴散方法,將高斯擴散和多項式擴散結(jié)合起來,使得它能夠同時生成浮點值和離散值時間序列,它采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來編碼序列信息,同時具有可變長度輸入的靈活性。該模型使用雙向遞歸神經(jīng)網(wǎng)絡(luò)作為生成模型的基礎(chǔ)架構(gòu),可以很好地捕捉時間序列中隱含的時序依賴關(guān)系,其前向過程與TabDDPM[61]相似,同樣是使用高斯擴散和多項式擴散來處理連續(xù)變量和離散變量,從而實現(xiàn)對混合變量類型的支持。特別地,為了表示缺失值信息,它使用指示符掩碼對每個數(shù)字時間序列進行編碼。
該模型的正向過程將原始的數(shù)據(jù)集進行高斯擴散和多項式擴散[78]處理,獲得擴散過程樣本的集合,再初始化雙向LSTM網(wǎng)絡(luò)作為時間條件生成網(wǎng)絡(luò)(相當于DDPM中的噪聲預(yù)測網(wǎng)絡(luò)),輸入給該網(wǎng)絡(luò)的不僅僅是擴散后時間序列樣本本身,還包括位置編碼信息。位置編碼表示每個時間點在整個序列中的相對位置,需要對其進行縮放和偏移以將其映射到更合適的范圍內(nèi),這樣處理后的位置編碼會與雙向LSTM當前時間點的隱狀態(tài)進行結(jié)合。之后給定擴散路徑中的一個時間點樣本,時間條件生成器預(yù)測此點前一個時間點的高斯分布參數(shù)和多項式分布參數(shù)。訓(xùn)練過程計算loss函數(shù)和最小化損失函數(shù),訓(xùn)練出最終模型進行數(shù)據(jù)生成,使用訓(xùn)練好的模型進行朗之萬采樣,生成高質(zhì)量且多樣化的EHR時間序列。
作者將TIMEDIFF在六個數(shù)據(jù)集上進行了實驗,與八種現(xiàn)有的方法進行了比較。評價標準使用實用性評價標準(訓(xùn)練下游預(yù)測任務(wù)模型,通過預(yù)測性能說明)、醫(yī)學(xué)可解釋性評價(臨床專家打分等方法)、私密性評價、計量指標分析等。結(jié)果表明該模型在數(shù)據(jù)效用方面明顯優(yōu)于現(xiàn)有的所有方法。
TIMEDIFF模型目前在一些方面還存在不足,如僅考慮單個病人序列且推廣能力有限,模型內(nèi)部機理解釋性程度也需要提高。此外,訓(xùn)練和采樣效率尚待優(yōu)化,真實大規(guī)模臨床數(shù)據(jù)的處理能力需要進一步增強。未來工作可以在以下幾個方面深入改進TIMEDIFF:a)加入注意力機制提取時間依賴關(guān)系;b)結(jié)合更多臨床知識如ICD編碼進行預(yù)訓(xùn)練,生成樣本表現(xiàn)更切合臨床。總體來說,提升TIMEDIFF在跨病人建模、推廣學(xué)習(xí)和醫(yī)學(xué)解釋性等方面的能力,將使其在保護隱私的基礎(chǔ)上為臨床應(yīng)用提供更強大的支持。
表2對近年擴散模型在EHR數(shù)據(jù)生成領(lǐng)域的應(yīng)用進行了對比分析。
4 其他模型在EHR數(shù)據(jù)生成中的應(yīng)用
近年來,擴散模型在某些任務(wù)中展現(xiàn)出略高于VAE和GAN的性能,但VAE和GAN在生成領(lǐng)域長期積累的研究成果仍然顯著。本章重點分析擴散模型在EHR數(shù)據(jù)生成領(lǐng)域的發(fā)展,同時也探索VAE和GAN在該領(lǐng)域的應(yīng)用成果,如表3所示,以期為擴散模型在這一領(lǐng)域的進一步發(fā)展提供新的視角和思路。
4.1 變分自編碼器(VAE)
為了解決研究人員對電子健康數(shù)據(jù)的需要,建立模型來生成EHR合成數(shù)據(jù),使用變分自編碼器VAE可以生成縱向的EHR數(shù)據(jù)。Biswal等人[64]提出名為EVA的方法,使該模型能夠根據(jù)特定的疾病條件進行生成,從而支持特定疾病的研究。
EVA作為生成真實離散EHR數(shù)據(jù)的深度生成模型,對時間條件的生成和多樣性的序列都有較好的效果,且該模型首次采用變分自編碼器進行EHR數(shù)據(jù)生成。VAE框架通過最大化特定方程來聯(lián)合學(xué)習(xí)生成模型和推理網(wǎng)絡(luò)的參數(shù)。推理網(wǎng)絡(luò)(編碼器)負責(zé)近似給定輸入數(shù)據(jù)的潛變量真后驗分布,生成模型(解碼器)負責(zé)在給定潛變量的情況下生成輸出數(shù)據(jù)[79]。
EVA模型可以生成連續(xù)的EHR序列,而不是單獨的靜態(tài)患者表征,即每一個生成的EHR對應(yīng)一個假設(shè)患者,其中還包括一系列連續(xù)的門診記錄。每條門診記錄為一個類別化表示,即使用一個向量來表示該次門診記錄涉及的各種診斷代碼、用藥代碼等臨床元素。生成EHR數(shù)據(jù)時還考慮到了不同個體之間的差異,該模型可以根據(jù)可控制的條件來生成符合條件的患者群體,這一點彌補了以往生成EHR的限制[80]。模型的評價標準采用醫(yī)生評價來判定生成序列的真實性,采用預(yù)先訓(xùn)練的模型與真實數(shù)據(jù)訓(xùn)練模型進行對比,從側(cè)面反映了數(shù)據(jù)的質(zhì)量。
作者將模型生成因素分解為人口水平和個體水平,這一層次結(jié)構(gòu)設(shè)計能有效學(xué)習(xí)人口水平的醫(yī)學(xué)特征表示,使模型的合成數(shù)據(jù)質(zhì)量得以提升。但模型依然有著明顯的不足,該模型在隱私風(fēng)險評估方面存在缺陷,盡管通過訓(xùn)練EVA并生成樣本可以克服從原始數(shù)據(jù)到生成數(shù)據(jù)的一對一映射,但需要正式評估生成數(shù)據(jù)的隱私保護,存在泄露的可能性,即當攻擊者能夠確定EVA是使用包含某患者記錄的數(shù)據(jù)集進行訓(xùn)練時,攻擊者會假設(shè)該患者在訓(xùn)練數(shù)據(jù)中,這可能導(dǎo)致隱私泄露。在數(shù)據(jù)方面,可以考慮更多臨床上重要的生物特征,并可以結(jié)合外部醫(yī)學(xué)詞匯來改進表示學(xué)習(xí),且該模型使用的數(shù)據(jù)集可以考慮改用更大更權(quán)威的數(shù)據(jù)集。
4.2 對抗生成網(wǎng)絡(luò)(GAN)
生成對抗網(wǎng)絡(luò)作為最經(jīng)典的生成式模型之一,有著廣泛的應(yīng)用領(lǐng)域和扎實的理論基礎(chǔ),基于GAN模型可以生成不同類型的EHR數(shù)據(jù)、表格數(shù)據(jù)和時間序列。在EHR數(shù)據(jù)生成領(lǐng)域依然可以發(fā)揮較為穩(wěn)定的性能。
4.2.1 GAN模型生成EHR表格數(shù)據(jù)
早期GAN模型在EHR數(shù)據(jù)生成的應(yīng)用一般體現(xiàn)在生成結(jié)構(gòu)化離散表格EHR,如診斷計費的ICD編碼,medGAN就是最早開始學(xué)習(xí)離散特征表格和二進制特征表格的GAN模型[74]。基于medGAN在離散表格數(shù)據(jù)方面的成功,分別根據(jù)帶有懲罰梯度的Wasserstein GAN(WAGE-GP)[81]和邊界搜索GAN模型(BGAN)[82]提出了medWGAN和medBGAN[75]模型,提高了medGAN的生成數(shù)據(jù)質(zhì)量。后續(xù)研究人員專注于通過提出的相關(guān)性捕獲GAN(correlation capturing GAN,CorGAN)[76]來改進EHR表格數(shù)據(jù)中相關(guān)性捕獲,CorGAN結(jié)合GAN和卷積自動編碼器(convolutional autoencoders,CA)來捕獲離散和連續(xù)數(shù)據(jù)中特征之間的局部相關(guān)性。后續(xù)工作中開始專注提高模型的訓(xùn)練穩(wěn)定性,如EMR-WGAN(EMR Wasserstein GAN)中刪除了從medGAN中集成的自編碼器來解釋離散特征,應(yīng)用過濾策略來增強針對低流行率臨床概念的GAN的訓(xùn)練[83]。
4.2.2 GAN模型生成EHR時間序列數(shù)據(jù)
目前研究中多為生成可以呈現(xiàn)患者在單個時間點狀態(tài)的EHR表格數(shù)據(jù),但與時間序列數(shù)據(jù)相比,表格數(shù)據(jù)無法記錄和捕捉患者狀態(tài)的變化。
為了加強對時序數(shù)據(jù)生成的研究,Zhang等人[84]提出了合成包含時態(tài)EHR數(shù)據(jù)的生成框架(synthetic temporal EHR generation,SynTEG),該框架專注于生成帶有時間戳的ICD編碼。SynTEG使用兩步來完成這個目標:第一步依次從原始數(shù)據(jù)中提取時間模式,并采用自注意力層;第二步使用WGAN[81]來生成以學(xué)習(xí)模式為條件的數(shù)據(jù)。類似地,Lee等人[69]提出考慮使用雙對抗自動編碼器(dual adversarial autoencoder,DAAE)來改進兩個GAN組件,根據(jù)患者的時間順序來合成EHR序列,該模型可以合成定值醫(yī)療記錄序列。對于合成EHR的時間序列數(shù)據(jù)任務(wù),還有一些GAN模型使用變式,如生成時間序列藥物實驗室效應(yīng)(DLE)軌跡,這個效應(yīng)軌跡的作用是患者在接收干預(yù)措施后監(jiān)測患者,以防止藥物的不良反應(yīng)。Esteban等人使用循環(huán)的GAN模型(RGAN)以及條件生成對抗網(wǎng)絡(luò)提出了可以生成連續(xù)時間序列的RCGAN模型,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)被用作RCGAN的生成器和判別器。之后受患者狀態(tài)、臨床藥物劑量數(shù)據(jù)和根據(jù)患者狀態(tài)調(diào)整劑量的臨床實踐的推動,順序耦合GAN(sequentially coupled GAN,SC-GAN)[77]被設(shè)計出來,該模型由兩個不同的基于LSTM的生成器組成,用于協(xié)調(diào)患者狀態(tài)和藥物劑量數(shù)據(jù)的審查工作,患者狀態(tài)生成器的輸出被放入藥物劑量數(shù)據(jù)生成器上,后者生成器模仿根據(jù)患者狀態(tài)來調(diào)整藥物劑量的臨床實踐狀態(tài)。
根據(jù)表3可以看出早期的GAN在EHR數(shù)據(jù)生成領(lǐng)域一般是專注于離散編碼的生成,并且對于高維度的數(shù)據(jù)生成任務(wù)GAN容易發(fā)生模式崩潰等問題,于是研究人員開始逐漸引入自編碼器來緩解該問題。之后研究方向逐漸轉(zhuǎn)變?yōu)檠芯繒r序數(shù)據(jù),于是開始加入RNN和LSTM以及自注意力機制來對特征進行準確捕捉。但以GAN為基礎(chǔ)的模型遇到瓶頸,其生成性能無法提升后,研究者開始專注于研究模型穩(wěn)定性和模型生成數(shù)據(jù)效率上。
對比表2和3可知在基線模型方面,GAN和VAE的基線選取沒有統(tǒng)一的標準,部分模型的基線只是模型自身的條件生成版或者消融實驗作為基線對比,這大大減少了實驗應(yīng)有的說服力。在評價標準方面,無論是GAN和VAE并沒有較為統(tǒng)一的評價標準,但還是可以分為兩個方向:效用指標和隱私指標。對于擴散模型已經(jīng)逐漸開始形成統(tǒng)一標準,基本所有實驗都會引用效用指標中對維度考察的相關(guān)指標,并且下游機器學(xué)習(xí)模型的訓(xùn)練也可以側(cè)面說明生成數(shù)據(jù)的效用。在隱私方面都開始引入成員推斷和屬性推斷來衡量其隱私性,評價指標的選取逐漸趨于成熟。在數(shù)據(jù)集選取方面,有部分數(shù)據(jù)集較為經(jīng)典,也是最近的研究傾向于選用的,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等數(shù)據(jù)集。同時還有部分研究人員更傾向于使用私人數(shù)據(jù)集,這也在保證隱私性和安全性的同時展開了研究,但由于數(shù)據(jù)集無法公開,使得模型的可移植性和可解釋性有待考量。
5 未來展望
最新的擴散模型技術(shù)在電子健康檔案數(shù)據(jù)生成領(lǐng)域的應(yīng)用為潛在的研究和決策支持系統(tǒng)帶來了令人鼓舞的前景,本文回顧了在這一領(lǐng)域的研究工作,涵蓋了擴散模型在EHR數(shù)據(jù)生成中的算法、理論和應(yīng)用進展。然而,該研究仍然存在一些挑戰(zhàn)、差距和發(fā)展機遇需要進一步考慮和解決。
5.1 評價指標現(xiàn)狀與發(fā)展方向
在EHR領(lǐng)域中,可靠擴散模型的開發(fā)受到缺乏通用評估方法的制約,這是其發(fā)展的主要瓶頸。根據(jù)表1,評估組件和指標尚未標準化。目前的方法包括:a) 借鑒圖像生成和非醫(yī)學(xué)時間序列生成等其他領(lǐng)域的擴散模型應(yīng)用指標;b) 使用基準模型的評估指標;c) 引入新的評估指標。此外,同一評估測試可能使用不同的名稱,導(dǎo)致了擴散模型評估的混亂[4,59~62]。在評估機器學(xué)習(xí)性能時,必須報告合成數(shù)據(jù)集和真實數(shù)據(jù)集的結(jié)果,以了解模型的基線性能并準確確定合成數(shù)據(jù)對下游任務(wù)的效用。另外,不同的指標會導(dǎo)致各種限制和權(quán)衡,且同類模型之間并沒有橫向?qū)Ρ?。因此,EHR生成領(lǐng)域在沒有完整且系統(tǒng)的公用評價指標前提下無法比較出EHR生成任務(wù)的最優(yōu)模型。雖然提供定性評估和分析可以證明模型的研究價值,但如果不支持統(tǒng)一嚴格的定量評估指標將嚴重阻礙該領(lǐng)域的發(fā)展。本研究介紹了不同擴散模型在不同任務(wù)中選擇的評估指標,希望通過這項工作來激發(fā)研究者的后續(xù)研究。研究方向著重于對新引入評估指標的測試和使用、研究評估指標的局限性和權(quán)衡指標的側(cè)重方向,最終會制定出評估指標選擇及其權(quán)重的標準化指南,并確保其與合成數(shù)據(jù)的實用性相匹配。
未來的研究還可以是探討合成數(shù)據(jù)的通用性方面,并在優(yōu)化標準中加以考慮。例如在機器學(xué)習(xí)任務(wù)中,為了數(shù)據(jù)增強而生成的合成數(shù)據(jù)的評估方法應(yīng)該與為研究目的生成數(shù)據(jù)有所不同。在當前關(guān)于EHR的擴散模型文獻中,缺少對合成數(shù)據(jù)通用性的研究且擴散模型訓(xùn)練的計算成本較高。
5.2 進一步平衡隱私性和實用性
正如Ceritli等人[61]提出TabDDPM時首次引入的觀點,生成模型在數(shù)據(jù)生成時要對隱私保護和數(shù)據(jù)實用性之間做好權(quán)衡。擴散模型的高性能依賴于比其他生成式模型有更高的訓(xùn)練穩(wěn)定性,可選擇樣本的多樣性以及其特別的模型架構(gòu)。基于擴散模型的生成任務(wù)通過對噪聲圖片去噪完成分布相似的數(shù)據(jù)生成,保證合成數(shù)據(jù)在隱私方面得到保護,因為單個合成輸出與真實輸入之間沒有直接關(guān)系。然而,在處理諸如EHR等敏感信息時可能會發(fā)生意外的信息泄露。
為了解決實用性與隱私之間的權(quán)衡問題,無論選擇何種隱私保證級別,后續(xù)研究者都應(yīng)該同時測試這兩個因素。一些早期的研究沒有充分考慮信息泄露風(fēng)險,同樣,一些專注于提高生成模型隱私保護的工作也未充分評估數(shù)據(jù)的分布相似性保持問題,例如,差異隱私等隱私保證對于隱私保護很有幫助,但可能在保真度和實用性方面帶來高昂的代價。未來的研究方向應(yīng)與監(jiān)管機構(gòu)合作,制定關(guān)于隱私風(fēng)險的明確指南,這樣私人數(shù)據(jù)所有者才能放心地共享合成數(shù)據(jù),從而為新的研究應(yīng)用開辟道路。
5.3 引入多模態(tài)數(shù)據(jù)特征
各種臨床多樣性的EHR數(shù)據(jù)為數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)研究提供了廣泛可能性,當前大多數(shù)EHR數(shù)據(jù)生成模型專注于單一數(shù)據(jù)模態(tài)的生成,雖然已開始從單一時間點的表格數(shù)據(jù)向包含時間序列的數(shù)據(jù)轉(zhuǎn)變,但很少有模型能夠同時捕捉異構(gòu)類型數(shù)據(jù)之間的相關(guān)性。此外,盡管部分模型能夠條件化生成連續(xù)和離散分類數(shù)據(jù),但實際醫(yī)學(xué)數(shù)據(jù)呈現(xiàn)多種形式,包括非結(jié)構(gòu)化醫(yī)學(xué)記錄和醫(yī)療影像等。
未來的研究應(yīng)考慮如何利用圖像、語音等多模態(tài)數(shù)據(jù)來豐富和改進EHR數(shù)據(jù)的生成質(zhì)量和多樣性。合成數(shù)據(jù)具有潛力激發(fā)廣泛的臨床研究,加速研究進展、推動醫(yī)療保健機器學(xué)習(xí)的發(fā)展。特別是在基于擴散模型的EHR數(shù)據(jù)生成方面,這是一個相對新興的領(lǐng)域,仍有很大的改進空間,尤其是在處理EHR數(shù)據(jù)多樣性、異質(zhì)性、缺失和稀疏性等方面。未來的工作應(yīng)集中在改進模型以更好地捕捉這些復(fù)雜性,提高合成數(shù)據(jù)的質(zhì)量和可用性,為臨床研究和醫(yī)療保健領(lǐng)域帶來更大的益處。同時,需要加強與醫(yī)療監(jiān)管機構(gòu)的合作,確保合成數(shù)據(jù)的可靠性和隱私保護,為其在臨床實踐中的廣泛應(yīng)用奠定堅實基礎(chǔ)。
5.4 下游任務(wù)推理
在以往的研究中,通常是將下游任務(wù)模型的效果作為生成數(shù)據(jù)質(zhì)量和實用性的側(cè)面反映,實際上,將生成的大量數(shù)據(jù)用作訓(xùn)練樣本進行臨床預(yù)測模型的預(yù)訓(xùn)練是一種常見的做法。由于生成的數(shù)據(jù)量龐大,可以解決真實數(shù)據(jù)數(shù)量有限的問題,有助于模型學(xué)習(xí)任務(wù)的規(guī)律。在生成數(shù)據(jù)上預(yù)訓(xùn)練預(yù)測模型,然后在真實數(shù)據(jù)上微調(diào)優(yōu)化。這樣做可以借鑒生成器學(xué)習(xí)到的知識來促進下游模型效果的提升。接著可以將生成數(shù)據(jù)和真實數(shù)據(jù)結(jié)合進行聯(lián)合訓(xùn)練。利用合成數(shù)據(jù)進行訓(xùn)練,在真實數(shù)據(jù)進行測試;利用真實數(shù)據(jù)和合成數(shù)據(jù)進行訓(xùn)練,真實數(shù)據(jù)進行測試等兩種數(shù)據(jù)交叉使用的方法,
這種互相促進的方式有助于改善下游任務(wù)模型的效果。這種集成方法可以更好地利用生成數(shù)據(jù)和真實數(shù)據(jù)之間的優(yōu)勢,為臨床研究和醫(yī)療保健提供更加準確和可靠的模型預(yù)測。
6 結(jié)束語
在電子健康檔案(EHR)數(shù)據(jù)生成領(lǐng)域,隨著醫(yī)療信息技術(shù)的快速發(fā)展,隱私保護日益成為關(guān)注的核心議題。生成合成EHR數(shù)據(jù)時必須確保不泄露個人身份信息,同時保持數(shù)據(jù)的統(tǒng)計特性和臨床相關(guān)性,以滿足醫(yī)療研究和數(shù)據(jù)分析的需求。選擇和設(shè)計生成模型(如VAE、GAN、擴散模型等)至關(guān)重要,每種模型在數(shù)據(jù)質(zhì)量和隱私保護方面各有優(yōu)勢和限制。因此,研究人員需在這些選擇中進行權(quán)衡,以找到最適合特定場景的生成方法。
近年來,擴散模型在EHR數(shù)據(jù)生成領(lǐng)域迅速發(fā)展,其優(yōu)秀的生成效果引起了廣泛關(guān)注,這些模型通過模擬數(shù)據(jù)的擴散和反向擴散過程來生成數(shù)據(jù),有效保護了數(shù)據(jù)的隱私性。擴散模型的出現(xiàn)為生成高質(zhì)量且具有一定隱私性要求的EHR數(shù)據(jù)提供了新的方法和思路,結(jié)合生成模型的技術(shù)優(yōu)勢和對隱私保護的需求,擴散模型已成為EHR數(shù)據(jù)生成領(lǐng)域的研究熱點之一。
此外,評估合成EHR數(shù)據(jù)的質(zhì)量也是一個重要的課題。除了數(shù)據(jù)的統(tǒng)計特性和臨床相關(guān)性外,評估指標還包括Kullback-Leibler (KL) 散度、合成數(shù)據(jù)的實用性和隱私保護等。研究人員需要綜合考慮這些指標,以確保生成的數(shù)據(jù)能夠在醫(yī)療研究和數(shù)據(jù)分析中發(fā)揮有效的作用。
盡管在EHR數(shù)據(jù)生成領(lǐng)域取得了進展,但仍面臨諸多挑戰(zhàn),如如何平衡隱私與數(shù)據(jù)實用性、處理多模態(tài)數(shù)據(jù)、提高生成數(shù)據(jù)的多樣性和復(fù)雜性等,都需要進一步研究和探索。此外,為確保合成數(shù)據(jù)的可靠性和合規(guī)性,研究人員需與醫(yī)療監(jiān)管機構(gòu)合作,制定明確的指南和標準。隨著技術(shù)進步和合成數(shù)據(jù)應(yīng)用范圍的擴展,EHR數(shù)據(jù)生成領(lǐng)域?qū)⒂瓉砀嗵魬?zhàn)與機遇。
參考文獻:
[1]Sonabend A, Lu Junwei, Celi L A, et al. Expert-supervised reinforcement learning for offline policy learning and evaluation [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 18967-18977.
[2]Yuan Hongyi, Yu Sheng. Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification [J]. Artificial Intelligence In Medicine, 2024,148(2): 102748.
[3]Huang Kexin, Altosaar J, Ranganath R. ClinicalBERT: modeling clinical notes and predicting hospital readmission [EB/OL]. (2020-11-29). https://arxiv.org/pdf/1904.05342v3.
[4]Yuan Hongyi, Zhou Songchi, Yu Sheng. EHRDiff: exploring realistic EHR synthesis with diffusion models [EB/OL]. (2024-03-24). https://arxiv.org/pdf/2303.05656.
[5]Iyengar A, Kundu A, Pallis G. Healthcare informatics and privacy [J]. IEEE Internet Computing, 2018, 22(2): 29-31.
[6]Janmey V, Elkin P L. Re-identification risk in HIPAA de-identified datasets: the MVA attack [J]. AMIA Annual Symposium Proceedings, 2018, 2018: 1329-1337.
[7]Chen R J, Lu Mingyang, Chen T Y, et al. Synthetic data in machine learning for medicine and healthcare [J]. Nature Biomedical Engineering, 2021, 5(6): 493-497.
[8]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets [C]// Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2672-268.
[9]He Huan, Zhao Shifan, Xi Yuanzhe, et al. GDA-AM: on the effectiveness of solving minimax optimization via Anderson mixing [C]// Proc of the 10th International Conference on Learning Representations. 2022.
[10]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders [C]// Proc of the 25th International Conference on Machine Learning. New York: ACM Press, 2008: 1096-1103.
[11]Li Xiang, Thickstun J, Gulrajani I, et al. Diffusion-LM improves controllable text generation [C]// Proc of the 36th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2022: 4328-4343.
[12]Huang Rongjie, Lam M W Y, Wang Jun, et al. FastDiff: a fast conditional diffusion model for high-quality speech synthesis [C]// Proc of the 31st International Joint Conference on Artificial Intelligence Main Track. 2022: 4157-4163.
[13]Zhang Guanhua, Ji Jiabao, Zhang Yang, et al. Towards coherent image inpainting using denoising diffusion implicit models [EB/OL]. (2023-04-06). https://arxiv.org/pdf/2304.03322.
[14]Song Yang, Sohl-Dickstein J, Kingma D P, et al. Score-based gene-rative modeling through stochastic differential equations [EB/OL]. (2021-02-10). https://arxiv.org/abs/2011.13456.
[15]Sohl-Dickstein J, Weiss E A, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proc of the 32nd International Conference on Machine Learning. 2015: 2256-2265.
[16]Burda Y, Grosse R, Salakhutdinov R. Accurate and conservative estimates of MRF log-likelihood using reverse annealing [C]// Proc of the 18th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2015:102-110.
[17]Jarzynski C. Equilibrium free-energy differences from nonequilibrium measurements: a master-equation approach [J]. Physical Review E, 1997, 56(5): 5018.
[18]Creswell A, White T, Dumoulin V, et al. Generative adversarial networks: an overview [J]. IEEE Signal Processing Magazine, 2018, 35(1): 53-65.
[19]Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 6840-6851.
[20]Song Jiaming, Meng Chenlin, Ermon S. Denoising diffusion implicit models [EB/OL]. (2022-10-05). https://arxiv.org/abs/2010.02502.
[21]Nichol A, Dhariwal P. Improved denoising diffusion probabilistic models [C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8162-8171.
[22]Song Yang, Ermon S. Generative modeling by estimating gradients of the data distribution [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 11918-11930.
[23]Kirkpatrick S, Jr Gelatt C D, Vecchi M P. Optimization by simulated annealing [J]. Science, 1983, 220(4598): 671-680.
[24]Neal R M. Annealed importance sampling [J]. Statistics and Computing, 2001, 11(4): 125-139.
[25]Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis [C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 8780-8794.
[26]Ho J, Salimans T. Classifier-free diffusion guidance [EB/OL]. (2022-07-26). https://arxiv.org/abs/2207.12598.
[27]Nichol A, Dhariwal P, Ramesh A, et al. GLIDE: towards photorea-listic image generation and editing with text-guided diffusion models [C]// Proc of the 39th International Conference on Machine Lear-ning. [S.l.]: PMLR, 2022:16784-16804.
[28]Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with CLIP latents [EB/OL]. (2022-04-13). http://export.arxiv.org/abs/2204.06125.
[29]Saharia C, Chan W, Saxena S, et al. Photorealistic text-to-image diffusion models with deep language understanding [EB/OL]. (2022-05-23). https://arxiv.org/abs/2205.11487.
[30]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10684-10695.
[31]Wahid R, Mero J, Ritala P. Editorial: written by ChatGPT, illustrated by Midjourney: generative AI for content marketing [J]. Asia Pacific Journal of Marketing and Logistics, 2023, 35(8): 1813-1822.
[32]Song Yang, Ermon S. Improved techniques for training score-based generative models [C]// Proc of the 34th International Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2020: 12438-12448.
[33]Amit T, Shaharbany T, Nachmani E, et al. SegDiff: image segmentation with diffusion probabilistic models [EB/OL]. (2022-09-07). https://arxiv.org/abs/2112.00390.
[34]Baranchuk D, Rubachev I, Voynov A, et al. Label-efficient semantic segmentation with diffusion models [EB/OL]. (2022-03-16). https://arxiv.org/abs/2112.03126.
[35]Alcaraz J M L, Strodthoff N. Diffusion-based time series imputation and forecasting with structured state space models [EB/OL]. (2023-05-06). https://arxiv.org/abs/2208.09399.
[36]Chen Nanxin, Zhang Yu, Zen Heiga, et al. WaveGrad: estimating gradients for waveform generation [EB/OL]. (2020-10-09). https://arxiv.org/abs/2009.00713.
[37]Blau T, Ganz R, Kawar B, et al. Threat model-agnostic adversarial defense using diffusion models [EB/OL]. (2022-07-17). https://arxiv.org/abs/2207.08089.
[38]Anand N, Achim T. Protein structure and sequence generation with equivariant denoising diffusion probabilistic models [EB/OL]. (2022-05-26). https://arxiv.org/abs/2205.15019.
[39]Hoogeboom E, Satorras V G, Vignac C, et al. Equivariant diffusion for molecule generation in 3D [C]// Proc of the 39th International Conference on Machine Learning. [S.l.]: PMLR, 2022: 8867-8887.
[40]Cao Chentao, Cui Zhuoxu, Wang Yue, et al. High-frequency space diffusion model for accelerated MRI [J]. IEEE Trans on Medical Imaging, 2024, 43(5): 1853-1865.
[41]Chung H, Lee E S, Ye J C. MR image denoising and super-resolution using regularized reverse diffusion [J]. IEEE Trans on Medical Imaging, 2022, 42(4): 922-934.
[42]Karras T, Aittala M, Aila T, et al. Elucidating the design space of diffusion-based generative models [C]// Proc of the 36th Internatio-nal Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2022: 26565-26577.
[43]來杰, 王曉丹, 向前, 等. 自編碼器及其應(yīng)用綜述 [J]. 通信學(xué)報, 2021, 42(9): 218-230.( Lai Jie, Wang Xiaodan, Xiang Qian, et al. Review on autoencoder and its application [J]. Journal on Communications, 2021, 42(9): 218-230.)
[44]張彬, 周粵川, 張敏, 等. 生成對抗網(wǎng)絡(luò)改進角度與應(yīng)用研究綜述 [J]. 計算機應(yīng)用研究, 2023, 40(3): 649-658. (Zhang Bin, Zhou Yuechuan, Zhang Min, et al. Review of research on improvement and application of generative adversarial networks [J]. Application Research of Computers, 2023, 40(3): 649-658.)
[45]Hyvrinen A. Some extensions of score matching [J]. Computatio-nal Statistics amp; Data Analysis, 2007, 51(5): 2499-2512.
[46]Hyvrinen A, Dayan P. Estimation of non-normalized statistical mo-dels by score matching [J]. Journal of Machine Learning Research, 2005, 6(4): 695-709.
[47]Song Yang, Garg S, Shi Jiaxin, et al. Sliced score matching: a sca-lable approach to density and score estimation [C]// Proc of the 35th Uncertainty in Artificial Intelligence Conference. [S.l.]: PMLR, 2020: 574-584.
[48]Jolicoeur-Martineau A, Piché-Taillefer R, Combes R T, et al. Adversarial score matching and improved sampling for image generation [EB/OL]. (2020-10-10). https://arxiv.org/abs/2009.05475.
[49]Parisi G. Correlation functions and computer simulations [J]. Nuclear Physics B, 1981, 180(3): 378-384.
[50]Jolicoeur-Martineau A, Li Ke, Piché-Taillefer R, et al. Gotta go fast when generating data with score-based models [EB/OL]. (2021-05-28). https://arxiv.org/abs/2105.14080.
[51]Lu Cheng, Zhou Yuhao, Bao Fan, et al. DPM-solver: a fast ODE solver for diffusion probabilistic model sampling in around 10 steps [C]// Advances in Neural Information Processing Systems. 2022: 5775-5787.
[52]Vincent P. A connection between score matching and denoising autoencoders [J]. Neural Computation, 2011, 23(7): 1661-1674.
[53]Zhang Qinsheng, Chen Yongxin. Fast sampling of diffusion models with exponential integrator [EB/OL]. (2023-02-25). https://arxiv.org/abs/2204.13902.
[54]Rashidian S, Wang F, Moffitt R, et al. SMOOTH-GAN: towards sharp and smooth synthetic EHR data generation [C]// Proc of the 18th International Conference on Artificial Intelligence in Medicine. Berlin: Springer-Verlag, 2020: 37-48.
[55]Murtaza H, Ahmed M, Khan N F, et al. Synthetic data generation: state of the art in health care domain [J]. Computer Science Review, 2023, 48(5): 100546.
[56]Johnson A E W, Pollard T J, Shen Lu, et al. MIMIC-Ⅲ, a freely accessible critical care database [J]. Scientific Data, 2016, 3(1): article No.160035.
[57]Johnson A E W, Bulgarelli L, Shen Lu, et al. MIMIC-Ⅳ, a freely accessible electronic health record dataset [J]. Scientific Data, 2023, 10(1): article No.1.
[58]Hodge Jr J G, Gostin L O, Jacobson P D. Legal issues concerning electronic health information: privacy, quality, and liability [J]. Jama, 1999, 282(15): 1466-1471.
[59]He Huan, Zhao Shifan, Xi Yuanzhe, et al. MedDiff: generating electronic health records using accelerated denoising diffusion model [EB/OL]. (2023-02-08). https://arxiv.org/abs/2302.04355.
[60]Tian Muhang, Chen B, Guo A, et al. Fast and reliable generation of EHR time series via diffusion models [EB/OL]. (2023-09-23). https://openreview.net/pdf?id=ESSqkWnApz.
[61]Ceritli T, Ghosheh G O, Chauhan V K, et al. Synthesizing mixed-type electronic health records using diffusion models [EB/OL]. (2023-08-10). https://arxiv.org/abs/2302.14679.
[62]Naseer A A, Walker B, Landon C, et al. ScoEHR: generating synthetic electronic health records using continuous-time diffusion models [C]// Proc of the 8th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2023: 489-508.
[63]Kuo N I, Jorm L, Barbieri S. Synthetic health-related longitudinal data with mixed-type variables generated using diffusion models [EB/OL]. (2023-03-22). https://arxiv.org/abs/2303.12281.
[64]Biswal S, Ghosh S, Duke J, et al. EVA: generating longitudinal electronic health records using conditional variational autoencoders [C]// Proc of the 6th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2021: 260-282.
[65]Sadati N, Nezhad M Z, Chinnam R B, et al. Representation learning with autoencoders for electronic health records: a comparative study [EB/OL]. (2019-09-20). https://arxiv.org/abs/1908.09174.
[66]Iqbal T, Ali H. Generative adversarial network for medical images (MI-GAN) [J]. Journal of Medical Systems, 2018, 42(11): 231.
[67]Walonoski J, Kramer M, Nichols J, et al. Synthea: an approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record [J]. Journal of the American Medical Informatics Association, 2018, 25(3): 230-238.
[68]Sun Chang, Van Soest J, Dumontier M. Generating synthetic personal health data using conditional generative adversarial networks combining with differential privacy [J]. Journal of Biomedical Informa-tics, 2023, 143(7): 104404.
[69]Lee D, Yu H, Jiang Xiaoqian, et al. Generating sequential electronic health records using dual adversarial autoencoder [J]. Journal of the American Medical Informatics Association, 2020, 27(9): 1411-1419.
[70]Pollard T J, Johnson A E W, Raffa J D, et al. The eICU collaborative research database, a freely available multi-center database for critical care research [J]. Scientific Data, 2018, 5(1): 180178.
[71]Asuncion A, Newman D. UCI machine learning repository [DB/OL]. [2024-03-02]. https://archive.ics.uci.edu/datasets.
[72]Buczak A L, Babin S, Moniz L. Data-driven approach for creating synthetic electronic medical records [J]. BMC Medical Informatics and Decision Making, 2010, 10: article No.59.
[73]Yan Chao, Yan Yao, Wan Zhiyu, et al. A multifaceted benchmar-king of synthetic electronic health record generation models [J]. Nature Communications, 2022, 13(1): 7609.
[74]Choi E, Biswal S, Malin B, et al. Generating multi-label discrete patient records using generative adversarial networks [C]// Proc of the 2nd Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2017: 286-305.
[75]Baowaly M K, Lin C C, Liu Chaolin, et al. Synthesizing electronic health records using improved generative adversarial networks [J]. Journal of the American Medical Informatics Association, 2019, 26(3): 228-241.
[76]Torfi A, Fox E A. CorGAN: correlation-capturing convolutional ge-nerative adversarial networks for generating synthetic healthcare records [C]// Proc of the 33rd International Florida Artificial Intelligence Research Society Conference. Palo Alto, CA: AAAI Press, 2020.
[77]Wang Lu, Zhang Wei, He Xiaofeng. Continuous patient-centric sequence generation via sequentially coupled adversarial learning [C]// Proc of the 24th International Conference Database Systems for Advanced Applications. Cham: Springer, 2019: 36-52.
[78]Hoogeboom E, Nielsen D, Jaini P, et al. Argmax flows and multinomial diffusion: learning categorical distributions [EB/OL]. (2021-10-22). https://arxiv.org/abs/2102.05379.
[79]Kingma D P, Welling M. Auto-encoding variational Bayes [EB/OL]. (2013-12-20). http://export.arxiv.org/abs/1312.6114.
[80]Hu Zhiting, Yang Zichao, Liang Xiaodan, et al. Toward controlled generation of text [C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: PMLR, 2017: 1587-1596.
[81]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.
[82]Hjelm R D, Jacob A P, Che Tong, et al. Boundary-seeking generative adversarial networks [EB/OL]. (2018-02-21). https://arxiv.org/abs/1702.08431.
[83]Zhang Ziqi, Yan Chao, Mesa D A, et al. Ensuring electronic medical record simulation through better training, modeling, and evaluation [J]. Journal of the American Medical Informatics Association, 2020, 27(1): 99-108.
[84]Zhang Ziqi, Yan Chao, Lasko T A, et al. SynTEG: a framework for temporal structured electronic health data simulation [J]. Journal of the American Medical Informatics Association, 2021, 28(3): 596-604.
[85]Esteban C, Hyland S L, Rtsch G. Real-valued (medical) time series generation with recurrent conditional GANs [EB/OL]. (2017-12-04). https://arxiv.org/abs/1706.02633.