侯偉,趙耕,劉玉良,楊偉明,郭麗
1.天津科技大學(xué)電子信息與自動(dòng)化學(xué)院,天津 300222;2.天津醫(yī)科大學(xué)代謝病醫(yī)院檢驗(yàn)科,天津 300070
目前,糖尿病是全世界已知的并發(fā)癥最多的疾病,對(duì)人類健康造成了很大的影響。臨床研究顯示,30%以上的患者會(huì)在糖尿病確診以后的幾年內(nèi),引發(fā)糖尿病并發(fā)癥,而且可能出現(xiàn)不止一種并發(fā)癥[1],糖尿病并發(fā)癥患者的死亡率比只患有糖尿病患者的死亡率要高,所以更應(yīng)該引起足夠的重視[2]。其中,糖尿病周圍神經(jīng)病變(Diabetic Peripheral Neuropathy,DPN)作為糖尿病慢性并發(fā)癥中最常見一種,會(huì)導(dǎo)致患者出現(xiàn)一系列周圍神經(jīng)功能障礙癥狀,而且下肢癥狀比上肢更常見[3]。60%~90%的糖尿病患者有不同程度的DPN 并發(fā)癥,其發(fā)病機(jī)制目前尚不明確,并且很難通過藥物根治,甚至?xí)?duì)身體造成不可逆轉(zhuǎn)的損傷[4],嚴(yán)重影響了患者的生活質(zhì)量。對(duì)于DPN患者來說,除了對(duì)血糖控制和對(duì)癥處理以外,目前并沒有其他更好的治療手段[5],而預(yù)防是現(xiàn)階段最好的治療措施。因此,早期預(yù)防顯得尤為重要,越早開始治療,預(yù)后效果越好,治愈率也會(huì)相應(yīng)地提高,建立疾病預(yù)測模型是預(yù)防DPN的一種有效措施。
目前深度學(xué)習(xí)作為人工智能領(lǐng)域最熱門的一個(gè)方向,在圖像處理、語音識(shí)別等應(yīng)用領(lǐng)域得到了很大的發(fā)展[6],在醫(yī)療領(lǐng)域的應(yīng)用也越來越多。深度學(xué)習(xí)本質(zhì)上是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,是在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的延伸和拓展,它的優(yōu)勢在于可以自動(dòng)提取特征,避免用傳統(tǒng)人工提取的方式來獲取特征信息[7]。深度學(xué)習(xí)具有很強(qiáng)大的特征學(xué)習(xí)能力,可以發(fā)掘出數(shù)據(jù)中更深層次的有用特征。與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)覆蓋范圍廣,能夠適應(yīng)于不同的領(lǐng)域和應(yīng)用[8]。隨著醫(yī)療信息化的發(fā)展,各大醫(yī)院在患者的治療過程中保留了豐富的電子病歷數(shù)據(jù)。不論是疾病類別還是數(shù)據(jù)的數(shù)量級(jí)都有了大幅提升,病歷數(shù)據(jù)的積累不僅可以提高輔助診療的準(zhǔn)確率,而且可以作為醫(yī)學(xué)研究的資源來使用。病歷中的數(shù)據(jù)主要為自由文本,是一種高維、離散的數(shù)據(jù),并且包含了患者大量的化驗(yàn)指標(biāo)以及診療記錄等信息[9]。
DPN 屬于糖尿病并發(fā)癥疾病,與化驗(yàn)指標(biāo)有著很大的關(guān)系,由血液和尿液化驗(yàn)指標(biāo)就可以完成初步篩查,因此,可將深度學(xué)習(xí)方法應(yīng)用到DPN 病歷數(shù)據(jù)處理當(dāng)中,通過對(duì)病歷數(shù)據(jù)進(jìn)行學(xué)習(xí)和分析來構(gòu)建DPN預(yù)測模型。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為典型的深度學(xué)習(xí)方法之一,是一種包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[10],它的主要特點(diǎn)是具有良好的自學(xué)習(xí)能力、自適應(yīng)性能以及容錯(cuò)能力[11],可以自動(dòng)地完成提取輸入數(shù)據(jù)的特征工作,將提取到的特征信息用于進(jìn)一步的分類或者預(yù)測[12]。其中一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)主要應(yīng)用于序列類的數(shù)據(jù)處理,所以本研究采用1D-CNN自動(dòng)識(shí)別病歷中的臨床變量和指標(biāo),通過學(xué)習(xí)和挖掘數(shù)據(jù)的指標(biāo)信息以及內(nèi)在規(guī)律,從而可以初步判定是否患有DPN 疾病。這樣可以輔助醫(yī)生診斷和治療,提前篩查患者的得病情況,進(jìn)而提升了醫(yī)生的診療效率;而且患者可以對(duì)自己病情進(jìn)行自我管理與及時(shí)監(jiān)測,從而降低DPN疾病的發(fā)病率、復(fù)發(fā)率。
本研究所使用的數(shù)據(jù)來源于天津醫(yī)科大學(xué)代謝病醫(yī)院。按照國際通用的做法,醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)去掉病案號(hào)、姓名、電話和住址等信息,經(jīng)過脫敏處理之后,該數(shù)據(jù)總共包含898 個(gè)數(shù)據(jù)樣本,每個(gè)樣本包括51 個(gè)指標(biāo)變量,記錄了就診患者的體征和臨床指標(biāo)。這些數(shù)據(jù)樣本中包含了DPN 患者和非DPN 患者,并且每條數(shù)據(jù)中包含了與DPN 相關(guān)的指標(biāo):性別、年齡、空腹靜脈血糖、糖化血紅蛋白、白細(xì)胞、葡萄糖、膽紅素等。DPN 原始數(shù)據(jù)集存在格式混亂、異常值、缺失值、特征冗余、特征緯度高等問題,因此需要對(duì)其進(jìn)行預(yù)處理來提高數(shù)據(jù)的質(zhì)量,進(jìn)而改善模型的預(yù)測效果。
原始數(shù)據(jù)格式混亂,需要將數(shù)據(jù)整合為1 行1 條患者信息的形式,每1條數(shù)據(jù)包括各項(xiàng)指標(biāo)與診斷結(jié)果,之后的數(shù)據(jù)處理都是以此表為基礎(chǔ)進(jìn)行的。數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理中的重要步驟,主要包括剔除異常值和缺失值處理等內(nèi)容。對(duì)于某些不符合要求或有明顯錯(cuò)誤的數(shù)據(jù),比如尿液顏色出現(xiàn)了數(shù)字、化驗(yàn)指標(biāo)不符合常理等問題,可將這些錯(cuò)誤的指標(biāo)當(dāng)作缺失值來處理,利用現(xiàn)有的指標(biāo)對(duì)數(shù)據(jù)進(jìn)行缺失值填補(bǔ);但是對(duì)于個(gè)別的特征指標(biāo),如果出現(xiàn)它與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的異常情況,則直接剔除該異常指標(biāo),同時(shí)使用缺失值處理方法來處理。
此外,由于DPN 屬于糖尿病并發(fā)癥,而并發(fā)癥多發(fā)生在年齡較大的人群中,所以本研究將刪除年齡在20 歲以下的病歷數(shù)據(jù)。在原始數(shù)據(jù)中本來還存在著一些空缺值,對(duì)于指標(biāo)缺失嚴(yán)重的數(shù)據(jù),直接將其刪除,本研究刪除了樣本中5條數(shù)據(jù),占比非常小,因此并不會(huì)影響整體的數(shù)據(jù)量。對(duì)于有些缺失率低的數(shù)據(jù),同樣選擇缺失值填補(bǔ)。本研究需要填充的特征缺失值有總膽紅素3 個(gè)、白細(xì)胞1 個(gè)、糖化血紅蛋白2 個(gè),都采用K-means 的方法進(jìn)行填補(bǔ),它是利用歐式距離或相關(guān)分析來確定離缺失值最近的K個(gè)數(shù)據(jù),再把這K個(gè)值通過加權(quán)平均來估算該數(shù)據(jù)的缺失樣本。該方法根據(jù)缺失值以外的特征信息來對(duì)缺失值進(jìn)行相似性的填補(bǔ),有效地提高了數(shù)據(jù)的利用率。
對(duì)于非數(shù)值型的指標(biāo),需要進(jìn)行數(shù)值化處理,主要目的是為了方便預(yù)測模型的構(gòu)建。將非數(shù)值型的指標(biāo)變量轉(zhuǎn)化為0~3 等級(jí)劃分變量。DPN 作為糖尿病并發(fā)癥的一種,患病率與年齡有很大的關(guān)系,年齡越大患病率越高,所以年齡也按照年齡段進(jìn)行等級(jí)劃分。對(duì)于其他數(shù)值型化驗(yàn)指標(biāo)不做轉(zhuǎn)換處理。具體指標(biāo)賦值情況如表1所示。其中“+”、“-”分別代表陽性和陰性;“1+”、“2+”、“3+”代表某一項(xiàng)指標(biāo)的嚴(yán)重程度,數(shù)字越大代表指標(biāo)的嚴(yán)重程度越高,DPN診斷結(jié)果作為預(yù)測模型的因變量指標(biāo),其中1 代表DPN 患者,0 代表非DPN 患者。經(jīng)過數(shù)值化處理,數(shù)據(jù)類型得到了很好的統(tǒng)一。
表1 指標(biāo)賦值表Table 1 Index assignment
為了消除特征之間的量綱影響,將其轉(zhuǎn)換為無量綱的純數(shù)值,便于不同單位或量級(jí)的特征進(jìn)行比較或加權(quán),需要進(jìn)行標(biāo)準(zhǔn)化處理。數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按一定的比例壓縮,使之縮小到一個(gè)小的特定區(qū)間里。最常用的標(biāo)準(zhǔn)化方法為z-score標(biāo)準(zhǔn)化,其函數(shù)公式為:
其中,μ為某一特征的總體平均值,σ為某一特征的總體標(biāo)準(zhǔn)差,x為某一特征的值。數(shù)據(jù)經(jīng)過z-score 標(biāo)準(zhǔn)化處理以后,有效地把數(shù)據(jù)變換為統(tǒng)一的標(biāo)準(zhǔn),使得不同特征之間具有了一定的可比性。
由于原始數(shù)據(jù)的指標(biāo)較多,部分指標(biāo)彼此之間可能存在一定的冗余度,這樣會(huì)對(duì)模型預(yù)測精度造成一定的干擾和影響。在數(shù)據(jù)預(yù)處理之后,通過熱力圖對(duì)各個(gè)臨床指標(biāo)進(jìn)行相關(guān)性分析,從而衡量指標(biāo)之間的關(guān)聯(lián)程度。熱力圖是一種非常流行的數(shù)據(jù)展示方法,展示各個(gè)變量的分布情況,通常用數(shù)據(jù)處理庫函數(shù)Seaborn繪制,它是基于Matplotlib的Python可視化庫,可以提供一種高度交互式界面。熱力圖如圖1所示,圖中的每個(gè)方塊里的顏色深淺代表橫縱坐標(biāo)上的指標(biāo)相關(guān)程度,顏色越淺代表相關(guān)性越大,可以很直觀地反映出特征之間的相關(guān)情況。熱力圖右側(cè)的刻度展示了不同相關(guān)系數(shù)對(duì)應(yīng)的顏色深淺,橫縱坐標(biāo)0~50 代表指標(biāo)變量,51 代表診斷結(jié)果。由圖中可以看到,靠近對(duì)角線和右下角出現(xiàn)了很多淺色的方塊,說明部分指標(biāo)之間相關(guān)性較高,即存在很強(qiáng)的多重共線性,說明特征之間存在一定的冗余度,為此需進(jìn)行下一步降維處理。
圖1 熱力圖Figure 1 Thermodynamic diagram
PCA 是實(shí)際應(yīng)用中最常用的數(shù)據(jù)降維方法。PCA 的主要思想是通過某種線性投影的方式,將高維的數(shù)據(jù)映射到低維的空間中表示,即用更少的k維特征代替原先的n維特征,這k維被稱為主成分,并且在所投影的維度上特征的方差是最大的[13]。PCA 原理如圖2所示。
圖2 PCA原理Figure 2 Principle of principal component analysis
具體來說,用scikit-learn 工具里的sklearn.decomposition 包來實(shí)現(xiàn)PCA 降維,通過參數(shù)n_components 指定PCA 降維后的特征維度數(shù)目或者所占比例,在這里指定參數(shù)n_components=0.98,即占總方差值98%的維度數(shù)量,最終降維后的維度數(shù)為34,也就是有34個(gè)投影特征被保留。
預(yù)處理后的數(shù)據(jù)不僅可以提高數(shù)據(jù)的質(zhì)量,而且可以降低模型訓(xùn)練所需要的時(shí)間,提高預(yù)測模型的精度。經(jīng)過一系列的數(shù)據(jù)處理工作,最終確定892個(gè)樣本用于研究,并且經(jīng)PCA降維操作后,得到34個(gè)指標(biāo),將其作為預(yù)測模型的輸入變量。然后采用支持向量機(jī)(Support Vector Machine,SVM)、BP 神經(jīng)網(wǎng)絡(luò)、1D-CNN 3種算法分別建立預(yù)測模型。
SVM是目前最好的監(jiān)督學(xué)習(xí)算法之一,基本模型是在特征空間上找到最佳的分離超平面使得訓(xùn)練集上正負(fù)樣本間隔最大。SVM算法常用來解決二分類問題,并且在對(duì)非線性、小樣本、高維數(shù)的問題解決上有較大的優(yōu)勢,被廣泛應(yīng)用于處理分類和預(yù)測問題[14]。
核函數(shù)將數(shù)據(jù)映射到高維特征空間,從而在高維空間中尋找最佳的超平面,然后再對(duì)其分類。核函數(shù)選用高斯函數(shù),在經(jīng)過數(shù)據(jù)預(yù)處理以后,采用交叉驗(yàn)證的網(wǎng)格搜索算法,搜索SVM 兩個(gè)最優(yōu)參數(shù):懲罰系數(shù)C和核函數(shù)參數(shù)gamma。最終通過網(wǎng)格搜索得到最優(yōu)參數(shù)C為5,gamma為0.02。參數(shù)調(diào)優(yōu)之后,使用測試集驗(yàn)證模型的預(yù)測性能。
BP神經(jīng)網(wǎng)絡(luò)是一種按誤差反向傳播訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行的延伸和擴(kuò)展。它的學(xué)習(xí)過程分為前向傳播和反向傳播兩個(gè)階段。前向傳播時(shí),樣本從輸入層傳入,經(jīng)過若干隱藏層,最后從輸出層傳出,然后實(shí)際輸出值與期望值進(jìn)行對(duì)比,若在輸出層得不到預(yù)期的結(jié)果,則進(jìn)入反向傳播階段,根據(jù)實(shí)際值與預(yù)測值之間的誤差來更新神經(jīng)網(wǎng)絡(luò)中權(quán)重和偏置[15]。
網(wǎng)絡(luò)輸入層的維度為降維后的特征數(shù)量,即34個(gè)。輸入層的輸出維度設(shè)為64,最后一層為預(yù)測結(jié)果,輸出層節(jié)點(diǎn)數(shù)為1。隱藏層的節(jié)點(diǎn)按照經(jīng)驗(yàn)選取,經(jīng)過反復(fù)的嘗試,隱藏層選為4層,節(jié)點(diǎn)數(shù)依次為48、48、48、64。隱藏層的激活函數(shù)采用relu函數(shù),因?yàn)樗梢员苊馓荻认У膯栴},加快收斂速度和計(jì)算速度,為了避免過擬合的出現(xiàn),加入Dropout層。模型采用梯度下降法調(diào)整網(wǎng)絡(luò)權(quán)值,進(jìn)而更新網(wǎng)絡(luò)參數(shù)。
1D-CNN 中的輸入是一維向量,因此其卷積核也相應(yīng)的采用一維結(jié)構(gòu),每個(gè)卷積層和池化層的輸出同樣也是一維特征向量,因此被廣泛使用在序列數(shù)據(jù)的特征識(shí)別以及提取上[16]。1D-CNN 是一種端到端的模型結(jié)構(gòu),魯棒性極高,若輸入為電子病歷數(shù)據(jù),通過對(duì)病人的醫(yī)療數(shù)據(jù)進(jìn)行學(xué)習(xí)和分析,從而給出可靠診斷與預(yù)測。跟二維類似,它同樣具有局部連接和權(quán)值共享的特性。其中,局部連接利用空間拓?fù)浣Y(jié)構(gòu)建立相鄰層之間的非全連接空間關(guān)系減少了模型需要訓(xùn)練的參數(shù)個(gè)數(shù)[17];權(quán)值共享用于避免算法過擬合。在結(jié)構(gòu)上,它由卷積層、激活層、池化層和全連接層構(gòu)成。
卷積層的作用是對(duì)輸入數(shù)據(jù)進(jìn)行特征的提取,通過一個(gè)卷積核依次滑動(dòng)對(duì)目標(biāo)輸入進(jìn)行局部的卷積操作,卷積核就是一個(gè)局部感受野所學(xué)習(xí)到的權(quán)重矩陣[18]。該層主要的特點(diǎn)就是采用了權(quán)值共享和局部連接方式,一維卷積的運(yùn)算如式(2)所示:
其中,*表示卷積運(yùn)算,yi為第i個(gè)輸出特征圖,xi為第i個(gè)輸入特征圖,kij為本層卷積計(jì)算所用到的卷積核,bj為第j個(gè)特征圖的偏置。在CNN 中,非線性激活函數(shù)一般會(huì)選擇relu 函數(shù),relu 函數(shù)的特點(diǎn)主要是能夠使一些神經(jīng)元的輸出為0,提高了網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性,并且降低了參數(shù)的相互依存關(guān)系,抑制了過擬合問題的出現(xiàn)。
池化層通常又稱為下采樣層,其主要作用是在保持特征不變性的前提下去掉一些冗余信息把重要的特征抽取出來[19],在一定程度上可以防止過擬合。池化方法主要分為兩種:最大值池化法、平均值池化法,它們分別用公式(3)、公式(4)表示:
其中,p為池化得到的特征矩陣,l為特征圖的寬度,a為卷積層激活后的特征矩陣。最大值池化和平均值池化分別計(jì)算相鄰矩形區(qū)域內(nèi)的最大值和平均值,而通過最大值池化可以得到與位置無關(guān)的信息[20]。
全連接層主要用來完成最后的預(yù)測工作。該層每個(gè)輸出神經(jīng)元都和上一層神經(jīng)元相連接,對(duì)輸入特征進(jìn)行組合運(yùn)算,然后使用激活函數(shù)輸出預(yù)測結(jié)果。對(duì)于預(yù)測問題,輸出層給出的是預(yù)測類別的概率值。一般用0.5作為閾值,輸出概率值≤0.5時(shí),為未患DPN,輸出概率值>0.5 時(shí),為患有DPN。因此用sigmoid函數(shù)作為輸出層的激活函數(shù)。
本文構(gòu)造了11層的1D-CNN,如圖3所示,包括1個(gè)輸入層、6 個(gè)一維卷積層、3 個(gè)池化層、1 個(gè)Dropout層和1個(gè)全連接層。該網(wǎng)絡(luò)模型采用梯度下降法,實(shí)現(xiàn)損失函數(shù)的最小化,然后對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中的權(quán)重參數(shù)進(jìn)行逐層逆向調(diào)整,模型采用卷積層和池化層交替設(shè)置的方式完成自適應(yīng)特征學(xué)習(xí),這樣反復(fù)交替會(huì)學(xué)到更抽象的特征。
圖3 一維卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Figure 3 Structure of one-dimensional convolution neural network model
輸入數(shù)據(jù)的矩陣大小為34×1,第一個(gè)卷積層:卷積核長度為3,深度為1,共有64 個(gè)卷積核,步長為1,卷完后數(shù)據(jù)由34×1 變?yōu)?2×64;第二個(gè)卷積層參數(shù)和第一個(gè)卷積層一樣,經(jīng)兩層卷積之后得到的矩陣大小為30×64;接著進(jìn)入池化層,池化層的窗口大小設(shè)為2,這意味著該層的輸出矩陣大小僅為輸入矩陣的二分之一,所以池化完矩陣大小為15×64;接著再經(jīng)過3 層卷積層和最大池化層得到的矩陣大小為4×128;再通過1次卷積和平均池化操作,進(jìn)一步提取更抽象的特征,這樣會(huì)把多維向量平鋪成一維向量,輸出矩陣的大小為1×256;下一步加入Dropout層,比率設(shè)置為0.7,即隨機(jī)將Dropout 層70%的神經(jīng)元權(quán)重賦了零值,這樣可以減弱神經(jīng)元節(jié)點(diǎn)間的聯(lián)合適應(yīng)性[21],并且增強(qiáng)了泛化能力。該層的輸出仍然是1×256 的神經(jīng)元矩陣。最后輸入到全連接層并且用sigmoid激活后,獲得對(duì)輸入數(shù)據(jù)的DPN預(yù)測值。
本次實(shí)驗(yàn)將樣本數(shù)據(jù)隨意打亂后,抽取80%的樣本數(shù)據(jù)作為訓(xùn)練集用于訓(xùn)練預(yù)測模型,剩余20%的數(shù)據(jù)作為測試集。訓(xùn)練模型時(shí),BP 神經(jīng)網(wǎng)絡(luò)和1D-CNN 都以交叉熵作為損失函數(shù),使用Adam 優(yōu)化器,將學(xué)習(xí)率設(shè)為0.000 2,迭代次數(shù)為200次,模型訓(xùn)練完畢后,將測試集樣本輸入網(wǎng)絡(luò)進(jìn)行預(yù)測。本研究選用準(zhǔn)確率、召回率、F1 值和AUC 值來對(duì)模型進(jìn)行評(píng)估,模型評(píng)估在相同的實(shí)驗(yàn)環(huán)境下進(jìn)行,分別將構(gòu)建的3 種DPN 預(yù)測模型在測試集上進(jìn)行驗(yàn)證。它們的受試者工作特征(Receiver Operating characteristic Curve,ROC)曲線如圖4所示。
圖4 3種ROC曲線Figure 4 Receiver operating characteristic curve of different models
圖4中的橫坐標(biāo)是假陽率,表示在陰性樣本中,被識(shí)別為陽性的概率,縱坐標(biāo)為真陽率,表示在陽性樣本中,被識(shí)別為陽性的概率。ROC曲線越接近左上角,則模型性能越好。AUC值表示ROC曲線下面積,它越接近于1,說明預(yù)測效果越好。從圖中可以看到,1D-CNN的AUC值為0.98,高于其他模型。最后計(jì)算并整理每個(gè)模型的指標(biāo)值,預(yù)測結(jié)果如表2所示。
從表2可以看到,3 種DPN 預(yù)測模型的測試集上預(yù)測準(zhǔn)確率都在96%以上,但是1D-CNN 模型的預(yù)測準(zhǔn)確率最高,達(dá)到了98.3%。從召回率的角度來看,BP 模型和1D-CNN 模型非常接近,但是高于SVM。F1 值是精確率和召回率的綜合指標(biāo),顯然1D-CNN模型高于其他兩個(gè)模型;綜合對(duì)比發(fā)現(xiàn),1DCNN 模型預(yù)測效果最佳,有較好的學(xué)習(xí)能力和泛化能力,說明該模型在處理本文所采用的病歷文本數(shù)據(jù)具有更好的適應(yīng)性,該模型在DPN 疾病預(yù)測方面具有很高的應(yīng)用價(jià)值。
表2 預(yù)測結(jié)果比較Table 2 Comparison of prediction results
本文通過1D-CNN 建立的DPN 預(yù)測模型,表現(xiàn)出較好的預(yù)測性能,具有一定的現(xiàn)實(shí)應(yīng)用價(jià)值。它不僅可以幫助醫(yī)生進(jìn)行診斷決策,對(duì)DPN 的早期篩查起到很好的輔助作用,而且患者也可以對(duì)自己病情進(jìn)行實(shí)時(shí)監(jiān)測與預(yù)防。因此本研究為DPN 患者發(fā)病預(yù)測提供了一種新方法。但本論文也有一定局限性,仍需進(jìn)一步完善。由于條件限制,所用到的數(shù)據(jù)集樣本數(shù)量相對(duì)較少,數(shù)據(jù)類型比較單一,因此在以后的研究中,將融入更大、更全面的醫(yī)療樣本集,比如醫(yī)囑信息、住院記錄以及影像數(shù)據(jù)等,以進(jìn)一步完善預(yù)測模型。