鄒海英 李智 楊帆
摘 要:臨床上廣泛使用腎小球濾過率(GFR)評價腎功能指標,醫(yī)生根據(jù)GFR預測出慢性腎?。–KD)階段進而制定相應的治療方案。菊粉清除率和同位素標記物清除率一直為測定GFR的主要標準。但菊粉價格昂貴、同位素標記方法具有放射性,限制了它們用于GFR的檢測。提出一種特征選擇的自適應模糊神經(jīng)網(wǎng)絡的進展過程GFR估計方法,分別對6個月、12個月及18個月后的慢性腎病患者進行GFR估計。先對29個特征進行相關性分析,將篩選出來的5個特征進行模糊化、初始化隸屬度函數(shù)和模糊規(guī)則生成,得到模糊神經(jīng)網(wǎng)絡(AFNN),然后用參數(shù)訓練AFNN模型,得到最優(yōu)AFNN,最后用新樣本數(shù)據(jù)進行GFR估計,得到誤差結果并進行評估。實驗結果表明,運用該方法,GER估計誤差均小于其它方法,其中最小標準化誤差達到1.079 5×10-6,泛化能力增強。
關鍵詞:腎小球濾過率;特征相關性;模糊化;隸屬度函數(shù);自適應模糊神經(jīng)網(wǎng)絡
DOI:10.11907/rjdk.173308
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2018)006-0153-04
Abstract:In clinical diagnosis, Glomerular filtration rate (GFR) is widely used to evaluate renal function. Doctors predict the progress of chronic kidney disease (CKD) stages and then make the appropriate treatments according to GFR. Inulin clearance and isotope marker clearance have been considered as the gold standard for GFR detection,but the high cost of inulin limits its routine clinical application and the usage of isotope marker clearance is limited by radiation. This paper proposes a GER estimation method based on adaptive fuzzy neural network with feature selection and makes GER estimation on patients with chronic kidney disease at 6 months, 12 months and 18 months. Firstly, 29 features are analyzed by correlation analysis and then five features are selected.Secondly, the five features are fuzzified get fuzzy neural network (AFNN), the membership functions are initialized and the fuzzy rules are maked.After that, the AFNN model is trained by the parameters to get the optimal AFNN.Finally, GFR estimation is performed with new sample data to get the error results.The experiment shows that this GER estimation method is better than other methods for the minimum standard error is 1.079 5×10-6, and generalization ability is enhanced.
Key Words:glomerular filtration rate; feature correlation; fuzzification; membership function; adaptive fuzzy neural network
0 引言
慢性腎?。–KD)是一種隱匿性疾病,隨著時間的推移,準確預測GFR對降低醫(yī)療費用和死亡率至關重要[1]。目前CKD尚無有效的治療手段,故早期發(fā)現(xiàn)、早期診斷與干預延緩其進程尤為重要[2]。GFR是腎功能和CKD進展的唯一可靠參數(shù)[3-4],提高GFR估計的準確率和精確度、降低偏差是根本[5]。近年來不少學者應用神經(jīng)網(wǎng)絡模型和改進機器學習算法進行GFR估計預測研究。Jamshid Norouzi[6]提出了自適應神經(jīng)模糊推理系統(tǒng)(ANFIS)預測慢性腎功能衰竭進展過程,得到的標準化均方誤差(NMSE)為4.767 6%。Cheng C等[7-8]提出通過集合學習模型提高腎小球過濾速率估計的精度,與ANN模型、SVM模型和REGRESSION模型相比,該模型在提高GFR估計中有顯著優(yōu)勢。
本文提出基于特征選擇的自適應模糊神經(jīng)網(wǎng)絡模型用于對GFR進行估計分析,能夠準確估計GFR的值,從而在臨床上幫助醫(yī)生制定合理的治療方案。
1 基本原理與方法
基于特征選擇的自適應模糊神經(jīng)網(wǎng)絡算法對慢性腎病進展過程GFR估計流程如圖1所示。
1.1 數(shù)據(jù)預處理
本文選取成都某醫(yī)院腎內(nèi)科2011-2016年間的患者臨床檢查檢驗與隨訪數(shù)據(jù)。首先對數(shù)據(jù)進行預處理,預處理篩選規(guī)則如下:①選取GFR連續(xù)3個月低于60mL/kg/min/1.73m2的樣本數(shù)據(jù);②排除妊娠期和哺乳期的婦女樣本數(shù)據(jù);③排除脫水、明顯水腫及其它嚴重體液平衡紊亂者樣本數(shù)據(jù);④排除急性腎衰竭、急性腎損傷等急性腎疾病患者和腎移植患者的樣本數(shù)據(jù);⑤排除先天性腎功能不足、先天性腎損傷等患者的樣本數(shù)據(jù);⑥選取每位患者最少有兩次間隔6個月及以上的記錄數(shù)據(jù),并將每隔6個月的數(shù)據(jù)記錄一次,由此分為6個月、12個月和18個月后的樣本數(shù)據(jù)集。
經(jīng)過數(shù)據(jù)預處理后得到1 088例樣本數(shù)據(jù),其中430例6個月后的CKD患者記錄數(shù)據(jù)、354例12個月后的CKD患者記錄數(shù)據(jù)、304例18個月后的CKD患者記錄數(shù)據(jù)。在沒有經(jīng)過特征相關性數(shù)據(jù)分析前,3個樣本數(shù)據(jù)集包含29個特征。前28個為輸入特征,分別為:年齡、性別、身高、體重、舒張壓、收縮壓、肌酐、胱抑素C、白蛋白、血紅蛋白、尿素氮、磷、鈣、腎小球濾過率(GFR)、總膽固醇(DGC)、低密度脂蛋白膽固醇(LDP)、高密度脂蛋白膽固醇(HDP)、體表面積(BSA)、身體質(zhì)量指數(shù)(BMI)、二氧化碳結合率(CO-2)、葡萄糖(GLC)、尿酸(UR)、堿性磷酸酶(AKP)、甘油三酯(TRIG)、鈉(Na)、鉀(K)、鎂(Mg)、氯(Cl),最后一個是輸出目標,用GER(t)表示。部分輸入特征與輸出目標之間的相關系數(shù)如表1所示。采用隨機抽取方法將這3個樣本數(shù)據(jù)集分為60%訓練集、20%驗證集、20%測試集。
1.2 特征相關性分析
特征分析是在數(shù)據(jù)挖掘時對訓練數(shù)據(jù)進行處理,提取出好的特征和減少輸入特征個數(shù),使模型性能和算法的準確度提高,減小估計誤差。結合皮爾遜相關系數(shù)(Pearson)[9-10]、斯皮爾曼相關系數(shù)(Spearman)[11]、肯德爾相關系數(shù)(Kendall)[12-13]分析,有效提取出與GFR強相關特征。
對29個特征利用皮爾遜相關系數(shù)(Pearson)、斯皮爾曼相關系數(shù)(Spearman)、肯德爾相關系數(shù)(Kendall)在顯著性水平p<0.001的情況下進行相關性分析,得到各個輸入特征與輸出目標GFR(t)之間的相關系數(shù)及顯著性水平。在顯著性水平p<0.001的情況下與GFR(t)相關的特征有9個,而3種相關系數(shù)大于0.3的特征只有5個。表2為最終篩選出的特征、相關系數(shù)及顯著性水平。
1.3 自適應模糊神經(jīng)網(wǎng)絡算法與模型訓練
1.3.1 自適應模糊神經(jīng)網(wǎng)絡算法
圖2為模糊神經(jīng)網(wǎng)絡結構。
自適應模糊神經(jīng)網(wǎng)絡利用神經(jīng)網(wǎng)絡的學習方法自適應地從輸入輸出樣本中獲取規(guī)則,通過訓練調(diào)整模糊神經(jīng)網(wǎng)絡參數(shù),使它本身可以更好地實現(xiàn)自匹配、自學習、自組織,并將模糊化層、歸一化層、規(guī)則生成層、輸出層均采用神經(jīng)網(wǎng)絡形式完成。人工神經(jīng)網(wǎng)絡使用的參數(shù)調(diào)優(yōu)方法為梯度下降法[14-15],該方法可能導致局部最小,而且迭代次數(shù)多、訓練速度緩慢,而最小二乘估計法收斂性好,結果為全局最優(yōu)。因此,本設計采用二者相結合的混合參數(shù)調(diào)優(yōu)算法調(diào)整網(wǎng)絡參數(shù),輸入特征越少,模糊神經(jīng)網(wǎng)絡準確性越高[16]。
1.3.2 模型訓練
對篩選出的特征進行相關性分析,將分析得到的特征作為模糊神經(jīng)網(wǎng)絡的輸入特征進行訓練,將各特征取值分為5個部分,分別表示很低、較低、一般、較高、很高,由此設置隸屬度函數(shù)分割數(shù)為5,類型為高斯(gaussmf),初始步長為0.01,訓練次數(shù)為40。
根據(jù)以上參數(shù)對初始模糊神經(jīng)網(wǎng)絡進行訓練,利用得到的網(wǎng)絡對6個月樣本集進行估計,其初始隸屬度函數(shù)和訓練后的隸屬度函數(shù)如圖3所示。
圖3中,左側(cè)為訓練前的隸屬度函數(shù),右側(cè)為訓練后的隸屬度函數(shù)。觀察發(fā)現(xiàn),訓練前后隸屬度函數(shù)發(fā)生微小變化,訓練前在確保覆蓋各個特征取值的情況下對該函數(shù)分割,而訓練后根據(jù)驗證數(shù)據(jù)集對其作細微調(diào)整,使它更符合實際情況。
1.4 誤差評估
為進一步評估不同方法對模型的影響,引入均方誤差(MSE)、均方絕對誤差(MAE)、標準化均方誤差(NMSE)、標準化誤差(NE)作為評價指標,通過誤差評判規(guī)則,對比不同方法和已有研究,得到表3所示的4種誤差指標。
上述結果表明,本文算法在GFR估計中有一定優(yōu)勢,在不同階段均得到了預測準確的GFR。另外,當樣本數(shù)據(jù)量減少時,該算法仍然具有一定的準確率。該算法優(yōu)勢明顯,收斂速度快,可以準確預測患者6個月、12個月、18個月后的GFR,在智能專家系統(tǒng)集成方面具有一定的輔助性,可以幫助醫(yī)生判斷患者病情進展,提醒患者及時治療,延緩CKD進展。
2 實驗結果
圖4表示6個月后預測值、真實值及差值,由圖4可以發(fā)現(xiàn)兩條曲線幾乎重合,說明真實值與預測值之間的誤差很小,在0~0.000 1范圍內(nèi),數(shù)量級為10-4(計量單位為%),這充分體現(xiàn)了該算法的優(yōu)勢。具體的標準化誤差在0~2.5×10-6之間,表明該算法可準確預測患者進展過程中的GFR。
3 結語
本文通過構建基于特征選擇的自適應模糊神經(jīng)網(wǎng)絡模型對腎小球濾過率(GFR)進行估計分析,根據(jù)GER估計結果預測出慢性腎病(CKD)的進展階段以輔助醫(yī)生制定治療方案。通過對6個月、12個月和18個月后的慢性腎病樣本數(shù)據(jù)集進行GFR估計分析,得到誤差結果,與其它方法相比,本文提出的方法誤差均小于其它方法,其中最小標準化誤差達到1.079 5×10-6,證明本文模型算法在腎小球濾過率估計分析中優(yōu)勢明顯,能用于臨床輔助醫(yī)生制定醫(yī)療方案。
參考文獻:
[1] National Kidney Foundation. Clinical practice guideline for chronic kidney disease:evaluation, classification and stratification[J]. Am J Kidney Dis,2002,39(suppl 1):S1-S266.
[2] LIU X, WANG C, TANG H, et al. Assessing glomerular filtration rate (GFR) in elderly Chinese patients with chronic kidney disease (CKD): a comparison of various redictive equations[J]. Archives of Gerontology Geriatrics,2010,51(1):13-20.
[3] 葉朝陽,毛志國.腎功能檢測方法的回顧與進展(一)[J].高血壓雜志,2001,9(3):264-266.
[4] 毛志國,葉朝陽.腎功能檢測方法的回顧與進展(二)[J].高血壓雜志,2001,9(3):266-268.
[5] 李瑞紅,李智,童玲.蟻群路徑優(yōu)化決策樹在慢性腎病分期診斷中的應用[J].軟件導刊,2017,16(2):135-138.
[6] NOROUZI J, YADOLLAHPOUR A, AHMADMIRBAGHERI S, et al. Predicting renal failure progression in chronic kidney disease using integrated intelligent fuzzy expert system[J]. Computational and Mathematical Methods in Medicine,2016(2):159-164.
[7] CHENG C, WANG C, LV L, et al. Improving precision of glomerular filtration rate estimating model by ensemble learning[J]. Journal of Translational Medicine,2017,15(1):231-233.
[8] VIJAYARANI S, DHAYANAND S. Kidney disease prediction using svm and ann algorithms[J]. International Journal of Computing and Business Research (IJCBR),2015,6(3):1245-1267.
[9] 彭海.皮爾遜相關系數(shù)應用于醫(yī)學信號相關度測量[J].電子世界,2017(7):163-170.
[10] 陳功平,王紅.改進Pearson相關系數(shù)的個性化推薦算法[J].山東農(nóng)業(yè)大學學報:自然科學版,2016,47(6):940-944.
[11] 張文耀.用斯皮爾曼系數(shù)衡量網(wǎng)絡的度相關[D].合肥:中國科學技術大學,2016.
[12] 胡春健.小樣本下Kendallτ相關系數(shù)的顯著性檢驗[J].控制工程,2013,20(6):1195-1197.
[13] 李玉水.隨機變量的Kendall相關系數(shù)的推廣[J].莆田學院學報,2009,16(5):15-17.
[14] 李寧山,劉迅,吳效明,等.人工神經(jīng)網(wǎng)絡在腎小球濾過率估算中的應用[J].第三軍醫(yī)大學學報,2012,34(3):409-411.
[15] 周志華.機器學習[M].北京:清華大學出版社,2016.
[16] 劉迅,唐驊,湯穎,等.中國腎小球濾過率評估方程在慢性腎臟病患者的應用評價[J].中華腎臟病雜志,2009,25(3):162-169.
(責任編輯:杜能鋼)