孫雯倩 林榕 顏緣嬌 李紅
認知障礙是指言語、學習、記憶、執(zhí)行、視覺空間和思維判斷等多種認知功能中的一種或多種受損,導致大腦高級智能加工過程出現(xiàn)異常的情況[1]。老年人是認知障礙的高發(fā)群體,自出現(xiàn)主觀癥狀起,老年認知障礙包括主觀認知下降階段、輕度認知障礙階段及阿爾茨海默?。ˋlzheimer’s Disease,AD)階段[2]。2021年世界阿爾茨海默病報告[3]指出,全球AD患者超過5500萬人,我國老年人口較多,目前有近1000萬名AD患者[4],年均經濟負擔在2050年預計將達到9.12萬億美元,高于全球平均水平。由此可見,AD在中國和世界范圍內均帶來沉重的經濟負擔和社會發(fā)展壓力[5]。而目前尚無特效療法能阻止或逆轉AD的病情進展,同時已有研究表明,早期控制危險因素、合理利用保護因素可以有效預防或延緩認知功能的惡化[6]。因此,提高醫(yī)護人員對老年認知障礙的重視,加強風險評估,進行早期識別和有針對性的干預已成為防治工作的重點。風險預測模型是指以引起疾病的多種危險因素為基礎,通過統(tǒng)計學方法建立模型,以估算患某疾病或發(fā)生某疾病結局的概率,可用于預測疾病發(fā)展、治療反應和預后情況等[7]。目前,已有數(shù)個老年認知障礙相關的風險預測模型,由于不同研究選擇的建模方法、預測因素等存在差異,現(xiàn)有模型存在納入因素不夠全面、外部驗證欠缺等不足。本文從模型的構建方法、基本情況和預測性能等方面對相關研究進行總結、分析和比較,通過了解老年認知障礙相關風險預測模型,推動臨床決策工具質量的提高,提升護理人員對認知障礙識別的科學性和準確性[8],為老年人提供更具針對性的認知干預,從而延緩認知障礙向AD轉化,同時也為老年認知障礙風險預測模型的構建和應用提供借鑒。
風險預測模型目前已廣泛應用于臨床指南、臨床實踐、流行病學、循證醫(yī)學研究等方面[9]。開發(fā)預測模型的方法眾多,可大致分為傳統(tǒng)統(tǒng)計學算法、機器學習算法和聯(lián)合使用兩種算法。傳統(tǒng)統(tǒng)計學算法模型即通過構建數(shù)學模型的方式進行風險預測,其中以Logistic回歸和Cox比例風險回歸模型最為常見,而機器學習算法模型則利用人工智能技術,通過計算機模擬人類學習行為進行風險預測,比較常見的模型有決策樹模型、梯度提升機模型、貝葉斯算法模型等。
Logistic回歸是以疾病的發(fā)生為因變量,預測因素為自變量的一種回歸分析法,主要用于預測因素的篩選,并在此基礎上構建模型,用于后續(xù)疾病的判別和預測,適合于二分類事件的預測[8]。
2022年,我國學者采用回顧性研究方法,使用中國健康與退休前瞻性隊列研究(China Health and Retirement Longitudinal Study,CHARLS)中2015年的數(shù)據(jù),將9391名研究對象分為有認知功能障礙組和無認知功能障礙組,采用Logistic回歸分析納入19項危險因素,分別為高齡、女性、吸煙、飲酒、過去1個月平均每晚睡眠不足4.5 h、15歲前身體狀況不好、高血壓病史、血脂異常病史、平均收縮壓>127 mmHg、平均舒張壓>76 mmHg、BMI>23.01 kg/m2、腰圍>85.10 cm、血紅蛋白(Hb)>139.78 g/L、血尿素氮(BUN)≤6.18 mmol/L、血肌酐(Cr)>63.30 μmol/L、總膽固醇(TC)≤2.09 mmol/L、尿酸(UA)>249.82 μmol/L、高密度脂蛋白膽固醇(HDL-C)≤1.40 mmol/L、胱抑素C(Cys-C)≤0.94 mg/L等,構建了整合式預測模型[10]。該模型的受試者特征曲線(Receiver Operating Characteristic Curve,ROC)曲線下面積為0.686,有良好的預測性能。但是由于該模型納入的血液分析指標較多,其外推性受到限制,需要進行外部驗證明確其預測效能。
在預測因素的選擇優(yōu)化上,許多學者采用套索算法(the Least Absolute Shrinkage and Selection Operator,LASSO)選擇最佳預測變量,此方法可以通過縮小回歸系數(shù)來減少建模過程中的過度擬合,再結合多元回歸分析構建預測模型。2021年,Wang等[11]采用回顧性研究方法,收集了1099名老年人的臨床資料,通過LASSO回歸結合Logistic回歸分析納入6項危險因素,分別為女性、高齡、經濟狀況較差、健康狀況不佳(即基礎疾病更多)、不健康的生活方式(即吸煙、飲酒、體力活動少等)和有癡呆家族史,構建認知障礙預測模型并繪制列線圖,該模型訓練集的曲線下面積為0.822,驗證集的ROC曲線下面積為0.801,表明該模型具有中等預測能力。但該模型納入的部分指標較為寬泛,如健康狀況指標,可根據(jù)現(xiàn)有研究在蔬果攝入、聽力障礙、睡眠障礙等方面進行細化,同時,該模型也缺乏外部驗證,未來需要在擴大樣本量的同時在不同地區(qū)開展外部驗證,進一步改善模型。2022年,董曉慧等[12]通過多中心觀察性研究,以546名老年人為研究對象,也采用此方法納入高齡、文化程度低、有直系親屬癡呆史、存在主觀認知下降、處于衰弱狀態(tài)、有代謝綜合征和低蛋白血癥7項風險因素,并繪制列線圖預測老年人發(fā)生認知障礙的風險。該模型的校正后C指數(shù)為0.858,校準曲線與理想曲線接近重合,表明模型具有良好的精準度和區(qū)分度,決策曲線也表明臨床中應用該模型可增加受試者的臨床獲益。該模型選取的風險預測指標成本低,適用于基層醫(yī)療單位和門診對認知障礙進行快速篩查。但由于該研究設計為橫斷面研究,無法確定影響因素與認知障礙之間的因果關系,需要進一步隨訪受試者認知功能的長期變化,且尚未見該模型的臨床驗證,缺乏外部驗證結果作為支持,在臨床應用前仍需要在不同領域和不同文化人群中進一步開展外部驗證。
當研究目的不僅關注事件發(fā)生,同時也關注時間與事件的關系時,多用Cox比例風險回歸模型。相較于Logistic回歸模型,Cox比例風險回歸模型的優(yōu)勢在于可以在關注事件基礎上同時關注時間與事件的關系,且允許有截尾數(shù)據(jù)的存在,在認知功能障礙相關結局的預測研究中應用也較為普遍。
2020年,周錦輝[13]利用中國老年健康影響因素跟蹤調查(Chinese Longitudinal Healthy Longevity Survey,CLHLS)數(shù)據(jù)對10066名老年人進行了回顧性分析,基于LASSO回歸結合既往文獻證據(jù)納入8項危險因素,分別為高齡、基線簡易精神狀態(tài)檢查量表得分低、日常生活自理能力低(ADL和IADL量表評分低)、咀嚼能力差、視力差、有腦卒中史、從不看電視或聽收音機、從不種花或養(yǎng)寵物,采用Cox比例風險回歸建立模型,通過bootstrap 2000次重復抽樣的方法進行內部驗證,并使用CLHLS項目2008年—2014年的隊列數(shù)據(jù)進行外部驗證。該模型的內部驗證和外部驗證ROC曲線下面積分別為0.891和0.867,表明其預測未來6年認知功能障礙發(fā)生與否的能力較強。該模型納入的預測因素均為易測量變量,有利于醫(yī)護人員或基層工作人員對老年人進行認知障礙風險預測。但該研究認知功能的隨訪間隔時間長達3年,在結局狀態(tài)和結局時間的記錄上可能存在偏倚,且建模隊列和驗證隊列均來自同一數(shù)據(jù)庫,未來可使用其他研究數(shù)據(jù)進行外部驗證的補充。2021年,日本Honda等[14]學者采用回顧性隊列研究方法,對795名老年人的24年縱向隨訪數(shù)據(jù)進行分析,基于Cox比例風險回歸構建模型,納入高齡、女性、受教育程度低、消瘦、有高血壓、有糖尿病、有腦卒中史、當前吸煙和久坐9項危險因素。該模型C統(tǒng)計量為0.755,有良好的辨別能力,可有效識別認知障礙的高危個體。但由于基線數(shù)據(jù)收集不夠全面,一些認知障礙的危險因素沒有被納入該模型,如聽力障礙、頭部外傷、抑郁等,忽略了一些與認知障礙高度相關的預測因素,且該模型尚未進行外部驗證及臨床應用,其臨床應用價值還需要進一步明確。
傳統(tǒng)統(tǒng)計學算法,如Logistic回歸和Cox風險回歸,雖然能通過分析疾病轉歸的危險因素構建模型,但仍存在一些缺陷。Logistic回歸僅考慮了疾病的結局(如死亡、復發(fā)等),未考慮患者的生存時間;Cox回歸克服了Logistic回歸的一些缺陷,考慮了疾病結局和患者的生存時間,但只能處理一個終點事件的資料,不能處理具有多個終點事件的資料,也不能處理同時具有左刪失和右刪失的數(shù)據(jù)。近年來,機器學習已被廣泛應用于預測模型構建,機器學習方法可通過對統(tǒng)計數(shù)據(jù)的分析揭示大數(shù)據(jù)環(huán)境下影響因素和疾病之間的隱藏相關性[15],現(xiàn)也被廣泛應用于老年認知障礙風險預測模型的研究。
決策樹是數(shù)據(jù)挖掘技術的一種,是運用遞歸劃分自變量的原理將自變量分為不同類別,以構建樹的模型,克服了Logistic回歸分析的共線性問題,將決策樹模型引入老年認知障礙影響因素的研究,可以直觀、簡潔地探討影響因素、因素之間的相互作用并作出預測,體現(xiàn)了決策樹模型在臨床醫(yī)學研究中的優(yōu)勢及可行性[16]。
2020年,Pandhita等[17]采用橫斷面研究方法,獲取212名老年人資料,其中有76名(35.8%)老年人患有輕度認知障礙,通過Logistic回歸納入4項危險因素后構建決策樹模型,分別為主觀認知下降、缺乏體育鍛煉、語言流利性測試異常和單腿平衡能力差。該模型的敏感度和特異度分別為71.5%和100.0%,但由于樣本量較小且缺乏外部驗證,需要進行大規(guī)模多中心研究才能明確其外推性及臨床有用性。我國學者石宇[18]采用橫斷面研究方法,比較決策樹模型與傳統(tǒng)統(tǒng)計分析方法,通過決策樹模型納入了無社會交往、受教育年限≤3年、有糖尿病、無興趣愛好、吸煙、有飲茶習慣6項危險因素;采用Logistic回歸分析構建模型,納入了獨居、長期居住地為農村、有糖尿病、不常參加社會交往4項危險因素。兩個模型的評價結果顯示,決策樹模型的準確度(76.8%)和ROC曲線下面積(0.765)均大于Logistic回歸模型(71.8%、0.722),說明決策樹模型的預測能力更優(yōu)。
但2020年,侯繼文[19]將決策樹模型與Logistic模型進行比較,發(fā)現(xiàn)決策樹模型預測認知障礙的ROC曲線下面積為0.811,與Logistic回歸模型ROC曲線下面積(0.809)相比,預測能力無明顯差異。2021年,潘晶雪等[20]也將兩種模型進行比較,發(fā)現(xiàn)高齡、不看報讀書、不使用微信或電腦、興趣愛好少、不參加社交活動、有糖尿病、有癡呆家族史、聽力下降是老年人認知障礙的共同危險因素,但二者的ROC曲線下面積仍無明顯差異,即預測能力比較差異無統(tǒng)計學意義。
梯度提升機是一種集成算法,可有效處理大規(guī)模數(shù)據(jù),并在盡量減少分類錯誤的同時建立預測模型。2019年,Na[21]采用回顧性研究方法,將梯度提升機應用于由3424人組成的隊列數(shù)據(jù)以預測認知障礙風險。通過梯度提升機模型納入的預測變量排名前10位的分別為高齡、簡易精神狀態(tài)檢查量表得分低、受教育程度低、女性、日?;顒邮芟蕖ⅹ毦?、有關節(jié)炎、對經濟狀況的滿意度低、對健康狀況的滿意度低、有糖尿病。該模型的敏感度、特異度和ROC曲線下面積分別為0.967、0.825、0.921,說明該模型預測效能較好。模型納入的預測變量均易于收集,可在社區(qū)進行老年人認知障礙的風險預測。但由于缺乏外部驗證,該模型在真實世界中的臨床使用價值還需要進一步明確。
貝葉斯網絡模型作為一種強大而靈活的研究工具,可以生成顯示變量之間關系的網絡結構,用于個體風險評估并易于轉換為決策模型[22]。將貝葉斯網絡模型應用于老年人認知障礙隊列研究,可以直觀地了解認知功能影響因素之間的相互關系,并實現(xiàn)因果推斷和個體的疾病風險預測。
楊蓓[23]采用隊列研究,通過構建貝葉斯網絡模型納入了認知功能下降(蒙特利爾認知評估量表評分<26分)、抑郁狀態(tài)、女性、高齡、性格內向、受教育程度低、非在婚狀態(tài)、家庭人均收入低、退休前為體力勞動者、不讀書看報、身體活動少、飲酒、有腦外傷史、有高血壓14項風險因素,對老年人認知功能障礙有直接預測作用的是有高血壓、受教育程度低、退休前為體力勞動者和抑郁狀態(tài)。該模型的靈敏度、特異度、預測準確率分別為0.869、0.770、77.14%,說明預測效能較好。但當貝葉斯網絡模型中的變量較多時,模型的擬合穩(wěn)定性不佳,且該研究的研究對象為當?shù)夭糠稚鐓^(qū)老年人,對于模型的外推可能會造成一定限制,有待于進一步臨床驗證。
多狀態(tài)馬爾可夫模型(Multistate Markov Model)是處理多狀態(tài)資料的有效工具,可以同時考慮所有的狀態(tài)、結局、狀態(tài)間轉移的時間信息以及可能的影響因素,實現(xiàn)對隨機過程進行連續(xù)性動態(tài)研究,動態(tài)地評價疾病進展[24]。近年來,多狀態(tài)馬爾可夫模型也被引入認知障礙的發(fā)展轉歸研究中。
2022年,Sanz-Blasco等[25]采用隊列研究方法,使用多狀態(tài)馬爾可夫模型探索老年認知障礙轉歸的概率及影響因素,模型中由正常認知發(fā)展為認知障礙的部分納入4項危險因素,分別為80歲以上、社會經濟地位較低、攜帶載脂蛋白E基因、日?;顒硬蛔恪5撃P筒⑽催M行模型評價及外部驗證,尚無法確認其臨床預測性能,需要補充模型的評價部分,以獲得確切的預測性能結果。
隨著大數(shù)據(jù)和計算機技術的飛速發(fā)展,整合多維數(shù)據(jù)層(如健康狀況、壽命、環(huán)境、社會、遺傳)并應用多種統(tǒng)計學方法(如機器學習、生存分析、多層次建模)的多學科合作已成為現(xiàn)代醫(yī)學風險預測模型前進和發(fā)展的必然要求[26]。
2021年,Hu等[27]采用回顧性隊列研究方法,從CLHLS中獲取6718名老年人隊列資料,將Logistic回歸分析、隨機森林模型、極致梯度提升(XGBoost)模型、貝葉斯網絡模型4種統(tǒng)計分析方法兩兩組合進行45個變量的篩選,結果顯示,基于貝葉斯網絡與隨機森林相結合的方法選擇的4個預測因素準確性最高(0.834),即高齡、工具性日常生活能力高(IADL評分高)、非在婚狀態(tài)和基線認知功能差(簡易精神狀態(tài)量表得分低)。因此,使用這4個預測因素進行模型構建,靈敏度由大到小依次為隨機森林模型、XGBoost、Logistic回歸模型、貝葉斯網絡模型,特異度由大到小依次為貝葉斯網絡模型、Logistic回歸模型、XGBoost、隨機森林模型。同時,研究者基于Logistic回歸分析構建了列線圖預測認知障礙的發(fā)生風險,模型的最佳臨界值為170,分數(shù)≥170分的老年人在3年內有更高的認知障礙風險。但由于該研究用于構建模型的老年人隊列年齡相對較小,平均認知能力和身體功能較好,未考慮慢性病對認知功能的影響,因此,構建出的模型可能更適用于健康老年人,該模型仍需要在獨立隊列中完善外部驗證,以明確其實際預測效果。
本文從老年認知障礙風險預測模型的構建方法、基本情況和預測性能等方面進行綜述。由于不同研究選擇的研究方法、建模方法、篩選的危險因素各不相同,每種預測模型都各有優(yōu)缺點。綜上可知,當前老年認知障礙風險預測模型的建模方式多樣,但數(shù)據(jù)大部分來源于回顧性研究,雖所需的人力、物力較少,易于進行,但數(shù)據(jù)的完整性和準確性無法得到保證,未來可通過前瞻性隊列研究收集數(shù)據(jù),進一步提高模型的預測性能。同時,選擇合適的預測變量對開發(fā)適用于社區(qū)或臨床的預測模型也十分重要,未來研究可將文獻回顧法、專家函詢法和預調查相結合,基于循證方法篩選預測模型的納入變量,為了使模型更易于推廣使用,可考慮選擇易于獲得、易于測量且有明確定義的預測因素。此外,當前大部分模型仍處于內部驗證階段,臨床應用轉化率低,今后還需要在不同地區(qū)進行外部驗證,并利用新收集的資料實現(xiàn)動態(tài)更新,為模型的優(yōu)化和推廣奠定基礎。