岳益兵,于 穎,沈 磊,王 燕,王瑩瑩,詹秀秀,呂偉波
(1. 杭州師范大學阿里巴巴復雜科學研究中心,浙江 杭州 311121; 2. 上海中醫(yī)藥大學護理學院,上海 201203; 3. 上海市浦東新區(qū)唐鎮(zhèn)社區(qū)衛(wèi)生服務中心,上海 201210; 4. 安徽醫(yī)科大學公共衛(wèi)生學院,安徽 合肥 230032)
目前,全球老年人口激增,隨著年齡增加,人體的肌肉骨骼肌系統(tǒng)出現(xiàn)了定量和定性的下降[1].肌少癥作為老年人常發(fā)疾病,給個人、社會和國家?guī)砭薮蟮慕?jīng)濟負擔[2].2000年,美國歸因于肌少癥的直接醫(yī)療費用估計為185億美元(即醫(yī)療總開支的1.5%)[3].雖然最近的一篇綜述顯示,不同的肌少癥衛(wèi)生費用的相關研究有著異質(zhì)性,但是總體顯示出了肌少癥人群醫(yī)療費用增加的趨勢[4].2018年最新的歐洲老年人肌少癥工作組2(EWGSOP2)共識,將肌少癥定義為一種進行性和全身性的骨骼肌疾病,與包括跌倒、骨折、身體殘疾和死亡等不良后果的可能性增加有關[5].
評估肌少癥的方法和工具較多,但都有其局限性.SARC-F量表是基于肌少癥的基本特征和后果開發(fā)的簡單的五項問卷[6],但其過于依靠患者的主觀感受.成像技術可以較為精準地測量肌肉量,通常采用的成像技術有計算機斷層掃描(CT)和磁共振成像(MRI),但其設備成本高,操作難度較大.本文利用體檢信息建立肌少癥預測模型,通過體檢指標或者部分體檢項目直接預測肌少癥患病風險,以更低廉的手段進行更廣泛的肌少癥篩選,節(jié)省醫(yī)療資源.
機器學習是計算機科學的一個領域,使用計算機算法來識別大數(shù)據(jù)中的模式,基于數(shù)據(jù)預測各種結(jié)果[7].機器學習方法在醫(yī)學輔助診斷、疾病預防、疾病亞型分類和異常用藥檢測等方面得到良好的應用效果[8-9].建立機器學習預測模型,有助于診察疾病并做出及時有效的臨床決策,同時,可在早期識別具有不同疾病風險的患者,以優(yōu)化醫(yī)療資源配置.
數(shù)據(jù)來源于2019年上海某醫(yī)院的真實體檢數(shù)據(jù),體檢人群主要針對老年群體,并已獲取用于本研究的知情同意.研究數(shù)據(jù)結(jié)合了InBody270(體成分分析儀270)數(shù)據(jù).肌少癥的定義基于亞洲人肌少癥工作小組(Asian Working Group for Sarcopenia,AWGS)的診斷標準,包括低肌肉質(zhì)量、低肌肉力量或較差的身體表現(xiàn)[10].低肌肉質(zhì)量即男性骨骼肌指數(shù)(skeletal muscle mass index,SMI)低于7.0 kg/m2,女性骨骼肌指數(shù)低于5.7 kg/m2[11].本文主要利用骨骼肌指數(shù)來識別肌少癥患者.
本文部分特征做了醫(yī)學意義的拓展,如根據(jù)BMI值的范圍劃分為健康體重、輕體重、超重和肥胖,目的是探查肌少癥與某些間接特征的關系.使用K近鄰的方法填充缺失值,K近鄰的填充能利用不同樣本之間的相似性更好地還原缺失數(shù)據(jù),與均值和眾數(shù)等只看總體分布特點的填充方法相比,K近鄰更好地利用了類似個體之間的特性,可以根據(jù)變量的信息保留原始數(shù)據(jù)的分布結(jié)構(gòu).
在訓練機器學習模型時,采用Borderline SMOTE(Borderline Synthetic Minority Oversampling Technique)方法對正樣本(肌少癥組)進行過采樣,Borderline SMOTE是在SMOTE基礎上改進的過采樣算法,該算法僅使用邊界上的少數(shù)類樣本來合成新樣本,合成的新樣本更利于分類器形成區(qū)分原始正負樣本的分界,從而改善樣本的類別分布.為增加預測模型的泛化能力,本研究對采樣后的樣本添加了符合高斯分布的隨機擾動.采樣后正負樣本量比例為1∶1.
LightGBM(Light Gradient Boosting Machine)算法是由微軟提出的一種高效的梯度提升決策樹算法,LightGBM解決了評估每一個特征都需要掃描所有數(shù)據(jù)實例來估計所有可能分裂點的信息增益,便于處理大量數(shù)據(jù)實例和數(shù)據(jù)特征.鑒于LightGBM算法的優(yōu)越表現(xiàn),LightGBM在工業(yè)界和學術界的數(shù)據(jù)研究中得到廣泛應用.
決策樹(decision tree,DT)算法是一個樹狀分類器,使用信息熵、信息增益或基尼系數(shù)等來評估哪個特征作為非葉子節(jié)點的分類特征[12],決策樹有著非常清晰的規(guī)則,易于理解和應用于臨床實踐.
K近鄰(k-nearest neighbor, KNN)算法是一種較為簡單的分類算法,對于每個預分類點,尋找其最接近的k個鄰居點,并以多數(shù)票標記預分類點[13].
隨機森林(random forest,RF)算法是由Leo Breiman和Adele Culter開發(fā)由多棵決策樹組成的一種集成分類算法[14],最終結(jié)果由所有決策樹投票決定,隨機森林算法在疾病預測等各個領域已經(jīng)被證明是一種高精確的算法.
支持向量機(support vector machines,SVM)算法是1992年由Boser等提出的分類算法,它通過構(gòu)造一個高維的最優(yōu)大邊緣分離超平面來完成分類,通過選擇不同的核函數(shù),將原始數(shù)據(jù)映射到一個較高的維度,解決非線性分類問題[15].
樸素貝葉斯(Naive Bayesian,NB)算法被認為是一個簡單的概率分類器,通過特征概率來預測分類,其基于貝葉斯定理,假設獨立變量的條件概率在統(tǒng)計上是獨立的,以降低高緯度的復雜性[16].
人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)算法是一個強大的非線性模型,這個模型由許多被稱為“感知器”的人工神經(jīng)單元組成[17],通過模擬人類神經(jīng)系統(tǒng)高度連接的處理單元,確定輸入特征與輸出結(jié)果的相關性.
邏輯回歸(logistic regression,LR)算法是機器學習領域最為常見的建模方法之一,其利用Sigmoid函數(shù)引入非線性關系,便于解決二分類問題.
本文屬于預測被試者是否患有肌少癥的二分類預測,主要采用AUC值作為預測性能的評價指標.AUC(Area Under Curve)是衡量二分類模型優(yōu)劣的一種評價指標,即ROC(Receiver Operating Characteristic)曲線與x軸所圍面積.
本研究采用5折交叉驗證法,將數(shù)據(jù)集均分為5份,其中1份作為測試集,4份作為訓練集進行5折交叉訓練,每種機器學習方法訓練模型的訓練集和測試集都相同,將測試集的平均AUC值作為最終評價指標.
研究樣本中,肌少癥患者875(15.5%)例,正常者4 766例.研究特征分為連續(xù)變量和分類變量,并分別做統(tǒng)計學分析.連續(xù)變量中,年齡、體質(zhì)量、身高、BMI、腰圍、臀圍等21個特征在是否患肌少癥群體之間的差異具有統(tǒng)計學意義(P<0.05);分類變量中,性別、肥胖程度、中心性肥胖等12個特征在是否患肌少癥群體之間的差異具有統(tǒng)計學意義.詳見表1、表2,特征各類別患病比例見圖1.
表1 樣本群體連續(xù)變量基本特征Tab.1 Basic characteristics of continuous variables in sample population
續(xù)表1
表2 樣本群體分類變量基本特征Tab.2 Basic characteristics of the categorical variables in sample population
續(xù)表2
圖2 8種機器學習算法ROC曲線及其AUC值Fig.2 ROC curves of eight machine learning algorithms and their AUC values
預測模型所用特征過多,會使模型復雜度增加,且易造成過擬合.本文利用假設檢驗方法對原始體檢數(shù)據(jù)特征進行初步特征篩選,作為預測模型的輸入變量,是否患有肌少癥的二分類結(jié)果作為預測變量.經(jīng)采樣后,將兩組差異具有統(tǒng)計學意義的33個特征作為輸入變量進行機器學習方法模型訓練,8種機器學習方法經(jīng)過5折交叉驗證訓練后,測試集的AUC值以及相應的ROC曲線見圖2.其中,LightGBM算法預測效果最優(yōu)(AUC=0.979,其相應訓練集AUC=0.995),其次是RF算法(AUC=0.970)和LR算法(AUC=0.936),其后分別是ANN算法(AUC=0.892)、SVM算法(AUC=0.868)、KNN算法(AUC=0.867)、DT算法(AUC=0.831)和NB算法(AUC=0.735).
本研究通過單個特征在預測模型中的AUC值,尋找預測肌少癥的重要因素.從8種模型預測結(jié)果的AUC值可知,針對本研究數(shù)據(jù),預測性能最好的前3種算法為LightGBM算法、RF算法和LR算法,且3種方法應用較為廣泛,可以探查特征重要性,因此,本研究把所有特征分別放入前3種機器學習方法中訓練,得到單個特征在這3種算法中的AUC值,如圖3所示.可見,對于不同算法建立的預測模型,較為重要的特征可以得到較好的AUC值,以此篩選預測肌少癥的重要因素.將前3種預測模型預測的單個特征評分按AUC值從高到低排序,先取每種算法的評分前20項分別構(gòu)成一個特征集合,再取3個集合共有的特征,作為預測肌少癥的重要因素集,分別為年齡、體質(zhì)量、身高、BMI、腰圍、臀圍、舒張壓、平均紅細胞血紅蛋白量、高密度脂蛋白、平均紅細胞體積、紅細胞、甘油三酯.
注:縱坐標為單個特征在預測算法中的評分;橫坐標為特征,BMI為身體質(zhì)量指數(shù)、HGB為血紅蛋白濃度、MCH為平均紅細胞血紅蛋白含量、MCHC為平均紅細胞血紅蛋白濃度、MCV為平均紅細胞體積、HDL為高密度脂蛋白、LDL為低密度脂蛋白.
為探究不同體檢項目對預測肌少癥的影響,本文將所有特征分類為不同的特征集合,作為不同體檢項目,查看這些體檢項目的預測效果.所有的體檢項目同樣通過3種算法訓練,得到不同體檢項目在3種機器學習方法下的AUC值,結(jié)果見圖4.利用相同方法,找出3種預測方法評分前10的體檢項目中共有的體檢項目,將其作為預測肌少癥的重要體檢項目,包括體格檢查、血檢指標、血常規(guī)、肝腎功能、生活習慣和一般信息.
注:橫坐標為不同特征集合組成的體檢項目,縱坐標為體檢項目在預測算法中對應的AUC值.
由于醫(yī)療數(shù)據(jù)的特殊性,在預測方法上并沒有某種機器學習算法可以很好地預測某一種類型的醫(yī)療數(shù)據(jù),因此本文利用8種機器學習算法進行實驗,尋找適合本文數(shù)據(jù)的機器學習算法,以建立具有較好預測性能的肌少癥患病風險預測模型.對于本文的預測模型,LightGBM算法、RF算法和LR算法都體現(xiàn)了很好的預測效果.LightGBM算法和RF算法都是基于樹結(jié)構(gòu)的算法,可見樹結(jié)構(gòu)的算法對于此數(shù)據(jù)預測效果較好.在本文中,LightGBM是比較適合利用體檢數(shù)據(jù)進行肌少癥預測的算法.
本文探查的預測肌少癥的重要因素有體質(zhì)量、臀圍、BMI、腰圍、年齡、身高、舒張壓、平均紅細胞血紅蛋白量、高密度脂蛋白、平均紅細胞體積、紅細胞和甘油三酯.結(jié)合表1中肌少癥組的值范圍可見,與正常群體相比,肌少癥群體在體質(zhì)量、臀圍、BMI、腰圍、身高、舒張壓、紅細胞和甘油三酯上的值較低,而在年齡、平均紅細胞血紅蛋白量、高密度脂蛋白和平均紅細胞體積上的值較高,其中部分因素也在其他研究中提及.BMI是眾多研究得到的肌少癥重要的影響因素[18-19].肌少癥與衰弱密切相關[20],體質(zhì)量、腰圍、臀圍以及身高變化在體質(zhì)衰弱的老年群體中都較為常見.研究表明,甘油三酯與肌少癥發(fā)生率呈負相關,高密度脂蛋白與肌少癥發(fā)生率呈正相關[21],這支持了甘油三酯和高密度脂蛋白可以作為預測肌少癥的重要因素.Kang等[19]研究顯示紅細胞計數(shù)、高密度脂蛋白和舒張壓是肌少癥的風險因素.平均紅細胞血紅蛋白量、高密度脂蛋白、平均紅細胞體積和甘油三酯對肌少癥的內(nèi)在影響機制需要進一步確認.
本文探查的預測肌少癥重要體檢項目有體格檢查、血檢指標、血常規(guī)、肝腎功能、生活習慣和一般信息,其中體格檢查、血檢指標和血常規(guī)在LightGBM和RF算法的預測模型中AUC評分都在0.9以上.具體來說,體格檢查包括身高、體質(zhì)量、腰圍、臀圍、心率、收縮壓和舒張壓.血常規(guī)包括紅細胞平均血紅蛋白量、紅細胞平均血紅蛋白濃度、紅細胞平均體積、血紅蛋白、紅細胞、白細胞和血小板.肝腎功能主要包含尿素氮、肌酐、尿酸、谷丙轉(zhuǎn)氨酶和總膽紅素.血檢指標包含血常規(guī)和肝腎功能的子項以及甘油三酯、膽固醇、高密度脂蛋白和低密度脂蛋白.生活習慣包含運動、吸煙、飲酒和飲食情況.一般信息包括性別、年齡和教育水平.可見,血檢指標、肝腎功能以及生活習慣的改變,可能預示著肌少癥風險的不同.有研究指出腎功能與老年男性慢性腎臟病患者肌少癥發(fā)生相關[22].以上所述體檢項目,在社區(qū)、醫(yī)院的體檢或其他門診疾病的輔助檢查中較易獲得,可對肌少癥進行初步預測.
很多生活方式因素被認為易導致肌少癥,由圖1中G可知,偏愛肉類(標簽:0)人群患肌少癥比例更高,這可能是老年人體內(nèi)蛋白質(zhì)含量不僅僅取決于肉類的攝入量,且肉類中蛋白質(zhì)的吸收利用亦為重要因素之一,本研究提示老年人需葷素均衡飲食(標簽:2).運動干預可以有效降低肌少癥的患病風險[23].運動頻率在本實驗中的差異不顯著,運動強度不是肌少癥的影響因素,這可能和運動的方式有關,例如要進行有氧運動和抵抗運動[24]的形式來進行有效的肌少癥預防和干預.由圖1中K可知,每次1~2 h運動訓練的人群,患肌少癥的概率更低.一項meta分析的結(jié)果表明,酒精攝入并不是肌少癥的危險因素[25],證實了飲酒不是預測肌少癥的重要因素.同時,體檢項目中吸煙、飲酒和飲食的預測效果不佳,但是將這些項目結(jié)合,可以較好地預測肌少癥,這說明,肌少癥的預防和干預應該注重在日常生活中培養(yǎng)良好的生活習慣,飲食、作息和運動等方面都需要保持良好的狀態(tài).
本文的優(yōu)勢在于,首先使用較為基礎的8種機器學習方法進行肌少癥患病風險預測,可以廣泛探查適合本研究數(shù)據(jù)的基本機器學習方法.其次,本研究基于常規(guī)體檢數(shù)據(jù)以及不同體檢項目進行的肌少癥患病風險預測,數(shù)據(jù)易獲得,成本低,并可基于醫(yī)院和社區(qū)已有的數(shù)據(jù)對更廣泛的人群進行篩查,確定潛在肌少癥群體.本文的研究局限性在于:1)只采用了一種過采樣方法,過采樣后得到的數(shù)據(jù)并不是原始的真實數(shù)據(jù),對預測結(jié)果會有一定的影響;2)建立的預測模型在現(xiàn)實中很難應用,醫(yī)療行業(yè)有其特殊性,數(shù)據(jù)分析工具要求更高的準確性和安全性.
綜上所述,本文基于LightGBM方法建立了肌少癥患病風險預測模型,AUC值達0.979,結(jié)合預測模型確定了預測肌少癥的重要因素有體質(zhì)量、臀圍、BMI、腰圍、年齡、身高、舒張壓、平均紅細胞血紅蛋白量、高密度脂蛋白、平均紅細胞體積、紅細胞和甘油三酯,重要體檢項目有體格檢查、血檢指標、血常規(guī)、肝腎功能、生活習慣和一般信息,有利于肌少癥的進一步理論研究和實踐管理.