靳巖青,聶艷聰,王曉霞,*,仇麗霞,毛小琦,池艷春,韓 濤
(1山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院統(tǒng)計(jì)教研室,太原 030001;2山西醫(yī)科大學(xué)第二醫(yī)院風(fēng)濕免疫科;*通訊作者,E-mail:yljdwxx@163.com)
類風(fēng)濕關(guān)節(jié)炎(rheumatoid arthritis,RA)是一種以侵蝕性、對(duì)稱性多關(guān)節(jié)炎為主要臨床表現(xiàn)的慢性、全身性自身免疫性疾病[1]。除關(guān)節(jié)受累之外,還可造成多系統(tǒng)、多臟器損害,常見的并發(fā)癥包括類風(fēng)濕結(jié)節(jié)、心血管疾病以及肺部疾病[2]。因肺部含有豐富的膠原纖維和血管,故是RA較易侵犯的臟器之一,而發(fā)病率最高的為間質(zhì)性肺疾病(interstitial pulmonary diseases,ILD)。目前RA-ILD的發(fā)病機(jī)制并不明確,且發(fā)病比較隱匿,早期難以發(fā)現(xiàn),易被忽略。有研究發(fā)現(xiàn),盡管RA的總體病死率在下降,但RA-ILD的病死率卻在升高,RA-ILD患者病死率比RA高2~10倍[3]。因此早期發(fā)現(xiàn)RA患者是否合并ILD極其重要,目前一致認(rèn)為肺活檢是確診ILD的金標(biāo)準(zhǔn),但其屬于侵入性操作,患者的配合度低,在臨床開展比較困難,故探索RA-ILD患者的危險(xiǎn)因素,提高其早期診斷率,及時(shí)進(jìn)行干預(yù)勢(shì)在必行。本研究回顧性分析RA患者的臨床資料,應(yīng)用隨機(jī)森林算法和多因素Logistic回歸算法共同探索RA-ILD的影響因素,為RA-ILD的預(yù)防提供參考依據(jù)。
研究對(duì)象為2018年12月至2021年10月在該院風(fēng)濕免疫科確診為類風(fēng)濕關(guān)節(jié)炎的住院患者。納入標(biāo)準(zhǔn):年齡≥18歲;出院診斷以類風(fēng)濕關(guān)節(jié)炎為主要診斷;病歷資料完整;多次住院患者收集首次住院相關(guān)資料。排除標(biāo)準(zhǔn):合并有干燥綜合征、系統(tǒng)性紅斑狼瘡等其他結(jié)締組織病者;合并其他肺病者,如肺部感染、肺結(jié)核、慢性阻塞性肺部疾病、支氣管擴(kuò)張等;合并有惡性腫瘤者;有慢性心、肝、腎功能不全的患者;妊娠期或哺乳期婦女。經(jīng)His系統(tǒng)進(jìn)行篩選,最終收集到有效的RA患者病歷資料712份。在所有RA患者中,根據(jù)胸部CT結(jié)果以及臨床表現(xiàn),將其分為RA-N-ILD組和RA-ILD組,其中RA-ILD的患者189例,占比為26.54%。本研究已獲得山西醫(yī)科大學(xué)第二醫(yī)院倫理委員會(huì)批準(zhǔn):(2022)YX第(108)號(hào)。
共納入臨床指標(biāo)45項(xiàng),包括一般資料、實(shí)驗(yàn)室指標(biāo)以及既往用藥史(醋酸潑尼松、甲氨蝶呤、來(lái)氟米特)。一般資料包括年齡、性別、BMI、吸煙史、飲酒史、高血壓史、糖尿病史、病程、晨僵時(shí)間、腫脹關(guān)節(jié)數(shù)、疼痛關(guān)節(jié)數(shù)。實(shí)驗(yàn)室指標(biāo):血常規(guī)(白細(xì)胞、血小板、紅細(xì)胞、血紅蛋白、嗜酸性粒細(xì)胞)、血清球蛋白、血清總蛋白、血清白蛋白、乳酸脫氫酶、血清尿酸、血沉、C-反應(yīng)蛋白、免疫球蛋白(IgA、IgM、IgG)、類風(fēng)濕篩查(類風(fēng)濕因子、抗CCP抗體、抗角蛋白抗體、ANA、抗環(huán)瓜氨酸抗體、APF、抗RA33抗體、抗著絲點(diǎn)抗體、抗增殖細(xì)胞核抗原抗體)、細(xì)胞因子(IL-2、IL-4、IL-6、IL-10、IL-17、TNF-α、INF-γ)。
Boruta算法屬于隨機(jī)森林算法中的一種,其主要目的是篩選與因變量相關(guān)的重要的特征變量,并進(jìn)行排序。Boruta函數(shù)是通過(guò)循環(huán)的方式評(píng)價(jià)各變量的重要性,在每一輪迭代中,對(duì)原始變量和影子變量進(jìn)行重要性比較。如果原始變量的重要性顯著高于影子變量的重要性,則認(rèn)為該原始變量是重要的;如果原始變量的重要性明顯低于影子變量的重要性,則認(rèn)為該原始變量是不重要的[4]。具體步驟如下:首先,它通過(guò)創(chuàng)建混合數(shù)據(jù)的所有特征(即影子特征)為給定的數(shù)據(jù)集增加了隨機(jī)性;然后,它訓(xùn)練一個(gè)隨機(jī)森林分類的擴(kuò)展數(shù)據(jù)集,并采用一個(gè)特征重要性措施(默認(rèn)設(shè)定為平均減少精度),以評(píng)估每個(gè)特征的重要性;在每次迭代中,它檢查一個(gè)真實(shí)特征是否比最好的影子特征具有更高的重要性(即該特征是否比最大的影子特征得分更高),并且不斷刪除它視為非常不重要的特征;最后,當(dāng)所有特征得到確認(rèn)或拒絕,或算法達(dá)到隨機(jī)森林運(yùn)行的一個(gè)規(guī)定的限制時(shí),算法停止。在本研究中Boruta算法經(jīng)過(guò)99次迭代后達(dá)到隨機(jī)森林運(yùn)行的一個(gè)規(guī)定限制。
在712例RA患者中,其中RA-N-ILD患者為523例(73.46%),RA-ILD患者為189例(26.54%)。男性患者210例中,93例(44.30%)患者合并有ILD,女性RA患者502例中,96例(19.10%)合并有ILD,可見男性RA患者的ILD發(fā)病率遠(yuǎn)高于女性。在兩組患者的一般臨床資料比較中,單因素分析結(jié)果顯示,男性、年齡、吸煙史、飲酒史、疼痛關(guān)節(jié)數(shù)差異有統(tǒng)計(jì)學(xué)意義(均P<0.05),其余變量差異無(wú)統(tǒng)計(jì)學(xué)意義(均P>0.05,見表1)。
表1 兩組患者一般資料情況比較
經(jīng)過(guò)99次迭代后,Boruta算法的特征變量篩選結(jié)果見圖1。在本研究中,重要變量排序依次為年齡、性別、TNF-α、血清白蛋白、INF-γ、IL-17、吸煙史、IL-4、乳酸脫氫酶、IL-10以及IL-2。
其中綠色表示重要變量,紅色表示不重要變量,黃色為Tentisive變量(即暫定變量),藍(lán)色代表陰影屬性的最小、平均和最大Z值。EO:嗜酸性粒細(xì)胞;ESR:血沉;RF:類風(fēng)濕因子;AKA:抗角蛋白抗體;ANA:抗核抗體;抗CCP抗體:抗環(huán)瓜氨酸肽抗體;PCNA:抗增殖細(xì)胞核抗原抗體;APF:抗核周因子
將隨機(jī)森林算法所篩選出來(lái)的重要變量以及暫定變量作為解釋變量,是否合并間質(zhì)性肺疾病作為結(jié)局變量,方法為向后LR回歸,α入=0.05,α出=0.1,檢驗(yàn)水準(zhǔn)為α=0.05,進(jìn)行多因素回歸分析。雖納入模型的變量有8個(gè),但差異有統(tǒng)計(jì)學(xué)意義(P<0.05)的只有6個(gè)。結(jié)果顯示,男性RA患者的ILD風(fēng)險(xiǎn)是女性的2.735倍(OR=2.735,95%CI 1.869~4.002);年齡每增加1歲,RA患者的ILD患病風(fēng)險(xiǎn)會(huì)增加5.0%(OR=1.050,95%CI 1.031~1.069);TNF-α每增加1 pg/ml,患病風(fēng)險(xiǎn)會(huì)增加4.4%(OR=1.044,95%CI 1.014~1.075);IL-17每增加1 pg/ml,患病風(fēng)險(xiǎn)會(huì)增加1.4%(OR=1.014,95%CI 1.003~1.024,見表2);而血清白蛋白水平增高、INF-γ增高可能起到保護(hù)性作用。
表2 類風(fēng)濕關(guān)節(jié)炎并發(fā)間質(zhì)性肺疾病多因素Logistic回歸分析
隨機(jī)森林是Leo Breiman于2001年提出的一種智能化機(jī)器學(xué)習(xí)算法,具有高度并行化,不易發(fā)生過(guò)擬合且泛華能力強(qiáng)等優(yōu)勢(shì)[5]。而Boruta算法作為隨機(jī)森林算法的一種特征變量篩選的算法,與其他傳統(tǒng)算法相比,不僅可以考慮多個(gè)變量之間的關(guān)系,還能處理變量之間的相互作用。其目標(biāo)是篩選出所有與因變量具有相關(guān)特征的集合,意義在于可以幫助我們更全面理解與因變量相關(guān)的影響因素。研究指出,隨機(jī)森林在醫(yī)學(xué)數(shù)據(jù)分析中有很大的優(yōu)勢(shì),在基因、蛋白、藥物等領(lǐng)域都有廣泛的研究[6]。近幾年,在我國(guó)隨機(jī)森林模型已被廣泛用于腫瘤學(xué)[7]、內(nèi)分泌[8]、神經(jīng)病學(xué)[9]、泌尿科學(xué)[10]等眾多領(lǐng)域。而在風(fēng)濕領(lǐng)域,隨機(jī)森林算法的應(yīng)用較少,基于隨機(jī)森林算法的優(yōu)勢(shì),本研究應(yīng)用Boruta算法對(duì)變量進(jìn)行篩選,與Logistic回歸共同分析RA-ILD的影響因素。在712例RA患者中,合并有ILD疾病者189例,患病率為26.54%。
經(jīng)特征變量篩選后,對(duì)于變量重要性排序依次為年齡、性別、TNF-α、血清白蛋白、INF-γ、IL-17、吸煙史、IL-4、乳酸脫氫酶、IL-10以及IL-2。經(jīng)多因素Logistic回歸分析顯示男性、高齡、IL-17以及TNF-α升高為RA患者合并ILD的獨(dú)立危險(xiǎn)因素,而血清白蛋白和INF-γ升高為保護(hù)性因素。大量研究證實(shí),高齡、吸煙史、高滴度的RF、高滴度的抗CCP抗體與RA-ILD顯著相關(guān)[11,12]。經(jīng)特征篩選,年齡、吸煙史、性別為重要變量,且多因素回歸分析中,性別、年齡為獨(dú)立危險(xiǎn)因素,與既往研究一致。我們的研究結(jié)果發(fā)現(xiàn)乳酸脫氫酶與RA-ILD的發(fā)生無(wú)相關(guān)性,與He等[13]的研究一致,但在他們的回顧性研究中發(fā)現(xiàn)乳酸脫氫酶是干燥綜合征合并間質(zhì)性肺疾病的獨(dú)立危險(xiǎn)因素。血清白蛋白是一種負(fù)性急性期反應(yīng)蛋白,具有多重保護(hù)作用,能夠阻止內(nèi)皮細(xì)胞凋亡,對(duì)抗氧化,以及減少血小板凝集,從而發(fā)揮保護(hù)血管的作用[14]。研究表明,在特發(fā)性肺纖維化患者中,低蛋白血癥可能是炎性反應(yīng)和成纖維細(xì)胞活動(dòng)的標(biāo)志[15,16]。且在我們的研究中也發(fā)現(xiàn),血清白蛋白水平的增高是RA-ILD的保護(hù)性因素之一。在既往RA-ILD影響因素分析中,很少將細(xì)胞因子作為影響因素納入研究,我們的創(chuàng)新之處在于將細(xì)胞因子作為解釋變量進(jìn)行探索,特征變量篩選結(jié)果顯示,對(duì)于RA-ILD影響較大的細(xì)胞因子主要有TNF-α、INF-γ、IL-17、IL-4、IL-10,IL-2。經(jīng)多因素回歸分析,TNF-α、IL-17為RA-ILD的獨(dú)立危險(xiǎn)因素,而INF-γ為保護(hù)因素。但細(xì)胞因子參與RA患者并發(fā)ILD的具體發(fā)病過(guò)程以及發(fā)病機(jī)制并不明確,仍需進(jìn)一步探索研究。TNF-α是一種由激活的巨噬細(xì)胞、自然殺傷細(xì)胞和T淋巴細(xì)胞釋放的細(xì)胞因子。在Ancochea等[17]研究中發(fā)現(xiàn),與RA-N-ILD患者相比,RA-ILD患者TNF-α水平顯著增高,且肺泡巨噬細(xì)胞具有高反應(yīng)性。同時(shí),在Gosset等[18]研究中證實(shí)了TNF-α參與了RA-ILD的過(guò)程。我們的Logistic結(jié)果也證實(shí)了TNF-α是RA患者并發(fā)ILD的獨(dú)立危險(xiǎn)因素。IL-4是Th2型細(xì)胞的標(biāo)志性因子,主要是由Th2細(xì)胞分泌,但也可來(lái)源于嗜酸性粒細(xì)胞,肥大細(xì)胞以及嗜堿性粒細(xì)胞。楊春萍等[19]的研究表明,IL-4可能在肺纖維化發(fā)生發(fā)展中起重要促進(jìn)作用,且Shen等[20]發(fā)現(xiàn),相較于RA-N-ILD患者,RA-ILD患者血清IL-4水平較高,認(rèn)為其在RA患者并發(fā)ILD過(guò)程中發(fā)揮著重要作用。但在本研究中,經(jīng)多因素回歸分析后,并未發(fā)現(xiàn)IL-4與ILD的相關(guān)性。IL-17是一種重要的上游致炎癥細(xì)胞因子,其表達(dá)水平在RA患者和RA-ILD患者中有顯著差異,在Zhang等[21]研究中發(fā)現(xiàn),與正常的肺組織相比,ILD患者的IL-17表達(dá)水平顯著升高,且表明IL-17在ILD過(guò)程中起直接作用,我們也發(fā)現(xiàn)高水平的IL-17可能為RA并發(fā)ILD的危險(xiǎn)因素。然而,對(duì)于IL-10、INF-γ以及IL-2在RA患者并發(fā)ILD疾病中研究并未有相關(guān)報(bào)道,而本研究多因素Logistic回歸分析發(fā)現(xiàn)INF-γ水平升高是RA患者并發(fā)ILD的保護(hù)性因素,這需進(jìn)一步研究證實(shí)。
綜上,經(jīng)Boruta算法篩選出較為重要的影響因素依次為年齡、性別、TNF-α、血清白蛋白、INF-γ、IL-17、吸煙史、IL-4、乳酸脫氫酶、IL-10以及IL-2。多因素Logistic回歸結(jié)果顯示,男性、高齡、IL-17以及TNF-α水平升高為RA患者合并ILD的獨(dú)立危險(xiǎn)因素。雖然細(xì)胞因子在RA并發(fā)ILD中研究較少,具體機(jī)制并不明確,但通過(guò)本次研究,可以為臨床RA患者并發(fā)ILD的預(yù)防和早期干預(yù)提供參考依據(jù)。
本研究存在一定的局限性,主要包括以下幾個(gè)方面:①本研究是單中心樣本研究,不具有代表性;②雖有嚴(yán)格的納排標(biāo)準(zhǔn),但仍屬于回顧性調(diào)查,難以保證因果的時(shí)序性;③調(diào)查對(duì)象來(lái)源于住院患者,無(wú)法避免選擇性偏倚。因此擬進(jìn)行下一步的研究,包括:課題組將計(jì)劃嚴(yán)格按照納排標(biāo)準(zhǔn)收集至少3個(gè)三級(jí)甲等醫(yī)院的RA患者臨床資料進(jìn)行進(jìn)一步分析,建立RA患者的臨床數(shù)據(jù)庫(kù),當(dāng)符合納排標(biāo)準(zhǔn)時(shí),由專門的數(shù)據(jù)錄入員將患者信息實(shí)時(shí)錄入,保證臨床資料的真實(shí)性與完整性。為降低RA患者的ILD發(fā)病率以及致死率,課題組將基于RA患者臨床資料構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型,旨在盡早識(shí)別并發(fā)ILD的RA患者,把握疾病的發(fā)展動(dòng)態(tài)。
山西醫(yī)科大學(xué)學(xué)報(bào)2023年5期