常琴雪 王肖萌 王 淳 王柯云 劉媛媛 李長平 孫繼佳 崔 壯△ 馬 駿
【提 要】 目的 研究上海地區(qū)老年人健康體檢數(shù)據(jù),分析與老年人脂肪肝患病相關的因素以及多個因素間潛在的交互作用。方法 選取2017年上海某社區(qū)60歲及以上老年人體檢的臨床健康數(shù)據(jù)作為研究對象,脂肪肝影響因素的篩選先采用LASSO回歸進行降維和消除變量之間的多重共線性,再采用逐步回歸法構建logistic回歸模型。關聯(lián)規(guī)則建模并提取與脂肪肝患病相關的規(guī)則。結果 在所有6252例研究對象中,病例組3345例,該社區(qū)老年人脂肪肝患病率為53.50%,為高患病率。性別、BMI、高脂血癥、白蛋白、谷丙轉氨酶、谷草轉氨酶、平均紅細胞體積、紅細胞壓積、尿素、平均血紅蛋白含量、血小板、單核細胞數(shù)、血小板容積、肌酐、總膽固醇、葡萄糖含量、低密度脂蛋白、甘油三酯、尿酸為老年人患脂肪肝的獨立影響因素。關聯(lián)規(guī)則提示性別、BMI、高血壓、低密度脂蛋白等變量關聯(lián)在一起時,一定程度上增加脂肪肝發(fā)生的風險。結論 分析與脂肪肝患病相關的因素以及多個因素間潛在的交互作用,能夠為脂肪肝的早期預防與控制提供信息參考,從而更好地預防脂肪肝的發(fā)生。
脂肪肝(fatty liver,F(xiàn)L)是指由于各種原因導致的肝細胞中脂肪過度堆積的病變,它是一種常見的肝臟病理變化,而不是一種獨立的疾病[1]。脂肪肝是多種癥狀群的集合,它與性別、年齡、相關生理生化指標以及影像學癥候間必然存在或多或少的聯(lián)系,僅僅通過一個或兩個指標去解釋脂肪肝的發(fā)生與發(fā)展機制是不現(xiàn)實的。這是因為當人體某器官發(fā)生病變時,單一的生理指標常常不足以反映人體健康狀況,從而無法解釋病情[2]。體檢數(shù)據(jù)作為醫(yī)學信息的重要部分,需利用機器學習方法進行相關的挖掘分析。通過對健康體檢數(shù)據(jù)的挖掘,脂肪肝相關因素之間可能存在諸多交互效應。所謂交互效應,指的是當某自變量對因變量的作用效應的大小與另一個自變量的取值有關時,則表示兩個變量具有交互作用[3]。
本研究基于經(jīng)典機器學習方法,利用回歸算法篩選出脂肪肝相關因素,用關聯(lián)規(guī)則Aprior算法建模并提取強關聯(lián)條,分析與脂肪肝患病相關的因素以及多個因素間潛在的交互作用,為脂肪肝的早期預防與控制提供信息參考,從而更好地預防脂肪肝的發(fā)生。
1.數(shù)據(jù)來源
主要采用2017年上海某社區(qū)的60歲及以上老年人體檢的臨床健康數(shù)據(jù),對6664例原始數(shù)據(jù)進行建模和分析。收集性別、年齡、體重指數(shù)(BMI)、相關生化指標與病史情況共48項內容作為自變量預測出現(xiàn)脂肪肝的概率,生化指標包括白蛋白、血紅蛋白、白細胞、紅細胞、平均紅細胞體積、紅細胞壓積、平均血紅蛋白含量、平均血紅蛋白濃度、紅細胞分布寬度、紅細胞分布寬度變異系數(shù)、血小板、血小板分布寬度、血小板容積、大型血小板比率、平均血小板體積、谷丙轉氨酶、谷草轉氨酶、總膽固醇、總膽紅素、肌酐、高密度脂蛋白、低密度脂蛋白、甲胎蛋白、癌胚抗原測試、甘油三酯、尿素、尿酸、葡萄糖、嗜堿性粒細胞數(shù)、嗜堿性細胞比率、嗜酸性粒細胞數(shù)、嗜酸性粒細胞比率、淋巴細胞數(shù)、淋巴細胞比率、單核細胞數(shù)、單核細胞比率、中性細胞數(shù)、中性細胞比率,病史情況包括高血壓、糖尿病、心臟病、腦梗、慢阻肺、骨質疏松、高血脂。
2.數(shù)據(jù)處理
由于體檢數(shù)據(jù)具有不完整性、多樣性以及存在缺失值等特點,在進行數(shù)據(jù)挖掘分析前,需要對體檢數(shù)據(jù)進行相應的預處理措施,如對缺失數(shù)據(jù)進行多重插補。通過數(shù)據(jù)預處理最終獲得6252例原始數(shù)據(jù),即為本文最終的研究數(shù)據(jù)。病史情況中將“患病”與“正?!狈謩e賦值1和0。關聯(lián)規(guī)則使用定性變量分類,因此,需要對定量數(shù)據(jù)進行離散化處理。將BMI按照小于18.5(體重偏瘦),介于18.5和24(體重正常),介于24和28(體重超重)和大于28(體重肥胖)劃分為四個等級,其他相關生化指標依照公認的醫(yī)學參考值范圍劃分為“異?!焙汀罢!?,分別賦值為1和0,再進行關聯(lián)規(guī)則建模。
3.統(tǒng)計學方法
1.脂肪肝患病情況的單因素分析
在所有6252例研究對象中,患脂肪肝3345例,患病率為53.5%。其中男性和女性的患病率分別為51.24%和55.38%,差異有統(tǒng)計學意義(P<0.001)。兩組在年齡、BMI和白蛋白、白細胞、谷丙轉氨酶、谷草轉氨酶等28項生化指標數(shù)值比較差異具有統(tǒng)計學意義(P<0.05),見表1。病例組和對照組在高血壓、糖尿病、慢阻肺和高脂血癥等病史情況比較差異具有統(tǒng)計學意義(P<0.05),見表2。
表1 病例組與對照組的相關生化指標參數(shù)比較
2.脂肪肝患病情況的LASSO回歸分析
以脂肪肝患病結局為因變量,將性別、年齡、BMI和白蛋白、白細胞、谷丙轉氨酶、谷草轉氨酶等28項生化指標和高血壓、糖尿病等4項病史情況,共35項單因素差異具有統(tǒng)計學意義的變量納入LASSO回歸模型中,篩選與脂肪肝患病相關的變量。在Cp統(tǒng)計量(Mallows Cp統(tǒng)計量)取最小時,LASSO回歸篩掉紅細胞、中性細胞比率、血紅蛋白、淋巴細胞比率和中性細胞數(shù)這5項生化指標,既消除了自變量間的多重共線性并起到了降維的作用。
3.脂肪肝患病情況的多因素logistic回歸分析
將經(jīng)LASSO回歸篩選后的30項變量納入到logistic回歸分析中,逐步回歸的結果顯示:性別、BMI、白蛋白、谷丙轉氨酶、谷草轉氨酶、平均紅細胞體積、紅細胞壓積、尿素、平均血紅蛋白含量、葡萄糖含量、血小板、總膽固醇、單核細胞數(shù)、血小板容積、肌酐、低密度脂蛋白、甘油三酯、尿酸、高脂血癥為老年人患脂肪肝的獨立影響因素(P<0.05),見表3。
表3 老年人脂肪肝患病情況的多因素logistic回歸分析
4.關聯(lián)規(guī)則
在判斷關聯(lián)規(guī)則的可靠性時,有研究發(fā)現(xiàn):當最小支持度已確定時,最小置信度>80%,提升度>1的關聯(lián)規(guī)則結果較為可靠[4]。因此,本研究中首先將最小置信度設立為80%,以脂肪肝患病情況為后項,最小支持度逐漸降低,觀察并篩選得出的關聯(lián)規(guī)則結果。當最小支持度為2%時,挖掘出的信息較多且挖掘時間較短。最終,設立最小置信度為80%,最小支持度為2%,提升度>1作為篩選強關聯(lián)規(guī)則的標準。去除冗余規(guī)則后生成的與脂肪肝有關的強關聯(lián)規(guī)則見表4。
表4 脂肪肝相關因素的強關聯(lián)規(guī)則
總體而言,該社區(qū)60歲及以上老年人體檢數(shù)據(jù)脂肪肝相關因素以脂肪肝患病為后項的關聯(lián)規(guī)則顯示,脂肪肝的發(fā)生與性別、BMI、高血壓患病相關,與低密度脂蛋白、總膽固醇、甘油三酯、谷丙轉氨酶、葡萄糖含量、肌酐等生化指標的含量也密切相關。以關聯(lián)規(guī)則1為例說明該強關聯(lián)條的意義:在全部研究對象中,體重肥胖、低密度脂蛋白含量異常、患脂肪肝的人占全部對象的2.93%,患脂肪肝在已知體重肥胖、低密度脂蛋白含量異常的人群中的條件概率為86.32%。提示體重肥胖、低密度脂蛋白含量異常的老年人通?;加兄靖?。另外,在規(guī)則6的基礎上添加了一個前項變量,就得到規(guī)則2、3、4、7。規(guī)則6提示體重超重、甘油三脂含量異常的老年人通?;贾靖?,規(guī)則2、3、4、7在這基礎上分別強調了總膽固醇、性別、高血壓和葡萄糖含量的影響。通過觀測指標和疾病發(fā)生的關聯(lián)強弱,可以把某些體檢項目作為推斷某疾病是否發(fā)生的指標,對疾病的防治有重要的意義。關聯(lián)位點結構見圖1。
圖1 關聯(lián)位點結構
通過對體檢數(shù)據(jù)的研究分析,本研究發(fā)現(xiàn)性別、BMI、高脂血癥及谷丙轉氨酶、總膽固醇、葡萄糖含量、低密度脂蛋白、甘油三酯、尿酸等多項生化指標為老年人患脂肪肝的獨立影響因素,這與周云慶、何陳等人的研究結果一致。在本文中,女性患病率略高于男性,與以往研究中男性患病率高于女性的結論不同[5],這可能是因為研究地區(qū)存在差異。此外,有研究發(fā)現(xiàn)調整了年齡和性別后,血脂異常(特別是高脂血癥)和體重肥胖是脂肪肝患病的重要危險因素[6]。這也與臨床情況相符合:大部分肥胖病人患有高脂血癥[7],當人體內的血脂過高時,甘油三酯在肝臟附近堆積就很有可能會使肝臟慢慢的變成脂肪肝情況。我們的研究還發(fā)現(xiàn)了白蛋白、肌酐、單核細胞數(shù)等其他指標和脂肪肝密切相關。國外研究發(fā)現(xiàn),脂肪肝患者的尿白蛋白與肌酐的比值顯著高于健康人[8]。來自單核細胞的巨噬細胞是脂肪肝的驅動因素,研究表明肝臟的巨噬細胞數(shù)量與脂肪肝嚴重程度之間呈正相關關系[9]。
本研究關聯(lián)規(guī)則的提升度在1.5左右,說明前后項具有較強的關聯(lián)性。規(guī)則提示性別、BMI、高血壓、低密度脂蛋白、總膽固醇、甘油三酯、谷丙轉氨酶、葡萄糖含量、肌酐等變量關聯(lián)在一起時,一定程度上增加脂肪肝發(fā)生的風險,補充了logistic回歸的結果。提示在今后的脂肪肝預防中,當聯(lián)合出現(xiàn)上述多種情況異常時應提高警惕。此外,甘油三酯、葡萄糖含量可作為脂肪肝較敏感的生化指標。但是本研究中得出的結果并不能提示因果關聯(lián),只在一定程度上提示是多因素間的交互作用的結果,并且疾病之間的關系強弱也需要進一步的研究。
本文在變量選擇方面只采用了老年人體檢數(shù)據(jù)中的生化指標數(shù)據(jù)和一些病史情況,刪去許多與脂肪肝發(fā)生相關的因素,如B超檢查、放射結果等,使得規(guī)則并不是十分全面與精確。在數(shù)據(jù)方面,BMI變量存在一定比例的缺失,但經(jīng)過BMI缺失組和未缺失組的其他變量比較,我們認為BMI的缺失為隨機缺失,對結論無影響,經(jīng)多重插補后的研究結果具有可信性。此外,關聯(lián)規(guī)則在實際應用中并沒有明確的評價標準,常常是研究者根據(jù)研究背景以及關聯(lián)規(guī)則的數(shù)量選擇可能感興趣的強關聯(lián)條,具有一定的主觀性。但關聯(lián)規(guī)則結果能夠形象直觀地反映候選變量之間的關系,在結果的臨床解釋上也有較高的專業(yè)性。
隨著信息化技術的飛速發(fā)展,醫(yī)學數(shù)據(jù)越來越呈現(xiàn)海量、復雜多變的特點,需要更具效率和效能的方法來分析。在本文中,基于數(shù)據(jù)存在較多的變量,LASSO回歸進行了降維并消除了變量間的多重共線性,有利于logistic回歸模型構建。logistic回歸分析了某變量是否為疾病的獨立影響因素,而關聯(lián)規(guī)則分析了變量間的聯(lián)合與交互,補充了logistic回歸提供不了的信息,更加豐富、全面、綜合地分析了老年人脂肪肝發(fā)病的影響因素。關聯(lián)規(guī)則的特點就是能夠發(fā)現(xiàn)大量復雜數(shù)據(jù)之間的關聯(lián)或者相關聯(lián)系,在此基礎上,不僅能挖掘出各個變量之間的相關關系,還能挖掘出多個變量組合之間的相關關系,直接提示變量間的交互作用。因此,在醫(yī)學領域關聯(lián)規(guī)則大有作為:從多維多元的醫(yī)療信息中揭示疾病發(fā)生與發(fā)展的規(guī)律,研究疾病機制,評價臨床診斷、藥物治療的效果以及為疾病早期預防與控制提供科學、準確的信息參考。在近三十年的研究和發(fā)展中,前人基于Apriori算法研究出了許多改進算法和多種擴展關聯(lián)規(guī)則,使得關聯(lián)規(guī)則算法已成為最成熟的數(shù)據(jù)挖掘方法之一,在醫(yī)學數(shù)據(jù)分析中具有廣闊的應用前景。