白云靜 申洪波 姜德訓(xùn) 孟慶剛
(1北京軍區(qū)總醫(yī)院,北京市東城區(qū)東四南門倉 5號,100700;2北京大學(xué)第三醫(yī)院;3北京中醫(yī)藥大學(xué))
證候是一個多維多階多變量的復(fù)雜系統(tǒng),證候診斷信息具有典型的高維性特征,這給證候診斷的規(guī)范化研究帶來相當(dāng)?shù)碾y度,為此,我們開展了類風(fēng)濕關(guān)節(jié)炎(rehumatoid arthritis,簡稱 RA)證候因子優(yōu)化組合的研究,以期進(jìn)一步探討對證候診斷信息進(jìn)行降維處理的可行性方法。
采用望京醫(yī)院對全國 8個地區(qū)三級以上中醫(yī)院的住院患者所做的證候流行病學(xué)調(diào)查資料,共 765例。參考《中藥新藥臨床研究指導(dǎo)原則》[1]、文獻(xiàn)整理結(jié)果及專家經(jīng)驗,共觀察 183個癥狀、體征,每個癥狀按無、輕 、中、重分別記為 0、1、2、3分。并同時給出 10個基本證型的診斷。
2.1 初步篩選類風(fēng)濕關(guān)節(jié)炎的中醫(yī)四診信息 首先統(tǒng)計 765例患者共 183個癥狀和體征的出現(xiàn)頻率及癥狀得分情況,保留出現(xiàn)頻率≥5%的 86個癥狀,暫時保留癥狀出現(xiàn)頻率在 3%-5%的 14個癥狀和癥狀出現(xiàn)頻率雖然 <3%但根據(jù)專業(yè)知識判斷對 10個假設(shè)證型可能有診斷意義的 3個癥狀,舍棄其余 80個癥狀。然后將粗篩后暫時保留的 17個癥狀分別進(jìn)行單變量方差分析。結(jié)果顯示:其中 6個癥狀的 P值均 <0.05,提示對各證型的貢獻(xiàn)度有顯著性差異,應(yīng)予以保留。經(jīng)過第一步粗篩和第二步單變量統(tǒng)計分析進(jìn)行指標(biāo)的初步篩選后,183個指標(biāo)共保留 92個。
2.2 初選指標(biāo)的聚類分析——確定證類及證型的相關(guān)程度 將上述 92個指標(biāo)作為變量,進(jìn)行變量聚類分析,在聚為 10類時,合計能解釋的方差為 57.41304,占合計總方差的 62.41%,在此部位截取。其中第六類包含的癥狀主要為:胸悶、氣短、心慌,根據(jù)中醫(yī)理論與臨床經(jīng)驗,該類無明顯證候特征,可淘汰該類。其余 9類分別與臨床診斷的證型相對應(yīng),只是無其中的脾腎陽虛證,分析其原因,765例患者中脾腎陽虛證共有 10例,全部有兼加證存在,說明脾腎陽虛證與他證兼加情況較明顯,且病例數(shù)少,無法進(jìn)行分析,可剔除。根據(jù)聚類分析結(jié)果,最終確定 765例觀察病例的 92個指標(biāo)集中反映了寒濕阻絡(luò)證、肝腎不足證、痰瘀阻絡(luò)證、氣血兩虛證、濕熱阻絡(luò)證、瘀血阻絡(luò)證、寒熱錯雜證、陰虛內(nèi)熱證、熱毒蘊結(jié)證等 9個證型的診斷信息,故確定本資料的中醫(yī)證型為上述 9個。另外,系統(tǒng)聚類分析在給出證候分類的同時,還給出了典型的證候群,還可以根據(jù)各分類之間的類際相關(guān)值以及指標(biāo)聚類樹形圖粗略地判斷各分類(證型)之間的相關(guān)程度。
2.3 初選指標(biāo)的 Logistic回歸分析——優(yōu)化指標(biāo) 用Logistic回歸分析的逐步法、前進(jìn)法或后退法從 92個初選指標(biāo)中篩選 9個證型的診斷敏感性指標(biāo)。通過分析,將上述 9種證型的診斷優(yōu)化指標(biāo)由 92個降為 52個。(見表 1)
表1 logistic回歸分析篩選的優(yōu)化指標(biāo)
2.4 初選指標(biāo)的逐步判別分析——補充優(yōu)化指標(biāo)逐步判別分析要求病例的證型診斷沒有兼加證的存在。本組 765例病例中有 398例只有單證診斷,分別為:濕熱阻絡(luò)證 163例、寒濕阻絡(luò)證 96例、寒熱錯雜證9例、肝腎不足證 42例、氣血兩虛證 32例、陰虛內(nèi)熱證5例、瘀血阻絡(luò)證 12例、痰瘀阻絡(luò)證 27例、熱毒蘊結(jié)證12例。脾腎陽虛證 10例患者均有兼加證的存在,故舍棄該證型。對上述 398份病例初步篩選后的 92個指標(biāo) 9個證型作逐步判別分析以篩選變量。最終保留優(yōu)化指標(biāo) 46個。(見表 2)
表2 逐步判別分析篩選的指標(biāo)
2.5 匯總優(yōu)化指標(biāo) 將logistic回歸分析篩選的52個優(yōu)化指標(biāo)和逐步判別分析篩選的 46個優(yōu)化指標(biāo)合并,并參考聚類分析 9類證型所對應(yīng)的證候群,確定 RA9種證候診斷的優(yōu)化指標(biāo)共 64個。(結(jié)果略)。
2.6 優(yōu)化指標(biāo)的因子分析——確定主、次癥
2.6.1 用因子分析法進(jìn)一步篩選指標(biāo) 由 logistic回歸分析和逐步判別分析可得出各證型的優(yōu)化指標(biāo)共64個。首先對 64個指標(biāo)采用主成分分析法提取公因子,分析矩陣為協(xié)方差陣,用最大方差旋轉(zhuǎn)法對因子軸進(jìn)行旋轉(zhuǎn),對上述因子載荷陣中因子載荷小于 0.2的變量剔除,并重新按上述方法進(jìn)行分析,再剔除因子載荷小于 0.2的變量,如此循環(huán),直至變量的因子載荷均大于 0.2為止。經(jīng)過上述分析,最后納入因子分析的變量數(shù)為 58個。(結(jié)果略)
2.6.2 用因子分析法確定主、次癥 對最終確定的 58個指標(biāo)再次進(jìn)行因子分析,根據(jù)因子載荷陣的數(shù)值確定基本證型診斷的主、次癥。首先用主成分分析方法提取公因子。從累積貢獻(xiàn)率來看,取前 9個特征值時,累積貢獻(xiàn)率為 0.7929,根據(jù)最小特征值標(biāo)準(zhǔn)保留 9個公因子,這 9個公因子對 58項指標(biāo)的全部信息的累積貢獻(xiàn)率為:79.29%。
然后對 58個癥狀進(jìn)行因子分析,采用最大方差旋轉(zhuǎn)法,保留因子載荷大于 0.20的指標(biāo),對因子載荷小于 0.2的變量剔除。根據(jù)上述因子載荷陣的結(jié)果,取癥狀對證型貢獻(xiàn)度為前三位的為主癥,其余為次癥,列出 RA9種證型的證候因子優(yōu)化組合。(見表 3)。
表3 RA基本證型證候因子優(yōu)化組合
2.7 判別分析——檢驗證候因子優(yōu)化組合的診斷價值 判別分析只適用于單類判別的情況,為了檢驗優(yōu)化指標(biāo)的可靠性,我們從 765例樣本中篩選出 398例只有單證診斷的病例進(jìn)行判別分析。其中濕熱阻絡(luò)證163例,寒濕阻絡(luò)證 96例,寒熱錯雜證 9例,肝腎不足證 42例,氣血兩虛證 32例,陰虛內(nèi)熱證 5例,瘀血阻絡(luò)證 12例,痰瘀阻絡(luò)證 27例,熱毒蘊結(jié)證 12例。
判別分析結(jié)果顯示:用優(yōu)化出的 58個指標(biāo)建立的判別函數(shù)模型診斷準(zhǔn)確率為 86.18%。說明 RA的證候因子優(yōu)化組合對 9種基本證型的診斷非常有意義。從總的分類矩陣表中可見,第一組判對 139名占85.28%,判錯 24名占 14.72%;第二組判對 87名占90.63%,判錯 9名占 9.37%;第三組判對 7名占77.78%,判錯 2名占 22.22%;第四組判對 38名占90.48%,判錯 4名占 9.52%;第五組判對 23名占71.88%,判錯 9名占 28.12%;第六組判對 4名占80%,判錯 1名占 20%;第七組判對 10名占 83.33%,判錯 2名占 16.67%;第八組判對 23名占 85.19%,判錯 4名占 14.81%;第九組判對 12名占 100%??傮w上該模型共判對 343名占 86.18%,判錯 55名占13.82%。說明該模型的診斷準(zhǔn)確率為 86.18%。
我們首先對 765例類風(fēng)濕關(guān)節(jié)炎患者的臨床觀察指標(biāo)共 183個進(jìn)行初步篩選;然后再對初步篩選后的指標(biāo)進(jìn)行聚類分析;在聚類分析的基礎(chǔ)上進(jìn)行 logistic回歸分析優(yōu)化指標(biāo);同時對初步篩選后的指標(biāo)用逐步判別分析進(jìn)行篩選;將 logistic回歸分析和逐步判別分析篩選的指標(biāo)合理合并,且參考最初聚類分析指標(biāo)篩選的結(jié)果,確定證候診斷的優(yōu)化指標(biāo)群;在此基礎(chǔ)上進(jìn)行因子分析,最終確定了 RA證候的診斷指標(biāo)優(yōu)化組合。
經(jīng)過上述分析,得出如下結(jié)果:1)確立了RA的基本證型為濕熱阻絡(luò)證、肝腎不足證、寒濕阻絡(luò)證、瘀血阻絡(luò)證、氣血兩虛證、痰瘀阻絡(luò)證、陰虛內(nèi)熱證、熱毒蘊結(jié)證和寒熱錯雜證等 9個證型。2)確立了 RA的證候因子優(yōu)化組合(詳見表 3)。3)用上述證候因子優(yōu)化組合建立的證候線性判別函數(shù)模型具有很好的判別能力。
4.1 證候診斷指標(biāo)的降維研究 中醫(yī)證候具有高維性特征,在此,“維”有多方面的含義:包括證候診斷指標(biāo)的高維性、證候構(gòu)成要素的高維性、證候診斷方法的高維性、證候動態(tài)時相的高維性等等。我們僅探討對證候診斷指標(biāo)高維性的降維處理方法。
在適當(dāng)?shù)姆秶鷥?nèi),維度越小,越容易掌握,使用者的可操作性也就越大。但是,中醫(yī)證候的四診信息繁多而冗余,這給證候的診斷帶來相當(dāng)?shù)碾y度,尤其不利于對證候診斷的規(guī)范化研究。因此,在保持證候特色的前提下,對證候診斷資料的高維性進(jìn)行降維處理,就成為證候規(guī)范化研究的當(dāng)務(wù)之急。
聚類分析、主成分分析、因子分析、回歸分析、典型相關(guān)分析、多維尺度分析等多元統(tǒng)計方法是常見的降維方法。本研究我們選擇聚類分析、因子分析、回歸分析等方法對 RA的證候表征信息進(jìn)行降維處理,通過多種統(tǒng)計方法的聯(lián)合應(yīng)用,最終建立了 RA的證候因子優(yōu)化組合。
4.2 初步篩選指標(biāo)的必要性 首先,我們對資料所包含的全部 183個中醫(yī)四診信息進(jìn)行了初步篩選。多元統(tǒng)計分析都是建立在大樣本基礎(chǔ)上的,一般在用 DME方法取得大樣本資料后,都要先進(jìn)行自變量(觀察指標(biāo))的初篩,這是因為聚類分析、因子分析等沒有篩選變量的過程,有多少變量進(jìn)入分析,就有多少變量最終進(jìn)入模型,這樣不僅使分析過程繁瑣復(fù)雜、因子模型過于冗長,而且還夾雜了許多不必要的混雜因素,影響了模型的敏感性;另外,主成分分析、因子分析等是基于奇異值分解原理的多元統(tǒng)計分析方法,在分析時如果變量過多,可能會導(dǎo)致原始資料收斂性不良,表現(xiàn)為入選主因子較多,累積貢獻(xiàn)率卻偏低。因此,在進(jìn)行多元分析之前,我們先用頻率篩選法和單變量統(tǒng)計分析對指標(biāo)進(jìn)行初步篩選,最終保留 92個指標(biāo)進(jìn)入多元統(tǒng)計分析。
4.3 多種統(tǒng)計方法聯(lián)合應(yīng)用的意義 本試驗雖然在聚類分析中沒有得到脾腎陽虛證的類別,但臨床并不能否認(rèn) RA脾腎陽虛證的存在,我們觀察的 765例患者中有 10例脾腎陽虛證患者,但因為他們都有兼加證的存在,所以聚類分析對此無能為力。這暴露了聚類分析的局限性,聚類分析只能“硬性”分裂變量,使變量的歸屬非此即彼,一個癥狀僅能隸屬于一個證型,這不符合中醫(yī)的證候?qū)W特征。也就是說,聚類分析無法處理證候、癥狀的多重共線性問題。因此,聚類分析的結(jié)果也就大打折扣,尤其是由聚類分析得到的各證型的相應(yīng)證候群并不能直接作為證候的優(yōu)化指標(biāo),僅能作為篩選優(yōu)化指標(biāo)的參考。
針對上述各種統(tǒng)計方法的優(yōu)缺點,我們選擇了將上述方法有機(jī)結(jié)合的方式進(jìn)行研究。在聚類分析的基礎(chǔ)上,我們對 92個指標(biāo)的 765份病例進(jìn)行了 Logistic回歸分析。用回歸分析進(jìn)行變量篩選的方法很多,但最常用的是逐步分析法,因此,我們選擇逐步法進(jìn)行變量的篩選,遇到病例數(shù)較少,篩選結(jié)果不理想時,我們再用前進(jìn)法和后退法進(jìn)行補充,以便于篩選出更有意義的指標(biāo)。Logistic回歸分析應(yīng)有病例組與正常組的對照,在沒有正常對照資料的情況下,我們根據(jù)聚類分析的類際相關(guān)值及聚類樹形圖的結(jié)果,選擇與所分析證型距離較遠(yuǎn)(相關(guān)程度較小)證型的相應(yīng)病例作為對照,從而保證了分析結(jié)果的可靠性。
4.4 降維效果的檢驗 用多元統(tǒng)計方法進(jìn)行類風(fēng)濕關(guān)節(jié)炎證候診斷指標(biāo)的降維處理后,降維后的效果如何還需要進(jìn)行必要的驗證。理論上我們可以用 Logistic回歸分析方程、因子得分模型估計的因子得分值等進(jìn)行驗證,但由于進(jìn)入模型的指標(biāo)太多,上述方程式過于繁瑣,因此,進(jìn)行驗證的工作量非常大。我們僅對具有單證診斷的 398份病例進(jìn)行了 58個優(yōu)化指標(biāo) 9個證型的判別分析驗證。結(jié)果顯示:總體上該模型共判對 343名占 86.18%,判錯 55名占 13.82%,診斷準(zhǔn)確率為 86.18%。說明有上述 58個指標(biāo)對 9個證型的判別函數(shù)具有很好的判別能力,我們篩選的證候因子優(yōu)化組合有很高的診斷價值。
但是,用判別分析進(jìn)行檢驗屬于原始判別,即原始分類和信息同時進(jìn)入模型,以原始分類與判別結(jié)果比對,看錯判多少例。這種判別因為事先輸入了原始分類,所以結(jié)果并不十分可信。另一方面,由于判別分析所建立的判別函數(shù)是線性模型,而證候是非線性復(fù)雜系統(tǒng),四診信息是證候的各層級結(jié)構(gòu)逐級涌現(xiàn)的結(jié)果,證候與癥狀之間的關(guān)系是非線性的,顯然,這也說明判別分析結(jié)果的可靠性值得商榷。