夏淑潔 ,蔡 晶 ,雷黃偉 ,詹 杰 ,周智慧 ,李燦東
(1.福建中醫(yī)藥大學中醫(yī)證研究基地,福州 350122;2.福建省中醫(yī)健康狀態(tài)辨識重點實驗室,福州 350122;3福建中醫(yī)藥大學中西醫(yī)結合學院,福州 350122)
中醫(yī)診斷的核心是辨證論治。證是疾病發(fā)生發(fā)展過程中某階段內(nèi)外環(huán)境綜合的本質(zhì)反映,它可通過相應的癥狀、體征等表現(xiàn)出來,并不同程度地揭示病因、病位、病性、病勢等內(nèi)容,此即“有諸于內(nèi),并形諸外”,故說證候為促進中醫(yī)藥現(xiàn)代化的關鍵問題之一。而隨著西醫(yī)學研究的不斷深入,研究者們發(fā)現(xiàn)人體是一個復雜的巨系統(tǒng),證候具有非線性、多維性、復雜性的特點。傳統(tǒng)憑個人經(jīng)驗的辨證方法往往帶有一定的主觀性和不確定性,這也限制著中醫(yī)的進一步傳承與發(fā)展。多元統(tǒng)計方法是針對多個因素對結果的單獨及聯(lián)合作用的一種數(shù)理統(tǒng)計方法,可定量并綜合分析事物間復雜關系,因此符合中醫(yī)診斷的研究特點。本文現(xiàn)對常見的多元統(tǒng)計分析方法及其在中醫(yī)診斷研究中的應用做進一步剖析。
logistic回歸屬于概率型的非線性回歸,是研究二分類(可擴展到多分類)觀察結果與影響因素之間關系的一種多變量分析方法[1]。流行病學研究中,主要用來分析疾病與各危險因素之間的關系,如胃癌的發(fā)生與吸煙、飲食、不良習慣等的關系。logistic回歸中自變量既可以是連續(xù)的,也可以是分類的,通過分析可得到自變量的權重,從而得出事件發(fā)生的可能危險因素。此外,還可用于發(fā)生某病或某種情況的概率預測。logistic回歸按因變量的取值可分為二分類與多分類兩種;按研究設計類型可分為非條件和條件logistic回歸分析兩種,前者適用于隊列研究和成組病例對照研究的資料分析,后者則用于配比設計的病例對照研究的資料分析[2-3]。
因中醫(yī)數(shù)據(jù)具有高度非線性的特點,該方法多用于證的分類識別過程中醫(yī)主次癥狀的研究,也常與其他數(shù)理統(tǒng)計學方法合用,以確定中醫(yī)辨證分型。王偉杰等[4]在前瞻性、多中心的橫斷面觀察性研究方法基礎上,運用logistic回歸分析類風濕關節(jié)炎癥狀、舌脈與常見中醫(yī)證候之間的關系,得到了本病6個常見證候中與診斷相關的主要癥狀表現(xiàn),為臨床辨證提供了客觀依據(jù)。趙娜等[5]對413例亞健康失眠患者進行多元logistic回歸及判別分析,其中,logistic回歸提取陰虛火旺型特征癥狀10個,并建立中醫(yī)證型預測模型,且預測模型的一致率為81.84%;入選判別函數(shù)的特征癥狀12個,回代法計算的判別一致率為81.1%,發(fā)現(xiàn)利用logistic回歸和判別分析歸納本證具有較高的吻合性。李毅等[6]對活動期潰瘍性結腸炎中醫(yī)癥狀組合規(guī)律進行研究,首先通過聚類分析得出大腸濕熱證、寒滯腸胃證、肝郁脾虛證3類證候是潰瘍性結腸炎活動期基本證候,然后用logistic回歸分析3類證型的主癥與次癥特點,進而為該病的中醫(yī)辨證標準化研究提供了一種新的方法。
logistic回歸是一種多元分析的曲線模型,特別適用于自變量不能滿足正態(tài)分布、應變量為多項分類的資料[7]。證是由一組對證影響程度各異的癥狀構成,將某證的有無作為應變量Y,以該證中出現(xiàn)的全部癥狀作為變量X,以此建立證的多元logistic回歸模型。這些癥狀中有主要癥狀與次要癥狀,而通過logistic回歸分析這些變量對證的不同“貢獻率”,可進一步挖掘中醫(yī)證候分布規(guī)律,同時也可與其他數(shù)理統(tǒng)計學方法合用,以促進中醫(yī)辨證規(guī)范量化。
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,即“物以類聚”。其思路是挖掘能客觀反映事物之間關系或事物性質(zhì)相似程度的統(tǒng)計量,并通過統(tǒng)計量和分類準則將事物進行分類,目的是使組內(nèi)對象相互之間是相似的(相關的),而不同組之間的對象是不同的(不相關的);組內(nèi)的相似性越大,組間差別越大,聚類效果越好[8]。根據(jù)聚類分析目的可分為兩大類:一是Q型聚類(又稱樣本聚類),是將多個樣品歸類,其目的是找出樣品間的共性;二是R型聚類(又稱指標聚類),是將多個指標歸類,通過降維而選擇有代表性的指標[1]。聚類分析屬于探索性的統(tǒng)計方法,它不需要“先驗”知識,依靠數(shù)理統(tǒng)計方法對數(shù)據(jù)資料進行適當歸類,故屬于非監(jiān)督分類方法。因其實用性而受到醫(yī)學科研工作者的青睞,但結果解釋需密切結合專業(yè)知識,同時應嘗試多種聚類方法,才能獲得較理想的結論。
聚類分析在中醫(yī)證候規(guī)范化研究中應用較廣,多根據(jù)個體癥狀差異分析每一個類別個體的共同特征,最后結合專業(yè)知識將其歸屬為某一類別;也可通過指標聚類對癥狀等指標進行歸類[9]。李志遠等[10]運用聚類分析方法并結合專業(yè)知識將強直性脊柱炎患者進行分型,最終聚為4型,并確立證型名稱分別是寒濕痹阻證、濕熱痹阻證、痰瘀痹阻證及肝腎虧虛證。李毅等[11]應用系統(tǒng)聚類方法對232例潰瘍性結腸炎患者的病癥進行分析研究,得出潰瘍性結腸炎基本中醫(yī)證候有7類。徐全壹等[12]在收集734例腎虛證患者的35個典型癥狀資料基礎上,通過聚類分析構建出腎虛證癥狀的主要結構系統(tǒng),但發(fā)現(xiàn)可能會丟失很多重要的特性。劉晶等[13]探索代謝綜合征伴頸動脈粥樣硬化的中醫(yī)證候要素組合特點,首先對中醫(yī)四診信息運用因子分析方法,得到24個公因子,并將其作為變量納入聚類分析,進而確定該病的常見證候類型。
中醫(yī)辨證施治的過程中,通過望、聞、問、切所收集到的信息很大,臨床診斷時會出現(xiàn)難以取舍的情況。此外,不同的醫(yī)家對同一病種的辨證分型亦不相同。而聚類分析優(yōu)點是在證候研究時不需要預先給出證候診斷,避免了人為主觀性,而是對客觀的四診信息按相似程度大小進行歸類,達到降維的目的。故為了明確各證候的分類情況,可以通過聚類分析對大規(guī)模流行病學調(diào)查所收集到的癥狀屬性進行歸納和分類,然后參考相關標準、專業(yè)知識等進行證型判定。
判別分析是根據(jù)判別對象若干個指標的觀測結果判定其屬于哪一類的數(shù)理統(tǒng)計學方法[1]?;驹硎前凑找欢ǖ呐袆e準則,建立判別函數(shù),確定參數(shù)指標,通過判別函數(shù)對訓練樣本不斷建立學習規(guī)則,并計算判別指標,據(jù)此確定該樣本屬于何類,在此過程中,還可估計各項指標對判斷的作用大小。依據(jù)判別的函數(shù)形式,可分為線性和非線性判別;根據(jù)判別中的組數(shù),可以分為兩組判別分析和多組判別分析;依據(jù)判別式處理變量的不同方法,可分為序貫判別和逐步判別等;依據(jù)判別的標準不同,可分為Bayes判別法、Fisher判別等[14]。因判別分析中所用的樣本資料視為總體的估計,所以要求樣本量要足夠大,并有較好的代表性。
醫(yī)學領域的診斷推理過程常可用數(shù)學方法來精確描述,判別分析可根據(jù)患者的主訴、體征及檢查結果來進行臨床輔助鑒別診斷。曾聃等[15]為研究肝病患者中醫(yī)證型與檢查指標的相關性,從肝病患者的127個檢驗指標進行分析,篩選出13個指標,建立判別函數(shù),分別進行回顧性預測和前瞻性預測,其判別正確率分別為84.38%、74.31%。魏嵋等[16]運用逐步判別分析法探索慢性乙肝中醫(yī)證候的微觀辨證體系,篩選出丙氨酸氨基轉(zhuǎn)移酶(ALT)、總膽紅素(TBIL)、內(nèi)皮素(ET)、腫瘤壞死因子-α(TNF-α)、白細胞介素(IL)-6 5項判別權重大的指標,并建立數(shù)學判別模型,其判斷正確率為84.6%,從而為慢性乙型肝炎的中醫(yī)辨證提供了客觀依據(jù)。張穎等[17]以慢性再生障礙性貧血(CAA)患者常見的12種癥狀為基礎,運用Bayes判別分析方法建立CAA3種腎虛證辨證分型的判別方程,并采用自身驗證回代法進行檢驗,結果顯示總體正確率為88.17%。章浩偉等[18]將多囊卵巢綜合征(PCOS)患者根據(jù)臨床辨證分為腎虛證組、腎虛痰阻證組及腎虛肝郁證組3組,在運用logistic回歸法將腎虛證分離出來的基礎上,再用Fisher判別分析法對剩余的兼夾證進行第2次分類,結果顯示Fisher判別分析法對PCOS兼夾證分型的正確率可達87.8%,故認為Fisher判別分析法可作為一種研究PCOS中醫(yī)證候分布規(guī)律的復雜工具。
判別分析通過對疾病現(xiàn)有的中醫(yī)證型進行分析,建立研究疾病相關的判別函數(shù),再將獲得的判別函數(shù)代回樣本中進行驗證,其目的是對樣本資料進行學習,得到判斷類別的規(guī)則,再進行多方面的考核。但由于該分析方式本身就是建立在以往辨證分型的基礎上,不可避免存在一些主觀性、驗證性的成分,故通過建立函數(shù)的方法所得到的結果常不直接作為客觀化標準。
主成分分析也稱主分量分析,是指從多個數(shù)值變量之間的相互關系入手,運用降維的思想,將多個變量化成少數(shù)幾個互不相關的綜合變量的統(tǒng)計方法[19]。如諸多主成分組成中,某成分在總方差中占的比重最大,說明它綜合原有變量的能力最強,其余主成分在總方差中占的比重依次遞減,說明越往后的主成分綜合原信息的能力越弱。通??梢杂们懊鎺讉€方差最大的主成分來進行,一般情況下,要求前幾個成分所包含的信息不少于原始信息的85%。它既能保留原始指標的主要信息,且又互不相關,從而達到簡化系統(tǒng)結構,抓住問題實質(zhì)的目的。而因子分析,是從研究原始變量相關矩陣內(nèi)部的依賴關系出發(fā),找到支配這種關系的有限個不可觀測的潛在變量,即公共因子,并用這些公共因子來解釋原始指標之間的相關性或協(xié)方差關系的統(tǒng)計方法[1]。主成分分析與因子分析區(qū)別在于,前者是原始變量的線性組合,分析重點在綜合原始變量的信息,而后者是原始變量,是公因子和特殊因子的線性組合,分析側(cè)重點在于解釋各變量之間的關系。
主成分分析與因子分析在中醫(yī)證候規(guī)律的研究中主要體現(xiàn)為前者主要是將多個癥狀降維,綜合分析其證候分類,而后者從多維繁雜的證候中分析出各種疾病的共同證候以及每種證候的共同表現(xiàn)。張世君等[20]對正常高值血壓的常見癥狀進行因子分析和聚類分析,從36個常見癥狀中提取8個公因子,涉及病性為陽亢、陰虛、痰濕,病位為肝、脾、腎。劉瑜等[21]基于主成分分析和因子分析的方法探索功能性腹脹病中醫(yī)證候特征,先用主成分分析法提取11個具有相對獨立性且特征值均在1.0以上的主成分,再通過因子旋轉(zhuǎn)法提取11個因子組合,并結合中醫(yī)理論分析得出功能性腹脹證候分布規(guī)律。李毅等[6]應用因子分析的方法,得出潰瘍性結腸炎證候特征為活動期大腸濕熱證、寒濕內(nèi)盛證和肝郁脾虛證,緩解期脾胃虛弱證、脾腎陽虛證、肝郁脾虛證、陰虛腸燥證、血瘀腸絡證,并運用多元logistic回歸分析,得出潰瘍性結腸炎證候的癥狀量化指標,從而為該病的證候診斷標準研究提供了一種新的方法。
因中醫(yī)證候間接隱藏在四診信息背后,一般不可能直接觀測到,而通過四診信息來進行綜合分析,進而辨證,這與因子分析有類似之處,故借鑒因子多元統(tǒng)計分析方法探尋四診信息背后支配他們的公因子(證候)已被廣泛應用于中醫(yī)證的研究。
典型相關分析是研究兩組變量整體之間相關關系的多元分析方法[22]。其借助主成分分析的思想,對兩組變量分別尋找線性組合,進而使新變量來代表原始變量中最大部分信息,這兩組變量生成新的兩個綜合變量之間的相關程度最大,這種新的變量就是一組典型相關分析??梢姡瑢山M變量轉(zhuǎn)化為少數(shù)典型變量之間相關性的研究,它更能夠從整體上分析問題的本質(zhì)[23]。其較以往的簡單回歸優(yōu)勢在于不必依賴于經(jīng)驗判斷,消除了主觀性判斷對結果的影響,目前在許多相關分析和預測分析中應用。
在研究中醫(yī)證候與微觀指標之間的相關性時,需注意的是證候都不是一個癥狀,而是多種癥狀組合,微觀指標亦是如此。因而,分析兩者之間的相關關系,其實就是分析兩個變量組之間的相關關系,典型相關分析正是研究變量組相關性的一種統(tǒng)計方法。曾佑良[24]研究脾虛證癥狀組合與微觀指標的相關性,在因子分析篩選出脾虛證5個癥狀組合的基礎上,運用典型相關分析對癥狀組合與微觀指標進行相關性分析,進而促進脾虛證本質(zhì)研究。張瑩等[25]運用典型相關分析探索急性冠脈綜合征的中醫(yī)證候與7個實驗室指標關系,發(fā)現(xiàn)纖維蛋白原與氣虛、超敏C反應蛋白與痰飲、心肌肌鈣蛋白Ⅰ與寒凝有相關性。劉華等[26]通過典型相關分析對腦積水17個證候要素與11個證候要素靶位進行相關性分析,得出5對綜合變量以反映原兩組變量的信息,發(fā)現(xiàn)瘀在腦積水證候中占有較大的比例,水與靶位多呈負相關,從而為該病的證候規(guī)范化研究提供了依據(jù)。
臨床科研中,醫(yī)生常先收集到患者的四診資料然后進行綜合分析以判斷證型,但該過程常受到個人經(jīng)驗和知識水平等主觀因素的影響,最后利用這種情況下歸納出的證候與指標進行相關分析,其結果必然會受到主觀因素影響。然而,通過典型相關分析法首先是立足于整體思維,將證候變量看作1組變量,微觀指標也看作另1組變量,通過統(tǒng)計的相關分析,進而消除主觀因素對辨證的影響。
多元統(tǒng)計學方法主要探討高維數(shù)據(jù)的內(nèi)在規(guī)律,非常適合中醫(yī)的數(shù)據(jù)特點,因而在中醫(yī)領域應用廣泛。其主要體現(xiàn)在確立基本證型、篩選優(yōu)化指標、確立優(yōu)化指標權重、建立證候數(shù)學模型等環(huán)節(jié)上,以此推進中醫(yī)診斷研究標準化、客觀化的步伐。然而,也存在著不少具體的研究結果與臨床實踐結果存在較大差異、樣本量少與建模重復性差、中醫(yī)術語欠缺規(guī)范等問題。筆者認為可通過采用多種多元統(tǒng)計方法綜合運用的模式,并進一步規(guī)范診斷用語,展開大樣本重復性試驗研究,可更好地推動中醫(yī)診斷的客觀化研究。