涂泳秋 易法令 樸勝華 周蘇娟
(1.廣東藥學(xué)院醫(yī)藥信息工程學(xué)院 2.國家中醫(yī)藥管理局高脂血癥調(diào)肝降脂重點研究室3.國家中醫(yī)藥管理局脂代謝三級實驗室)
高脂血癥是血管及臟器疾病的主要基礎(chǔ)病變之一,隨著人們生活水平的提高,高脂血癥的發(fā)病率呈逐年上升的趨勢。中醫(yī)藥在防治高脂血癥方面因其毒副作用小、療效明顯的優(yōu)勢而日益受到醫(yī)學(xué)界的廣泛重視。但是,由于傳統(tǒng)中醫(yī)沒有高脂血癥的病名,且病證分散,臨床病變復(fù)雜,導(dǎo)致目前對高脂血癥的辨病和辨證分型尚未有統(tǒng)一的標(biāo)準(zhǔn)[1],不利于高脂血癥中醫(yī)辨證的規(guī)范化及對有效治療方案的歸納總結(jié),影響科研成果的客觀評估和臨床推廣應(yīng)用[2]。中醫(yī)對于建立一個完善的規(guī)范化、客觀化的高脂血癥辨證體系的研究已持續(xù)了三十年[3]仍沒有完全達(dá)到目標(biāo),探究其原因主要有以下兩條:其一,中醫(yī)對高脂血癥的辨證分型主要根據(jù)古籍文獻(xiàn)理論、患者主觀表現(xiàn)及臨床經(jīng)驗來確認(rèn),用來統(tǒng)計分析的樣本存在片面性;其二,辨證體系、分型層次、學(xué)術(shù)流派及對兼夾證型認(rèn)識的不同導(dǎo)致證型分類不統(tǒng)一,影響辨證分型的規(guī)范化[4]。
利用計算機挖掘技術(shù)建立疾病的中醫(yī)辨證模型的研究正日益受到關(guān)注和重視[5~7],高脂血癥辨證分型的規(guī)范化研究一個重要難點在于證型分類不統(tǒng)一,利用聚類分析算法對臨床四診信息進行自動分類,獲得統(tǒng)計學(xué)意義上的分類結(jié)果,并依此與已有證候表征進行比對,經(jīng)過確定證型類別,發(fā)現(xiàn)了高脂血癥四診信息與辨證分型間的統(tǒng)計學(xué)規(guī)律,為高脂血癥辨證分型標(biāo)準(zhǔn)化研究奠定基礎(chǔ),同時具有重要研究價值。
分析樣本為臨床采集的316例高脂血癥患者中醫(yī)四診調(diào)查數(shù)據(jù)。通過對其進行聚類分析,獲得相應(yīng)的證型特點,與傳統(tǒng)的證型分類方法進行比較,以進一步佐證傳統(tǒng)分類方法的科學(xué)性。臨床樣本中記錄了316例患者的基本信息、血液查驗信息、中醫(yī)相關(guān)癥狀的臨床資料,包括患者的望診、問診、脈診信息等共54項。部分信息如圖1所示。
聚類分析,是按研究對象在性質(zhì)上的親疏關(guān)系進行分類的一種多元統(tǒng)計方法,能夠反映變量或樣本間的內(nèi)在組合關(guān)系?;舅枷胧?,從一批樣品的多個觀測指標(biāo)中,找出能度量樣品之間或指標(biāo)之間的相似程度的統(tǒng)計量,構(gòu)造一個對稱的相似性矩陣,在此基礎(chǔ)上進一步找尋各樣本之間或樣本組合之間的相似程度,按相似程度的大小,把樣本逐一歸類。關(guān)系密切的歸類聚集到小的分類單位,關(guān)系疏遠(yuǎn)的聚類到大的分類單位,直到所有樣品或變量都聚集完畢,形成一個親疏關(guān)系譜系圖,用以更自然、更直觀地顯示分類對象的差異和聯(lián)系[8~10]。
聚類分析使用相似統(tǒng)計量進行分類,相似統(tǒng)計量是依據(jù)觀測數(shù)據(jù)所建立的分類指標(biāo)。本文中用到的相似統(tǒng)計量為距離系數(shù)、夾角余弦以及相關(guān)系數(shù),其計算公式如(1)~(3)所示。
3.1.1 距離系數(shù)
假設(shè)有n個樣本,每個樣本有m個分量。這時每個樣本可以看成是m維變量空間中的一個點,每個變量可以看成是n維樣本空間中的一個點。用點的歐幾里德距離表示研究對象的親疏關(guān)系。距離越小,關(guān)系越密切;距離越大,關(guān)系越不密切。
用行表示樣本、列表示變量的觀測數(shù)據(jù)矩陣,樣本間的距離系數(shù)如式(1)所示:
式中i,j = 1,2,...n,其中i,j均表示樣本的序號,k表示樣本中的分量號。
上面所定義的距離系數(shù)與變量的量綱有關(guān),比如以米為單位時某變量為1,以厘米為單位時,就變成100,這會影響到距離的計算結(jié)果。為克服這個問題,在計算前需要對數(shù)據(jù)進行預(yù)處理。
此外,上面的距離系數(shù)要求與變量之間沒有相關(guān)性。如果變量之間存在相關(guān)性,則會影響分類結(jié)果。有多個相關(guān)變量支持的分類特征比沒有多個相關(guān)變量支持的特征,意味著有更大的權(quán),在分類時會受到額外的“照顧”,因而有失公平。因此在算法實現(xiàn)中將使用逐步回歸法剔除相關(guān)變量。
3.1.2 夾角余弦
夾角余弦用角度的分割表示樣本之間的相似程度。在對樣本進行分類時,可以把每個樣本看成m維變量空間中的一個向量,樣本Xi= (xi1,xi2,...,xim)與樣本 Xj= (xj1,xj2,...,xjm) 之間的相似程度就可以用這兩個向量之間的夾角余弦cosθ表示,cosθ的值在1和-1之間變化,如果等于1則表示兩個樣本非常相似,接近1則很相似,如果數(shù)值很小,則表示樣本差異極大。夾角余弦的表達(dá)式如式(2)所示:
其中,i,j = 1,2,...,n。
3.1.3 相關(guān)系數(shù)
樣本之間的相關(guān)系數(shù)如式(3)所示:
式中i,j = 1,2,...,n,i和j是樣本號,n 是樣本個數(shù),m是變量個數(shù)。xia和xja分別表示i樣本和j樣本的平均值。
聚類分析的結(jié)果與量綱有關(guān),為了消除量綱的影響,算法中用到了標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化的數(shù)據(jù)預(yù)處理方法。計算公式如公式(4)~(6)所示。
標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化預(yù)處理是將各個觀測值減去觀測值的平均值,再除以觀測值的標(biāo)準(zhǔn)差,即:
xia是平均值,其表達(dá)式為:
si是標(biāo)準(zhǔn)差如式(7)所示,經(jīng)過標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理的所有觀測值的平均值為0,標(biāo)準(zhǔn)差等于1。
3.3.1 聚類算法思想
在聚類分析過程中,需要經(jīng)過將類由多變少的聚類過程。其具體思想是:
(1)開始
每個樣本自成一群;
(2)合并
① 計算類的分類統(tǒng)計量(距離系數(shù)、夾角余弦、相關(guān)系數(shù));
② 按某種分類統(tǒng)計量,將分類統(tǒng)計量最接近的兩個樣本(或群)合并成一群;
(3)求群的變量值
利用加權(quán)平均的方法求新群的各變量值。假定Li群與Lj群合并,Li群有Ni個樣本,Lj群有Nj個樣本,這時新群的k變量為:
(4)終止
重復(fù)(2)到(3),直到所有的類歸為一群。
3.3.2 聚類算法
設(shè)定相似性條件P:0<=P<=1
(1)開始
所有樣本歸入同一群;
(2)計算:假如已分解為n個群C1,C2,………, Cn
① 計算類的分類統(tǒng)計量(距離系數(shù)、夾角余弦、相關(guān)系數(shù)):假如 Cm中有 k個樣本,則:Sm=sigma(cos(thetai,j))/k(k-1)
② 計算類平均相似性:S = (S1 + ……+Sn)/n
(3)判別
如果S>=P跳到(5)終止。否則下一步。
(4)分解
對Sm<P的每個類Cm, 對其中的每個樣本I:
① 為I創(chuàng)建一個新類Cn+1,或?qū)歸入其它類C1,…Cm-1,Cm+1,…,Cn中。分別計算S,使S增加最多的類獲勝。
② 若Sm>P,返回(3)
(5)終止
利用該程序?qū)η捌谒鸭降?16例高脂血癥患者臨床癥狀資料進行聚類分析,設(shè)置相似度閾值為75%,如圖2所示。
圖2 設(shè)置閾值界面
對預(yù)處理過的數(shù)據(jù)進行聚類分析,如圖3所示,其中f1,f2……,f54分別對應(yīng)中醫(yī)癥狀特征信息如:體胖身重,心悸……,脈細(xì)等。程序得到的最終聚類結(jié)果如圖4所示,將總樣本自動分為5類,得到每類的相似性得分以及每類對應(yīng)的實例個數(shù)。同時得到了每個分類中最具代表性和最不具代表性的樣本實例所具有的特征,如圖5所示。以第一類為例,最具代表性的樣本具有體胖身重,頭暈,失眠……等特征;而最不具代表性的樣本具有體胖身重,頭暈,面色淡白等特征。
圖3 316例患者54種臨床癥狀記錄表截圖
圖4 316個樣本的聚類分析結(jié)果
圖5 第一種分類中最典型與最不典型癥狀表
將聚類算法得到的五類實例與中醫(yī)師的證候判斷結(jié)果對比發(fā)現(xiàn),這五類實例中80%以上的樣本分別對應(yīng)于“痰濕內(nèi)阻型”、“肝郁氣滯型”、“氣滯血瘀型”、“肝陽痰火型”、“脾腎陽虛型”五類證型,其中“肝陽痰火型”為兼雜證型。
實現(xiàn)聚類分析算法并將其用于高脂血癥臨床病癥中醫(yī)證候研究中,通過對采集的臨床四診信息的聚類得到證候分型結(jié)果,與傳統(tǒng)經(jīng)驗獲得的證候分類相對照,得到基于統(tǒng)計分析的客觀分類結(jié)果,為高脂血癥證候標(biāo)準(zhǔn)化研究奠定了基礎(chǔ)。
雖然聚類獲得的五個分型結(jié)果都得到了 70%左右的相似度,但第四類與第五類證型的實例數(shù)較前三類明顯偏低,因此高脂血癥臨床采集數(shù)據(jù)仍有待進一步擴充,使聚類的結(jié)果更科學(xué)客觀。除此之外,下一步工作的重點是將模糊規(guī)則理論引入到聚類算法中解決兼雜證型的分類問題,將兼雜證型與其相關(guān)證型關(guān)聯(lián)起來,而不再是完全獨立的一個分型。
[1]黃波夫.中醫(yī)治療高脂血癥研究進展[J].廣西中醫(yī)學(xué)院學(xué)報,2008,11(4): 102-104.
[2]陳建民.癌癥患者血液高黏度狀態(tài)與活血化瘀治療[J].中西醫(yī)結(jié)合雜志, 1985,5:89-91.
[3]唐沙玲.高脂血癥中醫(yī)研究進展[J].Internal Medcine of China.2008,3(1):129-131.
[4]錢小奇,陳紅,田曉虹等.高脂血癥中醫(yī)辨證分析不一致探因[J].深圳中西醫(yī)結(jié)合雜志,2007,17(2):25-26.
[5]王階,李海霞,孫占全等.基于復(fù)雜算法的中醫(yī)證候研究[J].北京中醫(yī)藥大學(xué)學(xué)報, 2006, 29 (9) : 581 – 585.
[6]白云靜,申洪波,孟慶剛等.基于人工神經(jīng)網(wǎng)絡(luò)的中醫(yī)證候非線性建模研究[J].中國中醫(yī)藥信息雜志.2007, 14(7):3-6.
[7]聶莉芳,于大君,余仁歡等.308例IgA腎病中醫(yī)證候分布多中心前瞻性研究[J].北京中醫(yī)藥大學(xué)學(xué)報,2005,28(4):66-68.
[8]XU Rui, Wunsch., D. Survey of Clustering Algorithms[J].IEEE Transaction on Neural Networks, 2005,16(3):645-678.
[9]WANG Shi-tong, JIANG Hai-feng, LU Hong-jun. A New Integrated Clustering Algorithm GFC and Switching Regressions[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2002,16(4):433-446.
[10]JIANG Sheng-yi, LI Xia. A Hybrid Clustering Algorithm[C].Fuzzy Systems and Knowledge Discovery, 2009, 1:366.