楊曉南,趙鐵牛,王泓午
(1天津市紅橋區(qū)中醫(yī)醫(yī)院,天津 300131;2天津中醫(yī)藥大學,天津 301617)
糖尿病是一種因胰島素分泌缺陷或胰島素作用受損引發(fā)糖、脂肪和蛋白質代謝紊亂的代謝性疾病,其臨床特征是患者血糖持續(xù)性增高、多飲、多尿、多食及消瘦,導致患者器官和組織受損,危害患者健康。調查表明,中國糖尿病患病率已經(jīng)達到10.4%[1]。與西醫(yī)治療糖尿病的藥物常伴不同程度的副作用相比較而言,中醫(yī)藥在辨證論治基礎上指導糖尿病正確選方用藥,更具有獨特的優(yōu)勢。但2型糖尿病的辨證標準不統(tǒng)一和證候術語欠規(guī)范等問題卻在一定程度上給2型糖尿病的診治帶來一定的難度。近年來,數(shù)據(jù)挖掘方法在2型糖尿病證候研究中的運用越來越廣泛。研究者運用數(shù)據(jù)挖掘方法從大量的數(shù)據(jù)資料中挖掘規(guī)律和蘊藏的有價值信息,有助于總結糖尿病證候特征和規(guī)律?,F(xiàn)將有關2型糖尿病證候數(shù)據(jù)挖掘的文獻歸納如下。
數(shù)據(jù)挖掘是應用統(tǒng)計學、機器學習和模式識別等學科的知識,從已經(jīng)存在的、不完全的、模糊的、隨機的數(shù)據(jù)中,補齊不完整的數(shù)據(jù),在模糊和隨機的數(shù)據(jù)中提取隱含在其中的、人們以往需要依賴經(jīng)驗才能體會的信息和知識的過程[2]。數(shù)據(jù)挖掘的特征是在沒有明確假設的前提下去挖掘信息和發(fā)現(xiàn)知識。其優(yōu)勢在于數(shù)據(jù)挖掘的過程中,根據(jù)研究目的進行多角度分析,利用科學且系統(tǒng)化的歸類要求對原本混亂的數(shù)據(jù)庫信息進行整合和深層次分析,透過數(shù)據(jù)表面現(xiàn)象挖掘數(shù)據(jù)的本質。
數(shù)據(jù)挖掘方法在糖尿病證候研究中有很好的應用前景。糖尿病四診信息數(shù)據(jù)包括病因、四診信息、舌診、脈診和實驗室檢查等數(shù)據(jù),可以來源于臨床流行病學調查,也可以間接來源于電子病歷和實驗室檢查結果,這些數(shù)據(jù)與糖尿病證候診斷密切相關。糖尿病具有病因復雜、體征和癥狀指標較多、危險因素多的特點,調查數(shù)據(jù)有二分類、多分類數(shù)據(jù)和定量數(shù)據(jù),研究者利用數(shù)據(jù)挖掘技術強大的處理能力和適用性好的特性,結合糖尿病四診信息數(shù)據(jù)和實驗室指標,通過數(shù)據(jù)挖掘辨別證候與癥狀的關系,歸納糖尿病的辨證規(guī)律,有助于豐富中醫(yī)理論,提高糖尿病證候診斷的準確率,促進中醫(yī)藥產(chǎn)業(yè)化和國際化[3]。
3.1 Logistic回歸分析 logistic回歸分析是一種概率模型方法,結果變量要求二分類或多項分類,廣泛應用于中醫(yī)證候調查橫斷面研究和隨訪研究。張倩采用Logistic回歸分析糖尿病周圍神經(jīng)病變患者,發(fā)現(xiàn)陰陽兩虛證的危險因素是年齡、周圍神經(jīng)癥狀、病程和舒張壓[4]。張倩采用Logistic回歸分析糖尿病周圍神經(jīng)病變患者,發(fā)現(xiàn)陰虛血瘀證與糖化血紅蛋白相關,陽虛血瘀證與尿白蛋白排泄率相關;陰虛風動證與血清總膽固醇和血肌酐相關;痰瘀滯絡證與血肌酐相關[5]。范譯丹采用Logistic回歸分析2型糖尿病患者合并非酒精性脂肪肝患者,發(fā)現(xiàn)肝腎陰虛證與三酰甘油和體質指數(shù)相關,氣陰兩虛兼瘀證與三酰甘油相關[6]。Logistic回歸的優(yōu)點對自變量類型不做要求、系數(shù)的可解釋性等;其缺點是當樣本含量過少時,估計的方程不穩(wěn)定,結果無法解釋;也會出現(xiàn)擬合過度的問題,適用于大樣本的中醫(yī)證候臨行病學調查資料。
3.2 因子分析 因子分析是由英國心理學家C.E.Spearman提出,以指標間的相關矩陣為基礎,探索支配多個指標相關關系的有限個潛在因子的一種非線性多元統(tǒng)計分析方法,是高維度數(shù)據(jù)降維的一種統(tǒng)計分析方法。因子分析找到能準確反映2型糖尿病癥狀的潛在因子,將每個因子歸納為某一證候因素,具有指導臨床實踐的價值。而證候要素是通過辨識證候的病位和病性,來確定證名的基本要素[7]。目前,2型糖尿病尚未形成統(tǒng)一的證候要素共識,多數(shù)學者借助因子分析來提取2型糖尿病證候的要素。王佳笑采用因子分析對2型糖尿病合并高血壓病患者的癥狀進行分析,提取7個病性要素:氣虛、陰虛、陽虛、血瘀、陽亢、濕痰和熱盛[8]。龔燕冰采用因子分析對2型糖尿病患者的癥狀進行分析,提取出6個病性要素:陰虛、氣虛、血瘀、濕熱、熱盛和氣滯,病位為肝、脾、腎[9]。孟慶揚采用因子分析對2型糖尿病合并血脂異?;颊叩陌Y狀進行分析,提取出4個病性要素:陰虛、陽虛、氣虛、痰,病位為腎、肝和脾[10]。齊方洲采用因子分析對糖尿病早期微血管病變患者的癥狀進行分析,提取出11個病性證素:氣虛、陰虛、陽虛、熱、濕、燥、血瘀、氣滯、氣郁、氣逆和血虛,病位為腎、肝、脾、肺和胃[11]。曹晶晶采用因子分析對糖尿病視網(wǎng)膜病變患者的癥狀進行分析,提取10種病性要素:陰虛、氣虛、血瘀、陽虛、痰、血虛、精虧、氣滯、濕和熱[12]。趙靈燕采用因子分析糖尿病患者中醫(yī)四診信息,提取出陽虛證、陰虛證和氣虛證[13]。歸納出2型糖尿病的證候要素以陰虛為本,燥熱為標,虛證表現(xiàn)氣虛、血虛、陰虛和陽虛4種類型,實證表現(xiàn)為血熱、血瘀、火旺和濕熱。可以看出,因子分析的優(yōu)點是根據(jù)糖尿病的原始指標的信息進行重新組合,找出影響變量的共同因子,并通過旋轉使得因子更具有可解釋性,對應于某一證候;其缺點是易出現(xiàn)估計方法選擇不當,導致估計結果失真。
3.3 聚類分析 聚類分析根據(jù)物以類聚的原理,將本身沒有類別的數(shù)據(jù)聚集成不同的類別,將性質相近的事物歸為一類,將性質差別較大的歸入不同的類,并對每一個這樣的類進行描述的一種統(tǒng)計方法。因此,聚到同一個組中的樣本應該彼此相似,而屬于不同組的樣本應該足夠不相似。組內(nèi)的相似性越大,組間差別越大,聚類就越好。在證候研究中,聚類分析可對疾病的癥狀和體征等信息進行統(tǒng)計學分析,客觀地進行分類。采用聚類分析探索2型糖尿病證候,從數(shù)據(jù)中挖掘出其自然類別,依據(jù)各個指標之間的相關系數(shù),建立有統(tǒng)計學依據(jù)的證候關聯(lián),把高度的同質性一組癥狀和體征聚為一類。目前,采用聚類分析對2型糖尿病證候規(guī)律分析方面取得一些共識。鞏璇采用聚類分析對2型糖尿病患者進行聚類,聚為脾腎氣虛證、陰虛熱盛證、肝腎陰虛證、陽虛血瘀證和氣陰兩虛夾痰濕證[14]。牟新采用聚類分析對2型糖尿病患者進行聚類,聚為痰瘀化火證、氣陰兩虛夾瘀證、肝胃火盛證、腎陽虛證和肝氣郁滯證[15]。張志龍采用聚類分析對2型糖尿病患者進行聚類,聚為痰濕血瘀證、陰陽兩虛證、血瘀水停證、氣陰兩虛證、脾虛濕盛證和陰虛熱盛證[16]。楊江成采用聚類分析對2型糖尿病患者進行聚類,聚為氣虛證、陽虛證和陽虛水泛證[17]。孟慶揚采用聚類分析對2型糖尿病合并血脂異?;颊哌M行聚類,聚為腎陽氣虛證、肝腎陰虛夾濕熱證、胃氣滯證、脾腎陰陽兩虛夾心氣血虛證和氣滯血瘀證[10]。張錦明采用聚類分析對2型糖尿病患者進行聚類,聚為氣虛證、陰虛證、血瘀證、濕證和熱證[18]。林蘭采用聚類分析對2型糖尿病患者進行聚類,聚為陰虛熱盛證、氣陰兩虛證、陰陽兩虛證、濕熱證、痰濕證、血瘀證和氣滯證[19]。周迪夷采用聚類分析對2型糖尿病患者的癥狀進行聚類,聚為氣虛證、陰虛證、氣陰兩虛證、陰陽兩虛證、血瘀證、濕熱證和郁熱證[20]。聚類分析可以為2型糖尿病證候的分類提供客觀依據(jù),具有一定的可行性及科學性。聚類分析的優(yōu)點是直觀、結論形式簡明;其缺點是樣本量較大時,要獲得聚類結論有一定困難,無法準確對應于某一證候。
3.4 決策樹 決策樹是一種以樹結構形式表達進行預測的數(shù)據(jù)挖掘方法,是證候的量化與客觀化研究的數(shù)據(jù)挖掘工具之一。結點有兩種類型:根結點和葉節(jié)點。通過從根結點一直到達葉子結點的路徑轉換,生成簡單易懂的分類規(guī)則。趙靈燕采用決策樹對2型糖尿病檢測指標數(shù)據(jù)進行分析,提取出痰濁證的核心指標是尿素氮、白細胞、平均紅細胞體積、超敏C反應蛋白、紅細胞和甲狀腺素,建立了痰濁證決策樹模型,其靈敏度為75.47%、特異度為76.22%,正確率為75.90%[21]。采用決策樹分析2型糖尿病痰濁證的檢測指標,有利于2型糖尿病證候客觀化研究。決策樹的優(yōu)點是能快速地學習證候特征,分類準確率高;訓練集數(shù)據(jù)量較大的情況下,決策樹模型效率較高,穩(wěn)定性好。其缺點是容易過度擬合問題,忽略屬性之間的相關性。
3.5 關聯(lián)規(guī)則 關聯(lián)規(guī)則是一種挖掘隱藏在數(shù)據(jù)集中的不同事件之間的關聯(lián)和相關性。如果兩項或多項事件之間存在關聯(lián),那么其中一項的屬性可以依靠其他屬性值進行預測。關聯(lián)規(guī)則是用來分析癥狀之間的關系,以支持度與置信度來量化高頻癥狀之間的相互關系,并作為一組關鍵癥狀組合來評判糖尿病。趙艷青采用關聯(lián)規(guī)則挖掘出2型糖尿病15組癥狀群,如口渴喜飲—視物昏花—五心煩熱—目睛干澀,五心煩熱—氣短懶言—口干咽燥等,癥狀與脈象組合如睛干澀—脈細澀,五心煩熱—脈細數(shù),癥狀與舌象組合如氣短懶言—舌胖。采用關聯(lián)規(guī)則辨識糖尿病中醫(yī)證候,為糖尿病的中醫(yī)證候分型提供了一種新的研究思路[22]。可以看出,關聯(lián)規(guī)則的優(yōu)點是可以產(chǎn)生清晰有用的結果;其缺點關聯(lián)分析輸出的規(guī)則數(shù)量較多,且多數(shù)并無利用價值,給關聯(lián)規(guī)則的解釋帶來難度。
3.6 人工神經(jīng)網(wǎng)絡 人工神經(jīng)網(wǎng)絡以神經(jīng)元為運算單位,模擬生物神經(jīng)網(wǎng)絡結構與功能的特點,建立算法數(shù)學模型對分布式數(shù)據(jù)并行信息進行處理,完成對信息的加工與處理的一種統(tǒng)計方法。人工神經(jīng)網(wǎng)絡有強大的非線性處理能力,采用合適的學習算法,對糖尿病四診信息數(shù)據(jù)進行準確地處理,達到糖尿病證候診斷的目的。近年來,人工神經(jīng)網(wǎng)絡預測2型糖尿病證候是人工智能發(fā)展的新趨勢,被廣泛應用于糖尿病證候數(shù)據(jù)分析中。采用神經(jīng)網(wǎng)絡建立糖尿病診斷預測模型,可以輔助診斷糖尿病。吳燎采用BP神經(jīng)網(wǎng)絡對糖尿病患者的癥狀分析,構建糖尿病診斷預測模型,正確率達到95%[23]??梢钥闯?,人工神經(jīng)網(wǎng)絡的優(yōu)點是具有容錯性和自組織性,可學習和自適應不知道或不確定的數(shù)據(jù),能夠同時處理定量和定性數(shù)據(jù);其缺點是把一切問題的特征都變?yōu)閿?shù)字,把一切推理都變?yōu)閿?shù)值計算,其結果易丟失信息;輸出結果難以解釋,會影響到結果的可信度和可接受程度。
3.7 結構方程模型 采用結構方程模型研究糖尿病證候,把證候看成潛在變量,四診信息看成外顯變量,建立糖尿病證候的預測模型,衡量證候與癥狀的關系,有助于指導糖尿病證候診斷。柴可夫采用結構方程模型對糖尿病早期微血管病變患者的四診信息進行分析,構建了氣陰兩虛證、肝腎陰虛證、濕熱困脾證、陰陽兩虛證、脾腎陽虛證和脾虛氣滯證模型。其中氣陰兩虛證的癥狀有氣短、心悸、自汗、少氣懶言、困倦乏力、視物模糊、兩目干澀、盜汗、潮熱、烘熱、顴紅、手足心熱和大便干結[24]。孔麗婭采用結構方程模型構建病位證素組合的模型,發(fā)現(xiàn)肝脾兩臟關系最為密切,脾腎其次,再者肝腎、肝胃、腎胃;陰虛與實熱相關性最高[25]。楊曉南采用結構方程模型構建2型糖尿病氣陰虧虛證和四診信息的模型,氣陰虧虛證的癥狀有神疲、四肢乏力、胸悶、自汗、咽干、面色蒼白、口干、神疲、舌淡紅和脈弱。結構方程模型可以分析證候與癥狀的關系,為2型糖尿病證候分析提供了客觀依據(jù)[26]。結構方程模型的優(yōu)點是允許自變量和因變量存在測量誤差,可提供總體模型檢驗和獨立參數(shù)估計檢驗,可處理變量的多重相互關系;其缺點是由于假設誤差項不相關,導致結果不能如實反映實際情況。
3.8 貝葉斯網(wǎng)絡 貝葉斯網(wǎng)絡是一種基于概率推理的圖形化網(wǎng)絡的統(tǒng)計分析方法。它包括網(wǎng)絡結構和概率推理兩部分,用概率測度的權重表達變量間的相互關系。貝葉斯網(wǎng)絡是由一個節(jié)點集合和一個節(jié)點間的有向邊集合組成的有向無環(huán)圖,能將不確定的信息進行學習和推理,有助于辨識證候。龔燕冰采用貝葉斯網(wǎng)絡分析2型糖尿病合并腦病、腎病、高血壓病患者,發(fā)現(xiàn)2型糖尿病合并高血壓病,空腹血糖、餐后2 h血糖和糖化血紅蛋白異常者陰虛為主;2型糖尿病合并腦病,空腹血糖、餐后2 h血糖異常以氣虛為主;2型糖尿病合并腎病,空腹血糖異常者以陽虛為主[27]。龔燕冰采用貝葉斯網(wǎng)絡分析2型糖尿病患者,發(fā)現(xiàn)空腹血糖異常的患者以陰虛熱盛多見,餐后2 h血糖異常的患者以陰虛多見,糖化血紅蛋白異常的患者以陰虛熱盛多見,血脂異常者以氣虛為主,血壓異常者伴見血瘀[28]。劉瑜采用貝葉斯網(wǎng)絡分析2型糖尿病合并脂代謝紊亂病歷,發(fā)現(xiàn)濕痰、血瘀貫穿2型糖尿病合并脂代謝紊亂始終,主要方劑有丹參飲、玉女煎、生脈散和六味地黃湯[29]。貝葉斯網(wǎng)絡可以揭示癥狀與證候間的復雜關系,有助于早期診斷2型糖尿病??梢钥闯?,貝葉斯網(wǎng)絡的優(yōu)點是具有方向性,用簡明的圖形方式定性的表示事件之間復雜的因果關系,比較適合于解決中醫(yī)診斷問題;其缺點是在屬性之間相關性較大時,分類效果不好。
3.9 支持向量機 支持向量機是以達到結構風險最小化為原則,通過將非線性數(shù)據(jù)賦予高維特征性,構造出最優(yōu)分類超平面的一種統(tǒng)計方法。闞紅星采用支持向量機識別2型糖尿病氣陰兩虛夾瘀證的舌圖像,其靈敏度為93.85%,特異度為62.79%,正確率為79.63%[30]。說明采用支持向量機法分類識別舌圖像,有助于診斷患者中醫(yī)證型。支持向量機的優(yōu)點是在小樣本高維數(shù)據(jù)上具有分類精度高的特點,解決二分類識別問題,可有效彌補傳統(tǒng)算法中維數(shù)過多的缺陷;其缺點是容易出現(xiàn)過擬合問題,對缺失數(shù)據(jù)敏感。支持向量機用于解決小樣本、非線性及高維模式識別的問題。
近幾年,中國2型糖尿病具有病因復雜和危險因素多的特點,其患病率呈現(xiàn)逐年增高的趨勢。中醫(yī)藥在治療糖尿病患者方面發(fā)揮了重要作用,中醫(yī)臨床醫(yī)生和科研人員以全新的視角利用數(shù)據(jù)挖掘方法分析糖尿病癥狀與證候、實驗室與證候指標之間的關系,分析糖尿病證候與癥狀之間的關聯(lián),揭示糖尿病數(shù)據(jù)蘊藏的規(guī)律,尤為重要。目前,盡管存在2型糖尿病的辨證標準不統(tǒng)一和證候術語欠規(guī)范等諸多問題,很多學者已經(jīng)達成2型糖尿病的證候特征研究的共識。2型糖尿病的虛證表現(xiàn)氣虛、血虛、陰虛和陽虛,實證表現(xiàn)為血熱、血瘀、火旺和濕熱,主要包括肺熱津傷證、胃熱熾盛證、氣陰兩虛證、腎陽氣虛證、氣虛證、痰濕證、血瘀證、腎陰虧虛證和陰陽兩虛證等常見證型。學者以中醫(yī)理論為基礎,采用數(shù)據(jù)挖掘技術分析2型糖尿病的證候特征,以客觀數(shù)據(jù)的形式輔助醫(yī)生進行糖尿病證候識別,為臨床醫(yī)生診療服務提供了科學依據(jù),從而提高糖尿病證候診斷的準確性和客觀性,促進現(xiàn)代醫(yī)學和中醫(yī)學有效融合,有助于2型糖尿病證候研究規(guī)范化和科學化,為其他疾病證候研究提供了新的思路。