姜榮榮,李娉婷,楊濤,3
(1.南京中醫(yī)藥大學(xué)護(hù)理學(xué)院,江蘇 南京 210023;2.南京中醫(yī)藥大學(xué)人工智能與信息與信息技術(shù)學(xué)院,江蘇 南京 210023;3.江蘇省中醫(yī)外用藥開發(fā)與應(yīng)用工程研究中心,江蘇 南京 210023)
中醫(yī)將心腦血管疾病稱之為心系疾病,由于發(fā)病率高、致殘率高和死亡率高,其已成為世界最大的公共衛(wèi)生問題[1,2]。中醫(yī)藥在心腦血管疾病診治方案具有一定的優(yōu)勢(shì),特別是在慢病調(diào)理、疾病防治方面具有特色[3,4]。中醫(yī)臨床講求“四診合參、辨證論治”,即醫(yī)生通過“望聞問切”收集患者的臨床信息,通過中醫(yī)理論進(jìn)行思辨,分析總結(jié)證候,并給出相應(yīng)的治療方案。其中“證”可以認(rèn)為是針對(duì)“核心癥狀群”的抽象概念,把握了“核心癥狀群”就可以把握“證”的本質(zhì)[5]。由于心系疾病病種較多,病理演化復(fù)雜,臨床上往往出現(xiàn)多臟腑病變,表現(xiàn)極為復(fù)雜,給臨床診療帶來困難。迫切需要根據(jù)真實(shí)世界的臨床實(shí)際情況,分析總結(jié)心系疾病的核心癥狀群,進(jìn)而更好地把握心系病證,為中醫(yī)臨床診療提供依據(jù)。當(dāng)前,癥狀群研究已成為醫(yī)學(xué)界高度關(guān)注的熱點(diǎn)之一。國(guó)外學(xué)者Dodd 等較早提出了癥狀群研究,主要指2 個(gè)及2個(gè)以上的癥狀同時(shí)出現(xiàn)的情況[6]。之后學(xué)者們?cè)谀[瘤[7]、免疫系統(tǒng)疾病[8]、重大慢性疾病[9]等復(fù)雜性疾病方面進(jìn)行了大量研究。國(guó)內(nèi)很多學(xué)者也圍繞疾病癥狀群進(jìn)行了研究和探索[10-12]。大部分研究關(guān)注具體的癥狀群識(shí)別結(jié)果,較少有研究關(guān)注癥狀群識(shí)別的模式和方法。鑒于此,本研究提出利用無監(jiān)督學(xué)習(xí)[13]開展核心癥狀群提取研究,以心系疾病為例,實(shí)現(xiàn)相應(yīng)核心癥狀群的識(shí)別和提取,以期為心系疾病癥狀規(guī)律發(fā)現(xiàn)和臨床診療提供支撐。
1.1 數(shù)據(jù)來源 本研究的實(shí)驗(yàn)數(shù)據(jù)來源于南京中醫(yī)藥大學(xué)第一附屬醫(yī)院/江蘇省中醫(yī)院、南京中醫(yī)藥大學(xué)國(guó)醫(yī)堂門診部、南京中醫(yī)藥大學(xué)玉承堂中醫(yī)門診部醫(yī)療機(jī)構(gòu)的病歷資料庫(kù),搜集了2000-2020 年的心系疾病醫(yī)案,排除臨床表現(xiàn)描述過少、重要信息缺失的病案,最終共納入1741 診次心系病案。
1.2 方法 將聚類和主成分分析等無監(jiān)督學(xué)習(xí)方法[14,15]的思想融入核心癥狀群提取中,設(shè)計(jì)相應(yīng)的核心癥狀群提取方法,整個(gè)過程包括4 個(gè)核心步驟。將原始樣本進(jìn)行數(shù)據(jù)清洗,對(duì)癥狀表述進(jìn)行統(tǒng)一和規(guī)范;以行為不同病歷樣本,列為癥狀,將規(guī)范后的文本記錄轉(zhuǎn)化為0-1 矩陣數(shù)據(jù);采用離差標(biāo)準(zhǔn)化方法將數(shù)據(jù)轉(zhuǎn)化為[-1,1]內(nèi)的數(shù)值。采用輪廓系數(shù)法[16]確定最佳分類數(shù)目,利用K 均值對(duì)樣本進(jìn)行分類。針對(duì)每一類樣本,分析不同主成分?jǐn)?shù)目對(duì)應(yīng)的累計(jì)貢獻(xiàn)度,根據(jù)累計(jì)貢獻(xiàn)度閾值確定主成分?jǐn)?shù)目。提取每一類樣本的主成分,并根據(jù)載荷系數(shù)閾值篩選癥狀群,并根據(jù)中醫(yī)理論對(duì)癥狀群進(jìn)行分析,見圖1。
圖1 核心癥狀群提取流程
2.1 樣本聚類
2.1.1 輪廓系數(shù)變化情況 對(duì)樣本進(jìn)行輪廓系數(shù)分析,當(dāng)聚類簇的數(shù)目增大時(shí),輪廓系數(shù)呈現(xiàn)先增大,后減小并在一定范圍內(nèi)波動(dòng)的情況。當(dāng)簇的個(gè)數(shù)為3 時(shí),輪廓系數(shù)最大,見圖2。
圖2 輪廓系數(shù)變化情況
2.1.2 輪廓系數(shù)和樣本分布 設(shè)定聚類數(shù)目為3,利用K 均值聚類算法對(duì)樣本進(jìn)行聚類,樣本被自動(dòng)分成3 類,其中,每一類包含的樣本數(shù)分別為566 例、549 例和626 例。聚類輪廓系數(shù)分布見圖3a,每一類樣本在二維空間上的分布情況見圖3b,從圖中可以看出,樣本在二維空間上的分布較為雜亂,根據(jù)輪廓系數(shù)可以將樣本進(jìn)行有效分類,但仍存在同一類別下樣本輪廓系數(shù)差異較大,其中輪廓系數(shù)較小的樣本往往處于類別交接處。
圖3 輪廓系數(shù)和樣本分布
2.2 核心癥狀群提取
2.2.1 主成分累計(jì)貢獻(xiàn) 對(duì)每一類數(shù)據(jù)進(jìn)行主成分?jǐn)?shù)目探查,見圖4。以0.7 作為累計(jì)貢獻(xiàn)閾值,最終得到第一類主成分?jǐn)?shù)目為14(對(duì)應(yīng)的累計(jì)貢獻(xiàn)率為0.7014),第二類為10(對(duì)應(yīng)的累計(jì)貢獻(xiàn)率為0.7000),第三類為13(對(duì)應(yīng)的累計(jì)貢獻(xiàn)率為0.7086)。按照主成分?jǐn)?shù)目探查結(jié)果,設(shè)定合適的主成分?jǐn)?shù)目,并進(jìn)行主成分分析,提取主成分載荷矩陣。
圖4 主成分累計(jì)貢獻(xiàn)
2.2.2 核心癥狀群 癥狀的載荷系數(shù)越大,其對(duì)相應(yīng)主成分的影響越大(重要性越高)。設(shè)定載荷系數(shù)閾值為0.8,提取所有大于等于該閾值的癥狀,最終得到核心癥狀群,其中括號(hào)內(nèi)的數(shù)值為癥狀對(duì)應(yīng)主成分的載荷系數(shù)?!邦悇e1”共提取了14 個(gè)主成分(見表1),癥狀數(shù)量最多的為5 個(gè),最少為1 個(gè),其中F2、F7 對(duì)應(yīng)的癥狀均為“下肢浮腫(1.00)”?!邦悇e2”共提取了10 個(gè)主成分(見表2),癥狀數(shù)量最多的為3 個(gè),最少為1 個(gè)?!邦悇e3”共提取了13 個(gè)主成分(見表3),癥狀數(shù)量最多的為2 個(gè),最少為1 個(gè)。
表1 “類別1”的核心癥狀群
表2 “類別2”的核心癥狀群
表3 “類別3”的核心癥狀群
“類別1”是心氣虛證和心陽虛證對(duì)應(yīng)的核心癥狀群,F(xiàn)11“[胸痛(1.00),心悸(0.99),氣喘(0.94),脈弦(0.93),動(dòng)則尤甚(0.83)]”是一個(gè)較為典型的心氣虛證的表現(xiàn),其他諸如F1、F2[F7]、F3、F4、F6、F10 等是較為典型的心陽虛證的表現(xiàn)。F5、F8、F9、F12、F13、F14 是心氣虛證或者心陽虛證經(jīng)常伴隨出現(xiàn)的次要癥狀。心氣虛證和心陽虛證在中醫(yī)理論上是非常接近的證型,僅僅是病情輕重的差別,心氣虛證可以進(jìn)步一發(fā)展為心陽虛證?!邦悇e2”是心脾氣虛證對(duì)應(yīng)的核心癥狀群,氣虛會(huì)出現(xiàn)神疲、乏力、胸悶、頭暈等癥狀,進(jìn)一步影響到心脾會(huì)出現(xiàn)失眠、納呆等癥狀?!邦悇e3”是心火亢盛證對(duì)應(yīng)的核心癥狀群,心火亢盛會(huì)出現(xiàn)心悸、胸痛、胸悶、失眠、舌紅、苔黃、脈弦等癥狀,心火亢盛,上沖腦絡(luò),會(huì)出現(xiàn)頭暈等癥。癥狀群能夠基本反映常見心系病證的特點(diǎn),可以為臨床中醫(yī)病證的規(guī)律總結(jié)提供客觀依據(jù)。