蔡佩良 劉超武 朱振剛 熊 桅 狄冠麟 喬亞珍 鐘新春 袁 琛 竇迎婷 鄭延龍 白 融 賈宗月
(天津中醫(yī)藥大學第一附屬醫(yī)院,國家中醫(yī)針灸臨床醫(yī)學研究中心,天津 300000)
新型冠狀病毒肺炎(COVID-19)是一種由新型冠狀病毒感染導(dǎo)致的以發(fā)熱、咳嗽、氣促、呼吸困難為主要癥狀,嚴重者可致急性呼吸綜合征、腎衰竭甚至死亡的肺部炎癥。其發(fā)病急驟,流行性高,傳播迅速,給公共衛(wèi)生、醫(yī)療保健系統(tǒng)和全球經(jīng)濟帶來了巨大的挑戰(zhàn)[1]。在中醫(yī)藥的參與下,新型冠狀病毒肺炎患者咳嗽、乏力等癥狀明顯改善,輕型患者易痊愈,普通型向重型轉(zhuǎn)化較少[3]。但是由于新冠患者數(shù)量多、臨床醫(yī)師診療時間有限、臨證經(jīng)驗不足等原因,往往無法進行準確而高效的辨證施治。當前,人工智能技術(shù)飛速發(fā)展,以計算機為工具模擬人類思維方式,通過學習知識和技能解決問題,已廣泛應(yīng)用于多個領(lǐng)域[4]。將中醫(yī)藥與人工智能相結(jié)合,實現(xiàn)中醫(yī)辨證的客觀化研究已成為中醫(yī)現(xiàn)代化發(fā)展的熱點之一[5]。因此,開發(fā)可以輔助醫(yī)師對非危重型新型冠狀病毒肺炎進行辨證診斷的軟件系統(tǒng),使其根據(jù)患者的四診信息,實現(xiàn)精準而快速的辨證,能夠大大提升醫(yī)師的辨證準確度,減少漏診、誤診率,擴大中醫(yī)治療新型冠狀病毒肺炎患者的優(yōu)勢。鑒于此,本研究采用隨機森林(RF)、支持向量機(SVC)、LightGBM、K 最近鄰(KNN)的機器學習方法,分別構(gòu)建非危重型新型冠狀病毒肺炎中醫(yī)智能化辨證模型,為中醫(yī)輔助診斷提供參考和依據(jù)。
2022 年12 月至2023 年6 月于天津中醫(yī)藥大學第一附屬醫(yī)院呼吸科、感染科、急診科就診的新冠病毒肺炎患者。
1)西醫(yī)診斷標準。符合國家衛(wèi)生健康委員會制定的《新型冠狀病毒肺炎診療方案(試行第七版)》[6]的輕型及普通型新冠患者。臨床癥狀:發(fā)熱和(或)呼吸道癥狀等新型冠狀病毒肺炎相關(guān)臨床表現(xiàn)。實驗室檢查:白細胞正常或降低;PCT 水平正常或輕度增高。具有新型冠狀病毒肺炎影像學特征:雙肺多發(fā)斑片狀、磨玻璃影。輕型:臨床癥狀輕微,影像學未見肺炎表現(xiàn)。普通型:具有發(fā)熱、呼吸道等癥狀,影像學可見肺炎表現(xiàn)。2)中醫(yī)診斷標準。參照天津市衛(wèi)健委發(fā)布的《天津市新型冠狀病毒肺炎中醫(yī)藥防治方案(第六版)》[7]辨證臨床治療期的相關(guān)內(nèi)容制定,將本病確定為濕邪困表證、瘟熱犯衛(wèi)證、熱毒襲肺證、濕蘊脾胃證共4 個證型。3)納入標準。符合上述西醫(yī)診斷標準及中醫(yī)辨證標準者;中醫(yī)四診信息完整者。4)排除標準。危重型COVID-19 患者;合并非感染性疾病如血管炎、皮肌炎和機化性肺炎等;中醫(yī)四診信息缺失者。
納入符合標準的病歷314 例,將病歷中四診信息及其對應(yīng)的證型數(shù)據(jù)手動錄入到Excel中,采用雙人雙錄入方法,再核對以保證數(shù)據(jù)的準確性,以此作為原始數(shù)據(jù)庫。將原始數(shù)據(jù)庫中涉及患者的四診信息進行規(guī)范化處理,如將“睡眠差”“失眠多夢”統(tǒng)一為“寐欠安”,“大便溏”“大便不成形”統(tǒng)一為“大便溏薄”。對于每個病歷的辨證部分按照上述證型標準進行規(guī)范,“濕邪困脾”“濕阻脾胃”等統(tǒng)一為“濕蘊脾胃”。將癥狀、體征等中醫(yī)四診信息條目作為輸入層初始系統(tǒng)協(xié)變量,證型作為系統(tǒng)輸出變量,最終得到四診信息,如表1 所示:證型共4 項,包括濕邪困表證、瘟熱犯衛(wèi)證、熱毒襲肺證、濕蘊脾胃證。
表1 中醫(yī)四診信息臨床指標
1.4.1 數(shù)據(jù)集的建立 要進行人工智能模型分析,首先要將自然語言文本轉(zhuǎn)換成計算機可以識別的數(shù)值內(nèi)容,使用“0~1”編碼對表1 的臨床指標進行賦值(即出現(xiàn)該特征記為“1”,不出現(xiàn)該特征記為“0”),對證型診斷進行獨立編碼,建立非危重型新型冠狀病毒肺炎數(shù)據(jù)集,賦值后的數(shù)據(jù)集作為數(shù)據(jù)源導(dǎo)入Python 3.7軟件。
1.4.2 數(shù)據(jù)集的劃分及處理 使用train_test_split 將數(shù)據(jù)集按7∶3 的比例分為訓練集和測試集,設(shè)置參數(shù)random_state=42,如圖1 所示,同時使用合成少數(shù)類過采樣(SMOTE)處理樣本類別不平衡的問題。SMOTE算法的核心是通過線性變換函數(shù)在一些距離較近的少數(shù)類數(shù)據(jù)中獲得新數(shù)據(jù),使原數(shù)據(jù)集類別間的數(shù)量相對平衡[8]。
圖1 數(shù)據(jù)集構(gòu)建原理圖
隨機森林是一種基于決策樹的集成算法,決策樹是一種樹形結(jié)構(gòu),其中每個節(jié)點表示一個特征,每個葉子節(jié)點表示一個輸出值,隨機森林通過構(gòu)建多個決策樹,對這些樹的輸出取平均值(回歸任務(wù))來進行預(yù)測,原理如圖2 所示。通過設(shè)置參數(shù)best_rf=RandomForestClassifier(n_estimators=10,max_depth=10,min_samples_split=4,min_samples_leaf=20,random_state=42),輸出的各證型的ROC曲線和混淆矩陣見圖3、圖4。結(jié)合圖3、圖4 可以看出該模型的分類正確率為93.69%,其AUC值為0.99。
圖2 隨機森林原理示意圖
圖3 隨機森林模型ROC曲線
圖4 隨機森林模型混淆矩陣
SVM 是一種強大的監(jiān)督學習算法,主要用于分類和回歸任務(wù)[9],是在給定訓練數(shù)據(jù)集的情況下,構(gòu)建一個能夠?qū)⑿聰?shù)據(jù)點分為不同類別的分類模型。SVC的主要思想是通過核函數(shù)構(gòu)造一個距離樣本點間隔最大超平面wTx+b=0[10],它能夠?qū)⒉煌悇e的數(shù)據(jù)點分開,并使這個超平面與最近的訓練數(shù)據(jù)點之間的間隔最大化。通過設(shè)置參數(shù)best_svm_model=SVC(probability=True,kernel= "rbf",C=0.17,gamma=0.02,random_state=42),輸出的各證型的ROC 曲線和混淆矩陣見圖5、圖6。結(jié)合圖5、圖6 可以看出該模型的分類正確率為88.20%,其AUC值為0.99。
圖6 支持向量機模型混淆矩陣
LightGBM 是一種梯度提升決策樹模型,它基于梯度提升算法,結(jié)合了(如圖7 所示)直方圖加速、自動處理缺失值和并行化處理等多項技術(shù),通過迭代地構(gòu)建多個弱學習器,每個學習器都試圖糾正前一個學習器的錯誤,提高了整體模型的性能。通過設(shè)置參數(shù)best_lgb_model=lgb.LGBMClassifier(learning_rate=0.01,n_estimators=30,max_depth=20,min_child_samples=45,subsample=0.5,random_state=42),輸出的各證型的ROC曲線和混淆矩陣見圖8、圖9。結(jié)合圖8、圖9可以看出該模型的分類正確率為94.82%,其AUC值為0.99。
圖7 葉子生長(leaf-wise)算法
圖8 LightGBM模型ROC曲線
圖9 LightGBM模型混淆矩陣
KNN 是一種基于實例的監(jiān)督學習算法,它根據(jù)與待預(yù)測樣本最近的訓練樣本的標簽來進行分類或回歸預(yù)測。如果一個樣本在特征空間中的k 個最鄰近的樣本中的大多數(shù)屬于某一個類別,則該樣本也劃分為這個類別。KNN 算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。通過設(shè)置參數(shù) best_knn_model=KNeighborsClassifier(n_neighbors=26),輸出的各證型的ROC 曲線和混淆矩陣見圖10、圖11。結(jié)合圖10、圖11 可以看出該模型的分類正確率為90.3%,其AUC值為0.99。
圖10 K最近鄰模型ROC曲線
圖11 K最近鄰模型混淆矩陣
在相同測試集下各模型的精確率、召回率、f1分數(shù)以及AUC 值如表2 所示。其中,SVM 的4 項評價指標高于其他模型,表明SVM 模型在非危重型新型冠狀病毒肺炎辨證數(shù)據(jù)中的性能優(yōu)于其他3種模型。
表2 模型性能評估指標
綜合上述4 種模型的評價結(jié)果,SVM 模型是非危重型新型冠狀病毒肺炎的最優(yōu)模型。SVM 模型的參數(shù)具有中醫(yī)可解釋性,可使用SHAP 值解釋機器學習模型和特征重要性[11]。SVM 的SHAP 值如圖12 所示,該圖結(jié)合了特征重要度和特征的影響,y 軸上的位置由特征決定,x軸上的位置由SHAP值決定[12]。圖中每一個點代表一個樣本,點越離散代表該特征對模型的影響越顯著,點越集中代表該特征對模型的影響越小。從圖中可以看出,貢獻度較大的是患者的脈象、舌苔及咽干咽痛、大便、發(fā)熱等癥狀,睡眠、咳嗽、頭痛、胸悶等癥狀影響較小。
圖12 支持向量機SHAP特征摘要圖
結(jié)合本文用到的4 種人工智能模型算法,對Python 所編寫的代碼進行封裝,構(gòu)建中醫(yī)輔助診療系統(tǒng)軟件,以便輔助臨床醫(yī)生進行診斷。該系統(tǒng)主要分為用戶基本信息、用戶癥狀體征、輔助診療3 個模塊,如圖13 所示。該軟件分3 個部分,第1 個界面為患者的基本信息,第2 個界面用于錄入所收集的四診信息,軟件內(nèi)置的4 種人工智能模型會對所錄入信息進行處理,輸出到第3 個界面,每個證型都附帶《天津市新型冠狀病毒肺炎中醫(yī)藥防治方案(第六版)》推薦的方藥及組成,以此提高診療效率,所錄入的信息及輸出的結(jié)果均保存在軟件內(nèi)置的數(shù)據(jù)庫,可導(dǎo)出到EXCEL 表中,方便保存數(shù)據(jù)以及對結(jié)果的進一步處理。該軟件界面簡潔,操作方便,正確高效,能大大提高醫(yī)生診斷及治療非危重型新冠患者的速度。
圖13 人工智能中醫(yī)輔助決策軟件
中醫(yī)古籍沒有“冠狀病毒肺炎”一說,但根據(jù)其發(fā)病迅速、主癥類似、傳播迅速、傳染性極強的特點,可歸屬于“疫病”范疇。明·吳又可的《溫疫論·原序》曰“夫瘟疫之為病,非風非寒非暑非濕,乃天地間別有一種異氣所感”。吳鞠通的《溫病條辨·上焦》曰“溫疫者,厲氣流行,多兼穢濁,家家如是,若役使然也”,可見疫病是有別于六淫而具有強烈傳染性的外感病邪,“厲氣、癘氣”是疫病的病因所在。此次新型冠狀病毒肺炎的病機以“寒濕”為主,與“毒、瘀、虛、熱(火)、痰、滯、結(jié)、燥、氣不攝津”等相關(guān);病位以肺為主,其次為脾[13]。中醫(yī)作為一門歷史悠久的醫(yī)學體系,其辨證論治的方法是診斷和治療疾病的重要手段。它強調(diào)從整體角度出發(fā),綜合分析患者的病情,根據(jù)不同的證候進行個性化治療,即“一人一證一方”,中醫(yī)辨證的個性化治療能為患者提供更加精準的治療方案。
近年來,人工智能技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用逐漸普及,在輔助診斷、治療和健康管理等方面取得了顯著成果。人工智能的優(yōu)勢在于處理大量數(shù)據(jù)、進行模式識別和預(yù)測等。在臨床應(yīng)用中,將人工智能和中醫(yī)辨證相結(jié)合具有顯著的優(yōu)勢。例如,利用人工智能技術(shù)對大量中醫(yī)醫(yī)案進行數(shù)據(jù)挖掘和分析,可以輔助醫(yī)生進行疾病診斷和證候分類。同時,人工智能還可以根據(jù)患者的個人信息和病情,為其提供個性化的中醫(yī)治療方案。這種結(jié)合方式不僅可以提高診斷和治療的準確性和效率,還可以降低醫(yī)療成本,為患者提供更好的醫(yī)療服務(wù)。在本文用到的4 種算法模型中,SVM 的準確率最高。SVM 作為針對小樣本數(shù)據(jù)分類和回歸問題提出的通用機器學習算法,分類性能良好,在多種疾病的臨床診斷、疾病分型、預(yù)后判斷等應(yīng)用中表現(xiàn)出了明顯的優(yōu)勢[14-15]。同時,隨著計算機技術(shù)和大數(shù)據(jù)技術(shù)的飛速發(fā)展,針對SVM 的研究愈來愈多,目前有聚類SVM、多元分類SVM、轉(zhuǎn)導(dǎo)SVM 等多種新型SVM 模型,這些模型在醫(yī)學領(lǐng)域的應(yīng)用將更加廣泛,分類性也會愈加優(yōu)良。
由于本研究所收集的臨床數(shù)據(jù)有限,模型所進行的模擬和訓練不足,對結(jié)果也有一定的影響,在以后的研究中,可以加入更多的臨床數(shù)據(jù)供人工智能學習,進一步提高診斷的準確率。RF、LightGBM、SVC、KNN 是目前中醫(yī)證候診斷使用比較多的算法模型,均能提供較高的準確率,但也存在一些缺點。RF的模型由于包含多個決策樹,故預(yù)測過程相對較慢,結(jié)果不太容易解釋;SVM 的訓練和預(yù)測過程相對復(fù)雜,尤其在大數(shù)據(jù)集上需要更多的計算資源,由于計算復(fù)雜度較高,SVM在處理大規(guī)模數(shù)據(jù)集時可能效率較低,當面對具有大量類別的多類別問題時,可能導(dǎo)致訓練時間較長。KNN 需要計算待預(yù)測數(shù)據(jù)點與所有訓練數(shù)據(jù)點之間的距離,因此在大型數(shù)據(jù)集上計算復(fù)雜度很高,對數(shù)據(jù)分布敏感,在不均勻分布的情況下可能會出現(xiàn)預(yù)測偏差。若是能綜合多個弱監(jiān)督模型的優(yōu)點,構(gòu)建集合模型,根據(jù)多個分類器的預(yù)測結(jié)果給出最終的預(yù)測結(jié)果,可能會大大提高預(yù)測的準確率和效率[16]??傊?,隨著時代的發(fā)展進步,中醫(yī)與人工智能的結(jié)合會越來越密切,在人工智能的幫助下,中醫(yī)的優(yōu)勢會進一步擴大,能夠為更多的患者減輕病痛,造福社會。