楊 蘊(yùn),阮春陽,裴朝翰,楊美清,鐘 薏,張彥春,5**,田建輝,4**
(1.上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院 上海 200032;2.上海中醫(yī)藥大學(xué)附屬上海市中西醫(yī)結(jié)合醫(yī)院 上海 200082;3.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院醫(yī)療健康大數(shù)據(jù)研究中心 上海 201203;4.上海市中醫(yī)藥研究院中醫(yī)腫瘤研究所 上海 200032;5.維多利亞大學(xué)應(yīng)用信息學(xué)研究中心 墨爾本 3020)
中醫(yī)藥防治惡性腫瘤的療效已經(jīng)得到嚴(yán)格的臨床研究證實(shí)[1]。綜合運(yùn)用中醫(yī)藥治療肺癌可延長(zhǎng)患者生存、提高生存質(zhì)量,并具有一定的抑瘤作用[2,3]。中醫(yī)診療既有背景知識(shí)的運(yùn)用,邏輯規(guī)則的運(yùn)用,也有大量不確定性問題的分析和求解,是醫(yī)生辨證施治的精華[4]。但是中醫(yī)臨床過程屬于隱性思維難以具象化,真正掌握其精髓難度很大[5]。目前跟師侍診仍被認(rèn)為是傳承的重要方法,但要較好的傳承和發(fā)展中醫(yī)藥跟師之余還需要善于思考和總結(jié),能夠在原有知識(shí)的基礎(chǔ)上有一定的發(fā)現(xiàn)和創(chuàng)新。人工智能已廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域,基于對(duì)海量數(shù)據(jù)的處理和挖掘,可以避免人類認(rèn)知偏差導(dǎo)致的錯(cuò)誤[6]。目前人工智能與中醫(yī)診療的結(jié)合還停留在初級(jí)的階段,如人工智能與中藥方劑的結(jié)合目前還是主要以數(shù)據(jù)分析,用藥規(guī)律歸納為主[7];也有一些對(duì)于智能處方系統(tǒng)的研究,但主要著重從古籍及現(xiàn)有的教材中提取數(shù)據(jù),且未限制病種[8,9],數(shù)據(jù)、疾病譜并不貼近當(dāng)今臨床。為促進(jìn)人工智能技術(shù)推動(dòng)中醫(yī)藥的傳承創(chuàng)新,課題組與復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院醫(yī)療健康大數(shù)據(jù)研究中心合作,以肺癌單病種的中醫(yī)藥處方智能系統(tǒng)構(gòu)建為切入點(diǎn),對(duì)中醫(yī)藥與人工智能技術(shù)結(jié)合進(jìn)行初步探索。
所有病例來自龍華醫(yī)院2010年5月至2018年7月于門診診療的肺癌患者,共計(jì)3500 例次。診斷符合《中國常見惡性腫瘤診治規(guī)范》中的相關(guān)標(biāo)準(zhǔn)[10]。因前期處理發(fā)現(xiàn)相應(yīng)癥狀較少的病例會(huì)對(duì)最終的結(jié)果及系統(tǒng)的處理產(chǎn)生比較大的干擾,經(jīng)過處理剔除癥狀數(shù)少于5個(gè)的病例,最終進(jìn)入分析病例數(shù)為295 5例次。
圖1 智能處方構(gòu)建方法
圖2 計(jì)算方法
圖3 具體計(jì)算流程
表1 藥物數(shù)量分布表(單位:次)
將患者當(dāng)次就診的癥狀和處方輸入人工智能系統(tǒng)進(jìn)行訓(xùn)練,同時(shí)規(guī)范了所有的癥狀,將描述相同癥狀的不同用語進(jìn)行統(tǒng)一,具體標(biāo)準(zhǔn)參照《中醫(yī)診斷學(xué)》[11],如:黃痰、痰黃合并為痰黃。對(duì)同一種藥物的不同名稱進(jìn)行統(tǒng)一:如八月札、預(yù)知子統(tǒng)一為八月札。
基于高斯核的嶺回歸,然后通過實(shí)際的病例108例(測(cè)試病例來自田建輝主任醫(yī)師2018 年8 月-2018年10 月的真實(shí)病例)對(duì)人工智能的處方進(jìn)行驗(yàn)證,輸入實(shí)際病例的癥狀,然后系統(tǒng)自動(dòng)產(chǎn)生該患者的處方,以系統(tǒng)輸出的處方與實(shí)際病例臨床醫(yī)生所開具的處方進(jìn)行比較來評(píng)價(jià)人工智能肺癌處方系統(tǒng)。主要計(jì)算準(zhǔn)確 率:Precision={Ins}/{Pred};召 回 率:Recall={Ins}/{True};F1 值:(2*Precision*Recall)/(Precision+Recall)。采取2-8 折交叉驗(yàn)證,平均情況:P:61.3%、R:64.8%、F1:62.9%。
Input X 為n x m 維矩陣,n 為2955,m 為癥狀數(shù)量187,訓(xùn)練集target Y 為n x p 維矩陣,n 為2955,p 為357。矩陣為0-1二值矩陣。
所有病例中癥狀數(shù)量:189 個(gè),藥物數(shù)量:357 個(gè),并根據(jù)藥物出現(xiàn)的頻次進(jìn)行了分級(jí),出現(xiàn)頻次大于300 次的藥物有50 種,出現(xiàn)頻次在201-300 次的藥物有18 種,出現(xiàn)頻次在101-200 次的藥物有33 種,出現(xiàn)頻次在0-100次的藥物有256種。
具體結(jié)果分析對(duì)其中108例病例抽樣作為測(cè)試集驗(yàn)證,總體情況與平均情況類似。
通過表2可以看出,對(duì)于出現(xiàn)頻率高于300次的藥物,預(yù)測(cè)效果比較滿意,準(zhǔn)確率達(dá)到62.9%,召回率80.2%,F(xiàn)1值為70.5%。但是出現(xiàn)頻率低于300次的藥物與理想結(jié)果有差距,出現(xiàn)頻率低于100 次的藥物的準(zhǔn)確率只有個(gè)位數(shù)。
表2 根據(jù)藥物出現(xiàn)頻率分類的測(cè)試結(jié)果(方法一)(單位:%)
針對(duì)上述的問題我們改進(jìn)了算法,不對(duì)所有藥物統(tǒng)一劃定閾值,而是根據(jù)頻率,大于300 的統(tǒng)一劃定,低于300 的每種藥物分別劃定,再次進(jìn)行病例測(cè)試。通過表3可以看到,出現(xiàn)頻率大于300次的準(zhǔn)確率可以達(dá)到66.8%,召回率74.4%,F(xiàn)1值為70.3%。
表3 分類考慮不同頻率的藥物結(jié)果(方法二)(單位:%)
表4 可以看出分別考慮之后,低頻率的藥物預(yù)測(cè)結(jié)果有所改善,但是>300 的藥物的召回率略有下降,因?yàn)椋?00的藥物總出現(xiàn)次數(shù)占比約75%,所以總體準(zhǔn)確率結(jié)果是略有下降。對(duì)于低頻藥物預(yù)測(cè)效果不好的原因是采樣問題,正面樣本過少,負(fù)面樣本過多。對(duì)于回歸方程的建立存在很大的干擾。嘗試過采取欠采樣過采樣算法,但是不僅僅是相對(duì)不均衡,樣本的絕對(duì)數(shù)量也不足,造成采用欠采樣過采樣算法之后,假陽性特別高,準(zhǔn)確率特別低。
表4 對(duì)于不同頻率藥物,在108例測(cè)試集的出現(xiàn)次數(shù)統(tǒng)計(jì)(單位:個(gè))
為腫瘤患者開具中藥處方是一個(gè)復(fù)雜的思考過程,為驗(yàn)證人工智能構(gòu)建的處方是否擬合臨床醫(yī)師的診療思維過程,課題組邀請(qǐng)了上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院三位專門從事肺癌中醫(yī)診治的主任醫(yī)師進(jìn)行評(píng)估,針對(duì)人工智能處方系統(tǒng)生成的處方進(jìn)行打分,分?jǐn)?shù)在0-10 分之間(0 分為處方與臨床實(shí)際處方完全不符合,10 分為與臨床實(shí)際處方完全符合,分?jǐn)?shù)越高代表處方與臨床實(shí)際符合程度越高),與測(cè)試病例比對(duì)不同,專家的評(píng)估在一定程度上更合理,更貼近現(xiàn)實(shí),三位專家最終對(duì)肺癌人工智能系統(tǒng)輸出的方法一處方評(píng)分為8 分,對(duì)方法二處方評(píng)分為8.3 分,方法一在一定程度上放棄了低頻藥物的處理,由于樣本量的局限有部分藥物出現(xiàn)頻率過低,從專家評(píng)判結(jié)果一致認(rèn)為方法二構(gòu)建的處方更合理(表5,表6)。專家均認(rèn)為在目前所達(dá)到的階段其生成的處方可以作為門診患者診療后的基礎(chǔ)處方,由專業(yè)醫(yī)師在其基礎(chǔ)上根據(jù)實(shí)際情況再進(jìn)行調(diào)整,這樣可以大大提高門診醫(yī)師的診療效率。
表5 肺癌人工智能系統(tǒng)輸出處方(方法一)
表6 肺癌人工智能系統(tǒng)輸出結(jié)果(方法二)
病案資料:患者吳某,女,51 歲。主訴:左肺腺癌術(shù)后1月余?;颊?018年4月因發(fā)現(xiàn)肺部陰影就診于上海某醫(yī)院。后行PET-CT 提示:左肺下葉見混合型磨玻璃結(jié)節(jié),F(xiàn)DG高代謝,考慮惡性病變。右肺上葉后段支氣管旁小結(jié)節(jié),F(xiàn)DG 代謝高。兩側(cè)肺門及縱膈淋巴結(jié)密度略高,F(xiàn)DG略增高,炎性可能。腫瘤標(biāo)志物正常。后于2018年5月14日行左肺下葉切除術(shù),術(shù)后病理:左肺下葉外基地段混合型浸潤(rùn)性粘液低分化腺癌,篩孔樣濾泡型腺癌約60%,伴粘液腺癌約30%,及伏壁型成分約10%。大小約2.3*2.1*1.2cm,見脈管侵犯,腫瘤抵達(dá)胸膜下,但未突破彈力層,彈力纖維染色(-)。支氣管切斷未見癌累及。淋巴結(jié)組1+/6組見癌轉(zhuǎn)移。酶標(biāo):TTF(+),NapsinA(+),P40(-),CK5/6(-),ALK融合基因檢測(cè):(+)??滔拢簾o咳嗽,舌紅,苔薄白,脈沉弱,夜寐欠安。診斷:左肺腺癌PT1N1M0 IIb期。輸入癥狀為:寐欠安,舌紅,苔薄白,脈沉,脈弱。將這組癥狀輸入到系統(tǒng)中,系統(tǒng)自動(dòng)輸出:方法1(生黃芪淮山藥生白術(shù)茯苓麥冬黃精菟絲子仙靈脾女貞子魚腥草桔梗蛇舌草石見穿石上柏絞股藍(lán)制半夏象貝母山慈菇雞內(nèi)金合歡皮黃連);方法2(生黃芪淮山藥生白術(shù)茯苓麥冬黃精菟絲子仙靈脾女貞子魚腥草桔梗蛇舌草石見穿石上柏絞股藍(lán)制半夏象貝母山慈菇雞內(nèi)金烏梅合歡皮夜交藤黃連肉桂熟附子干姜細(xì)辛川椒目當(dāng)歸關(guān)黃柏)。肺癌人工智能系統(tǒng)輸出的處方與田建輝主任醫(yī)師實(shí)際開具的處方進(jìn)行比較評(píng)估后發(fā)現(xiàn)該患者根據(jù)相關(guān)癥狀辨證為氣陰兩虛,給予益氣養(yǎng)陰配合清熱解毒抗腫瘤及改善相關(guān)伴隨癥狀的治療,與臨床實(shí)際開具的處方比較吻合,進(jìn)行個(gè)別藥物調(diào)整后可以開具給患者。
圖4 肺癌人工智能處方系統(tǒng)頁面
本項(xiàng)研究發(fā)現(xiàn),中醫(yī)藥人工智能處方系統(tǒng)從單病種切入更符合臨床實(shí)際,優(yōu)于不區(qū)分病種的大數(shù)據(jù)分析。Wei Li[9]等人從中藥方劑數(shù)據(jù)庫中抓取了85 166張?zhí)幏?,獲得82 044個(gè)癥狀,驗(yàn)證得到準(zhǔn)確率38.22%,召回率30.18%,F(xiàn)1 值33.73%,是未區(qū)分病種的中醫(yī)藥人工智能嘗試。本研究嘗試單病種以及利用真實(shí)的現(xiàn)代臨床中醫(yī)病案進(jìn)行的人工作智能處方系統(tǒng)訓(xùn)練。比較后可知,單一病種的人工智能體系通過算法調(diào)整可能得到的準(zhǔn)確率更高,可以運(yùn)用于臨床的可行性也更大,且使用歷代文獻(xiàn)及醫(yī)案中所記載的疾病,疾病種類繁雜分散,且與現(xiàn)代疾病譜有一定差距。直接運(yùn)用于臨床使用當(dāng)代的病例資料是更好的選擇?;谖覀?95 5例次的人工智能建模的初步探索,人工智能技術(shù)有望形成與中醫(yī)專家高匹配的自動(dòng)處方,通過該技術(shù),可以基于大量的優(yōu)質(zhì)的門診數(shù)據(jù)來訓(xùn)練人工智能,形成一個(gè)高準(zhǔn)確率的肺癌人工智能處方系統(tǒng)。
在肺癌人工智能處方系統(tǒng)的研究過程中也發(fā)現(xiàn)了一些問題。首先處方系統(tǒng)通過癥狀輸出的處方,雖然根據(jù)處方可以對(duì)患者的證型進(jìn)行推算,但是處方系統(tǒng)并未單獨(dú)輸出辨證的這一個(gè)環(huán)節(jié),系統(tǒng)的辨證直接體現(xiàn)在處方之中,后續(xù)的研究可以考慮增加辨證這個(gè)環(huán)節(jié),使該處方系統(tǒng)的整個(gè)診療過程更加完整。其次對(duì)于正面樣本,即出現(xiàn)次數(shù)大于300次的藥物,預(yù)測(cè)效果比較理想,目前約3000 例/次的病案對(duì)應(yīng)需要大數(shù)據(jù)的人工智能而言數(shù)量太少,所以如能進(jìn)一步提高病例數(shù)使絕大部分藥物的出現(xiàn)頻率達(dá)到300次及以上將大大提高整體的準(zhǔn)確率,高質(zhì)量的大數(shù)據(jù)是系統(tǒng)準(zhǔn)確率的的重要基礎(chǔ)。
本研究初步構(gòu)建的肺癌處方系統(tǒng)在后續(xù)的完善和改進(jìn)后期望可以在中醫(yī)傳承、臨床及科研中發(fā)揮作用:①智能處方系統(tǒng)也包含了用藥規(guī)律分析,藥物與癥狀的關(guān)聯(lián)性分析等功能,總結(jié)用藥規(guī)律,基于訓(xùn)練系統(tǒng)所使用病例都是具有豐富經(jīng)驗(yàn)及良好臨床療效的醫(yī)師的醫(yī)案,基于系統(tǒng)可以對(duì)相關(guān)專業(yè)的學(xué)生及實(shí)習(xí)醫(yī)生進(jìn)行臨床能力的訓(xùn)練和驗(yàn)證,更好的傳承中醫(yī)藥的技術(shù);②可以提高門診醫(yī)生的處方效率,減少他們輸入基礎(chǔ)處方所占用的時(shí)間,僅僅需要在人工智能輸出的處方上進(jìn)行相應(yīng)的調(diào)整;③可以將歷代肺癌醫(yī)案資料和現(xiàn)代中藥藥理研究信息一同融入模型構(gòu)建,增加智能處方系統(tǒng)的科學(xué)性和實(shí)用性。
人工智能肺癌處方系統(tǒng)如果可以結(jié)合客觀化的四診以及結(jié)構(gòu)化的病歷收集系統(tǒng),無疑可以大大提升數(shù)據(jù)收集質(zhì)量以及智能學(xué)習(xí)成果。后續(xù)可進(jìn)一步通過該系統(tǒng)對(duì)中醫(yī)古籍中與肺癌有關(guān)記載的文本挖掘,梳理出與肺癌有關(guān)的診療規(guī)律。為新藥研發(fā)和完善現(xiàn)有的診療策略提供借鑒。同時(shí)將中醫(yī)藥的四診(望、聞、問、切)與現(xiàn)代醫(yī)學(xué)的診療結(jié)果相結(jié)合,以生存期為療效指標(biāo),從大量臨床數(shù)據(jù)中挖掘最佳的中西醫(yī)診療方案,協(xié)助建立中醫(yī)綜合治療指南。
通過本次研究也對(duì)中醫(yī)藥與人工智能的結(jié)合有了更深入的認(rèn)識(shí)。引入中醫(yī)特色的結(jié)構(gòu)化病歷收集系統(tǒng),全面完整的收集病史,以解決部分門診病歷書寫過于簡(jiǎn)單,問診時(shí)癥狀的缺失和遺漏,這樣可以增加癥狀與處方關(guān)聯(lián)性。在醫(yī)學(xué)領(lǐng)域已經(jīng)有了一些結(jié)構(gòu)化病歷應(yīng)用于輔助診斷,如廣州市婦女兒童醫(yī)療中心的研究人員用深度學(xué)習(xí)的方法讀取NLP 模型中的臨床數(shù)據(jù),結(jié)構(gòu)化臨床數(shù)據(jù)。對(duì)電子醫(yī)學(xué)病例進(jìn)行數(shù)據(jù)挖掘,將醫(yī)學(xué)知識(shí)和數(shù)據(jù)驅(qū)動(dòng)模型結(jié)合在一起,最終形成的AI診斷平臺(tái),其診斷準(zhǔn)確率達(dá)90%[12]。這種結(jié)構(gòu)化病例的方式可以提升臨床數(shù)據(jù)的質(zhì)量。同時(shí)從中可以有更多的數(shù)據(jù)挖掘,在后期的臨床數(shù)據(jù)收集過程中運(yùn)用這類方法也將大大提高效率,也將使中醫(yī)處方輸出的人工智能更加完整。此外,基于中醫(yī)的治療是以辯證為基礎(chǔ)來論治的,準(zhǔn)確客觀的辨證是非常重要的,而辨證是基于望、聞、問、切、查等收集的患者信息,這就需要結(jié)合客觀化的診斷技術(shù)解決由于不同醫(yī)師主觀因素造成診斷誤差問題,比如結(jié)合語音、非語音和氣味診斷,將聲音、氣味信號(hào)特征納入多種算法中分析使聞診基于多學(xué)科結(jié)合的量化,使得聞診客觀化[13];基于圖像分析技術(shù)的舌診客觀化;綜合運(yùn)用壓力、聲音、光學(xué)、多普勒超聲等信息采集技術(shù)結(jié)合中醫(yī)理論及疾病的特診的脈象采集人工智能技術(shù)[14];為規(guī)避由于方言、不同種類語言造成的醫(yī)患溝通問題基于多語言及方言識(shí)別和癥狀要素提取的客觀化問診系統(tǒng),人工智能可以為中醫(yī)四診客觀化研究注入了新的動(dòng)力,幫助中醫(yī)師從繁雜的信息采集中解放出來,從事更有價(jià)值的決策與判斷工作。在新的時(shí)代機(jī)遇下,具有高靈敏度的機(jī)器學(xué) 習(xí)算法、高可靠性的傳感采集設(shè)備及正在逐步完善 的行業(yè)標(biāo)準(zhǔn)或許將成為四診客觀化、國際化的重要基石[15]。