葛斐林, 郭玉明, 牛 明, 趙 旭, 柏兆方, 王伽伯, 肖小河
1 中國人民解放軍總醫(yī)院第五醫(yī)學(xué)中心 肝病醫(yī)學(xué)部研究所/全軍中醫(yī)藥研究所, 北京 100039;2 北京中醫(yī)藥大學(xué) 中藥學(xué)院, 北京 100029
近年來,國務(wù)院先后發(fā)布了《“健康中國2030”規(guī)劃綱要》及《“十三五”國家藥品安全規(guī)劃》等醫(yī)藥衛(wèi)生相關(guān)文件,藥物安全性已經(jīng)越來越成為國家層面關(guān)注的重點(diǎn)[1-2]。隨著藥物不良反應(yīng)(adverse drug reactions,ADR)的報(bào)道逐年增多以及公眾健康意識(shí)的提高,藥物的安全性問題也越來越受到公眾廣泛關(guān)注[3-5]。
由于ADR事件發(fā)生率較低, 有限的病例數(shù)據(jù)難以為藥物安全性評(píng)價(jià)提供更多的證據(jù)。醫(yī)療大數(shù)據(jù)時(shí)代的到來,為藥物警戒與風(fēng)險(xiǎn)防控帶來了極大的發(fā)展機(jī)遇[6-7]。然而,目前藥物警戒領(lǐng)域?qū)τ贏DR大數(shù)據(jù)的處理還處于探索階段。以ADR自發(fā)上報(bào)數(shù)據(jù)為例,數(shù)以百萬計(jì)的數(shù)據(jù)信息一方面提供了極為豐富的風(fēng)險(xiǎn)信號(hào);另一方面,由于數(shù)據(jù)本身規(guī)范性、完整性較差,給數(shù)據(jù)識(shí)別與評(píng)價(jià)造成了障礙??梢?,ADR大數(shù)據(jù)的信息資源尤為重要,而數(shù)據(jù)信息的高效識(shí)別和精準(zhǔn)分析則是安全性評(píng)價(jià)的關(guān)鍵。肝損傷相關(guān)ADR為臨床常見的藥物不良反應(yīng)之一, 嚴(yán)重者可致急性肝衰竭甚至死亡,其已成為藥物研發(fā)失敗、增加警示和撤市的重要原因, 受到醫(yī)藥界、制藥業(yè)、管理部門及公眾的高度重視[3,7]。因此,本研究以肝損傷相關(guān)ADR為例,嘗試從藥品不良反應(yīng)監(jiān)測(cè)系統(tǒng)(ADR-SRS)數(shù)據(jù)庫入手,在人工臨床再評(píng)價(jià)基礎(chǔ)上建立肝損傷相關(guān)ADR風(fēng)險(xiǎn)識(shí)別規(guī)則,實(shí)現(xiàn)基于肝損傷相關(guān)ADR文本知識(shí)庫的大數(shù)據(jù)智能識(shí)別評(píng)價(jià),以期為ADR大數(shù)據(jù)的智能識(shí)別提供方法參考,促進(jìn)藥品安全性評(píng)價(jià)與防控的積極推進(jìn)。
1.1 數(shù)據(jù)來源 本研究采用的文本數(shù)據(jù)來自2012年1月1日—2016年12月31日,ADR-SRS中標(biāo)記為“藥物性肝損傷”“藥源性肝損傷”“肝功能異常”“肝細(xì)胞損害”“肝損害”“肝炎”“肝酶升高”“肝衰竭”“肝毒性作用”“肝功能損害”“黃疸”“肝硬化”“肝區(qū)不適”“藥物性肝病”等肝損傷相關(guān)的ADR數(shù)據(jù)。
1.2 文本數(shù)據(jù)的清洗與歸一化處理 通過剔除重復(fù)上報(bào)數(shù)據(jù)及其他無關(guān)數(shù)據(jù)后,共得到肝臟相關(guān)ADR數(shù)據(jù)55 388例。抽取ADR名稱、臨床癥狀、臨床指標(biāo)、藥物信息等關(guān)鍵字段,將關(guān)鍵字段的“非標(biāo)準(zhǔn)表述”映射到“標(biāo)準(zhǔn)表述”,提出關(guān)鍵字段的語義層級(jí)劃分,根據(jù)《藥物性肝損傷診治指南》[3]以及《中藥藥源性肝損傷臨床評(píng)價(jià)技術(shù)指導(dǎo)原則》[8],為ADR名稱、臨床癥狀、臨床指標(biāo)、藥物信息進(jìn)行包含同義、對(duì)義的語義層級(jí)構(gòu)建,建立同義、對(duì)義詞庫。
1.3 數(shù)據(jù)析取與人工再評(píng)價(jià) 隨機(jī)抽取5%共計(jì)4152份肝損傷相關(guān)ADR病例報(bào)告,由2名5年資以上的肝病專科臨床醫(yī)生分別進(jìn)行臨床再評(píng)價(jià),參考WHO-UMC不良反應(yīng)因果關(guān)系評(píng)價(jià)標(biāo)準(zhǔn)[9]以及《藥物性肝損傷診治指南》[3],將肝損傷相關(guān)ADR再激發(fā)病例定義為“確定病例”,將ADR名稱與肝損傷無關(guān)及明顯非損肝藥物的病例定義為“否定病例”,其他病例為“疑似病例”。
1.4 智能識(shí)別規(guī)則的確定 依據(jù)人工再評(píng)價(jià)結(jié)果,分別提取不同分組中ADR風(fēng)險(xiǎn)信號(hào)識(shí)別的關(guān)鍵要素信息,對(duì)提取到的ADR名稱、臨床癥狀、臨床指標(biāo)與肝損傷相關(guān)ADR因果評(píng)估進(jìn)行相關(guān)性分析,確定方法建立所需要的關(guān)鍵指標(biāo);通過2倍中位數(shù)及ROC曲線分析,進(jìn)行關(guān)鍵指標(biāo)、評(píng)分標(biāo)準(zhǔn)及閾值的確定,確定智能識(shí)別基本規(guī)則。
1.5 智能識(shí)別規(guī)則的交叉驗(yàn)證 本研究中共有3組數(shù)據(jù)需要進(jìn)行交叉驗(yàn)證,即“疑似病例”-“否定病例”,“確定病例”-“疑似病例”,“確定病例”-“否定病例”,以檢驗(yàn)智能識(shí)別規(guī)則的識(shí)別穩(wěn)定性。比如“疑似病例”-“否定病例”的十折內(nèi)部交叉驗(yàn)證,即分別將“疑似病例”與“否定病例”分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),進(jìn)行試驗(yàn)。每次試驗(yàn)都會(huì)得出相應(yīng)的正確率(或差錯(cuò)率),10次結(jié)果正確率(或差錯(cuò)率)的平均值作為對(duì)算法精度的估計(jì)。
2.1 同義、對(duì)義語義詞庫的建立 通過對(duì)肝損傷相關(guān)ADR關(guān)鍵字段的規(guī)范化處理,將ADR名稱,生化指標(biāo),臨床癥狀的同義、對(duì)義表述進(jìn)行歸一化處理。例如不良反應(yīng)名稱中的“肝功能異常”的同義表述包括肝功異常、肝功能受損、肝功能損害、肝功異常加重、肝功能變化、肝功能失調(diào),對(duì)義表述包括轉(zhuǎn)氨酶升高、轉(zhuǎn)氨酶異常、肝酶升高、肝酶異常、轉(zhuǎn)移酶高、轉(zhuǎn)氨酶升高;生化指標(biāo)中的“ALT”的同義表述包括GPT、丙氨酸氨基轉(zhuǎn)移酶、谷丙轉(zhuǎn)氨酶、谷氨酸-丙酮酸轉(zhuǎn)氨酶、丙氨酸氨基轉(zhuǎn)移酶、轉(zhuǎn)氨酶。
2.2 關(guān)鍵字段的熱圖分析 將析取后的關(guān)鍵字段進(jìn)行肝損傷相關(guān)ADR的熱圖分析發(fā)現(xiàn),ADR名稱、生化指標(biāo)、臨床癥狀在“確定病例”“疑似病例”“否定病例”分組中的區(qū)分度較好,因此將ADR名稱、生化指標(biāo)、臨床癥狀確定為肝損傷相關(guān)ADR智能識(shí)別關(guān)鍵要素(圖1~3)。
圖1 “確定病例”“疑似病例”“否定病例”的ADR名稱熱圖分析
2.3 關(guān)鍵指標(biāo)的確定及打分標(biāo)準(zhǔn) 通過2倍中位數(shù)確定關(guān)鍵指標(biāo)并評(píng)分,即ADR名稱、臨床癥狀、生化指標(biāo)中大于2倍中位數(shù)的數(shù)據(jù),K=K疑似+K確定,3項(xiàng)數(shù)據(jù)具備2項(xiàng)指標(biāo)的病例計(jì)3分,只有1項(xiàng)指標(biāo)計(jì)2分,無指標(biāo)計(jì)1分,即K疑似∩K確定=3分、K-K疑似∩K確定=2分、其他=1分。
通過打分,臨床癥狀中,納差、發(fā)熱、皮膚瘙癢等為3分;肝掌、肝區(qū)不適為2分;上腹部脹痛、尿黃、柏油樣便等為1分。生化指標(biāo)中,AST、ALT、GGT等為3分;AKP、PTs為2分;ChE、PTA、Alb等為1分。ADR名稱中,肝功能異常、肝細(xì)胞損害為3分;肝酶升高、轉(zhuǎn)氨酶升高為2分;肝損害、肝損傷、肝炎等為1分。
圖2 “確定病例”“疑似病例”“否定病例”的生化指標(biāo)熱圖分析
圖3 “確定病例”“疑似病例”“否定病例”的臨床癥狀熱圖分析
依據(jù)上述關(guān)鍵指標(biāo)打分標(biāo)準(zhǔn),確定肝損傷相關(guān)ADR評(píng)價(jià)識(shí)別公式為:總分(M)=癥狀分?jǐn)?shù)+指標(biāo)分?jǐn)?shù)+不良反應(yīng)名稱分?jǐn)?shù)。M≤5分:否定肝損傷,5分 2.4 評(píng)分閾值的確定 通過ROC曲線對(duì)肝損傷相關(guān)ADR的評(píng)價(jià)打分進(jìn)行閾值分析,發(fā)現(xiàn)“否定病例”與“疑似病例”“確定病例”在M=5分區(qū)分度最好(AUC=0.97),敏感度為99.57%,特異度為84.61%,“確定病例”與“疑似病例”“否定病例”在M=12分區(qū)分度最好(AUC=0.938),敏感度為87.93%,特異度為85.98%(圖4、5)。 圖4 “否定病例”與“疑似病例”“確定病例”肝損傷相關(guān)ADR診斷的ROC曲線 2.5 智能識(shí)別規(guī)則評(píng)分的分布及交叉驗(yàn)證結(jié)果 采用內(nèi)部交叉驗(yàn)證的方法對(duì)智能識(shí)別規(guī)則評(píng)分效能進(jìn)行評(píng)價(jià),結(jié)果顯示:“疑似病例”-“否定病例”的交叉驗(yàn)證結(jié)果為(R2X,R2Y,Q2)=(1,0.239,0.239),“確定病例”-“疑似病例”的交叉驗(yàn)證結(jié)果為(R2X,R2Y,Q2)=(1,0.054,0.054),“確定病例”-“否定病例”的交叉驗(yàn)證結(jié)果為(R2X,R2Y,Q2)=(1,0.334,0.334)。通過3組病例智能識(shí)別規(guī)則評(píng)分分布 (圖6),“確定病例”與“否定病例”,“疑似病例”與“否定病例”的區(qū)分較好,“肯定病例”“疑似病例”與三者的區(qū)分性較差。 圖5 “確定病例”與“否定病例”“疑似病例”肝損傷相關(guān)ADR診斷的ROC曲線 圖6 基于智能識(shí)別規(guī)則的“肯定病例”“疑似病例”“否定病例”的評(píng)分分布 本研究通過對(duì)肝損傷相關(guān)ADR大數(shù)據(jù)的規(guī)范化處理、相關(guān)性分析、關(guān)鍵指標(biāo)的確定及打分標(biāo)準(zhǔn)、評(píng)分閾值的確定,建立了一種基于文本知識(shí)庫的肝損傷相關(guān)ADR大數(shù)據(jù)智能識(shí)別新方法。交叉驗(yàn)證結(jié)果顯示“疑似病例”-“否定病例”,“確定病例”-“否定病例”的區(qū)分效果較好,“確定病例”-“疑似病例”的區(qū)分效果較差。表明該方法識(shí)對(duì)于肝損傷相關(guān)ADR的“是”與“否”區(qū)別度較好,結(jié)果穩(wěn)定可靠,具有實(shí)際運(yùn)用的價(jià)值,可應(yīng)用于肝損傷相關(guān)ADR大數(shù)據(jù)風(fēng)險(xiǎn)信號(hào)篩選與識(shí)別研究。 本研究以“文本數(shù)據(jù)的收集→文本數(shù)據(jù)的清洗與歸一化處理→指標(biāo)的相關(guān)性分析→關(guān)鍵指標(biāo)的確定→關(guān)鍵指標(biāo)的打分標(biāo)準(zhǔn)→評(píng)分閾值的確定→評(píng)分方法的交叉驗(yàn)證”為基本研究思路,是基于ADR大數(shù)據(jù)探索建立的肝損傷相關(guān)ADR識(shí)別新方法。從未經(jīng)規(guī)范化處理的大量ADR數(shù)據(jù)中高效篩選出肝損傷相關(guān)ADR數(shù)據(jù),為肝損傷相關(guān)ADR風(fēng)險(xiǎn)信號(hào)挖掘及相關(guān)藥物安全性評(píng)價(jià)提供了可靠的數(shù)據(jù)源。該方法的建立不僅很大程度上節(jié)省了識(shí)別評(píng)價(jià)大樣本ADR初篩的人力和時(shí)間,而且可以提高大樣本識(shí)別的準(zhǔn)確度。 目前藥物警戒領(lǐng)域?qū)τ贏DR大數(shù)據(jù)的處理仍處于探索階段,相關(guān)研究較少,還沒有形成一個(gè)相對(duì)完整的規(guī)范化流程。比如,有相關(guān)研究運(yùn)用聚類分析、神經(jīng)網(wǎng)絡(luò)等方法對(duì)ADR大數(shù)據(jù)進(jìn)行了智能識(shí)別評(píng)價(jià),為ADR大數(shù)據(jù)的高效識(shí)別和精準(zhǔn)分析提供了可參考方案[10-13]。然而其仍存在缺乏與人工臨床再評(píng)價(jià)結(jié)合、數(shù)據(jù)規(guī)范化處理等問題,有一定局限性。而本研究在數(shù)據(jù)規(guī)范化處理的基礎(chǔ)上,以人工臨床再評(píng)價(jià)與智能識(shí)別相結(jié)合,嘗試構(gòu)建了一個(gè)ADR大數(shù)據(jù)智能識(shí)別的方法以及可參考的規(guī)范化流程。 本研究也存在局限性,由于ADR部分?jǐn)?shù)據(jù)缺失,在使用該方法智能識(shí)別的過程中可能存在偏倚,有待增加大樣本外部驗(yàn)證,進(jìn)而完善該方法。同時(shí),創(chuàng)建結(jié)構(gòu)化、規(guī)范化醫(yī)療大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)整合與共享將為ADR風(fēng)險(xiǎn)防控與藥物警戒帶來更有力的契機(jī)。基于目前醫(yī)療大數(shù)據(jù)存在的問題,研究團(tuán)隊(duì)前期已經(jīng)創(chuàng)建了多源數(shù)據(jù)融合與共享共創(chuàng)于一體的藥源性肝損傷主動(dòng)監(jiān)測(cè)與評(píng)價(jià)大數(shù)據(jù)平臺(tái)[14],以期為實(shí)現(xiàn)全民共享共治的藥物安全性評(píng)價(jià)與風(fēng)險(xiǎn)防控提供有力的數(shù)據(jù)平臺(tái)和研究模式。結(jié)合本研究嘗試建立的醫(yī)療大數(shù)據(jù)智能識(shí)別方法,從而為醫(yī)療大數(shù)據(jù)的進(jìn)一步評(píng)價(jià)及處理提供便利,以期將醫(yī)療大數(shù)據(jù)的挑戰(zhàn)轉(zhuǎn)化為機(jī)遇,從而為醫(yī)療衛(wèi)生的大健康做出更大的貢獻(xiàn)。 利益沖突聲明:本研究不存在研究者、倫理委員會(huì)成員、受試者監(jiān)護(hù)人以及與公開研究成果有關(guān)的利益沖突,特此聲明。 作者貢獻(xiàn)聲明:葛斐林負(fù)責(zé)分析數(shù)據(jù),撰寫文章;牛明、趙旭、柏兆方負(fù)責(zé)整理數(shù)據(jù);肖小河負(fù)責(zé)論文的修改;郭玉明、王伽伯負(fù)責(zé)擬定論文思路,指導(dǎo)撰寫文章并最后定稿。3 討論