高 嵩 高月娟 朱仁英 王莉莉▲ 修艷麗 畢琳瑜
1.牡丹江醫(yī)學(xué)院護(hù)理學(xué)院,黑龍江牡丹江 157011;2.牡丹江醫(yī)學(xué)院附屬紅旗醫(yī)院藥學(xué)部,黑龍江牡丹江 157011;3.牡丹江醫(yī)學(xué)院附屬紅旗醫(yī)院護(hù)理部,黑龍江牡丹江 157011
數(shù)據(jù)挖掘(data mining,DM)是在海量、模糊且有干擾的隨機(jī)數(shù)據(jù)中,自動選取隱藏在其中的潛在有用的知識的過程[1]。其原理復(fù)雜,算法多樣,已廣泛應(yīng)用于醫(yī)藥領(lǐng)域。其中,在藥品不良反應(yīng)(adverse drug reaction,ADR)監(jiān)測中更是被普遍運(yùn)用。ADR 監(jiān)測技術(shù)眾多,近年來人們一直在致力于提升監(jiān)測報告的數(shù)量和質(zhì)量,擴(kuò)大監(jiān)測網(wǎng)絡(luò)覆蓋面,并逐步完善監(jiān)測體系,逐漸從ADR 的被動監(jiān)測過渡到ADR 的主動監(jiān)測。本文將從DM 技術(shù)在ADR 監(jiān)測的應(yīng)用方面進(jìn)行綜述,以期為ADR 監(jiān)測工作提供有意義的指導(dǎo)。
自1960年前后沙利度胺事件后,各國相繼出現(xiàn)許多影響惡劣的事件,國外從設(shè)立監(jiān)測報告制度、建立專門監(jiān)測系統(tǒng)到藥物警戒理念的應(yīng)用,表明了ADR 監(jiān)測正在逐步走向成熟。我國于1980年前后開始進(jìn)行ADR 監(jiān)測的工作,在京、滬、粵等地開始實施ADR 報告制度的試點(diǎn)。自1999—2019年,我國ADR監(jiān)測網(wǎng)絡(luò)共累計收到1519 萬份的ADR 的報告,在2019年收到150 余萬份報告,其中新的和嚴(yán)重的ADR 報告數(shù)近48 萬份,占同期的31.5%[2]。面對這些情況,其解決的辦法主要是應(yīng)用自發(fā)呈報系統(tǒng)來發(fā)現(xiàn)ADR 信號。盡管該系統(tǒng)多有不足[3],但其監(jiān)測領(lǐng)域廣、使用經(jīng)濟(jì),是目前公認(rèn)的主流的ADR 信號挖掘手段[4]。近年來,各國發(fā)現(xiàn)ADR 信號的方式已經(jīng)由被動監(jiān)測逐漸發(fā)展為主動監(jiān)測,并設(shè)計開發(fā)了一系列的主動監(jiān)測系統(tǒng)[5],給藥物安全提供了新的監(jiān)測思路。各國研究者現(xiàn)已經(jīng)將研究的焦點(diǎn)對準(zhǔn)在ADR 監(jiān)測上,為了改善傳統(tǒng)報告方式的缺陷,研究者們將DM 技術(shù)用在ADR監(jiān)測中,期望指導(dǎo)人們更安全和有效地應(yīng)用藥物。
DM 技術(shù)是從大數(shù)據(jù)中主動搜索隱藏于其中的特殊信息和知識的關(guān)聯(lián)的過程[1]。其應(yīng)用的流程是在經(jīng)過初步信息收集以后將數(shù)據(jù)集成和清洗,再進(jìn)行數(shù)據(jù)的規(guī)約,經(jīng)過反復(fù)多次數(shù)據(jù)清洗后,進(jìn)行數(shù)據(jù)轉(zhuǎn)換,建立數(shù)據(jù)模型,選擇算法對數(shù)據(jù)進(jìn)行挖掘,最后進(jìn)行結(jié)果的評估,并在驗證和分析后對結(jié)果進(jìn)行應(yīng)用。DM的過程是需要經(jīng)歷多次重復(fù)的,若其中一個環(huán)節(jié)未達(dá)預(yù)期,都要退回到前一環(huán)節(jié)再次進(jìn)行操作[1]。應(yīng)用DM技術(shù)是為了分析信息并將復(fù)雜的數(shù)據(jù)集轉(zhuǎn)換為可理解的數(shù)據(jù)[6],從而挖掘出對用戶潛在有用的知識。
2.2.1 頻數(shù)法 在頻數(shù)法的運(yùn)用中,目前多用比值失衡測量法,該方法包含了報告比數(shù)比(reporting odds ratio,ROR)法和比例報告比值比(proportional reporting ratio,PRR)法??捎糜趩嗡幓蚵?lián)合用藥的信號監(jiān)測。計算方法以四格表為核心,若某種藥品與其不良反應(yīng)之間的計算結(jié)果超出臨界值,則出現(xiàn)比值失衡,說明生成了信號。如果95%置信區(qū)間大于1,說明生成信號[7]。李雙嬌等[8]將該方法應(yīng)用在甲氨蝶呤(Methotrexate)的不良反應(yīng)危險信號的挖掘中,采用上述的兩種方法均找到了1364 個信號,且完全重合。其強(qiáng)相關(guān)的、新的不良反應(yīng)的危險信號有治療藥物影響、骨骼肌肉系統(tǒng)、皮膚影響等。研究者基于這些信號建議采取相應(yīng)措施加強(qiáng)監(jiān)護(hù),防范用藥風(fēng)險。其他方法還有英國藥品和保健產(chǎn)品管理局(medicines and healthcare products regulatory agency,MHRA)的綜合標(biāo)準(zhǔn)法。若滿足例數(shù)不低于3,PRR 不低于2,χ2不低于4 的上述3 個條件,則提示生成信號。劉艷[9]使用了ROR、PRR、MHRA這三種方法挖掘了545 例兒童ADR 數(shù)據(jù)的信號,結(jié)果得出MHRA 法監(jiān)測的可疑藥物風(fēng)險信號較少。其余還有Yule′s Q 法、序貫概率比檢驗法等,上述方法在ADR 監(jiān)測中的應(yīng)用效果研究的報道,相對比值失衡測量法較少。
2.2.2 貝葉斯法 在貝葉斯法中,貝葉斯置信傳播神經(jīng)網(wǎng)絡(luò)(Bayesian confidence propagation neural network,BCPNN)法較常用,這是運(yùn)用傳統(tǒng)四格表法加貝葉斯判別分析的方法來檢測信號生成的一種方法。BCPNN法讓模型能夠隨數(shù)據(jù)庫信息的更新而自行做出演繹推斷,并結(jié)合更新的知識,對從前累積的ADR 報告進(jìn)行再次評價[10],從而起到前饋性作用,能夠更有效的發(fā)現(xiàn)信號。該方法可用于處理復(fù)雜變量,對不完全數(shù)據(jù)的處理穩(wěn)定性較好,可用于單藥或聯(lián)合用藥的信號監(jiān)測。該方法的核心是需要算出信息成分的數(shù)值,根據(jù)該數(shù)值的大小來表示可疑的藥物和其不良反應(yīng)的發(fā)生之間的強(qiáng)弱關(guān)系。如果計算數(shù)值大于0,說明可疑藥物和不良反應(yīng)之間存在一定關(guān)聯(lián),可能生成信號[10]。Rodrigues 等[11]將貝葉斯方法應(yīng)用在評估藥物不良反應(yīng)報告的因果關(guān)系中,該方法提高了藥物監(jiān)測數(shù)量和質(zhì)量,增加了衛(wèi)生專業(yè)人員舉報其對ADR 懷疑的積極性,從而提高藥品的安全監(jiān)測程度,更好地維護(hù)了人們的健康。
其他方法包括伽馬泊松分布縮減(Gamma possion shrinker,GPS)法和多項伽馬泊松分布縮減(multi-item gamma possion shrinker,MGPS)法。GPS 法現(xiàn)已升級為多項伽馬泊松分布縮減法。MGPS 法的算法是計算出經(jīng)驗貝葉斯幾何均數(shù),算法與IC 值相近,算出貝葉斯幾何均數(shù)的95%置信區(qū)間,其下限用經(jīng)驗貝葉斯幾何均數(shù)95%置信下限表示,如果結(jié)果大于2,則說明生成信號。MGPS 方法可以對藥物以外的變量進(jìn)行各個層次的剖析,探索各層變量特征是否與不良反應(yīng)之間存在聯(lián)系。George 等[12]應(yīng)用其進(jìn)行375 種具有肝損傷潛力藥物的研究,計算了年齡、性別、肝事件相關(guān)報告的置信區(qū)間的經(jīng)驗貝葉斯幾何均數(shù),對性別、年齡和藥物性質(zhì)與藥物性肝損傷關(guān)聯(lián)問題進(jìn)行研究。臨床上多將上述幾種方法聯(lián)合應(yīng)用,綜合評估,更快速的發(fā)現(xiàn)危險信號,并進(jìn)行分析,從而找出解決辦法。
2.2.3 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是關(guān)聯(lián)分析的形式之一[13],是為了發(fā)現(xiàn)大型數(shù)據(jù)集中各項集之間“有趣”的關(guān)聯(lián)關(guān)系的一種DM 方法[14]。其主要客觀度量指標(biāo)包括支持度、置信度等等,其最重要的是支持度的測量。在ADR 信號監(jiān)測中的支持度表示同時含有某種藥品與某種不良反應(yīng)報告占ADR 報告總數(shù)的百分比[13],核心是在多次掃描后算出項集支持度,盡力發(fā)現(xiàn)全部頻繁項目集,最終形成關(guān)聯(lián)規(guī)則[14]。其中Apriori 算法應(yīng)用較多,是一種較為經(jīng)典的頻繁項集挖掘算法。馬潔等[15]基于該算法分析發(fā)現(xiàn),高齡及患病史是阿托伐他汀聯(lián)合降壓藥應(yīng)用時發(fā)生不良反應(yīng)的高危因素。因此,這種算法的應(yīng)用可以輔助臨床診療人員進(jìn)行合理用藥。Chen 等[16]將χ2檢驗引入到傳統(tǒng)的Apriori 算法中,經(jīng)研究后發(fā)現(xiàn),修改后的Apriori 算法,縮短了計算時間,減少了無效關(guān)聯(lián)規(guī)則,可更有效、準(zhǔn)確地研究病歷中藥物與其相關(guān)不良事件之間的關(guān)聯(lián)規(guī)則。
2.2.4 聚類分析 聚類分析又稱集群分析,該方法是利用數(shù)字信息知識來實現(xiàn)“歸類”,盡量去縮短類別之中的差別,并盡量去擴(kuò)充各個類別之間的差別[14]。聚類分析的種類有很多,已在藥品安全性的監(jiān)測等方面得到了普遍地應(yīng)用。Chandler 等[17]將人乳頭瘤病毒(human papilloma virus,HPV) 疫苗應(yīng)用后出現(xiàn)的不良反應(yīng)進(jìn)行聚類分析,結(jié)果顯示,與9~25 歲女性的非HPV疫苗報告相比,在HPV 疫苗報告中,頭痛、頭暈和疲勞或暈厥的發(fā)生率明顯更高。張淵[18]將聚類分析中近年來發(fā)展起來的一種雙聚類算法應(yīng)用到我國ADR 監(jiān)測中,為潛在ADR 確認(rèn)、篩選需重點(diǎn)關(guān)注不良反應(yīng)信號以及不良反應(yīng)的病因?qū)W研究等方面提供有效的參考信息,旨在促進(jìn)我國ADR 監(jiān)測中信號評價工作效率的提高。
2.2.5 決策樹 決策樹是利用一種類似流程圖的樹狀結(jié)構(gòu)進(jìn)行分析的一種DM 的方法[14]。該方法的核心在于對其的生長和剪枝。常用的算法包括CART、ID3、CHAID 等生長算法和后剪枝、預(yù)剪枝等剪枝算法。王勇等[19]應(yīng)用決策樹技術(shù)挖掘左氧氟沙星的不良反應(yīng)的流行病學(xué)特點(diǎn)。在分析的4318 例報告中,皮膚及附件損害是較主要的損害,年齡是其重要因素。其三個分節(jié)點(diǎn)分別是31.3、33 歲及體重>75.5 kg,第1 個和第3 個分節(jié)點(diǎn)可能對皮膚及附件損害影響大,第2 個分節(jié)點(diǎn)可能對神經(jīng)系統(tǒng)損害影響大。
2.2.6 主成分分析 主成分分析法是對得到的數(shù)據(jù)進(jìn)行降維操作,經(jīng)再次組合后產(chǎn)生新的綜合變量,從而進(jìn)行進(jìn)一步分析的DM 方法[14]。徐瑾等[20]將其應(yīng)用于對收集到的4031 例頭孢呋辛不良反應(yīng)數(shù)據(jù)進(jìn)行信號挖掘,結(jié)果得出,皮疹、瘙癢、惡心、心悸等與頭孢呋辛的應(yīng)用相關(guān)性高。而心悸未在藥品說明書內(nèi)標(biāo)注,可作為頭孢呋辛不良反應(yīng)的新參考依據(jù)。
2.2.7 其他方法 其他方法還包括反向傳播人工神經(jīng)網(wǎng)絡(luò)、序列對數(shù)分析法、監(jiān)督機(jī)器學(xué)習(xí)法等。Bajzelj 等[21]對反向傳播人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了應(yīng)用,探究其對與特異藥物引起的肝損傷相關(guān)的不平衡數(shù)據(jù)集進(jìn)行分類的能力,并建立了預(yù)測藥物肝毒性潛力的模型。國外有研究表明,序列對數(shù)分析法可以早期識別安全信號,該方法具有中等靈敏度和高度的特異性[22]。而相比序列對數(shù)分析法,監(jiān)督機(jī)器學(xué)習(xí)法的靈敏度和特異性相對來說會更高[23],而這兩種方法的實用性也較好,可作為現(xiàn)有的藥物監(jiān)測方法的補(bǔ)充。但是,這些方法在我國應(yīng)用較少,今后可進(jìn)行深入探索。
現(xiàn)今對ADR 的監(jiān)測正逐漸從ADR 的被動監(jiān)測過渡到ADR 的主動監(jiān)測,許多機(jī)構(gòu)也正著力研發(fā)ADR主動監(jiān)測系統(tǒng)。在各方支持下,國家藥品監(jiān)督管理局開發(fā)了基于醫(yī)院HIS 系統(tǒng)的可以主動獲取藥物警戒信息的系統(tǒng)——中國醫(yī)院藥物警戒系統(tǒng),該系統(tǒng)的應(yīng)用改進(jìn)了報告流程,縮短報告的時間,提高報告者的積極性[24]。王蒙[25]將貝葉斯工具變量方法應(yīng)用在ADR的主動監(jiān)測中,其重點(diǎn)評價服用中藥制劑過程中伴隨療法的應(yīng)用對發(fā)生藥品不良事件和嚴(yán)重不良事件的影響,進(jìn)一步確認(rèn)了其中的危險信號,改善了用藥的安全性。除指南提出的如ICH 藥物警戒計劃等主動監(jiān)測方法外,隨著計算機(jī)等諸多領(lǐng)域發(fā)展,電子健康記錄(electronic health records,EHRs)逐漸在國內(nèi)外應(yīng)用。在ADR 主動監(jiān)測方面,許多學(xué)者將DM 技術(shù)應(yīng)用在監(jiān)測EHRs 上以發(fā)現(xiàn)藥品的不良反應(yīng)。一項研究開發(fā)了稱為Readpeer HSA 的DM 算法系統(tǒng),可自動提取藥品和不良事件名稱,并將其應(yīng)用于對電子健康記錄的ADR 監(jiān)測以及主動藥物警戒中,有助于藥物的使用安全[26]。近年來,國外在應(yīng)用EHRs 的基礎(chǔ)上,開發(fā)關(guān)于觀測性醫(yī)學(xué)效果合作關(guān)系網(wǎng)絡(luò)(observational medical outcomes partnership,OMOP) 的通用數(shù)據(jù)模型(common data model,CDM),其正被逐漸應(yīng)用于藥物不良反應(yīng)監(jiān)測中。XU 等[27]將2007—2012年的Humana 數(shù)據(jù)提取轉(zhuǎn)化成OMOP CDM 后發(fā)現(xiàn)CDM 可將不同格式的源數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)化的數(shù)據(jù)結(jié)構(gòu),可在大型的觀測數(shù)據(jù)中快速地發(fā)現(xiàn)ADR 信號,進(jìn)行藥物安全評估。在OMOP CDM 模型的項目研究結(jié)束后,研究調(diào)查人員在OMOP CDM 基礎(chǔ)上啟動了名為觀測衛(wèi)生大數(shù)據(jù)科學(xué)和信息學(xué)(observational health data sciences and informatics,OHDSI) 的CDM 的項目研究,以期利用大數(shù)據(jù)科學(xué)和信息學(xué)方法,促進(jìn)衛(wèi)生健康數(shù)據(jù)科研工作的發(fā)展[28]。Duke 等[29]應(yīng)用OHDSI CDM發(fā)現(xiàn)左乙拉西坦與苯妥英鈉具有相同或更低的血管性水腫風(fēng)險,而苯妥英鈉目前還沒有被標(biāo)記其可能發(fā)生血管水腫的警告。Yu 等[30]在使用OMOP 通用數(shù)據(jù)模型基礎(chǔ)上開發(fā)了下一代藥物警戒信號檢測框架——ADEpedia-on-OHDSI,經(jīng)研究得出基于CDM的方法將有助于提供可擴(kuò)展的解決方案,其能夠整合藥物安全性數(shù)據(jù)和電子健康記錄以生成真實的世界證據(jù)來改善信號檢測。
該技術(shù)融合了多學(xué)科理論,并順應(yīng)知識智能化的發(fā)展趨勢,對于其在ADR 的監(jiān)測的應(yīng)用筆者認(rèn)為:①隨著可視化技術(shù)的廣泛應(yīng)用,研究者將多維度,多層次的結(jié)果呈現(xiàn)在用戶面前,將有助于DM 結(jié)果的表達(dá),今后應(yīng)繼續(xù)探討更容易被用戶理解的表達(dá)方式。②完善DM 技術(shù)術(shù)語集,鼓勵各國學(xué)者對其進(jìn)行更深入的研究,尤其注意其在本土化的應(yīng)用和開展,尤其在中藥方面。加快推進(jìn)醫(yī)療機(jī)構(gòu)、藥品企業(yè)等ADR 監(jiān)測主體與國際接軌,取國外之長,完善大數(shù)據(jù)平臺建設(shè),促進(jìn)該技術(shù)在我國的運(yùn)用和創(chuàng)新。③該技術(shù)專業(yè)性較強(qiáng),實施的主體人員——醫(yī)生、護(hù)士、藥師等對于具體方法的選擇和應(yīng)用一般不具備較強(qiáng)的水平,需要多學(xué)科及團(tuán)隊合作,加強(qiáng)交叉學(xué)科人才培養(yǎng),如培養(yǎng)高級信息護(hù)理方面的專家以及培養(yǎng)具有高級計算機(jī)水平的臨床藥師等,提升其信息能力和DM 能力,以促進(jìn)其在ADR 監(jiān)測中更充分的運(yùn)用,為實現(xiàn)精準(zhǔn)醫(yī)藥奠定堅實的基礎(chǔ)。④要培養(yǎng)大數(shù)據(jù)思維,利用DM 發(fā)展更為完善的用藥安全監(jiān)測體系,轉(zhuǎn)變模式,迎難而上,從在總體和抽樣之間更注重總體、追求效率而非絕對精確、更關(guān)注相關(guān)而非因果等方面入手[14],剖析大數(shù)據(jù)給醫(yī)療、護(hù)理及藥學(xué)帶來的影響,挖掘數(shù)據(jù)背后的價值規(guī)律,促進(jìn)用藥安全的協(xié)調(diào)發(fā)展,為公眾健康謀福。