楊 羽,王勝鋒,詹思延△
(1.北京大學健康醫(yī)療大數(shù)據(jù)國家研究院,2.北京大學公共衛(wèi)生學院流行病學與衛(wèi)生統(tǒng)計學系,北京 100191)
藥品上市后安全性監(jiān)測體現(xiàn)為對藥品在上市后的安全性風險的及時發(fā)現(xiàn),是藥物警戒的關(guān)鍵核心[1]。自發(fā)報告作為藥物警戒的重要工具之一,是目前最重要的盡早發(fā)現(xiàn)藥品不良反應(adverse drug reactions,ADR)的方法[2]。自發(fā)報告的來源包括醫(yī)務人員和藥品使用者。藥品使用者自發(fā)報告,是指藥品使用者在不經(jīng)過醫(yī)務人員的解釋和說明下,主動就其自身經(jīng)歷的某一可疑的藥品不良反應向藥物警戒部門等做出的報告。藥品使用者自發(fā)報告可增加藥品不良反應報告的數(shù)量,與醫(yī)務人員自發(fā)報告互為補充,可以提供藥品不良反應的直接信息甚至影響藥品不良反應“耐受性”的界定[3-4],但會受到對自發(fā)報告和報告系統(tǒng)了解不足和不完善的報告體驗的影響。社交媒體平臺上由個人發(fā)布的藥品及其不良反應相關(guān)內(nèi)容近些年正逐漸被視為類似于藥品使用者自發(fā)報告的新的數(shù)據(jù)來源,使用社交媒體數(shù)據(jù)開展藥品上市后安全性監(jiān)測的研究呈逐年上升趨勢,因而本文就相關(guān)研究現(xiàn)狀與面臨的挑戰(zhàn)進行綜述。
社交媒體作為一類在線互動平臺(如網(wǎng)絡論壇、Twitter和Facebook)為人們提供了便捷分享和交換意見的方式,與傳統(tǒng)的新聞媒體(如報紙、電臺、雜志等)和門戶平臺(如新浪網(wǎng)、人民網(wǎng)、百度、谷歌等)專注“公共傳播”不同,社交媒體的核心屬性是“社交”[5]。社交媒體是通過人際交流和互動形成社交網(wǎng)絡的新型互聯(lián)網(wǎng)新媒體,社交媒體用戶基于文本、聲音、圖像或視頻等類型的信息,在虛擬社區(qū)和網(wǎng)絡中創(chuàng)建、共享或交換他們的經(jīng)驗和想法[6]。WEB2.0出現(xiàn)以來,社交媒體的使用人群不斷擴大。We Are Social和Hootsuite在2020年7月共同發(fā)布的Digital 2020報告數(shù)據(jù)顯示[7],全球活躍的社交媒體用戶已經(jīng)超過39億,約占全球總?cè)丝诘囊话胍陨?,其中中國社交媒體用戶超過10.4億,占全球社交媒體用戶的近三分之一,僅2019年,中國就增加了1 500萬社交媒體用戶。類似Twitter的網(wǎng)站新浪微博(Sina Weibo)、短視頻應用——快手(Kuaishou)及抖音(Douyin)是中國最受歡迎的社交網(wǎng)絡服務之一。社交媒體已經(jīng)深入人們的日常生活并在影響人們的生活行為和習慣,Digital 2020報告數(shù)據(jù)顯示社交媒體用戶現(xiàn)在平均每天在社交媒體上花費的時間超過2 h[7]。數(shù)以億計的人從每天早晨起來就開始在社交網(wǎng)絡上發(fā)布自己的各種經(jīng)歷和想法,討論與健康相關(guān)的問題和經(jīng)驗,其中就包括患者對藥品的使用及其產(chǎn)生的(有益的或有害的)效果[8],這些充滿“噪音”的社交媒體數(shù)據(jù)被看作“埋藏著鉆石的巨大煤堆”。
社交媒體數(shù)據(jù)為研究人員和監(jiān)管機構(gòu)提供了從藥品使用者的角度而非醫(yī)療專業(yè)人員的角度監(jiān)測藥品安全的新機會,并且在理論上提供了比傳統(tǒng)方式更早地發(fā)現(xiàn)藥品安全問題的可能性[9],作為藥品上市后安全性監(jiān)測的一項新的數(shù)據(jù)來源用于信號檢測和信號驗證均具有自身獨特的優(yōu)勢[10-11]。孕期/哺乳期女性、兒童、老年人、罕見病患者等人群通常不會被納入臨床安全性研究,有關(guān)這些人群發(fā)生藥品不良事件(adverse drug event,ADE)/ADR的信息在社交媒體數(shù)據(jù)中很可能被發(fā)現(xiàn)。替代藥物或者膳食補充劑的使用,以及與藥物的聯(lián)合使用,也存在產(chǎn)生不良反應的可能,但傳統(tǒng)的監(jiān)測系統(tǒng)中很難獲取這方面的數(shù)據(jù),有望通過社交媒體數(shù)據(jù)的分析進行補充[12]。使用社交媒體數(shù)據(jù)還可以比現(xiàn)有監(jiān)測方式更早地發(fā)現(xiàn)ADR信號[13]。社交媒體數(shù)據(jù)中產(chǎn)生ADR信息的主體不是醫(yī)療機構(gòu)、醫(yī)生或企業(yè)而是患者,因其對于不同種類ADE/ADR的重視程度不同,社交媒體中報告的ADR信息與自發(fā)報告系統(tǒng)和電子病歷中采集到的信息分布會有所區(qū)別,基于社交媒體數(shù)據(jù)的分析還可以部分彌補現(xiàn)有安全性監(jiān)測中漏報的問題,甚至可能發(fā)現(xiàn)新的非預期ADR信號[14-16]。
使用社交媒體數(shù)據(jù)開展藥品上市后安全性監(jiān)測研究已有近十年的時間,2010年,Leaman等[17]首次使用文本挖掘等技術(shù),基于醫(yī)學互助論壇中的6 890條網(wǎng)絡貼文,自動從中抽取藥品與不良反應之間的關(guān)系,以期實現(xiàn)藥品安全性信號的早發(fā)現(xiàn)。目前,基于社交媒體數(shù)據(jù)進行藥品上市后安全性監(jiān)測已經(jīng)逐漸成為藥品上市后監(jiān)督領(lǐng)域內(nèi)的重要研究方向之一。
社交媒體數(shù)據(jù)的類型非常豐富,包括文本數(shù)據(jù)、圖像數(shù)據(jù)、影像數(shù)據(jù)以及音頻數(shù)據(jù)等,但目前被用于藥品上市后安全性監(jiān)測研究的仍然以文本數(shù)據(jù)為主,語言種類主要為英語。這類文本類型的社交媒體數(shù)據(jù)主要來源于網(wǎng)絡社區(qū)(如MedHelp、PatientLikeMe等)和個人博客平臺(如Twitter、Facebook、Instagram等)。目前,發(fā)表的相關(guān)研究主要來自于美國和歐洲,中國的相關(guān)研究較少見。已發(fā)表的大多數(shù)研究以ADE的檢測和驗證為主要研究內(nèi)容,使用不同的自然語言處理(natural language processing,NLP)技術(shù),從社交媒體文本數(shù)據(jù)中識別ADE;另有研究將社交媒體數(shù)據(jù)與自發(fā)報告數(shù)據(jù)為主的傳統(tǒng)監(jiān)測數(shù)據(jù)進行了比較,以研究捕獲的ADE數(shù)量、類別和時間的差異等[18];還有研究者針對是否可以用社交媒體數(shù)據(jù)比現(xiàn)有傳統(tǒng)方法更早地發(fā)現(xiàn)ADR信號進行了研究,如Powell等[19]利用2014年10月—2021年10月Facebook和Twitter的公開英文文本數(shù)據(jù),基于《監(jiān)管活動醫(yī)學詞典(medical dictionary for regulatory activities,MedDRA)》對藥品名稱和癥狀表述進行標準化處理,刪除重復和噪音數(shù)據(jù),并對個體可識別信息進行隱匿化處理后,分別建立分析數(shù)據(jù)集,計算藥物-事件對比例報告比(proportional reporting ratio,PRR),結(jié)果在Twitter數(shù)據(jù)集共發(fā)現(xiàn)6 441 679個藥物相關(guān)事件(對應702個的MedDRA的優(yōu)選術(shù)語),在Facebook數(shù)據(jù)集共發(fā)現(xiàn)15 650 108個藥物相關(guān)事件(對應946個的MedDRA的優(yōu)選術(shù)語),研究者選擇沙丁胺醇作為目標藥物進行比例報告比計算,可以發(fā)現(xiàn)一系列不良事件,包括震顫、慢性阻塞性肺病、喘息、支氣管炎和蒼白等,這些不良事件均為沙丁胺醇已知的ADR,該研究結(jié)果表明,社交媒體數(shù)據(jù)可以作為加強藥品上市后安全性監(jiān)測的重要工具[19]。
目前,已經(jīng)有監(jiān)管機構(gòu)或企業(yè)逐步建立基于社交媒體數(shù)據(jù)的藥品上市后監(jiān)測系統(tǒng),如MedWatcher Social[20]、AETracker、Treato[21]和Web-Recognizing Adverse Drug Reactions (Web-RADR)[6]。以美國食品藥品監(jiān)督管理局(Food and Drug Administration,FDA)的MedWatch Social為例,作為MedWatcher系統(tǒng)的一部分,其主要使用社交媒體(Twitter、Facebook、與健康相關(guān)的網(wǎng)絡博客)上的公開數(shù)據(jù),從中提取醫(yī)療健康相關(guān)信息,并映射到藥品和不良事件的標準術(shù)語集中,從而監(jiān)測是否出現(xiàn)ADR信號。
社交媒體數(shù)據(jù)作為一種新的數(shù)據(jù)源,數(shù)據(jù)量大、更新速度快、覆蓋范圍廣,對于提升藥品上市后安全性監(jiān)測效果有明顯的優(yōu)勢,但社交媒體數(shù)據(jù)開展安全性監(jiān)測的實際應用并未能廣泛實現(xiàn),目前學術(shù)界對于社交媒體數(shù)據(jù)是否可以作為可靠的數(shù)據(jù)源被用于日常藥品上市后安全性監(jiān)測仍存在爭議。雖然Kurzinger等[16]發(fā)現(xiàn)使用社交媒體數(shù)據(jù),可以比傳統(tǒng)自發(fā)報告數(shù)據(jù)更早、更快地檢測到與患者主觀癥狀(壓力、饑餓等)相關(guān)的ADR信號,Pierce等[10]和Karapetiantz等[15]也證實了同樣的觀點,Duval等[22]嘗試建立了基于Twitter數(shù)據(jù)的藥品不良反應自動化監(jiān)測系統(tǒng),除檢測出已有的標準信號外,還發(fā)現(xiàn)了新的ADR信號,但是同時也有學者認為[23-25],社交媒體數(shù)據(jù)無法作為獨立的新型數(shù)據(jù)源來完成對于藥品安全性的監(jiān)測,僅可以作為現(xiàn)有數(shù)據(jù)的補充數(shù)據(jù),彌補現(xiàn)有數(shù)據(jù)無法覆蓋或發(fā)現(xiàn)的信號。2018年,Convertino等[23]的系統(tǒng)綜述發(fā)現(xiàn),利用社交媒體數(shù)據(jù)實現(xiàn)比現(xiàn)有不良反應監(jiān)測方式更早的發(fā)現(xiàn)藥品安全性信號的證據(jù)仍然非常有限,且由于社交媒體數(shù)據(jù)的碎片化和低質(zhì)量,無法滿足藥品安全性監(jiān)測中實行因果關(guān)系判定的數(shù)據(jù)需求。Lardon等[24]基于Twitter數(shù)據(jù)的研究結(jié)果也認為社交媒體數(shù)據(jù)僅可作為藥品安全性監(jiān)測信息的補充來源,并且社交媒體數(shù)據(jù)作為補充來源能在多大程度上提高藥品上市后安全性監(jiān)測的效果仍需要更多證據(jù)的支持。最新的研究發(fā)現(xiàn),將社交媒體數(shù)據(jù)與傳統(tǒng)的自發(fā)報告系統(tǒng)相結(jié)合,并沒有比單獨使用自發(fā)報告系統(tǒng)取得更好的效果[25]。
基于社交媒體數(shù)據(jù)開展的藥品上市后安全性相關(guān)研究數(shù)量在近十年一直呈不斷增長的趨勢,一些研究也從不同角度分別為社交媒體數(shù)據(jù)是否是一個有價值的數(shù)據(jù)來源提供了證據(jù)支持,但仍然存在很多需要解決的問題[26]。
2.1.1真實性 社交媒體數(shù)據(jù)的真實度和可信度均無法與醫(yī)學數(shù)據(jù)相比,需要建立特定的算法或開發(fā)相應技術(shù)對社交媒體數(shù)據(jù)的真實性進行判別[27]。
2.1.2重復性 社交媒體數(shù)據(jù)會出現(xiàn)大量的數(shù)據(jù)重復,需要使用適當?shù)姆椒ㄟM行數(shù)據(jù)抽取。
2.1.3不完整性 社交媒體數(shù)據(jù)的碎片化和低質(zhì)量,造成研究者無法完整獲得進行安全性監(jiān)測需要的數(shù)據(jù),影響因果關(guān)系的判定[28-29]。
2.1.4不平衡性 與自發(fā)報告數(shù)據(jù)不同,社交媒體數(shù)據(jù)中僅有很小部分的數(shù)據(jù)包含潛在的ADR信息,信息分布非常不平衡。
2.1.5表達多樣性 (1)描述多樣性:除了用通用名描述藥品,還會使用商品名、有效成分和口語化表述等,而不良事件除了使用標準的醫(yī)學表述外,可能會使用方言、口語化甚至是自創(chuàng)的描述性詞語等[28,30];(2)語法問題:存在錯詞錯字、語法錯誤和使用不明確縮略語等;(3)語言多樣性:現(xiàn)有研究基本都集中在英語環(huán)境的社交媒體數(shù)據(jù)分析,包括中文在內(nèi)的其他語種表達尚未被涉及,以上這些表達多樣性的存在會提高命名實體識別和標準化的實現(xiàn)難度[31]。
2.2.1數(shù)據(jù)處理方法 如何準確和高效地進行文本數(shù)據(jù)的命名實體識別和標準化是社交媒體數(shù)據(jù)的首要問題。目前主要使用機器學習的方法,包括無監(jiān)督學習、監(jiān)督學習和半監(jiān)督學習,其中無監(jiān)督學習受社交媒體數(shù)據(jù)不平衡性的影響較大,而標注數(shù)據(jù)的稀缺對監(jiān)督學習的發(fā)展造成了阻礙,半監(jiān)督學習同時使用無標記數(shù)據(jù)和標記數(shù)據(jù)進行模式識別,正成為相關(guān)領(lǐng)域熱門的研究方向,自監(jiān)督學習作為監(jiān)督學習和無監(jiān)督學習的另一種結(jié)合方式,可以使用無標記數(shù)據(jù)自動生成數(shù)據(jù)標簽實現(xiàn)學習過程,在社交媒體文本數(shù)據(jù)處理方面很有潛力[32]。
2.2.2偏倚 (1)渠道偏倚:社交平臺本身用戶存在人群偏好,低齡兒童、老年人群、智力障礙人群或貧困人群(沒有智能終端或無法連通網(wǎng)絡)等通常無法使用社交媒體平臺;(2)報告偏倚:社交平臺的傳播特征等(微博vs.論壇)會影響所報告的不良事件的類型,如發(fā)生性功能障礙ADE的患者可能不會將經(jīng)歷發(fā)布在特定的社交平臺上;(3)成名偏倚:與自發(fā)報告數(shù)據(jù)類似,藥品在剛被公眾應用或被廣泛曝光并知曉時可能會出現(xiàn)相關(guān)ADR報告數(shù)量的上升,影響ADR信號檢測效果[33]。
2.2.3數(shù)據(jù)挖掘算法 基于比例失衡理論的數(shù)據(jù)挖掘算法是否還適用于社交媒體數(shù)據(jù),仍有待研究提供證據(jù)支持[34]。
倫理和隱私保護是使用社交媒體數(shù)據(jù)時無法避免的挑戰(zhàn)。社交媒體用戶一般可以通過對自己的賬戶隱私級別進行設置,選擇公開(所有人可見)或限定(僅自己或僅特定人群可見)展示發(fā)布的內(nèi)容,但即便是用戶選擇公開的社交媒體數(shù)據(jù),也不意味著可以被隨意用于任何目的[35]。對來源于社交媒體數(shù)據(jù)的ADR個案的隨訪也會帶來倫理和隱私保護問題。假設通過挖掘社交媒體數(shù)據(jù)發(fā)現(xiàn)嚴重ADR案例,原則上應當對發(fā)現(xiàn)的個案進行追蹤和隨訪,甚至干預[29]。國家藥品監(jiān)督管理局在2018年發(fā)布的《個例藥品不良反應收集和報告指導原則》中明確提出有必要對個例不良反應開展隨訪和調(diào)查。對個例不良反應信息的評估、隨訪和調(diào)查,需要獲取其個人可識別信息以定位或聯(lián)系到個體,這類目的的數(shù)據(jù)使用暫未包含在社交媒體平臺現(xiàn)有的信息保護政策中,所以除非用戶本人簽署相應的知情同意,否則就無法完成對個例不良反應信息的評估、隨訪和調(diào)查?;谑褂蒙缃幻襟w數(shù)據(jù)開展藥品上市后安全性監(jiān)測時面臨的以上挑戰(zhàn),需要繼續(xù)開展相關(guān)研究,提供合理數(shù)據(jù)使用方式的證據(jù)支持和機制建議,如在遵守現(xiàn)行互聯(lián)網(wǎng)信息保護相關(guān)法律法規(guī)的基礎(chǔ)上,在社交媒體平臺的用戶協(xié)議中采取“opt-in”或“opt-out”(選擇加入或選擇退出)模式,獲取用戶的數(shù)據(jù)使用知情同意,為后續(xù)數(shù)據(jù)使用的合理合規(guī)提供倫理基礎(chǔ)。
中國社交媒體平臺用戶數(shù)量巨大,2020年中國的社交媒體滲透率達到64.8%,略高于美國和日本等國。2019年,中國手機社交媒體活躍用戶總數(shù)達10億,成為亞太地區(qū)最大的社交媒體用戶群體,而且中國社交媒體的用戶使用時間也在不斷增加。以微信為例,截至2020年10月,微信的月活躍用戶約為10億,大約54%的微信用戶每天至少花10~30 min使用微信應用,由此帶來的海量數(shù)據(jù)為藥品上市后安全性監(jiān)測提供的巨大潛在價值不言而喻。然而,應用中文社交媒體數(shù)據(jù)開展藥品上市后安全性監(jiān)測還有一些獨特的困難和障礙需要克服和跨躍。首先,中文社交媒體數(shù)據(jù)以中文文本數(shù)據(jù)為主,由于中文語言自身的特點,加上中英文混雜表述的普遍出現(xiàn),語言表達的多樣性比單獨的英文文本數(shù)據(jù)更加復雜,除錯字錯詞、語法錯誤和縮略語外,還可能出現(xiàn)同音字(近音字)、形近字、語序錯誤的情況;其次,中文與英文表達組成的區(qū)別為文本數(shù)據(jù)處理帶來挑戰(zhàn),在中文中,詞與詞之間除標點符號之外,不存在分隔符,這就給中文分詞工作帶來了挑戰(zhàn),另外,與英文文本數(shù)據(jù)相比,中文的標準化語料庫,尤其是醫(yī)療健康相關(guān)語料庫十分缺乏,為建立高效、準確的命名實體和標準化處理帶來了困難;最后,由于國內(nèi)的社交媒體數(shù)據(jù)使用和分析的相關(guān)法律法規(guī)尚在逐步建設和規(guī)范中,因此如何在使用社交媒體數(shù)據(jù)進行上市后監(jiān)測時遵循倫理原則,保障社交媒體用戶的隱私和數(shù)據(jù)安全,仍然需要政府監(jiān)管部門、社交媒體平臺和科研工作者的共同努力。
藥品上市后安全性監(jiān)測是保障患者用藥安全的重要工作。社交媒體數(shù)據(jù)由于本身用戶群廣泛、數(shù)據(jù)體量巨大、來源豐富和時效性強等特點,作為一項患者產(chǎn)生的數(shù)據(jù)源對于提高現(xiàn)有安全性監(jiān)測水平具有巨大的潛在價值。利用社交媒體數(shù)據(jù)開展藥品上市后安全性研究發(fā)展已近十年,從目前已經(jīng)發(fā)表的研究結(jié)果看,研究者普遍認同社交媒體數(shù)據(jù)是對現(xiàn)有藥品上市后安全性監(jiān)測數(shù)據(jù)的有益補充。社交媒體數(shù)據(jù)可能在特定ADR報告監(jiān)測(報告率低的ADR或者年輕人群的ADR)方面提供有價值的結(jié)果,協(xié)助解決傳統(tǒng)監(jiān)測的盲點,但是社交媒體數(shù)據(jù)是否可以用于信號檢測,尤其是早期信號檢測,甚至是被納入成為常規(guī)安全性監(jiān)測的一部分,學術(shù)界尚未能達成共識,仍需要更充分的研究證據(jù)證實其價值和可靠性。不僅如此,社交媒體數(shù)據(jù)被真正用于藥品上市后安全性監(jiān)測之前,還須優(yōu)先解決數(shù)據(jù)、方法和倫理三個方面的問題。社交媒體數(shù)據(jù)對藥品上市后安全性監(jiān)測的重要意義毋庸置疑,通過開發(fā)新技術(shù)并建立新機制,解決使用社交媒體數(shù)據(jù)時面臨的各種問題,可能是未來研究的重要發(fā)展方向。