亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向社交網(wǎng)絡(luò)的潛在藥物不良反應(yīng)發(fā)現(xiàn)

        2017-11-27 08:59:30趙明珍林鴻飛郝輝輝
        中文信息學(xué)報 2017年5期
        關(guān)鍵詞:模型

        趙明珍,林鴻飛,徐 博,郝輝輝

        (大連理工大學(xué) 信息檢索實驗室,遼寧 大連 116024)

        面向社交網(wǎng)絡(luò)的潛在藥物不良反應(yīng)發(fā)現(xiàn)

        趙明珍,林鴻飛,徐 博,郝輝輝

        (大連理工大學(xué) 信息檢索實驗室,遼寧 大連 116024)

        隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡(luò)中積累了大量的醫(yī)療健康領(lǐng)域的文本數(shù)據(jù)。該文利用基于信息熵的方法,從健康社交網(wǎng)絡(luò)中的用藥者評論數(shù)據(jù)中識別藥物的潛在不良反應(yīng);同時,對于潛在藥物不良反應(yīng),該文提出了基于Word2vec和Skip-gram模型的蛋白質(zhì)關(guān)聯(lián)緊密度函數(shù),盡最大努力發(fā)現(xiàn)藥物引起其“潛在”不良反應(yīng)的證據(jù)鏈。實驗證明,該方法用來尋求潛在藥物不良反應(yīng)證據(jù)鏈是有效的。

        社交網(wǎng)絡(luò);藥物不良反應(yīng);信息熵;Word2vec;Skip-gram

        1 引言

        目前,藥物不良反應(yīng)(adverse drug reactions,ADRs)已經(jīng)成為醫(yī)學(xué)界和民眾關(guān)注的熱點,用藥安全問題日益得到全社會的重視。由于藥物開發(fā)時試驗人群的數(shù)量及試驗周期等限制,會造成具有潛在藥物不良反應(yīng)的新藥流入市場的可能。因此,如何判斷和預(yù)測藥物的不良反應(yīng)具有重大的理論價值和實用價值。

        隨著互聯(lián)網(wǎng)的迅速普及,出現(xiàn)了很多關(guān)于醫(yī)療健康的社交網(wǎng)站,例如,DailyStrength, MedHelp, Healthamp;Wellness, Yahoo!Group, Ask a Patient等。用戶可以在健康社交網(wǎng)站上建立自己的“好友圈”,討論各種與健康相關(guān)的話題,例如對藥品或疾病發(fā)表自己用藥的體驗和評價。這些社交網(wǎng)站積聚了大量來自用戶的醫(yī)療健康文本數(shù)據(jù)。與傳統(tǒng)的報告制度相比,這些信息是來自用藥者的第一手資料,更為充分、及時,傳播更快。

        一方面,社交網(wǎng)絡(luò)中積累的醫(yī)療健康數(shù)據(jù)隱藏了豐富的有待挖掘的“知識”;另一方面,在社交網(wǎng)絡(luò)中,用戶的用語很隨意,經(jīng)常出現(xiàn)拼寫錯誤和語法錯誤,這些弊端給社交網(wǎng)絡(luò)中的文本挖掘帶來很大的挑戰(zhàn)。到現(xiàn)在為止,從健康社交網(wǎng)站中提取藥物不良反應(yīng)的研究還相對較少。

        Leaman[1]使用基于滑動窗口的字典匹配方式識別用藥者評論數(shù)據(jù)中的不良反應(yīng),從結(jié)果中可以看出,從用藥者評論中識別潛在不良反應(yīng)是可行的。Azadeh Nikfarjam[2]從Leaman使用的標注數(shù)據(jù)集中提取用戶表達不良反應(yīng)的語言模式,在這些模式的基礎(chǔ)上利用關(guān)聯(lián)規(guī)則的方法從用藥者評論中提取藥物不良反應(yīng),在同一數(shù)據(jù)集上,他們的結(jié)果同Leaman的結(jié)果相比,略有下降,但優(yōu)點是無需使用詞典。Andrew Yates[3]標注了250條關(guān)于乳腺癌藥物的用藥者評論,并在此基礎(chǔ)上構(gòu)建ADRTrace系統(tǒng),從訓(xùn)練數(shù)據(jù)集中提取不良反應(yīng)出現(xiàn)的模式來識別不良反應(yīng)。但該系統(tǒng)訓(xùn)練數(shù)據(jù)少,并且只是針對乳腺癌相關(guān)的藥物,泛化性較差。Jiang Bian[4]利用自然語言處理和支持向量機等技術(shù)從Twitter挖掘藥物不良反應(yīng),但效果不是很好。因為Twitter是開放性的社交網(wǎng)站,不是專門面向“醫(yī)療衛(wèi)生”領(lǐng)域,所以噪聲很多,對分類器的影響很大。

        基于社交網(wǎng)絡(luò)可以很快地收集到藥物的潛在不良反應(yīng)信息,但是由于用戶的報告是根據(jù)個人的意愿和表現(xiàn),這些潛在不良反應(yīng)并沒有經(jīng)過嚴格醫(yī)學(xué)意義上的檢驗。所以能否成為藥物在醫(yī)學(xué)意義上的藥物不良反應(yīng)還需要進一步檢驗和證實,也需要一定的解釋機制。如果可以為潛在藥物不良反應(yīng)找到某些原因,例如某種蛋白質(zhì),那么就可以大大地減少醫(yī)學(xué)專業(yè)人士用來確定藥物不良反應(yīng)的時間,這對不良反應(yīng)的實時監(jiān)測是非常重要的。

        本文首先利用基于信息熵的非監(jiān)督不良反應(yīng)識別方法從健康社交網(wǎng)絡(luò)的用藥者評論數(shù)據(jù)中識別潛在的藥物不良反應(yīng)。然后在生物醫(yī)學(xué)文獻數(shù)據(jù)庫MEDLINE的基礎(chǔ)上,使用修改的Skip-gram[5]模型,尋求可以把藥物和不良反應(yīng)聯(lián)系起來的蛋白質(zhì),盡最大努力發(fā)現(xiàn)藥物引起不良反應(yīng)的內(nèi)部機制,減少領(lǐng)域?qū)<易罱K確定藥物不良反應(yīng)的時間和經(jīng)濟代價。

        2 研究框架

        本文的研究目的是從健康社交網(wǎng)站的用藥者評論數(shù)據(jù)中識別潛在藥物不良反應(yīng),并盡最大努力為發(fā)現(xiàn)的潛在藥物不良反應(yīng)提供蛋白質(zhì)級別的證據(jù)。因此,本文系統(tǒng)主要包括三部分: 數(shù)據(jù)獲取模塊,潛在不良反應(yīng)識別模塊和尋求關(guān)聯(lián)蛋白質(zhì)模塊,如圖1 所示。

        圖1 系統(tǒng)流程圖

        (1) 數(shù)據(jù)獲取模塊

        本文利用scrapy*http://scrapy.org/程序包搭建網(wǎng)絡(luò)爬蟲,從社交網(wǎng)站中獲取相應(yīng)的用藥者評論。

        (2) 潛在不良反應(yīng)識別模塊

        該模塊首先利用信息熵的原理從用藥者的評論數(shù)據(jù)中識別疾病和不良反應(yīng)實體,然后使用DrugBank[6-9]和Semantic MEDLINE[10-12]對藥物的適應(yīng)癥進行過濾,并利用SIDER[13]對已登錄的藥物不良反應(yīng)進行過濾,最終得到潛在藥物不良反應(yīng)。

        (3) 尋求關(guān)聯(lián)蛋白質(zhì)模塊

        在本文中,關(guān)聯(lián)蛋白質(zhì)是指可以把藥物與不良反應(yīng)聯(lián)系起來的蛋白質(zhì),某種程度上,關(guān)聯(lián)蛋白質(zhì)可以解釋藥物引起不良反應(yīng)的原因。如果能夠為潛在藥物不良反應(yīng)找到關(guān)聯(lián)蛋白質(zhì),對于潛在藥物不良反應(yīng)在醫(yī)學(xué)意義上的最終確定具有重要的意義。本文提出了基于Skip-gram[5]模型的生物實體關(guān)聯(lián)度計算方法,并在此基礎(chǔ)上定義了關(guān)聯(lián)蛋白質(zhì)的關(guān)聯(lián)緊密度函數(shù),以此來尋求潛在藥物不良反應(yīng)的關(guān)聯(lián)蛋白質(zhì)。

        3 識別潛在藥物不良反應(yīng)

        疾病名稱和不良反應(yīng)名稱具有很大的重疊性,如headache可以是疾病的名稱,也可以是不良反應(yīng)的名稱。本文的主要研究目的是識別用戶評論中的潛在不良反應(yīng),所以對于藥物的適應(yīng)癥(疾病)和藥物的不良反應(yīng)應(yīng)加以區(qū)分,實現(xiàn)過濾適應(yīng)癥、識別不良反應(yīng)的目標。在本文中,識別潛在藥物不良反應(yīng)在整體上包括三部分: 識別“疾病和不良反應(yīng)”名稱,過濾藥物適應(yīng)癥(疾病名稱),以及過濾已知的不良反應(yīng)。

        識別“疾病和不良反應(yīng)”名稱,包括構(gòu)建詞典和名稱識別兩部分;對于藥物適應(yīng)癥過濾,本文使用已有的生物醫(yī)學(xué)資源DrugBank和Semantic MEDLINE進行藥物適應(yīng)癥過濾。同時,為了實現(xiàn)識別藥物的“潛在”不良反應(yīng),需要對已知的不良反應(yīng)加以標記。具體的,本文使用藥物不良反應(yīng)數(shù)據(jù)庫SIDER標記已知的藥物不良反應(yīng)并加以過濾,從而得到藥物的“潛在”不良反應(yīng)列表。

        3.1 生成疾病和不良反應(yīng)詞典

        本文使用的疾病和不良反應(yīng)詞典IndSyn是基于SIDER[13]數(shù)據(jù)庫生成的,該數(shù)據(jù)庫中包含5 719種不良反應(yīng)名稱和2 669種適應(yīng)癥的名稱。通過合并,得到“疾病和藥物”詞典IndSyn。由于不良反應(yīng)和疾病有交集,詞典IndSyn包含6 315種疾病和不良反應(yīng)實體名稱。

        3.2 基于信息熵的疾病和不良反應(yīng)實體識別

        從用藥者評論中識別疾病和不良反應(yīng)實體,可以理解為: 從用藥者評論中提取表達疾病和不良反應(yīng)的文本片段,這些文本片段應(yīng)該具有高頻率和高信息熵的特點。一個文本片段的信息熵越高,說明這個片段是一個“詞”的概率就越大。

        信息熵被廣泛地用于微博數(shù)據(jù)中的新詞發(fā)現(xiàn)和關(guān)鍵詞提取[14-15],在本文中我們使用信息熵來識別候選疾病和不良反應(yīng)實體。具體地,假設(shè)s表示一個文本片段,L表示s在評論數(shù)據(jù)中的左鄰接詞集合,R表示s在評論數(shù)據(jù)中的右鄰接詞集合。

        s的左信息熵定義如式(1)所示。

        其中p(w)表示w是s的左鄰接詞的概率。

        同理,s的右信息熵定義如式(2)所示。

        其中p(w)表示w是s的右鄰接詞的概率。

        如果s的左信息熵和右信息熵都比較高,那么s表示一個詞的概率就很大。但是本文的目的是識別用藥者評論中的疾病和不良反應(yīng)實體,而不是對用藥者評論進行分詞,所以對于信息熵較高的s要進行過濾,如果s可以映射到“疾病和不良反應(yīng)”詞典IndSyn中的某一項,則保留s,否則去除s。

        本文利用Jaccard相似性系數(shù)作為文本重疊度函數(shù),將文本s映射到詞典IndSyn中。具體的,設(shè)t∈IndSyn,表示一種疾病或者癥狀,定義文本片段s和詞典項t的重疊度如式(3)所示。

        其中Ws和Wt表示對文本s和t進行分詞和去停用詞后包含的單詞集合。|W|表示集合W所包含的元素個數(shù)。令map(s)表示s映射到詞典IndSyn中的項,則map(s)定義如式(4)所示。

        如果map(s)!=NULL,則表示文本s可以映射到詞典IndSyn中,即s是疾病名稱或者不良反應(yīng)名稱。

        3.3基于DrugBank和SemanticMEDLINE的“適

        應(yīng)癥”標記

        在“疾病和不良反應(yīng)”名稱識別的基礎(chǔ)上,需要過濾藥物的適應(yīng)癥。用藥者在分享用藥經(jīng)歷或者評論某種藥物時,不可避免地會提到該藥物的適應(yīng)癥或者用藥的原因。比如藥物trazodone的一條評論: “Iusethisprimarilyformysleeplessness”,明確地說明sleeplessness是用藥的原因,不是trazodone的不良反應(yīng)。所以,應(yīng)當(dāng)從識別出的“疾病和不良反應(yīng)”實體中標記藥物的適應(yīng)癥,并將其過濾掉。

        藥物的適應(yīng)癥可以從DrugBank數(shù)據(jù)庫中得到。DrugBank數(shù)據(jù)庫中藥物的適應(yīng)癥描述是非結(jié)構(gòu)化的,例如:trazodone的適應(yīng)癥為 “Forthetreatmentofdepression”。在本文中,我們使用MetaMap*http://mmtx.nlm.nih.gov/從DrugBank的適應(yīng)癥描述中識別出相關(guān)的疾病實體,并使用詞典IndSyn去除非疾病和不良反應(yīng)實體,從而得到藥物的適應(yīng)癥。

        除了藥物說明書上的適應(yīng)癥,藥物經(jīng)常還有其他的適應(yīng)癥。比如從上述評論中我們還可以看出trazodone除了治療depression之外,還可以用于治療sleeplessness。所以本文還用SemanticMEDLINE對藥物適應(yīng)癥做進一步過濾。SemanticMEDLINE是SemRep[16]從MEDLINE引用中識別出的三元語義關(guān)系(subject-predicate-object)知識庫,這些三元組表示subject和object之間的語義關(guān)系為predicate。例如,如果在SemanticMEDLINE中存在三元語義關(guān)系: (trazodone-TREATS-sleeplessness),我們就可以斷定trazodone可以用來治療sleeplessness,從而說明sleeplessness也是trazodone的適應(yīng)癥。

        綜上,本文使用DrugBank和SemanticMEDLINE相結(jié)合的方法來標記藥物的適應(yīng)癥。

        3.4基于SIDER的已知藥物不良反應(yīng)標記

        經(jīng)過“適應(yīng)癥”過濾,就可以得到與藥物有關(guān)的不良反應(yīng)。然而這些不良反應(yīng)有很多在藥物的說明書中已有記錄,本文稱其為已知的藥物不良反應(yīng)。SIDER[13]是從藥物說明書中提取的藥物不良反應(yīng)數(shù)據(jù)庫。本文的目的是識別“潛在”的藥物不良反應(yīng),所以本文使用SIDER數(shù)據(jù)庫對已知的藥物不良反應(yīng)進行標記,并將其過濾掉。

        3.5“潛在”藥物不良反應(yīng)的標記

        經(jīng)過適應(yīng)癥和已知不良反應(yīng)的標記,剩下未標記的“疾病和不良反應(yīng)”實體就可以作為“潛在”的藥物不良反應(yīng)。圖2是識別潛在藥物不良反應(yīng)的詳細算法。

        輸入:藥品di的用藥者評論數(shù)據(jù)集Ci輸出:“疾病和不良反應(yīng)”實體名稱,以及每個實體與藥品di的關(guān)系1:在集合Ci中生成文本片段集合Si={s|LE(s)gt;0,RE(s)gt;0}2:計算平均頻率:fre=1Si∑s∈Sifre(s),其中fre(s)表示s出現(xiàn)的次數(shù)。3:計算平均左右信息熵:LE=1Si∑s∈SiLE(s)和LR=1Si∑s∈SiLR(s)4:生成疾病和不良反應(yīng)集合:Di={l=map(s)|fre(s)gt;fre,LE(s)gt;LE,RE(s)gt;RE,map(s)!=NULL,s∈Si}5: forem∈Di6: ifem是藥品di的適應(yīng)癥,則將em標記為”-”7: elseifem是藥品di的已知不良反應(yīng),則將em標記為”+”8: else將em標記為”*”圖2 識別潛在不良反應(yīng)的算法

        4 尋求潛在不良反應(yīng)的證據(jù)

        不良反應(yīng)識別完成之后,可以得到藥物的潛在不良反應(yīng)列表。然而所識別出的潛在不良反應(yīng)尚未經(jīng)過嚴格醫(yī)學(xué)意義上的檢驗,所以能否成為臨床意義上的不良反應(yīng)還需要進一步的檢驗和證實。檢測潛在不良反應(yīng)的真實性需要進行大量的臨床試驗和觀察,這是一個耗時耗力的過程,不利于及時發(fā)現(xiàn)藥物的安全隱患。如果可以利用文本挖掘的相關(guān)技術(shù),挖掘藥物導(dǎo)致潛在不良反應(yīng)的內(nèi)部機制,并推薦給醫(yī)學(xué)領(lǐng)域的專家作參考,對于檢驗潛在不良反應(yīng)的真實性,改善用藥安全,具有重要意義。

        蛋白質(zhì)是生命活動的主要承擔(dān)者,是生命的物質(zhì)基礎(chǔ),因此藥物的不良反應(yīng)也多與蛋白質(zhì)有關(guān)。為了便于研究,本文假定藥物通過蛋白質(zhì)引起不良反應(yīng)。因此,對于上一步發(fā)現(xiàn)的“潛在”藥物不良反應(yīng),本文盡最大努力找到可以把藥物和其“潛在”不良反應(yīng)聯(lián)系起來的蛋白質(zhì),把這些蛋白質(zhì)作為藥物導(dǎo)致不良反應(yīng)的“證據(jù)”,并把這些(藥物,蛋白質(zhì),不良反應(yīng))作為三元組關(guān)系,推薦給醫(yī)學(xué)領(lǐng)域的專家作參考,為他們最終確定藥物和不良反應(yīng)的關(guān)系減少時間和經(jīng)濟代價。

        為了尋求關(guān)聯(lián)蛋白質(zhì),本文首先利用Skip-gram模型生成生物醫(yī)學(xué)實體的分布式向量,根據(jù)實體向量計算實體之間的關(guān)聯(lián)度,在此基礎(chǔ)上,根據(jù)藥物-蛋白質(zhì)-不良反應(yīng)三者之間的關(guān)聯(lián)度函數(shù)挖掘關(guān)聯(lián)蛋白質(zhì)。

        4.1基于Skip-gram模型的生物實體關(guān)聯(lián)度

        傳統(tǒng)計算實體x和y的關(guān)聯(lián)度的方法(如點間互信息PMI)直接基于x和y的“共現(xiàn)”情況來計算,如果x和y經(jīng)常共現(xiàn),那么它們之間的關(guān)聯(lián)度也越高。這種方法過于簡單,會帶來很多噪聲。為了更好地計算實體之間的關(guān)聯(lián)度,本文采用基于Word2vec的Skip-gram[5]模型生成生物醫(yī)學(xué)實體的分布式向量,通過實體向量計算實體之間的關(guān)聯(lián)度。

        為了訓(xùn)練Skip-gram模型,本文選擇的數(shù)據(jù)是MEDLINE文獻引用的MeSH詞域。生物醫(yī)學(xué)專家為MEDLINE中每篇文獻都使用某些MeSH詞進行標注,這些MeSH詞能很好地描述論文的主題內(nèi)容,同時這些MeSH詞也可以作為共現(xiàn)信息來使用。

        原始的Skip-gram模型是一種語言模型,所需要的訓(xùn)練數(shù)據(jù)是“有序”的自然語言文本,然而MEDLINE文獻引用的MeSH詞域是MeSH詞集合,是“無序”的。所以,需要對Skip-gram進行修改,使其可以利用MEDLINE文獻引用的MeSH詞域進行訓(xùn)練,生成MeSH詞的詞向量。

        具體的,令pi表示第i篇包含MeSH詞的MEDLINE引用,Si表示pi的MeSH詞集合,mij表示pi中第j個MeSH詞,j=1,2,…,|Si|,|Si|表示集合Si的大小。修改后的Skip-gram模型的目標函數(shù)如式(5)所示。

        其中N表示包含MeSH詞的所有MEDLINE文獻總數(shù)。

        通過上述修改后的Skip-gram模型,就可以得到每個MeSH詞的詞向量。MeSH詞的關(guān)聯(lián)度定義為余弦相似度,如式(6)所示。

        4.2關(guān)聯(lián)度

        對于蛋白質(zhì)p,本文利用關(guān)聯(lián)度函數(shù)f(d,p,a)來衡量其作為藥物d和“潛在”不良反應(yīng)a的“證據(jù)”的可信度。f(d,p,a)越大,表示蛋白質(zhì)p越能把藥物d和“潛在”不良反應(yīng)a聯(lián)系起來,也就表示蛋白質(zhì)p作為“證據(jù)”越可信,從而蛋白質(zhì)p越能解釋藥物d和“潛在”不良反應(yīng)a的內(nèi)部機制。本文將這種蛋白質(zhì)稱為關(guān)聯(lián)蛋白質(zhì)。

        具體的,f(d,p,a)的定義如式(7)所示。

        其中sim(x,y)表示實體x和y的關(guān)聯(lián)度。直觀上,如果sim(d,p)+sim(p,a)越高,那么關(guān)聯(lián)緊密度f(d,p,a)也越高。但是為了防止因sim(d,p)或者sim(p,a)單方過高而導(dǎo)致的f(d,p,a)過高,這里對其使用1+|sim(d,p)-sim(p,a)|進行“平滑”。即: 如果sim(d,p)+sim(p,a)很高,并且sim(d,p)和sim(p,a)差異很小,f(d,p,a)才會高。

        5 實驗結(jié)果分析

        針對本文提出的方法,本文共進行了三個實驗: 實驗一主要用于說明基于信息熵的方法可以有效地進行不良反應(yīng)名稱識別,并分析了在社交網(wǎng)絡(luò)中潛在不良反應(yīng)發(fā)現(xiàn)的結(jié)果;實驗二用于說明修改后的Skip-gram模型在MEDLINE數(shù)據(jù)集上可以捕捉生物醫(yī)學(xué)實體之間的關(guān)聯(lián)度,從而可以用于發(fā)現(xiàn)藥物和不良反應(yīng)之間的關(guān)聯(lián)蛋白質(zhì);實驗三給出了為潛在藥物不良反應(yīng)尋找“證據(jù)鏈”的結(jié)果,說明基于MeSH詞向量的關(guān)聯(lián)度函數(shù)可以有效地發(fā)現(xiàn)藥物和不良反應(yīng)的關(guān)聯(lián)蛋白質(zhì),為領(lǐng)域?qū)<冶M早確定潛在藥物不良反應(yīng)的真實性提供參考依據(jù)。

        5.1不良反應(yīng)識別結(jié)果

        由于在“社交網(wǎng)絡(luò)中識別藥物不良反應(yīng)名稱”這一領(lǐng)域缺乏權(quán)威的數(shù)據(jù)集,為了便于比較,本文選擇Leaman[1]所用的健康社交網(wǎng)站Dailystrength*http://www.dailystrength.org/作為用戶評論數(shù)據(jù)的來源。

        具體的,在本文中,使用基于Python的scrapy爬蟲框架,以2014年6月2日為截止日期,從Dailystrength中爬取600237條用藥者評論。這些評論中,總共涉及1075個健康話題,其中絕大數(shù)是關(guān)于藥物的話題。本文選取評論數(shù)最多的50種藥物作為研究對象。

        表1是與Leaman[1]結(jié)果的對比情況。從中可以看出,本文的結(jié)果與Leaman[1]的結(jié)果相似性很高,說明本文使用的基于信息熵和詞典匹配的不良反應(yīng)名稱識別方法是有效的。其中識別錯誤主要源于詞典IndSyn中某些名稱包含很多停用詞。如表1中的“notaseffective”,去停用詞后變?yōu)椤癳ffective”,從而導(dǎo)致包含effective的用戶評論都會識別出該不良反應(yīng)。另一主要的識別錯誤是由于詞典IndSyn中某些名稱是由常用詞組成的,而且相對較短。如“feelinghigh”和“effectincrease”,在詞典映射過程中,feeling和feelings等都會映射到“feelinghigh”,“increase”和“increased”等都會映射到“effectincrease”,從而導(dǎo)致識別錯誤。

        表2是基于信息熵的方法對于上述50種藥物的不良反應(yīng)識別結(jié)果。本實驗從50種藥物的評論數(shù)據(jù)中抽取出993個(藥物,疾病或癥狀)關(guān)系??偣沧R別出265個適應(yīng)癥關(guān)系,其中DrugBank標記出34個,SemanticMEDLINE標記出234個,所占的百分比分別為3.4%和23.3%。對于藥物不良反應(yīng)關(guān)系,240個在SIDER中有相應(yīng)的記錄,而488個在SIDER中并沒有記錄,所占的百分比分別為24.2%和49.1%。這488個未記錄的藥物不良反應(yīng)就是“潛在”的藥物不良反應(yīng)。

        表 1 與Leaman[1]的結(jié)果對比

        注: 在本文方法的識別結(jié)果中,疾病和不良反應(yīng)名稱使用“+”,“-”,“*”來標記?!?”表示適應(yīng)癥?!?”表示已知的藥物不良反應(yīng);“*”表示“潛在”的不良反應(yīng)。

        表 2 用戶評論中“疾病和不良反應(yīng)”的分布

        從表2的結(jié)果可以看出,在社交網(wǎng)絡(luò)中,用藥者更傾向于“陳述”藥品說明書中未記錄的藥物不良反應(yīng),這也符合實際情況。如果藥品說明書中已經(jīng)說明了某種不良反應(yīng),則用戶就不會過分“擔(dān)心”這種不良發(fā)應(yīng),在心理上甚至認為這種不良反應(yīng)在某種程度上是“正?!钡?。相反,如果藥品說明書中沒有出現(xiàn)某種不良反應(yīng),而用藥者自身出現(xiàn)了該不良反應(yīng),則其更傾向于“尋求”幫助和分享自己的經(jīng)歷。

        對于“潛在”不良反應(yīng)(d,a),首先在Semantic MEDLINE中檢索是否存在三元組(d,CAUSES,a),如果存在,則說明藥物d會引起不良反應(yīng)a。從Semantic MEDLINE中總共可以為10個“潛在”不良反應(yīng)找到上述三元組。由于篇幅限制,表3展示了其中三個不良反應(yīng)關(guān)系。

        5.2 MeSH詞向量

        本實驗以點間互信息(point mutual information,PMI)方法作為對比,用來說明修改后的Skip-gram模型可以有效地捕捉MeSH詞之間的關(guān)聯(lián)度。

        表3 Semantic MEDLINE中尋求(d,CAUSES,a)的部分結(jié)果

        注: drowsiness和somnolence都是“睡意,困倦”的意思

        MEDLINE通過人工標注的方式為每篇文獻賦予一些足以描述論文主題的MeSH詞,每篇引用的MeSH詞組成一個共現(xiàn)集合。在本實驗中,選取2013年(含2013年)之前的含有MeSH域的2 200萬篇MEDLINE引用作為基礎(chǔ),并從中抽取相應(yīng)的MeSH詞共現(xiàn)集合組成訓(xùn)練數(shù)據(jù)集。在訓(xùn)練修改的Skip-gram模型時,本文采用Word2vec的Hierarchical Softmax算法,生成的MeSH詞向量為100維。表4給出了兩個模型分別用于求Headache和Snake venoms最相近的10個MeSH詞的結(jié)果。

        表4 修改的Skip-gram模型與PMI模型對比

        在Headache、Skip-gram得到的詞中,六個是具體的頭痛類型,還得到facial neuralgia和trigeminal neuralgia等與Headache語義很相似的詞。而PMI中只有三個是具體的頭痛類型,而且PMI模型得到的詞中,nausea、spinal puncture(脊髓穿刺)等詞跟headache是無關(guān)的,可見相較于Skip-gram,PMI會引入更大的“噪聲”。

        對于Snake venoms(蛇毒),兩個模型所得到的MeSH詞都是相關(guān)的。Skip-gram模型得到四個是具體的蛇毒類型,一個毒液的總稱,并得到了抗蛇毒素和響尾蛇毒蛋白。只有蝮蛇科、具竅蝮蛇屬和竹葉青蛇屬與蛇毒的“相似性”差些。而PMI模型得到的只有抗蛇毒素、單鏈蛇毒多肽和爬蟲類蛋白質(zhì)與蛇毒相近,其他的詞更大程度上跟“蛇”相近。

        通過這兩個簡單的例子可以看出,經(jīng)過修改的Skip-gram模型可以有效地計算MeSH詞之間的關(guān)聯(lián)度,并且引入的噪聲相對較少。

        5.3 尋求“潛在”不良反應(yīng)的“證據(jù)”

        在潛在藥物不良反應(yīng)識別和MeSH詞向量的基礎(chǔ)上,本文盡最大努力挖掘藥物和其潛在不良反應(yīng)之間的關(guān)聯(lián)蛋白質(zhì)。本實驗用于展示關(guān)聯(lián)蛋白質(zhì)的挖掘結(jié)果。

        為了使用上述修改的Skip-gram模型生成的MeSH詞向量來計算實體之間的關(guān)聯(lián)度,對于藥物d和不良反應(yīng)a,需要對其使用Restrict to MeSH算法將其映射為MeSH詞。對于上述488個“潛在”不良反應(yīng)關(guān)系,其中10個已經(jīng)在Semantic MEDLINE中找到依據(jù),對于剩余的478個“潛在”不良反應(yīng)關(guān)系,Restrict to MeSH算法將其中的160個關(guān)系成功地使用MeSH詞來表示。

        對于每個“潛在”的藥物不良反應(yīng)關(guān)系(d,a),本文選取f(d,p,a)最高的五個蛋白質(zhì)作為藥物d和不良反應(yīng)a的關(guān)聯(lián)蛋白質(zhì)。表5是trazodone和anxiety關(guān)聯(lián)蛋白質(zhì)的提取結(jié)果。

        表 5 Trazodone和anxiety的關(guān)聯(lián)蛋白質(zhì)提取結(jié)果

        Trazodone是一種抗抑郁藥,屬于5-hydroxytryptophan受體拮抗劑和再攝取抑制劑,也是serotonin攝取抑制劑。此外,trazodone也會阻塞alpha-adrenergic,對alpha2-adrenergic有一定的阻塞作用。

        下面主要對不良反應(yīng)anxiety進行論述。

        Gingrich[17]指出“To date several inactivation mutations of specific serotonin receptors have been generated producing interesting behavioral phenotypes related to anxiety, depression, drug abuse, psychosis, and cognition”,可以看出serotonin receptors與anxiety是相關(guān)的。

        Goldman[18]指出“HTTLPR (minor allele frequency 0.40) alters serotonin transporter function to affect anxiety, dysphoria and obsessional behavior, which are assessed in COMBINE and may be related to relapse and addictive behavior”。可以看出,serotonin transporter也會影響anxiety。可以推斷,作為特殊的serotonin transporter,serotonin plasma membrane transport proteins跟anxiety也是相關(guān)的。

        Shishkina[19]指出“Brain alpha2-adrenergic receptors (alpha2-ARs) have been implicated in the regulation of anxiety, which is associated with stress”,說明adrenergic receptors跟anxiety是有聯(lián)系的。

        通過以上簡要分析,本文找到了trazodone和anxiety之間的三個三元關(guān)系組: (trazodone,“serotonin receptors”,anxiety),(trazodone,“serotonin plasma membrane transport proteins”,anxiety),(trazodone,“adrenergic receptors”,anxiety),這些三元關(guān)系組為trazodone和anxiety關(guān)系的確定提供了參考。

        6 結(jié)論

        本文旨在從社交網(wǎng)絡(luò)中提取藥物的不良反應(yīng),并為“潛在”的不良反應(yīng)尋求蛋白質(zhì)級別的“證據(jù)”,盡最大努力解釋藥物和其“潛在”不良反應(yīng)的關(guān)系。

        本文首先使用基于信息熵的方法提取用藥者評論中的不良反應(yīng),并加以詞典的輔助,良好地完成了不良反應(yīng)名稱的識別工作。本方法是非監(jiān)督的方法,具有較好的泛化能力。但由于本方法是基于統(tǒng)計的方法,需要的用戶評論數(shù)應(yīng)盡可能地多。

        然后,本文利用修改的Skip-gram模型生成的MeSH詞向量,盡最大努力地為“潛在”不良反應(yīng)尋求蛋白質(zhì)證據(jù),嘗試找到可以把藥物和其不良反應(yīng)關(guān)聯(lián)起來的蛋白質(zhì),從而為最終確定藥物和不良反應(yīng)的關(guān)系推薦線索。不足之處在于,藥名和不良反應(yīng)名稱是UMLS超級敘詞表中的概念,而修改的Skip-gram模型使用的是MeSH詞,restrict to mesh算法并不能實現(xiàn)完全映射。在未來的工作中,我們致力于解決這一問題。

        綜上,由社交網(wǎng)絡(luò)啟動,融合生物信息資源的藥物不良反應(yīng)發(fā)現(xiàn)研究,可以及時發(fā)現(xiàn)潛在藥物不良反應(yīng),并盡最大努力尋求可以把藥物和不良反應(yīng)聯(lián)系起來的蛋白質(zhì),使?jié)撛谒幬锊涣挤磻?yīng)的檢測具有更加實用的價值,對改善人類健康水平、減少經(jīng)濟損失具有重大的意義。

        [1] Leaman R, Wojtulewicz L, Sullivan R, et al. Towards internet-age pharmacovigilance: extracting adverse drug reactions from user posts to health-related social networks[C]//Proceedings of the 2010 workshop on biomedical natural language processing. Association for Computational Linguistics, 2010: 117-125.

        [2] Nikfarjam A, Gonzalez G H. Pattern mining for extraction of mentions of adverse drug reactions from user comments[C]// Proceedings of AMIA Annual Symposium American Medical Informatics Association, 2011: 1019.

        [3] Yates A, Goharian N. ADRTrace: detecting expected and unexpected adverse drug reactions from user reviews on social media sites[C]//Proceedings of European Conference on Information Retrieval. Springer, Berlin, Heidelberg, 2013: 816-819.

        [4] Bian J, Topaloglu U, Yu F. Towards large-scale twitter mining for drug-related adverse events[C]//Proceedings of the 2012 international workshop on Smart health and wellbeing. ACM, 2012: 25-32.

        [5] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of advances in neural information processing systems. 2013: 3111-3119.

        [6] Law V, Knox C, Djoumbou Y, et al. DrugBank 4.0: shedding new light on drug metabolism[J]. Nucleic Acids Research. 2014, 42(D1): D1091-D1097.

        [7] Knox C, Law V, Jewison T, et al. DrugBank 3.0: a comprehensive resource for ‘omics’ research on drugs[J]. Nucleic Acids Research. 2011, 39(suppl 1): D1035-D1041.

        [8] Wishart D S, Knox C, Guo A C, et al. DrugBank: a knowledgebase for drugs, drug actions and drug targets[J]. Nucleic Acids Research. 2008, 36(suppl 1): D901-D906.

        [9] Wishart D S, Knox C, Guo A C, et al. DrugBank: a comprehensive resource for in silico drug discovery and exploration[J]. Nucleic Acids Research. 2006, 34(suppl 1): D668-D672.

        [10] Kilicoglu H, Fiszman M, Rodriguez A, et al. Semantic MEDLINE: a web application for managing the results of PubMed Searches[C]//Proceedings of the 3rd international symposium for semantic mining in biomedicine. 2008: 69-76.

        [11] Rindflesch T C, Kilicoglu H, Fiszman M, et al. Semantic MEDLINE: An advanced information management application for biomedicine[J]. Information Services and Use. 2011, 31(1): 15-21.

        [12] Kilicoglu H, Shin D, Fiszman M, et al. SemMedDB: a PubMed-scale repository of biomedical semantic predications[J]. Bioinformatics. 2012, 28(23): 3158-3160.

        [13] Kuhn M, Campillos M, Letunic I, et al. A side effect resource to capture phenotypic effects of drugs[J]. Molecular Systems Biology, 2010, 6(1).

        [14] 任禾,曾雋芳. 一種基于信息熵的中文高頻詞抽取算法[J]. 中文信息學(xué)報, 2006,20(5): 40-43.

        [15] 閆興龍,劉奕群,馬少平,等. 面向瀏覽推薦的網(wǎng)頁關(guān)鍵詞提取[J]. 智能系統(tǒng)學(xué)報, 2012,07(5): 398-403.

        [16] Rindflesch T C, Fiszman M. The interaction of domain knowledge and linguistic structure in natural language processing: interpreting hypernymic propositions in biomedical text[J]. Journal of Biomedical Informatics, 2003, 36(6): 462-477.

        [17] Gingrich J A. Mutational analysis of the serotonergic system: recent findings using knockout mice[J]. Current Drug Targets-CNS amp; Neurological Disorders, 2002, 1(5): 449-465.

        [18] Goldman D, Oroszi G, O’Malley S, et al. COMBINE genetics study: the pharmacogenetics of alcoholism treatment response: genes and mechanisms[J]. Journal of Studies on Alcohol and Drugs. 2005(15): 56.

        [19] Shishkina G T, Kalinina T S, Dygalo N N. Attenuation of αlt; subgt; 2A-adrenergic receptor expression in neonatal rat brain by RNA interference or antisense oligonucleotide reduced anxiety in adulthood[J]. Neuroscience, 2004, 129(3): 521-528.

        趙明珍(1989—),碩士研究生,主要研究領(lǐng)域為文本挖掘、機器學(xué)習(xí)、自然語言處理。

        E-mail: 1064328629@qq.com

        林鴻飛(1962—),通信作者,博士、教授、博導(dǎo),主要研究領(lǐng)域為搜索引擎、文本挖掘、情感計算和自然語言處理。

        E-mail: hflin@dlut.edu.cn

        徐博(1984—),博士,講師,主要研究領(lǐng)域為面向生物醫(yī)學(xué)領(lǐng)域的文本挖掘。

        E-mail: boxu@dlut.edu.cn

        PotentialAdverseDrugReactionsDiscoveryfromSocialNetworks

        ZHAO Mingzhen, LIN Hongfei, XU Bo, HAO Huihui

        (Information Retrieval Laboratory, Dalian University of Technology, Dalian, Liaoning 116024, China)

        With the development of the Internet, social networks have accumulated large amounts of text data about health care. This paper presents an information entropy based method to recognize potential adverse drug reactions from user comments in health related social networks. Meanwhile, to recognize the potential adverse drug reactions, this paper proposes a protein association function based on Word2vec and Skip-gram. Following this functions, this paper tries to detect the evidences between drugs and their potential adverse drug reactions. The results show that this method is promising in providing evidence chain for potential adverse drug reactions.

        social networks; adverse drug reactions; information entropy; Word2vec; Skip-gram

        1003-0077(2017)05-0194-09

        TP391

        A

        2015-04-07定稿日期2016-10-20

        國家自然科學(xué)基金(61572102,61632011,61772103);中央高?;究蒲袠I(yè)務(wù)費(DUT16ZD216)

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        巨乳av夹蜜桃站台蜜桃机成人| 最新国产熟女资源自拍| 亚洲午夜无码毛片av久久| 欧美裸体xxxx极品少妇| 97成人精品| 少妇极品熟妇人妻高清| 午夜福利影院成人影院| 巨胸喷奶水www视频网站| 国产精品公开免费视频| 九色精品国产亚洲av麻豆一| 国产免费在线观看不卡| 日韩乱码人妻无码中文字幕久久 | 亚洲av首页在线| 又黄又爽又色又刺激的视频| 亚洲国产精品无码久久九九大片健| 91麻豆精品一区二区三区| 日本中文一区二区在线| 亚洲欧美日韩在线不卡 | 欧美成人www在线观看| 夜夜嗨av一区二区三区| 欧美日韩中文字幕日韩欧美| 手机在线播放成人av| 成年免费a级毛片免费看无码 | 国内精品久久久久久无码不卡| 久久国产品野战| 老司机在线免费视频亚洲| 亚洲欧美日韩综合一区二区| 精品久久久久久777米琪桃花 | 日本免费一二三区在线| 中国少妇内射xxxx狠干| 水蜜桃久久| 色婷婷精久久品蜜臀av蜜桃| 亚洲av日韩av激情亚洲| 欧美性性性性性色大片免费的| 老汉tv永久视频福利在线观看| av网站可以直接看的| 综合国产婷婷精品久久99之一| 一进一出一爽又粗又大| 欧美在线不卡视频| 亚洲专区一区二区三区四区五区| 亚洲天堂二区三区三州|