亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜嵌入與深度學習的藥物不良反應預測

        2024-03-04 06:05:32吳菊華李俊鋒
        廣東工業(yè)大學學報 2024年1期
        關鍵詞:模型研究

        吳菊華,李俊鋒,陶 雷

        (廣東工業(yè)大學 管理學院, 廣東 廣州 510520)

        藥物不良反應(Adverse Drug Reaction, ADR)是全球重要的公共衛(wèi)生問題,是導致死亡的重大原因之一[1]。全球范圍內(nèi)因ADR導致的傷殘或死亡患者每年近80萬例,占所有入院患者的3.6%[2]。在美國,每年約200余萬名住院患者發(fā)生嚴重ADR,造成5 284億美元經(jīng)濟損失,約占當年醫(yī)療總支出的16%[3]。我國每年也有超過250萬人因ADR入院, 其中死亡人數(shù)高達19.2萬人[4];2018年中國藥品不良反應監(jiān)測網(wǎng)絡收到149.9萬份藥品不良反應/事件報告[5],且數(shù)量呈逐年增長趨勢。盡管藥物在被批準上市之前,經(jīng)過嚴格試驗,但由于樣本數(shù)量及試驗時間限制,許多嚴重ADR直到藥物上市后才出現(xiàn)[6]。此外,高達50%與ADR相關的住院,可以通過避免不適當?shù)奶幏絹眍A防[7]。因此,如何有效識別和預測藥物潛在的不良反應,預防ADR發(fā)生以及降低經(jīng)濟損失,提高臨床用藥的合理性和安全性,是當前智慧健康醫(yī)療領域的一個研究重點[8-9]?;诖?,本文開發(fā)一種基于知識圖譜嵌入和深度學習的ADR預測模型,并與多種常用基準模型及已有研究結果進行對比分析,同時檢驗本文預測模型的有效性和穩(wěn)定性。本文的貢獻可以概括如下。

        (1) 本文結合知識圖譜嵌入和深度學習開發(fā)了一種穩(wěn)定且高效的ADR預測模型,將所有類型ADR進行統(tǒng)一預測,減少過往研究需要為每種ADR單獨開發(fā)預測模型的冗余工作量,提高預測效率和精度。

        (2) 本文通過對比評估不同嵌入策略對ADR分類模型的影響,選擇最佳嵌入策略,所開發(fā)的ADR預測模型能夠有效預測藥物潛在的不良反應,為醫(yī)生在用藥時提供建議,提高患者的用藥安全。

        1 相關研究

        根據(jù)世界衛(wèi)生組織的定義,藥物不良反應是指在使用正常劑量的藥物用于預防、診斷、治療疾病或調(diào)節(jié)生理機能過程中,出現(xiàn)有害和非預期的且與用藥目的無關的反應[10];且ADR可能是藥物化學物質與蛋白質反應的結果[11]。早期對于ADR的研究,主要基于自發(fā)報告系統(tǒng)(Spontaneous Reporting Systems,SRSs) 的臨床案例數(shù)據(jù)[7,12],使用比例失衡分析[13]等方法評估藥物與ADR之間的關聯(lián)性和因果性,以挖掘相關藥物不良反應信號。但SRSs的數(shù)據(jù)往往是不完整或不準確的,可能會導致研究結果有所偏差;此外加之數(shù)據(jù)量有限,缺乏對數(shù)據(jù)的深度挖掘,使得早期基于簡單統(tǒng)計方法的研究結論缺乏說服力[14]。隨著人工智能技術日趨成熟和生物醫(yī)學數(shù)據(jù)量不斷增長,一方面,研究人員基于文獻、ADR報告等文本數(shù)據(jù),結合自然語言處理技術挖掘藥物潛在的不良反應[15-17];另一方面,基于藥物的化學、生物學以及表型特征,使用機器學習或深度學習方法進行ADR預測研究[18-21]?;谖谋就诰虻难芯砍S糜谧R別和監(jiān)測相關ADR,其假定相關ADR已出現(xiàn),但無法預測藥物潛在的ADR;而基于藥物特征和機器學習的ADR預測研究,有助于探索藥物未知的ADR,這也是本文的研究主題。

        機器學習相關方法能夠提升ADR預測效果,但這些研究仍存在可改進的關鍵點:(1) 未考慮藥物之間關聯(lián)關系,可能導致有用信息丟失;(2) 使用大量獨熱編碼的特征數(shù)據(jù),而高維稀疏特征矩陣降維難度大,模型計算效率低;(3) 絕大多數(shù)需要為每種ADR單獨構建分類器。而知識圖譜(Knowledge Graph, KG)這種由節(jié)點和關系構成的特殊網(wǎng)絡結構及其嵌入技術,通過將實體嵌入連續(xù)低維的特征空間,捕獲特征實體之間非結構化語義關系,在不同類型信息之間實現(xiàn)融合和計算,能有效緩解高維稀疏特征數(shù)據(jù)帶來的計算低效問題,提高分類器預測性能[22-24]。

        近年來,知識圖譜及其嵌入技術逐漸被應用于藥物研究領域的知識發(fā)現(xiàn)和知識庫構建,這些研究通過獲取藥物特征數(shù)據(jù),構建含有不同類型節(jié)點的知識圖譜,通過知識圖譜嵌入技術結合分類模型進行相關研究主題的目標預測?;?KG的ADR預測,相關典型研究如表1所示。通過文獻綜述,當前研究仍存在以下有待改進的要點:(1) 使用KG中未出現(xiàn)的“drug-ADR”組合作為ADR預測模型的負樣本,但KG中不存在的“drug-ADR”組合可能只是目前尚未被發(fā)現(xiàn)[21];(2) 使用簡單的機器學習模型;(3) 所覆蓋的藥物數(shù)量較少,特征局限于藥物靶點和適應癥,諸如酶和載體蛋白之類的重要信息尚未在先前的研究中使用。

        表1 相關典型研究Table 1 Relevant typical studies

        基于此,本文采用知識圖譜嵌入與深度學習相結合的方法實現(xiàn)ADR預測,除靶點和適應癥之外,還整合了酶和載體蛋白信息構建知識圖譜;并開發(fā)一個強大的深度神經(jīng)網(wǎng)絡,提高ADR的預測性能。

        2 數(shù)據(jù)與方法

        在本文提出的方法中,參考文獻[25]和[26],將藥物的副作用(Side Effect) 視為ADR。鑒于結合藥物的生物學特征和表型特征能夠提升ADR預測模型性能[18,25],從DrugBank(v5.18)[30]和SIDER(v4.1)[31]數(shù)據(jù)庫分別選擇靶點(Target) 、載體(Transporter) 、酶(Enzyme) 等生物學特征和適應癥(Indication) 和不良反應(ADR) 等表型特征,以及藥物(drug) 作為知識圖譜實體節(jié)點。然后,為規(guī)避為每種ADR構建單獨分類器所增加的沉重工作量,將ADR預測視作一個統(tǒng)一的二分類問題,并使用“drug-ADR”組合和“drug-Indication”組合分別作為分類模型的正樣本和負樣本,樣本標簽分別記作“1”和“0”。由此開發(fā)一個基于知識圖譜嵌入和深度學習的ADR預測模型,通過5次重復實驗,檢驗卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)模型穩(wěn)定性。最后,以藥物性腎功能損傷為例進行預測,并通過真實世界數(shù)據(jù)驗證模型預測的有效性。具體研究思路如圖1所示。

        圖1 ADR預測研究框架Fig.1 Research framework of ADR prediction

        2.1 數(shù)據(jù)來源與知識圖譜構建

        DrugBank數(shù)據(jù)庫涵蓋豐富的生物和化學信息學資源,SIDER數(shù)據(jù)庫收錄了1 430種藥物,6 000余種副作用。通過下載DrugBank中xml數(shù)據(jù)文件和SIDER中tsv文件,使用Python程序解析并獲得藥物的相關特征數(shù)據(jù)。根據(jù)藥物解剖治療化學代碼(Anatomical Therapeutic Chemical, ATC) 整合2個數(shù)據(jù)庫的相關數(shù)據(jù),并篩選至少具有1種藥物特征的藥物記錄。最終構建5類三元組:<drug, hasTransporter, Transporter>、<drug, hasADR, ADR>、<drug, hasEmzyme,Emzyme>、<drug, hasTarget, Target>、<drug,hasIndication, Indication>;將三元組儲存至Neo4j圖數(shù)據(jù)庫,獲得可視化知識圖譜,如圖2所示。該圖譜共包含了7 916種drug、5 454種ADR以及158 121個三元組,具體如表2所示。

        圖2 ADR知識圖譜中的部分實體和關系Fig.2 Local entities and relationships in the knowledge graph

        表2 ADR知識圖譜包含的實體、關系及其數(shù)量Table 2 Entities, relationships and quantities included in the ADR knowledge graph

        2.2 知識圖譜嵌入模型

        知識圖譜嵌入技術逐漸被應用于預測研究[22],其中基于張量分解的DistMult[32]模型和HolE[33]模型應用最為廣泛。DistMult模型通過實體之間的雙線性變換來描述實體之間的語義相關性,其中頭實體和尾實體分別由向量h和t表示,關系由向量r表示;關系矩陣Mr=diag(r)對潛在因子之間的成對相互作用進行建模,使用fr(h,t)=hTMrt作為評分函數(shù)。HolE模型以DistMult模型為基礎,在實體之間引入循環(huán)相關運算,以捕獲成對實體的組成表示,使用fr(h,t)=rT(h*t) 作為評分函數(shù),式中* 為循環(huán)相關運算。上述2種嵌入模型均以最小化評分函數(shù)作為目標,以獲得實體和關系的有效嵌入向量。

        2.3 CNN分類模型

        研究設計了一個具有2個卷積層,4個全連接層的CNN模型,如圖3所示。由于ReLU激活函數(shù)計算效率和收斂速度等特性遠高于sigmoid、Tanh等函數(shù);因此,卷積層和全連接層均使用ReLU激活函數(shù)。同時,為使得每一層神經(jīng)網(wǎng)絡的輸入保持相同分布和提高網(wǎng)絡優(yōu)化效率,卷積層均使用批歸一化處理(Batch Normalization) ,模型具體參數(shù)如表3所示。本文使用式(1) 所示的二元交叉熵作為模型訓練的損失函數(shù),式中:n為訓練樣本總數(shù),yi為 樣本i的真實標簽,^yi為樣本i被預測為類別 “1” 的概率值;通過模型訓練,獲取參數(shù)W和b的最優(yōu)值。

        圖3 用于ADR預測的CNN模型結構圖Fig.3 CNN model structure diagram for ADR prediction

        表3 CNN模型參數(shù)Table 3 Parameters of CNN model

        采用邏輯回歸(Logistic Regression, LR) 、K近鄰(k-Nearest Neighbor, KNN) 、決策樹(Decision Tree,DT) 、隨機森林(Random Forest, RF) 、樸素貝葉斯(Naive Bayes, NB) 、梯度提升決策樹(Gradient Boosting Decision Tree, GBDT) 等6種基準模型進行對比分析,上述模型被廣泛應用于ADR預測[8]。

        3 實驗與結果分析

        3.1 模型評價指標

        本文采用混淆矩陣計算召回率(Recall) 、準確率(Accuracy, ACC) 、精確率(Precision,P) 、F1值(F1-Score,F1) 和曲線下面積(Areas Under the Curve,AUC) 作為模型的評價指標。

        3.2 知識圖譜嵌入及樣本向量表示

        嵌入操作基于Python語言,調(diào)用AmpliGraph工具庫實現(xiàn)。在嵌入操作前,需要確定ADR預測模型的訓練集和測試集;訓練集被用于知識圖譜嵌入操作和ADR預測模型訓練,測試集被用于評估ADR預測模型的預測性能。

        知識圖譜中正樣本為119 233個,負樣本為12 498個(見表4) 。由于正負樣本數(shù)量相差1個數(shù)量級,故以負樣本的總數(shù)為基礎,按照9:1的比例,將負樣本隨機劃分為11 249個訓練樣本和1 249個測試樣本,并隨機從正樣本中取1 249個作為測試樣本;則測試集包含正負樣本各1 249個;訓練集包括117 984個正樣本和11 249個負樣本。為解決訓練集樣本不平衡問題,采用過采樣(Oversampling) 將負樣本復制10倍。樣本劃分結果如表4所示。

        表4 用于知識圖譜嵌入以及ADR分類器訓練和測試的數(shù)據(jù)Table 4 Data used for KG embedding and ADR classifier training and testing

        本文在知識圖譜嵌入過程中,采用不同的嵌入策略獲得嵌入向量。并分別使用hD、tA、tI表示實體drug、ADR和Indication的嵌入向量,通過頭實體向量減去尾實體向量,構造出ADR分類器正負樣本的表示向量,如表5所示。分別使用Xp、Xn表示正樣本和負樣本,其中Xp對 應“d rug-ADR ”組合,Xn對應“drug-Indication”組合,Xp和Xn共同構成分類器的實驗數(shù)據(jù)集。

        表5 ADR分類器部分樣本的表示向量(DistMult, dim=20)Table 5 Representation vector of partial samples of ADR classifier(DistMult, dim=20)

        3.3 嵌入維度對比分析

        本文通過組合不同嵌入模型和不同嵌入維度(10至800) ,探索不同嵌入策略對基準ADR分類模型在測試集上預測性能的影響。如圖4所示,在不同嵌入模型下,隨著嵌入維度增大,各基準模型在測試集上的AUC值也逐漸增大;并且ACC、F1指標值也存在不同程度的波動增大;Recall值沒有明顯增大,相對穩(wěn)定。然而,當嵌入維度大于400時,各基準模型的AUC、ACC、F1指標值趨于穩(wěn)定。通過綜合分析,適當增大嵌入維度,能夠在一定程度上提升ADR分類模型的預測性能。同時,為避免分類器出現(xiàn)過擬合和實驗硬件設備資源浪費,本文選擇400維為最佳嵌入維度,并結合CNN模型進行ADR預測。

        圖4 不同嵌入維度下各基準ADR分類模型在測試集上的性能表現(xiàn)Fig.4 The performance of each baseline ADR classification model on the test set with different embedding dimensions

        3.4 分類模型對比分析

        基于Python語言,使用scikit-learn和深度學習框架Tensorflow2.0開發(fā)ADR分類模型,6種基準模型將使用默認參數(shù)。固定嵌入維度為400維,通過嵌入模型獲得樣本的表示向量,并將其輸入到ADR分類模型進行訓練和預測,各分類模型在測試集上的預測結果如表6所示。綜合分析發(fā)現(xiàn),在DistMult嵌入模型下,CNN分類模型在測試集上的AUC值為0.942,優(yōu)于所有基準模型。

        表6 嵌入維度為400時各ADR預測模型比較Table 6 Comparison of ADR prediction models when the embedding dimension is 400

        3.5 模型穩(wěn)定性評估

        研究采用5次重復實驗,評估CNN模型的穩(wěn)定性。具體步驟:(1) 設定隨機種子,構建訓練集和測試集;(2) 采用“DistMult模型+400維”組合策略進行嵌入操作;(3) 將所得樣本表示向量用于CNN分類模型訓練和預測。結果如表7所示,本文CNN模型的AUC平均值為0.957,比Zhang等[26]的研究(平均AUC=0.863)高出0.094,提升了10.89%;F1均值為0.890,Recall均值為0.913,各指標值波動較小。同時,ROC曲線(見圖5)表現(xiàn)也非常穩(wěn)定,表明本文所開發(fā)的CNN模型具有較高穩(wěn)定性。

        圖5 CNN模型5次重復實驗在測試集上的ROC曲線Fig.5 ROC curve of five repeated experiments of CNN model

        表7 5次重復實驗CNN模型在測試集上的表現(xiàn)Table 7 The performance of the CNN model on the test set for five repeated experiments

        3.6 預測模型驗證

        本文通過現(xiàn)實世界數(shù)據(jù),對 CNN模型的有效性進行檢驗。以“腎損傷”或“kidney injury”為關鍵詞,在中國知網(wǎng)、PubMed等文獻數(shù)據(jù)庫中隨機檢索相關的ADR研究,獲得5個未被SIDER數(shù)據(jù)庫收錄的“ d rug-ADR”組合;將其作為輸入,使用CNN模型進行預測。結果顯示(見表8),真實樣本被預測為“陽性”的概率平均值為0.972,表明本文的CNN模型能夠有效預測實驗樣本集之外的樣本。

        表8 使用CNN模型對文獻中的drug-ADR組合的預測結果Table 8 Prediction results of drug-ADR pairs in literature through CNN model

        3.7 與先進研究對比分析

        由于目前缺乏用于檢驗ADR預測模型性能的標準數(shù)據(jù)集,本文將從所覆蓋的藥物、ADR種類數(shù)量,以及預測模型的AUC值等方面,與相關典型研究進行對比(見表9)。通過對比分析,本文開發(fā)的CNN模型的AUC高于相關研究所提供的結果,預測性能更好。同時,本文的實驗數(shù)據(jù)集包含7 916種藥物和5 454種ADR,所覆蓋的藥物信息多于絕大多數(shù)同類研究。此外,以往的研究大多需要針對每個ADR單獨構建預測模型,增加了ADR預測任務的工作量;相比之下,本文通過構建藥物知識圖譜,使用知識圖譜嵌入技術將藥物、ADR等實體編碼成特征向量;最終使用一個統(tǒng)一的CNN模型對各“ d rug-ADR”組合進行預測,以評估該組合存在“hasADR”關系的概率,這極大減少了模型數(shù)量。Zhang等[26]的研究使用了類似的方法進行ADR預測,然而其所覆蓋的藥物僅有3 632種,并且所表現(xiàn)出的AUC值相對較低;Joshi等[25]的研究在文獻[26]的基礎上增加了藥物通路(Pathways)和基因(Gene) 特征,但其ADR預測模型的平均AUC僅為0.912,仍存在提升的空間。本文通過選擇更具代表性的藥物特征,從而開發(fā)出更高性能的ADR預測模型。

        表9 與現(xiàn)有典型研究對比Table 9 Comparison with advanced ADR prediction models

        4 結語

        針對既往ADR預測模型研究的預測精度低、需要為每種ADR單獨構建分類器導致工作量繁重等問題,本文將不同類型ADR預測簡化為一個二分類問題,并開發(fā)一個基于知識圖譜嵌入和深度學習的CNN預測模型。本文的預測模型比已有研究的預測精度更高,此外通過真實世界數(shù)據(jù)驗證模型預測結果的有效性和可行性,有望在臨床安全用藥中發(fā)揮重要的輔助作用。下一步研究將考慮使用類似的方法,對中成藥潛在的不良反應進行研究;或以患者為中心,評估導致臨床患者發(fā)生ADR的潛在風險因素,并預測患者在具體用藥情況下出現(xiàn)特定ADR的風險程度;或探究不同場景下的ADR預測模型。

        猜你喜歡
        模型研究
        一半模型
        FMS與YBT相關性的實證研究
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        視錯覺在平面設計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側面碰撞假人損傷研究
        3D打印中的模型分割與打包
        精品国内日本一区二区| 国产高清一级毛片在线看| 一本久久伊人热热精品中文| 亚洲国产精品中文字幕日韩| 一区两区三区视频在线观看| 国产在线一区二区三区四区不卡| 无码成人一区二区| 色吧综合网| 人妻少妇久久精品一区二区| 日本精品免费看99久久| 日韩一区国产二区欧美三区| 欧美成人形色生活片| 丁香九月综合激情| 国产在线精品成人一区二区三区| 亚洲精品无码av人在线观看| 亚洲色偷拍区另类无码专区| 国产亚洲精品日韩香蕉网| 日韩精品免费在线视频一区| 97久久精品人妻人人搡人人玩| 国产精品亚洲综合一区在线观看| 免费无码黄网站在线观看| 人妻少妇中文字幕,久久精品| 国产激情无码一区二区三区| 欧美人与动牲交片免费| 日本一区二区三区专区| 日本最新一区二区三区在线视频| 久久久www成人免费精品| 久久久亚洲欧洲日产国产成人无码 | 久久久久久久亚洲av无码| 越南女子杂交内射bbwbbw| 欧洲国产成人精品91铁牛tv| 精品国产一区二区三区香| 免费人妻无码不卡中文字幕系| 国产A√无码专区| 亚洲av中文字字幕乱码| 人禽杂交18禁网站免费| 国产精品高潮呻吟av久久4虎| 狠狠色欧美亚洲综合色黑a| 国产亚洲91精品色在线| 最近中文字幕大全在线电影视频| 91久久精品无码人妻系列|