蔡皓宇 姚國田 安晟毅 李碩涵 顏 旭 王曉燕*
(吉林大學(xué),吉林 長春 130015)
多藥治療(相對于單一藥物或單一療法)的風險取決于任何特定病例的特定組合和診斷。在藥理學(xué)中廣為接受的是,如果不對試驗對象的特定藥物組合進行研究,就不可能準確預(yù)測藥物組合的副作用或臨床效果。了解所討論的單個藥物的藥理學(xué)特征并不能確保準確預(yù)測這些藥物組合的副作用,因為在不同藥物的相互作用下,藥物的活性會發(fā)生難以預(yù)料的變化。多種藥物不一定是不明智的,但在許多情況下會導(dǎo)致負面結(jié)果或治療效果不佳,通常弊大于利,或者風險太大而收益太少。因此,衛(wèi)生專業(yè)人員認為這種情況需要進行監(jiān)測和審查,以驗證是否所有藥物仍然是必要的。
因此我們需要計算機化決策支持來為多藥治療措施提供參考。Decagon 即是一種模擬多藥副作用的圖卷積神經(jīng)網(wǎng)絡(luò)方法。通過對大量的邊類型的多模態(tài)圖處理,經(jīng)過多模式網(wǎng)絡(luò)進行關(guān)系鏈接的預(yù)測。
本文利用來自吉林大學(xué)第一醫(yī)院的臨床數(shù)據(jù),使程序讀入補充的蛋白質(zhì)之間的相互作用、藥物對蛋白質(zhì)的作用的擴展數(shù)據(jù)同時結(jié)合基礎(chǔ)數(shù)據(jù),進行對多種可能的多藥副作用的評估。
讀入編碼后的補充藥物-蛋白質(zhì)相互作用(圖1)以及蛋白質(zhì)-蛋白質(zhì)物理結(jié)合(圖2)數(shù)據(jù),編碼規(guī)則及基礎(chǔ)數(shù)據(jù)依照SIDER(副作用資源)數(shù)據(jù)庫以及OFFSIDE 數(shù)據(jù)庫。
圖1 藥物- 蛋白質(zhì)相互作用(部分)
圖2 蛋白質(zhì)- 蛋白質(zhì)物理結(jié)合(部分)
將多藥副作用數(shù)據(jù)建模作為編碼藥物、蛋白質(zhì)和副作用關(guān)系的多模態(tài)圖上的多關(guān)系鏈接預(yù)測問題。這些關(guān)系用圖G=(V,R) 表示,有N 個節(jié)點(蛋白質(zhì)、藥物)和標記的邊(vi,r,vj),r 作為邊(關(guān)系)類型。類型包括:兩種蛋白質(zhì)之間的物理結(jié)合、藥物和蛋白質(zhì)之間的靶標關(guān)系、兩種藥物之間的特定類型的副作用,圖3 為一個多藥副作用關(guān)系圖示例。
圖3 多藥副作用關(guān)系圖示例
多藥副作用的預(yù)測需要針對藥物對和副作用關(guān)聯(lián)進行考察。最重要的是每一種單獨的藥物副作用需要對這種關(guān)聯(lián)產(chǎn)生限制。通過使用圖G 來對位于藥物節(jié)點間的標記的邊進行預(yù)測。我們對于每個藥物對(vi,vj)進行邊成立的可能性確認,即藥物vi和vj的共用與患者群體中r型多藥副作用有關(guān)的可能性。
所以我們應(yīng)用由斯坦福大學(xué)開發(fā),可以處理具有大量邊類型的多模態(tài)圖的非線性多層卷積圖神經(jīng)網(wǎng)絡(luò)模型Decagon,使Decagon 在圖G 上運行。Decagon 主要由編碼器和解碼器組成。編碼器模型將圖G 和附加節(jié)點特征向量作為輸入xi并產(chǎn)生一個節(jié)點d 嵌入對于圖中的每個(藥物、蛋白質(zhì))節(jié)點。圖中跨區(qū)域的信息經(jīng)由模型進行共享,每一種關(guān)系類型都有自己獨立的通道進行處理。對每一個節(jié)點而言,鄰居的特征向量由Decagon 進行變換和聚合。這樣,Decagon 只考慮節(jié)點的一階鄰域,并對圖中的所有位置應(yīng)用相同的變換。該神經(jīng)網(wǎng)絡(luò)模型的單層采用以下形式:
編碼器將每個節(jié)點vi∈V映射到一個嵌入,一個實值的向量表示z i∈Rd,其中d 是節(jié)點表示的維數(shù)。接著描述系統(tǒng)的解碼器組件。解碼器的目標是通過學(xué)習(xí)節(jié)點嵌入和對每個標簽(邊類型)進行不同的處理,在G 中重構(gòu)標記邊。解碼器通過一個函數(shù)g 得到一個有關(guān)(vi,r,v)j的分數(shù),其目標是分配一個分數(shù)g(vi,r,vj)表示藥物vi和vj經(jīng)關(guān)系/副作用類型相互作用的可能性有多大。使用嵌入系統(tǒng)的編碼器和zi和zj返回的節(jié)點i 和j,解碼器通過階乘運算預(yù)測候選邊緣(vi,ri,v)j:
然后應(yīng)用函數(shù)σ來計算邊的概率:
接下來,通過區(qū)分以下兩種情況來區(qū)分系統(tǒng)的解碼器:
當vi和vj為藥物節(jié)點時,解碼器g 假設(shè)藥物-藥物相互作用的全局模型(即R),其在多種藥物副作用中的變化和重要性由副作用特定的對角因子(即Dr)來描述。這里,R 是一個形狀為d×d 的可訓(xùn)練參數(shù)矩陣,它可以在所有可能的多藥副作用中模擬全部藥物相互作用。此外,在系統(tǒng)中,每個代表不同多藥副作用的關(guān)系R 都與一個對角d×d 矩陣Dr相關(guān)聯(lián),它模擬了zi中每個維度對副作用R 的重要性。然而,系統(tǒng)的一個顯著特征是對編碼器的依賴。而經(jīng)典的張量分解在訓(xùn)練中直接使用節(jié)點表示進行優(yōu)化,用端到端的方式計算它們,節(jié)點嵌入與張量因數(shù)分解一起進行優(yōu)化。
當vi和vj都不是藥物節(jié)點時,解碼器g 采用雙線性形式對節(jié)點嵌入的邊緣進行解碼。更準確地說,在這種情況下,解碼函數(shù)g 與形狀d×d 的可訓(xùn)練參數(shù)矩陣Mr相關(guān)聯(lián),該矩陣模擬了zi和zj中每兩個維度之間的相互作用。然后用雙線性形式計算預(yù)測的邊緣概率,然后應(yīng)用σ函數(shù)。
系統(tǒng)構(gòu)造的解碼器可以被看作是不同關(guān)系類型之間有效的參數(shù)共享的一種形式。特別是、涉及藥物對的關(guān)系類型使用相同的全局藥物-藥物相互作用模型(即矩陣R),其模式適用于所有藥物相關(guān)類型。期望這種解碼參數(shù)化可以減輕罕見副作用的過度適應(yīng),因為參數(shù)是由罕見出現(xiàn)的副作用(例如髓炎或鼻息肉)和頻繁出現(xiàn)的副作用(例如低血壓或貧血)共同組成的。其次,要g(vi,r,vj)來表示一個藥物組合(vi,vj)和一個副作用r 之間的關(guān)聯(lián),這個副作用r 不能單獨歸因于vi或vj。因此十分重要的是,預(yù)測系統(tǒng)通過R 允許i 和j 的嵌入中的任意兩個維度之間的非零交互。
模型訓(xùn)練:在模型訓(xùn)練過程中,利用交叉熵損失對模型參數(shù)進行優(yōu)化:
為了激勵模型將更高的概率分配給觀測到的邊(vi,r,vj) 而不是隨機的非邊。對于圖中的每一個藥物邊(vi,r,vj)(即正例),通過隨機選擇節(jié)點vn來抽樣一個隨機邊(vi,r,vn)(即反例)。這是通過將邊(vi,r,vj) 中的節(jié)點vj替換為節(jié)點vn來實現(xiàn)的,節(jié)點vn是據(jù)抽樣的分布而任意的選擇。最終,在考慮所有邊后,得到了損失函數(shù)為:
根據(jù)1309 種副作用類型,設(shè)置經(jīng)過20 個Epoch(訓(xùn)練次數(shù)),512 個batch_size(訓(xùn)練大?。琩ropout 率為0.1的訓(xùn)練后,得到關(guān)于AUROC、AUPRC、AP@50 的輸出結(jié)果如圖4。
圖4 輸出結(jié)果(部分)
將Decagon 的性能與其他方法進行比較。從表1 的結(jié)果中我們看到,考慮到多模式網(wǎng)絡(luò)表示和對大量不同的副作用進行建模,Decagon 的性能大大優(yōu)于其他方法。在964 種副作用類型中,Decagon 優(yōu)于替代方法 19.7%(AUROC)、22.0% (AUPRC) 和36.3% (AP@50)。Decagon的改進相對于張量分解方法尤其明顯,其中Decagon 超過基于張量的方法高達68.7% (AP@50)。這一發(fā)現(xiàn)突出了直接優(yōu)化張量分解的潛在限制(即普通的 RESCAL和DEDICOM),不依賴于圖結(jié)構(gòu)的卷積編碼器。我們還將Decagon 與其他兩種方法進行了比較,我們將其用于多關(guān)系鏈接預(yù)測任務(wù)。我們觀察到,與基于張量的方法相比,DeepWalk 神經(jīng)嵌入和級聯(lián)藥物特征實現(xiàn)了9.0%(AUROC) 和20.1% 的增益(AUPRC)。然而,這些方法采用兩階段管道,由藥物特征提取模型和鏈接預(yù)測模型組成,兩者都是單獨訓(xùn)練的。此外,他們不能考慮我們展示的包含有用信息的不同副作用的相互依賴性。
表1 方法比較
本文使用Decagon 方法構(gòu)建模型,并用來自吉林大學(xué)吉林大學(xué)第一醫(yī)院的臨床數(shù)據(jù)作為補充輸入,利用AUROC、AUPRC 和AP@50 評估訓(xùn)練結(jié)果,從而為可能的多藥副作用類型進行數(shù)據(jù)支持。該研究為多藥副作用的預(yù)測方法投入到臨床應(yīng)用的可行性提供了基礎(chǔ)。