亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多特性融合圖卷積方法的分子生物活性預(yù)測(cè)

        2021-12-02 06:38:46譚露露張?chǎng)析?/span>周銀座
        關(guān)鍵詞:描述符張量卷積

        譚露露,張?chǎng)析危茔y座*

        (1. 杭州師范大學(xué)阿里巴巴商學(xué)院 杭州 311121;2. 杭州電子科技大學(xué)通信工程學(xué)院 杭州 310018)

        藥物開(kāi)發(fā)周期長(zhǎng)、耗資大,藥物流失率高。目前,每10 個(gè)候選藥物中就有9 個(gè)在I 期臨床試驗(yàn)或監(jiān)管批準(zhǔn)時(shí)失敗[1]。為改善藥物發(fā)現(xiàn)過(guò)程效率低下的狀況,縮短新藥研發(fā)周期及提高成功率,藥物化學(xué)家們提出了定量構(gòu)效關(guān)系(quantitative structure -activity relationships, QSAR)的概念。QSAR 是對(duì)已知先導(dǎo)化合物的一系列衍生物進(jìn)行定量的生物活性測(cè)定,分析衍生物的理化參數(shù)與生物活性的關(guān)系,建立結(jié)構(gòu)與生物活性之間的數(shù)學(xué)模型,并以這種數(shù)學(xué)模型來(lái)指導(dǎo)藥物分子設(shè)計(jì)[2]。早期階段,機(jī)器學(xué)習(xí)方法是QSAR 領(lǐng)域較為常用的建模方法。由于傳統(tǒng)機(jī)器學(xué)習(xí)方法只能處理固定大小的輸入,大多早期的QSAR 建模都是針對(duì)不同任務(wù),人工生成相應(yīng)的固定長(zhǎng)度的分子描述符。常用的分子描述符包括[3]:1)分子指紋,通過(guò)一系列表示特定子結(jié)構(gòu)的二進(jìn)制數(shù)字對(duì)分子結(jié)構(gòu)進(jìn)行編碼[3];2)一維/二維分子描述符:由統(tǒng)計(jì)學(xué)家和化學(xué)家處理的描述分子物理化學(xué)和微分拓?fù)溲苌拿枋龇鸞3]。常用的建模方法包括線性方法(如線性回歸)和非線性方法(如支持向量機(jī)、隨機(jī)森林等)。近年來(lái),深度學(xué)習(xí)方法已成為QSAR 建模的最新研究方向。

        過(guò)去十年中,深度學(xué)習(xí)已成為各領(lǐng)域的主要建模方法,尤其在醫(yī)學(xué)領(lǐng)域,涉及生物活性預(yù)測(cè)、藥物從頭設(shè)計(jì)、醫(yī)學(xué)圖像分析和合成預(yù)測(cè)等多個(gè)方向。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)是深度學(xué)習(xí)中的一種特殊架構(gòu),已成功解決了結(jié)構(gòu)化數(shù)據(jù)(如圖像)的問(wèn)題[4]。但是,當(dāng)圖形具有不規(guī)則形狀和大小、節(jié)點(diǎn)位置沒(méi)有空間順序且節(jié)點(diǎn)的鄰居也與位置有關(guān)時(shí),傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)則不能直接應(yīng)用于圖上。針對(duì)這種非歐式結(jié)構(gòu)化數(shù)據(jù),研究者們提出了圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN),且基于此提出了各種衍生架構(gòu)。文獻(xiàn)[5]提出了第一個(gè)圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN),該架構(gòu)基于遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了無(wú)向圖、有向圖和循環(huán)圖的體系結(jié)構(gòu)。文獻(xiàn)[6]基于頻譜圖理論提出了圖卷積網(wǎng)絡(luò)。目前,已有其他形式的GCN,如圖注意網(wǎng)絡(luò)(graph attention network, GAT)、圖自動(dòng)編碼器和時(shí)空?qǐng)D卷積等。

        近幾年,已有多數(shù)研究將圖卷積應(yīng)用于分子的生物活性預(yù)測(cè)。在化學(xué)圖論中,化合物結(jié)構(gòu)通常表示為氫貧化(省略氫)的分子圖,每個(gè)化合物都以無(wú)向圖表示,原子為節(jié)點(diǎn),鍵為邊。原子和鍵均包含很多屬性例如原子類(lèi)型、鍵類(lèi)型等。文獻(xiàn)[7]利用節(jié)點(diǎn)(原子)和邊(鍵)的屬性建立圖卷積模型。文獻(xiàn)[8]創(chuàng)建了原子特征向量和鍵特征向量,并將二者拼接形成原子鍵特征向量。文獻(xiàn)[9]提出了圖記憶網(wǎng)絡(luò)(graphMem),這是一種記憶增強(qiáng)的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可用于處理具有多種鍵類(lèi)型的分子圖。MPNN[10]階段性地總結(jié)了GNN 模型,摒棄手工特征,邁出了將GNN 應(yīng)用于分子圖的重要一步。SchNet[11]推動(dòng)了GNN 在分子動(dòng)力學(xué)模擬中的應(yīng)用,使之符合物理學(xué)約束方程。DimeNet[12]對(duì)分子中的方向性信息進(jìn)行建模,使得模型的預(yù)測(cè)精度更進(jìn)一步。在這些研究中,都未對(duì)節(jié)點(diǎn)特征和鍵屬性加以區(qū)分,沒(méi)有關(guān)注其內(nèi)部聯(lián)系。但事實(shí)上,為原子對(duì)之間的各種相互作用類(lèi)型賦予不同權(quán)重才是較為準(zhǔn)確的方法。

        最近,文獻(xiàn)[13]提出一種基于邊注意的圖卷積神經(jīng)網(wǎng)絡(luò)算法(edge attention graph convolutional network, EAGCN),該算法提出了一個(gè)邊緣注意層來(lái)評(píng)估分子中每條邊的權(quán)重:預(yù)先構(gòu)建了一個(gè)屬性張量,經(jīng)過(guò)注意層處理后,生成多個(gè)注意權(quán)重張量,其中每個(gè)張量都包含數(shù)據(jù)集中(分子圖)一個(gè)邊屬性的所有可能的注意權(quán)重。然后,通過(guò)查找該權(quán)重張量中分子的每個(gè)鍵的值來(lái)構(gòu)建注意力矩陣。這種方法使得模型可以在不同層次和不同邊屬性上學(xué)習(xí)不同的注意力權(quán)重。經(jīng)實(shí)驗(yàn)證明,EAGCN 框架具有很高的適用性,并且直接從圖結(jié)構(gòu)中學(xué)習(xí)特定的分子特征,避免了數(shù)據(jù)預(yù)處理階段帶來(lái)的誤差。

        本文基于EAGCN 框架,考慮到無(wú)法自適應(yīng)學(xué)習(xí)特征重要度帶來(lái)的不穩(wěn)定性,提出了基于多特性融合的注意力圖卷積模型(multi-feature fusion dge attention graph convolutional network, MF_EAGCN),其中的多特性融合方案是基于自注意力機(jī)制的特征融合方式,能夠有效地讓模型自適應(yīng)調(diào)節(jié)多個(gè)特征張量的權(quán)重分配。本文使用多種篩選方法對(duì)PubChem數(shù)據(jù)庫(kù)中的靶標(biāo)等內(nèi)容作出限制,選擇了不同類(lèi)型的幾種生物活性數(shù)據(jù)集,并將本文算法與幾種基準(zhǔn)模型同時(shí)應(yīng)用于其中,分析評(píng)估了各自的性能。

        1 圖卷積方法

        在化學(xué)圖論中,化合物結(jié)構(gòu)通常表示為氫貧化的分子圖,每個(gè)化合物以無(wú)向圖表示,原子為節(jié)點(diǎn),鍵為邊。其中,分子的屬性信息包括原子屬性和鍵屬性[14],具體描述見(jiàn)表1 和表2。這些屬性對(duì)于描述兩個(gè)原子之間的鍵合強(qiáng)度、芳香性或鍵合共振等特征非常重要。如果將不同的邊屬性進(jìn)行注意層處理,則不同的邊屬性對(duì)應(yīng)于不同的邊注意矩陣。

        表1 原子屬性表述

        表2 鍵屬性表述

        1.1 圖卷積相關(guān)定義

        定義1 圖使用G=(V,E)表示,V為節(jié)點(diǎn)的有限集,|V|=N,N為節(jié)點(diǎn)數(shù),E?V×V是邊的有限集合。

        定義2G的鄰接矩陣A是一個(gè)方陣,維度為N×N。ai j=1代表節(jié)點(diǎn)i和j之間有連邊,反之a(chǎn)i j=0則代表節(jié)點(diǎn)間無(wú)連邊。

        定義3 為G構(gòu)建一個(gè)節(jié)點(diǎn)特征張量Hl∈RN×RF,F(xiàn)為每個(gè)節(jié)點(diǎn)的特征總數(shù)。第i行表示節(jié)點(diǎn)i的特征和一系列邊屬性,這里令K為邊屬性個(gè)數(shù)。

        定義4 假設(shè)對(duì)于邊屬性i,有di種 可能的類(lèi)型。

        定義5 為G構(gòu)造一個(gè)分子屬性張量M∈RNatom×Natom×Nfeatures(Nfeatures即為定義3 中的F)作為注意層的輸入。

        1.2 基于邊注意的圖卷積

        EAGCN[13]在不同層次和不同邊屬性上學(xué)習(xí)不同的注意力權(quán)重,從而構(gòu)建一個(gè)分子的注意力矩陣。該算法預(yù)先構(gòu)建了一個(gè)屬性張量,經(jīng)過(guò)注意層處理后,生成多個(gè)注意權(quán)重張量,其中每個(gè)都包含數(shù)據(jù)集中一個(gè)邊屬性的所有可能的注意權(quán)重。然后,通過(guò)查找該權(quán)重張量中分子的對(duì)應(yīng)鍵值來(lái)構(gòu)建注意力矩陣。這種方法使得不同分子可對(duì)應(yīng)不同的注意力矩陣。

        EAGCN 利用分子的原子和鍵屬性,為每個(gè)分子構(gòu)建1 個(gè)鄰接矩陣A、1 個(gè)節(jié)點(diǎn)特征張量Hl和1 個(gè)分子屬性張量M用于模型訓(xùn)練。模型總流程如圖1 所示,整個(gè)模型將分子圖作為輸入,處理分子圖中的邊屬性后得到邊屬性張量,one-hot 編碼后分別經(jīng)過(guò)GAT 層得到5 個(gè)圖卷積特征,再經(jīng)過(guò)concat 拼接方式獲得總張量特征,以此作為下一層GAT 層的輸入。最后使用兩層dense 層輸出結(jié)果。

        圖1 EAGCN 模型流程

        先通過(guò)具有di個(gè)輸入通道和1 個(gè)輸出通道的卷積處理,使用尺寸為1 ×1×di的過(guò)濾器Dli,以1 為步長(zhǎng)移動(dòng)。其中,l表示在第l層邊注意層。

        其次為了使權(quán)重在不同邊中具有可比性,使用softmax 函數(shù)對(duì)權(quán)重進(jìn)行歸一化,如式(2)所示。softmax 函數(shù)又稱(chēng)為歸一化指數(shù)函數(shù),得到的輸出值互相關(guān)聯(lián),它可以將其量化到0~1 范圍內(nèi),將多分類(lèi)的結(jié)果以概率形式輸出,且輸出值總和為1。

        1.3 基于多特性融合的注意力圖卷積

        本文將EAGCN 用于本文收集的不同種類(lèi)的生物活性預(yù)測(cè)數(shù)據(jù)集,得到了比傳統(tǒng)機(jī)器學(xué)習(xí)更好的模型性能。而EAGCN 模型的某些特性是使得其在大多生物活性數(shù)據(jù)集上性能較優(yōu)的原因:

        1)其直接對(duì)分子圖進(jìn)行學(xué)習(xí),可以很好地避免人工篩選特征帶來(lái)的誤差,一定程度上提升了模型的魯棒性和可靠性;

        2)其生成的注意權(quán)重矩陣取決于一個(gè)節(jié)點(diǎn)的領(lǐng)域特性,而不是全局特性;且權(quán)重可在所有圖中共享,于是可通過(guò)共享的特征來(lái)實(shí)現(xiàn)數(shù)據(jù)的局部特性提取。

        在原始模型中,權(quán)重張量經(jīng)過(guò)圖卷積處理得到特征后,整合特征圖信息時(shí)常使用concat 方式合并通道。concat 經(jīng)常用于將特征聯(lián)合、多個(gè)算法框架提取的圖特征融合又或是將輸出層的信息進(jìn)行融合,將融合后的特征作為下一個(gè)網(wǎng)絡(luò)層的輸入。concat 雖然較為常用,但也存在一些問(wèn)題:其只是簡(jiǎn)單的特征張量的維度拼接,相當(dāng)于只是通道數(shù)的增加。這只是增加了圖像本身的特征,對(duì)于多特征的重要度分析并沒(méi)有起到太大作用。這不僅會(huì)導(dǎo)致多個(gè)屬性信息沒(méi)有區(qū)分度,增加維度還可能會(huì)降低模型的計(jì)算效率,影響模型性能。于是本文提出使用多特性融合的方式替換concat 方法。在EAGCN中,注意力機(jī)制被用于從鄰居節(jié)點(diǎn)那里學(xué)習(xí)節(jié)點(diǎn)對(duì)之間邊的交互強(qiáng)度,簡(jiǎn)單來(lái)說(shuō)是為了得知邊在整個(gè)圖中的重要性。經(jīng)過(guò)實(shí)驗(yàn)可知“原子對(duì)類(lèi)型”這一邊屬性對(duì)整個(gè)模型性能影響較大,因此在設(shè)置網(wǎng)絡(luò)通道數(shù)參數(shù)時(shí),本文將為原子對(duì)類(lèi)型的特征矩陣設(shè)置更高的通道數(shù),相當(dāng)于使用人工設(shè)置偏向權(quán)重的方法,這種方法存在一定的不穩(wěn)定性。

        為了更科學(xué)地知道每種邊屬性特征的重要性,且能夠有效地讓模型自適應(yīng)調(diào)節(jié)多個(gè)特征張量的權(quán)重分配,本文提出了多特性融合的方法進(jìn)行算法優(yōu)化。這是基于自注意力機(jī)制(self-attention)[15]的特征融合方案,它可以對(duì)輸入的每個(gè)元素賦予不同的權(quán)重參數(shù),從而“挑出”每種特征中較為重要的信息,抑制但不丟失其他信息。其最大的優(yōu)勢(shì)就是能一步到位地考慮全局聯(lián)系和局部聯(lián)系,可以進(jìn)一步提高模型的學(xué)習(xí)效率。

        EAGCN 為每張圖生成了分子屬性張量M,為了計(jì)算得到每種屬性中不同邊的權(quán)重,將分子屬性張量M進(jìn)行one-hot 編碼,再將多個(gè)屬性張量輸入注意層,進(jìn)而得到多個(gè)邊權(quán)重張量Alatt,i。經(jīng)過(guò)圖卷積層的處理后得到特征張量Hl+1,將concat 融合方式替換為多特性融合方案,具體步驟如下。

        1)為每個(gè)輸入生成Q、K、V張量

        將得到的5 個(gè)特征張量Hil+1作為輸入。Hil+1的維度根據(jù)模型中設(shè)置的通道數(shù)而變化。以一個(gè)維度為N×30 的圖特征張量Hil+1為例,先為每個(gè)特征張量設(shè)置3 個(gè)不同的張量,分別為查詢(xún)Q、鍵K、值V,長(zhǎng)度默認(rèn)為64。WQ,WK,WV是3 個(gè)不同的權(quán)重張量(3 個(gè)張量維度相同,都為30×64),用特征張量Hil+1分別與它們相乘,得到對(duì)應(yīng)的Q、K、V張量,計(jì)算示例如圖2 所示。上述過(guò)程在計(jì)算時(shí)其實(shí)是基于矩陣運(yùn)算的,即運(yùn)算時(shí)是將輸入張量合并計(jì)算的。

        圖2 多特性融合方式流程

        2)計(jì)算得分

        將每個(gè)特征的鍵向量和查詢(xún)向量進(jìn)行點(diǎn)積運(yùn)算,得到其分?jǐn)?shù):score=Q×K

        3) score 歸一化

        4) softmax 歸一化

        使用softmax 對(duì)所有特征張量的score 進(jìn)行歸一化,使得到的score 都為正且和為1。這一步的目的是初步得到每個(gè)邊屬性對(duì)于整個(gè)圖的權(quán)重。

        5)求輸出張量評(píng)分

        將值張量V與softmax 分?jǐn)?shù)點(diǎn)乘,得到加權(quán)的每個(gè)輸入張量(圖卷積特征)的評(píng)分v。

        1.4 數(shù)據(jù)集

        本文所選用的數(shù)據(jù)集來(lái)自于一個(gè)公共化學(xué)數(shù)據(jù)庫(kù)PubChem[16]。本文選用了文獻(xiàn)中的多種分析篩選方法[14],選擇了相同類(lèi)型和不同類(lèi)型的生物活性數(shù)據(jù)集,對(duì)篩選的靶標(biāo)等作出了限制,如篩選了細(xì)胞色素P450 酶的多個(gè)系列。最終本文選用了1851靶標(biāo)家族中細(xì)胞色素酶P450 系列的4 個(gè)數(shù)據(jù)集、兩種抑制劑和識(shí)別結(jié)合r(CAG) RNA 重復(fù)序列的分子系列。表3 列出了所選用的數(shù)據(jù)集的相關(guān)信息以及篩選條件。

        根據(jù)表4各區(qū)縣的風(fēng)險(xiǎn)值及表5的雷電災(zāi)害綜合風(fēng)險(xiǎn)值R評(píng)判標(biāo)準(zhǔn),可得到長(zhǎng)沙地區(qū)雷電災(zāi)害風(fēng)險(xiǎn)區(qū)劃結(jié)果,如表6所示,結(jié)果表明長(zhǎng)沙縣、寧鄉(xiāng)縣為雷擊災(zāi)害極高易損區(qū),望城區(qū)為高易損區(qū),天心區(qū)、岳麓區(qū)、瀏陽(yáng)市為中易損區(qū),芙蓉區(qū)、開(kāi)福區(qū)、雨花區(qū)為低易損區(qū)。

        表3 本文所使用的來(lái)源于PubChem 數(shù)據(jù)庫(kù)的分類(lèi)數(shù)據(jù)集信息

        2 數(shù)值仿真結(jié)果

        2.1 數(shù)據(jù)處理

        分子的生物活性研究中,輸入數(shù)據(jù)是QSAR研究的基礎(chǔ),不同的算法模型所使用的分子輸入數(shù)據(jù)形式也是不同的。分子的表示形式常見(jiàn)的有:分子標(biāo)識(shí)符、分子描述符兩種。

        分子標(biāo)識(shí)符是基于文本的標(biāo)識(shí)符,如簡(jiǎn)化分子線性輸入規(guī)范(simplified molecular input line entry system, SMILES)[17]和 國(guó) 際 化 學(xué) 標(biāo) 識(shí) 符(InChl)[18]。SMILES 是用一組有序規(guī)則和專(zhuān)門(mén)語(yǔ)法將三維化學(xué)結(jié)構(gòu)編碼的文本字符串[17],是一種用于存儲(chǔ)化學(xué)信息的語(yǔ)言結(jié)構(gòu)。如二氧化碳(CO2)的SMILES 標(biāo)識(shí)符為O=C=O。SMILES 是目前QSAR 建模中較常使用的標(biāo)識(shí)符。

        國(guó)際化學(xué)標(biāo)識(shí)符InChl 用不同的化學(xué)信息層(連通性、立體化學(xué)、同位素和互變異構(gòu)體)來(lái)表達(dá)化學(xué)結(jié)構(gòu)[18]。但后期多項(xiàng)研究發(fā)現(xiàn),其復(fù)雜的數(shù)字公式會(huì)導(dǎo)致預(yù)測(cè)性能下降,因此并未在深度學(xué)習(xí)中經(jīng)常使用。

        分子描述符是早期QSAR 研究的基礎(chǔ),傳統(tǒng)機(jī)器學(xué)習(xí)模型無(wú)法識(shí)別及處理分子結(jié)構(gòu),將分子的物理化學(xué)性質(zhì)或分子結(jié)構(gòu)相關(guān)參數(shù),利用各種算法推導(dǎo)出模型可以處理的數(shù)值。

        目前,用于分子描述符的計(jì)算工具有很多種,包括各種開(kāi)源或商業(yè)軟件及各種開(kāi)源庫(kù)??梢陨傻姆肿用枋龇呀咏?0 000 個(gè),包括1D、2D、3D 描述符以及一些指紋描述符等。近些年,常用的分子描述符計(jì)算軟件有Dragon[19]、alvaDesc[20]、Gaussian[21]、Padel-Descriptor[22]、OpenBabel[23]等。其中,經(jīng)典的Dragon 軟件已迭代到7.0 版本,可以計(jì)算幾千種分子描述符,但不幸的是已經(jīng)停產(chǎn),進(jìn)而代替它的是alvaDesc。alvaDesc 可計(jì)算5 305種分子描述符(包括Dragon 7 中可用的所有描述符),以及一些特殊描述符如MACCS 指紋的計(jì)算。常用的化學(xué)庫(kù)有RDkit[24]等。RDkit 是非常著名的開(kāi)源化學(xué)信息軟件包,提供了Python 和C++語(yǔ)言的API 接口,不僅可以計(jì)算各種分子描述符,還可以進(jìn)行分子可視化及化學(xué)分析等工作,適用性極好。

        本文實(shí)驗(yàn)將MF_EAGCN 與EAGCN、隨機(jī)森林(random forest, RF)、支持向量機(jī)(support vector machines, SVM)及 深 度 神 經(jīng) 網(wǎng) 絡(luò)(deep neural networks, DNN)用于相同的數(shù)據(jù)中。在傳統(tǒng)機(jī)器學(xué)習(xí)方法中(RF、SVM、DNN),需要使用計(jì)算生成的分子描述符,因此本文在設(shè)計(jì)實(shí)驗(yàn)前,對(duì)于分子SMILES 數(shù)據(jù),使用RDKit(開(kāi)源化學(xué)計(jì)算軟件包)生成的200 個(gè)一維分子描述符作為基準(zhǔn)模型的特征;同時(shí)將RDKit 計(jì)算出的分子的原子屬性、邊屬性用于本文算法。

        2.2 實(shí)驗(yàn)裝置

        首先將EAGCN 應(yīng)用于本文選用的不同類(lèi)型生物活性分類(lèi)數(shù)據(jù)集,然后將基于多特性融合的注意力圖卷積應(yīng)用于同樣的數(shù)據(jù)集中。本節(jié)設(shè)計(jì)實(shí)驗(yàn)的目的是:1)驗(yàn)證基于邊注意的圖卷積模型相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法(如隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)等)確實(shí)更能提升對(duì)生物活性數(shù)據(jù)的分類(lèi)性能,且由于數(shù)據(jù)的多樣性,模型在生物活性預(yù)測(cè)問(wèn)題中也具有一定的普適性;2)驗(yàn)證本文針對(duì)特征融合方式進(jìn)行優(yōu)化得到的模型——基于多特性融合的注意力圖卷積模型,在生物活性預(yù)測(cè)任務(wù)中的性能提升。

        2.2.1 基準(zhǔn)實(shí)驗(yàn)設(shè)置

        本文使用的基準(zhǔn)方法為RF、SVM 及DNN 3 種。針對(duì)3 種模型,如表4 所示,設(shè)置了超參數(shù)列表進(jìn)行模型調(diào)參。同樣的,數(shù)據(jù)集劃分選用八折交叉驗(yàn)證法,然后用不同的隨機(jī)種子執(zhí)行3 次。這里得到的結(jié)果均為3 次運(yùn)行的平均值,并列出了標(biāo)準(zhǔn)偏差。

        2.2.2 EAGAN 與MF_EAGCN 算法的實(shí)驗(yàn)設(shè)置

        在EAGCN 建模時(shí)根據(jù)分析得到,原子對(duì)類(lèi)型這一屬性的權(quán)重設(shè)置較大時(shí),模型性能會(huì)較好,于是在該算法中人工將原子對(duì)類(lèi)型的GCN 層輸出通道數(shù)設(shè)置的偏大,為了更好地學(xué)習(xí)此特征,做出了人工干涉。在優(yōu)化的MF_EAGCN 中,會(huì)自行關(guān)注較高權(quán)重的邊屬性,即可以自適應(yīng)的學(xué)習(xí)不同的邊屬性權(quán)重。本文設(shè)置的實(shí)驗(yàn)參數(shù)如表5 所示。

        表4 各模型超參數(shù)設(shè)置

        表5 EAGCN 與MF_EAGCN 模型超參數(shù)設(shè)置

        2.2.3 評(píng)價(jià)指標(biāo)

        本文使用兩種評(píng)價(jià)指標(biāo):準(zhǔn)確率(accuracy,ACC)和平衡F1 分?jǐn)?shù)(balancedscore, F1-score)。

        其中準(zhǔn)確率(ACC)是分類(lèi)預(yù)測(cè)中較為常用的評(píng)價(jià)指標(biāo):

        式中,TP、TN 分別為被正確地劃分為正例、負(fù)例的個(gè)數(shù);P、N為實(shí)際樣本中正例、負(fù)例的個(gè)數(shù)。總的來(lái)說(shuō),ACC 就是被分對(duì)的樣本數(shù)占所有的樣本數(shù)的比例,ACC 指標(biāo)值越高,分類(lèi)器性能越好。

        平衡F 分?jǐn)?shù)F1-score 也是生物活性分類(lèi)任務(wù)中常用來(lái)衡量模型精確度的指標(biāo):

        F1-score 同時(shí)考慮到了模型的精確率(precision)和召回率(recall),只有在兩個(gè)值都高時(shí),F(xiàn)1 的值才會(huì)更高,模型性能越好。其中,precision 與recall 的計(jì)算公式如下:

        式中,F(xiàn)P、FN 分別表示被錯(cuò)誤的劃分為正例、負(fù)例的個(gè)數(shù)。

        2.3 算法性能分析

        表6 顯示了在幾種數(shù)據(jù)集上,不同基準(zhǔn)模型的ACC、F1-score 指標(biāo)結(jié)果。

        從實(shí)驗(yàn)結(jié)果可以看出,在這些數(shù)據(jù)集中,基于圖卷積的EAGCN 展現(xiàn)出了比傳統(tǒng)機(jī)器學(xué)習(xí)方法更好的分類(lèi)性能,其ACC 指標(biāo)均比基準(zhǔn)學(xué)習(xí)模型高出2%~8%,F(xiàn)1-score 指標(biāo)比基準(zhǔn)學(xué)習(xí)模型高出1%~5%??梢?jiàn)直接從分子圖學(xué)習(xí)而不是從預(yù)先計(jì)算的特性中獲得的信息使得模型性能更優(yōu)。少部分?jǐn)?shù)據(jù)集中,DNN 的性能能與EAGCN 方法性能基本持平或稍微高于其性能,RF 的性能有時(shí)可以與EAGCN 持平。可見(jiàn),EAGCN 的性能還有很多優(yōu)化空間。而基于多特性融合的MF_EAGCN 模型,展現(xiàn)出了更好的分類(lèi)性能,這也證實(shí)了多特性融合方案能夠更充分地利用邊屬性信息進(jìn)行特征提取,使得模型預(yù)測(cè)性能提升。其ACC 指標(biāo)均比EAGCN算法高出1%~2%,F(xiàn)1-score 指標(biāo)比EAGCN 模型高出約1%。

        表6 在7 種數(shù)據(jù)集中本文算法和EAGCN 及3 種基準(zhǔn)方法的預(yù)測(cè)結(jié)果

        圖3 和圖4 分別展示了本文提出的MF_EAGCN、基準(zhǔn)算法EAGCN 以及傳統(tǒng)機(jī)器學(xué)習(xí)方法5 種分類(lèi)器,分別應(yīng)用于7 種生物活性數(shù)據(jù)集中的ACC 指標(biāo)和F1-score 指標(biāo)分布對(duì)比,柱狀圖的條目從左到右依次是RF、SVM、DNN、EAGCN 和MF_EAGCN模型。在ACC 指標(biāo)分布圖中,可以看到數(shù)據(jù)集1851(2d6)在EAGCN 模型上的效果并不顯著,其原因可能是由于數(shù)據(jù)量相比較而言更大,在模型融合特征階段對(duì)特征重要度分配不均,導(dǎo)致對(duì)重要信息的忽略,進(jìn)而致使模型預(yù)測(cè)性能降低。而本文提出的MF_EAGCN 模型很好地緩解了此問(wèn)題,相較于EAGCN,其預(yù)測(cè)性能提升了2 個(gè)百分點(diǎn),而相較于基準(zhǔn)機(jī)器學(xué)習(xí)模型,其預(yù)測(cè)性能提升了8 個(gè)百分點(diǎn),由此也驗(yàn)證了本文算法的有效性。

        圖3 用于表現(xiàn)7 種生物活性數(shù)據(jù)集在5 種分類(lèi)器中性能的ACC 指標(biāo)分布

        圖4 用于表現(xiàn)7 種生物活性數(shù)據(jù)集在5 種分類(lèi)器中性能的F1-score 指標(biāo)分布

        3 結(jié) 束 語(yǔ)

        本文提出了基于自注意力機(jī)制的多特性融合方案,針對(duì)基于邊注意機(jī)制的圖卷積網(wǎng)絡(luò)模型進(jìn)行了有效優(yōu)化。本文將一種基于邊注意力的圖卷積網(wǎng)絡(luò)架構(gòu),應(yīng)用于文中選用的不同種類(lèi)的生物活性預(yù)測(cè)任務(wù),從而避免了人工特征工程帶來(lái)的誤差,并對(duì)比幾種機(jī)器學(xué)習(xí)基準(zhǔn)算法,驗(yàn)證了本人算法有效性。在此基礎(chǔ)上,針對(duì)前人提出的模型中存在的問(wèn)題:無(wú)法自適應(yīng)設(shè)置邊屬性特征權(quán)重,本文提出了分子多特性融合的方案優(yōu)化了算法模型的特征提取能力,通過(guò)自注意力機(jī)制針對(duì)多個(gè)特征進(jìn)行自適應(yīng)融合,有效地解決了這一問(wèn)題,并且獲得了更好的預(yù)測(cè)性能。本文使用的數(shù)據(jù)集偏向數(shù)據(jù)量較小的數(shù)據(jù)集,未來(lái)會(huì)將其擴(kuò)展到數(shù)據(jù)量更大的數(shù)據(jù)集以及其他生物活性預(yù)測(cè)任務(wù)上。在應(yīng)用于較大數(shù)據(jù)集時(shí),模型可以針對(duì)性地對(duì)不同任務(wù)作出優(yōu)化,可以提高模型的泛化性能,提升模型穩(wěn)定性。

        猜你喜歡
        描述符張量卷積
        基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
        四元數(shù)張量方程A*NX=B 的通解
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        Linux單線程并發(fā)服務(wù)器探索
        利用CNN的無(wú)人機(jī)遙感影像特征描述符學(xué)習(xí)
        擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        久久福利青草精品免费| 水蜜桃精品视频在线观看| 欧美顶级少妇作爱| 亚洲色丰满少妇高潮18p| YW亚洲AV无码乱码在线观看| 一本色道久久88综合亚洲精品| 国产成人一区二区三区乱| 亚洲中文字幕在线第二页| 思思久久99er热只有频精品66| 亚洲精品一区二区在线播放| 开心五月激情五月五月天| 免费人妻精品一区二区三区| 最新国产三级| 久久久精品国产亚洲av网| 亚洲综合一区中文字幕| 午夜福利院电影| 国产成人综合久久久久久| 亚洲一区二区三区ay| 亚洲国产精品成人久久久| 不卡高清av手机在线观看| 国产精品久久无码不卡黑寡妇 | 美女午夜福利视频网址| 中文字幕乱偷无码av先锋蜜桃| 亚洲一区二区综合色精品| 国产av区亚洲av毛片| 亚洲精品国产第一区二区| 中国农村熟妇性视频| 成人不卡国产福利电影在线看| 国产在线一区二区三区不卡| 色综合久久无码五十路人妻| 狠狠躁夜夜躁人人爽天天天天97| 极品诱惑一区二区三区| 亚洲av天堂一区二区| 97精品国产一区二区三区| 久久亚洲sm情趣捆绑调教| 国产 无码 日韩| 日本中文字幕婷婷在线| 成人综合婷婷国产精品久久蜜臀| 99久久国产亚洲综合精品| 久久久人妻精品一区bav| 无遮挡18禁啪啪羞羞漫画|