亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合特征與GA-SVM算法的腦疾病基因預測

        2023-03-13 10:04:18譚卓昆羅龍飛王順芳
        計算機工程與應用 2023年5期
        關鍵詞:特征融合實驗

        譚卓昆,羅龍飛,王順芳

        云南大學 信息學院,昆明 650500

        近年來,腦部疾病率逐年上升,給人類身心健康和社會帶來了巨大影響及負擔[1]。大腦疾病通常可能是由一個或一組基因的故障引發(fā)的,而識別腦部疾病基因不僅在實驗上發(fā)現(xiàn)疾病基因具有重要的指導意義,并且對于理解腦部疾病機制和研發(fā)藥物也至關重要[2]。

        本文以此為契機,對腦部相關疾病基因的預測展開研究。在此之前,有不少的學者也進行了探究。Zhang和Gao等人[3-4]的綜述文章中提到,不同數(shù)據(jù)構建的網(wǎng)絡提供的特征信息是不一致的,多網(wǎng)絡集成的方法可以融合多個數(shù)據(jù)網(wǎng)絡的特征,把各網(wǎng)絡的優(yōu)勢集中起來,克服單一網(wǎng)絡特征種類不足的限制。秦小麟[5]使用多種基于腦功能超網(wǎng)絡特征進行腦疾病基因的分類實驗,將具有腦部信息的相關特征加入了進來,效果明顯提升,但是文中卻未曾考慮蛋白質相互網(wǎng)絡(protein-protein interaction networks,PPI)與腦部基因預測之間的關聯(lián)性。胡春榮等人[6]對腦源性神經(jīng)營養(yǎng)因子作用的PPI功能進行分析,證明了PPI與大腦調控、發(fā)育是有密切關聯(lián)的。Ye等人[7]基于Mashup中矩陣分解的不同數(shù)據(jù)源構建的多個網(wǎng)絡中獲取基因的特征表示,進而預測老年化疾病的相關基因,但是卻未結合老年化疾病中與腦部信息相關聯(lián)的特征信息。在上述學者的研究中,主要的不足之處是使用單一的分子相似性網(wǎng)絡或結合相關的基因網(wǎng)絡預測腦部相關的疾病基因,導致特征種類及信息受限,從而使最終的實驗效果欠佳。因此,本文將PPI和大腦連接組信息結合,進一步豐富特征種類及信息。

        隨著技術的進步,融合多網(wǎng)絡的方法不斷迭代更新,Gligorijevic和Peng等人[8-9]使用深度神經(jīng)網(wǎng)絡的方式對不同PPI以及疾病特異性基因的相似性網(wǎng)絡進行融合操作,對此兩位學者分別提出了DeepNF和DeepMNE-CNN的方法。深度神經(jīng)網(wǎng)絡可以很好地挖掘生物網(wǎng)絡的特征信息,但是普遍耗時長,構建的生物網(wǎng)絡較小時,極易出現(xiàn)過擬合,并且兩者使用的方法中未把已知的先驗信息進行結合,對此本文使用半監(jiān)督的自編碼器解決上述方法的不足。此外,Wang等人[10]提出了一種名為brainMI的模型,利用堆疊半監(jiān)督自編碼器融合不同數(shù)據(jù)源的網(wǎng)絡,預測腦部疾病基因,雖然考慮到了不同數(shù)據(jù)網(wǎng)絡的互補關系,但是并不全面,沒有將基于共表達數(shù)據(jù)的PPI相似性網(wǎng)絡加入實驗,并且未對預測模型超參數(shù)進行優(yōu)化處理。對此,本文不僅在實驗中加入了融合基于共表達數(shù)據(jù)的PPI,還增加消融實驗對其必要性和有效性進行驗證,并且在設置模型超參數(shù)時,提出使用遺傳算法進行全局尋優(yōu),求解最優(yōu)參數(shù),進而得到最佳預測模型。

        綜上所述,在融合多網(wǎng)絡特征方面,本文首先構建了基于大腦連接組數(shù)據(jù)的基因網(wǎng)絡,以及基于共表達數(shù)據(jù)、基于實驗數(shù)據(jù)、基于數(shù)據(jù)庫數(shù)據(jù)的PPI共四種相似性網(wǎng)絡,然后利用重啟隨機游走算法(random walk with restart,RWR)提取每一網(wǎng)絡的特征信息,最后使用半監(jiān)督自動編碼器進行處理及融合。在模型優(yōu)化方面,為了提高腦部相關疾病的預測效果,本文根據(jù)腦疾病基因的預測結果對不同的分類器進行篩選,得到最佳效果的分類器,即支持向量機(support vector machine,SVM)模型。并且在模型的優(yōu)化上,提出了GA-SVM算法,利用遺傳算法對SVM進行優(yōu)化,進一步提升模型對腦部疾病基因的預測性能。

        1 多網(wǎng)絡特征融合策略

        將來自不同數(shù)據(jù)源的多個網(wǎng)絡的特征進行融合,可以結合每個網(wǎng)絡的優(yōu)勢,克服單個網(wǎng)絡的特征信息不足的基本限制,同時也為模型提供更為豐富的輸入特征,提高腦疾病基因的預測效果[11]。本文的多網(wǎng)絡融合策略以單個數(shù)據(jù)網(wǎng)絡的特征提取為基底,使用半監(jiān)督自編碼器對不同網(wǎng)絡的特征進行編碼操作獲取有效特征,然后根據(jù)設定的篩選規(guī)則選出約束特征,并結合經(jīng)過解碼操作的重建特征得到單個網(wǎng)絡特征,最終將每個網(wǎng)絡的特征融合成全局特征。

        1.1 單個網(wǎng)絡的特征提取

        單個生物數(shù)據(jù)網(wǎng)絡特征提取效果的優(yōu)劣,往往影響著最后融合的全局特征,本文選擇的是RWR算法,相比于傳統(tǒng)的隨機游走(random walk,RW)算法,多了一個回到初始節(jié)點的選擇。RWR算法不僅可以捕獲網(wǎng)絡節(jié)點之間的全局相關性,而且可基于高維網(wǎng)絡全局結構信息,提取節(jié)點特征表示,可以很好地滿足實驗的需求[12]。其中單個網(wǎng)絡可表示為G=(V,E),H表示網(wǎng)絡G的鄰接矩陣,重啟隨機游走過程可表示為式(1):

        其中,α為重啟概率,T為轉移概率矩陣,ei為初始的節(jié)點特征向量,Pi(t)為節(jié)點i游走t步后的特征表示。另外Tij為節(jié)點i到節(jié)點j的轉移概率。Tij的計算如式(2)所示:

        其中,Hikj表示從節(jié)點i到節(jié)點j的鄰接矩陣值,k表示游走的步數(shù)。最終對需要提取特征的網(wǎng)絡的鄰接矩陣H使用RWR算法,就能利用網(wǎng)絡的全局結構信息得到節(jié)點的特征表示。此外,該算法只包含一個固定參數(shù)重啟概率α,本文在不同α取值的情況下,對提取單個網(wǎng)絡特征的效果進行探究。

        1.2 融合多網(wǎng)絡特征

        在融合多網(wǎng)絡時,首先利用RWR算法學習單個網(wǎng)絡的特征表示,再使用基于半監(jiān)督自編碼器中的編碼操作對每個網(wǎng)絡提取有效特征,然后選取皮爾遜相關系數(shù)(Pearson correlation coefficient,PCC)大于0.5的基因對作為約束特征并結合經(jīng)過解碼操作的重建特征得到單個網(wǎng)絡的特征表示,最后將每個網(wǎng)絡的特征融合成全局特征。

        在本文中,半監(jiān)督自編碼器主要由編碼器和解碼器兩部分組成,相比于無監(jiān)督的自編碼器,雖然本質上都是三層神經(jīng)網(wǎng)絡,但半監(jiān)督自編碼器可以將許多不利于最終目標預測的無關信息忽略,并且提取與目標關聯(lián)性較高的特征,保證提取的網(wǎng)絡特征與腦疾病基因的相關性,從而提升模型最終的預測性能[13]。編碼器通過編碼操作可將輸入數(shù)據(jù)的高維特征表示編碼為有效特征h,其訓練過程見式(3):

        其中,W表示數(shù)據(jù)輸入層到低維有效特征輸出層的權重矩陣,x為輸入數(shù)據(jù),b為偏置向量。解碼器的效果則與編碼器相反,可以將提取的有效特征重建為輸出數(shù)據(jù)z,其訓練過程見式(4):

        式中,W′為隱藏層到輸出層的權重矩陣,b′為偏置向量。半監(jiān)督自編碼器的損失函數(shù)如式(5)所示:

        式中,N表示樣本數(shù),ypre為目標的預測值矩陣,λ為調整權重系數(shù)。此外,生物信息學中通常還利用PCC值來度量基因間的相似性,然后基于兩兩基因之間的PCC排序,為了方便實驗,本文選取PCC>0.50的基因對作為約束特征。PCC計算基因之間的相似性公式如式(6)所示:

        其中,gi、gj分別表示基因i和基因j。對基于大腦連接組的基因相似性網(wǎng)絡,以及基于PPI相關的另外三個相似性網(wǎng)絡的特征融合流程如圖1所示。

        圖1 多網(wǎng)絡的特征融合流程Fig.1 Feature fusion process of multi-networks

        2 GA-SVM算法優(yōu)化策略

        為了提升模型在腦疾病基因預測的性能及效果,本文使用GA-SVM算法對模型的關鍵超參數(shù)進行求解。GA-SVM算法是以徑向基核函數(shù)(radial basis function,RBF)的SVM模型為基底,使用遺傳算法對SVM模型的懲罰系數(shù)C、gamma值進行全局尋優(yōu),提升模型的預測性能。

        2.1 遺傳算法

        遺傳算法(genetic algorithm,GA)是模擬達爾文生物進化論的自然選擇和遺傳學的生物進化過程的計算模型,通過模擬“優(yōu)勝劣汰,適者生存”的進化法則,搜索最優(yōu)解個體,主要操作為選擇、交叉和變異。此外,GA具有并行性、通用性、全局性和魯棒性特點,為最穩(wěn)健和有效的全局優(yōu)化求解算法,廣泛應用于模型參數(shù)優(yōu)化等全局優(yōu)化的場景之中,效果顯著[14]。因此,本文將GA應用于模型的優(yōu)化上,提高腦部疾病基因的識別效果。

        2.2 GA優(yōu)化SVM模型

        SVM是目前最常用、效果最好的分類器之一。SVM分為線性可分和非線性可分,其基本原理是將低維空間的樣本訓練數(shù)據(jù)映射到高維空間中,使得樣本訓練數(shù)據(jù)線性可分,進而對邊界進行線性劃分,由于分類器僅由支持向量決定,SVM能夠有效避免過擬合,以及具有優(yōu)秀的泛化能力。

        在非線性分類任務中,SVM關鍵在于將輸入空間中線性不可分的樣本映射到線性可分的特征空間中。而特征空間的好壞直接影響到了SVM的效果,因此,本文選擇RBF的SVM進行分類實驗,該核函數(shù)對于處理類標簽和樣本屬性之間是非線性關系的狀況具有很好的性能。RBF自帶的一個參數(shù)σ,不僅隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,還影響模型訓練與預測的速度,其與模型的輸入?yún)?shù)gamma的關系見式(7):

        因此使用遺傳算法對gamma及懲罰系數(shù)C尋優(yōu)求解。本文提出的GA-SVM算法優(yōu)化策略就是將SVM模型的gamma和C作為初始種群,不斷的迭代進化,尋找出全局最佳的gamma和C值,實現(xiàn)對SVM模型的優(yōu)化,優(yōu)化流程如圖2所示。

        圖2 GA-SVM算法優(yōu)化流程Fig.2 GA-SVM algorithm optimization process

        2.3 結合全局特征的優(yōu)化預測算法步驟

        在實驗時,首先要構建單個的生物數(shù)據(jù)網(wǎng)絡,通過RWR算法分別提取每個網(wǎng)絡的特征表示,再基于半監(jiān)督自編碼器使用編碼操作將提取每個網(wǎng)絡的有效特征,然后將篩選出的約束特征結合經(jīng)過解碼操作的重建特征提取單個網(wǎng)絡的特征,最后將每個網(wǎng)絡的特征融合,具體操作見圖1。然后是構建GA,并對SVM模型的gamma和C值進行全局尋優(yōu)求解,獲取最優(yōu)模型后根據(jù)融合后的全局特征作為輸入,預測腦部疾病基因,具體操作見圖2。

        以融合多網(wǎng)絡后的全局特征作為輸入,并利用GASVM算法模型的腦疾病基因預測總流程如圖3所示,流程解釋如下:

        圖3 腦疾病基因預測實驗流程Fig.3 Brain disease gene prediction experimental process

        步驟1從不同數(shù)據(jù)源獲取原始的生物數(shù)據(jù),對數(shù)據(jù)進行標準化、填充等處理,然后構建四種生物數(shù)據(jù)網(wǎng)絡。

        步驟2構建重啟游走算法,并在步驟1得到的四個生物數(shù)據(jù)網(wǎng)絡中,分別使用重啟隨機游走算法捕捉每一個網(wǎng)絡的節(jié)點特征表示,最后得到四個網(wǎng)絡的特征表示矩陣。

        步驟3使用半監(jiān)督自編碼器對四個生物網(wǎng)絡的特征表示矩陣進行下一步處理,具體操作如下:

        (1)通過編碼操作提取網(wǎng)絡的有效特征;(2)計算腦疾病基因之間的PCC,篩選約束特征,然后對網(wǎng)絡有效特征進行重建處理;(3)重建特征與約束特征結合生成單個網(wǎng)絡的特征表示。

        最后將每個網(wǎng)絡的特征表示進行融合,即為預測腦部疾病所需的全局特征。

        步驟4使用GA-SVM算法對模型參數(shù)進行全局尋優(yōu),在獲得最佳gamma和懲罰系數(shù)C后,賦值于相應的模型參數(shù),然后得到最佳的預測模型。

        步驟5在得到最佳的預測模型后,利用四種生物網(wǎng)絡特征融合的全局特征作為輸入,即可進行腦部疾病基因預測。

        3 實驗結果及分析

        3.1 實驗環(huán)境介紹

        本文的全部實驗均在Window 10操作系統(tǒng)下完成,所有的代碼均使用Python編程語言實現(xiàn),并在PyCharm集成開發(fā)環(huán)境下進行編寫與調試,實驗所使用的軟件環(huán)境和硬件環(huán)境的相關信息分別如表1與表2所示。

        表1 實驗軟件環(huán)境Table 1 Experimental software environment

        表2 實驗硬件環(huán)境Table 2 Experimental hardware environment

        3.2 數(shù)據(jù)集

        本文在構建基于大腦連接組的基因網(wǎng)絡時需要從The Human Connectome Projec(tversion S1200)提供的數(shù)據(jù)平臺下載R-fMRI數(shù)據(jù),并結合Wang和Ji等人[10,15]做的腦部功能映射研究構建網(wǎng)絡,而構建基于實驗、數(shù)據(jù)庫的蛋白質相互作用網(wǎng)絡,以及基于共表達的蛋白質相互網(wǎng)絡的數(shù)據(jù)則需要從STRING數(shù)據(jù)庫(version 11.0)獲取并導出相應的網(wǎng)絡,STRING數(shù)據(jù)庫主要搜索已知蛋白質之間和預測蛋白質之間相互作用,是目前覆蓋的物種最多,信息最豐富的蛋白質相互作用網(wǎng)絡數(shù)據(jù)庫[16]。此外,腦部疾病基因的數(shù)據(jù)來自于Schriml等人[17]構建的人類疾病本體(human disease ontology)數(shù)據(jù),并且從人類疾病本體數(shù)據(jù)中篩選人類所有已知的帕金森(Parkinson disease,PD)疾病、嚴重抑郁癥(major depressive disorder,MDD)疾病的相關基因分別作為正樣本。而負樣本則從融合多網(wǎng)絡后的全局特征的標簽中進行選擇。為了更好地綜合評估所提出模型在各數(shù)據(jù)集上的性能,本文將負樣本劃分為總負樣本和平衡負樣本,總負樣本為各數(shù)據(jù)集中除去正樣本后的所有樣本,而平衡負樣本為經(jīng)過隨機抽取與正樣本長度相同的樣本,以便于克服正、負數(shù)據(jù)集之間的不平衡現(xiàn)象,進而更好地訓練模型。計算PD和MDD數(shù)據(jù)集的不平衡比分別為10.1和32.6,結果表明為中度不平衡數(shù)據(jù)集,便于為后續(xù)模型評估指標選取提供依據(jù)。在整個實驗過程中,所用到的人類腦疾病基因數(shù)據(jù)集如表3所示。

        表3 數(shù)據(jù)集Table 3 Datasets

        3.3 評價指標

        交叉驗證是評估分類模型性能的常用方法。在這項研究中,實驗時將數(shù)據(jù)集分成十個不重疊的大小相等的集合,并在對其余集合進行測試,最后記錄平均性能參數(shù)。此外,本文通過受試者工作特征曲線(receiver operating characteristic curve,ROC)的下面積(AUC)、準確率(ACC)、F值(F-score)、精度-召回率曲線下面積(AUPR)這四個指標來評價分類模型的整體預測性能,而且在正負樣本的二分類實驗中AUC和AUPR值越高意味著模型綜合預測性能越好。ACC和F-score的計算見公式(8)、(9)。其中TP指原來是正樣本,分類成正樣本的數(shù)量,F(xiàn)P指本來是負樣本,卻被分類成正樣本的數(shù)量,TN指原來是負樣本,分類成負樣本的數(shù)量,F(xiàn)N指本來是正樣本,卻被錯誤分類成負樣本的數(shù)量。在繪制ROC圖以及計算對應的AUC時,需要計算樣本的真陽性率(true positive rate,TPR)和假陽性率(false positive rate,F(xiàn)PR),TPR和FPR的計算見公式(10)、(11)。其中TPR指所有實際為正樣本中,被正確判斷為正樣本的比率,F(xiàn)PR指所有實際為負樣本中,被錯誤判斷為負樣本的比率。評價樣本不平衡性的標準普遍使用不平衡比(imbalance ratio,IR),計算如式(12)所示,其中T和F分別代表正負樣本數(shù),當負樣本數(shù)遠大于正樣本數(shù)時,即可判定為高度不平衡數(shù)據(jù)集。AUPR在不平衡數(shù)據(jù)集的模型效果評估上具有良好的性能,因此選用AUPR進行不平衡數(shù)據(jù)集的評估,計算該指標時需要先計算其中P和R,也就是查準率和召回率,如式(13)和(14)所示。

        3.4 分類器選取與實驗參數(shù)分析

        3.4.1 分類器性能評估及選取

        為了評價不同分類器在腦部疾病數(shù)據(jù)集上的性能,本文在PD數(shù)據(jù)集上通過k折(k=5,10,15)交叉驗證實驗,最終在使用10折交叉驗證實驗中獲得了最佳模型。因此選擇10折交叉驗證來進行接下來的比較。評估分類器精度的方法使用ROC曲線圖,這是分析分類器整體性能的常用方法。它是將真陽性率描述為假陽性率的函數(shù),在敏感性和特異性之間進行不同的權衡。AUC通常被用作診斷準確性的一種總結性測量。通過對數(shù)據(jù)集的10折交叉驗證測試,將AdaBoost、ANN、BiLSTM、GBDT、MLP、RF和SVM分類器模型的預測結果進行了比較(圖4),可以看到SVM模型效果最佳,其AUC值為0.794,相比于其他分類器,優(yōu)勢比較明顯。

        圖4 十折交叉驗證下的分類器性能分析Fig.4 Classifier performance analysis under 10-fold cross-validation

        3.4.2 基于RWR算法的特征融合效果分析

        重啟隨機游走算法是在隨機游走算法的基礎的改進。算法包含一個參數(shù)α為重啟概率,1-α表示移動到相鄰節(jié)點的概率,經(jīng)過迭代到達平穩(wěn),平穩(wěn)后得到的概率分布可被看作是受開始節(jié)點影響的分布。重啟隨機游走可以捕捉兩個節(jié)點之間多方面的關系,捕捉圖的整體結構信息。重啟概率越大,結構相關性對結果的影響越小[18]。因此本文從重啟概率大于0.5的RWR算法特征提取效果進行探究,在實驗中,首先對半監(jiān)督自編碼器的參數(shù)進行設置,學習率設置為0.005,批次大小設置為256,迭代次數(shù)設置為1 800次,優(yōu)化器使用的是Adam,以便于融合各個網(wǎng)絡。然后以PD數(shù)據(jù)集展開實驗,結果如表4所示,最終找到最佳的重啟概率為0.95。實驗結果表明并不是重啟概率越大效果越好,而是隨著α的變化,疾病基因的總體預測效果先上升后下降,而且α為1時RWR算法就會退化為一般的RW算法。

        表4 不同重啟概率下模型的性能比較Table 4 Performance comparison of models under different restart probabilities

        3.4.3 GA-SVM算法的實驗參數(shù)設置

        實驗參數(shù)的選取會直接影響模型性能,GA-SVM算法的實驗參數(shù)選取可分為兩個部分。首先是設置遺傳算法的相關參數(shù),如種群規(guī)模、最大迭代次數(shù)、變異概率,而且在實驗過程中對輪盤選擇、排序選擇算子、交叉算子、變異算子進行評估,實驗結果表明排序選擇算子效果優(yōu)于其他算子,因此設置該算子進行后續(xù)的實驗。其次是使用構建好的遺傳算法對SVM模型的gamma值和懲罰系數(shù)C進行全局尋優(yōu),求解出最佳的gamma值和C值。在實驗中,設定的遺傳算法參數(shù)以及在PD數(shù)據(jù)集、MDD數(shù)據(jù)集中求得SVM模型的最佳參數(shù)值如表5所示,并且在參數(shù)設置時采取10折交叉驗證評估模型性能。

        表5 實驗參數(shù)Table 5 Experimental parameters

        3.5 實驗對比

        3.5.1 在MDD數(shù)據(jù)集上與其他分類模型比較

        為了衡量本文提出的GA-SVM算法模型在預測腦部疾病基因的能力與通用性,使用MDD的數(shù)據(jù)集訓練模型,并且采用了基于10折交叉驗證的測試策略,將本文的GA-SVM算法模型與深度學習模型分類器ANN、BiLSTM模型和傳統(tǒng)的機器學習分類器AdaBoost、GBDT、MLP、RF模型的預測結果進行了比較(表6)。結果表明,在不同的數(shù)據(jù)集下相比于其他分類模型,本文模型具有更佳的預測效果。

        表6 分類模型比較Table 6 Classification model comparison

        3.5.2 與現(xiàn)有的疾病基因預測模型對比

        在PD數(shù)據(jù)集、MDD數(shù)據(jù)集上與現(xiàn)有的其他4種模型(分別是Mashup[7]、DeepNF[8]、DeepMNE-CNN[9]和BrainMI[10])依次進行了性能比較。實驗結果整體表明,相比于其他四種方法,本文的模型對腦部疾病基因的判別更為有效。在PD數(shù)據(jù)集上的F-score、ACC、AUC、AUPR四個評價指標分別為0.727、0.731、0.805、0.792,除ACC與現(xiàn)有最佳模型持平外,其余指標均有提升,其中AUC值比Mashup、DeepNF、DeepMNE-CNN和BrainMI分別提高了0.048、0.045、0.043、0.018,而AUPR值比其他四種模型提高了0.061、0.051、0.033、0.016。在MDD數(shù)據(jù)集的測試中分別達到了0.747、0.749、0.825、0.823,各指標比現(xiàn)有模型更好,其中AUC為0.825,比Mashup、DeepNF、DeepMNE-CNN和BrainMI分別提高了0.065、0.059、0.047、0.034,而AUPR值也比其他四種模型分別提升了0.075、0.076、0.065、0.035,效果提升顯著。本文提出的模型不僅通用性強,而且從實驗結果的AUC和AUPR值來看,對疾病基因的預測精準程度也比其他模型更好,并且能夠很好地應用于平衡數(shù)據(jù)集和不平衡數(shù)據(jù)集,模型的綜合預測性能更為優(yōu)秀。不同腦部疾病數(shù)據(jù)集與其他四種模型的性能比較具體如表7所示。

        表7 不同模型效果比較Table 7 Comparison of effects of different models

        3.5.3 消融實驗分析

        為了證明研究工作中,多網(wǎng)絡融合模塊及GA優(yōu)化SVM模塊的有效性,本文使用MDD數(shù)據(jù)集進行了一系列的對照實驗。首先將四個網(wǎng)絡的特征單獨輸入SVM模型,分別觀察各網(wǎng)絡對腦疾病基因的預測效果,結果表明四個網(wǎng)絡中預測效果最好的為基于大腦連接組數(shù)據(jù)的相似性網(wǎng)絡,其ACC、F-score、AUC、AUPR為0.644、0.692、0.713、0.700,以此為基線逐漸疊加模塊進行對比。其次是測試融合多網(wǎng)絡特征模塊提升效果,在使用半監(jiān)督自編碼器進行多網(wǎng)絡融合后,ACC、F-score、AUC、AUPR可達到0.706、0.727、0.794、0.796,各項指標均顯著提升,說明融合多網(wǎng)絡特征對預測疾病基因是十分有效的。最后,在使用多網(wǎng)絡融合的基礎上,對GA優(yōu)化SVM模型的效果進行評估,在使用GA后各評價指標可達到0.749、0.747、0.825、0.823,分別提升了0.033、0.020、0.031、0.027,進一步提升了腦疾病基因的預測性能。此外,還對新增加的基于共表達的PPI相似性網(wǎng)絡進行評估,在前面提及所有模塊進行保留的基礎上,對未加入該網(wǎng)絡時的疾病預測模型進行測試,得到的ACC、F-score、AUC、AUPR分別為0.697、0.725、0.779、0.766,相比于融合四種網(wǎng)絡的全局特征在MDD數(shù)據(jù)集的預測結果,分別下降了0.052、0.022、0.046、0.057,這證明了本文新增加的數(shù)據(jù)網(wǎng)絡對提升預測效果是有效的。各個模塊的消融實驗結果如圖5所示。

        圖5 各模塊消融實驗分析Fig.5 Ablation experiment results of each module

        各個模塊的評估實驗表明,只有把所有的模塊及數(shù)據(jù)結合在一起,才能充分提升預測性能,這也表明了每個數(shù)據(jù)及模塊在預測腦疾病基因模型中的必要性。

        4 結束語

        本文為了解決單個生物數(shù)據(jù)網(wǎng)絡特征信息受限的問題,通過構建多個生物數(shù)據(jù)網(wǎng)絡,利用重啟隨機游走算法提取不同網(wǎng)絡的節(jié)點特征,最后將不同網(wǎng)絡的節(jié)點特征表示融合為全局特征,有效集成了多個網(wǎng)絡的優(yōu)勢。此外,為提高模型在腦疾病基因預測的性能,提出了GA-SVM算法來解決訓練時由于相關關鍵參數(shù)影響,而導致模型預測性能不佳的問題。最終的對比實驗結果表明,本文模型在預測腦疾病基因上具有更好的預測性能。這項關于預測腦疾病基因的研究也會為未來其他疾病基因的研究提供一個有競爭力的工具。所提出的結合融合多網(wǎng)絡特征和GA-SVM算法的腦部基因預測模型也有許多其他潛在的應用,如肝癌疾病基因預測、藥物靶點預測等。

        猜你喜歡
        特征融合實驗
        記一次有趣的實驗
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        NO與NO2相互轉化實驗的改進
        蜜臀av 国内精品久久久| 亚洲高清一区二区精品| 一区二区三区乱码专区| 大地资源在线影视播放| 欧洲人妻丰满av无码久久不卡| 无码人妻一区二区三区免费n鬼沢| 欧洲亚洲第一区久久久| 加勒比久草免费在线观看| 三级日本理论在线观看| 中国老熟妇506070| 亚洲香蕉成人AV网站在线观看| 国产自在自线午夜精品视频在 | 粉嫩小泬无遮挡久久久久久| 亚洲国产成人va在线观看天堂| 国产一区二区三区精品免费av| 精品国内在视频线2019| 人与嘼交av免费| 国产品精品久久久久中文| 中文字幕色资源在线视频| 午夜精品久久久久久久无码| 久久久久亚洲av无码观看| 国产裸体AV久无码无遮挡| 91色区在线免费观看国产| 少妇下面好紧好多水真爽播放| 日日躁夜夜躁狠狠躁超碰97| 亚洲日韩精品久久久久久| 大屁股流白浆一区二区| 国产精品一区二区三区自拍| 无码一区二区三区在线 | 国产在线观看91一区二区三区| 亚洲男同gay在线观看| 天美传媒精品1区2区3区| 中国免费av网| 国产成人自拍视频播放| 人人爽久久涩噜噜噜丁香| 四虎精品视频| 99国产精品欲av麻豆在线观看| 国产一区二区三区啊啊| 国产乱子伦农村xxxx| 亚洲国产麻豆综合一区| 国产白浆一区二区三区佳柔|