亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SGCN 的化合物致癌性預(yù)測模型*

        2022-07-22 06:32:42魏若冰何家峰邱曉芳
        電子技術(shù)應(yīng)用 2022年6期
        關(guān)鍵詞:致癌性查準(zhǔn)率原子

        魏若冰,何家峰,邱曉芳,劉 旗

        (廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)

        0 引言

        由于技術(shù)的發(fā)展,新化合物的合成速度加快,每年誕生的化合物數(shù)以萬計[1-2],傳統(tǒng)的評價方法不可能對所有的化合物進(jìn)行評估。并且近年來患癌人數(shù)不斷增多[3],目前仍不清楚大多數(shù)的癌癥是由于暴露于何種致癌化合物而導(dǎo)致的。世界衛(wèi)生組織國際癌癥機(jī)構(gòu)(IARC)致癌清單中只有429 種化合物被歸為具有致癌性物質(zhì),但仍有500 余種化合物未進(jìn)行判定。傳統(tǒng)的化合物致癌性評估主要通過實(shí)驗(yàn)測試進(jìn)行,試驗(yàn)周期長且成本昂貴,不確定因素過多,因此迫切需要開發(fā)替代方法和工具來評估化合物的致癌性。

        利用計算機(jī)進(jìn)行毒性預(yù)測[4]是安全評價的重要手段,能夠大幅度節(jié)省非臨床安全評價試驗(yàn)成本,提高試驗(yàn)設(shè)計的科學(xué)性和準(zhǔn)確性。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,支持向量機(jī)(SVM)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)(Random Forest)和K-最近鄰(KNN)等機(jī)器學(xué)習(xí)算法已被廣泛用于化合物毒性預(yù)測中[5-7]。此外,對致癌性化合物的預(yù)測也有一些報道。2004年,張曉昀等人[8]用人工神經(jīng)網(wǎng)絡(luò)中誤差反向傳播網(wǎng)絡(luò)(BPNN)和徑向基函數(shù)網(wǎng)絡(luò)(RBFNN)對化合物的致癌性強(qiáng)弱進(jìn)行了分類,模型的分類準(zhǔn)確率達(dá)到了80%以上;2005年,張振山等人[9]用PCA 對分子描述符降維,利用決策森林的方法預(yù)測化合物致癌性;在2007年,謝瑩等人[10]基于gSpan 算法,挖掘與已知毒性化合物具有相同字結(jié)構(gòu)的化合物,進(jìn)行未知化合物的毒性預(yù)測;2017年,梁倩倩等人[11]基于量化構(gòu)效關(guān)系(QSAR)方法預(yù)測N-亞硝基化學(xué)物(NOCs)的致癌性,同年,閻愛俠等人[12]構(gòu)建化合物的多維描述符,分別采用4 種機(jī)器學(xué)習(xí)方法(樸素貝葉斯、隨機(jī)森林、多層感知機(jī)和支持向量機(jī)),模型的平均正確率達(dá)到74%±3%。

        近年來,越來越多的研究人員把目光轉(zhuǎn)向致癌化合物的研究,但是現(xiàn)有的模型評估化合物的致癌性能力有限。本研究從多個數(shù)據(jù)庫整理了化合物致癌性數(shù)據(jù),基于具有空間結(jié)構(gòu)的原子特征建立了三維圖卷積網(wǎng)絡(luò)(Spatial Graph Convolutional Network,SGCN)。

        1 數(shù)據(jù)和方法

        1.1 數(shù)據(jù)收集

        從世界衛(wèi)生組織國際癌癥機(jī)構(gòu)(IARC)致癌清單和美國環(huán)境保護(hù)局(EPA)列出的安全化合物清單(SCIL)中收集數(shù)據(jù)。為了保證數(shù)據(jù)的準(zhǔn)確性和可靠性,用以下標(biāo)準(zhǔn)來篩選和處理數(shù)據(jù):(1)IARC 致癌清單中選擇有足夠證據(jù)證明對人類具有致癌性的化合物,剔除其他分類中對致癌證據(jù)有限和致癌證據(jù)不足的化合物;(2)SCIL 安全化合物清單中選擇根據(jù)實(shí)驗(yàn)和建模數(shù)據(jù),已被證實(shí)不具有致癌性的化合物;(3)從上述條件篩選的數(shù)據(jù)集中剔除無法確定分子結(jié)構(gòu)的化合物。最終,獲得了341 種實(shí)驗(yàn)數(shù)據(jù),其中246 種致癌性數(shù)據(jù)為正樣本,余下95 種不具有致癌性的數(shù)據(jù)為負(fù)樣本,形成了最終的數(shù)據(jù)集。

        1.2 數(shù)據(jù)集劃分

        從正負(fù)數(shù)據(jù)集中隨機(jī)抽取數(shù)據(jù):80%作為訓(xùn)練數(shù)據(jù)集(273 個分子)用于訓(xùn)練模型,10%作為驗(yàn)證數(shù)據(jù)集(34個分子)用于調(diào)整超參數(shù),10%作為測試數(shù)據(jù)集(34 個分子)用于評估模型的性能。

        1.3 分子編碼

        采用獨(dú)立熱(one-hot)對原子特征進(jìn)行編碼[13]。獨(dú)熱編碼又稱一位有效編碼,其方法是使用N 位狀態(tài)寄存器來對N 個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有獨(dú)立的寄存器位,并且在任意時候,其中只有一位有效,如圖1 所示。同時,用RDKIT 計算原子和鍵的特征,包括原子的符號、原子連接的鍵的個數(shù)、原子的價態(tài)和鍵的類型、是不是共軛、在不在環(huán)中等。

        圖1 對分子圖進(jìn)行獨(dú)立熱編碼示意圖

        1.4 SGCN

        本文中將分子的空間特性與傳統(tǒng)的GCN 相結(jié)合,去預(yù)測分子的致癌性。大多GCN 模型使用二維分子圖作為輸入,通過特征矩陣和鄰接矩陣去預(yù)測分子的性質(zhì)[14]。然而,分子性質(zhì)很大程度上受到空間中原子間相對位置影響,因此,在構(gòu)建SGCN 模型時,把帶有原子坐標(biāo)的分子圖也作為輸入。

        式中,A 是標(biāo)準(zhǔn)化后的鄰接矩陣,W 和b 表示權(quán)重和偏置??臻gGCN 由卷積層、特征構(gòu)造層和全連接層3 個模塊組成,如圖2 所示。

        圖2 空間圖卷積流程圖

        在初始化特征時,節(jié)點(diǎn)的標(biāo)量特征進(jìn)行獨(dú)立熱編碼形成60 個特征,而矢量特征被初始化為零。卷積層的第一階段將每個節(jié)點(diǎn)的兩個特征融合在一起,生成中間特征。在第二階段,收集中間特征并沿著鄰域進(jìn)行匯總,從而產(chǎn)生更高級別的特征。通過卷積層,更新標(biāo)量特征和矢量特征。經(jīng)過卷積后,特征構(gòu)造層通過兩種策略收集節(jié)點(diǎn)上的特征:SGCNsum整合了節(jié)點(diǎn)上分布的所有原子特征,生成分子的標(biāo)量和矢量特征;SGCNmax選取原子特征中取值最大的作為分子特征。生成的分子特征被送到具有ReLU 激活的全連接神經(jīng)網(wǎng)絡(luò)。最后,輸出被扁平化處理后送到單層神經(jīng)網(wǎng)絡(luò)中來進(jìn)行分類。

        1.5 對比模型

        對比模型包括GCN、多層感知機(jī)(Multilayer Perceptron,MLP)、隨機(jī)森林(Random Forest,RF)、支持向量機(jī)(Support Vector Machines,SVM)、K-最近鄰算法(K-Nearest Neighbors,KNN)、決策樹(Decision Tree)、線性判別分析(Linear Discriminant Analysis,LDA)和XGBoost。GCN 模型由兩個卷積層和一個全連接層構(gòu)成,學(xué)習(xí)率為0.001。多層感知機(jī)中設(shè)置優(yōu)化權(quán)重設(shè)置為adam,最大迭代300 次。余下機(jī)器學(xué)習(xí)模型從scikitlearn 庫中調(diào)用,隨機(jī)森林中建立子樹的數(shù)量為20;支持向量機(jī)中核函數(shù)類型為徑向核函數(shù),布爾值為Truth;樸素貝葉斯分類器中拉普拉斯平滑系數(shù)設(shè)置為1,其余模型參數(shù)均設(shè)置為默認(rèn)值。

        1.6 模型評估方法

        采用10 折交叉驗(yàn)證法來評估模型的預(yù)測性能和可靠性。在10 折交叉驗(yàn)證中,先將數(shù)據(jù)集劃分為10 個大小相等的互斥子集,每個子集都盡可能保持了數(shù)據(jù)分布的一致性,之后,每次都用9 個子集作為訓(xùn)練集,余下的1 個子集作為驗(yàn)證集。然后,將交叉驗(yàn)證過程重復(fù)10 次。

        式中,TP 是真陽性,TN 是真陰性,F(xiàn)P 是假 陽性,F(xiàn)N 是假陰性。計算總體預(yù)測準(zhǔn)確率(Acc)以對每個預(yù)測函數(shù)進(jìn)行評估。此外,為了使評價更有效,加入了查準(zhǔn)率(Pre)來進(jìn)一步驗(yàn)證模型。查準(zhǔn)率是計算模型判斷為陽性的樣本中有多少是真正的陽性。

        2 結(jié)果和討論

        2.1 空間GCN 特征構(gòu)造

        在特征構(gòu)造層以兩種方式對特征進(jìn)行構(gòu)造,一種是將分布在節(jié)點(diǎn)上的所有原子特征相加(SGCNsum),形成新的矢量和標(biāo)量特征;另一種是選取最大值的原子特征作為分子特征(SGCNmax),依據(jù)范數(shù)比對矢量特征的大小。根據(jù)表1 可以看出,SGCNmax和SGCNsum在對模型準(zhǔn)確率預(yù)測在0.946~0.973 之間,查準(zhǔn)率在0.939~0.951 之間,在GCN 為基礎(chǔ)上準(zhǔn)確率和查準(zhǔn)率提高了約4.5%。在特征構(gòu)造上,對比模型SGCNmax和SGCNsum在評估參數(shù)上的值,可以發(fā)現(xiàn),SGCNsum除了在驗(yàn)證集的準(zhǔn)確率略微低于SGCNmax,其余均高于SGCNmax,所以,在對分子致癌性進(jìn)行預(yù)測時,特征構(gòu)造中選取原子特征的最大值會使得模型效果偏好。

        表1 模型的評估指標(biāo)

        2.2 對比實(shí)驗(yàn)

        此外,還構(gòu)建了7 個預(yù)測模型作為對比,7 個模型的整體準(zhǔn)確率在0.810~0.861 之間,如表2 所示。

        表2 基于原子特征和分子描述符的對比模型

        在準(zhǔn)確率評估中,表現(xiàn)最好的是RF 模型為0.844;在查準(zhǔn)率評估中,表現(xiàn)最好的則是KNN 算法為0.855。在驗(yàn)證集中預(yù)測性能最好的LDA 算法在測試集中的表現(xiàn)同樣優(yōu)異,其總體預(yù)測準(zhǔn)確率為0.861,查準(zhǔn)率為0.849。除此之外,KNN 和RF 也表現(xiàn)出了較好的預(yù)測能力,KNN 在驗(yàn)證集的查準(zhǔn)率達(dá)到了0.855。對比分析表2 中的模型可以看出,驗(yàn)證集和測試集中總體預(yù)測準(zhǔn)確率和查準(zhǔn)率基本相等,表明模型不存在過擬合的現(xiàn)象。將此表模型中表現(xiàn)最好的幾個模型同SGCN 進(jìn)行對比,可以看出SGCN 表現(xiàn)出了較為優(yōu)異的性能。

        2.3 提取分子描述符

        在與7 種模型的對比實(shí)驗(yàn)中發(fā)現(xiàn),與SGCN 和GCN進(jìn)行對比時準(zhǔn)確率差異過大達(dá)到了0.109,考慮到所有模型提取的特征為原子特征,SGCN 中的輸入僅包括原子的特征矩陣還包括原子間的鄰接矩陣和相對位置矩陣,而在對比實(shí)驗(yàn)中輸入僅為原子特征,輸入信息量相對較少且不全面,以用分子的信息代替原子的信息作為對比模型的輸入。分子描述符[15]通過量化部分結(jié)構(gòu)和物理化學(xué)性質(zhì)來表達(dá)化合物的化學(xué)特征。使用函數(shù)調(diào)用rdkit生成數(shù)據(jù)集中所有分子的描述符,生成的描述符包含分子指紋、相對分子質(zhì)量和部分電荷等200 維特征。將分子描述符作為輸入用于7 種對比模型中,發(fā)現(xiàn)準(zhǔn)確率有明顯的上升,整個模型的準(zhǔn)確率在0.821~0.931 之間,其中驗(yàn)證集中RF 和XGBoost 的準(zhǔn)確率分別從0.829 和0.810 上升至了0.920 和0.931,除此之外DT 的準(zhǔn)確率也上升了0.6,其他模型準(zhǔn)確率沒有變化或略微下降。

        3 結(jié)論

        本研究采用SGCN 模型對化合物進(jìn)行了致癌性預(yù)測,可因此減少因條件限制而導(dǎo)致的化合物致癌性評估不足。此模型對273 種數(shù)據(jù)集和34 種外部驗(yàn)證數(shù)據(jù)集進(jìn)行毒性分類,在34 種測試集中獲得了96.9%的準(zhǔn)確率和94.4%的查準(zhǔn)率,表現(xiàn)出了評估化合物致癌性的優(yōu)異性。通過進(jìn)一步分析,發(fā)現(xiàn)用分子描述符作為特征時,RF 和XGBoost 模型效果準(zhǔn)確率也達(dá)到90%以上,這兩種模型同樣也適用于化合物致癌性的分類。將SGCN 模型用于有毒氣體分類上,準(zhǔn)確率達(dá)到89%,說明此模型在化合物分類判定上也有一定的普適性。

        該研究探索了基于原子空間特征結(jié)合SGCN 構(gòu)建化合物致癌性分類模型的可行性,為化學(xué)物的健康風(fēng)險評估提供依據(jù),然而收集到的樣本數(shù)和樣本類別有限,需進(jìn)一步增加樣本量,使構(gòu)建出的模型具有更好的泛化性和穩(wěn)定性。

        猜你喜歡
        致癌性查準(zhǔn)率原子
        了解致癌物分類
        少兒科學(xué)周刊·兒童版(2021年22期)2021-12-11 21:27:59
        原子可以結(jié)合嗎?
        帶你認(rèn)識原子
        食品中黃曲霉毒素B1檢測方法研究
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
        讀者信箱
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
        日出白浆视频在线播放| 色婷婷精品综合久久狠狠| 一区二区三区在线视频爽| 亚洲男人综合久久综合天堂| 国产白浆一区二区三区佳柔| 亚洲视频网站大全免费看| 国产亚洲真人做受在线观看| 精品欧美在线| 国产最新一区二区三区| 国产一级一级内射视频| 中国农村妇女hdxxxx| 亚洲欧美日韩综合久久| 最新日韩av在线不卡| av成人综合在线资源站| 三年片免费观看影视大全视频| 国产精品无码不卡一区二区三区| 最新在线观看精品国产福利片| 久久精品国产亚洲av网站| 少妇性bbb搡bbb爽爽爽| 乱子真实露脸刺激对白| 亚洲精品国产av一区二区| 2020国产在视频线自在拍| 国产精品福利自产拍在线观看| 久久狠狠高潮亚洲精品暴力打 | 国产在线a免费观看不卡| 久久亚洲精品国产亚洲老地址| 久久99久久99精品免观看| 午夜不卡亚洲视频| 国产精品亚洲综合久久系列| 日本最新免费二区| 国产成人亚洲精品无码mp4| 日韩偷拍一区二区三区视频| 中文字幕在线亚洲精品一区| 欧美69久成人做爰视频| 国内少妇人妻丰满av| 国产成人综合亚洲国产| 完整版免费av片| 亚洲av无码精品色午夜果冻不卡| 免费在线日韩| 激情文学婷婷六月开心久久| 三年在线观看免费大全下载|