亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于門控單元的農(nóng)作物蛋白質(zhì)磷酸化預(yù)測模型研究

        2024-08-06 00:00:00段旭福李重
        軟件工程 2024年8期

        關(guān)鍵詞:深度學(xué)習(xí);生物信息學(xué);蛋白質(zhì)磷酸化;計(jì)算生物學(xué)

        中圖分類號:TP389.1 文獻(xiàn)標(biāo)志碼:A

        0 引言(Introduction)

        近年來,植物病理學(xué)的深入研究,極大地增進(jìn)了我們對植物與病原菌相互作用機(jī)制的認(rèn)知,也揭示了蛋白質(zhì)磷酸化在諸多生物學(xué)過程中的關(guān)鍵作用,為農(nóng)作物病害的防控提供了新的視角[1]。對蛋白質(zhì)磷酸化的迅速判斷,對農(nóng)作物病害的有效防治也變得愈發(fā)重要。

        然而,傳統(tǒng)的蛋白質(zhì)磷酸化的檢測分析多采用實(shí)驗(yàn)方法,如液相色譜串聯(lián)質(zhì)譜、放射性化學(xué)標(biāo)記和免疫檢測、鄰近連接分析、染色質(zhì)免疫沉淀和蛋白質(zhì)印跡[2]。這些技術(shù)通常耗時(shí)且勞動(dòng)強(qiáng)度大。整個(gè)實(shí)驗(yàn)過程耗時(shí)較長,并且需要實(shí)驗(yàn)人員具備較高的專業(yè)技能和經(jīng)驗(yàn),這在一定程度上限制了蛋白質(zhì)磷酸化研究的規(guī)模和效率。隨著技術(shù)的進(jìn)步和新計(jì)算方法的涌現(xiàn),研究人員開發(fā)了許多基于智能算法的工具,這些工具極大地豐富了該領(lǐng)域的研究手段[3]。但是,目前的計(jì)算方法通常無法同時(shí)滿足使用簡單、快速檢測、高精度等需求,本研究致力于開發(fā)一種高效、精準(zhǔn)且操作簡便的計(jì)算方法,旨在實(shí)現(xiàn)磷酸化位點(diǎn)的快速檢測。

        1 相關(guān)理論(Related theory)

        1.1 蛋白質(zhì)磷酸化

        蛋白質(zhì)磷酸化是一種生物學(xué)過程,其中磷酸基團(tuán)被共價(jià)地添加到蛋白質(zhì)分子的特定氨基酸殘基上。這一修飾過程通常通過激酶酶類催化,其在細(xì)胞內(nèi)發(fā)揮著關(guān)鍵的調(diào)控作用。磷酸基團(tuán)的添加可以改變蛋白質(zhì)的結(jié)構(gòu)、功能和相互作用機(jī)制,影響其在細(xì)胞內(nèi)的活性和穩(wěn)定性[4]。通常,酪氨酸(Tyr)、絲氨酸(Ser)和蘇氨酸(Thr)是常見的磷酸化位點(diǎn),在這些磷酸化位點(diǎn)上,氨基酸的OH 基團(tuán)與ATP的γ-磷酸基團(tuán)形成磷酸酯,而這些位點(diǎn)是磷酸化研究中受到廣泛研究的對象。

        1.2 磷酸化位點(diǎn)預(yù)測

        在蛋白質(zhì)工程領(lǐng)域,深度學(xué)習(xí)的應(yīng)用日益凸顯其重要性,它依托于蛋白質(zhì)序列和結(jié)構(gòu)等豐富數(shù)據(jù)作為輸入,通過生成特征并采用不同的算法進(jìn)行模型構(gòu)建和優(yōu)化。這一方法為更精確地分類和尋找磷酸化位點(diǎn)提供了新的途徑。隨著生物大數(shù)據(jù)集的構(gòu)建和計(jì)算能力的提升,越來越多的計(jì)算方法被提出并用于磷酸化位點(diǎn)的預(yù)測。KHALILI等[5]使用處理表格數(shù)據(jù)的深度學(xué)習(xí)模型訓(xùn)練了一個(gè)大豆蛋白磷酸化預(yù)測器。LV等[6]使用卷積神經(jīng)網(wǎng)絡(luò)-長短期記憶網(wǎng)絡(luò)(CNN-LSTM)識別感染SARS冠狀病毒2型(SARS-CoV-2)的宿主細(xì)胞中的磷酸化位點(diǎn)。WANG等[7]提出了一個(gè)名為TransPhos的預(yù)測器,用于預(yù)測磷酸化位點(diǎn)。這些研究表明,深度學(xué)習(xí)方法在磷酸化位點(diǎn)預(yù)測方面取得了顯著的進(jìn)展。

        1.3 門控機(jī)制

        門控機(jī)制在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用由來已久,常使用Sigmod 函數(shù)或Tanh函數(shù)控制信息流的比例,是一個(gè)決定特征是否繼續(xù)流入下一層的控制器。gMLP[8]是一種基于MLP與門控機(jī)制的簡單的神經(jīng)網(wǎng)絡(luò)架構(gòu),它融合了線性空間投影和乘法門控機(jī)制,在掩碼語言建模方面取得了出色的結(jié)果,甚至在參數(shù)更少的情況下其性能超過了一些基于Transformer的模型。在增加數(shù)據(jù)和計(jì)算能力的情況下,具有類似gMLP這樣簡單的空間交互機(jī)制的模型,已經(jīng)展現(xiàn)出了與Transformer相媲美的強(qiáng)大性能。gMLP主要依靠靜態(tài)參數(shù)化的通道映射(channelprojections)和空間映射(spatial projections),由L 個(gè)相同結(jié)構(gòu)和大小的模塊組成,X∈ n×d 代表長度為n 且序列維度是d 的向量表示,每個(gè)模塊可以表示為

        2 方法概述(Methodology overview)

        2.1 數(shù)據(jù)預(yù)處理

        在以往的研究中,通常遵循3個(gè)原則進(jìn)行數(shù)據(jù)預(yù)處理:①作為陽性樣本的磷酸化位點(diǎn)經(jīng)過實(shí)驗(yàn)驗(yàn)證;②使用聚類工具刪除序列相似性過高的蛋白質(zhì)序列;③隨機(jī)選取的陰性位點(diǎn),完整的蛋白質(zhì)序列中至少有3個(gè)已確認(rèn)陽性位點(diǎn)。

        真核生物磷酸化位點(diǎn)數(shù)據(jù)庫(Eukaryotic PhosphorylationkJR8M4CmiapE6wNXAznypoTAg0zeBausBnu8vZfjJQo=Site Database,EPSD)由LIN等[9]重新整理,是近期更新的最具體和最全面的磷酸化位點(diǎn)數(shù)據(jù)庫之一,本研究采用該數(shù)據(jù)庫作為主要的數(shù)據(jù)來源,并延續(xù)以往的經(jīng)驗(yàn),采用相似的數(shù)據(jù)處理過程。為避免陽性和陰性數(shù)據(jù)集中存在同源序列導(dǎo)致預(yù)測模型的性能被高估,利用CD-HIT(一種用于聚類相似生物序列的工具)[10]以40%的序列相似性為標(biāo)準(zhǔn),對磷酸化蛋白質(zhì)序列進(jìn)行聚類,具有中心為絲氨酸、蘇氨酸和酪氨酸殘基及經(jīng)實(shí)驗(yàn)驗(yàn)證的磷酸基團(tuán)的肽鏈,被視為陽性樣本,并選擇15作為采樣窗口大?。ㄔ谶x定的磷酸化位點(diǎn)上左、右各取15個(gè)氨基酸組成肽鏈),隨機(jī)選擇一部分與陽性樣本數(shù)量相當(dāng)?shù)姆侨哂嗟年幮詷颖荆云胶鈹?shù)據(jù)集。

        根據(jù)上述條件進(jìn)行樣本提取時(shí),可能存在大量的經(jīng)實(shí)驗(yàn)驗(yàn)證的磷酸化位點(diǎn)在肽鏈中排列過于緊密,導(dǎo)致同一個(gè)肽段反復(fù)被添加到陽性樣本中,本研究采用一種新的采樣方式,即在同一個(gè)采樣窗口內(nèi)僅采樣一次,跳過那些在同一個(gè)窗口中過于密集的肽段。在第一個(gè)采樣窗口中,選中一個(gè)磷酸化位點(diǎn)后,右邊的窗口中符合要求的陽性樣本將不再被考慮,陰性樣本同理,同時(shí)選取陰性樣本時(shí),還要考慮不與陽性樣本的窗口重疊。圖1為數(shù)據(jù)處理流程。

        2.2 序列特征

        實(shí)驗(yàn)中涉及的氨基酸包括構(gòu)成生物體的20種標(biāo)準(zhǔn)氨基酸和由基因密碼子直接編碼的2種非標(biāo)準(zhǔn)氨基酸,以數(shù)字1~22 對其進(jìn)行編碼。在蛋白質(zhì)研究中,為了方便計(jì)算機(jī)處理和分析,研究者通常將不同類型的氨基酸以數(shù)字形式進(jìn)行編碼。這種編碼方式的選擇是為了將具有不同性質(zhì)的氨基酸轉(zhuǎn)化為統(tǒng)一的數(shù)字表示,從而將目標(biāo)肽鏈轉(zhuǎn)化為L×1的向量(L 表示肽鏈的長度)。每一個(gè)數(shù)字都代表特定的氨基酸類型。

        2.3 蛋白質(zhì)內(nèi)在無序性得分

        近年來的研究表明,蛋白質(zhì)中存在一些并沒有固定結(jié)構(gòu)的無序區(qū)域,這些區(qū)域在許多細(xì)胞過程中發(fā)揮著重要的功能作用,并且與蛋白質(zhì)之間的相互作用密切相關(guān)[11]。本研究采用IUPred3(Intrinsically Unstructured Protein Predictor)[12]工具獲取蛋白質(zhì)內(nèi)在無序性得分,它依賴于能量估計(jì)方法,能預(yù)測每個(gè)氨基酸處于無序區(qū)域的趨勢。對于長度為m 的氨基酸序列S,構(gòu)建一個(gè)m×3的向量,分別代表短無序評分(缺乏穩(wěn)定的三維結(jié)構(gòu)且長度不超過30個(gè)殘基的肽段)和長無序評分(長度超過30個(gè)殘基的肽段)及ANCHOR(Analyzing the Chainof Ordered Regions)分?jǐn)?shù)。

        2.4 方法整體架構(gòu)

        本研究構(gòu)建了一個(gè)網(wǎng)絡(luò)架構(gòu),以gMLP作為編碼層。將蛋白質(zhì)轉(zhuǎn)為數(shù)據(jù)特征后經(jīng)過gMLP編碼,得到的語義信息將與內(nèi)在無序性得分進(jìn)行拼接。為了提升模型的表達(dá)能力,對數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化。對數(shù)據(jù)依次進(jìn)行卷積、池化等操作,其中卷積操作有助于提取蛋白質(zhì)的語義特征,而池化操作則可以減小特征圖的尺寸。

        為了將提取的特征有效地映射到最終的輸出空間,引入了線性層。采用Sigmoid激活函數(shù)將輸出映射到0~1,以便進(jìn)行二分類。這樣的設(shè)計(jì)不僅能有效地處理蛋白質(zhì)序列的語義信息,還能充分利用內(nèi)在無序性得分,為蛋白質(zhì)研究和分類任務(wù)提供更為有效的工具。圖2為本文方法的整體框架。

        3 實(shí)驗(yàn)和結(jié)果(Experiment and result)

        3.1 數(shù)據(jù)集劃分

        本研究按照64%、16%、20%的比例將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測試集(按照五倍交叉驗(yàn)證的原則,即1∶4的比例劃分測試集和訓(xùn)練集,再將訓(xùn)練集的20%劃為驗(yàn)證集),數(shù)據(jù)劃分如圖3所示,并在此基礎(chǔ)上進(jìn)行模型的訓(xùn)練和評估。

        在模型訓(xùn)練的過程中,引入學(xué)習(xí)率調(diào)度器,在訓(xùn)練的不同階段動(dòng)態(tài)地調(diào)整學(xué)習(xí)率,以更好地適應(yīng)數(shù)據(jù)分布的變化。將初始學(xué)習(xí)率設(shè)置為0.001,并設(shè)定了每隔10個(gè)批次,學(xué)習(xí)率以0.9的比例進(jìn)行衰減。采用這一學(xué)習(xí)率調(diào)整策略旨在訓(xùn)練初期使用較大的學(xué)習(xí)率使模型更快收斂,隨著訓(xùn)練的進(jìn)行,逐漸減小學(xué)習(xí)率,有助于模型更精細(xì)地學(xué)習(xí)數(shù)據(jù)的特征。

        3.3 評價(jià)指標(biāo)

        本研究中所用評價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy,ACC)、AUC-ROC曲線下面積(Area Under the Curve,AUC)、特異性(Specificity,SP)、精確率(Precision,PRE)、召回率(Recall)、F1 分?jǐn)?shù)(F1 Score,F(xiàn)1)和馬修斯相關(guān)系數(shù)(Matthews CorrelationCoefficient,MCC)。

        ACC 是分類模型正確預(yù)測的樣本數(shù)占總樣本數(shù)的比例,表示正確分類樣本占總樣本數(shù)的百分比;AUC 是AUC-ROC 曲線下的面積,用于度量二分類模型的性能,范圍為0~1,數(shù)值越大,表示模型性能越好;Recall(真正例率)是真正例在實(shí)際正例中的比例,表示在所有實(shí)際正例中,模型正確預(yù)測為正例的比例;SP(真負(fù)例率)是真負(fù)例在實(shí)際負(fù)例中的比例,表示在所有實(shí)際負(fù)例中,模型正確預(yù)測為負(fù)例的比例;PRE(真正例率)表示在模型預(yù)測為正例的樣本中,實(shí)際為正例的比例;F1 是精確率和召回率的調(diào)和平均值,用于綜合考慮分類模型的性能衡量模型在精確率和召回率之間的平衡;MCC是衡量二分類模型性能的綜合指標(biāo),常用于衡量模型的綜合性能,尤其在不平衡數(shù)據(jù)集中更具優(yōu)勢。

        3.4 在不同物種數(shù)據(jù)集上的性能比較

        針對不同的農(nóng)作物品種蛋白質(zhì),采用相同的數(shù)據(jù)處理方式分別進(jìn)行訓(xùn)練。所用的數(shù)據(jù)均從EPSD[9]數(shù)據(jù)庫中獲取,以小麥、水稻亞種-粳稻、水稻亞種-秈稻、玉米及大豆為例,表1中展示了使用本文模型訓(xùn)練上述數(shù)據(jù)集在五倍交叉驗(yàn)證下的準(zhǔn)確率、AUC-ROC曲線下面積、特異性、精確率、召回率、F1分?jǐn)?shù)及馬修斯相關(guān)系數(shù)。正、負(fù)樣本的篩選與比例,以及訓(xùn)練集、驗(yàn)證集和測試集的劃分均按照前文描述的方法進(jìn)行。各農(nóng)作物所使用的訓(xùn)練樣本數(shù)量詳見表2。

        3.5 與其他方法的比較

        為了評估本研究提出模型的預(yù)測能力,將其與另外3種方法進(jìn)行了比較,包括DeepIPs、TabNet和TransPhos,并采用五倍交叉驗(yàn)證進(jìn)行了驗(yàn)證。

        DeepIPs[6]是一個(gè)專門用于識別SARS-CoV-2感染宿主細(xì)胞中磷酸化位點(diǎn)的深度學(xué)習(xí)模型,通過詞嵌入方法和CNNLSTM架構(gòu)進(jìn)行特征提取和分類。

        TabNet模型由ARIK等[13]提出,主要用于表格數(shù)據(jù)集,KHALILI等[5]首次將其用于處理和分析生物數(shù)據(jù),并取得了良好的效果。

        TransPhos[7]是一個(gè)專門用于預(yù)測蛋白質(zhì)磷酸化位點(diǎn)的深度學(xué)習(xí)模型,由基于Transformer編碼器和密集連接的卷積神經(jīng)網(wǎng)絡(luò)塊構(gòu)成。

        以玉米磷酸化位點(diǎn)的預(yù)測為例,本研究使用相同的數(shù)據(jù)進(jìn)行5種方法的訓(xùn)練。正、負(fù)樣本的總數(shù)分別為7 729個(gè),其中Ser/S、Thr/T和Tyr/Y的數(shù)量分別為12 244個(gè)、2 724個(gè)、490個(gè)。使用相同的隨機(jī)種子,表3展示了使用不同方法訓(xùn)練玉米數(shù)據(jù)集在五倍交叉驗(yàn)證下的部分關(guān)鍵指標(biāo)。

        3.6 消融實(shí)驗(yàn)

        為探索該模型不同部分的貢獻(xiàn),本研究進(jìn)行了一系列實(shí)驗(yàn),評估了該方法在缺失不同內(nèi)容時(shí)對整體性能的影響。本研究對使用gMLP與否和使用無序性得分作為特征與否進(jìn)行了組合驗(yàn)證。圖4中為五倍交叉驗(yàn)證中的ACC、AUC、SP、PRE、Recall、F1分?jǐn)?shù)的平均值。這些實(shí)驗(yàn)結(jié)果也驗(yàn)證了在模型中引入內(nèi)在無序性得分和gMLP的有效性,并為其在實(shí)際應(yīng)用中的可靠性提供了有力支持。

        4 結(jié)論(Conclusion)

        在本研究提出的方法中,使用gMLP作為特征提取器,引入門控機(jī)制,更高效地利用了蛋白質(zhì)語義信息流;同時(shí),優(yōu)化了數(shù)據(jù)采樣方式,每個(gè)窗口內(nèi)僅采樣一次,避免了同源肽段被頻繁添加至訓(xùn)練集;此外,引入內(nèi)在無序性得分作為特征,使模型能夠?qū)W習(xí)到更多的蛋白質(zhì)語義關(guān)聯(lián)信息。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提升預(yù)測精度,并且優(yōu)于基于Transformer模型的方法,僅使用從序列中提取的特征,避免了復(fù)雜的特征提取操作,顯著降低了計(jì)算成本,對計(jì)算資源沒有較高的要求且操作簡單。該方法相較于目前先進(jìn)的計(jì)算方法(如DeepIPs、TabNet、TransPhos)在磷酸化位點(diǎn)預(yù)測上的表現(xiàn)更為出色,為農(nóng)作物病害的深入研究和治理提供了一種更為高效和可行的途徑。

        作者簡介:

        段旭福(1998-),男,碩士生。研究領(lǐng)域:深度學(xué)習(xí),蛋白質(zhì)組學(xué)。

        李重(1975-),男,博士,教授。研究領(lǐng)域:計(jì)算生物學(xué),人工智能與數(shù)據(jù)分析,圖形圖像與虛擬現(xiàn)實(shí)。

        日韩在线一区二区三区中文字幕| 香色肉欲色综合| 中出高潮了中文字幕| 成人亚洲av网站在线看| 白嫩丰满少妇av一区二区| 99国产精品无码| 国产精品青草视频免费播放 | 午夜性刺激免费看视频| 天堂中文在线资源| 亚洲高潮喷水中文字幕| 国产高清大片一级黄色| 中国杭州少妇xxxx做受| 亚洲成av人片在线观看无码 | 中文字幕人成乱码中文乱码| 日本午夜精品一区二区三区| 国产免费爽爽视频在线观看 | 天堂影院久久精品国产午夜18禁 | 一区二区三区在线观看高清视频| 少妇被黑人整得嗷嗷叫视频| 国产av永久无码天堂影院| 澳门精品无码一区二区三区| 精品人妻一区二区三区av| 凌辱人妻中文字幕一区| 亚洲色欲综合一区二区三区| 五月婷婷激情六月| 国产免费人成视频在线观看播放播| 国产丝袜美女| 四虎影院在线观看| 在线观看中文字幕一区二区三区 | 伊人加勒比在线观看视频| 午夜毛片不卡免费观看视频| 亚洲欧洲国产日产国码无码| 亚洲国产精品嫩草影院久久av| 国产午夜免费高清久久影院| 久久人人爽人人爽人人片亞洲| 美女熟妇67194免费入口| 亚洲精品中字在线观看| 成人毛片无码一区二区三区| 男女一级毛片免费视频看| av有码在线一区二区三区| 看久久久久久a级毛片|