沈婷婷,劉 靜,管 驍
基于多層功能結構的谷物蛋白質功能預測
沈婷婷1,劉 靜1※,管 驍2,3
(1. 上海海事大學信息工程學院,上海 201306; 2. 上海理工大學健康科學與工程學院,上海 200093;3. 國家糧食產(chǎn)業(yè)(城市糧油保障)技術創(chuàng)新中心,上海 200093)
為使研究人員可以更加便捷、準確地選擇功能蛋白質,更高效完成谷物功能性食品的研發(fā)與創(chuàng)新,該研究提出基于多層功能結構的谷物蛋白質功能預測方法。該研究首先構建多種谷物數(shù)據(jù)共建的大規(guī)模相互作用網(wǎng)絡,通過集群的功能特征與未知蛋白的交互作用探尋未知蛋白的相關功能;其次,定義新的蛋白質權重與語義相似度、功能層級權重來確定蛋白質可能具有的功能;最后,通過評分機制輔助完成谷物蛋白質功能的預測結果的判定。試驗結果表明,該研究提出的預測方法使預測的功能具有層級性的特點,并且可獲得指定功能蛋白質;對功能類別FunCat(functional catelogue)前二層的谷物蛋白質功能預測平均準確率達到85%以上,且能完成對蛋白質的第五層、第六層功能的預測; 層級結構的可回溯性使得預測結果差的功能返回至上層功能,并達到降低假陽性的概率、提高算法整體的預測準確率的效果。該研究結果可為功能類食品、藥品的研發(fā)提供參考。
蛋白質;功能;預測;谷物;蛋白質語義;層級功能蛋白;蛋白質相互作用網(wǎng)絡
谷物屬于禾本科植物,包括小麥、大麥、燕麥、玉米、水稻、黑麥、黍稷和高粱等。谷物中含70%~72%的碳水化合物、7%~15%的蛋白質以及1%~12%的脂類[1-2]。谷物已經(jīng)成為人類重要的能量來源,對健康有著舉足輕重的作用。隨著生活質量的提升,人們對谷物食品的功能性及保健性更加重視。食品的功能性及保健性主要依賴于食品中所含的蛋白質。因此,基于蛋白質功能的研究對功能性食品、藥品的開發(fā)具有重大意義。
隨著實驗生物學和生物信息學的發(fā)展,大量的谷物蛋白質結構以及其功能已經(jīng)被確定[3]。但仍存在著大量未經(jīng)注釋、功能未知的蛋白質,這些蛋白質可能蘊含可治療或延緩人類疾病的功能。對此,谷物蛋白質的研究有利于人類對生物信息更全面地了解以及拓展生物藥物研究領域,因此,目前對未知功能蛋白質的研究與預測仍是當今熱點話題。
傳統(tǒng)的預測方法通常利用蛋白質的內部結構和蛋白質序列的同源性,通過FASTA等工具在蛋白質數(shù)據(jù)庫中尋找功能未知蛋白質的同源蛋白來預測蛋白質的功能[4]。但其并未考慮到蛋白質并非單一實現(xiàn)功能的個體,而是與其他蛋白質進行相互作用共同實現(xiàn)特定功能,所以使用同源性方法進行預測時會缺失部分功能。研究人員考慮到該局限性,文獻[5]作者率先將蛋白質的相互作用引入到功能預測方法中,預測結果得到較好的改善。且后續(xù)的研究人員在的研究過程中對其進行了對該方法的逐漸完善[6-9]。直到蛋白質相互作用網(wǎng)絡(protein-protein interaction networks,PPINs)的提出,使蛋白質功能預測開啟了新的篇章[10]。PPINs是給定生物體的全部蛋白質所構成的網(wǎng)狀結構,其中節(jié)點代表蛋白質、邊代表兩個蛋白質之間具有相互作用。根據(jù)已有的研究表明,70%~80%的蛋白質在PPINs中至少與它們直接相鄰蛋白有一個共同的功能[11]。所以,從PPINs與未知蛋白質具有相互作用的蛋白功能出發(fā),預測與已知蛋白相互作用的未知蛋白的功能成為可能[12]。
蛋白質相互作用網(wǎng)絡逐漸發(fā)展成熟,越來越多的研究人員開始在研究中融合更多的蛋白質信息,以達到更好的預測效果。KOTLYAR[13-14]等開始使用各種蛋白質特征,將功能注釋與網(wǎng)絡拓撲結構和其他如正交學和旁系物相結合來對蛋白質的相互作用及其功能進行預測,共計得到了250 498條相互作用數(shù)據(jù),豐富了蛋白質相互作用數(shù)據(jù)庫。PAPANIKOLAOU等[15]提出了利用文本挖掘技術識別PPINs中蛋白質功能的方法。雖然這些方法都得到了大量的預測結果,但在與實際對比中發(fā)現(xiàn),仍然存在大量的假陽性結果,準確率僅為60%左右。并且,這些方法都是從網(wǎng)絡全局拓撲搜索,其時間成本過高。本文利用層級化的功能注釋方案,結合蛋白質相互作用網(wǎng)絡,使用動態(tài)貪心的策略回溯價值低的結果,使得本文提出的預測算法可以在預測大量蛋白質的同時,降低其結果的假陽性概率。
傳統(tǒng)的方法在與相互作用網(wǎng)絡中的蛋白質功能進行比較時,沒有同時考慮蛋白質功能和功能層的語義相似度。本文利用慕尼黑蛋白質序列信息中心開發(fā)的FunCat[16]方案中不同層次的功能語義,提出一種新的蛋白質功能預測方法,該方法充分考慮了蛋白質的功能語義以及功能層次,并對具有層級特性的功能語義進行相似度的定義?;谶@種新的相似度度量以及新的具有層級語義特性的蛋白質預測方法,提出一種具有更高精準度、一種更低假陽性概率等優(yōu)點的算法,以期為研究人員提供便捷、準確地選擇目標功能蛋白質方法,為谷物功能性食品研發(fā)與創(chuàng)新提供參考。
本試驗以多種谷物蛋白質作為研究對象,包括玉米、秈稻、粳稻、小麥、大豆5種常見的谷物,其蛋白質序列信息從UniProtKB/Swiss-prot數(shù)據(jù)庫[17]中獲取,蛋白質之間的相互作用信息從DIP(database of interacting protein)獲得。目前常用的蛋白質功能注釋方案為FunCat方案[16]與GO(gene ontology)術語[18]。GO術語分別從蛋白質的分子功能、細胞組分以及生物過程的角度解釋蛋白質的功能及其特性[19],在探索未知的蛋白質與基因中被更多地使用;而FunCat方案從蛋白質功能語義的遞進角度解釋蛋白質,在探索與應用某種具體功能的情景下,其表現(xiàn)力優(yōu)于GO注釋方案。因此,本文采用FunCat功能注釋方案實現(xiàn)谷物蛋白質的多層功能結構的預測。
FunCat是具有六層結構的功能注釋策略。在表1中,展示一組FunCat術語及其所對應的功能名稱實例,并描繪了FunCat的層級連接方式以及層級功能遞增型結構。容易發(fā)現(xiàn),在底層相同的情況下,隨著層級的遞增,其表達的功能更為具體。在實際的應用中,如想獲取具有metabolism of the aspartate family的功能特性的蛋白質,可選擇具有01.01.06及功能層級更深的01.01.06.06 等注釋的蛋白質作為目標對象開展研究。由此可以快速獲取目標功能所對應的蛋白質信息,減輕從海量蛋白質信息鎖定目標蛋白的負擔。相對于GO方案而言,F(xiàn)unCat方案在實際應用中更具有靈活性與快捷性,在谷物的功能性食品開發(fā)上有著重要的作用。
表1 每個級別的FunCat注釋方案樣本
數(shù)據(jù)轉換作為數(shù)據(jù)預處理中最重要的一個環(huán)節(jié),是將不同的數(shù)據(jù)類型與格式進行統(tǒng)一。其目的是避免在試驗進行中出現(xiàn)數(shù)據(jù)不匹配的問題,并獲得試驗中所需的谷物蛋白質所對應的FunCat功能表單。值得注意的一點是,F(xiàn)unCat最開始被設計出來的目的是為了更好描述真核單細胞生物,隨著不斷地完善與發(fā)展,其功能表述越來越完整,可使用范圍也在不斷擴大。到目前為止,尚未有谷物蛋白質FunCat注釋,故無法開展FunCat對谷物蛋白質的功能預測。為了解決這一問題,本文將FunCat功能方案表單、GO術語表單以及蛋白質序列信息表單的格式進行統(tǒng)一(PSI-MI格式),將GO功能向FunCat功能進行轉換。已知大多數(shù)的蛋白質在UniProtKB/Swiss-prot數(shù)據(jù)庫中均有與之對應的GO功能表述,故可以將GO功能表單與FunCat功能表單進行功能匹配,其中約有90%的蛋白質功能可以利用描述作為關鍵字連接GO功能以及FunCat功能表單。剩余10%的蛋白質功能表述在GO和FunCat功能表單中并不完全一致,其原因是FunCat被定義之初用于描述和應用于真核單細胞生物,而GO被應用于全體生物,二者互不影響,以至于部分功能描述沒有得到統(tǒng)一。為確定GO與FunCat表述不完全一致的功能描述是否為同一功能,通過遍歷分別使用GO、FunCat注釋的蛋白質相互作用網(wǎng)絡、對照蛋白質相互作用信息以及缺失的FunCat功能信息,確定剩余的FunCat功能對應的GO功能。本文確定了1 360個類別的FunCat功能和7 899個谷物蛋白質具有的41 696個GO功能。部分GO功能表單與其對應的FunCat表單如表2所示,例如對于GO:0007049所對應的功能為cell cycle and dna processing,而編號為10的FunCat功能也對應于該功能,即GO功能注釋方案的GO:0007049可映射為FunCat功能注釋方案的10。
表2 FunCat與GO的數(shù)據(jù)轉換表單樣例
本文首先對已有的谷物蛋白質信息構建相互作用網(wǎng)絡,并對其網(wǎng)絡中存在的功能信息模塊進行挖掘,從而達到預測未知蛋白質功能的目的,其中最簡單、有效的挖掘方法是對構建的蛋白質相互作用網(wǎng)絡進行聚類。本文使用的多中心的非平衡-均值聚類方法[20]在實際應用中得到較好的聚類效果,試驗結果表明,本文所使用的算法簇內相似度高、簇間相似度低以及其在結果的表達上優(yōu)于其他聚類算法。其中,聚類過程中的聚類中心個數(shù)由輪廓系數(shù)法(silhouette coefficient)[21]確定。輪廓系數(shù)法結合了聚類的凝聚度(cohesion)和分離度(separation),其取值在[-1,1]范圍內,值越大表明聚類效果越好,若某類的輪廓系數(shù)為負值則表明該類被誤分。
本試驗首先將所有蛋白歸類到一個PPI網(wǎng)絡;然后,使用多中心的非平衡-均值聚類方法對所構建的蛋白質相互作用網(wǎng)絡進行聚類操作;再者,對聚類所得到的集群定義其功能特征,并記錄其與未知蛋白之間的相互作用信息;最后,對未知蛋白進行功能預測。整體的功能預測流程如圖1所示。
圖1 谷物蛋白功能預測實現(xiàn)流程
1.3.1 聚類功能的特征排序和選擇
網(wǎng)絡在聚類后會形成具有模塊化結構的集群。一般來說,集群的功能特征是指集群內最常見的功能可以借助FunCat的層級來計算功能出現(xiàn)的頻率。FunCat功能方案可以將蛋白質的功能分成6個層級進行描述。利用這一特性,對一個集群中的全部蛋白質的各功能層功能進行統(tǒng)計計數(shù),即可得到該集群中各層級蛋白質功能出現(xiàn)的頻率。具體如下所示:
1)對FunCat功能中的第一層功能(以下簡稱一級功能)在集群中出現(xiàn)的頻率進行排序,并對成功排序的每一個一級功能對應的第二層功能(以下簡稱二級功能)進行排序。以此類推,直到達到預期的水平(如第三級)。
2)選擇出現(xiàn)頻率最高的一級功能(例如選擇排名前三的功能),并為每個功能對應的二級功能選出排名前三的功能,以此類推。最后,通過FunCat不同功能層級間的連接符(.)將它們連接起來形成蛋白質集群的功能特征。集群的功能特征挑選過程如圖2所示:以三層功能為例(若期望更深層次的功能特征描述,可繼續(xù)遞進增加功能層深度)。在實例中,若01、05、02分別是第1、2、3層排名第一的功能,那么01.05.02則為該集群最顯著的特征功能,其他功能特征為次顯著功能特征。
圖2 集群功能特征的定義與選擇流程(部分)
1.3.2 聚類功能特征加權
集群功能特征權重是用來衡量選定功能特征在集群中的重要性,是對集群內功能局部重要性的度量。假設集群的選定功能特征的數(shù)量為n,功能的層次排名為,那么功能在集群中的權重W被定義為
1.3.3 未知蛋白與相關集群之間的相互作用權重計算
相互作用權重是指在所有與未知蛋白質具有相互作用的集群中,各個集群對未知蛋白質功能預測的影響因子。在PPI網(wǎng)絡中,若未知蛋白質和集群中的任何蛋白質之間存在相互作用,則認為該集群與未知蛋白質具有相互作用[22]。且后續(xù)的研究人員為衡量相互作用的權重,引入概率模型[23]。蛋白質與集群相互作用的概率u()被定義為
式中是未知蛋白,與未知蛋白相互作用的集群總數(shù)是,m()是未知蛋白和集群之間具有的相互作用的數(shù)量。若得到較高的概率結果,則表明集群對未知蛋白質的功能預測有較大的影響,并令未知蛋白與集群之間的相互作用概率作為相互作用權重。
1.3.4 對功能預測結果的評價與打分
未知蛋白質的功能來自與其具有較高相互作用權重的集群功能特征。因此,基于式(1)與式(2),集群投射到未知蛋白質的功能特征對功能預測的權重W被定義為
式中F為集群的功能特征集。具體運用如下:假設未知蛋白質與若干個集群具有相互作用,單個集群的3個功能特征分別為(1)10.03.01.03(2)=11.02.03.04(3)=01.03.04,根據(jù)(1) 的權重定義可得3個功能權重分別為(1)1(2)=2/3(3)=1/3;再由式(2)的相互作用概率得出(1)=3/8(2)=1/2(3)=1/8;最后通過式(3)得出該集群的3個功能與未知蛋白質之間的功能影響因子為,1(1)=3/8W,2(1)=1/4W,3(1)=1/8。
假設與未知蛋白質具有相互作用的集群數(shù)量為與具有交互作用集群的所有功能特征對未知蛋白質的功能預測得分如式(4)所示,()對應于式(3)中的集群投射到未知蛋白質的功能特征對功能預測的權重[24]。
式中S是在算法模型內對預測出的蛋白質功能進行打分,其結果的大小作為確定最終蛋白質功能的一個參數(shù),分值范圍為[0,1],分值越高代表在所得到的蛋白質預測結果可能符合其真實的功能的概率越高。此過程是將模型對蛋白質功能的評判數(shù)值化,其目的是為了更好的從眾多數(shù)據(jù)中挑出最有可能是“真實功能”的結果。產(chǎn)生的評分值不代表對模型的評估,而是算法模型對蛋白質的衡量。就該評分本身而言,需盡可能多的包含被預測蛋白質的相關權重信息[25],故將試驗進程中的各步驟都進行加權包含于最終的評分公式之中,最終確定評分如式(4)。
最后,將與未知蛋白具有相互作用的集群中所有功能特征的得分進行排名,排名越靠前的功能說明越有可能是未知蛋白的真實功能。最終得到的預測功能結果可能來自多個不同的集群,這與傳統(tǒng)的基于聚類的功能預測方法有本質區(qū)別。
為了驗證本文提出算法的有效性,在PPI數(shù)據(jù)集上基于多層功能結構的谷物蛋白質功能進行預測。本文選取精度準確率()、召回率()和值等方面進行評估。設N為所有預測的結果的的數(shù)量,N是正確預測結果的數(shù)量,N是所有已經(jīng)注釋的功能的數(shù)量。精度和召回率分別定義為
如果精度和召回率都能達到算法性能的最高值即為最佳效果。然而,通常在高精確度和高召回率之間會有一個權衡,大多情況下二者不會同時達到最好的結果。為了同時考慮這兩個指標可以達到權衡最優(yōu),引入了值[26]。
試驗選取5種谷物蛋白作為研究對象,以構建大規(guī)模相互作用網(wǎng)絡。其中秈稻、粳稻、玉米、大豆及小麥的比例分別為11.57%、53.14%、16.57%、0.42%和18.30%,其數(shù)據(jù)來源如1.1小節(jié)所述。多物種構建的蛋白質相互作用網(wǎng)絡在進行功能性挖掘時,其結果會優(yōu)于單一物種構建的蛋白質相互作用網(wǎng)絡[27-28]。為了保證評價的客觀性,從數(shù)據(jù)集中隨機選擇了5組數(shù)據(jù),其中每組均由3 000個PPI數(shù)據(jù)構成,其中所包含的蛋白質作為測試集。由于PPI數(shù)據(jù)是關系型數(shù)據(jù),故其涉及的蛋白質數(shù)目是不確定的,非定量的預測方案使得本文算法的性能更具有說服力。而對于定量測試的需求,本算法需在每組數(shù)據(jù)中隨機選定若干蛋白質作為未知的蛋白質進行預測,以達到評價算法有效性的目的。
由于FunCat是功能層級遞增的結構,上一層級功能對下一層級的功能具有指導作用,所以上一級的性能評價會高于下一級的性能評價。已知現(xiàn)存谷物蛋白質有超過60%的功能均為三級和四級功能,五級功能和六級功能只占所有蛋白質功能的10%左右。以蛋白質實際具有的功能為標準,對本文提出的算法進行評估,對于不同層級功能的預測結果均值如表3所示,該試驗為非定量的預測。可以發(fā)現(xiàn),本文提出的算法在第一層級功能的精準度結果接近92%,第二層級功能的精準度達到85%左右,結果表現(xiàn)優(yōu)于其他算法[29-31]。試驗數(shù)據(jù)中約有5%的蛋白質由于沒有對應的FunCat功能表達而導致預測的不成功,若將此部分功能數(shù)據(jù)剔除,所得到的結果將會得到更進一步提升。
本文提出的算法對三級功能與四級功能的準確率分別可達到78%、69%。則前四層的蛋白質功能的平均準確率高于80%。三級功能與四級功能相較于一級功能、二級功能準確率、召回率以及值均有所降低,其根本原因在于選擇集群功能特征時,僅選擇了排名靠前的幾個功能特征,從而導致部分主要特征的丟失,并且隨著預測層級的加深該特性被逐漸放大。考慮到該問題,本文將評分機制(式(4))與之結合,評分低于0.2的預測結果回溯至其上層功能記錄并輸出。即便沒有預測至精準層級,所得的低等層級功能也對試驗研究具有指導意義。該方法在一定程度上減少了預測結果的假陽性。
表3 谷物蛋白在FunCat不同層次的功能預測評價
為了盡可能預測出未知蛋白質的全部功能,試驗過程中同時為每個集群選擇多個功能特征,并在最終預測中選擇多個功能得分排名較高的功能。為了驗證本文所提出的方法是否可以在較大規(guī)模的未知蛋白質的情況下可以表現(xiàn)良好,并找到最優(yōu)的規(guī)模解,采用分組的方式對其進行驗證,從50個蛋白質逐步增加到400個蛋白質作為未知蛋白質樣本。由于現(xiàn)有研究中幾乎沒有類似的結果可用來比較,因此,將本文提出的算法在不同大小的數(shù)據(jù)子集上對準確率、召回率和值結果進行了比較。對蛋白質功能的精準層級預測的試驗結果如表4所示。特別說明,蛋白質可能擁有多個不同層級的功能,如蛋白質P86520具有的42.07、16.03.01、36.20.16分別為2級功能、3級功能、3級功能,精準層級預測需對這每個功能的最高層級功能進行預測,即2級、3級、3級功能。
表4 對不同規(guī)模的谷物蛋白的功能預測評價
從表4可以看出,本文提出的方法對不同規(guī)模的數(shù)據(jù)集的功能預測性能相對穩(wěn)定。當?shù)鞍踪|數(shù)量規(guī)模取50時,取得的結果較好,其準確率可以達到76%;取100時,準確率可以達到72%;取200時,其準確率仍能達到66%,并且隨著蛋白質數(shù)量規(guī)模的增大,結果趨于平緩,由此可以證明本文提出的方法具有一定的穩(wěn)定性。但結果對比層級性的功能預測結果(表3),可發(fā)現(xiàn)指定蛋白質數(shù)目的預測性能未到達該水平,其原因在于僅在界定范圍內選取排名高的功能特征,而忽視了其他功能特征,導致結果性能有所下降,但仍不可忽視其性能的優(yōu)越性。
使用功能回溯后,本文提出的算法的準確率、召回率及值均有較大程度的提升,回溯前后結果對比見表5。大多高層級的功能被回溯至三級功能或四級功能。
將傳統(tǒng)的基于FunCat功能注釋方案的蛋白質功能預測方法與本文提出的方法進行對比,包括SAHA等提出的FunPred_SeqSim[29]工具、ALTUNTAS提出的DAC[30]方法、YU等[31]提出的PILL方法以及將本文提出的方法進行功能回溯后的結果進行對比。FunPred_SeqSim算法將蛋白質序列的相似性以及蛋白質相互作用信息融合預測蛋白質。DAC算法利用網(wǎng)絡中各節(jié)點的空間信息對蛋白質的功能進行拓撲達到預測蛋白質功能的作用。PILL方法利用蛋白質功能層級的不完全層級來預測蛋白質功能的。不同算法對比結果如表5所示。
表5 本文提出的方法與其他算法的對比
從表5中可以觀察到,相較于其他傳統(tǒng)算法,本文提出的方法在準確率以及值有明顯的提升且召回率也有較大改善。側面說明本文提出的方法對于蛋白質的FunCat精準功能層級的預測有較大程度的突破,精準度可達77%;而對于模糊的蛋白質功能預測基于本文提出的方法進行功能層級的回溯還可得到更高的評價結果。模糊的蛋白質功能并不意味是錯誤的結果,而是鎖定了蛋白質可能具有的精確功能的范圍。具有功能層級越高的蛋白質越是難以準確預測,五級功能及六級功能預測的平均準確率在61%左右,召回率均值約為52%,值均值約為55%,整體水平使得預測結果不值得被信任。但將所得預測功能回溯至其上一個功能層級或兩個功能層級,回溯后的蛋白質功能預測結果準確率高達92%,其結果的可信度會得到大幅提升,并且所得回溯結果可為后續(xù)研究蛋白質實際功能的生物試驗提供方向,為研究人員減少一定程度的時間成本。
在本節(jié)中,選取了幾個具有代表性的結果,包含精準預測的結果以及功能回溯后的結果,如表6所示。在GO功能注釋與FunCat功能注釋一一對應時,可能會產(chǎn)生功能的多對一、一對多以及無法匹配的情況。首先,產(chǎn)生功能的一對多與多對一的原因是GO功能注釋方案與FunCat功能注釋方案均為樹狀注釋體系,其關鍵節(jié)點的分枝細化程度不一,有的GO功能細化到更深的程度,而與之對應的FunCat功能沒有細化到這一層次,這樣就會造成GO功能的多個功能對應于FunCat功能的其中一個功能。反之,若FunCat的某一功能節(jié)點的細化程度過高,則會造成單一的GO功能對應于多個FunCat功能。對于上述的兩種情況,在試驗過程中選定細化程度低的一方作為試驗中預測功能的標準,所得預測結果雖可能與實際功能略有偏差,但仍對試驗具有指導意義。在實際的應用中,秈稻的GO:0003677與粳稻的GO:0043565對應的FunCat功能均為16.03.01,即為功能描述的多對一的情況。除此之外,還存在功能無法匹配而導致功能預測結果缺失的情況,如小麥的GO:0015066功能在FunCat功能庫中沒有與之對應的功能,其原因在于FunCat數(shù)據(jù)庫最開始應用于細菌類以及真核單細胞生物,后續(xù)研究人員對FunCat數(shù)據(jù)庫進行擴充時還沒有完全豐富該庫,但預留的第99類可作為擴充的信息源。
在試驗過程中,層次遞增型的預測模型可能會導致獲取過度預測結果或降維預測結果(過度預測為超越蛋白質實際功能所具有的層級;降維預測為未達到蛋白質實際功能所具有的層級)。例如,秈稻的GO:0004674對應的功能為30.01.05.01.06,但在實際回溯后預測的結果中得到的是30.01.05.01,這是由于30.01.05.01.06是30.01.05.01的分枝功能,后者功能包含前者,故認為所得預測結果正確。而大豆的GO:0005783功能被預測成42.07.01,但其實際功能為42.07,是過度預測結果,本文認為過度預測的結果是不正確的,即使其結果打分為0.96,但仍應從結果中刪除??紤]到過度預測結果過多會影響研究人員在實際應用中對蛋白質功能的判斷,因此要減少此類情況的出現(xiàn),所以在進行集群特征選擇時將權重過低的功能特征從特征集中刪除。
由試驗結果可知,雖試驗結果有較小的偏差,但仍有95%以上蛋白質被注釋,并在注釋的蛋白質中被正確注釋的達到90%以上,整體準確率可達80%以上。未被注釋的約5%的蛋白質是由于FunCat功能庫的缺失,無法匹配功能,導致在預測時無法被成功注釋。
表6 谷物蛋白質功能預測結果部分樣例
本文將具有FunCat層級結構的蛋白質功能預測應用于谷物蛋白中,并提出了利用蛋白質語義及分層蛋白質功能結構的功能預測框架。該方法可以在預測谷物蛋白質功能時指定預測蛋白質的功能層級,并且可回溯功能的預測方法使得假陽性的結果大幅度降低。
通過主流的評價方法對本文所提出的方法進行評價,證明該方法對谷物蛋白質的功能預測有良好的表現(xiàn),對于蛋白質的功能預測準確率約為77%,而對于回溯后的模糊的蛋白質功能預測準確率可以達到92%。因此,該方法不僅可以預測蛋白質的精準功能,還可以預測蛋白質功能范圍,為研究人員在功能性蛋白質選擇時提供便利。
試驗結果表明,本文提出的方法在預測大量未知蛋白質功能方面是有效并且可行的。但對于界定了具體范圍的蛋白質數(shù)據(jù)集中進行預測,其準確率和召回率結果不佳。其主要原因是,在試驗集群的特征選擇時僅選取了權重及評分靠前的幾個特征功能,但實際應用中其他影響權重相對低的功能特征仍有可能成為未知蛋白的功能組成。
盡管本文提出的方法在谷物數(shù)據(jù)集上表現(xiàn)良好,但仍有一些問題可以在未來進行改進。目前,試驗中使用的相似性度量是基于直接與未知蛋白質具有相互作用的蛋白質的功能。然而,僅通過直接相互作用的蛋白質功能很難獲取一個未知蛋白質的全部功能,未知蛋白質也可能與其他沒有直接相互作用的蛋白質共享功能。那么如何將PPI(protein-protein interaction)中的這種非直接相互作用的功能成功預測可作為下一步研究的內容。
[1] XU Y, YANG J, DU L, et al. Association of whole grain, refined grain, and cereal consumption with gastric cancer risk: A meta‐analysis of observational studies[J]. Food Science & Nutrition, 2019, 7(1): 256-265.
[2] 張敏,吳崇友,陳旭,等.近紅外光譜式聯(lián)合收割機谷物蛋白質含量檢測系統(tǒng)設計[J].農(nóng)業(yè)工程學報,2021,37(1):36-43.
ZHANG Min, WU Chongyou, CHEN Xu, et al, Design of near-infrared spectral grain protein detection system for combine-harvesters[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE),2021,37(1): 36-43.(in Chinese with English abstract)
[3] GONG X, AN Q, LE L, et al. Prospects of cereal protein-derived bioactive peptides: Sources, bioactivities diversity, and production[J]. Critical Reviews in Food Science and Nutrition, 2022, 62(11): 2855-2871.
[4] ISLAM S I, JAHAN M M. Functional annotation of uncharacterized protein from photobacterium damselae subsp. piscicida () and comparison of drug target between conventional medicine and phytochemical compound against disease treatment in fish: An in-silico approach[J]. Genetics of Aquatic Organisms, 2022, 6(3): 1-14.
[5] WALHOUT A J M, SORDELLA R, LU X, et al. Protein interaction mapping in C. elegans using proteins involved in vulval development[J]. Science, 2000, 287(5450): 116-122.
[6] VELLA D, MARINI S, VITALI F, et al. MTGO: PPI network analysis via topological and functional module identification[J]. Scientific Reports, 2018, 8(1): 5499.
[7] ZHOU X, ZHENG W, LI Y, et al. I-TASSER-MTD: A deep-learning-based platform for multi-domain protein structure and function prediction[J]. Nature Protocols, 2022, 17(10): 2326-2353.
[8] 雷秀娟,高銀,郭玲. 基于拓撲勢加權的動態(tài)PPI網(wǎng)絡復合物挖掘方法[J]. 電子學報,2018,46(1):145-151.
LEI Xiujuan, GAO Yin, GUO Ling. Mining protein complexes based on topology potential weight in dynamic protein-protein interaction networks[J]. Chinese journal of electtonics, 2018, 46(1): 145-151. (in Chinese with English abstract)
[9] PENG W, WANG J, CAI J, et al. Improving protein function prediction using domain and protein complexes in PPI networks[J]. BMC Systems Biology, 2014, 8(1): 1-13.
[10] ROSA S, BERTASO C, PESARESI P, et al. Synthetic protein circuits and devices based on reversible protein-protein interactions: An overview[J]. Life, 2021, 11(11): 1-10.
[11] STATELLO L, GUO C J, CHEN L L, et al. Gene regulation by long non-coding RNAs and its biological functions[J]. Nature Reviews Molecular Cell Biology, 2021, 22(2): 96-118.
[12] BAN Z, YUAN P, YU F, et al. Machine learning predicts the functional composition of the protein corona and the cellular recognition of nanoparticles[J]. Proceedings of the National Academy of Sciences, 2020, 117(19): 10492-10499.
[13] KOTLYAR M, PASTRELLO C, PIVETTA F, et al. In silico prediction of physical protein interactions and characterization of interactome orphans[J]. Nature Methods, 2015, 12(1): 79-84.
[14] CHEN K H, WANG T F, HU Y J. Protein-protein interaction prediction using a hybrid feature representation and a stacked generalization scheme[J]. BMC Bioinformatics, 2019, 20(1): 1-17.
[15] PAPANIKOLAOU N, PAVLOPOULOS G A, THEODOSIOU T, et al. Protein–protein interaction predictions using text mining methods[J]. Methods, 2015, 74: 47-53.
[16] MEWES H W, DIETMANN S, FRISHMAN D, et al. MIPS: analysis and annotation of genome information in 2007[J]. Nucleic Acids Research, 2008, 36(suppl_1): 196-201.
[17] BOUTET E, LIEBERHERR D, TOGNNOLLI M, et al. UniProtKB/Swiss-Prot, the manually annotated section of the UniProt KnowledgeBase: How to use the entry view[J]. Plant Bioinformatics: Methods and Protocols, 2016, 1374(1): 23-54.
[18] Gene Ontology Consortium. The gene ontology resource: 20 years and still GOing strong[J]. Nucleic Acids Research, 2019,47(D1): D330-D338.
[19] KANEHISA M, SATO Y. KEGG Mapper for inferring cellular functions from protein sequences[J]. Protein Science, 2020, 29(1): 28-35.
[20] 亓慧. 多中心的非平衡K-均值聚類方法[J]. 中北大學學報(自然科學版),2015,36(4):453-457.
QI Hui. Imbalanced K-means clustering method with multiple centers[J]. Journal of North Central University (Natural Sciences Edition), 2015, 36(4): 453-457. (in Chinese with English abstract)
[21] DINH D T, FUJINAMI T, HUYNH V N. Estimating the optimal number of clusters in categorical data clustering by silhouette coefficient[C]//International Symposium on Knowledge and Systems Sciences. Springer, Singapore, 2019: 1-17.
[22] HUTTLIN E L, BRUCKNER R J, NAVARRETE-PEREA J, et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome[J]. Cell, 2021, 184(11): 3022-3040.
[23] CHATTLA S, SHMUELI G. Linear probability models (LPM) and big data: The good, the bad, and the ugly[J]. Indian School of Business Research Paper Series, 2016(11): 1-45.
[24] 李峰,孫波,王軒,等. 層次分析法結合熵權法評估農(nóng)村屋頂光伏系統(tǒng)電能質量[J]. 農(nóng)業(yè)工程學報,2019,35(11):159-166.
LI Feng, SUN Bo, WANG Xuan, et al. Power quality assessment for rural rooftop photovoltaic access system based on analytic hierarchy process and entropy weight method[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(11): 159-166. (Transactions of the CSAE)
[25] MATEO J R S C. Weighted Sum Method and Weighted Product Method[M]//Multi criteria analysis in the renewable energy industry. Springer, London, 2012: 19-22.
[26] HAND D,CHRISTEN P. A note on using the F-measure for evaluating record linkage algorithms[J]. Statistics and Computing, 2018, 28(3): 539-547.
[27] STRYDOM T, CATCHEN M D, BANVILE F, et al. A roadmap towards predicting species interaction networks (across space and time)[J]. Philosophical Transactions of the Royal Society B, 2021, 376(1837): 1-17.
[28] VAN Leene J, HAN C, GADEYNE A, et al. Capturing the phosphorylation and protein interaction landscape of the plant TOR kinase[J]. Nature Plants, 2019, 5(3): 316-327.
[29] SAHA S, CHATTERJEE P, BASU S, et al. Multiple functions prediction of yeast saccharomyces cerevisiae proteins using protein interaction information, sequence similarity and FunCat taxonomy[C]//2020 IEEE 1st International Conference for Convergence in Engineering (ICCE). IEEE, India, Kolkata, 2020: 170-174.
[30] ALTUNTAS V. Diffusion alignment coefficient (DAC): A novel similarity metric for protein-protein interaction network[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2022(6): 1-11.
[31] YU G, ZHU H, DOMENICONI C. Predicting protein functions using incomplete hierarchical labels[J]. BMC Bioinformatics, 2015, 16(1): 1-12.
Prediction of cereal protein function based on multilayer functional structures
SHEN Tingting1, LIU Jing1※, GUAN Xiao2,3
(1.,,201306,; 2.,,200093,;3.(),200093,)
Cereals are very valuable food sources of healthy and sustainable protein. Food innovations in cereal protein are ever transitioning to more sustainable food systems for healthy diets. A more precise understanding is required by the functions that cereal proteins have. The application of cereal proteins has greatly contributed to genomics and food science today. In this study, a functional prediction was proposed for the cereal proteins using a multilayer functional structure, in order to select the functional proteins more conveniently and accurately. A large-scale interaction network was also constructed with the indica, japonica, wheat, maize, and soybean data. Firstly, the relevant functions of unknown proteins were explored via the interaction of functional features of clusters with the unknown proteins. Secondly, new protein weights, semantic similarity, and functional hierarchy weights were defined to determine the possible functions of proteins. Finally, the grain protein function was further determined using a scoring mechanism in the prediction of the function. The results show that better performance was achieved to predict the function of cereal proteins, particularly with a precision of about 77% for the accurate protein function prediction and up to 92% for the fuzzy protein function prediction using retraceability. A great contribution was made to determine the functional range of unknown proteins, especially with the high efficiency of prediction. The precision of protein function prediction varied significantly at different levels, with an average precision of 92% at level-1, 85% at level-2, and 69% at the level-4. More importantly, the average precision was close to 80% in all six levels of FunCat. As such, the multi-layer functional structure of proteins was predicted to calculate the number of unknown proteins with different sizes. The precision of the prediction was 76% at an unknown protein size of 50, 72% at an unknown protein number of 100, and 66% at an unknown protein number of 200. There was no sharp decrease with the significant increase in the prediction size. It infers that the prediction still performed the best in the case of large-scale unknown proteins. A comparison was made with the latest algorithms, such as FUNPRED_SEQSIN, DAC (Diffusion Alignment Coefficient), and PILL (Predict protein function using Incomplete hierarchical LabeLs). In terms of precision, recall, and F-measured, the performance of the improved prediction was significantly better than the others. The experimental results show that 1) the prediction can be expected to serve as the predicted function hierarchical, particularly for the protein with the specified function, or the available protein functions of specified functional levels; 2) The average precision of the cereal protein function in the first four layers of FunCat (Functional Catelogue) can reach more than 80%, even to realize the prediction of the fifth and sixth layers of the protein; 3) The retrospective nature of the hierarchy can allow the functions with the low predictions to be returned to the higher level functions. As such, the probability of false positives was reduced to improve the overall prediction accuracy. The finding can also provide a strong reference to the protein function prediction in the food industry.
protein; function; prediction; cereals; protein semantics; hierarchical functional proteins; protein-protein interaction network
10.11975/j.issn.1002-6819.202210046
TP391.4
A
1002-6819(2023)-01-0261-08
沈婷婷,劉靜,管驍. 基于多層功能結構的谷物蛋白質功能預測[J]. 農(nóng)業(yè)工程學報,2023,39(1):261-268.doi:10.11975/j.issn.1002-6819.202210046 http://www.tcsae.org
SHEN Tingting, LIU Jing, GUAN Xiao. Prediction of cereal protein function based on multilayer functional structures[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(1): 261-268. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202210046 http://www.tcsae.org
2022-10-08
2022-11-21
國家自然科學基金項目(32172247);內蒙古自治區(qū)科技重大專項“燕麥新品種選育、綠色栽培技術與營養(yǎng)功能產(chǎn)品研究與示范”(2021ZD0002)
沈婷婷,研究方向為生物信息、機器學習。Email:shentt_2021@qq.com
劉靜,博士,副教授,研究方向為生物信息、信息技術與食品功能交叉領域的研究。Email:jingliu@shmtu.edu.cn