亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基因組規(guī)模代謝網(wǎng)絡模型自動化修正

        2017-11-01 08:12:40吳曉紅石貴陽
        食品與生物技術學報 2017年9期
        關鍵詞:代謝物區(qū)間蛋白質(zhì)

        吳曉紅, 薛 衛(wèi), 張 梁*, 石貴陽

        (1.糧食發(fā)酵工藝與技術國家工程實驗室,江南大學,江蘇 無錫 214122;2.南京農(nóng)業(yè)大學 信息科學技術學院 江蘇 南京 210095)

        基因組規(guī)模代謝網(wǎng)絡模型自動化修正

        吳曉紅1, 薛 衛(wèi)2, 張 梁*1, 石貴陽1

        (1.糧食發(fā)酵工藝與技術國家工程實驗室,江南大學,江蘇 無錫 214122;2.南京農(nóng)業(yè)大學 信息科學技術學院 江蘇 南京 210095)

        基于KEGG在線數(shù)據(jù)庫以及6個蛋白質(zhì)區(qū)間預測數(shù)據(jù)庫,對基因組規(guī)模代謝網(wǎng)絡模型進行了自動化修正。作者提出了蛋白質(zhì)區(qū)間預測結(jié)果的權重打分機制,同時利用圖像處理算法確定可信度高的特異性反應。上述修正的研究均在Spathaspora passalidarum NRRL Y-27907基因組規(guī)模代謝網(wǎng)絡精煉過程中得到運用實施,對于提高模型構建效率意義重大。

        基因組規(guī)模;代謝網(wǎng)絡;斷點補齊;圖像處理;區(qū)間預測

        隨著基因組高通量測序數(shù)據(jù)的涌現(xiàn)以及大量的生物學數(shù)據(jù)的產(chǎn)生,代謝網(wǎng)絡模型構建成為研究生物信息學的熱點之一。代謝網(wǎng)絡構建是一個耗時費力的過程,因此許多自動化構建的工具隨之應運而生。通常這些自動化工具側(cè)重關注代謝網(wǎng)絡粗模型的構建如 metaSHARK[1]和 AUTOGRAPH[2],其次關注代謝網(wǎng)絡模型的模擬過程,如CellNetAnalyzer[3]、OptFlux[4]和 COBRA Toolbox[5],只有少量的自動化工具是針對代謝網(wǎng)絡模型的精煉過程。目前能夠提供代謝網(wǎng)絡模型自動化精煉過程的工具有Model SEED、Pathway Tools、RAVEN 和 SuBliMinaL。

        代謝網(wǎng)絡的模型構建包括粗模型的構建、模型的精煉、數(shù)學模型的轉(zhuǎn)換、模型的預測驗證四個過程。一個高質(zhì)量的代謝網(wǎng)絡模型,應達到模型模擬結(jié)果和生物實際生長表型一致,否則要不斷的重復精煉修正過程,直到模擬與表型一致。模型的精煉修正無疑是代謝網(wǎng)絡模型構建過程中最耗時耗力的過程,現(xiàn)有模型精煉工具并不能真正實現(xiàn)真菌代謝網(wǎng)絡模型精煉過程的自動化。模型的精煉過程必須包括漏洞代謝的填補、反應區(qū)間定位等。Model SEED[6]和Pathway Tools[7]只能提供原核生物的代謝網(wǎng)絡模型的精煉自動化過程,不能提供反應區(qū)間的定位。RAVEN[8]和SuBliMinaL[9]是基于Wolf PSORT蛋白質(zhì)區(qū)間預測數(shù)據(jù)庫實現(xiàn)自動化定位區(qū)間的程序。但是Wolf PSORT[10]只是基于氨基酸組成特征的在線預測數(shù)據(jù)庫。研究表明,基于氨基酸組成、二肽和物理化學三種綜合特征的蛋白質(zhì)區(qū)間定位預測結(jié)果更為準確[11]。

        利用作者所在實驗室自動化構建全基因組代謝網(wǎng)絡模型的程序,自動構建了Spathasporapassalidarum NRRL Y-27907全基因組規(guī)模代謝的粗模型。以S.passalidarum NRRL Y-27907的基因組規(guī)模代謝網(wǎng)絡模型的精煉過程為例,以簡單、面向?qū)ο蟮腏ava語言為基礎,對精煉過程中人工冗雜的斷點補齊的方法進行了研究,提出了一種基于KEGG[12]在線數(shù)據(jù)庫自動化填補漏洞反應的方法,并利用權重打分機制分析,6個真菌蛋白質(zhì)定位數(shù)據(jù)庫預測S.passalidarum NRRL Y-27907的結(jié)果,在保證模型中反應的物種特異性的同時,實現(xiàn)了真菌代謝網(wǎng)絡模型精煉的自動化。自動化修正的流程見圖1。圖中進程g、進程n、進程o為一個小的流程循環(huán)。進程g中判斷反應包含斷點,則進入進程h,查找該反應在注釋圖譜中對應的坐標,并在進程i中讀取此坐標,在進程j中判斷此坐標是否為特異性反應,如果是,則在進程p中記錄該反應。如果不是,則在進程l中判斷此坐標是否為最后一個坐標,如果是最后一個坐標,則進入進程n,即進入進程g、進程n、進程o該流程循環(huán)。如果不是最后一個坐標,則進入進程m,讀取下一個坐標,判斷此坐標是否為特異性反應,重復此循環(huán)直至將所有的特異性反應都被找出,進入進程q,進行模型修正。在進程r中判斷模型中是否已經(jīng)包含此反應,若已經(jīng)包含,則回到進程n,即進入進程g、進程n、進程o該流程循環(huán),檢查下一條反應。若不包含此反應,則進入進程s,將此反應加入到模型中。

        圖1 自動補齊斷點流程Fig.1 Process of the auto-refinement of gap

        1 自動填補網(wǎng)絡漏洞

        采用柴文平[13]等人的方法構建了S.passalidarum NRRL Y-27907代謝網(wǎng)絡粗模型。構建的代謝網(wǎng)絡粗模型需要進一步精細化與修正,最終完成一個高質(zhì)量的基因組規(guī)模代謝網(wǎng)絡模型。

        1.1 代謝網(wǎng)絡漏洞查找

        模型導入到裝有COBRA工具包和GLPK線性規(guī)劃器的Matlab中,將模型轉(zhuǎn)化為計算機可讀的格式 (SBML)才能進行代謝網(wǎng)絡漏洞查找。通過xls2model程序?qū)⒛P虴xcel表讀取為計量學S矩陣。S矩陣(828×984)表示該模型由828個代謝物和984個反應組成。同時通過GapFind程序完成代謝漏洞的查找,其中上游漏洞代謝物有為44個,下游漏洞代謝物有128個。

        1.2 基于KEGG網(wǎng)絡爬蟲反應

        KEGG是代謝網(wǎng)絡構建常用數(shù)據(jù)庫,含有多個在線子數(shù)據(jù)庫,其中REACTION數(shù)據(jù)庫包含迄今為止發(fā)現(xiàn)的所有生化反應。各個子數(shù)據(jù)庫的網(wǎng)頁數(shù)據(jù)格式比較統(tǒng)一明確,方便人們進行遠程服務器訪問。但是,KEGG數(shù)據(jù)庫更新頻繁,各個子數(shù)據(jù)庫不能夠免費下載,需要付費使用。而在基因組代謝網(wǎng)絡斷點補齊過程中,因為數(shù)據(jù)信息量浩大,頻繁訪問遠程服務器比較耗時耗力。因此,實現(xiàn)一種批量在線獲取并存取數(shù)據(jù)的方法意義重大。

        1.2.1 方法概述 利用超文本轉(zhuǎn)移協(xié)議和Java控件HttpClient相結(jié)合,實現(xiàn)對網(wǎng)頁中特定信息的抓取KEGG提供物種特異性基因組信息以及所有反應式信息查詢網(wǎng)頁,通過一定的URL(Uniform Resource Locator,統(tǒng)一資源定位符)格式地址發(fā)送HTTP請求并獲取網(wǎng)頁中的基因信息。在漏洞填補的過程中需要訪問大量不同的網(wǎng)絡資源,獲取相關的基因信息,由于數(shù)據(jù)量較大且人工操作比較繁瑣,這里利用Java控件HttpClient實現(xiàn)爬蟲技術,抓去符合特定條件的網(wǎng)絡資源。HttpClient是Apache Jakarta Common下的子項目,可以用來提供高效的、最新的、功能豐富的支持HTTP協(xié)議的客戶端編程工具包,并且它支持HTTP協(xié)議最新的版本和建議。利用HttpClient訪問具體的URL地址,獲取服務器端返回的獲取html內(nèi)容,html內(nèi)容由標題、js代碼、正文、相關鏈接、聲明等區(qū)域組成,而有用信息只出現(xiàn)在正文中的各種html標簽標記內(nèi),分析html標簽并獲取特定的網(wǎng)頁信息。

        1.2.2 漏洞填補算法實現(xiàn)

        1)獲取注釋圖譜:提交物種基因組蛋白質(zhì)序列至KAAS自動注釋服務器,獲取注釋信息,下載html和text格式。

        2)查找包含斷點的注釋圖譜:根據(jù)Matlab軟件中GapFind程序返回的漏洞代謝物列表,在代謝網(wǎng)絡模型Excel格式中確定代謝物的反應途徑,依據(jù)KASS注釋返回的途徑圖譜找到包含漏洞代謝物的所有反應。

        注釋返回的KEGG代謝途徑為包含糖代謝等在內(nèi)的110個途徑。查找包含斷點的代謝圖譜的流程見圖2。具體思路和偽代碼步驟如下:

        A:獲取斷點化合物所對應的Subsystem信息,記為sub。

        B:向注釋查詢網(wǎng)頁URL地址發(fā)送HTTP請求。

        C:如果服務器端響應代碼為HTTPStatus.SC_OK則正常響應,否則繼續(xù)請求,獲取html正文內(nèi)容。

        D:分析html內(nèi)容,設i為行號,由第一行開始遍歷標簽對中的每一行,

        For i from 1 to n

        if(該行中第二個標簽中的內(nèi)容與sub相等)

        提取對應的第一個標簽中的內(nèi)容,記為KO;

        else

        忽略該行,遍歷下一行;

        E:根據(jù)D中的KO號得到滿足條件圖譜的URL地址,向URL地址發(fā)送HTTP請求得到服務器端響應的網(wǎng)頁圖片記為T1,T1即為整個網(wǎng)絡結(jié)構圖,其中綠色酶號表示包含斷點的特異性反應。

        F:點擊T1左上角途徑方框,進去包含所有反應頁面page1,網(wǎng)頁中每一個EC號對應圖譜中的一個具體反應,它的URL地址指向具體的反應方程式。

        G:獲取page1中所有EC號對應的反應,設ec_num為每一個EC號,從第一個開始

        EC_K_Break.txt保存包含斷點化合物的EC,K號的信息。3)查找EC_K_Break.txt中每個K對應的坐標根據(jù)K號獲取其在T1中對應的坐標,判斷特異性反應。

        圖2 斷點代謝途徑定位Fig.2 Orientation of gap metabolic pathway

        1.3 判斷特異性反應

        KEGG所有的反應都包含在通路數(shù)據(jù)庫(PATHWAY database)中,PATHWAY 圖譜上有顏色標記的酶號是指這個物種特定的基因或酶,只有有顏色標記的酶號表示的反應才是具有該物種特異性的反應,也才能添加到代謝網(wǎng)絡模型中。在代謝網(wǎng)絡模型中添加非特異性的反應會改變整個代謝途徑和代謝物流量,進而使模型模擬的結(jié)果偏離實驗數(shù)據(jù),影響模型的準確性和可信度。

        構建代謝網(wǎng)絡模型需要提取代謝途徑中的特異性反應,圖中特異性反應對應的酶號所在的方形框有顏色標記。因此通過網(wǎng)絡爬蟲技術獲得方形框的位置列表,定位到某酶號所在的方形框后需要選取框內(nèi)的像素點,讀取其顏色值,如果顏色分量RGB均為0或255,則沒有顏色標記,反之則有。代謝網(wǎng)絡特異性反應獲取流程見圖3。

        基本思路為:

        根據(jù)得到的position坐標讀取T1對應點的RGB色彩值。

        Picture(Key:酶號;Value:代謝網(wǎng)絡圖中所有方形框的坐標向量集{V1,V2,……,Vn})

        For i from 1 to n

        {

        If(某酶號所在的方形框)

        沿方形框的長邊內(nèi)側(cè)逐一選取像素點,讀取其顏色值;

        If顏色分量RGB均為0或255 then沒有顏色標記

        else有顏色標記;

        If有顏色標記then該酶號對應的是特異性反應

        do將反應加入菌的代謝網(wǎng)絡模型中;

        else舍棄該酶號對應的反應。

        }}

        反應式漏洞填補

        遍歷new_rec.TXT中每一個反應,查看模型中是否存在,存在則不處理,否則添加。

        A:讀取new_rec.TXT中每行反應記為new_rec,i為行號

        For i from 1 to n

        if(模型中不包含 new_rec)

        將new_rec添加到模型中;

        else

        忽略該反應,查找下一條反應;}

        圖3 特異性反應獲取流程Fig.3 Process of getting the pecificreaction

        2 獲取反應區(qū)間定位

        細胞是生命活動的基本單位,它由執(zhí)行不同機體功能的稱為亞細胞的各部分組成,如細胞膜、細胞核、線粒體、高爾基體、內(nèi)質(zhì)網(wǎng)等。亞細胞功能是由位于其中的蛋白質(zhì)執(zhí)行的,蛋白質(zhì)所在的亞細胞稱為蛋白質(zhì)的亞細胞位置[14]。蛋白質(zhì)必須轉(zhuǎn)運到其應在的亞細胞位置上才能正確行使其功能,否則就會出現(xiàn)機體功能紊亂,正確合理的蛋白區(qū)間定位是高質(zhì)量模型構建的基礎,見表1。

        表1 真菌蛋白質(zhì)亞細胞預測數(shù)據(jù)庫Table 1 Database for subcellular localization of fungal proteins

        確定一條蛋白質(zhì)的亞細胞位置稱為蛋白質(zhì)亞細胞定位[15]。蛋白質(zhì)亞細胞定位的傳統(tǒng)方法是通過生物化學實驗,如射線晶體衍射電子顯微鏡核磁共振等方法進行測定[16]。實驗方法精確度高,但費時耗力代價昂貴,而且對難于結(jié)晶的蛋白質(zhì)來說,實驗方法不再有效。借助于先進高效的計算機自動化數(shù)據(jù)處理技術,出現(xiàn)了一些蛋白質(zhì)定位預測網(wǎng)站。結(jié)合Spathasporapassalidarum NRRL Y-27907的生理生化性質(zhì)和蛋白質(zhì)特征提取方法、算法和準確性等,選取了6個真菌生物蛋白質(zhì)區(qū)間預測網(wǎng)站,自動化提取分析網(wǎng)站的預測結(jié)果,在權重打分機制的基礎上得到最佳的蛋白質(zhì)定位區(qū)間。這6個網(wǎng)站是基于蛋白質(zhì)的氨基酸組成、偽氨基酸組成、二肽、生物化學特征或是四種特征的綜合。

        2.1 區(qū)間定位算法實現(xiàn)

        A:對每條反應獲取對應的KO號。

        B:將A中的KO號在KASS注釋結(jié)果中查找基因號,并在本地下載Spathasporapassalidarum NRRL Y-27907蛋白質(zhì)序列庫提取其對應的蛋白質(zhì)序列。

        C:將蛋白質(zhì)序列提交到對應網(wǎng)站的表單中,獲取返回的定位信息。

        D:獲取定位區(qū)間的信息并填入反應式中。

        在獲取具體反應的區(qū)間信息過程中,需要將反應所對應的蛋白質(zhì)序列提交到網(wǎng)頁的表單中,提交后返回具體的區(qū)間定位信息,此處會遇到兩個問題:1)表單提交過程中不支持大量蛋白質(zhì)序列自動提交。由于模型中蛋白質(zhì)序列數(shù)量較大,在有的網(wǎng)站中獲取定位信息時不支持大量序列的一次性提交而只能分別提交單個序列獲得定位信息,在提交過程中任務量大且人工耗費時間長。2)大量蛋白質(zhì)序列提交耗費時間長,在網(wǎng)站中提交多個序列后等待服務器端反饋的定位信息耗費時間太長,甚至會發(fā)生無響應等問題,見圖4。

        圖4 反應亞細胞定位流程Fig.4 Process of subcellular localization

        HttpClient支持訪問特定的URL地址,獲取服務器端返回的html信息,并且能夠分析html中form表單中的信息,實現(xiàn)內(nèi)容的自動提交。由于涉及到的定位頁面所有的表單提交方式都是POST提交,利用HttpClient中的PostMethod方法實現(xiàn)post提交。表單中的元素賦值過程:獲取表單中需要賦值的元素標簽,以蛋白質(zhì)序列元素賦值標簽為例,標簽為