劉洋,馮晉文,劉萬霖,秦鈞,丁琛,,賀福初
小鼠肝臟蛋白質(zhì)組數(shù)據(jù)門戶
劉洋1,馮晉文2,劉萬霖3,秦鈞3,丁琛1,2,賀福初3
1 復(fù)旦大學(xué) 生物醫(yī)學(xué)研究院 上海 200032 2 復(fù)旦大學(xué) 生命科學(xué)學(xué)院 上海 200438 3 國家蛋白質(zhì)科學(xué)中心·北京,北京 102206
肝臟是哺乳動(dòng)物體內(nèi)的代謝中樞,系統(tǒng)性研究肝臟蛋白質(zhì)組在不同的生理和病理狀態(tài)下的表達(dá)情況有助于我們理解肝臟的功能機(jī)理。隨著高精度質(zhì)譜技術(shù)的不斷發(fā)展,眾多小鼠肝臟生理病理研究產(chǎn)生了大量蛋白質(zhì)組學(xué)數(shù)據(jù)。文中系統(tǒng)性整理了834例小鼠肝臟的蛋白質(zhì)組學(xué)實(shí)驗(yàn),建立了小鼠肝臟蛋白質(zhì)組數(shù)據(jù)門戶(Mouse Liver Portal, http://mouseliver.com),該門戶中包含了肝臟在不同生理和病理狀態(tài)下的蛋白質(zhì)組學(xué)數(shù)據(jù),如不同性別、年齡、晝夜節(jié)律、細(xì)胞類型和不同時(shí)間階段的部分肝切除、非酒精性脂肪肝等狀態(tài)。該門戶能夠提供肝臟在不同狀態(tài)下蛋白的表達(dá)變化情況、差異顯著的蛋白質(zhì)和它們參與的生物學(xué)過程以及潛在的信號轉(zhuǎn)導(dǎo)和調(diào)控網(wǎng)絡(luò)。作為目前最全面的小鼠肝臟蛋白質(zhì)組數(shù)據(jù)門戶,該數(shù)據(jù)庫能夠給肝臟生物學(xué)研究提供重要的資源和參考。
肝臟,蛋白質(zhì)組學(xué),數(shù)據(jù)庫
肝臟是脊椎動(dòng)物體內(nèi)最大的器官,它在維持代謝穩(wěn)態(tài)、合成生物體必需的物質(zhì)以及對外源物的解毒等方面起著非常關(guān)鍵的作用[1]。除了其生物學(xué)功能外,肝臟的生理學(xué)特征也很獨(dú)特,例如肝臟的再生功能[2]、節(jié)律特征[3]等。研究肝臟不同功能的分子機(jī)制對認(rèn)識和治療肝臟疾病起著非常重要的作用。肝臟蛋白質(zhì)組計(jì)劃(The Human Liver Proteome Project)[4]作為第一個(gè)在器官層面的蛋白質(zhì)組工程在過去的十幾年中取得了很多的成果,越來越多的研究利用基于質(zhì)譜的蛋白質(zhì)組學(xué)技術(shù)[5-7]來描繪揭示肝臟在不同生理和病理?xiàng)l件下的蛋白質(zhì)分子特征。
應(yīng)用液相串聯(lián)質(zhì)譜技術(shù),劉明偉等在亞細(xì)胞蛋白質(zhì)組學(xué)層面揭示了脂滴在肝臟脂肪代謝平衡中的作用[8];Azimifar等在細(xì)胞分辨率水平揭示了肝臟中不同細(xì)胞類型所承擔(dān)的功能[9];丁琛等進(jìn)一步地揭示了它們通過信號傳遞來協(xié)作行使肝臟的各種生物學(xué)功能[10];王云之等和Wang等在晝夜節(jié)律中通過肝臟蛋白質(zhì)組的動(dòng)態(tài)變化揭示節(jié)律調(diào)控網(wǎng)絡(luò)和機(jī)制[11-12];劉曉偉等研究了在脂多糖(LPS) 刺激下肝損傷的形成機(jī)理[13];Hsieh等研究闡釋了在部分肝切除后組織再生的分子機(jī)理[14-15]。目前,針對小鼠肝臟的功能性研究已經(jīng)積累了數(shù)千組高質(zhì)量的蛋白質(zhì)組數(shù)據(jù)。上述研究均是通過比較不同條件下小鼠肝臟蛋白質(zhì)表達(dá)譜的變化,從而獲得和變化條件相關(guān)的蛋白質(zhì),然后去探究它們在不同條件下承擔(dān)的功能。但是這些蛋白質(zhì)表達(dá)譜中仍然有很多知識和新發(fā)現(xiàn)等待進(jìn)一步挖掘,然而目前還沒有可用的數(shù)據(jù)庫系統(tǒng)性地整理、分析和展示小鼠肝臟的蛋白質(zhì)組數(shù)據(jù)。
因此,我們建立了首個(gè)小鼠肝臟蛋白質(zhì)組學(xué)門戶,來呈現(xiàn)小鼠肝臟中的蛋白質(zhì)在不同生理和病理狀態(tài)下的表達(dá)情況,分析出不同條件下表達(dá)有差異的蛋白質(zhì)以及它們參與的生物學(xué)功能和信號通路,為研究者提供和不同條件存在潛在關(guān)聯(lián)的蛋白以供參考和驗(yàn)證,并為實(shí)驗(yàn)提供數(shù)據(jù)支持。
門戶網(wǎng)站共包含834組關(guān)于小鼠肝臟的蛋白質(zhì)組實(shí)驗(yàn)數(shù)據(jù),其中60組為2010–2017年間已發(fā)表的小鼠肝臟的蛋白質(zhì)組數(shù)據(jù)集,從文獻(xiàn)中篩選實(shí)驗(yàn)數(shù)據(jù)的標(biāo)準(zhǔn)是:研究對象是小鼠肝臟的蛋白質(zhì)組;蛋白質(zhì)組分析技術(shù)是基于質(zhì)譜儀器;定量方法采用非標(biāo)定量[16]技術(shù)。774組實(shí)驗(yàn)數(shù)據(jù)來自筆者的科研團(tuán)隊(duì)。這些實(shí)驗(yàn)包含464組蛋白全譜[17](Profiling)和310組轉(zhuǎn)錄因子DNA結(jié)合活性譜[18](catTFRE),catTFRE技術(shù)是利用轉(zhuǎn)錄因子可與序列特異性DNA元件結(jié)合的特點(diǎn),合成了100種轉(zhuǎn)錄因子結(jié)合序列的串聯(lián)多拷貝雙鏈DNA結(jié)合元件,將其用生物素標(biāo)記以包裝成DNA誘餌富集細(xì)胞中內(nèi)源性轉(zhuǎn)錄因子,將被DNA誘餌捕獲的內(nèi)源性轉(zhuǎn)錄因子利用串聯(lián)質(zhì)譜技術(shù)進(jìn)行定性和定量。定量方法同樣是非標(biāo)定量。實(shí)驗(yàn)的基本信息按照表1中提供的字段進(jìn)行整理。
表1 實(shí)驗(yàn)元數(shù)據(jù)和示例
對本實(shí)驗(yàn)室產(chǎn)生的蛋白質(zhì)組數(shù)據(jù)運(yùn)算進(jìn)行了嚴(yán)格的質(zhì)量控制,利用Mascot[19]軟件對質(zhì)譜產(chǎn)生的譜圖作鑒定,控制肽段和譜圖匹配的錯(cuò)誤發(fā)現(xiàn)率(FDR) 小于1%,對匹配得到的肽段采用以基因?yàn)橹行牡牡鞍锥ㄐ院投克惴╗20],用iBAQ[21]值作為基因在蛋白質(zhì)層面的表達(dá)量。在這834組實(shí)驗(yàn)中一共鑒定到11 471個(gè)基因產(chǎn)物。再根據(jù)以下兩個(gè)條件的:1) 基因表達(dá)產(chǎn)物至少被鑒定到2個(gè)唯一性肽段;2) 至少在5次實(shí)驗(yàn)中被鑒定到;篩選得到10 595個(gè)高可信度的小鼠肝臟表達(dá)的蛋 白質(zhì)。
從文獻(xiàn)中收集得到的數(shù)據(jù)則根據(jù)它提供的質(zhì)譜數(shù)據(jù)處理流程和最終的數(shù)據(jù)表格進(jìn)行統(tǒng)一的處理,對利用MaxQuant[22]軟件進(jìn)行蛋白的定性和定量的實(shí)驗(yàn)數(shù)據(jù),利用蛋白表達(dá)量列表里的峰度值計(jì)算iBAQ,用唯一的肽段數(shù)篩選高可信度的蛋白,對同一個(gè)基因表達(dá)的多個(gè)蛋白計(jì)算總和作為基因的表達(dá)量。
由于這些數(shù)據(jù)來自的樣本不同、處理方式不同、檢測儀器不同,需要對所有實(shí)驗(yàn)的蛋白質(zhì)表達(dá)量進(jìn)行標(biāo)準(zhǔn)化,834組實(shí)驗(yàn)根據(jù)實(shí)驗(yàn)策略和實(shí)驗(yàn)材料分開進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。采用的標(biāo)準(zhǔn)化方法是分位數(shù)標(biāo)準(zhǔn)法[23],這一方法的假設(shè)前提是每組實(shí)驗(yàn)蛋白質(zhì)表達(dá)量的分布一致,所以對實(shí)驗(yàn)策略一致并且實(shí)驗(yàn)材料為同一細(xì)胞類型或者同一細(xì)胞系的所有實(shí)驗(yàn)整合在一起對表達(dá)量iBAQ進(jìn)行標(biāo)準(zhǔn)化,計(jì)算方法為:對整合在一起的實(shí)驗(yàn)計(jì)算每組實(shí)驗(yàn)的五分位數(shù)q=(q1,···,q)
根據(jù)所有實(shí)驗(yàn)的每一個(gè)分位數(shù)值計(jì)算平 均值:
將每次實(shí)驗(yàn)的5個(gè)五分位數(shù)值調(diào)整為所有實(shí)驗(yàn)對應(yīng)的五分位數(shù)的平均值,再根據(jù)每次實(shí)驗(yàn)調(diào)整后的分位數(shù)值和原始值的倍數(shù)縮放每次實(shí)驗(yàn)所有蛋白質(zhì)的表達(dá)量。
最后根據(jù)國家生物技術(shù)信息中心(NCBI)的基因信息數(shù)據(jù)庫Entrez Gene[24],將數(shù)據(jù)集中采用不同數(shù)據(jù)庫(Ensemble、Uniprot)的基因名都轉(zhuǎn)換成Entrez Gene數(shù)據(jù)庫中的基因名,并把Entrez GeneID作為基因的唯一標(biāo)識符。
基因集的功能分析方法是利用Gene Ontology[25](GO) 的生物學(xué)過程條目做富集分析[26]。該方法的輸入數(shù)據(jù)是需要功能分析的基因名集合,計(jì)算過程首先是計(jì)算該基因集與在GO層次關(guān)系中處于最底層的GO條目之間的富集程度,用Fisher精確檢驗(yàn)的值來表征該富集程度,在計(jì)算上一層的GO條目時(shí)移除在子條目中出現(xiàn)的基因,然后再計(jì)算富集程度。最后挑選出富集程度較高的GO條目,作為基因集的功能。采用的程序來自R程序包topGO。
小鼠肝臟蛋白質(zhì)組數(shù)據(jù)門戶從質(zhì)譜數(shù)據(jù)中獲得了10 595個(gè)高可信度的小鼠肝臟蛋白質(zhì)在不同生理和病理?xiàng)l件下的表達(dá)數(shù)據(jù),在這些蛋白質(zhì)中包含了660個(gè)轉(zhuǎn)錄因子。門戶網(wǎng)站也包含了細(xì)胞核、線粒體和脂滴這3種細(xì)胞系中的蛋白質(zhì)組圖譜(圖1A)。根據(jù)GO的注釋將門戶網(wǎng)站中的小鼠肝臟蛋白質(zhì)組作功能分析[27],發(fā)現(xiàn)這些蛋白質(zhì)的功能主要集中在:生命體所需物質(zhì)的代謝,如氨基酸和脂質(zhì)的代謝、蛋白的成熟和降解、膜轉(zhuǎn)運(yùn)和能量代謝;維持生命體正常運(yùn)轉(zhuǎn)的功能,如細(xì)胞周期和凋亡;以及在免疫系統(tǒng)中起到一定的作用(圖1B)。
圖1 門戶概覽(A:小鼠肝臟中蛋白質(zhì)鑒定情況;B:肝臟蛋白功能,每一塊多邊形代表一類蛋白的功能,多邊形的不同顏色代表不同的GO功能類別,多邊形大小代表蛋白承擔(dān)功能的比重)
2.2.1 比較功能
小鼠肝臟蛋白質(zhì)組數(shù)據(jù)門戶提供了操作方便的比較功能。如圖2所示,用戶可以選擇兩種不同的條件,比較在這兩種不同條件下蛋白表達(dá)的變化情況。通過點(diǎn)擊基因搜索框右側(cè)的加號按鈕得到篩選不同條件的字段:Strain、Gender、Genotype、Gene、Cell Type、Organelle、Treatment、Time,通過選擇不同的條件信息生成兩種類型,然后點(diǎn)擊搜索便能得到在兩種條件下蛋白的表達(dá)情況。
比較結(jié)果頁面中會(huì)展示蛋白表達(dá)情況和功能分析結(jié)果,圖3展示了肝實(shí)質(zhì)細(xì)胞和Kupffer細(xì)胞中蛋白質(zhì)表達(dá)的比較情況,通過箱形圖形象地展示了同一蛋白質(zhì)在兩種條件下表達(dá)的高低情況(表達(dá)量是標(biāo)準(zhǔn)化iBAQ值的log轉(zhuǎn)換),也能看到蛋白質(zhì)表達(dá)量的平均值,可以用來比較不同蛋白質(zhì)表達(dá)的高低情況。比較功能的結(jié)果頁還展示了在兩種不同條件下蛋白質(zhì)的表達(dá)量在統(tǒng)計(jì)學(xué)上是否有顯著的差異,方法是對每個(gè)蛋白質(zhì)表達(dá)量的兩組數(shù)據(jù)進(jìn)行檢驗(yàn),對計(jì)算的作做多重假設(shè)檢驗(yàn)的矯正,將FDR值小于0.05的作為有顯著差異的蛋白。
圖2 小鼠肝臟不同生理和病理狀態(tài)條件的選擇頁面
比較結(jié)果頁面還會(huì)提供表達(dá)量差異倍數(shù)在5倍以上并且該差異在統(tǒng)計(jì)上顯著的蛋白質(zhì)功能,采用的是topGO基因集功能分析方法,圖4展示了Kupffer細(xì)胞中相較于肝實(shí)質(zhì)細(xì)胞特異性高表達(dá)蛋白質(zhì)的功能,這些蛋白質(zhì)會(huì)參與免疫應(yīng)答、呈遞抗原等功能。比較結(jié)果分析頁面還會(huì)展示潛在的轉(zhuǎn)錄因子和靶基因的調(diào)控作用網(wǎng)絡(luò),如果用戶選擇的條件有采用catTFRE實(shí)驗(yàn)策略產(chǎn)生的數(shù)據(jù),門戶網(wǎng)站會(huì)篩選出catTFRE實(shí)驗(yàn)中有差異的轉(zhuǎn)錄因子和profiling中有差異表達(dá)的蛋白,根據(jù)CellNet[28]提供的轉(zhuǎn)錄因子和靶基因的調(diào)控關(guān)系,展示這些變化的蛋白之間存在的調(diào)控網(wǎng)絡(luò)。
2.2.2 查詢功能
在網(wǎng)站的首頁用戶可以輸入感興趣的蛋白質(zhì),在結(jié)果展示頁面(圖5) 會(huì)顯示該蛋白質(zhì)的基本信息,這些信息來自UniProt數(shù)據(jù)庫,頁面下方會(huì)展示該蛋白質(zhì)在不同小鼠品系、不同性別、不同年齡階段、不同細(xì)胞類型、不同細(xì)胞系中的表達(dá)水平,以及它在高脂飲食、節(jié)律和部分肝切除實(shí)驗(yàn)中不同時(shí)間點(diǎn)的表達(dá)水平。除了蛋白質(zhì)在每個(gè)屬性不同條件下的表達(dá)高低情況,搜索結(jié)果頁面還提供了該蛋白表達(dá)量在每種屬性下不同條件的兩兩之間是否存在顯著差異,根據(jù)計(jì)算得到的值大小顯示不同深淺的紅色。從圖5中可以看到Hnf4a在細(xì)胞核提取物中的濃度要顯著高于它在全細(xì)胞中的濃度。
圖3 雄性C57小鼠肝臟的肝實(shí)質(zhì)細(xì)胞和Kupffer細(xì)胞中蛋白質(zhì)的表達(dá)情況和差異比較
圖4 Kupffer細(xì)胞中特異性高表達(dá)蛋白在GO生物學(xué)過程條目中富集得到的功能
用戶查詢的基因如果是轉(zhuǎn)錄因子并且該基因在我們推測的調(diào)控網(wǎng)絡(luò)中,那么除了基因在不同實(shí)驗(yàn)條件下的表達(dá)情況,用戶還可以得到與該基因存在潛在調(diào)控關(guān)系的靶基因,靶基因的推測方法是Context likelihood of relatedness (CLR) 算法[29],該算法是基于相關(guān)性網(wǎng)絡(luò),首先計(jì)算基因兩兩之間在所有實(shí)驗(yàn)中表達(dá)量的相關(guān)性系數(shù),將每個(gè)基因當(dāng)作網(wǎng)絡(luò)中的節(jié)點(diǎn),基因之間的相關(guān)性作為基因之間連接權(quán)重,刪除連接權(quán)重低于某一閾值的連接,從而生成基因之間的連接網(wǎng)絡(luò)。CLR在此基礎(chǔ)上利用基因之間的相關(guān)性計(jì)算了統(tǒng)計(jì)似然性作為背景分布,根據(jù)背景分布挑選相關(guān)性顯著高于其他基因之間的連接對,與轉(zhuǎn)錄因子存在高連接度的基因就是該轉(zhuǎn)錄因子的潛在靶基因,再結(jié)合ENCODE數(shù)據(jù)庫中轉(zhuǎn)錄因子和基因的結(jié)合信息作進(jìn)一步篩選。采用CLR算法我們得到了肝臟中蛋白質(zhì)之間潛在的調(diào)控關(guān)系,幫助用戶進(jìn)一步認(rèn)識小鼠肝臟中的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。
圖5 Hnf4a在不同條件下(兩種品系的小鼠、雌雄小鼠、多種細(xì)胞類型、多種細(xì)胞器和肝切除后多個(gè)時(shí)間點(diǎn))的表達(dá)情況和差異顯著性
2.2.3 數(shù)據(jù)上傳和下載功能
門戶網(wǎng)站可以支持用戶將自己產(chǎn)生的關(guān)于小鼠肝臟蛋白質(zhì)組數(shù)據(jù)上傳到數(shù)據(jù)庫中,現(xiàn)階段支持上傳已經(jīng)完成數(shù)據(jù)庫搜索的質(zhì)譜數(shù)據(jù),用戶需要根據(jù)表1的字段填寫實(shí)驗(yàn)的基本情況并且寫明數(shù)據(jù)庫搜索條件和質(zhì)控情況以及對應(yīng)產(chǎn)生的數(shù)據(jù)表,然后將實(shí)驗(yàn)信息和數(shù)據(jù)表格打包成壓縮文件進(jìn)行上傳,我們獲得數(shù)據(jù)后會(huì)根據(jù)質(zhì)控流程將數(shù)據(jù)存入到數(shù)據(jù)庫中,這樣可以不斷提高數(shù)據(jù)庫的全面性。門戶網(wǎng)站同樣也支持用戶下載不同條件下的蛋白質(zhì)表達(dá)數(shù)據(jù)以便用戶進(jìn)行后續(xù)的處理和分析。
小鼠肝臟蛋白質(zhì)組數(shù)據(jù)門戶為用戶提供了當(dāng)前最全面的小鼠肝臟蛋白質(zhì)組數(shù)據(jù)庫。該數(shù)據(jù)庫包含小鼠肝臟基因的蛋白產(chǎn)物的表達(dá)量和實(shí)驗(yàn)條件的基本信息,并且支持用戶進(jìn)行查看比較不同實(shí)驗(yàn)條件下蛋白表達(dá)譜的變化情況和查詢自己感興趣的蛋白在不同實(shí)驗(yàn)條件下的表達(dá)量以及和實(shí)驗(yàn)條件的相關(guān)性。門戶網(wǎng)站還提供了差異蛋白的功能分析以及潛在的轉(zhuǎn)錄因子調(diào)控的作用網(wǎng)絡(luò),為用戶提供可能的研究方向。例如在小鼠肝臟部分切除的實(shí)驗(yàn)中,網(wǎng)站提供了在處理前后的不同時(shí)間點(diǎn)發(fā)生顯著變化的轉(zhuǎn)錄因子以及其下游發(fā)生顯著變化的靶基因和它們之間存在的相互作用以及它們富集出的生物學(xué)功能。
基于質(zhì)譜的蛋白質(zhì)組學(xué)已經(jīng)越來越成熟,未來會(huì)有更多的研究產(chǎn)生大量關(guān)于小鼠肝臟的蛋白質(zhì)組數(shù)據(jù),該門戶網(wǎng)站會(huì)不斷地將發(fā)表的數(shù)據(jù)進(jìn)行處理和質(zhì)控后加入到數(shù)據(jù)庫中,同時(shí)用戶也可以將自己實(shí)驗(yàn)室產(chǎn)生的數(shù)據(jù)提交給門戶網(wǎng)站。隨著數(shù)據(jù)庫中數(shù)據(jù)量的不斷增長,門戶網(wǎng)站可以提供更多的分析角度和更加可靠的分析結(jié)果。
[1] Falcón-Pérez JM, Lu SC, Mato JM. Sub-proteome approach to the knowledge of liver. Proteomics Clin Appl, 2010, 4(4): 407–415.
[2] Fausto N. Liver regeneration. J Hepatol, 2000, 32(S1): 19–31.
[3] Stokkan KA, Yamazaki S, Tei H, et al. Entrainment of the circadian clock in the liver by feeding. Science, 2001, 291(5503): 490–493.
[4] He FC. Human liver proteome project: plan, progress, and perspectives. Mol Cell Proteomics, 2005, 4(12): 1841–1848.
[5] Gillet LC, Leitner A, Aebersold R. Mass spectrometry applied to bottom-up proteomics: entering the high-throughput Era for hypothesis testing. Ann Rev Anal Chem, 2016, 9: 449–472.
[6] Aebersold R, Mann M. Mass-spectrometric exploration of proteome structure and function. Nature, 2016, 537(7620): 347–355.
[7] Sinitcyn P, Rudolph JD, Cox J. Computational methods for understanding mass spectrometry–based shotgun proteomics data. Ann Rev Biomed Data Sci, 2018, 1: 207–234.
[8] Liu MW, Ge R, Liu WL, et al. Differential proteomics profiling identifies LDPs and biological functions in high-fat diet-induced fatty livers. J Lipid Res, 2017, 58(4): 681–694.
[9] Azimifar SB, Nagaraj N, Cox J, et al. Cell-type-resolved quantitative proteomics of murine liver. Cell Metab, 2014, 20(6): 1076–1087.
[10] Ding C, Li YY, Guo FF, et al. A cell-type-resolved liver proteome. Mol Cell Proteomics, 2016, 15(10): 3190–3202.
[11] Wang JK, Mauvoisin D, Martin E, et al. Nuclear proteomics uncovers diurnal regulatory landscapes in mouse liver. Cell Metab, 2017, 25(1): 102–117.
[12] Wang YZ, Song L, Liu MW, et al. A proteomics landscape of circadian clock in mouse liver. Nat Commun, 2018, 9(1): 1553.
[13] Liu XW, Lu FG, Zhang GS, et al. Proteomics to display tissue repair opposing injury response to LPS-induced liver injury. World J Gastroenterol, 2004, 10(18): 2701–2705. DOI: 10.3748/wjg.v10.i18.2701.
[14] Hsieh HC, Chen YT, Li JM, et al. Protein profilings in mouse liver regeneration after partial hepatectomy using iTRAQ technology. J Proteome Res, 2009, 8(2): 1004–1013.
[15] Sun YW, Deng XY, Li WR, et al. Liver proteome analysis of adaptive response in rat immediately after partial hepatectomy. Proteomics, 2007, 7(23): 4398–4407.
[16] Cox J, Hein MY, Luber CA, et al. Accurate proteome-wide label-free quantification by delayed normalization and maximal peptide ratio extraction, termed MaxLFQ. Mol Cell Proteomics, 2014, 13(9): 2513–2526.
[17] Ding C, Jiang J, Wei JY, et al. A fast workflow for identification and quantification of proteomes. Mol Cell Proteomics, 2013, 12(8): 2370–2380.
[18] Ding C, Chan DW, Liu WL, et al. Proteome-wide profiling of activated transcription factors with a concatenated tandem array of transcription factor response elements. Proc Natl Acad Sci USA, 2013, 110(17): 6771–6776.
[19] Perkins DN, Pappin DJC, Creasy DM, et al. Probability-based protein identification by searching sequence databases using mass spectrometry data. Electrophoresis, 1999, 20(18): 3551–3567.
[20] Saltzman AB, Leng M, Bhatt B, et al. gpGrouper: a peptide grouping algorithm for gene-centric inference and quantitation of bottom-up proteomics data. Mol Cell Proteomics, 2018, 17(11): 2270–2283.
[21] Schwanh?usser B, Busse D, Li N, et al. Global quantification of mammalian gene expression control. Nature, 2011, 473(7347): 337–342.
[22] Cox J, Mann M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nat Biotechnol, 2008, 26(12): 1367–1372.
[23] Bolstad BM, Irizarry RA, ?strand M, et al. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics, 2003, 19(2): 185–193.
[24] Maglott D, Ostell J, Pruitt KD, et al. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Res, 2007, 35: D26–D31.
[25] Harris MA, Clark J, Ireland A, et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res, 2004, 32: D258–D261.
[26] Alexa A, Rahnenfuhrer J, Lengauer T. Improved scoring of functional groups from gene expression data by decorrelating GO graph structure. Bioinformatics, 2006, 22(13): 1600–1607.
[27] Liebermeister W, Noor E, Flamholz A, et al. Visual account of protein investment in cellular functions. Proc Natl Acad Sci USA, 2014, 111(23): 8488–8493.
[28] Cahan P, Li H, Morris SA, et al. CellNet: network biology applied to stem cell engineering. Cell, 2014, 158(4): 903–915.
[29] Faith JJ, Hayete B, Thaden JT, et al. Large-scale mapping and validation oftranscriptional regulation from a compendium of expression profiles. PLoS Biol, 2007, 5(1): e8.
Mouse liver proteome database
Yang Liu1, Jinwen Feng2, Wanlin Liu3, Jun Qin3, Chen Ding1,2, and Fuchu He3
1 Institutes of Biomedical Sciences, Fudan University, Shanghai 200032, China 2 School of Life Sciences, Fudan University, Shanghai 200438, China 3 National Center for Protein Sciences·Beijing, Beijing 102206, China
The liver is the metabolic center of mammalian body. Systematic study on liver’s proteome expression under different physiological and pathological conditions helps us understand the functional mechanisms of the liver. With the rapid development of liquid chromatography tandem mass spectrometry technique, numerous studies on liver physiology and pathology features produced a large number of proteomics data. In this paper, 834 proteomics experiments of mouse liver were systematically collected and the mouse liver proteome database (Mouse Liver Portal, http://mouseliver.com) was established. The Mouse Liver Portal contains the liver’s proteomics data under different physiology and pathology conditions, such as different gender, age, circadian rhythm, cell type and different phase of partial hepatectomy, non-alcoholic fatty liver. This portal provides the changes in proteins’ expression in different conditions of the liver, differently expressed proteins and the biological processes which they are involved in, potential signal transduction and regulatory networks. As the most comprehensive mouse liver proteome database, it can provide important resources and clues for liver biology research.
liver, proteomics, database
April 28, 2019;
June 21, 2019
Shanghai Municipal Science and Technology Major Project (No. 2017SHZDZX01).
Chen Ding. Tel: +86-21-51630742; E-mail: chend@fudan.edu.cn.
劉洋, 馮晉文, 劉萬霖, 等. 小鼠肝臟蛋白質(zhì)組數(shù)據(jù)門戶. 生物工程學(xué)報(bào), 2019, 35(9): 1715–1722.
Liu Y, Feng JW, Liu WL, et al. Mouse liver proteome database. Chin J Biotech, 2019, 35(9): 1715–1722.
上海市科技重大專項(xiàng)(No. 2017SHZDZX01) 資助。
(本文責(zé)編 郝麗芳)