胡雨雯 張嘉 楊鑫
摘 要:本文首先研究了氨基酸合成蛋白質(zhì)的規(guī)律,對(duì)于題目所給數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,由于蛋白質(zhì)合成方式復(fù)雜,我們假定了本題中只研究單鏈?zhǔn)胶铣啥豢紤]R基脫水縮合的問(wèn)題。在此基礎(chǔ)上,本文建立窮舉模型,利用Fortran語(yǔ)言對(duì)算法進(jìn)行實(shí)現(xiàn),使用循環(huán)語(yǔ)句嵌套編寫(xiě)出能夠給出確定蛋白質(zhì)分子量下的氨基酸組合全部情況及計(jì)算機(jī)運(yùn)行時(shí)間,由1000帶入時(shí)運(yùn)算結(jié)果為28268種,用時(shí)0.828秒。在此基礎(chǔ)上,本文根據(jù)蛋白質(zhì)中氮含量穩(wěn)定為14%-18%這一約束條件,對(duì)所給出的程序進(jìn)行優(yōu)化,剔除與實(shí)際不相符的情況,蛋白質(zhì)分子量為1000時(shí)有效結(jié)果為10954組,用時(shí)0.391秒。在實(shí)際情況中,蛋白質(zhì)分子量遠(yuǎn)大于1000,使用優(yōu)化后的模型能夠推廣到分子量更大的蛋白質(zhì)成分分析中。此外,本文還討論了質(zhì)譜儀使用使得各類(lèi)元素成分已知條件下如何進(jìn)行分子量分解以及實(shí)驗(yàn)室不具備計(jì)算機(jī)時(shí)的利用質(zhì)譜儀情況下蛋白質(zhì)分子量分解的可行性。
關(guān)鍵詞:分子量分解;優(yōu)化模型設(shè)計(jì);可行性分析;Fortran
一、問(wèn)題重述
生命蛋白質(zhì)是由若干種氨基酸經(jīng)不同的方式組合而成。在實(shí)驗(yàn)中,為了分析某個(gè)生命蛋白質(zhì)的分子組成,通常用質(zhì)譜實(shí)驗(yàn)測(cè)定其分子量x(正整數(shù)),然后將分子量x分解為n個(gè)已知分子量a[i](i=1,.......,n)氨基酸的和的形式。某實(shí)驗(yàn)室所研究的問(wèn)題中:
n=18,x1000
a[i](i=1,.......,18)分別為57,71,87,97,99,101,103,113,114,115,128,129,131,137,147,156,163,186
要求針對(duì)該實(shí)驗(yàn)室擁有或不擁有計(jì)算機(jī)的情況,對(duì)如何分解分子量x作出解答,即針對(duì)任意一個(gè)分子量x具體給出由哪些a[i](i=1,.......,n)氨基酸組成。
二、問(wèn)題分析
(1)對(duì)于數(shù)據(jù)的分析
通過(guò)大量資料的查閱以及比對(duì),我們發(fā)現(xiàn)了題目中所給出額的已知氨基酸分子量數(shù)值均為羥基和羧基脫水之后的分子量,所以按照題意分析,題目應(yīng)僅考慮羥基羧基脫水縮合形成肽鏈的情況而不考慮R基可能發(fā)生的脫水縮合等復(fù)雜情況。
(2)有計(jì)算機(jī)情況下的分析
①初步分析:題目要求在已知蛋白質(zhì)分子總量的情況下,使用計(jì)算機(jī)給出組成蛋白質(zhì)的氨基酸種類(lèi)及個(gè)數(shù)。題目條件中沒(méi)有明確的對(duì)各個(gè)氨基酸或者各個(gè)元素給出明確的約束,在僅知道蛋白質(zhì)總分子量以及各氨基酸脫水后的分子量的條件下,為了求得所有氨基酸組合,只能運(yùn)用計(jì)算機(jī)語(yǔ)言編寫(xiě)窮舉法運(yùn)算程序,理論上能夠?qū)崿F(xiàn)輸入給定蛋白質(zhì)的分子量即可給出全部的氨基酸組成。但所得結(jié)果的數(shù)量過(guò)于龐大,對(duì)于蛋白質(zhì)組成的分析意義不大。
②進(jìn)一步分析:在沒(méi)有約束的條件下,計(jì)算機(jī)的運(yùn)算量過(guò)大,計(jì)算時(shí)間過(guò)長(zhǎng),所以在原先程序的基礎(chǔ)上需要進(jìn)行優(yōu)化。在資料的查閱后,我們發(fā)現(xiàn),在實(shí)際情況中,所有蛋白質(zhì)中的氮含量基本穩(wěn)定在14%-18%[1]之間。所以在加入蛋白質(zhì)中氮含量約束后能夠提高計(jì)算速度,減少解的數(shù)量,使得得到的結(jié)果更符合實(shí)際情況。
③再進(jìn)一步分析:由于題目中說(shuō)明實(shí)驗(yàn)室將采用質(zhì)譜儀來(lái)對(duì)蛋白質(zhì)進(jìn)行成分分析,根據(jù)資料表明,在蛋白質(zhì)含量測(cè)定實(shí)驗(yàn)中,質(zhì)譜儀不僅能夠測(cè)定出蛋白質(zhì)的分子量,還能夠給出每種元素占總分量的比例[2]。據(jù)此可以添加多個(gè)約束,從而更快速的得到更為準(zhǔn)確的結(jié)果,所得結(jié)果對(duì)于蛋白質(zhì)組成分析有重要意義。
(3)沒(méi)有計(jì)算機(jī)情況下的分析
在沒(méi)有計(jì)算機(jī)的情況下,我們首先可以知道蛋白質(zhì)的分子量與氨基酸的分子量為一個(gè)線性組合,即假設(shè)已知蛋白質(zhì)分子量的情況下,可以將題目轉(zhuǎn)化為一個(gè)線性規(guī)劃問(wèn)題進(jìn)行求解。此情況下,蛋白質(zhì)分子量較小時(shí),通過(guò)人工計(jì)算也可以較為簡(jiǎn)單地得到蛋白質(zhì)中各氨基酸的數(shù)目,但當(dāng)分子量數(shù)值較大時(shí),人工計(jì)算量急劇增大,沒(méi)有可行性。
三、模型假設(shè)
(1)在氨基酸合成蛋白質(zhì)時(shí)不考慮R基脫水縮合的情況,僅考慮氨基與羧基脫水縮合;
(2)蛋白質(zhì)中氮元素含量在14%-18%之間;
(3)實(shí)驗(yàn)室所用質(zhì)譜儀能夠準(zhǔn)確測(cè)定出蛋白質(zhì)分子量以及各元素所占比例,不存在誤差;
(4)不考慮氨基酸排列的先后方式,僅考慮不同氨基酸的組合方式;
(5)所得蛋白質(zhì)均為環(huán)狀,即蛋白質(zhì)的分子量=各氨基酸脫水后的分子量之和。
四、符號(hào)系統(tǒng)
五、模型建立
(1)對(duì)題目所給數(shù)據(jù)進(jìn)行預(yù)處理
題目中僅僅給出了18種氨基酸的分子量,根據(jù)資料的查找并利用數(shù)學(xué)軟件進(jìn)行分析,分析結(jié)果如下表:
表5.1 氨基酸分子量及元素分析
(2)蛋白質(zhì)中氮含量約束模型建立
根據(jù)本題的初步條件分析,蛋白質(zhì)的分子總量等于氨基酸縮
水之后分子量的總和,由此我們可以得到下式:,且Xi必為非負(fù)的整數(shù),即:
由此,我們可以得到初步模型:
在此模型的基礎(chǔ)上,我們利用Fortran語(yǔ)言針對(duì)窮舉模型進(jìn)行了程序的編寫(xiě),即輸入實(shí)驗(yàn)室測(cè)得的蛋白質(zhì)分子量,計(jì)算機(jī)即會(huì)給出所有符合條件的氨基酸排列組合。在模型的實(shí)現(xiàn)過(guò)程中,我們采用了18重循環(huán)語(yǔ)句的嵌套??紤]到減少重復(fù)運(yùn)算,我們?cè)诿恳徊窖h(huán)語(yǔ)句的處理中減去了上一步的假定值,這使得我們的程序得到了優(yōu)化,大大減少了計(jì)算機(jī)的運(yùn)行時(shí)間,能夠更加快捷的得出所需的結(jié)果。
(3)多重元素約束模型建立
雖然能夠得出已知蛋白質(zhì)分子量條件下較為優(yōu)化的結(jié)果,但隨著分子量的增大,氨基酸可能的組合種類(lèi)的數(shù)據(jù)非常龐大,據(jù)此數(shù)據(jù),實(shí)驗(yàn)室無(wú)法進(jìn)一步得出最符合被測(cè)蛋白質(zhì)真實(shí)氨基酸組合的情況。根據(jù)資料的查閱和分析,運(yùn)用現(xiàn)有質(zhì)譜儀技術(shù)不僅能夠準(zhǔn)確給出蛋白質(zhì)的分子量,同時(shí)也能夠給出各個(gè)元素占總分子量的比例。
根據(jù)此模型,我們對(duì)程序進(jìn)行了進(jìn)一步的修改。具體程序?qū)⒃诟戒浿幸徊⒔o出。利用本程序,輸入氨基酸分子量及C、N、O、S四中元素所占比例,程序即可給出所有滿足約束條件的組合情況。
(4)無(wú)計(jì)算機(jī)條件下的求解
題目是典型的多元一次不定方程的求解問(wèn)題,在此證明無(wú)計(jì)算機(jī)情況下,手動(dòng)求解理論上可以得到答案,但無(wú)實(shí)際的可操作性。
本題是求解一個(gè)十八元一次不定方程的非負(fù)整數(shù)解,即求方程的非負(fù)整數(shù)解。由線性代數(shù)的相關(guān)知識(shí)知,方程有整數(shù)解的充分必要條件為,其相關(guān)證明可由輾轉(zhuǎn)相除法給出,在此不作證明,有需要可查閱相關(guān)資料。
對(duì)于本題而言,而對(duì)任意正整數(shù)成立,則對(duì)于任意分子量X,…,必然存在整數(shù)解,使得滿足方程。在此可以用輾轉(zhuǎn)相除法來(lái)求得各的具體取值,但解中需要排除負(fù)整數(shù)解,對(duì)于X的值較小時(shí),人工求解的方法可行,但隨著X數(shù)值的增大,計(jì)算量上升,人工求解相當(dāng)困難,所以不建議采用該方法。
六、模型分析
在我們模型的建立中,隨著約束一步步的增加,使得程序運(yùn)算更加具有高效性和準(zhǔn)確性,能夠有效的剔除與實(shí)際情況相差甚遠(yuǎn)的氨基酸組合種類(lèi),在眾多可能性組合中能夠選取出與蛋白質(zhì)實(shí)際組成方式相近的氨基酸組合方式。
對(duì)于沒(méi)有計(jì)算機(jī)的情況,我們能夠給出證明,在理論上驗(yàn)證所得十八元一次不定方程存在非負(fù)整數(shù)解,對(duì)于較小的X值可以實(shí)現(xiàn)人工求解。
七、模型推廣
現(xiàn)實(shí)情況中,蛋白質(zhì)的分子量均遠(yuǎn)大于1000。我們優(yōu)化后的模型能夠很好的推廣至求解大分子量蛋白質(zhì)的氨基酸組成問(wèn)題,能夠保證準(zhǔn)確性的基礎(chǔ)上高效的解決問(wèn)題。此外,對(duì)于化學(xué)、生物等領(lǐng)域類(lèi)似脫水縮合而成的高分子化合物的成分分析等問(wèn)題,均可以將我們的模型進(jìn)行一定的修改后使用。
八、結(jié)論
本文通過(guò)初步建立窮舉模型,并根據(jù)題目所給條件一步步增加約束,對(duì)模型進(jìn)行優(yōu)化,給出了能夠求解問(wèn)題的最優(yōu)化模型。該模型操作簡(jiǎn)便,只需輸入實(shí)驗(yàn)所測(cè)得數(shù)據(jù)即可得到所有符合條件的組合結(jié)果,符合實(shí)驗(yàn)室使用要求,并且能夠大大縮短計(jì)算機(jī)運(yùn)行時(shí)間,并且能夠剔除與實(shí)際情況相差很大的組合方式,滿足了建模要求的準(zhǔn)確性、高效性。
參考文獻(xiàn)
[1]百度百科,詞條:蛋白質(zhì)
[2]方慧生,相秉仁與安登魁,質(zhì)譜在蛋白質(zhì)及多肽氨基酸序列分析中的應(yīng)用. 藥學(xué)進(jìn)展,1993(04):第196-201頁(yè)