高 峰
(天津大學(xué)理學(xué)院物理系 天津 3000 72 )
“生物是物,生物有理”.物理學(xué)與生物學(xué)的相互促進由來已久,生物學(xué)曾為物理學(xué)啟示過能量守恒定律,而物理學(xué)也為生物學(xué)發(fā)展提供了大量的新思想和新工具[1].例如,奧地利物理學(xué)家、量子力學(xué)奠基人之一薛定諤 (Erwin Schr dinger)在《生命是什么——活細胞的物理學(xué)觀》一書中從能量、遺傳和信息的角度來探討生命奧秘,對生命的分子基礎(chǔ)、生命的熱力學(xué)基礎(chǔ)和生命的物理規(guī)律進行了思考,并提出了負(fù)熵、非周期性晶體等思想,為生物學(xué)的革命性發(fā)展奠定了基礎(chǔ)[2].熵是大學(xué)物理的重要教學(xué)內(nèi)容,筆者在教學(xué)過程中結(jié)合自己的科研經(jīng)歷,將熵概念在生物學(xué)中的應(yīng)用進行了簡單介紹.
經(jīng)典熱力學(xué)中關(guān)于熵的概念,最早由德國物理學(xué)家克勞修斯于1865 年提出,用來衡量熱力學(xué)過程的不可逆程度.克勞修斯通過熵的增量進行了定義,即熵的增量等于過程中吸收的熱量與溫度之比.因為熵和能在物理上都具有重要意義,而且關(guān)系密切,所以,克勞修斯在造詞時加了個前綴en,以便與能量energy這個詞相對應(yīng).而漢譯字是1923 年浙江大學(xué)的胡剛復(fù)教授在為來華講學(xué)的德國科學(xué)家普朗克(并非因提出能量子概念而獲得諾貝爾獎的普朗克)擔(dān)任翻譯時創(chuàng)造.他考慮到熵的定義為熱溫比,在數(shù)學(xué)上具有“商”的性質(zhì),而熱量、溫度又都與“火”有關(guān),便創(chuàng)造了“熵”字.1877 年,玻爾茲曼提出了宏觀量熵S與無序度Ω(系統(tǒng)某一宏觀狀態(tài)所對應(yīng)的微觀狀態(tài)的數(shù)目即熱力學(xué)概率)之間關(guān)系的玻爾茲曼熵公式,S∝l nΩ,后來普朗克把它寫成了等式S=kl nΩ,式中k是玻爾茲曼常數(shù).玻爾茲曼的統(tǒng)計理論使我們對熵的微觀本質(zhì)有了更為深刻的認(rèn)識,即熵是系統(tǒng)內(nèi)分子熱運動無序性或混亂程度的一種量度.在玻爾茲曼熵公式的基礎(chǔ)上,1943 年薛定諤引入了“負(fù)熵”的概念,并提出“生命賴負(fù)熵為生”的觀點.他認(rèn)為,“負(fù)熵”就是取負(fù)號的熵,它本身是有序的一個量度.“負(fù)熵”概念的提出雖然引起過非議,但對填平物理學(xué)與生物學(xué)之間的鴻溝有著積極意義[3].
如今,熵不僅僅是一個重要的物理概念,在控制論、概率論、生命科學(xué)、天體物理等諸多領(lǐng)域都有重要應(yīng)用.熵在不同學(xué)科中引申出更為具體的定義,并逐漸成為所在領(lǐng)域重要的參量.其中,信息熵的引入不僅為信息論和數(shù)字通信奠定了基礎(chǔ),而且為熵概念的進一步泛化奠定了基礎(chǔ).
1948 年,信息論的創(chuàng)始人香農(nóng) (Claude ElwoodShannon)發(fā)表了 《通信的數(shù)學(xué)原理》(AMathe-matical Theory of Communication)一文,提出了信息熵的概念,目前該文在學(xué)術(shù)谷歌的引用已超過6500 0次,成為香農(nóng)的經(jīng)典之作.假定有一事件可能有x1,x2,…,xN種結(jié)果,每一種結(jié)果出現(xiàn)的概率為P(xi),或簡寫為Pi,信息熵定義為
當(dāng)對數(shù)以2為底時,單位是比特(bit),bit是二進制數(shù)字 (binary digit)的縮寫.
人類與其他生物基因組序列是大自然的偉大作品,它是用一種4字母組成的語言寫成的“天書”,大自然的奧秘就隱藏在這些厚厚的“天書”之中,而生物信息學(xué)正是解讀“天書”的鑰匙[4].對于由4字母組成的D NA序列,信息熵H可以表示為
這里a,c,g和t分別表示在D NA序列中堿基A,C,G和T的出現(xiàn)頻率.既然熵可以作為系統(tǒng)無序性大小的量度,當(dāng)然也可以用來量化D NA序列的組成差異.考察一個由N個堿基組成的基因組序列.設(shè)n為整數(shù),且2≤n≤N-1.對于給定的位置n,基因組序列被分為左右兩個子序列.計算兩個子序列的熵,考慮長度因素,若滿足該點分成的兩個子序列負(fù)熵之和取得最大值,那么,該點即為該序列中首先找到的組成分段點,將同樣的過程應(yīng)用于產(chǎn)生的左右子序列,這就是D NA序列的熵分段算法.研究表明,在D NA序列中的確存在著堿基組成的突變點,且蘊含著明確的生物學(xué)意義.例如,在細菌和古菌基因組中,鏈堿基組成的突變點往往對應(yīng)于復(fù)制起始或終止位點,而G C含量的突變點可能對應(yīng)于水平轉(zhuǎn)移基因組島的整合位點等,因此,分段算法在生物學(xué)中有著廣泛的應(yīng)用[4].我們證明由Z曲線導(dǎo)出的基因組序參數(shù)S=a2+c2+g2+t2也可作為量化D NA序列組成差異的度量[5].信息熵H和基因組序參數(shù)S關(guān)系復(fù)雜[6],但研究發(fā)現(xiàn)S和H 的相關(guān)系數(shù)幾乎為-1,這表明兩者成高度負(fù)相關(guān),暗示S起到了某種“負(fù)熵”的作用[7].在基因組序參數(shù)S的基礎(chǔ)上,我們實驗室研發(fā)出計算基因組分段點的算法,可以有效地、高精度地計算基因組的分段點[8].
信息熵H和基因組序參數(shù)S高度負(fù)相關(guān),可能是因為信息熵H和基因組序參數(shù)S都是α階Tsallis熵的特殊形式.Tsallis熵的定義如下[9]
如果α趨近于1,則T
sallis熵就退化為香農(nóng)熵.如果α=2,公式(3)變成
H2(X)又被稱作Gini-Simpson指數(shù),它和信息熵、Tsallis熵等還可以用來衡量生物物種多樣性(diversity).對于由4字母組成的D NA序列,公式(5)還可以有如下形式
可以看出,S與H2(X)對于四元字符序列存在線性關(guān)系,同時S具有明確的幾何意義[7].
基于谷歌搜索,可以得到更多熵在生物學(xué),特別是生物信息學(xué)中的應(yīng)用實例,如基于多元熵距離法的微生物基因預(yù)測方法,基于熵定量篩選差異甲基化區(qū)域軟件等.
物理學(xué)和生物學(xué)結(jié)合是自然科學(xué)發(fā)展中的重要趨勢,物理學(xué)思想在生物學(xué)中的應(yīng)用能更好地促進生物學(xué)學(xué)科的發(fā)展.希望能通過熵概念在生物學(xué),特別是生物信息學(xué)等相關(guān)交叉學(xué)科中應(yīng)用的介紹,激發(fā)學(xué)生的學(xué)習(xí)興趣和求知欲,提高大學(xué)生的創(chuàng)新精神和實踐能力.
1 郝柏林.物理學(xué)和生物學(xué) (上).物理,2003 ,32 (04 ):213 ~218
2 Erwin Schr dinger.What Is Life?The Physical Aspectof the Living Cell.London:Cambridge UniversityPress,1944
3 趙佩華.熵理論的幾個基本問題研究述評.系統(tǒng)辯證學(xué)學(xué)報,2000 ,8(1):85 ~89
4 張春霆.人與其他生物基因組若干重要問題的生物信息學(xué)研究.自然科學(xué)進展,2004 ,14 (12 ):1367 ~1374
5 Zhang Chun-Ting,Gao Feng,Zhang Ren.Segmentationalgorithm for DNA sequences.Phys Rev E,2005,72(4):041917
6 Zhang Yi.Relations between Shannon entropy andgenome order index in segmenting DNA sequences.PhysRev E,2009,79(4):041918
7 Zhang Chun-Ting, Zhang Ren. A nucleotidecomposition constraint of genome sequences.ComputBiol Chem,2004,28(2):149~153
8 Gao Feng,Zhang Chun-Ting.GC-Profile:a web-based toolfor visualizing and analyzing the variation of GC content in genomic sequences.Nucl Acids Res,2006,34 (W1):W686~W691
9 Tsallis Constantino.Possible generalization ofBoltzmann-Gibbs statistics.J Stat Phys,1988,52:479~487