黃乾坤,吳婭輝
(航空工業(yè)北京長城計量測試技術研究所,北京 100095)
1865年德國物理學家Clausius首先提出了“熵”的概念,1948年Shannon提出了“信息熵”的概念并將其作為熱力學的度量工具[1],之后學者們將“熵”的概念進一步推廣到其他領域,形成了所謂的“廣義熵”。1957年,統(tǒng)計物理學家Jaynes利用非熱力學場的熵增原理提出了最大熵的概念[2-3],并給出了采用最大熵原理定量解決問題的一般方法,同時也利用最大熵原理證明了統(tǒng)計力學的一些分布函數。在1988年巴西物理學家C.Tsallis定義離散的Tsallis熵[4]之前,熵的討論主要集中在廣延統(tǒng)計學中,最大熵原理也是以Shannon熵為基礎的。而由于Tsallis熵的非廣延性,使得熵進一步推廣到了非廣延統(tǒng)計學中,學者們也開始了非廣延統(tǒng)計學中Tsallis熵的研究[5-6]。這些研究使信息理論與統(tǒng)計物理建立起了相互聯(lián)系,也使熵的概念從熱力學中分離了出來。
應用最大熵原理的基本思想是:當只掌握有限信息時,應盡可能少地引入主觀信息,也就是使熵最大化,并在滿足已有信息作為熵約束的條件下,推導出隨機變量集的概率分布。該方法被廣泛應用于金融[8]、圖像處理[9]、氣象[10]等領域中,并展現出了巨大的實用價值和研究意義。近年來,最大熵原理也被引入計量領域,許多學者利用最大熵原理建立測量數據的概率密度分布模型,或進一步與貝葉斯方法結合,證明了最大熵原理在測量不確定度評定上的可用性和有效性[11-14]。
本文對存在和應用范圍較廣的Shannon最大熵原理進行闡述,介紹了最大熵原理改進方法的理論模型、計算公式、使用特點,并給出了最大熵原理約束選擇、評價指標和優(yōu)化算法等方面的總結與見解,為最大熵原理的進一步研究及應用提供指導與借鑒。
在廣延統(tǒng)計學和非廣延統(tǒng)計學中,由于“熵”的定義不同,所推導得到的最大熵原理的內容也會不同;對于同一種“熵”,采用的約束類型不同,得到的最大熵原理的內容也會不同。本節(jié)首先介紹在兩類統(tǒng)計學中各自主流“熵”下的最大熵模型,隨后圍繞Shannon熵介紹分數階矩約束和秩約束下的最大熵原理。之后對求解最大熵優(yōu)化問題的優(yōu)化算法進行了闡述,經研究發(fā)現,優(yōu)化算法的性能會對最大熵原理估計得到的結果產生影響,但由于其不是本文的論述重點,因此只進行必要的說明和整體的概述。
1.1.1 Jaynes最大熵原理
Jaynes最大熵原理是建立在Shannon熵上的。設X為離散型隨機變量,取值為{x1,x2,…,xn},相應的概率為P(X=xi)=pi(i=1,2…,n),則隨機變量X的Shannon熵[6]為
且有
當X為連續(xù)型隨機變量時,設其概率密度函數為f(x),則對應的Shannon熵[6]為
式中:Θ為積分空間,并有∫Θf(x)dx=1。
由上述H(x)的定義可知,熵的大小與概率的分布有關,在沒有其他約束條件時,概率取均勻分布可以使H(x)最大,但這顯然不具備太大的實用意義。為獲得更準確的概率分布,需要從所掌握的信息中提取出pi或f(x)要滿足的其他條件。選擇隨機變量的整數階樣本原點矩作為約束條件,對于連續(xù)型隨機變量,由此構造的優(yōu)化問題[15]為
式中:Mi為第i階樣本原點矩;m為采用的最高的樣本原點矩的階數;s.t.為使?jié)M足符號。對于式(4)的有約束優(yōu)化問題,可采用拉格朗日乘子法將其轉化為無約束優(yōu)化問題,并可得到在熵值取得最大時,f(x)的解析式[15]為
式中:λi為采用拉格朗日乘子引入的待求解參數。將式(4)中的約束條件代入式(5)中,可進一步建立參數{λ1,λ2,…λm}解的方程組[15],即
記殘差為Ri,可將上述方程組改寫為非線性優(yōu)化問題[15],即
采用最大熵原理求解概率密度函數的問題轉化為了參數尋優(yōu)問題,當殘差平方和最小時,得到的λi為最優(yōu)解,此時對應的熵也是在可求得解的空間中最大的。
這種建立在Shannon熵上,以整數階樣本原點矩為約束的Jaynes最大熵原理是最基本,且應用最為廣泛的最大熵原理,一般稱其為傳統(tǒng)(經典)最大熵原理。
1.1.2 Tsallis最大熵原理
非廣延統(tǒng)計學中,Tsallis熵的應用最為廣泛,在非廣延統(tǒng)計學中扮演著十分重要的角色。離散型的Tsallis熵[3]為
式中:q為非廣延參數,用于衡量系統(tǒng)非廣延程度的程度。當q→1時,Tsallis熵轉化為Shannon熵[16],即
Tsallis最大熵原理是在Jaynes最大熵原理的基礎上發(fā)展而來的。為方便論述,采取如下記法[16]
式中:y與x為變量;expq(lnq x)=lnr(expq x)=x。
于是離散型的Tsallis熵可以改寫為如下形式[16]
對于連續(xù)的隨機變量,Tsallis熵為[17]
以連續(xù)的隨機變量為例,在分布未知時,選擇隨機變量的樣本原點矩作為約束條件,構造的Tsallis熵最大熵優(yōu)化問題為[17]
同樣采用拉格朗日乘子法將其轉化為無約束優(yōu)化問題,可得到在熵值最大時,概率密度函數的解析式[17]為
吳賢東[17]給出了當隨機變量概率密度分布已知時,多約束條件下Tsallis最大熵的推導過程,并對常見的分布(正態(tài)分布、對數正態(tài)分等)進行了Tsallis最大熵分布的求解。
1.2.1 基于分數階矩約束的最大熵方法
Tagliani等在研究Hausdorff矩問題時,采用少數分數階矩作為最大熵的約束條件來求解有限的Hausdorff矩問題,結果顯示利用較少分數階矩就能保證結果的精度,還可以修正因為采用大量積分矩而產生的畸變[18]。
以分數階矩為約束條件,概率密度函數f(x)具有如下形式[18]
與經典最大熵原理類似,選擇分數階矩為約束條件的最大熵優(yōu)化問題[18]為
式中:ai為統(tǒng)計矩階數,是任意分數(或實數);E[xai]為x的分數階統(tǒng)計矩。對該優(yōu)化問題進行求解便可得到式(15)的具體表達式。
Zhang X等[19]將上述方法引入到結構可靠性分析中,結合降維處理實現了功能函數的分數階矩估計,并進一步完善了分數階矩約束下的最大熵原理求解概率密度函數的方法。
1.2.2 基于秩約束的最大熵方法
傳統(tǒng)最大熵原理,如1.1.1節(jié)所述,通常采用隨機變量的整數階樣本原點矩為約束條件來構造優(yōu)化問題。雖然樣本原點矩是總體矩的替代,但其仍包含了樣本的統(tǒng)計信息。二階矩反映了樣本的均值和方差信息;三階矩反映了樣本的偏態(tài)信息;四階矩反映了樣本的峰態(tài)信息[20]。通常在樣本量較大時,選擇二到五階矩就能較好地估計樣本的概率密度分布。但在數據樣本量很小時,樣本矩所能提供的信息不夠豐富和全面,所求得的概率密度分布可能與實際存在較大偏差。呂文[20]介紹了一種在小樣本情況下采用秩來構造約束條件的最大熵方法,其中秩的分布[20]為
式中:ri為樣本容量為n的順序樣本的i階秩,其定義為
式中:oi為第i階的順序統(tǒng)計量;oi和ri均為隨機變量。
由于f(ri)只與i和n有關,且隨著n的增加,其形狀會變得瘦而高。為便于處理,利用f(r i)的這個特點對其兩端進行等面積的截斷處理,使其剩下的面積為q,即需對F(oi)(F為對f的積分)增加上下界[20]
其中,bl和bh由以下公式求出[20]
因此,當給定q時,bl和bh也就相應確定了。根據以上邊界條件,可得到基于秩約束的最大熵優(yōu)化問題[20]
式中:di為順序樣本第i階變量的x值;n為樣本容量。對于上述優(yōu)化問題,無法通過數學推導得到f(x)的理論分布,但可以采取合理近似法,將f(x)擬合為與傳統(tǒng)最大熵一樣的指數函數的形式
聯(lián)合式(22)和式(23),再經優(yōu)化求解便可得到f(x)。
從1.1和1.2節(jié)中可以看出,無論基于何種熵、何種約束,優(yōu)化問題的求解是最大熵原理應用的關鍵。余秀美等[21]采用基于非線性最小二乘法信賴域模型進行最大熵優(yōu)化問題的求解;劉鈺等[22]在研究基于密度核估計的最大熵方法中,采用序列二次規(guī)劃方法進行優(yōu)化問題的求解;姜瑞等[23]在研究貝葉斯方法在測量不確定度評定上的應用時,利用爬山算法實現了最大熵優(yōu)化問題的求解;彭穎等[24]通過仿真數據和高層建筑地震數據驗證了遺傳算法求解最大熵原理下概率密度函數的有效性。
最大熵優(yōu)化問題是一個典型非線性方程組(Nonlinear Equation Systems,NESs),因 此 針 對NESs求解的算法基本都能用于對它的求解。由于NESs廣泛存在于網絡通信、機械制造、神經網絡、圖形處理等眾多領域[25-26],其求解算法發(fā)展已較為成熟,并可大致分為兩類:基于梯度信息進行迭代的傳統(tǒng)優(yōu)化方法和基于群體優(yōu)化的智能優(yōu)化算法[27]。
傳統(tǒng)優(yōu)化算法包括牛頓法、共軛梯度法、最小二乘信賴域法、擬牛頓法、最速下降法等[28-29]。傳統(tǒng)優(yōu)化算法有著完備的數學理論依據,并且由于起源較早,研究和應用都較為成熟。但它們的不足也很明顯:比較依賴初始點的選?。灰蛩惴ǖ枰荻刃畔?,只能求解可微函數問題;對于多極值問題,容易陷入局部最優(yōu)解問題。這些不足限制了傳統(tǒng)優(yōu)化算法在復雜問題求解領域的應用。
智能優(yōu)化算法包括遺傳算法[30-31]、模擬退火算法[32]、粒子群算法[33]等。智能優(yōu)化算法通常從多點出發(fā)進行解的搜索,具有隱形的并行性。相比于傳統(tǒng)優(yōu)化算法,它們對初始點的選取往往不敏感;迭代過程也不使用梯度信息,對不可微NESs依舊適用;求解范圍更廣,不易陷入局部最優(yōu)問題;并有著高效運算性和良好的魯棒性。因此近年來智能優(yōu)化算法受到了越來越多的關注,逐漸成為學者們的研究重點。然而這類算法也存在一些需要進一步解決的問題,包括:數學理論不夠完善;算法收斂性的證明仍需繼續(xù)研究;算法收斂速度還不夠理想;NESs轉化為約束問題的方法對求解的影響;多種算法混合應用以提高求解效率的研究等[27]。羅宇婷等[34]對智能優(yōu)化算法進行了較為詳盡的歸納和細分,并通過測試函數對幾種應用廣泛的主流算法進行了橫向性能比較。
最大熵方法的計算過程涉及大量積分計算,而在使用計算機計算這些往往需要通過數值積分方法計算的積分時,積分區(qū)間的上下限無法像理論上那樣取到無窮大。在實際計算時,如失效概率的計算,通常會選取一個以均值為中心,以十倍方差為半寬的區(qū)間[μ-10σ,μ+10σ]來進行近似計算,而這會直接引入截斷誤差。在概率密度函數形狀集中于中心線附近時,截斷處理所截掉的面積占比很小,即引入的誤差很小,對結果的影響可以忽略不計。但當概率密度函數形狀平而寬時,截斷處理引起的誤差往往是不能忽略的,甚至將導致計算結果不收斂。為了解決這個問題,李昊燃等[35]提出了一種基于轉換函數的最大熵方法。
首先為了將概率密度函數的定義域由(-∞,+∞)轉化為有限區(qū)間,引入具有單調性的三角函數來對定義域進行非線性變換。引入的三角變換如下[35]
式中:x∈(-∞,+∞),y∈(-1,1)。其逆變換為
式中:k為變換系數。調整k的值可以改變x和y的變換關系,如圖1所示??梢钥闯?,隨著k值的增大,變換曲線逐漸變緩,y的取值也相應變小。故可根據所求問題來調節(jié)k值。
圖1 不同k值下x與y的變換關系示意圖[35]Fig.1 Schematic diagramof transformation relationship between x and y under different k values[35]
在此變換下,概率密度函數變換的關系為[35]
將上述三角變換代入概率密度函數中,完成變量的替換,此時Θ∈(-a,a),a為正實數,經函數變換后,最大熵原理優(yōu)化問題表述如下
這種改進方法既避免了截斷誤差的引入,又能在一定程度上提高計算精度和計算結果的穩(wěn)定性,通常不引入過高階矩信息即可得到較精確的結果。
傳統(tǒng)最大熵原理在m取值較大時,除了求解困難會增加外,所估計得到f(x)也會更不易滿足概率密度函數的基本條件
如圖2所示,在3階矩約束下得到概率密度函數曲線,無論數據的偏度如何,都會出現某一側曲線陡增的情況,而在這些地方f(x)顯然是不可積的,但截斷處理又會額外增加截斷誤差。
圖2 3階矩最大熵密度函數不可積示意圖[22]Fig.2 Schematic diagramof non-integrability of maximum entropy density function of third-order moment[22]
如果能使求f(x)滿足式(28)的條件,可以在很大程度上減少截斷誤差。為此可以引入密度函數核估計[22]。與轉換函數法變換積分區(qū)間不同,密度核函數的引入可以在原理上保證所求的概率密度函數滿足其基本性質。該方法對規(guī)則或不規(guī)則、單峰或多峰分布都能夠有較好的估計,且在樣本量足夠豐富時,能以任意精度收斂到任何未知復雜分布[36]。具體原理如下:
設K(u)為R上的給定概率密度函數,其滿足概率密度函數的基本條件[37]
式中:pn(x)為總體密度函數p(x)的一個核估計;n為核密度的數量;hi>0為窗寬;αi為各個核函數的權重[38-39],并有…,n。Parzen E[36]證明了總體密度函數p(x)是一個滿足式(28)條件的合理函數。
將核估計函數pn(x)代入到經典最大熵原理信息熵的定義中,則有[22]
選擇整數階樣本原點矩作為約束,則最大熵優(yōu)化問題為
以服從對數正態(tài)分布的概率密度函數為例說明實施該原理的一般過程[37],即
式中:x>0;-∞<μ<∞;σ>0。選用正態(tài)窗函數[22]
則總體pn(x)的核估計為[37]
為保證αi滿足其取值要求,同時使待優(yōu)化參數的取值空間為實數空間,進行之下變換[37]
式中:βi∈R。最終總體密度函數fln(x)的核估計變換為[37]
選取適當的n后,可確定未知參數的個數,再通過優(yōu)化算法求解即可確定pn(x)的具體表達式。理論上n值越大,結果估計的越好,但同時也會增加算法的復雜度。
通過引入密度核的方法,來解決傳統(tǒng)最大熵方法求得的概率密度函數不嚴格可積的問題,在避免截斷誤差的同時,也能在一定程度上提高估計結果的精度。
除以上兩種方法,還有一類面對具體分布的改進方法:利用共軛分布法與最大熵原理結合的共軛最大熵。Savchuk V.P和Martz H.F[40]就二項分布情形,討論了共軛分布與最大熵原理相結合確定先驗分布的方法;詹昊可等[41]在Savchuk V.P的方法不適合指數分布的情況下,給出了一種新的解決思路,在多元先驗信息下,討論了共軛最大熵先驗下的貝葉斯估計。
本文根據目前已有的研究情況,對以Shannon熵為基礎的最大熵原理進行了介紹,闡述了經典最大熵原理的基本內容,討論不同約束條件下最大熵優(yōu)化問題的一般形式,分析了針對經典最大熵不足的改進方法,對最大熵原理的進一步研究應用起到了促進作用。最后結合實踐對最大熵原理的研究與應用現狀提出以下見解:
1)在約束的選擇上,目前的應用依舊以整數階樣本原點矩為主。分數階矩約束雖已被證明有效,但應用場景比較單一,需其在更多樣問題上的應用研究,以進一步檢驗或改善其性能。秩約束雖然在理論上能解決樣本矩在樣本量過小時無法提供足夠樣本信息的問題,但提出該方法的學者也認為秩約束尚缺乏實際驗證,因此應多開展相應的實用性研究。此外,在樣本量較少時,利用統(tǒng)計學方法對樣本數據進行擴充后再選取矩約束是否可取得理想的結果也缺乏相關研究。
2)在估計結果f(x)的評價上,目前主要有兩種評價方法:①考察估計的f(x)與理論曲線接近程度;②直接考察f(x)統(tǒng)計量(如均值、方差)與理論值的接近程度。方法①適用于樣本量較大且理論曲線平而寬的對象,并能夠得到均值、方差等信息。對于方法②,由于理論值往往是未知的,因此還需要利用殘差平方和從側面考察f(x)。但對于不同的問題,殘差平方和的大小是不同的,因此需要進行具體研究,以指導使用者通過殘差平方和的值來判斷求得的f(x)是否已達到最優(yōu)。
3)最大熵原理得到的結果與優(yōu)化問題的求解關系甚大。目前傳統(tǒng)優(yōu)化算法雖然能夠求解最大熵優(yōu)化問題,但存在初始值選擇較繁瑣,結果不穩(wěn)定的問題,并且容易出現局部極小值問題。因此需要開展智能算法求解最大熵優(yōu)化問題的研究。智能算法在很大程度上突破了傳統(tǒng)優(yōu)化算法的局限性,但在求解密度核最大熵優(yōu)化問題時,由于其參數較多,且不宜轉化為無約束優(yōu)化問題,智能算法尚未得到實際應用,因此未來需要開展相關研究,以便更有效地求解密度核最大熵優(yōu)化問題。
4)在計量領域,學者們已經展開了最大熵原理在測量不確定度評定中的應用研究。但隨著研究的深入和評定對象復雜度的增加,經典最大熵原理的局限性會對評定結果產生影響,因此需要展開最大熵原理改進方法在測量不確定度評定領域的應用研究,以擴大適用范圍、提升評定結果的可靠性。