廖先莉, 黃進初, 賴萬昌, 辜潤秋, 王廣西, 唐 琳, 翟 娟
1. 成都理工大學核技術(shù)與自動化工程學院, 四川 成都 610059 2. 成都大學信息科學與工程學院, 四川 成都 610106
對于譜峰重疊問題, 一般用數(shù)學解析法進行重疊譜分解, 譜峰重疊數(shù)學分解方法的研究, 對熒光譜進一步的定量、 定性分析都有十分重要的意義, 現(xiàn)階段已有不少相關(guān)的研究報告[1-3]。 其中楊熙等提出了GMM-SDR模型和粒子群算法相結(jié)合的重疊譜的解譜方法[1]; 胡耀垓等運用曲線擬合完成了光譜重疊峰解析方法[2]; 徐喜榮等提出了一種基于小波變換和連續(xù)Hopfield神經(jīng)網(wǎng)絡的譜圖重疊峰解析策略[3]; 目前還沒有一種算法被公認為沒有局限性的數(shù)學解譜方法, 比如曲線擬合度不夠高, 易陷入局部收斂, 使用限制條件不易滿足。
本文在高斯混合統(tǒng)計模型的基礎上, 提出兩種情況下的參數(shù)模型, 利用差分進化算法全局搜索優(yōu)勢, 得到了重疊譜的最優(yōu)分解模型。 兩種模型下的解譜結(jié)果誤差范圍內(nèi)都是有效的, 但是解譜精度卻不相同, 為類似數(shù)學解譜方法提供參考, 同時該方法的搜索速度快, 種群規(guī)模對尋優(yōu)結(jié)果的影響比較小, 結(jié)合了光譜的隨機物理特性, 保證的原譜數(shù)據(jù)的“零損失”。
一種融合了參數(shù)估計法和非參數(shù)估計法優(yōu)點的修正模型, 模型為
(1)
其中ai為各分支的權(quán)重, 且滿足
(2)
式(1)中,M為分支數(shù),ui和σi表示第i分支的均值和標準差, 由各個分支的權(quán)重、 均值、 標準差構(gòu)成了差分進化算法尋優(yōu)體參數(shù), 所得的最優(yōu)解, 即為重疊峰分解后各個小峰的參數(shù)。
如果不能提前確定GMM模型中參數(shù)間的關(guān)系, 認為其是相互獨立的, 建立模型為GMM參數(shù)獨立模型, 模型參數(shù)為θ=[a1,a2, …,aM;u1,u2, …,uM;σ1,σ2, …,σM]。
如果能夠知道重疊譜各個小峰參數(shù)間的關(guān)系, 建立模型為GMM參數(shù)關(guān)聯(lián)模型, 可以通過這種關(guān)系減少差分進化算法尋優(yōu)個體的參數(shù)個數(shù), 比如均值和標準差間存在線性關(guān)系σi=σ1ui/u1, 模型參數(shù)為θ=[a1,a2, …,aM;u1,u2, …,uM;σ1], 下文中均以均值和標準差間存在的線性關(guān)系建立GMM參數(shù)關(guān)聯(lián)模型。
差分進化算法是模擬自然界物種進化原理的一種尋優(yōu)算法, 算法通過對父代個體進行變異、 交叉操作, 生成新一代個體, 選擇子代和父代個體中滿足目標條件且適應度值最優(yōu)的個體作為本次尋優(yōu)的結(jié)果, 經(jīng)過多級迭代, 使搜索結(jié)果逐漸趨近全局最優(yōu)解[4]。 具體方法如下:
(1) 初始化種群
GMM參數(shù)獨立模型個體的維數(shù)為3M, 個體中元素ai,ui和σi在有限區(qū)間上隨機生成, 種群中粒子規(guī)模為NP。
GMM參數(shù)關(guān)聯(lián)模型個體維數(shù)2M+1, 個體中元素ai,ui和σi在有限區(qū)間上隨機生成, 種群中粒子規(guī)模為NP。 整個尋優(yōu)過程需滿足條件σi=σ1ui/u1, 其中i=2, 3, …,M。
為了滿足GMM模型中式(2)的條件, 首先要對模型參數(shù)ai做歸一化處理, 使得參數(shù)ai的取值范圍在0到1之間, 方便后續(xù)的運算。 在對尋優(yōu)得到的參數(shù)進行還原, 方便得到的模型曲線和實際譜線對比。
(2) 適應度值的評估
種群中的每一個個體對應一個適應度值, 適應度值由式(3)算得, 每一代種群中適應度值最小的個體為這一代種群中的最優(yōu)個體, 多代尋優(yōu)后適應度值不變時, 搜索結(jié)束, 得到的參數(shù)θ為全局最優(yōu)個體, 即為我們所求的分解模型參數(shù)。
(3)
由式(3)可知,g(i)為隨機序列(道址)對應的計數(shù)值, 由隨機序列x(i)帶入GMM模型得到的值取對數(shù)后值為負數(shù),P(x(j)/θ)越大f(θ)越大,Y(θ)的值越小, 所得個體越優(yōu), 該方法充分使用了測量所得的所有隨機數(shù)據(jù), 保證了原譜數(shù)據(jù)的“零損失”。
(3) 變異策略
采用式(4)的變異策略來更新種群個體, 其中,V(i)表示變異后的第i個個體,X(i)為變異前的第i個個體,X(r(1))為變異前的第r(1)個個體,X(r(2))為變異前的第r(2)個個體,r(1)和r(2)是[0, NP]范圍內(nèi)產(chǎn)生了不等于i的整數(shù),F(xiàn)為變異縮放因子。
V(i)=X(i)+F(bestX-X(i))+F(X(r(1))-X(r(2)))
(4)
(4) 交叉策略
如式(5)所示, 個體中的X(i,j)經(jīng)過變異策略后變?yōu)閭€體V(i,j), 若[0, 1]之間生成的隨機數(shù)正好等于交叉概率CR, 或者1到Dim之間隨機生成的整數(shù)jrand等于j時, 新生成個體中的U(i,j)等于V(i,j), 否則U(i,j)為變異前的X(i,j), 該交叉策略確保了最新產(chǎn)生的個體中至少有一個U(i,j)=V(i,j)。
(5)
(5) 選擇策略
如式(6)所示, 當經(jīng)過交叉、 變異后新產(chǎn)生的種群個體所對應的適應度函數(shù)值小于原來個體所對應的適應度函數(shù)值時, 下一代種群這個位置上的個體變?yōu)樽钚庐a(chǎn)生的種群個體, 否則, 下一代種群中這個位置上的個體保持不變。
(6)
(6) 終止條件
迭代次數(shù)滿, 或者最優(yōu)適應度值Y(θ)連續(xù)多次不變時 , 算法終止, 否則返回(3)繼續(xù)搜索。
一直到滿足終止條件得到最優(yōu)個體, 得到各個分支高斯函數(shù)的權(quán)值、 均值和均方差, 完成重疊峰分解 。
采用離散直接抽樣方法產(chǎn)生隨機數(shù)值x(1) ,x(2) , …,x(N), 由這些隨機數(shù)的統(tǒng)計分布構(gòu)成X熒光重疊峰, 重疊峰由幾個峰位十分接近的高斯峰重疊而成[5-7], 本設計以重疊譜解譜為重點, 本底計數(shù)已扣除, 下面將依次介紹兩類重疊峰的分解過程。
圖1為三峰重疊譜, 峰位為210, 200和190, 面積分別為25 000, 15 000和10 000, 即歸一化后權(quán)重分別為0.5, 0.3和0.2, 橫坐標為道址, 縱坐標為計數(shù)。
采用GMM參數(shù)獨立的模型, 設種群的個體為X=[a1,a2,a3;u1,u2,u3;σ1,σ2,σ3], 各參數(shù)的取值下限[0.01, 0.01, 0.01; 160, 160, 160; 4, 4, 4], 取值上限[1, 1, 1; 250, 250, 250; 8, 8, 8], 選擇取值范圍內(nèi)的隨機數(shù)初始化種群, 種群規(guī)模50, 最大迭代次數(shù)1000, 縮放因子CR為0.1和交叉概率F為0.1。 采用GMM參數(shù)關(guān)聯(lián)的模型, 則提前知曉均值和標準差間的線性關(guān)系σi=σ1ui/u1, 種群個體為X=[a1,a2,a3;u1,u2,u3;σ1], 取值范圍從[0.01, 0.01, 0.01; 160, 160, 160; 4]到[1, 1, 1; 250, 250, 250; 8], 選擇取值范圍內(nèi)的隨機數(shù)初始化種群, 種群規(guī)模50, 最大迭代次數(shù)1 000, 縮放因子CR為0.1和交叉概率F為0.4。
圖1 三峰重疊譜
如表1可知, 參數(shù)獨立模型和參數(shù)關(guān)聯(lián)模型分別得到的權(quán)重最大誤差為8.15%和2%, 峰位最大誤差為0.30%和0.06%, 標準差的最大誤差為7.5%和1.35%。
表1 權(quán)重、 峰位和標準差的比較
圖2 原始譜、 GMM參數(shù)獨立曲線、 分解峰
圖2和圖3分別為兩種模型下原始重疊譜和分解譜的擬合情況。 已經(jīng)能夠明顯觀察到運用GMM參數(shù)關(guān)聯(lián)模型對重疊譜進行分解的精度比運用GMM參數(shù)獨立模型對重疊譜進行分解的精度高。
圖3 原始譜、 參數(shù)關(guān)聯(lián)GMM譜、 分解峰
如圖4所示, 為四峰重疊譜, 各子峰的峰位分別為200, 210, 225和240, 峰面積分別為20 000, 30 000, 30 000和20 000, 即歸一化后權(quán)重分別為0.2, 0.3, 0.3, 0.2, 重疊嚴重。
圖4 四峰重疊譜
設置種群個體50, 如果選擇GMM獨立參數(shù)的模型, 則每個種群個體有12個參數(shù), 它們的取值范圍從[0.01, 0.01, 0.01, 0.01; 175, 175, 175, 175; 4, 4, 4, 4]到[1, 1, 1, 1; 265, 265, 265, 265; 8, 8, 8, 8], 如果能夠提前知道重疊譜參數(shù)間的關(guān)系, 得到GMM的相關(guān)聯(lián)參數(shù)模型, 比如均值和標準差間的線性關(guān)系δi=δiui/u1, 則每個個體參數(shù)10個, 它們的取值范圍從[0.01, 0.01, 0.01, 0.01; 175, 175, 175, 175; 4]到[1, 1, 1, 1; 265, 265, 265, 265; 8], 兩種模型尋優(yōu)的迭代次數(shù)為1 000, 交叉概率F=0.8, 縮放因子CR=0.8。
如表2可知, 參數(shù)獨立模型和參數(shù)關(guān)聯(lián)模型分別得到的權(quán)重最大誤差為8.3%和4.3%, 峰位最大誤差為0.12%和0.13%, 標準差的最大誤差為5.04%和0.45%。
表2 權(quán)重、 峰位、 均方差的比較
如圖5和圖6所示, 分別為通過獨立GMM模型和相關(guān)聯(lián)GMM模型, 對原始重疊峰進行分解后的各峰擬合情況。 已經(jīng)能夠明顯觀察到運用GMM參數(shù)關(guān)聯(lián)模型對重疊譜進行分解的精度比運用GMM參數(shù)獨立模型對重疊譜進行分解的精度高。
圖5 原始譜、 GMM參數(shù)獨立曲線、 分解峰
圖6 原始譜、 參數(shù)關(guān)聯(lián)GMM譜、 分解譜
每次尋優(yōu)分解的效率和搜索結(jié)果的精度不盡相同, 略有差異, 相對而言, GMM參數(shù)關(guān)聯(lián)模型運用差分進化算法搜索結(jié)果更加穩(wěn)定, 精度也相對較高。
取深井中的巖屑作為基樣, 加入鏑粉, 磨勻配置鏑元素含量分別為20, 5和2 μg·g-1的三種樣品, 由于巖屑中本身含有Mn和Fe元素, 當加入Dy元素后, 三種元素的部分特征X射線會發(fā)生譜重疊現(xiàn)象, 如圖7所示, 為三種樣品用X熒光儀測得的全譜圖。
圖7 樣品能譜圖
Mn元素的Kβ系的特征X射線能量為6.49 keV, Fe元素Kα系的特征X射線能量為6.403 keV, Dy元素Lα系的特征X射線能量為6.495 keV, 由于Dy元素含量比較低, 為了能夠更好的分析譜重疊情況, 對圖進行局部放大如圖8所示, 為三種元素的重疊峰。
圖8 實測三峰重疊譜
將X熒光儀實測譜線重疊峰相關(guān)數(shù)據(jù)取出扣除本底后導入matlab中, 根據(jù)建立的獨立GMM模型, 對重疊譜進行分解, Dy元素含量為20 μg·g-1的樣品, 分解后各峰的情況如圖9所示。
獨立GMM模型對三種樣品的重疊譜進行分解, 得到Dy元素的含量分別為19.10, 5.27和2.27 μg·g-1, 相對誤差分別為-4.5%, 5.4%和13.4%。 可見用該種方法進行重疊峰的分解時, 隨著元素含量降低, 分解得到的結(jié)果相對誤差增大。
在已知所求元素種類的情況下, 可以提前已知峰位間的關(guān)系, 建立相關(guān)聯(lián)GMM模型, Dy元素和Mn元素的特征X射線能量差不多, Dy元素Lα系的特征X射線能量為6.495 keV, 可得式(1)中的u1=u2和u3=0.986 6u1, 模型中參數(shù)個數(shù)由9個變成了7個, 根據(jù)建立的相關(guān)聯(lián)GMM模型, 對重疊譜進行分解, Dy元素含量為20 μg·g-1的樣品, 分解后各峰的情況如圖10所示。
圖9 原始譜、 GMM參數(shù)獨立曲線、 分解峰
相關(guān)聯(lián)GMM模型對三種樣品的重疊譜進行分解, 計算得到Dy元素的含量分別為20.18, 4.85和2.15 μg·g-1, 相對誤差分別為0.9%, -3%, 7.5%, 可見該方法解譜得到的結(jié)果相對誤差比獨立GMM模型解譜得到結(jié)果的相對誤差小一些, 元素含量越低, 脈沖計數(shù)越少, 分解得到的結(jié)果相對誤差越大。
由實驗可知, 兩種方法進行重疊譜分解時, 能夠知道各峰間的關(guān)系, 建立相關(guān)聯(lián)GMM模型, 減少參數(shù)個數(shù), 分解后的精度更高, 但是隨著元素含量的降低, 分解測量的精度降低了。
圖10 原始譜、 參數(shù)關(guān)聯(lián)GMM譜、 分解譜
運用文中方法對重疊峰的分解結(jié)果表明, 兩種模型下, 均能實現(xiàn)重疊譜的分解, 從模擬仿真可知, 針對相對復雜的重疊峰兩種模型得到的分解結(jié)果精度都較高, 但是GMM參數(shù)關(guān)聯(lián)模型的分解精度比GMM參數(shù)獨立模型的分解精度明顯高一些。 從三峰重疊的分解實例來看, 由于實際測量過程中對測量結(jié)果的影響因素相對復雜一些, 分解計算得到的結(jié)果較仿真計算結(jié)果相對誤差大一些, 兩種方式的結(jié)果表明, 如果能夠提前得到各個相互重疊小峰之間的關(guān)系, 建立相關(guān)聯(lián)GMM模型, 減少尋優(yōu)參數(shù)個數(shù), 對提高復雜峰的分解精度是非常重要的。