馬倩茹,冶繼民
西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西安710126
主成分分析(Principal Component Analysis,PCA)[1]是一種被廣泛使用的統(tǒng)計(jì)方法,但它是基于二階統(tǒng)計(jì)量展開的,只能估計(jì)模型的某一方面。本文主要討論另一種統(tǒng)計(jì)方法,獨(dú)立成分分析(Independent Component Analysis,ICA)[2-3]。ICA基于高階統(tǒng)計(jì)量,可以更加全面地分析和處理相關(guān)實(shí)際問(wèn)題。最初提出ICA 是為了解決雞尾酒會(huì)問(wèn)題,后來(lái)隨著大量學(xué)者對(duì)ICA 的研究,它也被應(yīng)用到很多其他領(lǐng)域,比如:語(yǔ)音信號(hào)、生物醫(yī)學(xué)信號(hào)、圖像信號(hào)等。其中,主要被用于處理盲信號(hào)分離問(wèn)題。ICA是假設(shè)未知源信號(hào)相互獨(dú)立,從源信號(hào)的線性混合(觀測(cè)信號(hào))中分離出未知源信號(hào)的方法,整個(gè)混合過(guò)程只有觀測(cè)信號(hào)是已知的(混合過(guò)程和源信號(hào)均未知)。自從Hyv?rinen 和Oja 提出ICA 這個(gè)概念以來(lái),無(wú)數(shù)的學(xué)者對(duì)該統(tǒng)計(jì)方法展開研究,包括:算法的變形、性質(zhì)、應(yīng)用等。截止目前為止,已經(jīng)出現(xiàn)了很多種ICA 方法,例如:極小化互信息法、信息極大化法(Informax)、快速ICA法(FastICA)等。本文主要研究的是FastICA[4-5]算法,實(shí)驗(yàn)證明,它在收斂速度方面優(yōu)于大多數(shù)ICA算法。
FastICA 算法分為兩種:(1)one-unit(或deflation)FastICA,一次只能分離一個(gè)源信號(hào);(2)對(duì)稱FastICA,可以同時(shí)分離多個(gè)所需的源信號(hào),等價(jià)于幾個(gè)one-unit FastICA并行。針對(duì)這兩個(gè)版本的FastICA算法,很多學(xué)者做出了相應(yīng)的研究。文獻(xiàn)[6]中將源信號(hào)的先驗(yàn)知識(shí)作為參考信號(hào),附加到FastICA算法中,減少估計(jì)所得的源信號(hào)與真實(shí)源信號(hào)之間的誤差,并將其應(yīng)用于處理生物醫(yī)學(xué)信號(hào)問(wèn)題。其實(shí)文獻(xiàn)[6]的改進(jìn)是可行的,因?yàn)閷?duì)現(xiàn)實(shí)生活中的信號(hào)并不都是一無(wú)可知的,所以可以把已知的相關(guān)信息作為參考信號(hào)加入到信號(hào)估計(jì)中。文獻(xiàn)[7-8]將FastICA 算法擴(kuò)展到復(fù)數(shù)領(lǐng)域,用以處理復(fù)值信號(hào)。文獻(xiàn)[9]中的FastICA 算法允許使用不同的非線性提取不同的獨(dú)立成分,減少了因非線性的選取對(duì)估計(jì)效率和魯棒性的影響(此處的非線性并非數(shù)學(xué)意義上的非線性,在第2 章有詳細(xì)的定義)。文獻(xiàn)[10]和文獻(xiàn)[11]使用HuberM-估計(jì)和改進(jìn)的M-估計(jì)作為非線性函數(shù),以提高算法的魯棒性。近年來(lái),除以上的研究以外,對(duì)FastICA算法收斂性、漸進(jìn)性、一致性等統(tǒng)計(jì)及數(shù)學(xué)性質(zhì)的相關(guān)研究更是不少。文獻(xiàn)[12]表明了歸一化引起的額外旋轉(zhuǎn)不會(huì)影響算法的收斂速度,而文獻(xiàn)[13]則是使用主纖維束的概念,證明了算法局部二階收斂到正確的分離。文獻(xiàn)[14]證明算法可以達(dá)到Cramér-Rao 下界。由此可見,F(xiàn)astICA研究相當(dāng)廣泛,本文將研究擴(kuò)展到樣本領(lǐng)域。
本文主要給出FastICA 算法的收斂性與一致性分析。第2章和第3章是基礎(chǔ),主要介紹了ICA算法、全集FastICA 算法以及基于樣本的FastICA 算法的數(shù)學(xué)模型。第4章證明了FastICA算法的相關(guān)收斂性質(zhì)。首先證明了全集FastICA 算法的收斂性質(zhì),主要包括定理1所述的不動(dòng)點(diǎn)定理,以及對(duì)比函數(shù)局部極大值和全集FastICA算法迭代函數(shù)不動(dòng)點(diǎn)的關(guān)系。緊接著通過(guò)構(gòu)造狄拉克函數(shù),并且利用依概率收斂定理和大數(shù)定律,給出了基于樣本的FastICA算法收斂性條件和相關(guān)收斂性質(zhì),證明了基于樣本的fastICA 算法給出分離向量的估計(jì)是無(wú)偏的。在第5 章,證明了FastICA 算法給出的估計(jì)具有一致性。無(wú)偏性、一致性是評(píng)判估計(jì)方法的兩個(gè)重要標(biāo)準(zhǔn),無(wú)偏性保證了FastICA 算法給出的分離向量的估計(jì)無(wú)系統(tǒng)偏差,一致性保證了在獲得較多樣本的條件下,能夠得到更準(zhǔn)確的估計(jì)值。
2012年,學(xué)者Reyhani N使用經(jīng)驗(yàn)過(guò)程的相關(guān)理論和P-Donsker,以及P-Glivenko-Cantelli的性質(zhì)證明FastICA的一致性[15]。本文通過(guò)比較直觀的統(tǒng)計(jì)方式證明FastICA的一致性,并且通過(guò)仿真模擬證實(shí)隨著樣本數(shù)目增加,F(xiàn)astICA估計(jì)所得源信號(hào)更加接近真實(shí)的源信號(hào)。
經(jīng)典的ICA數(shù)學(xué)模型如下:
(1)si(i=1,2,…,m)期望為0,方差為1,即Cov(s)=I。
(2)A 是非奇異的正交方陣,即假設(shè)m=n。
ICA的基本思路是尋找分離矩陣使得y=Wx 盡可能相互獨(dú)立。W 稱為分離矩陣,W 的行向量w 稱為分離向量。因?yàn)锳=(a1,a2,…,an)是正交的,所以行向量w 是分離向量當(dāng)且僅當(dāng)存在i ∈{1,2,…,n}使得w=ai或w=-ai。
文獻(xiàn)[2-3]提出通過(guò)極大化wTx 的負(fù)熵來(lái)求解w,負(fù)熵J(·)∝E(G(·)-G(v))2,其中,G(·):R →R 被稱為非線性,通常假設(shè)為二階連續(xù)可導(dǎo)的非二次偶函數(shù),且v服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)。所以:
其中,Sn-1:={w ∈Rn|‖ ‖w =1},E{·}表示對(duì)觀測(cè)信號(hào)x取數(shù)學(xué)期望,實(shí)際中用樣本均值替代。上述優(yōu)化問(wèn)題進(jìn)一步等價(jià)于極大化或極小化對(duì)比函數(shù)M(wTx)=E[G(wTx)],本文以極大化為例,即:
文獻(xiàn)[2]中提出3 種可選的非線性,峭度:x4/4 ,gauss:-exp(-x2/2),tanh:lg cosh(x)。
通過(guò)使用拉格朗日乘子法求解上述優(yōu)化問(wèn)題,得到全集FastICA算法如下所示:
迭代式(2)中的g(·)和g′(·)分別表示非線性G(·)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。文獻(xiàn)[2]中提供了上述FastICA算法的詳細(xì)推導(dǎo)過(guò)程。推導(dǎo)采用的是牛頓迭代的方式求解拉格朗日方程。整個(gè)推導(dǎo)過(guò)程中采取了兩次逼近。2017年,S.Basiri等學(xué)者[16]根據(jù)源信號(hào)的獨(dú)立性,給出了新的推導(dǎo)方式,沒(méi)有用到兩次逼近,同樣得到上述結(jié)果。本文中將式(2)稱為全集FastICA。
式(1)是經(jīng)典的ICA 模型,但是在實(shí)際中可以得到的是如下的樣本形式:
文獻(xiàn)[2]中已經(jīng)提出了模型(3)所示的樣本ICA 模型,本文主要研究其相關(guān)性質(zhì)。與模型(1)類似,對(duì)模型(3)也做如下的說(shuō)明和假設(shè):
(1)每次樣本實(shí)現(xiàn)是獨(dú)立同分布的。
(3)A 是未知的非奇異正交方陣。
(4)觀測(cè)信號(hào)x(t)同樣需要白化。白化過(guò)程中的期望和協(xié)方差陣分別用樣本均值和樣本協(xié)差陣估計(jì),即:
假設(shè)模型(3)的x(t)已經(jīng)被白化過(guò),不難驗(yàn)證,白化后的x(t)樣本均值為零向量,樣本協(xié)差陣為單位陣,稱模型(3)為基于樣本的ICA 模型。同樣的,用樣本均值代替式(2)中的數(shù)學(xué)期望,得到的算法稱為基于樣本的FastICA算法。
近年來(lái),很多學(xué)者研究了FastICA算法的收斂性,比如文獻(xiàn)[2,12-13]。為了下文對(duì)基于樣本的FastICA算法收斂性進(jìn)行探討,首先以更加簡(jiǎn)潔的方式證明全集FastICA 算法收斂性能的相關(guān)內(nèi)容。將全集FastICA 算法式(2)分解為兩個(gè)函數(shù),并定義一個(gè)新函數(shù):
可以看出R(·)和T(·)是根據(jù)全集FastICA 算法式(2)定義的,而U(·)則是根據(jù)文獻(xiàn)[2]中全集FastICA算法局部收斂性條件定義的,收斂條件敘述如下。
引理1(收斂條件)假定輸入數(shù)據(jù)符合ICA模型,數(shù)據(jù)z=VAs 是白化過(guò)的隨機(jī)向量(其中V 是白化矩陣),而G(·)是一個(gè)足夠光滑的偶函數(shù)。那么在約束下,混合矩陣VA 的逆矩陣中某行使得E{G(wTz)}取相應(yīng)的局部極大值(或極小值,是極大值或極小值由下面公式中對(duì)應(yīng)的“>”或“<”確定),當(dāng)且僅當(dāng)相應(yīng)行對(duì)應(yīng)的獨(dú)立成分si滿足:
式中,g(·)是函數(shù)G(·)的導(dǎo)數(shù),而g′(·)是g(·)的導(dǎo)數(shù)。
由表1可知,棚內(nèi)溫度要小于棚外溫度,綠棚溫度高于黑棚溫度;濕度以棚外最高,并且黑棚的濕度高于綠棚;光照度以棚外最高,綠棚高于黑棚,并且棚內(nèi)直射光線明顯減少,而漫射光線增多。
不等式(7)與U(·)的定義一致。引理1 表明,任何非二次函數(shù)G(·)只要滿足E{sig(si)-g′(si)}≠0,就可以將概率密度空間分為兩個(gè)半空間,而兩個(gè)半空間分別對(duì)應(yīng)式(7)取正負(fù)的兩種取值。分布落在其中一個(gè)半空間的獨(dú)立成分,可以通過(guò)極大化對(duì)比函數(shù)E{G(wTz)}來(lái)估計(jì),而落在另一個(gè)空間中的分布,則可以通過(guò)極小化相同的函數(shù)進(jìn)行估計(jì)。當(dāng)U(w)≠0 時(shí),全集FastICA算法可以收斂到混合矩陣的第i 個(gè)列向量ai。不失一般性,本文以極大化空間為例,即假設(shè)U(ai)>0 ,此時(shí)ai是E{G(wTz)}的極大值?;谏厦娴募僭O(shè),定理1成立。
定理1(不動(dòng)點(diǎn)定理)混合矩陣A 屬于正交矩陣集合O(n):={A ∈Rn×n|ATA=I},ai是混合矩陣A 的第i列,U(ai)>0,則ai是函數(shù)T(·)的不動(dòng)點(diǎn)。
證明設(shè)矩陣A 有如下形式:A=(a1,a2,…,an),則:,此處。將ai帶入式(4),得:
上述推導(dǎo)中應(yīng)用了si的相互獨(dú)立性和E[si]=0 。且
由于定理1是基于ai可以實(shí)現(xiàn)正確分離,即達(dá)到對(duì)比函數(shù)M(wTx)的極大值成立的,所以,如下的定理2成立。
定理2 如果x*是M(wTx)=E{G(wTx)}的局部極大值,則它是函數(shù)T(·)的一個(gè)不動(dòng)點(diǎn)。
為了分析基于樣本FastICA 算法的收斂性,以及描述和證明FastICA 估計(jì)的一致性,參照文獻(xiàn)[17]中M-估計(jì)和Z-估計(jì)的定義和一致性定理,引入對(duì)比函數(shù)M(wTx)的一個(gè)近似。首先構(gòu)建一個(gè)觀測(cè)樣本x(t)的概率密度函數(shù)(8):
其中,δ(x)被稱為狄拉克δ 函數(shù),是一個(gè)廣義函數(shù),該函數(shù)在除了零以外的點(diǎn)取值都等于0,而在整個(gè)定義域上積分等于1,即:。顯然,δ(x)滿足概率密度函數(shù)的充要條件:(1)非負(fù)可積;(2)正則性,在整個(gè)實(shí)軸上積分等于1。且函數(shù)δ(x)具有如下的性質(zhì):
因此,對(duì)于式(8)的pN取函數(shù)期望,可以得到:
本文中EN(·)表示對(duì)于概率密度函數(shù)式(8)取數(shù)學(xué)期望。所以,可以重寫式(4)~(6)為如下樣本形式:
并且,對(duì)比函數(shù)M(w)也可以定義為如下樣本形式:
此處的MN即為M(wTx)的近似。為了方便下文的證明,在此假設(shè)E∞,且:
式中c 和p 是正常數(shù)。文獻(xiàn)[18]中采取了類似的假設(shè),并且解釋了該假設(shè)的可行性。對(duì)于第2章的3個(gè)經(jīng)典非線性函數(shù),峭度:x4/4,gauss:-exp(-x2/2),tanh:lg cosh(x),至少存在p=4 的情形使得不等式(13)成立??梢宰C明,4.1 節(jié)的引理1、定理1、定理2 推廣到基于樣本的FastICA 算法依然成立。分析可知,只需要證明UN一致收斂到U 即可。首先引用文獻(xiàn)[19]的依概率一致收斂定理。
引理2 假設(shè)x(t),t=1,2,…,N 是一個(gè)n 維變量分布的樣本,θ 是緊集Θ ∈Rn上的隨機(jī)向量。 h(x,θ) 是Rn×Θ 上的Borel 可測(cè)函數(shù),使得?x,h(x,θ)是連續(xù)函數(shù),且E<∞,則:
引理2其實(shí)是加強(qiáng)版的強(qiáng)大數(shù)定律,該引理的具體相關(guān)內(nèi)容可以在參考文獻(xiàn)[18]中找到。根據(jù)引理2很容易證得式(9)~(12)均依概率一致收斂到式(4)~(6)和M(wTx)。
定理3 假設(shè)w ∈Sn-1,且G(·)是連續(xù)函數(shù),以下依概率一致收斂成立:
證明只需證明式(14)、(15)滿足引理2 的條件即可。顯然,Sn-1是緊集。由于G(·)的連續(xù)性,所以第二個(gè)條件也滿足?,F(xiàn)在只需證明期望有界即可。
當(dāng)然也可以將函數(shù)G 看成算子,因?yàn)檫B續(xù)算子與有界算子等價(jià),所以
因此,式(14)成立。同理
所以式(15)成立。
由于引理1、定理1 以及定理2 都是基于條件:U(w)>0,根據(jù)定理3中式(15),顯然它們可以擴(kuò)展到基于樣本的FastICA算法。所以基于樣本的FastICA算法也是收斂的。在下一章一致性分析中,會(huì)用到式(14)的結(jié)論。引理1的擴(kuò)展如定理4所示。
定理4 假設(shè)輸入數(shù)據(jù)符合模型(3),數(shù)據(jù)x(t)已經(jīng)白化過(guò)。在約束‖ ‖w =1 下,混合矩陣A 的某列ai可以使取得相應(yīng)的局部極大值(或極小值):當(dāng)且僅當(dāng)對(duì)應(yīng)的獨(dú)立成分si(t)滿足:UN(ai)>0(resp.<0)。
定理1和定理2可類似推廣。
文獻(xiàn)[15]討論了FastICA 估計(jì)的一致性,但是是從經(jīng)驗(yàn)過(guò)程的相關(guān)理論和P-Donsker,以及P-Glivenko-Cantelli 的性質(zhì)討論的。本文從概率論角度重新證明FastICA 算法得到估計(jì)的一致性。文獻(xiàn)[17]中有經(jīng)驗(yàn)過(guò)程的具體介紹。一致估計(jì)是指當(dāng)樣本數(shù)量充分大時(shí),抽樣樣本指標(biāo)充分接近總體指標(biāo)。換句話說(shuō),一致估計(jì)等價(jià)于估計(jì)依概率收斂到真實(shí)值。
如文獻(xiàn)[15]所述,F(xiàn)astICA 算法得到的估計(jì)是一種M-估計(jì),或Z-估計(jì)。文獻(xiàn)[17]第5章詳細(xì)介紹了M-估計(jì)和Z-估計(jì),極大似然估計(jì)是最常見的M-估計(jì)。從文獻(xiàn)[2]關(guān)于FastICA 算法過(guò)程,可以看到,分離向量的估計(jì)w^是通過(guò)類牛頓法求解方程:Ψ(w):=E[xg(wTx)]=0,所以該估計(jì)可以看做Z-估計(jì)。引用文獻(xiàn)[17]定理5.9來(lái)證明FastICA估計(jì)的一致性,具體內(nèi)容如引理3所述。
引理3 假設(shè)Ψn(θ)是隨機(jī)向量函數(shù),Ψ(θ)是固定向量函數(shù),且?ε >0,下列兩式成立:則:任意估計(jì)序列θ^n依概率收斂到θ0且Ψn(θ^n)=op(1)。
結(jié)合引理3與文獻(xiàn)[17]可知,隨機(jī)序列Ψn(θ)的零點(diǎn)依概率收斂到固定序列Ψ(θ)的零點(diǎn)。引理3 中符號(hào)op(1)表示依概率收斂,具體內(nèi)容和運(yùn)算可以參考文獻(xiàn)[17]的2.2節(jié)。本文?。?/p>
定理5(FastICA 的一致性)假設(shè)ai可以分離得到正確的源信號(hào)si,且E[g′(si)]≠0、,則由Ψn(w):=En[x(t)g(wTx(t))]產(chǎn)生的FastICA估計(jì)是一致的,p
證明根據(jù)引理3,證明一致性,只需證明式(16)、(17)成立即可。根據(jù)引理2,式(16)成立只需證明:E<∞。同定理3證明:
本文假設(shè)函數(shù)G(·)為偶函數(shù),則E[g′(si)]≠0 、0。因此,上式成立。FastICA 估計(jì)的一致性得證。
此部分仿真主要分為兩方面,一方面驗(yàn)證FastICA算法具有良好的分離效果,另一方面驗(yàn)證FastICA 估計(jì)的一致性。
為了驗(yàn)證分離效果,采取如圖1(a)所示的3張512×512的灰度圖像作為源信號(hào),使用matlab2017b隨機(jī)產(chǎn)生混合矩陣,進(jìn)而得到圖1(b)混合信號(hào)。采用經(jīng)典FastICA算法(2)分離源信號(hào),得到圖1(c)。式(2)中出現(xiàn)的數(shù)學(xué)期望用樣本均值mean代替,非線性選取tanh:lg cosh(x)。由于ICA算法估計(jì)出的圖像信號(hào)的幅值存在不確定性,會(huì)出現(xiàn)圖像偏白或偏黑的情況。為了給出逼真的圖像效果,將ICA 給出的圖像估計(jì)的灰度值進(jìn)行放縮變換,使變換后灰度值最大的像素點(diǎn)的灰度值為255,灰度值最小的像素點(diǎn)對(duì)應(yīng)的灰度值為0。避免了圖像偏白或偏黑的情況。從圖1可以看出,源信號(hào)和分離信號(hào)除去順序不一致,基本可以分辨出相互之間的對(duì)應(yīng)關(guān)系。由此可見,F(xiàn)astICA的良好分離性能。
圖1 圖像分離效果
一致性指隨著樣本數(shù)目增加,分離信號(hào)與源信號(hào)之間的差距逐漸變小。為了驗(yàn)證FastICA 的一致性,選取4種波形信號(hào):正弦波信號(hào)、方波信號(hào)、鋸齒信號(hào)、隨機(jī)噪聲作為實(shí)驗(yàn)對(duì)象,并且不同的樣本數(shù)目為200 和2 000。實(shí)驗(yàn)結(jié)果如圖2和圖3所示。圖2和圖3分別為N=200與N=2 000 的情形,兩個(gè)實(shí)驗(yàn)對(duì)應(yīng)的源信號(hào)選取均為上述4 種波形信號(hào),源信號(hào)相同,只有樣本數(shù)目不同。明顯可以看出,圖3的分離信號(hào)更加接近源信號(hào)。而圖2的分離信號(hào),尤其是鋸齒形信號(hào),很明顯與源信號(hào)相差較遠(yuǎn),源信號(hào)是光滑的,但分離信號(hào)則不是。由此可見,當(dāng)樣本數(shù)目增加時(shí),分離矩陣可以更好地被估計(jì),分離得到的源信號(hào)與真實(shí)的源信號(hào)更加接近。由此,驗(yàn)證了FastICA估計(jì)的一致性。
為了更進(jìn)一步說(shuō)明一致性,引入FastICA 評(píng)估的性能指標(biāo)(Performance Index,PI)。文獻(xiàn)[20]中有關(guān)于指標(biāo)PI 的詳細(xì)介紹及計(jì)算公式。等距樣本數(shù)目區(qū)間為[0,500]、[500,1 000]、[1 000,1 500]、[1 500,2 000]、[2 000,2 500]、[2 500,3 000]、[3 000,3 500]、[3 500,4 000]、[4 000,4 500]、[4 500,5 000],對(duì)于每一個(gè)樣本區(qū)間,運(yùn)行100次,隨機(jī)產(chǎn)生100 個(gè)樣本數(shù),并取整,計(jì)算每次的PI 值,并且求得平均的PI 值,運(yùn)行結(jié)果如表1 所示。根據(jù)文獻(xiàn)[20],PI值達(dá)到10-2,一般可以達(dá)到較好的分離效果,且PI 值越小,分離效果越好。觀察表1 中的PI 值,隨著樣本數(shù)目的增加,PI 值明顯遞減。因此,一致性又一次得到證明。
大量的實(shí)驗(yàn)結(jié)果表明,當(dāng)樣本數(shù)目大于等于獨(dú)立分量數(shù)目的10 倍以上時(shí),一般均可以達(dá)到較好的分離結(jié)果,而自適應(yīng)類的ICA算法達(dá)到收斂時(shí)需要的樣本數(shù)目遠(yuǎn)遠(yuǎn)大于獨(dú)立分量數(shù)目的10倍。例如,在本實(shí)驗(yàn)中,選取樣本數(shù)目為40時(shí),PI值已經(jīng)可以達(dá)到0.001 663 94,此時(shí),F(xiàn)astICA算法具有良好的分離效果。
圖2 樣本N=200 分離效果
圖3 樣本N=2 000 分離效果
本文將FastICA 算法寫成樣本形式,并且分別分析了全集FastICA算法和基于樣本的FastICA算法的收斂性。證明了FastICA算法對(duì)比函數(shù)局部極大值和迭代函數(shù)不動(dòng)點(diǎn)之間的關(guān)系,并且通過(guò)引理2 的大數(shù)定律,將其擴(kuò)展到基于樣本的FastICA算法。本文的另一個(gè)重要內(nèi)容是運(yùn)用概率論的方法證明FastICA估計(jì)的一致性。
表1 不同樣本數(shù)目PI均值對(duì)比