劉 冰,李瑋琦
(達州職業(yè)技術(shù)學(xué)院人工智能學(xué)院,達州 635001)
成分?jǐn)?shù)據(jù)是一種具有比例結(jié)構(gòu)的多維數(shù)據(jù),其數(shù)學(xué)形式定義為
則稱向量X為D維成分?jǐn)?shù)據(jù)[1],向量空間SD為單形空間,其中X中的每一個元素xi表示其在整體中所占的比重。相較于普通數(shù)據(jù)而言,成分?jǐn)?shù)據(jù)除了用于分析整體中各部分?jǐn)?shù)據(jù)間的相對關(guān)系外,還有利于揭示普通數(shù)據(jù)所隱藏的相對信息,在諸如社會學(xué)、經(jīng)濟學(xué)、氣象學(xué)、地質(zhì)學(xué)、醫(yī)學(xué)等領(lǐng)域都有十分廣泛的應(yīng)用[2-4]。
由公式(1)可以看出,單形空間中的數(shù)據(jù)受到兩個條件的限制,一個是有界約束,另一個是定和約束,而現(xiàn)有一般的統(tǒng)計分析方法對被分析數(shù)據(jù)是沒有約束要求的。顯然,這就導(dǎo)致現(xiàn)有一般的統(tǒng)計分析方法在單形空間中無效,一個最主要的原因在于單形空間中數(shù)據(jù)的協(xié)方差矩陣通常是奇異矩陣,其含義與普通的數(shù)據(jù)不同[5];另一個原因在于單形空間中的數(shù)據(jù)總體一般不滿足多元正態(tài)分布的假設(shè),這就會導(dǎo)致建立模型十分困難。為了能運用現(xiàn)有一般的統(tǒng)計分析方法去分析單形空間中的數(shù)據(jù),通常的做法是先進行預(yù)處理,即經(jīng)過一定的變換使之成為無約束數(shù)據(jù)。文獻[1]首次提出通過對成分?jǐn)?shù)據(jù)的對數(shù)比變換建立成分?jǐn)?shù)據(jù)的邏輯正態(tài)分布模型,有效地解決了現(xiàn)有一般的統(tǒng)計分析方法對單形空間中數(shù)據(jù)有界定和約束的限制,但建立的模型對數(shù)據(jù)的解釋性較差;文獻[6]提出了一種新變換,即對稱對數(shù)比變換,該方法能很好地解釋數(shù)據(jù),但在某些情況下容易造成變換后的數(shù)據(jù)間存在較高的冗余性,從而損失部分?jǐn)?shù)據(jù)信息;文獻[7-8]在此基礎(chǔ)上又進行了改進,即對稱等距對數(shù)比變換(isometric logratio transformations,ILR),但該方法對數(shù)據(jù)的完整性要求較高,若存在數(shù)據(jù)缺失,當(dāng)補全為0時會造成變換后的數(shù)據(jù)為無窮的情況,顯然失去了實際的意義。對于成分?jǐn)?shù)據(jù)的缺失值補全,目前一般采用單形空間均值(SM)補全法、極大似然補全法、期望最大填補法、k近鄰補全法(KNN),等等。這些方法對于回答信息而言其實現(xiàn)較為容易,但穩(wěn)健性差,結(jié)果偏差較大,補全后的數(shù)據(jù)冗余度高,缺少解釋性。
消除變換后的數(shù)據(jù)冗余性的最有效方法是實現(xiàn)單形空間到歐氏空間的正交變換,為此,本文首先給出單形空間的代數(shù)運算體系,在給出文獻[4,9-11]的相關(guān)變換過程的基礎(chǔ)上,著重研究對于成分?jǐn)?shù)據(jù)存在缺失值時通過對數(shù)比變換后存在的多重共線性數(shù)據(jù)的填補方法,并結(jié)合主成分分析法提出了一種較為有效的參考解決路徑。
為了實現(xiàn)單形空間到歐氏空間的正交變換,本文給出單形空間對于向量的加法、數(shù)乘、內(nèi)積以及距離的如下定義。
(1)向量的加法:對于任意X,Y∈SD,向量X,Y的加法運算⊕定義為
式中,A[.]為封閉運算,即
(2)向量的數(shù)乘:對于任意X∈SD,任意實數(shù)a∈R,a與向量X的數(shù)乘運算?定義為
(3)向量的內(nèi)積:對于任意X,Y∈SD,向量X,Y的內(nèi)積定義為
(4)向量的距離:對于任意X,Y∈SD,向量X,Y的Aitchison距離[10]定義為
在實際工作中,待分析處理數(shù)據(jù)集中某些數(shù)據(jù)或?qū)傩灾等笔У脑蚴嵌喾矫娴?,或者是調(diào)查者基于主觀的判斷認(rèn)為不重要而丟棄某些數(shù)據(jù);或者是由于客觀的問卷設(shè)計存在瑕疵、錄入失誤、受訪者拒絕回答而沒能采集到某些數(shù)據(jù);或者是在原始數(shù)據(jù)的存儲過程中,由于設(shè)備的故障造成存儲數(shù)據(jù)的不全或失敗而丟失某些數(shù)據(jù)等,使得沒能滿足設(shè)計預(yù)期獲得詳細(xì)而全面的資料數(shù)據(jù),顯然,如果缺失數(shù)據(jù)占比較大,對于后續(xù)的數(shù)據(jù)分析處理會造成難以估計的影響。
從式(1)易知,若一個成分向量中只有一個元素值缺失,即可根據(jù)定和限制求出該缺失值,因此一般來說,成分?jǐn)?shù)據(jù)的缺失值是指某個樣本或?qū)傩灾抵兄辽儆袃蓚€或兩個以上的缺失值。其數(shù)學(xué)形式化定義如下:
若某個向量Xk(k= 1,2,…,n)中至少有兩個元素值存在缺失,則稱Z為缺失數(shù)據(jù)矩陣。
由于主客觀等因素的影響,經(jīng)常會碰到待分析處理的數(shù)據(jù)集中某個數(shù)據(jù)或某些屬性值出現(xiàn)為零或缺失的情況。對于前者,通常的做法是將其處理為缺失值;而對于后者,一般先要考慮缺失數(shù)據(jù)的占比情況,若某行(列)缺失數(shù)據(jù)比超過90%,一般進行剔除處理,或重新進行該行(列)數(shù)據(jù)的采集。對于缺失數(shù)據(jù)比小于90%的情況,則對缺失數(shù)據(jù)進行某種策略的填補?!N經(jīng)典的填補方法是基于k近鄰(KNN)方法[12],即用通過某缺失值的k個最近鄰樣本信息來估算該缺失值;另一種是把缺失值當(dāng)作一類隨機變量或者隱變量,建立概率隱變量模型,然后通過EM、VI(Variational Inference)或者MCI(Monte Carlo Inference)來估計缺失值的分布,具體做法是:
對于式(1),進行如下的處理:
其中,xOi為非缺失值數(shù)據(jù),xMj為缺失值數(shù)據(jù),則缺失值xMj的分布估計為
然后計算該分布的期望值,并將其置為缺失值的估計值。
對于簡單的模型,其解析解可用EM 算法求解;若模型復(fù)雜,則可借助MCI 去進行逼近求解,但無法解決結(jié)構(gòu)帶來的不實用的問題。
此外,對于多元線性回歸模型,若變量之間線性無關(guān),還可采用回歸估計法對缺失值進行填補。但變量之間完全線性無關(guān)僅僅具有理論上可能,在實際情況下,變量之間往往存在多重共線性,若直接采用回歸估計法,其估計結(jié)果會與實際情況相去甚遠(yuǎn)。
對于多重補全法,文獻[9-11,13]給出的方法較有代表性,下面作簡要介紹:
對于式(1),定義如下變換:
其逆變換式為xD=,進而有:
從式(9)中可以看到,該變換是一個從單形空間SD到歐氏空間RD-1上的線性變換,而非正交變換,變換后的yi與變換前的xi不具有一一對應(yīng)的關(guān)系,即存在非對稱關(guān)系,這就會導(dǎo)致建立的模型不能合理準(zhǔn)確地解釋數(shù)據(jù)。
針對非對稱對數(shù)比變換存在的缺陷,張堯庭[6]在《成分?jǐn)?shù)據(jù)統(tǒng)計分析引論》中提出了一種新變換,使得變換后的yi與變換前的xi具有了一一對應(yīng)的關(guān)系,即存在對稱關(guān)系,這就使得建立的模型具有了一定的可解釋性。其具體變換式如下:
對于式(1),定義如下變換:
其逆變換式為xD=,進而有:
從式(10)看到,該變換是正交變換,但當(dāng)0<xi<1 時,?[α1,α2,…,αD]T∈SD,αiyi≠0,即變換得到的數(shù)據(jù)存在一定的相關(guān)性,導(dǎo)致了變量間協(xié)方差矩陣不滿秩,從而使得基于協(xié)方差結(jié)構(gòu)的統(tǒng)計方法無效,在實際應(yīng)用中,應(yīng)當(dāng)避免使用該變換對成分?jǐn)?shù)據(jù)進行預(yù)處理。
文獻[4,11,13]又在對稱對數(shù)比變換基礎(chǔ)上進行了改進,即對稱等距對數(shù)比變換(isometric log-ratio transformations,ILR),具體如下:
對于式(1),定義如下變換:
容易得出:式(11)的逆變換式為
進而有:
從式(11)可以看出,該變換實現(xiàn)了從單形空間SD到歐氏空間RD-1的正交變換,確保了在變換后的空間中運用傳統(tǒng)的統(tǒng)計分析方法進行合理的模型建立。但在xi= 0時,對應(yīng)的yi的結(jié)果將為無窮,失去了實際的意義,對后續(xù)的進一步分析處理造成了障礙。
一般情況下,對于缺失數(shù)據(jù)不宜貿(mào)然進行刪除處理,通常需要采用某種方法進行補全操作。常用的方法有:均值補全法、極大似然估計法、多重補全法等,其中多重補全法是通過估計出待補全的值加上不同的噪聲來得到補全值。對于成分?jǐn)?shù)據(jù)缺失值的補全,Hron 等[12]提出的k 近鄰法較有代表性,該方法是通過用Aitchison 距離來尋找到含缺失值樣本的k 個近鄰,并用該k 個近鄰的中位數(shù)來進行初始補全,然后用最小二乘法來進行迭代補全。本文在前面定義的單形空間的加法運算⊕以及數(shù)乘運算?的基礎(chǔ)上結(jié)合文獻[12]的方法,提出一種基于單形空間缺失成分?jǐn)?shù)據(jù)的補全方法,同時運用主成分分析法,處理將成分?jǐn)?shù)據(jù)變換為一般數(shù)據(jù)后可能存在的多重共線性的情況。
在進行多元回歸分析時,若某些解釋變量之間存在嚴(yán)格或近似的線性關(guān)系,其樣本點或?qū)傩灾档囊粋€微小改變都會極大地擾動回歸系數(shù)的估計值,使得回歸系數(shù)極不穩(wěn)定[14]。因為某些解釋變量之間存在的強相關(guān)關(guān)系將極大地降低ZTZ的可逆性,大多數(shù)情況變得不可逆,即使通過某種計算使其變得可逆,其逆矩陣的特征值也往往會較大,導(dǎo)致標(biāo)準(zhǔn)誤差值也較大,進而降低了參數(shù)估計值的精度,無法得出穩(wěn)定的回歸模型,回歸系數(shù)及符號也與實際情況相去甚遠(yuǎn)。
檢測多重共線性的方法主要有:
(1)通過計算自變量間的相關(guān)系數(shù)與顯著性來進行判斷,即若某些變量間的相關(guān)系數(shù)顯著,則認(rèn)為它們之間可能存在多重共線性問題。
(2)使用回歸分析中的方差膨脹系數(shù)(Variance inflation factor,VIF)值來進行判斷,VIF的計算公式為VIF=1/ (1 -)。其中,Ri為負(fù)相關(guān)系數(shù)。自變量之間共線性程度與VIF 值存在較強的正相關(guān)關(guān)系。根據(jù)Hair(1995)標(biāo)準(zhǔn),當(dāng)VIF≤10 時,模型的多重共線性較弱;當(dāng)10 <VIF≤100 時,模型的多重共線性較為嚴(yán)重;當(dāng)VIF>100時,模型的多重共線性很嚴(yán)重。
(3)容忍值(Tolerance)法,也是較為常用的方法。其計算公式為Tol=1/VIF。顯然,其與方差膨脹系數(shù)法的判定標(biāo)準(zhǔn)相反,自變量之間共線性程度與Tol值存在較強的負(fù)相關(guān)關(guān)系。在實際中,通常為Tol指定一個閾值,確保小于閾值的變量間的相關(guān)系數(shù)矩陣可逆,使回歸系數(shù)的估計值具有較強的穩(wěn)定性。該方法的缺陷在于Tol閾值的確定存在隨意性,沒有一個統(tǒng)一的標(biāo)準(zhǔn)。
(4)主成分回歸法,對于矩陣(6),設(shè)ZTZ的特征值為λ1≥λ1≥… ≥λn>0,稱h=λ1/λn為ZTZ的條件數(shù),一般地,若h<100,則認(rèn)為模型的多重共線性程度較?。蝗?00 <λ1<1000則認(rèn)為模型的多重共線性程度較強;若h>1000,則認(rèn)為模型的多重共線性程度嚴(yán)重。
需要說明的是,在現(xiàn)實工作中,獲得的數(shù)據(jù)集一般都存在多重共線性,只是程度不同而已,對于共線性程度較小或一般的問題可以不必采取措施。另外,如果學(xué)得模型的擬合度好,也可不需處理多重共線性問題。
根據(jù)公式(5)易知,若兩個樣本各自成分?jǐn)?shù)據(jù)子集相似,則它們之間的Aitchison 距離可以用其對應(yīng)子集的Aitchison 距離大約表示。即dA(xi,xj)≈dA(XMi,XMj)≈dA(XOi,XOj),其中 :XMi,XMj和XOi,XOj分別是樣本xi,xj各自所對應(yīng)的缺失值和確定值成分?jǐn)?shù)據(jù)子集。
下面根據(jù)第2節(jié)的相關(guān)定義及文獻[12]的方法給出xi的某一缺失成分xmi∈XMi,m∈M的補全步驟:
(1)根據(jù)Aitchison 距離找到含缺失值xi相應(yīng)子成分XMi的k(k<n)個最近鄰, 并記為其對應(yīng)的k個全樣本依次為。
(2)根據(jù)定義1 和定義2,計算出k個全樣本的均值:
(3)求出xmi的補全值:
其中:Ij=(0,…,1,…,0)T∈Rn的第j個元素為1,j= 1,2,…,n。
在大多數(shù)情況下,在單形空間上由子成分的Aitchison 距離對缺失值進行均值補全后的成分?jǐn)?shù)據(jù)存在多重共線性,基于4.1 節(jié)所述,下面采用主成分回歸分析法對上節(jié)初始補全后的成分?jǐn)?shù)據(jù)再次進行修正補全,主要步驟如下:
(1)將含有缺失成分的樣本xi和其k個最近鄰樣本xi[1],xi[2],…,xi[k]組成一個單形空間矩陣,并將缺失值xmi初始補全后的變換到第1 行第1列,記為:A(k+1)×D。
(2)根據(jù)公式(11),將單形空間矩陣轉(zhuǎn)換為歐式空間矩陣,如下所示:
其中,α= irl(x?mi),A為一k×(D- 1)階矩陣,令:
(3)對矩陣A做主成分分析,其協(xié)方差矩陣記為Λ=,其中,zu,zv為A的行向量,為A的行向量均值。
(4)計算Λ的前p個主成分,依次為λ1≥λ1≥…≥λp≥0,則響應(yīng)變量Y與間的關(guān)系為
其中:m= 1,2,…,k,ε為誤差項。
(5)通過上式得到βj的估計值,計算到缺失值xmi的補全值為
(6)運用公式(12)將數(shù)據(jù)xmi還原為成分?jǐn)?shù)據(jù),并通過第(1)步將其調(diào)回到原始位置。
為了有效地評價上述方法對數(shù)據(jù)集中缺失值的補全效果,本文采用正規(guī)化方均根差(the normalized root mean squares error,NRMSE)作為判別準(zhǔn)則,即:
其中,vg為補全值,vr為真實值,μ(.)為均值,σ(.)為方差。NRMSE值的大小反映了真實值與補全值之間差距,若NRMSE值較大,則說明補全值與真實值存在較大差距;若NRMSE接近于0,則說明補全值非常接近真實值。
為了驗證前述方法的有效性,選用文獻[1]中Hongite 數(shù)據(jù),該數(shù)據(jù)集包含25個樣本,每個樣本包含5 個特征:ablite,blandite,cornite,daubite,endite,根據(jù)4.1 節(jié)所述計算得到條件數(shù)h=2747.238>>1000,即認(rèn)為該數(shù)據(jù)集存在嚴(yán)重的多重共線性。下面假定該數(shù)據(jù)集的ablite 和cornite 特征數(shù)據(jù)缺失,分別運用k近鄰補全法(KNN),單形空間均值(SM)和主成分補全法(PCA)對缺失值進行補全,得到比較結(jié)果見表1。
表1 KNN,SM和PCA補全操作比較結(jié)果表
從表1可以看出,當(dāng)條件數(shù)h>>1000時,用PCA 方法進行補全的結(jié)果最好,KNN 的補全結(jié)果最差。
根據(jù)文獻[10]的結(jié)論模擬100 個5 維的成分?jǐn)?shù)據(jù)x~N5φ(μ,∑),其中μ=(0,0,0,0)T,∑是一個主對角線上全為1,其余全為p的4 階方陣。在假定p的取值分別為0.3、0.7、0.995,缺失率(MR)分別為10%、20%和30%情況下,分別運用KNN、SM 和PCA 方法進行缺失值補全,并用NRMSE進行評價比較,結(jié)果如圖1所示。
圖1 MR與P分別取值時三種方法的補全比較結(jié)果
其中,在圖1 中的圖a1~a3 是在MR不同p一定時三種方法的補全比較結(jié)果,圖b1~b3 是在p不同MR一定時三種方法的補全比較結(jié)果。
圖1 MR與p分別取值時三種方法的補全比較結(jié)果(續(xù))
從圖b1 與圖b2 中可以看出,PCA 比KNN,SM 的結(jié)果都要好。這三種補全法在MR一定時,p與NRMSE呈負(fù)相關(guān)關(guān)系,也就是說若數(shù)據(jù)間的多重共線性程度越大,無論哪種方法的補全效果都越好。而在p一定時,三種方法的MR與NRMSE呈正相關(guān)關(guān)系。作為初始的補全法,KNN 法明顯比SM 差,隨著MR的増大,結(jié)果會更差。但在MR變大時,PCA 法明顯比SM 效果好,隨著MR的増大,結(jié)果會更明顯。
基于單行空間完備的代數(shù)體系提出的等距對數(shù)比變換是一個正交變換,該變換既克服了非對稱對數(shù)比變換改變內(nèi)積及距離等幾何概念的缺陷,同時,又避免了對數(shù)比變換導(dǎo)致的多重共線性給多元分析方法帶來的不利影響。對于含有缺失值的多元數(shù)據(jù)來說,無論是基于模型還是基于距離,多變量補全法比單變量補全法結(jié)果更為準(zhǔn)確:在單形空間上先進行均值補全,然后運用等距對數(shù)比對補全后的數(shù)據(jù)進行變換,最后再對變換后的數(shù)據(jù)運用主成分法進行第二次補全,實例分析表明,再次運用主成分法進行二次補全要比其他方法的效果更好。