王保乾,蔣劍軍
(銅陵學(xué)院數(shù)學(xué)與計算機(jī)學(xué)院,安徽 銅陵 244061)
古代玻璃的發(fā)展,見證了古代絲綢之路各文明中心和民族的文化與技術(shù)交流。對于我國古代玻璃的早期研究主要從文化、藝術(shù)與歷史的角度進(jìn)行定性分析。較有代表性的是干福熹對“古代玻璃之路”的研究[1-2]。隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,劉松等[3]運(yùn)用便攜式X 射線熒光光譜分析技術(shù)(portable X-ray fluorescence analytic Technology,PXRF)對古代玻璃文物進(jìn)行定量分析,馮百齡[4]則在其研究中應(yīng)用了數(shù)據(jù)庫等技術(shù)。這些成果表明,數(shù)理分析方法在文物研究中的地位在逐漸提高。
由于古代玻璃極易受埋藏環(huán)境的影響而被侵蝕風(fēng)化,在風(fēng)化過程中內(nèi)部元素與環(huán)境元素進(jìn)行大量交換,導(dǎo)致其成分比例發(fā)生變化[5]。僅利用化學(xué)分析手段無法有效解決古代玻璃文物種類鑒別問題,路佳佳[6]提出了將主成分分析與logistic 回歸等機(jī)器學(xué)習(xí)模型相結(jié)合,解決古代玻璃文物種類鑒別問題。但古代玻璃文物成分?jǐn)?shù)據(jù)的特點(diǎn)是成分性,即各化學(xué)成分比例累加和為100%。這類具有定和約束的數(shù)據(jù),統(tǒng)計學(xué)上稱為“成分?jǐn)?shù)據(jù)”[7]。同時定和約束使得成分變量之間具有明顯的共線性,而且經(jīng)典的統(tǒng)計方法都是在實數(shù)域進(jìn)行的,所以經(jīng)典的多元統(tǒng)計方法在古代玻璃文物種類鑒別中失效[8-13]。本文通過對古代玻璃文物成分?jǐn)?shù)據(jù)進(jìn)行對數(shù)比(Log-ratio)變換,引入模糊模式識別對未知種類的古代玻璃文物種類進(jìn)行鑒別,克服經(jīng)典多元統(tǒng)計方法對成分?jǐn)?shù)據(jù)分析的不足,研究方法也為國內(nèi)關(guān)于玻璃文物的研究提供了一種新思路。
定義1 稱數(shù)集
為D維成分?jǐn)?shù)據(jù)空間,又稱為單形空間,其中c是一個正常數(shù),xi為成分?jǐn)?shù)據(jù)中第i種組分。SD中的元素是D維行向量,但由于成分和為定值,所以是D-1 維向量空間。
由于成分?jǐn)?shù)據(jù)的定和限制問題,成分?jǐn)?shù)據(jù)分布在單形空間而不是整個歐式空間,使得經(jīng)典的多元統(tǒng)計方法不能夠直接應(yīng)用于成分?jǐn)?shù)據(jù)統(tǒng)計分析中[14]。主要有以下3 個問題。
1)數(shù)據(jù)的形態(tài)在單形空間與歐式空間上不同,需要建立兩空間之間的映射進(jìn)行解釋。
2)成分?jǐn)?shù)據(jù)原始方差結(jié)構(gòu)的負(fù)偏性。
3)單形空間上數(shù)據(jù)分布單一。
為了解決這些問題,Aitchison[15]提出了非對稱對數(shù)比(Asymmetric Log-ratio,ALR)變換和對稱對數(shù)比(Centered Log-ratio,CLR)變換方法。李柱等[16]提出了等距對數(shù)比(Isometric log-ratio,ILR)變換方法。成分?jǐn)?shù)據(jù)經(jīng)過對數(shù)比變換將單形空間映射到歐式空間,消除了成分?jǐn)?shù)據(jù)的協(xié)方差的負(fù)偏性,此時多元統(tǒng)計方法就可以應(yīng)用于變換后的數(shù)據(jù)了[17]。
1.2.1 非對稱對數(shù)比變換(ALR)
定義2 設(shè)x=[x1,x2,…,xD]為成分向量,令
稱此變換為非對稱對數(shù)比變換。顯然,非對稱對數(shù)比變換將成分?jǐn)?shù)據(jù)變換為取值范圍為全體實數(shù)的數(shù)據(jù),這為模型的選擇帶來了極大的方便。但經(jīng)過非對稱對數(shù)比變換后變量維數(shù)降低,變量無法與原始變量一一對應(yīng),致使模型解釋性不強(qiáng)。
1.2.2 對稱對數(shù)比變換(CLR)
定義3 設(shè)x=[x1,x2,…,xD]為成分向量,令
稱此變換為對稱對數(shù)比變換。對稱對數(shù)比變換相對于非對稱對數(shù)比變換而言,映射到歐式空間中,能夠較好地保留數(shù)據(jù)特征,變換后變量與原始變量一一對應(yīng),解釋性強(qiáng)。對稱對數(shù)比變換不能消除變量的完全相關(guān)性,但此時經(jīng)典多元統(tǒng)計學(xué)模型可應(yīng)用于變換后數(shù)據(jù)的分析。
1.2.3 等距對數(shù)比變換(ILR)
定義4 設(shè)x=[x1,x2,…,xD]為成分向量,令
稱此變換為等距對數(shù)比變換。等距對數(shù)比變換克服了多重共線性問題,但變換后變量維數(shù)減小,變量無法與原始變量一一對應(yīng),模型解釋性不強(qiáng)。
由定義2、定義3 和定義4 易知成分?jǐn)?shù)據(jù)中若含有零值,則會在對數(shù)比變換中做分母項,對數(shù)比變換將毫無意義。因此,對成分?jǐn)?shù)據(jù)中零值的處理尤為重要。為了使對數(shù)比變換有意義,通常采用3 種非參數(shù)方法對零值進(jìn)行替換。
1.3.1 真實零值與近似零值
真實零值是真正的零值,不是由于誤差而產(chǎn)生的。近似零值是指由舍入產(chǎn)生或限于儀器精度,成分低于一定閾值就無法測得的零值。
1.3.2 加法替換法
式中:rj是替換后的相應(yīng)組分的值(下同),j=1,2,…,D,Z是一組成分?jǐn)?shù)據(jù)中零值的個數(shù),δ 是小于給定閾值的數(shù)。
1.3.3 簡單替換法
1.3.4 乘法替換法
式中:δj是用以替代xj的值,c是成分?jǐn)?shù)據(jù)的定和。
模糊數(shù)學(xué)使用模糊集合來描述難以用傳統(tǒng)集合進(jìn)行精確刻畫的概念,模糊集合則通過隸屬函數(shù)來定義。
定義5 設(shè)U是論域,稱映射
確定了U上的一個模糊子集A,映射μA稱為A的隸屬函數(shù),μA(x)稱為x對A的隸屬程度。
從定義5 可知,模糊集合將經(jīng)典集合論中元素與集合之間“屬于或不屬于”的二元關(guān)系擴(kuò)展為了各種不同程度的隸屬關(guān)系。
定義6 取大算子:a∨b=max(a,b),取小算子:a∧b=min(a,b)。
定義7 設(shè)有向量A=[a1,a2,…,an],若0≤ai≤1(i=1,2,…,n),則稱A為模糊向量。
定義8 設(shè)A,B為模糊向量。稱為A,B的內(nèi)積;稱為A,B的外積。
模糊正態(tài)分布隸屬函數(shù)描述的模糊子集是最常用的模糊子集。
1)偏小型。
2)中間型。
3)偏大型。
定義9 設(shè)A,B是論域U上的2 個模糊子集,稱
為A與B的格貼近度。
設(shè)數(shù)據(jù)樣本x由D(D≥1)個特征來描述,即x=[x1,x2,…,xD]。下面介紹基于模糊理論的x的識別方法。
基于貼近度的擇近原則:論域U上有m個模糊子集:A1,A2,…,Am,其構(gòu)成了一個標(biāo)準(zhǔn)模式庫。若x與其中Ai0的格貼近度最大,則將x識別為模式Ai0。
古代玻璃文物風(fēng)化時會和外界元素發(fā)生隨機(jī)交換,這一元素交換過程是模糊的,風(fēng)化程度同樣也是模糊的。經(jīng)典的模式識別算法難以解決模糊度較大的識別問題,于是基于模糊理論的模糊模式識別方法便應(yīng)運(yùn)而生。
3.1.1 數(shù)據(jù)獲取與預(yù)處理
本文數(shù)據(jù)集來自全國大學(xué)生數(shù)學(xué)建模競賽官網(wǎng)上公開的賽題數(shù)據(jù)[18]。本文將成分含量加和在85%~105%的視為有效數(shù)據(jù),對于不在此范圍內(nèi)的15 號與17 號文物數(shù)據(jù)做剔除處理。通過閱讀數(shù)據(jù)集,發(fā)現(xiàn)存在缺失值與零值。根據(jù)數(shù)據(jù)集的背景,本文認(rèn)為缺失值是由于檢測儀器精度問題而未檢出,零值是由于舍入誤差造成,即缺失值與零值都是近似零值。已知種類的數(shù)據(jù)是文物隨機(jī)采樣點(diǎn)的化學(xué)成分含量,而待識別數(shù)據(jù)是整個文物的化學(xué)成分含量。數(shù)據(jù)文物風(fēng)化信息可用于區(qū)分分化與否,無須根據(jù)風(fēng)化情況進(jìn)行分組識別。
基于上述分析,對剔除無效數(shù)據(jù)的數(shù)據(jù),沒有嚴(yán)格符合定和約束的成分?jǐn)?shù)據(jù)轉(zhuǎn)化為定和約束,再進(jìn)行近似零值替換。由于式(3)中乘法替換法可以保持在單形空間上的運(yùn)算[19],經(jīng)近似零值替換后不改變單形空間上的性質(zhì),更適合下一步的對數(shù)比變換。本文在根據(jù)式(3)對近似零值進(jìn)行乘法替換時,設(shè)儀器最小檢測限為ej,將數(shù)據(jù)中各成分的最小非零值視為最小檢測限,并添加隨機(jī)誤差項。經(jīng)研究發(fā)現(xiàn)δj取0.65ej時,可以最小化協(xié)方差矩陣的扭曲[20]。最后,分別使用3 種對數(shù)比方法對近似零值替換后的數(shù)據(jù)進(jìn)行變換。
3.1.2 未知玻璃文物種類識別
本文建立基于貼近度的多特征擇近原則模糊模式識別方法。在模糊模式識別中,利用隸屬函數(shù)作為樣本和模板的度量,能夠較好地反映模式的整體特征,并且針對樣品中的干擾、噪聲具有很強(qiáng)的剔除能力[21-22]。主要有以下步驟。
步驟1:建立特征集。古代玻璃文物數(shù)據(jù)含有14個成分,即特征集含有14 個特征。
步驟2:確定結(jié)論集。結(jié)論集是由所有可能結(jié)果構(gòu)成的集合,即結(jié)論集包含高鉀玻璃與鉛鋇玻璃2 個元素。
步驟3:建立標(biāo)準(zhǔn)模式。特征集就是論域,結(jié)論集中的元素就是標(biāo)準(zhǔn)模式。根據(jù)成分?jǐn)?shù)據(jù)特征,選取中間型模糊正態(tài)分布作為隸屬函數(shù)。
步驟4:模式識別。根據(jù)定義9 和古代玻璃種類的模糊模式,以格貼近度度量與模糊模式的接近程度,待識別對象屬于貼近度較大的模式。
3.2.1 近似零值替換結(jié)果
經(jīng)乘法替換法替換后的玻璃文物成分?jǐn)?shù)據(jù)見表1和表2。
表1 已知種類玻璃成分?jǐn)?shù)據(jù)零值替換(部分)
表2 待識別玻璃成分?jǐn)?shù)據(jù)零值替換
通過分別對比表3 和表4,零值替換前后描述性統(tǒng)計結(jié)果,可以發(fā)現(xiàn)由近似零值替換引起的各項統(tǒng)計指標(biāo)僅發(fā)生了微小的變化,數(shù)據(jù)特征基本不變。由此可以認(rèn)為本文應(yīng)用乘法替換法是合理的。
表4 待識別玻璃成分?jǐn)?shù)據(jù)零值替換前后的描述性統(tǒng)計(部分)
3.2.2 3 種對數(shù)比變換結(jié)果
通過對數(shù)比變換將單形空間上的成分?jǐn)?shù)據(jù)映射到歐式空間中,對數(shù)比變換后的取值范圍是整個實數(shù)空間。根據(jù)定義2 和定義4 易知,非對稱對數(shù)比變換與等距對數(shù)比變換使數(shù)據(jù)特征由14 維降低1 個維度到13維,無法與原始變量一一對應(yīng),表5 與表6 中特征含義難以解釋,且兩表中特征含義不同。
表5 已知種類玻璃成分?jǐn)?shù)據(jù)非對稱對數(shù)比變換(部分)
表6 已知種類玻璃成分?jǐn)?shù)據(jù)等距對數(shù)比變換(部分)
3.2.3 模糊模式建立結(jié)果
如前所述,本文選取中間型模糊正態(tài)分布作為隸屬函數(shù)。對稱對數(shù)比變化下的2 種類型玻璃模糊正態(tài)分布函數(shù)曲線如圖1 所示,同一子圖中的2 條曲線差異越大,說明對應(yīng)的特征在識別玻璃種類中越顯著。因此,直觀上氧化鉛、氧化鋇與氧化鉀是對分類結(jié)果影響較為顯著的特征。
圖1 對稱對數(shù)比變化下2 種類型玻璃的模糊正態(tài)隸屬度函數(shù)
3.2.4 3 種對數(shù)比變換下的模糊模式識別
分別在3 種對數(shù)比變換下應(yīng)用模糊模式識別模型,并采用交叉驗證方法,計算出如表7 所示分類識別準(zhǔn)確率。
表7 識別準(zhǔn)確率比較%
3.2.5 CLR 下模糊模式識別與機(jī)器學(xué)習(xí)對比
使用模糊模式識別方法對玻璃文物種類進(jìn)行預(yù)測,同時引入隨機(jī)森林算法和支持向量機(jī)算法,與基于對稱對數(shù)比變換的模糊模式識別結(jié)果進(jìn)行對比。通過交叉驗證,得到模糊模式識別與隨機(jī)森林的準(zhǔn)確率為100%,支持向量機(jī)算法的準(zhǔn)確率為97.6%。分類預(yù)測結(jié)果見表8。
表8 分類預(yù)測結(jié)果
國內(nèi)外對于古代玻璃的研究中應(yīng)用數(shù)字化方法尚處于初始階段,在一些研究中常常忽略數(shù)據(jù)的成分特性,存在一些方法濫用的情況,基于成分?jǐn)?shù)據(jù)的古代玻璃文物分析鮮有涉及。從本文的研究來看,關(guān)于近似零值替換問題,加法替換法與小于閾值的數(shù)δ、維數(shù)D與零值個數(shù)Z有關(guān);簡單替換法與和定和c有關(guān);乘法替換法δj的值不依賴于維數(shù)D與空值Z的個數(shù),且保持了單形空間上的運(yùn)算。選用乘法替換法不改變成分?jǐn)?shù)據(jù)的性質(zhì),可以更好地應(yīng)用對數(shù)比變換處理成分?jǐn)?shù)據(jù)。
經(jīng)對稱對數(shù)比變換后,進(jìn)一步對比模糊模式識別算法與隨機(jī)森林、支持向量機(jī)算法分類準(zhǔn)確率。以上3種方法對高維數(shù)據(jù)的處理都有著良好的效果,均取得了較高的分類準(zhǔn)確率。但是隨機(jī)森林與支持向量機(jī)運(yùn)算較為復(fù)雜,訓(xùn)練時所需要的時間和空間很大。模糊模式識別的運(yùn)算量較小,在運(yùn)算速度較快的情況下仍能保持極高分類準(zhǔn)確率。因此,模糊模式識別在解決古代玻璃分析問題時有著明顯的優(yōu)勢。
基于成分?jǐn)?shù)據(jù)的理論廣泛應(yīng)用于考古學(xué)、地質(zhì)學(xué)與材料學(xué)等方面。在本文的研究中,根據(jù)數(shù)據(jù)的成分性特點(diǎn)合理地處理成分?jǐn)?shù)據(jù),使數(shù)據(jù)擺脫單形空間限制,使得經(jīng)典的多元統(tǒng)計方法能應(yīng)用于成分?jǐn)?shù)據(jù)的分析。3種對數(shù)比轉(zhuǎn)化下的模糊模式識別方法對于古代玻璃種類的鑒別具有良好的效果。其中,對稱對數(shù)比變換下的模糊模式識別方法同時具備高分類準(zhǔn)確率與較好的模型解釋性。對數(shù)比變化下的模糊模式識別方法的分類效果與隨機(jī)森林、支持向量機(jī)等機(jī)器學(xué)習(xí)算法相比也毫不遜色。本文為考古工作者的文物分類研究提供了一種新的簡單快速且準(zhǔn)確的方法。