亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于成分?jǐn)?shù)據(jù)分析與模糊模式識別的古代玻璃種類鑒別

2024-03-18 05:13:00王保乾蔣劍軍

科技創(chuàng)新與應(yīng)用 2024年7期

王保乾，蔣劍軍

（銅陵學(xué)院數(shù)學(xué)與計算機(jī)學(xué)院，安徽銅陵 244061）

古代玻璃的發(fā)展，見證了古代絲綢之路各文明中心和民族的文化與技術(shù)交流。對于我國古代玻璃的早期研究主要從文化、藝術(shù)與歷史的角度進(jìn)行定性分析。較有代表性的是干福熹對“古代玻璃之路”的研究[1-2]。隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展，劉松等[3]運(yùn)用便攜式X 射線熒光光譜分析技術(shù)（portable X-ray fluorescence analytic Technology，PXRF）對古代玻璃文物進(jìn)行定量分析，馮百齡[4]則在其研究中應(yīng)用了數(shù)據(jù)庫等技術(shù)。這些成果表明，數(shù)理分析方法在文物研究中的地位在逐漸提高。

由于古代玻璃極易受埋藏環(huán)境的影響而被侵蝕風(fēng)化，在風(fēng)化過程中內(nèi)部元素與環(huán)境元素進(jìn)行大量交換，導(dǎo)致其成分比例發(fā)生變化[5]。僅利用化學(xué)分析手段無法有效解決古代玻璃文物種類鑒別問題，路佳佳[6]提出了將主成分分析與logistic 回歸等機(jī)器學(xué)習(xí)模型相結(jié)合，解決古代玻璃文物種類鑒別問題。但古代玻璃文物成分?jǐn)?shù)據(jù)的特點(diǎn)是成分性，即各化學(xué)成分比例累加和為100%。這類具有定和約束的數(shù)據(jù)，統(tǒng)計學(xué)上稱為“成分?jǐn)?shù)據(jù)”[7]。同時定和約束使得成分變量之間具有明顯的共線性，而且經(jīng)典的統(tǒng)計方法都是在實數(shù)域進(jìn)行的，所以經(jīng)典的多元統(tǒng)計方法在古代玻璃文物種類鑒別中失效[8-13]。本文通過對古代玻璃文物成分?jǐn)?shù)據(jù)進(jìn)行對數(shù)比（Log-ratio）變換，引入模糊模式識別對未知種類的古代玻璃文物種類進(jìn)行鑒別，克服經(jīng)典多元統(tǒng)計方法對成分?jǐn)?shù)據(jù)分析的不足，研究方法也為國內(nèi)關(guān)于玻璃文物的研究提供了一種新思路。

1 成分?jǐn)?shù)據(jù)

1.1 成分?jǐn)?shù)據(jù)的概念

定義1 稱數(shù)集

為D維成分?jǐn)?shù)據(jù)空間，又稱為單形空間，其中c是一個正常數(shù)，xi為成分?jǐn)?shù)據(jù)中第i種組分。SD中的元素是D維行向量，但由于成分和為定值，所以是D－1 維向量空間。

由于成分?jǐn)?shù)據(jù)的定和限制問題，成分?jǐn)?shù)據(jù)分布在單形空間而不是整個歐式空間，使得經(jīng)典的多元統(tǒng)計方法不能夠直接應(yīng)用于成分?jǐn)?shù)據(jù)統(tǒng)計分析中[14]。主要有以下3 個問題。

1）數(shù)據(jù)的形態(tài)在單形空間與歐式空間上不同，需要建立兩空間之間的映射進(jìn)行解釋。

2）成分?jǐn)?shù)據(jù)原始方差結(jié)構(gòu)的負(fù)偏性。

3）單形空間上數(shù)據(jù)分布單一。

為了解決這些問題，Aitchison[15]提出了非對稱對數(shù)比（Asymmetric Log-ratio，ALR）變換和對稱對數(shù)比（Centered Log-ratio，CLR）變換方法。李柱等[16]提出了等距對數(shù)比（Isometric log-ratio，ILR）變換方法。成分?jǐn)?shù)據(jù)經(jīng)過對數(shù)比變換將單形空間映射到歐式空間，消除了成分?jǐn)?shù)據(jù)的協(xié)方差的負(fù)偏性，此時多元統(tǒng)計方法就可以應(yīng)用于變換后的數(shù)據(jù)了[17]。

1.2 對數(shù)比變換

1.2.1 非對稱對數(shù)比變換（ALR）

定義2 設(shè)x=[x1，x2，…，xD]為成分向量，令

稱此變換為非對稱對數(shù)比變換。顯然，非對稱對數(shù)比變換將成分?jǐn)?shù)據(jù)變換為取值范圍為全體實數(shù)的數(shù)據(jù)，這為模型的選擇帶來了極大的方便。但經(jīng)過非對稱對數(shù)比變換后變量維數(shù)降低，變量無法與原始變量一一對應(yīng)，致使模型解釋性不強(qiáng)。

1.2.2 對稱對數(shù)比變換（CLR）

定義3 設(shè)x=[x1，x2，…，xD]為成分向量，令

稱此變換為對稱對數(shù)比變換。對稱對數(shù)比變換相對于非對稱對數(shù)比變換而言，映射到歐式空間中，能夠較好地保留數(shù)據(jù)特征，變換后變量與原始變量一一對應(yīng)，解釋性強(qiáng)。對稱對數(shù)比變換不能消除變量的完全相關(guān)性，但此時經(jīng)典多元統(tǒng)計學(xué)模型可應(yīng)用于變換后數(shù)據(jù)的分析。

1.2.3 等距對數(shù)比變換（ILR）

定義4 設(shè)x=[x1，x2，…，xD]為成分向量，令

稱此變換為等距對數(shù)比變換。等距對數(shù)比變換克服了多重共線性問題，但變換后變量維數(shù)減小，變量無法與原始變量一一對應(yīng)，模型解釋性不強(qiáng)。

1.3 成分?jǐn)?shù)據(jù)零值替換

由定義2、定義3 和定義4 易知成分?jǐn)?shù)據(jù)中若含有零值，則會在對數(shù)比變換中做分母項，對數(shù)比變換將毫無意義。因此，對成分?jǐn)?shù)據(jù)中零值的處理尤為重要。為了使對數(shù)比變換有意義，通常采用3 種非參數(shù)方法對零值進(jìn)行替換。

1.3.1 真實零值與近似零值

真實零值是真正的零值，不是由于誤差而產(chǎn)生的。近似零值是指由舍入產(chǎn)生或限于儀器精度，成分低于一定閾值就無法測得的零值。

1.3.2 加法替換法

式中：rj是替換后的相應(yīng)組分的值（下同），j=1，2，…，D，Z是一組成分?jǐn)?shù)據(jù)中零值的個數(shù)，δ 是小于給定閾值的數(shù)。

1.3.3 簡單替換法

1.3.4 乘法替換法

式中：δj是用以替代xj的值，c是成分?jǐn)?shù)據(jù)的定和。

2 模糊理論

2.1 隸屬函數(shù)

模糊數(shù)學(xué)使用模糊集合來描述難以用傳統(tǒng)集合進(jìn)行精確刻畫的概念，模糊集合則通過隸屬函數(shù)來定義。

定義5 設(shè)U是論域，稱映射

確定了U上的一個模糊子集A，映射μA稱為A的隸屬函數(shù)，μA（x）稱為x對A的隸屬程度。

從定義5 可知，模糊集合將經(jīng)典集合論中元素與集合之間“屬于或不屬于”的二元關(guān)系擴(kuò)展為了各種不同程度的隸屬關(guān)系。

2.2 模糊集的運(yùn)算

定義6 取大算子：a∨b=max（a，b），取小算子：a∧b=min（a，b）。

定義7 設(shè)有向量A=[a1，a2，…，an]，若0≤ai≤1（i=1，2，…，n），則稱A為模糊向量。

定義8 設(shè)A，B為模糊向量。稱為A，B的內(nèi)積；稱為A，B的外積。

2.3 模糊正態(tài)分布隸屬度函數(shù)

模糊正態(tài)分布隸屬函數(shù)描述的模糊子集是最常用的模糊子集。

1）偏小型。

2）中間型。

3）偏大型。

2.4 格貼近度

定義9 設(shè)A，B是論域U上的2 個模糊子集，稱

為A與B的格貼近度。

2.5 多特征模糊模式識別原則

設(shè)數(shù)據(jù)樣本x由D（D≥1）個特征來描述，即x=[x1，x2，…，xD]。下面介紹基于模糊理論的x的識別方法。

基于貼近度的擇近原則：論域U上有m個模糊子集：A1，A2，…，Am，其構(gòu)成了一個標(biāo)準(zhǔn)模式庫。若x與其中Ai0的格貼近度最大，則將x識別為模式Ai0。

古代玻璃文物風(fēng)化時會和外界元素發(fā)生隨機(jī)交換，這一元素交換過程是模糊的，風(fēng)化程度同樣也是模糊的。經(jīng)典的模式識別算法難以解決模糊度較大的識別問題，于是基于模糊理論的模糊模式識別方法便應(yīng)運(yùn)而生。

3 實證分析

3.1 實證過程

3.1.1 數(shù)據(jù)獲取與預(yù)處理

本文數(shù)據(jù)集來自全國大學(xué)生數(shù)學(xué)建模競賽官網(wǎng)上公開的賽題數(shù)據(jù)[18]。本文將成分含量加和在85%~105%的視為有效數(shù)據(jù)，對于不在此范圍內(nèi)的15 號與17 號文物數(shù)據(jù)做剔除處理。通過閱讀數(shù)據(jù)集，發(fā)現(xiàn)存在缺失值與零值。根據(jù)數(shù)據(jù)集的背景，本文認(rèn)為缺失值是由于檢測儀器精度問題而未檢出，零值是由于舍入誤差造成，即缺失值與零值都是近似零值。已知種類的數(shù)據(jù)是文物隨機(jī)采樣點(diǎn)的化學(xué)成分含量，而待識別數(shù)據(jù)是整個文物的化學(xué)成分含量。數(shù)據(jù)文物風(fēng)化信息可用于區(qū)分分化與否，無須根據(jù)風(fēng)化情況進(jìn)行分組識別。

基于上述分析，對剔除無效數(shù)據(jù)的數(shù)據(jù)，沒有嚴(yán)格符合定和約束的成分?jǐn)?shù)據(jù)轉(zhuǎn)化為定和約束，再進(jìn)行近似零值替換。由于式（3）中乘法替換法可以保持在單形空間上的運(yùn)算[19]，經(jīng)近似零值替換后不改變單形空間上的性質(zhì)，更適合下一步的對數(shù)比變換。本文在根據(jù)式（3）對近似零值進(jìn)行乘法替換時，設(shè)儀器最小檢測限為ej，將數(shù)據(jù)中各成分的最小非零值視為最小檢測限，并添加隨機(jī)誤差項。經(jīng)研究發(fā)現(xiàn)δj取0.65ej時，可以最小化協(xié)方差矩陣的扭曲[20]。最后，分別使用3 種對數(shù)比方法對近似零值替換后的數(shù)據(jù)進(jìn)行變換。

3.1.2 未知玻璃文物種類識別

本文建立基于貼近度的多特征擇近原則模糊模式識別方法。在模糊模式識別中，利用隸屬函數(shù)作為樣本和模板的度量，能夠較好地反映模式的整體特征，并且針對樣品中的干擾、噪聲具有很強(qiáng)的剔除能力[21-22]。主要有以下步驟。

步驟1：建立特征集。古代玻璃文物數(shù)據(jù)含有14個成分，即特征集含有14 個特征。

步驟2：確定結(jié)論集。結(jié)論集是由所有可能結(jié)果構(gòu)成的集合，即結(jié)論集包含高鉀玻璃與鉛鋇玻璃2 個元素。

步驟3：建立標(biāo)準(zhǔn)模式。特征集就是論域，結(jié)論集中的元素就是標(biāo)準(zhǔn)模式。根據(jù)成分?jǐn)?shù)據(jù)特征，選取中間型模糊正態(tài)分布作為隸屬函數(shù)。

步驟4：模式識別。根據(jù)定義9 和古代玻璃種類的模糊模式，以格貼近度度量與模糊模式的接近程度，待識別對象屬于貼近度較大的模式。

3.2 實證結(jié)果

3.2.1 近似零值替換結(jié)果

經(jīng)乘法替換法替換后的玻璃文物成分?jǐn)?shù)據(jù)見表1和表2。

表1 已知種類玻璃成分?jǐn)?shù)據(jù)零值替換（部分）

表2 待識別玻璃成分?jǐn)?shù)據(jù)零值替換

通過分別對比表3 和表4，零值替換前后描述性統(tǒng)計結(jié)果，可以發(fā)現(xiàn)由近似零值替換引起的各項統(tǒng)計指標(biāo)僅發(fā)生了微小的變化，數(shù)據(jù)特征基本不變。由此可以認(rèn)為本文應(yīng)用乘法替換法是合理的。

表4 待識別玻璃成分?jǐn)?shù)據(jù)零值替換前后的描述性統(tǒng)計（部分）

3.2.2 3 種對數(shù)比變換結(jié)果

通過對數(shù)比變換將單形空間上的成分?jǐn)?shù)據(jù)映射到歐式空間中，對數(shù)比變換后的取值范圍是整個實數(shù)空間。根據(jù)定義2 和定義4 易知，非對稱對數(shù)比變換與等距對數(shù)比變換使數(shù)據(jù)特征由14 維降低1 個維度到13維，無法與原始變量一一對應(yīng)，表5 與表6 中特征含義難以解釋，且兩表中特征含義不同。

表5 已知種類玻璃成分?jǐn)?shù)據(jù)非對稱對數(shù)比變換（部分）

表6 已知種類玻璃成分?jǐn)?shù)據(jù)等距對數(shù)比變換（部分）

3.2.3 模糊模式建立結(jié)果

如前所述，本文選取中間型模糊正態(tài)分布作為隸屬函數(shù)。對稱對數(shù)比變化下的2 種類型玻璃模糊正態(tài)分布函數(shù)曲線如圖1 所示，同一子圖中的2 條曲線差異越大，說明對應(yīng)的特征在識別玻璃種類中越顯著。因此，直觀上氧化鉛、氧化鋇與氧化鉀是對分類結(jié)果影響較為顯著的特征。

圖1 對稱對數(shù)比變化下2 種類型玻璃的模糊正態(tài)隸屬度函數(shù)

3.2.4 3 種對數(shù)比變換下的模糊模式識別

分別在3 種對數(shù)比變換下應(yīng)用模糊模式識別模型，并采用交叉驗證方法，計算出如表7 所示分類識別準(zhǔn)確率。

表7 識別準(zhǔn)確率比較%

3.2.5 CLR 下模糊模式識別與機(jī)器學(xué)習(xí)對比

使用模糊模式識別方法對玻璃文物種類進(jìn)行預(yù)測，同時引入隨機(jī)森林算法和支持向量機(jī)算法，與基于對稱對數(shù)比變換的模糊模式識別結(jié)果進(jìn)行對比。通過交叉驗證，得到模糊模式識別與隨機(jī)森林的準(zhǔn)確率為100%，支持向量機(jī)算法的準(zhǔn)確率為97.6%。分類預(yù)測結(jié)果見表8。

表8 分類預(yù)測結(jié)果

4 結(jié)論

國內(nèi)外對于古代玻璃的研究中應(yīng)用數(shù)字化方法尚處于初始階段，在一些研究中常常忽略數(shù)據(jù)的成分特性，存在一些方法濫用的情況，基于成分?jǐn)?shù)據(jù)的古代玻璃文物分析鮮有涉及。從本文的研究來看，關(guān)于近似零值替換問題，加法替換法與小于閾值的數(shù)δ、維數(shù)D與零值個數(shù)Z有關(guān)；簡單替換法與和定和c有關(guān)；乘法替換法δj的值不依賴于維數(shù)D與空值Z的個數(shù)，且保持了單形空間上的運(yùn)算。選用乘法替換法不改變成分?jǐn)?shù)據(jù)的性質(zhì)，可以更好地應(yīng)用對數(shù)比變換處理成分?jǐn)?shù)據(jù)。

經(jīng)對稱對數(shù)比變換后，進(jìn)一步對比模糊模式識別算法與隨機(jī)森林、支持向量機(jī)算法分類準(zhǔn)確率。以上3種方法對高維數(shù)據(jù)的處理都有著良好的效果，均取得了較高的分類準(zhǔn)確率。但是隨機(jī)森林與支持向量機(jī)運(yùn)算較為復(fù)雜，訓(xùn)練時所需要的時間和空間很大。模糊模式識別的運(yùn)算量較小，在運(yùn)算速度較快的情況下仍能保持極高分類準(zhǔn)確率。因此，模糊模式識別在解決古代玻璃分析問題時有著明顯的優(yōu)勢。

基于成分?jǐn)?shù)據(jù)的理論廣泛應(yīng)用于考古學(xué)、地質(zhì)學(xué)與材料學(xué)等方面。在本文的研究中，根據(jù)數(shù)據(jù)的成分性特點(diǎn)合理地處理成分?jǐn)?shù)據(jù)，使數(shù)據(jù)擺脫單形空間限制，使得經(jīng)典的多元統(tǒng)計方法能應(yīng)用于成分?jǐn)?shù)據(jù)的分析。3種對數(shù)比轉(zhuǎn)化下的模糊模式識別方法對于古代玻璃種類的鑒別具有良好的效果。其中，對稱對數(shù)比變換下的模糊模式識別方法同時具備高分類準(zhǔn)確率與較好的模型解釋性。對數(shù)比變化下的模糊模式識別方法的分類效果與隨機(jī)森林、支持向量機(jī)等機(jī)器學(xué)習(xí)算法相比也毫不遜色。本文為考古工作者的文物分類研究提供了一種新的簡單快速且準(zhǔn)確的方法。