李公全,林旭旭,彭 梅,周里瓊
(湖南科技學(xué)院,湖南 永州 425199)
玻璃是代表東西方工藝技術(shù)的產(chǎn)品,沿著“一帶一路”貿(mào)易往來傳播,見證了東西方貿(mào)易文化的交流。古代玻璃極易受埋藏環(huán)境的影響而風(fēng)化。在風(fēng)化過程中,內(nèi)部元素與環(huán)境元素進行大量交換,導(dǎo)致其成分比例發(fā)生變化,從而影響對其類別的正確判斷。為了對古代玻璃制品進行更加準(zhǔn)確的分類和保護,分析文物樣品表面風(fēng)化前后化學(xué)成分含量的變化規(guī)律,探究高鉀玻璃、鉛鋇玻璃的分類規(guī)律并對其進行亞類劃分是至關(guān)重要的。目前很多學(xué)者對古代玻璃的研究重點放在了玻璃的出土地、制造技術(shù)等方面[1-4],對類別未知的古代玻璃進行正確分類研究較少。因此本文建立隨機森林和支持向量機算法對古代玻璃的成分進行分析和鑒別,從而對玻璃正確分類。模型充分聯(lián)系實際,具有很好的通用性和推廣性。
本文采用的數(shù)據(jù)來源于“全國大學(xué)生數(shù)學(xué)建模競賽”官網(wǎng),官網(wǎng)提供了58 個我國古代玻璃制品的表面風(fēng)化情況,考古工作者通過專業(yè)的技術(shù)手段已經(jīng)給出了這些文物樣品的14 種化學(xué)成分含量比例和玻璃類型?,F(xiàn)有未知類別的一批玻璃文物相關(guān)特性和基本信息,擬對該批玻璃進行鑒別,確定其所屬類別。數(shù)據(jù)見表1。
表1 玻璃文物的基本信息
由于這些數(shù)據(jù)的特點是成分性,即各成分比例的累加和應(yīng)為100%,但因檢測手段等原因可能導(dǎo)致其成分比例的累加和非100%的情況。本文將成分比例累加和介于85%~105%之間的數(shù)據(jù)視為有效數(shù)據(jù),并對不位于這個比例的數(shù)據(jù)進行刪除。
決策樹是一種基于if-then-else 規(guī)則的有監(jiān)督學(xué)習(xí)算法,是一種樹形結(jié)構(gòu)。隨機森林是由很多決策樹構(gòu)成的,且不同決策樹之間沒有關(guān)聯(lián),其隨機森林算法基礎(chǔ)結(jié)構(gòu)如圖1 所示。
圖1 隨機森林模型
當(dāng)利用該算法做分類任務(wù)時,每輸入一個新樣本,森林中的每一棵決策樹就會對其進行判別和分類,且每個決策樹都會得到一個自己的分類結(jié)果,決策樹的分類結(jié)果中哪一個分類最多,那么這個分類就會被隨機森林作為最終結(jié)果返回。
首先對玻璃文物表面未風(fēng)化的樣本隨機取樣訓(xùn)練對應(yīng)的決策樹。該玻璃文物表面未風(fēng)化數(shù)據(jù)集共有35個樣本,將這些數(shù)據(jù)進行有放回的隨機抽取,訓(xùn)練得到多個不同決策樹。然后分別計算訓(xùn)練出的決策樹的決定系數(shù),最終選取決定系數(shù)R2得分接近1.0 的前5個決策樹構(gòu)成隨機森林。
對于表面未風(fēng)化的玻璃,根據(jù)玻璃分類規(guī)律建立的隨機森林中訓(xùn)練出的7 個決策樹分類特征為:SiO2、PbO、K2O、P2O5、BaO、Fe2O3和CaO,即上述7 個化學(xué)成分含量是區(qū)分表面未風(fēng)化的高鉀玻璃和鉛鋇玻璃的重要指標(biāo)依據(jù)。
首先對玻璃文物表面風(fēng)化的樣本隨機取樣訓(xùn)練對應(yīng)的決策樹。該玻璃文物表面風(fēng)化數(shù)據(jù)集共有32 個樣本,將這些數(shù)據(jù)進行有放回的隨機抽取,訓(xùn)練得到多個不同決策樹。然后分別計算訓(xùn)練出的決策樹的決定系數(shù)R2,最終選取決定系數(shù)R2得分接近1.0 的前5 個決策樹構(gòu)成隨機森林。
對表面風(fēng)化的玻璃,根據(jù)玻璃分類規(guī)律建立的隨機森林中訓(xùn)練出的7 個決策樹分類特征為:SiO2、PbO、K2O、P2O5、BaO、Fe2O3和CaO,即上述7 個化學(xué)成分含量為區(qū)分表面風(fēng)化的高鉀玻璃和鉛鋇玻璃的重要指標(biāo)依據(jù)。
對高鉀玻璃和鉛鋇玻璃選擇合適的化學(xué)成分對其進行亞類劃分,為保證結(jié)果的合理性,本文選用數(shù)據(jù)為表面未風(fēng)化數(shù)據(jù)。
將高鉀玻璃且表面未風(fēng)化的樣本數(shù)據(jù)提出,對其進行系統(tǒng)聚類。依據(jù)2.2 可知,高鉀玻璃分類規(guī)律建立的隨機森林中訓(xùn)練出的5 個決策樹分類特征為:SiO2、PbO、K2O、P2O5、BaO、Fe2O3和CaO。因玻璃亞類劃分是在玻璃分類規(guī)律基礎(chǔ)上進行的,故將這7 個化學(xué)成分作為系統(tǒng)聚類指標(biāo)變量。根據(jù)SPSS 得到高鉀玻璃未風(fēng)化樣本數(shù)據(jù)譜系圖,如圖2 所示。
圖2 高鉀玻璃未風(fēng)化樣本數(shù)據(jù)譜系圖
可將高鉀玻璃聚類為3 個亞類。其中,第21 號為第一類,第18 號、第3 號(部分1)、第3 號(部分2)為第二類,其他樣本為第三類。
根據(jù)樣本各個化學(xué)成分含量數(shù)據(jù),找出這3 類化學(xué)成分含量具有明顯差異的化學(xué)成分,即SiO2、CaO、Al2O3,最終劃分結(jié)果見表2。
將鉛鋇玻璃且表面未風(fēng)化的樣本數(shù)據(jù)提出,對其進行系統(tǒng)聚類。根據(jù)SPSS 得到鉛鋇玻璃未風(fēng)化樣本數(shù)據(jù)譜系圖,如圖3 所示。
圖3 鉛鋇玻璃未風(fēng)化樣本數(shù)據(jù)譜系圖
通過分析譜系圖,將鉛鋇玻璃聚類為3 個亞類。第一類包括:24、30(部分1、部分2),第二類包括:55、47、46、37、23、25、42(部分1、部分2)、49、50,剩下樣本為第三類。分類結(jié)束后,將20 號相關(guān)化學(xué)成分與分完類的化學(xué)成分進行比較,比較與哪一類相近則歸為哪一類,最終歸為第二類。
根據(jù)樣本各個化學(xué)成分含量數(shù)據(jù),找出這3 類具有明顯差異的化學(xué)成分,即SiO2、PbO 和BaO,其最終劃分結(jié)果見表3。
表3 鉛鋇玻璃亞類結(jié)果
為了驗證劃分方法及其結(jié)果是否穩(wěn)定,需要對其結(jié)果進行敏感性檢驗,從而驗證該劃分方法的可行性。對高鉀玻璃未風(fēng)化樣本的SiO2、CaO、Al2O3相關(guān)數(shù)據(jù)先分別進行白噪聲處理,對鉛鋇玻璃未風(fēng)化樣本的SiO2、PbO、BaO 分別進行白噪聲處理。處理后化學(xué)成分的新數(shù)據(jù)替換處理前的數(shù)據(jù)后,進行同樣操作的聚類分析,得到一個新的譜系圖,接著將這個譜系圖與之前的譜系圖進行對比,若聚類結(jié)果幾乎沒有差異,則說明其具有敏感性,反之則不具有敏感性。
1)高鉀玻璃中,將SiO2、CaO、Al2O3進行白噪聲處理后重新對樣品分類。
對比處理前后的譜系圖,發(fā)現(xiàn)高鉀玻璃的聚類結(jié)果幾乎一致,因此該劃分方法具有可行性。
2)鉛鋇玻璃中,對SiO2、PbO、BaO 進行白噪聲處理后重新對樣品分類,對比處理前后的譜系圖,發(fā)現(xiàn)鉛鋇玻璃的聚類結(jié)果幾乎一致,因此該劃分方法具有可行性。
SVM 是一種有監(jiān)督學(xué)習(xí)的算法,在實際分類訓(xùn)練中,將實例表示為空間中的點,以求解能夠正確劃分?jǐn)?shù)據(jù)集并且?guī)缀伍g隔最大距離超平面為目標(biāo)。除了線性分類,SVM 可以采用內(nèi)核有效地對高維的特征空間進行非線性分類。支持向量機結(jié)構(gòu)示意如圖4 所示。
圖4 支持向量機結(jié)構(gòu)示意圖
其中輸入層視為存貯出入數(shù)據(jù),并不做任何加工運算;中間層是通過對樣本集的學(xué)習(xí),選擇K(x,xn),n=1,...,L;最后一層局勢構(gòu)造分類函數(shù)
式中:bn為非負(fù)Langrange 系數(shù),yn為輸入數(shù)據(jù)對應(yīng)的輸出指標(biāo),這個過程等價于特征空間中構(gòu)造一個最優(yōu)超平面。
對表1 的數(shù)據(jù)分析發(fā)現(xiàn),玻璃文物表面風(fēng)化與未風(fēng)化的數(shù)據(jù)各有4 個。若要去判別每個玻璃文物是高鉀玻璃還是鉛鋇玻璃,需分別對風(fēng)化與未風(fēng)化進行進一步研究。將樣本數(shù)據(jù)分別輸入到2.2 和2.3 建立的表面未風(fēng)化和風(fēng)化隨機森林模型進行判別,判別結(jié)果見表4。
表4 待判別文物所屬類別結(jié)果
基于前面的分析得到:高鉀玻璃亞類劃分的依據(jù)是SiO2、CaO 和Al2O3的含量比例;鉛鋇玻璃亞類劃分的依據(jù)是SiO2、PbO、BaO 的含量比例?;诖耍瑢γ總€類型表面未風(fēng)化樣本依據(jù)化學(xué)成分含量進行SVM 訓(xùn)練,其中對高鉀玻璃選取10 個樣本作為訓(xùn)練樣本,訓(xùn)練出分類模型,2 個樣本作為測試樣本,檢驗該分類模型效果;對鉛鋇玻璃則選取20 個樣本作為訓(xùn)練樣本,訓(xùn)練出分類模型,2 個樣本作為測試樣本,檢驗該分類模型效果。檢驗結(jié)果如圖5 和圖6 所示。
圖5 高鉀玻璃未風(fēng)化訓(xùn)練模型圖
圖6 鉛鋇玻璃未風(fēng)化訓(xùn)練模型
由圖5 和圖6 可知,2 種玻璃訓(xùn)練出的分類模型效果均較好,則高鉀玻璃、鉛鋇玻璃的亞類劃分模型確定。接下來將高鉀未風(fēng)化樣本A1 輸入高鉀玻璃亞類劃分模型,得到亞類劃分結(jié)果見表5。
表5 玻璃表面無風(fēng)化玻璃亞類結(jié)果
表面風(fēng)化玻璃部分化學(xué)成分含量發(fā)生改變,若直接對其進行亞類劃分,結(jié)果受多種因素的影響,導(dǎo)致結(jié)果有較大差異性。首先根據(jù)已知的風(fēng)化的化學(xué)成分相關(guān)數(shù)據(jù),將風(fēng)化前的各個化學(xué)成分預(yù)測出來。
將分別求出高鉀和鉛鋇玻璃風(fēng)化前后各成分相對含量均值差Δξmean,并通過風(fēng)化后成分加上均值差的方法預(yù)測該部位風(fēng)化前的成分的相對含量
式中:ξerode為風(fēng)化后的相對成分?jǐn)?shù)據(jù);ξepredict是預(yù)測后的數(shù)據(jù)。
預(yù)測出來后,將數(shù)據(jù)帶入上一步建立的表面未風(fēng)化亞類劃分模型,得到分類結(jié)果見表6。
表6 玻璃表面風(fēng)化玻璃亞類結(jié)果
本文圍繞古代玻璃成分分析與鑒別問題,通過對古代玻璃各種成分?jǐn)?shù)據(jù)進行分析,建立了基于隨機森林的古代玻璃成分分析和亞分類的模型、基于支持向量機的古代玻璃的鑒別模型,并進行了合理性檢驗,科學(xué)論證了其有效性,模型能夠?qū)糯A奈锏姆治雠c鑒別提供依據(jù),對古代玻璃進行更好的保護。