邵光明,夏賢齊,殷何杰
隨著考古工作的不斷深入,我國(guó)已出土了數(shù)以千計(jì)的古代玻璃制品,并且這些玻璃制品主要出土于古代絲綢之路沿線,這從側(cè)面反映了絲綢之路是我國(guó)古代重要的貿(mào)易之路,也是重要的中西文明交流之路[1].我國(guó)最早的玻璃類(lèi)型主要有鉛鋇硅酸鹽玻璃和鉀硅酸鹽玻璃等,但是由于年代久遠(yuǎn),玻璃埋在土中(如古墓內(nèi)的葬品)會(huì)受到環(huán)境影響而風(fēng)化[2],玻璃風(fēng)化后往往風(fēng)化產(chǎn)物會(huì)堆積在玻璃表面形成白色斑點(diǎn)或大片的霧狀物從而影響其化學(xué)成分比例,進(jìn)而影響對(duì)其類(lèi)別的鑒別,這對(duì)我國(guó)玻璃制品化學(xué)成分的研究及玻璃文物類(lèi)別鑒定造成了較大困難.
目前,關(guān)于古代玻璃制品的研究部分集中在其出土地或者其制造技術(shù)的起源[3],部分集中在文物的歷史發(fā)展或者是古代玻璃制品的特點(diǎn)[4],還有部分集中在分析其成分特點(diǎn)或制造工藝[5],鮮有文章關(guān)注其化學(xué)成分鑒別和分析.由于風(fēng)化程度的不同,不同古代玻璃制品鑒別的困難程度也有所不同.玻璃制品的研究還可使用回歸分析、主成分分析[6]、機(jī)器學(xué)習(xí)[7]、X 射線[8]等方法,這些方法可以鑒別玻璃制品的成分,但是大部分文獻(xiàn)沒(méi)有涉及對(duì)未知化學(xué)成分的預(yù)測(cè)分析.本文構(gòu)建了CART 和聚類(lèi)分析預(yù)測(cè)模型,使用聚類(lèi)分析模型對(duì)不同化學(xué)成分進(jìn)行比例分析,進(jìn)而通過(guò)不斷迭代得出最優(yōu)的聚類(lèi)中心點(diǎn),即選取合適的化學(xué)成分,利用CART 模型,將未知玻璃制品的化學(xué)成分放入模型中訓(xùn)練,最后對(duì)其類(lèi)別進(jìn)行正確的分類(lèi).
①系統(tǒng)聚類(lèi).系統(tǒng)聚類(lèi)是將每個(gè)樣本獨(dú)立化,按照距離,將最近的兩個(gè)樣本合為新類(lèi),計(jì)算新類(lèi)與其他類(lèi)的距離,重復(fù)此過(guò)程,直到所有樣本都在一個(gè)大類(lèi)中.最后繪制聚類(lèi)圖,確定類(lèi)的個(gè)數(shù).
②K?means 聚類(lèi).K?means 的核心思想是首先從數(shù)據(jù)集中隨機(jī)選取k個(gè)初始聚類(lèi)中心Ci(1 ≤i≤k),計(jì)算其余數(shù)據(jù)對(duì)象與聚類(lèi)中心Ci的歐氏距離,找出離目標(biāo)數(shù)據(jù)對(duì)象最近的聚類(lèi)中心Ci,并將數(shù)據(jù)對(duì)象分配到聚類(lèi)中心Ci所對(duì)應(yīng)的簇中,然后計(jì)算每個(gè)簇中數(shù)據(jù)對(duì)象的平均值作為新的聚類(lèi)中心,進(jìn)行下一次迭代,直到聚類(lèi)中心不再變化,迭代停止[9].
主成分分析法是Pearson 于1901 年首次提出的,通過(guò)研究指標(biāo)體系的內(nèi)在結(jié)構(gòu)關(guān)系,把多指標(biāo)轉(zhuǎn)化成少數(shù)幾個(gè)互相獨(dú)立而且包含原有指標(biāo)大部分信息的綜合指標(biāo)的多元統(tǒng)計(jì)方法,其優(yōu)點(diǎn)是此方法確定的權(quán)數(shù)是基于數(shù)據(jù)分析而得到的指標(biāo)之間的內(nèi)在結(jié)構(gòu)關(guān)系,而且得到的綜合指標(biāo)(主成分)之間彼此獨(dú)立,這使得分析評(píng)價(jià)結(jié)果具有客觀性和可確定性[10].其步驟如下:
①按列計(jì)算均值和標(biāo)準(zhǔn)差,得出標(biāo)準(zhǔn)化矩陣.
②計(jì)算協(xié)方差矩陣R的特征向量和特征值λ1≥λ2≥…≥λp≥0(R是半正定矩陣).
③通過(guò)式(1)和式(2)分別計(jì)算貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,其中累計(jì)貢獻(xiàn)率越大,說(shuō)明其成分包含的信息量越多.
決策樹(shù)[11]本質(zhì)上是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別[12].使用決策樹(shù)前,先進(jìn)行選擇,判斷哪一個(gè)特征確定了樹(shù)的功能,并進(jìn)行子表劃分.CART 算法常采用基尼系數(shù)來(lái)劃分特征.基尼系數(shù)即一個(gè)樣本被分錯(cuò)的概率.在樣本數(shù)量為d的樣本集D,k為種類(lèi)個(gè)數(shù),每個(gè)種類(lèi)對(duì)應(yīng)的樣本數(shù)量為Ck時(shí),計(jì)算公式如下:
式中:p(Xi)表示樣本種類(lèi)為i時(shí)被選中的概率,計(jì)算公式為
數(shù)據(jù)來(lái)源于2022 年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽官網(wǎng)提供的古代玻璃制品的相關(guān)數(shù)據(jù).現(xiàn)已知這些文物樣品的化學(xué)成分比例和玻璃類(lèi)型為高鉀玻璃和鉛鋇玻璃.由于檢測(cè)手段等原因可能導(dǎo)致成分比例的累加為非100%的情況,因此,規(guī)定在85%~105%之間才視為有效數(shù)據(jù).將數(shù)據(jù)進(jìn)行求和會(huì)發(fā)現(xiàn)15 號(hào)和17號(hào)的累加不在范圍之內(nèi)需剔除.數(shù)據(jù)存在空白值,不屬于缺失值,將其設(shè)為0,以此方便后面模型的計(jì)算.對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,本文采用Z 標(biāo)準(zhǔn)化方法.
①聚類(lèi)分析結(jié)果.針對(duì)玻璃種類(lèi)是否風(fēng)化進(jìn)行分析,將系統(tǒng)聚類(lèi)的結(jié)果與實(shí)際值進(jìn)行比較,從而判斷分類(lèi)標(biāo)準(zhǔn)劃分的合理性,將檢測(cè)到的主要成分指標(biāo)通過(guò)SPSS 25.0 軟件進(jìn)行系統(tǒng)聚類(lèi),聚類(lèi)結(jié)果譜系圖如圖1 所示.
圖1 玻璃類(lèi)型高鉀與鉛鋇系統(tǒng)聚類(lèi)結(jié)果譜系
從圖1 可以看出,當(dāng)距離大于20 時(shí),其呈現(xiàn)明顯的兩大趨勢(shì).聚類(lèi)結(jié)果的兩個(gè)大類(lèi)可以反映不同風(fēng)化程度的玻璃樣本.即距離小于20 的樣本在某種程度上具有相似的風(fēng)化特征,而距離大于20 的樣本則表現(xiàn)出更大的差異性.
K?means 聚類(lèi)之后對(duì)分類(lèi)數(shù)目進(jìn)行敏感性檢驗(yàn)得到的結(jié)果如表1 所示.
表1 敏感性檢驗(yàn)結(jié)果
從表1 可以看出,分類(lèi)數(shù)目與準(zhǔn)確率不成正比,當(dāng)分類(lèi)數(shù)目為3 時(shí),準(zhǔn)確率最高為89.71%.然而,在其他分類(lèi)數(shù)目下,準(zhǔn)確率存在波動(dòng)性且有下降趨勢(shì),表明過(guò)多或過(guò)少的分類(lèi)數(shù)目可能導(dǎo)致分類(lèi)結(jié)果的不準(zhǔn)確.由此可以看出,從獲得的數(shù)據(jù)中將古代玻璃類(lèi)別分為高鉀類(lèi)和鉛鋇類(lèi)兩大類(lèi)和三個(gè)亞類(lèi)是最佳選擇.
此分類(lèi)方案可為文物研究和管理提供重要的分類(lèi)依據(jù),有助于深入理解文物的特征和更為精確的分類(lèi)關(guān)系.為確保該分類(lèi)方案的有效性和可靠性,仍需要進(jìn)一步研究與驗(yàn)證.
②主成分分析結(jié)果.由于本文指標(biāo)較多可能導(dǎo)致高維度數(shù)據(jù),且部分指標(biāo)存在大量的零值.為降低維度減少數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的稀疏性,本文利用主成分分析法,將所收集到的玻璃文物數(shù)量作為樣本,14 個(gè)化學(xué)成分作為指標(biāo),建立矩陣,運(yùn)用SPSS 25.0 軟件計(jì)算相關(guān)矩陣和特征值等.主成分分析的特征根如圖2 所示.
圖2 主成分分析的特征根
從圖2 可以看出不同特征根的特征值大小.當(dāng)提取的因子小于6 個(gè)時(shí),特征值變化較大,這表明新增的因子對(duì)解釋原有變量的貢獻(xiàn)較大.當(dāng)提取的因子大于6 個(gè)時(shí),特征值變化較小,增加特征值對(duì)原有變量貢獻(xiàn)相對(duì)較小,由此可知,提取前六個(gè)因子對(duì)原有變量有顯著作用.
③CART 決策樹(shù)預(yù)測(cè).根據(jù)化學(xué)成分的比例大小,對(duì)被分為高鉀和鉛鋇的兩類(lèi)玻璃文物,通過(guò)使用Python 進(jìn)行訓(xùn)練,得到一個(gè)決策樹(shù)模型,如圖3 所示.
圖3 決策樹(shù)模型結(jié)構(gòu)
從圖3 可以看出,沿著決策樹(shù)不同的分支路徑進(jìn)入可以幫助其對(duì)玻璃文物進(jìn)行分類(lèi)和識(shí)別.這種基于決策樹(shù)模型的分類(lèi)和識(shí)別方法可以為玻璃文物研究和鑒定提供有力的支持.
將未知文物的化學(xué)成分?jǐn)?shù)據(jù)作為測(cè)試集,并通過(guò)已建立的CART 決策樹(shù)模型進(jìn)行預(yù)測(cè).模型根據(jù)輸入A1~A8 的特征值,對(duì)每個(gè)未知文物進(jìn)行玻璃類(lèi)型的預(yù)測(cè),預(yù)測(cè)結(jié)果如表2所示.
表2 未知文物預(yù)測(cè)結(jié)果
從表2 可以看出,基于決策樹(shù)模型根據(jù)訓(xùn)練數(shù)據(jù)中的特征值和對(duì)應(yīng)的已知玻璃類(lèi)型進(jìn)行學(xué)習(xí),得出的預(yù)測(cè)結(jié)果為高鉀類(lèi)或鉛鋇類(lèi).例如,A1、A6 和A7 被預(yù)測(cè)為高鉀類(lèi),而A2、A3、A4、A5 和A8 被預(yù)測(cè)為鉛鋇類(lèi).
文章使用Python 和SPSS 軟件,構(gòu)建CRAT決策樹(shù)分類(lèi)預(yù)測(cè)模型,對(duì)古代玻璃制品進(jìn)行分類(lèi)預(yù)測(cè),采用系統(tǒng)聚類(lèi)和K?means 聚類(lèi)方法對(duì)古代玻璃制品進(jìn)行分類(lèi),從而提高了模型的合理性和準(zhǔn)確性.
本研究存在的局限性:一是模型預(yù)測(cè)結(jié)果需要進(jìn)一步驗(yàn)證,以確保結(jié)果的精確性與模型的穩(wěn)定性;二是由于不同時(shí)期和地區(qū)的古代玻璃制品存在差異性,可能需要更多的樣本數(shù)據(jù)和特征信息,以改進(jìn)分類(lèi)預(yù)測(cè)的效果.后續(xù)將針對(duì)這些局限性進(jìn)行認(rèn)證.