亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不平衡古漆器漆膜數(shù)據(jù)分類研究

        2021-02-04 06:53:22張嵐斌徐國(guó)慶
        軟件導(dǎo)刊 2021年1期
        關(guān)鍵詞:歐氏漆膜漆器

        張嵐斌,徐國(guó)慶,李 瀾

        (1.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205;2.湖北省博物館,湖北 武漢 430077)

        0 引言

        隨著現(xiàn)代檢測(cè)技術(shù)的逐步完善,以及檢測(cè)儀器精度的不斷提升,漆器漆膜分析領(lǐng)域積累了大量漆器檢測(cè)數(shù)據(jù)[1]。目前將考古學(xué)與機(jī)器學(xué)習(xí)相結(jié)合已成為學(xué)者們的關(guān)注熱點(diǎn),如公雪霜等[2]利用決策樹分類算法評(píng)定遼寧西部地區(qū)先秦遺址規(guī)模,為考古學(xué)聚落形態(tài)研究提供了一種新的技術(shù)手段,不過(guò)該算法誤差因素太多,比較依賴數(shù)據(jù)的完整性;李鵬飛[3]分別使用決策樹和支持向量機(jī)分類方法對(duì)良渚文化時(shí)期墓葬主人的社會(huì)等級(jí)進(jìn)行分類預(yù)測(cè),發(fā)現(xiàn)支持向量機(jī)方法準(zhǔn)確率更高,但容易出現(xiàn)過(guò)擬合問(wèn)題。大量案例表明,機(jī)器學(xué)習(xí)算法在考古學(xué)領(lǐng)域效果明顯,而針對(duì)漆器漆膜數(shù)據(jù)的研究隨著數(shù)據(jù)的逐漸完備也開始得到研究者們的廣泛關(guān)注。

        目前各地出土的漆器類型、年代、數(shù)量等分布不均,導(dǎo)致漆器檢測(cè)數(shù)據(jù)類間不平衡。在不平衡數(shù)據(jù)分類研究領(lǐng)域,數(shù)據(jù)類間不平衡、缺失數(shù)據(jù)較多等問(wèn)題極大地影響了機(jī)器學(xué)習(xí)算法性能[4-5]。為此,相關(guān)學(xué)者從數(shù)據(jù)預(yù)處理、特征選擇及分類算法3 個(gè)層面出發(fā),提出一系列解決辦法,而本文主要針對(duì)數(shù)據(jù)預(yù)處理進(jìn)行研究[6-7]。

        在數(shù)據(jù)預(yù)處理層面,通過(guò)數(shù)據(jù)處理改變數(shù)據(jù)結(jié)構(gòu),最具代表性的是通過(guò)一系列重采樣方法改變樣本訓(xùn)練集的類別分布,從而降低樣本數(shù)據(jù)的不平衡性。根據(jù)采樣方式的不同,主要分為欠采樣以及過(guò)采樣方法[8]。欠采樣方法通過(guò)刪除多數(shù)類樣本使樣本數(shù)據(jù)達(dá)到平衡,以提高少數(shù)類樣本的分類性能。如方昊等[9]針對(duì)單次隨機(jī)欠采樣容易出現(xiàn)誤差的問(wèn)題,提出多次隨機(jī)欠采樣方法以減小誤差,有效解決了在軟件缺陷檢測(cè)中因數(shù)據(jù)不平衡造成的分類誤差大的問(wèn)題。隨機(jī)欠采樣是一種操作簡(jiǎn)單的欠采樣方法,但是隨機(jī)舍棄多數(shù)類樣本數(shù)據(jù)可能導(dǎo)致多數(shù)類樣本信息丟失的風(fēng)險(xiǎn),從而影響分類器性能。與欠采樣相反,過(guò)采樣方法則是通過(guò)增加少數(shù)類樣本數(shù)量使之達(dá)到平衡,以提高少數(shù)類的分類準(zhǔn)確率。其中,Chawla 等[10]以隨機(jī)向上抽樣為核心思想提出的SMOTE(Synthetic Minority Oversam?pling Technique,SMOTE)算法最為經(jīng)典,該算法通過(guò)人為生成少數(shù)類樣本,使數(shù)據(jù)集中少數(shù)類樣本與多數(shù)類樣本數(shù)量比例趨于平衡,并將新合成的少數(shù)類數(shù)據(jù)集與原始數(shù)據(jù)集進(jìn)行組合。然而,該算法對(duì)于插入的少數(shù)類樣本選擇全部保留,少數(shù)類人工樣本都是通過(guò)隨機(jī)插值合成的,并不是所有少數(shù)類樣本都是有益的,因此會(huì)產(chǎn)生部分噪聲數(shù)據(jù)[11]。

        針對(duì)上述問(wèn)題,本文通過(guò)SMOTE 算法對(duì)少數(shù)類進(jìn)行過(guò)采樣,并提出一種改進(jìn)SMOTE 的過(guò)采樣算法,篩選有利于數(shù)據(jù)分類的人工樣本,去除噪聲數(shù)據(jù),然后結(jié)合集成學(xué)習(xí)[12-13]隨機(jī)森林算法完成數(shù)據(jù)分類任務(wù),解決了不平衡漆器數(shù)據(jù)分類中少數(shù)類準(zhǔn)確率較低的問(wèn)題,提高了算法分類性能。

        1 不平衡漆器漆膜數(shù)據(jù)分類

        1.1 數(shù)據(jù)收集

        本課題擬以戰(zhàn)國(guó)早、中、晚期湖北不同地區(qū)、不同墓葬出土的漆木器為研究對(duì)象,以曾侯乙墓、包山二號(hào)墓、九連墩二號(hào)墓出土的漆木器為重點(diǎn),綜合運(yùn)用理化分析和比較研究等手段,針對(duì)漆膜分層結(jié)構(gòu)與組成成分、漆膜厚度、各種顏料成分及粘合劑等進(jìn)行分析研究。所有漆器樣品均來(lái)自湖北省博物館館藏,部分漆器樣本如圖1 所示。

        通過(guò)掃描電鏡、能譜儀、激光顯微鏡等微區(qū)分析手段對(duì)戰(zhàn)國(guó)漆器漆膜不同結(jié)構(gòu)層的成分和物像進(jìn)行原位分析是目前常用的儀器分析方法。表1 為部分戰(zhàn)國(guó)漆器漆膜能譜儀(Energy Dispersive Spectrometer,EDS)分析數(shù)據(jù),這些數(shù)據(jù)來(lái)自曾侯乙墓、包山二號(hào)墓、九連墩二號(hào)墓等湖北地區(qū)出土的喪葬用具、生活用具、樂(lè)器、兵器、車馬器和甲胄6 類漆器。戰(zhàn)國(guó)漆器漆膜數(shù)據(jù)包括戰(zhàn)國(guó)早期、中晚期和晚期3 個(gè)時(shí)期的數(shù)據(jù),實(shí)驗(yàn)對(duì)各時(shí)期漆器漆膜數(shù)據(jù)特征進(jìn)行分析。

        Fig.1 Lacquer sample圖1 漆器樣本

        Table 1 Analysis data of some Warring States lacquerware films by energy dispersive spectrometer表1 部分戰(zhàn)國(guó)漆器漆膜能譜儀分析數(shù)據(jù)

        1.2 分類評(píng)價(jià)指標(biāo)

        傳統(tǒng)分類算法常采用準(zhǔn)確率作為衡量算法有效性的指標(biāo),但準(zhǔn)確率對(duì)于不平衡數(shù)據(jù)集而言,不能準(zhǔn)確衡量少數(shù)類的精度。為更好地評(píng)估分類器性能,通常采用基于混淆矩陣的其它指標(biāo)進(jìn)行綜合考量[14]?;煜仃嚾绫? 所示。

        Table 2 Confusion matrix表2 混淆矩陣

        準(zhǔn)確率如式(1)所示,還有一些其它指標(biāo)如precision表示精確率,用于衡量預(yù)測(cè)為正類中真正正類的概率,如式(2)所示;recall 表示召回率,用于衡量在正類中正類預(yù)測(cè)正確的概率,如式(3)所示;F1-score 是precision 與recall的調(diào)和平均數(shù),是對(duì)兩者進(jìn)行綜合考量的一個(gè)評(píng)價(jià)指標(biāo),如式(4)所示[15]。AUC 是ROC 曲線下的面積,可以較好地對(duì)不平衡分類算法進(jìn)行評(píng)價(jià)[15]。

        2 理論研究

        2.1 隨機(jī)森林算法

        隨機(jī)森林分類模型是由多個(gè)決策樹{H(X,θk),k=1,2,...,K}所集成的,其中k是決策樹個(gè)數(shù),{θk} 是相互獨(dú)立的隨機(jī)向量。通過(guò)隨機(jī)生成樣本訓(xùn)練集分配到?jīng)Q策樹上進(jìn)行獨(dú)立處理,直到所有樹停止生長(zhǎng),將所有結(jié)果集成到一個(gè)集合并公平地進(jìn)行投票,票數(shù)最多的類別為最終輸出結(jié)果,該過(guò)程采用了集成學(xué)習(xí)中的Bagging(Bootstrap aggre?gating)思想[16]。采用最簡(jiǎn)單的投票規(guī)則,輸入變量x 的最終分類結(jié)果如式(5)所示。

        式中,hi(x)為單個(gè)決策樹模型,y為對(duì)應(yīng)類別,I(?)為示性函數(shù)(值為1 或0),H(x)為組合分類器模型,argmax函數(shù)表示括號(hào)中表達(dá)式取最大值時(shí)x、y的取值。

        泛化誤差是指機(jī)器學(xué)習(xí)模型通過(guò)訓(xùn)練集訓(xùn)練后,在任意測(cè)試樣本集上表現(xiàn)出的誤差期望值。根據(jù)Leo Breiman的定義,隨機(jī)森林模型泛化誤差PE*如式(6)所示。

        泛化誤差PE*反映了通過(guò)訓(xùn)練模型構(gòu)建的集成分類器對(duì)測(cè)試樣本正確分類的能力,泛化誤差越小,表明該模型分類性能越好[17]。

        2.2 SMOTE 算法

        SMOTE 算法是經(jīng)典的啟發(fā)式采樣算法[18-19],是用于合成少數(shù)類樣本的過(guò)采樣技術(shù)。它其實(shí)是隨機(jī)過(guò)采樣算法的一種改進(jìn)算法,通過(guò)隨機(jī)過(guò)采樣增加少數(shù)類樣本的方法只是通過(guò)簡(jiǎn)單復(fù)制樣本,雖然操作簡(jiǎn)單,但會(huì)使模型學(xué)習(xí)到的信息過(guò)于特別而不夠泛化,而SMOTE 算法是通過(guò)少數(shù)類樣本在特征空間的相似性合成少數(shù)類樣本。

        設(shè)原始數(shù)據(jù)集為S,少數(shù)類樣本集為X(X∈S),樣本數(shù)目為xnum,SMOTE 算法具體流程如下:

        (1)對(duì)于每一個(gè)少數(shù)類樣本,在少數(shù)類樣本集X 中找出該樣本的k 個(gè)最近鄰。

        (2)從k 個(gè)最近鄰樣本中隨機(jī)選擇n 個(gè)樣本xj(j=1,2,...n),然后對(duì)每一個(gè)樣本按照式(7)合成新的少數(shù)類樣本。

        其中,rand(0,1)表示產(chǎn)生一個(gè)0~1 的隨機(jī)數(shù)。

        (3)重復(fù)步驟(2),直到插入的少數(shù)類使新數(shù)據(jù)達(dá)到平衡。新合成的少數(shù)類數(shù)據(jù)集與原始數(shù)據(jù)集構(gòu)成平衡數(shù)據(jù)集S'。

        2.3 改進(jìn)的SMOTE 算法

        借鑒Relief 特征選擇算法思想[20-21],Relief 算法是通過(guò)計(jì)算在特征上樣本與同類最近鄰及異類最近鄰的歐氏距離,然后對(duì)比歐氏距離進(jìn)行特征選擇;RSMOTE 算法則是比較插入樣本與少數(shù)類中k 個(gè)最近鄰樣本的歐氏距離之和的平均值,以及每個(gè)少數(shù)類樣本與其它少數(shù)類中k 個(gè)最近鄰樣本平均歐氏距離之和的平均值。設(shè)原始數(shù)據(jù)集為S,少數(shù)類樣本集為X(X∈S),樣本數(shù)目為xnum,RSMOTE 算法具體流程如下:

        (1)計(jì)算少數(shù)類數(shù)據(jù)集中每個(gè)樣本xi(i=1,2,...xnum)與k 個(gè)同類最近鄰樣本的平均歐氏距離Dx(xi),累加后除以總樣本數(shù)xnum,得到少數(shù)類樣本之間的平均歐氏距離Dxx,表達(dá)式如下:

        (2)使用SMOTE 算法合成少數(shù)類樣本時(shí),計(jì)算新合成的樣本xnew與k 個(gè)同類最近鄰樣本的平均歐氏距離Dnewx,對(duì)比Dnewx與Dxx,計(jì)算距離比。當(dāng)μ≤1 時(shí),說(shuō)明新合成的樣本在少數(shù)類樣本密集區(qū);當(dāng)μ>1 時(shí),說(shuō)明Dnewx比較大,可能該樣本距離少數(shù)類樣本稍遠(yuǎn),也可能該樣本就在多數(shù)類樣本密集區(qū),因此將該樣本剔除。

        (3)重復(fù)步驟(2)的歐氏距離判定過(guò)程,直到數(shù)據(jù)集達(dá)到平衡。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本章所用實(shí)驗(yàn)數(shù)據(jù)選自UCI 公開數(shù)據(jù)庫(kù)中的3 個(gè)不平衡數(shù)據(jù)集(glass、diabetes、blood),以及不平衡漆器漆膜數(shù)據(jù)集(qiqi_data)。針對(duì)有多個(gè)類別的數(shù)據(jù)集,將其轉(zhuǎn)化為只有少數(shù)類和多數(shù)類的二類數(shù)據(jù)集。

        3.2 實(shí)驗(yàn)設(shè)計(jì)

        為驗(yàn)證模型的有效性,本文利用分層隨機(jī)劃分方法,確保訓(xùn)練集與測(cè)試集的樣本不平衡率一致,并采用80% 的訓(xùn)練集、20% 的測(cè)試集進(jìn)行實(shí)驗(yàn)。由于訓(xùn)練集與測(cè)試集劃分以及各采樣算法過(guò)程存在一定隨機(jī)性,為充分驗(yàn)證不同算法分類效果,所有分類指標(biāo)計(jì)算結(jié)果均為循環(huán)10 次求得的平均值。

        本實(shí)驗(yàn)首先對(duì)3 個(gè)不平衡UCI 公開數(shù)據(jù)集采用SMOTE、RSMOTE 算法進(jìn)行過(guò)采樣,為保證采樣結(jié)果的可比性,分別使用RF、SMOTE+RF(SRF)、RSMOTE+RF(RSRF)進(jìn)行實(shí)驗(yàn),通過(guò)對(duì)比驗(yàn)證改進(jìn)過(guò)采樣RSMOTE 算法的有效性,最后對(duì)不平衡漆器漆膜數(shù)據(jù)進(jìn)行分類。

        3.3 實(shí)驗(yàn)結(jié)果分析

        近鄰參數(shù)k 是RSMOTE 過(guò)采樣算法的關(guān)鍵參數(shù),對(duì)3個(gè)UCI 數(shù)據(jù)集分別在不同k 值下計(jì)算分類方法的最優(yōu)F1-score 與最優(yōu)AUC 值,然后取3 個(gè)數(shù)據(jù)集F1-score 與AUC的均值,如圖2 所示。從圖中可以看出,當(dāng)k 值為5 時(shí),F(xiàn)1-score 與AUC 的值最優(yōu)。因此,為了增強(qiáng)算法的可對(duì)比性,將幾種分類算法的近鄰參數(shù)k 均設(shè)為5。

        Fig.2 Average F1 score and average AUC under different K values圖2 不同k 值平均F1-score 與AUC

        對(duì)3 個(gè)數(shù)據(jù)集分別進(jìn)行不采樣、SMOTE 過(guò)采樣以及RSMOTE 過(guò)采樣,之后使用RF 算法、SRF 算法以及RSRF算法進(jìn)行數(shù)據(jù)分類,分別比較F1-score 與AUC 值,結(jié)果如表3 所示。相比另外兩種算法,改進(jìn)算法在diabetes 數(shù)據(jù)集上F1-score 與AUC 值的提升不是很明顯,但在其它數(shù)據(jù)集上,F(xiàn)1-score 與AUC 值均有明顯提升。

        Table 3 Comparison of results under different sampling methods表3 不同采樣方法F1-socre 與AUC 值對(duì)比

        上述實(shí)驗(yàn)驗(yàn)證了改進(jìn)RSMOTE 算法比原算法具有更好的性能,將該方法運(yùn)用于古漆器年代判別中,首先通過(guò)RSMOTE 算法進(jìn)行數(shù)據(jù)預(yù)處理,然后對(duì)幾種機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表4 所示。

        由表4 可見(jiàn),隨機(jī)森林算法兩個(gè)指標(biāo)都很高,進(jìn)一步證明了數(shù)據(jù)預(yù)處理結(jié)合集成學(xué)習(xí)算法能夠有效解決數(shù)據(jù)不平衡問(wèn)題。

        Table 4 Comparison of experimental results of age determination of ancient lacquerware表4 不同算法古漆器年代判別結(jié)果對(duì)比

        4 結(jié)語(yǔ)

        針對(duì)古漆器漆膜數(shù)據(jù)類別不平衡、樣本規(guī)模小等問(wèn)題,結(jié)合數(shù)據(jù)預(yù)處理與集成學(xué)習(xí)算法,提出一種改進(jìn)的SMOTE 過(guò)采樣算法,并運(yùn)用隨機(jī)森林算法進(jìn)行分類,建立了漆器能譜分析數(shù)據(jù)與漆器年代的內(nèi)在映射關(guān)系。針對(duì)不同采樣方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,本文算法的F1-score 與AUC 值均有明顯提升。但該方法也存在一些不足,本文主要研究古漆器年代判別并對(duì)漆器能譜特征進(jìn)行分類,而地域特征也可能會(huì)對(duì)能譜特征造成一定影響,接下來(lái)將考慮融合漆器的地域特征進(jìn)行研究。另外,針對(duì)古漆器漆膜數(shù)據(jù)的其它應(yīng)用,如漆器類型分類、漆器漆膜各組成成分關(guān)聯(lián)分析等也有一定的研究?jī)r(jià)值。

        猜你喜歡
        歐氏漆膜漆器
        Semer la graine de la transmission du patrimoine culturel immatériel
        汽車重涂漆膜質(zhì)量的檢驗(yàn)方法
        一種超級(jí)流平的PE白底的配方設(shè)計(jì)
        山東化工(2020年20期)2020-11-25 12:19:42
        潤(rùn)滑油漆膜的成因及其消除方法
        潤(rùn)滑油(2020年1期)2020-03-09 01:49:26
        穩(wěn)定漆膜厚度與降低電泳漆消耗的關(guān)系研究
        漆器收藏三問(wèn)
        老友(2018年9期)2018-10-11 06:13:32
        漆器匠人坂本雅彥
        如何辨別新老漆器
        基于多維歐氏空間相似度的激光點(diǎn)云分割方法
        麗江“思奔記”(上)
        探索地理(2013年5期)2014-01-09 06:40:44
        中文字幕亚洲无线码a| 97久久超碰国产精品旧版| 中文字幕亚洲情99在线| 青草网在线观看| 手机在线中文字幕av| 一本色综合网久久| 人妻暴雨中被强制侵犯在线| 亚洲两性视频一三区| 日本伦理视频一区二区| 国产精品婷婷久久爽一下| 欧洲一卡2卡三卡4卡免费网站 | 粗大的内捧猛烈进出看视频| 日日噜噜噜夜夜爽爽狠狠| 国产精品乱子伦一区二区三区| 少妇被啪出水在线视频| 亚洲精品蜜夜内射| 97精品伊人久久大香线蕉app| 日本一区二区三区在线播放| 一区二区三区国产内射| wwww亚洲熟妇久久久久| āV第三区亚洲狠狠婷婷综合久久| 日韩在线精品视频免费| 国产精品国产三级第一集| 日本aⅴ大伊香蕉精品视频| 韩国一级成a人片在线观看| 亚洲成人av一区二区| 亚洲中文字幕无码不卡电影| 精品少妇一区二区三区视频| 麻美由真中文字幕人妻| 国产在线观看91一区二区三区| 午夜无码国产理论在线| 亚洲色图视频在线观看网站| 高清国产亚洲精品自在久久| 国产成人无码精品久久久露脸| 无码欧亚熟妇人妻AV在线外遇 | 中文字幕天天躁日日躁狠狠躁免费| аⅴ天堂国产最新版在线中文| 国产伦精品一区二区三区| 丰满的人妻hd高清日本| 亚洲狠狠网站色噜噜| 精品一区二区久久久久久久网站|