亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RF_AdaBoost模型的血液種屬鑒別算法

        2020-01-16 01:02:08魏曼曼路皓翔楊輝華
        關(guān)鍵詞:分類模型

        魏曼曼, 路皓翔, 楊輝華,3

        (1. 桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院, 2. 電子工程與自動(dòng)化學(xué)院, 桂林 541004;3. 北京郵電大學(xué)自動(dòng)化學(xué)院, 北京 100876)

        拉曼光譜分析技術(shù)屬于光譜分析技術(shù)中的一種, 具有豐富的分子結(jié)構(gòu)信息, 且對(duì)檢測(cè)樣本無污染、 檢測(cè)速度快[1], 因此在高聚物、 珠寶鑒別、 藥物鑒別、 食品檢測(cè)以及石油化工等領(lǐng)域中的應(yīng)用極為廣泛[2,3]. 近年來, 血液種屬鑒別在珍稀動(dòng)物保護(hù)、 海關(guān)以及刑偵等方面起到重要作用[4], 然而, 當(dāng)前尚無快速、 準(zhǔn)確、 可靠性強(qiáng)的血液種屬鑒別方法, 導(dǎo)致在實(shí)際應(yīng)用中極為不便.

        拉曼光譜反映了物質(zhì)內(nèi)部分子的極化度[5], 不同物質(zhì)的拉曼光譜信息不同, 如水分的拉曼光譜比較弱而血液中其它成分的拉曼光譜則較強(qiáng), 基于拉曼光譜的這一特點(diǎn), 研究人員越來越重視拉曼光譜分析技術(shù)在血液種屬鑒別方面的應(yīng)用研究. 如Kelly等[6]將統(tǒng)計(jì)學(xué)分析方法如慢特征分析、 主成分分析和交叉驗(yàn)證法應(yīng)用于人、 犬和貓3個(gè)物種的分類研究, 通過對(duì)采集到的拉曼光譜進(jìn)行分析并提取主成分, 實(shí)現(xiàn)了這3個(gè)物種的有效分離. McLaughlin等[7]將二元偏最小二乘判別模型應(yīng)用于人、 貓和狗等12個(gè)種屬血液樣本的鑒別. Mistek等[8]采集了人、 貓和犬血跡的傅里葉變換紅外光譜樣本數(shù)據(jù), 將其用于建立偏最小二乘判別模型并實(shí)現(xiàn)3個(gè)物種的分類. Fujihara等[9]建立主成分分析模型, 將便攜式拉曼光譜儀采集的人類和非人類血液樣本的拉曼光譜進(jìn)行有效區(qū)分, 該模型在血液于室溫下保存90 d的情況下仍然適用. 陳秀麗等[10]利用激光鑷子拉曼光譜技術(shù)采集正常細(xì)胞和地貧紅細(xì)胞的光譜數(shù)據(jù), 并結(jié)合主成分分析和反向傳播算法實(shí)現(xiàn)了細(xì)胞鑒別. 潘建基等[11]以血清的顯微共聚焦拉曼光譜數(shù)據(jù)為研究對(duì)象, 結(jié)合主成分分析和判別分析法實(shí)現(xiàn)了鼻咽癌的早期診斷, 但對(duì)鼻咽癌組血清的檢測(cè)靈敏度僅為89.7%. 白鵬利等[12]獲取了人與動(dòng)物血液拉曼光譜數(shù)據(jù), 利用杠桿值和殘差值剔除異常數(shù)據(jù), 并結(jié)合主成分分析法進(jìn)行檢測(cè)研究. 鄭祥權(quán)等[13]以小波去噪和基線校正對(duì)人血和比格犬血的拉曼光譜進(jìn)行預(yù)處理, 并結(jié)合主成分分析法構(gòu)建了線性判別模型. 文獻(xiàn)[6~9]均采用干燥后的血液樣品進(jìn)行實(shí)驗(yàn), 無法適應(yīng)海關(guān)進(jìn)出口血液鑒定等場(chǎng)景的需求; 文獻(xiàn)[10,11]分別采用俘獲的單個(gè)紅細(xì)胞和晾干后的血清樣品進(jìn)行血液分析, 會(huì)對(duì)樣本造成破壞; 文獻(xiàn)[12,13]雖然在樣本制備時(shí)采用了無損的方式, 且對(duì)人類和非人類血液種屬識(shí)別準(zhǔn)確度分別達(dá)到95%和90%, 但檢測(cè)性能仍有待提高.

        近年來, 隨著人工智能的興起, 機(jī)器學(xué)習(xí)技術(shù)在石油化工、 藥品鑒別等行業(yè)備受關(guān)注[14,15], 作為機(jī)器學(xué)習(xí)的一個(gè)分支, 集成學(xué)習(xí)更是憑借分類準(zhǔn)確度高、 可靠性強(qiáng)等優(yōu)點(diǎn)逐漸應(yīng)用到眾多領(lǐng)域并占據(jù)越來越重要的地位[16,17], 其中隨機(jī)森林(RF)及Adaptive Boosting Algorithm(AdaBoost)算法是集成學(xué)習(xí)領(lǐng)域的杰出代表. 本文采用泛化性能強(qiáng)、 分類準(zhǔn)確度高的RF算法作為AdaBoost的弱分類器, 通過弱分類器判別準(zhǔn)確度確定權(quán)重從而組合為強(qiáng)分類器. 為了驗(yàn)證該方法的性能, 以人和動(dòng)物血液的拉曼光譜數(shù)據(jù)為實(shí)例, 并與支持向量機(jī)(SVM)、 極限學(xué)習(xí)機(jī)(ELM)、 核極限學(xué)習(xí)機(jī)(KELM)、 堆棧自編碼網(wǎng)絡(luò)(SAE)、 反向傳播網(wǎng)絡(luò)(BP)、 主成分分析-線性判別法(PCA-LDA)、 偏最小二乘判別分析(PLS-DA)和RF算法進(jìn)行對(duì)比, 從分類準(zhǔn)確度、 模型運(yùn)行時(shí)間和穩(wěn)定性3個(gè)方面驗(yàn)證了該方法的有效性.

        1 RF_AdaBoost模型

        RF算法由Leo Breiman等[18]于2001年提出, 具有穩(wěn)定性強(qiáng)、 分類準(zhǔn)確度高的優(yōu)點(diǎn), 其訓(xùn)練集在Bootstrap重采樣的過程下隨機(jī)產(chǎn)生, 且內(nèi)部決策樹選取屬性時(shí)也是隨機(jī)的. Freund等[19]對(duì)Boosting算法進(jìn)行改良, 使算法能夠自適應(yīng)調(diào)整樣本權(quán)重和弱分類器級(jí)聯(lián)權(quán)重, 形成性能優(yōu)良的AdaBoost算法. 該算法采用加權(quán)樣本訓(xùn)練下一個(gè)弱分類器, 同時(shí)根據(jù)每次迭代中的預(yù)測(cè)誤差調(diào)整弱分類器權(quán)重, 從而將弱分類器按照權(quán)重整合成符合實(shí)際需求的強(qiáng)分類器. 本文結(jié)合RF較強(qiáng)的分類預(yù)測(cè)準(zhǔn)確度及AdaBoost算法自適應(yīng)調(diào)整數(shù)據(jù)分布的優(yōu)點(diǎn), 將RF作為AdaBoost算法的弱分類器, 旨在提高算法分類準(zhǔn)確率及抗噪聲能力, 模型具體框架如圖1所示.

        Fig.1 Framework of RF_AdaBoost model

        該模型進(jìn)行血液種屬鑒別的過程主要分為2個(gè)階段: RF弱分類器訓(xùn)練階段和強(qiáng)分類器樣本類別決策階段. 模型對(duì)樣本進(jìn)行分類預(yù)測(cè)的詳細(xì)流程如下:

        初始化. 對(duì)RF_AdaBoost模型中RF弱分類器的數(shù)目及單個(gè)RF中決策樹的數(shù)目進(jìn)行初始化, 并初始化樣本權(quán)重u1,i:

        (1)

        式中:m為訓(xùn)練集包含的樣本數(shù)目.

        弱分類器訓(xùn)練. 根據(jù)RF投票決策策略, 第t個(gè)分類器的分類結(jié)果Gt(x)為

        (2)

        預(yù)測(cè)誤差計(jì)算. 為使預(yù)測(cè)結(jié)果更準(zhǔn)確, 應(yīng)根據(jù)RF弱分類器的預(yù)測(cè)誤差率對(duì)樣本權(quán)重進(jìn)行調(diào)整, 使上一輪誤分類樣本在下一輪迭代中所占比重更大, 因此, 計(jì)算第t個(gè)RF弱分類器對(duì)于序列Gt(x)的預(yù)測(cè)誤差率et:

        (3)

        式中:ut,i表示第t個(gè)RF弱分類器的樣本權(quán)重;I為單位向量;y為期望分類結(jié)果. 預(yù)測(cè)誤差率越小表示弱分類器對(duì)樣本的預(yù)測(cè)結(jié)果越準(zhǔn)確.

        弱分類器組合. 根據(jù)在模型中作用越大的弱分類器預(yù)測(cè)誤差應(yīng)越小的原則, 計(jì)算第t個(gè)RF弱分類器的權(quán)重λt:

        (4)

        式中:et為第t個(gè)RF弱分類器的預(yù)測(cè)誤差率.

        樣本權(quán)重調(diào)整. 為使下一輪迭代中RF弱分類器能夠正確區(qū)分誤分類樣本, 應(yīng)對(duì)樣本權(quán)重進(jìn)行更新, 放大誤分類樣本權(quán)重并縮小正確分類樣本權(quán)重. 假設(shè)前t-1輪迭代所產(chǎn)生的分類器ft-1(x)已知, 即

        ft-1(x)=ft-2(x)+λt-1Gt-1(x)=λ1G1(x)+…+λt-1Gt-1(x)

        (5)

        則模型的損失函數(shù)在當(dāng)前樣本權(quán)重下應(yīng)最小:

        (6)

        (7)

        強(qiáng)分類函數(shù)集成. 訓(xùn)練T輪后得到T組弱分類函數(shù)Gt(x), 由Gt(x)組合得到強(qiáng)分類函數(shù)f(x):

        (8)

        式中:λt為第t輪訓(xùn)練時(shí)的弱分類器權(quán)重. 強(qiáng)分類函數(shù)f(x)經(jīng)二值化后得到最終用于血液種屬鑒別的強(qiáng)分類器h(x):

        (9)

        2 實(shí)驗(yàn)部分

        2.1 材 料

        實(shí)驗(yàn)用血液樣本共計(jì)1033例, 其中535例人類血液樣本由廣西桂林市某醫(yī)院提供, 498例動(dòng)物血液樣本由廣西桂林市某研究中心提供.

        2.2 樣品的制備

        所有血液樣本不進(jìn)行任何前處理, 均置于EDTA抗凝管中. 用移液槍移取少量抗凝管中的血液樣本, 滴至清洗并干燥后的鍍鋁載玻片上, 進(jìn)行拉曼光譜測(cè)量. 載玻片采用體積分?jǐn)?shù)為75%的乙醇清洗, 以防止干擾拉曼信號(hào)并避免樣品間的交叉污染.

        2.3 光譜采集及預(yù)處理

        Fig.2 Raman spectroscopy of blood

        2.3.1 光譜采集 采用Finder Vista激光共聚焦顯微拉曼光譜儀(北京卓立漢光儀器有限公司)對(duì)血液樣本進(jìn)行測(cè)量, 激發(fā)波長(zhǎng)設(shè)置為785 nm, 積分時(shí)間為10 s. 將200~2000 cm-1的拉曼位移范圍等間隔劃分為1778個(gè)特征波長(zhǎng)點(diǎn), 測(cè)量每點(diǎn)對(duì)應(yīng)的拉曼強(qiáng)度值, 進(jìn)而得到其拉曼光譜曲線. 每例樣本采集5條光譜, 取其平均光譜作為該樣本的光譜曲線. 實(shí)驗(yàn)時(shí)將人類血液光譜標(biāo)記為正類樣本, 非人類血液光譜標(biāo)記為負(fù)類樣本, 樣品的光譜信息如圖2所示. 由圖2可見, 血液拉曼光譜在417, 754, 1003, 1226, 1547和1620 cm-1處均有明顯出峰. 血液樣本中核酸和蛋白質(zhì)組成成分的多樣性以及含量差異導(dǎo)致不同拉曼位移處的光譜相對(duì)強(qiáng)度不同, 位于754 cm-1處譜峰的形成是由于核酸結(jié)構(gòu)的差異性所致, 而位于417, 1003, 1226, 1547和1620 cm-1處的拉曼譜峰是由蛋白質(zhì)中物質(zhì)含量的多樣性造成的. 這證明血液拉曼光譜中含有豐富的遺傳信息, 并且對(duì)血液中分子組成、 結(jié)構(gòu)、 含量等信息分析具有重要的參考價(jià)值, 可用于提高血液種屬判別的準(zhǔn)確度.

        采用如圖2所示的血液拉曼光譜數(shù)據(jù)集, 對(duì)RF_AdaBoost模型從分類準(zhǔn)確度、 模型穩(wěn)定性及算法運(yùn)行時(shí)間3個(gè)方面進(jìn)行性能評(píng)估. 在實(shí)驗(yàn)所用數(shù)據(jù)集中, 正、 負(fù)類樣本數(shù)目之比約為1∶1, 為使數(shù)據(jù)分布保持一致, 避免引入額外的偏差影響實(shí)驗(yàn)結(jié)果, 采用1∶1的比例隨機(jī)選取正、 負(fù)類樣本構(gòu)造訓(xùn)練集. 如訓(xùn)練集所含樣本數(shù)目為100時(shí), 應(yīng)隨機(jī)選取正樣本、 負(fù)樣本各50例, 其中正樣本占比為50/535≈0.093, 負(fù)樣本占比為50/498≈0.100, 因此隨機(jī)選取正樣本總數(shù)的9.3%以及負(fù)樣本總數(shù)的10%構(gòu)成訓(xùn)練集, 剩余樣本構(gòu)成測(cè)試集. 具體劃分情況如表1所示, 按此方式構(gòu)建出9種不同規(guī)模的訓(xùn)練集進(jìn)行實(shí)驗(yàn), 以驗(yàn)證RF_AdaBoost模型在不同規(guī)模訓(xùn)練集下的性能.

        Table 1 Distribution of positive and negative samples in the training sets

        Fig.3 Raman spectroscopy of blood after pretreatment

        2.3.2 光譜預(yù)處理 在樣品拉曼光譜獲取過程中, 由于外界環(huán)境變化、 激光功率波動(dòng)等原因, 導(dǎo)致光譜數(shù)據(jù)中包含大量無關(guān)信息和噪聲. 為減少無關(guān)信息對(duì)鑒別模型的影響, 提高模型的預(yù)測(cè)能力, 需要對(duì)實(shí)驗(yàn)所用相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理. 本實(shí)驗(yàn)采用Savitzky-Golay(S-G)平滑法和求導(dǎo)數(shù)2種方法對(duì)實(shí)驗(yàn)樣品的拉曼光譜數(shù)據(jù)進(jìn)行預(yù)處理. 首先, 采用S-G 5點(diǎn)平滑法消去樣品光譜數(shù)據(jù)中噪聲對(duì)分析模型建立的影響, 較好地保留光譜的原始信息; 然后, 對(duì)平滑處理后的樣品光譜數(shù)據(jù)求一階導(dǎo)數(shù), 移除背景成分使拉曼特征峰更加顯著. 預(yù)處理之后的樣品拉曼光譜如圖3所示.

        2.4 相關(guān)參數(shù)設(shè)置

        2.4.1 決策樹的數(shù)目 RF_AdaBoost血液種屬鑒別模型采用RF作為弱分類器, 而RF本身就是多棵決策樹集成在一起的, 決策樹的數(shù)目會(huì)對(duì)RF的性能產(chǎn)生一定影響. 為保證模型整體性能達(dá)到最優(yōu), 首先需要確定單個(gè)弱分類器中決策樹的數(shù)目. 按照表1所示方式隨機(jī)選取訓(xùn)練集樣本, 在不同樣本規(guī)模下驗(yàn)證了決策樹的數(shù)目與血液種屬鑒別準(zhǔn)確度的關(guān)系, 具體關(guān)系如圖4所示. 可見, 當(dāng)訓(xùn)練集規(guī)模不同時(shí), 使RF分類準(zhǔn)確度達(dá)到峰值的決策樹數(shù)目不盡相同, 但都分布在100~200之間. 根據(jù)實(shí)際情況為不同規(guī)模的訓(xùn)練集選擇不同的決策樹數(shù)目, 當(dāng)訓(xùn)練集規(guī)模為200, 300, 600, 700和800時(shí), 單個(gè)RF弱分類器的決策樹數(shù)目設(shè)為100; 當(dāng)訓(xùn)練集數(shù)目為500和900時(shí), 決策樹數(shù)目設(shè)為150; 當(dāng)訓(xùn)練集規(guī)模為100和400時(shí), 決策樹數(shù)目設(shè)為200.

        Fig.4 Relationship between the number of decision trees and the classification accuracy of RF

        Fig.5 Relationship between the number of weak classifiers and the classification accuracy of model

        2.4.2 弱分類器的數(shù)目 RF_AdaBoost模型對(duì)人類和非人類血液種屬鑒別過程中, 弱分類器數(shù)目對(duì)模型預(yù)測(cè)能力及泛化性能等也會(huì)產(chǎn)生一定影響, 過多的弱分類器數(shù)目會(huì)增加模型的時(shí)間復(fù)雜度, 甚至?xí)档湍P偷念A(yù)測(cè)準(zhǔn)確度, 故RF_AdaBoost模型在進(jìn)行血液種屬鑒別時(shí)需要選取合適的弱分類器數(shù)目. 按照表1所示數(shù)據(jù)集的劃分情況進(jìn)行鑒別實(shí)驗(yàn), 結(jié)果如圖5所示. 可見, 弱分類器數(shù)目在8~18之間時(shí)模型分類準(zhǔn)確度達(dá)到最高, 在不同訓(xùn)練集規(guī)模下使分類準(zhǔn)確度達(dá)到峰值的弱分類器數(shù)目不同, 綜合考慮模型的運(yùn)行時(shí)間, 建立RF_AdaBoost血液種屬鑒別模型時(shí)對(duì)各個(gè)樣本規(guī)模下的弱分類器數(shù)目分層次設(shè)置. 當(dāng)訓(xùn)練集數(shù)目為100時(shí), 模型中弱分類器的數(shù)目設(shè)為18; 當(dāng)訓(xùn)練集數(shù)目為200~400時(shí), 弱分類器數(shù)目設(shè)為12; 當(dāng)訓(xùn)練集數(shù)目為500~900時(shí), 弱分類器數(shù)目設(shè)為8.

        2.5 鑒別模型的建立

        實(shí)驗(yàn)中RF算法選用Randomforest-matlab工具箱(https://code.google.com/p/randomforst-matlab/), 采用MATLAB R2014a為編程軟件, 運(yùn)行在Intel(R) Core(TM) i5-6500 CPU@3.20GHz 3.19 GHz環(huán)境下. 實(shí)驗(yàn)所用RF_AdaBoost模型主要分為實(shí)驗(yàn)數(shù)據(jù)預(yù)處理、 弱分類訓(xùn)練及級(jí)聯(lián)、 強(qiáng)分類器預(yù)測(cè)輸出3個(gè)階段.

        2.5.1 光譜數(shù)據(jù)預(yù)處理 為除去拉曼光譜數(shù)據(jù)中夾雜的噪聲, 提高數(shù)據(jù)集的信噪比, 首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理. 依次采用S-G 5點(diǎn)平滑法和一階導(dǎo)數(shù)法處理樣品的光譜數(shù)據(jù), 使拉曼峰值更顯著, 同時(shí)增強(qiáng)模型抗干擾能力并提高預(yù)測(cè)性能.

        2.5.2 弱分類器訓(xùn)練 弱分類器初始化, 根據(jù)2.4節(jié)相關(guān)參數(shù)設(shè)置中的討論結(jié)果對(duì)單個(gè)RF弱分類器中的決策樹數(shù)目以及模型中的弱分類器個(gè)數(shù)進(jìn)行設(shè)置, 樣本初始權(quán)重1/m, 其中m為訓(xùn)練集樣本個(gè)數(shù), 并在迭代過程中不斷自動(dòng)調(diào)整樣本權(quán)重和各弱分類器權(quán)重.

        2.5.3 強(qiáng)分類器預(yù)測(cè)輸出 將各訓(xùn)練集規(guī)模下的全部弱分類器根據(jù)權(quán)重線性整合為強(qiáng)分類器, 輸入測(cè)試集得到RF_AdaBoost模型預(yù)測(cè)結(jié)果.

        2.5.4 對(duì)比實(shí)驗(yàn) 采用RF, SVM, ELM, KELM, SAE, BP, PCA-LDA以及PLS-DA模型進(jìn)行對(duì)比實(shí)驗(yàn), 其中每種訓(xùn)練集規(guī)模下RF模型所含決策樹的數(shù)目與RF_AdaBoost模型中單個(gè)弱分類器所含的決策樹數(shù)目相同; SVM選用線性核函數(shù), 參數(shù)c=1, gamma=0.3; ELM和KELM的網(wǎng)絡(luò)結(jié)構(gòu)均設(shè)置為1778-train*0.4-2(train為訓(xùn)練集樣本個(gè)數(shù)), KELM選用RBF核函數(shù); SAE和BP網(wǎng)絡(luò)均設(shè)置為1778-400-200-2, 迭代次數(shù)為100, 學(xué)習(xí)率為0.01, 激活函數(shù)選用sigmoid.

        3 結(jié)果與討論

        按照表1所示隨機(jī)抽取血液拉曼光譜數(shù)據(jù)組成訓(xùn)練集, 其余樣本組成測(cè)試集, 同時(shí)選取RF, ELM, KELM, SAE, BP, PCA-LDA以及PLS-DA進(jìn)行對(duì)比實(shí)驗(yàn). 每個(gè)比例的對(duì)比實(shí)驗(yàn)分別進(jìn)行10次, 每次實(shí)驗(yàn)時(shí)均需按照表1中數(shù)據(jù)集的構(gòu)成情況重新將數(shù)據(jù)隨機(jī)分配為訓(xùn)練集和測(cè)試集, 取10次測(cè)試的平均值作為最終結(jié)果, 并根據(jù)分類準(zhǔn)確度、 模型穩(wěn)定性以及運(yùn)行時(shí)間3個(gè)指標(biāo)對(duì)模型的鑒別能力進(jìn)行評(píng)估.

        3.1 血液光譜特征分析

        Fig.6 Raman representative spectroscopy of human and non-human blood

        人類和非人類血液的代表性拉曼光譜如圖6所示. 可見, 人類和非人類的血液拉曼光譜譜峰大致相同, 但譜峰的相對(duì)強(qiáng)度有明顯差異. 在2條代表性拉曼光譜中, 拉曼位移在240~1220 cm-1范圍內(nèi)時(shí), 人類血液光譜強(qiáng)度小于非人類血液; 而在1220~1670 cm-1范圍內(nèi), 人類血液拉曼光譜強(qiáng)度明顯超過非人類血液. 此外, 在330~450 cm-1和1220~1670 cm-1范圍內(nèi), 人類血液拉曼譜峰更明顯且更易于識(shí)別. 這表明人類和非人類遺傳物質(zhì)不同, 因此所包含的生物化學(xué)信息具有特異性, 不同核酸堿基和蛋白質(zhì)中氨基酸的構(gòu)成具有多樣性, 表現(xiàn)在拉曼光譜中即為譜峰強(qiáng)度的差異, 這為血液種屬鑒別提供了條件.

        3.2 分類準(zhǔn)確度

        分類準(zhǔn)確度是檢驗(yàn)?zāi)P托阅艿年P(guān)鍵指標(biāo). 采用表1所示的樣本集合構(gòu)建方式選取訓(xùn)練集和測(cè)試集, 得到各模型在10次實(shí)驗(yàn)下對(duì)于測(cè)試集的平均分類準(zhǔn)確度如表2所示. 可見, 在每種規(guī)模的訓(xùn)練集下, RF_AdaBoost模型的分類準(zhǔn)確度均保持在98%以上, 與其它模型相比有顯著提高; 模型分類準(zhǔn)確度隨著樣本規(guī)模的增大而提高, 當(dāng)訓(xùn)練集包含600~900個(gè)訓(xùn)練樣本時(shí), 分類準(zhǔn)確度達(dá)到100%, 表明該模型在此訓(xùn)練集規(guī)模下可以準(zhǔn)確實(shí)現(xiàn)血液種屬鑒別. 這是由于該模型較好地結(jié)合了RF的隨機(jī)性和AdaBoost的自適應(yīng)性, 抗噪聲能力得到有效增強(qiáng), 使得非線性建模能力更優(yōu).

        Table 2 Test sets classification accuracy of each model under different training set scales

        隨著訓(xùn)練集中樣本數(shù)量的增加, RF, SVM, ELM, KELM和PLS-DA的分類準(zhǔn)確度均呈上升趨勢(shì), SVM的準(zhǔn)確度僅次于RF_AdaBoost模型, 表明其解決了高維空間的分類問題, 可用于鑒別血液種屬, 但與RF_AdaBoost模型相比鑒別能力較弱. RF的分類準(zhǔn)確度次之, 這是因?yàn)橹夭蓸蛹夹g(shù)和決策樹集成方式中的隨機(jī)特性提高了模型性能. PLS-DA的分類準(zhǔn)確度較高, 表明觀測(cè)變量和預(yù)測(cè)變量投影到新空間后, 建立的模型能夠較好地預(yù)測(cè)血液種屬, 模型受訓(xùn)練集規(guī)模的影響較小, 準(zhǔn)確度約為94%. 此外, 在血液種屬鑒別實(shí)驗(yàn)中KELM和ELM也保持了較高的分類準(zhǔn)確度, 但KELM稍差于ELM, 表明核函數(shù)的加入并未起到改善模型性能的作用. PCA-LDA首先提取出了6個(gè)主成分, 進(jìn)而通過線性判別法對(duì)數(shù)據(jù)進(jìn)行分類, 但得到的預(yù)測(cè)結(jié)果較差, 表明此時(shí)的PCA未能提高建模質(zhì)量, 反而損失了部分?jǐn)?shù)據(jù)信息. SAE和BP在不同規(guī)模訓(xùn)練集下得到的分類準(zhǔn)確度均較低, 表明其非線性建模能力弱, 預(yù)測(cè)效果較差, 在血液種屬鑒別場(chǎng)景下這2種模型預(yù)測(cè)結(jié)果的可靠性較差.

        Fig.7 Standard deviation of prediction accuracy of each model

        3.3 模型的穩(wěn)定性

        模型的穩(wěn)定性決定其實(shí)際應(yīng)用的可靠性與泛化性能. 對(duì)于建立的RF_AdaBoost血液種屬鑒別模型, 采用10次重復(fù)實(shí)驗(yàn)的預(yù)測(cè)標(biāo)準(zhǔn)偏差作為模型穩(wěn)定性的衡量標(biāo)準(zhǔn), 各模型在不同規(guī)模訓(xùn)練集下的預(yù)測(cè)標(biāo)準(zhǔn)偏差如圖7所示. 可見, RF_AdaBoost模型穩(wěn)定性最優(yōu), 在任意規(guī)模訓(xùn)練集下均表現(xiàn)出最低的預(yù)測(cè)標(biāo)準(zhǔn)偏差, 表明與其它模型相比RF_AdaBoost模型用于血液種屬鑒別時(shí)效果是最穩(wěn)定. RF, SVM和PLS-DA的穩(wěn)定性優(yōu)于ELM, KELM, SAE以及BP模型, 表明這3種模型魯棒性較好, 但與RF_AdaBoost相比效果較差. SVM的表現(xiàn)僅次于RF_AdaBoost模型, 而PCA-LDA, SAE, ELM, KELM及BP模型的穩(wěn)定性最差.

        3.4 模型運(yùn)行時(shí)間

        模型運(yùn)行時(shí)間可用于衡量模型的預(yù)測(cè)效率, 實(shí)驗(yàn)所得結(jié)果如表3所示. 可見, RF_AdaBoost模型運(yùn)行時(shí)間較長(zhǎng), 這是由于除了受到訓(xùn)練集樣本數(shù)目的影響外, 其構(gòu)建時(shí)集成了多個(gè)RF弱分類器, 且受不同規(guī)模的訓(xùn)練集下單個(gè)RF弱分類器中決策樹棵數(shù)的影響較大.

        Table 3 Training time of each model under different training set scales

        隨著訓(xùn)練集樣本的增加, SVM, ELM, KELM, SAE, BP以及PLS-DA模型的單次運(yùn)行時(shí)間均逐漸延長(zhǎng). SVM和以決策樹為基礎(chǔ)的RF模型運(yùn)行速度較快, 因?yàn)槠浒目烧{(diào)參數(shù)較少且模型簡(jiǎn)潔. 而ELM和KELM運(yùn)行速度較快, 是因?yàn)槠淠P徒Y(jié)構(gòu)由輸入層、 隱含層和輸出層組成, 分別采用隨機(jī)設(shè)定和解方程組即可確定前兩者的連接權(quán)值以及隱含層的閾值、 后兩者的連接權(quán)值等重要參數(shù), 解決方式簡(jiǎn)便易行, 無需大量時(shí)間即可完成運(yùn)算. PLS-DA模型向新空間投影后用于解釋樣本的觀測(cè)數(shù)目少, 因此能較為快速的得出實(shí)驗(yàn)結(jié)果. 同樣的, PCA-LDA對(duì)數(shù)據(jù)降維后再進(jìn)行分類, 降低了算法的計(jì)算開銷, 因此運(yùn)行時(shí)間較短. SAE和BP的運(yùn)行時(shí)間與其它模型相比較長(zhǎng), 因?yàn)檫@兩種模型在實(shí)驗(yàn)中均為包含兩層隱含層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 且需要對(duì)各節(jié)點(diǎn)參數(shù)層層傳播及訓(xùn)練.

        4 結(jié) 論

        以RF作為AdaBoost的弱分類器, 提出了一種同時(shí)具備RF的隨機(jī)性和AdaBoost的自適應(yīng)性的血液種屬鑒別方法, 旨在提高模型預(yù)測(cè)能力及抗噪聲性能. 為擴(kuò)充實(shí)驗(yàn)內(nèi)容, 在一定程度上反映所建立模型的科學(xué)性和普適性, 采用構(gòu)造不同規(guī)模訓(xùn)練集進(jìn)行實(shí)驗(yàn)的形式對(duì)模型性能進(jìn)行評(píng)估. 實(shí)驗(yàn)結(jié)果表明, 在訓(xùn)練集中樣本數(shù)目為600~900時(shí), 準(zhǔn)確度達(dá)到100%, 且不論訓(xùn)練集規(guī)模如何, 預(yù)測(cè)標(biāo)準(zhǔn)偏差一直保持趨近于0. RF_AdaBoost模型具有分類準(zhǔn)確度高、 穩(wěn)定性好的優(yōu)點(diǎn), 可用于人類和非人類的血液種屬鑒別.

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        91极品尤物在线观看播放| 日本高清h色视频在线观看| 免费黄色电影在线观看| 一区二区韩国福利网站| 国产一区二区三区在线观看免费版| 亚洲桃色视频在线观看一区| 国产精品伦一区二区三级视频| 2021久久最新国产精品| 国产99久久精品一区| 日韩精品在线一二三四区 | 国产成人一区二区三区| 波多野结衣一区| 性视频毛茸茸女性一区二区| 手机在线观看日韩不卡av| 五月综合激情婷婷六月色窝| 五月中文字幕| 国产三级三级精品久久| 老女老肥熟女一区二区| 韩国无码av片在线观看网站| 亚洲av在线播放观看| 成人自拍三级在线观看| 亚洲熟妇av一区| 亚洲 欧美 国产 日韩 精品| 蜜桃一区二区三区自拍视频| 国产麻豆久久av入口| 日韩成人无码| 亚洲欧美日韩国产精品一区| 日本在线综合一区二区| 四虎国产成人永久精品免费| 97精品伊人久久大香线蕉| 亚洲国产不卡av一区二区三区 | 久久激情人妻中文字幕| 美女很黄很色国产av| 国产精品ⅴ无码大片在线看| 亚洲AV无码永久在线观看| 久久久精品国产老熟女| av国产传媒精品免费| 在线视频精品免费| 蜜臀av一区二区三区精品| 中文有码亚洲制服av片| 亚洲精品国产福利一二区|