亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林分類(lèi)的端子缺陷檢測(cè)研究

        2021-04-07 00:26:14張捍東吳玉秀
        蚌埠學(xué)院學(xué)報(bào) 2021年2期
        關(guān)鍵詞:決策樹(shù)端子準(zhǔn)確率

        陳 晨,張捍東,吳玉秀

        (安徽工業(yè)大學(xué) 電氣與信息工程學(xué)院, 安徽 馬鞍山 243002)

        接線(xiàn)端子現(xiàn)如今被廣泛應(yīng)用于各個(gè)領(lǐng)域,在傳遞電信號(hào)方面起到連接作用,一個(gè)合格的接線(xiàn)端子產(chǎn)品能給生產(chǎn)和使用帶來(lái)諸多便利,避免許多麻煩。端子產(chǎn)品缺陷檢測(cè)的目的就是檢測(cè)出帶有缺陷的接線(xiàn)端子,避免缺陷端子被應(yīng)用到生產(chǎn)和生活中。缺陷端子有很多種類(lèi),例如壓著端子變形、端子深壓、端子淺打、端子氧化等。不同種類(lèi)的缺陷端子在被應(yīng)用后容易造成嚴(yán)重程度不同的惡劣后果。為杜絕缺陷端子流出,提升端子缺陷檢測(cè)的效率,本文將隨機(jī)森林模型應(yīng)用于端子缺陷檢測(cè)領(lǐng)域中,對(duì)端子缺陷信息數(shù)據(jù)進(jìn)行隨機(jī)森林模型的訓(xùn)練和建立[1],模型建立完成后使用測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行性能評(píng)估,獲得隨機(jī)森林模型的應(yīng)用評(píng)價(jià)。

        1 隨機(jī)森林算法

        隨機(jī)森林算法是以多個(gè)決策樹(shù)為基學(xué)習(xí)器組成的,隨機(jī)森林算法的結(jié)果讓所有基學(xué)習(xí)器的決策結(jié)果進(jìn)行投票,最終取得最高票數(shù)的就是結(jié)果[2]。隨機(jī)森林算法具有容易實(shí)現(xiàn),處理速度快,抗過(guò)擬合能力強(qiáng)等優(yōu)點(diǎn),已被廣泛應(yīng)用于醫(yī)學(xué)、工業(yè)生產(chǎn)、林業(yè)等領(lǐng)域,且在各種應(yīng)用任務(wù)中均表現(xiàn)出了良好的性能[3]。

        1.1 算法介紹

        隨機(jī)森林(Random Forest,RF)[4]是引導(dǎo)聚類(lèi)算法的一種拓展算法,RF以決策樹(shù)作為基學(xué)習(xí)器搭建Bagging集成的基礎(chǔ),且在決策樹(shù)的訓(xùn)練過(guò)程中進(jìn)行隨機(jī)屬性選擇。隨機(jī)森林以決策樹(shù)為基礎(chǔ),故決策樹(shù)的理論也必須要了解。決策樹(shù)有很多不同的變種,但是變種的核心主函數(shù)都是類(lèi)似的,主要不同點(diǎn)是最優(yōu)特征標(biāo)準(zhǔn)的選擇。根據(jù)最優(yōu)劃分屬性(特征)選擇的不同,決策樹(shù)算法又分為ID3決策樹(shù)學(xué)習(xí)算法、C4.5決策樹(shù)算法和CART決策樹(shù)算法等幾大類(lèi),下面介紹這幾種決策樹(shù)算法。

        ID3決策樹(shù)學(xué)習(xí)算法是以樣本信息的信息增益(information gain)進(jìn)行最優(yōu)劃分屬性的選擇,信息增益來(lái)自于信息熵(information entropy), 信息熵是最常用來(lái)度量樣本集合純度的指標(biāo)。其式如下所示:

        (1)

        式中D為樣本集合,pk(k=1,2,…,|y|)為第k類(lèi)樣本所占的比例,且Ent(D)的值越小,代表樣本D的純度越高。假定由屬性a對(duì)樣本集D進(jìn)行劃分并產(chǎn)生V個(gè)分支節(jié)點(diǎn),記其中第v個(gè)分支節(jié)點(diǎn)為Dv,則屬性a對(duì)樣本集D劃分所獲得的信息增益為:

        (2)

        由式(2)可看出,信息增益越大,則說(shuō)明屬性a劃分集合D所獲得的純度提升越大。故可選用信息增益作為劃分屬性選擇,這就是著名的ID3決策樹(shù)學(xué)習(xí)算法[5]。

        C4.5決策樹(shù)算法是以信息增益率(gain ratio)選擇最優(yōu)劃分屬性[6]。由于ID3算法對(duì)連續(xù)型變量屬性的處理效果非常差,并且更偏好屬性分類(lèi)較多的屬性,為了減少這種偏好的不利影響,Quinlan提出使用信息增益率選擇最優(yōu)劃分屬性,這就是C4.5決策樹(shù)算法。增益率符號(hào)與公式(2)相同,定義公式如下:

        (3)

        其中

        (4)

        CART決策樹(shù)是以基尼指數(shù)(Gini index)選擇最優(yōu)劃分屬性,采用符號(hào)與公式(2)相同,則數(shù)據(jù)集D中屬性a的基尼指數(shù)計(jì)算公式為:

        (5)

        Gini(D)(基尼值)表示數(shù)據(jù)集的純度,即從數(shù)據(jù)集中隨機(jī)抽取樣本類(lèi)別不一致的概率,基尼值越小,表示所抽取的數(shù)據(jù)集純度越高,Gini(D)計(jì)算公式如下:

        (6)

        使用決策樹(shù)算法可獲得決策樹(shù),而隨機(jī)森林算法則是以單決策樹(shù)為基學(xué)習(xí)器集成的分類(lèi)器,這種集成分類(lèi)器克服了單分類(lèi)器的很多缺點(diǎn),具備極好的準(zhǔn)確率。RF的思路就是通過(guò)對(duì)各個(gè)單決策樹(shù)的分類(lèi)結(jié)果進(jìn)行投票,將票數(shù)最高的結(jié)果作為RF的分類(lèi)結(jié)果。隨機(jī)森林的兩次隨機(jī)抽樣非常關(guān)鍵,首先就是用bootstrap的有放回隨機(jī)采樣,每個(gè)基學(xué)習(xí)器只使用約63.2%的初始訓(xùn)練集的數(shù)據(jù),剩下約36.8%的數(shù)據(jù)則可用于對(duì)RF模型進(jìn)行改進(jìn)優(yōu)化[7]。其次是選擇特征時(shí)的隨機(jī)抽樣,保證生成決策樹(shù)時(shí)選擇的特征不完全一樣,再將所有已構(gòu)建的決策樹(shù)相連,即構(gòu)成了隨機(jī)森林。RF的運(yùn)行過(guò)程是利用自助采樣法(bootstrap sampling)對(duì)訓(xùn)練集處理,獲得多個(gè)訓(xùn)練子集,再通過(guò)處理訓(xùn)練子集產(chǎn)生眾多決策樹(shù),最后在對(duì)這些決策樹(shù)的結(jié)果進(jìn)行投票獲得RF的分類(lèi)結(jié)果。

        1.2 隨機(jī)森林模型性能指標(biāo)

        用隨機(jī)森林模型對(duì)測(cè)試集樣本數(shù)據(jù)進(jìn)行分類(lèi),根據(jù)測(cè)試集樣本真實(shí)類(lèi)別和學(xué)習(xí)器預(yù)測(cè)類(lèi)別將分類(lèi)結(jié)果劃分為真正例(truepositive)、假正例(falsepositive)、真反例(truenegative)和假反例(falsenegative)四種情形,獲得分類(lèi)結(jié)果的混淆矩陣[8],如表1所示。

        表1 分類(lèi)結(jié)果混淆矩陣

        準(zhǔn)確率Accuracy、查全率Sensitivity、查準(zhǔn)率Precision、特異度Specificity和F1的相關(guān)定義[9]如下:

        (7)

        (8)

        (9)

        (10)

        (11)

        其中準(zhǔn)確率Acc是通過(guò)算法分類(lèi)正確的樣本數(shù)所占的比例,查準(zhǔn)率Pre可視為精確性的度量,查全率Sen和特異度Spe體現(xiàn)了算法分類(lèi)的真正例率和真負(fù)例率,F(xiàn)1則是基于查準(zhǔn)率和查全率的調(diào)和平均定義的,這是一種更為常用的性能指標(biāo)。

        2 模型構(gòu)建

        將隨機(jī)森林應(yīng)用于端子缺陷檢測(cè)中,首先需要訓(xùn)練一個(gè)可用于分類(lèi)的隨機(jī)森林模型。因隨機(jī)森林由眾多決策樹(shù)組成,訓(xùn)練隨機(jī)森林模型的過(guò)程實(shí)質(zhì)上就是訓(xùn)練眾多分類(lèi)決策樹(shù)的過(guò)程。

        2.1 隨機(jī)森林模型訓(xùn)練

        隨機(jī)森林算法應(yīng)用于端子缺陷檢測(cè)中的算法步驟如下:

        (1)電壓數(shù)據(jù)預(yù)處理[10]。對(duì)電壓數(shù)據(jù)進(jìn)行濾波處理,消除電壓采集過(guò)程中出現(xiàn)的抖動(dòng)和高頻噪聲。再對(duì)電壓數(shù)據(jù)進(jìn)行處理,獲得包含100組特征數(shù)據(jù)的訓(xùn)練集D,訓(xùn)練集D中含有6種分類(lèi)屬性。

        (2)使用自助采樣法(bootstrap)對(duì)訓(xùn)練集D進(jìn)行抽樣,每次抽取樣本數(shù)量為63個(gè),獲得新的訓(xùn)練子集。

        (3)從6種分類(lèi)屬性中隨機(jī)抽取t(t≤6)種屬性,使用CART決策樹(shù)算法選擇最優(yōu)劃分屬性(CART算法相對(duì)ID3和C4.5算法不會(huì)對(duì)特征屬性數(shù)量有偏好),選擇最優(yōu)葉子節(jié)點(diǎn),在子樣本集中獲得所有的葉子節(jié)點(diǎn)。

        (4)重復(fù)進(jìn)行步驟(3),在所有的決策樹(shù)生長(zhǎng)完成后,隨機(jī)森林模型就完成訓(xùn)練。

        隨機(jī)森林算法訓(xùn)練流程如圖1所示。

        2.2 隨機(jī)森林模型分類(lèi)

        隨機(jī)森林分類(lèi)圖如圖2所示,使用RF模型分類(lèi)步驟如下:

        (1)對(duì)任一已訓(xùn)練完成的分類(lèi)樹(shù),只要有樣本變量輸入,相對(duì)應(yīng)的節(jié)點(diǎn)變量從決策樹(shù)的根節(jié)點(diǎn)達(dá)到末節(jié)點(diǎn),末節(jié)點(diǎn)的結(jié)果即作為這棵決策樹(shù)的輸出結(jié)果[11]。

        (2)對(duì)隨機(jī)森林中所有的決策樹(shù)都重復(fù)步驟(1),這樣RF中每棵決策樹(shù)都可以輸出對(duì)變量的分類(lèi)結(jié)果,將這些結(jié)果進(jìn)行投票就可以獲得RF的分類(lèi)結(jié)果。

        圖1 隨機(jī)森林模型訓(xùn)練流程圖

        圖2 隨機(jī)森林分類(lèi)流程圖

        2.3 使用加權(quán)方法進(jìn)行決策結(jié)果投票

        傳統(tǒng)的隨機(jī)森林將所有的決策樹(shù)對(duì)決策結(jié)果的影響看成是相等的,即通過(guò)等權(quán)重投票獲得決策結(jié)果[12]。本文則對(duì)投票的過(guò)程進(jìn)行了改進(jìn),計(jì)算RF中所有決策樹(shù)在分類(lèi)過(guò)程中的分類(lèi)精度,以分類(lèi)精度度量決策樹(shù)的性能及其對(duì)RF的影響,而后再根據(jù)各個(gè)決策樹(shù)的分類(lèi)精度進(jìn)行加權(quán)投票從而獲得RF的分類(lèi)結(jié)果,以此提高了RF的準(zhǔn)確性。又因RF在獲得子訓(xùn)練集時(shí)是使用bootstrap方法,所有的基學(xué)習(xí)器只使用了初始訓(xùn)練集約63.2%的數(shù)據(jù),剩下約36.8%的袋外數(shù)據(jù)可對(duì)已訓(xùn)練完成的決策樹(shù)進(jìn)行評(píng)估,則可以獲得n棵決策樹(shù)的精度向量。

        VAcc=[Acc1,Acc2,Acc3,…,Accn]

        (12)

        將袋外數(shù)據(jù)用于決策樹(shù)的分類(lèi)精度評(píng)估,直到獲得全部n棵決策樹(shù)的精度向量VAcc。將獲得的精度向量賦予權(quán)重,即wn=Accn,可得到所有決策樹(shù)在決策結(jié)果投票時(shí)應(yīng)有的權(quán)重向量WA。

        WA=[w1,w2,w3,…,wn]

        (13)

        其中Accn為RF中各個(gè)決策樹(shù)的分類(lèi)精度,wn則為各個(gè)決策樹(shù)在投票時(shí)所占的權(quán)重[13]。根據(jù)單棵決策樹(shù)計(jì)算所得的權(quán)重確定該決策樹(shù)在整個(gè)隨機(jī)森林結(jié)果分類(lèi)中所占的權(quán)重比例,在最終結(jié)果投票時(shí)分類(lèi)結(jié)果與權(quán)重向量相乘獲得最終分類(lèi)結(jié)果。

        3 結(jié)果和分析

        為測(cè)試隨機(jī)森林算法應(yīng)用于端子缺陷檢測(cè)時(shí)的性能效果,也為了與其它分類(lèi)器算法作對(duì)比,實(shí)驗(yàn)還將BP神經(jīng)網(wǎng)絡(luò)分類(lèi)算法和SVM分類(lèi)算法與RF算法作比較。使用三種分類(lèi)方法對(duì)同一組端子缺陷信息數(shù)據(jù)集做分類(lèi)處理,使用Acc、Sen、Pre、Spe和F1作為評(píng)估算法性能的指標(biāo)。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        為訓(xùn)練隨機(jī)森林模型,對(duì)所有的電壓數(shù)據(jù)集進(jìn)行預(yù)處理,得到所有的壓力曲線(xiàn)信息,每一條壓力曲線(xiàn)信息對(duì)應(yīng)接線(xiàn)端子生產(chǎn)時(shí)所受的壓力變化,提取電壓數(shù)據(jù)特征值成為訓(xùn)練隨機(jī)森林模型的初始數(shù)據(jù)集,而后對(duì)模型進(jìn)行測(cè)試評(píng)估并獲得實(shí)驗(yàn)結(jié)果。端子缺陷數(shù)據(jù)表如表2所示。

        表2 端子缺陷數(shù)據(jù)表

        3.2 模型決策樹(shù)最優(yōu)個(gè)數(shù)

        隨機(jī)森林模型中決策樹(shù)的數(shù)量影響分類(lèi)結(jié)果的準(zhǔn)確性,為了保證RF分類(lèi)結(jié)果的準(zhǔn)確性較高,必須要獲得RF模型中決策樹(shù)的最優(yōu)數(shù)量。使決策樹(shù)的數(shù)目在0-500范圍內(nèi)變化,每次增加50棵決策樹(shù),以不同決策樹(shù)數(shù)量訓(xùn)練隨機(jī)森林算法模型,并對(duì)不同數(shù)量決策樹(shù)訓(xùn)練的隨機(jī)森林模型通過(guò)模型準(zhǔn)確率Acc進(jìn)行評(píng)價(jià),從而找出隨機(jī)森林模型準(zhǔn)確率和決策樹(shù)數(shù)量之間的關(guān)系。 獲得的決策樹(shù)個(gè)數(shù)與RF模型性能指標(biāo)的準(zhǔn)確率Acc的變化關(guān)系如圖3所示,從圖3中可以看出,當(dāng)決策樹(shù)的數(shù)量較少時(shí),準(zhǔn)確率Acc也較低,隨著決策樹(shù)數(shù)目的增加,RF模型的準(zhǔn)確率Acc也在增加,且增加的幅度越來(lái)越小。出現(xiàn)這種變化趨勢(shì)的主要原因是由于訓(xùn)練樣本和節(jié)點(diǎn)變量都是隨機(jī)選取的[14],在決策樹(shù)數(shù)量較少時(shí),會(huì)因?yàn)殡S機(jī)性導(dǎo)致RF模型的準(zhǔn)確率偏低;當(dāng)決策樹(shù)的數(shù)量逐漸增多時(shí),這種隨機(jī)性也在不斷降低,各個(gè)變量都能全面地對(duì)分類(lèi)結(jié)果造成影響,所以訓(xùn)練模型的準(zhǔn)確率也在逐漸增加;當(dāng)決策樹(shù)增加到一定數(shù)量時(shí),隨機(jī)性對(duì)RF模型準(zhǔn)確率造成的影響已經(jīng)最小,即便是繼續(xù)增加決策樹(shù)的數(shù)量,準(zhǔn)確率也不會(huì)提高[15]。由圖3能看出,當(dāng)隨機(jī)森林內(nèi)部決策樹(shù)的數(shù)量達(dá)到400時(shí),模型準(zhǔn)確率不再繼續(xù)提升,因此選擇決策樹(shù)數(shù)量400作為最佳數(shù)量。

        圖3 RF模型查準(zhǔn)率與決策樹(shù)數(shù)量關(guān)系圖

        3.3 模型分類(lèi)結(jié)果和分析

        在分類(lèi)樹(shù)數(shù)量為400時(shí),使用隨機(jī)森林模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類(lèi),統(tǒng)計(jì)分類(lèi)結(jié)果并獲得模型準(zhǔn)確率Acc、查準(zhǔn)率Pre、查全率Sen、特異度Spe和F1的值,如圖4所示。

        從模型性能圖可以看出,RF模型的準(zhǔn)確率Acc達(dá)到了0.94,即隨機(jī)森林模型在理想情況下對(duì)端子缺陷信息識(shí)別準(zhǔn)確達(dá)到0.94,這已經(jīng)遠(yuǎn)遠(yuǎn)高于傳統(tǒng)人工檢測(cè)的準(zhǔn)確率;且模型的Pre達(dá)到了0.95,Sen達(dá)到了0.86,Spe達(dá)到了0.87,模型的F1指標(biāo)也達(dá)到了0.9以上,這些都說(shuō)明了將隨機(jī)森林模型應(yīng)用于端子缺陷信息檢測(cè)中的可行性。使用機(jī)器學(xué)習(xí)方法檢測(cè)端子缺陷還能大幅度縮減人工成本,降低檢測(cè)時(shí)間,極大地提升了端子缺陷檢測(cè)的效率,是未來(lái)端子缺陷檢測(cè)的趨勢(shì)。

        圖4 RF模型性能評(píng)估圖

        3.4 RF模型與其它算法比較

        為了測(cè)試隨機(jī)森林算法應(yīng)用于端子缺陷檢測(cè)時(shí)性能是否優(yōu)于其它分類(lèi)算法,同時(shí)也為了與其它算法性能做對(duì)比,本實(shí)驗(yàn)采用隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)對(duì)同一組缺陷信息數(shù)據(jù)集做分類(lèi)處理[16],BP神經(jīng)網(wǎng)絡(luò)采用非線(xiàn)性激活函數(shù):Sigmoid函數(shù);支持向量機(jī)以高斯函數(shù)作為其核函數(shù)。以準(zhǔn)確率Acc、查準(zhǔn)率Pre、查全率Sen、特異度Spe和F1值作為度量這三種分類(lèi)算法的指標(biāo),實(shí)驗(yàn)獲得的算法性能如表3所示。

        表3 各算法性能表 %

        根據(jù)表3中隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型的性能指標(biāo),RF模型的準(zhǔn)確率為0.94,比BP神經(jīng)網(wǎng)絡(luò)模型高4%,比SVM模型高6%,其查準(zhǔn)率為0.95,比BP神經(jīng)網(wǎng)絡(luò)模型高6%,比SVM模型高9%,其F1值為0.902,比BP神經(jīng)網(wǎng)絡(luò)模型高4.8%,比SVM模型高6.2%,由此可知RF模型的這三個(gè)性能指標(biāo)都明顯高于BP神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型,在分類(lèi)精度上有更好的表現(xiàn),故可以將隨機(jī)森林模型應(yīng)用于端子缺陷檢測(cè)中。

        4 結(jié)論

        使用隨機(jī)森林算法對(duì)端子缺陷進(jìn)行檢測(cè),分類(lèi)效果要遠(yuǎn)高于傳統(tǒng)的分類(lèi)方法,其分類(lèi)時(shí)間也遠(yuǎn)小于人工分類(lèi)所需要的時(shí)間,極大地提升了端子缺陷檢測(cè)效率。利用訓(xùn)練隨機(jī)森林模型使用的袋外數(shù)據(jù)對(duì)RF做進(jìn)一步的提升,以此提升隨機(jī)森林模型的準(zhǔn)確率。和另外兩種分類(lèi)算法相比較,隨機(jī)森林模型在分類(lèi)性能上確實(shí)具備更好的表現(xiàn)。之后的研究方向可以放在檢測(cè)出端子缺陷種類(lèi)上,即通過(guò)分類(lèi)算法檢測(cè)出端子缺陷的類(lèi)型,進(jìn)行多分類(lèi),可直接分出端子缺陷的類(lèi)型,在算法中會(huì)體現(xiàn)出復(fù)雜性,也是對(duì)此算法的提升。

        猜你喜歡
        決策樹(shù)端子準(zhǔn)確率
        電線(xiàn)電纜及端子
        ◆ 電線(xiàn)電纜及端子
        電線(xiàn)電纜及端子
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        久久国产精品婷婷激情| 久久久国产精品首页免费| 国产精品-区区久久久狼| 无码国产精品一区二区免| 免费国产黄片视频在线观看| 人妻少妇久久精品一区二区 | 亚欧AV无码乱码在线观看性色| 囯产精品无码一区二区三区| 激,情四虎欧美视频图片| 国产亚洲精品综合在线网站| а天堂中文地址在线| 亚洲国产精品无码久久98| 少女高清影视在线观看动漫| 亚洲国产精品自拍一区| 国产剧情无码中文字幕在线观看不卡视频 | 最新在线观看免费的a站国产| 亚洲国产av一区二区三区| 国产精品18久久久白浆| 亚洲国产精品无码久久| 边做边流奶水的人妻| 人与嘼av免费| 熟女人妻丰满熟妇啪啪| 国产精品一区二区三密桃| 在线观看国产激情免费视频| 国产91精品高潮白浆喷水| 国产综合色在线精品| 亚洲av永久无码精品| 国产内射性高湖| 国产成人8x视频网站入口| 蜜桃网站在线免费观看视频| 国产精品国产三级国产av18| 国产情侣一区二区| 国产精品无码素人福利不卡| 久久久久国产一区二区三区| 精品手机在线视频| а的天堂网最新版在线| 国产免费99久久精品| 99久久精品国产91| 999zyz玖玖资源站永久| 国产精品熟女视频一区二区| 国产偷国产偷高清精品|