亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        DBSCAN 和邏輯回歸混合策略方法在鍋爐燃燒故障診斷中的應(yīng)用

        2022-07-06 15:02:02謝春
        應(yīng)用科技 2022年3期
        關(guān)鍵詞:分類方法模型

        謝春

        上海電氣集團(tuán)股份有限公司 中央研究院,上海 200070

        在二元分類問(wèn)題中經(jīng)常會(huì)出現(xiàn)樣本不平衡問(wèn)題,樣本不平衡是指一個(gè)類的實(shí)例(多數(shù)類)明顯多于另一個(gè)類(少數(shù)類)。而在實(shí)際應(yīng)用中,正確識(shí)別少數(shù)類實(shí)例往往更有價(jià)值,例如,在故障診斷中,正常狀態(tài)遠(yuǎn)遠(yuǎn)多于故障狀態(tài),但是正確識(shí)別故障狀態(tài)更有意義。目前絕大多數(shù)的機(jī)器學(xué)習(xí)算法針對(duì)的是平衡樣本集,因此,用常規(guī)學(xué)習(xí)算法來(lái)訓(xùn)練不平衡樣本集往往產(chǎn)生的是次優(yōu)模型,其性能和泛化能力較弱[1-2]。

        針對(duì)二分類問(wèn)題中的樣本不平衡問(wèn)題,已經(jīng)提出了很多解決辦法,常用的方法有通過(guò)抽樣的方法重新平衡樣本集,如上采樣技術(shù);自主選擇更有價(jià)值的子樣本集訓(xùn)練模型,使用其他示例提高模型的性能[3-4];通過(guò)調(diào)整算法使得學(xué)習(xí)到的模型更傾向于正確分類少數(shù)類實(shí)例,如兩階段規(guī)則學(xué)習(xí)方法和單類學(xué)習(xí)方法[5-9]。

        本文將基于密度的噪聲應(yīng)用空間聚類算法(density-based spatial clustering of applications with noise,DBSCAN)和邏輯回歸相結(jié)合,提出一種針對(duì)不平衡樣本集二分類問(wèn)題的混合策略方法。該方法通過(guò)DBSCAN聚類算法對(duì)多數(shù)類樣本集進(jìn)行重新分類,添加標(biāo)簽,增強(qiáng)樣本集的線性可分性,可有效提高不平衡樣本集的分類準(zhǔn)確率。

        1 混合策略方法

        1.1 方法概述

        基于DBSCAN和邏輯回歸的混合策略針對(duì)的是不平衡樣本的二分類問(wèn)題。該方法首先使用DBSCAN算法將多數(shù)類劃分為k個(gè)子簇,并給每個(gè)子簇添加標(biāo)簽(0,1,···,k-1),然后和少數(shù)類實(shí)例(少數(shù)類實(shí)例的類別標(biāo)記為k)重新組合為一個(gè)新的樣本集,即新樣本集中有k+1個(gè)類別。

        為保證重新劃分后不同類別的樣本數(shù)基本保持一致,k值的選擇可以以多數(shù)類樣本數(shù)和少數(shù)類樣本數(shù)的倍數(shù)關(guān)系來(lái)決定,即滿足:

        式中:N0為多數(shù)類樣本數(shù),N1為少數(shù)類樣本數(shù),ceil表示向上取整函數(shù)。

        通常情況下,邏輯回歸算法只能解決二分類問(wèn)題,針對(duì)多分類問(wèn)題,可采用“一對(duì)一”(one-vsone)策略。針對(duì)含有k+1個(gè)類別的樣本集,onevs-one策略會(huì)選擇兩兩配對(duì)的方式組合分類器,這樣組合將生成m=個(gè)邏輯回歸分類器,對(duì)測(cè)試集進(jìn)行分類時(shí),將依次利用m個(gè)邏輯回歸分類器來(lái)預(yù)測(cè)分類,每進(jìn)行一次分類會(huì)進(jìn)行一次投票記錄。當(dāng)所有分類器預(yù)測(cè)完成后,選擇票數(shù)最多的類別為該測(cè)試樣本的分類結(jié)果[10-13]。

        通過(guò)one-vs-one多分類的測(cè)試集樣本有k+1個(gè)類別,其中標(biāo)簽為0~k-1的為多數(shù)類樣本,標(biāo)簽為k的為少數(shù)類樣本,此時(shí)將所有非k樣本標(biāo)簽重置為0,將所有k樣本標(biāo)簽重置為1,即將多分類問(wèn)題重新劃歸為二分類問(wèn)題。

        所述方法流程如圖1所示。

        圖1 混合策略方法流程

        1.2 分類問(wèn)題評(píng)價(jià)指標(biāo)

        評(píng)價(jià)指標(biāo)是評(píng)估一個(gè)算法是否有效的重要手段,對(duì)于二分類問(wèn)題,少數(shù)類標(biāo)記為1,多數(shù)類標(biāo)記為0,分類模型正確和不正確的示例數(shù)目的混淆矩陣詳見(jiàn)表1。

        表1 二分類模型混淆矩陣

        在分類問(wèn)題中,常用準(zhǔn)確率(accuracy)、召回率(recall)、精確率(precision)和F1分?jǐn)?shù)等作為評(píng)估算法性能好壞的重要指標(biāo),定義為

        一般情況下僅僅通過(guò)一個(gè)指標(biāo)來(lái)評(píng)價(jià)算法存在著一定的局限性,可采用若干指標(biāo)來(lái)評(píng)估算法性能,一個(gè)好的算法需要在提高召回率和F1分?jǐn)?shù)的同時(shí)不降低準(zhǔn)確率。

        2 實(shí)驗(yàn)案例

        2.1 樣本集概況

        選取某電廠2020年3月~2020年5月鍋爐監(jiān)測(cè)數(shù)據(jù)作為樣本集來(lái)驗(yàn)證混合策略的分類方法。該樣本集包括鍋爐各個(gè)受熱面上的溫度、蒸汽壓力及歷史故障數(shù)據(jù),其中歷史故障數(shù)據(jù)中切圓偏斜故障是指采用四角切圓燃燒方式的鍋爐,運(yùn)行中發(fā)生氣流偏斜導(dǎo)致火焰貼墻,引起偏燒及燃燒不穩(wěn)定的現(xiàn)象,該故障數(shù)據(jù)表現(xiàn)為明顯的樣本不平衡,因此以該故障數(shù)據(jù)作為原始樣本集,出現(xiàn)切圓偏斜故障的樣本標(biāo)簽置為1,非切圓偏斜故障的樣本標(biāo)簽置為0。

        經(jīng)分析可知多數(shù)類樣本數(shù)(即標(biāo)簽為0)約為少數(shù)類樣本數(shù)(標(biāo)簽為1)的9倍,根據(jù)式(1),為將數(shù)據(jù)集劃分為較為平衡的樣本集,采用DBSCAN聚類模型,選取合適的劃分半徑(eps)和半徑范圍內(nèi)的最小樣本數(shù)(min_samples),使得DBSCAN簇?cái)?shù)k=9。

        在本案例中DBSCAN劃分半徑(eps)為0.1~0.9,以0.1遞增選擇,同時(shí)確定半徑范圍內(nèi)的最小樣本數(shù)(min_samples)在2~10以1遞增選擇,不同的eps和min_samples的組合參數(shù)對(duì)應(yīng)不同的k值,當(dāng)k值等于指定的數(shù)值,即k=9時(shí),以此時(shí)對(duì)應(yīng)的eps和min_samples組合參數(shù)作為DBSCAN模型的最優(yōu)參數(shù),將多數(shù)類樣本進(jìn)行重新劃分,和少數(shù)類樣本組合為新的樣本集D。

        D中各個(gè)類別的數(shù)量對(duì)比關(guān)系如圖2所示。

        圖2 樣本集D中各個(gè)類別數(shù)對(duì)比

        圖2中新樣本集D中共有k+1個(gè)類別,其樣本不平衡性已被明顯弱化,可用于邏輯回歸onevs-one多分類建模。

        2.2 分類模型構(gòu)建和預(yù)測(cè)

        基于新樣本集D中的k+1個(gè)類別,任意選取其中2個(gè)類別的樣本數(shù)據(jù)建立邏輯回歸模型,即建立m=個(gè)邏輯回歸分類器,對(duì)每一個(gè)測(cè)試樣本均會(huì)輸出m個(gè)預(yù)測(cè)類別,m個(gè)模型預(yù)測(cè)結(jié)果的部分?jǐn)?shù)據(jù)詳見(jiàn)表2。

        表2 one-vs-one預(yù)測(cè)結(jié)果

        表2中可知,對(duì)測(cè)試樣本1,標(biāo)簽為0和標(biāo)簽為1的兩類樣本(即0,1)構(gòu)建的邏輯回歸模型預(yù)測(cè)標(biāo)簽為0;標(biāo)簽為1和標(biāo)簽為2的兩類樣本(即1,2)構(gòu)建的模型預(yù)測(cè)標(biāo)簽為1,以此類推,測(cè)試樣本1的最終預(yù)測(cè)標(biāo)簽為所有m個(gè)結(jié)果中出現(xiàn)次數(shù)最多的標(biāo)簽。

        將多分類結(jié)果進(jìn)行標(biāo)簽重置,獲得最終的二分類結(jié)果,其混淆矩陣如圖3所示。

        圖3(a)為原始樣本集用邏輯回歸模型進(jìn)行分類后預(yù)測(cè)結(jié)果的混淆矩陣;圖3(b)為樣本集經(jīng)混合策略分類預(yù)測(cè)的多分類(k+1個(gè)類別)的混淆矩陣。圖3(c)為將圖3(b)對(duì)應(yīng)的樣本進(jìn)行標(biāo)簽重置,k+1個(gè)類別重置為2個(gè)類別后的混淆矩陣。

        對(duì)比圖3(a)和圖3(c)可以看出,經(jīng)混合策略處理后的預(yù)測(cè)結(jié)果,其FP值(即真實(shí)值為0,預(yù)測(cè)值為1)明顯下降,而TP值(即真實(shí)值為1,預(yù)測(cè)值為1)則上升。

        為作為對(duì)比,對(duì)原始數(shù)據(jù)采用常規(guī)的上采樣方法重新平衡數(shù)據(jù)集,分別采用了上采樣中的隨機(jī)樸素上采樣(random)、合成少數(shù)類(smote)上采樣和自適應(yīng)綜合(adasyn)上采樣方法[14-15],并對(duì)平衡后的樣本集分別進(jìn)行邏輯回歸分類預(yù)測(cè),其結(jié)果混淆矩陣如圖4所示。

        圖4 上采樣分類結(jié)果混淆矩陣

        從圖4和圖3(c)的對(duì)比可知,常規(guī)上采樣方法處理的樣本集建立的模型,其分類性能要明顯差于經(jīng)混合策略后獲得的分類模型。

        2.3 模型評(píng)估

        基于原始樣本(raw)、上采樣處理后樣本(random、smote、adasyn)及經(jīng)混合策略(mix)處理的樣本集構(gòu)建的邏輯回歸模型在鍋爐切圓偏斜故障預(yù)測(cè)中的評(píng)估指標(biāo)詳見(jiàn)表3。根據(jù)表3繪制的經(jīng)不同方法處理后的分類指標(biāo)柱狀圖如圖5所示。從表3和圖5中可直觀看出,相比未經(jīng)處理的原始樣本(raw)建立的模型,混合策略(mix)方法建立的模型其precision、accuracy、recall和F1均有明顯提高,其中accuracy達(dá)到0.97,而相比常規(guī)上采樣方法(random、smote、adasyn)處理的模型,混合策略方法在precision、F1及accuracy上也有較為明顯的優(yōu)勢(shì),表明通過(guò)DBSCAN處理的樣本集弱化了數(shù)據(jù)不平衡性,可以提高邏輯回歸在不平衡樣本集上的分類性能。

        表3 模型性能評(píng)估指標(biāo)

        圖5 模型的分類評(píng)估指標(biāo)

        3 結(jié)論

        基于DBSCAN和邏輯回歸的混合策略方法可用來(lái)解決樣本不平衡問(wèn)題,將該方法應(yīng)用于鍋爐切圓偏斜故障的分類預(yù)測(cè)上,可得出以下結(jié)論:

        1)相比原始樣本和經(jīng)常規(guī)上采樣方法建立的模型,混合策略方法建立的模型具有更優(yōu)的評(píng)估指標(biāo);

        2)基于DBSCAN和邏輯回歸的混合策略方法可應(yīng)用于鍋爐燃燒故障診斷中,可有效提高鍋爐燃燒的智能化運(yùn)營(yíng)效率;

        3)針對(duì)DBSCAN的聚類簇?cái)?shù)k,本文選擇多數(shù)類樣本數(shù)和少數(shù)類樣本數(shù)的比值,后續(xù)研究中可深入研究該參數(shù)對(duì)分類結(jié)果的影響;

        4)當(dāng)多數(shù)類樣本數(shù)和少數(shù)類樣本數(shù)的比值處于動(dòng)態(tài)變化的時(shí)候,可通過(guò)調(diào)整算法的參數(shù)(如劃分半徑和半徑范圍內(nèi)的最小樣本數(shù))由DBSCAN聚類算法根據(jù)樣本分布,自動(dòng)確定多數(shù)類樣本合理的劃分簇?cái)?shù),后續(xù)將會(huì)對(duì)該問(wèn)題進(jìn)行更深的研究。

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        老司机在线免费视频亚洲| 免费大片黄在线观看| 日批视频免费在线观看| 丁香婷婷激情俺也去俺来也 | 国精产品一区一区三区| 尤物视频在线观看| 亚洲AV无码精品一区二区三区l| 亚洲码无人客一区二区三区| 爽爽影院免费观看| 日本亚洲色大成网站www久久| 国产欧美日韩在线观看一区二区三区| 蜜桃av一区二区三区| 狂猛欧美激情性xxxx大豆行情| 国产乱xxⅹxx国语对白| 国产综合第一夜| 日韩女优一区二区在线观看| 午夜dy888国产精品影院| 香蕉久久久久久久av网站| 波多野无码AV中文专区 | 中文字幕日韩精品无码内射| 91精品久久久久含羞草| 亚洲一区二区懂色av| 岛国av无码免费无禁网站| 中文字幕无码无码专区| 国产人成在线成免费视频| 精品国内日本一区二区| 国产乱码一二三区精品| 久久青青草原亚洲AV无码麻豆| 少妇特殊按摩高潮对白| 精品无码人妻夜人多侵犯18| 国产精品毛片无码| 国产成人AV乱码免费观看 | 人人鲁人人莫人人爱精品 | 各种少妇正面着bbw撒尿视频| 国产自精品| 免费看黄在线永久观看| 亚洲爆乳无码精品aaa片蜜桃| 久久久久亚洲精品无码网址| 亚洲日本精品一区久久精品| 亚洲一区二区免费在线观看视频| 国产成人一区二区三区影院动漫|