亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合樣本輸出與特征空間的半監(jiān)督概念漂移檢測法及其應(yīng)用

        2022-06-18 10:37:20孫子健喬俊飛
        自動(dòng)化學(xué)報(bào) 2022年5期
        關(guān)鍵詞:概念特征測量

        孫子健 湯 健 喬俊飛

        城市固廢(Municipal solid waste,MSW)的全球年增長率隨城鎮(zhèn)人口增加和居民消費(fèi)水平提高而不斷增加[1],我國部分城市甚至陷入 “垃圾圍城”困境[2].該現(xiàn)象直接危害環(huán)境衛(wèi)生和生態(tài)平衡,因此MSW 處理成為亟待解決的全球性問題.具有無害化、減量化和資源化等特點(diǎn)的MSW 焚燒(Municipal solid waste incineration,MSWI)是世界范圍內(nèi)廣泛采用的措施[3],但該過程的排放尾氣中含有氮氧化物、二噁英等難以檢測的有害污染物.目前,MSWI 企業(yè)主要通過控制焚燒運(yùn)行參數(shù)實(shí)現(xiàn)污染物排放濃度的控制.顯然,實(shí)現(xiàn)MSWI 過程污染物排放最小化的關(guān)鍵之一是實(shí)時(shí)、精準(zhǔn)地測量這些難測參數(shù)的排放濃度[4].對此,軟測量模型因具有經(jīng)濟(jì)性和快速性等優(yōu)點(diǎn)而成為當(dāng)前最為常見的實(shí)時(shí)測量策略[5].但是,由于工業(yè)過程多具有復(fù)雜性、隨機(jī)性和時(shí)變性等特征,這使得基于歷史數(shù)據(jù)構(gòu)建的軟測量模型因不能覆蓋新樣本所表征的數(shù)據(jù)分布而導(dǎo)致泛化性能惡化,導(dǎo)致這一現(xiàn)象的本質(zhì)原因是概念漂移[6].

        概念漂移可表述為數(shù)據(jù)分布隨時(shí)間發(fā)生變化,從軟測量模型的視角可理解為樣本輸出空間與特征空間的映射關(guān)系發(fā)生了改變[7].該現(xiàn)象是由難以預(yù)知的工業(yè)生產(chǎn)環(huán)境改變、物料成分波動(dòng)和設(shè)備磨損與維護(hù)等因素引起,并難以避免地導(dǎo)致模型測量精度顯著降低[6].例如,MSWI 過程中的爐膛溫度變化可使煙氣污染物生成關(guān)系改變,MSW 含水率的差異會導(dǎo)致爐內(nèi)燃燒狀態(tài)的變化[3],這些現(xiàn)象均會引起概念漂移,進(jìn)而使得基于歷史數(shù)據(jù)構(gòu)建的污染物濃度測量模型的精度下降[8].因此,如何采用漂移檢測方法有效識別能夠表征新概念的漂移樣本并將其用于軟測量模型的更新,是提高模型泛化性能需要解決的首要問題[9].

        有監(jiān)督型漂移檢測的代表性算法是漂移檢測法(Drift detection method,DDM)[10?11],其根據(jù)新樣本測量性能定義警告與漂移等級.當(dāng)測量誤差超過警告等級時(shí),存儲新樣本;當(dāng)超過漂移等級時(shí),采用存儲的新樣本及歷史樣本構(gòu)建新模型以代替舊模型.類似地,文獻(xiàn)[12]計(jì)算模型在總體樣本和最近樣本中獲得可接受測量誤差的概率,采用Hoeffding 不等式判斷概率差異后確認(rèn)是否發(fā)生漂移;文獻(xiàn)[13]通過比較模型更新前后輸出權(quán)重值的變化程度表征漂移;文獻(xiàn)[14?15]分別采用指數(shù)加權(quán)移動(dòng)平均和Page-Hinkley 檢測法確認(rèn)模型測量精度的變化,以判斷是否發(fā)生了概念漂移.由上可知,難測參數(shù)的測量誤差變化能夠表征概念漂移對測量模型的直接影響,該類方法具有計(jì)算過程簡便高效的優(yōu)點(diǎn);但面向?qū)嶋H工業(yè)過程,上述算法忽視了難測參數(shù)真值無法全部獲取的實(shí)際現(xiàn)狀.例如,在MSWI過程中,氮氧化物的排放濃度采用人工采樣分析方法時(shí)其真值獲取周期過長,采用煙氣傳感器檢測時(shí)其易受惡劣工況影響而導(dǎo)致測量失真[16];二噁英的排放濃度因其采樣與化驗(yàn)分析的復(fù)雜性導(dǎo)致其真值標(biāo)注周期長且成本高昂[3].因此,上述有監(jiān)督型漂移檢測方法難以在實(shí)際工業(yè)過程中直接使用.

        無監(jiān)督型漂移檢測的代表性算法有:文獻(xiàn)[17?19]基于多元統(tǒng)計(jì)策略分別采用近似線性依靠(Approximate linear dependence,ALD)條件、主成分分析(Principal component analysis,PCA)和角度優(yōu)化全局降維算法(Angle optimized global embedding,AOGE)分析樣本特征空間的分布變化;文獻(xiàn)[20?21]基于距離度量策略采用馬氏距離和領(lǐng)域熵度量特征空間的概念變化;文獻(xiàn)[22?23]基于假設(shè)檢驗(yàn)策略提出基于重采樣和累計(jì)區(qū)域密度的檢測方法.該類算法的特點(diǎn)是在漂移檢測階段不依賴難測參數(shù)真值,但在模型更新階段仍需采用標(biāo)注真值的樣本,因此難以在短期內(nèi)使得模型具有對漂移的適應(yīng)能力[24].

        此外,復(fù)雜工業(yè)過程中概念漂移的影響會同時(shí)體現(xiàn)為模型測量誤差和樣本特征空間的綜合變化.因此,僅基于樣本特征空間的分布差異難以有效表征概念漂移現(xiàn)象[10].針對上述問題,面向分類任務(wù),文獻(xiàn)[25]提出半監(jiān)督漂移學(xué)習(xí)框架,通過監(jiān)視分類器置信度變化初步篩選漂移樣本,再根據(jù)置信度得分估計(jì)漂移樣本的偽標(biāo)簽,最后進(jìn)行模型更新.類似地,文獻(xiàn)[26]提出基于密度估計(jì)的半監(jiān)督漂移檢測,在少量有標(biāo)注樣本前提下采用增量估計(jì)器標(biāo)注其余樣本的標(biāo)簽而實(shí)現(xiàn)漂移檢測.但目前為止,面向復(fù)雜工業(yè)過程回歸建模領(lǐng)域的半監(jiān)督概念漂移檢測方法鮮有報(bào)道.由于分類任務(wù)常具有明確且有限的類別標(biāo)簽用于劃分樣本概念,其算法設(shè)計(jì)方式不適用于連續(xù)型變量,因此上述方法難以直接用于回歸建模領(lǐng)域[27].

        綜上,本文充分考慮MSWI 過程中的概念漂移現(xiàn)象和難測參數(shù)真值無法及時(shí)獲取的問題,提出聯(lián)合樣本輸出與特征空間的半監(jiān)督漂移檢測方法.首先,采用高斯過程回歸(Gaussian process regression,GPR)依據(jù)歷史樣本構(gòu)建離線測量模型;然后,采用基于PCA 的無監(jiān)督機(jī)制檢測特征空間漂移的樣本并將其記錄在待標(biāo)注緩存窗口;接著,在樣本輸出空間中采用基于時(shí)間差分(Temporal-difference,TD)學(xué)習(xí)的半監(jiān)督機(jī)制對上述緩存窗口內(nèi)的樣本進(jìn)行偽真值標(biāo)注,并采用Page-Hinkley 檢測法確認(rèn)能夠表征概念漂移的新樣本;最后,采用新樣本與歷史樣本更新軟測量模型.

        1 城市固廢焚燒(MSWI)過程概念漂移問題描述

        1.1 城市固廢焚燒過程描述

        MSWI 過程主要由固廢儲運(yùn)、固廢焚燒、蒸汽發(fā)電、煙氣處理和煙氣排放等系統(tǒng)組成,其工藝流程如圖1 所示.

        結(jié)合圖1,針對固廢焚燒階段可描述如下[3].

        MSW 由抓斗投放至進(jìn)料器并送入爐排式焚燒爐.經(jīng)干燥爐排預(yù)熱后,MSW 通過一次風(fēng)機(jī)輸送的助燃空氣在燃燒爐排中著火燃燒,在燃燼爐排內(nèi)燃燒完畢,產(chǎn)生的煙氣經(jīng)二次風(fēng)機(jī)產(chǎn)生的高度湍流分解后進(jìn)入煙氣管道.該階段中,難測參數(shù)氮氧化物的生成原因主要包括[28]:1) MSW 本身含有的有機(jī)和無機(jī)含氮化合物在焚燒過程中與氧氣發(fā)生化學(xué)反應(yīng);2) 一次風(fēng)和二次風(fēng)中的氮?dú)飧邷匮趸?3) 助燃燃料(汽油等)高溫裂解.因此,爐膛溫度、爐膛含氧量、煙氣停留時(shí)間與湍流程度等因素改變均會使氮氧化物生成關(guān)系變化并產(chǎn)生概念漂移.

        傳統(tǒng)MSWI 過程常通過人工化驗(yàn)和煙氣自動(dòng)監(jiān)控系統(tǒng)(Continuous emission monitoring system,CEMS)測定氮氧化物排放濃度.其中,人工化驗(yàn)主要包括在線采樣和離線化驗(yàn),該方式測定周期較長且遠(yuǎn)滯后于實(shí)際過程,因此無法向測量模型及時(shí)提供真值[3];CEMS 常通過完全抽取或稀釋抽取進(jìn)行測量,前者在正壓環(huán)境或抽氣量過大時(shí)易發(fā)生抽氣口堵塞,后者測量響應(yīng)時(shí)間過長且對干燥壓縮空氣純度要求高,此外CEMS 需要有資質(zhì)的技術(shù)人員定期維護(hù)[16].上述方式均導(dǎo)致難測參數(shù)的真值獲取困難.因此,需通過標(biāo)注難測參數(shù)的偽真值,以在無法獲取全部真值的情況下分析過程中存在的概念漂移現(xiàn)象.

        1.2 概念漂移問題描述

        工業(yè)過程中通常根據(jù)概念漂移的產(chǎn)生原因?qū)⑵浞譃檫^程漂移和傳感器漂移[29].其中,過程漂移包括過程內(nèi)部結(jié)構(gòu)變化(機(jī)械元件磨損等)和過程外部條件變化(氣候與工藝要求等);傳感器漂移常由傳感器等硬件設(shè)施的測量精度改變導(dǎo)致,不反映運(yùn)行過程的真實(shí)參數(shù)變化.本文主要研究MSWI 過程中常見的概念漂移形式,即由過程外部條件變化引起的過程漂移.

        結(jié)合文獻(xiàn)[30]中定義,此處對工業(yè)過程中概念漂移問題描述如下:

        根據(jù)描述,常見概念漂移處理方式如圖2 所示.

        圖2 中,虛線框表示該部分內(nèi)容并非始終可用(樣本真值);分布信息提取指通過測量誤差、多元統(tǒng)計(jì)或假設(shè)檢驗(yàn)等方式收集可表征樣本分布特性的關(guān)鍵信息;分布差異檢測是針對已提取信息通過預(yù)設(shè)規(guī)則進(jìn)行相似度量;依據(jù)檢測結(jié)果,最終由具體算法判斷新樣本是否用于更新或舍棄[11].

        圖2 常見概念漂移處理方式Fig.2 The common way to deal with concept drift

        2 概念漂移檢測算法策略

        依據(jù)上文分析,本文提出聯(lián)合樣本輸出與特征空間的半監(jiān)督概念漂移檢測算法,其策略如圖3所示.

        圖3 中各模塊功能描述如下:

        圖3 本文算法策略Fig.3 The strategy of the proposed algorithm

        1) 軟測量模型構(gòu)建.采用歷史樣本構(gòu)建基礎(chǔ)軟測量模型,并依據(jù)新樣本的特征空間輸出測量值.

        2) 特征空間檢測.采用PCA 對新樣本的特征空間進(jìn)行漂移檢測,當(dāng)檢測值超過PCA 控制限時(shí)認(rèn)為樣本具有漂移可能性,此時(shí)將該樣本存入待標(biāo)注緩存窗口,當(dāng)窗口內(nèi)樣本數(shù)量達(dá)到預(yù)設(shè)窗口容量時(shí)將這些樣本送入輸出空間檢測模塊.

        3) 輸出空間檢測.基于TD 學(xué)習(xí)對待標(biāo)注緩存窗口內(nèi)樣本的偽真值進(jìn)行標(biāo)注,再采用Page-Hinkley檢測法分析樣本的偽真值與模型測量值差異,以確認(rèn)樣本是否漂移.

        4) 測量模型更新.確認(rèn)當(dāng)前緩存窗口內(nèi)樣本發(fā)生概念漂移后,將其結(jié)合歷史樣本共同構(gòu)造為新訓(xùn)練集重新訓(xùn)練軟測量模型,同時(shí)重置待標(biāo)注緩存窗口.

        3 概念漂移檢測算法實(shí)現(xiàn)

        3.1 軟測量模型構(gòu)建模塊

        本文采用GPR 構(gòu)建基礎(chǔ)軟測量模型.GPR 通過貝葉斯推理確定樣本復(fù)雜性水平并建立特征空間與輸出空間的映射關(guān)系,現(xiàn)已廣泛應(yīng)用于多種工業(yè)領(lǐng)域[32].

        3.2 特征空間檢測模塊

        3.3 輸出空間檢測模塊

        3.3.1 基于時(shí)間差分(TD)學(xué)習(xí)的偽真值標(biāo)注

        偽真值標(biāo)注是實(shí)現(xiàn)半監(jiān)督漂移檢測的前提.現(xiàn)有研究中,文獻(xiàn)[36?37]證明TD 學(xué)習(xí)對特征空間漂移的樣本具有良好的測量性能.TD 學(xué)習(xí)通過分析樣本輸出與特征空間的一階差分量變化實(shí)現(xiàn)新樣本測量[38],其思路描述如下.

        具體標(biāo)注策略為:根據(jù)式(7)、式(8),計(jì)算歷史樣本輸出與特征空間的一階差分量集合分別為?ytrain和 ?Xtrain,并請求現(xiàn)場人員標(biāo)注窗口內(nèi)第一個(gè)樣本的真值.原因是:1) 實(shí)際工業(yè)過程存在成本高昂、檢測延遲和維護(hù)困難等問題,導(dǎo)致難以對全部樣本進(jìn)行真值標(biāo)注;2) 新樣本發(fā)生概念漂移時(shí),其輸入輸出關(guān)系相較歷史樣本有較大改變,此時(shí)僅依據(jù)歷史樣本難以推斷漂移樣本的偽真值.綜上,僅標(biāo)注窗口內(nèi)第一個(gè)樣本的真值,可在縮減標(biāo)注成本的同時(shí)提高后續(xù)偽真值標(biāo)注工作的準(zhǔn)確性.據(jù)此,構(gòu)建新一階差分量集合為:

        3.3.2 基于Page-Hinkley 檢測法的漂移樣本確認(rèn)

        合理分析樣本偽真值和測量值間的差異,是確認(rèn)樣本最終概念漂移情況的關(guān)鍵.現(xiàn)有研究表明,基于累積和思想推導(dǎo)的Page-Hinkley 檢測法具有對分布漂移敏感、計(jì)算簡便等特點(diǎn),因此可有效用于輸出空間漂移檢測[24].該方法中,給定一系列觀測值 [l1,l2,···,lm],計(jì)算備擇假設(shè)(觀測值中存在漂移點(diǎn)θ,即 1<θ m)的似然比統(tǒng)計(jì)量為[39]:服從數(shù)學(xué)期望為δ的正態(tài)分布.

        式(20)以對數(shù)表示為:

        據(jù)此,備擇假設(shè)(有漂移) 對原假設(shè)(無漂移)的對數(shù)似然比統(tǒng)計(jì)量為:

        通過設(shè)置閾值與Zm進(jìn)行比較,即可判斷當(dāng)前系列觀測值內(nèi)是否存在概念漂移.

        當(dāng)待標(biāo)注緩存窗口內(nèi)樣本均完成偽真值標(biāo)注后,本文采用Page-Hinkley 檢測法對這些樣本的輸出空間進(jìn)行概念漂移檢測.以T時(shí)刻的觀測值Obs(T)為例,檢測流程如下[24].

        首先,計(jì)算關(guān)于Obs(T)的累計(jì)變量φT:

        其中,ObsT ?1表示此前T?1 時(shí)刻所有歷史觀測值的均值;累計(jì)變量φT表示當(dāng)前觀測值Obs(T)與歷史觀測值均值之差.

        然后,通過計(jì)算變化指標(biāo)PHT判斷當(dāng)前觀測值Obs(T)是否異常:

        式中,?T表示當(dāng)前所有時(shí)刻中記錄的最小累計(jì)變量值;PHT表示當(dāng)前T時(shí)刻累計(jì)變量φT與最小累計(jì)變量值之差.當(dāng)滿足條件PHT >λ時(shí),認(rèn)為觀測值Obs(T)異常,其中λ是經(jīng)驗(yàn)閾值.

        在此基礎(chǔ)上,本文將觀測值Obs(T)選取為窗口第n次填滿時(shí)窗口內(nèi)樣本的累積平均測量誤差,即:

        此時(shí),累計(jì)變量φT表示當(dāng)前累計(jì)平均測量誤差與歷史累計(jì)平均測量誤差均值之差;?T表示當(dāng)前記錄的最小φT值.

        此外,根據(jù)式(26),緩存窗口第一次被填滿即n=1 時(shí),?T=φT,此時(shí)樣本輸出空間中缺乏漂移判斷依據(jù),因此本文將?T表示為:

        式中,?0為基準(zhǔn)累計(jì)平均測量誤差,將依據(jù)驗(yàn)證樣本平均測量誤差獲得.同時(shí),本文設(shè)置λ=0,即當(dāng)φT >?T,代表當(dāng)次窗口內(nèi)累計(jì)平均測量誤差相較歷史樣本明顯升高時(shí),認(rèn)為窗口內(nèi)樣本可表征概念漂移,并將其用于構(gòu)建新訓(xùn)練集.

        3.4 測量模型更新模塊

        當(dāng)緩存窗口內(nèi)樣本被確認(rèn)漂移后,本文根據(jù)歷史樣本和當(dāng)前窗口內(nèi)樣本共同構(gòu)建新訓(xùn)練集對測量模型進(jìn)行更新.以緩存窗口被第n次填滿時(shí)窗口內(nèi)樣本為例,構(gòu)造新訓(xùn)練集如下:

        4 仿真分析

        4.1 數(shù)據(jù)集

        本文采用合成數(shù)據(jù)集驗(yàn)證所提方法的有效性,并通過真實(shí)MSWI 過程數(shù)據(jù)集驗(yàn)證其實(shí)際應(yīng)用效果.

        1) 合成數(shù)據(jù)集

        合成數(shù)據(jù)集采用文獻(xiàn)[40]所提方法構(gòu)建.正常樣本生成依據(jù)為:

        式中,x1、x2、x3、x4和x5均服從[0,1]區(qū)間內(nèi)均勻分布,σ(0,1) 是服從正態(tài)分布的隨機(jī)數(shù).

        漂移樣本生成依據(jù)為:

        式中,各特征取值范圍滿足:

        合成數(shù)據(jù)集共有樣本1 500個(gè),其中前1 000個(gè)為正常樣本,后500個(gè)為漂移樣本.在正常樣本中,又劃分前500個(gè)為建模樣本,后500個(gè)為驗(yàn)證樣本.驗(yàn)證樣本設(shè)置目的是獲得式(29)中基準(zhǔn)累計(jì)平均測量誤差?0值.

        2) MSWI 過程數(shù)據(jù)集

        MSWI 過程數(shù)據(jù)來自北京市某MSWI 發(fā)電廠,數(shù)據(jù)中包含的缺失值和異常值均根據(jù)現(xiàn)場經(jīng)驗(yàn)以人工方式去除.實(shí)驗(yàn)中選擇氮氧化物的排放濃度作為測量目標(biāo),考慮其生成和吸收過程,選取爐膛溫度、一次風(fēng)量、二次風(fēng)量、爐膛剩余氧量、尿素噴入量等相關(guān)性較強(qiáng)的18個(gè)變量作為樣本特征.過程數(shù)據(jù)集中具有樣本1 500個(gè),其中前1 000個(gè)為正常樣本,后500個(gè)為漂移樣本.在正常樣本中,又劃分前500個(gè)為建模樣本,后500個(gè)為驗(yàn)證樣本.其中,正常樣本在爐膛溫度為900 ℃~950 ℃時(shí)的對應(yīng)工況中采集;漂移樣本在爐膛溫度為950 ℃~1000 ℃時(shí)的對應(yīng)工況中采集.

        上述數(shù)據(jù)集的詳細(xì)參數(shù)及各特征在概念漂移環(huán)境中的變化情況,如表1 和圖4 所示.

        表1 各數(shù)據(jù)集參數(shù)介紹Table 1 Detailed introduction of each data set

        由圖4 可知,兩數(shù)據(jù)集中建模樣本與漂移樣本間的特征空間分布情況具有明顯差異,間接反映了數(shù)據(jù)集中存在的概念漂移現(xiàn)象.

        圖4 各特征在概念漂移環(huán)境中的變化情況Fig.4 Changes of each feature in the concept drift environment

        4.2 仿真結(jié)果

        實(shí)驗(yàn)中各參數(shù)設(shè)置如表2 所示.其中,ConfSPE和ConfT2分別為PCA 統(tǒng)計(jì)量控制限SPE 和T2的置信度;?0為驗(yàn)證樣本平均測量誤差.上述參數(shù)通過實(shí)驗(yàn)確定.

        表2 仿真參數(shù)設(shè)置Table 2 Simulation parameter setting

        原始測量模型在各數(shù)據(jù)集中的測量結(jié)果如圖5所示.由圖5 可知,原始測量模型在兩個(gè)數(shù)據(jù)集的漂移發(fā)生時(shí)刻(第500個(gè)樣本)均產(chǎn)生較大的測量誤差,并對此后的漂移樣本均無法有效擬合.

        圖5 原始模型測量結(jié)果Fig.5 Measurement results of the original model

        1) 特征空間漂移檢測

        針對數(shù)據(jù)集中存在的概念漂移現(xiàn)象,采用PCA對驗(yàn)證樣本和漂移樣本特征空間的漂移檢測結(jié)果如圖6 所示.圖中實(shí)線代表PCA 統(tǒng)計(jì)量,虛線代表統(tǒng)計(jì)量控制限.

        圖6 顯示了驗(yàn)證樣本和漂移樣本特征空間的PCA 統(tǒng)計(jì)量與PCA 統(tǒng)計(jì)量控制限的大小關(guān)系.其中,在合成數(shù)據(jù)集中共測得特征空間漂移樣本400個(gè);在過程數(shù)據(jù)集中共測得特征空間漂移樣本450個(gè).從圖6 可看出,過程數(shù)據(jù)集中樣本特征空間分布對工況變化較為敏感,因此采用PCA 可有效測出漂移時(shí)刻對應(yīng)樣本.

        圖6 針對特征空間的漂移檢測結(jié)果Fig.6 Drift detection results in the feature space

        2) 基于TD 學(xué)習(xí)的偽真值標(biāo)注

        針對特征空間漂移的樣本,基于TD 學(xué)習(xí)對其偽真值標(biāo)注結(jié)果與實(shí)際真值的比較如圖7 所示.其中,在合成數(shù)據(jù)集中共標(biāo)注偽真值350個(gè),偽真值與真值間平均誤差為3.2760 (實(shí)際真值標(biāo)準(zhǔn)差為2.2606);在過程數(shù)據(jù)集中共標(biāo)注偽真值441個(gè),偽真值與真值間平均誤差為35.9429 (實(shí)際真值標(biāo)準(zhǔn)差為36.3831),兩個(gè)數(shù)據(jù)集中偽真值平均標(biāo)注誤差與實(shí)際真值自身離散程度相似.此外,從圖7 可看出,偽真值變化趨勢與樣本真值相近,因此在樣本真值難以完全獲取時(shí)可采用偽真值對樣本輸出空間漂移情況近似分析.

        圖7 針對特征空間漂移樣本的偽真值標(biāo)注結(jié)果Fig.7 Pseudo-true value labeling results for samples with concept drift in the feature space

        3) 輸出空間檢測結(jié)果

        對特征空間漂移的樣本完成偽真值標(biāo)注后,采用Page-Hinkley 檢測法對樣本輸出空間的漂移檢測結(jié)果如圖8 所示.

        圖8 為每次待標(biāo)注緩存窗口被填滿且其中樣本均被標(biāo)注偽真值后,窗口內(nèi)樣本累計(jì)平均測量誤差的變化情況.其中,在合成數(shù)據(jù)集中待標(biāo)注緩存窗口填滿50 次;在過程數(shù)據(jù)集中待標(biāo)注緩存窗口填滿9 次.從圖8 可看出,窗口內(nèi)樣本累計(jì)平均測量誤差在漂移發(fā)生時(shí)刻明顯升高,隨模型不斷更新而趨于平穩(wěn),表明所提算法可有效檢測樣本輸出空間中存在的概念變化.

        圖8 針對輸出空間的漂移檢測結(jié)果Fig.8 Drift detection results in the output space

        4) 測量模型更新

        依據(jù)上述檢測結(jié)果,模型采用由概念漂移樣本和歷史樣本組成的新訓(xùn)練集更新后,在各數(shù)據(jù)集中的測量性能變化如圖9 所示.

        由圖9 可知,測量模型采用所提漂移檢測算法后,其測量誤差相較原始模型明顯下降,詳細(xì)更新信息及模型均方根測量誤差(Root mean squared error,RMSE)變化情況如表3 所示.

        圖9 采用所提漂移檢測算法后模型測量誤差變化Fig.9 Changes of model measurement error after adopting the proposed drift detection algorithm

        由表3 可知:1) 合成數(shù)據(jù)集中,算法在500個(gè)漂移樣本環(huán)境下,共標(biāo)注樣本偽真值350個(gè),更新后使模型RMSE 降低66.2%,相較原始模型真值需求量降低99.2%;2) 過程數(shù)據(jù)集中,算法在500個(gè)漂移樣本環(huán)境下,共標(biāo)注樣本偽真值441個(gè),更新后使模型RMSE 降低45.5%,相較原始模型真值需求量降低98.2%.上述結(jié)果表明:所提算法可在大部分漂移樣本真值未標(biāo)注情況下,顯著提升模型面對概念漂移樣本的測量性能,可有效提高M(jìn)SWI 過程氮氧化物濃度軟測量模型在漂移環(huán)境中的測量精度.

        表3 所提算法檢測信息Table 3 Detection information of the proposed algorithm

        4.3 方法比較

        1) 漂移檢測性能比較

        為驗(yàn)證所提漂移檢測算法具有優(yōu)于已有方法的性能,此處與僅基于特征空間的無監(jiān)督型算法和僅基于輸出空間的有監(jiān)督型算法進(jìn)行比較,前者基于PCA 檢測樣本特征空間漂移狀況[19],后者采用模型測量誤差檢測樣本輸出空間漂移狀況[41].比較結(jié)果如表4 和圖10 所示.

        圖10 采用不同算法時(shí)模型測量誤差變化Fig.10 Changes in model measurement errors when using different algorithms

        表4 不同算法檢測性能比較Table 4 Comparison of detection performance of different algorithms

        由上述結(jié)果分析可知:1) 相較無監(jiān)督型算法,本文算法在兩個(gè)數(shù)據(jù)集中均使模型更新后具有更低的測量RMSE 值,更新過程中真值需求量縮減50.5%(合成)、98.0% (過程);2) 相較有監(jiān)督型算法,本文算法具有更低的更新次數(shù),且在真值需求量分別縮減55.6%和98.0%的情況下,仍使模型更新后具有與其接近的測量RMSE 值.綜上表明:所提算法可有效提升無監(jiān)督型算法的更新效率,并在僅少量真值標(biāo)注情況下保持與有監(jiān)督型算法相近的更新性能.

        2) 建模策略比較

        為驗(yàn)證GPR 模型的高效測量性能,此處與兩種常用機(jī)器學(xué)習(xí)模型:支持向量回歸(Support vec-tor regression,SVR)和回歸樹(Regression tree,RT)進(jìn)行比較.除模型外其余參數(shù)均與上文實(shí)驗(yàn)中保持一致,比較結(jié)果如表5 所示.

        由表5 分析可知,上述模型均取最優(yōu)測量結(jié)果時(shí),GPR 表現(xiàn)仍優(yōu)于其他模型.在合成數(shù)據(jù)集中,GPR 具有最優(yōu)的訓(xùn)練RMSE、R2和測量RMSE(分別為0.1899、0.96 和2.5840);在過程數(shù)據(jù)集中,GPR 在訓(xùn)練階段的擬合效果與SVR 相近(分別為0.1348 和0.98),但在測量階段具有最優(yōu)泛化性能(28.8785).

        表5 不同模型測量性能比較Table 5 Comparison of measurement performance of different models

        3) 近鄰規(guī)則比較

        為驗(yàn)證基于TD 學(xué)習(xí)的偽真值標(biāo)注過程中歐氏距離作為近鄰規(guī)則的有效性,此處與兩種常用的相似性度量方式:曼哈頓距離與切比雪夫距離進(jìn)行比較.比較過程中參數(shù)設(shè)置與實(shí)驗(yàn)部分保持一致,其結(jié)果如表6 所示.

        由表6 分析可知,相較其他度量方式,歐氏距離能夠體現(xiàn)特征空間數(shù)值上的絕對差異,而概念漂移樣本相較歷史樣本常具有差異較大的特征值.因此,模型采用歐氏距離作為近鄰規(guī)則時(shí)可較好捕獲樣本的相似性,并在各數(shù)據(jù)集中均具有最優(yōu)測量性能(分別為2.5840 和28.8785).

        表6 不同距離函數(shù)對模型更新性能影響Table 6 The influence of different distance functions on model updating performance

        4.4 參數(shù)分析

        仿真過程中固定參數(shù)(軟測量模型核函數(shù)類型、核函數(shù)寬度、特征長度及基準(zhǔn)累計(jì)平均測量誤差?0)根據(jù)模型最小訓(xùn)練誤差與最小驗(yàn)證樣本測試誤差選取,可變參數(shù)(待標(biāo)注緩存窗口容量w、PCA 控制限置信度ConfSPE、ConfT2及TD 學(xué)習(xí)最近鄰數(shù)量ε)由實(shí)際仿真分析后選取.以過程數(shù)據(jù)集為例,不同可變參數(shù)對算法性能影響的分析結(jié)果如表7 所示.

        由表7 可知:

        表7 不同可變參數(shù)對應(yīng)算法性能變化Table 7 Algorithm performance changes corresponding to different variable parameters

        1) 待標(biāo)注緩存窗口容量w變化改變偽真值標(biāo)注次數(shù)與模型更新次數(shù),進(jìn)而對更新后模型RMSE產(chǎn)生影響.當(dāng)w偏小時(shí)緩存窗口易被填滿,更多樣本被檢測為特征空間異常并被確認(rèn)漂移,因此偽真值標(biāo)注量與模型更新次數(shù)增加,但由于單次更新模型的漂移樣本數(shù)過少導(dǎo)致模型無法在每次更新時(shí)充分學(xué)習(xí)漂移特征,易使更新后模型RMSE 偏大.當(dāng)w偏大時(shí)緩存窗口難以填滿,偽真值標(biāo)注量與模型更新次數(shù)隨之降低,但其較長的樣本檢索時(shí)間導(dǎo)致模型無法及時(shí)適應(yīng)概念漂移,同樣易使更新后模型RMSE 偏大.

        2) TD 學(xué)習(xí)中最近鄰數(shù)量ε變化改變偽真值標(biāo)注精度,進(jìn)而對更新后模型RMSE 產(chǎn)生影響.當(dāng)ε偏小時(shí)被用于標(biāo)注偽真值的歷史樣本數(shù)減少,因此算法無法獲取充足的歷史差分量變化信息,導(dǎo)致難以準(zhǔn)確輸出偽真值并易使更新后模型RMSE 偏大.當(dāng)ε偏大時(shí)被用于標(biāo)注偽真值的歷史樣本數(shù)增多,此時(shí)算法易受相似度較低的歷史差分量變化信息干擾,同樣導(dǎo)致更新后模型RMSE 偏大.

        3) 特征空間漂移檢測過程中PCA 控制限(ConfSPE與ConfT2)的變化將改變算法在輸出空間的檢測樣本數(shù)量,進(jìn)而使待標(biāo)注緩存窗口填滿次數(shù)、偽真值標(biāo)注次數(shù)、模型更新次數(shù)及偽真值標(biāo)注精度變化,并對更新后模型RMSE 產(chǎn)生影響.其影響方式與可變參數(shù)w、ε變化所產(chǎn)生的影響相似,即改變模型對漂移的學(xué)習(xí)程度與其更新效率.

        上述分析表明,可變參數(shù)的設(shè)置方式對軟測量模型的最終性能具有一定影響.在選擇參數(shù)時(shí)需結(jié)合實(shí)際應(yīng)用背景,具體為:1) 新樣本概念變化緩慢或?qū)δP蜏y量影響程度較小時(shí),應(yīng)設(shè)置較大緩存樣本窗口容量以充分學(xué)習(xí)漂移特征,從而獲取最優(yōu)測量性能;反之則應(yīng)設(shè)置較小緩存樣本窗口容量以及時(shí)避免測量性能快速惡化;2) 當(dāng)新樣本的特征空間分布與歷史樣本接近時(shí),應(yīng)設(shè)置較小的最近鄰數(shù)量以避免提取冗余差分量信息,同時(shí)設(shè)置較低的PCA控制限有利于在輸出空間區(qū)分新概念樣本;反之則應(yīng)設(shè)置較大的最近鄰數(shù)量和PCA 控制限,從而準(zhǔn)確標(biāo)注新樣本偽真值并提前將其在特征空間中與歷史樣本區(qū)分,提高輸出空間檢測效率.實(shí)際上,更新后模型RMSE 變化不僅由算法中單一可變參數(shù)改變引起,還體現(xiàn)為上述參數(shù)的綜合變化.因此,所提漂移檢測算法應(yīng)用于工業(yè)過程時(shí),應(yīng)設(shè)置可供交互的數(shù)據(jù)界面窗口,實(shí)時(shí)調(diào)整可變參數(shù)以獲取最優(yōu)檢測及模型更新效果.

        5 結(jié)語

        針對復(fù)雜工業(yè)過程存在概念漂移、部分難測參數(shù)的真值難以及時(shí)獲取問題,文中提出一種聯(lián)合樣本輸出與特征空間的半監(jiān)督概念漂移檢測方法.其策略是:通過PCA 篩選特征空間內(nèi)存在概念漂移的樣本后,再結(jié)合TD 學(xué)習(xí)算法和Page-Hinkley 檢測法,在樣本輸出空間進(jìn)行偽真值標(biāo)注并識別能夠表征概念漂移的新樣本.本文所提方法的創(chuàng)新性表現(xiàn)在:1) 采用聯(lián)合PCA 和Page-Hinkley 檢測法的策略充分反映新樣本在特征空間和樣本輸出空間的概念漂移行為;2) 將基于TD 學(xué)習(xí)的半監(jiān)督機(jī)制用于特征空間漂移樣本的偽真值標(biāo)注,為面向工業(yè)回歸問題的半監(jiān)督概念漂移檢測提供了新方法;3) 采用真實(shí)MSWI 過程數(shù)據(jù)集驗(yàn)證了所提方法在實(shí)際應(yīng)用中的可行性,并表明其具有優(yōu)于已有方法的性能.

        目前,面向工業(yè)回歸測量領(lǐng)域的半監(jiān)督漂移檢測研究尚處于探索階段.進(jìn)一步的研究方向包括:1)為避免憑借人工經(jīng)驗(yàn)設(shè)定模型參數(shù)導(dǎo)致漂移檢測過程的隨意性和差異性,研究模型參數(shù)的自適應(yīng)選擇算法;2)為提高標(biāo)注的準(zhǔn)確度,對偽真值標(biāo)注算法進(jìn)行改進(jìn);3)為提高概念漂移檢測算法的適應(yīng)性,研究針對實(shí)際工業(yè)過程的漂移理解和漂移處理策略.

        猜你喜歡
        概念特征測量
        Birdie Cup Coffee豐盛里概念店
        幾樣概念店
        如何表達(dá)“特征”
        把握四個(gè)“三” 測量變簡單
        不忠誠的四個(gè)特征
        滑動(dòng)摩擦力的測量和計(jì)算
        學(xué)習(xí)集合概念『四步走』
        滑動(dòng)摩擦力的測量與計(jì)算
        聚焦集合的概念及應(yīng)用
        抓住特征巧觀察
        911国产在线观看精品| 久久天天躁狠狠躁夜夜avapp| 撕开奶罩揉吮奶头视频| 欧美亚洲高清日韩成人| 午夜男女视频一区二区三区| 中文字日产幕码三区的做法步| 国产香蕉国产精品偷在线| 国产精品白浆视频免费观看| 少妇高潮紧爽免费观看| 青青草在线免费播放视频| 末成年女a∨片一区二区| 在线免费日韩| 免费观看在线视频一区| 在线观看国产成人av天堂野外| 午夜福利理论片高清在线观看| 日韩精品国产自在久久现线拍| 性色av手机在线观看| 女色av少妇一区二区三区| 精品少妇爆乳无码av无码专区| 国产小视频网址| 蜜桃色av一区二区三区麻豆| 免费午夜爽爽爽www视频十八禁 | 亚洲国产精品特色大片观看完整版| 日本a在线天堂| 国产精品久久久黄色片| 男女猛烈xx00免费视频试看| 日韩黑人欧美在线视频观看| 亚洲国产精品美女久久久| 极品嫩模大尺度av在线播放| 久久不见久久见免费影院www| 日本a在线免费观看| 精品极品视频在线观看| 好男人社区影院www| 久久综合网天天 | 亚洲视频在线免费观看一区二区| 女人下边被添全过视频| 一群黑人大战亚裔女在线播放| 男女上床视频在线观看| 国产亚洲成人av一区| 依依成人精品视频在线观看 | 国产女人18毛片水真多|