喬俊飛,孫子健,湯 健
(北京工業(yè)大學(xué)信息學(xué)部,北京 100124;計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124)
隨著傳感器技術(shù)與計(jì)算機(jī)水平的持續(xù)發(fā)展,現(xiàn)代工業(yè)過程有望通過融入大量數(shù)據(jù)以期實(shí)現(xiàn)對(duì)運(yùn)行狀態(tài)的更精準(zhǔn)有效控制.為實(shí)現(xiàn)上述目標(biāo),軟測(cè)量建模方法被廣泛用于具有連續(xù)化和復(fù)雜化等特點(diǎn)的工業(yè)系統(tǒng),其依據(jù)過程數(shù)據(jù)建立難測(cè)參數(shù)的測(cè)量模型[1-3].實(shí)際建模任務(wù)中,過程數(shù)據(jù)因其隨時(shí)間變化所具有的非平穩(wěn)性引起了眾多學(xué)者關(guān)注,尤其是數(shù)據(jù)分布隨時(shí)間發(fā)生變化導(dǎo)致舊模型無法適用于新樣本的問題,該現(xiàn)象被稱為概念漂移[4],其產(chǎn)生原因一般是工業(yè)中元器件老化或生產(chǎn)環(huán)境變化導(dǎo)致模型輸入輸出的關(guān)系改變,其通常難以預(yù)知與量化.為此,建模過程通常引入在線學(xué)習(xí)方法(如非線性感知器[5]、正則化對(duì)偶平均[6]和LASSO[7]等)實(shí)現(xiàn)在線動(dòng)態(tài)建模,目的是使軟測(cè)量模型能夠根據(jù)新樣本實(shí)時(shí)更新,以在不斷變化的數(shù)據(jù)環(huán)境中保持良好的測(cè)量精度,同時(shí)有效縮減數(shù)據(jù)存儲(chǔ)成本.
盡管在線動(dòng)態(tài)建模使模型具有自主調(diào)整能力,但在概念漂移環(huán)境中通常還需對(duì)模型更新方式進(jìn)行引導(dǎo),否則模型將由于無法全面了解環(huán)境變化而長(zhǎng)期處于頻繁更新狀態(tài),并因此消耗更多計(jì)算資源且易導(dǎo)致測(cè)量不及時(shí)或準(zhǔn)確性下降,此時(shí)有必要僅采用新概念樣本對(duì)模型進(jìn)行針對(duì)性更新,以提高模型在環(huán)境變化時(shí)的適應(yīng)速度[8].
為實(shí)現(xiàn)對(duì)新概念樣本的精準(zhǔn)篩選,針對(duì)樣本漂移檢測(cè)的研究得到迅速發(fā)展.圖1展示了近20年內(nèi)概念漂移相關(guān)文獻(xiàn)的發(fā)表與引用數(shù)量變化情況1Citation report of concept drift.Web of Science.www.isiknowledge.com..
由圖1可知,該領(lǐng)域研究規(guī)模正逐漸擴(kuò)大,已有大量學(xué)者加入概念漂移相關(guān)問題討論.在這些研究中,較早的漂移檢測(cè)系統(tǒng)是FLORA系列算法[9],該算法初步實(shí)現(xiàn)樣本概念變化的判別與存儲(chǔ)能力.隨后的工作中,文獻(xiàn)[4,10-12]等進(jìn)一步完善了概念漂移的產(chǎn)生原因、類型和定義;文獻(xiàn)[13-16]等研究了漂移檢測(cè)算法的不同學(xué)習(xí)方式,包括半監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)和重復(fù)概念學(xué)習(xí);文獻(xiàn)[17-18]等結(jié)合現(xiàn)有測(cè)量模型與檢測(cè)算法構(gòu)造了特定的漂移適應(yīng)性模型.綜上,隨著漂移檢測(cè)技術(shù)的逐步完善與成熟,為對(duì)實(shí)際工業(yè)過程中軟測(cè)量建模任務(wù)提供有意義的應(yīng)用幫助,有必要對(duì)當(dāng)前領(lǐng)域的研究動(dòng)態(tài)與趨勢(shì)進(jìn)行有指導(dǎo)意義的總結(jié)與展望.
目前已存在的綜述文獻(xiàn)在不同方面介紹了漂移檢測(cè)算法的研究進(jìn)展,如:文獻(xiàn)[19]歸納了面向分類任務(wù)的檢測(cè)算法;文獻(xiàn)[20]圍繞漂移的檢測(cè)、理解和適應(yīng)三個(gè)方面進(jìn)行方法總結(jié);文獻(xiàn)[15]中包含了較詳細(xì)的無監(jiān)督和半監(jiān)督檢測(cè)方式;文獻(xiàn)[21]重點(diǎn)介紹了基于測(cè)量誤差、統(tǒng)計(jì)檢驗(yàn)和模型結(jié)構(gòu)的3種檢測(cè)方式;文獻(xiàn)[22]對(duì)概念漂移檢測(cè)在網(wǎng)絡(luò)安全、金融市場(chǎng)和教育媒體等互聯(lián)網(wǎng)領(lǐng)域內(nèi)的應(yīng)用情況做出詳細(xì)分析.但現(xiàn)有綜述文獻(xiàn)集中于對(duì)計(jì)算機(jī)等領(lǐng)域的應(yīng)用描述,且多數(shù)圍繞分類任務(wù)特點(diǎn)開展,仍缺少對(duì)工業(yè)過程的應(yīng)用分析.實(shí)際工業(yè)過程具有強(qiáng)耦合、大時(shí)滯和不確定等特性,其概念變化情況相較有明確類別指示的任務(wù)而言更加復(fù)雜且不易區(qū)分,因此需結(jié)合過程特點(diǎn)有針對(duì)性地對(duì)漂移檢測(cè)方法進(jìn)行綜述.
本文以工業(yè)過程為背景,圍繞基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量模型對(duì)現(xiàn)有漂移檢測(cè)算法進(jìn)行綜述,主要貢獻(xiàn)有:1)結(jié)合目前漂移檢測(cè)領(lǐng)域內(nèi)的研究成果與實(shí)際工業(yè)過程特點(diǎn),將現(xiàn)有算法的檢測(cè)依據(jù)分為3類:基于難測(cè)參數(shù)測(cè)量誤差、基于過程變量和基于綜合因素,以此歸納現(xiàn)有方法的不同研究重點(diǎn);2)新劃分不同算法的檢測(cè)對(duì)象,即在不同檢測(cè)依據(jù)的基礎(chǔ)上進(jìn)一步區(qū)分針對(duì)單樣本和多樣本的研究策略,并說明不同檢測(cè)對(duì)象對(duì)模型更新方式的影響;3)討論并總結(jié)現(xiàn)有方法的技術(shù)特點(diǎn)與工業(yè)過程中常見的部分研究難點(diǎn);4)提出面向工業(yè)過程檢測(cè)算法的未來研究方向建議.
概念漂移指目標(biāo)樣本統(tǒng)計(jì)特性根據(jù)時(shí)間以隨機(jī)方式變化[23],其最早由文獻(xiàn)[24]提出,依據(jù)是噪聲數(shù)據(jù)會(huì)在某些情況下得到與非噪聲數(shù)據(jù)相同的特征從而被誤認(rèn)為正常數(shù)據(jù),且該變化通常難以直接測(cè)量[25].以數(shù)據(jù)驅(qū)動(dòng)角度分析,概念漂移的形式如圖2所示.
圖2 概念漂移的形式描述Fig.2 Formal description of concept drift
結(jié)合圖2,可將其形式詳細(xì)描述為:給定[1,t]時(shí)刻內(nèi)的建模樣本集S1,t={d1,···,dt},其中:di=(xi,yi)(i ∈[1,t])是S1,t中的一個(gè)樣本,xi為樣本過程變量(工業(yè)中對(duì)難測(cè)參數(shù)具有實(shí)際影響的溫度、壓力和流量等可實(shí)時(shí)測(cè)量參數(shù)),yi為難測(cè)參數(shù)真值(約定真值[26],即通過化驗(yàn)分析等方法確定的工業(yè)難測(cè)參數(shù)的最高基準(zhǔn)值),S1,t內(nèi)樣本均服從分布F1,t(x,y).假定新時(shí)刻樣本dk(k ∈[t+1,∞))服從的分布為Fk(x,y),當(dāng)F1,t(x,y)/Fk(x,y)時(shí),認(rèn)為新樣本dk相較建模樣本S1,t發(fā)生概念漂移.
依據(jù)不同視角,現(xiàn)有研究將概念漂移劃分為不同類別.如:文獻(xiàn)[27]根據(jù)數(shù)據(jù)的產(chǎn)生環(huán)境差異提出虛、實(shí)概念漂移;文獻(xiàn)[28]根據(jù)漂移的產(chǎn)生原因?qū)⑵涿枋鰹闃颖鞠闰?yàn)概率、類概率和后驗(yàn)概率的變化;文獻(xiàn)[29]依據(jù)時(shí)間序列分析思想將漂移分為隨機(jī)噪聲、隨機(jī)趨勢(shì)、隨機(jī)替換和系統(tǒng)趨勢(shì);文獻(xiàn)[12]根據(jù)數(shù)據(jù)產(chǎn)生的多源性將概念漂移稱為數(shù)據(jù)漂移.上述研究均有助理解概念漂移本質(zhì).目前,多數(shù)漂移處理過程中,最為常用的漂移類別為:突然漂移、增量漂移、漸進(jìn)漂移和重復(fù)漂移[4],其示例如圖3所示.
圖3 常見漂移類型圖示Fig.3 Illustration of common drift types
圖3中:突然漂移與增量漂移分別表示樣本概念在較短或較長(zhǎng)的時(shí)間內(nèi)改變;漸進(jìn)漂移表示在舊概念不完全消失的情況下新概念將其逐漸替代;重復(fù)漂移表現(xiàn)為多種概念交替出現(xiàn).上述漂移類型的劃分依據(jù)是樣本概念變化的速度與幅度.
2.2.1 研究背景簡(jiǎn)述
當(dāng)前工業(yè)過程主要存在兩類軟測(cè)量建模方式[27]:機(jī)理驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng).前者通常為特定工業(yè)過程開發(fā)并常用于推理控制,該類模型缺點(diǎn)是:1)建模需大量經(jīng)驗(yàn)知識(shí);2)通常簡(jiǎn)化理論背景,不符合真實(shí)過程狀態(tài);3)側(cè)重描述工業(yè)過程的理想穩(wěn)態(tài),不適合瞬態(tài)表達(dá).相反,數(shù)據(jù)驅(qū)動(dòng)模型基于對(duì)過程直接且詳細(xì)的測(cè)量,因此可從多方面描述實(shí)際工業(yè)過程.現(xiàn)有漂移檢測(cè)研究通常建立在基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量模型基礎(chǔ)上,其典型建模流程如圖4所示.
根據(jù)圖4,可將該過程具體描述如下:1)第1階段為數(shù)據(jù)初步檢查階段,該階段獲得現(xiàn)有過程數(shù)據(jù)、識(shí)別建模時(shí)可能出現(xiàn)的問題并確定建模任務(wù);2)第2階段為建模數(shù)據(jù)選擇階段,該階段將選出處于平穩(wěn)狀態(tài)的、適合模型訓(xùn)練和評(píng)估的過程數(shù)據(jù);3)第3階段為數(shù)據(jù)預(yù)處理階段,該階段通常將第2階段選擇后得到的過程數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化表示,并進(jìn)行特征處理和缺失數(shù)據(jù)標(biāo)記等工作;4)第4階段選擇合適的模型進(jìn)行訓(xùn)練與測(cè)試,常用模型有決策樹、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等;5)第5階段采用人工的或?qū)W習(xí)過程中得到的經(jīng)驗(yàn)更新模型.工業(yè)過程中漂移檢測(cè)研究位于上述第3和第5階段,即首先對(duì)新樣本進(jìn)行漂移判別與處理,然后將新概念樣本用于更新模型,以使模型在新概念環(huán)境下保持良好的魯棒性與測(cè)量精度.
圖4 典型數(shù)據(jù)驅(qū)動(dòng)軟測(cè)量建模流程Fig.4 Typical data-driven soft sensor modeling process
此外,相較其它應(yīng)用領(lǐng)域,工業(yè)過程中漂移檢測(cè)研究通常還需考慮如下工業(yè)特點(diǎn):
1) 回歸任務(wù)多:工業(yè)數(shù)據(jù)以連續(xù)型變量為主,任務(wù)常集中于產(chǎn)品質(zhì)量和環(huán)保指標(biāo)等難測(cè)參數(shù)的軟測(cè)量,相較以分類任務(wù)為主的視覺識(shí)別等領(lǐng)域,概念變化無法由類別改變直接表示,通常需結(jié)合實(shí)際過程設(shè)定觀測(cè)值閾值以確認(rèn)漂移現(xiàn)象.
2) 工況變化復(fù)雜:工業(yè)生產(chǎn)過程易受物料成分、生產(chǎn)環(huán)境變化等因素影響,其工況變化形式與幅度較為復(fù)雜,由此導(dǎo)致工業(yè)中概念漂移隨機(jī)性較強(qiáng),且可能以多種類型共存的形式出現(xiàn),因此對(duì)檢測(cè)算法的靈敏度和準(zhǔn)確度均有較高要求.
3) 時(shí)效性要求高:相較互聯(lián)網(wǎng)中的消費(fèi)心理、用戶行為分析等領(lǐng)域,工業(yè)概念漂移常預(yù)示潛在運(yùn)行風(fēng)險(xiǎn),如無法及時(shí)檢測(cè)與控制,除造成經(jīng)濟(jì)損失外還可能引起人員傷亡及有毒污染物排放超標(biāo)等嚴(yán)重運(yùn)行事故.
2.2.2 漂移的實(shí)際影響與產(chǎn)生原因
概念漂移會(huì)使基于歷史數(shù)據(jù)構(gòu)建的軟測(cè)量模型在面對(duì)漂移樣本時(shí)測(cè)量性能下降,進(jìn)而影響工業(yè)系統(tǒng)的控制與決策[31].以現(xiàn)有研究為例:
文獻(xiàn)[32]指出,在流化床鍋爐的燃燒質(zhì)量與燃料流量測(cè)量過程中會(huì)出現(xiàn)概念漂移現(xiàn)象,原因是燃料等級(jí)與成分改變使質(zhì)量檢測(cè)信號(hào)出現(xiàn)階躍變化,從而導(dǎo)致模型測(cè)量錯(cuò)誤并使控制系統(tǒng)無法及時(shí)優(yōu)化鍋爐負(fù)載;面向工業(yè)徑向風(fēng)扇自適應(yīng)維護(hù)過程,文獻(xiàn)[33]提出變槳器機(jī)油中空氣含量變化會(huì)影響旋轉(zhuǎn)葉片仰角,如無法及時(shí)檢測(cè)并進(jìn)行維護(hù)將降低風(fēng)扇工作效率;針對(duì)半導(dǎo)體蝕刻過程,文獻(xiàn)[34]指出不同材料的最佳蝕刻時(shí)間存在差異,因此需要依據(jù)材料變化實(shí)時(shí)調(diào)整蝕刻時(shí)間,否則將導(dǎo)致半導(dǎo)體結(jié)構(gòu)寬度改變從而影響電路的電性能;針對(duì)攪拌釜系統(tǒng),文獻(xiàn)[35]指出換熱器結(jié)垢參數(shù)值降低會(huì)使導(dǎo)體傳熱效率減小,導(dǎo)致模型輸出錯(cuò)誤的測(cè)量值.綜上,在軟測(cè)量模型中引入概念漂移檢測(cè)技術(shù)對(duì)提高工業(yè)過程控制效率具有重要意義.
根據(jù)漂移產(chǎn)生原因,工業(yè)中將其分為過程漂移和傳感器漂移[30].其中,過程漂移一般有兩種產(chǎn)生原因.第一種是過程內(nèi)部結(jié)構(gòu)變化(機(jī)械元件磨損等),如文獻(xiàn)[36]提出圖5所示的“可靠性浴盆曲線”,表明一般情況下工業(yè)部件的可靠性會(huì)隨時(shí)間變化并對(duì)過程本身產(chǎn)生影響;第二種是過程外部條件變化(氣候與工藝要求變化等),以城市固廢焚燒過程(municipal solid waste incineration,MSWI)為例,固體廢物含水率隨季節(jié)與溫度變化而改變,爐膛溫度依據(jù)實(shí)際燃燒狀況進(jìn)行實(shí)時(shí)調(diào)節(jié),這些變化均會(huì)影響出口煙氣污染物的生成關(guān)系并進(jìn)而對(duì)濃度測(cè)量產(chǎn)生干擾[37].以前文研究為例,文獻(xiàn)[32-34]屬于工業(yè)過程外部條件變化引起的過程漂移,這些漂移均由輸入過程變量變化導(dǎo)致(燃料成分、機(jī)油質(zhì)量和蝕刻材料),文獻(xiàn)[35]屬于工業(yè)過程內(nèi)部結(jié)構(gòu)變化引起的漂移,即由運(yùn)行過程中參數(shù)變化導(dǎo)致(結(jié)垢參數(shù)).傳感器漂移也被稱為測(cè)量漂移[38],通常由傳感器等硬件設(shè)施的測(cè)量精度改變導(dǎo)致,因此該類漂移不反映運(yùn)行過程的真實(shí)參數(shù)變化,在漂移檢測(cè)領(lǐng)域中研究較少.
圖5 可靠性浴盆曲線Fig.5 Reliability bathtub curve
針對(duì)漂移處理的理論研究包括:文獻(xiàn)[39]指出概念漂移檢測(cè)可視為雙重抽樣問題,即檢查兩個(gè)給定樣本總體是否來自相同分布;文獻(xiàn)[40]從樣本選擇與加權(quán)角度對(duì)漂移樣本檢索方式進(jìn)行討論;文獻(xiàn)[28]基于貝葉斯理論將漂移歸結(jié)為類概率、先驗(yàn)概率和后驗(yàn)概率的分布變化,并以此指導(dǎo)漂移檢測(cè);文獻(xiàn)[10]給出了漂移的速度、持續(xù)時(shí)間和嚴(yán)重程度等定義;文獻(xiàn)[15]討論了模型在漂移環(huán)境中的更新與適應(yīng)方式.
基于上述研究,文獻(xiàn)[20]提出了如圖6所示的概念漂移處理流程.文中將概念漂移處理分為檢測(cè)、理解和適應(yīng)三個(gè)步驟.其中,漂移檢測(cè)指通過識(shí)別變化點(diǎn)或變化間隔以表征和量化概念漂移的技術(shù)和機(jī)制;漂移理解關(guān)注“何時(shí)”、“何地”和“如何”,即識(shí)別漂移產(chǎn)生的時(shí)間、區(qū)域和程度等狀態(tài)信息并將其作為漂移適應(yīng)的輸入;漂移適應(yīng)的目的是采用漂移狀態(tài)信息更新模型,其研究主要集中于簡(jiǎn)單再訓(xùn)練、集成再訓(xùn)練和模型調(diào)整3個(gè)方向.
圖6 一般概念漂移處理流程Fig.6 General concept drift processing flow
基于上述通用概念漂移處理流程,本文考慮實(shí)際工業(yè)過程中難測(cè)參數(shù)真值較難獲得情況,將工業(yè)過程概念漂移處理流程總結(jié)如圖7所示.圖7中設(shè)置樣本真值的查詢與請(qǐng)求階段的原因在于:實(shí)際工業(yè)過程中部分難測(cè)參數(shù)真值通常無法及時(shí)獲得,如在MSWI過程中,出口煙氣污染物二噁英的濃度值需在專業(yè)檢測(cè)中心經(jīng)過多階段核定,其真值獲得周期較長(zhǎng)且費(fèi)用高昂[37].此外,現(xiàn)場(chǎng)人員通常根據(jù)工業(yè)過程的性能反饋有選擇地標(biāo)注樣本,以保證標(biāo)注工作處于合理的經(jīng)濟(jì)范圍內(nèi)[41].上述情況常采用基于過程變量或綜合因素的方法進(jìn)行漂移檢測(cè),具體細(xì)節(jié)將在第3章節(jié)介紹.
圖7 工業(yè)過程中概念漂移處理流程Fig.7 Concept drift processing flow in industrial process
本節(jié)將分別從檢測(cè)依據(jù)和檢測(cè)對(duì)象兩個(gè)視角對(duì)現(xiàn)有漂移檢測(cè)算法進(jìn)行歸納與討論,劃分視角詳情如表1所示.
表1 綜述視角劃分Table 1 Overview angle division
本文將現(xiàn)有方法的檢測(cè)依據(jù)分為3類:基于難測(cè)參數(shù)測(cè)量誤差、基于過程變量和基于綜合因素.其中:基于難測(cè)參數(shù)測(cè)量誤差的方法指通過模型測(cè)量誤差的變化程度確認(rèn)漂移;基于過程變量的方法指通過分析樣本過程變量間數(shù)值差異或分布變化進(jìn)行檢測(cè);基于綜合因素的方法可視為前兩種方法的結(jié)合.
3.1.1 基于難測(cè)參數(shù)測(cè)量誤差的方法
在難測(cè)參數(shù)真值易獲取的情況下,測(cè)量誤差是檢測(cè)過程中最直觀的判別標(biāo)準(zhǔn)之一,因此僅基于難測(cè)參數(shù)測(cè)量誤差的方法較為常見.盡管測(cè)量誤差變化通常無法說明樣本分布的真實(shí)變化情況,但仍可在一定程度反映變量輸入輸出關(guān)系的改變,并能使該方法具有計(jì)算過程簡(jiǎn)便高效等特點(diǎn).
該類研究中具代表性的算法是漂移檢測(cè)法(drift detection method,DDM)[42],其檢測(cè)思路可描述為:1)首先依據(jù)二項(xiàng)式分布特點(diǎn),針對(duì)漂移程度定義漂移預(yù)警級(jí)別和漂移警告級(jí)別;2)然后使用窗口采集新樣本(采集階段),計(jì)算窗口內(nèi)樣本的測(cè)量誤差并存儲(chǔ)其作為最新判別依據(jù)(在線測(cè)量階段);3)最后通過計(jì)算模型當(dāng)前的與歷史的錯(cuò)誤率差異判斷(誤差評(píng)估階段):當(dāng)誤差變化幅度達(dá)到漂移預(yù)警級(jí)別時(shí),存儲(chǔ)當(dāng)前窗口內(nèi)樣本,并將這些樣本用于構(gòu)建新模型,但此時(shí)仍然采用舊模型進(jìn)行在線測(cè)量;當(dāng)錯(cuò)誤率變化幅度達(dá)到漂移警告級(jí)別時(shí),采用此前構(gòu)建的新模型代替當(dāng)前模型進(jìn)行在線測(cè)量(模型更新階段).DDM的貢獻(xiàn)是其初步提供了較為完整的檢測(cè)框架(如圖8所示),即通過樣本窗口、測(cè)量誤差和級(jí)別定義完成新樣本采集、在線測(cè)量、誤差評(píng)估與模型更新.
后續(xù)較多研究均以圖8所表示的檢測(cè)框架為基礎(chǔ),如:
圖8 DDM檢測(cè)框架Fig.8 DDM detection framework
1) 針對(duì)樣本采集階段的改進(jìn):文獻(xiàn)[43]采用衰落因子檢索待測(cè)樣本并結(jié)合Page-Hinkley方法對(duì)新樣本檢驗(yàn),結(jié)果表明該方式相較窗口式檢索可有效降低檢測(cè)延遲與存儲(chǔ)成本;文獻(xiàn)[44]采用樣本加權(quán)方式,根據(jù)樣本的采集順序劃分樣本的概念變化權(quán)重,以此篩選用于分析和比較的樣本塊.
2) 針對(duì)在線測(cè)量與誤差評(píng)估階段的改進(jìn):文獻(xiàn)[45]在算法中引入全局樣本窗口以監(jiān)視當(dāng)前樣本總體的測(cè)量誤差,并采用改進(jìn)的等比例統(tǒng)計(jì)檢驗(yàn)比較全局與新樣本窗口內(nèi)的在線測(cè)量誤差差異以表征漂移;文獻(xiàn)[46]分別計(jì)算模型在總體樣本和最近樣本中可接受測(cè)量誤差的出現(xiàn)概率,采用Hoeffding不等式判斷概率差異以確認(rèn)漂移;文獻(xiàn)[44]采用指數(shù)加權(quán)移動(dòng)平均(exponentially weighted moving average,EMWA)監(jiān)視新樣本真值與在線測(cè)量誤差的平均值變化,并同樣通過Hoeffding不等式確認(rèn)漂移.
3) 針對(duì)模型更新階段的改進(jìn):文獻(xiàn)[47]采用集成方式設(shè)置多個(gè)并行樣本窗口并在每個(gè)窗口內(nèi)均建立在線測(cè)量模型,當(dāng)新樣本到來時(shí)根據(jù)各模型測(cè)量誤差分配窗口權(quán)重,以權(quán)值最大窗口作為主模型以應(yīng)對(duì)概念變化;文獻(xiàn)[48]提出雙學(xué)習(xí)器概念,即在算法中分別構(gòu)造穩(wěn)定和靈敏的在線測(cè)量模型,根據(jù)兩模型在不同概念環(huán)境中的測(cè)量精度交替使用.
此外,文獻(xiàn)[49]在DDM基礎(chǔ)上將概念變化判別依據(jù)從測(cè)量誤差的變化程度替換為兩個(gè)錯(cuò)誤測(cè)量之間的樣本數(shù)量,并因此表明算法的檢測(cè)及時(shí)性得到改善;文獻(xiàn)[39]提出基于支持向量機(jī)(support vector machine,SVM)的檢測(cè)方式,即在兩個(gè)樣本中尋找最優(yōu)線性間隔以使模型對(duì)兩個(gè)樣本的余量最大化,通過觀測(cè)兩個(gè)線性間隔的相似度判別漂移;文獻(xiàn)[50]基于累積和控制圖觀察模型在線測(cè)量誤差概率變化以反映樣本分布差異;文獻(xiàn)[51]采用EMWA方法監(jiān)控模型在線測(cè)量誤差變化;文獻(xiàn)[52]基于在線隨機(jī)權(quán)神經(jīng)網(wǎng)絡(luò)模型,用新樣本更新模型后,量化并比較模型更新前后輸出權(quán)重值的變化程度以表征漂移.
3.1.2 基于過程變量的方法
基于過程變量分布變化的常用漂移檢測(cè)流程如圖9所示.
圖9 基于過程變量的檢測(cè)流程Fig.9 Detection process based on process variable algorithm
根據(jù)圖9可知,該類算法首先提取過程變量中所包含的關(guān)鍵信息,然后針對(duì)所提取信息進(jìn)行相似性度量,最后根據(jù)度量結(jié)果判斷樣本漂移情況.本節(jié)將圍繞上述過程中常見的3種檢測(cè)策略展開描述,分別是多元統(tǒng)計(jì)、距離度量和假設(shè)檢驗(yàn).
1) 多元統(tǒng)計(jì)策略.
該策略中較常見的方法是主成分分析(principal component analysis,PCA),其被用于數(shù)據(jù)降維時(shí)表現(xiàn)出高效的數(shù)據(jù)分析能力,因此也被廣泛用于過程變量間相似性度量[53].該方法首先將新樣本dt+1分為和兩部分
此外,偏最小二乘(partial least squares,PLS)[59]、獨(dú)立成分分析(independent component analysis,ICA)[60]、費(fèi)舍爾判別分析(fisher discriminant analysis,FDA)[61]和子空間輔助方法(subspace aided approach,SAP)[62]等傳統(tǒng)多元統(tǒng)計(jì)方法及它們的改進(jìn)版本[63]均被證明可有效檢測(cè)過程變量是否異常.其中,PLS常用于多輸出過程分析,ICA在非高斯分布的異常檢測(cè)中表現(xiàn)良好.
現(xiàn)有研究中,文獻(xiàn)[64]采用PCA檢測(cè)水泥回轉(zhuǎn)窯運(yùn)行過程狀態(tài),并引入EWMA方法自適應(yīng)調(diào)整PCA模型控制限閾值;文獻(xiàn)[65]針對(duì)乙烯裂解過程,在PCA基礎(chǔ)上結(jié)合基于知識(shí)的符號(hào)有向圖(signed directed graph,SDG)推理方法,實(shí)現(xiàn)檢測(cè)變量變化的同時(shí)確定變化原因;文獻(xiàn)[66]采用ALD條件逐個(gè)分析待測(cè)樣本的概念變化情況,并將新概念樣本用于PCA模型更新以使其獲得自適應(yīng)調(diào)整能力;文獻(xiàn)[67]面向傳感器網(wǎng)絡(luò)概念漂移現(xiàn)象,根據(jù)子空間學(xué)習(xí)思想將PCA和基于角度優(yōu)化的全局降維算法(angle optimized global embedding,AOGE)相結(jié)合,以從多角度分析待測(cè)樣本的主成分變化情況;文獻(xiàn)[68]采用統(tǒng)計(jì)矩與功率譜分別度量樣本過程變量的均值、方差、偏度、峰度、幅度和頻率變化等因素以表征漂移.
2) 距離度量策略.
該策略采用距離(歐式距離、馬氏距離和余弦距離等)對(duì)樣本過程變量間的相似關(guān)系進(jìn)行量化,特點(diǎn)是無需過程變量服從特定分布(高斯或非高斯分布等),且漂移判別標(biāo)準(zhǔn)設(shè)置相對(duì)靈活,因此已成為目前基于過程變量的漂移檢測(cè)算法中最常見的一類方法[18].
現(xiàn)有研究中,文獻(xiàn)[69]較早為樣本差異分析中距離函數(shù)的設(shè)計(jì)提供了指導(dǎo),其采用L1范數(shù)度量樣本距離關(guān)系,并結(jié)合Chernoff界和Vapnik-Chervonenkis維數(shù)確定距離簇變化程度;文獻(xiàn)[70]采用Hellinger距離檢測(cè)漸進(jìn)或突然的概念變化,計(jì)算新舊樣本中每個(gè)變量間的Hellinger距離,并將所有變量距離的均值作為最終距離后計(jì)算其與預(yù)設(shè)基準(zhǔn)距離的差異;文獻(xiàn)[71]結(jié)合距離度量與最近鄰思想,首先計(jì)算相鄰樣本塊中各樣本間的異構(gòu)歐式距離,然后根據(jù)最近鄰樣本的標(biāo)簽一致程度計(jì)算樣本漂移度;文獻(xiàn)[72]將歷史樣本拆分為多個(gè)樣本塊,并將每個(gè)歷史樣本塊映射為不同的概念向量后進(jìn)行聚類,當(dāng)新樣本塊到達(dá)時(shí)計(jì)算概念向量與歷史樣本聚類中心的距離差異以檢測(cè)漂移;文獻(xiàn)[73]提出基于Kullback-Leibler距離的決策樹分布檢測(cè)模型;文獻(xiàn)[74]采用馬氏距離和歐式距離互補(bǔ)的方式對(duì)樣本過程變量的不同子空間進(jìn)行度量,根據(jù)預(yù)設(shè)差異指標(biāo)指示概念變化;文獻(xiàn)[75]對(duì)樣本聚類后,通過比較相鄰樣本塊的領(lǐng)域熵差值以檢測(cè)漂移.
3) 假設(shè)檢驗(yàn)策略.
常見的假設(shè)檢驗(yàn)策略可分為參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn),前者需在樣本總體分布信息已知情況下進(jìn)行,而后者不依賴樣本總體分布.常用的參數(shù)檢驗(yàn)包括t檢驗(yàn)和F檢驗(yàn),分別觀測(cè)樣本總體均值和方差的相似性;常用的非參數(shù)檢驗(yàn)包括Wilcoxon 檢驗(yàn)、置換檢驗(yàn)和Kolmogorov-Smirnov檢驗(yàn),相應(yīng)地分別觀測(cè)樣本秩和、均數(shù)和頻數(shù)的相似性.
現(xiàn)有研究中,文獻(xiàn)[23]根據(jù)案例推理分類思想提出基于能力模型的檢測(cè)法,其構(gòu)造樣本間基于能力的經(jīng)驗(yàn)距離并對(duì)該距離進(jìn)行置換檢驗(yàn)以檢測(cè)漂移;文獻(xiàn)[76]提出基于重采樣和t檢驗(yàn)的多尺度檢測(cè)法,首先在訓(xùn)練集中提取具有典型概念特征的樣本,然后將這些樣本組成規(guī)模較小的且具有多樣概念的子集,最后通過t檢驗(yàn)比較該子集與待檢測(cè)樣本的總體均值差異以檢測(cè)漂移;文獻(xiàn)[77]在多集理論基礎(chǔ)上提出基于累計(jì)區(qū)域密度差異的檢驗(yàn)方法,該方法計(jì)算樣本塊中不同過程變量值的所占比例,并通過Monte-Carlo置換檢驗(yàn)判斷相鄰樣本塊中過程變量值的比例分布差異指示漂移.
3.1.3 基于綜合因素的方法
綜合因素法結(jié)合了基于難測(cè)參數(shù)測(cè)量誤差與基于過程變量的方法,相較單一檢測(cè)方法可提供更全面檢測(cè)信息,因此該類方法被用于解決實(shí)際問題.
文獻(xiàn)[78]在基于專家知識(shí)構(gòu)建的模糊推理模型的基礎(chǔ)上,結(jié)合樣本相對(duì)ALD值和相對(duì)測(cè)量誤差值(relative prediction error,RPE)有效識(shí)別新概念樣本,文中表明該算法相較僅基于ALD和僅基于RPE的樣本識(shí)別方法可詳細(xì)反映樣本漂移程度,且能提高模型可解釋性與測(cè)量精度.相對(duì)ALD值的計(jì)算方式如下:
其中:θcom為樣本選擇閾值.當(dāng)JCt+1=1時(shí),表示新樣本dt+1發(fā)生漂移,否則認(rèn)為樣本正常.
文獻(xiàn)[79]面向在線數(shù)據(jù)維護(hù)提出了名為P樹的模型結(jié)構(gòu),在監(jiān)視模型測(cè)量性能變化的基礎(chǔ)上結(jié)合PCA和Wilcoxon檢驗(yàn)對(duì)樣本的類分布與后驗(yàn)分布變化進(jìn)行檢測(cè).文中所提算法框架如圖10所示.
根據(jù)圖10,可將綜合因素法檢測(cè)思路描述為:1)依據(jù)模型性能變化(測(cè)量誤差與誤差率等)檢索異常樣本;2)采用基于過程變量的方法分析異常樣本分布變化情況;3)根據(jù)分析結(jié)果定義漂移變化指標(biāo)實(shí)現(xiàn)漂移檢測(cè).
圖10 基于P樹的在線數(shù)據(jù)維護(hù)框架Fig.10 P-tree-based online data maintenance framework
3.1.4 基于其他檢測(cè)依據(jù)的方法
其它研究中,文獻(xiàn)[31]針對(duì)質(zhì)量在線測(cè)量過程,對(duì)新樣本進(jìn)行窗口檢索后采用3種方式檢測(cè)樣本概念變化,即模型均方測(cè)量誤差、非參數(shù)U檢驗(yàn)和觀測(cè)均值分析;文獻(xiàn)[80]提出具有滑動(dòng)窗口的符號(hào)回歸集成模型,首先根據(jù)模型測(cè)量誤差觸發(fā)樣本變化檢驗(yàn),然后計(jì)算新舊樣本的平方皮爾遜相關(guān)系數(shù),最后判斷當(dāng)相關(guān)系數(shù)大于預(yù)設(shè)閾值時(shí)認(rèn)為概念變化;文獻(xiàn)[81]提出雙準(zhǔn)則主動(dòng)學(xué)習(xí)算法,首先建立邏輯回歸模型監(jiān)測(cè)模型性能變化,然后對(duì)樣本聚類并結(jié)合貝葉斯思想判別樣本塊間概率密度差異,最后綜合上述變化確認(rèn)樣本漂移情況;文獻(xiàn)[82]提出層次假設(shè)檢驗(yàn)框架:第1層監(jiān)視分類器的在線錯(cuò)誤率,第2層采用置換檢驗(yàn)分析樣本過程變量的相似性;文獻(xiàn)[83]針對(duì)三聚氰胺樹脂生產(chǎn)過程的漂移現(xiàn)象,在具有滑動(dòng)窗口的集成PLS模型中引入Page-Hinkly檢測(cè)以檢索漂移樣本;文獻(xiàn)[84]基于模型解釋思想,首先計(jì)算樣本塊中各過程變量的貢獻(xiàn)度,然后采用歐式距離度量不同樣本塊中變量貢獻(xiàn)度差異,最后通過Page-Hinkly檢測(cè)判斷差異是否顯著;文獻(xiàn)[85]基于DDM思想對(duì)異常樣本進(jìn)行檢索,并通過監(jiān)視異常樣本集中馬爾可夫鏈隨時(shí)間的轉(zhuǎn)變概率變化表征漂移.
除上述有監(jiān)督方法外,現(xiàn)有研究還針對(duì)實(shí)際問題中難測(cè)參數(shù)真值難以獲取的情況提出了半監(jiān)督綜合檢測(cè)方法,如:文獻(xiàn)[86]提出基于邊際密度的半監(jiān)督檢測(cè)方法,采用分類器邊際密度作為無監(jiān)督漂移指標(biāo)檢索待標(biāo)注樣本,在樣本獲取標(biāo)注后再基于模型性能變化進(jìn)行第二次漂移確認(rèn);文獻(xiàn)[16]在Page-Hinkly檢測(cè)基礎(chǔ)上加入下降指示器和衰減因子并采用Hoeffding界定義檢測(cè)閾值,依據(jù)單次主動(dòng)學(xué)習(xí)思想定義半監(jiān)督性能指標(biāo),實(shí)驗(yàn)表明該方法具有接近有監(jiān)督方法的檢測(cè)效率,其樣本真值需求量?jī)H為后者的20%.
現(xiàn)有漂移檢測(cè)研究工作中暫未有明確的針對(duì)單樣本與多樣本的算法描述,但在部分文獻(xiàn)中存在與該工作類似的研究與討論,主要集中在樣本窗口大小的選擇問題.
樣本窗口的目的是依據(jù)樣本數(shù)量或時(shí)間步長(zhǎng)將部分流數(shù)據(jù)組織為樣本塊后進(jìn)行漂移分析,采用該策略的原因是部分學(xué)者認(rèn)為單個(gè)樣本難以攜帶足夠信息推斷總體分布[87],因此有必要將數(shù)據(jù)組織為有意義的模式或知識(shí)[88].目前,樣本窗口設(shè)置方式已成為漂移檢測(cè)研究的重點(diǎn)之一,較為典型的是基于固定窗口[42]、滑動(dòng)窗口[23]和多窗口[45]的檢測(cè)策略.此外,文獻(xiàn)[89]指出,大尺寸窗口雖可覆蓋更多新概念樣本但會(huì)導(dǎo)致檢測(cè)不及時(shí),小尺寸窗口雖可保證檢測(cè)及時(shí)性但易增大計(jì)算消耗,因此該文提出自適應(yīng)窗口,即窗口大小可依據(jù)概念變化速度與幅度實(shí)時(shí)調(diào)節(jié).
實(shí)際上無論以何種方式劃分樣本窗口,均無法避免的問題是:在樣本塊組織過程中,可能丟失關(guān)鍵漂移時(shí)刻信息或由于無法及時(shí)更新模型導(dǎo)致測(cè)量精度持續(xù)惡化.因此,有學(xué)者認(rèn)為逐樣本檢測(cè)方式可顯著提升檢測(cè)的時(shí)效性,即單個(gè)樣本可在一定程度上表征漂移現(xiàn)象[89].
基于上述工作,本文提出針對(duì)單樣本和多樣本的算法檢測(cè)框架,如圖11所示.
圖11所示漂移檢測(cè)框架的依據(jù)為:實(shí)際工業(yè)過程中,部分檢測(cè)任務(wù)側(cè)重對(duì)過程反應(yīng)變化規(guī)律進(jìn)行探索,如煙氣污染物的排放濃度變化趨勢(shì)觀察[37]和生成物質(zhì)量監(jiān)測(cè)實(shí)現(xiàn)鍋爐優(yōu)化[31]等,因此需采用樣本窗口方式獲得更加精確的變化關(guān)系,此時(shí)由檢索過程造成的檢測(cè)延時(shí)通??杀唤邮?而在另一些檢測(cè)任務(wù)中,概念變化通常預(yù)示生產(chǎn)過程意外改變,此時(shí)若無法及時(shí)檢測(cè)與處理漂移可能引起更大工程事故,因此需進(jìn)行逐樣本分析以及時(shí)杜絕潛在運(yùn)行風(fēng)險(xiǎn).綜上,以單樣本與多樣本視角對(duì)現(xiàn)有研究進(jìn)行討論可有效區(qū)分各檢測(cè)方式在工業(yè)應(yīng)用中的及時(shí)性與準(zhǔn)確性,有助于為不同建模任務(wù)選擇合適的漂移檢測(cè)算法.
圖11 針對(duì)單樣本與多樣本的漂移檢測(cè)框架Fig.11 Detection framework for single and multiple samples
3.2.1 單樣本漂移檢測(cè)
文獻(xiàn)[91]提出基于測(cè)量誤差限(prediction error band,PEB)的單樣本檢測(cè)算法,其誤差ek采用下式計(jì)算:
其中:yk是樣本dk對(duì)應(yīng)的難測(cè)參數(shù)真值;f(dk)為模型測(cè)量函數(shù).當(dāng)PEB滿足如下條件時(shí),認(rèn)為當(dāng)前樣本發(fā)生漂移
其它研究中,文獻(xiàn)[49]針對(duì)兩個(gè)相鄰漂移樣本之間的樣本數(shù)量進(jìn)行分析;文獻(xiàn)[39]通過觀察兩個(gè)樣本所對(duì)應(yīng)的模型最優(yōu)線性間隔進(jìn)行檢測(cè);文獻(xiàn)[50-51]分別依據(jù)模型對(duì)每個(gè)樣本的測(cè)量錯(cuò)誤可能性和測(cè)量錯(cuò)誤率變化;文獻(xiàn)[67]按采集順序?qū)Υ郎y(cè)樣本的主成分變化情況進(jìn)行多角度分析;文獻(xiàn)[74]針對(duì)單個(gè)樣本中過程變量的不同空間進(jìn)行距離度量;文獻(xiàn)[66,79]分別在PCA和RPE基礎(chǔ)上結(jié)合ALD條件實(shí)現(xiàn)逐樣本分析.
3.2.2 多樣本漂移檢測(cè)
前文所述研究中,文獻(xiàn)[43-44]采用樣本加權(quán)方式將待測(cè)樣本組織為樣本塊進(jìn)行分析;文獻(xiàn)[45-48]通過監(jiān)測(cè)樣本窗口內(nèi)的模型性能變化確認(rèn)漂移;文獻(xiàn)[64-65]采用控制圖方式監(jiān)控樣本塊概念變化;文獻(xiàn)[69-71]分析了不同樣本塊間的距離變化關(guān)系;文獻(xiàn)[72]采用樣本聚類方式分析;文獻(xiàn)[73]對(duì)兩個(gè)樣本塊之間的相對(duì)熵差異進(jìn)行檢測(cè);文獻(xiàn)[23,76-77]均針對(duì)樣本塊所攜帶的分布信息進(jìn)行假設(shè)檢驗(yàn)分析;文獻(xiàn)[80-84]采用綜合型方法對(duì)樣本窗口內(nèi)分布變化進(jìn)行檢測(cè);文獻(xiàn)[16,87]所提的半監(jiān)督檢測(cè)方法對(duì)異常樣本集合請(qǐng)求標(biāo)注后進(jìn)行二次檢驗(yàn)以確認(rèn)漂移.
根據(jù)上述討論,本節(jié)結(jié)合檢測(cè)依據(jù)、檢測(cè)對(duì)象和具體檢測(cè)方式對(duì)具有代表性的檢測(cè)方法進(jìn)行歸納,結(jié)果如表2所示.
表2 多視角下的算法特點(diǎn)總結(jié)Table 2 Summary of algorithm characteristics under multiple angles
現(xiàn)有各類檢測(cè)方法特點(diǎn)總結(jié)如表3所示.根據(jù)表3,可將各方法特點(diǎn)詳細(xì)描述為:
表3 各類漂移檢測(cè)方法特點(diǎn)Table 3 Characteristics of various drift detection methods
1) 基于難測(cè)參數(shù)測(cè)量誤差的檢測(cè)方法:該類方法觀測(cè)概念漂移產(chǎn)生的最直接變化,即模型輸入輸出關(guān)系變化導(dǎo)致的模型測(cè)量誤差顯著升高,因此其檢測(cè)速度相對(duì)較快,能及時(shí)反映漂移可能發(fā)生的時(shí)間與位置,且該過程實(shí)現(xiàn)較為簡(jiǎn)便,易于理解.但該類方法檢測(cè)效率較依賴模型性能與其構(gòu)建方式,且由于難以詳細(xì)反映樣本分布變化信息,可能導(dǎo)致模型長(zhǎng)期處于頻繁的更新過程從而使測(cè)量精度不穩(wěn)定,同時(shí)該類方法無法在難測(cè)參數(shù)真值難以獲得的情況下使用.
2) 基于過程變量的檢測(cè)方法:該類方法檢驗(yàn)樣本過程變量的顯著變化,可較全面反映變量變化情況,且該過程不依賴特定模型與難測(cè)參數(shù)真值.但有時(shí)過程變量變化無法充分說明樣本概念分布發(fā)生變化,以同時(shí)包含x1,x2和x3的三維過程變量集xt=[1,1,1]與xt+1=[1,3,9]為例,可觀察到兩個(gè)變量集中的變量數(shù)值與其變化幅度有明顯差異,但當(dāng)xt和xt+1的對(duì)應(yīng)樣本均滿足簡(jiǎn)單線性映射關(guān)系f(x)=x1+αx2+βx3(α,β →0)時(shí),變量間的數(shù)值差異難以準(zhǔn)確反映樣本的概念變化,該情況下對(duì)模型的更新可能是不必要的.
3) 基于綜合因素的檢測(cè)方法:該類方法可通過多視角分析概念變化情況以得到較為準(zhǔn)確的漂移檢測(cè)結(jié)果,在一定程度彌補(bǔ)了上述方法的缺點(diǎn),但也因此要求不同檢測(cè)策略之間具有合理的觸發(fā)機(jī)制與科學(xué)的資源分配機(jī)制,否則任一策略偏差均可能導(dǎo)致算法檢測(cè)效率低下甚至失效,需在方法構(gòu)建時(shí)充分考慮實(shí)際應(yīng)用環(huán)境以及各策略適用性.
4) 針對(duì)單樣本的檢測(cè)方法:目前針對(duì)單樣本的研究較少,原因是單個(gè)樣本攜帶的分布變化信息相較多樣本更難評(píng)估,但現(xiàn)有研究方法證明針對(duì)單樣本的漂移檢測(cè)是可行的,且該類方法所具有的時(shí)效性對(duì)于分析工業(yè)中過程環(huán)境變化及預(yù)估漂移程度與規(guī)模有重要意義.
5) 針對(duì)多樣本的檢測(cè)方法:樣本塊通常攜有豐富變化信息,現(xiàn)有研究表明該類方法具有更高檢測(cè)精度,但其需要更長(zhǎng)的檢索與檢測(cè)時(shí)間且在此期間內(nèi)難以維持模型性能,同時(shí)現(xiàn)有研究中多數(shù)方法未能對(duì)樣本漂移程度進(jìn)行區(qū)分.
目前工業(yè)領(lǐng)域中的部分研究雖未指明概念漂移問題,但其研究思路與技術(shù)路線均與漂移檢測(cè)具有相似之處.為對(duì)后續(xù)漂移檢測(cè)工作提供不同借鑒方案,此處對(duì)部分相似研究進(jìn)行整理,如下所示:
與基于難測(cè)參數(shù)測(cè)量誤差視角相似的方法:文獻(xiàn)[92]采用自回歸滑動(dòng)平均模型應(yīng)對(duì)動(dòng)態(tài)研磨過程中由環(huán)境變化或傳感器故障引起的軟測(cè)量模型性能下降;文獻(xiàn)[93]采用有限沖激響應(yīng)和SVM分析過程變量的動(dòng)態(tài)與靜態(tài)關(guān)系,并以此構(gòu)建動(dòng)態(tài)軟測(cè)量測(cè)量模型;文獻(xiàn)[94]針對(duì)動(dòng)態(tài)工業(yè)過程,采用時(shí)間差分模型減弱由機(jī)械元件老化導(dǎo)致的模型測(cè)量精度下降.在最近的研究中:文獻(xiàn)[95]提出基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)測(cè)量維護(hù)框架,通過比較設(shè)備在新時(shí)刻與歷史時(shí)刻的性能差異估算當(dāng)前設(shè)備故障概率;文獻(xiàn)[96]采用自適應(yīng)標(biāo)準(zhǔn)化的局部窗口對(duì)新樣本檢索后,基于包含雙向自編碼器的深度神經(jīng)網(wǎng)絡(luò)模型分析窗口內(nèi)樣本的分布差異;文獻(xiàn)[97]結(jié)合樣本時(shí)滯、動(dòng)態(tài)時(shí)間和測(cè)量誤差提出基于最小二乘SVM的氮氧化物濃度實(shí)時(shí)動(dòng)態(tài)測(cè)量模型.
與基于過程變量視角相似的方法:文獻(xiàn)[98]基于趨勢(shì)分析思想,采用動(dòng)態(tài)特征同步算法對(duì)過程變量的變化趨勢(shì)量化,并通過與歷史趨勢(shì)進(jìn)行相似性比較以確認(rèn)連續(xù)生產(chǎn)過程中的工況切換狀態(tài);文獻(xiàn)[99]基于子空間辨識(shí)思想,采用滑動(dòng)窗口檢索新樣本后計(jì)算窗口內(nèi)樣本子空間的馬爾可夫參數(shù)向量,通過比較不同窗口內(nèi)樣本參數(shù)向量的均值與方差差異判斷模型是否失配;文獻(xiàn)[100]采用基于概率的慢特征分析方法提取過程變量的潛在變化,并以此提高軟測(cè)量模型在動(dòng)態(tài)工業(yè)環(huán)境的測(cè)量精度;文獻(xiàn)[101]指出時(shí)變工業(yè)過程中具有影響力的過程變量通常變化緩慢,因此提出慢特征分析方法對(duì)時(shí)間序列數(shù)據(jù)中不同過程變量變化情況分析.在最近的研究中:文獻(xiàn)[102]通過聚類獲取時(shí)序數(shù)據(jù)變化特點(diǎn),并根據(jù)數(shù)據(jù)狀態(tài)趨勢(shì)檢測(cè)過程異常;文獻(xiàn)[103]面向多模態(tài)化工過程,通過結(jié)合遷移學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò),使工業(yè)測(cè)量模型能快速檢測(cè)并適應(yīng)源域與目標(biāo)域間的數(shù)據(jù)分布差異;文獻(xiàn)[104]將幾何字典學(xué)習(xí)思想用于工業(yè)過程監(jiān)控,通過K近鄰模型對(duì)歷史樣本中過程變量的幾何特征進(jìn)行編碼,進(jìn)而在字典學(xué)習(xí)框架下分析新舊樣本間的信息差異;文獻(xiàn)[105]采用歐式距離和時(shí)間加權(quán)距離度量樣本在空間與時(shí)間尺度中的相似性,并結(jié)合支持向量數(shù)據(jù)描述(support vector data description,SVDD)建立過程監(jiān)控模型;文獻(xiàn)[106]結(jié)合PCA與SVDD處理動(dòng)態(tài)、非線性和非高斯分布的故障檢測(cè)問題.
與綜合因素視角相似的方法:文獻(xiàn)[107]面向時(shí)變化工過程提出具有定時(shí)功能的模糊Petri網(wǎng)算法,在獲取過程動(dòng)態(tài)特性的同時(shí)監(jiān)測(cè)工況異常變化及其發(fā)生時(shí)間;文獻(xiàn)[108]面向非線性系統(tǒng),采用包含攝動(dòng)信號(hào)與模型殘差的互信息矩陣量化多變量系統(tǒng)中的模型失配程度.在最近的研究中:文獻(xiàn)[109]針對(duì)工業(yè)過程中老化與時(shí)變特性提出基于動(dòng)態(tài)多屬性決策的控制性能評(píng)價(jià)方法,通過計(jì)算超調(diào)量、非線性、輸出方差和控制閥黏滯指標(biāo)權(quán)重變化獲得過程動(dòng)態(tài)評(píng)價(jià)基準(zhǔn);文獻(xiàn)[110]從設(shè)備歷史故障中提取受故障影響最大的過程變量,并在運(yùn)行過程中觀測(cè)上述變量的綜合變化幅度判斷設(shè)備故障狀態(tài);文獻(xiàn)[111]提出基于隨機(jī)森林的實(shí)時(shí)控制圖,在監(jiān)視模型性能變化基礎(chǔ)上結(jié)合過程變量重要性實(shí)現(xiàn)故障檢測(cè)與故障原因識(shí)別;文獻(xiàn)[112]結(jié)合深度信念網(wǎng)絡(luò)和SVDD提出分層表示學(xué)習(xí)方法,在分析模型測(cè)量誤差變化的同時(shí)融入貝葉斯診斷框架表征過程變量中的故障信息.
結(jié)合以上分析,本文對(duì)工業(yè)過程中概念漂移檢測(cè)的部分研究難點(diǎn)總結(jié)如下:
1) 難測(cè)參數(shù)的真值獲取難:工業(yè)過程中由于技術(shù)局限與經(jīng)濟(jì)性考慮,通常無法為難測(cè)參數(shù)提供足夠的真值,因此要求檢測(cè)方法能在樣本少量標(biāo)記的情況下對(duì)樣本分布變化做出有效分析.為此,基于無監(jiān)督或半監(jiān)督的檢測(cè)研究是有必要的[16],但無監(jiān)督方法在變量變化情況較為復(fù)雜時(shí)可能無法保證檢測(cè)結(jié)果準(zhǔn)確性,而目前針對(duì)半監(jiān)督方法的研究相對(duì)缺乏.
針對(duì)真值無法及時(shí)標(biāo)注問題,面向分類任務(wù),文獻(xiàn)[113]采用神經(jīng)網(wǎng)絡(luò)測(cè)量無標(biāo)注樣本的最大類別概率以生成樣本偽標(biāo)簽;文獻(xiàn)[114]采用SVM分析同一樣本在不同類別下對(duì)模型決策邊界的影響程度從而推斷無標(biāo)注樣本標(biāo)簽.針對(duì)半監(jiān)督學(xué)習(xí),文獻(xiàn)[115]提出基于協(xié)同學(xué)習(xí)的半監(jiān)督回歸策略,文中建立不同的K近鄰測(cè)量模型并基于測(cè)量一致性輸出置信度最高的樣本測(cè)量值;文獻(xiàn)[116]面向多媒體信息處理領(lǐng)域提出基于分歧的半監(jiān)督主動(dòng)學(xué)習(xí)方法.上述工作均為半監(jiān)督漂移檢測(cè)方法設(shè)計(jì)提供了支撐,但如何將其應(yīng)用于連續(xù)型變量偽真值生成及具有概念變化的工業(yè)回歸任務(wù)中仍需深入研究.
2) 樣本的期望分布獲取難:現(xiàn)有工作多圍繞分類任務(wù)進(jìn)行,因此樣本概念通??筛鶕?jù)標(biāo)簽或類別等具有明顯區(qū)分性質(zhì)的信息劃分.但實(shí)際工業(yè)過程多為回歸任務(wù),此時(shí)二項(xiàng)分布、Hoffeding不等式和分類器決策邊界等常用的閾值界定方法難以直接應(yīng)用.
在基于分布的虛擬樣本生成研究中,文獻(xiàn)[117]基于信息擴(kuò)散準(zhǔn)測(cè)提出整體趨勢(shì)擴(kuò)散技術(shù),通過監(jiān)視數(shù)據(jù)變化趨勢(shì)估計(jì)其合理分布范圍;文獻(xiàn)[118]基于模糊理論提出擴(kuò)散神經(jīng)網(wǎng)絡(luò),以觀測(cè)樣本視為模糊正態(tài)分布中心并采用對(duì)稱的擴(kuò)散函數(shù)獲取其理論分布范圍.在基于特征的遷移學(xué)習(xí)研究中,文獻(xiàn)[119]基于降維思想,采用再生核希爾伯特空間度量樣本分布差異;文獻(xiàn)[120]采用協(xié)同聚類獲取源域數(shù)據(jù)的特征表示.上述工作均有助于提取工業(yè)過程變量的潛在概念,但如何將其與漂移檢測(cè)技術(shù)結(jié)合并定義過程變量的概念變化閾值仍需結(jié)合實(shí)際工業(yè)過程的特點(diǎn)進(jìn)行討論.
3) 噪聲等異常數(shù)據(jù)區(qū)分難:實(shí)際工業(yè)系統(tǒng)結(jié)構(gòu)較為復(fù)雜,各監(jiān)測(cè)環(huán)節(jié)擾動(dòng)均會(huì)為樣本采集過程混入噪聲等異常數(shù)據(jù),這些數(shù)據(jù)同樣會(huì)導(dǎo)致模型性能改變從而易與漂移現(xiàn)象相混淆,顯然,采用噪聲樣本對(duì)模型進(jìn)行更新是無意義的.
現(xiàn)有研究中,文獻(xiàn)[121]在集成軟測(cè)量模型中采用基于分區(qū)、層次和密度的聚類方法去除噪聲建模樣本;文獻(xiàn)[122]面向分類任務(wù),提出基于k近鄰感知的標(biāo)簽噪聲過濾算法;文獻(xiàn)[123]通過集成投票策略評(píng)估噪聲得分以確認(rèn)噪聲樣本.上述工作均為工業(yè)過程中異常數(shù)據(jù)辨識(shí)提供了思路,但如何將其與漂移樣本合理區(qū)分仍需進(jìn)一步分析.
本文介紹了當(dāng)前工業(yè)中的概念漂移現(xiàn)象,總結(jié)了概念漂移的定義、形式以及現(xiàn)有的部分研究工作,分析了各類檢測(cè)方法的特點(diǎn)與針對(duì)工業(yè)領(lǐng)域的部分難點(diǎn),旨在為工業(yè)過程中概念漂移檢測(cè)算法的設(shè)計(jì)與應(yīng)用提供指導(dǎo).
結(jié)合文中分析結(jié)果,在此提出對(duì)未來工作的研究方向與建議:
1) 加強(qiáng)半監(jiān)督檢測(cè)算法研究:目前半監(jiān)督檢測(cè)方法相對(duì)較少,該類方法在難測(cè)參數(shù)的真值難以獲得時(shí)具有較強(qiáng)的研究意義.因此,在實(shí)際算法設(shè)計(jì)時(shí)可進(jìn)一步結(jié)合虛擬樣本生成和小樣本分析等技術(shù)以充分利用已有真值樣本的分布信息,同時(shí)建立可靠的無監(jiān)督檢測(cè)策略進(jìn)行異常樣本篩選.
2) 加強(qiáng)單樣本檢測(cè)算法研究:現(xiàn)有工作中針對(duì)單樣本的算法較為缺乏,由于單個(gè)樣本所攜帶分布信息有限,未來應(yīng)結(jié)合基于綜合因素的方法從樣本輸出空間、變量空間和變量子空間等方面進(jìn)行多角度并行分析,同時(shí)引入多步測(cè)量與變化率分析等技術(shù)思想,實(shí)現(xiàn)對(duì)未來發(fā)生漂移的可能性、時(shí)間和程度等信息進(jìn)行預(yù)判,以充分發(fā)揮單樣本檢測(cè)的時(shí)效性特點(diǎn).
3) 加強(qiáng)多樣本檢測(cè)算法研究:現(xiàn)有多樣本檢測(cè)算法可初步保證檢測(cè)準(zhǔn)確性,在此基礎(chǔ)上未來應(yīng)加強(qiáng)對(duì)漂移現(xiàn)象的理論研究.如,建立漂移變化指標(biāo)以量化歷史樣本的漂移速度與新樣本漂移幅度,從而衡量不同形式漂移對(duì)軟測(cè)量模型的影響程度并以此指示模型在當(dāng)前環(huán)境中的更新方式與必要性,實(shí)現(xiàn)在加強(qiáng)模型適應(yīng)性的同時(shí)避免模型因頻繁更新導(dǎo)致的計(jì)算資源消耗與短期性能下降.
4) 加強(qiáng)與實(shí)際工業(yè)過程聯(lián)系:算法設(shè)計(jì)時(shí)除對(duì)檢測(cè)功能進(jìn)行完善外,仍需考慮在工業(yè)運(yùn)行過程中的適用性.如,在算法中引入噪聲識(shí)別等數(shù)據(jù)預(yù)處理技術(shù)以應(yīng)對(duì)過程數(shù)據(jù)的復(fù)雜性,同時(shí)結(jié)合專家知識(shí)與工藝機(jī)理充分了解運(yùn)行過程中的易變工況,并建立多模式集成或自適應(yīng)調(diào)整的漂移檢測(cè)模型,提高工業(yè)環(huán)境中的漂移檢測(cè)效率.
此外,本文僅針對(duì)概念漂移的檢測(cè)方式進(jìn)行綜述介紹,其它研究?jī)?nèi)容如漂移理解、漂移適應(yīng)性模型的構(gòu)建與更新策略等仍需進(jìn)一步討論.