亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖記憶誘導(dǎo)的大氣排污時序數(shù)據(jù)異常檢測算法

        2023-07-07 10:21:00宋文燏周海波吳宗培李海員袁玉波
        關(guān)鍵詞:集上類別標(biāo)簽

        宋文燏,周海波,吳宗培,李海員,袁玉波

        (1.華東理工大學(xué)信息科學(xué)與工程學(xué)院, 上海 200237;2.河北新禾科技有限公司, 石家莊 050011)

        2021 年10 月24 日,國務(wù)院印發(fā)了《中共中央國務(wù)院關(guān)于完整準(zhǔn)確全面貫徹新發(fā)展理念做好碳達峰碳中和工作的意見》的文件,明確指出“大幅降低大氣污染排放水平”,以“碳中和”和“碳達峰”為概念的生態(tài)環(huán)境監(jiān)管治理上升至國家戰(zhàn)略。近些年,大氣污染監(jiān)管治理技術(shù)備受關(guān)注。以信息化或數(shù)據(jù)化技術(shù)為基礎(chǔ),針對企業(yè)申報的大氣排污數(shù)據(jù),如何有效地實時在線監(jiān)管大氣排污數(shù)據(jù)的變化是一個技術(shù)難題。通過模型提前預(yù)測或者分析當(dāng)下空氣質(zhì)量,可以防止造成不必要的污染排放等。

        按照國家環(huán)保部的標(biāo)準(zhǔn)要求,相關(guān)企業(yè)需要每小時申報一次大氣排污指標(biāo)數(shù)據(jù)。從數(shù)據(jù)角度看,大氣排污數(shù)據(jù)屬于多維度的時間序列。隨著機器學(xué)習(xí)算法的蓬勃發(fā)展,許多研究者將機器學(xué)習(xí)的方法應(yīng)用于時間序列領(lǐng)域,根據(jù)時間序列數(shù)據(jù)的特點提出了針對性的算法,如孤立森林算法(iForest)[1]和一類支持向量機算法(one-Class SVM)[2]。隨著算力的提升,深度學(xué)習(xí)算法被廣泛應(yīng)用,基于深度學(xué)習(xí)算法的時間序列分析方法,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[3-4]和長短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[5-7]開始出現(xiàn),基于生成對抗網(wǎng)絡(luò)(GAN)[8]的時間序列分析方法和基于自編碼器的時間序列分析方法也相繼被提出。

        孤立森林算法可用于無監(jiān)督的時間序列異常檢測[1,9-10]。一類支持向量機算法非常適合奇異值檢測[2,11-13]。然而,傳統(tǒng)時間序列檢測方法只能提取淺層時序特征,效率低,并且精度也滿足不了要求。隨著深度學(xué)習(xí)的不斷發(fā)展,許多學(xué)者將神經(jīng)網(wǎng)絡(luò)等技術(shù)用于時間序列檢測異常,該技術(shù)的研究主要分為兩類:一類基于預(yù)測,另一類基于重構(gòu)。基于預(yù)測的模型首先對時間序列進行預(yù)測,然后通過實際值與預(yù)測值的殘差來檢測異常[14-17]。隨著機器異常行為的不斷變化,基于預(yù)測的時間序列異常檢測方法的效果越來越難以提升?;谥貥?gòu)的模型假設(shè)在對序列數(shù)據(jù)進行重構(gòu)后僅較少部分的異常數(shù)據(jù)會被丟失,如果重構(gòu)后的數(shù)據(jù)與原始數(shù)據(jù)存在較大的差異,則為異常數(shù)據(jù)[8,18-21]。當(dāng)前企業(yè)的排污時間序列異常檢測存在以下難點和問題:(1)異常標(biāo)注困難;(2)長時間序列異常檢測效果不佳;(3)采用深度網(wǎng)絡(luò)進行異常檢測對性能要求高,且存在較高的時間復(fù)雜度。

        本文針對上述問題采用了有標(biāo)簽樣本與無標(biāo)簽樣本相結(jié)合的方式,降低了標(biāo)注樣本所耗費的人力,同時,將時間序列進行分片,將粒度放大,然后采用圖記憶網(wǎng)絡(luò)進行特征的編碼與分類,在提高檢測效果的同時降低了時間復(fù)雜度。

        1 圖記憶誘導(dǎo)的大氣排污異常檢測

        1.1 算法流程

        本文提出的圖記憶誘導(dǎo)的大氣排污時序數(shù)據(jù)異常檢測(IMI-TSA)算法的流程圖如圖1 所示。具體步驟如下:首先,將傳感器采集到的數(shù)據(jù)進行預(yù)處理,并將預(yù)處理后的數(shù)據(jù)進行分窗操作;然后,結(jié)合專家判斷等手段對分窗后的數(shù)據(jù)進行部分標(biāo)注,有標(biāo)注的樣本為有標(biāo)簽樣本,沒有標(biāo)注的樣本為無標(biāo)簽樣本。將有標(biāo)簽樣本輸入圖記憶網(wǎng)絡(luò)得到特征向量和類別向量,分別為圖1 中藍色部分和橙色部分,并將數(shù)據(jù)的特征向量和類別向量的向量中心進行記憶,利用該記憶預(yù)測無標(biāo)簽數(shù)據(jù)的類別,達到充分利用無標(biāo)簽和有標(biāo)簽樣本共同訓(xùn)練網(wǎng)絡(luò)的效果;最后,通過訓(xùn)練好的網(wǎng)絡(luò)識別出異常的時間段。

        本文算法的關(guān)鍵思想是通過將時間序列轉(zhuǎn)化成圖的方式來識別其特征,通過卷積提取有標(biāo)簽樣本的特征向量,并與圖記憶分類器得到的類別向量組合構(gòu)成有一定結(jié)構(gòu)的記憶,通過這種圖與記憶的方式進行時間序列的異常檢測。

        1.2 數(shù)據(jù)采集與描述

        表1 給出了某企業(yè)2018 年1 月1 日0 點到9 點申報的排污數(shù)據(jù),具體指標(biāo)有二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)的平均質(zhì)量濃度以及PM10與PM2.5。

        表1 大氣排污申報數(shù)據(jù)案例Table 1 Declaration data of atmospheric pollutant emission

        將申報的排污時間序列數(shù)據(jù)記為:

        其中c為企業(yè)編號;xc(i) 表示企業(yè)c第i次上報的數(shù)據(jù),xc(i)∈Rnc;nc表示企業(yè)c所申報數(shù)據(jù)的維度,如企業(yè)c有3 個排口、5 種指標(biāo),則nc=3×5=15 ;Tc代表企業(yè)c申報時間序列的長度。

        本文所用數(shù)據(jù)均為企業(yè)申報的真實排污數(shù)據(jù),時間跨度約為2.5 a,排污數(shù)據(jù)每小時上報,總計約21 168個時間戳。在進行異常檢測時,如果針對點進行異常檢測,其效果并不理想,且點異常的標(biāo)注工作量巨大。同時,工業(yè)生產(chǎn)也存在一定的周期性。所以本文將原始的時間序列數(shù)據(jù)按照工業(yè)生產(chǎn)的周期進行切分,將切分后的時間片序列記為,其定義如下:

        其中Kc表示企業(yè)c按照工業(yè)生產(chǎn)周期申報的數(shù)據(jù)長度,表示第k個片段上報的排污數(shù)據(jù),具體定義如下:

        其中Tk表示第k個工業(yè)生產(chǎn)周期內(nèi)申報時間序列的長度,如果按照每小時申報一次數(shù)據(jù),生產(chǎn)周期為7 d,則Tk=7×24=168 。實際上企業(yè)有可能漏報數(shù)據(jù),會出現(xiàn)Tk<168 的情況。

        1.3 時序異常數(shù)據(jù)定義

        對于在環(huán)保監(jiān)管部門管理范圍內(nèi)的企業(yè),定義標(biāo)準(zhǔn)申報數(shù)據(jù)如下:

        其中Xcnormal(t) 表示企業(yè)c在生產(chǎn)周期內(nèi)的正常申報序列;xcnormal(i)為企業(yè)c在第i時刻正常申報數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù),xcnormal(i)∈Rnc;Tnormal為標(biāo)準(zhǔn)時間序列的長度。

        其中fcnormal(i) 表示企業(yè)c在第i時刻預(yù)期內(nèi)的正常申報數(shù)據(jù),εcnormal(i) 表示企業(yè)c在第i時刻正常申報數(shù)據(jù)的準(zhǔn)許誤差范圍。

        定義X(t) 為異常序列,則

        其中 α 是異常判定專家值,在應(yīng)用過程中可由專家給定或者通過實際排查的異常序列用統(tǒng)計分析方法得出;‖·‖*為模型的范數(shù)。

        由于實際生產(chǎn)線數(shù)據(jù)的情況復(fù)雜,輸入序列X(t)的長度與Tnormal不相等,此時模型(6)的范數(shù)‖·‖*使用動態(tài)時間序列規(guī)整距離[22]表示,

        圖2 和圖3 分別為點異常與上下文異常這兩種異常序列的示例圖。圖2 所示在0~25 h 內(nèi)有一個異常點,其數(shù)值高于其余點的均值。圖3 所示在75~100 h 內(nèi)有一個點突變,而且其上下文也發(fā)生了變化,變化后的數(shù)據(jù)有自己的變化規(guī)律,該變化規(guī)律與原來數(shù)據(jù)變化規(guī)律不同。上下文異常是本文主要檢測的一種異常,企業(yè)生產(chǎn)規(guī)模突然發(fā)生變化或者企業(yè)排污系統(tǒng)出現(xiàn)了問題均會導(dǎo)致上下文異常,針對這種異常的檢測可以有效防止安全事故的發(fā)生,且可以規(guī)范企業(yè)的排污行為。

        圖2 點異常示例圖Fig.2 Example diagram of point exception

        圖3 上下文異常示例圖Fig.3 Example diagram of context exceptions

        1.4 圖記憶方法

        圖記憶方法使用直觀圖像代替復(fù)雜數(shù)據(jù)序列,使得記憶變得簡單和容易喚醒,常用于復(fù)雜事物的記憶領(lǐng)域。本文引入圖記憶方法用于復(fù)雜時間序列的圖記憶表達。

        對于X(t) ,通過圖記憶編碼器對其進行編碼得到與其對應(yīng)的隱含空間向量,該空間向量是一個64×3的向量,將其轉(zhuǎn)化成 8×8×3 的形式,并將結(jié)果映射到0~255 區(qū)間內(nèi),然后進行可視化,可以得到如圖4 所示的一個色塊。

        圖4 映射結(jié)果例圖Fig.4 Example of mapping results

        式(8)中G(·) 表示圖記憶編碼器;E∈{El,Eu},El為有標(biāo)簽樣本編碼后對應(yīng)的隱含空間向量,El={e1,l,e2,l,···,enl,l}∈Rd×nl,Eu為無標(biāo)簽樣本編碼后對應(yīng)的隱含特征空間向量,Eu={e1,u,e2,u,···,enu,u}∈Rd×nu,其中d為隱含特征空間向量的維度,有標(biāo)簽的樣本編碼后得到的隱含特征空間會加入記憶模塊。

        通過圖記憶編碼器獲得時間序列的特征后,再經(jīng)過一個分類器,輸出每個樣本的類別概率分布。

        其中W(·) 表示分類器模型;P∈{Pl,Pu},Pl為有標(biāo)簽樣本的預(yù)測類別概率,Pl={p1,l,p2,l,···,pnl,l}∈R2×nl,Pu為無標(biāo)簽樣本的預(yù)測類別概率,Pu={p1,u,p2,u,···,pnu,u}∈R2×nu。有標(biāo)簽樣本的預(yù)測類別會加入記憶模塊與有標(biāo)簽樣本的隱含特征空間共同構(gòu)成記憶模塊。記憶模塊可以將從有標(biāo)簽樣本中學(xué)習(xí)到的信息結(jié)構(gòu)化進行存儲,然后用來提升后續(xù)任務(wù)的性能。在記憶模塊中,每次只通過有標(biāo)簽樣本來動態(tài)地更新特征向量與類別概率向量,無標(biāo)簽樣本對記憶模塊的更新沒有任何影響。記憶模塊更新由兩個部分組成:特征空間向量K={k0,k1} 和類別概率分布向量V={v0,v1},ki∈Rd表示第i類的概率分布中心,vi∈R2表示第i類的類別概率分布中心,i∈{0,1} 。具體更新公式如下:

        其中,η 為更新系數(shù),1[y=i] 表示指示函數(shù),ni為類別i中樣本的數(shù)量,ej,l表示有標(biāo)簽樣本中第j個樣本編碼后的隱含空間向量,pj,l表示有標(biāo)簽樣本中第j個樣本的類別概率。在不引入任何先驗知識的情況下,將K中的元素都初始化為0,將V中的元素都初始化為0.5。

        1.5 圖記憶誘導(dǎo)的大氣排污異常檢測模型

        通過有標(biāo)簽樣本學(xué)習(xí)到的知識,可以進一步獲得無標(biāo)簽樣本預(yù)測的類別概率向量,且通過該概率向量可決定最后的樣本類別。

        其中w(ki|x) 表示根據(jù)樣本的特征向量e到每個類別中心ki的距離得到的權(quán)重;dist(·) 表示距離函數(shù),本文采用的是余弦距離。

        1.6 模型目標(biāo)函數(shù)

        本文將訓(xùn)練模型階段分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí)采用信息熵損失:

        無監(jiān)督學(xué)習(xí)采用信息熵與KL 散度結(jié)合的方式:

        因此,無監(jiān)督學(xué)習(xí)損失為:

        其中 μ1和 μ2表示信息熵與KL 散度之間的權(quán)衡系數(shù)。

        模型的損失函數(shù)為有監(jiān)督與無監(jiān)督損失之和:

        其中 α 和 β 分別表示訓(xùn)練樣本中對有標(biāo)簽與無標(biāo)簽數(shù)據(jù)的重視程度。在沒有任何先驗知識的情況下,本文初始化 α ,β 均為0.5。在模型訓(xùn)練過程中需要加入記憶模塊;在測試階段只需要用訓(xùn)練好的模型來獲取最后的類別概率向量,不再需要加入記憶模塊,從而減少了存儲和額外的計算消耗。

        2 算法設(shè)計與分析

        2.1 算法流程

        圖記憶誘導(dǎo)的大氣排污時序數(shù)據(jù)異常檢測算法描述如下:

        輸入:有標(biāo)簽樣本Xl,有標(biāo)簽樣本標(biāo)簽Yl,無標(biāo)簽樣本Xu,批處理數(shù)(batchsize ),迭代次數(shù)(epoch )

        輸出:異常類別特征

        其中 MemoryNet(·) 表示圖記憶網(wǎng)絡(luò),通過圖記憶網(wǎng)絡(luò)可以得到特征向量el和類別向量pl,然后更新記憶模塊的特征中心向量ki和類別中心向量vi,i表示所屬類別。通過有標(biāo)簽的樣本得到記憶后,利用得到的記憶來預(yù)測無標(biāo)簽樣本的類別,通過圖記憶網(wǎng)絡(luò)可以得到無標(biāo)簽樣本的特征向量eu和類別向量pu,然后計算出eu到ki的距離di,通過di計算出各個類別的權(quán)重系數(shù)wi,wi與vi相乘并求和,最后得到通過記憶預(yù)測的類別向量pu,將pu作為無標(biāo)簽樣本的類別概率。

        2.2 復(fù)雜度分析

        IMI-TSA 算法主要由圖記憶編碼器、分類器和記憶模塊組成。圖記憶編碼器輸入的是一段序列,由卷積神經(jīng)網(wǎng)絡(luò)捕獲序列時間與空間上的特征,然后通過分類器將獲取到的特征映射到類別概率空間中,最后通過記憶模塊將從有標(biāo)簽樣本中學(xué)習(xí)到的知識存儲起來。為了提高分類速度,本文采用的模型是淺層網(wǎng)絡(luò),具體而言,圖記憶編碼器包括1 個全連接模塊,2 個卷積模塊,其中卷積子模塊中包含1 個二維卷積層、1 個池化層和1 個激活函數(shù),分類器則是由3 個全連接模塊構(gòu)成,其中每個全連接子模塊中分別包含1 個線性層、1 個dropout 層和1 個激活函數(shù)。

        IMI-TSA 的時間復(fù)雜度為O(n) ,其中n為輸入樣本的數(shù)量級。

        3 實驗結(jié)果及分析

        3.1 數(shù)據(jù)集

        本文從水泥、煉焦、鋼鐵和玻璃制造4 個行業(yè)中各選取2 個企業(yè)為代表,針對這8 個企業(yè)的大氣排放濃度均值指標(biāo)進行實驗,該指標(biāo)的數(shù)據(jù)總共有21 168個時間戳,每個時間戳以小時為單位。

        首先對數(shù)據(jù)進行預(yù)處理,包括負值修正和填充缺失;然后通過一個異常標(biāo)注器對預(yù)處理后的數(shù)據(jù)進行異常點標(biāo)注;最后將標(biāo)注后的數(shù)據(jù)進行分窗處理,窗口大小設(shè)置為7 d,即168 個時間戳,滑動窗口的步長設(shè)置為84,通過分窗后得到250 個樣本作為實驗數(shù)據(jù)。由于滑動窗口的設(shè)置會影響樣本數(shù)量以及最終模型的效果,滑動窗口步長越小,分窗后得到的樣本數(shù)量越多,結(jié)合本文所針對的實際問題以及最終效果綜合考慮,選擇了效果較優(yōu)的步長。對分窗后的時間序列進行標(biāo)注,如果該窗口的時間序列標(biāo)注中包含一個或多個異常點時,則這段時間序列被標(biāo)注為異常。

        數(shù)據(jù)標(biāo)注完成后,將其中175 個樣本作為訓(xùn)練集數(shù)據(jù),75 個樣本作為測試集數(shù)據(jù)。為了還原工業(yè)背景,實際有標(biāo)注的數(shù)據(jù)極少,故在訓(xùn)練集中只有70 個樣本帶有標(biāo)簽,剩余105 個樣本無標(biāo)簽。表2給出了訓(xùn)練集和測試集的異常樣本數(shù)量以及測試集和訓(xùn)練集總的樣本數(shù)量。

        表2 異常樣本分布Table 2 Distribution of abnormal samples

        3.2 對比方法與實驗設(shè)置

        為了檢驗IMI-TSA 算法的可行性與優(yōu)越性,選取了以下4 個方法進行對比。

        (1)K 近鄰(KNN):KNN 算法取每個樣本周圍大小為3 鄰域的樣本點。

        (2)支持向量機(SVM):SVM 算法采用的懲罰參數(shù)設(shè)置為1,核函數(shù)為徑向基函數(shù),設(shè)置值為20,其他參數(shù)為Sklearn 包的默認(rèn)值。

        (3)淺層的全卷積網(wǎng)絡(luò)(FCN):FCN 算法采用3 層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每層網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)跟本文方法卷積子層的內(nèi)部結(jié)構(gòu)相同。IMI-TSA 算法以及FCN 算法的訓(xùn)練模型設(shè)置為32,優(yōu)化器采用隨機梯度下降進行參數(shù)優(yōu)化,學(xué)習(xí)率大小初始值0.1,學(xué)習(xí)率采用步長衰減的方式進行更新,衰減率為0.95,衰減步長為10。

        (4)TADGAN(Time-series Anomaly Detection using Generative Adversarial Networks):TADGAN 算法停用了70%的數(shù)據(jù),即14 818 個時間戳,在剔除異常樣本點后用于模型的訓(xùn)練,其中訓(xùn)練模型的epoch設(shè)置為40,batch size 設(shè)置為168。TADGAN 算法訓(xùn)練完成后,用訓(xùn)練好的模型對訓(xùn)練集和測試集的樣本進行異常檢測,如檢測有異常則標(biāo)注為1,檢測沒有異常則標(biāo)注為0。

        3.3 評價指標(biāo)

        采用準(zhǔn)確率(A)、精確率(P)、召回率(R)和f1值作為算法檢測性能的評價指標(biāo)。

        其中T1表示預(yù)測為異常且實際結(jié)果也異常的樣本數(shù)量,T2表示預(yù)測為正常且實際結(jié)果也正常的樣本數(shù)量,F(xiàn)1表示預(yù)測結(jié)果為異常但實際為正常的樣本數(shù)量,F(xiàn)2表示預(yù)測為正常但實際結(jié)果為異常的樣本數(shù)量。

        3.4 實驗結(jié)果

        不同算法對水泥行業(yè)中企業(yè)1、2 數(shù)據(jù)集的分類效果如表3 所示。對于企業(yè)1,IMI-TSA、KNN 和FCN算法在訓(xùn)練集上的分類效果較優(yōu),在保持較高的準(zhǔn)確率和精確率的條件下?lián)碛休^高的召回率和f1 值,其中IMI-TSA 算法極大地提高了召回率和f1 值。TADGAN 算法的召回率最高,但是其精確率較低,說明該算法找出異常比較全,但對異常過于敏感。雖然IMI-TSA 算法的召回率比TADGAN 算法低了0.13,但是IMI-TSA 算法的整體效果較優(yōu)。在測試集上,IMI-TSA 算法的f1 值超過0.60,能夠比其他模型更好地學(xué)習(xí)到時間序列的特征并有更佳的分類效果。

        表3 不同算法對水泥行業(yè)數(shù)據(jù)集的分類效果Table 3 Classification of different algorithms on data set in cement industry

        在時間復(fù)雜度上,不管是訓(xùn)練集還是測試集,TADGAN 算法最耗時,KNN 算法和SVM 算法耗時較少,IMI-TSA 算法雖然比KNN 算法和SVM 算法耗時要多一些,但是比它們擁有更優(yōu)的分類效果。FCN 算法有較好的分類效果,但是IMI-TSA算法比其節(jié)省了更多時間,并且在分類效果上也比FCN 算法有所提升。

        對于水泥行業(yè)中企業(yè)2,在訓(xùn)練集和測試集上,IMI-TSA 算法和FCN 算法的分類效果較優(yōu),在保持較高的準(zhǔn)確率和精確率的條件下?lián)碛休^高的召回率和f1 值,IMI-TSA 算法相比FCN 算法,有更高召回率和f1 值,耗時也更少。

        從水泥行業(yè)這兩個企業(yè)的結(jié)果來看,IMI-TSA算法在f1 值上能夠保持較好的水平,雖然耗時上相比于機器學(xué)習(xí)算法略有差距,但是相較于同等級的深度學(xué)習(xí)算法FCN 算法和TADGAN 算法,在時間上的優(yōu)勢還是較為明顯的。

        不同算法對煉焦行業(yè)中企業(yè)3、4 數(shù)據(jù)集的分類效果如表4 所示。對于企業(yè)3,IMI-TSA 算法的召回率和f1 值明顯高于其他算法,TADGAN 算法雖然有較高的召回率,但是其準(zhǔn)確率、精確率和f1 值都較低,把較多的正常樣本分類為異常,而其他的算法在測試集上的召回率和f1 值由于數(shù)據(jù)的不平衡導(dǎo)致其效果非常不好。FCN、SVM和KNN 算法都能比較精準(zhǔn)地找出異常但是找得并不完全,所以數(shù)據(jù)不均衡較為嚴(yán)重時,其效果會降低,f1 值最高只能達到0.50 左右,如SVM 算法在該行業(yè)中的精確率和召回率出現(xiàn)了0 的現(xiàn)象,說明該算法沒有找出異常樣本。IMI-TSA 算法在數(shù)據(jù)不均衡的情況下,能有比較好的效果,保持較高準(zhǔn)確率、精確率以及召回率,同時f1 值也最佳。雖然IMI-TSA 算法在時間消耗上相較于KNN 和SVM 算法略有差距,但其差距仍在可接受范圍內(nèi)。

        表4 不同算法對煉焦行業(yè)數(shù)據(jù)集的分類效果Table 4 Classification of different algorithms on data set in coking industry

        企業(yè)4 的異常樣本數(shù)量較企業(yè)3 稍多些,SVM算法的精確率和召回率并沒有出現(xiàn)0 的現(xiàn)象,由此可以說明SVM 算法在數(shù)據(jù)樣本不均衡較嚴(yán)重的情況下的穩(wěn)定性不好;由測試集上的召回率和f1 值可以看出,IMI-TSA 算法更優(yōu)。相較于SVM、KNN 算法,F(xiàn)CN 算法在處理不平衡數(shù)據(jù)時性能相對穩(wěn)定,但是時間消耗略高。TADGAN 算法在異常樣本數(shù)較少的情況下,召回率和精確率都有所下降,導(dǎo)致f1 值較低。

        煉焦行業(yè)中的數(shù)據(jù)樣本不均衡情況最為嚴(yán)重,F(xiàn)CN 算法在訓(xùn)練集上的效果較好;TADGAN 算法對異常過于敏感,在異常樣本數(shù)量下降后,其效果也隨之降低,f1 值在測定集上只能保持在0.20 左右;而IMI-TSA 算法召回率和f1 值均比訓(xùn)練集低,但是能保持比較穩(wěn)定的水平。

        不同算法對玻璃制造企業(yè)5、6 數(shù)據(jù)集的分類效果如表5 所示。企業(yè)5 的異常樣本數(shù)據(jù)最多,異常數(shù)據(jù)占了30%~40%。

        表5 不同算法對玻璃行業(yè)數(shù)據(jù)集的分類效果Table 5 Classification of different algorithms on data set in glass industry

        與企業(yè)1~4 相比,SVM 算法在企業(yè)5 的訓(xùn)練集上的召回率和f1 值均有提升,IMI-TSA算法的召回率和f1 值在測試集和訓(xùn)練集上都能保持在0.60~0.70,說明在異常數(shù)據(jù)量較多的情況下,IMI-TSA 算法在測試集上能比較好地學(xué)習(xí)到數(shù)據(jù)的特征。TADGAN 算法在異常樣本數(shù)較多的情況下,在訓(xùn)練集和測試集上的召回率均超過了0.90,且f1 值也較高。對于企業(yè)6,IMI-TSA 算法在召回率和f1 值上較優(yōu),其異常樣本數(shù)量較企業(yè)5 有所減少,但在測試集上的效果有所下降。

        在玻璃制造業(yè)中,企業(yè)5、6 的異常樣本數(shù)量較多,IMI-TSA 算法在訓(xùn)練集上的f1 值還能保持在0.60~0.70,TADGAN 算法在訓(xùn)練集和測試集上的效果較異常樣本數(shù)量較少時有所提升。由此可見,在樣本較為平衡的情況下,IMI-TSA 算法性能較佳,且在數(shù)據(jù)分布不平衡的情況下,也能夠保持較為穩(wěn)定的效果。

        不同算法對鋼鐵行業(yè)中企業(yè)7、8 數(shù)據(jù)集的分類效果如表6 所示。對于企業(yè)7,IMI-TSA 算法的召回率和f1 值在訓(xùn)練集上分別保持在0.60 和0.70 左右;在測試集上,召回率和f1 值分別為0.50 和0.70 左右。相較于KNN 和SVM 算法,IMI-TSA 算法在訓(xùn)練集和測試集上的效果都明顯更佳。TADGAN 算法雖有較高的召回率,但其總體效果不佳,且時間消耗較高。

        表6 不同算法對鋼鐵行業(yè)數(shù)據(jù)集的分類效果Table 6 Classification of different algorithms on data set in iron and steel industry

        對于企業(yè)8,IMI-TSA 算法在訓(xùn)練集上的召回率和f1 值分別為0.75 與0.77,其在測試集上的召回率和f1 值分別為0.69 與0.71,較企業(yè)7 的效果有所提升,且企業(yè)8 的數(shù)據(jù)平衡性比企業(yè)7 高,所以在測試集上的召回率和f1 值都有所提升。

        結(jié)合鋼鐵行業(yè)兩個企業(yè)的結(jié)果來看,TADGAN算法都能保持較高的召回率,但其對于異常過于敏感,在異常樣本量較少情況下,整體效果不佳。KNN和SVM 算法能夠有較高的準(zhǔn)確率和精確率,但是其召回率較低,整體效果略低,F(xiàn)CN 和IMI-TSA 算法的準(zhǔn)確率與SVM、KNN 算法相近,但精確率有所下降,召回率有所提升,整體效果高于SVM、KNN 算法,而IMI-TSA 算法的整體效果比FCN 算法略高,且時間消耗也更少。

        綜合以上不同算法對8 個企業(yè)數(shù)據(jù)集的整體效果,TADGAN 算法對于異常過于敏感,在異常樣本數(shù)量較多的情況下效果提升明顯,但是當(dāng)異常樣本數(shù)較少時,總體效果不佳。SVM 和KNN 算法對于異常并不敏感,在異常樣本數(shù)量較少時,其召回率較低,F(xiàn)CN 與IMI-TSA 算法的效果較為穩(wěn)定,但IMI-TSA算法的整體效果優(yōu)于FCN 算法。時間消耗上,TADGAN算法的時間消耗最高,SVM 和KNN 算法的時間消耗最低,IMI-TSA 與FCN 算法時間消耗處于兩者之間,IMI-TSA 算法比FCN 算法更節(jié)省時間。

        4 結(jié)束語

        IMI-TSA 算法用有標(biāo)簽樣本建立有結(jié)構(gòu)的記憶,然后利用樣本間的特征與類別的關(guān)聯(lián)性通過記憶來獲得無標(biāo)簽樣本的類別,并通過有標(biāo)簽樣本與無標(biāo)簽樣本結(jié)合共同完成時間序列異常檢測任務(wù)。

        采用IMI-TSA 算法在8 個企業(yè)的生態(tài)環(huán)保數(shù)據(jù)集上進行實驗,準(zhǔn)確率都達到了80%以上,并且在測試集上f1 值達到了60%以上。相較于其他算法,IMI-TSA 算法在不均衡數(shù)據(jù)上也能較為穩(wěn)定地捕獲數(shù)據(jù)特征,并且具有較好的效果,但仍然存在局限性。IMI-TSA 算法在時間段上進行異常檢測時,粒度不夠精細,所以在接下來的研究中,將結(jié)合粒度更加細的模型共同完成異常檢測的任務(wù)。

        猜你喜歡
        集上類別標(biāo)簽
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        復(fù)扇形指標(biāo)集上的分布混沌
        標(biāo)簽化傷害了誰
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        基于多進制查詢樹的多標(biāo)簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        亚洲一区二区三区综合网| 欧美成人精品一区二区综合| 人妻少妇偷人精品无码| 宅男久久精品国产亚洲av麻豆| 日本熟妇中出高潮视频| 国产av国片精品jk制服| 少妇对白露脸打电话系列| 亚洲区精选网址| 日本精品一区二区三区试看 | 久久精品无码中文字幕 | 日本视频在线播放一区二区| 人妻在卧室被老板疯狂进入| 精品国产av 无码一区二区三区| 最新在线观看精品国产福利片| 国产午夜精品久久精品| 特黄aaaaaaaaa毛片免费视频| 成年女人毛片免费观看97| 国产对白刺激在线观看| 免费播放成人大片视频| 久久久久亚洲av成人无码| 国产精品黄网站免费观看| 日韩精品夜色二区91久久久| 亚洲乱码中文字幕在线| 久久夜色精品国产欧美乱| 99精品欧美一区二区三区美图| 久久婷婷综合激情亚洲狠狠| 欧美牲交a欧美牲交aⅴ| 国产一起色一起爱| 国产激情视频免费观看| 国产一区二区视频在线免费观看| 久久久久亚洲av片无码v| 亚洲精品123区在线观看| 久久精品国产一区老色匹| 高潮内射双龙视频| 亚洲欧美国产日韩天堂在线视 | 亚洲免费人成网站在线观看| 一本之道久久一区二区三区| 亚洲另类欧美综合久久图片区| 国产精品高潮无码毛片| 免费观看在线视频播放| 亚洲av无码电影在线播放|