亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測(cè)

        2022-06-24 10:01:54許志城印四華朱成就
        關(guān)鍵詞:子樹(shù)擠壓機(jī)特征向量

        許志城 印四華 朱成就

        1(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006) 2(廣東工業(yè)大學(xué)機(jī)電工程學(xué)院 廣東 廣州 510006)

        0 引 言

        我國(guó)是鋁型材生產(chǎn)、出口和消費(fèi)大國(guó)。2015年我國(guó)鋁型材加工材產(chǎn)量達(dá)到26 000 kt/a,鋁合金擠壓材產(chǎn)量達(dá)到14 000 kt/a[1],居世界前列。進(jìn)一步的數(shù)據(jù)統(tǒng)計(jì)顯示,2017年中國(guó)擠壓鋁材產(chǎn)量繼續(xù)攀升[2],達(dá)到了19 500 kt/a,占全球總產(chǎn)量的55%,擁有各種擠壓力的現(xiàn)代化油壓機(jī)約1 850臺(tái),約占全球總臺(tái)數(shù)的70%。鋁材生產(chǎn)與消費(fèi)規(guī)模在不斷擴(kuò)大,對(duì)鋁型材生產(chǎn)過(guò)程的進(jìn)一步分析,已經(jīng)成為促進(jìn)鋁材生產(chǎn)進(jìn)一步發(fā)展的迫切需求。

        傳感器設(shè)備具有價(jià)格低廉以及非侵入性的特性,促使物聯(lián)網(wǎng)技術(shù)正越來(lái)越多地被應(yīng)用到工業(yè)大數(shù)據(jù)領(lǐng)域中。由于生產(chǎn)流程復(fù)雜,工業(yè)設(shè)備上的傳感器數(shù)量眾多且取樣頻率高,數(shù)據(jù)累積速度極快。產(chǎn)生的數(shù)據(jù)具有時(shí)間序列排布、數(shù)據(jù)維度高且存在大量無(wú)標(biāo)簽數(shù)據(jù)、機(jī)理模型復(fù)雜等特點(diǎn),并且特殊工況的發(fā)生常常會(huì)帶來(lái)較大的經(jīng)濟(jì)損失[3]。擠壓機(jī)是鋁型材生產(chǎn)線上的核心設(shè)備,在發(fā)展過(guò)程中其結(jié)構(gòu)日趨于大型化、復(fù)雜化及自動(dòng)化,若能對(duì)生產(chǎn)過(guò)程中出現(xiàn)的異常及時(shí)進(jìn)行檢測(cè)與分析,將會(huì)提高整個(gè)生產(chǎn)過(guò)程的效率,從而帶來(lái)較大的應(yīng)用價(jià)值。

        異常檢測(cè)一直以來(lái)都是數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),被廣泛應(yīng)用于設(shè)備狀態(tài)監(jiān)測(cè)、網(wǎng)絡(luò)入侵檢測(cè)以及金融欺詐檢測(cè)等領(lǐng)域。目前,面向工業(yè)生產(chǎn)的異常檢測(cè)方法的研究主要集中在利用不同的異常檢測(cè)方法解決不同工業(yè)生產(chǎn)環(huán)境下的特定問(wèn)題上。為了避免發(fā)電廠汽輪機(jī)健康監(jiān)測(cè)系統(tǒng)由于噪聲問(wèn)題出現(xiàn)不必要的假警報(bào)與故障誤診,Ajami等[4]應(yīng)用主成分分析法(PCA)排除了次要的影響因素,提升了故障診斷的正確性和有效性;Kim等[5]結(jié)合無(wú)標(biāo)簽傳感設(shè)備與邊緣計(jì)算的場(chǎng)景提出了一種壓縮卷積變分自編碼器方法(SCVAE),用來(lái)解決無(wú)標(biāo)簽傳感設(shè)備在小型生產(chǎn)工廠中的異常檢測(cè)問(wèn)題;在分切機(jī)運(yùn)行質(zhì)量管理與質(zhì)量控制研究中,Kanawaday等[6]利用差分整合移動(dòng)平均自回歸(ARIMA)模型對(duì)分切機(jī)可能產(chǎn)生的錯(cuò)誤和質(zhì)量缺陷進(jìn)行預(yù)測(cè),優(yōu)化了整個(gè)生產(chǎn)過(guò)程;針對(duì)擠壓機(jī)設(shè)備異常原因復(fù)雜、檢測(cè)方法時(shí)效性不足等問(wèn)題,楊慧芳[7]結(jié)合專家知識(shí)提出了一種基于貝葉斯網(wǎng)絡(luò)的鋁型材擠壓過(guò)程異常檢測(cè)方法,極大地縮短了網(wǎng)絡(luò)構(gòu)建周期,提高了檢測(cè)的效率。

        深度結(jié)合專家知識(shí)、利用復(fù)雜的數(shù)學(xué)模型進(jìn)行計(jì)算以及從整體數(shù)據(jù)的角度進(jìn)行統(tǒng)計(jì)學(xué)分析,上述方法在一定程度上解決了工業(yè)場(chǎng)景中常見(jiàn)的各種問(wèn)題。但在實(shí)際場(chǎng)景中,工業(yè)生產(chǎn)數(shù)據(jù)更多的是以流數(shù)據(jù)的形式表現(xiàn)的。流數(shù)據(jù)通常數(shù)量巨大、生成速度快,而且其分布可能會(huì)隨著時(shí)間的推移而發(fā)生變化,即概念漂移現(xiàn)象[8]。因此面向流數(shù)據(jù)的異常檢測(cè)模型必須及時(shí)更新,適應(yīng)可能發(fā)生變化的數(shù)據(jù),保證模型的有效性。

        在眾多機(jī)器學(xué)習(xí)算法中,集成學(xué)習(xí)算法具有易于更新、適應(yīng)性強(qiáng)、性能較好的優(yōu)點(diǎn),是用于流數(shù)據(jù)處理最廣泛的技術(shù)之一。孤立森林[9]是集成學(xué)習(xí)算法中的一類典型的無(wú)監(jiān)督異常檢測(cè)算法。該算法將異常數(shù)據(jù)定義為容易被孤立的離群點(diǎn),即遠(yuǎn)離于高密度數(shù)據(jù)群體的孤立的點(diǎn)。其算法思想為,使用超平面劃分的方式隨機(jī)選擇數(shù)據(jù)空間的某維度進(jìn)行劃分子空間,迭代地對(duì)子空間進(jìn)行劃分構(gòu)造出子樹(shù),反復(fù)構(gòu)造出多個(gè)子樹(shù)形成孤立森林。在劃分過(guò)程中,越是稀疏的數(shù)據(jù)點(diǎn)越早被劃分開(kāi)來(lái),在子樹(shù)中的深度也就越小,在孤立森林中的平均深度也越小。

        孤立森林算法有效地解決了高維度數(shù)據(jù)集異常檢測(cè)中的2個(gè)問(wèn)題[10]:① 不需要計(jì)算數(shù)據(jù)點(diǎn)之間的距離,算法的時(shí)間復(fù)雜度為線性,不隨維度的增加而增加;② 采用集成學(xué)習(xí)的策略,對(duì)大型數(shù)據(jù)集的檢測(cè)性能好,子樹(shù)越多,孤立森林的算法性能越穩(wěn)定。同時(shí),由于子樹(shù)之間相互獨(dú)立,子樹(shù)的構(gòu)造與使用不會(huì)受到其他樹(shù)的影響,算法還可以部署在大型分布式系統(tǒng)上進(jìn)行分布式并行計(jì)算。

        基于以上分析,為了解決擠壓機(jī)流數(shù)據(jù)中存在的噪聲問(wèn)題以及概念漂移問(wèn)題,本文提出了一種基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測(cè)方法,所提出的算法主要用來(lái)檢測(cè)擠壓機(jī)在運(yùn)行中可能存在的短時(shí)間狀態(tài)異常,即異常檢測(cè)中的序列異常。實(shí)驗(yàn)結(jié)果表明,本文所提出的算法不僅可以實(shí)時(shí)地檢測(cè)出擠壓機(jī)在運(yùn)行中存在的狀態(tài)異常,還具有較高的準(zhǔn)確性。

        1 問(wèn)題描述

        1.1 擠壓機(jī)系統(tǒng)結(jié)構(gòu)分析

        本文所研究的對(duì)象為華南某大型鋁型材生產(chǎn)企業(yè)擠壓車(chē)間型號(hào)為SY-3600Ton的臥式液壓直接傳動(dòng)型鋁型材擠壓機(jī),該類型擠壓機(jī)是目前鋁型材生產(chǎn)企業(yè)廣泛使用的一種中型擠壓機(jī),其基本結(jié)構(gòu)如圖1所示。

        圖1 擠壓機(jī)基本結(jié)構(gòu)圖

        鋁型材擠壓機(jī)主要由三部分組成[11],分別為電氣控制系統(tǒng)、機(jī)械系統(tǒng)和液壓系統(tǒng)。機(jī)械系統(tǒng)包括擠壓機(jī)底座、張力柱、擠壓桿、剪刀機(jī)和滑動(dòng)模座等單元;液壓系統(tǒng)包括油泵站、柱塞泵、液壓控制閥、主缸、副缸、閥板和液壓油管等;電氣系統(tǒng)主要由顯示屏幕、PLC可編程序控制器、操作臺(tái)、上位工業(yè)控制機(jī)和供電柜等組成。在擠壓工藝流程中,各個(gè)系統(tǒng)間產(chǎn)生的電能、機(jī)械能和液壓能相互轉(zhuǎn)換,共同完成工作。

        1.2 擠壓機(jī)生產(chǎn)異常分析

        擠壓機(jī)目前的運(yùn)作方式為半自動(dòng)化運(yùn)作,需要人工使用PLC操作臺(tái)進(jìn)行操作。完整的鋁型材擠壓工藝流程包括預(yù)熱、擠壓、壓余、矯直、鋸切、冷加工以及人工時(shí)效等步驟。擠壓機(jī)負(fù)責(zé)鋁材初期的塑性加工過(guò)程,參與了預(yù)熱、擠壓和壓余三個(gè)階段,其中包含了很多影響擠壓產(chǎn)品質(zhì)量的相關(guān)因素[12],如圖2所示。在預(yù)熱階段,擠壓機(jī)開(kāi)始擠壓前,需要利用多個(gè)加熱子系統(tǒng)先對(duì)鋁棒、模具以及盛錠筒進(jìn)行加熱,使溫度達(dá)到工藝要求;在擠壓階段,為了保證擠壓產(chǎn)品質(zhì)量與最大化模具使用壽命,需要控制擠壓速度,同時(shí)使用氮?dú)饪刂颇>叩臏囟?,使鋁棒在擠壓桿推力的作用下從擠壓筒另一端的模具孔流出,得到與擠壓模具孔形狀尺寸相同的產(chǎn)品;在壓余階段,即擠壓的最后階段,使擠壓墊片與模子保持一定距離,擠壓筒外層金屬向擠壓墊再向模子流出,會(huì)形成“擠壓縮尾”,需要擠壓機(jī)利用剪刀機(jī)將含有雜質(zhì)的縮尾進(jìn)行剪切。擠壓機(jī)的生產(chǎn)過(guò)程中各個(gè)子系統(tǒng)之間相互配合,其同一時(shí)刻的運(yùn)行狀態(tài)表示了擠壓系統(tǒng)當(dāng)前的運(yùn)行狀態(tài)。

        圖2 擠壓機(jī)擠壓過(guò)程相關(guān)影響因素

        在實(shí)際生產(chǎn)中,擠壓機(jī)設(shè)備不僅存在擠壓桿變形、傾斜等人為可觀察到的異常,還存在許多難以直接觀察到的異常,如液壓系統(tǒng)中的管道和擠壓泵零件故障。若沒(méi)有及時(shí)處理異常,極易引起其他相關(guān)異常。傳感器設(shè)備在使用過(guò)程中,由于電流電壓不穩(wěn)定、通信異常等因素會(huì)導(dǎo)致部分采集點(diǎn)數(shù)據(jù)偏離于真實(shí)值,產(chǎn)生許多噪聲,影響數(shù)據(jù)的質(zhì)量。此外,設(shè)備部件的老化與更換、工況變化、擠壓工藝改進(jìn)以及氣候狀況等因素還會(huì)使得設(shè)備運(yùn)行狀態(tài)所隱含的概念發(fā)生改變,發(fā)生概念漂移現(xiàn)象。這些因素都嚴(yán)重影響了當(dāng)前擠壓機(jī)異常檢測(cè)技術(shù)的有效性。因此,如何利用擠壓機(jī)各個(gè)子系統(tǒng)的數(shù)據(jù)及時(shí)發(fā)現(xiàn)異常,同時(shí)克服噪聲和概念漂移帶來(lái)的檢測(cè)困難是本文需要解決的關(guān)鍵問(wèn)題。

        2 基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測(cè)

        為了檢測(cè)擠壓機(jī)在運(yùn)行中可能存在的短時(shí)間狀態(tài)異常,本文提出了一種基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測(cè)方法-多特征半空間孤立森林算法,簡(jiǎn)稱MHSIF算法。本文所提模型進(jìn)行異常檢測(cè)的過(guò)程如圖3所示。算法開(kāi)始時(shí),使用原始數(shù)據(jù)初始化模型。模型在初始化后在新的檢測(cè)周期讀入擠壓機(jī)流數(shù)據(jù)進(jìn)行實(shí)時(shí)異常檢測(cè);當(dāng)周期結(jié)束后,若異常率大于閾值,表示存在概念漂移,則使用當(dāng)前周期數(shù)據(jù)更新模型,保證模型的有效性。

        圖3 基于孤立森林算法的流數(shù)據(jù)異常檢測(cè)過(guò)程

        2.1 相關(guān)定義

        流數(shù)據(jù)可以認(rèn)為是隨時(shí)間變化不斷增長(zhǎng)的數(shù)據(jù)。通過(guò)提取數(shù)據(jù)子序列的特征來(lái)表示設(shè)備的狀態(tài),不僅可以充分利用時(shí)間序列數(shù)據(jù)連續(xù)相關(guān)的特性,還能在一定程度上避免點(diǎn)數(shù)據(jù)噪聲對(duì)設(shè)備狀態(tài)異常檢測(cè)的影響。

        定義1(多維流數(shù)據(jù)) 記一組n維時(shí)間序列流數(shù)據(jù)X=,則任一維度Xi=<…,Xi1,…,Xij,…>。其中,Xij表示第i維數(shù)據(jù)在j時(shí)刻的值,任意一對(duì)數(shù)(Xij,Xi(j+1))所在兩個(gè)時(shí)刻之間嚴(yán)格遞增,且Xi的長(zhǎng)度隨著新數(shù)據(jù)的流入不斷增長(zhǎng)。

        均值是數(shù)據(jù)中心位置的一種度量,反映總體數(shù)據(jù)的一般水平,其計(jì)算式為:

        (1)

        方差反映了數(shù)據(jù)的變異程度,可以衡量一組數(shù)據(jù)離散程度,其計(jì)算式為:

        (2)

        偏度是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量。偏度小于0,表示當(dāng)前數(shù)據(jù)分布為左偏態(tài);反之,表示當(dāng)前數(shù)據(jù)分布為右偏態(tài)。偏度的絕對(duì)值越高,表示數(shù)據(jù)分布的偏離程度越高,其計(jì)算式為:

        (3)

        峰度是描述總體序列中數(shù)據(jù)分布形態(tài)陡緩程度的統(tǒng)計(jì)量。峰度越大表示序列分布越陡峭,峰度越小表示序列數(shù)據(jù)分布越平坦,其計(jì)算式為:

        (4)

        2.2 半空間孤立森林算法簡(jiǎn)述

        Tan等[14]在孤立森林算法的基礎(chǔ)上結(jié)合Ting等[15]的質(zhì)量評(píng)估方法提出了半空間孤立森林(HS-Trees)算法。HS-Trees模型子樹(shù)的建立過(guò)程主要分為子樹(shù)構(gòu)造與節(jié)點(diǎn)質(zhì)量計(jì)算兩個(gè)階段。在子樹(shù)的構(gòu)造階段,得到數(shù)據(jù)各維度的取值邊界,隨機(jī)選擇某一維度,以該維度的中點(diǎn)作為劃分點(diǎn)切割子空間。更新子空間的維度信息,再次對(duì)各子空間進(jìn)行劃分,迭代劃分過(guò)程得到半空間樹(shù),如算法1所示。

        算法1HS-Trees子樹(shù)構(gòu)建算法-BuildTree

        輸入:minArr & maxArr-每一維度中最大最小值組成的數(shù)

        組,k-當(dāng)前節(jié)點(diǎn)深度

        輸出:HS-Tree-子樹(shù)的根節(jié)點(diǎn)

        1. if k==最大深度then

        2. return當(dāng)前節(jié)點(diǎn);

        3. else

        4. 隨機(jī)選擇某一維度q;

        5. p←(maxArr[q]+minArr[q])/2;

        6. temp←maxArr[q];maxArr[q]←p;

        7. Left←BuildHS-Tree(minArr,maxArr,k+1);

        8. maxArr[q]←temp;min[q]←p;

        9. Right←BuildHS-Tree(minArr,maxArr,k+1);

        10. return Node(Left,Right,p,q);

        //返回切割維度為q,

        //切割值為q以Left為左子樹(shù),Right為右子樹(shù)的節(jié)點(diǎn)

        11. end if

        在節(jié)點(diǎn)質(zhì)量計(jì)算階段,記錄子樹(shù)各節(jié)點(diǎn)中一個(gè)檢測(cè)周期內(nèi)數(shù)據(jù)點(diǎn)經(jīng)過(guò)的次數(shù),將其作為對(duì)應(yīng)節(jié)點(diǎn)的質(zhì)量。子樹(shù)建立完成后,使用評(píng)分函數(shù)計(jì)算新數(shù)據(jù)點(diǎn)的異常值,其表達(dá)式為:

        (5)

        式中:node表示在樹(shù)T中x經(jīng)過(guò)的所有節(jié)點(diǎn);node.mass表示節(jié)點(diǎn)的質(zhì)量,h為對(duì)應(yīng)節(jié)點(diǎn)在樹(shù)中的深度。

        在HS-Trees算法中,稱各子樹(shù)異常值的均值為該數(shù)據(jù)點(diǎn)的異常值。異常值越小表示該數(shù)據(jù)點(diǎn)是異常數(shù)據(jù)的可能性越大,且異常值的大小隨子樹(shù)數(shù)量的增多趨于穩(wěn)定。

        與一般孤立森林算法的不同之處在于,HS-Trees算法中使用數(shù)據(jù)的維度屬性構(gòu)建子樹(shù)結(jié)構(gòu),模型的結(jié)構(gòu)在新的數(shù)據(jù)分布中仍具有適用性。同時(shí),算法利用了質(zhì)量評(píng)估方法計(jì)算數(shù)據(jù)的異常值,因此檢測(cè)器可以快速適應(yīng)并學(xué)習(xí)數(shù)據(jù)流中的變化而無(wú)需改變模型的基本結(jié)構(gòu),只需在新的檢測(cè)周期中更新節(jié)點(diǎn)質(zhì)量即可達(dá)更新模型。但是在對(duì)HS-Trees算法的分析中發(fā)現(xiàn)算法存在以下兩個(gè)問(wèn)題:① HS-Trees算法中判斷出異常的方法為,在完成一個(gè)檢測(cè)周期后對(duì)數(shù)據(jù)點(diǎn)的異常值進(jìn)行排序,異常值最小的前n個(gè)數(shù)據(jù)點(diǎn)被認(rèn)為是異常數(shù)據(jù)。異常結(jié)果的反饋存在延遲,并且檢測(cè)效果嚴(yán)重依賴于對(duì)異常率的判斷。在異常率大小存在波動(dòng)的場(chǎng)景中容易出現(xiàn)錯(cuò)判,漏判的情況。② HS-Trees算法中,隨著檢測(cè)周期的切換,都會(huì)做一次節(jié)點(diǎn)權(quán)值更新,存在可能的重復(fù)的模型更新操作。

        2.3 多特征半空間孤立森林算法

        結(jié)合HS-Trees算法效率高、時(shí)間復(fù)雜度低的特點(diǎn)與時(shí)間序列數(shù)據(jù)連續(xù)相關(guān)的特性,本文針對(duì)擠壓機(jī)流數(shù)據(jù)提出了一種多特征半空間孤立森林異常檢測(cè)算法。本文算法以多維流數(shù)據(jù)子序列的統(tǒng)計(jì)向量作為基本檢測(cè)單元,在算法開(kāi)始階段需要先對(duì)多維流數(shù)據(jù)子序列進(jìn)行切割。經(jīng)由統(tǒng)計(jì)特征提取算法轉(zhuǎn)換成多種統(tǒng)計(jì)特征值后,再由對(duì)應(yīng)的MHSIF異常檢測(cè)模型計(jì)算出對(duì)應(yīng)統(tǒng)計(jì)特征向量的異常值,其檢測(cè)過(guò)程如圖4所示。

        圖4 MHSIF算法異常檢測(cè)過(guò)程

        具體而言,多特征半空間孤立森林算法有3個(gè)重要組成部分,分別為統(tǒng)計(jì)特征值的提取、MHSIF模型的構(gòu)建和使用MHSIF模型異常檢測(cè)過(guò)程。

        多維流數(shù)據(jù)統(tǒng)計(jì)特征值的提取過(guò)程如算法2所示,算法輸出的結(jié)果為經(jīng)過(guò)對(duì)應(yīng)統(tǒng)計(jì)特征公式計(jì)算轉(zhuǎn)換后的特征向量集合。具體的算法的處理過(guò)程為:① 通過(guò)統(tǒng)計(jì)特征名稱得到預(yù)先定義好的統(tǒng)計(jì)特征計(jì)算函數(shù);② 按照預(yù)先設(shè)置好的子序列長(zhǎng)度截取多維流數(shù)據(jù)子序列,并使用統(tǒng)計(jì)特征計(jì)算函數(shù)計(jì)算出子序列的統(tǒng)計(jì)特征向量;③ 合并并輸出多維流數(shù)據(jù)各個(gè)統(tǒng)計(jì)特征值計(jì)算結(jié)果。算法2計(jì)算了多維流數(shù)據(jù)子序列的不同統(tǒng)計(jì)特征值,并以集合的方式將計(jì)算結(jié)果輸出供異常檢測(cè)算法使用。

        算法2統(tǒng)計(jì)特征值提取算法-TransData

        輸入:data-多維流數(shù)據(jù),sub_size-子序列長(zhǎng)度,columns-維度列名,feature_list-統(tǒng)計(jì)特征名稱集合

        輸出:result-經(jīng)對(duì)應(yīng)函數(shù)集合轉(zhuǎn)換后的統(tǒng)計(jì)特征向量集合

        1. result←{};

        //定義變量,保存統(tǒng)計(jì)特征提取結(jié)果

        2. for feature_name in feature_list do

        3. func←get_func(feature_name);

        //通過(guò)統(tǒng)計(jì)特征名

        //feature_name取出預(yù)先定義好的lambda函數(shù)

        4. result_temp←{};

        //定義臨時(shí)變量,保存對(duì)應(yīng)統(tǒng)計(jì)

        //特征提取結(jié)果

        5. for i←1 to len(data)/sub_size do

        6. data_feature←get_feature(data,i,func,sub_size);

        //使用lambda函數(shù)func計(jì)算數(shù)據(jù)流data的子序列統(tǒng)計(jì)特征值

        7. result_temp←result_temp∪data_feature

        8. end

        9. result←result∪result_temp;

        10. end

        11. return result;

        在HS-Trees算法的基礎(chǔ)上,本文提出了MHSIF模型的構(gòu)建方法,如算法3所示。為了在多個(gè)角度描述擠壓機(jī)流數(shù)據(jù)的設(shè)備狀態(tài),MHSIF算法利用單個(gè)檢測(cè)周期內(nèi)多維流數(shù)據(jù)子序列的多種特征向量數(shù)據(jù)構(gòu)建了一個(gè)多特征HS-Trees集合,本文將其稱為MHSIF模型。由2.2節(jié)可知,MHSHF模型中子樹(shù)的結(jié)構(gòu)只需要構(gòu)建一次即可,模型在檢測(cè)過(guò)程中的更新主要是對(duì)樹(shù)節(jié)點(diǎn)的質(zhì)量進(jìn)行重新計(jì)算。

        算法3MHSIF模型構(gòu)建算法-BuildMSHIF

        輸入:data-單周期歷史特征向量數(shù)據(jù)集,tree_num-單個(gè)特征森林中子樹(shù)的數(shù)量,feature_list-統(tǒng)計(jì)特征名稱集合

        輸出:trees_list-特征向量子樹(shù)集合

        1. trees_list←{};

        //定義變量,保存特征向量子樹(shù)集合

        2. for feature in feature_list do

        3. max,min←get_side(data[feature]);

        //取得每一維度最值組成的數(shù)組

        4. for i←1 to tree_num do

        5. t←BuildTree(max,min,0);

        //構(gòu)建HS-Tree子樹(shù)

        6. update_mass(t,data[feature]);

        //計(jì)算節(jié)點(diǎn)質(zhì)量

        7. trees_list[feature]←trees_list[feature]∪ t;

        //合并對(duì)應(yīng)特征的半空間孤立森林子樹(shù)

        8. end

        9. end

        10. return trees_list;

        基于HS-Trees算法的MHSIF異常檢測(cè)模型需要解決一個(gè)關(guān)鍵問(wèn)題,即HS-Trees算法檢測(cè)異常存在反饋延遲問(wèn)題。HS-Trees算法的反饋延遲問(wèn)題的根源在于,在不同長(zhǎng)度的檢測(cè)周期中評(píng)分函數(shù)值域會(huì)發(fā)生改變,從而無(wú)法通過(guò)同一閾值對(duì)異常數(shù)據(jù)進(jìn)行劃分。為了使模型可以在不同長(zhǎng)度的樣本中具有通用性,文獻(xiàn)[9]利用二叉樹(shù)的特性對(duì)典型孤立森林的評(píng)分函數(shù)進(jìn)行歸一化。本文參照文獻(xiàn)[9]中典型孤立森林評(píng)分函數(shù)的歸一化公式對(duì)HS-Trees評(píng)分函數(shù)做了進(jìn)一步改進(jìn),對(duì)計(jì)算出來(lái)的異常值進(jìn)行歸一化,使算法可以利用閾值判斷實(shí)時(shí)反饋異常檢測(cè)的結(jié)果。

        設(shè)有任一統(tǒng)計(jì)特征向量x,對(duì)應(yīng)的特征值森林T,T的檢測(cè)周期為n,子樹(shù)的最大深度為max_depth,則特征向量x在T中的異常值歸一化計(jì)算公式如式(6)所示。

        (6)

        H(k)=ln(k)+ξξ=0.577 215 664 9

        E(score(x,t))表示特征向量x在特征值森林中的平均異常分?jǐn)?shù);c(n)表示在特征值森林中查找失敗的平均異常值;H(k)為調(diào)和數(shù)公式,ξ為歐拉常數(shù)。對(duì)歸一化后的異常值,本文的判斷異常數(shù)據(jù)的標(biāo)準(zhǔn)為:① 若特征向量的異常值小于或接近0.5,則認(rèn)為其是正常實(shí)例的可能性較大;② 若特征向量的異常值遠(yuǎn)大于0.5,則認(rèn)為其是異常的可能性很大。

        流數(shù)據(jù)經(jīng)算法3轉(zhuǎn)換成特征向量后,即可使用MHSIF模型進(jìn)行異常檢測(cè),其檢測(cè)過(guò)程如算法4所示。利用MHSIF模型可以計(jì)算出同一數(shù)據(jù)序列不同特征向量的異常值,并且實(shí)時(shí)地記錄與反饋數(shù)據(jù)序列的檢測(cè)結(jié)果。具體的算法的處理過(guò)程為:① 在開(kāi)始檢測(cè)前,判斷當(dāng)前是否進(jìn)入新的檢測(cè)周期;進(jìn)入新的檢測(cè)周期前,若前一檢測(cè)周期異常率高于閾值則認(rèn)為模型出現(xiàn)概念漂移,使用前一周期數(shù)據(jù)更新模型節(jié)點(diǎn)質(zhì)量并重置記錄模型狀態(tài)的相關(guān)變量;② 分別用對(duì)應(yīng)的特征森林計(jì)算不同類別特征的平均異常值;計(jì)算出平均異常值后,使用式(6)進(jìn)行歸一化;③ 若某特征歸一化后的異常值超過(guò)閾值則認(rèn)為該特征可能存在異常;若數(shù)據(jù)序列中出現(xiàn)異常的特征數(shù)超過(guò)兩種則認(rèn)為該數(shù)據(jù)序列為異常數(shù)據(jù)序列。

        算法4MHSIF異常檢測(cè)算法-Predict

        輸入:trans_data-特征向量數(shù)據(jù)集,feature_list-統(tǒng)計(jì)特征名稱集合,trees_list-特征向量對(duì)應(yīng)的子樹(shù)集合,threshold_outlier-異常值閾值,detecion_size-檢測(cè)周期長(zhǎng)度

        輸出:result-異常值計(jì)算結(jié)果

        1. result←{};

        //定義變量,保存異常值結(jié)果

        2. for i←1 to len(trans_data) do

        3. if當(dāng)前檢測(cè)數(shù)>=detection_size then

        4. if異常率>=threshold_outlier then

        5. 使用當(dāng)前周期數(shù)據(jù)更新模型節(jié)點(diǎn)質(zhì)量;

        6. end if

        7. cur_data←{};

        //清空當(dāng)前周期數(shù)據(jù)

        8. 當(dāng)前檢測(cè)數(shù)及異常數(shù)歸零;

        9. end if

        10. for feature in feature_list do

        11. s←0;

        12. for tree in trees_list[feature] do

        13. s←s+score(trans_data[i],tree);

        //計(jì)算特征向量在各子樹(shù)的異常值

        14. end

        15 s←balance_score(s/trees_num);

        //使用平衡函數(shù)歸一化異常值的均值

        16. result[feature]←result[feature] ∪s;

        17. end

        18. if scores中異常的特征數(shù)超過(guò)兩種 then

        19. 當(dāng)前異常數(shù)加1;

        20. end if

        21. cur_data←cur_data∪trans_data[i];

        //記錄當(dāng)前周期數(shù)據(jù)點(diǎn)

        22. end

        23. return result

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

        本文的實(shí)驗(yàn)所使用的環(huán)境為Intel(R) Core(TM) i5- 7300HQ @ 2.5 GHz,16 GB RAM,Windows 10 64位系統(tǒng),算法采用Python 3.7實(shí)現(xiàn)。

        本文采用異常檢測(cè)領(lǐng)域中最常用的三個(gè)指標(biāo),正確率、查全率以及精確率,對(duì)模型的異常檢測(cè)性能進(jìn)行驗(yàn)證。其中,正確率表示模型判斷正確的數(shù)量占總數(shù)據(jù)的比例;查全率表示被正確檢測(cè)出來(lái)的異常數(shù)目占實(shí)際異??倲?shù)的比例;精確率表示被正確檢測(cè)出來(lái)的異常數(shù)目占被檢測(cè)為異常的總數(shù)的比例。

        3.2 結(jié)果分析

        為了評(píng)估MHSIF算法的有效性及檢測(cè)效果,本文設(shè)計(jì)了兩個(gè)實(shí)驗(yàn):① 驗(yàn)證改進(jìn)后的HS-Trees模型是否能在原始環(huán)境中有效地區(qū)分異常數(shù)據(jù),解決原算法中異常結(jié)果反饋存在延遲的問(wèn)題;② 驗(yàn)證異常檢測(cè)算法在擠壓機(jī)流數(shù)據(jù)的背景下的檢測(cè)效果。實(shí)驗(yàn)使用文獻(xiàn)[14]中HS-Trees模型設(shè)置的相關(guān)參數(shù),將檢測(cè)周期設(shè)置為250,森林子樹(shù)數(shù)目為25,子樹(shù)的最大深度設(shè)為15。

        3.2.1實(shí)驗(yàn)一

        實(shí)驗(yàn)一使用KDDCup99數(shù)據(jù)庫(kù)中的HTTP與SMTP入侵檢測(cè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),文獻(xiàn)[14]用其作為實(shí)驗(yàn)數(shù)據(jù)集用來(lái)驗(yàn)證HS-Trees模型的有效性。將HS-Trees算法中的評(píng)分函數(shù)替換為異常值歸一化公式,即式(6),將判斷異常的閾值設(shè)置為0.6。取數(shù)據(jù)集中各1 000條數(shù)據(jù)作為測(cè)試數(shù)據(jù),使用替換評(píng)分函數(shù)后的HS-Trees算法對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè)。

        使用改進(jìn)后的HS-Trees算法對(duì)HTTP測(cè)試數(shù)據(jù)集進(jìn)行異常檢測(cè)。計(jì)算后的異常值分布散點(diǎn)圖和概率密度分布圖如圖5和圖6所示。由圖可知,算法成功將模型計(jì)算的異常值范圍限制在0到1之間,并且標(biāo)簽為正常的數(shù)據(jù)的異常值主要集中在區(qū)間[0,0.5]內(nèi),標(biāo)簽為異常的數(shù)據(jù)的異常值主要集中在區(qū)間(0.5,1]內(nèi),表明使用本文所提的判斷異常數(shù)據(jù)的標(biāo)準(zhǔn)可以有效地將異常數(shù)據(jù)識(shí)別出來(lái)。

        圖5 HTTP測(cè)試數(shù)據(jù)異常值分布散點(diǎn)圖

        圖6 HTTP測(cè)試集異常值概率密度分布圖

        由表1可知,新的異常數(shù)據(jù)判斷策略有效地檢測(cè)出了HTTP數(shù)據(jù)集和SMTP數(shù)據(jù)集中的異常。使用異常值歸一化公式計(jì)算異常值可以在保證算法檢測(cè)性能不降低的前提下解決原算法中異常結(jié)果反饋存在延遲的問(wèn)題。

        表1 改進(jìn)HS-Trees算法異常檢測(cè)算法結(jié)果

        3.2.2實(shí)驗(yàn)二

        實(shí)驗(yàn)二使用的數(shù)據(jù)來(lái)源于華南某大型鋁型材生產(chǎn)企業(yè)能源管理系統(tǒng)的數(shù)據(jù)庫(kù),本文選擇擠壓車(chē)間中型號(hào)為SY-3600Ton的擠壓機(jī)設(shè)備在2018年1月至3月采集的生產(chǎn)數(shù)據(jù)。其中數(shù)據(jù)為每10秒采集一次的流數(shù)據(jù),包含了擠壓機(jī)、棒爐、冷床、模具爐以及風(fēng)冷電柜等采集點(diǎn)的用電量、電流和電壓數(shù)據(jù)。

        在實(shí)驗(yàn)前,先對(duì)數(shù)據(jù)進(jìn)行降采樣,取得數(shù)據(jù)間時(shí)間間隔為1分鐘的時(shí)序數(shù)據(jù)集,其中,將電量等累計(jì)數(shù)據(jù)進(jìn)行偏移量計(jì)算,得到固定時(shí)間間隔的電量偏移量集合,其余數(shù)據(jù)進(jìn)行時(shí)間間隔等距采樣。設(shè)當(dāng)周期內(nèi)異常率超過(guò)3%時(shí)認(rèn)為模型存在概念漂移,以是否更新模型作為變量條件,子序列長(zhǎng)度設(shè)置為6,使用MHSIF算法進(jìn)行實(shí)驗(yàn)。

        由圖7可知,隨著檢測(cè)周期的切換,擠壓機(jī)流數(shù)據(jù)會(huì)發(fā)生概念漂移現(xiàn)象,沒(méi)有采用更新策略的MHSIF模型的查全率在逐步降低。

        圖7 不同更新策略下MSHIF算法查全率對(duì)比圖

        由表2可知,與采用不更新策略的模型相比,采用更新策略的MHSIF算法在正確率、查全率以及精確率三個(gè)方面都有較大的優(yōu)勢(shì)。本文所提出的基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測(cè)算法可以有效地檢測(cè)擠壓機(jī)在運(yùn)行中可能存在的設(shè)備狀態(tài)異常。

        表2 MHSIF算法異常檢測(cè)算法結(jié)果

        4 結(jié) 語(yǔ)

        為了檢測(cè)出擠壓機(jī)在運(yùn)行中可能存在的設(shè)備狀態(tài)異常,本文提出了基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測(cè)方法。針對(duì)數(shù)據(jù)集中存在噪聲無(wú)法正確反映設(shè)備狀態(tài)的問(wèn)題,算法抽取數(shù)據(jù)的序列特征用來(lái)表示設(shè)備在某一時(shí)間段的狀態(tài),避免了噪聲數(shù)據(jù)對(duì)異常檢測(cè)效果的影響。同時(shí),本文在半空間孤立森林(HS-Trees)算法[14]的基礎(chǔ)上做了改進(jìn),解決了原算法中存在的結(jié)果反饋延遲問(wèn)題,使其能更好地適應(yīng)流數(shù)據(jù)應(yīng)用場(chǎng)景。實(shí)驗(yàn)顯示,本文所提出的算法不僅可以實(shí)時(shí)地檢測(cè)出擠壓機(jī)在運(yùn)行中存在的狀態(tài)異常,還具有較高的準(zhǔn)確性。

        猜你喜歡
        子樹(shù)擠壓機(jī)特征向量
        黑莓子樹(shù)與烏鶇鳥(niǎo)
        重慶新美魚(yú)集團(tuán)有8臺(tái)擠壓機(jī)
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        一種新的快速挖掘頻繁子樹(shù)算法
        克羅內(nèi)克積的特征向量
        擠壓機(jī)前梁結(jié)構(gòu)輕量化設(shè)計(jì)
        書(shū)本圖的BC-子樹(shù)計(jì)數(shù)及漸進(jìn)密度特性分析?
        一類特殊矩陣特征向量的求法
        基于覆蓋模式的頻繁子樹(shù)挖掘方法
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        狠狠躁夜夜躁AV网站中文字幕 | 亚洲熟妇色xxxxx欧美老妇| 日韩国产自拍精品在线| 国产精品亚洲一区二区三区久久 | 西西人体444www大胆无码视频| 欧美午夜刺激影院| 国产在线看不卡一区二区| 亚洲三级香港三级久久| 亚洲人成电影网站色| 又湿又黄裸乳漫画无遮挡网站 | 国产精品色内内在线播放| 蜜桃久久综合一区二区| 中文字幕亚洲综合久久菠萝蜜| av片在线观看免费| 人妻少妇人人丰满视频网站| 久久精品国产亚洲av四区| 国产欧美一区二区精品久久久| 国产精品99久久久久久宅男| 亚洲综合综合在线| 与最丰满美女老师爱爱视频| 先锋五月婷婷丁香草草| 亚洲av成人一区二区三区av| 亚洲av激情久久精品人| 中文字幕精品一区二区三区 | 激情97综合亚洲色婷婷五| 中文字幕精品亚洲二区| 男女av免费视频网站| 一本色道久久88精品综合| 伊人色网站| 日韩字幕无线乱码免费| 久久国产精品一国产精品金尊| 国产在线不卡一区二区三区| 午夜爽毛片| 中文字幕乱码亚洲三区| 一本色道久久88综合日韩精品| 乱伦一区二| 偷偷夜夜精品一区二区三区蜜桃| 伊人久久精品无码二区麻豆| а中文在线天堂| 台湾自拍偷区亚洲综合| 国产国产精品人在线视|