亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類分析法的織造車間能耗數(shù)據(jù)清洗

        2024-12-31 00:00:00黃啟航汝欣戴寧俞博陳煒徐郁山
        軟件工程 2024年7期
        關(guān)鍵詞:異常檢測(cè)聚類

        關(guān)鍵詞:數(shù)據(jù)清洗;聚類;異常檢測(cè);去重

        0 引言(Introduction)

        近年來(lái),降低碳排放已成為全球關(guān)注的熱點(diǎn),各國(guó)都在努力減少溫室氣體排放以應(yīng)對(duì)氣候變化。我國(guó)也制定了二氧化碳排放力爭(zhēng)于2030年達(dá)到峰值,爭(zhēng)取2060年實(shí)現(xiàn)“碳中和”的目標(biāo)[1]。為減少企業(yè)的碳排放量,各個(gè)行業(yè)都在進(jìn)行能源管理及預(yù)測(cè)方面的應(yīng)用研究。紡織行業(yè)在能源管理及預(yù)測(cè)方面的研究起步較晚[2],同時(shí)紡織企業(yè)織造車間能源消耗形式復(fù)雜,需要根據(jù)車間的動(dòng)態(tài)生產(chǎn)情況進(jìn)行動(dòng)態(tài)用能行為的分析和預(yù)測(cè),對(duì)實(shí)時(shí)性的要求較高。因此,數(shù)據(jù)清洗對(duì)于能耗預(yù)測(cè)尤為關(guān)鍵,它不僅能提升數(shù)據(jù)質(zhì)量,還能有效降低數(shù)據(jù)冗余。

        在數(shù)據(jù)清洗方面,嚴(yán)英杰等[3]提出了一種基于時(shí)間序列分析的雙循環(huán)迭代檢驗(yàn)法,對(duì)變壓器和線路的數(shù)據(jù)進(jìn)行清洗,得到了較高質(zhì)量的數(shù)據(jù),但該方法只適合變電設(shè)備單一數(shù)據(jù)類型的清洗。LI等[4]提出一種基于改進(jìn)隨機(jī)森林的數(shù)據(jù)清洗方法,但該方法對(duì)數(shù)據(jù)冗余性的優(yōu)化尚未考慮。在缺失數(shù)據(jù)補(bǔ)全領(lǐng)域,唐冬來(lái)等[5]提出了改進(jìn)多分類器的數(shù)據(jù)修補(bǔ)方法,但該方法只能在特定誤差頻率的條件下獲得較好的修補(bǔ)效果。在常規(guī)數(shù)據(jù)插補(bǔ)方面,常見(jiàn)的插補(bǔ)方法有總體均值填補(bǔ)法、回歸填補(bǔ)法、多重插補(bǔ)法等[6],相關(guān)學(xué)者對(duì)缺失值問(wèn)題進(jìn)行了大量的專題研究。在數(shù)據(jù)去重方面,李樹(shù)林等[7]提出了基于對(duì)比分析的邊緣終端用電時(shí)序數(shù)據(jù)去重方法,但該方法沒(méi)有考慮去重后對(duì)數(shù)據(jù)應(yīng)用方面的影響。綜上所述,本文通過(guò)對(duì)織造車間動(dòng)態(tài)生產(chǎn)過(guò)程進(jìn)行分析,并對(duì)能耗影響因素的數(shù)據(jù)特點(diǎn)和質(zhì)量問(wèn)題進(jìn)行歸類,結(jié)合織造車間的生產(chǎn)實(shí)際,提出了基于聚類分析法的綜合數(shù)據(jù)清洗方法。

        1 織造車間能耗數(shù)據(jù)分析(Energy consumptiondata analysis of weaving workshop

        織造車間的能耗組成復(fù)雜,關(guān)聯(lián)因素較多,其主要能耗由生產(chǎn)設(shè)備和輔助設(shè)備產(chǎn)生。此外,車間的生產(chǎn)計(jì)劃和氣候環(huán)境等因素也會(huì)影響車間能耗。因此,織造車間的能耗組成是一個(gè)包含多層次、多要素的復(fù)雜系統(tǒng)。為便于后續(xù)的能耗預(yù)測(cè)與數(shù)據(jù)處理,需對(duì)車間能耗進(jìn)行層級(jí)分析,從而提取能耗影響因素的數(shù)據(jù)特征。

        1.1 織造車間能耗層級(jí)分析

        織造車間的能耗組成從用能行為角度進(jìn)行劃分,可以分為3層,即織造設(shè)備層、輔助設(shè)備層、關(guān)聯(lián)因素層;其能耗層級(jí)如圖1所示??棛C(jī)是織造車間的主要生產(chǎn)設(shè)備和能耗設(shè)備,還包含照明設(shè)備、空壓機(jī)、車間看板電腦等輔助設(shè)備,生產(chǎn)不同數(shù)量和規(guī)格的產(chǎn)品會(huì)導(dǎo)致設(shè)備運(yùn)轉(zhuǎn)狀態(tài)的變化,進(jìn)而產(chǎn)生差異化的能耗,環(huán)境條件也會(huì)間接影響織造設(shè)備和輔助設(shè)備的能耗狀況。

        輔助設(shè)備層:織造車間的輔助設(shè)備能耗按其變化特點(diǎn)可分為兩類。一是不受生產(chǎn)計(jì)劃和環(huán)境條件影響的能耗,如照明能耗、電視看板等設(shè)備的能耗。二是隨生產(chǎn)計(jì)劃及設(shè)備生產(chǎn)狀態(tài)變化而動(dòng)態(tài)變化的能耗,如運(yùn)輸設(shè)備能耗、空壓機(jī)能耗等。

        關(guān)聯(lián)因素層:生產(chǎn)計(jì)劃會(huì)間接影響車間生產(chǎn)設(shè)備與輔助設(shè)備的運(yùn)行狀態(tài)和能耗。同時(shí),環(huán)境溫度、濕度也會(huì)影響車間生產(chǎn)設(shè)備與輔助設(shè)備的運(yùn)行狀態(tài)和能耗。因此,需要采集的數(shù)據(jù)有環(huán)境氣象數(shù)據(jù)、生產(chǎn)計(jì)劃數(shù)據(jù)(包括品種、規(guī)格等)。

        根據(jù)上述對(duì)織造車間能耗數(shù)據(jù)的分層,織造車間能耗及關(guān)聯(lián)數(shù)據(jù)如下。①車間生產(chǎn)設(shè)備能耗數(shù)據(jù)。②設(shè)備運(yùn)行數(shù)據(jù)(包括設(shè)備運(yùn)行時(shí)長(zhǎng),經(jīng)停、緯停的停車時(shí)長(zhǎng)、次數(shù)等)。③生產(chǎn)數(shù)據(jù)(包括生產(chǎn)品種和產(chǎn)量)。④環(huán)境氣象數(shù)據(jù)。

        1.2 織造車間數(shù)據(jù)特征

        所在企業(yè)通過(guò)工業(yè)互聯(lián)網(wǎng)和云端數(shù)據(jù)庫(kù)建立車間數(shù)據(jù)采集系統(tǒng)。通過(guò)對(duì)上述能耗層級(jí)及采集到的原始數(shù)據(jù)源進(jìn)行分析,得到織造車間能耗和生產(chǎn)數(shù)據(jù)主要具備以下特征。

        1.2.1 數(shù)據(jù)質(zhì)量低

        采集設(shè)備通過(guò)車間無(wú)線網(wǎng)絡(luò)傳輸數(shù)據(jù),受設(shè)備傳感器異常等因素的影響,會(huì)出現(xiàn)零星不屬于正常值范圍的異常數(shù)據(jù),異常數(shù)據(jù)示例如圖2所示。

        這些異常數(shù)據(jù)通常單獨(dú)出現(xiàn),不符合織造車間用能和生產(chǎn)特征;同時(shí),車間生產(chǎn)設(shè)備檢修、采集設(shè)備故障等因素影響會(huì)產(chǎn)生部分?jǐn)?shù)據(jù)缺失的情況,缺失數(shù)據(jù)示例如圖3所示。

        數(shù)據(jù)缺失通常表現(xiàn)為連續(xù)的數(shù)據(jù)空缺;受車間環(huán)境和設(shè)備電磁干擾,有時(shí)也會(huì)產(chǎn)生連續(xù)的異常數(shù)據(jù)波動(dòng)。這些問(wèn)題會(huì)影響數(shù)據(jù)的連續(xù)性和局部完整性,進(jìn)而導(dǎo)致能源管理系統(tǒng)的能耗預(yù)測(cè)準(zhǔn)確性降低。數(shù)據(jù)異常類型及原因如表1所示。

        1.2.2 數(shù)據(jù)規(guī)模大

        紡織企業(yè)的生產(chǎn)設(shè)備多,車間生產(chǎn)與能耗數(shù)據(jù)采集點(diǎn)多,例如某企業(yè)的一個(gè)織造車間共有40多臺(tái)織造設(shè)備,還有多種輔助設(shè)備,智能電表數(shù)據(jù)采集點(diǎn)有12個(gè),生產(chǎn)數(shù)據(jù)采集點(diǎn)有40個(gè),并且車間生產(chǎn)對(duì)數(shù)據(jù)實(shí)時(shí)性要求極高,生產(chǎn)數(shù)據(jù)采集頻率為30秒/次,數(shù)據(jù)采集頻率高,智能電表能源數(shù)據(jù)采集頻率為5分鐘/次,因此每日產(chǎn)生的數(shù)據(jù)量巨大,隨著時(shí)間的增加,數(shù)據(jù)規(guī)模已經(jīng)達(dá)到PB級(jí)別。用于能源預(yù)測(cè)分析的數(shù)據(jù)集規(guī)模龐大,嚴(yán)重影響了能耗預(yù)測(cè)的效率。

        1.2.3 數(shù)據(jù)特征復(fù)雜且具有關(guān)聯(lián)性

        織造車間產(chǎn)生的數(shù)據(jù)種類復(fù)雜且具有一定關(guān)聯(lián)性,包括各區(qū)域的能耗數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)、生產(chǎn)品種數(shù)據(jù)、產(chǎn)量數(shù)據(jù),以及生產(chǎn)數(shù)據(jù)和作業(yè)環(huán)境數(shù)據(jù)等。其中,環(huán)境氣象數(shù)據(jù)具有周期性波動(dòng)規(guī)律,部分生產(chǎn)數(shù)據(jù)呈現(xiàn)離散跳動(dòng)特征。累計(jì)正向有功電能、織機(jī)產(chǎn)量等數(shù)據(jù)表現(xiàn)為連續(xù)波動(dòng)增長(zhǎng)趨勢(shì)。各類數(shù)據(jù)參數(shù)特征如表2所示。

        1.2.4 數(shù)據(jù)價(jià)值密度低

        目前,車間能源生產(chǎn)大數(shù)據(jù)的數(shù)據(jù)量巨大,同一生產(chǎn)條件下,設(shè)備能耗數(shù)據(jù)相似度高,數(shù)據(jù)冗余大,數(shù)據(jù)價(jià)值密度相對(duì)較低。

        2 數(shù)據(jù)清洗與去重(Data cleaning and deduplication)

        織造車間能耗關(guān)聯(lián)數(shù)據(jù)種類多且特征各異,能耗數(shù)據(jù)采集范圍大、頻率高,因此容易出現(xiàn)數(shù)據(jù)缺失和異常的情況。同時(shí),能耗數(shù)據(jù)價(jià)值質(zhì)量密度低,只有對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,降低數(shù)據(jù)冗余,才能得到具有代表性的數(shù)據(jù)集,進(jìn)而提高能源預(yù)測(cè)的效率和質(zhì)量。首先針對(duì)異常數(shù)據(jù)進(jìn)行異常識(shí)別,其次針對(duì)缺失數(shù)據(jù)問(wèn)題,依據(jù)數(shù)據(jù)特點(diǎn)插補(bǔ)缺失部分,最后對(duì)數(shù)據(jù)集去重,降低數(shù)據(jù)冗余。

        2.1 常用的數(shù)據(jù)清洗方法

        數(shù)據(jù)清洗是確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性的關(guān)鍵步驟,常規(guī)的數(shù)據(jù)清洗主要是對(duì)異常數(shù)據(jù)的識(shí)別和對(duì)缺失數(shù)據(jù)的插補(bǔ)。目前,常見(jiàn)的數(shù)據(jù)清洗方法如下。

        高通濾波法[8]:用于減弱或阻隔低于給定頻率的低頻信號(hào),其作用是過(guò)濾掉由偶然因素引起的噪聲干擾,使得信號(hào)的較低頻部分減弱或被抑制,而保持較高頻部分。這種方式可以改善信號(hào)的收斂性,有利于獲得更穩(wěn)定的輸出值。但是,周期性噪聲通常具有特定的頻率分量,可能位于高通濾波的通帶范圍內(nèi),因此高通濾波法對(duì)周期性的噪聲處理效果不佳。

        K-means聚類算法[9]:一種無(wú)監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)點(diǎn)劃分成不同的簇群,其基本思想是將數(shù)據(jù)點(diǎn)分配到距離最近的簇中心,并不斷更新簇中心,直到簇中心不再變化或達(dá)到預(yù)定的迭代次數(shù)。由于初始簇質(zhì)心為隨機(jī)選取,所以簇的質(zhì)量不能保證且離群值對(duì)模型的影響比較大。

        根據(jù)織造車間數(shù)據(jù)分析結(jié)果,發(fā)現(xiàn)采集的數(shù)據(jù)中能耗數(shù)據(jù)和環(huán)境氣象數(shù)據(jù)是時(shí)間序列數(shù)據(jù)且具有周期性的特點(diǎn),所以不宜采用高斯濾波法過(guò)濾異常數(shù)據(jù)。近年來(lái),有很多研究者采用聚類方法對(duì)異常數(shù)據(jù)進(jìn)行清洗,但是傳統(tǒng)K-means聚類算法會(huì)受到初始點(diǎn)選擇的影響,很多聚類方法在檢測(cè)過(guò)程中也存在諸如效率低、誤報(bào)率較高的缺點(diǎn)[10]。所以,本文首先應(yīng)用多線程二分K-means聚類算法對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別,其次根據(jù)不同數(shù)據(jù)的特征采用多樣化的數(shù)據(jù)插補(bǔ)方法,最后對(duì)數(shù)據(jù)降重。

        2.2 異常數(shù)據(jù)識(shí)別

        織造車間能耗數(shù)據(jù)量巨大,因此需要采用高效的異常識(shí)別方法。本文以K-means聚類算法為基礎(chǔ),該算法思想簡(jiǎn)單,收斂速度快,利于處理大數(shù)據(jù)集,效率較高。鑒于K-means聚類算法對(duì)初始簇質(zhì)心敏感的缺點(diǎn),需要對(duì)算法進(jìn)行改進(jìn)。為避免傳統(tǒng)K-means聚類算法對(duì)初始簇質(zhì)心敏感的問(wèn)題,本文采用二分K-means聚類算法進(jìn)行聚類,避免隨機(jī)選取初始簇質(zhì)心帶來(lái)的不確定性。為解決能耗數(shù)據(jù)量大、多次重復(fù)聚類效率低的問(wèn)題,本文采取多線程方式進(jìn)行聚類,可以提高處理效率。

        改進(jìn)K-means聚類算法流程如下。

        (1)將所有數(shù)據(jù)根據(jù)周期劃分為N 個(gè)組,采取多線程方式對(duì)每個(gè)組分配一個(gè)線程進(jìn)行聚類。

        (2)將一個(gè)組的所有數(shù)據(jù)點(diǎn)作為一個(gè)簇。

        (3)將該簇進(jìn)行K-means聚類,即取k=2分成兩個(gè)簇,根據(jù)歐幾里得距離公式分別計(jì)算對(duì)應(yīng)簇中樣本到聚類中心的歐式距離。

        (4)根據(jù)誤差平方和公式[式(2)],選取誤差平方和最大的一個(gè)簇,即聚類效果不好的那個(gè)簇,將其再劃分為兩個(gè)簇進(jìn)行多線程聚類。

        其中:k 為簇的個(gè)數(shù);P 為樣本點(diǎn);Ci 為某個(gè)簇內(nèi)所有樣本點(diǎn)的集合;mi 為簇中心。

        (5)重復(fù)執(zhí)行“步驟(3)”和“步驟(4)”,直到誤差平方和SSE收斂,達(dá)到k 個(gè)簇。

        (6)選取SSE 最小的聚類結(jié)果。

        異常數(shù)據(jù)具有孤立、頻率低且無(wú)規(guī)律的特點(diǎn)。利用這些特點(diǎn),從聚類結(jié)果中選取聚類對(duì)象占比小于4%的分組,定為異常數(shù)據(jù)組,識(shí)別異常數(shù)據(jù)。

        2.3 缺失數(shù)據(jù)修復(fù)

        識(shí)別出異常數(shù)據(jù)后,首先將異常數(shù)據(jù)刪除,視為缺失數(shù)據(jù),其次進(jìn)行缺失值插補(bǔ)。由于織造車間數(shù)據(jù)構(gòu)成復(fù)雜且普遍存在異常數(shù)據(jù),因此需要根據(jù)不同的數(shù)據(jù)類別采用多樣化的數(shù)據(jù)插補(bǔ)方法(圖4),圖4中STL分解代表時(shí)間序列分解法。

        目標(biāo)數(shù)據(jù)中的累計(jì)正向有功電能等數(shù)據(jù)屬于連續(xù)增長(zhǎng)型數(shù)據(jù),采用線性回歸模型進(jìn)行插補(bǔ),該方法簡(jiǎn)單快捷,可以獲得較好的插補(bǔ)效果;運(yùn)行狀態(tài)、生產(chǎn)效率等離散跳動(dòng)型數(shù)據(jù)采用均值插補(bǔ)法進(jìn)行插補(bǔ);環(huán)境氣象數(shù)據(jù)屬于典型的周期性時(shí)間序列數(shù)據(jù),采用STL分解法捕捉時(shí)序數(shù)據(jù)的季節(jié)性和總體變化趨勢(shì)進(jìn)行插補(bǔ),其基本思路是將環(huán)境氣象數(shù)據(jù)分解為趨勢(shì)分量Tt,周期分量St,其他分量Rt,其分解式為yt=Tt+St+Rt。對(duì)趨勢(shì)分量進(jìn)行三次樣條插值,將周期分量添加回插值后的結(jié)果中。STL分解法對(duì)異常值具有魯棒性,適合處理季節(jié)性數(shù)據(jù)。

        2.4 數(shù)據(jù)集去重

        通過(guò)對(duì)缺失數(shù)據(jù)的插補(bǔ),獲取到較完整的原始數(shù)據(jù)集,但原始數(shù)據(jù)集仍存在數(shù)據(jù)冗余高的特點(diǎn),數(shù)據(jù)集重復(fù)性高,數(shù)據(jù)量大,不利于后續(xù)實(shí)時(shí)高效的能耗預(yù)測(cè)。因此,需要對(duì)原數(shù)據(jù)集進(jìn)行篩選,得到代表性強(qiáng)的數(shù)據(jù)集,提高數(shù)據(jù)價(jià)值密度。依據(jù)聚類分析的思想,數(shù)據(jù)聚類利用數(shù)據(jù)之間的相似性和差異性進(jìn)行數(shù)據(jù)劃分[11]。依據(jù)該思想,引入可決系數(shù)指標(biāo)進(jìn)行數(shù)據(jù)去重,主要步驟如下。

        (1)對(duì)原始數(shù)據(jù)集依據(jù)時(shí)間周期,按月進(jìn)行分組切片,第一組數(shù)據(jù)記為D1i,第二組數(shù)據(jù)記為D2i。

        (2)引入可決系數(shù),用于衡量?jī)?yōu)化降重后的數(shù)據(jù)集的擬合程度,其公式為

        其中:xi 為原始數(shù)據(jù)集中的數(shù)據(jù);x 為原始數(shù)據(jù)集的平均值;x^為對(duì)應(yīng)數(shù)據(jù)集中的數(shù)據(jù)。R2 值越接近于1,表示擬合數(shù)據(jù)集越接近于實(shí)際數(shù)據(jù)集。

        (3)將D1i、D2j 分別作為公式(3)中xi 和x^計(jì)算兩組數(shù)據(jù)值的可決系數(shù)。規(guī)定可決系數(shù)的指標(biāo)值r:當(dāng)R2 gt;r 時(shí),表示所測(cè)D1i 與D2j 的擬合優(yōu)度較好,將D1i 與D2j 中對(duì)應(yīng)的數(shù)據(jù)取平均值生成新的數(shù)據(jù)集Dfi;當(dāng)R2

        (4)分別計(jì)算R2,對(duì)不滿足要求的切片進(jìn)行計(jì)數(shù),若其數(shù)量大于總切片數(shù)的1/5,則單獨(dú)提取保存,否則用D1i 的平均值替換D2j 數(shù)據(jù)集中不符合要求的數(shù)據(jù),再生成新的數(shù)據(jù)集Dfi。

        (5)依據(jù)新數(shù)據(jù)集與兩個(gè)原始數(shù)據(jù)集的R2 值對(duì)各個(gè)數(shù)據(jù)集進(jìn)行降序排序,然后選出R2 值最大的數(shù)據(jù)集視為最佳數(shù)據(jù)集Dfa 。

        (6)此時(shí)得到的最佳數(shù)據(jù)集依然有很高的重復(fù)性,需要引入Pearson相關(guān)系數(shù),用于衡量數(shù)據(jù)間線性相關(guān)程度。將得到的最佳數(shù)據(jù)集Dfa 依次與其他數(shù)據(jù)集Dfi(i≠a)組合,計(jì)算它們的Pearson相關(guān)系數(shù)。設(shè)定相關(guān)系數(shù)的判斷指標(biāo)r,若兩個(gè)數(shù)據(jù)集K 的相關(guān)系數(shù)大于指標(biāo)值,則表示兩個(gè)數(shù)據(jù)集的重復(fù)性過(guò)高,需要舍去。依次計(jì)算相關(guān)系數(shù)值,剔除重復(fù)性高的數(shù)據(jù)集,篩選出具有代表性的數(shù)據(jù)集。

        3 仿真實(shí)驗(yàn)(simulation experiment)

        3.1 織造車間異常數(shù)據(jù)識(shí)別算例

        本文以某織造企業(yè)織造一號(hào)車間的某車間區(qū)域7月1日至7月7日的逐小時(shí)能耗數(shù)據(jù)為例,共168個(gè)數(shù)據(jù)值,采用上文提出的二分K-means聚類算法對(duì)數(shù)據(jù)進(jìn)行聚類分析,識(shí)別異常點(diǎn),得到的聚類效果圖如圖5所示。

        圖5中,類別3、類別4、類別5的聚類點(diǎn)占比小于4%且對(duì)應(yīng)聚類中心與其他數(shù)據(jù)點(diǎn)的距離較遠(yuǎn),因此視為異常數(shù)據(jù),聚類結(jié)果及處理如表3所示。同時(shí),利用樣本數(shù)據(jù)集對(duì)本文方法與傳統(tǒng)K-means聚類算法的異常識(shí)別效率和誤報(bào)率進(jìn)行對(duì)比,結(jié)果如表4所示,本文方法采用多線程聚類的方式顯著提高了聚類效率,縮短了聚類時(shí)間,同時(shí)誤報(bào)率較低。

        3.2 缺失數(shù)據(jù)插補(bǔ)算例

        將識(shí)別出的異常數(shù)據(jù)視為缺失數(shù)據(jù),根據(jù)不同的數(shù)據(jù)特點(diǎn),采用多樣化插補(bǔ)方法進(jìn)行數(shù)據(jù)插補(bǔ)。以環(huán)境氣象數(shù)據(jù)為例,采用STL分解法對(duì)某車間6月至8月的氣溫?cái)?shù)據(jù)進(jìn)行分解,得到結(jié)果如圖6所示。對(duì)其中的趨勢(shì)部分進(jìn)行三次樣條插值,然后合并結(jié)果,缺失數(shù)據(jù)插值前的結(jié)果如圖7所示、缺失數(shù)據(jù)插值后的結(jié)果如圖8所示。

        3.3 數(shù)據(jù)集去重算例

        針對(duì)負(fù)荷預(yù)測(cè)數(shù)據(jù)集的數(shù)據(jù)價(jià)值密度低的問(wèn)題,采用基于可決系數(shù)和Pearson 相關(guān)系數(shù)的數(shù)據(jù)集去重方法,將織造車間能耗原數(shù)據(jù)集依據(jù)車間區(qū)域分組切片,D11、D12、D13 為織造一車間3個(gè)區(qū)域一個(gè)月的能耗樣本數(shù)據(jù),D21、D22、D23 為織造二車間3個(gè)區(qū)域一個(gè)月的能耗樣本數(shù)據(jù),具體數(shù)據(jù)如表5所示。

        分別計(jì)算兩個(gè)車間負(fù)荷數(shù)據(jù)對(duì)應(yīng)的可決系數(shù),結(jié)果均滿足新數(shù)據(jù)集的生成條件。將D1i 與D2j 中對(duì)應(yīng)的數(shù)據(jù)取平均值生成新的數(shù)據(jù)集Dfi,得到的新數(shù)據(jù)集如表6所示。將生成的新數(shù)據(jù)集與原數(shù)據(jù)集計(jì)算可決系數(shù),結(jié)果如表7所示。

        表7中的可決系數(shù)相對(duì)都不高,原因是部分車間區(qū)域出現(xiàn)一段時(shí)間的停工狀態(tài)。其中,D2 的可決系數(shù)最高,視為最優(yōu)數(shù)據(jù)集,分別計(jì)算其與其他組別的Pearson相關(guān)系數(shù),D2 與D1、D3的相關(guān)系數(shù)分別為0.962和0.983。一般情況下,若Pearson相關(guān)系數(shù)大于0.9,則視為相互之間的相關(guān)性高,即最優(yōu)數(shù)據(jù)集可以替代其他數(shù)據(jù)集。為了驗(yàn)證數(shù)據(jù)集的可靠性,分別采用BP神經(jīng)網(wǎng)絡(luò)與決策樹(shù)預(yù)測(cè)模型對(duì)數(shù)據(jù)集進(jìn)行驗(yàn)證,常用預(yù)測(cè)模型下不同訓(xùn)練集預(yù)測(cè)結(jié)果誤差對(duì)比如表8所示。

        表8中的數(shù)據(jù)結(jié)果表明,去重后獲得的數(shù)據(jù)集誤差在可接受范圍內(nèi),使用本文方法后,將數(shù)據(jù)量從4 320組降到了720組,在保證了預(yù)測(cè)模型準(zhǔn)確性的同時(shí),大大降低了數(shù)據(jù)冗余,提高了數(shù)據(jù)集的價(jià)值密度,為后續(xù)提高能耗預(yù)測(cè)效率奠定了基礎(chǔ)。

        4 結(jié)論(Conclusion)

        本文對(duì)某紡織企業(yè)織造車間能耗進(jìn)行了層級(jí)分析,對(duì)相關(guān)數(shù)據(jù)特征進(jìn)行了分類。針對(duì)采集到的原始數(shù)據(jù)存在數(shù)據(jù)質(zhì)量低、數(shù)據(jù)冗余高、價(jià)值密度低的問(wèn)題,提出了基于聚類分析的異常數(shù)據(jù)識(shí)別、多樣化插補(bǔ)和去重的綜合數(shù)據(jù)清洗方法。本文提出的基于二分K-means聚類算法的異常值識(shí)別方法,在實(shí)際處理大數(shù)量級(jí)的能耗數(shù)據(jù)時(shí),可有效提高識(shí)別效率,同時(shí)對(duì)不同類型的數(shù)據(jù)采取了多樣化的數(shù)據(jù)插補(bǔ)方法,提高了插補(bǔ)的適用性。采用依據(jù)可決系數(shù)的數(shù)據(jù)去重方法,通過(guò)模擬車間數(shù)據(jù),將降重后的數(shù)據(jù)集應(yīng)用到BP神經(jīng)網(wǎng)絡(luò)和決策樹(shù)預(yù)測(cè)模型中,結(jié)果表明該方法可以在有效降低數(shù)據(jù)冗余的同時(shí),保證預(yù)測(cè)的準(zhǔn)確性,對(duì)提高紡織企業(yè)織造車間能源預(yù)測(cè)的效率和準(zhǔn)確性有很大的實(shí)際應(yīng)用價(jià)值。

        猜你喜歡
        異常檢測(cè)聚類
        基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
        基于DBSACN聚類算法的XML文檔聚類
        基于LMD模糊熵的遙測(cè)振動(dòng)信號(hào)異常檢測(cè)方法
        基于度分布的流量異常在線檢測(cè)方法研究
        無(wú)線Mesh網(wǎng)絡(luò)安全性研究
        無(wú)線Mesh網(wǎng)絡(luò)基礎(chǔ)知識(shí)
        條紋顏色分離與聚類
        淺談燃?xì)廨啓C(jī)排氣溫度異常檢測(cè)及診斷
        基于鼠標(biāo)行為的電子商務(wù)中用戶異常行為檢測(cè)
        基于改進(jìn)的遺傳算法的模糊聚類算法
        亚洲成人av在线蜜桃| 人妻精品一区二区三区视频| 日韩在线手机专区av| 日本按摩偷拍在线观看| 亚洲中文字幕无码不卡电影 | 国产人成在线成免费视频| 日本刺激视频一区二区| 国产免费爽爽视频在线观看| 欧美午夜一区二区福利视频| 久久99老妇伦国产熟女高清| 最新天堂一区二区三区| 2019日韩中文字幕mv| 成 人 色综合 综合网站| 亚洲成熟丰满熟妇高潮XXXXX| 国产精品国产三级国产剧情| 久久国产色av免费观看| 中文字幕一区二区三区久久网站| 北岛玲精品一区二区三区| 亚洲av熟女中文字幕| 熟妇人妻久久中文字幕| 亚洲免费黄色| 国产一品二品三品精品久久| 天堂av在线美女免费| 日韩人妻无码免费视频一区二区三区| 久99久精品视频免费观看v| 日本免费精品免费视频| 欧美成人www在线观看| 精品亚洲aⅴ在线观看| 国产精品一区二区日韩精品| 蜜桃一区二区在线视频| 国产成人无码a区在线观看视频 | 亚洲中文字幕在线一区二区三区| 日本一区二三区在线中文| 国语自产精品视频在线看| 日韩好片一区二区在线看| 久久久精品2019免费观看| 在线观看国产视频你懂得| 久久亚洲精品无码va白人极品| 欧美日韩国产成人综合在线影院| 欧美自拍丝袜亚洲| 福利视频自拍偷拍视频|