亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電力大數(shù)據(jù)并行關(guān)聯(lián)規(guī)則挖掘算法

        2023-09-07 02:48:12劉國輝
        中國新技術(shù)新產(chǎn)品 2023年14期
        關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)庫

        吳 迪 劉國輝 劉 泉 王 麗

        (國網(wǎng)黑龍江省電力有限公司信息通信公司,黑龍江 哈爾濱 150001)

        目前,在我國政府“雙碳”目標(biāo)的戰(zhàn)略部署下[1],中國電力系統(tǒng)的“雙高”(即對風(fēng)電和光伏發(fā)電依賴程度高)、“雙峰”(即峰值分別出現(xiàn)在早/晚2 個高峰期)特征也越來越明顯。關(guān)聯(lián)規(guī)則挖掘在數(shù)理信息學(xué)、圖片分類和電力大數(shù)據(jù)應(yīng)用等領(lǐng)域都具有重要意義。關(guān)聯(lián)規(guī)則挖掘是挖掘事務(wù)數(shù)據(jù)集中相關(guān)的關(guān)聯(lián)關(guān)系,包括數(shù)據(jù)集間肯定的關(guān)系即正關(guān)聯(lián)規(guī)則和否定的關(guān)系即負(fù)關(guān)聯(lián)規(guī)則。

        相關(guān)學(xué)者在最小支持度的基礎(chǔ)上提出了正負(fù)關(guān)聯(lián)規(guī)則挖掘,并在相關(guān)性和對偶置信度的基礎(chǔ)上提出了負(fù)關(guān)聯(lián)規(guī)則挖掘方法。一些學(xué)者將算法在并行模型MapReduce 框架下實現(xiàn),并成功地應(yīng)用在負(fù)關(guān)聯(lián)規(guī)則挖掘中,但仍需要多次掃描數(shù)據(jù)庫[2]。該文提出了一種新的基于MapReduce 框架的負(fù)關(guān)聯(lián)規(guī)則挖掘算法,并在電力大數(shù)據(jù)集及公共試驗數(shù)據(jù)集上進(jìn)行了相關(guān)試驗,得出了令人滿意的結(jié)果。

        1 相關(guān)理論

        1.1 正負(fù)關(guān)聯(lián)規(guī)則描述

        定義1(支持度):存在項集X,該項集在事務(wù)數(shù)據(jù)庫中出現(xiàn)的概率定義為支持度,記為Sup(X)。

        負(fù)關(guān)聯(lián)規(guī)則表示的是關(guān)聯(lián)規(guī)則的否定集合[3]。如果存在正關(guān)聯(lián)規(guī)則X→Y,其負(fù)關(guān)聯(lián)規(guī)則包括以下X→?Y、?X→Y和?X→?Y共3 種。

        Sup(?X)為項集X 的否定規(guī)則支持度,計算如公式(1)所示。

        式中:Sup(?X)表示在事務(wù)數(shù)據(jù)庫中項集X未出現(xiàn)的概率,使用已知項集X出現(xiàn)的概率Sup(X) 計算得到。

        1.2 正負(fù)關(guān)聯(lián)規(guī)則的評判標(biāo)準(zhǔn)

        定義2(置信度):項集X與項集Y的執(zhí)行度記為Conf(X→Y)。計算方式如公式(2)所示。

        式中:Conf(X→Y)代表當(dāng)項集X出現(xiàn)時,項集Y同時出現(xiàn)的概率;Sup(X→Y)代表項集X和項集Y在事務(wù)數(shù)據(jù)庫中同時出現(xiàn)的概率。

        將項集X與項集Y的否定置信度記為Conf(X→?Y),其計算如公式(3)所示。

        式中:Conf(X→?Y)代表在事物數(shù)據(jù)庫中項集X出現(xiàn)時項集Y不出現(xiàn)的概率[4],使用Sup(X→Y)和Sup(X)完成計算。

        X與否定Y和否定X與Y規(guī)則的置信度的計算如公式(4)所示。

        式中:Conf(?X→Y)代表在事務(wù)數(shù)據(jù)庫中項集X不出現(xiàn)時項集Y出現(xiàn)的概率[5],利用項集X與項集Y的支持度、項集Y的支持度和項集X支持度完成計算。

        1.3 新能源電力大數(shù)據(jù)挖掘分析

        目前,電力行業(yè)在不斷推進(jìn)智能電網(wǎng)業(yè)務(wù),并利用多數(shù)據(jù)挖掘等形式來提高發(fā)電廠發(fā)電效率及新能源發(fā)電設(shè)備的建設(shè)效率。電力企業(yè)也在通過挖掘電力大數(shù)據(jù)的來改進(jìn)和完善各項決策方案,提高核心競爭力,實行企業(yè)精細(xì)化管理,支撐配用電業(yè)務(wù)。對新能源電力大數(shù)據(jù)的正負(fù)關(guān)聯(lián)規(guī)則挖掘可挖掘出電廠運作過程中及其他外界因素與電力設(shè)備產(chǎn)電量之間的關(guān)聯(lián)規(guī)則,并通過關(guān)聯(lián)關(guān)系的相關(guān)程度為后期決策提供一定的信息。通過分布式計算框架,可對規(guī)模龐大的電力大數(shù)據(jù)進(jìn)行高效挖掘。

        2 MR-CEPNR 算法

        2.1 概述

        MR-CEPNR(MapReduce-based Closed set Eclat Positive and Negative Rules)算法是一個采用MapReduce 計算框架實現(xiàn)的算法,主要由預(yù)處理和計算頻繁K(K≥2)-項集2 部分組成。預(yù)處理階段將不同類型的數(shù)據(jù)庫轉(zhuǎn)換為算法所需的垂直數(shù)據(jù)庫形式{itemID:TID},預(yù)處理完成后將處理得到的滿足算法過程需要的數(shù)據(jù)儲存在HDFS 上。在計算頻繁K-項集的過程中主要進(jìn)行2 步操作。首先,計算頻繁2-項集,只計算正項集;利用求交集的方式進(jìn)行項集的事務(wù)序號的求交,將求交得到的項集的事務(wù)序號集合進(jìn)行保存,利用保存的事務(wù)序號集合完成支持度的計算,將滿足條件的項集進(jìn)行保存,得到頻繁2-項集。尋找K(K>2)-項集,包括計算正項集和負(fù)項集,項集需要同時滿足用戶設(shè)定的支持度、置信度和興趣度3個條件,才能被認(rèn)為是頻繁項集。

        2.2 預(yù)處理

        預(yù)處理過程包括3 個部分,即轉(zhuǎn)換數(shù)據(jù)庫格式、過濾非頻繁項集及使用位圖保存TID。

        轉(zhuǎn)換數(shù)據(jù)庫格式時,算法選擇垂直數(shù)據(jù)庫形式以減少掃描數(shù)據(jù)庫次數(shù)[6]。垂直數(shù)據(jù)庫是指數(shù)據(jù)庫中的每條記錄由一個項目及該項目出現(xiàn)過的所有事務(wù)記錄的列表構(gòu)成,在垂直數(shù)據(jù)庫下進(jìn)行計算可以取得簡化計算過程的效果。在垂直數(shù)據(jù)庫中,主要是從水平數(shù)據(jù)庫轉(zhuǎn)為垂直數(shù)據(jù)庫。在水平數(shù)據(jù)庫中,事務(wù)與項的對應(yīng)關(guān)系為{TID:items},在該類型的數(shù)據(jù)庫中不出現(xiàn)TID,即數(shù)據(jù)項在水平數(shù)據(jù)庫中按行出現(xiàn),每行包括多個數(shù)據(jù)項的數(shù)據(jù)庫不便于后續(xù)計算。轉(zhuǎn)換為垂直數(shù)據(jù)庫后,項與事務(wù)的對應(yīng)關(guān)系變?yōu)閧itemID:TID},對每個項所在的事務(wù)進(jìn)行統(tǒng)計,項對應(yīng)該項本身所在的所有事務(wù)。垂直數(shù)據(jù)庫中同時存儲項和對應(yīng)的事務(wù),轉(zhuǎn)換為該種形式更便于后續(xù)計算。

        過濾非頻繁項集時,因為頻繁1-項集僅取正項集,只需項集滿足支持度這一個約束條件即可。在計算正頻繁K(K>2)-項集時使用位圖對項集的TID 進(jìn)行求交操作,加快算法過程中求交集操作的速度。在計算負(fù)頻繁K(K>2)-項集時,采用的方式是將正項集對應(yīng)的位圖的每位取反,得到滿足條件的負(fù)項集。

        2.3 計算頻繁2-項集

        在頻繁2-項集的計算過程中,運用算法Eclat 中求取交集的方式完成頻繁2-項集的計算[7]。面對數(shù)據(jù)量龐大的數(shù)據(jù)集時,使用Eclat 進(jìn)行頻計算會消耗更多時間,因此計算頻繁2-項集時,MR-CEPNR 算法使用對位圖保存的TID 進(jìn)行與計算,不使用交集運算。利用頻繁1-項集計算頻繁2-項集時,使用位圖計算交集[8]。得到的所有項集支持度中,大于等于最小支持度的項集都保留,將支持度不滿足條件的刪除。

        進(jìn)行頻繁2-項計算時,直接對所得的頻繁1-項集進(jìn)行操作。假設(shè)存在頻繁1-項集A、B、C和D,這4 個頻繁項集對應(yīng)的存儲在位圖中的TID 分別為{1,2,3,4,5,6}、{1,2,3,4,5}、{1,2,3,4,5}和{4,5,6}。對這4 個頻繁項集兩兩組合并利用位圖中的TID 進(jìn)行求交,得到的候選項集分別是{AB}、{AC}、{AD}、{BC}、{BD}和{CD},這6 個候選項集對應(yīng)的TID 分別是{1,2,3,4,5}、{1,2,3,4,5}、{5,6}、{1,2,3,4,5}、{4,5}和{4,5}。如果將支持度設(shè)定為2,則以上項集均滿足條件。這些項集在事務(wù)數(shù)據(jù)庫中的出現(xiàn)次數(shù)均大于等于2,得到的頻繁項集即可表示為{AB:1,2,3,4,5}、{AC:1,2,3,4,5}、{AD:5,6}、{BC:1,2,3,4,5}、{BD:4,5}和{CD:4,5}。

        2.4 分發(fā)表制作

        定義3(分發(fā)表):分發(fā)表是根據(jù)頻繁2-項集制作的帶有頭項和尾項的表。其中頭項是所有頻繁2-項集中都包括的第一個項,又稱為父項;尾項是頻繁2-項集中除頭結(jié)點外的所有項,又稱為子項。

        根據(jù)頻繁2-項集的信息制作分發(fā)表是挖掘頻繁K(K>2)-項集的主要步驟。在關(guān)聯(lián)規(guī)則中,根據(jù)Apriori 的性質(zhì)可以得到如下推論:某項集作為首項集推導(dǎo)得到的所有頻繁項集中,必會在以其作為父項集的全部頻繁2-項集中出現(xiàn)。

        根據(jù)該推論和定義3,利用表格的形式對所有相同負(fù)項集的分發(fā)表進(jìn)行記錄。分發(fā)表是一個映射結(jié)構(gòu),從映射中可以清楚地知道原數(shù)據(jù)表中具有相同父項的2-項集的子項。以A為父項集的Reduce 計算過程,其中最小支持度為2,最小置信度為0.2。A的子項為B、C、D,分別在子項中求頻繁2-項集,得到{{B,C}:{1,2,3,4,5}},{{B,D}:{4,5}},{{C,D}:{4,5}}。將2-項集{{B,C}:{1,2,3,4,5}}和父項合并,項集{A,B,C}的支持度為5 和置信度為1 都滿足條件,計算得出興趣度大于1,因此輸出正頻繁3-項集{A,B,C};將2-項集{{B,D}:{4,5}}和父項合并,項集{A,B,D}的支持度為2,置信度為0.4 都滿足條件,然而興趣度小于1,因此要計算負(fù)項集。先將項{D}取反得到負(fù)項集{-D},然后得到負(fù)2-項集{B,-D},和父項合并得到負(fù)項集{A,B,-D}。負(fù)項集{A,B,-D}的支持度為3,置信度為0.6,都滿足條件,因此得到負(fù)頻繁3-項集{A,B,-D}。同樣可以得到負(fù)頻繁3-項集{A,C,-D}。上述過程是計算正負(fù)頻繁3-項集的過程。子項得到的頻繁2-項集{B,C}和{B,D}會繼續(xù)執(zhí)行分發(fā)過程,繼續(xù)得到正負(fù)頻繁K(K>3)-項集。

        2.5 計算頻繁K(K>2)-項集

        計算頻繁K(K>2)-項集時,需要計算正頻繁K(K>2)-項集和負(fù)頻繁K(K>2)-項集。無論當(dāng)前子項集是正項集還是負(fù)項集,都先計算正K(K>2)-項集。如果是正頻繁K(K>2)-項集,則保存;如果不是正頻繁K(K>2)-項集,則對該項集中最后一個項取反,然后計算負(fù)K(K>2)-項集,如果是負(fù)頻繁K(K>2)-項集,則保存。

        讀取預(yù)處理得到的存放在分發(fā)表的父(father)節(jié)點信息和頻繁1-項集。計算頻繁3-項集時,直接遍歷頻繁1-項集得到key1、val1、key2、val2,從而計算得到頻繁2-項集。然后計算father節(jié)點的key和頻繁2-項集合并后的支持度和置信度。如果支持度大于等于最小支持度、置信度大于等于最小置信度,則計算興趣度corr。如果corr>1,則得到正頻繁3-項集;如果corr<1,則計算負(fù)項集,即將key2和val2取反。對key取反就是在項集前加一個符號“-”,以和正項集作區(qū)分。這里val是用位圖存放的,取反即將位圖中0 的位置變成1,1的位置變成0。取反后再次計算支持度和置信度,來確定是否可以加入負(fù)頻繁3-項集,如果可以則得到負(fù)頻繁3-項集。

        計算頻繁i(i>3)-項集和計算頻繁3-項集不同的是,需要將計算頻繁(i-1)-項集中得到的頻繁(i-2)-項集遍歷,將頻繁(i-2)-項集中的相同項單獨拿出,作為又一父節(jié)點father1(同樣是分發(fā)表信息),剩余部分和father1、father計算支持度和接受度,判斷規(guī)則同計算頻繁3-項集時相同,即可得到包括正項集和負(fù)項集的全部頻繁項集。

        3 試驗結(jié)果與分析

        3.1 數(shù)據(jù)集與試驗環(huán)境

        該文選用來自fimi[9]的chess 數(shù)據(jù)集、webdocs 數(shù)據(jù)集和黑龍江省某新能源發(fā)電機組監(jiān)測數(shù)據(jù)集(New_energy 數(shù)據(jù)集)。New_energy 數(shù)據(jù)集為某新能源發(fā)電設(shè)備群的電力檢測設(shè)備數(shù)據(jù)及設(shè)備群的天氣監(jiān)測數(shù)據(jù),反映了發(fā)電設(shè)備群的真實發(fā)電情況及影響發(fā)電量的很多天氣因素。在Hadoop 具體環(huán)境中采用Hadoop-2.5.1 版本,并將Hadoop 的堆大小設(shè)置為25G。JDK 采用jdk1.7.0_71[10]。開發(fā)工具選擇Eclipse,版本為Mars.2 Release(4.5.2)。

        3.2 試驗結(jié)果

        在試驗過程中,頻繁2-項集只計算了正項集部分,頻繁K(K>2)-項集部分計算正項集和負(fù)項集,其中負(fù)項集的計算為X→┐Y形式,即當(dāng)項集{A,B}不滿足頻繁項集時,計算{A,-B}是否滿足頻繁項集條件;項集{A,-B,C}不滿足頻繁項集時,計算{A,-B,-C}是否滿足頻繁項集條件。同時,將頻繁關(guān)聯(lián)規(guī)則的最大長度設(shè)置為5。

        首先,對正負(fù)關(guān)聯(lián)規(guī)則數(shù)進(jìn)行比較。該文使用chess 數(shù)據(jù)集進(jìn)行試驗。當(dāng)最小置信度設(shè)置為0.1 時,支持度分別設(shè)置為800、1000、1200。試驗結(jié)果表明:算法中設(shè)定的接受度一定時,支持度的數(shù)值越小,算法就會得到更多的正關(guān)聯(lián)規(guī)則數(shù)和負(fù)關(guān)聯(lián)規(guī)則數(shù)。當(dāng)最小支持度設(shè)置為800 時,置信度分別設(shè)置為0.1、0.2、0.3、0.4。試驗結(jié)果表明:當(dāng)支持度一定時,置信度越小,算法運行會得到更多的正關(guān)聯(lián)規(guī)則數(shù)與負(fù)關(guān)聯(lián)規(guī)則數(shù)。

        其次,對算法的時間效率進(jìn)行比較。該文使用webdocs 數(shù)據(jù)集進(jìn)行試驗。對該文提出的MR-CEPNR 算法和將Eclat 算法應(yīng)用到挖掘負(fù)關(guān)聯(lián)規(guī)則的nEclat 算法進(jìn)行比較。1)將置信度設(shè)置為0.1 不變,支持度設(shè)置為1000、1200、1500。結(jié)果表明MR-CEPNR 算法的運行效率遠(yuǎn)高于nEclat 算法。2)支持度設(shè)置為300 不變,置信度設(shè)置為0.1、0.5、0.9。同時,隨著置信度的減少,挖掘得到的關(guān)聯(lián)規(guī)則數(shù)量越多,并且MR-CEPNR算法的運行效率遠(yuǎn)高于nEclat 算法。

        整體試驗結(jié)果表明,無論是支持度變化還是置信度變化,MR-CEPNR算法在大數(shù)據(jù)集webdocs下的效率都遠(yuǎn)高于nEclat算法。當(dāng)支持度越小時,挖掘出的頻繁項集越多,MR-CEPNR的時間效率越比nEclat 算法的時間效率高。因為MR-CEPNR算法使用基于位圖的計算策略,即使數(shù)據(jù)量巨大,效率仍然較高,并使用頻繁2-項集來生成分發(fā)表[11],提高了集群利用率,從而提高了時間效率。

        3.3 應(yīng)用案例

        為驗證算法的實用性,在采集的新能源數(shù)據(jù)集New_energy中使用該文算法進(jìn)行正負(fù)關(guān)聯(lián)規(guī)則挖掘。數(shù)據(jù)來源于某風(fēng)電廠運行調(diào)度日志和氣象臺的觀測數(shù)據(jù)。氣象數(shù)據(jù)包括陰晴狀況、溫度、濕度、風(fēng)力以及風(fēng)向等,各項數(shù)據(jù)采集的時間跨度為一年。試驗的參數(shù)如下:最小支持度閾值為20,New_energy 事務(wù)總數(shù)為2260。最終挖掘所得的頻繁3-項集結(jié)果實例見表1。

        表1 在New_energy 中挖掘的頻繁3-項集實例

        從表1 中可以看出MR-CEPNR 算法在數(shù)據(jù)集New_energy中進(jìn)行正負(fù)頻繁3-項集挖掘的結(jié)果。負(fù)頻繁項集{-4 級,50000,多云}表示當(dāng)新能源發(fā)電機組在風(fēng)力為4 級以下并且天氣為多云情況下的發(fā)電量可達(dá)50000kW·h。該規(guī)則表明,風(fēng)力較小且天氣狀況相對較差與新能源發(fā)電機組的發(fā)電量呈負(fù)相關(guān)關(guān)系。該規(guī)則的發(fā)現(xiàn)=可以幫助新能源機組工作人員對風(fēng)電機組進(jìn)行有效調(diào)整,使新能源機組在天氣和風(fēng)力相對較差的情況下不會發(fā)生機組電力消耗量大于機組電力生產(chǎn)量的問題。

        該文算法能夠?qū)﹄娏Υ髷?shù)據(jù)集進(jìn)行高效的正負(fù)關(guān)聯(lián)規(guī)則挖掘的原因如下:在候選項集的生成過程中,通過項集相關(guān)性判斷加入了負(fù)候選項集的生成及篩選,使算法可以同時挖掘電力大數(shù)據(jù)集中的正相關(guān)規(guī)則和負(fù)相關(guān)規(guī)則,并使該數(shù)據(jù)集中正相關(guān)和負(fù)相關(guān)的隱藏信息能夠得到更全面、真實的體現(xiàn),最大程度地發(fā)揮關(guān)聯(lián)規(guī)則在電力大數(shù)據(jù)分析與應(yīng)用領(lǐng)域中的指導(dǎo)意義。

        4 結(jié)論

        該文提出了一種并行正負(fù)關(guān)聯(lián)規(guī)則挖掘算法-MRCEPNR,以滿足對電力大數(shù)據(jù)進(jìn)行高效挖掘的要求。挖掘某新能源發(fā)電機組監(jiān)測真實數(shù)據(jù)集時,可以有效挖掘出隱藏在數(shù)據(jù)量龐大的電力大數(shù)據(jù)集中的隱藏規(guī)則,得出各天氣指標(biāo)對機組發(fā)電量的正相關(guān)關(guān)系和負(fù)相關(guān)關(guān)系。

        猜你喜歡
        關(guān)聯(lián)規(guī)則數(shù)據(jù)庫
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨的規(guī)則和演變
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        国产一品道av在线一二三区| 中文字幕av久久亚洲精品| 久久久中文久久久无码| 越南女子杂交内射bbwxz| 在线免费欧美| 美腿丝袜网址亚洲av| 精品人妻少妇av中文字幕| 午夜福利试看120秒体验区| 91av国产视频| 国产免费人成网站在线播放| 穿着白丝啪啪的av网站| 青青草视频视频在线观看| 青青草成人免费在线视频| 国产精品久久成人网站| a国产一区二区免费入口| 国产精品国产午夜免费福利看| 人妻丰满少妇一二三区| 中文字幕日韩精品中文字幕| 26uuu在线亚洲欧美| 色八区人妻在线视频免费 | 亚洲综合av一区二区三区 | 在线免费黄网| 精选二区在线观看视频| 国产精品专区第一页天堂2019| 国产无遮挡又黄又爽免费网站| 国产高清无码在线| 一本色道亚州综合久久精品| 手机免费高清在线观看av| 久久只精品99品免费久23| 国产亚洲精品久久久久久| 国产亚洲精品综合一区| 国产精品髙潮呻吟久久av | v一区无码内射国产| 久久久AV无码精品免费| 亚洲码专区亚洲码专区| 午夜免费观看日韩一级视频| 大地资源网高清在线播放| 亚洲国产欧美在线成人| 一区二区三区四区四色av| 色偷偷激情日本亚洲一区二区| 少妇人妻200篇白洁|