肖永立 劉 松 見(jiàn) 偉 宋亞奇
1(國(guó)網(wǎng)北京檢修分公司 北京 100069)2(北京中泰華電科技有限公司 北京 100080)3(華北電力大學(xué)控制與計(jì)算機(jī)學(xué)院 河北 保定 071000)
國(guó)家電網(wǎng)調(diào)控運(yùn)行“十三五”規(guī)劃明確提出了開(kāi)展設(shè)備運(yùn)行大數(shù)據(jù)分析的要求。變電站二次設(shè)備作為對(duì)系統(tǒng)監(jiān)視和控制的重要設(shè)備,其自身健康狀態(tài)的好壞直接關(guān)系電網(wǎng)的安全穩(wěn)定。因此,需要對(duì)其進(jìn)行狀態(tài)評(píng)估,及時(shí)發(fā)現(xiàn)設(shè)備缺陷,減少事故損失。
相關(guān)領(lǐng)域?qū)W者已經(jīng)開(kāi)展廣泛的電網(wǎng)設(shè)備狀態(tài)評(píng)估、設(shè)備的可靠性分析、設(shè)備故障診斷和預(yù)測(cè)等方面的研究[1-3]。研究過(guò)程中使用了多種數(shù)據(jù)分析的模型,如:馬爾可夫(Markov)方法[4]、Topsis模型[5]、概率模型[6]、故障樹(shù)[7]、支持向量機(jī)[8]、神經(jīng)網(wǎng)絡(luò)[9]、貝葉斯網(wǎng)絡(luò)[10]等。上述模型和方法均需要一定規(guī)模的歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),支撐數(shù)據(jù)訓(xùn)練過(guò)程,才能得到有效的評(píng)估和識(shí)別模型結(jié)果。目前,評(píng)估和診斷方法逐漸向著數(shù)據(jù)驅(qū)動(dòng)方式和基于大數(shù)據(jù)的分析的方向發(fā)展[11-12]。
數(shù)據(jù)建模和存儲(chǔ)是進(jìn)行各類數(shù)據(jù)分析的前提和基礎(chǔ),直接影響到后期狀態(tài)評(píng)估、故障診斷、查詢分析等應(yīng)用的性能、準(zhǔn)確性和可用性。傳統(tǒng)電網(wǎng)設(shè)備數(shù)據(jù)的建模和存儲(chǔ)方法主要使用范式建模方法和企業(yè)級(jí)關(guān)系型數(shù)據(jù)庫(kù)實(shí)現(xiàn)物理存儲(chǔ),主要存在的問(wèn)題是支持的數(shù)據(jù)規(guī)模比較小、存儲(chǔ)系統(tǒng)的擴(kuò)展性較差、查詢和復(fù)雜數(shù)據(jù)分析性能低下等。近年來(lái),一些大數(shù)據(jù)的存儲(chǔ)方法和數(shù)據(jù)處理技術(shù)被應(yīng)用到電力系統(tǒng)中,以Hadoop為代表的大數(shù)據(jù)技術(shù)應(yīng)用較多。文獻(xiàn)[13]利用Hadoop分布式文件系統(tǒng)(Hadoop Distribute File System,HDFS)來(lái)存儲(chǔ)廣域向量測(cè)量系統(tǒng)的數(shù)據(jù);文獻(xiàn)[14]研究了基于HDFS的電網(wǎng)狀態(tài)監(jiān)測(cè)數(shù)據(jù)存儲(chǔ)方法;文獻(xiàn)[15]研究了HDFS上電網(wǎng)設(shè)備監(jiān)測(cè)數(shù)據(jù)的存儲(chǔ)優(yōu)化方法,用以提升監(jiān)測(cè)數(shù)據(jù)查詢的性能;文獻(xiàn)[16]則應(yīng)用Hadoop生態(tài)系統(tǒng)中的Hive構(gòu)建了電力設(shè)備狀態(tài)信息數(shù)據(jù)倉(cāng)庫(kù);文獻(xiàn)[17]為了完成電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的聯(lián)機(jī)分析處理(On-Line Analytical Processing,OLAP),分別討論并給出了Hive、Impala和HBase三種存儲(chǔ)架構(gòu)和分析方案。上述數(shù)據(jù)存儲(chǔ)和處理方法都是針對(duì)一次設(shè)備數(shù)據(jù)開(kāi)展的,對(duì)二次設(shè)備數(shù)據(jù)的建模和存儲(chǔ)方法的研究較少。
智能變電站中二次設(shè)備的PMS(Production Management System)、OMS(Operations Management System)、監(jiān)控、缺陷記錄等數(shù)據(jù)來(lái)源和類型多樣、經(jīng)年積累下來(lái),數(shù)據(jù)規(guī)模巨大,需要利用大數(shù)據(jù)技術(shù)進(jìn)行建模、存儲(chǔ)和分析。本文提出了一種樹(shù)狀結(jié)構(gòu)的智能變電站二次設(shè)備數(shù)據(jù)的概念模型表示方法,相對(duì)IEC61850模型,可以有效體現(xiàn)二次設(shè)備的結(jié)構(gòu)特征,較CIM標(biāo)準(zhǔn)中的二次系統(tǒng)設(shè)備建模,信息更加全面。為了實(shí)現(xiàn)上述概念模型的物理存儲(chǔ),基于大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)設(shè)計(jì)實(shí)現(xiàn)了多層的智能變電站二次設(shè)備數(shù)據(jù)倉(cāng)庫(kù),以智能變電站中設(shè)備缺陷數(shù)據(jù)的查詢分析為例,驗(yàn)證了所設(shè)計(jì)方法的有效性。
二次設(shè)備的數(shù)據(jù)建模需要完成概念模型的設(shè)計(jì),即從用戶的角度描述數(shù)據(jù)。變電站二次設(shè)備概念模型主要對(duì)變電站站內(nèi)二次設(shè)備,包括繼電保護(hù)設(shè)備、自動(dòng)化設(shè)備網(wǎng)絡(luò)及計(jì)算機(jī)類設(shè)備、電源系統(tǒng)等的臺(tái)賬信息、監(jiān)控信息、缺陷信息及設(shè)備結(jié)構(gòu)特征信息(空間坐標(biāo)、外部形狀、內(nèi)部結(jié)構(gòu))進(jìn)行統(tǒng)一關(guān)聯(lián)建模。
目前,針對(duì)變電站二次設(shè)備模型,已有IEC61850、IEC61970等標(biāo)準(zhǔn)對(duì)其進(jìn)行規(guī)范。其中,IEC61850模型用于智能變電站中,主要對(duì)變電站二次設(shè)備邏輯功能和通信接口進(jìn)行了描述,實(shí)現(xiàn)了設(shè)備間的信息共享和互操作性。但也存在部分不足之處,如IEC61850模型中沒(méi)有體現(xiàn)二次設(shè)備的結(jié)構(gòu)特征、硬件通信接口(如接口數(shù)量、位置、類型、接口參數(shù)等)。因此,無(wú)法根據(jù)模型統(tǒng)一構(gòu)建智能變電站詳細(xì)的通信網(wǎng)絡(luò)結(jié)構(gòu),難以明確信息的傳輸路徑,鏈路異常時(shí)難以定位異常位置。
在調(diào)度系統(tǒng)中,主要采用IEC61970的CIM模型,對(duì)電力系統(tǒng)主要的物理對(duì)象進(jìn)行了抽象,包括描述具體對(duì)象的公用類、描述對(duì)象參數(shù)的屬性以及類之間的關(guān)系等基本元素,提供了電力系統(tǒng)信息的邏輯視圖。存在的不足有:CIM標(biāo)準(zhǔn)中針對(duì)二次系統(tǒng)設(shè)備的對(duì)象非常簡(jiǎn)單,信息不夠全面。此外,變電站內(nèi)模型和CIM模型并沒(méi)有進(jìn)行統(tǒng)一,變電站內(nèi)的數(shù)據(jù)除了部分關(guān)鍵動(dòng)作或異常事件,并沒(méi)有上送至調(diào)度系統(tǒng)。
基于上述考慮,設(shè)計(jì)了智能變電站二次設(shè)備數(shù)據(jù)樹(shù)狀建模方法。首先對(duì)二次設(shè)備按照不同專業(yè)類型分類,分為繼電保護(hù)類設(shè)備、自動(dòng)化類設(shè)備、電源類設(shè)備等,并分別對(duì)不同類型設(shè)備進(jìn)行建模。其次,將不同類型二次設(shè)備,按照其物理結(jié)構(gòu)進(jìn)行劃分,并分別建模。例如,保護(hù)設(shè)備被劃分為電源模塊、CPU模塊、通信模塊、開(kāi)入開(kāi)出模塊等。然后按照設(shè)備整體屬性和各模塊屬性進(jìn)行建模。接著,對(duì)設(shè)備整體和各子模塊,分別按照臺(tái)帳、運(yùn)行、缺陷、結(jié)構(gòu)特征、運(yùn)行環(huán)境、關(guān)聯(lián)設(shè)備等進(jìn)行建模,其中:整體屬性包括臺(tái)帳、運(yùn)行、缺陷、結(jié)構(gòu)特征、運(yùn)行環(huán)境、關(guān)聯(lián)設(shè)備、軟件屬性;各子模塊包括臺(tái)帳、運(yùn)行、缺陷、結(jié)構(gòu)特征。二次設(shè)備數(shù)據(jù)樹(shù)狀建模過(guò)程如圖1所示。
圖1 智能變電站二次設(shè)備數(shù)據(jù)樹(shù)狀建模方法
在圖1的模型中,整體和模塊的主要內(nèi)容的簡(jiǎn)要描述如表1所示。
表1 二次設(shè)備整體與模塊的內(nèi)容
續(xù)表1
通過(guò)對(duì)變電站二次設(shè)備模型進(jìn)行修改和完善,在調(diào)度側(cè)形成二次設(shè)備完整的信息庫(kù),對(duì)轄區(qū)內(nèi)變電站二次設(shè)備進(jìn)行建模和數(shù)據(jù)整理,以支持二次設(shè)備監(jiān)控信息、設(shè)備缺陷與設(shè)備結(jié)構(gòu)的關(guān)聯(lián)分析、二次設(shè)備的狀態(tài)評(píng)價(jià)、故障診斷和故障趨勢(shì)預(yù)警,從而提高對(duì)二次設(shè)備的管控水平。
為了實(shí)現(xiàn)所設(shè)計(jì)的二次設(shè)備數(shù)據(jù)概念模型,本文選擇MaxCompute作為物理存儲(chǔ)平臺(tái),實(shí)現(xiàn)二次設(shè)備數(shù)據(jù)的物理存儲(chǔ)。大數(shù)據(jù)計(jì)算服務(wù)MaxCompute是阿里云提供的海量數(shù)據(jù)存儲(chǔ)和處理平臺(tái),具備海量存儲(chǔ)、并行計(jì)算、擴(kuò)展性強(qiáng)、免維護(hù)、低成本等諸多優(yōu)勢(shì),已經(jīng)在商業(yè)智能、交通數(shù)據(jù)分析、金融數(shù)據(jù)分析、工業(yè)監(jiān)測(cè)數(shù)據(jù)分析等諸多領(lǐng)域得到應(yīng)用。在功能方面,MaxCompute提供了較完整的生態(tài)系統(tǒng),功能組件涵蓋數(shù)據(jù)上傳下載通道、SQL、用戶自定義函數(shù)(User Defined Function,UDF)、擴(kuò)展MapReduce、Graph等,如圖2所示。
圖2 MaxCompute功能組件
MaxCompute完整的生態(tài)系統(tǒng)和豐富的功能為智能變電站二次設(shè)備存儲(chǔ)、數(shù)據(jù)處理和分析提供了一種新的手段。
根據(jù)所設(shè)計(jì)的智能變電站二次設(shè)備數(shù)據(jù)樹(shù)狀建模方法、智能變電站二次設(shè)備數(shù)據(jù)特點(diǎn)和二次設(shè)備數(shù)據(jù)分析需求,設(shè)計(jì)了三層存儲(chǔ)模式的數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)操作層(Data Operation Layer,DOL)、數(shù)據(jù)倉(cāng)庫(kù)層(Data Ware Layer,DWL)和數(shù)據(jù)集市層(Data Market Layer,DML)。數(shù)據(jù)倉(cāng)庫(kù)的整體結(jié)構(gòu)如圖3所示。
圖3 智能變電站二次設(shè)備數(shù)據(jù)倉(cāng)庫(kù)3層結(jié)構(gòu)
在圖3中,DOL用于接收和存儲(chǔ)來(lái)自PMS、OMS、監(jiān)控、缺陷等業(yè)務(wù)系統(tǒng)或文檔的原始數(shù)據(jù),存儲(chǔ)模式盡可能和數(shù)據(jù)源業(yè)務(wù)系統(tǒng)的存儲(chǔ)模式保持一致,形成數(shù)據(jù)源業(yè)務(wù)系統(tǒng)和后續(xù)數(shù)據(jù)倉(cāng)庫(kù)的隔離,并為DWL提供原始的數(shù)據(jù)備份。針對(duì)DML中不同的數(shù)據(jù)分析需求,為DWL提供原始的輸入數(shù)據(jù),并應(yīng)對(duì)數(shù)據(jù)分析需求的變化。另外,如果需要直接從數(shù)據(jù)源業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)查詢或者生成報(bào)表,也可以由DOL來(lái)承擔(dān),以減少對(duì)數(shù)據(jù)源系統(tǒng)的訪問(wèn)請(qǐng)求。
DWL是包含了所有數(shù)據(jù)分析主題的通用的數(shù)據(jù)集合。為了能夠提升二次設(shè)備狀態(tài)評(píng)估等數(shù)據(jù)分析應(yīng)用的性能,使用星型模型進(jìn)行數(shù)據(jù)建模,并按照數(shù)據(jù)分析主題進(jìn)行數(shù)據(jù)的組織,每一個(gè)主題對(duì)應(yīng)一個(gè)數(shù)據(jù)分析領(lǐng)域。為繼電保護(hù)設(shè)備進(jìn)行星型建模的示例如圖4所示。
圖4 數(shù)據(jù)倉(cāng)庫(kù)層繼電保護(hù)裝置數(shù)據(jù)星型數(shù)據(jù)建模
星型架構(gòu)是一種非正規(guī)化的數(shù)據(jù)結(jié)構(gòu),多維數(shù)據(jù)集的每一個(gè)維度都直接與事實(shí)表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余。事實(shí)表可以直接支持后續(xù)的統(tǒng)計(jì)分析,減少或者避免了多表連接,因此分析性能較高。DWL數(shù)據(jù)來(lái)源于DOL,進(jìn)入DWL的數(shù)據(jù)需要具有權(quán)威性,即后續(xù)的數(shù)據(jù)分析均需要且只允許使用DWL的數(shù)據(jù)。因此對(duì)數(shù)據(jù)質(zhì)量有較高的要求,需要事先進(jìn)行數(shù)據(jù)清洗,去除各類臟數(shù)據(jù),并進(jìn)行適當(dāng)?shù)念愋娃D(zhuǎn)換、歸一化和離散化處理。
DML中的數(shù)據(jù)結(jié)構(gòu)清晰,具有較強(qiáng)的針對(duì)性,直接用于支持特定的數(shù)據(jù)分析應(yīng)用。DML數(shù)據(jù)需要對(duì)DWL進(jìn)行數(shù)據(jù)加工,形成的結(jié)果數(shù)據(jù)存入DML。
所設(shè)計(jì)的分層結(jié)構(gòu)會(huì)存在一定的數(shù)據(jù)冗余,但是可以更有效地應(yīng)對(duì)數(shù)據(jù)分析需求的變化和業(yè)務(wù)系統(tǒng)規(guī)則的變化,分層結(jié)構(gòu)也使得數(shù)據(jù)處理邏輯變得更簡(jiǎn)潔和易操作。
所設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)各層自底向上逐層對(duì)上層進(jìn)行數(shù)據(jù)支持。以統(tǒng)計(jì)和發(fā)現(xiàn)不同環(huán)境條件下繼電保護(hù)裝置動(dòng)作的正確率為例,介紹數(shù)據(jù)倉(cāng)庫(kù)中各層之間的協(xié)作方式,其協(xié)作關(guān)系如圖5所示。
圖5 統(tǒng)計(jì)高溫情況下的繼電保護(hù)裝置動(dòng)作正確率
在圖5中,DSL接收來(lái)自PMS、OMS、在線監(jiān)測(cè)、設(shè)備自檢等多數(shù)據(jù)源的數(shù)據(jù),并保持原有系統(tǒng)的存儲(chǔ)模式,存儲(chǔ)到DSL,作為整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)數(shù)據(jù)。另外,如果需要對(duì)基礎(chǔ)歷史數(shù)據(jù)進(jìn)行查詢,可以直接在DSL中進(jìn)行。DWL主要采用寬表的形式存儲(chǔ)集成的數(shù)據(jù)。為了統(tǒng)計(jì)和分析環(huán)境溫度、濕度等因素對(duì)繼電保護(hù)設(shè)備動(dòng)作正確率的影響,將來(lái)自于DSL的設(shè)備臺(tái)賬信息、環(huán)境信息、繼電保護(hù)運(yùn)行信息、告警信息集成進(jìn)來(lái),構(gòu)建DWL中的表,因此表的維度較高。在使用寬表進(jìn)行數(shù)據(jù)集成之前,需要對(duì)DSL中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、適當(dāng)?shù)念愋娃D(zhuǎn)換、歸一化以及離散化等數(shù)據(jù)處理,以便得到高質(zhì)量的數(shù)據(jù),提升后續(xù)數(shù)據(jù)分析的有效性。之后,基于DWL寬表,可以統(tǒng)計(jì)不同周期內(nèi)繼電保護(hù)裝置的正確動(dòng)作次數(shù)、總動(dòng)作次數(shù)以及相應(yīng)的環(huán)境溫度、濕度等,形成數(shù)據(jù)集市層DML表數(shù)據(jù)。上層的應(yīng)用系統(tǒng)(APP)使用DML中繼電保護(hù)設(shè)備動(dòng)作統(tǒng)計(jì)次數(shù)計(jì)算動(dòng)作的正確率,并進(jìn)一步利用正確率和環(huán)境指標(biāo)分析兩者的相關(guān)性。
以繼電保護(hù)設(shè)備狀態(tài)評(píng)估為例,介紹使用MaxCompute進(jìn)行數(shù)據(jù)建模、數(shù)據(jù)處理和數(shù)據(jù)分析的過(guò)程。
MaxCompute使用二維表進(jìn)行數(shù)據(jù)存儲(chǔ)。在進(jìn)行數(shù)據(jù)導(dǎo)入之前,需要先創(chuàng)建表。根據(jù)2.2節(jié)設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù),需要分別為DOL、DWL和DML創(chuàng)建表。根據(jù)經(jīng)驗(yàn),確定與繼電保護(hù)設(shè)備狀態(tài)評(píng)估相關(guān)的數(shù)據(jù)包括:繼電保護(hù)裝置整體信息、電源插件、CPU插件、通信插件和開(kāi)入開(kāi)出插件,共5部分信息,因此在DSL層中,分別使用SQL DDL進(jìn)行表的創(chuàng)建,創(chuàng)建表的示例如表2所示。
表2 設(shè)備臺(tái)賬表創(chuàng)建DDL
執(zhí)行數(shù)據(jù)操作層DSL建表操作,結(jié)果如圖6所示。
圖6 DSL層MaxCompute數(shù)據(jù)表
根據(jù)經(jīng)驗(yàn),從DSL數(shù)據(jù)表中進(jìn)行特征選擇,選出的用于繼電保護(hù)設(shè)備狀態(tài)評(píng)估的特征包括:(1) 運(yùn)行環(huán)境:溫度、濕度;(2) 無(wú)故障時(shí)間:設(shè)備實(shí)際無(wú)故障運(yùn)行時(shí)間;(3) 家族性無(wú)故障時(shí)間:同型號(hào)、同批次無(wú)故障時(shí)間,基于OMS缺陷記錄表,統(tǒng)計(jì)分析同型號(hào)、同批次設(shè)備的無(wú)故障時(shí)間;(4) 正確動(dòng)作率:本身正確動(dòng)作率、同型號(hào)正確動(dòng)作率、同批次正確動(dòng)作率(本身正確動(dòng)作率=正確動(dòng)作次數(shù)/總動(dòng)作次數(shù));(5) 絕緣狀況:屏內(nèi)接線的保護(hù)裝置箱體和各插件的絕緣數(shù)據(jù):裝置發(fā)生絕緣接地情況的次數(shù);(6) 數(shù)據(jù)采樣:模擬量和開(kāi)關(guān)量采樣異常出現(xiàn)的次數(shù);(7) 通信狀況:GPS對(duì)時(shí)、與監(jiān)控后臺(tái)、保護(hù)信息子站的通信狀況,統(tǒng)計(jì)通信異常出現(xiàn)的次數(shù);(8) 通道運(yùn)行情況:高頻通道和光纖通道測(cè)試數(shù)據(jù),統(tǒng)計(jì)通道異常次數(shù)。
使用上述特征構(gòu)建DWL層數(shù)據(jù)寬表,如圖7所示。
圖7 DWL層MaxCompute數(shù)據(jù)表
在圖7中的特征量是根據(jù)經(jīng)驗(yàn)選取的,可以選擇使用機(jī)器學(xué)習(xí)算法,如隨機(jī)森林特征選擇算法,利用歷史數(shù)據(jù)進(jìn)行進(jìn)一步的特征選擇,對(duì)特征量的重要性進(jìn)行量化評(píng)估并排序,選出最終的特征量,用于狀態(tài)評(píng)估。最終的特征量被同步到應(yīng)用數(shù)據(jù)集市DML中,如圖8所示。
圖8 DML層MaxCompute數(shù)據(jù)表
如果不進(jìn)行特征選擇,則可以將DML中的表與DWL中的表保持一致即可。
使用MaxCompute生態(tài)系統(tǒng)中的數(shù)據(jù)開(kāi)發(fā)工具DataStudio完成DOL到DWL的數(shù)據(jù)清洗和數(shù)據(jù)加工過(guò)程,從數(shù)據(jù)源到DOL的數(shù)據(jù)加載也可以在DataStudio下利用數(shù)據(jù)集成工具完成。圖7的DWL至DML的特征選擇可以使用PAI組件完成,整體數(shù)據(jù)處理的流程如圖9所示。
圖9 DataStudio環(huán)境下繼電保護(hù)設(shè)備狀態(tài)評(píng)估數(shù)據(jù)處理流程
其中:Di組件為數(shù)據(jù)同步組件,負(fù)責(zé)從數(shù)據(jù)源到DSL層的數(shù)據(jù)傳輸;Sql組件用于數(shù)據(jù)清洗和數(shù)據(jù)的統(tǒng)計(jì)計(jì)算,從而形成DWL層數(shù)據(jù);Pi組件用于特征選擇,可以使用過(guò)濾式特征選擇或者隨機(jī)森林特征選擇等方法。繼電保護(hù)的狀態(tài)評(píng)估使用了Pi組件中的邏輯回歸算法進(jìn)行訓(xùn)練和分類。
數(shù)據(jù)分析的過(guò)程是在Pi組件中完成的。Pi是阿里云提供的機(jī)器學(xué)習(xí)服務(wù)。根據(jù)經(jīng)驗(yàn),將繼電保護(hù)設(shè)備的狀態(tài)評(píng)估結(jié)果設(shè)定為如下的5種狀態(tài):良好狀態(tài)、正常狀態(tài)、注意狀態(tài)、異常狀態(tài)、嚴(yán)重異常狀態(tài)。使用邏輯回歸算法進(jìn)行訓(xùn)練和分類,數(shù)據(jù)分析的流程如圖10所示。
圖10 Pi環(huán)境下基于邏輯回歸的繼電保護(hù)設(shè)備狀態(tài)評(píng)估
在圖10中進(jìn)行了額外的過(guò)濾式特征選擇,但僅是得出了當(dāng)前特征重要性的量化打分和排名,并未參與后續(xù)的計(jì)算。拆分過(guò)程將歷史數(shù)據(jù)按照自定義的比例,如70%訓(xùn)練數(shù)據(jù)和30%測(cè)試數(shù)據(jù)的比例進(jìn)行了拆分,分別輸出到訓(xùn)練模塊和測(cè)試模塊。最后通過(guò)混淆矩陣組件和分類結(jié)果評(píng)估組件查看模型的準(zhǔn)確率等參數(shù)。
選取來(lái)自某省電網(wǎng)公司2013年7月至12月的PMS、OMS、在線監(jiān)測(cè)以及設(shè)備自檢數(shù)據(jù)進(jìn)行數(shù)據(jù)建模、存儲(chǔ)和數(shù)據(jù)分析。實(shí)驗(yàn)平臺(tái)使用阿里云MaxCompute、Datawork、數(shù)據(jù)集成、機(jī)器學(xué)習(xí)Pi。
使用所設(shè)計(jì)的樹(shù)狀模型對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行建模,并使用星型模型在MaxCompute表中進(jìn)行物理存儲(chǔ)。同時(shí)在MaxCompute中使用傳統(tǒng)的范式模型對(duì)二次設(shè)備數(shù)據(jù)進(jìn)行表示和存儲(chǔ)。分別基于兩種模式進(jìn)行二次設(shè)備歷史數(shù)據(jù)的查詢分析,對(duì)比其執(zhí)行性能。以查詢分析繼電保護(hù)設(shè)備的正確動(dòng)作率與環(huán)境溫濕度的關(guān)系為例,對(duì)比兩種存儲(chǔ)模式對(duì)查詢分析的影響。分別進(jìn)行了三項(xiàng)查詢分析實(shí)驗(yàn):無(wú)條件的全量設(shè)備查詢Q1、根據(jù)生產(chǎn)廠商對(duì)不同品牌的設(shè)備進(jìn)行查詢Q2、根據(jù)變電站進(jìn)行設(shè)備查詢Q3。每組實(shí)驗(yàn)分別選取不同得數(shù)據(jù)規(guī)模:579 MB(數(shù)據(jù)集編號(hào)1)、1.21 GB(數(shù)據(jù)集編號(hào)2)和1.63 GB(數(shù)據(jù)集編號(hào)3),對(duì)比其執(zhí)行時(shí)間,如圖11所示。
圖11 歷史數(shù)據(jù)查詢分析執(zhí)行時(shí)間對(duì)比
在圖11中,QX-Y表示對(duì)數(shù)據(jù)集Y執(zhí)行QX查詢。采用范式建模方式,執(zhí)行時(shí)間約為星型建模方式的3倍左右,不同規(guī)模不同查詢方式下,9次實(shí)驗(yàn)的平均執(zhí)行時(shí)間比例為3.12。從圖11中各次實(shí)驗(yàn)的執(zhí)行時(shí)間變化趨勢(shì)可以看出,兩種存儲(chǔ)模式下的執(zhí)行性能在數(shù)據(jù)規(guī)模增長(zhǎng)的情況下執(zhí)行性能比較平穩(wěn),這與MaxCompute的平臺(tái)特性相關(guān)。MaxCompute下執(zhí)行數(shù)據(jù)分析任務(wù)時(shí),分配的計(jì)算資源會(huì)隨著數(shù)據(jù)規(guī)模的增長(zhǎng)而增長(zhǎng),因此執(zhí)行時(shí)間總體比較平穩(wěn)。尤其在星型存儲(chǔ)模式下,執(zhí)行時(shí)間隨著數(shù)據(jù)規(guī)模的增長(zhǎng)幾乎沒(méi)有增長(zhǎng),表明了所設(shè)計(jì)的存儲(chǔ)方法能夠有效應(yīng)對(duì)智能變電站二次設(shè)備數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)分析。
本文研究了智能變電站二次設(shè)備數(shù)據(jù)的特點(diǎn)、建模方法和物理存儲(chǔ)方法,提出一種智能變電站二次設(shè)備數(shù)據(jù)樹(shù)狀建模方法。并基于阿里云的大數(shù)據(jù)平臺(tái)MaxCompute設(shè)計(jì)實(shí)現(xiàn)了3層結(jié)構(gòu)的二次設(shè)備數(shù)據(jù)倉(cāng)庫(kù),給出了數(shù)據(jù)操作層、數(shù)據(jù)倉(cāng)庫(kù)層和數(shù)據(jù)集市層之間的交互方法。以繼電保護(hù)設(shè)備狀態(tài)評(píng)估為例說(shuō)明了數(shù)據(jù)建模、存儲(chǔ)和數(shù)據(jù)分析的過(guò)程。以繼電保護(hù)設(shè)備數(shù)據(jù)的統(tǒng)計(jì)查詢分析為例,在不同數(shù)據(jù)規(guī)模下,對(duì)比了所設(shè)計(jì)的星型存儲(chǔ)模式和傳統(tǒng)的范式模式下的查詢執(zhí)行時(shí)間,驗(yàn)證了所設(shè)計(jì)的建模和存儲(chǔ)方法的有效性。