任曉龍,戴光,耿澤飛
(國網(wǎng)陜西省電力公司,陜西西安 710048)
資產(chǎn)管理對于企業(yè)來說是一項(xiàng)十分重要的工作。電力企業(yè)屬于典型的資產(chǎn)密集型企業(yè),其資產(chǎn)具有規(guī)模大、跨部門、更新快的特點(diǎn),資產(chǎn)精細(xì)化管理的程度直接影響到企業(yè)的安全生產(chǎn)能力、服務(wù)社會能力、創(chuàng)造盈利能力和持續(xù)發(fā)展能力。而實(shí)現(xiàn)電力資產(chǎn)精細(xì)化管理首先必須實(shí)現(xiàn)對于所擁有的電力資產(chǎn)當(dāng)前狀況的客觀、全面、準(zhǔn)確的認(rèn)識。
電力資產(chǎn)畫像是電力企業(yè)實(shí)現(xiàn)對于電力資產(chǎn)當(dāng)前狀況的客觀、全面、準(zhǔn)確認(rèn)識的有效手段。電力資產(chǎn)畫像的實(shí)現(xiàn)依賴于電力企業(yè)運(yùn)行過程中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)。電力企業(yè)在日常生產(chǎn)過程中,產(chǎn)生了大量的與電力資產(chǎn)相關(guān)的業(yè)務(wù)數(shù)據(jù)。這些數(shù)據(jù)是以編碼形式存在的信息載體,是物理世界的碎片化反映。電力企業(yè)可以使用這些業(yè)務(wù)數(shù)據(jù),通過特定的分析方法,生成對于電力資產(chǎn)的一個個側(cè)寫,從各個方面客觀、清晰、定性地描述電力資產(chǎn)。這些側(cè)寫匯總在一起,形成電力資產(chǎn)業(yè)務(wù)對象的全視角的電力資產(chǎn)畫像,提供給電力企業(yè)使用。
使用電力資產(chǎn)畫像的計算結(jié)果,電力企業(yè)可以及時、深入、全面、準(zhǔn)確地了解電力資產(chǎn)的現(xiàn)狀,發(fā)現(xiàn)存在的問題,及時制訂并執(zhí)行相應(yīng)的措施,防范可能的風(fēng)險,保障電力資產(chǎn)正常、高效的運(yùn)行狀態(tài),從而保證電力企業(yè)整體的安全生產(chǎn)、服務(wù)社會、創(chuàng)造盈利的能力。
數(shù)據(jù)畫像其實(shí)就是對現(xiàn)實(shí)業(yè)務(wù)對象做的一個數(shù)學(xué)模型,在整個數(shù)學(xué)模型中,其核心是怎么描述業(yè)務(wù)知識體系,而這個業(yè)務(wù)知識體系就是本體論。本體是概念模型的明確的規(guī)范說明,也可以說是一種形式化的,對于共享概念體系的明確而又詳細(xì)的說明。目前其在人工智能領(lǐng)域有著廣泛的應(yīng)用,谷歌通過本體建模形成了全網(wǎng)知識圖譜,實(shí)現(xiàn)了智能搜索。本體論十分復(fù)雜。這里通過“標(biāo)簽”這種樸素的實(shí)現(xiàn)方式來構(gòu)建[1-4]。
電力資產(chǎn)畫像的核心概念是信息的標(biāo)簽化,它是在完成研究對象的各個維度的主要信息數(shù)據(jù)收集后,高度精煉地抽象出的該對象的全貌標(biāo)簽。標(biāo)簽化的目的:一方面是對多維信息進(jìn)行標(biāo)簽化后,方便計算機(jī)的識別和處理;另一方面,標(biāo)簽本身具有準(zhǔn)確性和非二義性,利于后期的整理、分析和統(tǒng)計。
實(shí)現(xiàn)電力資產(chǎn)畫像首先需要建立電力資產(chǎn)畫像的計算模型(簡稱為畫像模型)。具體方法是,對各個電力業(yè)務(wù)對象構(gòu)建其特有的標(biāo)簽庫,而后,為標(biāo)簽庫中所有的標(biāo)簽設(shè)置算法。標(biāo)簽庫及標(biāo)簽庫中各個標(biāo)簽的配屬算法組成了此電力業(yè)務(wù)對象的畫像模型。進(jìn)行畫像計算時,將依據(jù)畫像模型的標(biāo)簽及其算法進(jìn)行標(biāo)簽值的計算,作為計算結(jié)果的標(biāo)簽值組成了電力業(yè)務(wù)對象的畫像。
標(biāo)簽庫的算法使用電力業(yè)務(wù)數(shù)據(jù)作為輸入,計算出各個標(biāo)簽的標(biāo)簽值。分別設(shè)計標(biāo)識類、分類型、連續(xù)型、曲線類等數(shù)據(jù)類型對應(yīng)的標(biāo)簽化處理方法。對規(guī)律不明顯、復(fù)合型數(shù)據(jù)采用數(shù)據(jù)挖掘的方式標(biāo)簽化處理。分類標(biāo)簽生成方法如下。
這類標(biāo)簽可從數(shù)據(jù)庫中直接獲取,不需要進(jìn)一步加工和運(yùn)算。這種方法多應(yīng)用于屬性標(biāo)簽,主要描述資產(chǎn)的基本信息。
通過簡單的邏輯計算即可得到這類標(biāo)簽。例如運(yùn)行時長、巡視周期等。多應(yīng)用于行為標(biāo)簽,能體現(xiàn)資產(chǎn)的運(yùn)行信息。
這類標(biāo)簽需要通過大數(shù)據(jù)的挖掘算法,構(gòu)建模型而得到,多應(yīng)用于預(yù)測類標(biāo)簽。主要的算法包括以下幾種。
1)分類分析技術(shù):某種指定的屬性特征將標(biāo)簽歸類。需要確定類別的概念描述,并找出類判別準(zhǔn)則。常用的算法包括KNN算法、決策樹(CART、C4.5等)、SVM算法、貝葉斯算法、BP神經(jīng)網(wǎng)絡(luò)等。
2)聚類分析技術(shù):通過聚類算法將分類不明確的屬性進(jìn)行聚類分析和挖掘,提供標(biāo)簽準(zhǔn)確性,涉及的技術(shù)包括K均值聚類、層次聚類、模糊C均值聚類等。
3)關(guān)聯(lián)分析:關(guān)聯(lián)分析的目的是找出數(shù)據(jù)集合中隱藏的關(guān)聯(lián)網(wǎng),是離散變量因果分析的基礎(chǔ)。通過關(guān)聯(lián)分析深度挖掘多個基礎(chǔ)標(biāo)簽的關(guān)系,得到更高層次的客戶標(biāo)簽,涉及的技術(shù)包括Apprioir算法、FP-Growth算法等。
4)回歸分析:通過分析驗(yàn)證標(biāo)簽屬性設(shè)置的合理性,以及客戶畫像的準(zhǔn)確性,涉及的技術(shù)包括多元線性回歸、多元非線性回歸、邏輯回歸等。
5)文本挖掘:在資產(chǎn)整個壽命周期中,有些信息是以文本的形式記錄,而對于這類非結(jié)構(gòu)化數(shù)據(jù)的處理,需要采用文本特征化技術(shù),提取其中隱含的標(biāo)簽信息。對于文本特征化提取,可以采用TFIDF算法,用來評估一個詞對于一個文本集或一個語料庫中的其中一份文件的重要程度。
根據(jù)第1.1節(jié)的電力資產(chǎn)畫像總體思路,在具體實(shí)現(xiàn)過程中需要考慮這些關(guān)鍵問題。
1)聚類標(biāo)簽算法的實(shí)現(xiàn)及調(diào)用:聚類算法需要使用專用的數(shù)據(jù)挖掘軟件實(shí)現(xiàn),編制好的數(shù)據(jù)挖掘算法必須可以通過數(shù)據(jù)挖掘軟件開發(fā)接口提供給電力資產(chǎn)畫像計算進(jìn)行功能調(diào)用。
2)專用邏輯算法的編制及管理:需要能夠在線注冊、卸載、更換專用的邏輯算法。這樣,在進(jìn)行畫像模型建模時,可以編寫相應(yīng)的標(biāo)簽算法,上傳并注冊和使用。在使用過程中,如果發(fā)現(xiàn)某個專用邏輯算法效果不理想,可以編制一個新的算法,在線更換它。根據(jù)以上要求,可以使用具有熱插拔特性的OSGI組件標(biāo)準(zhǔn)來實(shí)現(xiàn)專用的邏輯算法。
3)電力資產(chǎn)畫像模型的可視化建模:可以對任意一個電力業(yè)務(wù)對象(例如,變壓器、開關(guān)、員工等)進(jìn)行可視化建模,通過可視化的方式為它添加標(biāo)簽,配置標(biāo)簽算法。這就需要編制一個畫像模型可視化建模的工具。
4)標(biāo)簽算法的結(jié)果值字典:標(biāo)簽定性地描述電力業(yè)務(wù)對象某一維度特征。因此,需要把標(biāo)簽算法的數(shù)值類型計算結(jié)果轉(zhuǎn)換為一個定性的字典值。例如,設(shè)備健康情況標(biāo)簽的計算結(jié)果是,健康指數(shù)為80。80不能定性地表達(dá)設(shè)備健康情況到底是好是壞,因此,需要一個字典將此數(shù)值翻譯成定性的標(biāo)識。設(shè)備健康情況專用字典中,健康指數(shù)80~100表示設(shè)備健康情況是“優(yōu)秀”。因此,經(jīng)過字典轉(zhuǎn)換,設(shè)備健康情況標(biāo)簽的標(biāo)簽值是“優(yōu)秀”。
5)電力資產(chǎn)畫像模型的解釋及執(zhí)行:系統(tǒng)要能夠依據(jù)電力業(yè)務(wù)對象的畫像模型中的標(biāo)簽及標(biāo)簽配屬的算法進(jìn)行畫像計算,生成并保存計算結(jié)果。
6)畫像成果的保存:使用了圖數(shù)據(jù)庫技術(shù)作為電力資產(chǎn)畫像模型、電力資產(chǎn)畫像結(jié)果的數(shù)據(jù)存儲技術(shù)。因?yàn)椋瑘D數(shù)據(jù)庫比關(guān)系數(shù)據(jù)庫更有利于保存數(shù)據(jù)之間的關(guān)系,進(jìn)行復(fù)雜的數(shù)據(jù)關(guān)系的查詢時速度比關(guān)系數(shù)據(jù)庫快幾千倍。電力資產(chǎn)畫像中,需要保存大量的數(shù)據(jù)關(guān)系。例如,業(yè)務(wù)對象與標(biāo)簽的關(guān)系、標(biāo)簽與算法的關(guān)系、算法與字典的關(guān)系、標(biāo)簽值與所有算法的關(guān)系,等等。還需要進(jìn)行大量的關(guān)系查詢,例如,設(shè)備健康情況標(biāo)簽值是“優(yōu)秀”的設(shè)備有哪些。
7)畫像結(jié)果影響因素指標(biāo):用戶可能需要了解標(biāo)簽計算結(jié)果是如何計算出來的。有2種方式可以用來描述計算結(jié)果的計算過程。一種是標(biāo)簽計算過程中記錄詳細(xì)的計算流水,而后在查詢時向用戶展示;另一種是制訂標(biāo)簽值的影響因素指標(biāo),使用指標(biāo)粗略地描述標(biāo)簽值可能的影響因素。在實(shí)際應(yīng)用中,選擇第二種方式。原因是,數(shù)據(jù)挖掘軟件一般無法記錄和輸出詳細(xì)的計算流水;標(biāo)簽計算算法過于專業(yè)和復(fù)雜,用戶很難看懂詳細(xì)的計算過程。
為了記錄資產(chǎn)畫像標(biāo)簽值與資產(chǎn)畫像模型之間的關(guān)聯(lián)關(guān)系,便于進(jìn)行關(guān)系查詢,采用了最新的圖數(shù)據(jù)庫作為資產(chǎn)畫像模型以及資產(chǎn)畫像計算結(jié)果的數(shù)據(jù)存儲技術(shù)。在這里,對于圖數(shù)據(jù)庫做一個簡要介紹。
圖數(shù)據(jù)庫以圖結(jié)構(gòu)作為數(shù)據(jù)模型,具有網(wǎng)狀數(shù)據(jù)的存儲與檢索能力。相比于關(guān)系數(shù)據(jù)庫,圖數(shù)據(jù)的優(yōu)勢在于能夠進(jìn)行復(fù)雜連接關(guān)系的查詢。
在一個圖中包含2種基本的數(shù)據(jù)類型:Nodes(節(jié)點(diǎn))和 Relationships(關(guān)系)。Nodes和 Relation?ships都可以包含key/value形式的屬性。Nodes通過Relationships所定義的關(guān)系相連起來,形成關(guān)系型網(wǎng)絡(luò)結(jié)構(gòu)。例如圖1描述了學(xué)生與班級、中學(xué)之間的關(guān)聯(lián)關(guān)系。
圖數(shù)據(jù)庫具有專用的關(guān)系查詢語言,以實(shí)現(xiàn)對于關(guān)系的查詢,這類似于關(guān)系數(shù)據(jù)庫中的SQL語言。例如,對于圖1,使用者可以編寫關(guān)系查詢語句,查詢出李強(qiáng)的校友有哪些人[5-7]。
圖1 關(guān)系型網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Relationship network structure
電力業(yè)務(wù)對象畫像模型中包含了電力業(yè)務(wù)對象的標(biāo)簽信息、標(biāo)簽所使用的算法信息。系統(tǒng)進(jìn)行畫像計算時,將解析此畫像模型,據(jù)此調(diào)用各個標(biāo)簽的算法進(jìn)行計算。畫像模型存儲在圖數(shù)據(jù)庫中,如圖2所示。
圖2 畫像體系模型Fig.2 Graph system model
圖2顯示了變壓器的畫像體系模型。從計算實(shí)現(xiàn)的角度,標(biāo)簽可以分為3類,分別是屬性類標(biāo)簽、挖掘類標(biāo)簽、計算類標(biāo)簽。每個人標(biāo)簽分類下面可以包含任意數(shù)量的標(biāo)簽。
屬性類標(biāo)簽的標(biāo)簽值來源于一個業(yè)務(wù)數(shù)據(jù)表的某個字段。例如,“名稱”標(biāo)簽的標(biāo)簽值是“臺賬表”的“名稱”字段。
挖掘類標(biāo)簽的標(biāo)簽值來源于一個挖掘流的計算結(jié)果。使用數(shù)據(jù)挖掘軟件制作一個挖掘流,電力資產(chǎn)畫像計算可以通過數(shù)據(jù)挖掘軟件的開發(fā)接口訪問此挖掘流。挖掘流可以掛接一本字典,用以將挖掘流輸出的數(shù)值型結(jié)果翻譯成定性的標(biāo)識。
計算類標(biāo)簽的標(biāo)簽值來源于一個定制算法組件的計算結(jié)果??梢跃帉懸粋€OSGI組件,上傳并注冊。畫像建模時,將此組件關(guān)聯(lián)到一個標(biāo)簽,作為此標(biāo)簽的算法。畫像計算時,此算法組件的計算結(jié)果就是此標(biāo)簽的標(biāo)簽值。
電力資產(chǎn)畫像的計算將依據(jù)上述的電力資產(chǎn)畫像模型,按照一定的時間周期定期執(zhí)行,每次計算都會生成一幅電力資產(chǎn)的畫像。數(shù)據(jù)流圖如圖3所示。
畫像計算首先需要讀取畫像模型,找到畫像模型包含的標(biāo)簽及標(biāo)簽配置的算法。依據(jù)標(biāo)簽的分類,提取標(biāo)簽關(guān)聯(lián)的數(shù)據(jù)表字段、執(zhí)行標(biāo)簽關(guān)聯(lián)的計算組件、執(zhí)行標(biāo)簽關(guān)聯(lián)的挖掘流,得到相應(yīng)的計算結(jié)果。
圖3 資產(chǎn)畫像計算過程Fig.3 Asset graph calculation process
從數(shù)據(jù)表中提取的表字段可以直接作為標(biāo)簽值進(jìn)行保存;計算組件及挖掘流的計算結(jié)果,可能需要字典進(jìn)行翻譯,以將數(shù)值型結(jié)果轉(zhuǎn)換成定性的標(biāo)識?!氨4娈嬒瘛绷鞒坦?jié)點(diǎn)進(jìn)行標(biāo)簽值及中間結(jié)果的保存工作。
所謂中間結(jié)果,是指標(biāo)簽值的影響因素的指標(biāo)數(shù)據(jù)。例如,變壓器的健康狀況可能與工作環(huán)境平均溫度有關(guān),極寒或者極熱都會導(dǎo)致變壓器的健康狀況不佳。因此,工作環(huán)境平均溫度就可以作為健康狀況標(biāo)簽值的影響因素指標(biāo)。標(biāo)簽的計算組件、挖掘流會輸出中間結(jié)果,以便描述標(biāo)簽值計算結(jié)果產(chǎn)生的原因。
影響標(biāo)簽值的指標(biāo)可以分為3類,分別是正向指標(biāo)、逆向指標(biāo)、適度指標(biāo)。正向指標(biāo)的指標(biāo)數(shù)據(jù)越大,標(biāo)簽值就越理想;反向指標(biāo)的指標(biāo)數(shù)據(jù)越小,標(biāo)簽值就越理想;適度指標(biāo)的指標(biāo)數(shù)據(jù)越接近最佳點(diǎn),標(biāo)簽值就越理想。
畫像結(jié)果存儲在圖數(shù)據(jù)庫中。通過增加畫像對象節(jié)點(diǎn)、標(biāo)簽值節(jié)點(diǎn)、標(biāo)簽值與算法(或者字典標(biāo)識值)的關(guān)聯(lián)關(guān)系的方式保存畫像計算結(jié)果,如圖4所示。
圖4中,變壓器畫像計算保存了“變壓器1”、“變壓器2”這2個變壓器的畫像計算結(jié)果(圖中只繪制了健康指數(shù)標(biāo)簽的計算結(jié)果)。變壓器1具有2017年1月、2017年2月這2個統(tǒng)計周期的畫像;變壓器2具有2017年1月這個統(tǒng)計周期的畫像。
各個統(tǒng)計周期的畫像的標(biāo)簽值需要增加標(biāo)簽值節(jié)點(diǎn)進(jìn)行保存。建立統(tǒng)計周期節(jié)點(diǎn)與“標(biāo)簽值”節(jié)點(diǎn)(其中包含了標(biāo)簽值與中間結(jié)果)的“標(biāo)簽值”關(guān)系,以記錄標(biāo)簽值屬于的統(tǒng)計周期。
需要記錄標(biāo)簽值對應(yīng)的字典標(biāo)識,以記錄標(biāo)簽值對應(yīng)的算法及翻譯字典,因此建立了標(biāo)簽值節(jié)點(diǎn)與畫像模型的字典值節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系。如果標(biāo)簽值不需要查字典以轉(zhuǎn)換成字典標(biāo)識,可以直接將標(biāo)簽值關(guān)聯(lián)到畫像模型的算法節(jié)點(diǎn)。
圖4 畫像結(jié)果存儲Fig.4 Graph result storage
畫像結(jié)果保存完畢后,可以使用圖數(shù)據(jù)庫查詢語言,查詢出電力業(yè)務(wù)對象各個統(tǒng)計周期的畫像;可以查詢出某個標(biāo)簽的某個字典值對應(yīng)了哪些電力業(yè)務(wù)對象,從而在實(shí)際工作中采取相應(yīng)的電力資產(chǎn)管理措施。
電力資產(chǎn)畫像的計算結(jié)果可應(yīng)用于資產(chǎn)預(yù)防性檢修、資產(chǎn)成本效能評價、供應(yīng)商評價等電力業(yè)務(wù)場景。
例如,針對電網(wǎng)資產(chǎn)預(yù)防性檢修方面,運(yùn)檢部工作人員查詢到最近一個月內(nèi)健康狀況為不合格的一臺330 kV變壓器,根據(jù)健康狀況標(biāo)簽以及此標(biāo)簽計算輸出的中間結(jié)果(畫像結(jié)果影響因素指標(biāo)),發(fā)現(xiàn)不合格的原因?yàn)橛蜌庠囼?yàn)中乙炔/乙烯的比值不在規(guī)定區(qū)間范圍內(nèi),其未來3個月內(nèi)發(fā)生低能故障的概率為65%;通過進(jìn)一步查看該主變壓器的行為標(biāo)簽運(yùn)行時長8年,最近一次檢修日期為2個月前,最近一次發(fā)現(xiàn)故障的日期為6個月前。據(jù)此,輔助運(yùn)檢人員決定對該設(shè)備采取預(yù)測性檢修。
綜上所述,通過實(shí)施電力資產(chǎn)畫像,電力企業(yè)可以對于電力資產(chǎn)的狀態(tài)進(jìn)行全方位地了解,進(jìn)而根據(jù)各個電力資產(chǎn)的狀況,采取合理的精細(xì)化管理措施,保障電力資產(chǎn)運(yùn)行安全、可靠、穩(wěn)定,進(jìn)而達(dá)到不斷改進(jìn)電網(wǎng)運(yùn)行績效,持續(xù)提升電網(wǎng)安全經(jīng)濟(jì)優(yōu)質(zhì)輸電和供電服務(wù)水平的目的。
[1] 王慧孜,范煒.圖數(shù)據(jù)庫在標(biāo)簽系統(tǒng)中的應(yīng)用研究[J].數(shù)字圖書館論壇,2015(4):21-27.WANG Huizi,F(xiàn)AN Wei.Application of graph database in labeling system[J].Digital Library Forum,2015(4):21-27.
[2] 王余藍(lán).圖形數(shù)據(jù)庫NEO4J與關(guān)系數(shù)據(jù)庫的比較研究[J].現(xiàn)代電子技術(shù),2012,35(20):77-79.WANG Yulan.Comparison of graph database NEO4J and relational database[J].Modern Electronics Technique,2012,35(20):77-79.
[3] 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)模建[J].設(shè)計藝術(shù)研究,2014,4(6):60-64.YU Mengjie.Data modeling of user portrait in product development[J].Design Art Research,2014,4(6):60-64.
[4] 蔡澤祥,王星華,任曉娜.復(fù)雜網(wǎng)絡(luò)理論及其在電力系統(tǒng)中的應(yīng)用研究綜述[J].電網(wǎng)技術(shù),2012,36(11):114-121.CAI Zexiang,WANG Xinghua,REN Xiaona.Review of complex networks theory and its application in power sys?tem[J].Power System Technology,2012,36(11):114-121
[5] 朱朝陽,王繼業(yè),鄧春宇.電力大數(shù)據(jù)平臺研究與設(shè)計[J].電力信息與通信技術(shù),2015,13(6):1-7.ZHU Chaoyang,WANG Jiye,DENG Chunyu.Research and design of power big data platform[J].Electric Power Informa?tion&CommunicationTechnology,2015,13(6):1-7.
[6] 楊華飛,李棟華,程明.電力大數(shù)據(jù)關(guān)鍵技術(shù)及建設(shè)思路的分析和研究[J].電力信息與通信技術(shù),2015,13(1):7-10.YANG Huafei,LI Donghua,CHENG Ming.Analysis and research on key technologies and construction ideas of powerbig data[J].Electric Power Information and Communication Technology,2015,13(1):7-10.
[7] 王繼業(yè),季知祥,史夢潔,等.智能配用電大數(shù)據(jù)需求分析與應(yīng)用研究[J].中國電機(jī)工程學(xué)報,2015,35(8):1829-1836.WANG Jiye,JI Zhixiang,SHI Mengjie,et al.Analysis and application ofdata requirementsforintelligent distribution of TV university[J].Proceedings of the CSEE,2015,35(8):1829-1836.