高海翔,苗璐,劉嘉寧,林湘寧,董鍇,何祥針
(1.廣東電網(wǎng)有限責(zé)任公司電力調(diào)度控制中心,廣東 廣州 510600;2.華中科技大學(xué) 電氣與電子工程學(xué)院,湖北 武漢 430074)
隨著電力系統(tǒng)規(guī)模的日益增大,新的知識不斷涌入,系統(tǒng)中的知識總量呈爆炸式增長,其原因主要包括[1-2]:①電力系統(tǒng)的規(guī)模增大,動態(tài)特性日趨復(fù)雜,調(diào)度控制方法也越發(fā)復(fù)雜;②電力系統(tǒng)中的測控和通信裝置不斷升級,同步相量測量裝置(phasor measurement unit,PMU)大量接入,數(shù)據(jù)的分辨率、精度和傳輸帶寬增加;③光伏、海上風(fēng)電等新型裝置接入電網(wǎng),在改變電網(wǎng)特性的同時也增加了新的知識;④電力市場化改革不斷推進(jìn),電力系統(tǒng)的業(yè)務(wù)鏈條逐步細(xì)化,新的業(yè)務(wù)不斷拓展。
這些電力系統(tǒng)中的新知識呈現(xiàn)出復(fù)雜和多變的特性:知識結(jié)構(gòu)復(fù)雜,異構(gòu)化知識不斷增加;知識更迭迅速,更新頻率逐漸縮短[3]。
面對電力系統(tǒng)中急劇增長的新知識,傳統(tǒng)的知識組織和管理方式已經(jīng)無法滿足當(dāng)前電力系統(tǒng)的需要。當(dāng)前,以知識表示和知識推理為基礎(chǔ)的知識庫在電力系統(tǒng)中得到了較多應(yīng)用,如結(jié)合傳統(tǒng)專家系統(tǒng)的智能決策系統(tǒng)[4-6]、故障定位系統(tǒng)[7-8]和輸電網(wǎng)規(guī)劃決策[9]等。但是,這些知識庫大多依賴于專家提取、整理并將數(shù)據(jù)以圖表形式存儲于數(shù)據(jù)庫的傳統(tǒng)知識管理方式,其所能夠存儲的知識結(jié)構(gòu)較為單一,且每次更新都需要專業(yè)技術(shù)人員花費大量時間。特別對于電力調(diào)度、設(shè)備管理、數(shù)據(jù)交互、業(yè)務(wù)查詢等知識更迭迅速的領(lǐng)域,現(xiàn)有的知識管理方式已經(jīng)嚴(yán)重滯后于系統(tǒng)的發(fā)展需要。電力系統(tǒng)亟需新型、自動、智能的知識組織、存儲、提取、推理方法和工具。
為了實現(xiàn)有效的知識組織和管理,已有研究將計算機領(lǐng)域中近年來廣泛應(yīng)用的知識圖譜(knowledge graph)技術(shù)引入電力系統(tǒng)領(lǐng)域。知識圖譜是以圖的形式表現(xiàn)客觀世界中的實體及其相互關(guān)系的知識庫,是大數(shù)據(jù)時代人工智能符號主義的知識表達(dá)方式之一。知識圖譜由谷歌公司(Google)于2012年提出,此后在互聯(lián)網(wǎng)、金融、醫(yī)藥等領(lǐng)域得到了迅猛發(fā)展和廣泛應(yīng)用[10-11]。自知識圖譜被加入谷歌公司的搜索引擎后,其規(guī)模在7個月內(nèi)擴(kuò)大了3倍。至2016年,谷歌公司構(gòu)建的知識圖譜已擁有超過5億個實體和700億條實體關(guān)系信息[12]。在當(dāng)今的互聯(lián)網(wǎng)領(lǐng)域,知識圖譜已經(jīng)成為語義搜索、智能問答、知識推理等多種知識智能服務(wù)的基礎(chǔ)技術(shù)之一[13]。知識圖譜可以有效組織、管理和利用海量信息,實現(xiàn)智能化的知識抽取、推理、存儲和檢索,其特性及應(yīng)用場景與電力系統(tǒng)的需要十分契合。
在已有綜述電力系統(tǒng)知識圖譜的文獻(xiàn)中,文獻(xiàn)[14]介紹了知識圖譜在智能電網(wǎng)建設(shè)中的意義和具體的應(yīng)用場景,文獻(xiàn)[15]介紹了電力系統(tǒng)領(lǐng)域知識的中文專業(yè)詞典和知識圖譜的構(gòu)建分析方法,文獻(xiàn)[16]簡要探討了知識圖譜在電力系統(tǒng)領(lǐng)域的應(yīng)用思考?,F(xiàn)有的綜述性文獻(xiàn)并未對電力系統(tǒng)知識圖譜的特性以及構(gòu)建中的關(guān)鍵技術(shù)展開詳細(xì)介紹,也尚未深入探討電力系統(tǒng)知識圖譜可能的應(yīng)用場景和研究方向。其他有關(guān)電力系統(tǒng)知識圖譜的文獻(xiàn)則更多地聚焦于某個具體應(yīng)用場景,探討知識圖譜在設(shè)備運維檢修[17-18]、調(diào)度故障處理[19]、電力客服[20]和電網(wǎng)信息搜索[21]等場景中的構(gòu)建和應(yīng)用。值得指出的是,電力系統(tǒng)知識圖譜目前的應(yīng)用場景還較為有限,大多是對原有智能系統(tǒng)應(yīng)用的直接擴(kuò)展。例如,設(shè)備運維檢修知識庫和信息管理系統(tǒng)原為語義網(wǎng)(semantic web)的典型應(yīng)用場景,調(diào)度事故決策原為智能專家系統(tǒng)的典型應(yīng)用場景,將知識圖譜應(yīng)用于這些場景是對原有場景的進(jìn)一步擴(kuò)展和深化。事實上,知識圖譜作為優(yōu)質(zhì)的對知識的組織、存儲、獲取和查詢的人工智能方法,在電力系統(tǒng)領(lǐng)域具有更為廣闊的應(yīng)用潛力和前景。
本文在綜述相關(guān)研究文獻(xiàn)的基礎(chǔ)上,闡述電力系統(tǒng)知識圖譜技術(shù)的概念及其應(yīng)用。首先,介紹電力系統(tǒng)知識圖譜的概念及其在電力系統(tǒng)知識管理中的優(yōu)勢。其次,分別介紹電力系統(tǒng)知識圖譜的自頂向下和自底向上2種構(gòu)建方法。再次,結(jié)合電力系統(tǒng)知識圖譜的特性,總結(jié)知識圖譜在電力系統(tǒng)中的典型應(yīng)用場景。最后,在分析當(dāng)前研究熱點的基礎(chǔ)上,指出知識圖譜在電力系統(tǒng)中應(yīng)用的關(guān)鍵問題和可能的研究方向。
知識圖譜是以圖的形式表現(xiàn)客觀世界中的實體及其相互關(guān)系的結(jié)構(gòu)化語義知識庫[13]。在知識圖譜中,實體間關(guān)系的基本組成單位為“實體-關(guān)系-實體”三元組,實體的屬性特征則使用“屬性-值”對來表示[22]。在知識圖譜中,“實體”是知識圖譜的基本元素,“關(guān)系”是不同實體之間的關(guān)系,“屬性”是對實體的說明,“值”為實體屬性的具體數(shù)值。事實上,如果將屬性視為實體與屬性值之間的映射關(guān)系,那么“屬性-值”對也可轉(zhuǎn)化為“實體-關(guān)系-實體”的三元組。如果用節(jié)點表示實體,用邊表示實體間的關(guān)系或?qū)嶓w的屬性,那么在知識圖譜中,實體(節(jié)點)間通過關(guān)系(邊)相互連接,形成網(wǎng)狀的圖知識結(jié)構(gòu),構(gòu)成對客觀世界中知識的符號化表達(dá)方式[23]。
知識圖譜本質(zhì)上是一種語義網(wǎng)[24-25],其發(fā)展歷程可追溯至20世紀(jì)50年代提出的“知識圖譜”(mapping knowledge domain)[26]和語義網(wǎng)絡(luò)(semantic network)[27-28]。當(dāng)然,當(dāng)今的知識圖譜與之前提出的“知識圖譜”相比,從概念到內(nèi)容都已經(jīng)出現(xiàn)了較大的變遷和擴(kuò)展。
按照應(yīng)用領(lǐng)域劃分,知識圖譜可以分為通用知識圖譜(generic knowledge graph)與領(lǐng)域知識圖譜(domain knowledge graph)2類[29]。通用知識圖譜中存儲的知識為全面性、常識性的知識,不局限于特定應(yīng)用領(lǐng)域范圍[30-31],其典型應(yīng)用場景為互聯(lián)網(wǎng)中的智能搜索引擎,這類圖譜對知識廣度的要求較高,而對知識準(zhǔn)確度的要求相對較低。領(lǐng)域知識圖譜面向特定行業(yè)領(lǐng)域,也稱行業(yè)知識圖譜[32],這類圖譜中存儲的知識主要為專業(yè)性的領(lǐng)域知識。
電力系統(tǒng)知識圖譜是將知識圖譜技術(shù)應(yīng)用于電力系統(tǒng)領(lǐng)域的技術(shù)形式,屬于領(lǐng)域知識圖譜,其典型應(yīng)用場景包括知識管理、輔助分析和支持決策等[11]。電力系統(tǒng)知識圖譜具有多種分類方式:按照圖譜中存儲電力知識的實體種類劃分,電力系統(tǒng)知識圖譜可分為文本知識圖譜、圖像知識圖譜和多模態(tài)知識圖譜[33];按照實體的存儲規(guī)模劃分,電力系統(tǒng)知識圖譜可分為基于單樣本的知識圖譜和基于樣本集的知識圖譜[34];按照圖譜中實體數(shù)據(jù)的存儲和表達(dá)方式劃分,電力系統(tǒng)知識圖譜可分為資源描述框架數(shù)據(jù)庫知識圖譜和圖數(shù)據(jù)庫知識圖譜[35]。
從邏輯結(jié)構(gòu)上,電力系統(tǒng)知識圖譜可以劃分為數(shù)據(jù)層(data layer)和模式層(schema layer)[13]。知識在這2個層次中均以“實體-關(guān)系-實體”三元組或“屬性-值”對的形式存儲。
數(shù)據(jù)層存儲事實和實例,數(shù)據(jù)層中的實體一般為電力系統(tǒng)中較為具體的實際事物,如人、電網(wǎng)設(shè)備、組織機構(gòu)、地點、日期時間以及電網(wǎng)中的具體操作等。模式層存儲概念、規(guī)則、公理和約束條件,模式層中的實體一般為電力系統(tǒng)中經(jīng)過提煉的抽象名詞,也稱本體[36]。在人工智能領(lǐng)域,本體被定義為清晰、規(guī)范化、可用語義描述的概念模型[37],如電力術(shù)語、物理量及公式等。模式層中的本體描述知識的概念層次體系,是模式層中事實的概念模板。
在電力系統(tǒng)知識圖譜中,模式層是數(shù)據(jù)層的概念模型和邏輯抽象,數(shù)據(jù)層是模式層的實例化和事實應(yīng)用[36]。例如,調(diào)度事故處置的原則性知識存儲于模式層,而某次具體的事故處置過程則存儲于數(shù)據(jù)層。由于模式層具備知識的概念提煉和邏輯推理的特性,因而一般可將模式層視為電力系統(tǒng)知識圖譜的核心。一般來說,專業(yè)應(yīng)用的電力系統(tǒng)知識圖譜對知識的深度和準(zhǔn)確性要求較高,因此需要構(gòu)建較為精確的模式層[38]。而通用領(lǐng)域的電力系統(tǒng)知識圖譜,如電力維基百科、電力政策知識圖譜等,則更側(cè)重數(shù)據(jù)層中實體數(shù)目的擴(kuò)充,一般難以構(gòu)建比較規(guī)范的模式層[39],部分圖譜可能只有數(shù)據(jù)層而沒有模式層[40]。
電力系統(tǒng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜,隨著信息化推進(jìn)和電力業(yè)務(wù)拓展,電力的發(fā)、輸、變、配、用等各生產(chǎn)和服務(wù)環(huán)節(jié)每時每刻都在產(chǎn)生海量的數(shù)據(jù)和知識。從知識特點上講,這些電力系統(tǒng)中的知識具有以下特點[41-42]:①專業(yè)性——電力系統(tǒng)中的知識具有較高的專業(yè)門檻,其知識的種類繁多,形式復(fù)雜;②關(guān)聯(lián)性——電力系統(tǒng)中的知識都不是孤立存在的,不同事件之間可能存在關(guān)聯(lián)或依賴關(guān)系;③協(xié)同性——電力系統(tǒng)中的決策往往無法由單一專業(yè)作出,必須協(xié)同多專業(yè)共同決策;④異構(gòu)性——電力系統(tǒng)中的知識不僅由結(jié)構(gòu)化數(shù)據(jù)構(gòu)成,還包含很多非結(jié)構(gòu)化數(shù)據(jù),而且這些數(shù)據(jù)的格式和維度都可能不同。這些龐大、分散、多源、異構(gòu)的數(shù)據(jù)共同構(gòu)成了電力系統(tǒng)中的知識。
面對這些海量知識,傳統(tǒng)的依賴于人工的知識管理方式難以準(zhǔn)確表達(dá)知識間的關(guān)聯(lián)和協(xié)同關(guān)系,也難以實現(xiàn)異構(gòu)知識的抽取、管理和利用,極大地影響了知識的管理和利用效率。與傳統(tǒng)的知識表達(dá)方式相比,電力系統(tǒng)知識圖譜的優(yōu)勢主要體現(xiàn)在以下3個方面[15,31,36]:
a)準(zhǔn)確性。知識圖譜將不同結(jié)構(gòu)化的實體通過知識相互連接,更為準(zhǔn)確地表達(dá)知識之間的關(guān)聯(lián)和協(xié)同關(guān)系,從而將圖譜中的異構(gòu)信息組織起來成為相互聯(lián)系、可以被利用的知識。而傳統(tǒng)數(shù)據(jù)庫僅通過表格和字段來組織和展示數(shù)據(jù),難以準(zhǔn)確描述信息間的關(guān)系,使得數(shù)據(jù)之間較為孤立。
b)智能性。知識圖譜改變了傳統(tǒng)的數(shù)據(jù)檢索方式,可通過知識推理實現(xiàn)概念和邏輯層面的深層次檢索,更為符合電力系統(tǒng)用戶天然的檢索需求。此外,電力系統(tǒng)知識圖譜的構(gòu)建技術(shù)也包含了自動化的知識更新和學(xué)習(xí)技術(shù),能夠通過不斷更新和學(xué)習(xí)持續(xù)提高圖譜的智能性。而傳統(tǒng)數(shù)據(jù)庫大多采用基于字符串匹配或者超鏈接等字面意義上的檢索方式,無法實現(xiàn)知識推理,更新難度較大。
c)可解釋性。不同于神經(jīng)網(wǎng)絡(luò)提供的黑盒模型,知識圖譜基于邏輯符號表達(dá)的推理過程對人是可解釋的,因此基于知識圖譜的電網(wǎng)輔助決策系統(tǒng)不僅能夠給出決策結(jié)果,還可以提供決策的依據(jù)和過程。通過理解決策過程,增加人對決策結(jié)果的信賴度,更好地提升輔助決策效果。這一點也是傳統(tǒng)的智能決策系統(tǒng)難以實現(xiàn)的。
電力系統(tǒng)知識圖譜的構(gòu)建方法可分為3種:自頂向下(top-down)、自底向上(bottom-up)和兩者混合[43],以下主要介紹自頂向下、自底向上2種方法。
自頂向下方法先構(gòu)建知識圖譜的模式層,然后再構(gòu)建數(shù)據(jù)層[43]。在自頂向下構(gòu)建中,首先根據(jù)現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)或?qū)<抑R庫構(gòu)造模式層中的本體及其相互關(guān)系,形成對應(yīng)的概念模型和規(guī)則關(guān)系,然后再依照此模式從數(shù)據(jù)中抽取實體,構(gòu)造數(shù)據(jù)層[30]。由此可見,自頂向下構(gòu)建方法是從抽象到具體,先有概念而后有具體實現(xiàn)的構(gòu)建過程。自頂向下構(gòu)建方法包括本體學(xué)習(xí)和實體學(xué)習(xí)2個步驟[28],如圖1所示。
圖1 電力系統(tǒng)知識圖譜自頂向下構(gòu)建方法Fig.1 Top-down construction method of the knowledge graph for power systems
2.1.1 本體學(xué)習(xí)
本體學(xué)習(xí)構(gòu)建知識圖譜的模式層,主要包括術(shù)語抽取、概念抽取、關(guān)系抽取以及規(guī)則學(xué)習(xí)4個步驟[28]。
a)術(shù)語抽取。術(shù)語是知識圖譜中的實體、概念在電力系統(tǒng)領(lǐng)域?qū)I(yè)化的固定表示形式。術(shù)語抽取的目標(biāo)是獲取用于表示電力系統(tǒng)中概念或本體的專業(yè)標(biāo)記集合。術(shù)語抽取的主要方法包括基于規(guī)則的方法、基于字典的方法和基于統(tǒng)計的方法等[30]。
b)概念抽取。在術(shù)語抽取的基礎(chǔ)上,進(jìn)一步對電力系統(tǒng)中的概念進(jìn)行抽取。概念是更加抽象、具有代表性和概括性的術(shù)語,能夠代表一定范疇內(nèi)部的全部實體。例如,“線路”這一概念可代表“架空線”“電纜”“混合線路”等多個術(shù)語本體。概念抽取的方法包括基于規(guī)則的方法、基于統(tǒng)計的方法以及兩者相結(jié)合的方法等[29]。
c)關(guān)系抽取。關(guān)系抽取用于構(gòu)建概念之間的關(guān)系。對于電力系統(tǒng)中的概念,通過識別數(shù)據(jù)源中概念間的語義關(guān)聯(lián)關(guān)系,從而將其關(guān)系抽取出來。關(guān)系抽取方法包括基于詞法模式的方法、基于百科的方法和基于共現(xiàn)分析的方法等[18]。
d)規(guī)則學(xué)習(xí)。規(guī)則學(xué)習(xí)是指在本體抽取過程中,對包含了實體、關(guān)系的通用句式或者模板進(jìn)行學(xué)習(xí)的過程。在模式層中提煉得到的規(guī)則,可用于數(shù)據(jù)層的實體抽取中。常用的規(guī)則學(xué)習(xí)方法是基于自舉的方法[30]。
2.1.2 實體學(xué)習(xí)
實體學(xué)習(xí)構(gòu)建電力系統(tǒng)知識圖譜的數(shù)據(jù)層,在本體學(xué)習(xí)的基礎(chǔ)上,抽取數(shù)據(jù)中的實體及關(guān)系信息。這些抽取的實體可以根據(jù)其所對應(yīng)的概念,按照模式層的關(guān)系層次組成實體間的結(jié)構(gòu)關(guān)系。實體學(xué)習(xí)的主要關(guān)鍵技術(shù)包括實體對齊和實體填充[30]。
a)實體對齊。實體對齊是指將同一實體的不同表達(dá)方式歸一化的知識融合過程,也稱共指消歧(coreference resolution)。在原數(shù)據(jù)中,同一個實體可能由于語言習(xí)慣、使用范圍和應(yīng)用領(lǐng)域的不同而存在不同的表示方式。例如,在實際使用中,“#1母線”可能具有“#1M”“1#母線”“1M”等多種不同的表示方式。實體對齊將這些表達(dá)方式合并,使用全局唯一的標(biāo)志表征此實體,從而達(dá)到有效精簡圖譜中實體數(shù)量、提高構(gòu)建和檢索效率的目的。實體對齊的方法包括基于概率的方法和基于機器學(xué)習(xí)的方法等[11]。
b)實體填充。實體填充為已獲得的實體增加描述,使得實體能夠更好地被人理解和區(qū)分。實體填充增加的描述數(shù)據(jù)包括實體屬性和實體同義名稱等[11]。例如,“#1母線”實體可填充的屬性包括“設(shè)備類型”“維護(hù)單位”“設(shè)備型號”“間隔數(shù)量”等。
自底向上方法先構(gòu)建電力系統(tǒng)知識圖譜的數(shù)據(jù)層,然后再構(gòu)建模式層[38,40]。在自底向上構(gòu)建中,首先從現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)或電力百科中提取實體、屬性和關(guān)系加入數(shù)據(jù)層,然后對這些知識要素進(jìn)行歸納,將其抽象為本體概念,并最終形成模式層。由此可見,自底向上構(gòu)建是從具體到抽象,先有具體實現(xiàn)而后歸納抽象為概念規(guī)則的構(gòu)建過程[24]。自底向上構(gòu)建方法包括信息抽取、知識融合和知識加工3個步驟[34,44],如圖2所示。
圖2 電力系統(tǒng)知識圖譜自底向上構(gòu)建方法Fig.2 Bottom-up construction method of the knowledge graph for power systems
2.2.1 信息抽取
信息抽取從數(shù)據(jù)中抽取實體、屬性與實體間的相互關(guān)系。信息抽取的關(guān)鍵步驟包括實體抽取、關(guān)系抽取和屬性抽取[45]。
a)實體抽取。實體抽取從數(shù)據(jù)中抽取實體,實體抽取質(zhì)量對知識圖譜的構(gòu)建效率和質(zhì)量影響很大,是信息抽取的基礎(chǔ)和關(guān)鍵步驟。實體抽取的方法包括基于字典的方法、基于規(guī)則的方法、基于統(tǒng)計的方法和基于機器學(xué)習(xí)的方法等[29]。
b)關(guān)系抽取。關(guān)系抽取從語料數(shù)據(jù)中抽取實體之間的關(guān)聯(lián)關(guān)系,將離散的實體關(guān)聯(lián)起來形成網(wǎng)狀的知識結(jié)構(gòu)。常用的關(guān)系抽取方法包括基于規(guī)則的方法和基于學(xué)習(xí)的方法[46],其中后者又分為有監(jiān)督、半監(jiān)督和無監(jiān)督學(xué)習(xí)。
c)屬性抽取。屬性抽取從數(shù)據(jù)中抽取實體的屬性信息,對實體進(jìn)行完整描述。由于實體的屬性可視為實體與屬性值之間的描述關(guān)系,所以可將屬性抽取問題視為關(guān)系抽取問題。從數(shù)據(jù)來源上區(qū)分,屬性抽取方法包括源于百科的方法和源于其他數(shù)據(jù)的方法[44]。
2.2.2 知識融合
由于數(shù)據(jù)來源和質(zhì)量的不同,信息抽取得到的數(shù)據(jù)層中可能存在大量的冗余和錯誤,因此需要通過知識融合對這些抽取得到的數(shù)據(jù)進(jìn)行梳理和規(guī)范化整合。知識融合的關(guān)鍵步驟包括實體對齊和實體消歧[46]。
a)實體對齊。實體對齊與自頂向下構(gòu)建中的實體對齊類似,主要解決同一實體采用不同表達(dá)方式的問題,將同一實體的不同表達(dá)方式歸一化表示。這兩者的不同在于,自頂向下構(gòu)建中的實體對齊主要針對數(shù)據(jù)源數(shù)據(jù),而知識融合中的實體對齊針對數(shù)據(jù)層中已經(jīng)抽取得到的實體數(shù)據(jù)。例如,如果已經(jīng)抽取得到“#1母線”“#1M”“1#母線”“1M”等多個實體,那么實體對齊過程會將這些實體合并為一個實體,用標(biāo)準(zhǔn)的“#1母線”對其進(jìn)行命名,并對這些實體的屬性、與其他實體的關(guān)聯(lián)關(guān)系等進(jìn)行合并。
b)實體消歧。實體消歧主要解決不同實體采用相同名稱的問題,從而建立準(zhǔn)確的實體鏈接。在電力系統(tǒng)的實際語言環(huán)境中,經(jīng)常存在某個名稱對應(yīng)多個具體實體的問題。例如,“#1母線”可以用于代表不同變電站內(nèi)的母線,也可以表示同一個變電站中不同電壓等級的母線。通過實體消歧,可以根據(jù)實體的不同屬性和關(guān)聯(lián)關(guān)系,區(qū)分這些不同實體。實體消歧的主要方法是聚類法[46]。
2.2.3 知識加工
知識加工是對已構(gòu)建好的實體網(wǎng)絡(luò)進(jìn)行抽象,將實體抽象為本體,由數(shù)據(jù)層構(gòu)建模式層的過程。知識加工的關(guān)鍵步驟包括本體構(gòu)建、知識推理和質(zhì)量評估[33]。
a)本體構(gòu)建。本體構(gòu)建將實體進(jìn)行抽象,進(jìn)而構(gòu)建本體。本體構(gòu)建既可以采用人工構(gòu)建,也可采用數(shù)據(jù)驅(qū)動構(gòu)建。其中,數(shù)據(jù)驅(qū)動構(gòu)建包含3個關(guān)鍵步驟:實體并列關(guān)系相似度計算、實體上下位關(guān)系抽取以及本體生成[46]。
b)知識推理。知識推理從模式層中已有的本體關(guān)系出發(fā),經(jīng)過推理建立新的關(guān)系。知識的推理方法包括基于邏輯的推理和基于圖的推理[33]。知識推理可以拓展和豐富圖譜中存儲的知識,從現(xiàn)有知識中發(fā)掘新的知識,是電力系統(tǒng)知識圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)。例如,知識圖譜可以從電力系統(tǒng)連鎖事故實例的發(fā)展過程中識別系統(tǒng)的薄弱環(huán)節(jié),從而采取相應(yīng)的預(yù)防措施提升系統(tǒng)安全性。知識推理是知識圖譜的知識發(fā)現(xiàn)功能的核心環(huán)節(jié),其具有廣闊的應(yīng)用范圍。從層次上,知識推理不僅可用于模式層,也可應(yīng)用于數(shù)據(jù)層;從內(nèi)容上,知識推理不僅可用于關(guān)系推理,也可用于屬性推理;從階段上,知識推理不僅可用于知識圖譜構(gòu)建,也可用于知識圖譜更新和學(xué)習(xí)。
c)質(zhì)量評估。通過本體構(gòu)建和知識推理得到的模式層中可能存在錯誤,如本體識別錯誤、關(guān)系推理錯誤或者邏輯錯誤等。質(zhì)量評估通過量化知識的可信度,舍棄可信度較低的知識,提高模式層的質(zhì)量。質(zhì)量評估的方法包括基于隨機抽取的方法、基于深度學(xué)習(xí)的方法和采用專家人工評定的方法等[33]。
電力系統(tǒng)中的知識在不斷增加和更新,知識圖譜在建成后還需要動態(tài)構(gòu)建和迭代更新,不斷增加新的知識、刪除舊的知識并相應(yīng)調(diào)整知識圖譜的結(jié)構(gòu)。知識圖譜的更新包括數(shù)據(jù)層的更新和模式層的更新[20]。相對而言,數(shù)據(jù)層更新對知識圖譜的整體架構(gòu)影響較小,而模式層更新的影響較大;因此,知識圖譜的數(shù)據(jù)層往往可以采取自動化的更新方式,而模式層更新則往往需要人工確認(rèn)和審核。
從更新方式上分,電力系統(tǒng)知識圖譜的更新可以分為增量更新和全量更新[47]。增量更新是以新增數(shù)據(jù)作為輸入對知識圖譜進(jìn)行更新,其資源消耗較??;全量更新是以更新后的全量數(shù)據(jù)作為輸入,從零開始重新構(gòu)建知識圖譜,其資源消耗較大。
知識圖譜技術(shù)已經(jīng)在互聯(lián)網(wǎng)、金融、醫(yī)療等專業(yè)領(lǐng)域具有較為成熟的應(yīng)用,本文結(jié)合電力系統(tǒng)知識圖譜的特點,介紹其在電力系統(tǒng)中的典型應(yīng)用。
電力系統(tǒng)的正常運行依賴于各個業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)傳遞和相互配合,而這些業(yè)務(wù)系統(tǒng)是先后在不同年代、不同平臺上建設(shè)的,它們所使用的數(shù)據(jù)庫、操作平臺和具體的數(shù)據(jù)結(jié)構(gòu)均可能不同,由此導(dǎo)致自動化系統(tǒng)中大量異構(gòu)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn),例如不同格式的電網(wǎng)拓?fù)浜瓦\行數(shù)據(jù)、電力設(shè)備信息、地理環(huán)境數(shù)據(jù)、氣象數(shù)據(jù)、音頻視頻和大量不同格式的文本數(shù)據(jù)等。為了實現(xiàn)這些異構(gòu)數(shù)據(jù)之間的溝通交互和信息集成,電力系統(tǒng)需要在不同平臺間加入大量的數(shù)據(jù)轉(zhuǎn)換接口和中間環(huán)節(jié)。這些數(shù)據(jù)平臺各自相對獨立,數(shù)據(jù)之間缺乏聯(lián)系,難以實現(xiàn)快速、跨平臺的數(shù)據(jù)檢索和集成管理。異構(gòu)數(shù)據(jù)管理和集成成為制約電網(wǎng)自動化水平提高的瓶頸[48-51]。
電力系統(tǒng)知識圖譜繼承了本體和語義網(wǎng)技術(shù)在異構(gòu)數(shù)據(jù)集成和管理方面的優(yōu)勢[25]。在知識圖譜中,實體可以由不同結(jié)構(gòu)的數(shù)據(jù)構(gòu)成,這些實體通過關(guān)系相互連接形成網(wǎng)狀結(jié)構(gòu)。利用電力系統(tǒng)知識圖譜,可以有效組織、存儲和查詢電力系統(tǒng)中的異構(gòu)數(shù)據(jù),構(gòu)建可被各業(yè)務(wù)系統(tǒng)共享的電網(wǎng)運行知識庫[41,52-54]。電力系統(tǒng)知識圖譜在異構(gòu)數(shù)據(jù)管理方面的典型業(yè)務(wù)場景,包括在能源互聯(lián)網(wǎng)中的能源數(shù)據(jù)管理[24]和包含眾多設(shè)備異構(gòu)化信息的電力設(shè)備信息管理[55],進(jìn)而建立電力系統(tǒng)中全業(yè)務(wù)貫通的統(tǒng)一數(shù)據(jù)中心[14]。數(shù)據(jù)中心將收集到的、分散在各個專業(yè)數(shù)據(jù)庫中的異構(gòu)數(shù)據(jù)整理起來,實現(xiàn)跨專業(yè)的統(tǒng)一知識管理、數(shù)據(jù)關(guān)聯(lián)推理和數(shù)據(jù)檢索服務(wù)。統(tǒng)一數(shù)據(jù)中心可以實現(xiàn)電力系統(tǒng)中數(shù)據(jù)的“一處錄入、全網(wǎng)使用”,保障數(shù)據(jù)的真實性、完整性和一致性,減少跨專業(yè)數(shù)據(jù)檢索和溝通所需的人力資源成本。
隨著電力系統(tǒng)中知識總量的不斷增長,對知識的智能搜索和深度問答需求也在逐漸增加。例如,社會公眾需要查詢電力能源相關(guān)政策、電力系統(tǒng)基礎(chǔ)科普知識和安全用電常識等,電力市場主體需要查詢電力市場規(guī)定需要披露的公開信息和相關(guān)的發(fā)文通知,電網(wǎng)公司的員工需要查詢公司內(nèi)部的規(guī)程規(guī)章、公司內(nèi)部的辦事業(yè)務(wù)流程和所需材料等。傳統(tǒng)的搜索引擎僅能夠?qū)崿F(xiàn)簡單的關(guān)鍵字匹配和檢索,缺乏靈活、智能和個性化的知識檢索方式,因此部分場合仍采取人工咨詢的方式,占用了較多的人力資源和溝通成本[21]。
電力系統(tǒng)知識圖譜可以實現(xiàn)智能化的搜索和深度問答,采用知識圖譜技術(shù)的智能化人工助手能夠像人一樣與客戶聊天,也被稱為“聊天機器人”。當(dāng)用戶發(fā)起檢索時,搜索引擎可以借助知識圖譜對用戶查詢的關(guān)鍵字進(jìn)行解析和推理,將其映射到具體概念或?qū)嶓w上,然后根據(jù)圖譜中的關(guān)聯(lián)關(guān)系,向用戶返回高質(zhì)量的搜索結(jié)果[46]。通過電力系統(tǒng)知識圖譜,智能語義搜索不僅可以通過上下文理解用戶所查詢的具體內(nèi)容,避免相同名稱引起的歧義,還可以提供與搜索結(jié)果相關(guān)的結(jié)構(gòu)化背景和相關(guān)知識,使得搜索結(jié)果更為準(zhǔn)確和豐富。電力系統(tǒng)知識圖譜技術(shù)在智能搜索與深度問答方面的典型場景包括電網(wǎng)模型本體智能問答系統(tǒng)[19,56]、調(diào)度自動化系統(tǒng)業(yè)務(wù)與流程檢索[51]和電力設(shè)備質(zhì)量綜合管理查詢系統(tǒng)[57]等。電力系統(tǒng)知識圖譜使得人機交互不僅可以使用傳統(tǒng)的搜索方式,還可以采用正常對話的形式。當(dāng)用戶提出問題后,人工智能會對問題進(jìn)行語義分析并將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并在檢索到答案后以自然語言的方式解答用戶的問題或者執(zhí)行用戶指令[41,46]。例如當(dāng)用戶以“八月份電費多少”這樣的問題來查詢電費時,電力系統(tǒng)知識圖譜不僅能夠準(zhǔn)確識別問題并回答,還可以給出按天和按時段的用電量統(tǒng)計分布,進(jìn)而針對性地給出節(jié)約用電的建議,如“中午時段將空調(diào)調(diào)高一度,一個月可以節(jié)約3%的電費”。據(jù)統(tǒng)計,1個省級電網(wǎng)客戶服務(wù)熱線受理的工單數(shù)年均數(shù)量可達(dá)400萬條[20],且涉及業(yè)務(wù)咨詢、故障報修、投訴申訴等多種供電服務(wù)類型。使用電力系統(tǒng)知識圖譜可以大幅提高電力公司受理用戶服務(wù)的效率、縮減用戶等待時間、提升用戶體驗,使電網(wǎng)企業(yè)更好地為用戶服務(wù)。
電力系統(tǒng)的調(diào)度決策實質(zhì)上是對多維數(shù)據(jù)的處理和推理過程,這些需要處理的數(shù)據(jù)既包含當(dāng)前電網(wǎng)的實際狀態(tài)和事故的具體信息,也包含調(diào)度規(guī)范規(guī)程、故障處置預(yù)案、已有事故的處理過程和經(jīng)驗等。調(diào)度決策就是調(diào)度員根據(jù)這些多維數(shù)據(jù),結(jié)合自己的工作經(jīng)驗和專業(yè)知識,推理事故發(fā)生的原因和處置方法,制訂調(diào)度決策隔離故障,減少停電損失,并使電力系統(tǒng)恢復(fù)到正常運行狀態(tài)的過程?,F(xiàn)有的調(diào)度自動化系統(tǒng)無法理解這些多維信息所代表的深層次含義,也無法利用這些信息實現(xiàn)事故處置的推理和決策;因此,當(dāng)前的電網(wǎng)調(diào)度仍然依賴于調(diào)度員的人工決策,而調(diào)度員在處理海量信息時受限于人的反應(yīng)速度和思考能力,難以在海量故障信息中及時準(zhǔn)確地識別故障并作出決策。此外,調(diào)度專家的經(jīng)驗也難以傳承和積累[18]。
電力系統(tǒng)知識圖譜可以實現(xiàn)電力系統(tǒng)的調(diào)度輔助決策。目前,電力系統(tǒng)知識圖譜在輔助決策方面的典型場景包括電網(wǎng)調(diào)度控制決策[18,58-59]和電力通信網(wǎng)智慧大腦[60]等。圖譜對事故處理所需的多維數(shù)據(jù)進(jìn)行抽取、表達(dá)、學(xué)習(xí)、組織和存儲,當(dāng)事故發(fā)生后根據(jù)事故特征對知識圖譜進(jìn)行檢索和推理,提供相關(guān)知識和決策方案為調(diào)度員提供輔助參考。對于事故處理中的部分非關(guān)鍵環(huán)節(jié),如故障初報、保護(hù)信息匯總、日志記錄、信息通報,都可以由知識圖譜直接調(diào)用相關(guān)模塊完成,從而減少事故處理期間對調(diào)度員的干擾,使調(diào)度員能夠?qū)⒕杏谑鹿侍幚碇小VR圖譜基于邏輯符號表達(dá)的推理過程對人是可解釋的,理解決策過程可以增加人對決策結(jié)果的信賴度,進(jìn)而增加輔助決策的實用性。根據(jù)每次的決策實踐效果,知識圖譜可以不斷更新完善,從而為決策提供全方位、多層次、動態(tài)化的支持。
在理論算法層面,目前知識圖譜技術(shù)的研究熱點為如何改進(jìn)知識圖譜的建模方式和檢索算法,實現(xiàn)更加快速、智能、高效的圖譜構(gòu)建、知識檢索和推理應(yīng)用。典型的研究包括:文獻(xiàn)[61]提出了基于共享嵌入方案的多語言實體對齊技術(shù),通過嵌入學(xué)習(xí)過程和自學(xué)習(xí)對齊過程,利用文本語料庫附帶的監(jiān)督信號來改善實體對齊效果;文獻(xiàn)[62]探索了知識圖譜的多層次擴(kuò)展,將層次化和網(wǎng)絡(luò)可視化結(jié)合,構(gòu)建了統(tǒng)一數(shù)據(jù)表示的層次知識圖譜模型;文獻(xiàn)[63]提出了以貝葉斯網(wǎng)絡(luò)為知識表示和推理框架的知識圖譜知識檢索技術(shù),將知識圖譜中描述的領(lǐng)域知識與用戶行為記錄中蘊含的知識進(jìn)行有效融合;文獻(xiàn)[64]用神經(jīng)模型對知識圖譜中的三元組進(jìn)行建模,從而可以根據(jù)學(xué)習(xí)過程構(gòu)建關(guān)系模型,并能夠準(zhǔn)確預(yù)測三元組的正確性;文獻(xiàn)[65]提出了基于辯論動力學(xué)的知識圖自動推理新方法,從而創(chuàng)建了能夠保持競爭性預(yù)測準(zhǔn)確性的可解釋方法。
由于知識圖譜在電力系統(tǒng)領(lǐng)域的研究尚處于起步階段,已有研究更多地聚焦于探討知識圖譜在電力系統(tǒng)中具體的應(yīng)用場景,以及在這些場景中如何構(gòu)建相應(yīng)的電力系統(tǒng)知識圖譜。當(dāng)前知識圖譜在電力系統(tǒng)領(lǐng)域的應(yīng)用場景還比較有限,大多是原有智能系統(tǒng)應(yīng)用場景的直接擴(kuò)展,如電網(wǎng)運行知識庫、信息管理系統(tǒng)、電力系統(tǒng)輔助決策等,將知識圖譜應(yīng)用于這些場景是原有應(yīng)用場景的擴(kuò)展和深化。然而,知識圖譜作為優(yōu)質(zhì)的知識組織、存儲、獲取和查詢方法,在電力系統(tǒng)領(lǐng)域具有更為廣闊的應(yīng)用前景和潛力。為了擴(kuò)展知識圖譜技術(shù)在電力系統(tǒng)中的應(yīng)用場景,可能存在以下關(guān)鍵問題和研究方向。
目前,電力系統(tǒng)中的知識大多分散存儲于各個不同的數(shù)據(jù)庫中,而且存在專業(yè)性強、異構(gòu)性高、關(guān)聯(lián)性大等特性,因此相比通用領(lǐng)域,電力系統(tǒng)知識圖譜的構(gòu)建中存在以下難題[58]:
a)電力系統(tǒng)知識圖譜構(gòu)建所能夠獲得的數(shù)據(jù)源較少,沒有成熟的開放語料庫可供訓(xùn)練和學(xué)習(xí),缺乏足量可復(fù)用的知識源。而在通用領(lǐng)域,數(shù)據(jù)來源較多,而且已有較為成熟的開放語料庫。
b)電力系統(tǒng)知識圖譜可供學(xué)習(xí)的數(shù)據(jù)一般比較零散、非結(jié)構(gòu)化、質(zhì)量不一,在知識圖譜構(gòu)建過程中本體、實體等知識的抽取難度較大,難以制訂統(tǒng)一化的抽取規(guī)則。在開放通用領(lǐng)域,出現(xiàn)次數(shù)多的實體一般是用戶更為關(guān)注、也即更為關(guān)鍵的實體。然而在電力系統(tǒng)的語料數(shù)據(jù)中,很多關(guān)鍵概念的出現(xiàn)次數(shù)并不一定很多。如果采用通用的知識抽取方法,這些概念就有可能在抽取中被棄置。
c)電力系統(tǒng)知識圖譜構(gòu)建時需要分別對各專業(yè)的業(yè)務(wù)需求和經(jīng)驗進(jìn)行梳理和分類,不同專業(yè)間的業(yè)務(wù)壁壘可能導(dǎo)致知識圖譜構(gòu)建方法適用范圍的局限性。
因此,電力系統(tǒng)知識圖譜無法直接采用與通用領(lǐng)域相同的構(gòu)建方法,必須針對性地對其構(gòu)建方法展開研究,并在應(yīng)用于不同專業(yè)時對其進(jìn)行差異化調(diào)整。后續(xù)研究需在理解電力系統(tǒng)知識特性的基礎(chǔ)上,挖掘不同專業(yè)中知識表達(dá)的固定模式,研發(fā)適用于電力系統(tǒng)的自動化知識抽取方法,從而提升知識圖譜構(gòu)建的規(guī)模和精確性。此外,電力系統(tǒng)中存在一些比較晦澀難懂的專業(yè)術(shù)語和表達(dá)方式,這些術(shù)語和方式難以簡單從字面意義上理解,也難以完全通過機器學(xué)習(xí)過程準(zhǔn)確納入知識圖譜。因此電力系統(tǒng)知識圖譜的構(gòu)建必須有專家參與,由專家對原始數(shù)據(jù)進(jìn)行標(biāo)注,使數(shù)據(jù)包含一定的語義信息用于機器理解和學(xué)習(xí)。如何篩選需要專家標(biāo)注的數(shù)據(jù)、如何使得機器讀懂專家標(biāo)注的語料信息、如何在保證準(zhǔn)確性的前提下盡量減少構(gòu)建過程中所需的專家工作量,都是電力系統(tǒng)知識圖譜構(gòu)建中需要研究的關(guān)鍵技術(shù)和難題。
知識推理是電力系統(tǒng)知識圖譜知識發(fā)現(xiàn)的主要方式。通過電力系統(tǒng)知識圖譜的知識推理,有助于知識圖譜挖掘出現(xiàn)有數(shù)據(jù)中沒有明確表達(dá)的隱含關(guān)聯(lián)關(guān)系,從而使知識圖譜更好地理解人的思路。這些關(guān)聯(lián)關(guān)系可能在技術(shù)人員日常交流時作為無需特意指出的常識或者默認(rèn)前提,從而使得知識圖譜更好地滿足電力系統(tǒng)中知識管理、檢索和決策的需求。同時,知識推理也有助于知識圖譜挖掘出新的知識關(guān)聯(lián)關(guān)系,從而豐富電力系統(tǒng)中的知識,并反過來促進(jìn)人的思考和提升對電力系統(tǒng)的理解。
在現(xiàn)有電力系統(tǒng)知識圖譜的研究中,尚未提出有效的知識推理方法。為了實現(xiàn)電力系統(tǒng)知識圖譜的知識推理,一方面要研究符號化的自動知識推理方式,結(jié)合已有的基于圖和基于邏輯的推理方法,分別設(shè)計模式層和數(shù)據(jù)層的推理方法,并給出新知識在2個層次間相互印證和啟發(fā)的機制。另外一方面,需要制訂知識推理的評判指標(biāo)和驗證流程,通過指標(biāo)對推理出的知識進(jìn)行評判和篩選,綜合利用邏輯判斷、仿真分析、實例驗證等方法,剔除不合理的知識、保留更為合理的知識,并最后提交專家進(jìn)行鑒別和篩選。
當(dāng)前電力系統(tǒng)處于史無前例的發(fā)展變革中,新廠站、新線路、新設(shè)備不斷接入,增量配電網(wǎng)業(yè)務(wù)逐漸推進(jìn),市場化改革使得電網(wǎng)運營方式和調(diào)度模式不斷變化,電力系統(tǒng)中的知識也在經(jīng)歷不斷增加和更新?lián)Q代,因而電力知識圖譜也需要不斷地學(xué)習(xí)和更新。
現(xiàn)有研究中,電力知識圖譜的更新技術(shù)對人工干預(yù)的依賴性較大,導(dǎo)致知識圖譜更新的工作量很大??梢灶A(yù)見,隨著知識不斷積累,依靠人工制訂規(guī)則和逐條檢視等圖譜更新模式所需的人力資源將大幅增加,而且其更新頻率也將無法滿足電力系統(tǒng)的實際需要。特別是將知識圖譜應(yīng)用于電力調(diào)度輔助決策中時,由于電力系統(tǒng)狀態(tài)隨著負(fù)荷分布、發(fā)電出力、系統(tǒng)拓?fù)涞任锢砹康淖兓鴮崟r變化,電力系統(tǒng)的控制原則和事故處置過程也可能隨時變化,電力系統(tǒng)知識圖譜的更新頻率也必須與之匹配,才能夠在事故發(fā)生時給出與系統(tǒng)實際相符的實用決策建議。研究電力系統(tǒng)知識圖譜的自動化增量更新方法,制訂指標(biāo)對其更新質(zhì)量進(jìn)行評估,并在更新質(zhì)量過低時及時舍棄更新或?qū)で笕斯じ深A(yù),進(jìn)而通過反復(fù)迭代提高自動化更新質(zhì)量,減少更新過程對人工干預(yù)的依賴,同樣是電力系統(tǒng)知識圖譜的重要研究方向之一。
在當(dāng)今的大數(shù)據(jù)時代,各行業(yè)知識都面臨爆炸式增長,知識的表達(dá)和組織方式成為了各專業(yè)領(lǐng)域的研究熱點。知識圖譜是以圖的形式存儲實體及實體間關(guān)系的知識庫,可以實現(xiàn)有效的知識組織、管理和利用。為了將知識圖譜技術(shù)應(yīng)用于電力系統(tǒng),本文介紹了電力系統(tǒng)知識圖譜的概念、構(gòu)建方法及其應(yīng)用場景。
目前知識圖譜技術(shù)在電力系統(tǒng)中的應(yīng)用研究尚處于初步階段,針對現(xiàn)有研究的不足,本文提出了知識圖譜在電力系統(tǒng)中應(yīng)用的關(guān)鍵問題和可能的研究方向,以期為后續(xù)研究提供參考。