潘道成鄧衛(wèi)民蔣祝巍何榮超于小晴
(國網黑龍江省電力有限公司鶴崗供電公司,黑龍江 鶴崗 154100)
隨著能源互聯(lián)網建設的不斷推進,電力系統(tǒng)的規(guī)模也不斷擴大[1]。電力系統(tǒng)作為我國經濟發(fā)展的基礎支撐系統(tǒng)在日常生產過程會存在安全生產隱患,需要及時進行處理以減少安全事故的發(fā)生[2]。
由于電力工作人員以自然語言的形式進行安全隱患記錄,記錄存在不規(guī)范、隱患內容不清楚等問題[3-4]。有文獻通過人工經驗確定語義框架填充對文本進行表示,但語義框架的二維表形式缺乏靈活性,難以適應復雜的電力設備隱患情況,且框架的定義依賴于人工經驗,難以全面考慮隱患記錄多樣化的表達方式[5]。為避免人工經驗的局限,文獻[6]采用機器學習算法,借助計算機自動挖掘隱患記錄中詞級別的規(guī)律,從而基于詞的統(tǒng)計特征對文本進行表示。然而,機器學習方法所選取的特征局限于關鍵詞的出現(xiàn)與否或出現(xiàn)頻率,這些統(tǒng)計特征雖有一定的規(guī)律性,但對句中關鍵詞的內在邏輯缺乏充分考慮,可解釋性不足,容易局限于隱患記錄的字面特征[7-8]。
因此,本文將電力安全隱患記錄進行分析和處理,獲得安全隱患的實體及其內在關系,并在此基礎上構建電力安全隱患知識圖譜。利用構建的電力安全隱患知識圖譜對隱患進行可視化分析,并對潛在的電力安全隱患進行預測。
電網安全隱患記錄表是一種特殊的非結構化文檔,形式上具有半結構化文檔的特征,但數(shù)據(jù)流實際上是非結構化的[910]。使用統(tǒng)一的JSON(Java Script Object Notation)生成器,通過配置抽取模版將隱患信息抽取出來,生成JSON 文件,并在此基礎上構建相對應的數(shù)據(jù)本體。根據(jù)本體定義的數(shù)據(jù)屬性和特征將隱患數(shù)據(jù)進行分類。
高效的數(shù)據(jù)存儲與讀取是實現(xiàn)知識圖譜構建的基礎,作為一個實時分布式搜索和分析引擎,可以提供隱患記錄的高效搜索及分析,提高電網智能化水平[11-12]。
ES隱藏了Lucene 的復雜性,采用了特殊的倒排索引數(shù)據(jù)結構。由電網隱患語料中所有不重復的詞語組成,建立隱患詞語與包含它的隱患語料列表的映射,文檔列表的每條記錄包括隱患文檔ID、隱患出現(xiàn)的頻率、出現(xiàn)的位置等。ES是由多個索引組成的,而每個索引由多個索引分片組成。每個索引分片數(shù)據(jù)只有1份,獨立進行數(shù)據(jù)存儲,ES搜索引擎結構如圖1所示。
圖1 ES搜索引擎結構
(1)隱患數(shù)據(jù)存儲:ES使用Lucene來處理分片級別的索引和查詢,因此隱患數(shù)據(jù)目錄中的文件由ES和Lucene寫入。新增的隱患數(shù)據(jù)會被存放在內存的緩存中,并生成日志。當隱患數(shù)據(jù)足夠多或者到達一定時間點時,就會在緩存中生成一個新的分片,并寫入磁盤生成一個新的提交點,記錄當前所有可用的分片等待所有數(shù)據(jù)都已寫入磁盤。打開新增的分片,可對新增的文檔進行搜索。清空緩存,準備接收新的隱患數(shù)據(jù)。
(2)隱患數(shù)據(jù)檢索:在進行隱患檢索時,節(jié)點將請求轉發(fā)到一組包含所有隱患數(shù)據(jù)的分片。ES使用輪訓機制選擇可用的分片(主分片或副本分片),并將搜索請求轉發(fā)過去。ES 從這些分片收集結果,將其聚集到單一的回復,然后將回復返回給客戶端應用程序,檢索流程如圖2所示。
圖2 ES搜索引擎檢索流程
使用NLPIR(Natural Language Processing-Information Retrieval)中文分詞系統(tǒng)對電力安全隱患數(shù)據(jù)進行處理。NLPIR系統(tǒng)可以實現(xiàn)中文分詞、詞性標注、關鍵詞提取、情感分析等功能,并支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言與平臺。
第1步,將電網隱患語料輸入NLPIR 中文分詞系統(tǒng)分析平臺,完成隱患語料的自動切分。
第2步,使用“用戶自定義詞”功能進行調整。由于電力系統(tǒng)存在大量的專業(yè)術語,系統(tǒng)不能自動識別。如“中性點接地裝置”,系統(tǒng)自動切分成2個詞,需要進行人工修正。
第3步,根據(jù)調整后的分詞標注以空格分隔相鄰的2個詞。
將實體、屬性及關系數(shù)據(jù)整合為三元組,形成圖結構的電網隱患知識圖譜。知識圖譜構建流程如圖3所示。
圖3 知識圖譜構建流程
知識儲存是將電力生產安全隱患文本中產生的數(shù)據(jù)進行保存。由于電力生產安全隱患需要長期保存,且電力生產安全隱患數(shù)量龐大,需要高性能的數(shù)據(jù)庫進行儲存管理。利用Neo4j圖數(shù)據(jù)庫技術對電力生產安全隱患進行存儲,Neo4j具有成熟數(shù)據(jù)庫的原子性、一致性、隔離性、持久性等所有特性,利用圖結構可以更加高效的存儲數(shù)據(jù),通過Neo4j的Web可視化界面,提供查詢和展示功能。
電網安全隱患知識圖譜包含了安全隱患實體和實體間的復雜關系。隨著電力建設的不斷推進,越來越多電力設備和智能終端的加入,使得知識圖譜需要進行更新和補充,從而保障知識的覆蓋范圍和動態(tài)分析的準確性。知識圖譜的可視化功能可以更直觀地展示安全隱患之間的內在關聯(lián),方便快速獲取安全隱患信息和處理方法。
由于電網安全隱患記錄含有大量電力領域專業(yè)詞匯,在知識圖譜構建一般過程的基礎上進行以下修改。
(1)分詞。由于電力領域詞匯具有專業(yè)性強、詞匯組合方式多樣的特點,傳統(tǒng)分詞方法難以準確進行詞匯切割。因此,通過構建電力領域專業(yè)詞典進行輔助分詞。利用專業(yè)詞典進行隱患實體和屬性的匹配,若匹配成功則確定該實體與屬性。由于電力領域對實體定義明確,因此可以省略實體消歧步驟。
(2)關系抽取。通過依存句法分析隱患實體和屬性各成分間的“主謂賓”、“定狀補”等依存關系來識別各隱患實體/屬性間是否存在關系及相應關系類型。電力生產安全隱患知識圖譜可以結合實體/屬性的詞性對關系進行限定。
(3)知識圖譜構建。Neo4j圖數(shù)據(jù)庫作為常用的5種數(shù)據(jù)庫之一,具有高性能、輕量級的特點。利用Neo4j圖數(shù)據(jù)庫對電網安全隱患三元組進行可視化表示,構建電網安全隱患知識圖譜。
考慮到電網隱患知識圖譜可視化技術的實現(xiàn),搭建基于知識圖譜的電網安全隱患動態(tài)分析系統(tǒng),前后端分離B/S(Browser/Server)架構進行開發(fā)和維護,業(yè)務處理主要在服務器端實現(xiàn),盡可能使系統(tǒng)各層保持較低的耦合度,減輕了系統(tǒng)開發(fā)成本。系統(tǒng)架構分為三層:表示層、業(yè)務層、數(shù)據(jù)層,系統(tǒng)的架構設計如圖4所示。
圖4 系統(tǒng)架構
采用圖結構組織知識的電網隱患知識圖譜非常適合用Neo4j進行存儲。基于知識圖譜的電網安全隱患動態(tài)分析系統(tǒng),采用B/S模式架構,完成對Neo4j的訪問,將數(shù)據(jù)返回客戶端并接受客戶端的請求,實現(xiàn)顯示Neo4j數(shù)據(jù)庫的數(shù)據(jù)到Web端,并采用Echarts 實現(xiàn)數(shù)據(jù)的圖表可視化。D3.js是一個用js編寫的開源圖庫,他允許用戶與圖形交互,用可視化的方式在Web端展示知識圖譜的網絡關系,可以形象化的展示結果,有助于直觀揭示對象之間的關系,展示多方面的屬性,理解節(jié)點之間的連接和關系,確保對關系的理解更直觀和形象,診斷技術實現(xiàn)框架如圖5所示。
圖5 診斷技術實現(xiàn)框架
根據(jù)以上流程,首先對電力安全隱患信息進行分詞處理,獲得隱患信息字段,如:“35 kV”、“長青線”、“雨天”。利用這些隱患信息字段自動生成35 kV 長清線安全隱患知識圖譜,并在此基礎上實現(xiàn)隱患原因、隱患處理方法、相關規(guī)程等信息的檢索,實現(xiàn)過程如圖6所示。
圖6 隱患信息檢索和分析過程
在Centos上,使用Docker部署Django后臺、LTP、ElasticSearch、Vue前端等請求并配置相關參數(shù),聯(lián)調使用。本文以吉林某地區(qū)電網安全隱患數(shù)據(jù)作為數(shù)據(jù)集驗證診斷技術的有效性。數(shù)據(jù)集包含隱患1 355件,其中輸電專業(yè)272件、變電專業(yè)101件、保護及自動化專業(yè)98件、配電專業(yè)858件,電網專業(yè)14件,信通專業(yè)12件(其中重大隱患2件,占比0.17)。以變電專業(yè)為例進行分析,該專業(yè)知識圖譜如圖7所示。
圖7 變電專業(yè)知識圖譜
根據(jù)生成的電網隱患知識圖譜,可以分析得到隱患原因主要有:(1)設備長期運行,易受到環(huán)境因素的影響,存在安全隱患;(2)設備處置不合理,導致存在安全隱患,如組合電器密度繼電器未加裝防雨罩、主變壓器二次母線未進行絕緣化處理等違反反事故措施項目的隱患;(3)設備設計不合理,存在家族型缺陷或頻繁發(fā)生同一類型故障為同一廠家的設備。
根據(jù)以上分析結果可以針對性的預測易發(fā)生隱患位置,部分圖譜見圖8—10。
圖8 互感器部分知識圖譜
(1)運行5 a及以上的互感器設備及電磁型電壓互感器易發(fā)生異常引起故障停運。
(2)變壓器瓦斯繼電器、壓力釋放閥防雨措施不完善等反事故措施未落實,易造成保護誤動。
圖9 瓦斯繼電器、壓力釋放閥部分知識圖譜
(3)部分設備引流線線夾、壓接管松動問題逐步顯現(xiàn),易造成引流線脫落而引發(fā)事故。
圖10 引流線線夾、壓接管部分知識圖譜
對知識圖譜生成的結果進行分析,得到隱患的預控和防治方法,可根據(jù)知識圖譜提出針對性的建議。對運行15 a及以上的互感器設備進行性能抽樣檢測。對同一廠家、同一型號的互感器應至少抽1臺進行性能檢測。核查變電設備外絕緣配置情況,對爬距不滿足標準要求或污穢嚴重地區(qū)的設備,采用調整爬距,噴涂防污閃涂料、加裝硅橡膠輔助傘裙等措施,提高防污閃水平,防止設備發(fā)生污閃、雨閃事故。結合變壓器停電檢修,全面進行繞組測試,準確掌握變壓器運行狀態(tài)。冬春交替季節(jié),加強設備基礎情況巡視。
通過深入分析電網智能化建設過程中隱患數(shù)據(jù)利用率低與隱患預防困難的問題,設計了一種充分利用歷史隱患數(shù)據(jù)的電網安全隱患分析系統(tǒng),提出了基于知識圖譜的電網安全隱患動態(tài)分析,并通過實例證明了知識圖譜在隱患分析上的優(yōu)勢。其中的非結構化隱患抽取模板,有效實現(xiàn)了隱患數(shù)據(jù)的處理;基于ES搜索引擎,為電網隱患知識圖譜的構建提供數(shù)據(jù)支撐;NLPIR 中文分詞系統(tǒng)可根據(jù)電力系統(tǒng)的詞匯特點實現(xiàn)了高精度的隱患分詞和詞性標注,進一步為電網知識圖譜的構建奠定了基礎?;谥R圖譜的電網安全隱患分析充分利用了知識圖譜技術的高效儲存和可視化的功能,有效提高隱患數(shù)據(jù)的利用效率,能有效發(fā)現(xiàn)潛在的電力安全隱患,保障了電網的安全穩(wěn)定運行。在后續(xù)研究中,將繼續(xù)提高中文分詞的準確率從而提升電網安全隱患的分析效果。