錢朝軍,李 俊,宗 震,張 龍,鄔 桐
(1.國網(wǎng)安徽省電力有限公司建設分公司,安徽 合肥 230071; 2.東北大學 信息科學與工程學院,遼寧 沈陽 110819; 3.國網(wǎng)遼寧省電力有限公司經(jīng)濟技術研究院,遼寧 沈陽 110015)
當前我國電力建設的主力機型發(fā)展方向與輸變電分別以高參數(shù)、大容量與超/特高壓、交直流、長距離為發(fā)展方向[1],電力基建現(xiàn)場不同新工藝與新設備被普遍應用。但電力基建現(xiàn)場施工是一個多工種、多層次的交叉作業(yè),臨時設備品類較多,存在較多不安全因素,極易產(chǎn)生機械傷害、坍塌以及觸電傷害,因此研究一種有效的電力基建現(xiàn)場風險區(qū)段識別方法具有重要意義。
2020年,夏宇等[2]最先通過推理鏈路質量指示(Link Quality Indicator,LQI)和收包率(Packet Reception Rate,PRR)的理論關系,建立更具實際物理意義的雙曲正切模型,并提出一種鏈路質量估計方法。通過指數(shù)加權卡爾曼濾波獲得更為穩(wěn)定的LQI估計值,再利用雙曲正切模型對鏈路質量進行定量估計。Akulenko等[3]首次提出了通過自由桿的最低頻率來識別缺陷的方法,基于將橫截面缺陷建模為已知函數(shù),將近似確定表征其特征的主要參數(shù),通過數(shù)值模擬確定振蕩模式的特征。
自然語言處理(Natural Language Processing,NLP)技術包含語言學、數(shù)學與計算機科學[4],是人工智能與計算機科學領域的主要研究內容,可實現(xiàn)計算機與人之間的自然語言溝通。推理引擎亦可稱為推理機,具有推理功能,其優(yōu)勢主要體現(xiàn)在易于理解、易于獲取和易于管理[5]。基于此,將NLP技術與推理引擎應用于電力基建現(xiàn)場風險區(qū)段識別問題中,提出基于NLP和推理引擎的電力基建現(xiàn)場風險區(qū)段識別方法,并對識別過程進行仿真,驗證所提方法性能。
NLP作為計算機科學以及人工智能領域的主要研究方向,主要應用于計算機同人類之間的高效溝通。NLP技術中包含數(shù)種統(tǒng)計方法[6],并以此為基礎生成最大熵模型、隱馬爾可夫模型、概率上下文無關語法模型、貝葉斯模型以及最小邊界距離模型等?;诓煌P驮趯嶋H應用過程中的主要方向與性能優(yōu)勢,在識別電力基建現(xiàn)場風險描述過程中選用隱馬爾可夫模型。
隱馬爾可夫模型的主要功能是體現(xiàn)存在隱含位置參數(shù)的馬爾可夫過程,其在本質上可理解為是一種與時序相關的概率模型[7]。隱馬爾可夫模型的狀態(tài)無法直接獲取,但可通過觀測向量序列獲取,經(jīng)由概率密度可表現(xiàn)出不同觀測向量的不同表現(xiàn)狀態(tài),不同觀測向量的產(chǎn)生均以相應概率密度分布的狀態(tài)序列為基礎[8]。
隱馬爾可夫模型可通過五元組〈D,Y,A,B,π〉表示,其中:
① 狀態(tài)集合D包含4種狀態(tài)[9]:詞頭、詞中、詞尾和單字成詞,這4種狀態(tài)分別標記為F,M,E,W。
② 觀察序列Y表示真實存在的一個狀態(tài)的有向序列,可通過狀態(tài)y1,y2,…,yn表示,觀測狀態(tài)具有順序特性。
③ 狀態(tài)轉移分布A表示狀態(tài)集合內不同元素間轉移的概率值。若當前狀態(tài)和下一相鄰狀態(tài)分別為f3和f8,則可通過f3,8表示轉移概率。
④ 不同狀態(tài)產(chǎn)生的概率分布可通過B表示。
⑤ 初始狀態(tài)分布可通過π表示。
根據(jù)機器學習方法的差異性,選取監(jiān)督學習方法確定參數(shù)A,B,π。
設定電力基建現(xiàn)場報告訓練數(shù)據(jù)集內包含觀測序列和對應的路徑序列[10]。
設定初始參數(shù)值π,其表達式為:
π=π(m)=P(m1=q1) ,
(1)
式中,m=1,2,…,N,表示t=1時刻下觀測值的狀態(tài)概率;qm=F,M,E,W。
基于統(tǒng)計分析理論,統(tǒng)計電力基建現(xiàn)場報告中不同句子開頭第一個字出現(xiàn)的頻率,根據(jù)第一個字出現(xiàn)的頻率統(tǒng)計結果與報告內句子總數(shù)的比值確定此字的初始狀態(tài)F與W的概率情況[11]。
用a(i→j)表示學習狀態(tài)轉移矩陣A的子元素,其值可通過下式確定:
(2)
式中,c表示狀態(tài)qi轉變?yōu)闋顟B(tài)qj的次數(shù);cz表示狀態(tài)變化的總次數(shù)。在上述過程中僅考慮元素的狀態(tài)改變,忽略觀測值改變。
若以bj(k)表示觀測概率分布B的子元素,則為:
(3)
式中,jk和cq分別表示j狀態(tài)下觀測為k的次數(shù)和全部狀態(tài)的總次數(shù)。
整體來說,監(jiān)督學習過程即以頻數(shù)統(tǒng)計與總數(shù)間的比值為基礎[12-14],獲取對應的概率,以此確定模型參數(shù)。利用確定參數(shù)后的隱馬爾可夫模型實現(xiàn)電力基建現(xiàn)場報告內容分詞。
在電力基建現(xiàn)場報告內容分詞基礎上,采用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法完成電力基建現(xiàn)場報告內容詞頻統(tǒng)計。TF-IDF算法通過計算TF與IDF間的乘積,確定語料集內一個字或詞的關鍵度。
(4)
式中,l和L分別表示存在于電力基建現(xiàn)場報告i內的特征項次數(shù)和電力基建現(xiàn)場報告i內的總詞語數(shù)量。
(5)
式中,N和n分別表示電力基建現(xiàn)場報告數(shù)量和包含某特征項的報告總數(shù)量。
基于式(4)和式(5)確定特征提取函數(shù):
F(w)=TF(w)·IDF(w) 。
(6)
對TF-IDF算法表達式進行歸一化處理得到特征項的權重Wij:
(7)
基于推理引擎的電力基建現(xiàn)場風險區(qū)段識別,即以電力基建現(xiàn)場報告內容中的特征項為基礎,利用推理引擎模擬思考推理過程,識別電力基建現(xiàn)場風險區(qū)段。電力基建現(xiàn)場風險區(qū)段識別的本質即對比[15-16],對比的方式可分為對比不同來源的風險報告相互印證和對比當前風險報告與先驗知識。先驗知識所描述的是原已貯存的知識或經(jīng)驗。
大量電力基建現(xiàn)場風險事例存在于電力領域專家腦內,可表示其思維模式。當電力領域專家面臨問題時,其首先回憶以往是否存在相同情況,確定匹配度最高的事例,將以往獲取的識別結果為基礎,結合當前事例與以往事例的差異性進行優(yōu)化,獲取最新的識別結果。在面臨全新情況的條件下,基于一般原理,結合思維,嘗試不同方法,基于反饋結果進行優(yōu)化?;诖?,利用事例推理模擬專家思維過程,識別電力基建現(xiàn)場風險最適合的方法[17-18]。推理引擎推理過程如圖1所示。
圖1 推理引擎推理過程Fig.1 Reasoning process of reasoning engine
基于當前問題描述{Zm,Objm},利用以下過程確定最優(yōu)經(jīng)驗事例。
針對全部事例n∈serch_set(待搜索事例集合)利用式(8)依照Objm確定事例效用:
φmn=φ(Objm,Hn)=I(Objm,Hn)·G(Objm,Hn),
(8)
依照風險劃分事例類別,針對全部風險w∈chan_set(待搜索風險集合),sase_set_w={風險為w的事例},利用式(9)確定不同子集內優(yōu)良事例的效用均值:
(9)
式中,case_set_gw表示集合case_set_w內優(yōu)良事例構成的子集;Ngw和Nw分別表示不同集合的元素數(shù)量。
搜索最優(yōu)風險w*=argmaxw∈chan_setEgw[φ]。確定該風險是否發(fā)生,若風險未發(fā)生,則chan_set=chan_set{w*},再次實施搜索最優(yōu)風險過程;若風險已發(fā)生,則進入識別階段。
為獲取高精度的場景相似度,需對不同條件屬性實施標準化處理[19-20],防止不同量綱及各取值空間對相似性度量產(chǎn)生影響。利用式(10)表示歸一化的條件屬性:
(10)
(11)
式(12)所示為最終經(jīng)驗事例的效用:
?mn=(Smn)ξ(φmn)ψ,
(12)
式中,ξ和ψ均表示權重調節(jié)因子。
利用推理引擎機制檢索案例識別出的電力基建現(xiàn)場風險區(qū)段,并不一定完全滿足當前電力基建業(yè)務需求,因此需結合模擬退火思想對推理引擎機制進行優(yōu)化,實現(xiàn)啟發(fā)式智能的事例自適應搜索。為實現(xiàn)優(yōu)化過程,對事例庫內不同事例添加一項溫度屬性t,同時設事例生成時t=1。
通過優(yōu)化獲取的最終案例存儲入事例庫。
為驗證本文所研究的基于NLP和推理引擎的電力基建現(xiàn)場風險區(qū)段識別方法的應用性能,選取某市電力基建工程為應用對象,在Windows XP平臺下利用Visual C++6.0編程環(huán)境,以SQL Server 2000構建數(shù)據(jù)庫,建立應用對象電力基建現(xiàn)場模型,其中包含1 050個區(qū)段。利用本文方法識別應用對象風險區(qū)段,仿真結果如下。
隨機選取300份應用對象內不同區(qū)段的電力基建現(xiàn)場報告,采用本文方法對報告文本內容進行分詞處理,將所獲取的分詞結果作為標識電力基建現(xiàn)場報告的特征,統(tǒng)計分析整個文本集內不同特征,所得結果如圖2所示。
圖2 分詞結果Fig.2 Word segmentation results
分析圖2可知,采用本文方法對所選300份應用對象不同區(qū)段的電力基建現(xiàn)場報告進行分詞處理,獲取停電、故障、來電與電表等分詞結果。
為識別、清除應用對象內不同區(qū)段的電力基建現(xiàn)場報告文本特征,需對分詞結果進行特征降維處理,清除掉對報告文本區(qū)分貢獻較少的特征,如同電力基建現(xiàn)場風險區(qū)段識別關系微弱的特征,降低后續(xù)文本特征聚類的復雜度。清除內容主要包括:
① 基本每個電力基建現(xiàn)場報告文本內均出現(xiàn)的詞:如“來電”“供電所”與“抄表”等;
② 常用特殊詞:主要包括普遍使用的稱謂詞,如“我”“你”等與電力基建工程無關的詞。
③ 詞頻較低的特征:如“電桿”“同時”等在每個電力基建現(xiàn)場報告文本內出現(xiàn)頻次較低的詞。
通過對出現(xiàn)頻率設定響應的閾值完成特征降維,清除與電力基建工程無關的詞匯,留下同電力基建工程相關的關鍵詞。結合實際電力基建工程情況,進一步篩選當前保留的關鍵詞,利用TF-IDF算法確定剩余特征關鍵性權重值,提取權重較大的特征詞頻作為應用對象內不同區(qū)段的電力基建現(xiàn)場報告文本挖掘的最終結果。
將以上獲取的不同區(qū)段的電力基建現(xiàn)場報告文本挖掘的最終結果輸入本文方法中的推理引擎內,利用本文方法識別應用對象不同區(qū)段風險,利用風險度表示風險識別結果,所得結果如圖3所示。
分析圖3可知,采用本文方法進行風險區(qū)段識別,所得風險識別結果同實際區(qū)段風險基本一致,風險識別誤差控制在6%以內,誤差均值約為3.5%。仿真結果充分說明本文方法具有較高的識別精度。
為測試本文方法在區(qū)段風險識別過程中的實時能耗,將文獻[14]提出的基于大數(shù)據(jù)的識別方法和文獻[15]提出的基于加權開斷概率與斷開后果嚴重度的識別方法進行對比,對比3種不同方法進行風險區(qū)段識別過程中實時能耗,所得結果如表1所示。
表1 不同方法實時能耗對比結果Tab.1 Comparison results of real-time energy consumption of different methods 單位:J
分析表1可知,本文方法在識別應用對象不同區(qū)段風險的過程中,實時能耗范圍控制在0.61 J之內,與基于大數(shù)據(jù)的識別方法和基于加權開斷概率與斷開后果嚴重度的識別方法相比,能耗分別降低0.46,0.69 J。實驗結果說明本文方法與2種對比方法相比更能節(jié)約能源,提升電力基建現(xiàn)場風險區(qū)段識別的經(jīng)濟性。
利用本文方法識別應用對象不同風險區(qū)段,針對應用對象風險區(qū)段識別結果確定應用對象薄弱環(huán)節(jié),針對不同薄弱環(huán)節(jié)有針對性地對應用對象進行優(yōu)化,可降低應用對象的風險,確保應用對象穩(wěn)定運行。表2所示為應用對象采用本文方法識別風險區(qū)段并有針對性完善后,部分區(qū)段風險變化結果。
表2 風險度變化情況Tab.2 Change of risk degree
表2中數(shù)據(jù)充分說明采用本文方法識別應用對象風險區(qū)段,并根據(jù)識別結果進行針對性優(yōu)化后,應用對象內各區(qū)段風險均有不同程度的下降,由此說明本文方法風險識別效果較好,具有推廣價值。
本文研究基于NLP和推理引擎的電力基建現(xiàn)場風險區(qū)段識別方法,利用NLP技術獲取電力基建現(xiàn)場報告文本特征,將其輸入推理引擎內,利用推理引擎完成電力基建現(xiàn)場風險區(qū)段識別。利用仿真軟件對本文方法識別過程進行仿真,結果顯示本文方法能夠準確識別電力基建現(xiàn)場區(qū)段風險。