亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜的電力行業(yè)與外部數(shù)據(jù)融合研究

        2021-01-06 04:18:00劉錦隆宋立華王秋琳
        四川電力技術 2020年6期
        關鍵詞:規(guī)則文本融合

        劉錦隆,馬 進,鄒 雙,宋立華,王秋琳

        (1.國網(wǎng)四川省電力公司, 四川 成都 610041;2.四川凱普頓信息技術股份有限公司,四川 成都 610046;3.四川公眾項目咨詢管理有限公司,四川 成都 610041;4.福建億榕信息技術有限公司, 福建 福州 350001)

        0 引 言

        近年來,隨著數(shù)據(jù)中臺的建設及電力大數(shù)據(jù)技術的充分發(fā)展,電力行業(yè)逐步實現(xiàn)了行業(yè)數(shù)據(jù)的邏輯集中,對各類電力信息系統(tǒng)產(chǎn)生的海量數(shù)據(jù)的采集、存儲、加工、處理和全價值鏈的分析處理能力也得到逐步完善?;诖髷?shù)據(jù)的分析已在電力企業(yè)獲得廣泛應用并將更加深入,為管理提升、優(yōu)化整合及服務轉(zhuǎn)型提供技術支撐[1]。

        然而,互聯(lián)網(wǎng)及政務大數(shù)據(jù)的高速發(fā)展同樣導致行業(yè)外部數(shù)據(jù)的爆發(fā)式增長,來自互聯(lián)網(wǎng)的公開數(shù)據(jù)資源逐漸成為電網(wǎng)企業(yè)經(jīng)營風險監(jiān)測、電網(wǎng)運行維護、供應商優(yōu)選及各類決策分析中不可或缺的重要組成部分。有必要開展內(nèi)外部數(shù)據(jù)融合,將電力行業(yè)內(nèi)部數(shù)據(jù)與外部的互聯(lián)網(wǎng)公開數(shù)據(jù)及社會數(shù)據(jù)中的關鍵元數(shù)據(jù)及信息字段提取出來,融合形成統(tǒng)一的數(shù)據(jù)結構,開展數(shù)據(jù)分析及挖掘利用。

        要實現(xiàn)內(nèi)外部多源異構數(shù)據(jù)的融合,首先要解決的是融合數(shù)據(jù)的統(tǒng)一表示。學術界先后提供網(wǎng)絡本體語言(web ontology language,OWL)、資源描述框架(resource description framework,RDF)等數(shù)據(jù)表示方案。2012年,谷歌公司提出知識圖譜技術,由于其兼具嚴謹且務實的數(shù)據(jù)表示能力以及包括圖數(shù)據(jù)庫、圖嵌入、圖挖掘等成熟的技術配套,逐步成為多源數(shù)據(jù)融合表示的主流方法,是當前將多源數(shù)據(jù)融合在產(chǎn)業(yè)中落地的首選。

        下面提出一種基于知識圖譜實現(xiàn)企業(yè)內(nèi)外部數(shù)據(jù)融合利用的技術方法,依托文本信息提取等人工智能技術的應用,將來自互聯(lián)網(wǎng)的、難以分析的非結構化數(shù)據(jù)轉(zhuǎn)換為結構化數(shù)據(jù),而后進一步利用知識圖譜技術,實現(xiàn)內(nèi)外部數(shù)據(jù)的融合,為各電力應用需求提供支撐?;谒黾夹g開展了電力營銷客服領域的應用研發(fā)并在某電力公司進行了部署使用,驗證了該技術的可行性。

        1 相關技術現(xiàn)狀

        所提出的基于知識圖譜的電力行業(yè)與外部數(shù)據(jù)融合,主要涉及以下幾個方面的關鍵技術。

        1.1 文本信息提取技術

        文本信息提取,也稱為命名實體抽取,是指從文本中提取出特定的實體[2]。在實際項目中最常用的是專有命名實體提取。不同于通用命名實體,專有命名實體通常帶有更多的限定,比如從電力營銷退補工單中提取出“故障開始時間”,而不是所有的“時間”,所以不能采用通用命名實體的預訓練模型。因此,專有命名實體通常也成為“關鍵信息抽取”,下面以“關鍵信息抽取”作為簡稱。

        文本中關鍵信息的抽取,比較主流的有以下兩類方案[3-4]:

        1)基于規(guī)則的關鍵信息提取

        2)基于序列標注的方法

        主流算法是序列標注算法中的條件隨機場(conditional random field,CRF)算法。根據(jù)特征提取方式的不同,又可以分為人工特征工程+CRF以及深度學習特征提取+CRF,后者最主流的技術路線是BI-LSTM(雙向循環(huán)長短文本記憶神經(jīng)網(wǎng)絡)+CRF。具體過程如圖1所示。

        圖1 基于序列標注技術的信息抽取過程

        基于“序列標注”的方法具有適應性強的優(yōu)點,其不需要由專家編寫規(guī)則,所以對于沒有明顯模式(人工很難觀察到特定規(guī)則)的關鍵信息的抽取具有較強的抽取能力;其缺點是需要一定數(shù)量的、已經(jīng)標注好的語料作為導入,這部分語料的標注工作需要人工編寫。待抽取的關鍵信息越缺乏模式、要求抽的結果越精確,需要導入的語料就越多。另外,序列標注算法的缺點是不夠穩(wěn)定,其執(zhí)行過程是“黑盒”(不像規(guī)則判斷能夠回溯),準確率不由算法決定,而主要取決于用以訓練的標注語料是否和目標測試語料比較一致,所以該方法構建出的“抽取模型”常常難以判斷是否能夠滿足業(yè)務對于抽取準確性的要求。

        綜上所述,現(xiàn)有兩種文本關鍵信息抽取的技術路線各有以下優(yōu)缺點和適用范圍:

        1)基于規(guī)則的方法抽取效果穩(wěn)定,且不需要實現(xiàn)進行人工標注,但是限定性太強,匹配的范圍比較小,對于沒有固定模版的文本抽取不適用;

        2)序列標注方法匹配范圍較大,但需要事先準備較多的人工標注語料,且抽取效果不穩(wěn)定,準確性難以預估,對抽取準確性有比較嚴格要求的場景不太適用。

        1.2 知識圖譜技術

        知識圖譜是一種由節(jié)點和邊組成的圖數(shù)據(jù)結構,本質(zhì)上是結構化的語義知識庫。通過把專業(yè)業(yè)務領域中多源異構信息連接在一起,得到實體關系網(wǎng)絡,知識圖譜能夠提供從“關系”的角度去分析問題的強大能力。最初,知識圖譜的提出主要用于解決與實體相關的智能問答問題,目前已經(jīng)廣泛地應用到信息檢索、數(shù)據(jù)挖掘領域。在電力行業(yè),基于知識圖譜之上的關系計算、圖挖掘等能力與異常分析、靜態(tài)分析、動態(tài)分析等數(shù)據(jù)挖掘方法相結合,可用于企業(yè)經(jīng)營風險分析中的反欺詐、不一致性驗證以及電網(wǎng)設備故障分析、災害防御預警、主數(shù)據(jù)質(zhì)量優(yōu)化等領域。

        知識圖譜的構建大致可以劃分為兩個主要步驟。首先,結合相關領域的業(yè)務知識,將業(yè)務領域的關鍵概念實體及其之間的關系,描述為知識圖譜本體;而后,利用實體抽取[5]、實體消歧及鏈接[6]、實體關系抽取[7]、知識推理[8]等技術,從實際業(yè)務數(shù)據(jù)中抽取出實體、關系相關信息字段,進行消歧融合,按照知識圖譜的本體進行“填充”,獲得知識圖譜數(shù)據(jù)實例,進行知識圖譜存儲。知識圖譜技術應用的主要挑戰(zhàn)包括知識圖譜構建過程自動化水平不高以及數(shù)據(jù)本身存在錯誤、冗余而導致的數(shù)據(jù)噪聲等問題。

        下面將應用知識圖譜,開展電力行業(yè)數(shù)據(jù)與外部數(shù)據(jù)的知識融合,為相關業(yè)務的趨勢洞察及輔助決策分析等提供數(shù)據(jù)支撐。

        2 基于知識圖譜的數(shù)據(jù)融合

        所提出的電力行業(yè)數(shù)據(jù)與外部數(shù)據(jù)融合方案,主要依托兩個步驟。首先是將外部的非結構化文本數(shù)據(jù)進行關鍵信息提取,將難以分析的非結構化數(shù)據(jù)轉(zhuǎn)換為結構化數(shù)據(jù);而后通過對相關領域業(yè)務實體關系的分析,設計知識圖譜結構,將外部數(shù)據(jù)與電力行業(yè)結構化數(shù)據(jù)融合到知識圖譜中,為下一步各類高級應用提供數(shù)據(jù)基礎。下面重點介紹其中的關鍵環(huán)節(jié)。

        2.1 文本預處理

        為了開展基于非結構化文本的分析及知識圖譜構建,需要對數(shù)據(jù)進行一定的預處理步驟,包括:

        1)中文分詞。待分析中文文本通常是連續(xù)的文字序列,不能直接進行分析,需要通過中文分詞,將其切分為有意義的詞。中文分詞技術在信息檢索等文本分析挖掘領域都有廣泛應用。所提方法主要采用的是基于統(tǒng)計語言模型的序列標注方法,其基本原理是:首先準備標注數(shù)據(jù),并基于人工標注的詞性和統(tǒng)計特征,對待分詞的文本進行建模與參數(shù)訓練,該模型即可一定程度上描述詞元素相對于上下文的分布;而后,利用模型對待提取文本中分詞出現(xiàn)的概率進行預測,將概率最大的詞作為分詞分析結果。這類序列標注算法的代表是CRF算法。

        2)構建詞向量模型。計算機不能直接處理文本、圖像、聲音等內(nèi)容,需要將其轉(zhuǎn)化為數(shù)字特征后才能處理,詞向量就是文本中的單詞轉(zhuǎn)后的計算機能夠處理的數(shù)字化特征。所采用的是詞嵌入(word embedding)技術。其基本過程是將文本嵌入到一個數(shù)學空間里,從而使得文本中語義相似的詞用相似的向量表示。采用的具體模型是word2vec。

        2.2 文本信息提取

        在第1.1節(jié)中,介紹了目前文本信息提取的主流技術路線。針對現(xiàn)有文本關鍵信息抽取的缺點,提出一種創(chuàng)新的方法,能夠充分利用現(xiàn)有技術方法的優(yōu)點,同時很大程度上規(guī)避其缺點,因而具有廣泛適用性,其主要原理和步驟如下:

        最初的兩聯(lián)供是夏天用風盤制冷,冬天用地面輻射采暖,它只能稱之為二合一系統(tǒng),并非真正意義上的兩聯(lián)供。而且為了使用方便,空氣源熱泵廠家一律在主機內(nèi)部裝配揚程喏功率都很大的泵。因為泵的選型比較大,所以無需考慮一些水力平衡的問題,無論制熱制冷主機都能把水帶到最不利環(huán)路。 所以,有了最開始的兩聯(lián)供(見圖1)。

        1)利用“規(guī)則抽取”準確性高、匹配范圍小的特點,編寫少量的規(guī)則,實現(xiàn)從大量的語料中匹配出少量但準確的抽取對象,并作為后續(xù)過程的導入。

        2)將步驟1中獲得的抽取結果,切割出一定比例(如80%),作為導入到“自動序列標注”方法的訓練語料,替代“人工標注”過程。

        3)利用步驟2得到的訓練語料,結合開源的“自動序列標注”類算法,構建“抽取模型”。

        4)利用步驟3的結果,對步驟2切割出的、剩余的語料(如20%)進行自動化抽取,并對抽取結果進行自動判斷;如果模型自動判斷的準確性尚未達到業(yè)務要求,則前往步驟1,編寫更多的正則表達式,形成更多的“標注語料”,作為模型訓練導入;如果模型自動判斷的準確性已經(jīng)達到業(yè)務要求,則停止該過程,并將該模型作為文本抽取最終模型部署應用。

        完整過程如圖2所示。

        圖2 文本信息提取技術過程

        相對于現(xiàn)有技術方案,所提方案在文本關鍵信息抽取問題上取得以下提升:用基于少量規(guī)則的“規(guī)則判斷”替代“人工標注”獲得初始標準語料,大大降低了初期人工投入;對“序列標注”模型的抽取結果進行自動化回測,確保模型的準確性符合業(yè)務需求;整個過程是可增量迭代的。如果“序列標注”訓練得到的模型的抽取效果不理想,僅需要增加編寫少量的規(guī)則(正則表達式),執(zhí)行同樣的過程循環(huán),即可有效提升模型抽取效果,前期編寫的規(guī)則不會被廢棄。

        2.3 知識圖譜構建

        完成文本信息提取后,將外部的非結構化數(shù)據(jù)轉(zhuǎn)換為結構化的關鍵字段信息;而后,結合相關業(yè)務知識,即可開展知識圖譜本體結構的設計。采用文獻[9]所述的知識圖譜表示方法對知識圖譜進行建模。首先,根據(jù)業(yè)務域知識,參照電力公共數(shù)據(jù)模型(common information model,CIM),設計知識圖譜的結構,并完成圖數(shù)據(jù)庫中對應圖結構的創(chuàng)建;而后,將文本信息提取的結果按照圖譜結構組織,調(diào)用圖數(shù)據(jù)庫接口導入實體關系數(shù)據(jù),即可將電力行業(yè)結構化數(shù)據(jù)及外部非結構化文本的關鍵字段整合到知識圖譜中。

        如圖3所示,Neo4J為知識圖譜的創(chuàng)建、應用提供了全過程支撐。在數(shù)據(jù)入庫階段,可采用批量導入的方式將抽取好的命名實體與實體關系導入至圖形數(shù)據(jù)庫中;在知識探索階段,采用Cypher語言查詢所有節(jié)點及關系即能獲取整個知識圖譜的全貌,也可搜索所需的節(jié)點及關系信息,可以為使用者提供個性化的知識服務;在應用集成階段,采用編程的方式可以調(diào)用Neo4J的RREST API接口進一步開發(fā)知識圖譜界面。

        圖3 基于Neo4J的知識圖譜存儲及利用

        2.4 基于知識圖譜的內(nèi)外部數(shù)據(jù)融合分析

        通過上述步驟構建的知識圖譜,能較好地實現(xiàn)內(nèi)外部數(shù)據(jù)的融合,并為數(shù)據(jù)分析提供豐富的關系查詢、計算手段。在實際應用中,可基于知識圖譜這一良好的數(shù)據(jù)結構,結合業(yè)務需求與規(guī)則,開展更為豐富的多維風險防控及輔助決策。主要包括以下兩種方法。

        1)基于圖規(guī)則。當前,知識圖譜主要以圖數(shù)據(jù)庫為載體。以所選用的Neo4J為例,其提供的Cypher查詢語言支持豐富的實體、屬性及關系計算查詢能力,可以高效地執(zhí)行多維條件關系查詢,篩選出符合特定關系條件的實體關系集合。在執(zhí)行風險分析、輔助決策時,可以將相關的業(yè)務規(guī)則轉(zhuǎn)換為圖規(guī)則Cypher語句進行查詢?;趫D規(guī)則的知識圖譜挖掘也是目前工業(yè)界使用的主流方案。

        2)基于圖神經(jīng)網(wǎng)絡。圖神經(jīng)網(wǎng)絡的關鍵思想是將知識圖譜的實體和關系轉(zhuǎn)化為連續(xù)的向量空間,從而能夠與深度學習算法結合,基于項目風險等樣本的知識圖譜表示進行建模,基于圖結構的相似性識別出潛在的同類風險。圖神經(jīng)網(wǎng)絡目前是知識圖譜挖掘應用的研究熱點,有很大的應用潛力,但由于相關的理論、算法還在持續(xù)發(fā)展完善過程中,目前還未在工業(yè)界得到廣泛應用。

        3 應用實例

        所提出的技術方案在電網(wǎng)工程項目管理風險預警領域進行了實踐,基于電網(wǎng)工程項目管理過程中涉及的電力行業(yè)及外部異構數(shù)據(jù)構建風險知識圖譜,開展基于知識圖譜的項目管理風險預測。

        1)數(shù)據(jù)梳理與采集

        包括電力行業(yè)數(shù)據(jù)和外部數(shù)據(jù)兩個部分。其中,電力行業(yè)數(shù)據(jù)主要包括項目合同主數(shù)據(jù)、項目執(zhí)行過程數(shù)據(jù)、供應商評價數(shù)據(jù)等;外部數(shù)據(jù)包括招標公告、中標公告、企業(yè)工商數(shù)據(jù)、企業(yè)失信數(shù)據(jù)等。

        2)信息提取及知識圖譜構建

        利用第2章提出的文本清洗及關鍵信息提取方法,將內(nèi)外部數(shù)據(jù)中關鍵的實體字段提取出來,并匯集到對應的業(yè)務實體及其關系,主要數(shù)據(jù)結構如圖4所示。

        圖4 電網(wǎng)工程管理風險知識圖譜實體關系結構

        編制腳本,將提取出的實體、屬性及關系信息按照圖數(shù)據(jù)庫Neo4J的結構導入到知識圖譜中,形成的最終知識圖譜。

        圖5展示了所構建的知識圖譜的局部內(nèi)容,通過執(zhí)行圖查詢“MATCH P==()-->()RETURN p LIMIT 25”獲得,所以限定展示最多25個節(jié)點。圖5中展示了公司、法律訴訟、項目、合同、招標公告、中標公告、供應商不良行為、供應商績效等節(jié)點以及節(jié)點之間的10類關系。項目過程環(huán)節(jié)的主要信息,如采購、招標、中標、執(zhí)行等主要環(huán)節(jié)的實體、屬性及關系都在風險知識圖譜中進行了清晰的展示。

        圖5 工程項目過程管理領域風險知識圖譜

        基于知識圖譜中完整、規(guī)范的數(shù)據(jù),結合圖查詢、圖計算等技術,即可進行如下探查和分析:

        1)關聯(lián)交易合規(guī)性風險分析。從工商數(shù)據(jù)中獲取電力公司與相關供應商的股權關系,維護到知識圖譜中,形成“公司-公司股權關系”,與“公司-項目中標關系”“公司-項目采購關系”結合,通過圖規(guī)則查詢,即可篩查出同一甲方單位采購的項目中,被具有股權關系的乙方單位中標的個數(shù)、金額與比例,與設定的閾值比較,即可識別出關聯(lián)交易的規(guī)模,識別是否存在關聯(lián)交易風險。

        2)項目執(zhí)行過程管控風險。從項目執(zhí)行過程中產(chǎn)生的不同電子文件中抽取項目關鍵屬性(包括項目編號、項目名稱、項目合同簽訂時間、項目開工時間、項目約定工期、項目實際完成時間等),整合到知識圖譜。通過圖規(guī)則查詢,即可篩查出哪些項目簽訂時間晚于開工時間,即“倒簽核查”風險;還有項目已開展的時間大于合同約定工期,即 “工程延期”風險。還可以進一步將風險項目所對應的征信數(shù)據(jù)進行對比,如果在存在上述風險的同時,供應商在征信方面也存在已知風險,則相應增加其風險等級。此場景體現(xiàn)了知識圖譜對多源數(shù)據(jù)融合的價值。

        3)項目單位履約及承載力不足風險分析。提取歷史中標公告、合同數(shù)據(jù)中的關鍵屬性,如甲方、乙方、項目開始時間、項目工期、項目金額等,整合到知識圖譜中,即可通過圖規(guī)則匯總項目單位在一段時間內(nèi)承擔的項目個數(shù)、金額,將當前數(shù)據(jù)與歷史同期數(shù)據(jù)比較,即可篩查出相對于歷史同期承擔的項目個數(shù)、金額超過一定閾值的情況,識別可能存在的“乙方承載力不足“風險,進行提前預警。

        4 結 語

        行業(yè)數(shù)據(jù)與外部數(shù)據(jù)的融合分析,是大數(shù)據(jù)技術向縱深領域發(fā)展的主要趨勢之一。以電力行業(yè)現(xiàn)實需求為背景,針對外部非結構化數(shù)據(jù)與行業(yè)內(nèi)部數(shù)據(jù)融合分析問題,提供基于自然語言處理的非結構化文本關系信息提取方法以及融合知識圖譜的構建方法,實現(xiàn)支撐業(yè)務所需的多源異構數(shù)據(jù)的融合,為上層高級業(yè)務應用提供堅實的知識數(shù)據(jù)基礎。在某省電力公司開展的工程項目過程管理領域風險識別試點應用,能夠較好地將內(nèi)外部異構數(shù)據(jù)整合到知識圖譜,利用圖規(guī)則挖掘,實現(xiàn)典型風險的驗證,驗證了所提方案的有效性和可行性。

        前面只重點闡述了基于行業(yè)數(shù)據(jù)與外部數(shù)據(jù)構建融合知識圖譜的過程,對圖神經(jīng)網(wǎng)絡、圖嵌入等基于圖的挖掘分析未開展深入討論,這也是后續(xù)進一步研究的方向。

        猜你喜歡
        規(guī)則文本融合
        撐竿跳規(guī)則的制定
        村企黨建聯(lián)建融合共贏
        融合菜
        數(shù)獨的規(guī)則和演變
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        国产一级免费黄片无码AV| 尤物网址在线观看| 丰满精品人妻一区二区| 亚洲av不卡无码国产| 日本做受120秒免费视频| 成人a级视频在线观看| 一本大道东京热无码| 99视频全部免费精品全部四虎| 探花国产精品三级在线播放| 久久精品人妻嫩草av蜜桃| 青青草视频在线观看精品在线 | 中文亚洲av片在线观看| 精品午夜福利无人区乱码一区| 二区三区视频| 国产亚洲精品性爱视频| 国产视频一区二区三区免费| 日本一区二区在线免费看| 国色天香社区视频在线| 婷婷色中文字幕综合在线| 98国产精品永久在线观看| 精品国产一区二区三区男人吃奶 | 插b内射18免费视频| 99re热这里只有精品最新| 韩国主播av福利一区二区| 国产高清在线精品一区二区三区| 亚洲av成人无遮挡网站在线观看 | 99re66在线观看精品免费| 国产精品亚洲αv天堂无码| 国产精品美女| 亚洲无码毛片免费视频在线观看| 手机免费在线观看日韩av| 日韩精品人成在线播放| 欧美人与动牲交a精品| 欧美日韩国产专区| 久久精品国产亚洲精品色婷婷| 国产精品一区二区久久蜜桃| 欧美性色欧美a在线播放| 欧美最猛黑人xxxx黑人表情| 久久精品免费无码区| 亚洲中文有码一区二区| 97精品人妻一区二区三区蜜桃|