亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于擴展Span表示的電力變壓器運維知識抽取與知識圖譜構(gòu)建

        2023-09-27 01:38:04牛增賢劉海峰徐偉峰王洪濤
        吉林大學學報(理學版) 2023年5期
        關鍵詞:圖譜運維實體

        牛增賢, 劉海峰, 徐偉峰, 李 剛,2, 謝 慶, 王洪濤,2

        (1. 華北電力大學 計算機系, 河北 保定 071003;2. 華北電力大學 復雜能源系統(tǒng)智能計算教育部工程研究中心, 河北 保定 071003;3. 華北電力大學 電力工程系, 河北 保定 071003)

        變壓器作為電力能源輸送的重要中間節(jié)點, 其健康情況直接影響整個電力系統(tǒng)的安全運行[1-2]. 目前, 變壓器的運維工作主要依賴于技術(shù)和管理人員的知識與經(jīng)驗, 需要工作人員熟悉變壓器運維知識, 并對變壓器運維的歷史數(shù)據(jù)進行查閱、 分類和統(tǒng)計. 該方法工作量大、 知識提取效率低, 且易產(chǎn)生疏忽和遺漏[3]. 雖然通過關鍵詞在傳統(tǒng)數(shù)據(jù)庫中進行檢索的方法能提高知識提取的效率, 但傳統(tǒng)數(shù)據(jù)庫建模不靈活, 很難適用于復雜多變的變壓器運維場景[4]. 隨著電網(wǎng)規(guī)模的不斷擴大, 變壓器運維工作具有數(shù)量大、 類型多、 處置難、 響應慢等特點, 僅靠人工積累和傳統(tǒng)數(shù)據(jù)庫檢索的方法提取可用知識效率低, 難以實現(xiàn)大量變壓器的快速有效運維[5]. 因此, 電力系統(tǒng)亟需智能化技術(shù)提高知識提取的效率, 從而形成專業(yè)的變壓器運維知識庫, 支撐變壓器的快速精準運維.

        知識圖譜(knowledge graph)是一種將實體和屬性通過關系聯(lián)結(jié)在一起的語義網(wǎng)絡知識庫. 知識圖譜以形式化、 簡潔化的方式表示知識, 表示方式一般為〈頭實體,關系,尾實體〉[6-7]. 與傳統(tǒng)數(shù)據(jù)庫相比, 知識圖譜的知識表達形式簡潔直觀, 能有效組織復雜多樣的知識. 構(gòu)建電力變壓器運維知識圖譜, 一方面能充分挖掘和沉淀變壓器運維中的知識, 另一方面可為變壓器健康管理輔助決策、 變壓器缺陷故障分析等場景提供支持.

        近年來, 知識圖譜在電力領域的應用逐漸增多. 例如: 文獻[8]提出了一種電力設備知識圖譜, 用于避免電力設備信息丟失, 提高數(shù)據(jù)儲存和提取的效率; 文獻[9]提出了知識圖譜在設備健康管理中的應用場景, 并分析了當前電力領域?qū)χR圖譜技術(shù)的需求; 文獻[10]利用缺陷記錄實現(xiàn)了電力設備缺陷知識圖譜; 文獻[11]完成了電網(wǎng)故障處置知識圖譜的構(gòu)建, 并進行了可視化. 雖然近幾年知識圖譜技術(shù)在電力領域中的應用得到快速發(fā)展, 但這些知識圖譜中涉及到變壓器信息的節(jié)點數(shù)量較少, 變壓器運維知識不全面, 尚未形成用于變壓器運維的專業(yè)知識圖譜.

        本文以電力變壓器為核心設備, 擬基于變壓器運維文本數(shù)據(jù), 提出一個電力變壓器運維知識圖譜的構(gòu)建框架. 首先, 根據(jù)專家經(jīng)驗建立電力變壓器運維知識圖譜模式層; 其次, 為解決變壓器運維文本的實體界限模糊和語義信息理解不充分問題, 提出一種基于擴展Span表示的深度神經(jīng)網(wǎng)絡知識抽取框架, 其中Span指句中跨度為n的某個片段, 如某句出現(xiàn)的“2號變”即為跨度為3的Span; 最后, 使用特征匹配和深度模型相融合的方法抽取實體和關系, 創(chuàng)建電力變壓器運維知識圖譜數(shù)據(jù)層.

        1 變壓器運維文本

        1.1 電力變壓器運維文本類型

        在變壓器日常運行和維護的過程中, 工作人員積累了大量變壓器運維相關的文本資料, 統(tǒng)稱為變壓器運維文本. 變壓器運維文本蘊含著與變壓器最密切的信息, 如變壓器故障現(xiàn)象和設備質(zhì)量狀況等, 這些信息為工作人員的變壓器運維工作提供了幫助. 變壓器運維文本示例列于表1. 由表1可見, 變壓器運維文本類型包括變壓器設備事故調(diào)查報告書、 設備異常分析報告等. 這些文本都是對某地區(qū)某一變壓器故障的詳細記錄, 包含變壓器、 變電站以及故障等信息.

        表1 變壓器運維文本示例Table 1 Examples of transformer operation and maintenance text

        1.2 電力變壓器運維文本的特點

        通過對大量實際變壓器運維文本的分析發(fā)現(xiàn), 變壓器運維文本內(nèi)容豐富、 語義復雜, 給提取變壓器運維知識帶來了挑戰(zhàn). 此外, 由于人為記錄的主觀性, 不同變壓器運維文本的側(cè)重點也不同. 變壓器運維文本具有以下特點:

        1) 變壓器運維文本種類多, 文本內(nèi)容差異大, 不同類型的變壓器都會發(fā)生局部放電故障, 但由于變壓器種類和處理人員不同, 變壓器運維文本的格式和處置方式的描述也不同;

        2) 變壓器運維文本的專業(yè)性強, 描述清晰, 變壓器運維文本包含大量專有名詞和專業(yè)術(shù)語, 如變壓器的型號、 故障的類型等, 都有詳細清晰的記錄;

        3) 變壓器運維文本中實體之間邊界模糊, 如“某變電站2號變局部放電故障”, 這句話包含“某變電站”、 “2號變”和“局部放電”3個實體, 且它們之間無明顯邊界詞.

        本文在構(gòu)建變壓器運維知識圖譜時, 充分考慮了上述文本特點, 提出一種融合特征匹配和深度學習的知識抽取方法. 對特征明顯的知識, 使用特征匹配方法; 對無明顯特征的知識, 使用深度學習方法.

        2 變壓器運維知識圖譜構(gòu)建

        知識圖譜可分為兩類: 領域知識圖譜和不限領域知識圖譜(通用知識圖譜)[12]. 領域知識圖譜面向某一領域, 例如醫(yī)療領域知識圖譜等, 是由某一領域?qū)I(yè)數(shù)據(jù)構(gòu)成的行業(yè)知識庫. 不限領域知識圖譜面向各行各業(yè), 覆蓋面廣, 但對知識的準確度要求較低, 常見的通用知識圖譜有DBpedia[13]和YAGO[14]等. 本文面向電力領域, 從本體設計、 模式層和數(shù)據(jù)層3個方面構(gòu)建電力變壓器運維知識圖譜.

        2.1 本體設計

        領域知識圖譜的本體設計方法有自頂向下式、 自底向上式和混合式[15]3種. 自頂向下式能清晰地展現(xiàn)概念間的層級關系, 但人工依賴性強, 數(shù)據(jù)質(zhì)量要求高; 自底向上式數(shù)據(jù)質(zhì)量要求較低, 適合大型知識圖譜的構(gòu)建, 但抽取到的知識噪聲較大、 準確性不高; 混合式是前兩種方式的結(jié)合, 融合了這兩種方式的優(yōu)點, 先依靠專家指導進行知識圖譜的模式層構(gòu)建, 再通過知識抽取建立知識圖譜的數(shù)據(jù)層.

        本文采用混合方式對電力變壓器運維知識圖譜進行構(gòu)建, 如圖1所示. 首先, 采用自頂向下式的構(gòu)建方法, 建立變壓器運維的本體概念以及本體之間的關系, 完成電力變壓器運維知識圖譜的模式層構(gòu)建. 其次, 為確保知識圖譜的完備性, 采用自底向上式的構(gòu)建方法, 對變壓器運維文本進行實體、 關系和屬性的抽取, 完成電力變壓器運維知識圖譜的數(shù)據(jù)層構(gòu)建; 同時, 對抽取結(jié)果進行歸納總結(jié), 將歸納總結(jié)出的概念映射補充到知識圖譜模式層中. 最后, 將構(gòu)建好的概念層與數(shù)據(jù)層知識圖譜存儲到Neo4j圖數(shù)據(jù)庫中, 完成電力變壓器運維知識圖譜的構(gòu)建.

        圖1 電力變壓器運維知識圖譜構(gòu)建框架Fig.1 Construction framework of power transformer operation and maintenance knowledge graph

        2.2 模式層構(gòu)建

        模式層建立在數(shù)據(jù)層之上, 描述了實體關系和屬性關系. 本文根據(jù)電力專家的指導創(chuàng)建了電力變壓器運維知識圖譜的模式層, 如圖2所示. 首先, 變壓器是本文構(gòu)建的知識圖譜中最核心的本體, 且變壓器在概念上屬于變電設備, 故定義了變壓器和變電設備本體. 其次, 為了解變壓器內(nèi)部構(gòu)件、 歷史發(fā)生故障等信息, 針對變壓器定義了部件、 故障等本體. 此外, 由于變壓器歷史故障現(xiàn)象以及故障處置方法等信息可有效輔助工作人員對變壓器故障進行診斷, 故針對變壓器的故障定義了故障類別、 故障等級和處置措施等本體.

        2.3 數(shù)據(jù)層構(gòu)建

        2.3.1 數(shù)據(jù)層知識抽取框架

        電力領域的知識抽取一般采用基于規(guī)則的方法, 通過電力專家制定規(guī)則和模板完成對模式相對固定知識的抽取[16]. 這種方法相對簡單, 對模式固定的語句抽取準確率高, 缺點是靈活性較低, 難以適應具有豐富語義的場景. 目前, 基于深度學習的方法已成功應用于知識抽取問題, 并取得了很好的效果. 這種方法對專家的依賴較低, 且靈活性高.

        圖3 融合規(guī)則和深度學習的知識抽取框架Fig.3 Knowledge extraction framework of fusion rules and deep learning

        2.3.2 基于特征匹配的實體抽取技術(shù)

        變壓器運維文本中對于發(fā)生故障時的天氣狀況以及故障處置措施描述非常詳細. 基于特征匹配抽取的實體類別和示例列于表2.

        表2 基于特征匹配抽取的實體類別和示例Table 2 Entity types and examples based on feature matching extraction

        由表2可見, 這兩類實體內(nèi)容廣、 字符跨度大, 深度學習方法很難捕捉實體特征, 但句式和位置相對固定, 特征明顯. 如表2中天氣實體, 有明顯實體觸發(fā)詞位于最后位置, 且存在固定單位, 使用特征匹配方法能準確匹配到該實體信息.

        特征匹配是指通過特征模板與文本內(nèi)容的比較, 找到文本內(nèi)容與模板相匹配的部分. 特征匹配實體抽取流程如圖4所示. 以表2中的天氣實體為例, 實體觸發(fā)詞設為“氣象條件”. 輸入文本, 發(fā)現(xiàn)文本存在“氣象條件”觸發(fā)詞; 然后鎖定觸發(fā)詞所在句, 即為表2中示例句; 通過正則表達式: “re.findall(‘(氣溫.+?℃)’, 示例句)、 re.findall(‘(濕度.+? %)’, 示例句)、 re.findall(‘(風速.+?級)’, 示例句)”對示例句進行特征匹配, 最后將結(jié)果拼接在一起, 完成對天氣實體的抽取. 人工記錄具有主觀性, 特征匹配的方法有時不能或不能完整地抽取知識, 所以特征匹配的模板需要定期更新. 對于不能抽取知識的情形, 由專家分析該類變壓器運維文本, 并進行觸發(fā)詞的更新; 對于不能完整抽取的情形, 本文將已抽取結(jié)果與原文實體所在句進行余弦相似度匹配判斷抽取是否完整, 根據(jù)實體情形設置不同的閾值. 若匹配結(jié)果大于閾值, 則無需更新; 若匹配結(jié)果小于閾值, 則人工進行正則表達式的更新.

        圖4 基于特征匹配的實體抽取流程Fig.4 Flow chart of entity extraction based on feature matching

        關系匹配技術(shù)僅用于抽取表2中兩類實體的關系, 這兩類實體通常是一段話, 使用深度學習模型抽取關系很難提取實體之間的依賴關系, 故使用關系匹配. 關系匹配將實體類型與預設關系三元組進行匹配, 圖2中所有的邊及邊的兩個端點作為預設關系三元組. 如特征匹配出實體的類型是處置措施, 關系匹配后發(fā)現(xiàn)處置措施只與故障有關系, 且變壓器運維文本通常只針對某變壓器的某一具體故障, 故處置措施與實體抽取出的故障實體建立關系.

        2.3.3 基于擴展Span表示的實體抽取技術(shù)

        實體抽取也稱為命名實體識別(named entity recognition, NER), 基于深度學習的實體抽取方法主要抽取變壓器、 部件等實體, 其實體類型列于表3. 由表3可見, 這些實體成分復雜、 出現(xiàn)頻率高、 位置不固定, 基于特征匹配的方法很難靈活地抽取實體. 深度學習方法可以自動學習特征, 具有較強的靈活性. 但將深度學習應用到變壓器運維文本, 仍存在實體界限模糊和語義信息理解不充分的問題.

        在諾內(nèi)特看來,“如果統(tǒng)治政權(quán)傾向于不顧被統(tǒng)治者的利益或者否認它們的正統(tǒng)性,那么它就是壓制性的。”[2]因為,在這種法制模式下,最受關注的是權(quán)力的權(quán)威性及其形成的統(tǒng)治、管理秩序,為了實現(xiàn)這種秩序性核心價值,“刑法是法律官員關注的中心,是表現(xiàn)法律權(quán)威的典型方法?!盵2]整體來看,中國古代歷朝法制狀況均系“言法必刑”“以刑為主”,由于其固有的強大威懾性,刑法成為治理手段的首選,其他的社會規(guī)范則退居其后,以致長期形成了社會治理刑法化的路徑依賴。

        表3 基于深度學習抽取的實體類型和示例Table 3 Entity types and examples extracted by deep learning

        為解決變壓器運維文本的實體界限模糊和語義信息理解不充分問題, 本文提出一種使用擴展上下文信息和BERT[17]預訓練模型獲取擴展Span表示的方法, 分別實現(xiàn)實體和關系抽取.

        BERT預訓練模型是一種帶有掩碼的語言模型, 通過在海量語料庫上的學習可生成單詞的特征表示, 提升下游任務的性能. 針對實體界限模糊問題, 模型對輸入進行改進: 在訓練時, 根據(jù)實體的位置標注, 將每個實體的實體類型插入到原始句子中. 例如“2號變發(fā)生故障”, “2號變”為變壓器實體類型, 改進后的句子為“〈e: 變壓器〉2號變〈/e: 變壓器〉發(fā)生故障”. 這種方法可以明確實體界限, 使模型更好學習實體的特征. 模型只學習本句信息, 可能會忽略上下文的聯(lián)系, 導致語義信息理解不充分. 如圖5所示, 若只輸入本句信息, 模型會很難理解2號變究竟發(fā)生了哪個具體故障, 難以建立2號變與具體故障等信息之間的依賴關系, 導致模型不能完整地捕獲2號變的語義特征. 針對語義信息理解不充分的問題, 模型采用合并句子上下文方式構(gòu)建更好的上下文表示: 設定擴充上下文大小為N, 在輸入句前填充N/2個字的前文信息, 在句后添加N/2個字的下文信息.

        本文采用Span-level NER[18]的方式標注數(shù)據(jù). 基于擴展Span表示的實體抽取模型結(jié)構(gòu)如圖5所示, 由預訓練語言模型BERT以及帶有ReLU激活函數(shù)的兩層前向神經(jīng)網(wǎng)絡組成. 首先, 通過BERT獲得輸入句子中每個字的上下文表示Ht, 其中Et是每個字的字向量、 句子向量和位置向量之和.然后, 設置Span跨度, 以該跨度枚舉所有Span標簽. 如圖5中, 若Span跨度設為3, “2號變”即有“2”、“2號”、“2號變”等多個Span, 且每個Span均為候選實體. 每個Span表示為

        he(si)=(XSTART(i),XEND(i),Φ(si)),

        (1)

        其中:XSTART(i)為Span開始位置的上下文表示, 對應圖5中綠點;XEND(i)為Span結(jié)束位置的上下文表示, 對應圖5中的紫點;Φ(si)為Span跨度的特征表示, 對應圖5中黃點. Span跨度指包含字符的數(shù)目, 如“2”的跨度為1, “2號變”的跨度為3. 最后, 通過預測實體為類型的概率:

        Pe(e|si)=Softmax[FFNN(he(si))],

        (2)

        其中FFNN[19]為帶有ReLU激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡.

        2.3.4 基于擴展Span表示的關系抽取技術(shù)

        屬性抽取和關系抽取本質(zhì)上都是抽取兩個實體之間的關系, 故本文采用統(tǒng)一的抽取方法. 實體間關系抽取(relation extraction, RE)依賴于實體抽取的結(jié)果, 兩個抽取任務相互獨立, 可以更好地學習特定任務的特征. 關系抽取仍采用基于擴展Span表示的方法, 變壓器運維文本中實體間的關系類型列于表4.

        表4 基于深度學習抽取的關系類型Table 4 Relation types extracted by deep learning

        基于擴展Span表示的關系抽取模型結(jié)構(gòu)為: 首先, 實體邊界以及類型作為標識符被加入到實體Span前后, 作為關系模型的輸入, 表示為

        S=…〈S:ei〉,ESTART(i),…,EEND(i),〈/S:ei〉…〈O:ej〉,ESTART(j),…,EEND(j),〈/O:ej〉…,

        (3)

        其中〈S:ei〉表示頭實體開始位置, 〈/S:ei〉表示頭實體結(jié)束位置, 〈O:ej〉表示尾實體開始位置, 〈/O:ej〉表示尾實體結(jié)束位置; 其次, 通過BERT模型獲得填充后的實體對之間的Span表示為

        hr(si,sj)=(ESTART(i),ESTART(j)),

        (4)

        其中ESTART(i)為頭實體開始位置的向量表示,ESTART(j)為尾實體開始位置的向量表示; 最后, 預測兩個實體之間最可能的關系為

        Pr(r|si,sj)=Softmax[FFNN(hr(si,sj))].

        (5)

        基于擴展Span表示的關系抽取模型利用實體模型的抽取結(jié)果以及關系標簽信息進行訓練, 最終完成關系抽取任務.

        3 實驗與分析

        3.1 數(shù)據(jù)集與實驗設計

        本文選取240份變壓器運維文本作為變壓器運維文本數(shù)據(jù)集. 變壓器運維文本數(shù)據(jù)集主要來源于變壓器現(xiàn)場故障分析報告、 異常檢測報告等半結(jié)構(gòu)化文本, 其中變壓器的故障分析報告約占70%. 運維文本的內(nèi)容包括變壓器的屬性、 變壓器故障運維方案等, 涵蓋了電力變壓器領域大部分的故障類型、 故障診斷方法以及熱點研究內(nèi)容.

        數(shù)據(jù)集經(jīng)過人工標注后, 按8∶1∶1隨機劃分為訓練集、 驗證集和測試集. 表5列出了變壓器運維文本數(shù)據(jù)集的句子統(tǒng)計數(shù)據(jù). 本文選取標準的評價方法, 模型評價指標為準確率(P)、 召回率(R)和F1值[20]. 對于實體抽取任務, 如果一個實體邊界和類型的預測值與標注信息相同, 則認為該預測是正確的; 對于關系抽取任務, 如果兩個實體邊界的預測值與關系類型的預測值均與標注信息相同, 則認為該關系預測正確.

        表5 數(shù)據(jù)集統(tǒng)計信息Table 5 Statistical information of datasets

        3.2 變壓器運維文本實驗與分析

        實驗數(shù)據(jù)集為本文構(gòu)建的變壓器運維文本數(shù)據(jù)集, 實驗環(huán)境為Visual Studio Code, 深度學習框架版本為Pytorch 1.4.0, Transformers 3.0.2, Python版本為3.7, 顯卡為Tesla K80.

        3.2.1 基于特征匹配的實體抽取實驗與分析

        基于特征匹配的實體抽取方法用于抽取天氣和處置措施兩類實體, 兩類實體的最初觸發(fā)詞設置及實驗結(jié)果列于表6, 關系匹配結(jié)果列于表7.

        表6 基于特征匹配的實體抽取實驗結(jié)果Table 6 Experimental results of entity extraction based on feature matching

        表7 關系匹配實驗結(jié)果Table 7 Experimental results of relationship matching

        由表6可見, 天氣和處置措施的召回率偏低. 這是因為人為記錄具有主觀性, 工作人員對變壓器運維的描述存在差異. 例如, 對于天氣實體, 有些變壓器運維文本存在定義的天氣實體觸發(fā)詞, 從而有利于匹配; 但有些文本中不存在定義的觸發(fā)詞, 特征匹配的方法就不能匹配到天氣信息. 此外, 實體觸發(fā)詞可能與其他信息相關, 影響了抽取準確率. 例如, “處置”是處置措施實體的觸發(fā)詞, 但在一些變壓器運維文本中, “處置”一詞出現(xiàn)在變壓器部件處置情況中. 但本文基于特征匹配的實體抽取方法所用的正則表達式和觸發(fā)詞是不斷更新的, 為匹配效果的提升提供了支撐. 而關系匹配的準確率依賴于天氣、 處置措施和故障3個實體是否能被準確識別, 任一實體識別失敗, 都會降低某關系抽取的準確度.

        3.2.2 基于擴展Span表示的實體抽取實驗

        本文基于所構(gòu)建的數(shù)據(jù)集驗證所提方法在實體抽取上的性能, 參數(shù)設置列于表8. 基于擴展Span表示的實體抽取模型(Extended Span)對比實驗模型選擇隱Markov模型(HMM)以及深度學習模型: BiLSTM和BiLSTM+CRF. 本文設置上下文數(shù)量N=100, 實驗結(jié)果列于表9.

        表8 實體抽取模型參數(shù)設置Table 8 Parameters setting of entity extraction model

        表9 實體抽取實驗結(jié)果Table 9 Experimental results of entity extraction

        變壓器運維文本具有描述清晰和流程性強的特點, 為知識抽取任務帶來了幫助. 由表9可見, 各模型的實驗結(jié)果均在80%以上. 其中, Extended Span模型通過跨句信息的幫助取得了最優(yōu). HMM主要學習了電力數(shù)據(jù)集的初始狀態(tài)分布, 當文本的描述發(fā)生變化時, 會導致預測精度降低. 雙向長短期記憶網(wǎng)絡(BiLSTM)具有一定的非線性擬合能力, 可以從前后兩個方向?qū)渥舆M行建模, 捕獲長距離上下文信息, 自然語言處理(CRF)可對BiLSTM預測結(jié)果進行優(yōu)化, 輔助提高預測精度. 與Extended Span模型相比, 對比模型的輸入沒有經(jīng)過預訓練語言模型, 所以詞向量表示的質(zhì)量可能會下降, 影響了后續(xù)訓練. 此外, 變壓器運維文本數(shù)據(jù)集存在實體界限模糊的現(xiàn)象, 導致對比模型難以準確捕獲不同實體的特征. 與對比模型相比, Extended Span模型由預訓練模型(BERT)作為編碼器, 為模型的訓練提供了較準確的詞向量表示.

        Extended Span模型通過添加實體標簽以及合并句子上下文方式進行了實體抽取. 為驗證本文方法的有效性, 對本文方法進行了消融實驗, 實驗結(jié)果列于表10.

        表10 消融實驗結(jié)果Table 10 Results of ablation experiment

        由表10可見, 添加實體標簽的方式提升了模型的性能, 但去除上下文信息后, 模型準確率和召回率明顯下降, 說明上下文信息可使模型更好地理解句子信息. 實驗結(jié)果表明, 本文方法給實體抽取任務帶來了幫助.

        3.2.3 基于擴展Span表示的關系抽取實驗

        本文基于所構(gòu)建的數(shù)據(jù)集驗證所提方法在關系抽取模型上的性能, 關系抽取同樣設置上下文數(shù)量N=100, 模型參數(shù)設置列于表11.

        表11 關系抽取模型參數(shù)設置Table 11 Parameters setting of relationship extraction model

        為驗證本文方法的有效性, 選取SSAN[21]深度學習模型作為對比模型. SSAN模型將每篇文檔作為輸入進行關系抽取, 充分考慮了實體之間的共指關系. 關系抽取實驗結(jié)果列于表12. 由表12可見, Extended Span模型的各指標均取得領先. 分析認為, 變壓器運維文本中關系種類多, 但具有共指關系的實體少, 所以影響了SSAN模型的性能. 而變壓器運維文本中多種關系存在較明顯的關系觸發(fā)詞, 且Extended Span模型以句子作為輸入, 并融合了上下文信息, 模型可更好地學習到各關系的特征, 故抽取結(jié)果高于SSAN模型.

        表12 關系抽取實驗結(jié)果Table 12 Experimental results of relationship extraction

        表4中待抽取關系類型的抽取結(jié)果列于表13. 由于變壓器運維文本中的部件有很多別名以及代號, 且變壓器和部件之間很少有觸發(fā)詞, 如“XX變954跳閘事故報告”, 954代表某一部件, 變壓器和部件之間無關系觸發(fā)詞. 關系模型難以提取它們之間的關系, 故本文不再列出.

        表13 表4中特征抽取關系類型的關系抽取實驗結(jié)果Table 13 Experimental results of relationship extraction for types of relationships to be extracted in Table 4

        由表13可見, 模型對各關系類別的抽取結(jié)果存在差異. 分析認為, 變壓器運維文本中多種關系存在較明顯的關系觸發(fā)詞, 為關系識別提供了幫助. 如“2號變局放故障開始時間為2021-12-03”, 模型通過“開始時間”, 可以判斷“2號變局放故障”和“2021-12-03”之間是有開始日期的關系. 型號關系識別的準確率較低, 但召回率較高, 達到90%以上, 這是由于該關系觸發(fā)詞幫助了模型識別變壓器和型號的關系, 但如果實體抽取沒能正確識別出“型號”實體, 則會間接影響關系抽取.

        3.3 變壓器運維知識圖譜

        本文對240份變壓器運維文本進行實體和關系抽取后, 共形成1 278個實體和1 653條關系. 將實體之間的關系以三元組形式存儲到Neo4j圖數(shù)據(jù)庫, 進行了展示, 圖6為部分電力變壓器運維知識圖譜.

        圖6 部分變壓器運維知識圖譜Fig.6 Part of transformer operation and maintenance knowledge graph

        圖7為基于變壓器運維文本構(gòu)建的電力領域變壓器運維知識圖譜中有關110 kV變電站1號變壓器的知識, 當該變壓器再次發(fā)生故障時, 知識圖譜輔助處理人員會迅速明晰變壓器運行工況、 歷史故障等關鍵信息, 查明故障原因.

        圖7 某變壓器運維知識圖譜的部分信息Fig.7 Part of information of a transformer operation and maintenance knowledge graph

        綜上所述, 本文以電力變壓器運維文本為對象, 構(gòu)建了電力變壓器運維知識圖譜. 首先, 搭建了電力變壓器運維知識圖譜框架, 完整構(gòu)建了變壓器運維知識圖譜; 其次, 為解決變壓器運維文本中實體界限模糊、 語義信息理解不充分的問題, 提出了一種基于擴展Span表示的知識抽取方法, 并使用特征匹配和深度模型相融合的方法抽取了實體和關系; 最后將知識抽取結(jié)果存儲到Neo4j圖數(shù)據(jù)庫, 并進行了展示. 實驗結(jié)果表明, 本文知識抽取方法準確率較高.

        猜你喜歡
        圖譜運維實體
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        運維技術(shù)研發(fā)決策中ITSS運維成熟度模型應用初探
        風電運維困局
        能源(2018年8期)2018-09-21 07:57:24
        雜亂無章的光伏運維 百億市場如何成長
        能源(2017年11期)2017-12-13 08:12:25
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        主動對接你思維的知識圖譜
        一本久道在线视频播放| 欧美mv日韩mv国产网站| 国产欧美va欧美va香蕉在线观| 国产精品亚洲精品日产久久久| 日产一区日产2区日产| 亚洲人交乣女bbw| 77777亚洲午夜久久多人| 国模少妇无码一区二区三区| 色婷婷亚洲精品综合影院| 色综合久久无码五十路人妻| 国产精品无码不卡一区二区三区| 日韩成人精品日本亚洲| 亚洲一区在线二区三区| 麻豆md0077饥渴少妇| 日本三级欧美三级人妇视频| 久久久www成人免费无遮挡大片 | 国产爆乳乱码女大生Av| 日本熟妇视频在线中出| 东北女人啪啪对白| 久青草久青草视频在线观看| 人妻被猛烈进入中文字幕| 精品人妻午夜中文字幕av四季| 女人张开腿让男人桶爽| 亚洲精品字幕在线观看| 亚洲av影院一区二区三区四区| 大香蕉视频在线青青草| 国产不卡视频一区二区三区| 国产香蕉一区二区三区在线视频 | 九九久久精品一区二区三区av| 国产a∨天天免费观看美女| 女人夜夜春高潮爽a∨片| 亚洲夫妻性生活视频网站| 91成人自拍在线观看| a级毛片免费观看在线| 中文字幕亚洲综合久久菠萝蜜 | 日本亚洲中文字幕一区| 日本中文字幕一区二区高清在线 | 久久久久亚洲精品无码网址色欲| 免青青草免费观看视频在线| 成人男性视频在线观看| 无码人妻人妻经典|