李彥儒,陳耀軍,王慧芳,吳向宏
(1.浙江大學電氣工程學院,杭州 310027;2.浙江華云信息科技有限公司,杭州 310012)
電力系統(tǒng)在長期的運行過程中,積累了大量的文本、音頻和圖像等非結構化數(shù)據(jù)。非結構化數(shù)據(jù)挖掘相對困難[1],準確性也較難得到保障。運用文本挖掘技術從電力文本中挖掘實用信息,已經(jīng)成為當前的研究熱點之一[2]。在對專業(yè)領域文本進行預處理時,常用的分詞方法可以分為3類:基于字典的分詞方法、基于統(tǒng)計規(guī)律的無字典分詞方法以及二者的結合。研究專業(yè)領域文本的第一要素是充分理解相關專業(yè)術語,無字典分詞技術對一些出現(xiàn)頻率不高的專業(yè)術語難以準確識別,使用領域本體字典則可以幫助機器更準確地理解專業(yè)術語。此外,封閉領域的專業(yè)詞匯數(shù)量相對少,新增速度慢,所以在建立相對完善的領域本體字典后,后續(xù)更新維護成本較低。
電力設備缺陷文本是由人工記錄的描述電力設備缺陷現(xiàn)象的文本[3],會涉及較多出現(xiàn)頻率不高的專業(yè)詞匯,且同一指代可能有書面語、口語、簡稱等多種表述,因此為了保證分詞的準確性,建立并優(yōu)先使用電力本體字典是一個有效的方法[4]。通過電力本體字典,再結合多種文本挖掘技術,已可以實現(xiàn)缺陷精細化統(tǒng)計[4]、缺陷文本準確檢索[5]、缺陷文本質量評價與提升[6-7]、缺陷自動分類與評級[8-9]、參與設備狀態(tài)評價[3]等功能。上述挖掘技術,大都基于機器學習或深度學習的方法,如缺陷文本分類,文獻[8]采用了CNN技術,并針對性地進行了模型的設計和改進,取得了較好的分類精度和效率;而文獻[9]則采用了基于注意力機制的雙向長短期記憶網(wǎng)絡模型,也取得了較好效果。機器學習的方法是基于詞的統(tǒng)計特征對文本進行表示,所選取的特征基本局限于關鍵詞出現(xiàn)與否,或者詞的出現(xiàn)頻率[3],對關鍵詞的內(nèi)在邏輯缺乏考慮。深度學習方法的發(fā)展雖然在文本特征提取和泛化能力提高上有了一定的進步[10],但是依然沒有突破語義框架二維表結構的局限,沒能應用關鍵詞間的內(nèi)在邏輯。
近年來,知識圖譜技術由于采用圖結構對文本信息及其之間的關系進行表示,并可以通過知識推理等方式充分利用文本信息之間的邏輯關系,而受到了普遍關注,已經(jīng)被用于智能搜索、智能問答、智能推薦及智能決策等領域[11]。在電力領域的多種業(yè)務中也陸續(xù)出現(xiàn)了一些知識圖譜的構建與應用,如電力調度[12-13]、電力運檢[5-6]等。然而,目前的研究以概念框架為主,或局限于圖譜的理論構建,缺乏具體實施應用效果的分析與總結。針對電力設備缺陷文本,文獻[5-6]進行了相應知識圖譜的構建方法研究,并基于構建的知識圖譜進行了電力設備缺陷文本檢索與查錯的應用實驗,取得了良好的效果。然而在工程應用中發(fā)現(xiàn),隨著缺陷文本語料庫的不斷擴大,該方法出現(xiàn)了一些未曾被考慮到的問題,如少量高頻詞匯“開關”、“指示”等,存在一詞多義的詞匯歧義問題,并且還缺少知識圖譜更新方法。
針對上述應用中發(fā)現(xiàn)的問題,本文研究了解決對策。重點針對詞匯歧義問題提出了將歧義實體詞與相鄰詞匯合并為新實體詞加入電力本體字典的解決辦法,并明確電力本體字典按詞匯長度降序排列的規(guī)則;針對知識圖譜更新問題,提出了通過文本查錯來篩選新知識的增量更新方法和通過文本路徑查找來篩選退化知識的方法。
(h,r,t)三元組是構成知識圖譜的基本單元,h為頭實體(head),r為關系(relation),t為尾實體(tail),不同實體通過關系進行有向連接。從圖的角度看,知識圖譜是一種以實體為節(jié)點,以關系為有向邊的網(wǎng)狀有向圖結構。電力設備缺陷文本知識圖譜是根據(jù)缺陷文本中蘊含的實體以及實體間的關系建立起來的,其構建方法[5-6]大致如下:①實體/屬性抽取。依據(jù)事先構建的電力本體字典[4],從電力設備缺陷文本語料庫中抽取實體詞匯,并定義了如下4類實體詞性進行標注:描述電力設備的名詞En、描述缺陷現(xiàn)象的動詞Pv、描述缺陷程度的副詞Pad、描述缺陷程度的量詞Pq。②共指消解。設置了“同義詞.txt”文檔,用于存儲同義詞。判斷上一步中的實體詞是否屬于同義詞,若是,則將同義詞轉化為標準詞。③關系抽取。識別實體間是否存在關系以及關系的類型。上述四類實體詞匯可生成如表1所示的4種關系,不同實體通過這些關系形成具體的三元組,成為缺陷文本知識圖譜的基礎。④關系篩選處理。對上一步中自動抽取出來的關系進行人工確定或修正。⑤數(shù)據(jù)整合。從缺陷文本歷史語料庫中提取的與從文獻[14]中提取的三元組相合并,形成電力設備缺陷文本知識圖譜。
為了便于對數(shù)據(jù)層進行調用和修改,將缺陷文本知識圖譜按照關系類型以三元組表的形式存儲在4個excel文件中,文件名詳如表1所示,其中頭實體h、尾實體t均以詞匯形式表示,關系r以數(shù)字形式表示。之后使用知識圖譜時,只需要將4個文件中的數(shù)據(jù)導入即可。
表1 三元組與對應的存儲文件Tab.1 Triples and corresponding storage files
基于構建的知識圖譜,可以進行缺陷文本的檢索、查錯、自動分類等應用,下面以新錄入缺陷文本的查錯為例介紹知識圖譜的應用過程。
一條合格的缺陷文本必須包括缺陷位置和缺陷現(xiàn)象,也可以包括對缺陷程度的描述,因此在知識圖譜圖結構上,其對應的節(jié)點與邊所構成的完整路徑需要滿足以下3個條件:①所有En節(jié)點構成單樹支的包含關系;②處于樹支最末端的En節(jié)點與Pv節(jié)點相連接;③若存在Pad節(jié)點和Pq節(jié)點,則它們需與Pv節(jié)點相連接。運用圖搜索算法進行文本查錯時,不存在質量問題的文本一般缺陷部位和現(xiàn)象描述準確,路徑唯一存在;而存在質量問題的文本通常有以下幾種表現(xiàn):可能因為缺陷位置層級描述不詳而查找到多條路徑;也可能因為缺少缺陷現(xiàn)象、缺陷位置或者實體之間的關系而無法查找到完整路徑。據(jù)此可以依據(jù)路徑查找的結果判斷文本是否存在質量問題。為了方便錄入人員對存在質量問題的文本進行修改,可以將文本錯誤類型分為5種,并給出對應提示,如表2所示。
表2 文本的錯誤類型、錯誤原因及報錯提示Tab.2 Types,causes and message of text errors
新輸入缺陷文本的查錯流程如圖1所示。其中,同義詞替換參照“同義詞.txt”文檔,將同義詞統(tǒng)一規(guī)范化替換;在知識圖譜中查找待查錯文本的路徑時采用的是圖搜索算法;若判斷文本存在質量問題,則給出相應的報錯提示。
圖1 缺陷文本查錯流程Fig.1 Flow chart of defect text error checking
在上述構建電力設備缺陷文本知識圖譜和應用其進行文本查錯的實踐過程中,發(fā)現(xiàn)實際缺陷文本知識圖譜還有一些尚未被考慮到的問題需要解決。
1.3.1 復雜多樣的文本質量問題
(1)詞匯錯記。由于增字、漏字、錯別字三類原因導致實體詞匯出現(xiàn)錯誤?;陔娏Ρ倔w字典的分詞與實體識別方法無法對錯字實體詞進行識別,反而有利于這類文本質量問題的發(fā)現(xiàn)。不同的錯字實體詞會導致不同的報錯類型,如增字將“進油管”錯記為“進油口管”,“進油管”是出現(xiàn)缺陷現(xiàn)象的位置,所以會導致該條記錄中的Pv詞匯“漏油”尋找不到與之匹配的En詞匯,報錯結果為“漏油無對應對象”。對于這類錯誤,需要錄入人員根據(jù)報錯提示對詞匯進行修正。
(2)詞匯缺省。缺陷文本錄入是個主觀性較強的工作,描述缺陷時,不同的人會形成不同詳細程度的文本。因而經(jīng)常會出現(xiàn)缺省某一個或某幾個設備層級的缺陷部位描述,體現(xiàn)在知識圖譜中,就是缺少一些En節(jié)點而無法形成完整路徑。圖搜索算法具有基于圖的知識推理功能,可以挖掘圖中隱含知識,推斷出缺省部分所有可能的情況,每種可能都會結合已確定的部分生成一條路徑。如果路徑能夠唯一確定,說明缺省部分可以被確定性的推斷出來,就可以自動補充完整,因此可以視作正確文本。但若路徑無法唯一確定,說明無法準確推斷出省略的中間部分,只能將該文本視作錯誤文本,錯誤類型為“對象不唯一”。
(3)記錄不全。存在嚴重的內(nèi)容缺失而無法理解,如“通信異常”、“指示不清”,只有缺陷現(xiàn)象沒有缺陷部位描述。這類問題難以參考其他文本或者設備缺陷用語規(guī)范實現(xiàn)精準補全,只能在錄入時進行管控,要求錄入人員按照錯誤類型提示予以補充,直到滿足質量要求。
(4)詞匯歧義。構建電力設備缺陷知識圖譜時,認為它屬于封閉域知識圖譜,實體詞義僅限于電力領域,且電力行業(yè)有明確的術語規(guī)范,基本不存在歧義問題,因此省略了實體消歧步驟。但是工程應用中發(fā)現(xiàn),由于記錄習慣和中文詞匯的多義性等問題導致少量高頻詞匯出現(xiàn)歧義問題,主要表現(xiàn)為En詞匯的一詞多義和實體詞匯的詞性歧義,需要進行實體消歧以統(tǒng)一語義表達。這類問題難以通過文本錄入時的質量查錯得到解決,具體的原因分析及解決辦法后續(xù)重點說明。
1.3.2 知識圖譜更新的繼承和發(fā)展問題
知識圖譜需要在不斷應用中,評估其質量,并結合知識的發(fā)展與豐富,對其進行更新與修正。然而實際應用中,存在兩難情況:一方面,知識圖譜的構建過程雖然可以自動實現(xiàn),但還需要人工參與才能保證知識圖譜的質量,如實體詞及其詞性、同義詞、關系篩選等均需要人工確認或修改,因此知識圖譜自動更新容易覆蓋掉人工參與的成果,出現(xiàn)繼承困難問題;另一方面,隨著技術的發(fā)展電力設備在更新?lián)Q代,電力設備缺陷文本知識圖譜的發(fā)展不僅是增加新的缺陷知識,還需要刪除失效的缺陷知識,相對新增來說,刪除更為困難。因此,知識圖譜更新過程中,這種繼承和發(fā)展的平衡是一大難點。
記錄人員出于記錄習慣等原因,對于一些電力設備、部件等專有名詞會使用簡稱或者代稱,這樣會導致En詞匯的多詞同義和一詞多義。多詞同義可以通過同義詞的替換來實現(xiàn)統(tǒng)一,而一詞多義屬于歧義問題,在構建知識圖譜過程中,需要在關系抽取前增加實體消歧。
實體消歧目前主要采用聚類法,常用模型有語義模型、社會網(wǎng)絡模型等。但是這些模型的訓練效果受文本質量和數(shù)量影響很大,多應用于大型開放域知識圖譜,如百科網(wǎng)站。用于缺陷文本這種規(guī)模不大的封閉域效果難以得到保證,為此使用電力本體字典輔助分詞來實現(xiàn)實體消歧。
電力本體字典參與分詞時,是按照詞匯排列順序作為依據(jù)對文本進行分詞,即匹配到排在前面的詞,那該詞就被分出。因此為避免長實體詞匯被拆分,提出電力本體字典要按照詞匯長度降序排列的規(guī)定,且先使用電力本體字典分詞,再進行jieba分詞?;谏鲜雠判蛞?guī)則和分詞規(guī)則,對于存在多種含義的En詞匯,可以通過將該實體詞匯與相鄰實體詞匯合成為一個新的長實體詞匯來進行識別,即通過提高詞匯長度來保證優(yōu)先被識別,實現(xiàn)實體消歧。以缺陷文本“儲能電源開關合不上”為例,最初的分詞情況為“儲能/電源/開關/合不上”,該分詞結果中的“開關”會被同義詞“斷路器”替代,發(fā)生實體歧義。將“開關”與相鄰的“電源”實體詞匯合并成“電源開關”,標注En詞性,并按照詞匯長度將其放到電力本體字典相應位置。再進行分詞時,“電源開關”由于詞匯長度比“電源”和“開關”長,會被優(yōu)先檢索到,分詞結果就會變?yōu)椤皟δ?電源開關/合不上”,新的分詞結果與原有的“開關”進行了區(qū)分又沒有影響文本語義的整體識別,達到了消歧的目的。在新實體詞實現(xiàn)消歧后,需要根據(jù)新詞匯與其他實體詞之間的關系更新三元組表,保證知識圖譜中知識的完整性和準確性。
由于中文文本的詞性和語法結構等原因,有一些中文詞匯在不同的缺陷文本中出現(xiàn)兼類現(xiàn)象,且缺乏形態(tài)轉換等區(qū)分手段,如表3所示。以“顯示”這個實體詞為例,它原本是Pv詞匯,如表3的第1句;但是也常作為“顯示值”或者“顯示結果”的簡稱,因此又被用作En詞匯,如表3的第2句,這樣就出現(xiàn)了詞性歧義。構建和使用知識圖譜過程中,在進行文本分詞和詞性標注時,沒有對實體詞的多種詞性進行區(qū)分;且同義詞轉化是在詞性標注之后,因此無法將En詞性的“顯示”進行同義詞轉化以作區(qū)分。并且,一些歧義詞的詞性還會影響其他詞匯的詞性,如表3的第3句,“顯示”和“異?!边@兩個詞有兩種詞性定義方式,即①“顯示”是Pv詞匯,“異常”作為“顯示”的修飾詞是Pad詞匯;②“顯示”是En詞匯,“異常”作為“是異常的”的縮略寫法,是Pv詞匯。這種復雜情形再度增加了知識圖譜對歧義詞匯識別的困難性。缺陷文本中存在詞性歧義的詞大概有十幾個,如“遙控”、“指示”等,它們出現(xiàn)頻率較高。
詞性歧義問題也可以通過電力本體字典輔助分詞來實現(xiàn)消歧。對于存在多種詞性的實體詞匯,一般設定一種常用的詞性,對存在該詞匯其他詞性的文本,尋找與該詞匯相鄰的詞匯,將其合并為一個新詞匯添加到電力本體字典進行識別。仍以“顯示”為例,考慮到En詞性易于與相鄰詞匯合并,所以在電力本體字典中將其定義為Pv詞性,而當其在句子中呈現(xiàn)En詞性時,則與相鄰詞匯合并為新的實體詞,如表3中第2句合并為Pv詞性的“顯示不一致”,第3句合并為Pv詞性的“顯示異?!?。合并后詞匯長度增加,不會對原有詞的識別產(chǎn)生不利影響。如原有詞“異?!?,是出現(xiàn)頻率較高的Pv詞匯,如表3中第4、5句,新增的“顯示異?!睂嶓w詞匯加入電力本體字典后,對其識別沒有影響。因此,上述解決辦法,不僅與原有詞性進行了區(qū)分又沒有影響文本語義的整體識別,達到了消歧目的。
表3 詞性歧義詞匯及實體消歧示例Tab.3 Examples of word of speech ambiguities and entity disambiguation
知識圖譜更新包括新增知識和退化知識,即增減實體以及實體之間的關系。目前,針對電力領域知識圖譜更新的研究相對較少。知識圖譜的更新方式有兩種,全面更新和增量更新。全面更新是在新數(shù)據(jù)加入后,依據(jù)現(xiàn)有數(shù)據(jù)重新自動構建知識圖譜,常用于搜索引擎更新等開放域應用場景。增量更新大多是提取出新增數(shù)據(jù)中的新知識,加入到原有知識圖譜中,這種更新方式資源消耗小,并能夠利用之前的知識積累,多適用于封閉域知識圖譜,是未來的發(fā)展方向。根據(jù)缺陷文本知識圖譜的特點,并考慮新知識的有限性以及知識圖譜中已有的人工經(jīng)驗需要繼承,采用增量更新方式,實現(xiàn)最大程度的知識繼承。
新知識主要來自2種,一種是新實體的出現(xiàn)以及相關的三元組增加;另一種是原來無關系的一對實體產(chǎn)生了新的關系。篩選新知識需要先找到含有新知識的缺陷文本,依靠人工尋找的方式效率低下且難以保證找全。在運用缺陷文本知識圖譜進行缺陷文本查錯的過程中發(fā)現(xiàn),報錯的文本除了存在質量問題,也可能是存在某些未被識別的知識。因此可以通過對新的缺陷文本集進行查錯和在報錯文本中剔除質量確實存在問題的文本2個步驟,篩選出含有新知識的文本。從報錯文本中篩選新知識需要人工經(jīng)驗參與,之后進行新知識與舊知識圖譜的融合,這樣既保證準確性又大幅度地縮小了新知識的查找范圍,提高了知識篩選的效率。
比如“電容器開關內(nèi)部并聯(lián)電阻燒毀”,報錯為“并聯(lián)電阻無對應現(xiàn)象”。經(jīng)查,“并聯(lián)電阻”與“燒毀”這一對實體詞匯之間的關系在已有的知識圖譜中不存在,即出現(xiàn)了新知識,需要在stnstv.xls表中增加該三元組知識。表2中的文本錯誤類型對產(chǎn)生新知識的原因有指導作用,錯誤類型對應的新知識類型如表4所示。
表4 文本的錯誤類型與新知識類型Tab.4 Error types and new knowledge types of text
知識圖譜更新流程如圖2(a)所示。更新效果可以用正確文本的查錯進行驗證,直到?jīng)]有出現(xiàn)新的錯誤。需說明的是,由于知識圖譜通常是逐步更新的,即每次發(fā)現(xiàn)含有新知識的文本較少,因此可以由人工輔助來更新知識圖譜,涉及的文件包括電力本體字典、同義詞表和4個三元組表。上述更新方法可以最大限度地保護原知識圖譜中經(jīng)過人工確認過的知識,又能夠更多的識別新知識,達到知識圖譜繼承與發(fā)展的平衡。同時,由于在此過程中可以識別到新增或者變化的實體詞,電力本體字典也能得到更新維護。
尋找退化的知識一般有2種情景:①定期對知識圖譜進行維護,刪除長期不用的知識;②已知某類設備停用,刪除相關知識。運用圖搜索算法進行文本路徑查找的過程中,可以對查找到的知識圖譜中的節(jié)點和邊進行標記,進而篩選出退化知識。上述2種情景中,對于前者,可以對一定年限內(nèi)的缺陷文本進行路徑查找與標記,無標記的節(jié)點和邊就是退化的;對于后者,可以從缺陷文本語料庫中找出所有與停用類型設備相關的缺陷文本,而后對剩余的缺陷文本進行路徑查找和標記,無標記的節(jié)點和邊也是退化的。
篩選出退化的節(jié)點與邊之后,就可以對它們進行刪除,也就是在電力本體字典、同義詞表和4個三元組表中刪除退化的實體詞、三元組等知識。之后,可以通過文本查錯來校驗更新后的知識圖譜的完整性,即文本查錯結果滿足如下要求:①對含有退化知識的文本查錯時均應報錯;②對不含退化知識的正確文本查錯時均不報錯。退化知識的刪除過程如圖2(b)所示。
圖2 知識圖譜更新流程Fig.2 Flow chart of knowledge graph updating
選擇2 800條缺陷文本及文獻[14]作為訓練集,隨機選取新錄入的500條缺陷文本作為測試集,驗證詞匯歧義問題解決方法和知識圖譜增量更新方法的效果。
實驗過程中用到3個版本的知識圖譜,它們的更新過程如圖3所示。運用本文1.1節(jié)所述的知識圖譜構建方法,使用初始的電力本體字典,獲得缺陷文本知識圖譜版本S1。采用第2節(jié)所述的實體消歧方法,實現(xiàn)了對版本S1的實體消歧,形成知識圖譜版本S2。在使用S2對測試集進行文本查錯后,采用第3節(jié)所述的知識圖譜增量更新方法,根據(jù)報錯文本篩選新知識,對S2進行知識圖譜更新,形成知識圖譜版本S3。在評價各版本知識圖譜的缺陷文本查錯效果時,采用錯誤文本的查準率P、查全率R和F1值3個指標[6]。
圖3 實驗過程中知識圖譜的版本更新示例Fig.3 Example of knowledge graph version updating during experimental process
在測試集包含的500條缺陷文本中,人工檢查認為存在質量問題的文本共有211條?;赟1、S2、S3版本知識圖譜對測試集的文本查錯結果統(tǒng)計如表5所示,3種性能指標如表6所示。
表5 3個知識圖譜的文本查錯數(shù)量統(tǒng)計Tab.5 Text error checking quantity statistics of three knowledge graphs
表6 3個知識圖譜的文本查錯性能指標Tab.6 Text error checking performance indexes of three knowledge graphs
知識圖譜版本S1在查準率和查全率方面都相對較弱,其中由于歧義問題導致的誤判大約占一半的比例。對S1增加實體消歧功能得到知識圖譜版本S2,S2的性能尤其是查全率相較于S1有明顯的提升,說明在增加了實體消歧功能后,知識圖譜文本查錯模型的性能得到了提升,特別是在尋找真正的錯誤文本方面取得了較大進步。
版本S1和S2的部分結構如圖4所示,“電抗器溫度計顯示異?!痹诎姹維1中,由于“顯示”為Pv,“異?!币矠镻v,所以兩者間無法建立關系,因此報錯“異常無對應對象”;在版本S2中“顯示異?!睘镻v,是En“溫度計”的現(xiàn)象,所以為正確的缺陷描述。
圖4 知識圖譜部分結構示例Fig.4 Examples of partial structure of knowledge graph
知識圖譜版本S3在查準率方面相較于S2有所提升,這是因為S2是基于訓練集生成的,在測試集中存在一些相較于S2版本具有新知識的正確文本,被其誤判為錯誤文本。而S3版本是在S2基礎上增加了這些新知識,所以沒有出現(xiàn)誤判。在S2的報錯文本中,共尋找到7條含有新知識而被誤判的正確文本。以其中的“母分開關連接鋁排示溫蠟片褪色”為例,這條文本在S2版本中報錯“示溫蠟片對象不唯一”,原因是“連接鋁排”在分詞和實體識別過程中沒有被識別為實體詞,知識圖譜中沒有“母分開關-連接鋁排-示溫蠟片”3個En詞匯之間的包含關系。當將其作為新知識加入到知識圖譜后,這條文本在知識圖譜S3中的路徑查找結果如圖5所示。利用這7條文本中的新知識更新S2得到S3版本,電力本體字典條目也相應地由1 785條增加至1 789條,而S3版本的報錯文本中這7條文本均沒有出現(xiàn),且相較于S2版本沒有其他正確文本被判定為錯誤文本,說明新知識成功的融入了知識圖譜,知識圖譜更新得到實現(xiàn)。
圖5 知識圖譜S3示例Fig.5 Example of knowledge graph S3
分析發(fā)現(xiàn),更新后知識圖譜的查全率和查準率普遍較高,主要是因為知識圖譜可以準確地識別關鍵信息、匹配同義詞和進行知識推理,而不局限于字面上的相似度、關鍵詞頻率等信息,并能充分結合電力領域的專業(yè)知識,具有很強的針對性,這些特點是關注語義特征的機器學習和深度學習模型所不具備的。
然而,缺陷文本知識圖譜的性能仍受到一定的限制,制約因素主要有以下兩方面:①缺陷文本質量問題造成的影響。在1.3.1中已總結一些文本質量問題,其中詞匯歧義和詞匯缺省對知識圖譜性能的影響最為嚴重。詞匯歧義問題天然地干擾了關鍵信息的識別;而詞匯缺省則影響了電力設備清晰明確的包含關系,對知識推理和路徑查找產(chǎn)生了嚴重的干擾。隨著文本錄入智能管控的應用,文本信息將會更加規(guī)范,文本質量問題將不斷減弱。②實體和關系提取的結果難以保證絕對準確,影響了知識圖譜的質量。該問題受到文本質量和數(shù)量、分詞模型、關系抽取模型、人工經(jīng)驗等多因素影響,為此,在構建和使用知識圖譜的過程中,需要滾動進行,不斷完善各個步驟,提升知識的準確性和完整性。
本文以知識圖譜技術在電力設備缺陷文本查錯中的應用為例展開研究,總結了電力設備缺陷文本知識圖譜構建與應用中的問題,并給出了相應的解決辦法。重點針對詞匯歧義這個難題,提出了將歧義實體詞與相鄰詞匯合并為新實體詞加入電力本體字典的解決辦法,并明確電力本體字典按詞匯長度降序排列的規(guī)則,進而有效提升了分詞的準確性。此外,提出了一種通過文本查錯來更新知識圖譜的方法,并給出了新知識的篩選與融入流程,以及退化知識的識別與刪除流程,解決了知識圖譜繼承和發(fā)展的平衡難題。
隨著自然語言處理等人工智能技術的發(fā)展,知識圖譜技術將獲得更多的應用,未來電力領域需要探索更多適合知識圖譜應用的需求,并建立知識圖譜質量評價方法。