亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GCN 的配電網(wǎng)知識(shí)圖譜構(gòu)建及應(yīng)用

        2022-04-20 07:24:08宋瑋瓊羨慧竹姚盛楠
        電子設(shè)計(jì)工程 2022年7期
        關(guān)鍵詞:頂點(diǎn)圖譜實(shí)體

        宋瑋瓊,韓 柳,羨慧竹,姚盛楠,郭 帥

        (1.國網(wǎng)北京市電力公司電力科學(xué)研究院,北京 100161;2.華中科技大學(xué),湖北武漢 430070)

        近年來,我國電網(wǎng)規(guī)模的不斷提升以及線路復(fù)雜度的迅速增加,給電網(wǎng)帶來了巨大的挑戰(zhàn),強(qiáng)迫電網(wǎng)升級,提高電網(wǎng)的信息化、智能化成為了重要任務(wù)[1-3]。業(yè)擴(kuò)計(jì)量規(guī)則庫是包括各類電力規(guī)范文件的數(shù)據(jù)庫,是計(jì)量配置方案確定的基礎(chǔ)[4]。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫或者人工查找文檔的方式,雖有優(yōu)勢,但仍有較多局限。同時(shí),方案出錯(cuò)時(shí)會(huì)造成計(jì)量誤差、裝置故障、電量追回等影響和損失[5-6]。

        知識(shí)圖譜技術(shù)是認(rèn)知智能領(lǐng)域中的主要技術(shù),其強(qiáng)大的語義處理和互聯(lián)組織能力,已被廣泛應(yīng)用于智能搜索、智能問答、個(gè)性化推薦等領(lǐng)域[7]。但對非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建知識(shí)圖譜時(shí)仍面臨著較大挑戰(zhàn),例如文檔嵌套實(shí)體、實(shí)體名稱過長、多元關(guān)系、表格關(guān)系處理等問題。

        文中主要從兩個(gè)部分重點(diǎn)講解知識(shí)圖譜的構(gòu)建過程:實(shí)體抽取和關(guān)系抽取。文中采用人工構(gòu)建嵌套規(guī)則進(jìn)行實(shí)體抽取,使用Multi-Self Attention 與圖卷積網(wǎng)絡(luò)結(jié)合的方法進(jìn)行關(guān)系抽取。

        1 知識(shí)圖譜及其關(guān)鍵技術(shù)

        知識(shí)圖譜按使用范圍分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,通用知識(shí)圖譜強(qiáng)調(diào)廣度,數(shù)據(jù)多來自于互聯(lián)網(wǎng),常見的通用知識(shí)圖譜有CYC、WordNet、FreeBase等[8]。而領(lǐng)域知識(shí)圖譜應(yīng)用于垂直領(lǐng)域,以領(lǐng)域或企業(yè)內(nèi)部的數(shù)據(jù)為主要來源,知識(shí)結(jié)構(gòu)復(fù)雜,通過對企業(yè)內(nèi)部的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合抽取并依靠人工進(jìn)行審核校驗(yàn)來保證質(zhì)量。知識(shí)圖譜構(gòu)建主要包括命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)。

        命名實(shí)體識(shí)別的主要任務(wù)是識(shí)別出文本中出現(xiàn)的專有名稱和有意義的數(shù)量短語并加以歸類。實(shí)體識(shí)別主要有以下幾種方法:1)基于規(guī)則。如NTU 系統(tǒng)、FACILE 系統(tǒng)、OKI 系統(tǒng);2)基于統(tǒng)計(jì)。如n 元模型、隱馬爾科夫模型(HMM)、條件馬爾科夫模型等;3)混合方法。借助規(guī)則知識(shí)及早剪枝,再用統(tǒng)計(jì)模型是比較好的方法[9-12]。

        關(guān)系抽?。≧elation Extraction)是信息抽取的關(guān)鍵內(nèi)容,旨在發(fā)現(xiàn)現(xiàn)實(shí)世界實(shí)體(Entity)間的語義關(guān)系。該項(xiàng)技術(shù)被廣泛應(yīng)用在自然語言處理任務(wù)中,包括知識(shí)圖譜(Knowledge Graph,KG)的構(gòu)建及補(bǔ)全、問答系統(tǒng)等任務(wù)[13-14]。傳統(tǒng)的關(guān)系抽取研究通常采用監(jiān)督學(xué)習(xí),可取得一定的分類效果,但是需要代價(jià)高昂的人工標(biāo)注數(shù)據(jù)。為了解決該問題,研究人員基于假設(shè)提出遠(yuǎn)程監(jiān)督(Distant Supervision)-自動(dòng)生成標(biāo)注數(shù)據(jù)方法,遠(yuǎn)程監(jiān)督解決了標(biāo)注數(shù)據(jù)不足的問題,但其假設(shè)并不總是正確,導(dǎo)致生成的標(biāo)注數(shù)據(jù)中存在大量的錯(cuò)誤標(biāo)注數(shù)據(jù),對關(guān)系抽取模型造成不利影響[15]。后續(xù)又有專家提出了使用圖卷積神經(jīng)網(wǎng)絡(luò)的方法解決關(guān)系抽取問題并取得了不錯(cuò)的效果[16]。

        文中的知識(shí)圖譜構(gòu)造被分為兩大步驟,分別是實(shí)體識(shí)別和關(guān)系抽取,并重點(diǎn)介紹關(guān)系抽取的方法。為獲得更加準(zhǔn)確的實(shí)體,文中采用由專家制定實(shí)體規(guī)則模板匹配的方法,共計(jì)7 類實(shí)體。同時(shí)文中采用由attention 引導(dǎo)的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,把關(guān)系的類別定義成6 類,包括安裝位置、安裝方式、采用、限定、接線方式、其他。

        2 配電網(wǎng)計(jì)量知識(shí)圖譜構(gòu)建

        2.1 計(jì)量知識(shí)圖譜構(gòu)建及應(yīng)用框架

        文中提出的基于GCN 的配電網(wǎng)計(jì)量知識(shí)圖譜構(gòu)建的算法模塊如圖1 所示。

        圖1 算法模塊

        首先接收技術(shù)規(guī)則原始文檔,對其進(jìn)行格式處理,包括格式對齊、數(shù)據(jù)清洗等。第二步采用人工制定模板匹配的方法完成實(shí)體識(shí)別;第三步采用基于GCN 和注意力機(jī)制結(jié)合的方法完成關(guān)系抽取任務(wù);最終對抽取出的<實(shí)體-關(guān)系-實(shí)體>三元組構(gòu)建配電網(wǎng)計(jì)量知識(shí)圖譜。文中將重點(diǎn)介紹關(guān)系抽取的具體方法與實(shí)驗(yàn)。

        2.2 計(jì)量本體抽取

        文中考慮到使用以往的方法可能導(dǎo)致較多無關(guān)實(shí)體的出現(xiàn),因此文中采用人工制定規(guī)則進(jìn)行匹配的方法進(jìn)行實(shí)體抽取。首先由專家指定出電力文檔中的實(shí)體規(guī)則,然后按照字符串匹配的方式來匹配計(jì)量文檔的各類實(shí)體,共計(jì)7 類實(shí)體。

        2.3 計(jì)量關(guān)系抽取

        文中主要通過以下步驟講解關(guān)系抽取的具體步驟。

        第一步:數(shù)據(jù)預(yù)處理與模型輸入,將數(shù)據(jù)的信息依存樹提取出來,構(gòu)建鄰接矩陣作為句子的結(jié)構(gòu)特征。同時(shí)利用GloVe 模型獲得句子的詞向量表達(dá)w1,并且實(shí)體之間的相對位置信息也具有很重要的作用,因此在詞向量中加入位置信息p1,表示兩個(gè)實(shí)體的相對距離,將詞向量和位置信息結(jié)合起來,作為句子的特征向量的嵌入表達(dá):

        第二步:LSTM 是一種長短期記憶網(wǎng)絡(luò),能夠捕捉句子中長距離的依賴關(guān)系,而有時(shí)僅通過單向的LSTM 模型不能獲取足夠的依賴信息,模型需要獲得前文和后文的信息,來進(jìn)行更優(yōu)的預(yù)測。因此為了獲得句子的上下文信息,文中選擇雙向LSTM 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到帶有上下文信息的隱藏層表達(dá)X。

        第三步:圖卷積網(wǎng)絡(luò)(GCN)是一種在圖結(jié)構(gòu)上進(jìn)行計(jì)算的多層神經(jīng)網(wǎng)絡(luò),這里的圖可以是知識(shí)圖譜之類的有向圖,也可以是一些無向圖結(jié)構(gòu)。GCN 可以對輸入圖中的節(jié)點(diǎn)或邊進(jìn)行編碼,并且同時(shí)包含其關(guān)聯(lián)節(jié)點(diǎn)的信息。在這里,將鄰居矩陣A和初始的句子的嵌入表達(dá)X 作為圖卷積網(wǎng)絡(luò)的輸入。通過圖卷積網(wǎng)絡(luò),中心節(jié)點(diǎn)可以融合到鄰居節(jié)點(diǎn)的特征信息,相當(dāng)于將句子的結(jié)構(gòu)信息與特征信息融合。具體公式如下:

        其中,Aij為鄰居矩陣,wk為參數(shù)矩陣,為上層GCN 的結(jié)果,初始時(shí)為,bk為偏置。

        第四步:在GCN 的訓(xùn)練過程中,不同節(jié)點(diǎn)的邊應(yīng)具有不同的重要程度,例如越近的節(jié)點(diǎn)之間的邊相較于距離更遠(yuǎn)的邊應(yīng)該賦有更高的權(quán)重。為了解決不同節(jié)點(diǎn)之間權(quán)重初始化相同的問題,同時(shí)為了更好地得到節(jié)點(diǎn)之間的關(guān)聯(lián)特征信息,文中使用多頭注意力機(jī)制來學(xué)習(xí)獲取節(jié)點(diǎn)之間的重要程度并將其作為權(quán)重矩陣,送入第二層圖卷積中進(jìn)行訓(xùn)練。公式如下:

        第五步:將句子的隱藏層表達(dá)送入池化層,同時(shí)由于句子中的實(shí)體也有非常重要的作用,因此將用同樣的池化方法得到實(shí)體的隱向量。f:Rd×n→Rd×1是一個(gè)最大池化函數(shù),可將n個(gè)輸出向量映射到一個(gè)句子向量。

        同樣,模型可以獲得實(shí)體表示。對于第i個(gè)實(shí)體,其計(jì)算可表示為:

        將其進(jìn)行拼接,送入前饋神經(jīng)網(wǎng)絡(luò),得到最終的隱藏層結(jié)果,即:

        第六步:關(guān)系分類,將獲得的隱藏層表達(dá)(句子,實(shí)體1,實(shí)體2)送入softmax 分類器得到最終的分類結(jié)果:

        并使用交叉熵作為損失函數(shù):

        2.4 計(jì)量規(guī)則生成

        圖數(shù)據(jù)庫使用的數(shù)據(jù)模型包括簡單圖、屬性圖、超圖及嵌套圖,文中依據(jù)屬性圖為基礎(chǔ)進(jìn)行數(shù)據(jù)存儲(chǔ)。圖由頂點(diǎn)和邊組成,頂點(diǎn)與頂點(diǎn)之間由邊連接。屬性圖的頂點(diǎn)有標(biāo)簽、頂點(diǎn)的屬性及屬性值;屬性圖的邊有類型、方向、屬性及屬性值。每個(gè)頂點(diǎn)都包含標(biāo)簽和屬性,其中標(biāo)簽代表頂點(diǎn)的分類,屬性用來描述頂點(diǎn)的特征,用一組鍵值對來存儲(chǔ)。例如一個(gè)名稱為發(fā)電企業(yè)的用戶,在圖數(shù)據(jù)庫中用一個(gè)頂點(diǎn)表示,頂點(diǎn)的標(biāo)簽是“用戶”,屬性(name:發(fā)電企業(yè))則代表用戶的特征。邊包含類型和方向,其中類型代表關(guān)系的名字,方向則表示頂點(diǎn)之間邊的方向。例如名稱為用戶的節(jié)點(diǎn)包含發(fā)電企業(yè)節(jié)點(diǎn)時(shí),用戶與發(fā)電企業(yè)之間存在一條邊,邊的方向是從用戶到發(fā)電企業(yè)。邊也可以包含屬性,采用鍵值對存儲(chǔ)。例如給邊增加權(quán)重、特性等信息時(shí),即可以給邊增加屬性。如圖2 是一個(gè)簡單的圖數(shù)據(jù)庫例子。若用戶希望獲得“發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn)的安裝位置”,針對這類查詢,結(jié)合圖2 中所示的數(shù)據(jù),可將查詢表示為路徑:(發(fā)電企業(yè))→[限定]→(發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn))→[位置]→(位置信息xxx),其中()表示頂點(diǎn),第一個(gè)頂點(diǎn)信息由查詢條件給定;[]表示關(guān)系;→表示方向。該查詢中涉及未知個(gè)數(shù)的頂點(diǎn)以及兩層關(guān)系,最后對最終的結(jié)果進(jìn)行排序。

        圖2 知識(shí)圖譜規(guī)則查詢簡單示例

        3 實(shí)驗(yàn)分析

        3.1 評價(jià)指標(biāo)

        文中的關(guān)系抽取實(shí)驗(yàn)采用精確率、召回率以及F1 值作為關(guān)系抽取的實(shí)驗(yàn)指標(biāo),其中,精確率是針對預(yù)測結(jié)果而言的,表示預(yù)測為正的樣本中有多少是真正的正樣本,公式為:

        召回率表示樣本中的正例有多少被預(yù)測正確,公式為:

        為了能夠評價(jià)不同算法的優(yōu)劣,在精確率和召回率的基礎(chǔ)上使用F1 值的概念,對精確率和召回率進(jìn)行整體評價(jià)。F1 的定義如下:

        3.2 實(shí)驗(yàn)數(shù)據(jù)集

        文中的關(guān)系抽取數(shù)據(jù)集主要來自電力計(jì)量規(guī)則文檔,文中首先進(jìn)行了格式處理、數(shù)據(jù)清洗等工作。其中數(shù)據(jù)樣例為“適用于發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn)的安裝位置為并網(wǎng)線路側(cè)”。其中“發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn)”為實(shí)體1,“并網(wǎng)線路側(cè)”為實(shí)體2。文中的數(shù)據(jù)總量為7 800 條,其中7 000 條為訓(xùn)練集,800 條為測試集。關(guān)系類別共有6 種,分別為安裝位置、安裝方式、采用、限定、接線方式、其他。其他代表實(shí)體之間除上述5 類之外的關(guān)系。

        3.3 結(jié)果與分析

        3.3.1 實(shí)驗(yàn)設(shè)置

        文中為驗(yàn)證構(gòu)建的基于注意力機(jī)制的GCN 模型對于關(guān)系抽取的有效性,以精確率、召回率、F1 值3 個(gè)指標(biāo)來觀測實(shí)驗(yàn)效果。同時(shí)文中在不改變其他超參數(shù)的設(shè)置下,對是否使用注意力機(jī)制和是否加入上下文信息進(jìn)行了測試和實(shí)驗(yàn),并對比二元實(shí)體關(guān)系與三元實(shí)體關(guān)系的抽取結(jié)果。

        文中采用的硬件條件是單塊Tesla P4 的GPU,CentOS 7.8.2003 的操作系統(tǒng)。其中,所有模型均使用了隨機(jī)梯度下降的方法進(jìn)行訓(xùn)練。

        3.3.2 電力數(shù)據(jù)集的注意力機(jī)制實(shí)驗(yàn)

        從表1 可以看出,在增加了注意力機(jī)制后,精確率、召回率和F1 值均優(yōu)于無注意力機(jī)制的模型效果,同時(shí)三元實(shí)體的關(guān)系抽取效果比二元實(shí)體的關(guān)系抽取效果好,因此可以看出注意力機(jī)制對圖卷積模型特征提取的有效性。

        表1 電力數(shù)據(jù)集的注意力機(jī)制實(shí)驗(yàn)精確率、召回率和F1值

        3.3.3 電力數(shù)據(jù)集的上下文信息實(shí)驗(yàn)

        在模型中通過加入LSTM 模塊可以得到文本的上下文信息,如表2 所示,當(dāng)模型中缺失了上下文信息,模型效果會(huì)有明顯的下降。因此可以看出文本的上下文信息對關(guān)系抽取模型的有不小的影響。

        表2 電力數(shù)據(jù)集的上下文信息實(shí)驗(yàn)精確率、召回率和F1值

        3.3.4 知識(shí)圖譜建立與規(guī)則測試效果

        當(dāng)完成了關(guān)系抽取任務(wù)后,就獲得了<實(shí)體-關(guān)系-實(shí)體>三元組,在經(jīng)過專家核驗(yàn)后,并以此構(gòu)建電力業(yè)擴(kuò)計(jì)量知識(shí)圖譜。通過規(guī)則測試,精確率可以達(dá)到79.4%,查詢效果如圖3 所示。

        圖3 查詢效果展示圖

        4 結(jié)束語

        目前知識(shí)圖譜已廣泛應(yīng)用在各種通用領(lǐng)域,然而各行業(yè)數(shù)據(jù)結(jié)構(gòu)復(fù)雜、不規(guī)范,導(dǎo)致在知識(shí)圖譜的構(gòu)建過程中遇到了不少困難與挑戰(zhàn)。文中對于電力文檔構(gòu)建知識(shí)圖譜提出了可行的辦法,通過圖神經(jīng)網(wǎng)絡(luò)模型抽取文檔中的關(guān)系,結(jié)合抽取出的實(shí)體,構(gòu)建實(shí)體關(guān)系三元組,并用此構(gòu)建電力業(yè)擴(kuò)計(jì)量知識(shí)圖譜,同時(shí)提出了基于知識(shí)圖譜遍歷的配電網(wǎng)計(jì)量裝置選型規(guī)則生成方法,其生成的規(guī)則更加精確,為電力裝置的選型奠定基礎(chǔ)。

        猜你喜歡
        頂點(diǎn)圖譜實(shí)體
        過非等腰銳角三角形頂點(diǎn)和垂心的圓的性質(zhì)及應(yīng)用(下)
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        關(guān)于頂點(diǎn)染色的一個(gè)猜想
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對接你思維的知識(shí)圖譜
        雜草圖譜
        九九久久精品无码专区| 国产av一区二区日夜精品剧情| 麻豆视频av在线观看| 亚洲免费观看一区二区三区| 日本免费播放一区二区| 青春草在线视频观看| 骚片av蜜桃精品一区| 国产精品刺激好大好爽视频| 亚洲AV成人无码国产一区二区| 国产一区二区精品av| 在线天堂av一区二区| 三a级做爰片免费观看| 亚洲色偷拍区另类无码专区| 国产自在自线午夜精品视频在| 午夜国产精品一区二区三区| 亚洲精品国产第一区二区| 插b内射18免费视频| 午夜国产在线| 91久久精品国产性色tv| 精品一区二区三区人妻久久福利| 91久久国产香蕉视频| 国产精品国三级国产av| 内射交换多p国产| 久久国产香蕉一区精品天美| 韩国日本一区二区在线 | 欧美老熟妇乱子| 少女高清影视在线观看动漫| 国产免费播放一区二区| 一区=区三区国产视频| 国产乱人伦av在线麻豆a| 色偷偷噜噜噜亚洲男人| 亚洲国产一区在线二区三区| 国产福利美女小视频| 美国又粗又长久久性黄大片| 午夜久久久久久禁播电影| 丰满老熟妇好大bbbbb| 色婷婷丁香综合激情| 亚洲国产av一区二区三区天堂 | 亚洲国产精品久久久久秋霞影院| 131美女爱做视频| 中文一区二区三区无码视频|