亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于偽孿生網(wǎng)絡(luò)的政務(wù)實(shí)體鏈接模型

        2021-06-25 02:13:30姬美琳王德軍孟博孫貝爾
        關(guān)鍵詞:政務(wù)圖譜實(shí)體

        姬美琳,王德軍,孟博,孫貝爾

        (中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)

        實(shí)體鏈接(Entity Linking, EL)[1]指將用戶問(wèn)句中的實(shí)體指稱正確地鏈接到知識(shí)庫(kù)中的實(shí)體上,完成問(wèn)句實(shí)體與候選實(shí)體的關(guān)聯(lián)匹配,解決同義詞和多義詞導(dǎo)致的歧義問(wèn)題.實(shí)體鏈接是自動(dòng)問(wèn)答(Question Answering, QA)任務(wù)的核心環(huán)節(jié),是識(shí)別用戶問(wèn)句意圖的關(guān)鍵步驟.實(shí)體鏈接過(guò)程中存在大規(guī)模的實(shí)體匹配計(jì)算,實(shí)體鏈接的準(zhǔn)確性和響應(yīng)時(shí)間直接決定問(wèn)答系統(tǒng)的性能.本文主要針對(duì)政務(wù)知識(shí)圖譜問(wèn)答性能需求,研究滿足政務(wù)交互式問(wèn)答應(yīng)用場(chǎng)景的高準(zhǔn)確度、低響應(yīng)時(shí)延的實(shí)體鏈接模型.

        傳統(tǒng)的知識(shí)圖譜問(wèn)答系統(tǒng)基于字符相似和統(tǒng)計(jì)學(xué)方法解決實(shí)體鏈接任務(wù),模型缺乏語(yǔ)義匹配能力,鏈接準(zhǔn)確率低,不能充分滿足政務(wù)問(wèn)答需求[2].基于深度學(xué)習(xí)的實(shí)體鏈接模型近年來(lái)成為研究熱點(diǎn),利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征抽象能力,實(shí)體鏈接模型的語(yǔ)義表示能力和求解準(zhǔn)確性得到較大提高,但模型計(jì)算復(fù)雜度高,模型的性能尚存在瓶頸[3],無(wú)法滿足政務(wù)領(lǐng)域交互式場(chǎng)景的實(shí)時(shí)性要求.此外,政務(wù)實(shí)體的標(biāo)準(zhǔn)名稱與公眾口語(yǔ)表述之間存在較大的差異,給政務(wù)實(shí)體鏈接任務(wù)帶來(lái)了挑戰(zhàn).

        針對(duì)政務(wù)領(lǐng)域圖譜問(wèn)答需求,本文提出了一種基于偽孿生網(wǎng)絡(luò)架構(gòu)的政務(wù)實(shí)體鏈接模型,主要特點(diǎn)包括:(1)引入偽孿生網(wǎng)絡(luò)架構(gòu),解耦問(wèn)句和候選實(shí)體的特征提取過(guò)程,通過(guò)預(yù)先計(jì)算候選實(shí)體的向量表示,降低鏈接過(guò)程中的計(jì)算復(fù)雜度;(2)將政務(wù)知識(shí)圖譜中實(shí)體的上下文子圖信息引入到候選實(shí)體特征提取過(guò)程,利用神經(jīng)網(wǎng)絡(luò)模型提取文本所蘊(yùn)含的深層語(yǔ)義信息,增強(qiáng)模型對(duì)相似政務(wù)實(shí)體的區(qū)分力,提高鏈接的準(zhǔn)確率.

        1 相關(guān)工作

        知識(shí)圖譜(Knowledge Graph,KG)[4]是一種結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),具有強(qiáng)大的語(yǔ)義描述能力,在智能問(wèn)答、個(gè)性化推薦等領(lǐng)域得到廣泛應(yīng)用.知識(shí)圖譜包含開放域(open domain)和限定域(closed domain)兩種類型,如Freebase[5]、DrugBank[6]等.開放域圖譜注重知識(shí)的廣度,通常采取自底向上方式從多源異構(gòu)的數(shù)據(jù)源中抽取、融合知識(shí),構(gòu)建過(guò)程高度自動(dòng)化,需要用戶對(duì)圖譜質(zhì)量有一定的容忍.限定域圖譜關(guān)注知識(shí)的深度,通常采取自頂向下方式從行業(yè)內(nèi)積淀的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)集中抽取知識(shí),并在領(lǐng)域?qū)<抑笇?dǎo)下構(gòu)建,同時(shí)具有人工審核機(jī)制,構(gòu)建過(guò)程半自動(dòng)化,因此限定域圖譜的質(zhì)量更高、語(yǔ)義信息更加豐富[7].政務(wù)知識(shí)圖譜本身屬于限定域,其涵蓋多個(gè)部門1500項(xiàng)以上個(gè)人、法人業(yè)務(wù)事項(xiàng),圖譜規(guī)模較大,所支持的政務(wù)自動(dòng)問(wèn)答應(yīng)用屬于面向終端用戶的交互式服務(wù),應(yīng)用場(chǎng)景對(duì)實(shí)體鏈接的準(zhǔn)確性和響應(yīng)時(shí)間具有綜合性能要求.政務(wù)問(wèn)答應(yīng)用中,用戶問(wèn)句屬于短文本,問(wèn)句中實(shí)體指稱數(shù)量少,指稱上下文信息不足,無(wú)法通過(guò)聯(lián)合推理解決政務(wù)實(shí)體鏈接任務(wù).因此本文提出引入實(shí)體在政務(wù)知識(shí)圖譜中的上下文信息,增強(qiáng)實(shí)體的背景知識(shí),從而提高模型在相似實(shí)體上的區(qū)分度.

        實(shí)體鏈接一般包含兩個(gè)子任務(wù):實(shí)體生成和實(shí)體消歧,相關(guān)研究一般通過(guò)這兩個(gè)階段提高鏈接任務(wù)的準(zhǔn)確率.實(shí)體生成階段目的是生成候選實(shí)體集合,一般通過(guò)加入部分匹配、模糊匹配以及構(gòu)建別名詞典等方式來(lái)提高候選實(shí)體的召回率[8-10];實(shí)體消歧階段目的是從候選實(shí)體集合中選擇符合問(wèn)句語(yǔ)義的目標(biāo)實(shí)體,該階段主要有傳統(tǒng)基于字符相似、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的實(shí)體消歧算法[2].基于字符相似的鏈接算法一般通過(guò)字符相似度排序候選實(shí)體,如編輯距離等,這種方法忽略了問(wèn)句實(shí)體指稱和候選實(shí)體的上下文信息,不適用于解決重名實(shí)體或者別名情況[11].基于機(jī)器學(xué)習(xí)的實(shí)體鏈接模型依賴人工提取的特征和高質(zhì)量的數(shù)據(jù)集,模型的移植性差,在缺乏標(biāo)記數(shù)據(jù)的領(lǐng)域中,模型無(wú)法達(dá)到最佳效果[2].基于深度學(xué)習(xí)的實(shí)體鏈接算法核心在于將不同類型的文本信息映射到同一特征空間內(nèi),學(xué)習(xí)問(wèn)句和候選實(shí)體的語(yǔ)義向量表示,通過(guò)向量相似性求解實(shí)體鏈接任務(wù).文獻(xiàn)[10]為了增強(qiáng)候選實(shí)體語(yǔ)義特征,利用候選實(shí)體的類別、關(guān)系以及知識(shí)庫(kù)鄰近實(shí)體節(jié)點(diǎn)的特征信息作為候選實(shí)體的表示方法,并在WebQuestions-SP外文知識(shí)庫(kù)問(wèn)答數(shù)據(jù)集上驗(yàn)證了算法的有效性,準(zhǔn)確率達(dá)到88%.

        基于深度學(xué)習(xí)的實(shí)體鏈接模型雖然有效地提高了鏈接準(zhǔn)確率,但是由于計(jì)算量大的缺點(diǎn),模型響應(yīng)時(shí)間較長(zhǎng),很難滿足交互式場(chǎng)景下的應(yīng)用需求,模型的整體性能有待提升.孿生網(wǎng)絡(luò)(Siamese Network)[12]包含兩支相同結(jié)構(gòu)的網(wǎng)絡(luò)模型,通過(guò)共享參數(shù)方式優(yōu)化網(wǎng)絡(luò)模型結(jié)構(gòu),兩個(gè)子網(wǎng)計(jì)算過(guò)程相互獨(dú)立,常應(yīng)用于建模相似性比較任務(wù),在人臉識(shí)別、語(yǔ)義搜索等任務(wù)中得到廣泛應(yīng)用.文獻(xiàn)[13]基于孿生網(wǎng)絡(luò)提出SBERT模型,解決了基于BERT的語(yǔ)義搜索任務(wù)計(jì)算量大的問(wèn)題,并且證明了模型具有學(xué)習(xí)句子語(yǔ)義化向量表示的能力.

        綜上所述,為了提高政務(wù)領(lǐng)域鏈接任務(wù)的準(zhǔn)確率,并滿足交互式問(wèn)答場(chǎng)景下的低時(shí)延需求,本文基于偽孿生網(wǎng)絡(luò)(Pseudo-Siamese Network)[14]解耦問(wèn)句和候選實(shí)體的向量提取過(guò)程,通過(guò)預(yù)先提取所有候選實(shí)體的特征向量,減少模型在鏈接過(guò)程中的計(jì)算量,使得候選實(shí)體的特征抽取不再依賴于用戶輸入的問(wèn)句,因此顯著地減少了模型的計(jì)算次數(shù),降低了響應(yīng)時(shí)間.同時(shí),引入候選實(shí)體在知識(shí)圖譜中的上下文信息,填充實(shí)體背景知識(shí)以增強(qiáng)其語(yǔ)義特征,使得鏈接模型在區(qū)分相似實(shí)體上具有更好的效果,從而提高鏈接的準(zhǔn)確率.

        2 政務(wù)實(shí)體鏈接模型

        2.1 實(shí)體上下文信息抽取

        影響政務(wù)實(shí)體鏈接任務(wù)準(zhǔn)確性的關(guān)鍵因素是問(wèn)句中實(shí)體指稱上下文信息不足,如何有效地挖掘問(wèn)句及知識(shí)圖譜的深層語(yǔ)義信息,是提高政務(wù)實(shí)體鏈接任務(wù)準(zhǔn)確性的重要因素.本文通過(guò)引入候選實(shí)體在知識(shí)圖譜中的上下文子圖信息,填充實(shí)體的背景知識(shí),增強(qiáng)模型的語(yǔ)義匹配能力,從而提升實(shí)體鏈接效果.

        候選實(shí)體在知識(shí)圖譜中的上下文子圖信息包含實(shí)體名稱、實(shí)體類型、實(shí)體的結(jié)構(gòu)化屬性以及實(shí)體與其他實(shí)體間的語(yǔ)義關(guān)系.其中對(duì)實(shí)體鏈接任務(wù)具有價(jià)值的信息包括:候選實(shí)體的名稱特征(以N表示),候選實(shí)體的結(jié)構(gòu)化屬性特征(以S表示)以及候選實(shí)體的描述性文本摘要特征(以A表示).特征N包含了實(shí)體的標(biāo)準(zhǔn)名稱、常用名稱、別名、縮寫;特征S包含了實(shí)體的辦理?xiàng)l件、辦理材料、受理對(duì)象、辦理流程四個(gè)結(jié)構(gòu)化屬性特征;特征A主要通過(guò)獲取政務(wù)事項(xiàng)的法律依據(jù)、設(shè)定依據(jù)信息作為政務(wù)事項(xiàng)實(shí)體的文本摘要.

        本文所使用的政務(wù)知識(shí)圖譜數(shù)據(jù)來(lái)源于湖北省政務(wù)服務(wù)網(wǎng),政務(wù)服務(wù)網(wǎng)按照事項(xiàng)主題、辦事部門等類別梳理了多種政務(wù)領(lǐng)域數(shù)據(jù)信息,其提供的數(shù)據(jù)全面且權(quán)威,可以有效地增強(qiáng)實(shí)體的語(yǔ)義特征.以問(wèn)句“公積金的身份證號(hào)碼錯(cuò)了在哪里修改?”為例,問(wèn)句正確的實(shí)體鏈接結(jié)果為“住房公積金個(gè)人賬戶信息變更服務(wù)”事項(xiàng),如表 1所示為從政務(wù)知識(shí)圖譜中抽取的兩個(gè)政務(wù)事項(xiàng)實(shí)體上下文信息,所抽取的上下文信息將作為實(shí)體的背景知識(shí),通過(guò)本文所提模型進(jìn)行特征抽取,得到候選實(shí)體的語(yǔ)義向量表示.

        表1 政務(wù)事項(xiàng)實(shí)體上下文信息示例Tab.1 Examples of government affairs entity context information

        2.2 模型結(jié)構(gòu)設(shè)計(jì)

        政務(wù)實(shí)體鏈接模型需要支持編碼多元信息,并具有較高的計(jì)算效率和較低的時(shí)間復(fù)雜度,因此本文基于偽孿生網(wǎng)絡(luò)架構(gòu)提出一種新的政務(wù)實(shí)體鏈接模型,結(jié)構(gòu)如圖 1所示.網(wǎng)絡(luò)模型包含兩個(gè)非對(duì)稱的左右分支子網(wǎng),每個(gè)分支由嵌入層、卷積層、池化層和全連接層組成.其中嵌入層將問(wèn)句詞序列和候選實(shí)體特征詞序列映射成低維稠密向量,得到初始輸入矩陣,本文使用BERT(Bidirectional Encoder Representations from Transformers)[15]作為嵌入層模型;卷積層進(jìn)行局部特征提取工作,得到多個(gè)特征的向量表示;池化層用于降低向量維度;全連接層對(duì)池化后的向量進(jìn)行線性映射,得到問(wèn)句和候選實(shí)體的最終向量表示.兩個(gè)子網(wǎng)在嵌入層共享參數(shù),在其他層不共享參數(shù).

        圖1 政務(wù)實(shí)體鏈接模型結(jié)構(gòu)Fig.1 Structure of government affairs entity linking model

        左右分支子網(wǎng)分別負(fù)責(zé)編碼問(wèn)句和候選實(shí)體的上下文信息,左側(cè)網(wǎng)絡(luò)用于提取問(wèn)句的文本特征,得到問(wèn)句的向量表示,右側(cè)網(wǎng)絡(luò)用于提取候選實(shí)體上下文信息特征,得到候選實(shí)體的向量表示.本文通過(guò)計(jì)算向量余弦距離得到問(wèn)句與候選實(shí)體的語(yǔ)義相關(guān)度,并對(duì)實(shí)體鏈接的結(jié)果進(jìn)行篩選和排序,選擇最高得分的候選實(shí)體作為目標(biāo)實(shí)體返回.在鏈接過(guò)程中兩個(gè)子網(wǎng)絡(luò)相互獨(dú)立,模型預(yù)先計(jì)算出所有候選實(shí)體的特征向量并保存,然后接收用戶問(wèn)句并提取問(wèn)句特征,得到問(wèn)句的特征向量,最后計(jì)算向量余弦距離,對(duì)候選實(shí)體進(jìn)行打分排序.

        本文所提網(wǎng)絡(luò)模型主要具有以下優(yōu)點(diǎn):(1)模型基于偽孿生網(wǎng)絡(luò)架構(gòu)解耦問(wèn)句和候選實(shí)體的向量映射過(guò)程,使得候選實(shí)體的向量映射過(guò)程獨(dú)立于用戶實(shí)際輸入的問(wèn)句,模型在鏈接過(guò)程中只需要針對(duì)問(wèn)句進(jìn)行一次特征提取,顯著地降低了模型的計(jì)算次數(shù),提高了模型計(jì)算速度;(2)融合BERT和CNN,提升了實(shí)體鏈接模型的語(yǔ)義表示能力和特征抽象能力,使得模型在政務(wù)領(lǐng)域?qū)嶓w鏈接任務(wù)上具有更好的表現(xiàn)力和預(yù)測(cè)效果.

        具體地,政務(wù)實(shí)體鏈接模型的計(jì)算過(guò)程包含問(wèn)句特征向量映射、實(shí)體特征向量映射和語(yǔ)義相關(guān)度計(jì)算三個(gè)過(guò)程.

        2.3 模型計(jì)算過(guò)程

        2.3.1 問(wèn)句向量映射

        問(wèn)句的向量映射過(guò)程如圖 1左側(cè)子網(wǎng)所示,主要包含嵌入層、卷積層、池化層和全連接層,其中卷積層包含兩個(gè)一維卷積操作.問(wèn)句query=(q1q2…qn),qn表示問(wèn)句第n個(gè)詞短語(yǔ),問(wèn)句向量映射的具體計(jì)算過(guò)程如下:

        step1問(wèn)句矩陣化表示:將問(wèn)句轉(zhuǎn)換成BERT標(biāo)準(zhǔn)輸入序列“[CLS]q1q2…qn[SEP]”,通過(guò)獲取BERT最后一層每個(gè)詞短語(yǔ)的輸出向量作為問(wèn)句的初始輸入矩陣Hq=(T1T2…Tn),其中Hq∈R|query|×d,|?|表示字符長(zhǎng)度,d表示BERT模型輸出向量的維度大小.

        step2問(wèn)句特征抽取:使用兩個(gè)卷積核對(duì)Hq進(jìn)行卷積操作,并通過(guò)最大池化層進(jìn)行池化降維,得到問(wèn)句兩個(gè)特征向量E′和E″.E′的計(jì)算如式(1)和式(2)所示:

        E′=max{c},

        (1)

        c=[c1,c2,…,cn-k+1],

        (2)

        其中E′∈R1×h,c∈Rh×(n-k+1),c為卷積操作的輸出矩陣,h為卷積操作的輸出通道大小,k為卷積核大小.對(duì)于單個(gè)卷積操作,計(jì)算如式(3)所示:

        ci,j=f(wHj:j-k+1+b),

        (3)

        其中w∈Rd×k,b∈R,Hj:j-k+1表示問(wèn)句從第j到第j-k+1個(gè)詞短語(yǔ)所對(duì)應(yīng)的BERT輸出向量矩陣,f為非線性激活函數(shù).對(duì)于特征向量E″,其計(jì)算過(guò)程與E′相同,但是卷積核k的大小以及參數(shù)w和b不同.

        step3問(wèn)句向量表示:將兩個(gè)特征向量E′和E″按行拼接,并輸入到全連接神經(jīng)網(wǎng)絡(luò)中進(jìn)行線性映射,得到問(wèn)句的向量表示Eq,計(jì)算公式如下:

        Eq=W′([E′,E″])+b′,

        (4)

        其中Eq∈R1×d′,W′與b′為全連接層的權(quán)值和偏置參數(shù),在訓(xùn)練中更新,且W′∈R2h×d′,b′∈R1×d′,d′表示鏈接模型輸出層詞向量的維度大小.

        2.3.2 實(shí)體向量映射

        候選實(shí)體e的向量映射過(guò)程具體如下:

        step1實(shí)體矩陣化表示:從知識(shí)圖譜中抽取實(shí)體e的上下文信息,并按照BERT的標(biāo)準(zhǔn)輸入格式構(gòu)建輸入序列,依次輸入到BERT模型中,獲取BERT最后一層的輸出向量,得到政務(wù)實(shí)體e的3個(gè)特征矩陣:HN、HS、HA,其中HN∈R|N|×d,HS∈R|S|×d,HA∈R|A|×d,|?|表示字符長(zhǎng)度,d為BERT模型輸出向量的維度大小.

        step2實(shí)體特征抽取:對(duì)實(shí)體e的3個(gè)特征矩陣HN、HS、HA分別進(jìn)行卷積操作,并通過(guò)最大池化層進(jìn)行降維,得到3個(gè)特征向量:EN,ES,EA,每個(gè)特征的參數(shù)互不共享.

        step3實(shí)體向量表示:將3個(gè)特征向量EN、ES和EA按行拼接,并將得到的結(jié)果輸入到全連接神經(jīng)網(wǎng)絡(luò)中進(jìn)行線性投影,得到實(shí)體e的特征向量表示Ee,計(jì)算公式如下:

        Ee=W″([EN,ES,EA])+b″,

        (5)

        其中Ee∈R1×d′,W″∈R3h×d′,b″∈R1×d′,d′表示鏈接模型輸出層詞向量的維度大小.

        通過(guò)式(4)和式(5)計(jì)算得到問(wèn)句的向量表示Eq和候選實(shí)體e的向量表示Ee,本文通過(guò)拼接Eq和Ee進(jìn)行二分類任務(wù),并使用softmax模型進(jìn)行歸一化,從而得到用戶問(wèn)句與候選實(shí)體e的語(yǔ)義相關(guān)度,計(jì)算公式如下:

        o=softmax(W(Eq,Ee)),

        (6)

        其中o為鏈接模型最終輸出的分類結(jié)果,代表問(wèn)句與該候選實(shí)體的語(yǔ)義相關(guān)度,且W∈R2d′×2.

        2.3.3 模型訓(xùn)練與預(yù)測(cè)

        在訓(xùn)練過(guò)程中,實(shí)體鏈接模型共享BERT層參數(shù),其他層參數(shù)不共享,使用交叉熵函數(shù)作為模型的損失函數(shù).在預(yù)測(cè)過(guò)程中,模型主要存在兩個(gè)階段:初始化階段和語(yǔ)義搜索階段.初始化階段指預(yù)先計(jì)算出知識(shí)庫(kù)實(shí)體的特征向量表示,并加入到向量集合V中;語(yǔ)義搜索階段指接收用戶問(wèn)句輸出鏈接的目標(biāo)實(shí)體.具體來(lái)說(shuō),模型預(yù)測(cè)過(guò)程中首先計(jì)算知識(shí)庫(kù)中所有實(shí)體的特征向量并保存到集合V中,得到實(shí)體向量查詢表;然后接收用戶問(wèn)句,使用jieba中文分詞工具切分問(wèn)句,得到實(shí)體指稱短語(yǔ)集合,通過(guò)實(shí)體指稱短語(yǔ)召回知識(shí)庫(kù)中的相關(guān)實(shí)體,得到候選實(shí)體集合;最后通過(guò)實(shí)體鏈接模型左側(cè)子網(wǎng)對(duì)問(wèn)句進(jìn)行向量映射,得到問(wèn)句的向量表示Eq,并通過(guò)式(7)計(jì)算問(wèn)句和候選實(shí)體的語(yǔ)義相關(guān)度,通過(guò)閾值λ對(duì)結(jié)果進(jìn)行篩選排序,按照式(8)從知識(shí)庫(kù)中選擇最高得分的實(shí)體作為鏈接結(jié)果返回,公式如下:

        (7)

        (8)

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        政務(wù)領(lǐng)域缺乏相關(guān)公開數(shù)據(jù)集,為了驗(yàn)證所提模型的有效性,本文利用網(wǎng)絡(luò)爬蟲技術(shù)獲取湖北省政務(wù)服務(wù)網(wǎng)15個(gè)區(qū)縣級(jí)政務(wù)事項(xiàng)的數(shù)據(jù)信息,得到2576條常見問(wèn)題集,經(jīng)過(guò)人工清洗、拓展后得到常見問(wèn)題集1900多條,獲得53個(gè)政務(wù)部門、400多個(gè)政務(wù)事項(xiàng)以及政務(wù)材料等信息,通過(guò)這些信息可以構(gòu)建起政務(wù)知識(shí)圖譜,作為政務(wù)實(shí)體上下文信息的知識(shí)來(lái)源.

        對(duì)于政務(wù)實(shí)體鏈接任務(wù)數(shù)據(jù)集的構(gòu)建策略如下:正抽樣(即問(wèn)句對(duì)應(yīng)的標(biāo)準(zhǔn)政務(wù)實(shí)體)采取人工標(biāo)注方法,標(biāo)簽為“1”;負(fù)抽樣(反例數(shù)據(jù)集)來(lái)源于正抽樣的相似子項(xiàng),標(biāo)簽為“0”.每個(gè)政務(wù)服務(wù)事項(xiàng)都有所屬的上級(jí)父類,例如“個(gè)人公積金賬戶信息變更服務(wù)”事項(xiàng),其父類為“公積金”類.本文首先對(duì)正抽樣的實(shí)體(以上述實(shí)體為例)進(jìn)行中文分詞[16]操作,得到核心詞語(yǔ)“公積金”,使用“公積金”在知識(shí)庫(kù)中進(jìn)行模糊查詢,從而得到反例數(shù)據(jù).本文最終獲得7100條實(shí)體鏈接數(shù)據(jù)集.

        3.2 評(píng)價(jià)指標(biāo)

        給定一個(gè)政務(wù)問(wèn)句,實(shí)體鏈接返回的結(jié)果為某個(gè)政務(wù)實(shí)體或者為空.以P表示模型預(yù)測(cè)的結(jié)果,O表示人工標(biāo)注的結(jié)果,Pe和Oe表示鏈接到實(shí)體的指稱,Pn和On表示鏈接到空的實(shí)體指稱.當(dāng)前針對(duì)實(shí)體鏈接模型的評(píng)測(cè)指標(biāo)主要包含準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)以及F1值,各指標(biāo)的定義如下:

        (9)

        (10)

        (11)

        (12)

        3.3 參數(shù)設(shè)置

        實(shí)驗(yàn)設(shè)備信息:CPU i5 8400,GPU Nvidia RTX 3070 8G.實(shí)體鏈接模型中參數(shù)設(shè)置如下:(1)本文使用BERT作為模型的嵌入層,得到用戶問(wèn)句和候選實(shí)體的向量表示,其中問(wèn)句的最大序列長(zhǎng)度為64,實(shí)體特征N、特征S和特征A的最大序列長(zhǎng)度分別為128、512和512;(2)問(wèn)句卷積核大小分別設(shè)置為2和3;特征N的卷積核大小為2,特征S的卷積核大小為3,特征A的卷積核大小為2,步長(zhǎng)均為1.模型的初始學(xué)習(xí)率為5×10-5,迭代20輪,嵌入層輸出的向量維度大小d為768,卷積層輸出的向量維度大小h為256,模型最終輸出的向量維度大小d′為128,問(wèn)句與候選實(shí)體的語(yǔ)義相關(guān)度閾值λ取值為0.8.

        3.4 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證所提模型的準(zhǔn)確性,在相同實(shí)驗(yàn)環(huán)境下,本文選擇魏成志[17]提出的基于TF-IDF的政務(wù)實(shí)體鏈接模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表 2所示.

        表2 不同算法實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experimental results of different algorithms

        從結(jié)果中可以看出,基于TF-IDF的政務(wù)實(shí)體鏈接模型準(zhǔn)確率明顯低于本文所提模型準(zhǔn)確率.通過(guò)分析發(fā)現(xiàn):基于TF-IDF的實(shí)體鏈接模型依據(jù)詞頻衡量候選實(shí)體的重要性,模型缺乏語(yǔ)義匹配能力,而本文提出的實(shí)體鏈接模型通過(guò)引入實(shí)體在知識(shí)圖譜中的上下文信息,豐富了實(shí)體的背景知識(shí),使得模型在區(qū)分相似實(shí)體上具有更好的表現(xiàn),因此提高了鏈接準(zhǔn)確率.如問(wèn)句“買房子怎么提取公積金?”,本文所提模型由于融合了“購(gòu)房公積金提取”的結(jié)構(gòu)化屬性知識(shí),其“受理?xiàng)l件”的第一條:“在本市行政區(qū)域內(nèi)非按揭購(gòu)買擁有所有權(quán)的自住住房”表明該政務(wù)事項(xiàng)適用于“購(gòu)買”情況下提取公積金,因此使得最終鏈接的結(jié)果為“購(gòu)房公積金提取”,而非“租房公積金提取”.

        本文進(jìn)一步通過(guò)組合實(shí)體不同類型的上下文信息來(lái)探討其對(duì)鏈接準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如表 3所示.從結(jié)果中可以發(fā)現(xiàn)政務(wù)實(shí)體不同維度的上下文信息對(duì)模型的準(zhǔn)確率有著不同的重要性,其中候選實(shí)體的名稱特征N和實(shí)體結(jié)構(gòu)化屬性特征S影響力相當(dāng).

        表3 不同上下文信息實(shí)驗(yàn)結(jié)果Tab.3 Experimental results of different context information

        本文基于BERT作為問(wèn)句和候選實(shí)體的向量嵌入層,為了驗(yàn)證BERT的引入是否有利于提升政務(wù)實(shí)體鏈接模型的性能,本文進(jìn)行了相關(guān)消融實(shí)驗(yàn).在相同的實(shí)驗(yàn)環(huán)境下,使用傳統(tǒng)的靜態(tài)詞向量替換BERT,取得的結(jié)果如表 4所示.從結(jié)果中可以看出,通過(guò)遷移BERT模型可以提升政務(wù)實(shí)體鏈接模型的性能,從而驗(yàn)證了BERT具有更強(qiáng)的語(yǔ)義表示能力.

        表4 消融實(shí)驗(yàn)結(jié)果Tab.4 Results of ablation experiments

        為了證明所提模型在響應(yīng)時(shí)間上的優(yōu)越性,本文選擇曾宇濤等[18]提出的實(shí)體鏈接模型進(jìn)行對(duì)比實(shí)驗(yàn).曾宇濤等基于深度學(xué)習(xí)技術(shù),提出一種面向知識(shí)庫(kù)問(wèn)答的實(shí)體鏈接模型,模型接收“問(wèn)句-實(shí)體”對(duì)形式的輸入樣本,在鏈接過(guò)程中,依賴用戶問(wèn)句提取候選實(shí)體不同類型的語(yǔ)義特征.而本文所提模型解耦了問(wèn)句和候選實(shí)體的特征提取過(guò)程,通過(guò)預(yù)先計(jì)算所有實(shí)體的語(yǔ)義向量表示,使得模型在預(yù)測(cè)過(guò)程中只需對(duì)問(wèn)句進(jìn)行向量映射,因此降低了模型的計(jì)算復(fù)雜度.具體來(lái)說(shuō),模型響應(yīng)時(shí)間包含候選實(shí)體集合生成和實(shí)體消歧兩個(gè)階段的時(shí)間,在相同的實(shí)驗(yàn)環(huán)境下,當(dāng)候選實(shí)體集合大小為30時(shí),兩個(gè)模型的響應(yīng)時(shí)間隨著知識(shí)庫(kù)規(guī)模的變化曲線如圖 2所示,可以看出:隨著知識(shí)庫(kù)規(guī)模的增加,兩個(gè)模型的響應(yīng)時(shí)間也在增加,而本文所提模型的響應(yīng)時(shí)間明顯低于曾宇濤等提出的模型,由此證明了本文所提模型在響應(yīng)時(shí)間上的有效性.

        圖2 模型響應(yīng)時(shí)間Fig.2 Response time of model

        4 結(jié)語(yǔ)

        為了提升政務(wù)領(lǐng)域?qū)嶓w鏈接任務(wù)的準(zhǔn)確率和計(jì)算效率,本文基于偽孿生網(wǎng)絡(luò),提出一種具有深度語(yǔ)義匹配能力的實(shí)體鏈接模型.實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):模型通過(guò)融合政務(wù)實(shí)體知識(shí)圖譜中的上下文信息,增強(qiáng)了模型的語(yǔ)義匹配能力,相比于現(xiàn)有基于統(tǒng)計(jì)學(xué)的政務(wù)實(shí)體鏈接模型,本文所提模型顯著地提高了鏈接任務(wù)的準(zhǔn)確率;遷移BERT有助于提高政務(wù)領(lǐng)域?qū)嶓w鏈接模型的性能;模型基于偽孿生網(wǎng)絡(luò)解耦用戶問(wèn)句和候選實(shí)體的特征提取過(guò)程,有效地減少了模型在鏈接過(guò)程中的計(jì)算量,提高了響應(yīng)速度,在10萬(wàn)候選實(shí)體數(shù)據(jù)量下,鏈接時(shí)間在0.5 s左右,滿足政務(wù)問(wèn)答交互式場(chǎng)景的使用需求.

        猜你喜歡
        政務(wù)圖譜實(shí)體
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        政務(wù)
        廣東飼料(2016年5期)2016-12-01 03:43:19
        政務(wù)
        廣東飼料(2016年3期)2016-12-01 03:43:09
        政務(wù)
        廣東飼料(2016年2期)2016-12-01 03:43:04
        政務(wù)
        廣東飼料(2016年1期)2016-12-01 03:42:58
        国产一线视频在线观看高清| 中文字幕乱码熟妇五十中出| 国产熟女露脸大叫高潮| 综合网在线视频| 亚洲国产成人av第一二三区| 户外精品一区二区三区 | 澳门精品一区二区三区| 懂色av一区二区三区尤物| 亚洲日本va中文字幕| 欧美一级在线全免费| 肉丝高跟国产精品啪啪| 国产毛片视频一区二区| 亚洲综合色区另类av| 亚洲a∨天堂男人无码| 日日噜噜夜夜久久密挑| 欧美又大粗又爽又黄大片视频| 精品免费看国产一区二区| 精选麻豆国产AV| 国产一区二区三区在线爱咪咪| 欧美伦费免费全部午夜最新| 久久99精品国产99久久6男男| 欧美日本视频一区| 日韩国产精品一区二区三区| 无码人妻丰满熟妇啪啪网站| 成人无码午夜在线观看| 初尝人妻少妇中文字幕在线| 男女男精品视频网站免费看| 伊人久久大香线蕉av一区| 一区二区三区内射视频在线观看 | 狼人综合干伊人网在线观看| 色婷婷av一区二区三区久久| 18分钟处破好疼哭视频在线观看 | 国产av无码专区亚洲av| 亚洲AV秘 无码一区二区在线| 久久99精品国产麻豆| 熟女无套内射线观56| 国产一区二区牛影视| 亚洲码专区亚洲码专区| 国内精品久久久人妻中文字幕| 爱a久久片| 亚洲精品成人久久av|