亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語(yǔ)義解析的知識(shí)圖譜表示方法

        2022-12-15 13:19:16胡旭陽(yáng)王治政孫媛媛林鴻飛
        計(jì)算機(jī)研究與發(fā)展 2022年12期
        關(guān)鍵詞:三元組圖譜實(shí)體

        胡旭陽(yáng) 王治政 孫媛媛 徐 博 林鴻飛

        (大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧大連 116024)(huxy912@163.com)

        伴隨進(jìn)入“大數(shù)據(jù)”時(shí)代,網(wǎng)絡(luò)中的數(shù)據(jù)呈指數(shù)增長(zhǎng)[1].互聯(lián)網(wǎng)的信息結(jié)構(gòu)多樣,多數(shù)以HTML格式承載,使用者只能從網(wǎng)頁(yè)中搜尋自己需要的內(nèi)容信息,但計(jì)算機(jī)無(wú)法有效地從網(wǎng)頁(yè)中識(shí)別語(yǔ)義信息,數(shù)據(jù)難被高效利用.于是,“互聯(lián)網(wǎng)之父”Berners等人[2]提出語(yǔ)義網(wǎng)(semantic Web)的概念,即將萬(wàn)維網(wǎng)中HTML格式鏈接的網(wǎng)頁(yè)轉(zhuǎn)化為可被計(jì)算機(jī)處理的數(shù)據(jù)鏈接,將現(xiàn)實(shí)世界中的萬(wàn)物聯(lián)系起來.其中信息以資源描述框架RDF[3](主體-謂詞-客體的三元組形式)描述,統(tǒng)一的格式便于計(jì)算機(jī)處理.隨之谷歌提出知識(shí)圖譜(knowledge graph, KG),其本質(zhì)是語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù),將其用于網(wǎng)頁(yè)搜索,可從語(yǔ)義層次理解需求,使搜索準(zhǔn)確率提高[4].

        圖譜以圖模型可視化地描述了現(xiàn)實(shí)世界中信息的關(guān)聯(lián),繼提出概念后,構(gòu)建和應(yīng)用知識(shí)圖譜得到了高速的發(fā)展.涌現(xiàn)出大量的開放知識(shí)圖譜,如WordNet[5],DBpedia[6],NELL[7],YAGO[8],F(xiàn)reebase[9]等.知識(shí)圖譜揭示了知識(shí)的發(fā)展規(guī)律,并應(yīng)用于實(shí)際任務(wù),如在語(yǔ)義解析[10]、實(shí)體消歧[11]、信息提取[12]和問題回答[13]等多個(gè)領(lǐng)域均發(fā)揮出越來越重要的作用.

        盡管知識(shí)圖譜在結(jié)構(gòu)化表示數(shù)據(jù)方面很有效,但是這種表示方法由于RDF或類似標(biāo)準(zhǔn)的符號(hào)特性需要針對(duì)不同的符號(hào)設(shè)計(jì)不同的模型,復(fù)雜度高,通用性差、計(jì)算效率低.并且知識(shí)圖譜包含信息極大,符號(hào)的表示方法無(wú)法緩解數(shù)據(jù)稀疏性,占用空間大.

        近年來,深度學(xué)習(xí)[14]的迅速發(fā)展引起人們廣泛的關(guān)注,通過表示學(xué)習(xí)建模在許多方面表現(xiàn)出優(yōu)越的性能.為解決由知識(shí)圖譜符號(hào)表示所帶來的問題,研究人員提出一個(gè)新的研究領(lǐng)域——知識(shí)表示學(xué)習(xí)[15],針對(duì)知識(shí)圖譜建模的表示學(xué)習(xí)也稱知識(shí)圖譜嵌入[16].其核心是在向量空間中建模知識(shí)圖譜,將符號(hào)形式的三元組表示為低維的向量形式,同時(shí)保留知識(shí)圖譜原有的結(jié)構(gòu).嵌入向量可進(jìn)一步應(yīng)用于各種下游任務(wù),如知識(shí)圖譜補(bǔ)全[17]、關(guān)系提取[18]、實(shí)體分類[19]和實(shí)體解析[20].這種方法具有以下優(yōu)點(diǎn)[15]:1)便于計(jì)算分析;2)融合異質(zhì)信息[20];3)解決數(shù)據(jù)稀疏[15,20].

        目前,知識(shí)圖譜表示學(xué)習(xí)方法大多是僅根據(jù)三元組來進(jìn)行的.即,在向量空間中表示三元組中的實(shí)體和關(guān)系,并對(duì)每個(gè)三元組定義一個(gè)評(píng)分函數(shù)衡量其存在的合理性.實(shí)體和關(guān)系的表示(嵌入)通過最大化三元組的合理性來獲得.但這種方法得到的向量表示僅與每個(gè)三元組結(jié)構(gòu)有關(guān),而不相連實(shí)體之間的隱含關(guān)系.因此,得到的向量表示不夠準(zhǔn)確,對(duì)下游任務(wù)的預(yù)測(cè)精度有限[21].為此,研究人員提出融合多源信息進(jìn)行知識(shí)圖譜表示學(xué)習(xí),如實(shí)體類別[22]、關(guān)系路徑[23]、文本描述[24]、邏輯規(guī)則[25]信息等.

        由于在給定數(shù)據(jù)時(shí),不同類型的實(shí)體和關(guān)系通常均帶有文本描述,即一段描述實(shí)體或者關(guān)系的文字,其文本描述中可能含有復(fù)雜的隱藏路徑關(guān)系.比如給定三元組(中國(guó),首都,北京)、(中國(guó),城市,上海)以及北京的一段描述“北京是中國(guó)一座城市,也是中國(guó)的首都”,通過這段關(guān)于北京的文本描述可以推斷出(中國(guó),城市,北京)這樣隱含的關(guān)系路徑.為挖掘更深層次的信息,建模利用的信息更加豐富,更好地學(xué)習(xí)嵌入,本文旨在將帶有復(fù)雜語(yǔ)義信息的知識(shí)圖譜嵌入到低維向量中,以達(dá)到知識(shí)表示學(xué)習(xí)的目的,并在具體的下游任務(wù)中取得顯著效果.

        Fig. 1 The research framework圖1 研究?jī)?nèi)容框架

        為得到準(zhǔn)確的知識(shí)圖譜表示,本文提出一種融合語(yǔ)義解析的知識(shí)圖譜表示學(xué)習(xí)模型.如圖1所示,將BERT用于圖譜表示學(xué)習(xí)中的語(yǔ)義解析,提出表示模型BERT-PKE.將事實(shí)三元組的實(shí)體和關(guān)系的結(jié)構(gòu)和文本描述信息以序列形式輸入BERT,通過訓(xùn)練解析語(yǔ)法,將嵌入轉(zhuǎn)化為序列分類問題,通過對(duì)下游任務(wù)的微調(diào),得到三元組的向量表示并預(yù)測(cè)三元組和鏈路的合理性.在多數(shù)現(xiàn)有算法的訓(xùn)練中,采用隨機(jī)負(fù)采樣方法,生成的負(fù)樣本是明顯的錯(cuò)誤樣本,很容易通過實(shí)體類型區(qū)分.因此,本文提出盡量“替換同類實(shí)體”的負(fù)采樣方法——基于實(shí)體分布和實(shí)體相似度進(jìn)行采樣,生成高質(zhì)量的負(fù)樣本用于模型的訓(xùn)練,使模型的訓(xùn)練效果更好.此外,由于BERT計(jì)算成本過高,在訓(xùn)練和測(cè)試中,解析文本描述微調(diào)更新詞表花費(fèi)的時(shí)間過長(zhǎng).因此本文提出一種改進(jìn)策略,將文本描述進(jìn)行剪枝處理,生成實(shí)體和關(guān)系的精簡(jiǎn)文本描述集合,縮短訓(xùn)練時(shí)間且性能與原模型基本相同.在構(gòu)建模型后,將BERT-PKE模型與先進(jìn)的知識(shí)圖譜嵌入模型進(jìn)行調(diào)試比較,測(cè)試并分析三元組分類和鏈路預(yù)測(cè)中的評(píng)價(jià)結(jié)果.經(jīng)過實(shí)驗(yàn)驗(yàn)證,BERT-PKE模型和提出的改進(jìn)策略在三元組分類和鏈路預(yù)測(cè)任務(wù)中提升效果顯著.

        1 相關(guān)工作

        近年來,知識(shí)圖譜表示學(xué)習(xí)研究蓬勃發(fā)展,根據(jù)研究者利用的信息結(jié)構(gòu),可分為使用事實(shí)三元組建模和融合其他信息建模[26]的知識(shí)圖譜表示學(xué)習(xí)模型.

        1.1 基于事實(shí)三元組的知識(shí)圖譜表示學(xué)習(xí)

        基于事實(shí)三元組的知識(shí)圖譜表示學(xué)習(xí)僅根據(jù)觀察到的事實(shí)三元組來執(zhí)行嵌入任務(wù),將其進(jìn)行向量表示,向量可用于其他下游任務(wù).模型有3個(gè)要點(diǎn):1)表示形式,實(shí)體通常表示為目標(biāo)空間中的向量,而關(guān)系通常表示為目標(biāo)空間中的操作,如向量、矩陣和高斯分布等;2)得分函數(shù),衡量三元組存在的可能性,其得分越高,三元組在圖譜中出現(xiàn)的概率越高;3)優(yōu)化方法,通常使用梯度下降的方法優(yōu)化求解.基于事實(shí)三元組得分函數(shù)定義不同,又可分為基于距離的模型、基于語(yǔ)義匹配的模型[16]等.

        1.1.1 距離模型

        距離模型學(xué)習(xí)實(shí)體和關(guān)系表示,將三元組存在的合理性建模為三元組內(nèi)部隱含的距離[27].給定一個(gè)知識(shí)圖譜,實(shí)體首先被投影至低維向量,然后將關(guān)系投影為實(shí)體之間的平移或旋轉(zhuǎn)算符,通常表示為向量或矩陣.繼而,每個(gè)三元組通過2個(gè)實(shí)體之間的距離評(píng)價(jià)函數(shù)來衡量三元組存在的合理性.合理的三元組往往具有較低的距離值.如TransE[17],TransH[28],TransR[29],TransD[30],RotatE[31].

        1.1.2 語(yǔ)義匹配模型

        語(yǔ)義匹配模型通過相似性得分函數(shù)來學(xué)習(xí)向量表示的三元組特征,通過張量分解的形式,計(jì)算潛在語(yǔ)義相似度并衡量三元組存在的合理性.如RESCAL[21],DistMult[32],HolE[33],ComplEx[34-35],ANALOGY[36],SimplE[37].

        1.2 融合多源信息的表示學(xué)習(xí)

        融合多源信息的表示學(xué)習(xí)除了三元組結(jié)構(gòu)信息外,還通過利用外部資源學(xué)習(xí)知識(shí)圖譜的嵌入表示,如實(shí)體類別、文本描述、關(guān)系路徑等.為融合實(shí)體類別的信息,語(yǔ)義平滑嵌入模型SSE[22]利用嵌入限制、強(qiáng)正則化約束實(shí)體和關(guān)系,提出平滑性假設(shè)并分別使用2種流形學(xué)習(xí)算法構(gòu)建模型.為融合實(shí)體和關(guān)系的語(yǔ)義信息,融合實(shí)體描述的知識(shí)表示模型,DKRL[38]利用連續(xù)詞袋和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實(shí)體和關(guān)系中的語(yǔ)義信息,將語(yǔ)義信息和三元組的結(jié)構(gòu)信息一起進(jìn)行TransE訓(xùn)練,用改進(jìn)后的TransE模型學(xué)習(xí)更深層次的嵌入表示.為融合關(guān)系路徑的信息,基于關(guān)系路徑的翻譯模型PTransE[39],為特定頭實(shí)體向量到特定尾實(shí)體向量之間途徑的所有的實(shí)體和關(guān)系定義關(guān)系路徑向量,從而可以利用多個(gè)關(guān)系中包含的語(yǔ)義信息,建模利用的信息更加豐富,能更好地學(xué)習(xí)嵌入.

        2 融合語(yǔ)義解析的知識(shí)圖譜表示模型

        知識(shí)圖譜是一種復(fù)雜圖結(jié)構(gòu),除三元組之外,還有其他可利用的信息,如上下文、句法和語(yǔ)義信息,這些信息可從更深層次刻畫實(shí)體和關(guān)系的關(guān)系,卻被以往僅僅依據(jù)事實(shí)知識(shí)的嵌入方法所忽視.其中,實(shí)體和關(guān)系的文本描述就是一個(gè)值得解析利用的信息.

        將知識(shí)圖譜中的三元組視為文本序列,提出了一種融合語(yǔ)義解析的知識(shí)圖譜表示框架——基于BERT[40]模型的剪枝圖譜表示模型BERT-PKE.給定知識(shí)圖譜,首先將實(shí)體和關(guān)系的文本描述進(jìn)行剪枝處理.然后,將三元組和文本描述轉(zhuǎn)化成序列結(jié)構(gòu)輸入BERT模型中.最后,利用預(yù)訓(xùn)練語(yǔ)言模型BERT對(duì)三元組以及實(shí)體和關(guān)系的描述進(jìn)行語(yǔ)義解析,得到嵌入模型.在訓(xùn)練過程中,負(fù)樣本的構(gòu)造可影響模型的學(xué)習(xí).因此,提出2種改進(jìn)經(jīng)典方法生成負(fù)樣本的方法,改變負(fù)樣本的采集方法來增強(qiáng)模型學(xué)習(xí)的能力.

        2.1 BERT-PKE模型結(jié)構(gòu)

        由于BERT[40]可解析深層次的語(yǔ)義信息,因此在融合語(yǔ)義解析的知識(shí)圖譜表示方法中,本文采用BERT來進(jìn)行語(yǔ)義解析,輸入多層Transformer[41]結(jié)構(gòu),使用自注意力機(jī)制聯(lián)合所有層的上下文來訓(xùn)練未標(biāo)注文本,得到深度雙向表示,實(shí)現(xiàn)圖譜嵌入.由于BERT是處理自然語(yǔ)言的模型,只能處理序列結(jié)構(gòu)的句子,圖結(jié)構(gòu)無(wú)法直接輸入.因此BERT-PKE模型參考KG-BERT[42]模型中的輸入方法,將三元組結(jié)構(gòu)和文本描述作為文本序列輸入預(yù)訓(xùn)練語(yǔ)言模型BERT,將描述實(shí)體和關(guān)系的詞序列作為BERT模型的輸入句進(jìn)行微調(diào),然后通過某種訓(xùn)練得到三元組的表示.

        Fig. 2 The overall framework of BERT-PKE圖2 BERT-PKE模型整體框架

        輸入詞標(biāo)記i對(duì)應(yīng)的輸入向量表示Ei輸入到BERT模型架構(gòu)中,該架構(gòu)是基于Transformer的雙向結(jié)構(gòu).在隱藏詞字機(jī)制MLM任務(wù)中,特殊詞標(biāo)記[CLS]和第i個(gè)輸入詞標(biāo)記中的隱藏向量記為C∈H和Ti∈H,其中H為預(yù)先訓(xùn)練BERT中的隱藏塊大小.與[CLS]對(duì)應(yīng)的最終隱藏塊輸出C被用于計(jì)算三元組的序列表示得分.微調(diào)過程中引入的唯一參數(shù)W∈2×H,表示輸出層的權(quán)重.三元組(h,r,t)的得分函數(shù)為

        sτ=fr(h,t)=sigmoid(CWT),

        (1)

        其中權(quán)重矩陣W與C相乘之后可獲得三元組是正確的概率sτ,sτ∈2是2維實(shí)向量,且sτ0,sτ1∈[0,1]且sτ0+sτ1=1.

        在給定正三元組集合D+和相應(yīng)構(gòu)造的負(fù)三元組集合D-,我們用sτ和三元組標(biāo)記計(jì)算交叉熵?fù)p失:

        (2)

        其中yτ∈{0,1}是標(biāo)記該三元組是正例還是負(fù)例的標(biāo)簽,即標(biāo)記是正三元組還是負(fù)三元組,而正三元組表示的是正確的三元組,負(fù)三元組表示的是錯(cuò)誤的三元組,負(fù)樣本需要我們進(jìn)行負(fù)采樣構(gòu)造.

        負(fù)采樣方法可影響模型的預(yù)測(cè)能力,在2.2節(jié)中我們將給出詳細(xì)介紹.通過梯度下降的方法,可以更新預(yù)先訓(xùn)練好的參數(shù)權(quán)值和新的權(quán)值W.

        2.2 負(fù)采樣方法

        負(fù)采樣的目的是幫助模型進(jìn)行特征學(xué)習(xí)訓(xùn)練,最終輸出正樣本.正樣本在損失函數(shù)學(xué)習(xí)過程中保留,同時(shí)不斷更新負(fù)樣本.通過負(fù)采樣,在更新隱藏層到輸出層的權(quán)重時(shí),只需更新負(fù)樣本而不用更新全部樣本,節(jié)省計(jì)算量.因此負(fù)樣本的采集質(zhì)量影響了模型的構(gòu)建.本文通過負(fù)采樣的方式降噪,對(duì)樣本集的正三元組進(jìn)行負(fù)采樣,生成的負(fù)樣本用于計(jì)算損失函數(shù).

        在現(xiàn)有的知識(shí)圖譜表示模型中,負(fù)采樣大多從實(shí)體集中隨機(jī)抽取進(jìn)行替換,采用這種負(fù)采樣方法生成的負(fù)樣本隨機(jī)且質(zhì)量較低.這樣會(huì)帶來產(chǎn)生偽標(biāo)簽和模型無(wú)法準(zhǔn)確地學(xué)習(xí)訓(xùn)練2個(gè)問題.針對(duì)問題,提出2種改進(jìn)的負(fù)采樣方法,分別是基于實(shí)體分布的負(fù)采樣方法和基于實(shí)體相似度的負(fù)采樣方法.通過后續(xù)試驗(yàn)證明方法的效果.

        2.2.1 隨機(jī)抽樣的負(fù)采樣方法

        雖然融合語(yǔ)義解析的知識(shí)圖譜表示方法在實(shí)現(xiàn)知識(shí)圖譜表示學(xué)習(xí)上有了進(jìn)一步的突破,但是現(xiàn)有的嵌入模型中普遍存在一個(gè)問題,即模型在梯度下降訓(xùn)練中,負(fù)三元組集合D-僅僅由實(shí)體集合中隨機(jī)抽取一個(gè)實(shí)體h′或t′,從正三元組(h,r,t)∈D+中替換相應(yīng)的h或t得到的,即

        D-={(h′,r,t)|(h′∈E)∧(h′≠h)∧

        ((h′,r,t)?D+)}∪{(h,r,t′)|

        (t′∈E)∧(t′≠t)∧((h,r,t′)?D+)},

        (3)

        如果三元組已經(jīng)在正集D+中,則不會(huì)被視為反例.

        通過梯度下降的方法,負(fù)樣本更新預(yù)先訓(xùn)練好的參數(shù),因此采樣的負(fù)三元組質(zhì)量影響了模型的學(xué)習(xí)和向量的表示.例如,給定三元組(中國(guó),首都,北京)經(jīng)過隨機(jī)負(fù)采樣生成后的三元組可能為(中國(guó),首都,足球),該三元組質(zhì)量低,對(duì)訓(xùn)練過程中參數(shù)的更新沒有顯著幫助.這種采樣方法被稱為unif[17]采樣,最初在TransE模型中被提出.由于知識(shí)圖譜數(shù)據(jù)集中的信息是有限的,通過隨機(jī)采樣產(chǎn)生的負(fù)樣本可能構(gòu)造出正三元組,卻被當(dāng)作負(fù)樣本本來處理,引入偽標(biāo)簽.圖3是正、負(fù)三元組的舉例說明.鑒于負(fù)采樣的基本作用和現(xiàn)有方法的局限性,本文將重點(diǎn)放在負(fù)采樣上,旨在提高負(fù)樣本的質(zhì)量.

        Fig. 3 Examples of positive and negative triples圖3 正、負(fù)三元組舉例

        2.2.2 基于實(shí)體分布的負(fù)采樣方法

        根據(jù)TransH中提出的方法,以不同概率按照實(shí)體分布來選擇替換三元組的頭實(shí)體或尾實(shí)體,可依據(jù)伯努利分布提出bern[28]采樣.本文針對(duì)1_to_N和N_to_1類型的三元組,如果是1_to_N三元組,則更大概率破壞頭實(shí)體h;如果是N_to_1三元組,則更大概率破壞尾實(shí)體t,這樣就減少了產(chǎn)生偽標(biāo)簽的機(jī)會(huì).圖4分別展示了不同關(guān)系類型下,基于實(shí)體分布的bern負(fù)樣本生成過程.

        Fig. 4 Bern negative sampling圖4 bern負(fù)采樣

        對(duì)于知識(shí)圖譜中的每個(gè)關(guān)系r,首先得到以下2個(gè)統(tǒng)計(jì)量:1)頭實(shí)體對(duì)應(yīng)的平均尾實(shí)體的數(shù),記為tph;2)尾實(shí)體對(duì)應(yīng)的平均頭實(shí)體數(shù),記為hpt.然后為采樣定義一個(gè)伯努利分布,其參數(shù)為

        (4)

        則替換頭或尾實(shí)體,服從參數(shù)為p的伯努利分布,有

        (5)

        則X的分布律為

        P(X=x)=px(1-p)1-x,x∈[0,1].

        (6)

        對(duì)于與關(guān)系r相關(guān)的正三元組(h,r,t),替換h構(gòu)造負(fù)三元組的概率為p,替換t構(gòu)造負(fù)三元組的概率為1-p.

        2.2.3 基于實(shí)體相似性的負(fù)采樣方法

        基于實(shí)體分布的負(fù)采樣方法雖然能夠減少了產(chǎn)生偽標(biāo)簽的可能性,但替換實(shí)體仍需從整個(gè)實(shí)體集中選擇,生成的三元組質(zhì)量不佳,對(duì)訓(xùn)練過程中的特征學(xué)習(xí)幫助不大.本文希望替換的實(shí)體與原實(shí)體語(yǔ)義相似,因此提出一種基于實(shí)體相似性[43]的負(fù)采樣方法,進(jìn)一步改進(jìn)2.2.2節(jié)中基于實(shí)體分布的負(fù)采樣方法.該方法先使用TransE將實(shí)體表示成m維向量將相似性問題簡(jiǎn)化,然后用k-means[44]聚類將實(shí)體向量劃分為k類.在負(fù)采樣時(shí),正三元組的實(shí)體用同類實(shí)體進(jìn)行替換,通過這種負(fù)采樣方法來提升知識(shí)圖譜嵌入的質(zhì)量.圖5分別展示了1_to_N和N_to_1類型的k-means負(fù)樣本生成.

        Fig. 5 k-means negative sampling圖5 k-means負(fù)采樣

        首先,本文使用TransE將實(shí)體和關(guān)系表示成m維向量,將實(shí)體的語(yǔ)義結(jié)構(gòu)相似問題簡(jiǎn)化為向量距離相近問題.給定三元組(h,r,t),TransE模型都有h+r≈t.因此在向量空間中,頭實(shí)體h被t-r限制.同理,尾實(shí)體t和關(guān)系r分別有h+r和h-t限制.因此,不同三元組中同一個(gè)頭實(shí)體在不同關(guān)系和尾實(shí)體的限制是相同的,即三元組(h1,r1,t1)和(h1,r2,t2)中有t1-r1=t2-r2.因此若2個(gè)實(shí)體相似,則其在空間中的限制也相似,表明在空間中2實(shí)體的向量坐標(biāo)越相近,距離越小,則實(shí)體越相似.

        在得到實(shí)體和關(guān)系的嵌入向量后,使用k-means算法對(duì)實(shí)體向量進(jìn)行無(wú)監(jiān)督的分類.首先,在實(shí)體向量集合{x1,x2,…,xn}∈m中選擇初始化的k個(gè)樣本作為初始聚類中心{μ1,μ2,…,μk};然后,針對(duì)實(shí)體向量集中每個(gè)實(shí)體向量xi所屬的聚類中的所有點(diǎn)到聚類中心的歐氏距離之和最小,對(duì)于每個(gè)向量xi,計(jì)算其應(yīng)該屬于的類:即

        (7)

        其中,ci表示樣本xi與k個(gè)距離中心最近的類.arg是表明樣本歸于哪個(gè)類的運(yùn)算符.然后,對(duì)于每個(gè)類中心μj,重新計(jì)算該聚類的中心

        μj

        (8)

        不斷重復(fù)劃分類ci和更新聚類中心μj這2個(gè)操作,直到達(dá)到聚類的中心不變或者變化很小,其損失函數(shù)為

        (9)

        通過k-means聚類算法,本文認(rèn)為屬于同一個(gè)類別的實(shí)體相似度高,可相互替換生成負(fù)樣本.基于實(shí)體相似性的方法在一定程度上提高了負(fù)樣本的質(zhì)量,使表示模型的性能得到了提升.

        2.3 剪枝策略

        BERT模型的一個(gè)主要局限性是代價(jià)太過于昂貴,在學(xué)習(xí)模型表示的過程中需要將句子的每個(gè)詞輸入多層Transformer結(jié)構(gòu)中進(jìn)行嵌入訓(xùn)練;在測(cè)試模型的過程中更是耗費(fèi)大量時(shí)間;在鏈路預(yù)測(cè)評(píng)估需要遍歷所有的實(shí)體替換頭實(shí)體或尾實(shí)體,并且所有負(fù)三元組序列都被輸入到12層Transformer模型中.由于序列中文本描述通常為一段話,在50詞以上,過于冗長(zhǎng),包含一些無(wú)用信息,如標(biāo)點(diǎn)、謂詞、系動(dòng)詞等.

        為盡可能正確嵌入訓(xùn)練樣本,每個(gè)樣本句子的詞標(biāo)記的學(xué)習(xí)過程將不斷重復(fù),有時(shí)詞標(biāo)記形成的分支過多,這時(shí)就有可能把訓(xùn)練集學(xué)習(xí)得太好,以至于把訓(xùn)練集的某一些特點(diǎn)當(dāng)成所有數(shù)據(jù)都具有的性質(zhì),這時(shí)就發(fā)生了過擬合.因此,針對(duì)BERT模型的局限性,本文將實(shí)體和關(guān)系的文本描述進(jìn)行剪枝處理,對(duì)冗余的文本描述進(jìn)行修剪,從而避免嵌入不必要的操作和搜索,更快地獲得更好的效果.

        本文使用基于詞頻[45](term frequency)和k近鄰[46](k-nearest neighbor)的技術(shù).首先,TF表示的是某個(gè)詞在文本中出現(xiàn)的次數(shù),即詞頻,其公式為

        (10)

        對(duì)于詞頻統(tǒng)計(jì)的具體做法,本文采用N元語(yǔ)法模型(N-gram),N-gram是一種基于統(tǒng)計(jì)語(yǔ)言模型的算法.將描述文本中的單詞按字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成字節(jié)片段序列.每個(gè)片段稱為gram,對(duì)所有g(shù)ram的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并且按照閾值過濾,形成文本的向量特征空間.

        在N-gram中,第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),與其他任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積.這里只需要獲得各個(gè)詞出現(xiàn)的詞頻.本文取N=1,2,3.其中,當(dāng)N=1時(shí),稱為一元語(yǔ)法模型(unigram model),即當(dāng)前詞的概率分布與給定的歷史信息無(wú)關(guān),它將文本描述分成單詞,統(tǒng)計(jì)單詞出現(xiàn)的詞頻;當(dāng)N=2時(shí),稱為二元語(yǔ)法模型(bigram model),即當(dāng)前詞的概率分布只與距離最近的詞有關(guān),它將文本描述中所有2個(gè)詞組成一個(gè)詞組,統(tǒng)計(jì)詞組出現(xiàn)的詞頻;當(dāng)N=3時(shí),稱為三元語(yǔ)法模型(trigram model),即當(dāng)前詞的概率分布與距離最近的2個(gè)詞有關(guān),它將文本描述中的所有相鄰3個(gè)詞組成1個(gè)詞組,統(tǒng)計(jì)詞組出現(xiàn)的詞頻.

        k近鄰表示的是一個(gè)樣本附近的k個(gè)最近,即特征空間中最鄰近樣本,文本是1維表示,則其最近鄰的度量方式為曼哈頓距離,即

        L(j,k)=|j-k|.

        (11)

        因此,本文在剪枝過程中抽取實(shí)體和關(guān)系名稱的前后k跳詞語(yǔ),并抽取除名稱、標(biāo)點(diǎn)、量詞、系動(dòng)詞以外出現(xiàn)詞頻較高出現(xiàn)的詞或詞組(可以為多個(gè)),然后組成一個(gè)由逗號(hào)分隔、由詞語(yǔ)組成的實(shí)體和關(guān)系的文本描述集合.通常,剪枝后的模型精度稍微有所下降,但相比節(jié)省了大量的時(shí)間空間,精度基本與原來持平或稍稍下降的誤差完全可以忽略.

        3 實(shí)驗(yàn)設(shè)置及結(jié)果

        本文選用垂直領(lǐng)域數(shù)據(jù)集UMLS[47],通用領(lǐng)域數(shù)據(jù)集FB14K-237和WN18R.其中FB14K-237由FB15K-237[48],WN18R由WN18RR[48]預(yù)處理得到,具體信息如表1所示:

        Table 1 The Information of Data Sets

        在完成嵌入后,將嵌入的向量應(yīng)用于不同的下游任務(wù)中,本文的下游任務(wù)為三元組分類和鏈路預(yù)測(cè)[49-52].并采用準(zhǔn)確率(ACC)作為評(píng)價(jià)指標(biāo)用于衡量三元組分類的效果,采用平均排名(MR)、平均倒數(shù)排名(MRR)和正確實(shí)體排在前N名的概率(Hits@N)作為評(píng)價(jià)指標(biāo)用于衡量鏈路預(yù)測(cè)的效果.

        三元組分類的目的是判斷三元組(h,r,t)中實(shí)體和關(guān)系是否正確匹配,本文將各個(gè)模型運(yùn)行3次并取其平均值,表2給出了FB14k-237,WN18R,UMLS在不同模型上的三元組分類任務(wù)的準(zhǔn)確率.

        Table 2 ACC of Triplet Classification

        如表2可得,所提出BERT-PKE模型在三元組分類任務(wù)上的準(zhǔn)確性顯著高于所有基準(zhǔn)模型,和KG-BERT原型基本相同,證明了本文提出方法的有效性.所提出的剪枝策略改進(jìn)的BERT-PKE模型與原模型KG-BERT的準(zhǔn)確率相差不多,但訓(xùn)練時(shí)間卻大大縮短.以FB14k-237數(shù)據(jù)集為例,KG-BERT算法中詞標(biāo)記有4 920 563個(gè),迭代1次需要25 h,而BERT-PKE算法中詞標(biāo)記只有20 409個(gè),迭代1次只需要1.5 h,而在模型學(xué)習(xí)過程中需要多次迭代,時(shí)間代價(jià)成倍數(shù)增長(zhǎng).在通用領(lǐng)域數(shù)據(jù)集WN18R、FB14k-237上,其準(zhǔn)確率均高于95%,且采用剪枝策略相差不超過0.3%,在垂直領(lǐng)域數(shù)據(jù)集UMLS上準(zhǔn)確率甚至高于KG-BERT模型.因此可以看出,剪枝策略可顯著節(jié)省模型訓(xùn)練的時(shí)間和空間.同時(shí),提出基于實(shí)體分布負(fù)采樣和基于實(shí)體相似性負(fù)采樣負(fù)采樣改進(jìn)方法,在3個(gè)數(shù)據(jù)集上,這2種負(fù)采樣都能使得BERT-PKE模型的性能得到提升.并且基于實(shí)體相似性(k-means)的負(fù)采樣方法在基于實(shí)體分布(bern)的方法基礎(chǔ)上提出,其準(zhǔn)確率也更高.通過實(shí)驗(yàn),證明負(fù)采樣在模型訓(xùn)練中的重要影響,也證明本文改進(jìn)采樣方法的成效.

        鏈路預(yù)測(cè)的目的是判斷三元組(h,r,t)在已知其中關(guān)系和其中一個(gè)實(shí)體的情況下預(yù)測(cè)的另一實(shí)體是否正確.表3~5中給出不同數(shù)據(jù)集下不同模型的鏈路預(yù)測(cè)結(jié)果.

        Table 3 Link Prediction Results of UMLS

        Table 4 Link Prediction Results of WN18R

        Table 5 Link Prediction Results of FB14k-237

        Fig. 6 MR of link prediction圖6 鏈路預(yù)測(cè)的MR

        Fig. 7 MRR of link prediction圖7 鏈路預(yù)測(cè)的MRR

        Fig. 8 Hits@N for top 1,3,10 of link prediction圖8 鏈路預(yù)測(cè)的前1,3,10名命中率

        通過表3~5以及可視化圖6~8上的結(jié)果,可以總結(jié)出:1)3種BERT-PKE模型的MR值均比基準(zhǔn)模型的MR值更低,MRR值更接近于1,并且提升較為明顯.且采用基于實(shí)體相似性和實(shí)體分布的負(fù)采樣策略也有明顯的提升效果.2)3種BERT-PKE模型中有一小部分負(fù)采樣方法中的Hits@N值低于一些最先進(jìn)的方法,如ANALOGY,ComplEx;但采用改進(jìn)負(fù)采樣策略的BERT-PKE模型的Hits@N值較隨機(jī)負(fù)采樣方法相比有明顯提升.這是由于BERT-PKE模型沒有對(duì)知識(shí)圖譜的整體圖結(jié)構(gòu)信息進(jìn)行準(zhǔn)確建模,從而無(wú)法使得實(shí)體和關(guān)系描述的語(yǔ)義相關(guān)度很高,因此不能將給定實(shí)體的某些鄰居實(shí)體排在前10位.通過基于實(shí)體分布和實(shí)體相似度的負(fù)采樣改進(jìn)方法可提高Hits@N值、判斷實(shí)體關(guān)系的種類、并通過TransE預(yù)先得到實(shí)體相似度分布、然后進(jìn)行歸類,該方法都對(duì)圖結(jié)構(gòu)有一些整體把握,因此可提升模型的性能.由此可得,負(fù)采樣策略可提升知識(shí)圖譜表示學(xué)習(xí)的能力,并且通過剪枝策略,可大大縮短模型訓(xùn)練和測(cè)試的時(shí)間,如FB14k-237數(shù)據(jù)集,剪枝前迭代一次需要25 h,剪枝后只需要1.5 h;剪枝前測(cè)試匹配一個(gè)實(shí)體需要8 min,而剪枝后只需要50 s.

        4 結(jié) 論

        本文提出一種融合語(yǔ)義解析的知識(shí)圖譜表示模型——BERT-PKE,該模型將BERT用于語(yǔ)義解析,提出基于詞頻和k近鄰的剪枝策略以縮短訓(xùn)練時(shí)間.此外,提出2種負(fù)采樣策略,基于實(shí)體分布的負(fù)采樣方法可減少偽標(biāo)簽產(chǎn)生;基于實(shí)體相似性的負(fù)采樣可通過同簇實(shí)體的替換提高負(fù)三元組質(zhì)量,幫助特征訓(xùn)練.本文填補(bǔ)了已有表示模型中挖掘文本描述深度關(guān)聯(lián)的空白.此外,本文還將BERT模型應(yīng)用于知識(shí)圖譜補(bǔ)全任務(wù).未來的研究方向包括通過圖結(jié)構(gòu)聯(lián)合建模等.將BERT-PKE模型作為一種知識(shí)增強(qiáng)語(yǔ)言模型應(yīng)用于語(yǔ)言理解任務(wù)是我們未來要探索的一項(xiàng)工作.

        作者貢獻(xiàn)聲明:胡旭陽(yáng)設(shè)計(jì)了算法思路和實(shí)驗(yàn)方案,完成了所有實(shí)驗(yàn)以及文章撰寫;王治政參與設(shè)計(jì)了算法實(shí)驗(yàn)、論文架構(gòu)并完成了實(shí)驗(yàn)分析;孫媛媛指導(dǎo)了論文思路,對(duì)實(shí)驗(yàn)提出指導(dǎo)意見并修改論文;徐博參與了論文想法的討論,對(duì)于實(shí)驗(yàn)方案提出指導(dǎo)意見并完善論文內(nèi)容;林鴻飛負(fù)責(zé)提出選題并確定論文框架.

        猜你喜歡
        三元組圖譜實(shí)體
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        關(guān)于余撓三元組的periodic-模
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        国产人妻黑人一区二区三区| 日本一区二区三区视频网站| 午夜精品久久久久久久99热| 成人小说亚洲一区二区三区| 欧美日韩国产在线成人网| 风流少妇一区二区三区91| 久久久久人妻精品一区二区三区 | 日韩少妇高潮在线视频| 国产乱码精品一区二区三区久久| 亚洲人成77777在线播放网站 | 在线播放真实国产乱子伦 | 亚洲av一二三四区四色婷婷| 亚洲中文无码av在线| 国产男女做爰猛烈视频网站| 青青草视频网站在线观看| 国产又色又爽又高潮免费视频麻豆 | 男人天堂AV在线麻豆| 一二三四在线观看视频韩国| 精品国产性色无码av网站| 狠干狠爱无码区| 亚洲综合一区二区三区蜜臀av| 国产色视频一区二区三区不卡| 国产女人高潮叫床视频| 无码中文av有码中文av| 日本91一区二区不卡| 国产精品无码人妻在线| 欧美日韩不卡视频合集| 日韩精品视频在线一二三| 亚洲另类丰满熟妇乱xxxx| 亚洲国产精品第一区二区| 无码Av在线一区二区三区| 凹凸世界视频a一二三| 国产无夜激无码av毛片| 狠干狠爱无码区| 中文字幕 在线一区二区| 国产日产欧产精品精品蜜芽| 天美传媒精品1区2区3区| 一区二区无码精油按摩| av在线播放男人天堂| 另类内射国产在线| 欧美高h视频|