亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合BERT-WWM和指針網(wǎng)絡(luò)的旅游知識圖譜構(gòu)建研究

        2022-06-23 06:25:06李勝楠
        計算機工程與應(yīng)用 2022年12期
        關(guān)鍵詞:三元組風景區(qū)指針

        徐 春,李勝楠

        新疆財經(jīng)大學(xué) 信息管理學(xué)院,烏魯木齊 830012

        隨著人們的收入和消費水平的日益提高,越來越多的國人開始注重精神上的滿足,旅游業(yè)已經(jīng)成為國民經(jīng)濟的戰(zhàn)略性支柱產(chǎn)業(yè)[1]?;ヂ?lián)網(wǎng)上的旅游信息呈現(xiàn)出散亂、無序和關(guān)聯(lián)性不強的問題,給旅游業(yè)的發(fā)展造成阻礙,給大數(shù)據(jù)環(huán)境下旅游知識的組織和利用帶來挑戰(zhàn)。知識圖譜具有強大的語義處理能力和開放互聯(lián)能力,是一種高效的組織、管理、分析和查詢數(shù)據(jù)的方法[2]。將知識圖譜應(yīng)用于旅游領(lǐng)域不僅能夠?qū)崿F(xiàn)數(shù)據(jù)的集中存儲、統(tǒng)一分發(fā)以及共建共享,在推動景區(qū)智能化信息管理、游客高效查詢與決策以及旅游企業(yè)精準營銷等方面也起著重要作用。因此,構(gòu)建旅游知識圖譜對推動旅游業(yè)創(chuàng)新性發(fā)展具有重要意義。

        目前,旅游知識圖譜的構(gòu)建研究取得一定程度的發(fā)展。馮小蘭[3]采用BLSTM神經(jīng)網(wǎng)絡(luò)模型在已構(gòu)建的漢文語料庫上進行關(guān)系抽取,獲得與景點相關(guān)的屬性關(guān)系,構(gòu)建了西藏旅游知識圖譜。曹明輝[4]通過引入BILSTMCNN模型,從爬取的旅游評論中抽取實體關(guān)系,構(gòu)建了三亞旅游知識圖譜。韓凌潔[5]基于Scrapy框架爬取旅游網(wǎng)站和百科網(wǎng)站的結(jié)構(gòu)化數(shù)據(jù),構(gòu)建了內(nèi)蒙古自治區(qū)旅游知識圖譜。吳杰[6]以事件為中心對游客旅行過程中的時空關(guān)系進行建模,構(gòu)建了海南旅游知識圖譜。陳榮禎[7]參考DBpedia抽取方法,提出面向攜程網(wǎng)頁的半結(jié)構(gòu)知識抽取框架提取旅游知識三元組,構(gòu)建了全國旅游知識圖譜。但以上旅游知識圖譜在智能化、規(guī)?;?、精確化等方面仍有很大的提升空間,為旅游知識圖譜的構(gòu)建提供有效知識,開展面向旅游領(lǐng)域的實體關(guān)系抽取任務(wù)仍需面對以下難題:(1)旅游評論中的實體具有一詞多義問題。例如,“玉門關(guān)”既可以表示地名,也可以理解為旅游景點[8]。(2)旅游評論中存在著一對多和多對一兩種類型的關(guān)系重疊現(xiàn)象。例如,句子“天山天池風景區(qū)位于阜康市,是國家5A級景區(qū)。”包含兩個關(guān)系三元組(天山天池風景區(qū),風景區(qū)地理位置,阜康市)和(天山天池風景區(qū),風景區(qū)等級,國家5A級景區(qū)),一個頭實體與多個尾實體之間存在關(guān)系,是一對多關(guān)系重疊問題。而句子“天山天池風景區(qū)與喀納斯風景區(qū)都是國家5A級景區(qū)?!卑瑑蓚€關(guān)系三元組(天山天池風景區(qū),風景區(qū)等級,國家5A級景區(qū))和(喀納斯風景區(qū),風景區(qū)等級,國家5A級景區(qū)),多個頭實體與一個尾實體之間存在關(guān)系,是多對一關(guān)系重疊問題。綜上所述,如何從非結(jié)構(gòu)化文本中準確提取風景區(qū)、風景區(qū)地理位置、風景區(qū)開放時間等有用知識,解決文本中的一詞多義問題和重疊關(guān)系提取問題、減少人工特征的投入等,仍是旅游知識圖譜構(gòu)建的核心問題和挑戰(zhàn)性工作。

        實體關(guān)系抽取是構(gòu)建知識圖譜的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的實體關(guān)系抽取方法先識別實體,再對實體對之間的語義關(guān)系進行分類,例如耿雪來[9]基于條件隨機場和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法先抽取實體再抽取關(guān)系,為蒙漢雙語知識圖譜的構(gòu)建提供知識。張諾[10]通過引入BERTSpan模型完成實體識別任務(wù),再基于BERT-BILSTMattention模型進行關(guān)系抽取,構(gòu)建了山西旅游知識圖譜。但該方法存在以下不足:(1)錯誤傳播。實體識別引入的錯誤會影響關(guān)系抽取任務(wù)的性能。(2)實體冗余。實體識別任務(wù)中抽取出來的任意實體之間不一定都存在語義關(guān)系,這些冗余實體增加了計算復(fù)雜度,進而導(dǎo)致錯誤率提升。(3)交互缺失。實體識別和關(guān)系抽取兩個子任務(wù)之間有著緊密的內(nèi)在聯(lián)系,該方法忽視了子任務(wù)之間的潛在交互,導(dǎo)致性能不佳。因此,為了解決傳統(tǒng)實體關(guān)系抽取方法存在的問題,一些研究者提出使用聯(lián)合抽取法完成實體關(guān)系抽取任務(wù)。Miwa等[11]提出堆疊雙向樹型LSTM-RNNs模型,該模型通過將實體識別和關(guān)系抽取的網(wǎng)絡(luò)參數(shù)進行共享實現(xiàn)聯(lián)合抽取,但該方法仍存在無法剔除冗余實體的問題。Zheng等[12]在此基礎(chǔ)上將實體關(guān)系聯(lián)合抽取問題轉(zhuǎn)化為序列標注問題,通過計算偏重損失提升實體標簽間的相關(guān)性。雖然該方法能實現(xiàn)實體與關(guān)系之間的深層交互,但是采用就近原則分配關(guān)系,未考慮文本數(shù)據(jù)中存在的關(guān)系重疊現(xiàn)象,造成關(guān)系抽取不全面。Zeng等[13]引入機器翻譯的思想,將輸入語句看成是源語言,將實體關(guān)系三元組組成的序列看作是目標語言,以此聯(lián)合抽取實體關(guān)系,有效解決了關(guān)系重疊問題,但無法識別多字實體。吳賽賽等[14]提出將主實體標注為一固定標簽,將文本中與主實體存在關(guān)系的其他實體標注為兩者間的關(guān)系類型,這種新的標注方法有效解決了關(guān)系重疊問題,但需要大量的標注工作,導(dǎo)致工作成本巨大。

        綜合考慮以上問題,結(jié)合現(xiàn)有的實體關(guān)系抽取技術(shù),本文提出一種融合BERT-WWM和指針網(wǎng)絡(luò)的實體關(guān)系聯(lián)合抽取模型構(gòu)建旅游知識圖譜。本文主要創(chuàng)新和貢獻如下:(1)BERT-WWM預(yù)訓(xùn)練語言模型結(jié)合上下文語義信息動態(tài)生成特征向量,有效解決旅游評論中的一詞多義問題。(2)直接對三元組進行建模,這種端對端的聯(lián)合抽取方式充分利用了實體與關(guān)系之間的依賴關(guān)系,避免造成實體冗余、錯誤傳播等問題。(3)引入級聯(lián)結(jié)構(gòu)和指針網(wǎng)絡(luò)解碼輸出三元組,有效解決旅游評論中的關(guān)系重疊問題。(4)由于旅游領(lǐng)域沒有公開的大規(guī)模標記數(shù)據(jù)集,本文爬取了關(guān)于新疆22個旅游景區(qū)的游客評論,讓模型在一個真實的旅游數(shù)據(jù)集上進行實驗,證明了該模型的有效性。(5)構(gòu)建的旅游知識圖譜以結(jié)構(gòu)化的形式更加直觀地描述旅游實體間復(fù)雜關(guān)系,實現(xiàn)了旅游信息的整合與存儲,有效解決旅游信息散亂、無序和關(guān)聯(lián)性不強的問題。

        1 實體關(guān)系聯(lián)合抽取模型

        融合BERT-WWM和指針網(wǎng)絡(luò)的實體關(guān)系聯(lián)合抽取模型的總體結(jié)構(gòu)由兩部分組成,如圖1所示,分別為編碼層和三元組抽取層。首先,將輸入句子輸入到BERT-WWM模型中,通過BERT-WWM的Embedding層和雙向Transformer層得到每一個字符的特征向量表示。然后,在三元組抽取層直接對三元組進行建模,利用句子編碼抽取頭實體(subject),并按關(guān)系類別抽取尾實體(object)。最后,引入級聯(lián)結(jié)構(gòu)構(gòu)建下游指針網(wǎng)絡(luò),解碼輸出三元組。

        圖1 融合BERT-WWM和指針網(wǎng)絡(luò)的實體關(guān)系聯(lián)合抽取模型Fig.1 Joint extraction model combining BERT-WWM and pointer network

        1.1 BERT-WWM預(yù)訓(xùn)練語言模型

        BERT-WWM[15]預(yù)訓(xùn)練語言模型由Embedding層和Transformer層組成,結(jié)構(gòu)如圖2所示。首先,定義模型的輸入句子為e=(e1,e2,…,en),ei表示輸入句子的第i個字符,n表示句子長度。在Embedding層中,輸入句子e=(e1,e2,…,en)以詞嵌入向量(token embeddings)、分割嵌入向量(segment embeddings)和位置嵌入向量(position embeddings)三者求和的方式轉(zhuǎn)換為輸入序列T=(t1,t2,…,tn)。其中,詞嵌入向量通過查詢字向量表得到,分割嵌入向量用來表示該詞屬于的句子,位置嵌入向量表示該詞的位置信息,T是一個n×m維的矩陣,ti為ei對應(yīng)的m維字嵌入向量[16]。然后,將輸入序列T=(t1,t2,…,tn)輸送進Transformer層提取特征,得到語義豐富的輸出序列h0=(h1,h2,…,hn)作為后續(xù)實體關(guān)系聯(lián)合抽取的句子編碼。

        圖2 BERT-WWM模型結(jié)構(gòu)圖Fig.2 Structure diagram of BERT-WWM model

        Transformer層是BERT-WWM的主要框架,由多個Encoder和Decoder組成,具體結(jié)構(gòu)如圖3所示。Encoder包括四層:第一層為多頭注意力機制(Multi-head attention);第二層和第四層為殘差網(wǎng)絡(luò)和歸一化(Add&Normal);第三層為前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Network)。Decoder在Encoder的基礎(chǔ)上加入Encoder-Decoder attention層,用于幫助當前節(jié)點獲得當前需要關(guān)注的重點內(nèi)容[17]。

        圖3 Transformer模型結(jié)構(gòu)圖Fig.3 Structure diagram of Transformer model

        其中,Multi-head attention是Transformer層的核心,其主要思想是通過計算詞與詞之間的關(guān)聯(lián)度來調(diào)整詞的權(quán)重,反映了該詞與這句話中所有詞之間的相互關(guān)系以及每個詞的重要程度。首先,輸入序列T=(t1,t2,…,tn)輸送進Encoder,通過線性變換得到表示目標字的Q矩陣、表示上下文各個字的K矩陣以及表示目標字與上下文各個字的原始矩陣V[18]。然后,通過計算放縮點積求得self-attention的分數(shù)值,該分數(shù)值決定了當模型對一個詞進行編碼時,對輸入句子的其他詞的關(guān)注程度,具體計算方法如公式(1)所示。最后,將經(jīng)過i次計算的self-attention分數(shù)值進行拼接和線性變換,最終獲得一個與原始字向量長度相同的增強語義向量,作為Multi-head attention層的輸出,具體計算方法如公式(2)、公式(3)所示:

        其中,Q、K、V表示輸入的字向量矩陣,dk表示輸入維度,wqi、wki、wvi表示headi的權(quán)重矩陣,W0表示附加的權(quán)重矩陣。

        為了提高模型對句子的泛化能力和特征表示能力,BERT-WWM在進行自監(jiān)督訓(xùn)練MLM(masked language model)時對輸入句子中15%的token進行隨機選取,并將這些token以80%的概率替換為Mask進行預(yù)測[19]??紤]到中文文本中詞所能表達的意思更為重要和完整,BERT-WWM將以字為單位的Mask方法變?yōu)閷φ麄€漢語單詞Mask,即一個詞的部分字段被Mask,則將整個詞Mask,訓(xùn)練完成后字的編碼就具有了詞的語義信息,具體樣例如表1所示。此外,為了提高模型理解長序列上下文關(guān)系的能力,BERT-WWM在進行NSP(next sentence prediction)訓(xùn)練時給出句子A和句子B,并判斷句子B是否為句子A的下句。

        表1 全詞掩碼策略樣例Table 1 Example of whole word masking

        1.2 標注策略

        實體關(guān)系抽取的標注策略包括序列標注法和指針網(wǎng)絡(luò)標注法。其中,序列標注法采用就近原則標注實體關(guān)系,即一個實體在上下文中與多個實體存在關(guān)系時模型只能將關(guān)系分配給距離最近的實體對[20],這種方法只考慮了一個實體屬于一種關(guān)系的情況,難以有效應(yīng)對關(guān)系重疊問題。如圖4所示,序列標注法只能對“天山天池風景區(qū)”標注一次,識別出“天山天池風景區(qū)”與“阜康市”存在“風景區(qū)地理位置”的關(guān)系,無法識別“天山天池風景區(qū)”與“國家5A級景區(qū)”存在“風景區(qū)等級”的關(guān)系。

        圖4 序列標注法Fig.4 Sequence labeling method

        指針網(wǎng)絡(luò)標注法將句子中的實體的開始token和結(jié)束token標注為“1”,剩余token標注為“0”,并將開始token和結(jié)束token拼接輸出實體[21]。如圖1所示,通過建立級聯(lián)結(jié)構(gòu),指針網(wǎng)絡(luò)標注法可對token進行重復(fù)標注,有效解決關(guān)系重疊問題。因此,本文選擇指針網(wǎng)絡(luò)標注法完成解碼任務(wù)。

        1.3 三元組抽取層

        三元組抽取層的主要思路是利用BERT-WWM模型的輸出序列h0=(h1,h2,…,hn)抽取出subject,然后根據(jù)關(guān)系類別抽取出subject對應(yīng)的object,最后建立級聯(lián)結(jié)構(gòu)并使用指針網(wǎng)絡(luò)解碼輸出三元組。

        1.3.1 抽取subject

        首先,為了緩解梯度爆炸或消失問題,將句子編碼h0歸一化得到句子編碼h1,計算方法如公式(4)、公式(5)所示:

        其中,hi0為句子編碼h0的第i個輸入特征,μ為均值,σ為方差,γ、δ為可訓(xùn)練參數(shù),ε為一個大于0的極小常數(shù),hi1為句子編碼h1的第i個輸入特征。

        然后,使用句子編碼h1計算輸入句子中每個token是某個subject開始或者結(jié)尾的概率,分別使用ps_starti和ps_endi表示,并根據(jù)概率是否大于閾值,為每個token標注“0/1”標簽。計算方法如公式(6)、公式(7)所示:

        其中,w(?)表示可訓(xùn)練權(quán)重,b(?)表示可訓(xùn)練偏置,σ表示sigmoid激活函數(shù)。

        1.3.2 聯(lián)合抽取object和關(guān)系

        首先,為了加強層與層之間的聯(lián)系,嵌入CLN(conditional layer normalization)網(wǎng)絡(luò)層,將subject的編碼sj和句子編碼h0進行特征融合得到新的句子編碼h2,計算方法如公式(8)、公式(9)所示:

        其中,hi2和hi0分別表示句子編碼h2和h0的第i個token的編碼表示,wα和wβ表示兩個全零初始化的變換矩陣,α和β為模型訓(xùn)練過程中由梯度下降得到的參數(shù)值。

        然后,利用新的句子編碼h2計算句子中每個token在第j個subject、第k種關(guān)系條件下,是object的開頭或者結(jié)尾的概率,分別使用po_starti,j,k和po_endi,j,k表示,并根據(jù)概率是否大于閾值,為每個token標注“0/1”標簽。計算方法如公式(10)、公式(11)所示:

        其中,w(?)表示可訓(xùn)練權(quán)重,b(?)表示可訓(xùn)練偏置,σ表示sigmoid激活函數(shù)。

        2 實驗

        2.1 實驗數(shù)據(jù)集

        本文選擇采用網(wǎng)絡(luò)爬蟲工具后裔采集器,從攜程網(wǎng)、馬蜂窩網(wǎng)上以新疆22個旅游景區(qū)為單位對游客評論進行抓取。通過對爬取的游客評論的瀏覽,發(fā)現(xiàn)游客主要關(guān)心風景區(qū)、游玩項目、著名景點、用時參考、門票、等級、地理位置、開放時間等20種實體關(guān)系。鑒于此,本文對爬取到的數(shù)據(jù)進行去重、補全等預(yù)處理后,對以上20種實體關(guān)系類型進行人工標注,標注示例如下:{“sentText”:“天山天池風景區(qū)位于阜康市,是國家5A級景區(qū)?!保皉elationMentions”:[{“em1Text”:“天山天池風景區(qū)”,“em2Text”:“阜康市”,“l(fā)abel”:“/風景區(qū)/地點/風 景區(qū)地理位置”},{“em1Text”:“天山天池風景區(qū)”,“em2Text”:“國家5A級景區(qū)”,“l(fā)abel”:“/風景區(qū)/等級/風景區(qū)等級”}]}。人工標注后得到數(shù)據(jù)4 000條,共10 196個實體關(guān)系對,將4 000條數(shù)據(jù)按8∶2的比例劃分為訓(xùn)練集和測試集,得到訓(xùn)練數(shù)據(jù)3 200條,測試數(shù)據(jù)800條。

        2.2 實驗參數(shù)設(shè)置

        實驗采用Windows操作系統(tǒng),中央處理器的型號為4.25 GHz八核ADM r7,內(nèi)存配置為16 GB 3 200 MHz DDR4,GPU為2070s,實驗語言為Python3.6版本。采用谷歌公司人工智能團隊開發(fā)的深度學(xué)習(xí)框架Tensorflow1.14.0搭建實驗?zāi)P停P蛥?shù)設(shè)置如表2所示。

        表2 模型相關(guān)參數(shù)設(shè)置Table 2 Model parameters setting

        2.3 評價指標

        采用精確率(P)、召回率(R)和F1-score(F1)評判模型性能,各評價指標的計算方法如公式(12)、公式(13)、公式(14)所示。其中,TP表示模型能正確檢測出的實體個數(shù)、FP表示模型檢測到的無關(guān)實體個數(shù)、FN表示模型未檢測到的實體的個數(shù)。

        2.4 結(jié)果分析

        2.4.1 性能評估

        為了驗證融合BERT-WWM和指針網(wǎng)絡(luò)的聯(lián)合抽取模型抽取旅游領(lǐng)域?qū)嶓w關(guān)系的優(yōu)越性,本文分別選用聯(lián)合抽取方法和流水線方法共3個模型作為基準模型進行對比實驗:

        (1)基于Word2Vec+CNN+BILSTM的聯(lián)合抽取方法。該方法首先使用Word2Vec模型生成字向量,然后引入CNN獲取詞語部件特征中的關(guān)鍵語義特征,將得到的特征分別與當前詞語所對應(yīng)的字符向量結(jié)合,一起輸入到BiLSTM模型中獲取上下文特征,最后采用指針網(wǎng)絡(luò)解碼輸出三元組。

        (2)基于BERT-WWM+BIGRU+Attention的聯(lián)合抽取方法。該方法使用BIO標注策略,基于BERT-WWM模型對實體進行詞向量化,然后結(jié)合BIGRU和注意力機制對輸入句子進行特征提取,最后加上全連接層完成實體關(guān)系抽取任務(wù)。

        (3)基于BERT-WWM的流水線方法。該方法采用BIO標注策略,首先使用BERT-WWM搭建實體識別模型,進行命名實體識別,然后使用BERT-WWM作為編碼器并連接全連接神經(jīng)網(wǎng)絡(luò)進行關(guān)系分類。

        實驗結(jié)果如表3所示。所有聯(lián)合抽取方法的性能表現(xiàn)均優(yōu)于流水線方法,其中本文提出的融合BERTWWM和指針網(wǎng)絡(luò)的聯(lián)合抽取方法比基于BERT-WWM的流水線方法在F1值上高出8.70個百分點。對最終預(yù)測數(shù)據(jù)進行分析,發(fā)現(xiàn)采用流水線方法的模型對不存在關(guān)系的實體進行了提取,且對距離較近的實體對之間的關(guān)系一般能準確提取,但距離較遠的實體對之間的關(guān)系基本無法提取,證實流水線方法存在實體冗余和交互缺失問題。

        表3 模型綜合性能評估Table 3 Model comprehensive performance evaluation

        此外,本文提出的融合BERT-WWM和指針網(wǎng)絡(luò)的聯(lián)合抽取方法比基于Word2Vec+CNN+BILSTM的聯(lián)合抽取方法在F1值上高出2.37個百分點。分析原因在于Word2Vec詞嵌入模型是一種靜態(tài)的語言模型,不能很好地融入上下文信息,解決一詞多義問題。例如,“天氣很好”和“天山天池風景區(qū)”這兩句話中出現(xiàn)的“天”字表達的意思不同,但是Word2Vec將2個“天”字表示成了完全相同的詞向量,這與實際情況不符。而采用雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)的BERT-WWM模型能夠通過學(xué)習(xí)上下文實現(xiàn)特征微調(diào),充分挖掘文本信息。但加入BERT-WWM的實體關(guān)系抽取模型的訓(xùn)練時間更長,原因在于BERT-WWM涉及的參數(shù)規(guī)模更大,需耗費更多的計算資源。

        2.4.2 重疊關(guān)系實驗及分析

        為了測試不同模型抽取重疊三元組的能力,將存在重疊現(xiàn)象的三元組分為一對多和多對一兩類,不存在重疊現(xiàn)象的三元組歸為Normal類,實驗結(jié)果如圖5所示,可看出融合BERT-WWM和指針網(wǎng)絡(luò)標注的聯(lián)合抽取模型的性能表現(xiàn)最優(yōu),在面對不同類型的三元組時F1值均達到88%以上。值得注意的是,在面對Normal類型三元組時,采用BIO標注的BERT-WWM+BIGRU+Attention聯(lián)合抽取模型的性能與融合BERT-WWM和指針網(wǎng)絡(luò)標注的聯(lián)合抽取模型的性能差距較小,而在面對一對多和多對一的重疊三元組時F1值差距增大。分析原因在于BIO標注法采用就近原則標注實體,只能對一個實體標注一次,導(dǎo)致關(guān)系抽取不全面。此外,流水線模型對于重疊關(guān)系抽取的F1值低于聯(lián)合抽取模型,表明流水線方法很難預(yù)測重疊關(guān)系。

        圖5 模型抽取不同重疊類型三元組的F1值Fig.5 Model extracts F1 values of triples of different overlapping types

        2.4.3 不同三元組個數(shù)提取結(jié)果分析

        為了測試不同模型從具有不同三元組個數(shù)的句子中提取實體關(guān)系三元組的能力,根據(jù)句子包含的三元組數(shù)量將800條測試數(shù)據(jù)劃分為5組進行實驗,結(jié)果如圖6所示。融合BERT-WWM和指針網(wǎng)絡(luò)標注的聯(lián)合抽取模型的性能表現(xiàn)最優(yōu),5個測試小組的F1值均達到85%以上,隨著句子所包含的三元組數(shù)量的增加,模型性能表現(xiàn)穩(wěn)定。而基線模型的性能表現(xiàn)不佳,F(xiàn)1值大幅度降低,表明融合BERT-WWM和指針網(wǎng)絡(luò)標注的聯(lián)合抽取模型受輸入句子的復(fù)雜程度的影響最小。

        圖6 模型抽取不同數(shù)量三元組的F1值Fig.6 Model extracts F1 values of different numbers of triples

        2.4.4 模型參數(shù)分析

        由于BERT-WWM模型在實際預(yù)訓(xùn)練中每層所學(xué)習(xí)到的信息不同,所以本文考慮探究不同Transformer層數(shù)對旅游數(shù)據(jù)集實體關(guān)系聯(lián)合抽取結(jié)果的影響。選取Transformer層數(shù)分別為12、9、6、3進行對比,結(jié)果如表4所示。從訓(xùn)練時長可看出減少Transformer層數(shù)可以加快模型的訓(xùn)練速度。當Transformer層數(shù)小于9時,模型識別性能隨Transformer層數(shù)的減少而下降,當Transformer層數(shù)大于等于9時,模型識別的準確性趨于平穩(wěn),在12層時模型性能達到最優(yōu),P值、R值、F1值分別達到93.42%、86.59%和89.88%,說明BERT-WWM模型在第12層附近學(xué)習(xí)到的信息能夠更好完成實體關(guān)系聯(lián)合抽取任務(wù)。

        表4 模型在不同Transformer層數(shù)下的性能表現(xiàn)Table 4 Performance of model under different layers of transformer

        當Transformer層數(shù)為12層時,對20種類型三元組的識別結(jié)果進行統(tǒng)計,結(jié)果如表5所示??煽闯稣w結(jié)果較為均衡,F(xiàn)1值均保持在90%水平左右,但“風景區(qū)—附近景區(qū)—風景區(qū)”“風景區(qū)—風景區(qū)文化藝術(shù)—文化藝術(shù)”這兩種類型的三元組的預(yù)測結(jié)果明顯低于平均水平,同時也是拉低模型效果的重要因素。分析原因可能是因為構(gòu)成“風景區(qū)—附近景區(qū)—風景區(qū)”三元組的頭、尾實體的相對位置多變,模型無法很好識別,構(gòu)成“風景區(qū)—風景區(qū)文化藝術(shù)—文化藝術(shù)”三元組的尾實體大部分屬于新疆維吾爾自治區(qū)博物館中的藏品,如:“天王踏鬼彩繪木俑”等,名稱較為復(fù)雜。

        表5 模型抽取不同類型三元組的性能表現(xiàn)Table 5 Performance of model to extract different types of triples

        3 旅游知識圖譜構(gòu)建與應(yīng)用

        基于Neo4j圖數(shù)據(jù)庫具有查詢性能高效、適應(yīng)性強、支持圖論算法等優(yōu)點,以及旅游知識圖譜中的數(shù)據(jù)相對于傳統(tǒng)關(guān)系數(shù)據(jù)更具關(guān)聯(lián)性和靈活性的特點,選擇Neo4j圖數(shù)據(jù)庫存儲三元組,構(gòu)建旅游知識圖譜。本文以喀納斯風景區(qū)為例進行圖譜展示,如圖7所示,喀納斯風景區(qū)地處阿勒泰地區(qū),阿勒泰地區(qū)同時又包含可可托海風景區(qū)、白沙湖風景區(qū),由此關(guān)聯(lián)了風景區(qū)與地理位置兩類實體。同時,喀納斯風景區(qū)有月亮灣、觀魚臺等著名景點,還有額河烤魚、冷水魚等美食,由此將風景區(qū)與著名景點、美食相關(guān)聯(lián)。此外,圖譜中的灰色節(jié)點展示了喀納斯風景區(qū)的數(shù)據(jù)屬性,如面積是10 030 km2,氣候類型是溫帶大陸性氣候等。

        圖7 喀納斯風景區(qū)圖譜展示Fig.7 Graph display of Kanas scenic spot

        構(gòu)建的旅游知識圖譜可視化展現(xiàn)出不同旅游景區(qū)對應(yīng)的景點、門票、開放時間等重要信息,在幫助游客高效查詢與決策、景區(qū)智能化信息管理以及旅游企業(yè)精準營銷等方面發(fā)揮重要作用,為催生旅游問答系統(tǒng)、推薦系統(tǒng)、云平臺等智能化系統(tǒng)奠定基礎(chǔ)。

        4 結(jié)論

        本文提出一種融合BERT-WWM和指針網(wǎng)絡(luò)的實體關(guān)系聯(lián)合抽取模型構(gòu)建旅游知識圖譜。首先,模型引入BERT-WWM作為編碼層,相較于采用Word2vec編碼的神經(jīng)網(wǎng)絡(luò)模型取得了2.37個百分點的F1值提升,表明BERT-WWM通過學(xué)習(xí)上下文實現(xiàn)特征微調(diào),可以更好地解決不同語境下同一詞語的不同語義問題。其次,模型解碼采用指針網(wǎng)絡(luò),相較于采用BIO標注的BERTWWM+BIGRU+Attention聯(lián)合抽取模型而言,在抽取一對多和多對一兩種類型的重疊三元組時分別取得10.28個百分點和19.02個百分點的F1值提升,在面對擁有不同數(shù)量的三元組文本時最高取得31.63個百分點的F1值提升,表明本文模型更適合復(fù)雜場景,可以有效解決關(guān)系重疊問題和多個三元組抽取任務(wù)。此外,通過與現(xiàn)有流水線模型進行對比分析,本文提出的聯(lián)合抽取模型最高取得8.70個百分點的F1值提升,表明聯(lián)合抽取模型可以加強實體識別和關(guān)系抽取兩個子任務(wù)之間聯(lián)系,緩解錯誤傳播和實體冗余問題。以上實驗結(jié)果表明,基于該模型構(gòu)建的旅游知識圖譜具有較高的準確性,可有效實現(xiàn)旅游信息的組織和利用,為進一步促進旅游業(yè)發(fā)展提供技術(shù)支撐。

        猜你喜歡
        三元組風景區(qū)指針
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
        關(guān)于余撓三元組的periodic-模
        偷指針的人
        娃娃畫報(2019年5期)2019-06-17 16:58:10
        明月湖水利風景區(qū)的水文化挖掘與詮釋
        GIS在風景區(qū)用地適宜性評價的應(yīng)用——以威海市圣水觀風景區(qū)為例
        為什么表的指針都按照順時針方向轉(zhuǎn)動
        用“尚方寶劍”保護沙澧河風景區(qū)
        基于改進Hough變換和BP網(wǎng)絡(luò)的指針儀表識別
        電測與儀表(2015年5期)2015-04-09 11:30:42
        ARM Cortex—MO/MO+單片機的指針變量替換方法
        无码人妻中文中字幕一区二区| 亚洲 日韩 激情 无码 中出| 亚洲av中文无码乱人伦下载| 亚洲男人av天堂午夜在| 妇女性内射冈站hdwwwooo| 日韩人妻无码中文字幕一区| 亚洲中文字幕乱码免费看| 亚洲国产中文字幕无线乱码| 午夜天堂精品久久久久| 国产麻豆精品久久一二三| 亚洲熟妇AV一区二区三区宅男| 久久国产高潮流白浆免费观看| 狼狼色丁香久久女婷婷综合 | 少妇无套裸按摩呻吟无呜| 男女高潮免费观看无遮挡| 开心婷婷五月激情综合社区| 欧洲亚洲色一区二区色99| 日本免费一区二区精品| 蜜桃18禁成人午夜免费网站| 无码aⅴ免费中文字幕久久| 两个人看的www高清视频中文| av无码电影一区二区三区| 亚洲av无吗国产精品| 多毛小伙内射老太婆| 色妞ww精品视频7777| 99精品成人片免费毛片无码| 国产一区二区三区白浆在线观看 | 蜜桃在线播放免费一区二区三区 | 永久免费观看的黄网站在线| 一边摸一边抽搐一进一出口述| 欧洲freexxxx性少妇播放| 亚洲欧美另类精品久久久| 日本一级二级三级在线| 国产精品女同一区二区免费站 | 精品麻豆国产色欲色欲色欲www | 久久亚洲精品成人AV无码网址| 久久精品一区一区二区乱码| 国产精品美女久久久免费 | 国产亚洲一区二区三区| 欧美成人在线视频| 久久国产亚洲AV无码麻豆|