亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的旅游領(lǐng)域知識(shí)抽取

        2024-06-26 07:52:14王澤輝徐萬(wàn)通鄭藝葦林嘉儀周伏倪李世中
        電腦知識(shí)與技術(shù) 2024年13期

        王澤輝 徐萬(wàn)通 鄭藝葦 林嘉儀 周伏倪 李世中

        摘要:旅游業(yè)是許多國(guó)家和地區(qū)的重要支柱產(chǎn)業(yè)之一,對(duì)促進(jìn)經(jīng)濟(jì)增長(zhǎng)和就業(yè)起到關(guān)鍵作用。其次,旅游是人們之間交流和相互了解的重要途徑,有助于促進(jìn)不同地域、民族和文化之間的交流與融合。因此,文章采用BERT-BiGRU-CRF命名實(shí)體識(shí)別模型和BERT-TextCNN文本分類(lèi)模型,對(duì)旅游領(lǐng)域文本數(shù)據(jù)進(jìn)行了知識(shí)抽取。其中,BERT-BiGRU-CRF在旅游實(shí)體數(shù)據(jù)集上的F1值達(dá)到了90.69%,BERT-TextCNN在旅游分類(lèi)數(shù)據(jù)集上的F1值達(dá)到了92.51%,實(shí)驗(yàn)效果良好。文章提出的知識(shí)抽取方案為旅游領(lǐng)域的知識(shí)抽取提供了新方向,同時(shí)為基于該領(lǐng)域知識(shí)圖譜的知識(shí)問(wèn)答、知識(shí)檢索等應(yīng)用提供了幫助。

        關(guān)鍵詞:旅游領(lǐng)域;知識(shí)抽取;命名實(shí)體識(shí)別;文本分類(lèi)

        中圖分類(lèi)號(hào):TP81 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2024)13-0042-03 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :

        0 引言

        旅游業(yè)是國(guó)家和地區(qū)的產(chǎn)業(yè),能夠創(chuàng)造就業(yè)機(jī)會(huì)、促進(jìn)貨物和服務(wù)的流通、推動(dòng)地方經(jīng)濟(jì)的發(fā)展[1]。還能夠促進(jìn)文化傳承和保護(hù),許多旅游目的地?fù)碛胸S富的歷史文化遺產(chǎn),通過(guò)旅游活動(dòng),可以促進(jìn)這些文化資源的傳承和保護(hù),提高人們對(duì)文化遺產(chǎn)的認(rèn)識(shí)和重視。

        知識(shí)圖譜是一種用于表示知識(shí)的圖形化結(jié)構(gòu)[2],它以實(shí)體和實(shí)體之間的關(guān)系為基礎(chǔ),將現(xiàn)實(shí)世界中的信息進(jìn)行抽象和組織,形成一種圖形化的知識(shí)表達(dá)方式。知識(shí)圖譜的核心思想是將知識(shí)以圖的形式進(jìn)行建模,從而幫助計(jì)算機(jī)系統(tǒng)理解和處理復(fù)雜的語(yǔ)義關(guān)系。一個(gè)知識(shí)圖譜通常由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)代表現(xiàn)實(shí)世界中的實(shí)體,邊則表示節(jié)點(diǎn)之間的關(guān)系。知識(shí)圖譜的構(gòu)建通常依賴(lài)于多種信息源,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文本等[3]。構(gòu)建知識(shí)圖譜的過(guò)程包括數(shù)據(jù)抽取、實(shí)體識(shí)別、關(guān)系抽取、知識(shí)表示等多個(gè)步驟。

        構(gòu)建旅游旅游知識(shí)圖譜,可以將豐富多彩的旅游資源進(jìn)行整合和展示,包括景點(diǎn)名稱(chēng)、地理位置、特色景觀、歷史文化等,其次有助于傳承和宣傳歷史文化和民族風(fēng)情,促進(jìn)地方經(jīng)濟(jì)發(fā)展、文化傳承和社會(huì)進(jìn)步。

        1 相關(guān)理論與技術(shù)

        1.1 BERT-BiGRU-CRF 模型

        構(gòu)建知識(shí)圖譜需要對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行實(shí)體抽取,本文選擇了BERT-BiGRU-CRF模型,如圖1 所示:

        首先,BERT作為底層模型,負(fù)責(zé)學(xué)習(xí)句子中每個(gè)詞的上下文語(yǔ)義表示。然后,BiGRU模型用于進(jìn)一步處理詞語(yǔ)序列,通過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),能夠有效地捕捉序列數(shù)據(jù)的上下文信息。BiGRU模型從兩個(gè)方向(左到右和右到左)掃描輸入序列,然后將兩個(gè)方向的隱藏狀態(tài)進(jìn)行拼接,提供更全面的信息。最后,CRF模型用于對(duì)BiGRU輸出的特征序列進(jìn)行標(biāo)簽預(yù)測(cè),利用標(biāo)簽之間的轉(zhuǎn)移概率建模序列標(biāo)注任務(wù)中的約束關(guān)系,從而得到最終的命名實(shí)體識(shí)別結(jié)果。

        1) BERT模型。BERT[4]是由Google于2018年提出的一種基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型。相較于之前的語(yǔ)言模型,BERT的主要?jiǎng)?chuàng)新在于引入了雙向性,即同時(shí)考慮了上下文左右兩側(cè)的信息。BERT模型的預(yù)訓(xùn)練過(guò)程包括兩個(gè)任務(wù)[5]:Masked Language Model(MLM) 和Next Sentence Prediction(NSP) 。在MLM任務(wù)中,輸入序列中的一部分詞會(huì)被隨機(jī)地mask掉,模型需要預(yù)測(cè)這些被mask的詞。而在NSP任務(wù)中,模型需要判斷兩個(gè)句子是否相鄰。這樣的預(yù)訓(xùn)練任務(wù)設(shè)計(jì)使得BERT能夠?qū)W習(xí)到更豐富的句子表示,從而在各種自然語(yǔ)言處理任務(wù)中取得了非常好的效果。

        2) BiGRU模型。GRU是一種循環(huán)神經(jīng)網(wǎng)絡(luò)的變體[6],具有門(mén)控機(jī)制,有助于克服傳統(tǒng)RNN中的梯度消失問(wèn)題。GRU包含更新門(mén)和重置門(mén),它們決定了當(dāng)前時(shí)間步的輸入是否被更新到隱藏狀態(tài)中,從而控制了信息的流動(dòng)。相比于傳統(tǒng)的RNN結(jié)構(gòu),GRU更容易訓(xùn)練,參數(shù)數(shù)量也更少。更新門(mén)和重置門(mén)的計(jì)算公式如下:

        zt=σ(Wz?[ht?1,xt]+bz )

        rt=σ(Wr?[ht?1,xt]+br )

        更新后的候選隱藏狀態(tài)的計(jì)算公式如下:

        H=tanh(W?[rt×ht?1,xt]+b)

        BiGRU是一種雙向門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由兩個(gè)方向的GRU組成,分別從左到右和從右到左地掃描輸入序列,然后將兩個(gè)方向的隱藏狀態(tài)進(jìn)行拼接或合并,以捕獲序列數(shù)據(jù)中的上下文信息。BiGRU結(jié)構(gòu)通過(guò)同時(shí)考慮序列數(shù)據(jù)的前后信息,能夠更好地捕獲序列數(shù)據(jù)中的依賴(lài)關(guān)系和語(yǔ)義信息。它不僅能夠利用當(dāng)前時(shí)間步之前的信息,還能夠利用當(dāng)前時(shí)間步之后的信息,從而提供更全面的上下文信息。

        3) CRF。CRF[7]是一種概率圖模型,常用于序列標(biāo)注任務(wù),如命名實(shí)體識(shí)別、詞性標(biāo)注等。在CRF中,假設(shè)給定輸入序列和輸出序列,CRF通過(guò)定義一組特征函數(shù)來(lái)建模輸入序列和標(biāo)簽序列之間的關(guān)系。這些特征函數(shù)衡量了輸入序列和標(biāo)簽序列之間的對(duì)應(yīng)關(guān)系以及相鄰標(biāo)簽之間的轉(zhuǎn)移概率。CRF模型的核心是學(xué)習(xí)條件概率分布,即給定輸入序列,預(yù)測(cè)輸出序列的概率分布。模型參數(shù)通過(guò)最大化對(duì)數(shù)似然函數(shù)進(jìn)行學(xué)習(xí),通常采用隨機(jī)梯度下降等優(yōu)化算法進(jìn)行參數(shù)估計(jì)。CRF模型能夠有效地捕捉序列數(shù)據(jù)中的依賴(lài)關(guān)系,提高模型在序列標(biāo)注任務(wù)中的性能。CRF模型的條件概率分布可以通過(guò)以下公式表示:

        1.2 BERT-TextCNN 模型

        對(duì)文本數(shù)據(jù)識(shí)別出實(shí)體信息后,還需確定兩個(gè)實(shí)體之間的關(guān)系,才能轉(zhuǎn)換為三元組數(shù)據(jù)進(jìn)行存儲(chǔ)。本文選擇了BERT-TextCNN模型來(lái)實(shí)現(xiàn)實(shí)體間的關(guān)系分類(lèi),如圖2所示。

        首先,BERT用于學(xué)習(xí)文本中每個(gè)詞的上下文語(yǔ)義表示。接下來(lái),TextCNN 用于進(jìn)一步處理文本特征,通過(guò)卷積和池化操作對(duì)文本進(jìn)行特征提取和壓縮。TextCNN利用卷積神經(jīng)網(wǎng)絡(luò)的局部感知能力,能夠有效地捕捉文本中的局部特征。最后,將輸出向量傳入全連接層進(jìn)行分類(lèi)預(yù)測(cè)。

        1) TextCNN。TextCNN[8]是一種用于文本分類(lèi)任務(wù)的深度學(xué)習(xí)模型。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶網(wǎng)絡(luò)相比[9],TextCNN能夠更好地捕捉文本中的局部特征,從而在文本分類(lèi)任務(wù)中取得了良好的性能。TextCNN的核心思想是將文本表示為固定長(zhǎng)度的向量,并通過(guò)卷積和池化操作對(duì)文本進(jìn)行特征提取和壓縮。卷積層通過(guò)多個(gè)卷積核對(duì)詞向量序列進(jìn)行卷積操作,以捕捉不同長(zhǎng)度的局部特征。每個(gè)卷積核對(duì)輸入進(jìn)行一維卷積操作,產(chǎn)生一個(gè)特征圖。池化層對(duì)每個(gè)特征圖進(jìn)行池化操作,通常采用最大池化操作來(lái)壓縮特征圖的維度,保留最顯著的特征。

        2) 全連接層。全連接層[10],也稱(chēng)為密集連接層或者仿射層,是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中常見(jiàn)的一種層類(lèi)型。在全連接層中,每個(gè)神經(jīng)元都與上一層的所有神經(jīng)元相連,每個(gè)連接都有一個(gè)權(quán)重參數(shù)。因此,全連接層中的每個(gè)神經(jīng)元都接收上一層所有神經(jīng)元的輸入,并輸出給下一層所有神經(jīng)元。全連接層通常用于網(wǎng)絡(luò)的最后幾層,用于將前面層提取的特征進(jìn)行組合和整合,從而得到最終的輸出。在分類(lèi)任務(wù)中,全連接層的最后一層通常使用softmax激活函數(shù),將模型的輸出轉(zhuǎn)換為類(lèi)別的概率分布。全連接層的輸出計(jì)算可以用以下數(shù)學(xué)公式表示:

        z=Wx+b

        式中,x 為輸入向量,W 為權(quán)重矩陣,b 為偏置向量,z 為全連接層的輸出。

        3) Softmax層。Softmax函數(shù)是一種常用的激活函數(shù),主要用于多分類(lèi)問(wèn)題中的輸出層。它將輸入的原始分?jǐn)?shù)轉(zhuǎn)換成每個(gè)類(lèi)別的概率值。Softmax函數(shù)對(duì)每個(gè)原始分?jǐn)?shù)進(jìn)行指數(shù)化,并將結(jié)果歸一化,使得輸出的概率之和等于1。這樣的輸出可以被解釋為每個(gè)類(lèi)別的置信度或概率。Softmax計(jì)算公式如下:

        2 實(shí)驗(yàn)設(shè)置

        2.1 實(shí)驗(yàn)參數(shù)設(shè)置

        本文的實(shí)驗(yàn)基于TensorFlow平臺(tái)搭建,實(shí)驗(yàn)環(huán)境配置如表1所示:

        BERT-BiGRU-CRF命名實(shí)體識(shí)別模型參數(shù)設(shè)置如下:batch_size 設(shè)置為32,gru_units 設(shè)置為128,drop_rate設(shè)置為0.5,learn_rate設(shè)置為0.0001,共訓(xùn)練20個(gè)epoch。

        Bert-TextCNN文本分類(lèi)模型參數(shù)設(shè)置如下:優(yōu)化器選擇Adam,卷積核設(shè)置為(3,4,5) ,drop_rate設(shè)置為0.5,共訓(xùn)練20個(gè)epoch。

        2.2 實(shí)驗(yàn)結(jié)果分析

        為了比較各模型在旅游領(lǐng)域命名實(shí)體識(shí)別和文本分類(lèi)上的表現(xiàn),本文使用準(zhǔn)確率、召回率和F1值衡量不同模型的性能,實(shí)驗(yàn)結(jié)果如表2和表3所示:

        從表2可以看出,BERT-BiGRU-CRF模型相較于傳統(tǒng)的BiGRU-CRF和BERT-CRF模型,在F1值上取得了3.61% 和2.11% 的提升,說(shuō)明結(jié)合了BERT預(yù)訓(xùn)練的語(yǔ)義表示和BiGRU-CRF模型的序列標(biāo)注能力,在命名實(shí)體識(shí)別任務(wù)中取得了顯著的性能提升。BERT 模型能夠?qū)W習(xí)到豐富的語(yǔ)義信息,通過(guò)預(yù)訓(xùn)練的方式在大規(guī)模文本語(yǔ)料上學(xué)習(xí)詞語(yǔ)之間的語(yǔ)義關(guān)系,能夠更好地捕捉詞語(yǔ)的上下文信息。而B(niǎo)iGRU-CRF模型則能夠有效地捕捉序列數(shù)據(jù)中的依賴(lài)關(guān)系,并通過(guò)條件隨機(jī)場(chǎng)模型進(jìn)行序列標(biāo)注,具有良好的序列標(biāo)注能力。結(jié)合BERT的語(yǔ)義表示和BiGRU-CRF模型的序列標(biāo)注能力,BERT-BiGRU-CRF 模型能夠更全面地利用文本中的語(yǔ)義和序列信息,從而取得了較大的性能提升。

        從表3可以看出,BERT-TextCNN模型相較于傳統(tǒng)的TextCNN和BERT模型,在F1值上取得了4.71%和3.12% 的提升,說(shuō)明結(jié)合了BERT 的語(yǔ)義表示和TextCNN模型的特征提取能力,能夠在文本分類(lèi)任務(wù)中取得顯著的性能提升。BERT模型能夠?qū)W習(xí)到豐富的文本語(yǔ)義信息,而TextCNN模型則通過(guò)卷積和池化操作對(duì)文本進(jìn)行特征提取和壓縮,能夠有效地捕捉文本的局部特征。結(jié)合BERT的語(yǔ)義表示和TextCNN模型的特征提取能力,BERT-TextCNN模型能夠更全面地利用文本中的語(yǔ)義和局部特征信息,在文本分類(lèi)任務(wù)中更準(zhǔn)確地判斷文本的類(lèi)別。

        3 結(jié)束語(yǔ)

        在基于深度學(xué)習(xí)的旅游領(lǐng)域知識(shí)抽取研究中,通過(guò)本文所提出的BERT-BiGRU-CRF命名實(shí)體識(shí)別模型、BERT-TextCNN文本分類(lèi)模型,我們成功地實(shí)現(xiàn)了對(duì)旅游領(lǐng)域相關(guān)知識(shí)的自動(dòng)化抽取。通過(guò)深度學(xué)習(xí)技術(shù),我們能夠更準(zhǔn)確、更高效地從海量的旅游文本數(shù)據(jù)中提取出有用的信息,為旅游業(yè)的發(fā)展和決策提供了有力支持。未來(lái)會(huì)進(jìn)一步改進(jìn)模型的性能和泛化能力,提高知識(shí)抽取的準(zhǔn)確度和效率,同時(shí)結(jié)合領(lǐng)域知識(shí)和人類(lèi)專(zhuān)家經(jīng)驗(yàn),進(jìn)一步優(yōu)化模型的設(shè)計(jì)和訓(xùn)練過(guò)程,探索多模態(tài)數(shù)據(jù)融合的方法,提升知識(shí)抽取的綜合能力和應(yīng)用效果。

        參考文獻(xiàn):

        [1]林婷,孫妍,易敏,等.“互聯(lián)網(wǎng)+”時(shí)代智慧旅游發(fā)展及盈利模式探索[J]. 商展經(jīng)濟(jì),2024(5):31-34.

        [2] 趙卓,田侃,張殊,等. 面向智慧文博的知識(shí)圖譜構(gòu)建綜述[J].軟件導(dǎo)刊,2022,21(5):1-8.

        [3] 張吉祥,張祥森,武長(zhǎng)旭,等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)工程,2022,48(3):23-37.

        [4] DEVLIN J,CHANG M W,LEE K,et al. BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL]. arXiv preprint arXiv:1810. 04805, 2018.

        [5] 宋璐璐. 基于知識(shí)圖譜的水稻病蟲(chóng)害問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 雅安:四川農(nóng)業(yè)大學(xué),2023.

        [6] 翟文鵬,宋一嶠,張兆寧. 基于Transformer-GRU網(wǎng)絡(luò)的4D航跡預(yù)測(cè)[J/OL]. 重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版),1-7[2024-03-27].

        [7] LAFFERTY J D,MCCALLUM A,PEREIRA F C N. Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning. ACM,2001:282–289.

        [8] 鄒旺,張吳波. 基于BERT-TextCNN 的汽車(chē)評(píng)論情感分析[J]. 天津理工大學(xué)學(xué)報(bào),2024,40(1):101-108.

        [9] SUNDERMEYER M,SCHL?TER R,NEY H. LSTM neural net?works for language modeling[C]//Interspeech 2012. ISCA:ISCA,2012:194-197.

        [10] 張靜,高子信,丁偉杰.基于BERT-DPCNN的警情文本分類(lèi)研究[J/OL].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),1-15[2024-03-27].

        【通聯(lián)編輯:唐一東】

        基金項(xiàng)目:大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目:高原地區(qū)車(chē)內(nèi)智能化檢測(cè)供氧換氣裝置 (S202310694017) ;大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“: 主動(dòng)式”道路智能交互系統(tǒng)的研發(fā)(2024XCX015)

        亚洲国产精品久久久久秋霞影院 | 老鲁夜夜老鲁| 国产精品视频露脸| 国产尻逼视频| 国产一区二区三区av香蕉| 一本色道久久88—综合亚洲精品| 五月丁香综合激情六月久久| 中文字幕无码精品亚洲资源网久久| 亚洲Av无码专区尤物| 女优av性天堂网男人天堂| 国产精品 无码专区| 无套内谢的新婚少妇国语播放| 国模雨珍浓密毛大尺度150p| 亚洲精品无码高潮喷水在线| 国产三级视频在线观看视主播| 精品久久一品二品三品| 美女很黄很色国产av| 欧美丰满熟妇xxxx性| 国产视频毛片| 亚洲精品在线观看一区二区| 日本黄色一区二区三区| 综合五月激情二区视频| 无码午夜人妻一区二区三区不卡视频 | 国产精品久久久久久婷婷| 国产V日韩V亚洲欧美久久| 91久久精品一二三区色| 国产自国产自愉自愉免费24区| 亚洲 中文 欧美 日韩 在线| 国产精品无码成人午夜电影| 亚洲国产精品一区二区第四页| 日本人妻少妇精品视频专区| 99视频偷拍视频一区二区三区| 国产精品婷婷久久爽一下| 国产无遮挡裸体免费视频| 99精品视频69v精品视频免费| 国产高潮迭起久久av| 男人的天堂免费a级毛片无码| 欧美巨大巨粗黑人性aaaaaa| 国产精品美女黄色av| 国产熟女自拍av网站| 中文字幕乱码无码人妻系列蜜桃 |