亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合NER 和Apriori 算法的游記文本關聯(lián)知識挖掘及推薦服務研究

        2023-11-15 05:56:21郭順利蘇新寧房旭輝
        現(xiàn)代情報 2023年11期

        郭順利 蘇新寧 房旭輝

        摘 要: [目的/ 意義] 為挖掘旅游平臺游記文本蘊含知識, 協(xié)助旅游者高效獲取符合需求的信息和知識,為制定旅游計劃提供科學決策的信息支持。[方法/ 過程] 首先面向用戶需求提出基于布爾矩陣和集合邏輯改進Apriori 算法的思路; 然后融合命名實體識別實現(xiàn)了游記文本關聯(lián)知識挖掘及聚合, 構建了基于關聯(lián)知識挖掘的個性化推薦服務模式, 并以攜程網中杭州相關的游記文本進行了實證研究。[結果/ 結論] 研究發(fā)現(xiàn), 融合命名實體識別和改進的Apriori 算法, 能夠有效挖掘游記文本蘊含知識, 實驗結果驗證了在算法性能及結果上要優(yōu)于傳統(tǒng)Apriori 算法, 并能夠根據(jù)挖掘結果向用戶提供個性化推薦服務, 協(xié)助旅行者科學、高效地制定旅游計劃。研究結論豐富了游記文本挖掘的方法論, 為旅游平臺服務推薦優(yōu)化提供了新的思路。

        關鍵詞: 知識挖掘; 關聯(lián)規(guī)則; Apriori 算法; 游記文本; 推薦服務

        DOI:10.3969 / j.issn.1008-0821.2023.11.010

        〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 11-0123-12

        隨著移動互聯(lián)網的普及, 越來越多的游客喜歡在旅游平臺上分享自己的旅游經歷。這些記錄旅游經歷的游記文本中蘊含著大量有價值的信息, 包括游客的旅行目的地、旅游攻略、景點評價和旅行體驗等。有效地組織和挖掘游記文本資源, 以直觀、生動的可視化方式展示旅游事件知識單元之間的關聯(lián)與結構, 能夠為旅游平臺用戶提供精準化知識服務, 為旅游計劃和決策制定提供幫助[1] 。然而, 隨著旅游平臺用戶數(shù)量的激增, 游記文本的數(shù)量也呈現(xiàn)指數(shù)性增長。由于游記文本主要由用戶生成, 旅游平臺缺乏有效的監(jiān)督和管理機制, 導致文本質量良莠不齊, 存在冗余過載、組織無序以及用戶獲取成本高等問題。面對游記文本的爆炸性增長, 如何利用有效的工具和方法來組織和挖掘其中所蘊含的未知的、有價值的信息和知識, 為用戶提供精準化知識服務, 成為當前旅游平臺亟需解決的問題之一。

        游記文本的組織與挖掘研究主要涉及旅游文化元素的識別[2] 、旅游目的地形象感知[3] 、游客感知[4] 、游客行為[5] 等方面。同時, 一些學者通過游記文本內容挖掘為用戶提供推薦服務, 包括旅游路線推薦[6] 、旅游景點推薦[7] 和相關游記推薦[8] 等。

        從游記文本挖掘技術和方法的角度來看, 學者們大多采用了文本挖掘的相關技術方法, 部分學者還結合了知識圖譜、深度學習等前沿技術。例如, 呂琳露等[9] 利用文本挖掘技術和相關方法, 實現(xiàn)了對游記文本的知識發(fā)現(xiàn)與聚合, 為用戶的旅游決策提供依據(jù); 孫文平等[10] 則基于構建的知識圖譜, 采用頻繁序列挖掘算法為用戶推薦旅游路線; 高原等[11] 結合TF-IDF 和Word2Vec 方法進行景點識別, 并基于馬爾可夫性、先驗知識和空間特征模型實現(xiàn)了游客游覽行程的重構。學者們應用文本挖掘技術進行游記文本知識挖掘技術方法中, 關聯(lián)規(guī)則挖掘是較為常用的方法。部分已有研究實現(xiàn)了從游記文本中挖掘關聯(lián)知識并為旅行者提供路線推薦、景點推薦、關聯(lián)知識發(fā)現(xiàn)等服務。其中, Apriori算法[12] 作為最常用的關聯(lián)規(guī)則算法之一, 已被廣泛應用于政策文本[13] 、學術論文[14] 、用戶生成內容[15] 等多個領域。然而, 由于傳統(tǒng)的Apriori 算法運行效率較低, 部分學者采用多種方法融合對其進行改進關聯(lián)知識挖掘效率和性能[16-17] , 以提高算法的效率。例如, 章成志等[18] 在抽取學術論文的細粒度知識實體后, 結合Apriori 算法和復雜網絡分析軟件構建了知識實體關聯(lián)網絡。涂晨等[19] 基于LDA 主題模型與Apriori 算法的旅游數(shù)據(jù)挖掘,從文本中抽取相關旅游要素。

        梳理已有文獻發(fā)現(xiàn), 學者們多應用經典關聯(lián)規(guī)則挖掘算法進行游記文本知識挖掘, 但是在知識特征抽取上存在較大問題。而命名實體識別技術能為解決這一問題提供有效方法。命名實體識別(NamedEntity Recognition, NER), 又稱實體抽取, 是指從非結構化的自然語言文本中識別出符合定義的實體。

        該技術基于深度學習的方法更有利于自動發(fā)現(xiàn)文本中隱藏的知識特征。此外, 借助大規(guī)模預訓練嵌入的發(fā)展, 基于深度學習的命名實體識別模型不斷提升性能, 在醫(yī)學[20] 、數(shù)字人文[21] 、社交媒體[22] 、科技文獻[23] 等多個領域廣泛應用, 取得了顯著的效果。游記文本數(shù)據(jù)中涵蓋了豐富的實體信息, 基于深度學習的命名實體識別方法能夠為游記文本中知識實體信息的提取和分析提供了有效手段。游記文本大多是用戶生成的非結構化文本。如果對游記文本進行關聯(lián)知識挖掘, 需要先將非結構化的游記文本轉換為結構化的形式。通過應用命名實體識別方法, 可以從游記文本中抽取出旅游實體, 將由用戶生成的非結構化游記文本轉換為由旅游實體構成的結構化文本。此外, 已有游記文本關聯(lián)知識挖掘多基于整體的數(shù)據(jù)挖掘結果進行推薦服務, 而缺乏對細粒度屬性的挖掘。基于深度學習的命名實體識別方法能夠從游記文本中提取細粒度知識實體信息, 為后續(xù)細粒度關聯(lián)規(guī)則挖掘提供基礎。

        鑒于此, 本研究結合旅游平臺游記文本的特點,提出了一種融合命名實體識別和改進Apriori 算法的游記文本關聯(lián)知識挖掘方法。首先, 通過游記文本分類實現(xiàn)對細粒度關聯(lián)知識的挖掘; 然后, 應用命名實體識別技術, 從游記文本中提取出旅游實體,將非結構化的游記文本轉換為可用于關聯(lián)規(guī)則挖掘的結構化數(shù)據(jù); 最后, 利用改進的Apriori 算法挖掘游記文本中潛在的、未知的、有價值的關聯(lián)知識,實現(xiàn)對知識的有效組織和利用。最終, 基于挖掘出的關聯(lián)知識, 提供面向用戶需求的個性化推薦服務,以協(xié)助用戶高效獲取符合需求的旅游信息和知識,為用戶的旅游計劃制定和決策提供幫助。

        1 研究基礎

        1.1 Apriori 算法

        Apriori 算法是關聯(lián)規(guī)則挖掘領域中的經典算法,由Agrawal R 等[12] 在1993 年提出。該算法的核心思想是在給定大數(shù)據(jù)集中尋找頻繁項集, 并進一步生成強關聯(lián)規(guī)則[24] 。Apriori 算法可分為以下3 個步驟: 首先, 基于用戶指定的最小支持度, 通過對事務集的迭代遍歷, 生成滿足最小支持度的頻繁項集; 其次, 根據(jù)頻繁項集及其支持度, 計算各個關聯(lián)規(guī)則的置信度, 從而挖掘出事務集中滿足用戶指定最小置信度的強關聯(lián)規(guī)則; 最后, 通過提升度優(yōu)化生成的關聯(lián)規(guī)則。

        然而, 傳統(tǒng)的Apriori 算法存在以下3 個缺點:首先, 在計算候選項集的支持度時需要多次掃描數(shù)據(jù)庫, 增加了算法的時間復雜度和計算開銷; 其次,通過頻繁k-項集連接生成候選k+1-項集時, 會產生大量的候選項集, 增加了算法的空間復雜度和內存開銷; 最后, 傳統(tǒng)的Apriori 算法無法將用戶需求融入到關聯(lián)規(guī)則的生成過程中, 生成的關聯(lián)規(guī)則可能并不符合用戶的真實需求, 導致生成的關聯(lián)規(guī)則缺乏實際價值和意義。

        1.2 BERT-BiLSTM-CRF 模型

        BERT-BiLSTM-CRF 模型是一種廣泛應用且效果良好的深度學習命名實體識別模型, 該模型由編碼層的BiLSTM 和解碼層的CRF 組成。在嵌入層方面, 采用了BERT 預訓練語言模型作為通用的詞元嵌入。BERT-BiLSTM-CRF 模型的結構如圖1 所示。

        BERT 是由Google AI 團隊提出的一種面向自然語言處理任務的無監(jiān)督預訓練語言模型[25] 。該模型采用Transformer 雙向編碼器表示, 被視為預訓練語言模型的巔峰之作。相較于之前的預訓練模型, BERT 具備強大的特征提取能力和語義理解能力, 因此本文選用BERT 作為游記文本實體抽取模型的嵌入層。BiLSTM 是雙向長短期記憶網絡, 相較于單向傳遞的LSTM 模型, 它引入了雙向信息傳遞。通過前向LSTM 和后向LSTM 從正序和倒序的角度學習文本特征[26] 。CRF 模型結合了最大熵模型和隱馬爾可夫模型的特點, 是一種無向概率圖模型。LSTM 模型只能考慮句子的上下文信息, 無法考慮標簽之間的依賴關系, 而CRF 可以通過學習標簽之間的相鄰關系來保證標簽的有效性[27] 。因此, 本文選擇BiLSTM 模型作為編碼層, 用于理解文本的語義和結構, 并學習出表示文本的向量。在BiLSTM 之后, 加入CRF 層作為解碼層, 用于解碼詞元的標簽, 從而實現(xiàn)命名實體識別任務。

        2 融合命名實體識別和Apriori 算法的游記文本挖掘方法及關鍵技術

        本文針對在線旅游平臺的游記文本特點, 提出了一種綜合應用命名實體識別和改進Apriori 算法的游記文本挖掘方法, 并基于挖掘得到的關聯(lián)知識,為用戶提供個性化的推薦服務。研究思路和設計如圖2 所示。該方法涉及以下關鍵技術功能模塊: 基于標簽的游記文本分類、基于BERT-BiLSTM-CRF模型的游記文本實體抽取、基于改進Apriori 算法的游記文本關聯(lián)知識挖掘以及基于知識圖譜的關聯(lián)知識推薦。

        2.1 基于標簽的游記文本分類

        為了實現(xiàn)細粒度的關聯(lián)知識挖掘, 對游記文本進行分類。分類的依據(jù)是根據(jù)游記文本中所涉及的景點, 并為其添加相應的縣/ 區(qū)級城市行政區(qū)域標簽。具體而言, 對于每篇游記, 如果其中提及了屬于某個行政區(qū)的旅游景點, 就為該篇游記添加相應的行政區(qū)標簽。一篇游記可以擁有多個城市行政區(qū)域標簽。標簽添加的規(guī)則如表1 所示。在完成城市行政區(qū)標簽的添加后, 可以根據(jù)這些城市行政區(qū)域標簽對游記文本進行分類。這樣的分類可以為后續(xù)的關聯(lián)知識挖掘提供更準確和細致的基礎。

        2.2 基于BERT-BiLSTM-CRF 模型的游記文本實體抽取

        游記文本實體抽取的目的是提取游記文本中的旅游實體。由于目前缺乏適用于游記文本的命名實體識別數(shù)據(jù)集, 因此需要首先對游記文本進行命名實體標注。游記文本實體抽取的具體流程如下:

        Step1: 文本分句。對預處理后的游記文本數(shù)據(jù)進行句子級別的劃分, 這樣可以更好地訓練命名實體識別模型。

        Step2: 實體標注。隨機選取句子進行實體標注, 采用BIO 方法對劃分后的句子進行實體標注。旅游實體的標簽類型包括景點、酒店和餐飲。完成實體標注后, 剔除不包含旅游實體的句子, 將剩余的句子作為命名實體識別模型所需的訓練數(shù)據(jù)集。

        Step3: 數(shù)據(jù)集劃分。按照6 ∶2 ∶2 的比例隨機抽取數(shù)據(jù)集中的句子, 將數(shù)據(jù)集劃分為訓練集、驗證集和測試集。

        Step4: 模型構建。采用Python 語言基于Ten?sorFlow 框架構建BERT-BiLSTM-CRF 模型。

        Step5: 模型訓練與測試。讀取數(shù)據(jù)集, 分別導入訓練集、驗證集和測試集, 并設置超參數(shù)進行模型訓練。根據(jù)測試集數(shù)據(jù), 評估模型的抽取效果, 包括準確率、召回率和F1 值等指標。

        Step6: 模型調試。根據(jù)模型測試結果, 不斷調整超參數(shù)進行訓練, 直到模型達到最佳的測試結果。

        Step7: 模型保存與預測。將表現(xiàn)最佳的模型保存后, 根據(jù)按城市行政區(qū)域標簽分類的游記文本, 分別導入訓練好的命名實體識別模型進行預測, 根據(jù)模型預測的標簽提取實體信息。

        Step8: 實體去重。抽取的結果中, 每一行代表一篇游記中出現(xiàn)的旅游實體。由于實體在一篇游記中的重復出現(xiàn)次數(shù)不會影響Apriori 算法的結果,因此需要對每行實體數(shù)據(jù)進行去重處理。

        Step9: 實體消歧。實體消歧采用人工與程序相結合的方法。具體步驟包括編寫程序對抽取出的所有文檔中的實體進行去重和排序, 然后通過人工篩選的方式, 為同一實體確定唯一的實體名稱。最后, 將存在歧義的實體名稱替換為唯一的實體名稱,實現(xiàn)實體的融合。

        2.3 基于改進Apriori 算法的游記文本關聯(lián)知識挖掘

        2.3.1 Apriori 算法的改進思路

        針對傳統(tǒng)Apriori 算法的缺點, 并考慮到旅游平臺中游記文本的特點和關聯(lián)知識挖掘的目的, 提出了以下改進思路和方法:

        1) 解決多次掃描數(shù)據(jù)庫的問題。將事務數(shù)據(jù)庫映射為布爾矩陣, 不再依賴于事務數(shù)據(jù)庫, 并對矩陣的列向量進行求和運算。假設求和結果為m, 如果m 小于或等于用戶給定的最小支持度, 則刪除該列。在生成頻繁k-項集之前, 對矩陣的行向量進行求和運算, 假設結果為n, 如果n 的值小于k, 則刪除該行。通過這種方式, 只需要對文本集進行一次掃描, 就能夠降低算法的時間復雜度和計算開銷。

        2) 解決產生大量候選項集的問題?;诩显恚?提出了一種正向迭代方法, 用于由頻繁k-項集生成候選k+1-項集。假設頻繁k-項集中包含w 個k-項集, 每次從這w 個k-項集中選擇k+1 個k-項集進行合并, 如果合并后的集合是包含k +1個元素的k+1-項集, 則將其保留作為候選k+1-項集。這樣生成的候選k+1-項集的所有子集都是頻繁k-項集中的項集。通過利用子集組合, 能夠極大地減少候選項集的數(shù)量, 使得候選項集近似于頻繁項集, 從而降低了算法的空間復雜度和內存開銷。

        3) 解決可能生成無效關聯(lián)規(guī)則或用戶不感興趣關聯(lián)規(guī)則的問題。提出了一種改進方法, 將用戶需求融入到關聯(lián)規(guī)則中。在用戶輸入需求后, 利用詞向量模型標記出與用戶需求緊密相關的項在事務數(shù)據(jù)庫中的位置。在創(chuàng)建布爾矩陣的過程中, 對這些項進行加權操作, 以生成融合用戶需求的個性化關聯(lián)規(guī)則。這樣可以有效地提高關聯(lián)規(guī)則的相關性和針對性, 避免生成無效或不感興趣的規(guī)則。

        2.3.2 基于改進Apriori 算法的游記文本關聯(lián)知識挖掘流程

        將事務數(shù)據(jù)庫命名為“游記實體文本集”, 其中每一條事務對應一篇游記, 而項則對應游記文本中的實體?;诟倪M的Apriori 算法的游記文本關聯(lián)知識挖掘流程如下:

        Step1: 融合用戶需求。根據(jù)用戶需求, 利用詞向量模型計算與用戶需求相近的項, 并對相關項進行標記。

        Step2: 構建布爾矩陣M。將游記實體文本集映射成為布爾矩陣M(m?n), 其中行對應游記文本, 列表示在游記中出現(xiàn)的實體。矩陣的行數(shù)m表示游記的數(shù)量, 矩陣的列數(shù)n 表示文本中實體的數(shù)量。對于矩陣M, 當M[i,j] =1 時表示第i 篇游記文本中出現(xiàn)第j 個實體, 而M[i,j] =0 則表示該實體未出現(xiàn)。同時, 對標記的項進行加權, 加權值與事務總數(shù)的比值要大于用戶給定的最小支持度。

        Step3: 生成頻繁1-項集L1。對布爾矩陣M 按列求和, 當某一列的和大于或等于用戶給定的最小支持度時, 將對應的項加入頻繁1-項集, 并在M中刪除非頻繁的項(即刪除對應的列)。然后, 對布爾矩陣按行求和, 當總數(shù)小于或等于1 時, 刪除該行, 并形成新的布爾矩陣M1。

        Step4: 生成頻繁k-項集Lk 。利用前述迭代方法, 基于頻繁項集Lk-1 生成候選k-項集Ck 。在布爾矩陣Mk-1中, 對Ck 中的每個k-項集進行列求和運算, 若某個k-項集對應的列求和值大于或等于用戶給定的最小支持度, 則該k-項集為頻繁k-項集。對于布爾矩陣Mk-1 的每一行, 進行行求和運算, 若總數(shù)小于k, 則刪除該行, 形成新的布爾矩陣Mk 。重復迭代過程, 直到C(k+1)= ? 時結束。

        Step5: 生成關聯(lián)規(guī)則。根據(jù)頻繁項集生成關聯(lián)規(guī)則。在頻繁項集中, 按照逐個增加元素的方式進行分堆排列, 生成前件和后件的組合規(guī)則。然后,計算每個規(guī)則的置信度和提升度。

        Step6: 生成符合用戶需求且有價值的關聯(lián)規(guī)則。根據(jù)關聯(lián)規(guī)則的置信度, 篩選出大于或等于用戶給定的最小置信度的強關聯(lián)規(guī)則?;趶婈P聯(lián)規(guī)則的提升度和用戶需求, 獲得符合用戶需求且具有價值的關聯(lián)規(guī)則。

        2.4 基于知識圖譜的關聯(lián)知識推薦服務

        該技術功能模塊主要是對關聯(lián)知識挖掘生成的頻繁項集和關聯(lián)規(guī)則進行分析, 旨在尋找每個行政區(qū)的熱門旅游實體及它們之間的關聯(lián), 并將分析結果導入Neo4j 圖數(shù)據(jù)庫以構建知識圖譜。以知識圖譜可視化形式向用戶展現(xiàn), 實現(xiàn)面向用戶需求的關聯(lián)知識推薦服務。具體步驟如下:

        Step1: 頻繁項集數(shù)據(jù)分析?;陬l繁項集數(shù)據(jù), 識別每個行政區(qū)的熱門景點、酒店和餐飲。針對景點和餐飲進行細分, 篩選出景區(qū)、演出、游玩項目、餐廳和美食等相關實體。

        Step2: 實體層級關系構建。建立上述實體之間的層級關系, 其中最高層級為景區(qū), 其次為景點、餐廳、酒店、演出和游玩項目, 最底層級為美食。

        Step3: 關聯(lián)規(guī)則數(shù)據(jù)分析。按照關聯(lián)規(guī)則提升度排序, 依照實體層級從高到低的順序, 逐個檢索高層級實體作為前項的關聯(lián)規(guī)則。對找到的關聯(lián)規(guī)則進行分析, 如果規(guī)則的后項包含低于該實體層級的實體, 則為高層級實體分別建立指向底層級實體的關系。為保持知識圖譜的清晰、直觀, 同一層級的實體不再構建關系。

        Step4: 構建三元組。完善關聯(lián)規(guī)則數(shù)據(jù)分析后的實體關系, 根據(jù)實體類型建立關聯(lián)關系, 如推薦景點、推薦住宿、推薦餐廳等。完成實體關系構建后, 形成“實體, 關系, 實體” 的三元組, 并通過在線旅游平臺的相關信息完善三元組的內容。

        Step5: 導入Neo4j 圖數(shù)據(jù)庫。利用Python 編程語言編寫程序, 將三元組數(shù)據(jù)導入Neo4j 圖數(shù)據(jù)庫, 構建基于關聯(lián)知識挖掘結果的旅游推薦知識圖譜。通過該圖譜, 能夠幫助用戶制定旅游計劃并輔助用戶做出旅行決策。

        3 實證研究

        本文選擇攜程網中與杭州市相關的游記數(shù)據(jù)作為實驗數(shù)據(jù), 以驗證本文提出的融合命名實體識別和改進Apriori 算法的游記關聯(lián)知識挖掘方法的有效性和科學性。相較于其他在線旅游平臺, 攜程網的游記數(shù)據(jù)數(shù)量更多, 內容更為豐富且質量更高。同時, 杭州作為熱門旅游城市, 擁有眾多景點和豐富的文化歷史, 吸引了大量游客前往, 因此關于杭州旅游的游記數(shù)量也相當豐富。基于以上考慮, 本文選擇了攜程網上與杭州市相關的游記作為研究對象。

        3.1 游記文本數(shù)據(jù)采集和預處理

        使用Python 語言編寫的爬蟲程序, 用于從攜程網上獲取與杭州市相關的游記文本。爬取內容包括城市行政區(qū)域標簽和游記正文內容, 共獲取了3 293篇游記。首先, 根據(jù)城市行政區(qū)域標簽, 篩除與杭州無關的游記文本, 并刪除游記內容為空或重復的數(shù)據(jù), 最終得到2 634篇游記。對剩余游記正文內容中的繁體字進行轉換, 統(tǒng)一轉為簡體字。接下來, 根據(jù)表1 中的城市行政區(qū)域標簽添加規(guī)則, 為每篇游記添加縣/ 區(qū)級城市行政區(qū)域標簽。在添加城市行政區(qū)域標簽的過程中, 遇到同一景區(qū)屬于兩個行政區(qū)的情況, 根據(jù)游記中出現(xiàn)的屬于該景區(qū)的景點來判斷城市行政區(qū)域標簽的歸屬。例如, 當某篇游記提到西溪時, 如果游記中出現(xiàn)的景點都屬于東區(qū), 那么就給這篇游記添加西湖區(qū)的標簽; 如果出現(xiàn)的景點是洪園或其他屬于西區(qū)的景點, 那么就添加余杭區(qū)的標簽。添加完城市行政區(qū)域標簽后, 根據(jù)標簽對游記文本進行分類, 分類結果如表2 所示。

        3.2 游記文本實體抽取

        3.2.1 游記文本實體標注

        將經過預處理的2 634篇游記正文數(shù)據(jù)進行分句處理, 得到114 853個句子。從中隨機抽?。担埃サ木渥舆M行實體標注。采用BIO 標記方法對旅游實體進行標注, 標注的實體類型包括景點、酒店和餐飲。為了方便標注和提高實體抽取效果, 將景區(qū)、景區(qū)演出和景區(qū)的游玩項目等統(tǒng)一標記為景點。實體標注示例如圖3 所示, 其中S 表示景點, H 表示酒店, C 表示餐飲。完成標注后, 共有33 645個句子含有實體標注。

        3.2.2 BERT-BiLSTM-CRF 模型訓練

        從包含實體標注的33 645個句子中, 隨機選擇20%作為測試集, 再從剩余的數(shù)據(jù)中同樣隨機選擇20%作為驗證集, 剩下的數(shù)據(jù)用作訓練集。針對BERT-BiLSTM-CRF 模型的配置方面, BERT 模型使用了Google 訓練好的模型, 并在此基礎上進行了微調。具體的模型參數(shù)設置如下: LSTM 隱藏層神經元數(shù)量為256, 批量大?。ǎ拢幔簦悖瑁撸螅椋澹椋保玻福蛄虚L度(Sequence_length)為512, 學習率(Learn?ing Rate)為0 001, 訓練輪數(shù)(Epochs)為40。將經過劃分的數(shù)據(jù)集輸入模型進行訓練, 并經過多次調試得到了最終的模型結果, 如表3 所示。

        為了獲得最佳的游記文本實體抽取模型, 本文對比了BERT-BiLSTM-CRF 命名實體識別模型與其他模型在游記文本實體抽取任務上的性能, 具體的比較結果如表4 所示。

        從表3 可以看出, 盡管在餐飲實體識別方面,該模型的準確率相對較低, 然而在游記文本中, 景點實體是數(shù)量最多的實體類型, 該模型對于景點的識別準確率高達92 2%。根據(jù)表4 中不同實體抽取模型的效果對比, 雖然BERT-BiLSTM-CRF 方法在準確率上不如BERT-BiLSTM, 召回率上不如Word2vec-BiLSTM-CRF, 但是性能相差不是很大。BERT-BiLSTM-CRF 的命名實體識別模型在F1-score 值上偏大, 整體上取得了顯著的效果。因此,可以將該模型應用于游記文本中的實體抽取任務。

        3.2.3 游記文本實體抽取結果及對比分析

        將分類好的游記文本輸入訓練完畢的BERTBiLSTM-CRF 模型進行實體預測, 并保存預測結果。在實體抽取后, 對所有文檔中的實體進行實體消歧, 最終發(fā)現(xiàn)了377 個存在歧義的實體, 并對所有文檔中存在歧義的實體進行了替換。經過實體融合后, 模型最終識別出了2 142個實體, 其中包括1 018個景點實體、418 個酒店實體和706 個餐飲實體。游記文本實體抽取的示例數(shù)據(jù)如圖4 所示。

        為了驗證融合命名實體識別方法進行關聯(lián)規(guī)則挖掘的有效性和科學性, 本研究從隨機選取的部分游記文本數(shù)據(jù)作為實驗數(shù)據(jù), 并與其他方法進行對比。對比實驗結果如表5 所示。根據(jù)表5 所示的對比試驗結果可以發(fā)現(xiàn), 基于深度學習模型的命名實體識別方法在抽取旅游實體進行關聯(lián)知識挖掘方面表現(xiàn)出更強的有效性和科學性。

        3.3 游記文本關聯(lián)知識挖掘

        將13 個行政區(qū)生成的實體抽取數(shù)據(jù)分別導入改進的Apriori 算法進行關聯(lián)分析, 考慮到不同行政區(qū)的游記數(shù)量差異較大, 根據(jù)每個行政區(qū)的實際情況來調整最小支持度和最小置信度的閾值。為了確保生成關聯(lián)規(guī)則的效果, 設置提升度閾值為1.2。經過多次調試, 基于“行政區(qū)” 標簽分類的游記文本共挖掘出1 932個頻繁項集, 4 168條關聯(lián)規(guī)則,各行政區(qū)游記文本關聯(lián)知識挖掘的閾值設置和結果統(tǒng)計如表6 所示。

        對于每個行政區(qū)的實體抽取數(shù)據(jù), 采用改進后的Apriori 算法進行關聯(lián)分析, 得到對應每個行政區(qū)的頻繁項集和關聯(lián)規(guī)則文檔。在頻繁項集結果文檔中, 按照支持度的大小進行排序, 而在關聯(lián)規(guī)則結果文檔中, 按照提升度的大小進行排序。這樣的排序方式能夠使得結果更加清晰、有序。

        3.4 面向用戶需求的關聯(lián)知識推薦服務

        根據(jù)第2.4 節(jié)所描述的旅游推薦知識圖譜構建步驟, 構建了涵蓋杭州市各個行政區(qū)劃的旅游推薦知識圖譜。在13 個行政區(qū)共挖掘出熱門景區(qū)79 個、酒店28 家、餐廳27 家、美食31 種和7 場演出以及1 個游玩項目, 其中79 個景區(qū)中包含125 個熱門景點。通過分析確定了6 種實體類型、6 種關系和7 種實體關系組合方式。為了完善圖譜中相關旅游實體的信息, 利用了攜程網提供的數(shù)據(jù), 并將行政區(qū)和旅游城市作為圖譜中的節(jié)點, 同時為它們建立相應的關系。最終, 不同實體類型之間關系的三元組表示如表7 所示。

        將經過完善的三元組數(shù)據(jù)導入Neo4j 圖數(shù)據(jù)庫, 構建基于關聯(lián)知識挖掘結果的旅游推薦知識圖譜。由于篇幅限制, 選取淳安縣的旅游推薦知識圖譜進行可視化展示, 如圖5 所示。

        通過旅游推薦知識圖譜, 用戶可以獲得基于行政區(qū)劃的精細推薦。用戶可以選擇一個或多個行政區(qū)作為旅游目的地, 然后查看相應行政區(qū)的推薦景區(qū), 并瀏覽與目標景區(qū)相關的景點、住宿、餐飲等信息。以淳安縣為例, 用戶可以先查看淳安縣推薦的景區(qū), 如圖6 所示。

        根據(jù)圖6 可以看到, 淳安縣推薦了5 個景區(qū)。假設用戶計劃前往千島湖國家森林公園游玩, 并想了解該景區(qū)的景點、住宿和餐廳推薦, 用戶可以在游記文本關聯(lián)知識圖譜中查詢相關信息, 如圖7 所示。在圖7 中, 藍色節(jié)點代表景點, 黃色節(jié)點代表酒店, 綠色節(jié)點代表餐廳, 橙色節(jié)點代表演出。通過圖7, 用戶可以獲取該景區(qū)的熱門景點、酒店和餐廳等信息, 為用戶的旅游規(guī)劃和決策提供參考。

        用戶還可以繼續(xù)查詢美食推薦。例如, 假設用戶決定在“好東家” 餐廳就餐, 可以查看該餐廳的美食推薦, 如圖8 所示。在圖8 中, “好東家”餐廳共推薦了5 種美食。用戶可以根據(jù)自身喜好選擇相應的美食來品嘗。

        通過旅游推薦知識圖譜, 能夠幫助用戶獲得準確、個性化的旅游推薦信息, 協(xié)助用戶高效、便捷地制定旅游規(guī)劃, 為其旅行帶來更好的體驗。

        4 結 語

        本文旨在挖掘旅游平臺游記文本所蘊含的信息和知識, 以協(xié)助用戶高效獲取符合需求的知識, 并為旅行者在制定旅游計劃時提供科學、可供決策的信息。為了提供更好的個性化服務, 本文提出了面向用戶需求的融合命名實體識別和改進Apriori 算法的游記文本關聯(lián)知識挖掘方法, 并以此設計了基于知識圖譜的知識推薦服務應用模式。研究采用攜程網旅游平臺中與杭州市相關的游記文本作為數(shù)據(jù)來源進行了應用研究。實驗結果表明, 融合用戶需求改進的Apriori 算法能夠有效挖掘游記文本蘊含的知識, 在算法性能和挖掘結果方面優(yōu)于傳統(tǒng)Apri?ori 算法。這些挖掘結果和關聯(lián)知識規(guī)則具有一定的實踐價值和意義, 能夠向用戶提供個性化細粒度的推薦服務, 協(xié)助旅行者科學高效地制定旅游計劃。本文的研究結論對旅游者、在線旅游平臺和目的地具有以下的創(chuàng)新服務應用啟示:

        1) 面向旅游者方面。旅游者通過查看旅游目的地的關聯(lián)知識推薦結果, 能夠快速獲取旅游目的地的景點、住宿、飲食等推薦信息, 從而更加迅速、直觀地制定旅游計劃。例如, 當旅游者的目的地是千島湖時, 只需查看淳安縣的關聯(lián)知識推薦, 就能獲取千島湖的熱門旅游景點推薦, 如“好東家” “淳圓外”, 以及必須品嘗的千島湖魚頭等美食推薦。此外, 關聯(lián)規(guī)則的置信度或提升度閾值也能輔助旅游者做出更明智的旅游決策。例如, 在選擇千島湖魚頭餐廳時, 旅游者可以比較“好東家” 和“淳圓外” 兩家熱門餐廳之間的關聯(lián)規(guī)則“千島湖魚頭?好東家” 和“千島湖魚頭?淳圓外” 的置信度或提升度值, 從而做出更明智的旅游決策。因此, 本研究的結果為旅游者提供了有價值的服務應用。旅游者能夠通過關聯(lián)知識推薦系統(tǒng)高效獲取個性化的旅游信息, 并借助關聯(lián)規(guī)則的支持作出理性決策。

        2) 面向在線旅游平臺。針對當前在線旅游平臺游記文本數(shù)量呈現(xiàn)指數(shù)性增長, 因游記文本缺乏有效的監(jiān)督管理, 質量良莠不齊, 從而產生了冗余過載、組織無序、用戶獲取成本高等問題。本文提出的關聯(lián)知識挖掘方法能夠挖掘出游記數(shù)據(jù)中的關聯(lián)知識, 提升旅游平臺知識組織與挖掘技術能力,優(yōu)化平臺產品, 提升平臺服務, 進而提高用戶滿意度, 推動平臺持續(xù)向前發(fā)展。

        首先, 通過應用關聯(lián)規(guī)則挖掘游記文本, 旅游平臺可以實現(xiàn)知識組織與挖掘的目的。關聯(lián)知識挖掘技術可以揭示游記數(shù)據(jù)中的關聯(lián)知識, 從而為用戶提供一體化的關聯(lián)知識推薦服務。通過分析生成的頻繁項集和關聯(lián)規(guī)則, 平臺可以了解旅游景點、酒店、餐廳、美食等之間的關聯(lián)關系, 提供用戶關聯(lián)知識推薦服務。同時, 通過利用游記文本分類進行關聯(lián)知識挖掘, 還能夠實現(xiàn)更細粒度的熱門關聯(lián)知識推薦, 為用戶提供更精準的知識推薦服務。此外, 本研究提出的游記文本關聯(lián)知識挖掘方法還可以反向應用于游記文本的組織。平臺可以根據(jù)挖掘出的頻繁項集匹配相關游記, 并利用文本相似度計算來判斷游記文本的相似性。通過處理相似度過高的游記, 平臺可以減少冗余數(shù)據(jù), 降低運營成本。對于內容相似但不完全相同的游記, 平臺還可以推薦相似游記, 為用戶提供更多選擇。以西湖區(qū)的游記數(shù)據(jù)為例, 在實驗數(shù)據(jù)中, 共有1 115篇游記,其中一個頻繁6-項集的支持度為0 0452, 因此在西湖區(qū)的游記中就有50 篇游記的數(shù)據(jù)包含6 個同樣的旅游實體, 進而平臺可以計算這50 篇游記的相似度, 去除冗余游記或生成相似游記推薦。

        其次, 旅游平臺可以利用游記文本關聯(lián)知識挖掘的頻繁項集和關聯(lián)規(guī)則, 優(yōu)化和開發(fā)旅游產品?;陉P聯(lián)規(guī)則的原理, 關聯(lián)知識挖掘結果中的景點、酒店、餐廳和飲食等具有一定的熱度。因此, 基于這些關聯(lián)知識挖掘結果開發(fā)的旅游產品能夠滿足大多數(shù)用戶的需求。平臺可以通過分析關聯(lián)知識挖掘結果, 找出現(xiàn)有旅游產品的不足之處, 并改進提升其競爭力。此外, 平臺還可以利用關聯(lián)知識挖掘結果開發(fā)新的旅游產品。例如: 在蕭山區(qū)旅游產品開發(fā)中, 平臺可以基于關聯(lián)規(guī)則{湘湖國家旅游度假區(qū)}?{云曼溫泉, 第一世界大酒店, 爛蘋果樂園, 泰香閣, 杭州樂園}, 構建包含湘湖、杭州樂園、第一世界大酒店等熱門景點推薦的旅游產品??紤]到不同類型的用戶有不同的旅游需求, 平臺還可以采用其他的游記分類方法, 滿足用戶多樣化的需求。例如, 基于出行伴侶的游記文本分類, 平臺可以為親子、情侶、父母等不同類型的旅行伴侶打造旅游產品。

        第三, 基于游記文本關聯(lián)知識挖掘結果, 旅游平臺可以提升服務質量和水平, 主要體現(xiàn)在關聯(lián)知識智能問答、關鍵詞檢索推薦和關聯(lián)知識主動推送等方面。首先, 平臺可以在城市旅游主頁上展示游記文本挖掘出的一體化關聯(lián)知識。相較于簡單羅列的展示方式, 基于知識圖譜的可視化展示能夠更加清晰、明了地呈現(xiàn)關聯(lián)知識。因此, 旅游平臺可以在各個旅游城市主頁增加一個關聯(lián)知識模塊, 并利用知識圖譜進行關聯(lián)知識的可視化呈現(xiàn), 以便用戶瀏覽和獲取旅游知識。其次, 在關鍵詞檢索推薦方面, 旅游平臺可以根據(jù)用戶輸入的檢索詞, 推薦與該檢索詞相關聯(lián)的旅游實體作為關鍵詞。例如, 當用戶輸入“千島湖” 作為檢索詞時, 可以將“啤酒小鎮(zhèn)” “千島湖魚頭” “好東家” “開元度假村”等與千島湖相關聯(lián)的旅游實體作為檢索推薦, 從而提升用戶的檢索體驗。最后, 在關聯(lián)知識主動推送方面, 平臺可以根據(jù)用戶最近一段時間內的行為,預測用戶的旅行目的地, 并將該目的地的關聯(lián)知識主動推送給用戶。例如, 如果用戶最近一段時間內瀏覽了大量與桐廬旅游相關的信息, 平臺可以推測用戶可能有去桐廬旅游的意向, 隨后主動將基于桐廬游記挖掘出的關聯(lián)知識推薦給用戶, 以提升用戶對平臺的滿意度。

        3) 面向旅游目的地方面。關聯(lián)知識挖掘應用能夠提升目的地旅游服務水平, 促進目的地形象管理與維護, 并推動目的地旅游業(yè)的持續(xù)健康發(fā)展。具體可以通過以下幾種方式實現(xiàn): 首先, 應用關聯(lián)知識挖掘目的地城市的相關游記, 可以挖掘出目的地的熱門景點、酒店、餐廳以及美食等信息, 發(fā)現(xiàn)目的地旅游的關聯(lián)知識。通過對這些關聯(lián)知識的分析, 旅游目的地城市可以制定城市熱門旅游路線,為游客提供城市熱門旅游規(guī)劃, 并完善熱門旅游景點之間的公共交通等方式來提升自身的服務水平和能力。其次, 熱門景點、酒店、餐廳等場所通常是外來游客到訪最頻繁的地方, 它們的設備設施、工作人員態(tài)度以及提供的服務或產品質量都對城市形象產生重要影響。因此, 目的地城市有必要加強對這些熱門場所設備設施的建設與維護, 加強對工作人員的培訓, 并加強對酒店和餐廳等場所的監(jiān)督與管理。目的地城市應積極主動地發(fā)現(xiàn)并解決這些熱門場所中潛在的問題, 以避免負面輿論事件的發(fā)生,從而促進目的地形象的管理與維護。最后, 旅游目的地城市可以基于關聯(lián)知識挖掘推動旅游業(yè)的持續(xù)健康發(fā)展。例如, 可以通過多媒體渠道積極宣傳目的地的熱門景點, 提升城市的知名度; 挖掘熱門景點之間共同的旅游特色, 發(fā)展自身的旅游特色, 打造城市的旅游名片; 同時, 分析熱門景點、酒店、餐廳等之間關聯(lián)關系產生的原因, 尋求有利于促進城市旅游業(yè)建設發(fā)展的經驗與規(guī)律, 為非熱門景區(qū)的建設提供參考等。

        然而, 本研究還存在著一定的不足。在實證研究中, 本文僅選取了攜程網作為單一旅游平臺, 并僅針對一個城市的數(shù)據(jù)進行了分析, 因此數(shù)據(jù)規(guī)模相對較小。下一步, 筆者將擴大數(shù)據(jù)規(guī)模, 進行多城市、跨平臺的多模態(tài)數(shù)據(jù)融合的關聯(lián)知識挖掘,以期為用戶提供更廣泛和智能化的知識服務。

        參考文獻

        [1] 鄧君, 彭珺, 孫紹丹, 等. 基于事理圖譜的游記文本知識發(fā)現(xiàn)———

        以康養(yǎng)旅游為例[J]. 現(xiàn)代情報, 2022, 42 (7): 105-113.

        [2] 柯健, 華哲銘, 許鑫. 基于網絡游記挖掘的城市旅游文化元素識

        別———以上海為例[J]. 資源科學, 2022, 44 (1): 127-142.

        [3] Li R L, Wang H J, Zhang H. Chinese Tourists Perception of the

        Tourism Image of North Korea Based on Text Data from Tourism

        Websites [J]. Sustainability, 2021, 13 (21): 12205.

        [4] 吳林芝, 周春林, 黃子璇, 等. 網絡語境下官方目的地宣傳形

        象與游客感知形象的差異———以南京市為例[ J]. 地域研究

        與開發(fā), 2018, 37 (3): 90-94, 100.

        [5] 吳恒, 陳燕翎. 基于UGC 文本挖掘的游客目的地選擇信息研

        究———以攜程蜜月游記為例[J]. 情報科學, 2017, 35 (1):

        101-105.

        [6] Du S Y, Zhang H, Xu H L, et al. To Make the Travel Healthier:

        a New Tourism Personalized Route Recommendation Algorithm [J].

        Journal of Ambient Intelligence and Humanized Computing, 2019,

        10 (9): 3551-3562.

        [7] 呂琳露, 李亞婷. 基于游記主題挖掘與表達的旅游信息推薦研

        究[J]. 現(xiàn)代情報, 2017, 37 (6): 61-67.

        [8] 高佳美. 基于文本挖掘的旅游文記個性化推薦技術的研究與實

        現(xiàn)[D]. 沈陽: 遼寧大學, 2017.

        [9] 呂琳露, 李亞婷. 游記文本中的知識發(fā)現(xiàn)與聚合———以螞蜂窩

        旅行網杭州游記為例[ J]. 情報雜志, 2017, 36 ( 7): 176-

        181, 110.

        [10] 孫文平, 常亮, 賓辰忠, 等. 基于知識圖譜和頻繁序列挖掘

        的旅游路線推薦[J]. 計算機科學, 2019, 46 (2): 56-61.

        [11] 高原, 施元磊, 張蕾, 等. 基于游記文本的游客游覽行程重

        構[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2020, 4 (Z1): 165-172.

        [12] Agrawal R, Imieliński T, Swami A. Mining Association Rules

        Between Sets of Items in Large Databases [C] / / Acm Sigmod Re?

        cord. ACM, 1993, 22 (2): 207-216.

        [13] 馬海群, 劉興麗, 韓娜. 基于關聯(lián)規(guī)則的開放政府數(shù)據(jù)主題多

        政策協(xié)同性研究[J]. 情報科學, 2022, 40 (4): 3-8, 17.

        [14] 溫芳芳, 鄭詩嘉. 基于關聯(lián)規(guī)則挖掘的多學科知識融合研究———

        以新冠肺炎研究領域為例[J]. 現(xiàn)代情報, 2023, 43 (3): 148-

        156.

        [15] 吳鵬, 詩童, 凌晨. 基于微博平臺的新冠疫苗主題發(fā)現(xiàn)研究

        [J]. 情報科學, 2022, 40 (7): 12-18, 26.

        [16] 李昌兵, 龐崇鵬, 凌永亮, 等. 基于改進特征提取及聚類的

        網絡評論挖掘研究[J]. 現(xiàn)代情報, 2018, 38 (2): 68-74.

        [17] 王倬, 李丹. 基于大數(shù)據(jù)的關聯(lián)規(guī)則Apriori 算法的研究與改

        進[J]. 圖書情報工作, 2016, 60 (S2): 127-130, 142.

        [18] 章成志, 謝雨欣, 宋云天. 學術文本中細粒度知識實體的關

        聯(lián)分析[J]. 圖書館論壇, 2021, 41 (3): 12-20.

        [19] 涂晨, 李鑫, 葉程軼. 基于LDA 主題模型與Apriori 算法的旅

        游數(shù)據(jù)挖掘[J]. 物聯(lián)網技術, 2023, 13 (3): 108-112.

        [20] 琚沅紅, 牟冬梅, 王書童, 等. 少樣本高質量醫(yī)學知識的命名

        實體識別研究———以肺癌診療規(guī)范為例[J]. 現(xiàn)代情報, 2023,

        43 (2): 9-19.

        [21] 林立濤, 王東波, 劉江峰, 等. 數(shù)字人文視域下典籍動物命

        名實體識別研究———以SikuBERT 預訓練模型為例[ J]. 圖書

        館論壇, 2022, 42 (10): 42-50.

        [22] 李東升, 鮑玉來, 劉建華, 等. 基于BERT 的高校圖書館微信

        信息服務的命名實體識別方法[J]. 現(xiàn)代情報, 2023, 43 (4):

        64-76.

        [23] 董美, 常志軍. 一種面向中醫(yī)領域科技文獻的實體關系抽取

        方法[J]. 圖書情報工作, 2022, 66 (18): 105-113.

        [24] 岳俊舉, 馮立杰, 馮奕程, 等. 基于多維技術創(chuàng)新地圖與關

        聯(lián)規(guī)則挖掘的技術機會識別方法研究[ J]. 情報學報, 2017,

        36 (8): 798-808.

        [25] Devlin J, Chang M W, Lee K, et al. Bert: Pre - training of

        Deep Bidirectional Transformers for Language Understanding [ J].

        arXiv Preprint arXiv: 1810 04805, 2018.

        [26] 葉佳鑫, 熊回香, 孟璇. 基于細粒度評論挖掘的在線圖書相

        似度計算研究[J]. 情報科學, 2023, 41 (1): 166-173.

        [27] 翟羽佳, 田靜文, 趙玥. 基于BERT-BiLSTM-CRF 模型的算

        法術語抽取與創(chuàng)新演化路徑構建研究[ J]. 情報科學, 2022,

        40 (4): 71-78.

        (責任編輯: 郭沫含)

        国内自拍视频在线观看| 18禁超污无遮挡无码免费游戏| 在线播放a欧美专区一区| 伊人色综合九久久天天蜜桃 | 欧美日韩色| 在线视频一区二区三区中文字幕| 刚出嫁新婚少妇很紧很爽| 国产肉体xxxx裸体784大胆| 免费特级黄毛片| 国产女主播强伦视频网站| 亚洲天堂av一区二区| 欧美老熟妇喷水| 狠狠色狠狠色综合| 成人黄网站免费永久在线观看| 日本a级特级黄色免费| 熟女性饥渴一区二区三区| 亚洲AV无码一区二区三区天堂网 | 亚洲AV永久青草无码性色av| 天堂av一区二区在线| 亚洲欧洲日产国码av系列天堂| 日本japanese少妇高清| 亚洲VA欧美VA国产VA综合| 精品人妻av区二区三区| 亚洲欧美日韩综合一区二区 | 国产av久久久久精东av| 久久精品国产亚洲av麻| 亚洲AV无码日韩综合欧亚 | 亚洲精品中文字幕二区| 久久精品国产亚洲av不卡国产| 人妻久久久一区二区三区| 久久精品国产99久久丝袜| 少妇一区二区三区精选| 国产精品免费看久久久无码| 国产亚洲精品久久久久秋霞| 91久久精品一二三区蜜桃| av日韩高清一区二区| 国产免费av片在线播放| 妞干网中文字幕| 男女啪啪在线视频网站| 成人免费xxxxx在线观看| 亚洲久无码中文字幕热|