亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA主題模型與Apriori算法的旅游數(shù)據(jù)挖掘

        2023-03-22 09:29:06葉程軼
        物聯(lián)網(wǎng)技術(shù) 2023年3期
        關(guān)鍵詞:關(guān)聯(lián)文本情感

        涂 晨,李 鑫,葉程軼

        (江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000)

        0 引 言

        隨著近年來互聯(lián)網(wǎng)和自媒體的繁榮,旅游業(yè)不斷發(fā)展的同時也面臨著諸多需求,特別是每年的旅游市場現(xiàn)狀及未來規(guī)劃因得不到有效游客信息而無法充分分析和改善。由于新冠疫情的原因,在線旅游(Online Travel Agency, OTA)和游客的用戶生成內(nèi)容(User Generated Content, UGC)數(shù)據(jù)成為了解旅游市場現(xiàn)狀的重要信息來源。要使用OTA和UGC的數(shù)據(jù)內(nèi)容對某一特定旅游目的地進行研究,數(shù)據(jù)挖掘及分析則成了必要手段。但在研究中發(fā)現(xiàn),OTA和UGC數(shù)據(jù)極為分散和碎片化,尤其是對于旅游城市來說,OTA和UGC數(shù)據(jù)包括且不僅限于微信公眾號文旅文章、酒店評論、景區(qū)評論以及游記攻略。對于如此碎片化的數(shù)據(jù),如何從中提取出旅游產(chǎn)品及其熱度和關(guān)聯(lián)性,從而進行良好的數(shù)據(jù)分析,以此根據(jù)旅游產(chǎn)品熱度及關(guān)聯(lián)性對景區(qū)酒店等進行一系列分析規(guī)劃,成為了“互聯(lián)網(wǎng)+旅游”的一大難題。

        高新波等人[1]提出的基于社會媒體的旅游數(shù)據(jù)挖掘與分析方法初步反映了上述問題。目前,不少相關(guān)學(xué)者對此現(xiàn)象進行了深入研究,提出了多種解決方法。例如,以改進樸素貝葉斯分類[2]、支持向量機[3]、邏輯回歸、LSTM與CNN[4]、改 進 CNN 與 LSTM[5]、ERNIE-CNN[6]、Bootstrapping[7]、FMNN融合多神經(jīng)網(wǎng)絡(luò)[8]、改進TF-IDF和ABLCNN[9]等機器學(xué)習(xí)模型[10]以及基于向量空間模型[11]來解決文本分類問題;以基于情感詞典、傳統(tǒng)機器學(xué)習(xí)[12]、深度學(xué)習(xí)等方法來解決情感分析問題[13];閆婷婷等人[14]開展的中文情感分析研究則在中文信息處理領(lǐng)域綜述了方法及不足;張昊旻等人[15]提出用權(quán)值算法來解決中文情感分析問題;唐慧豐等人[16]開展了基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究等;以基于Apriori算法[17]的關(guān)聯(lián)規(guī)則挖掘技術(shù)[18]改進FP-growth算法[19]的模型來解決關(guān)聯(lián)分析。同時,隨著BERT模型在自然語言處理各領(lǐng)域的廣泛應(yīng)用,又激起了關(guān)于預(yù)訓(xùn)練模型的一系列研究,例如BERT-TECNN文本分類[20]。然而,由于該數(shù)據(jù)集類別失衡、無標(biāo)注且質(zhì)量參差不齊,其在各模型上的表現(xiàn)均得不到很好的效果,具體表現(xiàn)為精度極低、極早過擬合等情況。

        為此,針對數(shù)據(jù)集類別失衡、無標(biāo)注等根源情況,本文采用無監(jiān)督學(xué)習(xí)的LDA主題模型中的主題分布進行文本相似度計算,以此對文本是否屬于同一類別進行區(qū)分,便于游客獲得指定分類信息的準(zhǔn)確性;在解決提取產(chǎn)品問題中,采用TextRank關(guān)鍵詞算法對其進行關(guān)鍵詞提??;而在熱度分析問題中,建立以產(chǎn)品評論為基準(zhǔn)、文本情感分析為輔的多維度產(chǎn)品熱度分析模型;同時采用關(guān)聯(lián)分析算法(Apriori)的思想,借由產(chǎn)品在文本間所存在的頻率,根據(jù)從指定數(shù)據(jù)中提取出的相關(guān)產(chǎn)品,對在總次數(shù)中產(chǎn)品出現(xiàn)次數(shù)與出現(xiàn)產(chǎn)品A且可能出現(xiàn)產(chǎn)品B的概率等進行加權(quán)求和計算關(guān)聯(lián)度,說明旅游產(chǎn)品間的關(guān)系。

        1 研究方法

        本文主要運用基于LDA的文本分類模型、基于TextRank的關(guān)鍵詞提取和中文情感分析的熱度分析以及基于頻率的產(chǎn)品關(guān)聯(lián)度分析技術(shù),具體思路總結(jié)如下。

        1.1 LDA模型

        LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)[21]是一種主題模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出[22]。LDA模型算法是一種無監(jiān)督模型算法,旨在通過無監(jiān)督的學(xué)習(xí)發(fā)現(xiàn)文檔中隱含的主題信息,通過文檔中詞和詞之間的共有特征來發(fā)現(xiàn)文檔的主題結(jié)構(gòu)。同時它也是一種經(jīng)典的詞袋模型,通過詞袋把文檔看作一個詞頻向量[23],詞和詞之間沒有先后順序之分。其含義通常是指,文檔到主題服從多項式分布,主題到詞服從多項式分布。

        假設(shè)有D個文檔,其中包含了K個主題,每個文檔的主題分布各不相同,且主題分布是多項分布,滿足Dirichlet分布,參數(shù)為α;每個主題的詞分布也各不相同,詞分布也是多項式分布,同樣滿足Dirichlet分布,參數(shù)為β。那么在語料庫中,α和β是Dirichlet分布的參數(shù),θ是關(guān)于文檔D的主題分布,即一個K維的向量。對于第i篇文檔Di,其主題分布為θi,詞分布為γij。運用Gibbs采樣得到所有詞的主題,通過主題數(shù)得到每個主題的γij;再統(tǒng)計D中各個文檔里詞的主題數(shù),從而得出每個文檔的主題分布。

        簡化 Dirichlet公式:

        計算文檔主題條件分布:

        其中:為參數(shù);表示在第d個文檔中第k個主題詞所對應(yīng)的多項式分布計數(shù)。

        基于上述內(nèi)容,聯(lián)系實際數(shù)據(jù)集,本文采用LDA主題模型求解主題分布,再根據(jù)主題分布所轉(zhuǎn)化的向量進行運算,得到主題相似度[24],由所求出的主題相似度進行文本分類。

        1.2 情感分析

        情感分析(sentiment analysis)是自動判定文本中觀點持有者對某一話題所表現(xiàn)出的態(tài)度或情緒傾向性的過程、技術(shù)和方法。情感分析全稱為文本情感分析,其主要歸納為3項主要任務(wù):情感信息抽取、情感信息分類以及情感信息的檢索與歸納[25]。

        中文情感分析屬于情感信息分類這一模塊,即指在中文數(shù)據(jù)集上利用模型進行訓(xùn)練,在廣大數(shù)據(jù)評論中將其分類并進行標(biāo)注。常見任務(wù)如酒店評論為好評或差評。

        在文本情感分析中,常見的情感分析大致有3類方法:基于情感詞典的情感分析、基于傳統(tǒng)機器學(xué)習(xí)的情感分析和基于深度學(xué)習(xí)的情感分析[13]。

        對于中文情感分析來說,最簡要的模型莫過于基于情感詞典的情感分析。本文采用Cnsenti模塊,導(dǎo)入情感詞典,利用情感分析對產(chǎn)品數(shù)據(jù)評論進行好評、差評區(qū)分。簡要步驟如圖1所示。

        圖1 情感詞典情感分析簡要流程

        進行情感分析以后,針對所得到的已經(jīng)貼好標(biāo)簽的好評和差評數(shù)據(jù),則可建立一個由產(chǎn)品評論總數(shù)、好評指標(biāo)和差評指標(biāo)決定的多維度熱度分析模型,從而進行年份產(chǎn)品熱度計算。

        1.3 關(guān)聯(lián)分析

        關(guān)聯(lián)分析(association analysis)是從大量數(shù)據(jù)中發(fā)現(xiàn)頻繁項集間的關(guān)聯(lián)和相關(guān)關(guān)系,常用于數(shù)據(jù)挖掘,從整體數(shù)據(jù)中挖掘潛在關(guān)聯(lián)。

        關(guān)聯(lián)分析運用范圍極廣,例如常見的大數(shù)據(jù)推送、QQ中可能認(rèn)識的人等,都可利用關(guān)聯(lián)分析來實現(xiàn);同理,在處理游記攻略過程中,也可以利用關(guān)聯(lián)分析對指定城市中景區(qū)、酒店、餐飲等旅游相關(guān)產(chǎn)品的關(guān)聯(lián)程度進行分析,進而為城市未來旅游產(chǎn)業(yè)提供有效建議。

        較為典型的關(guān)聯(lián)分析算法是Apriori算法。求產(chǎn)品關(guān)聯(lián)度可以嘗試基于該算法實現(xiàn)。Apriori算法旨在利用項集的支持度,由頻繁項集生成關(guān)聯(lián)規(guī)則,該算法基本步驟如圖2所示。

        圖2 Apriori算法簡要步驟

        在Apriori算法中,把所有相互之間包含了關(guān)聯(lián)規(guī)則的產(chǎn)品作為集合,然后從最小k項集開始篩選支持度,得到候補頻繁k項集,再將其集合進行合并,再循環(huán),直到得不到集合為止。

        在本文中,采用關(guān)聯(lián)分析算法,利用產(chǎn)品支持度、置信度以及提升度進行加權(quán)計算,得到最終關(guān)聯(lián)度。

        2 研究準(zhǔn)備

        2.1 數(shù)據(jù)預(yù)處理

        通過觀察數(shù)據(jù)發(fā)現(xiàn),微信公眾號文章數(shù)共6 296,且微信公眾號正文與微信公眾號標(biāo)題分開,秉持?jǐn)?shù)據(jù)完整的原則,將正文及其標(biāo)題合并。文章內(nèi)容包含奇異字符、電話號碼等噪音數(shù)據(jù),且停用詞較多,會對分類模型產(chǎn)生影響。因此需要對所有文章進行去停用詞以及中文分詞處理,隨后統(tǒng)一存放。同時發(fā)現(xiàn)景區(qū)評論中有少數(shù)噪音數(shù)據(jù)(景區(qū)地點未在該旅游城市)。針對此類噪聲數(shù)據(jù),應(yīng)尋找方法將其去除,避免產(chǎn)生影響。采用百度POI對景區(qū)地點進行定位,去除噪聲數(shù)據(jù)。

        在進行關(guān)聯(lián)分析時,所得到的數(shù)據(jù)過多過雜,有效項集少,候補頻繁項集難以捕獲,需要進行數(shù)據(jù)篩選。

        2.2 數(shù)據(jù)清洗

        根據(jù)上述所發(fā)現(xiàn)的噪聲數(shù)據(jù),針對各種不同情況,進行以下處理。

        2.2.1 中文分詞

        中文分詞是指將一個中文句子視作一個由漢字組成的序列,為方便計算機理解,故而將該序列按一定規(guī)則進行重新切分,再重新組成序列的過程。常用的中文分詞工具有jieba、SnowNLP、NLPIR 等。

        需要注意的是,如果僅僅是直接進行分詞,則可能導(dǎo)致專有名詞的切分錯誤,例如“放雞島”,則會被分成['放','雞','島']。因此,在分詞時,一定要注意專有名詞的導(dǎo)入,避免專有詞的分詞出錯。

        2.2.2 去停用詞

        在數(shù)據(jù)集中,存在大量常用語氣助詞、副詞、介詞等無意義詞匯,為提高關(guān)鍵詞密度,應(yīng)該盡可能將停用詞消去,減少其出現(xiàn)頻率。在本文中,直接采用了幾個常見的停用詞放入列表進行消除,如圖3所示。

        圖3 數(shù)據(jù)處理示例

        2.2.3 POI景區(qū)定位

        采用百度POI地點查詢,利用Selenium模塊的模擬瀏覽器訪問,指定城市;然后進行景區(qū)搜索,返回指定地點的具體位置,根據(jù)其返回結(jié)果即可判定是否在該城市中。

        2.2.4 頻繁集項獲取

        將所得到的所有產(chǎn)品ID存入一個列表,產(chǎn)品ID與之對應(yīng)的產(chǎn)品名稱置入另一個列表。

        設(shè)有文本總數(shù)為D,那么當(dāng)前文本為Di,項集為Z,對其進行遍歷,如果產(chǎn)品存在,則將其產(chǎn)品名稱所對應(yīng)的索引值在產(chǎn)品ID表中求出,放入新的列表。每遍歷完一個文本Di,就會得到一個項集ZDi,該項集即可作為產(chǎn)品的候補頻繁集。

        假設(shè)有產(chǎn)品ID[1,2,3,4,5],與之對應(yīng)的產(chǎn)品名稱為[A,B,C,D,E]。文檔D1=[A,D,G,H],文檔D2=[A,B,C,F(xiàn)]。那么在文檔D1中存在產(chǎn)品ID候補頻繁集ZD1={1,4},文檔D2中存在產(chǎn)品ID候補頻繁集ZD2={1,2,3}。

        3 建立研究模型

        針對本研究背景,建立以三個分塊模型為核心的研究模型,將所得到的OTA和UGC數(shù)據(jù)輸入模型后,可根據(jù)不同需求,獲取不同輸出。具體模型示意圖如圖4所示。

        圖4 研究模型流程

        3.1 主題分類模型

        采用LDA主題模型進行文本分類,根據(jù)該任務(wù)中所涉及到的一些特征詞直接建立LDA模型。該主題模型所涉及公式、詞、文檔以及主題關(guān)系為:

        在此模塊中,主要模型流程如圖5所示。

        圖5 基于LDA主題模型的文本分類簡要流程

        先進行數(shù)據(jù)清洗后,建立主題模型并保存,再對每個文本進行主題分布的計算,將得到的文本主題分布以向量的形式進行內(nèi)積等計算,得到文本相似度。若相似度大于0,則視作該文本與LDA模型中涉及到的主題相關(guān),最后進行分類。

        3.2 熱度分析模型

        采用多維度熱度評價模型,針對評論數(shù)據(jù)進行產(chǎn)品的熱度分析。本文基于TextRank算法提出一種運用Chinese Sentiment模塊進行處理的熱度分析模型。以公式(4)進行計算:

        其中:Wi和Wj分別表示評論為好評、壞評時的權(quán)值;C為該產(chǎn)品評論數(shù);S為產(chǎn)品評論最大值。也可以根據(jù)圖6的流程,將公式轉(zhuǎn)化為:

        圖6 熱度分析模型簡要流程

        其中:CG、SG為好評數(shù)及其最大值;CB、SB為差評數(shù)及其最大值。

        由此,本文建立了一個以總評論數(shù)、好評、差評為自變量的熱度評價模型。

        3.3 關(guān)聯(lián)分析模型

        在建立模型之前,介紹Apriori關(guān)聯(lián)分析算法中的三個概念如下:

        (1)支持度:是指某項集在數(shù)據(jù)集中出現(xiàn)的概率,以A、B項集為例,支持度表示A和B同時發(fā)生的概率,即:

        (2)置信度:是指在某前提條件下,用關(guān)聯(lián)規(guī)則推出結(jié)果的概率,項集A發(fā)生則項集B發(fā)生的概率,即:

        (3)提升度:表示A、B同時發(fā)生的概率與只發(fā)生B的概率之比,它表示為關(guān)聯(lián)規(guī)則中A與B的相關(guān)性,可表示為:

        相關(guān)性根據(jù)提升度值可分為如下三種情況:正相關(guān),Lift(A,B)>1;不相關(guān)(相互獨立),Lift(A,B)=1;負(fù)相關(guān),Lift(A,B)<1。因此,本文以下面的公式計算關(guān)聯(lián)度:

        4 結(jié)果分析

        4.1 主題分類模型輸出

        對數(shù)據(jù)集中的文章采用LDA模型分類后,將計算出的文本相似度轉(zhuǎn)化為指定標(biāo)簽,并以“.csv”的格式保存下來,如圖7所示。

        圖7 主題分類模型輸出結(jié)果

        4.2 熱度分析模型輸出

        將經(jīng)過TextRank分詞處理和熱度分析處理后所得到的產(chǎn)品以及該產(chǎn)品在指定年份中的熱度以“.csv”格式保留下來,如圖8所示。

        圖8 熱度分析模型輸出結(jié)果

        4.3 關(guān)聯(lián)分析模型輸出

        將所相關(guān)的產(chǎn)品及關(guān)聯(lián)度保存在csv文件中,根據(jù)所得到的csv文件,進行圖譜可視化生成。本文采用networkx進行生成,以產(chǎn)品ID作為兩個點,關(guān)聯(lián)度作為其權(quán)值進行圖譜可視化,得到該圖譜。

        4.4 模型結(jié)果分析

        根據(jù)模型所得到的輸出數(shù)據(jù),得到了有效且清晰的文本分類標(biāo)簽,使其可以根據(jù)指定主題來獲取更相關(guān)的文本集;對于熱度分析模型所得到的數(shù)據(jù),主要依據(jù)評論總數(shù)以及好差評指標(biāo)來進行熱度計算并排名,由此則可以依據(jù)該模型來獲取產(chǎn)品熱度排行榜,對熱度低的文旅相關(guān)產(chǎn)品可以更有效地進行分析和整改;由關(guān)聯(lián)分析模型可以更好地了解產(chǎn)品間所存在的關(guān)聯(lián)性以及關(guān)聯(lián)模式,從而給予更有效的文旅產(chǎn)品關(guān)聯(lián)推送及市場關(guān)聯(lián)分析。

        5 結(jié) 語

        本文基于LDA文本分類和熱度分析方法以及產(chǎn)品關(guān)聯(lián)度分析模型,將目前所遇到的困難拆解為建模和解決兩個部分。在建模階段,選取了最適宜數(shù)據(jù)集無標(biāo)注的方法,創(chuàng)新地選用了LDA主題模型進行文本分類模型的構(gòu)建,極大地避免了數(shù)據(jù)少、無標(biāo)注等情況;考慮到需要在所給評論數(shù)據(jù)基礎(chǔ)上對產(chǎn)品進行多維度的熱度分析,采用了中文情感分析模型進行評論分類,從而作為指標(biāo)進行評估;在求解關(guān)聯(lián)度任務(wù)中,采用了基于Apriori算法的關(guān)聯(lián)分析思想,從支持度、置信度、提升度的角度對產(chǎn)品之間的關(guān)聯(lián)度進行評估。

        在未來的工作中,將做出以下改進:

        (1)遷移學(xué)習(xí):采用遷移學(xué)習(xí)[26]的思想將所給訓(xùn)練數(shù)據(jù)集用相同高頻詞的訓(xùn)練集替代,使數(shù)據(jù)集有更好的分布特征,進而可采用自監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)進行處理。

        (2)改進模型:在關(guān)聯(lián)分析Apriori算法上進一步改進,嘗試劉木林等人[27]提出的基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法進行關(guān)聯(lián)分析計算,繼而提升數(shù)據(jù)分析的效果。

        猜你喜歡
        關(guān)聯(lián)文本情感
        “苦”的關(guān)聯(lián)
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        热99re久久精品这里都是精品免费| 青青草久久久亚洲一区| 高清少妇二区三区视频在线观看| 国产一区二区精品久久岳| 欧美黑人又粗又硬xxxxx喷水| 97色噜噜| 国产日产免费在线视频| av在线免费观看网站免费| 日本变态网址中国字幕| 国产精品一区二区韩国av| 含紧一点h边做边走动免费视频 | 日韩精品人妻系列无码专区免费 | 国产女主播福利一区在线观看| 亚洲国产精品国自产拍性色| 国产成人精品a视频| 乱子真实露脸刺激对白| 亚洲综合久久一本久道| 极品一区二区在线视频| 色欲色欲天天天www亚洲伊| 欧美最猛黑人xxxx黑人表情| 亚洲国产日韩在线人成蜜芽| 97超碰国产一区二区三区| 婷婷精品国产亚洲av麻豆不片| 亚洲av永久无码精品一区二区| 999精品免费视频观看| 不卡av一区二区在线| 不卡av网站一区二区三区| 影音先锋女人aa鲁色资源| 国产精品亚洲欧美天海翼| 色av色婷婷18人妻久久久| 无码熟妇人妻av在线网站| 51久久国产露脸精品国产| 丰满熟妇人妻av无码区| 一区二区三区成人av| 久久影院午夜理论片无码| 日本高清aⅴ毛片免费| 国产亚洲无码1024| 91亚洲免费在线观看视频| 丰满的人妻hd高清日本| 国产精品午夜无码av天美传媒| 亚洲AⅤ樱花无码|