亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA 主題模型和直覺模糊TOPSIS 的農(nóng)產(chǎn)品在線評論情感分析

        2020-10-23 06:37:42王珠美胡彥蓉劉洪久
        數(shù)據(jù)采集與處理 2020年5期
        關(guān)鍵詞:直覺詞典文檔

        王珠美,胡彥蓉,劉洪久

        (1.浙江農(nóng)林大學信息工程學院,杭州,311300;2.浙江省林業(yè)智能監(jiān)測與信息技術(shù)研究重點實驗室,杭州,311300)

        引 言

        隨著互聯(lián)網(wǎng)與信息技術(shù)的迅猛發(fā)展,我國的網(wǎng)絡(luò)購物正在急速發(fā)展。根據(jù)第45 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》數(shù)據(jù)統(tǒng)計,截至2020 年3 月,我國網(wǎng)絡(luò)購物用戶數(shù)量達到7.10 億個,互聯(lián)網(wǎng)普及率達64.5%,即超過一半的中國公民都在通過網(wǎng)絡(luò)來購物。但由于網(wǎng)絡(luò)購物的虛擬性和產(chǎn)品的不可觸摸性,商品的在線信息成為消費者評判商品的重要依據(jù)。根據(jù)《2015 年中國網(wǎng)絡(luò)購物市場研究報告》數(shù)據(jù)統(tǒng)計,消費者在網(wǎng)上購物時,商品口碑、價格、商家的信譽成為消費者評判商品的主要考慮因素,其中網(wǎng)絡(luò)口碑的百分比最大,達到77.5%。在線評論作為口碑的主要載體,成為消費者獲取信息的主要來源,也是商家了解消費者需求、產(chǎn)品需求改進、促進商品銷量的主要渠道。因此,越來越多的學者開始研究評論中包含的隱藏信息,通過挖掘評論的情感信息進一步分析評論中的有效信息。

        情感分析又稱情感極性分析,它是對文本進行表達出的情緒積極、消極以及不確定的判斷。在現(xiàn)階段,情感分析主要有通過構(gòu)建情感詞典進行分類的方法,也有機器學習方法。通過構(gòu)建情感詞典的方法主要是通過情感詞典對文本進行詞語分析,計算情感值,然后通過判斷情感值確定文本表達的情感傾向。在基于情感詞典進行分類的方法方面,Baccianella 等[1]提出一種通過構(gòu)建情感詞典來挖掘情感特征進行情感判斷的方法。郭順利等[2]將用戶情感傾向細致劃分,通過構(gòu)建中文圖書評論的情感詞集,同時結(jié)合改進的SO-PMI 算法和同義詞詞林,提出一種判別詞語情感類別的方法。也有很多學者對于特定領(lǐng)域構(gòu)建情感詞典。陳柯宇等[3]提出一種結(jié)合擴展的情感詞典以及word2vec 工具的情感傾向分析方法。蔣盛益等[4]通過改進的Hevner 情感模型,利用HowNet 中語義相似度計算的思想,構(gòu)建音樂領(lǐng)域的中文情感詞典。通過機器學習分析文本情感傾向的主要思想是將文本情感分析轉(zhuǎn)化為一個分類問題,然后利用算法進行訓練得到一個模型,最后通過這個模型進行文本情感判斷。在機器學習方法方面,Singh 等[5]運用相同的數(shù)據(jù)對機器學習方法和基于語義信息的方法進行情感分類實驗,實驗表明了基于機器學習方法的有效性。趙剛等[6]對餐廳評論情感分析時,通過比較幾種經(jīng)典的機器學習算法,包含了Ada Boosting、Bayes Network、Decision Tree、C4.5 分類樹、Na?ve Bayes 分類器以及Ripper 等算法,實現(xiàn)了適合于發(fā)掘隱含屬性、展現(xiàn)商品間關(guān)聯(lián)性和判斷客戶情感傾向的網(wǎng)上商品評論情感分析模型。然而在機器學習中,文本大多都是通過詞袋模型來表示,這樣易造成文本中包含的語義信息和情感信息等問題不能很精確地描述出來,而新興的深度學習方法恰好能夠彌補這些缺點。通過神經(jīng)網(wǎng)絡(luò)模型,能夠計算得到文本中詞語的分布式向量,可以用低維且連續(xù)的形式來表達詞,能夠較好地應用到其他深度神經(jīng)網(wǎng)絡(luò)模型,利用多層網(wǎng)絡(luò)的學習,可以更加具體地表達文本特征,提高了模型的準確性和工作效率。近年來,許多學者將卷積神經(jīng)網(wǎng)絡(luò)[7](Convolutional neural network, CNN)、長短時記憶網(wǎng)絡(luò)[8](Long-term memory network,LSTM)、雙向長短時記憶網(wǎng)絡(luò)[9](Bidirectional long-term memory network,BLSTM)等深度學習模型運用到產(chǎn)品在線評論情感分析中去并取得了較好的成果。

        但目前的研究存在以下問題:(1)文本屬性權(quán)重確定方式不精確。在情感分析方法中有多種屬性權(quán)重計算方式,其中,詞頻-逆文本頻率(Term frequency-inverse document frequency,TF-IDF)是一個被廣泛應用數(shù)學統(tǒng)計模型,表示在文檔中詞語的重要程度,如余苗等[10]運用TF-IDF 分類算法挖掘用戶興趣模型,從而實現(xiàn)了情報的按需分發(fā),但該方法的推薦精度還需要進一步提高。(2)文本情感描述不明確。傳統(tǒng)的情感分析方法是需要人工標注文本特征后,利用機器學習構(gòu)建分類模型,判斷文本的情感傾向,這樣的處理方法對于文本的情感特征描述處理不夠客觀[11],沒有辦法準確地描述消費者的情感傾向。

        因此,為解決信息的有效提取和分析在線評論與商家績效之間的關(guān)系,本文提出了一種基于潛在狄利克雷分布(Latent Dirichlet allocation,LDA)的主題模型和直覺模糊TOPSIS 的農(nóng)產(chǎn)品在線評論情感分析方法。該方法的主要特點在于:(1)根據(jù)屬性出現(xiàn)的次數(shù)來確定各個屬性的權(quán)重。Pang 等[12]研究表明,使用詞語的出現(xiàn)次數(shù)能夠獲得比詞頻-逆文本頻率方法更好的實驗結(jié)果。因此,本文將用屬性出現(xiàn)的次數(shù)來確定各個屬性的權(quán)重,避免了人為給定權(quán)重的不確定性。(2)利用LDA 主題模型進行主題建模,通過計算混亂度來確定在線評論的最佳主題數(shù)。Chiru[13]通過對現(xiàn)有的主題建模算法在處理大量文檔和對已識別潛在主題進行解析方面的比較,確定LDA 主題模型具有最高性能。同時根據(jù)LDA 模型相關(guān)參考文獻,混亂度是測量LDA 預測能力的標準方法[14]。通過混亂度計算在線評論的最佳主題數(shù)目,保證了文檔的聚類效果。(3)采用直覺模糊數(shù)來反映消費者不同的情感。針對消費者情感的不確定性,直覺模糊理論可以反映評論中消費者表達的支持、猶豫和反對程度,全面地描述評論中的情感傾向,彌補了只考慮消費者情感極性的不足。

        1 基于LDA 主題模型和直覺模糊TOPSIS 的農(nóng)產(chǎn)品在線評論情感分析算法

        1.1 問題描述及解決框架

        隨著科技的發(fā)展,人們對于網(wǎng)上購物的依賴越來越大。在生活中,假設(shè)消費者想要購買某種農(nóng)產(chǎn)品,經(jīng)過關(guān)鍵字搜索后縮小了條件符合農(nóng)產(chǎn)品的范圍,但搜索結(jié)果往往還是呈現(xiàn)了數(shù)目較多的農(nóng)產(chǎn)品,這時候進一步的選購就需要消費者具有一定的篩選能力,由于諸多因素限制,消費者無法有效地得到需要的評論信息,在多種商品之間無法便捷輕松地做出購買決定[15]。本文從產(chǎn)品在線評論信息過載出發(fā),設(shè)計基于LDA 主題模型和直覺模糊TOPSIS 的產(chǎn)品在線評論情感分析方法對關(guān)鍵字搜索后的商品進行分析,挖掘在線評論中的有效信息,為消費者挑選商品提供建議,其解決框架如圖1 所示。

        1.2 LDA 主題模型

        統(tǒng)計主題模型近年來得到了學者的廣泛應用,它能夠在計算機沒有完全了解文本結(jié)構(gòu)的情況下,分析出易理解且相對平穩(wěn)的語言結(jié)構(gòu),為數(shù)據(jù)集中的文本尋找一個相對簡短的描述[16]。統(tǒng)計主題模型最早來源于隱含語義 檢 索(Latent semantic indexing, LSI)[17],重 大 突 破 是Hofmann 提出的PLSI(Probabilistic latent semantic indexing)模型,PLSI 模型主要是通過概率模型來計算文檔集中詞產(chǎn)生的過程,但是PLSI 對于文本的產(chǎn)生不能用概率來描述,只是簡單地對部分文本進行擬合,得到指定文本的主題混合比例[16]。針對這些不足,Blei[18]于2003 年提出的一種生成主題概率模型LDA,在PLSI 的基礎(chǔ)上,用一個服從Dirichlet 分布的隱含隨機變量表示文檔的主題混合比例來模擬文檔產(chǎn)生的過程,其模型結(jié)構(gòu)更為完整清晰,采用概率去推斷算法處理文本,可以將文本表示的維度大大降低,從而避免維度災難,因此在文本分類、信息檢索等領(lǐng)域取得了非常好的實踐效果。

        1.2.1 LDA 主題模型

        LDA 模型即是3 層貝葉斯概率模型,模型包含詞—文檔—主題3 層結(jié)構(gòu),具體如圖2 所示,通常用來對大規(guī)模文檔數(shù)據(jù)進行建模[19]。文檔中某個主題的詞匯構(gòu)成存在一定的概率,且從主題中心選擇了某個詞語也可以用概率來分析。具體訓練過程如下[20]:

        圖1 農(nóng)產(chǎn)品在線評論情感分析結(jié)構(gòu)Fig.1 Emotional analysis structure of online agricultural product reviews

        (1)評論m包含的特征詞數(shù)量Nm服從泊松分布,及Nm~泊松(ξ)。

        (2) 對 于 評 論m生 成 主 題 分 布 ,其 中m∈{1, 2, …,M}, 即θm~Dirichlet(α),其中M表示數(shù)據(jù)集評論的總數(shù)量,θm表示第m個評論的主題概率分布,α 為每個評論下主題的多項分布的Dirichlet先驗參數(shù)。

        (3)對于主題n生成特征詞分布,其中z∈{1,2,…,K},φk~Dirichlet(β),K為總的主題數(shù),β為每個主題下的詞多項分布的Dirichlet 先驗參數(shù)。

        (4)評論m中的特征詞wm,n(n∈{1,2,…,Nm})的生成過程,Nm為第m個主題包含的特征詞①根據(jù)主題分 布θm生 成 評 論wm,n的 特 征 詞 主 題 ,即zm,n~Multinomial(θm),zm,n表 示 的 是 第m個 評 論 的 第n個 詞 的 主題。②根據(jù)詞項分布φzm,n生成所選詞主題詞項,即wm,n~Multinomial(φzm,n)。

        1.2.2 吉布斯抽樣

        LDA 模型中變量的聯(lián)合分布較難理解,對計算隱含變量概率分布難度很大,常見的抽樣方法有接受-拒絕抽樣、重要性抽樣、吉布斯抽樣。吉布斯抽樣是應用于馬爾科夫蒙特卡洛(MCCM)的一種算法,通常用來分析隨機樣本的多變量概率分布,由于其在混亂度和運行速度等方面優(yōu)于接受-拒絕抽樣和重要性抽樣,且易于實現(xiàn)和推廣應用,因此本文采用吉布斯抽樣來實現(xiàn)對LDA 主題模型進行主題抽取,主要的抽取過程如下:

        (1)計算主題-特征詞的概率分布

        圖2 LDA 模型的生成過程Fig.2 LDA model generation process

        (2)根據(jù)貝葉斯公式和Dirichlet 先驗分布,計算Dirichlet 分布期望

        式中:θm,k表示數(shù)據(jù)m中主題k的概率,φk,t表示主題k中特征詞t的概率,nm,(k)表示評論m中主題k的特征詞匯,nk,(t)表示的是特征詞t在主題k中出現(xiàn)的次數(shù)。

        (3)通過吉布斯抽樣得到概率分布

        式中:n(k)mε表示數(shù)據(jù)m中沒有分配到主題k的特征詞個數(shù),n(t)kε表示特征詞沒有分配給主題詞k的次數(shù)。

        對于文本數(shù)據(jù)集來說,LDA 模型的主題挖掘過程就是通過文檔主題概率分布θ和文檔對應的主題向量z,求出式(4)中的最大超參數(shù)α和β的值。在LDA 主題模型中,所有文檔以及文本的特征詞都是可見變量,但是文本的主題是不可見變量,所以通過已有的數(shù)據(jù)和文本生成規(guī)則,LDA 主題模型可以實現(xiàn)參數(shù)估計,分析出文本中不可見主題,有助于進一步分析文本內(nèi)容[21]。

        1.2.3 確定主題數(shù)

        在文本預處理后獲取文本評論,使用LDA 主題模型對其建模,通過吉布斯抽樣確定LDA 模型參數(shù)。雖然構(gòu)建好了LDA 模型,但文本的主題數(shù)無法由模型直接確定,而主題數(shù)對抽取主題分布影響較大。當主題數(shù)過大時,會產(chǎn)生很多不具明顯分類語義信息的主題;當主題數(shù)量過少時,會產(chǎn)生比較粗粒度的主題,這樣對分類影響也很大[22]。因此,如何科學地確定主題數(shù)量非常重要。本文采用混亂度(Perplexity)來確定最優(yōu)主題數(shù)量值。

        混亂度在對文檔建模過程中特別有用,它關(guān)于測試文檔概率單調(diào)遞減,在代數(shù)上等價于所有詞概率的幾何平均值倒數(shù)。其實,混亂度可以理解為對于一篇文章d,所訓練出來的模型對文檔屬于哪個主題有很多的不確定,混亂度就可以用來描述這個不確定的程度?;靵y度越小,說明聚類的效果越好。計算公式為

        式中:D 為需要測試的文檔集,wd為文本d 詞匯序列,Nd為文檔d 的詞匯數(shù)量,P(wd)為文檔中產(chǎn)生wd的概率。

        1.3 產(chǎn)品在線評論情感詞典構(gòu)建

        情感分類主要是通過自動分析某種商品評論的文本內(nèi)容,將其分為正面情感、負面情感和中性情感這3 類。常用情感詞語又稱極性詞、評價詞,特指帶有情感傾向性的詞語。顯然,情感詞語在情感文本中處于舉足輕重的地位,情感詞語的抽取和極性判斷在情感分析創(chuàng)建開始的時候就引起了極大的興致[23]。

        目前,常用的公共情感詞典有知網(wǎng)(HowNet)發(fā)布的情感詞典、臺灣大學自然語言處理實驗室提供的中文情感詞典(National Taiwan University sentiment dictionary,NTUSD)以及清華大學提供的褒貶義詞典。本文的情感詞典構(gòu)建如圖3 所示,具體步驟如下:

        (1)選用爬取到的評論數(shù)據(jù)作為數(shù)據(jù)集,對原始評論數(shù)據(jù)進行結(jié)巴分詞以及去停用詞。(2)將預處理后的評論數(shù)據(jù)進行篩選,按詞性對數(shù)據(jù)進行篩選。

        (3)按詞性不同對HowNet、NTUSD 和中文褒貶義詞典進行篩選。

        (4)因為中文語法的復雜性,除了基本情感詞典外,還需要標點符號詞典、連接詞詞典、短語詞典等,本文根據(jù)知網(wǎng)情感詞典整理出這3 個詞典。

        (5)按詞性的類別合并去重,并且人工對其進行打分,得到本文構(gòu)建的情感詞典,分別如下:副詞詞典、連接詞詞典、否定詞詞典、短語詞典、消極詞匯詞典、積極詞匯詞典和標點符號詞典。

        圖3 農(nóng)產(chǎn)品在線評論情感詞典構(gòu)建Fig.3 Build an emotional dictionary for online reviews of agricultural products

        1.4 直覺模糊TOPSIS 模型

        1.4.1 直覺模糊數(shù)的計算

        直覺模糊集理論是處理模糊性和猶豫的有用工具,直覺模糊可以同時反映支持、猶豫和反對程度[24]。基于直覺模糊理論,關(guān)鍵字搜索之后的商品在線評論的情感分析可以通過直覺模糊數(shù)簡單而完整地表示。

        qposij表示商品Ai的特征j 評論中積極情感評論數(shù)(kposij)的占比,也稱為積極評論占比,同理可計算得消極評論占比(qnegij)、中性評論占比(qneuij)。表達式為

        因此,根據(jù)直覺模糊數(shù)的解釋,一個直覺模糊Yij=[qposij,qnegij]可被構(gòu)造用于關(guān)鍵字搜索后商品Ai的特征fj的性能。

        1.4.2 TOPSIS 模型

        TOPSIS 方法避免了數(shù)據(jù)的人為主觀性,不需要目標函數(shù),能夠很好地刻畫多個影響指標的綜合影響力度。同時對于數(shù)據(jù)分布及樣本量沒有嚴格的要求,既適用于小樣本數(shù)據(jù),也適用于多評價單元、多指標的大樣本數(shù)據(jù),適用性較強。該方法基本思想如下:在確定各個屬性指標權(quán)重的基礎(chǔ)上,歸一化原始數(shù)據(jù)矩陣,分別計算關(guān)鍵字搜索后商品與最優(yōu)方案和最劣方案間的距離,獲得各商品與最優(yōu)方案的相對接近程度,作為評價商品優(yōu)劣的依據(jù)。具體算法步驟如下:

        (1)根據(jù)關(guān)鍵字搜索之后商品的整體模糊數(shù)構(gòu)造矩陣決策矩陣A=(aij)n*m,其中aij=Aij,表示關(guān)鍵字搜索之后商品Ai的特征fj的直覺模糊數(shù),n 為關(guān)鍵字搜索之后的商品個數(shù),m 為商品的特征數(shù)。

        (2)為了消除不同屬性之間的量綱效應,使每個屬性特征都具有同等的表現(xiàn)力,首先對原始數(shù)據(jù)進行標準化處理。

        (3)構(gòu)成加權(quán)規(guī)范化矩陣

        通過LDA 模型的構(gòu)建,得到評論-屬性的分布情況,統(tǒng)計評論的主題歸屬情況,用屬性出現(xiàn)的次數(shù)來計算各個主題的權(quán)重W=(w1,w2,…,wm)T。

        式中:nj(d)為第j 個屬性在商品評論中出現(xiàn)的次數(shù),屬性的權(quán)重由該屬性出現(xiàn)的次數(shù)和所有屬性出現(xiàn)的次數(shù)之和的比重計算而得到[25]。

        (4)確定正理想解C+和負理想解C-。正理想解是每個屬性評價值最好時的取值,負理想解是每個屬性最差時的取值。設(shè)正理想解C+的第j 個屬性值為c+j,負理想解C-第j 個屬性值為cj。

        (5)計算各方案到正理想解C+和負理想解C-的距離。關(guān)鍵字搜索之后的商品Ai到正理想解的距離為S+i的計算公式如式(11)所示,同理可以求得S-i。

        (6)計算每個商品與正理想解的相對貼近度(綜合評價值)。商品Ai(i=1,2,…,n)與正理想解C+的相對貼近度定義為

        顯然,Ci∈[0,1],且Ci越大,則商品Ai越優(yōu)。

        (7)確定商品的優(yōu)劣排序。綜合評價值表示各種商品與正理想解、負理想解的距離進行比較,靠正理想解越近、離負理想解越遠的備選方案的綜合評價值就越大。可以按照綜合評價值從大到小的商品優(yōu)劣排序,確定其最優(yōu)商品。

        2 實 驗

        2.1 數(shù)據(jù)源說明

        本文選取天貓商城作為分析數(shù)據(jù)的來源,關(guān)鍵詞設(shè)置為西湖龍井,按商品銷售量從高到低進行排序,選取排名前200 的商品作為分析對象,通過八爪魚軟件爬取商品評論數(shù)據(jù)。天貓商城是一個評論自由性較強的平臺,消費者評論商品信息比較隨意,因此獲取的數(shù)據(jù)中存在很多需要剔除的垃圾評論,例如“哈哈哈哈哈哈”“666”等,經(jīng)過去除垃圾評論之后一共得到110 824 條評論數(shù)據(jù),將這些在線評論作為本文實驗的數(shù)據(jù)內(nèi)容。

        然后,對評論進行數(shù)據(jù)預處理。具體過程為:用Python 中的Jieba 分詞軟件包對評論數(shù)據(jù)進行分詞處理;收集四川大學機器智能實驗室停用詞庫、哈工大停用詞庫、百度停用詞列表以及中英文停用詞表,合并去重后作為本文實驗的停用詞表,經(jīng)過Python 編程對商品評論去除停用詞。

        最后,篩選評論中的詞匯,根據(jù)情感詞性進行打分,構(gòu)成情感詞典,手動檢查詞典的正確性,并根據(jù)商品的特性對情感詞典進行補充。

        2.2 基于LDA 主題模型的農(nóng)產(chǎn)品在線評論情感分析

        2.2.1 最優(yōu)主題數(shù)目的確定

        使用主題模型建模的過程中,主題數(shù)量的最優(yōu)值采用混亂度來確定,采用Gibbs 抽樣,抽樣迭代參數(shù)值設(shè)為3 000。通過設(shè)置不同的主題數(shù)量對混亂度指標進行分析,獲取最小混亂度的最優(yōu)主題數(shù)目,具體結(jié)果如圖4 所示。從圖4 可以看出,當主題數(shù)目設(shè)置為20 時,訓練得到的LDA 主題模型的混亂度最低,之后混亂度逐漸增長。因此,本文最優(yōu)的主題數(shù)目為20。

        2.2.2 基于LDA 模型的主題挖掘

        基于Python 語言的機器學習包gensim 對評論數(shù)據(jù)進行LDA 主題建模,本文得到20 個主題及其分布情況。為了展示建模效果,這里只展示其4 個主題,每個主題的前10 個詞匯的分布情況,如表1 所示。

        圖4 LDA 主題模型混亂度隨主題數(shù)值變化趨勢Fig.4 Disorder degree of LDA topic model changes with the trend of topic value

        LDA 主題挖掘可以按照語義劃分,得到語義相關(guān)詞表達的若干個隱含主題。例如,Topic 0 的詞匯集合描述了主題“茶香”,Topic 1 的詞匯集合描述了主題“性價比”,Topic 2 的詞匯集合描述了主題“劃算”,Topic 3 詞匯集合描述了主題“價位”,同理可得其余16 個主題的挖掘結(jié)果描述的具體主題,如“服務、分量、促銷、外包裝、優(yōu)惠、正宗、信賴、茶葉外觀、滿意、被推薦、品牌、顏色、圖片、評論、上檔次、完整”,詳細見表2。

        表1 主題挖掘結(jié)果Table 1 Topic mining results

        表2 主題權(quán)重Table 2 Theme weight

        2.3 基于直覺模糊TOPSIS 的農(nóng)產(chǎn)品在線評論情感綜合評價值計算

        2.3.1 屬性權(quán)重的確定

        根據(jù)LDA 主題模型得到的評論數(shù)據(jù)集中評論-主題概率,根據(jù)公式(9)得到20 個主題的權(quán)重,從表2 中可以看出主題4(服務)的權(quán)重最大,權(quán)重為0.130,可以看出消費者在挑選茶葉時最關(guān)注的是商家的服務;主題13(被推薦)的權(quán)重最小,權(quán)重為0,可以看出消費者在挑選茶葉時受別人推薦的影響最小。同時可以分別計算200 種商品各自的評論-主題-權(quán)重分布,分析每種商品的具體情況,為調(diào)整商品特征結(jié)構(gòu)提供參考信息。

        2.3.2 直覺模糊決策矩陣

        根據(jù)式(6)計算可得200 個農(nóng)產(chǎn)品的直覺模糊數(shù)組成的TOPSIS 決策矩陣。這里只展示銷售量前6名的商品的前10 個主題決策矩陣,如表3 所示。從表3 中可以看出,各個商品-主題-情感傾向分布,例如,商品1 中主題0(茶香)的直覺模糊矩陣[0.828,0.046],其中0.828 表示的是商品1 評論中屬于主題0(茶香)的積極評論占比,0.046 表示的是商品1 評論中屬于主題0(茶香)的消極評論占比。由此可見,商品1 主題0 中的積極評論數(shù)量要遠遠多于消極評論數(shù)量,商品1 的茶香這一商品特質(zhì)符合了絕大部分購買此商品的消費者需求(如果有需要,筆者可以提供全部的數(shù)據(jù))。

        表3 直覺模糊矩陣Table 3 Intuitionistic fuzzy matrix

        2.3.3 加權(quán)規(guī)范矩陣

        根據(jù)式(7)將農(nóng)產(chǎn)品的整體模糊數(shù)構(gòu)造決策矩陣進行標準化處理,結(jié)合特征權(quán)重,計算加權(quán)規(guī)范矩陣,部分商品的加權(quán)規(guī)范矩陣如表4 所示。

        表4 加權(quán)規(guī)范矩陣Table 4 Weighted gauge matrix

        2.3.4 基于TOPSIS 的商品綜合評價值

        根據(jù)式(11)、(12)和(13),本文計算每種農(nóng)產(chǎn)品在線評論情感傾向的正、負理解,以及每種農(nóng)產(chǎn)品在線評論的情感綜合評價值,本文選取了部分農(nóng)產(chǎn)品的綜合評價值,繪制了在線評論情感綜合評價值表,具體見表5 所示。從表5 中可以看出,200 種商品的綜合評價值最大的是第88 種商品,綜合評價值為0.614;綜合評價值最小的商品有多個,綜合評價值為0。

        表5 在線評論情感綜合評價值Table 5 Online comments on the value ofcomprehensive emotional assessment

        為了更直觀地觀測每種農(nóng)產(chǎn)品在線評論情感綜合評價值情況,本文繪制了200 種農(nóng)產(chǎn)品在線評論情感綜合評價值折線圖,具體如圖5 所示。從圖5 中可以看出,200 種農(nóng)產(chǎn)品的綜合評價值呈現(xiàn)無規(guī)律的波動。對200 種農(nóng)產(chǎn)品在線評論情感綜合評價指數(shù)計算可得綜合評價指數(shù)平均值為0.097,200 種農(nóng)產(chǎn)品中有76 種農(nóng)產(chǎn)品的綜合評價指數(shù)超過了平均值,銷售量前50 的農(nóng)產(chǎn)品中只有9 種農(nóng)產(chǎn)品的綜合評價指數(shù)超過了平均值,由此可見,農(nóng)產(chǎn)品的銷售量并不是影響綜合評價指數(shù)的主要因素。

        圖5 農(nóng)產(chǎn)品在線評論情感綜合評價指數(shù)趨勢Fig.5 Agricultural products online review Sentiment comprehensive evaluation index trend

        2.3.5 有效性分析

        為驗證基于LDA 主題模型和直覺模糊TOPSIS 的農(nóng)產(chǎn)品在線評論情感分析方法的有效性,本文采用綜合評價值與其他變量的相關(guān)性來驗證,具體的指標包括綜合評價值、月銷量、積極情感值,其中積極情感值是指某農(nóng)產(chǎn)品積極情感傾向的產(chǎn)品評論在該農(nóng)產(chǎn)品全部文本評論中出現(xiàn)的比例,積極情感值越大,情感傾向越強。變量分析具體結(jié)果如表6 所示。從表6 可以看出,在0.001 水平上,綜合評價值與店鋪銷量、積極情感值呈現(xiàn)顯著的正相關(guān)性,說明本文的綜合評價值具有合理性,評價方法是有效的。

        表6 變量相關(guān)分析結(jié)果Table 6 Results of variable correlation analysis

        3 結(jié)束語

        本文提出了一種根據(jù)在線評論對商品進行排序的方法。該方法通過計算屬性出現(xiàn)的次數(shù)計算權(quán)重,避免人為給定權(quán)重的主觀性和不確定性;充分考慮到評論的聚類效果,利用混亂度來確定最佳主題數(shù)目。除此之外,本文還考慮了消費者對不同商品的多種情感,利用直覺模糊數(shù)全面反映消費者的情感傾向,更符合消費者的實際購買情況。實驗結(jié)果表明,本文提出的方法得到的綜合評價值與月銷售量、積極情感值呈顯著的正相關(guān)性,這說明了該分析方法具有合理性,評價方法是有效的。在實驗過程中發(fā)現(xiàn),通過情感詞典的方法來判斷農(nóng)產(chǎn)品在線評論的情感傾向,這一方法十分依賴人工構(gòu)造的情感詞典,存在一定的主觀性。所以,客觀評價在線評論的情感傾向成為下一步工作的重點。

        總的來說,本文結(jié)合LDA 主題模型和直覺模糊TOPSIS 理論,提出了一種農(nóng)產(chǎn)品在線評論情感分析方法。本文提出的情感分析方法具有合理性和實際應用價值,可以幫助商家了解消費者的購物需求,及時調(diào)整產(chǎn)品結(jié)構(gòu),同時也為消費者挑選商品提供參考建議,為當今分析商品信息提供了一種新的思路。

        猜你喜歡
        直覺詞典文檔
        “好一個裝不下”直覺引起的創(chuàng)新解法
        有人一聲不吭向你扔了個文檔
        林文月 “人生是一場直覺”
        海峽姐妹(2020年7期)2020-08-13 07:49:22
        一個“數(shù)學直覺”結(jié)論的思考
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標準探索
        數(shù)學直覺謅議
        基于RI碼計算的Word復制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        人妻AV无码一区二区三区奥田咲 | 亚洲国产AⅤ精品一区二区不卡| 国产麻豆极品高清另类| 久久久久久夜精品精品免费啦 | 激情综合五月| 国产精一品亚洲二区在线播放 | 亚洲悠悠色综合中文字幕| 内射爽无广熟女亚洲| 亚洲人成网站在线播放观看| 色青青女同性恋视频日本熟女| 国产剧情一区二区三区在线| 东北女人毛多水多牲交视频| 国产成人久久精品区一区二区| 亚洲处破女av一区二区| 久草青青91在线播放| 94久久国产乱子伦精品免费| 女女同性黄网在线观看| 国产麻豆极品高清另类| 无码av中文一区二区三区| 精品国产av 无码一区二区三区| 国产精品无码不卡在线播放| 亚洲禁区一区二区三区天美| 亚欧中文字幕久久精品无码| 最新国产乱视频伦在线| 久久久人妻一区精品久久久 | 东京热加勒比国产精品| 99久热在线精品视频观看| 色妺妺视频网| 男女干逼视频免费网站| 麻豆91蜜桃传媒在线观看| 999久久久无码国产精品| 99久久亚洲国产高清观看| 手机免费高清在线观看av | 欧美巨大xxxx做受中文字幕| 久久精品国产亚洲AV古装片| 阴唇两边有点白是怎么回事| www射我里面在线观看| 久久久久亚洲av成人网址| 国产精品黑丝美女av| 成人免费a级毛片无码片2022| 亚洲自偷自偷偷色无码中文|