亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于商品評(píng)論主題模型的隱含狄利克雷分布研究

        2019-03-20 06:10:10方興龍
        關(guān)鍵詞:情感用戶模型

        周 梁,方興龍

        (1.安徽工程大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 蕪湖 241000;2.安徽工程大學(xué) 生物與化學(xué)工程學(xué)院,安徽 蕪湖 241000)

        網(wǎng)絡(luò)發(fā)展到了2.0階段以后,用戶的日常購物行為由實(shí)體店拓展到了線上網(wǎng)店。中國電子商務(wù)研究中心發(fā)布的《2018年(上)中國網(wǎng)絡(luò)零售市場數(shù)據(jù)監(jiān)測報(bào)告》顯示:2018年上半年國內(nèi)網(wǎng)絡(luò)零售市場交易規(guī)模達(dá)40 810億元,同比增長 30.1%[1]。隨著電子商務(wù)發(fā)展,大量與用戶所購商品相關(guān)的內(nèi)容(比如商品質(zhì)量、服務(wù)水平、物流狀況等)即大量商品評(píng)論信息隨之產(chǎn)生。如何將眾多的非結(jié)構(gòu)化的評(píng)論提煉加工,生成用戶和商家共同關(guān)心的有價(jià)值信息,成為商品評(píng)論文本情感分析的工作重點(diǎn)。

        1 概述

        商品情感分析是對(duì)商品評(píng)論信息進(jìn)行分析和處理,處理過程分為以下幾步:①中文分詞。目前常用的中文分詞工具有:哈爾濱工程大學(xué)的LTP語言技術(shù)平臺(tái);中科院漢語語法分析系統(tǒng)ICTCLAS[2];清華開發(fā)的具有中文分詞和詞性標(biāo)注的中文詞法分析工具包THULAC;可用于python中文分詞組件結(jié)巴分詞[3]。②去除常用詞、低頻詞及使用頻率高但無意義的詞。比如:“在這價(jià)位的車油耗水平還是滿意”轉(zhuǎn)變成“價(jià)位 油耗 滿意”。③文檔特征詞選取。常用方法如詞袋模型[4]及TF-IDF[5]。④情感信息抽取并建立文檔空間向量模型,也就是文本分類算法,因?yàn)闊o監(jiān)督學(xué)習(xí)方法從而避免了人工標(biāo)注的耗時(shí)、成本昂貴的問題,所以目前廣泛使用。主要包括情感分析(Vector Space Model,VSM)[6]算法、(Latent Semantic Analysis,LSA)[7]算法、概率潛在語義分析模(Probabilistic Latent Semantic Analysis,PLSA)[8]算法等,VSM算法將文本轉(zhuǎn)換成高維向量,從而計(jì)算任意兩個(gè)向量的近似程度,但該種方法沒有考慮到詞與詞之間的語義聯(lián)系;LSA算法[7]可以通過詞-文檔矩陣進(jìn)行奇異值分解,將文檔投影到潛在語義空間中,但該算法具有奇異空間計(jì)算量過大的問題,通過點(diǎn)積和余弦相似度計(jì)算文檔與原文檔相似性的方法不適用于不同領(lǐng)域文章相似度的計(jì)算。比如“灌水”和“網(wǎng)貼”兩詞,可能出現(xiàn)在兩篇IT方面的文本中,但詞項(xiàng)不匹配,故兩詞相似度很低,但“灌水”一個(gè)出現(xiàn)在IT文章,一個(gè)出現(xiàn)在工程類文章,則被看做相似。PLSA算法在LSA基礎(chǔ)上結(jié)合了數(shù)學(xué)概率模型,該算法包括文檔d的概率,潛在語義Z的概率和生成術(shù)語概率三個(gè)方面,該算法雖然將文檔、語義和詞項(xiàng)映射到同一個(gè)語義空間,合理解釋了“一詞多義”現(xiàn)象,但不足在于隨著文檔線性增長,其輸出結(jié)果分布矩陣和主題分布矩陣是唯一的,故該算法迭代的潛在語義概率無法重新生成一片新文檔,處理文檔方式不靈活。Blei[9]等提出了潛在狄里克雷分配模型(Latent Dirichlet allocation LDA),該模型設(shè)定每篇文檔由隱含的多個(gè)主題組合構(gòu)成,主題的結(jié)合分布由Dirichlet分布隨機(jī)產(chǎn)生,每個(gè)隱含主題描述為詞匯集的分布,即構(gòu)成文檔、潛在語義、術(shù)語三層貝葉斯模型。這樣多個(gè)詞語可以映射到同一主題,一個(gè)詞語也可以屬于不同主題,解決了多詞一義和一詞多義的問題。LDA模型屬于全概率生成模型,適合處理大規(guī)模語料庫。近幾年,針對(duì)LDA模型又有多人提出改進(jìn)其算法[10-11]。如孫艷[12]提出的USTU模型,在原有的LDA基礎(chǔ)上添加情感模型,即假設(shè)所有詞由一種情感產(chǎn)生,建立“文檔-情感-句子”關(guān)系,同時(shí)對(duì)詞進(jìn)行主題標(biāo)簽采樣,建立“文檔-主題-詞”關(guān)系,但是句子中出現(xiàn)兩種情感傾向時(shí)無法做出進(jìn)一步判斷。歐陽繼紅[13]在原有Joint Sentiment-topic Model(Reverse-JST)模型基礎(chǔ)上提出改進(jìn)的MG-R-Jst模型,同時(shí)闡述了Reverse-JST可以通過不同主題粒度下主題與情感的分布關(guān)系,但僅考慮單詞局部情感/主題分布,因而缺少穩(wěn)定性,而MG-R-Jst模型則考慮兩個(gè)粒度上的情感/主題分布—文檔級(jí)和局部,以期提升分類效果和穩(wěn)定性,但其隱含的變量眾多,需頻繁利用Gibbs采樣對(duì)其參數(shù)進(jìn)行估計(jì);武慶圓[14]等提出用戶特征與文本主題的情感之間存在一定聯(lián)系,并構(gòu)建包含用戶特征主題的UMSTM模型,但未能就用戶特征包含的內(nèi)容及其如何提高后期預(yù)測效果做進(jìn)一步闡釋。

        2 問題描述

        在購物過程中,消費(fèi)者根據(jù)他們對(duì)于商品及服務(wù)的主觀判斷做出購買決策,而購物后的“知覺評(píng)論”反過來又會(huì)影響其他消費(fèi)者的消費(fèi)決策。所以,對(duì)于消費(fèi)者的“知覺評(píng)論”的分析和挖掘會(huì)遠(yuǎn)遠(yuǎn)大于商品本身的特性。另一方面,對(duì)于商家來說,不會(huì)僅僅關(guān)心商品的總評(píng)價(jià)度,而是想更大程度了解產(chǎn)品的細(xì)節(jié)評(píng)論,所以單純從產(chǎn)品“好評(píng)率”或“差評(píng)率”來評(píng)價(jià)商品質(zhì)量會(huì)造成分析粒度過粗的問題。因此“情感分布”要包含用戶評(píng)論文本和曾經(jīng)購買或?yàn)g覽信息,以及曾經(jīng)與商家的互評(píng)信息。另外,用戶對(duì)商品的評(píng)論還與用戶的興趣有關(guān),而興趣隨時(shí)間變化而變化,如新產(chǎn)品上市,由于其新穎款式、新元素及新技術(shù)的引入,用戶關(guān)注度會(huì)提高,而隨著產(chǎn)品問世時(shí)間推移,用戶興趣度會(huì)降低,甚至遺忘,所以需要構(gòu)建用戶興趣與“時(shí)間”序列的數(shù)據(jù)模型。

        3 “顯式評(píng)論”與“隱式評(píng)論”

        商家推薦系統(tǒng)是基于用戶的歷史行為,分析、挖掘用戶的行為偏好,從而提供個(gè)性化商家推薦。評(píng)分是用戶綜合考察多方面因素給出的整體評(píng)價(jià)。其中,商家獲得用戶興趣最直接的方式中——“顯式評(píng)分”就是用戶曾經(jīng)購買商品的評(píng)分,評(píng)分總量反映了商品或服務(wù)的熱度。比如電影在線評(píng)論數(shù)量和最終票房呈正比關(guān)系,所以評(píng)論“極性”會(huì)存在一定局限性;有些低評(píng)分不是用戶對(duì)此類商品不感興趣,而是商品服務(wù)質(zhì)量問題,也就是歷史評(píng)分存在的“觀點(diǎn)”和“情緒感知”分析粒度過粗的問題。特別是電商評(píng)論的差評(píng)中,要進(jìn)一步分析差評(píng)原因及用戶的觀點(diǎn)究竟是什么。同時(shí),為了更好解決協(xié)同過濾推薦算法中普遍存在的數(shù)據(jù)稀疏性問題,研究引入“隱式評(píng)論”,即將用戶喜好加入評(píng)論范疇。因?yàn)樵趯?shí)際生活中,有些商品的分類是基于人們對(duì)某一類商品的現(xiàn)實(shí)需求的,比如,用戶如果喜歡載重不大的小型汽車,就會(huì)在緊湊型車型中尋找自己喜好的商品。通過統(tǒng)計(jì)分析MovieLens用戶評(píng)分?jǐn)?shù)據(jù)[15]發(fā)現(xiàn),每位用戶對(duì)不同類型電影的評(píng)分?jǐn)?shù)差異很大,但用戶喜好的電影類型較集中,尤其是單個(gè)用戶更為明顯,通過對(duì)某類電影所有的評(píng)分求和,再求平均值,可以直觀地看出某位用戶對(duì)各種類型的喜好程度。

        4 時(shí)間序列評(píng)論機(jī)理

        圖1 遺忘曲線圖

        5 模型建立

        5.1 用戶情感分布模型

        考慮到用戶對(duì)產(chǎn)品的興趣度對(duì)產(chǎn)品的影響,將用戶評(píng)分內(nèi)容劃分為兩部分:顯評(píng)分(基于用戶歷史評(píng)分行為)和隱評(píng)分(基于用戶偏好信息)

        (1)

        參照Koren[17-18]提出的矩陣分解方法,有:

        (2)

        其中,Ui是用戶特征向量;Vj是物品特征向量。用戶特征向量和物品特征向量分別服從均值為0的高斯分布Ui

        (3)

        (4)

        5.2 用戶評(píng)論-主題矩陣模型

        隱評(píng)分模型引入主題時(shí)間tur在用戶-主題的分布概率,設(shè)產(chǎn)品發(fā)布時(shí)間為tur,評(píng)論文本集Wu={Wu1,Wu2,…,Wuq}中第m個(gè)文本W(wǎng)um的時(shí)間標(biāo)記為tum,則用戶記憶值

        mv(Wum,tum)=e-λ(tur-tum),

        (5)

        式中,λ是時(shí)間參數(shù),默認(rèn)大于0,時(shí)間參數(shù)越大,記憶值下降越快。那么用戶的評(píng)論-主題矩陣可用相應(yīng)記憶值標(biāo)記。

        可得主題時(shí)間tuk在用戶-主題分布概率R(tuk)

        (6)

        由式(1)、式(2)、式(6),可推導(dǎo)出式(7)

        (7)

        6 UIB-LDA模型的建立

        在原有LDA基礎(chǔ)之上引入了用戶顯評(píng)價(jià)和隱評(píng)價(jià),從而構(gòu)建了User Interesting Based-LDA(UIB-LDA)模型如圖2所示。UIB-LDA模型的各符號(hào)說明如表1所示。

        圖2 UIB-LDA模型

        7 測試對(duì)比研究

        檢驗(yàn)使用的數(shù)據(jù)集采集自“汽車之家”購買及用戶評(píng)價(jià)數(shù)據(jù),利用基于python語言的Scrapy框架編寫爬蟲,應(yīng)用python的Celery庫實(shí)現(xiàn)分布式消息隊(duì)列。本次以關(guān)鍵字“汽車之家”采集購買及評(píng)價(jià)報(bào)告的數(shù)據(jù),時(shí)間跨度為2014~2017年,共計(jì)4年。接著進(jìn)行數(shù)據(jù)清洗并采用python的jieba分詞庫對(duì)商品評(píng)論數(shù)據(jù)進(jìn)行中文分詞,分詞結(jié)果如表2所示(其中已過濾標(biāo)點(diǎn)及特殊字符),檢驗(yàn)中使用中文停用詞去除停用詞。同時(shí),從評(píng)論數(shù)據(jù)數(shù)量發(fā)現(xiàn),當(dāng)汽車價(jià)格超過80萬時(shí),在線評(píng)論數(shù)量明顯減少,這正符合經(jīng)濟(jì)學(xué)的價(jià)格和需求呈負(fù)向關(guān)系的論證;另外對(duì)于汽車價(jià)格低于6萬的商品評(píng)論數(shù)量也相對(duì)較少,分析原因中考慮消費(fèi)者在選擇汽車這種商品時(shí)的態(tài)度較為慎重,觀念中普遍存在價(jià)格代表價(jià)值的意識(shí)。因此本次選擇評(píng)論數(shù)據(jù),會(huì)剔除價(jià)格大于80萬及價(jià)格低于6萬的汽車商品評(píng)論數(shù)據(jù)。經(jīng)過篩選,共過得30 975條在線評(píng)論數(shù)據(jù),其在線評(píng)論數(shù)量與百分比如表3所示。

        (8)

        式中,Wi為測試中的單詞;Ni是單詞總數(shù)量。

        表2 汽車評(píng)論分詞結(jié)果

        表3汽車類型數(shù)量及百分比

        LDA和UIB-LDA模型迭代次數(shù)與主題數(shù)對(duì)比如圖3所示。由圖3可以看出,在迭代次數(shù)相同情況下,采樣時(shí)的平均迭代時(shí)間隨著主題數(shù)目的增長而增長。與LDA相比,UIB-LDA模型的迭代次數(shù)隨主題數(shù)增加增長速度明顯低于LDA模型。這是因?yàn)長DA模型采樣時(shí),需要對(duì)所有主題進(jìn)行采樣,UIB-LDA模型只需要對(duì)文檔對(duì)應(yīng)標(biāo)記的主題和背景(全局)主題進(jìn)行采樣。

        圖3 LDA和UIB-LDA模型迭代次數(shù)與主題數(shù)對(duì)比

        另外,本次實(shí)驗(yàn)還用了用的評(píng)價(jià)準(zhǔn)則的查準(zhǔn)率(Precision)和查全率(Recall)。查準(zhǔn)率是挖掘出的正確評(píng)論信息占總有效評(píng)論信息的比例;查全率指挖掘出的正確評(píng)論信息占總評(píng)論信息的比例。查全率與查準(zhǔn)率是反向相關(guān)的,正確評(píng)論的個(gè)數(shù)減少會(huì)導(dǎo)致查準(zhǔn)率增高及查全率降低。因此,實(shí)驗(yàn)選取準(zhǔn)確率和召回率的綜合評(píng)價(jià)指標(biāo)F值進(jìn)行驗(yàn)證。相應(yīng)計(jì)算公式如式(9)、式(10)、式(11)所示:

        Precision:

        (9)

        Recall:

        (10)

        綜合評(píng)價(jià)指標(biāo):

        (11)

        驗(yàn)證結(jié)果如圖4所示。研究選取了UIB-LDA模型與LDA模型進(jìn)行對(duì)比,測試樣本數(shù)目k以樣本數(shù)目40~200測試其查全率、查準(zhǔn)率,并用F值。從圖4可以看出,由于UIB-LDA模型不是針對(duì)所有的主題進(jìn)行采樣,所以與普通LDA模型相比,其查準(zhǔn)率和查全率均優(yōu)于后者。但測試過程中也發(fā)現(xiàn),隨著采樣數(shù)量的增長并超過一定數(shù)量時(shí)(比如超過160),查全率及F值會(huì)呈現(xiàn)下降的趨勢(shì),由此可以得出采樣數(shù)量控制在40~160之間較理想。

        圖4 情感分類效果對(duì)比圖

        8 總結(jié)

        研究主要是以汽車購買評(píng)論作為數(shù)據(jù)研究背景,在原有LDA模型基礎(chǔ)之上,針對(duì)用戶的“知覺評(píng)論”對(duì)用戶購買行為的影響,將用戶評(píng)論商品的信息及其與商家互評(píng)的信息納入情感分布,同時(shí)關(guān)注到用戶興趣度隨時(shí)間推移呈現(xiàn)下降趨勢(shì)的規(guī)律,構(gòu)建了UIB-LDA模型。通過實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)當(dāng)采用數(shù)量取值控制在一定范圍內(nèi)時(shí),該模型平均迭代時(shí)間較低,查全率、查準(zhǔn)率以及綜合評(píng)價(jià)指標(biāo)均優(yōu)于LDA。將UIB-LDA模型應(yīng)用于短文本話題且意見領(lǐng)袖的微博文本是今后研究方向。

        猜你喜歡
        情感用戶模型
        一半模型
        如何在情感中自我成長,保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長,保持獨(dú)立
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        欧美日韩精品一区二区视频| 国产男女猛烈无遮挡免费视频网址| 一区二区黄色素人黄色| 丰满人妻猛进入中文字幕| 芒果乱码国色天香| 激情综合欧美| 日本二区三区视频免费观看| 国产女主播一区二区三区| 精品人妻无码视频中文字幕一区二区三区 | 国产精品毛片av毛片一区二区| 少妇愉情理伦片丰满丰满| 亚洲∧v久久久无码精品| 97久久综合区小说区图片专区| 国产二区中文字幕在线观看 | 丁香五月缴情综合网| 色偷偷亚洲第一综合网| 一区二区三区日本高清| 妺妺窝人体色www聚色窝仙踪| 久久天天躁夜夜躁狠狠躁2022| 国产成年无码久久久久下载| 亚洲美女自拍偷拍视频| 亚洲看片lutube在线观看| 国产av成人精品播放| 青青草绿色华人播放在线视频| 国产在线第一区二区三区| av天堂久久天堂av色综合| 蜜臀aⅴ永久无码一区二区| 国产免费人成视频在线| 无码aⅴ免费中文字幕久久| 高清在线亚洲中文精品视频| 亚洲产在线精品亚洲第一页| 丰满少妇人妻无码| 夫妇交换刺激做爰视频| 久久久久久AV无码成人| 日韩一区二区三区久久精品| 又色又爽又黄还免费毛片96下载| 亚洲伊人久久大香线蕉影院| 一区二区三区日本美女视频| 狠狠躁18三区二区一区| 欧美va亚洲va在线观看| 一区二区三区视频在线免费观看|