亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合LDA主題模型與LSTM網(wǎng)絡(luò)的個性化推薦算法

        2019-12-04 01:47:08堯婉辰孫懷遠謝潤忠
        軟件導(dǎo)刊 2019年10期

        堯婉辰 孫懷遠 謝潤忠

        摘要:為改善傳統(tǒng)個性化推薦算法精準度不高的問題,使用評論數(shù)據(jù)作為數(shù)據(jù)集,先對評論數(shù)據(jù)作文本預(yù)處理和特征提取,然后使用LDA主題模型對文本特征數(shù)據(jù)建模,得到主題詞分布,將其作為標簽,同時使用LSTM網(wǎng)絡(luò)作文本分類,通過計算得到好評率。最后把用戶需求和標簽利用潛在語義標引計算相似度,根據(jù)相似度和好評率大小向用戶推薦結(jié)果。實驗結(jié)果表明,該方法能夠向用戶推薦符合其興趣的個性化需求信息,且準確率高于96%,證明了該推薦算法的有效性。

        關(guān)鍵詞:LDA主題模型;LSTM神經(jīng)網(wǎng)絡(luò);個性化推薦算法;潛在語義標引

        DOI:10.11907/rjdk.182905開放科學(xué)(資源服務(wù))標識碼(OSID):

        中圖分類號:TP312文獻標識碼:A 文章編號:1672-7800(2019)010-0050-05

        0引言

        隨著電子商務(wù)和Web在線服務(wù)的迅速發(fā)展,信息變得越來越廣泛,用戶難以在海量信息中獲取所需信息,推薦系統(tǒng)應(yīng)運而生。推薦系統(tǒng)在電子商務(wù)(如淘寶網(wǎng)、京東商城、唯品會、蘇寧易購、walmart等)、信息檢索(如360搜索、火狐瀏覽器、IE瀏覽器、百度網(wǎng)、Google等)、新聞推送(如澎湃新聞、騰訊新聞、新浪新聞、今日頭條、BuzzFeed等)等很多領(lǐng)域得到了成功應(yīng)用。傳統(tǒng)的個性化推薦方法主要包括基于協(xié)同過濾的推薦(Collaborative Filtering,CF)算法、基于內(nèi)容的推薦(Content-based Recommendation)算法和混合型推薦(Hybrid Recommendation)算法。其中,基于協(xié)同過濾的推薦因?qū)<抑R依賴度低以及可以利用群體智慧等特點,得到了廣泛深入的研究,但同時也遭遇到嚴重的數(shù)據(jù)稀疏(一個用戶評分過的項目僅僅占總項目數(shù)量的極少部分)和冷啟動(新的用戶和新的項目往往沒有評分數(shù)據(jù))問題。

        近年來,采用LDA主題模型和評論文本進行推薦的研究逐漸增多,但很少將兩者結(jié)合起來研究。本文提出一種基于LDA主題模型和LSTM網(wǎng)絡(luò)的個性化推薦算法,該算法使用評論數(shù)據(jù)作為數(shù)據(jù)集,先對評論數(shù)據(jù)做文本預(yù)處理和特征提取,然后使用LDA主題模型對文本特征數(shù)據(jù)建模,得到主題詞分布,把其作為標簽,同時使用LSTM神經(jīng)網(wǎng)絡(luò)做文本分類,進而計算得到好評率。最后把用戶需求和標簽利用潛在語義標引(Latent Semantic Indexing,LSI)計算相似度,根據(jù)相似度和好評率大小向用戶推薦結(jié)果。

        1相關(guān)技術(shù)

        1.1LDA模型

        LDA(LatentDirichletallocation)模型即隱含狄利克雷分布,是Blei等提出的一種生成主題概率模型,通常用來對大規(guī)模文檔數(shù)據(jù)進行建模。它屬于一種非監(jiān)督機器學(xué)習(xí)方法,能夠識別大規(guī)模文檔集和語料庫中潛在隱藏的主題信息。由于不同的單詞可能隱含相同的主題,因此比較兩篇文檔的相似性不能只是單純比較共現(xiàn)單詞的數(shù)目,而要比較兩篇文檔中所隱含的主題之間的相似性。LDA主題模型是一個三層貝葉斯模型,包含文檔層、單詞層、主題層,如圖1所示。LDA主題模型使用概率分布表示層與層之間的關(guān)系,將文本表示成多個主題的概率分布,將主題表示為多個單詞的概率分布??梢赃@樣認為,一篇文章中每個詞都是通過“以一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語”這樣一個過程得到的。通過隱含的特征聯(lián)系用戶感興趣的物品,也可以這樣理解用戶的評分矩陣:將用戶感興趣的物品看成是詞匯,用戶的評分看成是詞頻,用戶對物品的所有評分就可轉(zhuǎn)變成一篇偽文檔,這樣就可使用LDA對物品間接地進行模糊聚類,從用戶的評分矩陣中發(fā)現(xiàn)潛在的主題,通過潛在的主題對用戶和用戶感興趣的物品進行連接。

        1.2Gibbs抽樣

        LDA模型中隱含變量聯(lián)合分布很復(fù)雜,直接對隱含變量概率分布進行計算是不可能的。常用估計方法有變分貝葉斯推理、期望傳播算法、Gibbs抽樣。Gibbs抽樣是MCMC算法的一種簡單實現(xiàn)形式,由于其在困惑度和運行速度等方面均優(yōu)于變分貝葉斯推理和期望傳播算法,且易于理解和實現(xiàn),因此本文采用Gibbs抽樣算法對LDA模型進行主題抽取,其采樣步驟如下:

        (1)在[1,T]中隨機取一個整值給主題z,i=1,2,…,N,N是文檔集所有出現(xiàn)在文本中的特定詞個數(shù),即馬爾可夫鏈初始狀態(tài)。

        (2)循環(huán)采樣,迭代到足夠多的次數(shù)直至馬爾可夫鏈接近目標分布,并記錄當前Zi值,對每個zi按下式估算φ和θ值。

        1.3循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)

        循環(huán)神經(jīng)網(wǎng)絡(luò)最早由Goller等提出,是一種時間遞歸網(wǎng)絡(luò),可以看作是同一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在時間軸上循環(huán)多次得到的結(jié)果。與其它深層神經(jīng)網(wǎng)絡(luò)相比,RNN的結(jié)構(gòu)特點決定了它更擅長處理序列數(shù)據(jù)。

        RNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中,A為RNN隱藏層處理單元,xt為當前時刻的輸入值,ht為當前時刻隱藏層的輸出值。從圖中可以看出,ht是由當前輸入值xt和上一時刻輸出值ht-1、共同決定的,而ht又會影響下一時刻的輸出,即每個輸出值不僅與當前的輸入值有關(guān),還與之前時刻的輸出值有關(guān)。

        理論上RNN可以處理任意長度的時間序列數(shù)據(jù),但發(fā)現(xiàn)RNN在訓(xùn)練過程中會產(chǎn)生梯度消失和梯度爆炸問題。Pascanu等通過詳細的數(shù)學(xué)推導(dǎo)解釋了這一現(xiàn)象產(chǎn)生的原因,即傳統(tǒng)的RNN模型在訓(xùn)練時傾向于按照序列結(jié)尾處的正確權(quán)值方向進行更新。由于隔得越遠的輸入序列對權(quán)值正確變化的影響越小,所以網(wǎng)絡(luò)輸入偏向于新信息的輸入而不具備長期記憶功能。

        1.4LSTM網(wǎng)絡(luò)結(jié)構(gòu)

        LS7ME解決了RNN訓(xùn)練神經(jīng)網(wǎng)絡(luò)過程中梯度消失和梯度爆炸問題,能夠保留更久以前的信息。LSTM的網(wǎng)絡(luò)結(jié)構(gòu)與RNN大體接近,但是隱藏層的結(jié)構(gòu)更為復(fù)雜,如圖3所示。

        圖3中,t時刻的輸入信息包括當前的輸入值xt以及上一時刻的輸出值ht-1。LSTM處理單元主要由輸入門(用it表示)、遺忘門(用ft表示)、輸出門(用ot表示)組成。

        以上公式詳細地推導(dǎo)了輸入信息在LSTM隱藏層的處理過程。LSTM通過輸入門、遺忘門和輸出門調(diào)控信息流向以及篩選信息,從而解決了信息的長時記憶問題。LSTM的輸入是句子的單詞序列,模型對單詞序列進行掃描,詞向量序列由嵌入層到達lstm網(wǎng)絡(luò)層,再經(jīng)過全連接層映射到標簽,得到整個句子的表達,進而實現(xiàn)文本分類,最終得到好評率。

        2推薦算法模型

        以藥品推薦為例說明新模型。

        2.1藥品評價文本預(yù)處理

        預(yù)處理步驟如下:①初步處理數(shù)據(jù)。將藥品評價數(shù)據(jù)集中的非評論數(shù)據(jù)去掉,減少這些數(shù)據(jù)對最后結(jié)果的影響;②自定義專用詞典,對評論數(shù)據(jù)文檔進行精準分詞;③刪除停用詞表(包括連詞、副詞等與主題關(guān)系不大的高頻詞)中的詞,進行降維;④進行詞性標注;⑤得到文本特征結(jié)果。

        2.2藥品好評率計算

        在數(shù)據(jù)預(yù)處理已提取文本特征的基礎(chǔ)上進行文本分類器構(gòu)建。先把評價文檔按照評價正負面感情色彩分成好和差兩類,然后按照80%與20%的比例隨機分成訓(xùn)練集和測試集,使用訓(xùn)練集訓(xùn)練LSTM分類器,最后使用測試集計算每種藥品的好評率。

        好評率按照“好評率:測試集好評文檔數(shù)量/測試集文檔總數(shù)量”進行計算。

        文本分類使用LSTM網(wǎng)絡(luò),大量實驗證明通過構(gòu)造LSTM網(wǎng)絡(luò)結(jié)構(gòu)分析文本獲得了相當高的準確率,遠遠優(yōu)于邏輯回歸、樸素貝葉斯、SVM等機器學(xué)習(xí)算法在文本分類中的應(yīng)用。

        2.3相似度計算

        對用戶需求描述語言作分詞、去停用詞標準預(yù)處理,然后和LDA模型得到的藥品評價標簽作相似度計算,按照相似度大小給出藥品排序。若相似度相同,按照好評率大小排序,把排在第一位的藥品推薦給用戶。

        相似度計算采用余弦相似度公式,在計算之前先使用潛在語義標引模型對標簽數(shù)據(jù)和用戶需求描述文字作奇異值分解(SVD),得到潛在語義空間向量,然后使用余弦相似度公式計算,以此提高相似度計算的精確度。

        2.4推薦算法

        推薦算法步驟如下:①構(gòu)建藥品數(shù)據(jù)集。收集藥品評價數(shù)據(jù)作簡單處理,剔除表情符號等無用信息,構(gòu)造藥品集合;②評論數(shù)據(jù)處理,提取文本特征。對評論數(shù)據(jù)作精確分詞、去停用詞、詞性標注、詞性過濾等處理,獲取評論數(shù)據(jù)的關(guān)鍵信息,提取文本特征;③LDA建模,生成藥品標簽:使用LDA模型對處理好的藥品評論數(shù)據(jù)建模,得到權(quán)重較高的前N個詞,生成藥品標簽;④LSTM網(wǎng)絡(luò)評論文本分類,計算得到好評率;⑤相似度計算,結(jié)果推薦:根據(jù)用戶需求標簽計算其與藥品標簽的相似度,依照相似度大小排序,如果相似度值大小相等則依照好評率大小排序,把前N種藥品作為結(jié)果推薦給用戶。

        推薦算法結(jié)構(gòu)如圖4所示。

        3實驗結(jié)果與分析

        3.1實驗平臺與工具

        中文分詞工具是開源分詞工具NLTK,自定義詞典內(nèi)容指搜集的疾病癥狀和藥品名稱。本實驗總共收集了4種藥品共計10010條數(shù)據(jù)。實驗平臺與工具如表2所示。

        3.2LDA模型實驗結(jié)果

        按照推薦算法步驟①和步驟②完成對藥品評論文檔數(shù)據(jù)的預(yù)處理和特征提取,然后使用BOW詞袋模型得到文檔的稀疏向量,應(yīng)用LDA建模。模型迭代次數(shù)設(shè)置為1000次,以包含“六味地黃丸”、“川貝枇杷膏”評論數(shù)據(jù)為例,使用LDA模型挖掘出來的主題詞及頻率分布數(shù)據(jù)如表3所示。

        如果每種藥品都得到表3形式的數(shù)據(jù),則把這個數(shù)據(jù)作為每種藥品的特征標簽,用藥品的特征標簽和用戶需求做比較,就可找到符合要求的藥品。從實驗結(jié)果看,挖掘出的主題詞充分反映了藥品內(nèi)容的各個方面。

        3.3推薦實驗

        使用推薦算法步驟②得到文本特征數(shù)據(jù),對其進行LSTM網(wǎng)絡(luò)分類,分類結(jié)果如表4所示。按照步驟⑤得到推薦結(jié)果。現(xiàn)有的公開藥品評論數(shù)據(jù)集都是針對情感分析計算建立的,為了驗證本文算法推薦結(jié)果的準確性,采取兩種方式模擬用戶需求:①從用戶的角度設(shè)置用戶需求,驗證推薦結(jié)果是否符合要求;②從藥品評論網(wǎng)站隨機抓取用戶評論將其設(shè)為用戶需求作為正確的推薦結(jié)果,根據(jù)推薦結(jié)果判斷準確性。

        采取第①種方式進行用戶需求和藥品標簽相似度實驗時,設(shè)置4條用戶需求,分別是:①“昨晚吃燒烤,口腔潰瘍了”;②“今天打籃球,手指頂?shù)角蛄?,腫起來了,得涂一些跌打損傷的藥”;③“這段時間正好準備戒酒,腎虛吃點補補身體”;④“應(yīng)該是受涼感冒了,總是咳嗽”。

        實驗結(jié)果如表5所示。從表5的實驗數(shù)據(jù)可以看到,對于需求1,客戶需要有關(guān)治療口腔潰瘍的藥品,而藥品1是滋陰補腎藥,藥品2是治療咳嗽藥,藥品3是治療跌打損傷藥,藥品4才是治療口腔潰瘍藥,所以相似度最大的是藥品4;同理,對于需求2、需求3、需求4的相似度得到如表5中的結(jié)果。若向用戶推薦1種藥品,則根據(jù)實驗結(jié)果和算法步驟5的推薦規(guī)則,4條需求的推薦結(jié)果分別是藥品4,藥品3,藥品1和藥品2。

        第2種方式實驗:從中國藥品評價網(wǎng)站對每種藥品各抓取500條數(shù)據(jù)進行推薦,結(jié)果如表6所示。

        從上述兩種方式的實驗結(jié)果可知,本文推薦算法不僅能推薦符合用戶個性化需求的結(jié)果,而且推薦結(jié)果準確率都高于96%,平均準確率達到了97.15%。

        4結(jié)語

        基于LDA主題模型和LSTM網(wǎng)絡(luò)的個性化推薦算法,使客戶情感傾向性得以最大化體現(xiàn),滿足客戶個性化需求,充分驗證了該算法的有效性。盡管本文算法在藥品推薦中取得了良好效果,但如何提高其泛化性能還需深入研究。

        丝袜美腿av免费在线观看| 亲子乱aⅴ一区二区三区下载| 亚洲特黄视频| 国产传媒剧情久久久av| 国产三级精品三级在线专区2| 亚洲欧美国产精品久久| 日产精品久久久久久久蜜臀| 天天射色综合| 国产亚洲3p一区二区| 亚洲av无码乱码在线观看牲色| 国产又色又爽无遮挡免费| 97久久久久国产精品嫩草影院| 国产影院一区二区在线| 色综合久久无码五十路人妻| 欧美疯狂性xxxxxbbbbb| 久久亚洲国产精品五月天| 男女动态91白浆视频| 久9re热视频这里只有精品| 狠狠躁夜夜躁无码中文字幕| 久久精品国产亚洲片| 日本少妇一区二区三区四区| 任我爽精品视频在线播放| 欧美午夜a级精美理论片| 国产精品丝袜一区二区三区在线 | 啪啪视频一区二区三区入囗| 免费蜜桃视频在线观看| 国产欧美日韩va另类在线播放| 免费人成视频在线观看网站| 亚洲国产高清美女在线观看| 日本一区二区不卡二区| 免费网站看av片| 精品五月天| 亚洲综合偷拍一区二区| 精品日韩亚洲av无码| 人妻精品无码一区二区三区| 日本一区二区亚洲三区| 精品国产一区二区三区av天堂| 亚洲伊人色欲综合网| 亚洲AV成人无码久久精品在| 91精品国产高清久久福利| 国产精品妇女一二三区|