亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的評論文本興趣點(diǎn)推薦算法①

        2022-08-25 02:52:22申晉祥鮑美英
        關(guān)鍵詞:卷積矩陣文本

        申晉祥, 鮑美英

        (山西大同大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)工程學(xué)院, 大同 037009)

        1 引言

        近年來, 隨著社交網(wǎng)絡(luò)、智能手機(jī)以及移動(dòng)設(shè)備自動(dòng)定位技術(shù)的發(fā)展, 使得基于位置的社交網(wǎng)絡(luò)(locationbased social networks, LBSN)得以快速發(fā)展[1], 典型的LBSN應(yīng)用有Foursquare、Yelp、Gowalla、Facebook、大眾點(diǎn)評和街旁等, 在LBSN中興趣點(diǎn)(point-of-interest,POI)推薦是目前研究的熱點(diǎn).

        POI推薦注重研究用戶和POI的相關(guān)信息對用戶行為的影響, 更好地了解用戶可能感興趣的地理位置及出行活動(dòng), 探索新的POI以便在正確的時(shí)間為用戶進(jìn)行合適的推薦, 有效解決了大數(shù)據(jù)環(huán)境下“信息過載”的問題[2–5], 豐富用戶的生活體驗(yàn), 同時(shí)也對促進(jìn)旅游發(fā)展、商家精準(zhǔn)營銷等, 提高經(jīng)濟(jì)收入具有重要意義.

        基于LBSN的POI推薦已有大量研究[6–9], 其中大多數(shù)的研究都是考慮地理位置、用戶簽到行為、社交關(guān)系、興趣點(diǎn)類別、流行度、評論文本以及時(shí)間因素等, 融合多個(gè)因素進(jìn)行POI推薦, 實(shí)驗(yàn)證明推薦模型能夠提高POI推薦性能. 但仍然存在簽到數(shù)據(jù)稀疏、評論文本信息利用不夠充分等問題. 高榕等人[10]提出GeoSoRev模型, 融合興趣點(diǎn)的評論文本信息、用戶社交關(guān)聯(lián)以及地理位置信息3個(gè)因素進(jìn)行POI推薦, 采用基于矩陣分解的主題模型挖掘評論文本中的隱藏“主題”, 模型在準(zhǔn)確率和召回率等多個(gè)指標(biāo)都有明顯提高. 王嘯巖等人[11]提出SoGeoCom模型, 融合興趣點(diǎn)評論文本信息、用戶社交網(wǎng)絡(luò)和地理位置信息進(jìn)行POI推薦, 采用隱狄利克雷分布(latent Dirichlet allocation,LDA)從評論文本中獲取主題以及表征主題詞, 有效提高推薦準(zhǔn)確率和召回率. 但所述模型都是基于詞袋或文檔主題模型處理評論文本信息[12], 不能深度提取評論文本的潛在特征表示. 目前基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)技術(shù)已廣泛應(yīng)用于文本處理. 馮浩等人[13]提出MFM-HNN模型, 融合評論文本信息和用戶簽到信息以提高興趣點(diǎn)推薦性能,利用卷積神經(jīng)網(wǎng)絡(luò)處理評論文本信息提取特征表示,捕獲更精確的上下文特征, 具有更好的推薦性能, 但模型沒有能夠基于深度學(xué)習(xí)技術(shù)融合多種上下文信息.

        基于上述原因, 提出RT-CNN模型, 通過CNN處理評論文本內(nèi)容深度提取上下文語義和情感信息, 深度挖掘用戶情感傾向、用戶興趣偏好以及位置興趣點(diǎn)屬性信息, 再融合簽到行為和地理影響因素進(jìn)行POI推薦. 實(shí)驗(yàn)證明模型能夠有效提高推薦性能.

        2 基于CNN的評論文本興趣點(diǎn)推薦模型

        在LBSN中有大量的歷史簽到數(shù)據(jù), 其中所包含的多源異構(gòu)信息為深入分析用戶興趣偏好進(jìn)而為用戶推薦偏好的POI提供豐富的內(nèi)容. 主要有簽到的POI地理位置、時(shí)間、POI的類別、用戶的社交以及評論等信息, 推薦模型可以融合多個(gè)因素, 采用不同方法從簽到數(shù)據(jù)中提取相關(guān)信息以便準(zhǔn)確為用戶生成POI推薦. 為便于后敘內(nèi)容理解, 表1列出了所用符號(hào)解釋.

        表1 符號(hào)解釋

        2.1 地理位置建模

        通常情況用戶更偏好距離自己活動(dòng)空間較近的POI,正如Tobler地理學(xué)第一定律所講的任何事物都相關(guān),距離近的事物之間的相關(guān)性更大. 在實(shí)際生活中, 用戶在遠(yuǎn)離其生活空間的POI簽到概率較小, 因此地理位置的遠(yuǎn)近對用戶的簽到行為有很大影響. 為預(yù)測用戶ui對未簽到位置lj的簽到興趣, 可由以下優(yōu)化過程得到.

        其中,H∈RM×N為簽到權(quán)重矩陣,Hij為1表示用戶ui在位置lj有簽到, 為0表示沒有簽到. 把矩陣參數(shù)U、L的兩個(gè)正則化項(xiàng)加入式(1)防止過擬合, 如式(2):

        其中,λu、λl是正則化參數(shù),是Frobenius范數(shù), 其優(yōu)化問題采用梯度下降的方法獲得局部最優(yōu)解.

        由事物相關(guān)性規(guī)則, 如果用戶對位置lj的鄰近若干位置感興趣則對位置lj感興趣的可能性也很大, 因此可以對矩陣分解模型中缺少的地理位置通過鄰近位置加權(quán)的方法加以補(bǔ)全, 目標(biāo)函數(shù)的最小化如式(3)所示:

        其中,B=γULT+(1-γ)AT,A∈Rn×n, γ是鄰近位置影響是正則化項(xiàng),sim(lj,lx)的權(quán)重參數(shù),是位置lj鄰近位置lx的地理權(quán)重, 采用高斯函數(shù)如式(4):

        2.2 評論文本建模

        充分利用評論文本信息能夠有效緩解簽到數(shù)據(jù)稀疏問題, 采用CNN能夠深度挖掘評論文本潛在特征,將其融入POI推薦有重要作用.

        2.2.1 用戶情感傾向建模

        利用CNN處理評論文本信息獲取用戶情感傾向模型, 以詞向量作為輸入數(shù)據(jù), 以情感傾向作為輸出數(shù)據(jù). 模型分為4層: 嵌入層、卷積層、池化層和輸出層.具體過程如下:

        1)嵌入層: 將用戶ui的所有評論文本的單詞合并成一個(gè)文檔, 利用詞向量模型將每個(gè)單詞按照出現(xiàn)的先后順序映射為相應(yīng)的詞向量, 生成用戶ui詞序不變的詞向量矩陣. 如式(5)所示, 其中,wp表示第p個(gè)詞的詞向量表示.

        2)卷積層: 把輸入的用戶詞向量矩陣Mi進(jìn)行卷積操作提取新的特征, 每個(gè)神經(jīng)元Nq中對應(yīng)d×t的過濾器Fq,d表示嵌入維度,q表示卷積窗口大小, 每層有y個(gè)神經(jīng)元, 每個(gè)卷積對應(yīng)產(chǎn)生一個(gè)特征如式(6):

        其中,f表示激活函數(shù)ReLU, ?表示卷積操作,bq是過濾器Fq對應(yīng)的偏置項(xiàng).

        3)池化層: 采用最大池化操作從上下文特征向量中提取最大的特征向量生成新的固定維度的特征, 最大池化操作能夠有效處理評論文本長度不同的問題,對特征進(jìn)行壓縮減小其規(guī)模, 并且只提取主要特征, 即降低網(wǎng)絡(luò)計(jì)算的復(fù)雜度又避免過擬合的現(xiàn)象. 池化特征表示如式(7)所示:

        4)輸出層: 將池化層中提取的評論文本情感特征向量輸入到Softmax函數(shù), 計(jì)算各情感的預(yù)測概率并和標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)對比獲得誤差, 采用梯度下降和反向傳播進(jìn)行誤差傳遞來更新參數(shù).

        模型最后輸出用戶情感傾向分為3種: 1、0、-1,1表示感興趣, 0表示一般, -1表示不感興趣. 結(jié)合簽到權(quán)重矩陣, 通過函數(shù)重構(gòu)使得情感評分S值在(-1, 1)范圍, 顯然用戶簽到行為與用戶情感分?jǐn)?shù)相關(guān).

        2.2.2 用戶興趣與位置POI屬性建模

        對于位置POI評論文本內(nèi)容通過CNN能夠深度提取其潛在特征, 采用Softmax邏輯回歸函數(shù)定義用戶發(fā)布評論的概率函數(shù)如式(8)所示:

        其中, φil表示用戶ui是否發(fā)布了評論cl,cl是評論文本集合,C∈Rq×d是一個(gè)交互矩陣, 用來分析用戶ui是否發(fā)布了評論cl,CNN(W,Cl)表示通過CNN提取的評論文本特征,W是CNN的內(nèi)部權(quán)重. Softmax函數(shù)的輸出值相互關(guān)聯(lián), 其概率總和為1, 要獲取用戶潛在特征向量ui, 將概率函數(shù)式(8)轉(zhuǎn)換為目標(biāo)函數(shù)式(9)求解得到.

        與此同理, 分析評論ck與位置lj的相關(guān)性概率函數(shù)如式(10)所示:

        要獲取位置潛在特征向量lj, 將概率函數(shù)式(10)轉(zhuǎn)換為目標(biāo)函數(shù)式(11)求解得到.

        3 RT-CNN模型優(yōu)化及算法實(shí)現(xiàn)

        RT-CNN模型融合簽到行為R、地理位置影響B(tài)、用戶情感傾向S、用戶潛在特征U以及位置潛在特征L, 針對簽到數(shù)據(jù)R稀疏的問題, 通過卷積神經(jīng)網(wǎng)絡(luò)處理,充分挖掘和利用評論文本信息能夠有效緩解, 其中的S、U、L都是從卷積神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)得到的,W是卷積神經(jīng)網(wǎng)絡(luò)權(quán)重值,P是概率函數(shù). RT-CNN模型需要解決最大化優(yōu)化問題, 優(yōu)化問題利用梯度下降的方法學(xué)習(xí)目標(biāo)函數(shù)局部最優(yōu)解. 在詞向量模型中, 主要有Skipgram和CBOW兩種模型, 前者是給定文中的某個(gè)詞來預(yù)測上下文內(nèi)容, 而后者是給定上下文來預(yù)測上下文之間的結(jié)果. Skip-gram模型雖然預(yù)測次數(shù)要多于CBOW,但通過多次的預(yù)測、調(diào)整會(huì)使得詞向量更加準(zhǔn)確. 因此,通過Skip-gram模型獲取詞向量矩陣. 負(fù)抽樣不僅能夠減少訓(xùn)練過程的計(jì)算負(fù)擔(dān), 而且還能提高其結(jié)果詞向量的質(zhì)量, 采用負(fù)抽樣方法近似計(jì)算目標(biāo)函數(shù).

        RT-CNN算法的偽代碼如算法1.

        算法1. RT-CNN算法的偽代碼Cuiui∈U Cljlj∈L輸入: R, , , ,輸出: Top-N POI 1)隨機(jī)初始化W、U、L、P、C 2)采用CNN獲取用戶情感傾向S的值3)通過U和L計(jì)算B 4) While (not convergent) do?ξ?U?ξ?L?C?ξ?ξ?P?ξ?B 5)計(jì)算 , , , ,U←U+η?ξ?U 6)進(jìn)行更新7) L、C、P、B分別類同6)依次進(jìn)行更新8)通過反向傳播方法調(diào)整CNN中的參數(shù)9) End UTL 10)計(jì)算 推薦Top-N POI給用戶

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        為了驗(yàn)證RT-CNN模型的性能, 需要進(jìn)行一次實(shí)驗(yàn). 選用Foursquare網(wǎng)站(https://download.csdn.net/download/weixin_41665541/10219398)數(shù)據(jù)集中紐約(NYC)和洛杉磯(LA)的簽到及評論數(shù)據(jù), 對兩個(gè)數(shù)據(jù)集進(jìn)行預(yù)處理, 過濾掉簽到次數(shù)小于10的用戶和訪問次數(shù)小于10的POI, 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)如表2所示. 數(shù)據(jù)集分成3份, 80%作為訓(xùn)練集, 10%作為驗(yàn)證集,10%作為測試集.

        表2 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)

        4.2 評價(jià)指標(biāo)的設(shè)定

        使用精確率(Precision)和召回率(Recall)作為評價(jià)指標(biāo)評估算法的性能, 簡記為P@N、R@N, 對于一個(gè)用戶u, 其計(jì)算公式如式(12)和式(13).

        其中,T(u)表示測試集中用戶u簽到過的POI列表,R(u)表示為用戶u推薦的POI列表.

        4.3 不同模型比較

        選擇較新的典型先進(jìn)模型: SoGeoCom模型[9]、TGSC-PMF模型[12]和MFM-HNN模型[13]與RT-CNN模型比較, 設(shè)定N=1, 5, 10. 基于NYC數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如圖1和圖2所示.

        圖1 不同模型基于NYC數(shù)據(jù)集的精確率對比

        圖2 不同模型基于NYC數(shù)據(jù)集的召回率對比

        基于LA數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如圖3和圖4. 由實(shí)驗(yàn)結(jié)果分析得出, RT-CNN模型在兩個(gè)數(shù)據(jù)集上精確率和召回率都高于其他模型. 其中, SoGeoCom模型融合用戶社交、地理位置及POI評論文本進(jìn)行推薦, 認(rèn)為用戶是否真正訪問某POI是由3方面因素決定, 分別是用戶對POI的興趣、用戶與POI之間的心理距離和物理距離. 興趣方面可通過對用戶的評論文本進(jìn)行挖掘得到, 心理距離和物理距離則通過社交網(wǎng)絡(luò)關(guān)系建模和地理位置信息建模來獲得. 興趣越大、距離越近,訪問概率就越高, 對緩解簽到數(shù)據(jù)稀疏以及冷啟動(dòng)方面有較好的效果. 但是, 模型使用LDA處理評論文本信息, 忽略了評論文本語義上下文信息, 因此表現(xiàn)最差.TGSC-PMF模型通過挖掘興趣點(diǎn)評論文本信息, 了解用戶的興趣意向, 采用一種自適應(yīng)帶寬核評估方法構(gòu)建興趣點(diǎn)之間的地理相關(guān)性, 通過分析用戶社會(huì)關(guān)系構(gòu)建用戶之間的社會(huì)相關(guān)性, 針對用戶的分類喜好和興趣點(diǎn)的流行度構(gòu)建分類相關(guān)性. 最后將各相關(guān)分?jǐn)?shù)進(jìn)行匹配并融合到概率矩陣分解模型中. 也是使用LDA處理評論文本信息, 但模型融合了POI評論文本、地理、社交、分類與流行度信息, 并利用概率矩陣分解模型進(jìn)行有效處理, 推薦性能高于SoGeoCom模型, 表明融合多種因素能提高推薦性能. MFMHNN模型融合評論信息與用戶簽到信息進(jìn)行推薦, 通過CNN充分考慮詞序及上下文信息獲取評論文本潛在特征表示, 克服了LDA處理評論文本信息所存在的問題, 并利用深度堆棧降噪自動(dòng)編碼器研究了特征矩陣的初始化問題, 推薦性能高于TGSC-PMF模型. 所提模型RT-CNN通過CNN深度挖掘評論文本信息,獲取用戶情感傾向、用戶興趣偏好以及位置POI屬性信息, 融合簽到行為以及地理位置影響進(jìn)行推薦, 在簽到數(shù)據(jù)稀疏的情況下充分利用評論文本隱含的潛在語義和情感信息, 有效地提高了位置POI推薦性能, 實(shí)驗(yàn)結(jié)果表明, RT-CNN模型具有最好的推薦效果.

        圖3 不同模型基于LA數(shù)據(jù)集的精確率對比

        圖4 不同模型基于LA數(shù)據(jù)集的召回率對比

        通過不同模型在兩個(gè)數(shù)據(jù)集上精確率和召回率的實(shí)驗(yàn)結(jié)果可以看出, 隨著推薦列表長度N值的增大, 推薦精確率P@N逐漸減小, 推薦召回率R@N逐漸增大.這是因?yàn)橥扑]列表中POI的數(shù)目越多, 用戶真正訪問的POI在推薦列表中的比例顯然會(huì)降低, 也就是說在推薦列表中有很多列出的POI并不是用戶真正訪問的POI, 從而導(dǎo)致推薦精確率下降. 然而隨著推薦列表中POI數(shù)目的增加, 則會(huì)有更多的用戶真正訪問的POI出現(xiàn)在推薦列表中, 使得推薦召回率增加.

        5 結(jié)束語

        為緩解位置POI推薦中簽到數(shù)據(jù)稀疏問題, 提出一種RT-CNN模型, 基于卷積神經(jīng)網(wǎng)絡(luò)深度提取評論文本內(nèi)容的隱含信息, 對位置POI和用戶進(jìn)行建模, 同時(shí)融合簽到行為以及地理位置信息進(jìn)行POI推薦. 通過實(shí)驗(yàn)與其他模型對比, 結(jié)果表明模型提高了精確率和召回率, 具有更優(yōu)的推薦效果.

        猜你喜歡
        卷積矩陣文本
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        在808DA上文本顯示的改善
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        初等行變換與初等列變換并用求逆矩陣
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        人妻少妇艳情视频中文字幕| 亚洲另类激情专区小说婷婷久| 国产成人久久精品流白浆| 欧美a级在线现免费观看| 97人妻蜜臀中文字幕| 人成在线免费视频网站| 丁字裤少妇露黑毛| 韩国精品一区二区三区无码视频| 日韩成人无码v清免费| 视频一区中文字幕日韩| 亚洲人成在线播放网站| 午夜福利麻豆国产精品 | 青青草在线免费观看视频| 色老板美国在线观看| 看黄a大片日本真人视频直播| 国产精品成人免费视频网站京东| 蜜桃一区二区三区在线看| 中文字幕人妻av一区二区| 久久性爱视频| 国产精品揄拍100视频| 国产三级黄色在线观看| 国产美女主播福利一区| 中文字幕亚洲一二三区| 人妻无码一区二区三区免费| 在线观看午夜亚洲一区| 中文字幕国产91| 久久青青草原亚洲av| 极品美女扒开粉嫩小泬图片| a级国产乱理论片在线观看| 国产成人精品免费视频大全| 国产天堂av在线播放资源 | 久久婷婷国产精品香蕉| 久久99精品久久只有精品| 一本色道无码不卡在线观看| 一本色道久久88综合日韩精品| 国产精品无码专区视频| 国产在线观看免费不卡视频| 无码国内精品人妻少妇蜜桃视频| 国产人在线成免费视频| 日产精品一区二区三区免费| 亚洲视频在线观看一区二区三区 |