亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于嵌入表示的改進(jìn)協(xié)同過(guò)濾旅游線路推薦

        2021-12-04 06:12:18王洪建
        關(guān)鍵詞:相似性閾值向量

        王洪建

        (廈門(mén)航空有限公司,福建廈門(mén) 361006)

        當(dāng)前,各種旅游產(chǎn)品的推出使旅游信息數(shù)量變得異常龐大,用戶很難從大量的旅游信息中快速定位其感興趣的產(chǎn)品。而旅游公司為了爭(zhēng)奪客源及增加收入,需要不斷滿足游客的需求,制定符合游客興趣的旅游線路。旅游推薦系統(tǒng)[1-2]是解決旅游信息過(guò)載問(wèn)題的重要手段,能主動(dòng)推送符合游客興趣的旅游線路,幫助其快速做出決策。

        目前旅游線路推薦算法主要包括:基于內(nèi)容的推薦、基于協(xié)同過(guò)濾的推薦、基于知識(shí)的推薦及基于社交媒體的推薦4 類(lèi)?;趦?nèi)容的旅游線路推薦根據(jù)游客選擇的旅游產(chǎn)品向其推薦與該線路相似的線路。黃飛龍[3]根據(jù)游客的實(shí)時(shí)數(shù)據(jù),為游客在有限時(shí)間內(nèi)推薦可選的旅游線路。基于協(xié)同過(guò)濾的旅游線路推薦根據(jù)游客的線路偏好,為其推薦與其興趣相似游客選擇的線路。侯新華等[4]利用游客對(duì)旅游線路的線上評(píng)價(jià),尋找相似游客,完成旅游景點(diǎn)的推薦。史一帆等[5]利用景點(diǎn)標(biāo)簽改進(jìn)協(xié)同過(guò)濾線路推薦算法,提高旅游線路推薦的準(zhǔn)確度?;谥R(shí)的旅游線路推薦則是將旅游領(lǐng)域知識(shí)引入線路推薦系統(tǒng),提升線路推薦準(zhǔn)確度。王顯飛等[6]以交互方式獲取游客的需求和興趣,并以此為約束進(jìn)行旅游線路推薦,提高了線路推薦的品質(zhì)?;谏缃幻襟w的旅游線路推薦則是將社交媒體中的游客關(guān)系引入線路推薦過(guò)程。文獻(xiàn)[7-9]根據(jù)游客位置信息,建立游客位置-興趣關(guān)聯(lián),推薦周邊景點(diǎn)。但由于旅游數(shù)據(jù)一般是隱式反饋的,很難收集用戶對(duì)旅游線路的喜好信息。這限制了以上傳統(tǒng)旅游線路推薦算法的性能。

        詞向量(Doc2vector)模型最初應(yīng)用于自然語(yǔ)言處理領(lǐng)域,將單詞的豐富信息表示成低維向量,取得了非常好的效果,近幾年其已被廣泛應(yīng)用于旅游推薦系統(tǒng)中[10-11]。由于旅游數(shù)據(jù)一般具有較詳細(xì)的線路描述,因此每條線路可以利用詞向量進(jìn)行低維表示,利用游客參加線路對(duì)游客興趣進(jìn)行建模,提高傳統(tǒng)旅游線路推薦算法對(duì)于隱式反饋數(shù)據(jù)的處理能力[12]。

        針對(duì)上述研究的不足,提出了基于嵌入表示的改進(jìn)協(xié)同過(guò)濾旅游線路推薦算法。首先,根據(jù)詞向量模型將每條線路表示成低維嵌入表示,并根據(jù)游客的參與線路集合得到游客興趣的嵌入表示;其次,根據(jù)線路間的相似性抽取游客共現(xiàn)線路集合并計(jì)算游客間的相似度;最后,利用改進(jìn)的協(xié)同過(guò)濾模型完成線路推薦。

        1 基于詞向量的線路和游客興趣嵌入表示

        假設(shè)U={u1,u2,…,um},L={l1,l2,…,ln}分別為游客和旅游線路集合,Mm×n= {rul|u∈U,l∈L} 為交互矩陣,rul=1 表示游客u參加了l,否則為0。

        1.1 線路的嵌入表示

        詞向量將一個(gè)給定詞語(yǔ)表示為一個(gè)向量,每個(gè)不同的單詞映射到不同的向量,具有相近意思的詞語(yǔ),其表示也是相似的。常用的模型為跳字模型(Skipgram)和連續(xù)詞袋模型(CBOW,continuous bag of words)。但這兩種模型忽略了單詞之間的排列順序?qū)渥踊蛭谋拘畔⒃斐傻挠绊懀鳧oc2vector 模型解決了這個(gè)問(wèn)題,其可處理可變長(zhǎng)度文本,在使用向量表示段落或文本時(shí),考慮到了詞序?qū)τ谡Z(yǔ)義的影響。在旅游數(shù)據(jù)集中,與線路集合L={l1,l2,…,ln}對(duì)應(yīng)的線路描述文檔集合可表示為D={d1,d2,…,dn},對(duì)于任意線路li∈L可利用Doc2vector 將其對(duì)應(yīng)的線路介紹文檔di∈D映射成低維向量vli∈Rd。這樣每條線路就被表示成了一個(gè)d維向量,如果兩條線路的主題比較相近,其向量也比較相似,向量距離較??;反之,向量距離則較大。

        1.2 游客興趣的嵌入表示

        在旅游推薦系統(tǒng)中,由于缺乏游客對(duì)旅游線路的反饋信息,因此認(rèn)為游客參加的線路就是其喜歡的旅游產(chǎn)品。游客興趣的嵌入表示由其參與過(guò)的線路特征描述。假設(shè)游客ui參加過(guò)的線路集合為則游客ui對(duì)線路的興趣可表示為

        2 游客間相似性計(jì)算

        在協(xié)同過(guò)濾推薦過(guò)程中,相似性計(jì)算是非常重要的關(guān)鍵步驟。假設(shè)兩個(gè)游客共同參加過(guò)很多相同/相似的線路,則認(rèn)為兩個(gè)游客興趣是相似的。但因?yàn)槁糜螖?shù)據(jù)的極度稀疏性特點(diǎn),在實(shí)際過(guò)程中不同游客參加過(guò)相同線路的次數(shù)非常少,因此如何抽取游客的共現(xiàn)線路集合是度量游客間是否具有相同偏好的關(guān)鍵。兩條線路間的距離衡量了線路間的特征相似性,距離越小,說(shuō)明兩條線路具有相似特征,距離越大,說(shuō)明線路特征差別越大。不同線路間的距離計(jì)算公式如下

        由于旅游數(shù)據(jù)稀疏性高,游客共現(xiàn)線路更少。如果兩游客參與的線路相似性較高,則認(rèn)為其是共現(xiàn)線路。為了衡量線路間的相似性,設(shè)定一個(gè)閾值T,當(dāng)兩條線路向量表示的距離小于T時(shí),則認(rèn)為兩條線路是相似線路。因此可以得到游客ui與uj共現(xiàn)線路集合可表示為

        任意兩名游客間的相似性由其共同參與的線路來(lái)表示。共同參與的線路越多,線路越相似,其偏好越相似。游客更喜歡給其推薦共現(xiàn)線路集合中未參加的線路,任意兩個(gè)游客ui與uj的相似性利用改進(jìn)余弦公式進(jìn)行計(jì)算如下

        其表示了游客ui和uj對(duì)于共現(xiàn)線路的向量累計(jì)偏差,也就是游客ui與uj對(duì)線路興趣的偏好。累計(jì)偏差越大,ui和uj間的相似性越差;偏差越小,說(shuō)明ui和uj的偏好越相似,其喜歡相同/相似線路的可能性越大。

        因此實(shí)際推薦過(guò)程中,利用游客間的相似性得到相似游客,目標(biāo)游客ui的相似游客參與的線路構(gòu)成候選推薦線路集合如下

        式中N(ui)為ui的相似游客集合。將某個(gè)相似游客去過(guò),但目標(biāo)游客沒(méi)有去過(guò)的線路向其推薦。

        3 旅游線路推薦

        假設(shè)目標(biāo)游客為游客ui,游客uj為其相似游客集合N(u)i中的游客;為游客uj參加過(guò)的,但游客ui沒(méi)有參加過(guò)的線路,則游客ui喜歡線路的概率表示為

        由此可得到ui對(duì)所有相似游客uj參加過(guò),而游客ui未參加過(guò)的線路感興趣的概率,之后按照概率的大小降序排列,得到Top@k推薦列表,即按游客興趣度排列的前k條推薦線路。

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 數(shù)據(jù)集

        實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于某旅游公司,共包括4 737 個(gè)游客,1 436 條旅游線路,交互記錄為25 717 條。每個(gè)游客的信息包括游客姓名、性別、身份證號(hào)、參加的旅游團(tuán)號(hào)、線路出發(fā)時(shí)間、價(jià)格、景點(diǎn)的詳細(xì)介紹。對(duì)于每條線路都包含一個(gè)詳細(xì)的線路描述,包括行程、線路中包含的每個(gè)景區(qū)特點(diǎn)等。其為隱式反饋數(shù)據(jù)集,游客參加了某線路則認(rèn)為該游客喜歡這條線路。對(duì)數(shù)據(jù)集以6∶2∶2 的比例拆分成訓(xùn)練集、測(cè)試集和驗(yàn)證集。

        4.2 評(píng)估指標(biāo)

        實(shí)驗(yàn)中采用召回率(recall)、歸一化折損累計(jì)增益(NDCG,normalized discounted cumulative gain)和平均精準(zhǔn)度(MAP,mean average precision)作為評(píng)估標(biāo)準(zhǔn)。Recall 描述推薦系統(tǒng)推薦給用戶的旅游線路占用戶真正感興趣的線路的比例。NDCG 和MAP 則表示推薦項(xiàng)目在推薦列表中排序位置情況。

        4.3 參數(shù)訓(xùn)練

        4.3.1 游客和線路向量維度的影響

        向量維度k的大小,直接影響著旅游線路推薦算法的性能。k值太大,會(huì)增加計(jì)算量,太小不能表示游客和線路特征。圖1 給出了隨著向量維度的變化,推薦算法NDCG 的變化趨勢(shì)。從圖1 可知,隨著向量維度的增大,推薦性能快速提升之后變緩,性能變換的折點(diǎn)在200 附近,因此向量維度取能使算法性能達(dá)到最高的200。

        圖1 向量維度對(duì)算法NDCG 的影響Fig.1 Effect of vector dimension on NDCG

        4.3.2 閾值T的敏感性分析

        線路向量距離閾值T決定著游客的向量表示,影響了游客間相似性計(jì)算。如果閾值T太小,不能將相似線路融入相似性計(jì)算;閾值太大,則會(huì)將不相近的線路選擇進(jìn)來(lái)。圖2 給出了推薦算法NDCG 的性能隨閾值T的變化趨勢(shì)。從圖2 可知,隨著閾值T的增大,算法性能先增大,后減小,性能變換的折點(diǎn)在T為1.1 附近,因此閾值T取1.1。

        圖2 閾值對(duì)算法NDCG 的影響Fig.2 Effect of threshold on NDCG

        4.3.3 相似游客數(shù)n的影響

        在協(xié)同過(guò)濾推薦中,相似游客數(shù)是影響算法性能的關(guān)鍵參數(shù)。相似游客數(shù)太大,可選線路會(huì)太多,計(jì)算量變大;相似游客數(shù)太小可選線路又可能太少,不能得到好的推薦性能。圖3 給出隨著相似游客數(shù)n的變化,算法的性能變化。從圖3 可知,隨著相似游客數(shù)的增加,性能先增大,后減小,性能變換的折點(diǎn)在60 附近,因此相似游客數(shù)取能使算法性能達(dá)到最高的60。

        圖3 相似游客數(shù)對(duì)算法NDCG 的影響Fig.3 Effect of the number of neighbors on NDCG

        4.4 實(shí)驗(yàn)結(jié)果與對(duì)比分析

        將提出的基于嵌入表示的協(xié)同過(guò)濾線路推薦算法(ECF,embedding collaborative filtering)與基本協(xié)同過(guò)濾推薦算法(BCF,basic collaborative filtering)進(jìn)行對(duì)比。ECF 與BCF 的性能對(duì)比如表1所示。

        表1 ECF 與BCF 性能對(duì)比Tab.1 Comparison of ECF and BCF

        從表1 可知,隨著推薦列表長(zhǎng)度的增加,3 種性能指標(biāo)都有所提升。將k從5 分別增加到10、20 和30,在ECF 情況下,NDCG 分別提升5.60%、12.90%和17.00%,MAP 分別提升3.40%、7.10%和9.97%;在BCF 的情況下NDCG 分別提升2.70%、3.30%和5.97%,MAP 分別提升3.10%、6.80%和9.89%??梢?jiàn)NDCG 和MAP 兩者提升都較小,說(shuō)明游客感興趣的線路并沒(méi)有在推薦列表的最前面。但ECF 性能提升結(jié)果要好于BCF,說(shuō)明利用詞向量模型得到游客和線路的向量表示對(duì)于這種稀疏的、隱式反饋的數(shù)據(jù)集能夠提升推薦結(jié)果。

        5 結(jié)語(yǔ)

        基于嵌入表示的改進(jìn)協(xié)同過(guò)濾的線路推薦算法首先利用詞向量模型(Doc2vector)將每條線路用一個(gè)低維向量表示,這樣解決了對(duì)于這種隱式反饋數(shù)據(jù)特征表示的問(wèn)題。其次利用游客參加過(guò)的線路得到游客的興趣向量表示,解決了某些游客參與線路過(guò)少導(dǎo)致游客偏好建模困難的問(wèn)題。通過(guò)計(jì)算線路間的相似性得到抽取的共現(xiàn)線路集合,解決旅游數(shù)據(jù)高度稀疏,共現(xiàn)線路少的問(wèn)題。最后利用相似游客參與的線路得到候選線路及參與概率,完成線路推薦列表。通過(guò)在實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)表明,該算法提升了線路的推薦性能,緩解了旅游數(shù)據(jù)稀疏的問(wèn)題。

        猜你喜歡
        相似性閾值向量
        一類(lèi)上三角算子矩陣的相似性與酉相似性
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        淺析當(dāng)代中西方繪畫(huà)的相似性
        小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        室內(nèi)表面平均氡析出率閾值探討
        低滲透黏土中氯離子彌散作用離心模擬相似性
        向量垂直在解析幾何中的應(yīng)用
        丰满老熟妇好大bbbbb| 亚洲视频在线观看一区二区三区| 亚洲国产精品久久艾草| 亚洲色丰满少妇高潮18p| 热99re久久精品这里都是精品免费 | 玩弄丰满奶水的女邻居| 久久久久无码国产精品不卡| 中国免费一级毛片| 一级老熟女免费黄色片| 免费人成在线观看网站| 久久亚洲精品ab无码播放| av无码电影一区二区三区| 亚洲一区二区三区日韩在线观看| 午夜免费啪视频| 亚洲国产精品一区二区久| 女优av福利在线观看| 手机免费在线观看av网址| 看av免费毛片手机播放| 自拍 另类 综合 欧美小说| 亚洲中文高清乱码av中文| 美女网站免费观看视频| 国产一区二区三区在线观看免费 | 亚洲图文一区二区三区四区| 人人人妻人人人妻人人人| 射死你天天日| 亚洲国产成人无码电影| 熟妇人妻精品一区二区视频免费的| 亚洲性无码一区二区三区| 国产精品福利影院| 加勒比久草免费在线观看| 亚洲国产精品无码久久一线| 丰满少妇在线观看网站| 99久久精品国产亚洲av天| 澳门蜜桃av成人av| 国产人妻人伦精品1国产盗摄| 国产一区二区三区爆白浆| 少妇被粗大的猛进69视频| 久久精品中文字幕大胸| 精品免费福利视频| av免费在线播放一区二区| 国内精品久久久久影院薰衣草|