亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合多因素社交活動個性化推薦模型

        2020-01-14 06:32:42
        計算機應用與軟件 2020年1期
        關鍵詞:社交活動社交文獻

        陳 藝

        (四川文理學院信息查詢與利用教研室 四川 達州 635000)

        Probabilistic matrix decomposition

        0 引 言

        隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,社交媒體和電子商務等迅速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)呈指數(shù)級增長。人們不僅是數(shù)據(jù)的制造者也是數(shù)據(jù)的消費者,如何從龐大的數(shù)據(jù)中篩選用戶感興趣的信息成為學者們亟需解決的問題。對于用戶而言,感興趣信息的獲取可通過搜索獲得,也可借助推薦算法推薦得到。與搜索引擎相比,推薦算法不需要用戶主動提供所需信息,而是根據(jù)少量信息構建用戶興趣模型,進而利用數(shù)據(jù)挖掘獲得數(shù)據(jù)背后的信息。2006年DVD在線租賃商Netflix通過懸賞獎金的形式鼓勵學者們完善個性化推薦算法,期間大量針對傳統(tǒng)協(xié)同過濾推薦的改進算法被提出來。而協(xié)同過濾推薦過度依賴于“用戶-項目”評分數(shù)據(jù),將其引入到社交興趣推薦中后難以獲得滿意的推薦效果。

        針對社交大數(shù)據(jù)的特殊性,研究學者們提出了不同的解決方案。文獻[1]基于位置的社交網(wǎng)絡中用戶歷史興趣點,利用變階馬爾科夫算法來預測用戶未來到達的興趣點,算法提高了興趣點的推薦效果;文獻[2]將用戶物品圖引入信任機制建立用戶信任圖,在信任社交網(wǎng)絡中提出了一種基于圖熵的個性化推薦算法,不僅有效緩解了推薦的冷啟動問題還保持較高的推薦準確率;文獻[3]挖掘項目間的全局項目相似信息,并將社交網(wǎng)絡用戶間的可靠度融入個性化推薦模型中,提出了一種改進的社交網(wǎng)絡個性化推薦算法,降低了冷啟動問題;文獻[4]引入時間函數(shù)推斷用戶的興趣向量,并利用聚類算法對用戶發(fā)布的微博內(nèi)容進行聚類分組,以用戶興趣向量篩選最佳匹配,并進行排序,取得了較好的推薦結果;文獻[5]對社會網(wǎng)絡推薦研究進行了系統(tǒng)述評,提出了一種融合項目特征和移動用戶信任關系;文獻[6]將用戶間的信任關系引入個性推薦模型中,以解決數(shù)據(jù)稀疏問題;文獻[7]通過優(yōu)化基于內(nèi)容的CF推薦模型,有效解決了個性推薦中的冷啟動問題;文獻[8]提出了一種結合社交關系和位置信息的地點推薦算法,緩解了數(shù)據(jù)稀疏和冷啟動問題;文獻[9]提出了基于多元社交信任的協(xié)同過濾推薦算法,利用用戶間的綜合信任關系選取推薦鄰居,算法有較高的推薦精度和較強的抗攻擊能力;文獻[10]提出了一種具有社交影響力的推薦算法,通過用戶的影響力不斷調(diào)解推薦的權重;文獻[11]提出了基于項目評分與用戶信任關系的CF推薦算法,通過評分用戶間的信任關系來挖掘用戶的社會關系與興趣偏好;文獻[12-14]利用位置信息來對用戶進行分類,借助其他屬性對類內(nèi)用戶進行信任預測或計算,從而完成個性化推薦。以上文獻研究中,文獻[2-3,6-7,9,11]都是在協(xié)同過濾的基礎上融合其他屬性來提高分類的精度;文獻[1,4-5,8,10]主要是在融合用戶興趣度、活動地理位置等影響因素的基礎上獲得較高的推薦效率。

        針對社交平臺日益龐大的數(shù)據(jù)以及用戶個性的多樣化,學者們提出或改進的社交網(wǎng)絡個性化推薦算法,一定程度上提高了因數(shù)據(jù)稀疏性導致的推薦精度問題,但單一社交活動屬性的個性化推薦算法難以有效獲得高精度推薦結果。為此本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點偏好等三方面因素形成一種新的個性化推薦模型。

        1 模型描述

        (1)

        1.1 構建用戶對活動興趣度的概率模型

        用戶對社交活動內(nèi)容的興趣度是影響用戶是否參加活動的重要因素。本文利用LDA(Latent Dirichlet Allocation)文件主題模型求取用戶ui與其參加過的所有社交活動的主題分布,并用用戶ui的主題分布表征其興趣度。在LDA中,設ψs表示隱含主題s在單詞集合上的多項式分布,docui表示用戶ui∈U所有參加過的社交活動內(nèi)容形成的文件,對于docui可經(jīng)過LDA文件主題模型求取其中所有隱含主題的多項式分布,而用戶對社交活動的興趣度可以表示成文件docui的主題概率分布。若對某社交活動內(nèi)容的文件docui中含有Nk個隱含主題,則LDA對隱含主題的多項式分布求取過程:

        Step1利用LDA分布函數(shù)Dirichlet(δ)對文件docui中的每個隱含主題s∈{1,2,…,Nk}生成隱含主題與單詞的概率分布ρs;

        Step2利用LDA分布函數(shù)Dirichlet(γ)對文件docui中的每個文件生成文件與單詞的概率分布τdocui;

        Step3利用LDA多項式分布函數(shù)Mult(τdocui)對文件docui中的第m單詞生成主題分配sdocui,m;

        Step4利用LDA多項式分布函數(shù)Mult(ρsdocui,m)對文件docui中的第m單詞生成wdocui,m。

        用戶文件docui的似然函數(shù)為:

        f(sdocui,m|ηdocui)·f(ηdocui|γ)·f(Γ|δ)

        (2)

        式中:δ、γ為LDA分布函數(shù)的參數(shù),wdocui、Mdocui、ηdocui、Γ分別表示文件docui中所有單詞、單詞的數(shù)量、單詞的主題分配、單詞對應的主題-單詞概率分布。

        設在LDA文件主題模型中文檔間是相互獨立的,則M個文件的完全似然函數(shù)如下:

        (3)

        式中:W、S、Φ分別表示文件中所有單詞、主題的分布以及所有文件-主題詞概率分布。我們幾乎不可能從似然函數(shù)中推斷出參數(shù)Φ和Γ,并且難以直接從某一多變量概率分布中近似抽取樣本序列,因此,本文采用吉布斯采樣將隱含主題詞s從聯(lián)合的概率分布中采樣出來:

        f(si=k|s-i,wi=z,w-i)∝

        (4)

        (5)

        (6)

        (7)

        設用戶ui的文件為docui,社交活動aj的文件為docaj,兩者所對應的主題分布為τdocui和τdocaj,為了求取用戶與社交社交活動的主題的相似度,本文引入庫爾貝克-萊布勒散度(Kullback-Leibler,KL)[15]和延森-香農(nóng)散度(Jensen-Shannon)[16]來計算兩者之間的相似度。延森-香農(nóng)散度定義為:

        (8)

        式中:KL(·)表示庫爾貝克-萊布勒散度。其定義為:

        (9)

        JS(ui‖aj)會隨著τdocui和τdocaj兩者主題分布的差別而增大,這里定義用戶ui對社交活動aj的興趣度Ii,j為:

        Ii,j=1-JS(ui‖aj)

        (10)

        (11)

        1.2 構建用戶對召集者影響力概率模型

        在基于活動的社交網(wǎng)絡中,用戶是否參加某項活動也跟活動召集者的影響力有關,或者說一大部分用戶是慕名參加社交活動。本文認為用戶參與某項社交活動受兩方面的影響:一是用戶對活動召集者的偏愛或慕名;二是用戶對社交活動本身的興趣或偏愛。這兩方面的影響很難直接獲得,本文將用戶參加某個召集者或某類社交活動的次數(shù)來量化影響力。設用戶ui參加某活動召集者ci組織的社交活動次數(shù)為cui,j,cui,j值越大說明召集者ci組織的活動對用戶ui的影響力越大。這里我們將構建一個用戶與召集者間的影響力矩陣C,通過基于影響力的概率矩陣分解來對矩陣進行精確的分析,力求得到用戶基于召集者影響力參與社交活動的概率。

        (12)

        式中:λ(0≤λ≤1)為權重因子,EA表示所有結束的社交活動集合。將召集者ci所有曾經(jīng)組織的社交活動平均影響力來表示召集者ci的影響力:

        (13)

        式中:ENci表示召集者ci曾經(jīng)組織的社交活動集合。

        影響力矩陣C條件分布如下:

        Efcj),σ2)]Vi,j

        (14)

        式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,當用戶ui參加召集者ci組織的任何一場活動時Vi,j=1,否則為0。D、Q、Numu、Numc分別表示所有用戶和所有召集者的隱式特征矩陣以及用戶數(shù)量和召集者數(shù)量。針對用戶和召集者的隱式特征矩陣,這里利用均值μ=0的高斯先驗分布去求解:

        (15)

        (16)

        對上進行取對數(shù),后驗分布可得:

        (17)

        式中:B表示隱式特征矩陣維度,Z為常量。將上式最大化可得一個等價目標函數(shù),該函數(shù)由二次正則化項平方誤差和范數(shù)平方組成:

        (18)

        (19)

        經(jīng)過模型的學習可以得到所有用戶和所有召集者的隱式特征矩陣D、Q,那么對于用戶與召集者間的影響力矩陣C中的缺失值可由下式進行估值:

        (20)

        (21)

        1.3 構建用戶因地理位置偏好的概率模型

        基于活動的社交網(wǎng)絡具有線上交流線下活動的特點,所以活動舉辦地也是影響用戶是否參加活動的重要因素之一。針對地理位置偏好對用戶參加社交活動的影響度,學者們進行了大量的研究,得出的結論也大體一致:用戶參加的大多數(shù)活動與之常住位置距離不遠,并且該距離分布函數(shù)近似冪律分布[17-18]。本文基于活動舉辦地與用戶常住距離,以用戶參加活動的頻數(shù)來對用戶地理位置偏好建模。在學者研究成果的基礎上,將活動舉辦地與用戶常住距離的概率定義為:

        p(Dis)=ν·Disζ

        (22)

        式中:Dis表示活動舉辦地與用戶常住地之間的距離,ν、ζ為冪律分布函數(shù)的參數(shù)。對式(22)取對數(shù)來估算參數(shù)ν、ζ的值:

        logp(Dis)=logν+ζlog(Dis)

        (23)

        (24)

        式中:Dis(gi,gaj)表示地理位置gi、gaj間的距離,那么用戶ui基于地理位置參加社交活動aj的概率為:

        (25)

        2 實驗數(shù)據(jù)與參數(shù)設置

        2.1 實驗數(shù)據(jù)及評價標準

        為了獲得較大的數(shù)據(jù)量,本文選取一線城市北京和上海作為社交活動舉辦地,社交數(shù)據(jù)采集豆瓣同城在2017年1月1日-2018年12月31日期間舉辦的所有社交活動,主要采集的信息為:用戶信息(用戶名、用戶ID、用戶的興趣、用戶參加過的所有社交活動、用戶所在的位置等),社交活動信息(社交活動類別、社交活動的內(nèi)容,社交活動召集者、社交活動舉辦地、社交活動ID等)。數(shù)據(jù)統(tǒng)計如表1所示。

        表1 數(shù)據(jù)統(tǒng)計明細

        仿真實驗將Top-N推薦算法推薦結果,采用Precision@N和Recall@N兩個評價指標評估各算法推薦的性能:

        (26)

        (27)

        式中:U表示用戶集合,Reui,N、Tui分別表示利用各算法按照Top-N推薦給用戶ui的社交活動以及用戶ui在測試集中所參與的活動集合,|*|為計算集合大小,這里設置N=1,3,5,7,10,本文默認N=5。

        2.2 參數(shù)設置

        在LDA文件主題模型、召集者影響力概率矩陣分解模型中需要對參數(shù)進行優(yōu)化設置。各模塊參數(shù)設置如下:

        (1) LDA文件主題模型參數(shù)設置。實驗采用自然語言處理框架Gensim實現(xiàn)LDA文件主題模型,在模型中設LDA分布函數(shù)參數(shù)γ=50/Nk,δ=0.01,為了獲得隱含主題s的最佳個數(shù)Nk,利用豆瓣同城北京和上海數(shù)據(jù)集測試LDA在不同的Nk下Precision@5和Recall@5,結果如圖1所示。

        圖1 不同隱含主題個數(shù)下Top-5結果

        可以看出:在豆瓣同城北京數(shù)據(jù)集上,Precision@5和Recall@5隨著隱含主題個數(shù)的增大而增大,在Nk≤70階段,推薦準確度增加幅度較大,在70

        圖2 不同隱式特征矩陣維度下Top-5結果

        可以看出,在基于影響力的概率矩陣分解模型中,隨著隱式特征矩陣維度B值的增大,Top-5推薦評價指標Precision@5和Recall@5波動變化。在豆瓣同城北京數(shù)據(jù)集上,隨著維度B值的增大,推薦評價指標Precision@5和Recall@5值在振蕩減小;在豆瓣同城上海數(shù)據(jù)集上,在10≤B≤80階段,隨著維度B值的增大,推薦評價指標Precision@5和Recall@5值在振蕩增大,在80

        3 仿真實驗與對比分析

        為驗證本文所提算法的性能,將本文算法與文獻[8,19]進行社交活動推薦效果對比分析。文獻[8]利用興趣度計算相似用戶,借助用戶歷史地點簽到記錄獲取位置偏好信息,融合兩者提出了一種推薦算法;文獻[19]利用相似關系、興趣偏好建立一個社交活動參與模型,利用依靠移動社交媒體,如射頻識別(RFID)、藍牙設備等建立社交活動臨近模型,然后將兩者融合以推導用戶的潛在偏好和潛在的社交關系。硬件環(huán)境為Intel(R) Core(TM) i7-7700U@3.6 GHz,RAM:8 GB。軟件環(huán)境為:Windows 7操作系統(tǒng),使用Python編程實現(xiàn)。利用網(wǎng)格搜索在豆瓣同城北京和豆瓣同城上海數(shù)據(jù)集上多次實驗得到參數(shù)α、β的最優(yōu)設置。在豆瓣同城北京數(shù)據(jù)集上β=0.3,α=0.6,在豆瓣同城上海數(shù)據(jù)集上β=0.35,α=0.45,其他參數(shù)按照2.2節(jié)進行設置。為了驗證本文個性推薦算法的優(yōu)越性,從兩個層面進行對比:一是將本文融合多因素推薦算法與單因素推薦算法進行推薦效果對比;二是將本文算法與同類推薦算法進行推薦效果對比。

        3.1 推薦效果對比

        本文算法綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素進行個性化推薦。為了對比綜合后的推薦效果,這里將三種單因素推薦算法與本文算法在兩個數(shù)據(jù)集上進行Top-N(N=1,3,5,7,10)推薦評價指標對比。設基于用戶對活動興趣度的推薦算法為UIA,基于召集者影響力的推薦算法為CI,基于地理位置偏好的推薦算法為GLP,推薦效果如圖3所示。

        圖3 各算法Top-N推薦評價指標對比

        如圖3所示,通過本文算法與其他三種算法在Top-N(N=1,3,5,7,10)下的推薦評價指標對比可以看出,在豆瓣同城北京和上海數(shù)據(jù)集上,三個單因素個性推薦算法的推薦效果是有差異的。在北京數(shù)據(jù)集上UIA算法效果優(yōu)于其他兩個單因素推薦算法;而在上海數(shù)據(jù)集上CI效果優(yōu)于UIA和GLP兩個單因素推薦算法。但總體上看本文算法在綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素后,推薦效果遠遠好于三種單因素推薦算法。在準確率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了36.7%;在召回率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了35.9%。

        3.2 同類推薦效果對比

        將三種算法對已有用戶社交活動的推薦結果進行對比分析,結果如圖4所示。

        圖4 各算法Top-N推薦評價指標對比

        可以看出,本文提出的個性化推薦算法在不同N值下的推薦指標明顯好于其他兩種推薦算法,說明本算法在綜合用戶興趣度、召集者影響力和地理位置信息后能夠取得較好的推薦結果。圖4(a)和圖4(b)為各算法在豆瓣同城北京數(shù)據(jù)集上的推薦結果,在Top-N(N=1,3,5,7,10)的推薦中,本文算法相較于文獻[8]和文獻[19]的準確率至少提升了11.42%和18.18%,召回率至少提升了約14.71%和23.64%;圖4(c)和圖4(d)為各算法在豆瓣同城上海數(shù)據(jù)集上的推薦結果,本文算法相較于文獻[8]和文獻[19]的準確率至少提升了8.77%和19.23%,召回率至少提升了約8.57%和12.52%。

        4 結 語

        本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點偏好等三方面因素,采用不同權值配比綜合形成最終的社交活動個性推薦模型。對比實驗表明,本模型不論與三個單模塊個性推薦模型還是與其他兩個同類網(wǎng)絡社交活動推薦模型相比準確率和 召回率都有一定的提高。推薦精度的提高可能要增加 時間和空間消耗,將本文模型并行化處理以降低時間 復雜度是后續(xù)研究的重點方向。

        猜你喜歡
        社交活動社交文獻
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交新氣象
        睿士(2023年3期)2023-03-22 08:35:38
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        社交距離
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        試探網(wǎng)絡流行語在大學生社交活動中的語用價值
        你回避社交,真不是因為內(nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        Themes of Langston Hughes’“Salvation”
        西江文藝(2017年12期)2017-12-31 00:00:00
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        国产人妻熟女高跟丝袜| 国产精品亚洲片夜色在线| 韩国主播av福利一区二区| 亚洲av性色精品国产| 亚洲一品道一区二区三区| 日本三级吃奶头添泬| 国产人妻久久精品二区三区老狼| 亚洲av无码一区二区三区性色| 中字亚洲国产精品一区二区| 亚洲区一区二区三区四| 人妻少妇中文字幕,久久精品| 99re6在线视频精品免费| 夜鲁很鲁在线视频| 亚洲av无码国产精品麻豆天美 | 国产午夜三级一区二区三| 精品国产一区二区三区久久女人| 最近中文字幕一区二区三区| 中国少妇久久一区二区三区| 中文字幕亚洲综合久久菠萝蜜| 军人粗大的内捧猛烈进出视频| 久久国产影视免费精品| 中文字幕一区二区三区在线看一区| 日本超级老熟女影音播放| 久久精品国产清自在天天线| 97夜夜澡人人爽人人喊中国片| 神马不卡一区二区三级| 精品蜜桃在线观看一区二区三区| 开心五月天第四色婷婷| 国产精品成人aaaaa网站| 亚洲国产亚综合在线区| 亚洲色成人网站www永久四虎| 精品国产午夜福利在线观看| 精品日本韩国一区二区三区| 久久精品熟女亚洲av香蕉| 朋友的丰满人妻中文字幕| 越南女子杂交内射bbwbbw| 久久国产精品超级碰碰热| av在线一区二区精品| 日本不卡一区二区三区在线视频| 国产尤物精品视频| 欧美 日韩 国产 成人 在线观看|