亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合社交主題和興趣主題的個性化推薦研究

        2022-05-31 03:00:28
        寧夏師范學院學報 2022年4期
        關(guān)鍵詞:用戶

        丁 麗

        (亳州職業(yè)技術(shù)學院 信息工程系,安徽 亳州 236800)

        隨著經(jīng)濟社會發(fā)展,數(shù)據(jù)在規(guī)模、產(chǎn)生速度、類型和價值的維度上大幅度提高,大數(shù)據(jù)能夠及時準確挖掘消費用戶的潛在需求并及時個性化推薦給用戶.然而,移動互聯(lián)網(wǎng)環(huán)境下,移動設備的微型化導致用戶在單位屏次下瀏覽信息量減小,導致信息超載,用戶興趣度降低[1].在互聯(lián)網(wǎng)的云端大數(shù)據(jù)呈幾何指數(shù)的增長的情況下,解決一端數(shù)據(jù)量大,而另一端用戶單位頻次瀏覽信息量小的問題關(guān)鍵在于個性化服務推薦技術(shù).

        目前個性化推薦采用傳統(tǒng)的協(xié)同過濾推薦技術(shù),前提條件是用戶能夠很方便地對項目進行評分,實現(xiàn)目標用戶聚類,然后把鄰居用戶感興趣的項目推薦給目標用戶.這種推薦往往不準確,不能滿足用戶的真正需求,不能很好解決推薦度不精確的問題[2].另外,用戶評分的項目往往不超過總項目數(shù)的 1%[3],導致項目評分數(shù)據(jù)的極端稀疏性和冷啟動問題.綜合文獻,傳統(tǒng)計算用戶相似性的方法不能反映用戶潛在需求[4].基于互聯(lián)網(wǎng)平臺上消費環(huán)境和社交環(huán)境的兩端分析,本文提出了社交關(guān)系和興趣主題相結(jié)合算法,通過實驗數(shù)據(jù)對比本文提出的推薦算法效果理想.

        1 基于用戶關(guān)注關(guān)系的推薦算法

        1.1 基于用戶關(guān)注推薦形式化描述

        U為應用系統(tǒng)用戶的集合,ε為用戶關(guān)注對的集合,u和v兩個用戶u∈U,v∈U.其中元素e(u,v)∈ε表示關(guān)注與被關(guān)注的關(guān)系.其中u為關(guān)注用戶,v為被關(guān)注用戶.關(guān)注用戶集合φ,被關(guān)注用戶集合φ,它們的形式化描述為

        φ={u|u∈U∧?(v∈U∧e(u,v)∈ε)},

        (1)

        φ={v|v∈U∧?(u∈U∧e(u,v)∈ε)}.

        (2)

        在用戶關(guān)注關(guān)系對e中,挖掘關(guān)注用戶興趣主題和社交動機,建立用戶偏好模型,提升推薦質(zhì)量.用戶u偏好模型為學習到計算方法η,通過η生成用戶候選列表.

        η:(u,ε)→Ranklist(L){p1(v)≥p2(w)…pn-1(v′)≥pn(w′)},

        (3)

        其中,p1(v)≥p2(w)表示用戶u關(guān)注用戶v意愿強于用戶w,n表示在用戶候選集的位置.

        1.2 用戶關(guān)注關(guān)系框架模型(UATMF)

        用戶關(guān)注關(guān)系框架模型(UATMF)是首先通過用戶關(guān)注關(guān)系集合,挖掘用戶的興趣主題和社交動機,其次計算目標用戶候選集列表[5].

        結(jié)合公式(1)和(2),文本語料庫D和文本Ndu的關(guān)系表達

        du={v|v∈φ∧e(u,v)∈ε},

        (4)

        (5)

        在圖1中,|D|、du、Kit和Ksc為采樣次數(shù),設定主題數(shù)為K,包括Kit個用戶興趣主題和Ksc個社交關(guān)系主題,K=Kit∪Ksc,o為主題類型參數(shù)(o取值為1或者0),0為用戶社交關(guān)系主題,1為用戶興趣主題.超參數(shù)ε通過Beta采樣得到η,η為o的Bernoulli分布.θit和φit分別是αit和βin的Dirichlet先驗分布中采樣得到的Multinomial分布.同理θsc和φsc分別是αsc和βsc的Dirichlet先驗分布中采樣得到的Multinomial分布.

        圖1 UAMF參數(shù)邏輯關(guān)系

        1.3 UATMF模型算法

        輸入文檔D,主題數(shù)為K,αsc、βsc、αit、βit四個參數(shù),用戶u關(guān)注的用戶集合φu,原始用戶關(guān)注關(guān)系矩陣A.輸出是θsc、φsc、θit、φit.模型算法步驟如下.

        Step1 在主題集合Ζ中,循環(huán)每個主題z,z∈Ζ;

        Step2 判斷主題z是否社交主題,true轉(zhuǎn)入Step3,否則Step4;

        Step3 采樣生成θsc~Dirichlet(βsc);

        Step4 采樣生成θit~Dirichlet(βit);

        Step5 判斷結(jié)束,循環(huán)結(jié)束;

        Step6 在文檔集合D中,循環(huán)每個主題Df,Df∈D;

        Step7 采樣生成主題分布λ~Beta(ε)、社交主題分布θsc~Dirichlet(αsc)、興趣主題分布θit~Dirichlet(αit);

        Step8 循環(huán)文檔Du中每個關(guān)注的用戶u(u∈UDf);

        Step9 采樣生成社交主題類型Drawaswitcho~Benouli(η);

        Step10o為0,則跳轉(zhuǎn)Step11,o為1則跳轉(zhuǎn)Step12;

        Step11 采樣生成社交主題a~Multinomial(θsc)(a∈zsc),采樣生成詞語a~Multinomial(φsc,zsc);

        Step12 采樣生成興趣主題b~Multinomial(θit)(b∈zit),采樣生成詞語b~Multinomial(φit,zit);

        Step13 end(step10)、end (step8)、end(step6).

        UATMF模型算法流程圖,如圖2所示.

        圖2 UATMF算法流程圖

        1.4 采樣

        令所有用戶相互關(guān)注的用戶對集合ω,ω中的每個元素w(u,v)表示為用戶u與用戶v相互關(guān)注 即得到公式(6)和公式(7).

        ?e(u,v)∈ε∧e(v,u)∈ε,

        (6)

        ωu={u|u∈φ∧e(u,v)∈ω},

        (7)

        其中,ωu表示用戶u相互關(guān)注的用戶集合.

        構(gòu)建一個用戶關(guān)注關(guān)系矩陣A,A是|φ|×|φ|維實數(shù)矩陣,A中每一個元素ΔW(u,v)表示用戶u在某一主題下,用戶v在該主題下社交權(quán)重改變的程度用公式(8)表示.

        (8)

        從公式(8)中可以看出,矩陣A對角線上的元素即用戶u自身關(guān)注的社交權(quán)重增1;當u與v相互關(guān)注的不同用戶社交權(quán)重增γ,其他情況用戶社交權(quán)重不改變.

        (9)

        (10)

        其中,χzit,u表示在興趣主題zit下,用戶u的被關(guān)注的次數(shù),χzsc,u表示在興趣主題zsc下,用戶u的被關(guān)注的次數(shù).Kit和 Ksc分別是興趣主題數(shù)和社交主題數(shù).

        1.5 興趣主題社區(qū)和社交主題社區(qū)

        用戶數(shù)據(jù)稀疏導致推薦的準確率不高,因此數(shù)據(jù)稀疏問題是推薦領(lǐng)域的熱點和難點問題,通過文獻[5]和文獻[6]發(fā)現(xiàn),可利用社群的方法解決此類問題.社區(qū)中數(shù)據(jù)密度大,很難產(chǎn)生稀疏現(xiàn)象.設計一種數(shù)據(jù)規(guī)模小并且復雜度較低的算法.基本思路是先在源數(shù)據(jù)集中劃分規(guī)模較小的數(shù)據(jù)子集,數(shù)據(jù)子集稱為社區(qū);然后在數(shù)據(jù)子集基礎上進行矩陣分解,得到用戶偏好值,產(chǎn)生TOP N用戶.本文結(jié)合數(shù)據(jù)社區(qū)思想,首先在用戶的興趣主題和社交主題基礎上分別產(chǎn)生興趣主題社區(qū)和社交主題社區(qū);其次進行矩陣分析,得到用戶偏好值;最后進行排序產(chǎn)生N個目標用戶.

        從心理科學分析,用戶關(guān)注關(guān)系是由用戶的興趣驅(qū)動和社交驅(qū)動而形成的.相對社區(qū)而言,用戶的社區(qū)歸屬度反映用戶興趣主題或社交主題與社區(qū)內(nèi)容的契合性,用戶的歸屬度分為關(guān)注用戶歸屬度和被關(guān)注用戶歸屬度兩種.

        (i)興趣主題社區(qū)

        Oi t為興趣主題類型,Zit為興趣主題,每個Zit形成一個社區(qū)Cit,包括興趣主題Zit下的關(guān)注用戶集Cit·φ和被關(guān)注用戶集Cit·φ,兩者形式定義公式(11)和公式(12).

        Cit·φ={u|u∈φ∧?Pχ(zit/du)≥ζ},

        (11)

        Cit·φ={v|v∈φ∧?Pχ(zit/dv)≥τ} ,

        (12)

        其中,ζ和τ為設定的閾值,Pχ(zit/du)為關(guān)注用戶在興趣主題Zit下社區(qū)Cit的歸屬度.代表用戶u被分配到主題Zit下的概率,定義如公式(13).

        (13)

        一個用戶的關(guān)注用戶多數(shù)在興趣主題Zit下發(fā)現(xiàn),則用戶本身在興趣主題Zit下發(fā)現(xiàn)的概率越大,因此Pχ(zit/dv)的定義公式(14)如下.

        (14)

        在社區(qū)Cit中關(guān)注關(guān)系的集合ΩCit,定義如下.

        ΩCit={e(u,v)|e(u,v)∈ε∧u∈cit·φ∧cit·φ}.

        (15)

        (ii)社交主題社區(qū)

        每個社交主題Zsc產(chǎn)生一個社區(qū)Csc,包括社交主題Zsc下的關(guān)注用戶集Csc·φ和被關(guān)注用戶集Csc·φ,兩者形式定義公式(16)和公式(17).

        Csc·φ={u|u∈φ∧?Pχ(zsc/du)≥ζ},

        (16)

        Csc·φ={v|v∈φ∧?Pχ(zsc/dv)≥τ} ,

        (17)

        公式(16)中,Pχ(zsc/du)為關(guān)注用戶在社交主題Zsc下社區(qū)Csc的歸屬度.用戶u被分配到主題zsc下的概率,定義如下公式(18).

        Pχ(zsc/du)≈φscdu.

        (18)

        同理,Pχ(zsc/dv)的定義公式(19).

        (19)

        在社區(qū)Csc中關(guān)注關(guān)系的集合ΩCsc,定義公式(20).

        ΩCsc={e(u,v)|e(u,v)∈ε∧u∈csc·φ∧csc·φ}.

        (20)

        在社區(qū)C中包括Kit各興趣主題社區(qū)Cit和Ksc各社交主題社區(qū)Csc.

        1.6 矩陣分解

        在傳統(tǒng)的協(xié)同過濾算法CF中研究的是用戶和項目的關(guān)系,在本文UATMF中,研究的是關(guān)注用戶和被關(guān)注用戶的關(guān)系,借此原理把被關(guān)注用戶u∈c·φ視為項目,關(guān)注用戶v∈c·φ視為用戶,即c∈(Cit∪Csc)也就是C為用戶關(guān)注項目的關(guān)系矩陣,并對C進行矩陣分解,得到c·φ|×|c·φ|維度的矩陣CM,CM中每個元素ρu,v,ρu,v定義如下.

        (21)

        C中每個CM進行矩陣分解得到兩個低緯度隱式矩陣XCM=h×X|c·φ|和YCM=Yh×|c·φ|,從而把關(guān)注用戶與被關(guān)注用戶映射到h維矩陣中.在社區(qū)中計算關(guān)注用戶對于被關(guān)注用戶的偏好值fcm(u,v),公式可得

        fcm(u,v)=xuyv,

        (22)

        其中,xu和yv分別為XCM和YCM隱式特征向量.對所有社區(qū)計算fcm(u,v),并去最大值fc(u,v),即得公式(23).

        (23)

        將fc(u,v)作為最終預測值.最后對于目標用戶u,根據(jù)fc(u,v)的值進行排序,取N個候選被關(guān)注用戶.

        1.7 算法復雜度分析

        2 實驗設置與分析

        2.1 實驗數(shù)據(jù)集

        分別選取新浪微博數(shù)據(jù)集和Twitter數(shù)據(jù)集,兩個數(shù)據(jù)集同時包含關(guān)注和被關(guān)注關(guān)系,隨機選取用戶數(shù)據(jù),關(guān)注數(shù)和被關(guān)注數(shù)少于8人的用戶進行數(shù)據(jù)清洗.在新浪微博數(shù)據(jù)集上每個用戶平均關(guān)注數(shù)是252.3、被關(guān)注數(shù)為278.7,其中相互關(guān)注關(guān)系的用戶數(shù)為103.28,占比高于37%.Twitter數(shù)據(jù)集上每個用戶平均關(guān)注數(shù)為98.37,被關(guān)注數(shù)為112.53,其中相互關(guān)注關(guān)系的用戶數(shù)為56.81,占比高于50%.兩數(shù)據(jù)集的稀疏分別為99.81%和99.94%.如表1所示.

        表1 實驗數(shù)據(jù)統(tǒng)計信息表

        2.2 評估指標

        通過推薦領(lǐng)域常用的五個指標來衡量實驗結(jié)果,分析本文提出推薦算法的有效性.設定推薦候選集用戶規(guī)模為N,將N個用戶排序好的用戶集合納入評估指標地計算過程中,三個評估指標如下.

        (i)召回率(recall)

        計算命中用戶數(shù)占理論上最大命中用戶數(shù)的比例[7].記T′為關(guān)注的用戶列表,T為候選集用戶列表,則RecallN定義如下.

        (24)

        (ii)準確率(Precision)

        計算命中用戶數(shù)占總的推薦用戶數(shù)中的比例[7].則PrecisionN定義如下.

        (25)

        (iii)F1_score

        全面衡量召回率Recall和準確率Precision的指標,反映算法整體性能的指標.與Recall和Precision的調(diào)和平均值正相關(guān)性,F1_scoreN定義如下.

        (26)

        2.3 對比方法

        本實驗選用三種基本社區(qū)推薦方法來進行對比,以評估UATMF推薦算法的性能.

        (i)LDA-Based[8],一種通過關(guān)注與被關(guān)注建立關(guān)系的LDA建模算法,其核心推薦模型是公式(27).

        (27)

        (ii)CB-MF[9],與本文算法相似,運用LDA技術(shù)分析關(guān)注用戶群中主題的概論分布,以及某一主題下的關(guān)注用戶分布,通過主題概率分布用戶群體矩陣并進行矩陣分解.

        (iii)PopRec,最基本的非個性化推薦方法,對于每個目標用戶,推薦同樣概率分布高的主題列表.

        2.4 實驗與分析

        表2 敏感參數(shù)列表

        圖3 兩大數(shù)據(jù)集的F1score指標統(tǒng)計

        (ii)推薦結(jié)果分析

        在Twitter數(shù)據(jù)集和新浪微博數(shù)據(jù)集上,n分別取值5、10、15、20、25、30,四個算法進行比較.如圖4和圖5所示,在Twitter數(shù)據(jù)集上UATMF算法Precision指標下降8.4%,Recall指標提升65.9%;在新浪數(shù)據(jù)集上UATMF算法Precision指標下降46.6%,Recall指標提升68.6%.

        圖4 Twitter數(shù)據(jù)集上各算法推薦指標比較

        圖5 新浪微博數(shù)據(jù)集上各算法推薦指標比較

        3 結(jié)語

        根據(jù)新浪微博數(shù)據(jù)集和Twitter數(shù)據(jù)集的實驗和結(jié)果分析,新浪微博數(shù)據(jù)集上UATMF算法相對CB-MF(其他三種最優(yōu)算法)算法在F1score指標上平均提升35.72%,Twitter博數(shù)據(jù)集上UATMF算法相對CB-MF算法在F1score指標上平均提升55.32%.可見融合社交主題和興趣主題更好反映用戶偏好,基于關(guān)注與被關(guān)注關(guān)系的UATMF算法推薦度得到提升.

        猜你喜歡
        用戶
        雅閣國內(nèi)用戶交付突破300萬輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛,請稍后再哭
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應用
        Camera360:拍出5億用戶
        100萬用戶
        日本一区二区在线播放| 久久伊人中文字幕有码久久国产| 女同舌吻互慰一区二区| 亚洲av丰满熟妇在线播放| 国产亚洲精品bt天堂精选| 国产女人18一级毛片视频| 精品国产一区二区三区男人吃奶| 亚洲av高清天堂网站在线观看| 国产产区一二三产区区别在线| 精品乱码久久久久久中文字幕| 四虎国产精品成人影院| 国产乱淫h侵犯在线观看| 免费不卡在线观看av| 韩日美无码精品无码| 亚洲中文字幕无码不卡电影| av一区二区在线网站| 亚洲日韩久久综合中文字幕| 精品国产高清a毛片无毒不卡 | 老色鬼永久精品网站| 中文字幕国产精品中文字幕| 国产一区二区三区小向美奈子| (无码视频)在线观看| 欧美变态口味重另类在线视频| 亚洲AV无码一区二区三区精神| 一区二区中文字幕在线观看污污 | 日本高清在线播放一区二区| 无码国产精品一区二区av| 亚洲人成网7777777国产| 国产爆乳美女娇喘呻吟久久| 亚洲国产女性内射第一区二区| 精品丰满人妻无套内射| 婷婷九月丁香| 亚洲一区二区三区av天堂| 国产猛男猛女超爽免费视频| 国产极品久久久久极品| 97久久成人国产精品免费| 国产精品对白一区二区三区| 国产激情久久久久影院老熟女免费 | 妇女自拍偷自拍亚洲精品| 亚洲中文字幕精品乱码2021| 50岁熟妇的呻吟声对白|