亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社會(huì)化標(biāo)注的用戶興趣發(fā)現(xiàn)及個(gè)性化推薦研究

        2018-07-25 09:10:28王曉耘徐作寧杭州電子科技大學(xué)管理科學(xué)與工程浙江杭州310018
        現(xiàn)代情報(bào) 2018年7期
        關(guān)鍵詞:社會(huì)化標(biāo)簽個(gè)性化

        王曉耘 趙 菁 徐作寧(杭州電子科技大學(xué)管理科學(xué)與工程,浙江 杭州 310018)

        以用戶原創(chuàng)內(nèi)容為標(biāo)志的Web2.0的出現(xiàn)和流行,用戶角色從被動(dòng)的消費(fèi)者轉(zhuǎn)為積極的內(nèi)容生產(chǎn)者。CiteUlike、YouTube、Delicious、Flickr等社會(huì)化標(biāo)注系統(tǒng)不斷涌現(xiàn),吸引了大量用戶興趣。標(biāo)簽作為社會(huì)化標(biāo)注系統(tǒng)的載體,成為Web2.0時(shí)代下一種重要的信息組織形式,越來越多學(xué)者對(duì)標(biāo)簽展開研究。將標(biāo)簽與協(xié)同過濾等個(gè)性化推薦技術(shù)結(jié)合起來,大大提高了推薦效果,同時(shí)在一定程度上克服了推薦系統(tǒng)冷啟動(dòng)問題。

        1 相關(guān)研究

        社會(huì)化標(biāo)注系統(tǒng)是Web2.0環(huán)境下的典型應(yīng)用,用戶采用標(biāo)簽的方式對(duì)自身感興趣的網(wǎng)絡(luò)資源進(jìn)行無約束標(biāo)注,且所有用戶標(biāo)注互為可見。目前基于標(biāo)簽的用戶興趣研究中,主要基于兩種方式:

        1.1 基于單個(gè)標(biāo)簽與標(biāo)簽對(duì)構(gòu)建用戶興趣模型

        Li L等[1]對(duì)標(biāo)簽下的用戶和字眼聚類,采用關(guān)聯(lián)規(guī)則算法尋找頻繁共現(xiàn)的標(biāo)簽,最后建立基于標(biāo)簽主題的用戶群與資源群;Kim H N等[2]將標(biāo)簽作為用戶偏好指標(biāo),挖掘出與用戶相關(guān)及不相關(guān)的主題,依據(jù)其他相似用戶的協(xié)同拓展用戶個(gè)人興趣模型;Ferrara F等[3]以單一用戶標(biāo)簽集提取該用戶興趣主題并產(chǎn)生個(gè)性化推薦,該方法可根據(jù)用戶特定興趣主題自適應(yīng)過濾并合并用戶反饋;夏寧霞等[4]基于自然法和共現(xiàn)法思想,在用戶興趣模型中引入單個(gè)標(biāo)簽和標(biāo)簽對(duì),更全面、準(zhǔn)確反映用戶興趣偏好;Tao Z等[5]借鑒數(shù)據(jù)場理論,通過計(jì)算每個(gè)標(biāo)簽潛在權(quán)值,將權(quán)值最大的標(biāo)簽作為代表標(biāo)簽,將以它為中心、權(quán)值遞減的其他標(biāo)簽劃為一類,進(jìn)行用戶興趣主題提取。

        1.2 基于主題方法構(gòu)建興趣模型

        Wu B X等[6]利用LDA方法提取用戶興趣主題,利用多視點(diǎn)用戶相似性方法計(jì)算興趣主題、資源及標(biāo)簽相似性,建立相似形圖,最后挖掘該圖實(shí)現(xiàn)基于用戶興趣的推薦;易明等[7]構(gòu)建了網(wǎng)站層次和用戶層次的社會(huì)化標(biāo)簽網(wǎng)絡(luò),基于該網(wǎng)絡(luò)進(jìn)行社團(tuán)結(jié)構(gòu)分析,得到社會(huì)化標(biāo)簽文檔和用戶標(biāo)簽網(wǎng)絡(luò),計(jì)算兩者相似度后建立細(xì)粒度用戶興趣模型;Yao D等[8]采用CPM識(shí)別出用戶興趣并劃分興趣主題,構(gòu)建資源網(wǎng)絡(luò)并計(jì)算各節(jié)點(diǎn)權(quán)重,基于此選出每個(gè)主題下的權(quán)威用戶,將權(quán)威用戶經(jīng)常使用的標(biāo)簽推薦給普通用戶,該方法提高了用戶標(biāo)注的質(zhì)量。

        以上綜述可見大量學(xué)者利用標(biāo)簽挖掘用戶興趣時(shí),主要從標(biāo)簽數(shù)量和結(jié)構(gòu)上入手,但在社會(huì)化標(biāo)注系統(tǒng)中,標(biāo)簽的不可控性導(dǎo)致社會(huì)化標(biāo)簽存在語義模糊及數(shù)據(jù)稀疏性等問題,如果直接使用標(biāo)簽構(gòu)建用戶興趣,精確度將大打折扣。此外,標(biāo)簽具有隨時(shí)間變化的動(dòng)態(tài)性,用戶興趣也具有動(dòng)態(tài)性及漂移性,利用主題的方法雖然解決了標(biāo)簽雜亂與冗余問題,但這種靜態(tài)建模沒有刻畫出用戶興趣的動(dòng)態(tài)性。因此,將標(biāo)簽主題特征與興趣漂移性融合,建立更為準(zhǔn)確的用戶興趣模型,對(duì)實(shí)現(xiàn)高效的個(gè)性化推薦具有極大的實(shí)踐意義。

        基于社會(huì)化標(biāo)簽的個(gè)性化推薦研究多基于應(yīng)用層面,以設(shè)計(jì)算法為主。Ma T等[9]在協(xié)同過濾技術(shù)基礎(chǔ)上融合用戶標(biāo)簽和社會(huì)關(guān)系,反映用戶動(dòng)態(tài)變化的個(gè)性化需求;Kim H N等[10]將社會(huì)化標(biāo)簽融入到適用于社區(qū)推薦的技術(shù)中,根據(jù)社區(qū)內(nèi)其他用戶的標(biāo)注向目標(biāo)用戶進(jìn)行推薦;馮勇等[11]分析用戶間信任關(guān)系,對(duì)協(xié)同過濾算法加以改進(jìn),有效提高推薦準(zhǔn)確性;孫甲申等[12]通過在主題模型中引入標(biāo)簽粒度,建立新模型解決主題與文檔不一致及部分標(biāo)簽與文檔內(nèi)容無關(guān)等問題。目前這些方法都在一定程度上提高了推薦準(zhǔn)確率,但各方法都有待深入研究。易明等[13]在分析各類方法優(yōu)缺點(diǎn)后,提出組合推薦的思想,結(jié)合基于社會(huì)化網(wǎng)絡(luò)的內(nèi)容推薦與協(xié)同過濾推薦,構(gòu)建了個(gè)性化知識(shí)推薦框架;劉健等[14]利用詞匯鏈的方法構(gòu)建資源描述向量,并考慮用戶動(dòng)態(tài)變化,利用動(dòng)態(tài)鄰居重組實(shí)現(xiàn)個(gè)性化推薦;魏建良等[15]提出主流標(biāo)簽的概念,通過分析標(biāo)簽平均標(biāo)注率確定主流標(biāo)簽數(shù)量,構(gòu)建用戶協(xié)同模型,同時(shí)結(jié)合用戶興趣度改進(jìn)模型。

        本文在相關(guān)文獻(xiàn)研究基礎(chǔ)上,嘗試在興趣模型構(gòu)建時(shí)融入用戶社會(huì)關(guān)系網(wǎng)絡(luò),并提出興趣模型更新策略;然后結(jié)合協(xié)同過濾產(chǎn)生個(gè)性化推薦。該方法緩解了標(biāo)簽語義模糊等問題,并考慮到用戶興趣漂移性,克服了傳統(tǒng)方法的局限性,能提高推薦準(zhǔn)確率。

        2 基于社會(huì)化標(biāo)注的語義主題發(fā)現(xiàn)

        2.1 社會(huì)化標(biāo)注中用戶社會(huì)關(guān)系研究

        社會(huì)化標(biāo)注系統(tǒng)中的用戶關(guān)系,是指單個(gè)用戶在社會(huì)化標(biāo)注系統(tǒng)的使用過程中,因自身需求形成了各種活動(dòng)(如關(guān)注、標(biāo)注、瀏覽等),隨著用戶數(shù)量增多,具有相似偏好、行為的單個(gè)用戶聚集成群體,通過用戶關(guān)系網(wǎng)絡(luò)分析可進(jìn)行群體用戶的偏好與行為分析。用戶關(guān)系形成過程如圖1所示。

        圖1 和戶關(guān)系形成過程圖

        Liu K等[16]在社會(huì)化標(biāo)注建模中引入了用戶社會(huì)關(guān)系,假設(shè)用戶間的信任關(guān)系是對(duì)等的,且信任級(jí)別呈平均分布,然后將用戶間邊權(quán)重定義為一種信任級(jí)別的函數(shù),采用隨機(jī)游走的相似度函數(shù)計(jì)算出用戶相似度,最后產(chǎn)生個(gè)性化推薦。實(shí)驗(yàn)結(jié)果表明這種基于用戶社會(huì)關(guān)系的個(gè)性化標(biāo)簽推薦算法效率有所提升。劉等人假設(shè)用戶信任關(guān)系是對(duì)稱的,將用戶社會(huì)關(guān)系構(gòu)建為一個(gè)無向圖網(wǎng)絡(luò),邊權(quán)重為用戶信任級(jí)別函數(shù)得出的值。但在現(xiàn)實(shí)中,用戶在互聯(lián)網(wǎng)中添加或關(guān)注好友時(shí),形成的好友關(guān)系可以是單向的,也可以是雙向的,因此本文將用戶社會(huì)關(guān)系構(gòu)建為一個(gè)有向圖,將其應(yīng)用到標(biāo)簽主題模型進(jìn)行聚類[17]。

        2.2 融合社會(huì)關(guān)系的用戶標(biāo)簽LDA模型構(gòu)建

        本文構(gòu)建的用戶加權(quán)LDA標(biāo)簽主題模型通過提取標(biāo)簽主題刻畫用戶興趣,具體思想如圖2所示,建模分為3個(gè)過程:用戶社會(huì)關(guān)系建模、“用戶—標(biāo)簽”關(guān)系矩陣構(gòu)建,LDA建模分析。

        第一階段,用戶社會(huì)關(guān)系建模及鏈接分析,獲取用戶影響度分?jǐn)?shù)。

        基于社會(huì)化標(biāo)注系統(tǒng)中用戶關(guān)系的特點(diǎn),在劉[16]模型基礎(chǔ)上,本文構(gòu)建出一個(gè)有向圖模型,若用戶ui與其他用戶uj之間建立了某種鏈接關(guān)系,則在用戶ui與uj間添加一條指向uj的有向邊,若兩個(gè)用戶間存在互相鏈接關(guān)系,則用?將兩個(gè)用戶連接起來。將用戶社會(huì)關(guān)系加入到“用戶—標(biāo)簽”二元模型中,用虛線連接用戶與標(biāo)簽,虛線權(quán)重表示用戶標(biāo)注該標(biāo)簽頻次。

        圖2 建模思路

        通過鏈接分析獲取用戶影響度分?jǐn)?shù)。若一個(gè)用戶被其他影響度高的用戶建立鏈接,則該用戶也具備較高的影響度。每一條鏈接邊都視作一個(gè)互增強(qiáng)關(guān)系,并且用戶影響度可以通過所有的鏈接邊傳播,采用隨機(jī)游走算法計(jì)算用戶影響度。

        首先設(shè)定G=(U,E,W)為用戶的社會(huì)關(guān)系圖,其中U={u1,u2,…,uU}為用戶集合,E?U*U為鏈接關(guān)系集合,W為U鄰接矩陣,定義公式(1),表示對(duì)于兩個(gè)頂點(diǎn)ui、uj,若存在1條ui→uj的邊,則wi,j=1,否則為0。

        (1)

        對(duì)于已建立的用戶社會(huì)關(guān)系圖G,根據(jù)鄰接矩陣W建立轉(zhuǎn)移概率矩陣P。定義公式(2)表示節(jié)點(diǎn)ui跳轉(zhuǎn)到uj的轉(zhuǎn)移概率。圖3展示了用戶關(guān)系鏈接分析過程。

        (2)

        圖3 用戶聯(lián)系鏈接分析

        (3)

        τ(n)=ζPτ(n-1)+(1-ζ)π

        (4)

        τ(∞)=(1-ζ)(1-ζP)-1π

        (5)

        本文設(shè)定參數(shù)ζ值為0.85,π服從均勻分布,迭代終止條件為:用戶影響度向量τ(n+1)與τ(n)符合=τ(n+1)-τ(n)=2/=τ(n)=2≤ψ,其中ψ指預(yù)先設(shè)定的閾值,取0.001。

        第二階段,基于用戶加權(quán)的“用戶—標(biāo)簽”關(guān)系矩陣構(gòu)建。

        假定U={u1,u2,…,um}為社會(huì)化標(biāo)注系統(tǒng)中m個(gè)用戶集合,R={r1,r2,…,rk}為k個(gè)被標(biāo)注的資源集合,T={t1,t2,…,tn}為用戶標(biāo)注的n個(gè)標(biāo)簽集合,u∈U,r∈R,t∈T,a=(u,r,t)∈A表示一次標(biāo)注行為,則社會(huì)化標(biāo)注行為可定義為四元組P=(U,T,R,A)。根據(jù)系統(tǒng)中用戶標(biāo)注行為可分解統(tǒng)計(jì)出用戶—標(biāo)簽二元關(guān)系矩陣Y。

        根據(jù)Y,將每一個(gè)用戶的標(biāo)注行為表示為1個(gè)文本文檔,將其轉(zhuǎn)換為向量形式:

        YT(u)=[t1,y(t1,u);t2,y(t2,u)…;ti,y(ti,u)…tT,y(tT,u)]

        y(ti,u)表示為用戶u標(biāo)注過標(biāo)簽ti的次數(shù)。設(shè)用戶u的影響度分?jǐn)?shù)為τu,則基于標(biāo)注行為的用戶加權(quán)表示形式為:

        g_YT(u)=[t1,gy(t1,u);t2,gy(t2,u)…;ti,gy(ti,u)…tT,gy(tT,u)]

        gy(ti,u)表示標(biāo)簽ti在用戶u中的加權(quán)標(biāo)注頻次??捎晒?6)計(jì)算得出。

        (6)

        由于上文基于隨機(jī)游走的用戶影響度排序以均勻分布為初始分?jǐn)?shù),在迭代學(xué)習(xí)過后各節(jié)點(diǎn)的影響度分?jǐn)?shù)較小,若直接將其加權(quán)到用戶標(biāo)注行為上,則無法保證加權(quán)后的用戶標(biāo)注頻次為整數(shù)且總出現(xiàn)頻次降低。因此在不改變影響度分?jǐn)?shù)權(quán)重比例的情況下,將影響度分?jǐn)?shù)最小值對(duì)每個(gè)用戶的影響度分?jǐn)?shù)進(jìn)行定制,定制后的用戶影響度分?jǐn)?shù)與標(biāo)簽頻次值加權(quán)取整,這樣能提高高影響用戶低頻次標(biāo)簽在主題分配上的能力,降低低影響用戶高頻次標(biāo)簽在主題表達(dá)上的占比。

        將“加權(quán)的用戶—標(biāo)簽語料庫”導(dǎo)入R中進(jìn)行LDA建模處理時(shí),需轉(zhuǎn)換成矩陣格式,如圖4所示。

        第三階段:LDA建模分析。

        根據(jù)上述加權(quán)的用戶—標(biāo)簽矩陣進(jìn)行LDA潛在語義主題建模,如圖5所示。

        圖5 融合用戶加權(quán)的標(biāo)簽LDA模型

        采用吉布斯采樣算法迭代學(xué)習(xí)出用戶標(biāo)簽的潛在主題,吉布斯采樣公式如公式(7)所示。

        (7)

        3 用戶興趣模型構(gòu)建及個(gè)性化推薦

        3.1 基于標(biāo)簽主題的用戶多興趣建模

        根據(jù)獲取到的用戶標(biāo)簽主題及主題概率分布,將用戶興趣模型抽象為若干主題分量,且每個(gè)主題由若干標(biāo)簽來描述。用戶興趣模型分為兩層:第一層興趣主題層——由LDA模型迭代學(xué)習(xí)出的標(biāo)簽語義主題及其權(quán)重構(gòu)成;第二層特征標(biāo)簽層——由相關(guān)語義主題下的標(biāo)簽及其權(quán)重構(gòu)成,如圖6所示。

        圖6 用戶興趣模型簡化

        定義用戶多興趣模型由五元組表示:U={Z,T,W,F,P},其中Z為用戶興趣主題集合;T為各個(gè)興趣主題下對(duì)應(yīng)的標(biāo)簽集合;W為主題下各標(biāo)簽權(quán)值p(ti|zi=n);F為各標(biāo)簽遺忘因子,更新用戶興趣變化;P指用戶對(duì)興趣主題感興趣程度,即偏好程度p(zi=n|ui)。

        3.2 用戶興趣模型更新

        (8)

        式中,F(xiàn)(ti,j)表示興趣模型中第i個(gè)主題Topici下第j個(gè)標(biāo)簽的遺忘因子;cur代表當(dāng)前日期;tagged為標(biāo)簽最近被標(biāo)注的日期;hl指用戶興趣半衰期(由大量數(shù)據(jù)訓(xùn)練得到)。

        本文通過調(diào)整用戶興趣主題及特征標(biāo)簽權(quán)值來反映用戶興趣變化,實(shí)現(xiàn)興趣模型更新。如圖7所示,模型更新流程如下:

        2)針對(duì)用戶新添加標(biāo)簽情況,分以下3種情形對(duì)各主題與標(biāo)簽權(quán)重值重新調(diào)整:

        a)用戶新添加標(biāo)簽tα可歸于興趣模型原來主題中,且該主題已包含該標(biāo)簽,則重新計(jì)算標(biāo)簽tα權(quán)重wi,j及該標(biāo)簽所在主題權(quán)重wi,同時(shí)將tα的遺忘因子中tagged日期改為當(dāng)前標(biāo)注日期;

        b)用戶新添加標(biāo)簽tα可歸于興趣模型原來主題中,當(dāng)該主題沒有標(biāo)簽tα,則將該標(biāo)簽加入主題模型中,計(jì)算tα遺忘因子,將tagged日期改為當(dāng)前標(biāo)注日期,重新計(jì)算tα所在主題權(quán)重;

        c)用戶新添加標(biāo)簽tα不能歸于興趣模型原來主題中,則將tα作為新主題加入主題模型中,計(jì)算tα的遺忘因子,將tagged日期改為當(dāng)前標(biāo)注日期,tα以權(quán)重作為新主題權(quán)重。

        圖7 用戶興趣模型動(dòng)態(tài)更新流程圖

        3)刪減舊標(biāo)簽:對(duì)用戶興趣模型中各主題下的所有標(biāo)簽按權(quán)重值降序排序,設(shè)定權(quán)重閾值δ,將小于δ的標(biāo)簽刪減并對(duì)各主題權(quán)重重新調(diào)整。

        4)刪減舊主題:對(duì)用戶興趣模型中各主題按權(quán)重降序排序,設(shè)定主題權(quán)重閾值ξ,刪減小于ξ的主題。

        由圖6可以看出,隨著砂粒含量的增大,砂質(zhì)黃土的黏聚力減小,砂粒含量從30%增長至45%,黏聚力從6.08減至3.28,降幅為46%。曲線形態(tài)表現(xiàn)為先緩后陡,即當(dāng)砂粒含量小于35%時(shí)黏聚力隨砂粒含量的增加緩慢降低,當(dāng)砂粒含量大于35%時(shí)黏聚力隨砂粒含量的增加其降低趨勢(shì)增大。

        3.3 基于用戶興趣模型的協(xié)同過濾推薦算法

        傳統(tǒng)協(xié)同過濾算法依賴“用戶—資源評(píng)分”矩陣,系統(tǒng)中巨大的資源數(shù)量容易產(chǎn)生矩陣稀疏性問題,并且僅根據(jù)用戶對(duì)資源的評(píng)分并不能完全刻畫用戶興趣偏好?;诖耍疚囊肷鐣?huì)化標(biāo)注改進(jìn)傳統(tǒng)協(xié)同過濾算法,具體算法流程如圖(8)所示。

        Step1:鄰居用戶發(fā)現(xiàn)

        用戶相似度計(jì)算:結(jié)合多層、多維用戶興趣模型,構(gòu)建用戶—標(biāo)簽語義主題的相關(guān)性矩陣,將用戶相似性轉(zhuǎn)換為興趣模型主題層向量的相似性計(jì)算。

        采用修正的余弦相似度計(jì)算相似性,公式如下:

        (9)

        圖8 個(gè)性化推薦流程

        圖9 用戶—主題矩陣

        鄰居用戶選?。焊鶕?jù)用戶相似度計(jì)算,采用閾值設(shè)置方法選取鄰居用戶集合。設(shè)定閾值δ,當(dāng)sim(u,v)大于δ時(shí),該用戶歸入鄰居用戶集合中。

        Step2:資源集確定與特征表示

        通過獲取鄰居用戶集合中用戶標(biāo)注、收藏或?yàn)g覽過的資源,過濾目標(biāo)用戶已標(biāo)注和已收藏的資源。得到這類資源集的資源—標(biāo)簽關(guān)系矩陣X,矩陣X中的Xrt元素表示資源r被標(biāo)注過標(biāo)簽t的次數(shù),然后進(jìn)行LDA潛在語義主題建模,計(jì)算得到標(biāo)簽潛在語義主題及主題分布概率,基于此構(gòu)建資源—標(biāo)簽語義主題矩陣,如圖10所示,其主題分布概率p(zi=n|ri)為資源與標(biāo)簽語義主題相關(guān)度。

        =圖10 資源—標(biāo)簽主題矩陣

        Step3:個(gè)性化推薦產(chǎn)生

        用戶對(duì)資源興趣度通過公式(10)計(jì)算,最后按照興趣度大小排序,采用Top-N方法推薦給目標(biāo)用戶。

        (10)

        4 實(shí)驗(yàn)及算法評(píng)價(jià)

        4.1 數(shù)據(jù)集

        本實(shí)驗(yàn)數(shù)據(jù)來源于CiteUlike站點(diǎn)(http://www.citeulike.org/)。CiteUlike屬于經(jīng)典的社會(huì)化標(biāo)注系統(tǒng),是一個(gè)免費(fèi)協(xié)助注冊(cè)用戶存儲(chǔ)、管理及分析學(xué)術(shù)文章的論文書簽網(wǎng)站,允許用戶自由收藏個(gè)人喜歡的論文、分享自身論文庫并可用添加標(biāo)簽的方式進(jìn)行標(biāo)注。當(dāng)用戶瀏覽其他用戶標(biāo)注的標(biāo)簽而對(duì)該用戶產(chǎn)生興趣時(shí),可通過“Connect”控件,建立與該用戶的鏈接關(guān)系。

        本文使用Jsoup工具通過“Connections”接口抓取用戶間鏈接關(guān)系,采集到用戶相關(guān)標(biāo)注信息,包括用戶名、論文、標(biāo)簽、標(biāo)注時(shí)間等,如果用戶使用多個(gè)標(biāo)簽標(biāo)注同一篇文章,這些標(biāo)簽將存入多條數(shù)據(jù)記錄中。

        抓取數(shù)據(jù)后,利用R語言對(duì)采集到的初步數(shù)據(jù)集做相關(guān)預(yù)處理,刪除不完整數(shù)據(jù),對(duì)某些用戶標(biāo)簽進(jìn)行中文分詞、對(duì)分詞后的標(biāo)簽去停用詞等操作。最后得到的實(shí)驗(yàn)數(shù)據(jù)集包括5 124個(gè)用戶,8 245個(gè)標(biāo)簽,12 574篇論文,以及88 132個(gè)鏈接關(guān)系。示例數(shù)據(jù)如表1所示。

        表1 標(biāo)注數(shù)據(jù)示例

        4.2 實(shí)驗(yàn)評(píng)估指標(biāo)

        本文希望從實(shí)用性、準(zhǔn)確性、完整性等方面考查改進(jìn)算法的性能,因此采用準(zhǔn)確率和召回率兩個(gè)指標(biāo)。

        召回率(查全率)衡量所使用算法推薦了多少應(yīng)該被推薦的項(xiàng)目或資源,該值越高推薦系統(tǒng)性能越好。設(shè)n為用戶個(gè)數(shù),用戶i的測試集為Ti,正確推薦的資源集為Pi,則召回率計(jì)算公式為:

        (11)

        準(zhǔn)確率考量推薦結(jié)果的準(zhǔn)確性,隨著推薦數(shù)量的增加準(zhǔn)確率會(huì)下降。設(shè)N為推薦資源的個(gè)數(shù),其計(jì)算公式為:

        (12)

        由于召回率和準(zhǔn)確率在一定程度上相互制衡,一般采用綜合評(píng)價(jià)指標(biāo)F-measure來衡量兩者關(guān)系,計(jì)算公式為:

        (13)

        4.3 結(jié)果和分析

        為驗(yàn)證本文提出的個(gè)性化推薦方法有效性,設(shè)計(jì)兩部分實(shí)驗(yàn)進(jìn)行驗(yàn)證:用戶興趣模型及模型更新方法驗(yàn)證、基于用戶興趣模型的個(gè)性化推薦算法驗(yàn)證。采用5層交叉驗(yàn)證將數(shù)據(jù)集分為5分,并依次選取一份作為測試集,其余4份為訓(xùn)練集,得到5個(gè)不同的測試集和訓(xùn)練集用于實(shí)驗(yàn)分析,各評(píng)估指標(biāo)依次得到5個(gè)測試結(jié)果,取其算數(shù)平均值為各指標(biāo)最終評(píng)估結(jié)果。

        用戶興趣模型驗(yàn)證

        該部分通過本文算法(MCF)與傳統(tǒng)協(xié)同過濾算法(CF)對(duì)比實(shí)驗(yàn),用召回率驗(yàn)證本文構(gòu)建興趣模型的有效性。由于鄰居用戶個(gè)數(shù)M取值大小對(duì)算法精度有一定影響,M取值過小則無法得到足夠的待推薦資源集合,取值過大會(huì)使算法搜索成本加大。實(shí)驗(yàn)選擇的M值從10增加到100,間隔為10,對(duì)比分析不同用戶模型對(duì)召回率的影響,實(shí)驗(yàn)結(jié)果如圖11所示:

        =圖11 不同用戶模型對(duì)召回率影響

        從圖11中可知,當(dāng)M值為35左右時(shí),兩種算法的召回率基本持平,當(dāng)鄰居用戶個(gè)數(shù)高于35時(shí),MCF召回率高于CF算法,這是由于CF算法是基于用戶共同關(guān)注資源的評(píng)分進(jìn)行相似度計(jì)算,而MCF是基于用戶興趣模型計(jì)算相似度,這里相似度的值與用戶共同標(biāo)注資源沒有絕對(duì)的關(guān)系,即存在相似度很大的用戶之間評(píng)價(jià)相同資源情況較少的現(xiàn)象。隨著M取值增大,召回率增大,當(dāng)鄰居個(gè)數(shù)在60左后,算法召回率趨于穩(wěn)定,故在后續(xù)實(shí)驗(yàn)中鄰居個(gè)數(shù)取60。

        模型更新算法驗(yàn)證

        該部分通過MCF與本文提出的基于遺忘因子更新的用戶興趣模型個(gè)性化推薦算法(UMCF)對(duì)比實(shí)驗(yàn),采用準(zhǔn)確率(Precision)指標(biāo)驗(yàn)證更新的用戶興趣模型是否能更準(zhǔn)確表達(dá)用戶興趣。

        實(shí)驗(yàn)數(shù)據(jù)按照資源被標(biāo)注時(shí)間取訓(xùn)練集前80%,剩余20%為模型更新數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集最后一條標(biāo)注時(shí)間設(shè)為建模時(shí)間,更新數(shù)據(jù)集最后一條標(biāo)注時(shí)間設(shè)為當(dāng)前時(shí)間,采用Top-N推薦方法,實(shí)驗(yàn)結(jié)果如圖12所示:

        圖12 用戶興趣模型的更新對(duì)準(zhǔn)確率影響

        UMCF算法相較于MCF推薦準(zhǔn)確率較高,由此說明更新的用戶興趣模型對(duì)用戶興趣權(quán)值計(jì)算更為準(zhǔn)確,更加準(zhǔn)確表達(dá)用戶的興趣偏好。

        推薦算法驗(yàn)證

        將UMCF與傳統(tǒng)的標(biāo)簽協(xié)同過濾推薦(TCF)、標(biāo)簽關(guān)聯(lián)關(guān)系推薦算法(LC)對(duì)比實(shí)驗(yàn),推薦長度從5逐漸增大,計(jì)算在此推薦長度下的F-measure值,對(duì)其取算術(shù)平均值為最終評(píng)估結(jié)果。如圖13所示:

        圖13 不同N值下的F-measure

        由圖13可知,當(dāng)N取20時(shí),3種算法F-measure值最高,說明在此推薦長度下推薦綜合效果達(dá)到最好,MCF相較于LC、TCF,評(píng)估指標(biāo)F-measure值有所提高,這進(jìn)一步論證了本文提出的算法達(dá)到了更佳的推薦效果。

        5 結(jié)束語

        互聯(lián)網(wǎng)飛速發(fā)展為人們生活帶來諸多方便的同時(shí),信息過載等問題也隨之而來,個(gè)性化推薦技術(shù)的應(yīng)用在一定程度上使人們需求得到滿足,因此圍繞個(gè)性化推薦展開的研究越來越多。本文基于社會(huì)化標(biāo)注系統(tǒng),從影響個(gè)性化推薦質(zhì)量的兩個(gè)核心——用戶興趣建模和個(gè)性化推薦算法切入展開相關(guān)研究。

        在社會(huì)化標(biāo)注系統(tǒng)中,用戶的標(biāo)注行為體現(xiàn)了其興趣偏好,標(biāo)簽也表達(dá)了資源特征及潛在屬性。然而由于標(biāo)簽存在語義模糊、歧義等問題,制約著其在個(gè)性化推薦領(lǐng)域上的應(yīng)用。當(dāng)前眾多研究者僅從數(shù)量和結(jié)構(gòu)上考慮用戶與標(biāo)簽的關(guān)系,同時(shí)標(biāo)簽的時(shí)序動(dòng)態(tài)性也影響著用戶興趣模型的準(zhǔn)確率,限制著推薦模型的質(zhì)量。針對(duì)上述問題,本文在已有研究基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新,提出基于社會(huì)化標(biāo)注的用戶興趣挖掘,構(gòu)建了個(gè)性化推薦算法,并通過實(shí)驗(yàn)對(duì)文中提出的改進(jìn)算法進(jìn)行驗(yàn)證分析。

        但是本文尚有一些不足之處:例如在構(gòu)建用戶興趣模型時(shí),前提假設(shè)用戶只對(duì)感興趣的資源進(jìn)行標(biāo)注,對(duì)于某些用戶喜歡標(biāo)注不感興趣資源的情況未作考慮,因此在實(shí)際應(yīng)用中,可以進(jìn)一步研究“負(fù)面標(biāo)簽”識(shí)別問題。用戶興趣建模時(shí)個(gè)性化推薦技術(shù)的核心,在建模過程中會(huì)涉及用戶隱私問題,如何采用有效的隱私保護(hù)機(jī)制將是未來個(gè)性化推薦服務(wù)的研究方向之一。

        猜你喜歡
        社會(huì)化標(biāo)簽個(gè)性化
        熊蜂可以進(jìn)行社會(huì)化學(xué)習(xí)
        牽手校外,堅(jiān)持少先隊(duì)社會(huì)化
        堅(jiān)持個(gè)性化的寫作
        文苑(2020年4期)2020-05-30 12:35:12
        行政權(quán)社會(huì)化之生成動(dòng)因闡釋
        新聞的個(gè)性化寫作
        新聞傳播(2018年12期)2018-09-19 06:27:10
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        上汽大通:C2B個(gè)性化定制未來
        標(biāo)簽化傷害了誰
        高校學(xué)生體育組織社會(huì)化及路徑分析
        體育科技(2016年2期)2016-02-28 17:06:14
        国产成人久久精品激情| 亚洲av无码久久精品蜜桃| 天天综合网在线观看视频| 明星性猛交ⅹxxx乱大交| 最新亚洲av日韩av二区| 美国黄色片一区二区三区| 欧美 日韩 国产 成人 在线观看| 在线视频99| 老熟女一区二区免费| 午夜在线观看一区二区三区四区 | 国产在线精品观看一区二区三区| 午夜国产视频一区二区三区| 亚洲人成网线在线播放va蜜芽| 天天色影网| japanesehd中国产在线看| 国产精品白浆无码流出| 人妻色中文字幕免费视频| 开心五月骚婷婷综合网| 2019nv天堂香蕉在线观看| 免费看美女被靠的网站| 国产a v无码专区亚洲av| 女的把腿张开男的猛戳出浆| 久久国产精品一区二区| 成人激情视频在线手机观看 | 久久综合九色综合欧美狠狠 | 高清不卡一区二区三区| 日日干夜夜操高清视频| av深夜福利在线| 一区二区免费国产a在亚洲| 国产综合开心激情五月| 久久精品国产亚洲av麻豆色欲| 亚洲国产日韩欧美一区二区三区| 九九九影院| 亚洲国产不卡免费视频| 精品熟人妻一区二区三区四区不卡 | 激情内射亚洲一区二区三区| 亚洲日韩国产精品乱-久 | 久久久精品人妻一区二区三区日本 | 在线观看国产视频你懂得| 国产特黄级aaaaa片免| 深夜福利小视频在线观看|