亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶興趣標(biāo)簽的混合推薦方法

        2018-12-21 03:46:58朱雨晗
        電子制作 2018年22期
        關(guān)鍵詞:張量物品標(biāo)簽

        朱雨晗

        (浙江省富陽中學(xué),浙江杭州,311400)

        1 研究背景

        近現(xiàn)代以來,隨著以通信技術(shù)和計算機技術(shù)為代表的信息技術(shù)得到快速發(fā)展的同時也帶來了海量的數(shù)據(jù)積累,如何在這些琳瑯滿目的數(shù)據(jù)中找到自己所需要的東西成為難題。在這種背景下,推薦系統(tǒng)能夠?qū)崿F(xiàn)在信息過載的環(huán)境下為人們提供其感興趣的信息消費需求方案[1]。雖然推薦系統(tǒng)只有幾十年的發(fā)展,但已基本成為互聯(lián)網(wǎng)各個領(lǐng)域的標(biāo)配,如抖音的“朋友圈”、今日頭條的“關(guān)注”,淘寶的“猜你喜歡”等。

        雖然推薦系統(tǒng)給我們的生活帶來了諸多便利,但其仍存在個性化程度不足、推薦精度低、受干擾信息影響大等缺點。個性化推薦系統(tǒng)的目標(biāo)用戶是單獨個體,每個人的興趣偏好不盡相同,然而許多網(wǎng)站的推薦系統(tǒng)只是泛泛而談,將有一定差別的用戶興趣屬性一視同仁,導(dǎo)致所給出的推薦項目針對目標(biāo)太廣泛,不具有很強的個性化,對一名用戶的實際幫助程度有限。如果一個用戶把他的社交應(yīng)用的賬號分享給了興趣與他不同的一位好友,或者用戶自身瀏覽了一些文章卻發(fā)現(xiàn)自己對其興趣不大,那么這些實際上并不是用戶興趣的東西就會成為推薦系統(tǒng)輸入端的干擾項,影響推薦結(jié)果的準(zhǔn)確性。進行重要性賦權(quán)能夠降低這些干擾信息和一些用戶惡意輸入的錯誤信息的影響。新的應(yīng)用,或者新的用戶往往沒有足夠的用戶數(shù)據(jù)來支持推薦。此外,大眾文化和社交環(huán)境的碎片化導(dǎo)致了信息的碎片化,使得不同的應(yīng)用無法獲得足夠的用戶信息,對用戶的興趣屬性很難有一個精準(zhǔn)的定位來進行準(zhǔn)確的推薦。

        針對這些缺點,本文使用了混合推薦系統(tǒng),將協(xié)同過濾推薦和基于興趣標(biāo)簽的推薦進行組合,試圖排除無關(guān)或惡意信息的干擾,增加推薦精確度,并解決因用戶數(shù)據(jù)不足導(dǎo)致推薦系統(tǒng)輸入較少或推薦不準(zhǔn)確的問題。

        2 思路闡述

        ■2.1 傳統(tǒng)的推薦算法

        當(dāng)前社會主流的推薦方法有基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于知識推薦、組合推薦等。下面將簡單的介紹本文所使用到的協(xié)同過濾推薦、基于內(nèi)容的推薦和混合推薦。

        協(xié)同過濾推薦一般采用最近鄰技術(shù),利用廣大用戶信息計算用戶行為的相似性,然后將計算出的對等用戶對物品的評價進行賦權(quán),以此預(yù)測目標(biāo)用戶對特定物品的偏好。其最大的優(yōu)點是對推薦對象沒有特殊要求,不需要了解其本身的性質(zhì),能夠處理難以結(jié)構(gòu)化的復(fù)雜對象,如視頻和音樂,但也存在數(shù)據(jù)稀疏問題和可伸縮性問題。

        基于內(nèi)容的推薦是根據(jù)項目的主觀定性特征與目標(biāo)用戶資料的匹配程度進行推薦的。其優(yōu)點在于:不需要其他的用戶數(shù)據(jù),沒有協(xié)同過濾那樣的數(shù)據(jù)稀疏和冷啟動問題,能夠為興趣冷門的用戶提供良好的推薦并解釋推薦原因。缺點是需要有物品特征與和用戶偏好的結(jié)構(gòu)化描述,且用戶的興趣本身會隨著時間改變。

        這個時候就可以考慮組合推薦算法,常見的組合方法有加權(quán)、變換、混合、層疊、特征擴充等,其通常是用多種推薦方法各得出一個推薦預(yù)測結(jié)果,然后在通過以上某種形式進行組合,這樣便可以彌補各種推薦算法的缺點,以便得到更將精確的推薦結(jié)果。

        ■2.2 標(biāo)簽的設(shè)立

        在基于標(biāo)簽的推薦算法中,標(biāo)簽是維系用戶和物品之間的紐帶,也是提供用戶興趣的重要數(shù)據(jù)源[2],根據(jù)什么要求怎么設(shè)置標(biāo)簽、如何存儲標(biāo)簽是基于標(biāo)簽的推薦算法研究的重要課題。

        標(biāo)簽的設(shè)立方法主要有:提取待推薦物品的關(guān)鍵字和目錄,提取出現(xiàn)頻率高的字詞,或者直接使用用戶輸入的興趣標(biāo)簽。LOFTER就是一個標(biāo)簽系統(tǒng)的典型代表,它支持用戶自主輸入和創(chuàng)立標(biāo)簽,并根據(jù)用戶關(guān)注的標(biāo)簽推送文章。這種用戶自主輸入的標(biāo)簽?zāi)軌蜉^主觀的體現(xiàn)出一篇文章的特性,但是有的時候也不是能準(zhǔn)確的描述物品內(nèi)容屬性的關(guān)鍵詞,所以此時便需要我們?nèi)斯ぞ庉嬕恍┨囟ǖ臉?biāo)簽供用戶選擇[3]。當(dāng)將文章用出現(xiàn)頻率高的字詞作為標(biāo)簽來表示時,需要先刪除所謂的停用詞,如英文中的介詞和冠詞“a”“in”和中文里的“的”“和”等,這些字詞幾乎會出現(xiàn)在所有文檔中且頻率極高且無用,因此需要刪除。文章本身自帶的目錄能夠為設(shè)立標(biāo)簽提供參考,但畢竟有的文章目錄標(biāo)題因不能很好的概括出文章本身內(nèi)容,所以不能直接作為標(biāo)簽使用。此外,標(biāo)簽本身還具有噪聲、歧義、冗余等問題,給基于標(biāo)簽的推薦技術(shù)研究帶來了挑戰(zhàn)。好在用戶興趣的動態(tài)性、漸變性和穩(wěn)定性這三個特性能夠反映相對穩(wěn)定的用戶需求[4],能夠有效的避免這些問題。

        ■2.3 基于標(biāo)簽的推薦算法

        目前,有許多學(xué)者在關(guān)于興趣標(biāo)簽的推薦算法上開展了許多相關(guān)的研究工作。下面將介紹三種具有較大意義的標(biāo)簽推薦算法,這些算法或優(yōu)化了傳統(tǒng)的推薦方案或建立了新的模型,有效提高了推薦系統(tǒng)的準(zhǔn)確率和召回率。

        2.3.1 基于張量分解的個性化標(biāo)簽推薦算法

        學(xué)者李貴、王爽、李征宇、韓子揚、孫平、孫煥良,為有效取得用戶、物品、標(biāo)簽三者間潛在的關(guān)系,引入三維張量模型。在基于標(biāo)簽元數(shù)據(jù)構(gòu)建初始張量的基礎(chǔ)上應(yīng)用高階奇異值分解減少標(biāo)簽的噪音。核心思想為:首先構(gòu)造一個表達了用戶、標(biāo)簽、物品三者所以關(guān)聯(lián)數(shù)據(jù)的初始張量A,其次對其進行n-模矩陣展開,形成三個新的矩陣。然后在新的矩陣中分別進行SVD計算用以構(gòu)建新的核心張量,計算近似張量A。此算法有效的提高了推薦系統(tǒng)的效率和準(zhǔn)確率[5]。

        2.3.2 基于三部圖張量分解標(biāo)簽推薦算法

        學(xué)者廖志芳、李玲等在此論文中基于三部圖作為標(biāo)簽系統(tǒng)的表示方法,雖然簡化了元素間關(guān)系的表達,但卻丟失了系統(tǒng)間的部分聯(lián)系,且無法有效處理標(biāo)簽存在的稀疏值和缺失值數(shù)據(jù)的這些問題,提出了基于三部圖的三維張量分解推薦算法(TTD算法),通過不斷迭代最終取得最優(yōu)值。此算法優(yōu)化了缺失值部分,解決了信息丟失問題,效率較高,且顯著改善了推薦預(yù)測結(jié)果的準(zhǔn)確率,但算法復(fù)雜度不夠[6]。

        2.3.3 基于用戶興趣-標(biāo)簽的混合推薦方法研究

        學(xué)者李興華、陳冬林等將興趣與標(biāo)簽相結(jié)合。通過定義計算用戶興趣權(quán)重值、用戶興趣相似度、用戶候選興趣集、推薦興趣-標(biāo)簽集、并從中選取項目推薦集滿足某值域的項目推薦集作為推薦預(yù)測結(jié)果進行輸出。此過程可以有效的提高推薦結(jié)果的準(zhǔn)確率,但由于所涉及的興趣比較少所以不夠完善,算法復(fù)雜度也有待改進[7]。

        本章節(jié)大致介紹了協(xié)同過濾、基于內(nèi)容的推薦和混合推薦這幾種常用的算法,提出了在如何設(shè)立標(biāo)簽上的想法,并總結(jié)了一些前輩們在基于標(biāo)簽的推薦算法上開展的相關(guān)研究工作以及成果和優(yōu)點,接下來本文將詳細闡述本文的思路和算法。

        3 基于興趣標(biāo)簽的混合推薦算法實現(xiàn)

        一些非文本的內(nèi)容,比如視頻與圖片,由于本身就缺乏相應(yīng)的描述文本,所以將興趣標(biāo)簽作為一種直觀且重要的介紹素材,而用戶本身行為的多樣性決定了用戶的興趣難以被定義,所以可通過用戶感興趣的標(biāo)簽來確立用戶的偏好并推薦。

        針對用戶興趣標(biāo)簽的不準(zhǔn)確定位,本文提出該算法:通過用戶對各種標(biāo)簽的瀏覽時間、次數(shù)、以及用戶自己輸入的自我認(rèn)同的標(biāo)簽來為用戶確立個性化的興趣標(biāo)簽,并以此為基礎(chǔ)實行協(xié)同過濾與基于內(nèi)容的混合推薦,具體過程如下。

        ■3.1 興趣標(biāo)簽的設(shè)立

        確立物品的明確標(biāo)簽。這個步驟通常采用提取目錄和介紹內(nèi)容的方法,或者直接使用發(fā)表作者自行打上的tag。對于作者自行打上的標(biāo)簽,第一個標(biāo)簽基本代表作者對自身或者其作品的第一印象,可賦稍高的權(quán)值。以小說為例, 建立矩陣E表示一個作品的標(biāo)簽w表示該標(biāo)簽的權(quán)重,用向量表示一個作品用這些標(biāo)簽表示的量,則={w·1,1,1,0,0,0,0,…};={0,0,0,1,0,1,0,…} (w 即為該標(biāo)簽的權(quán)重)

        對目標(biāo)用戶的行為數(shù)據(jù)進行采集。以小說為例,記錄用戶對有各種標(biāo)簽的小說的短期瀏覽時長或次數(shù),長期的瀏覽或瀏覽次數(shù),以及直接或間接給出的對該小說的評價。根據(jù)標(biāo)簽的詳細程度建立用戶興趣標(biāo)簽體系。越詳細的標(biāo)簽賦予越高的權(quán)重。建立集合A、B、C,分別表示用戶瀏覽某一標(biāo)簽的短期次數(shù),長期次數(shù), Di= (Di+ ti?Ai? Wi)?p 評論,標(biāo)簽在該小說中本身的權(quán)重w,因此建立數(shù)集D用來量化與儲存用戶對某一標(biāo)簽的興趣程度。

        t的值與目標(biāo)用戶評論高低有關(guān),若用戶評論較少則選取小說總體評價。P為時間衰減系數(shù),用戶行為距當(dāng)前時間越近的影響越大,因此從用戶標(biāo)簽上可以反應(yīng)該用戶最近的興趣點。

        將短期瀏覽次數(shù)多且給予高評分的設(shè)定為用戶暫時性的興趣標(biāo)簽,將長期瀏覽次數(shù)多的設(shè)定為用戶穩(wěn)定興趣標(biāo)簽,分別表示為、,向量、表示了一個用戶的短期興趣和長期興趣。用傳統(tǒng)的余弦相似度計算與目標(biāo)用戶偏好最為相同的4、5個用戶,取他們的興趣標(biāo)簽集的交集,再與向量計算相似度,按照相似度排序進行推薦。

        ■3.2 算法步驟的實現(xiàn)

        針對用戶興趣標(biāo)簽的不準(zhǔn)確定位,以及標(biāo)簽本身存在的噪音和冗余問題,本文提出了機遇用戶興趣標(biāo)簽的混合推薦算法。通過用戶對各種標(biāo)簽的瀏覽時間、次數(shù)、以及用戶自己輸入的自我認(rèn)同的標(biāo)簽來為用戶確立個性化的興趣標(biāo)簽,以提高對用戶興趣標(biāo)簽的定位的準(zhǔn)確性,并以此為基礎(chǔ),通過短期興趣向量和長期興趣向量表現(xiàn)出用戶興趣的動態(tài)性、穩(wěn)定性,來避免和解決標(biāo)簽的噪音問題。具體步驟如下:

        第一步,獲取網(wǎng)站所提供的商品信息與用戶信息,實現(xiàn)用戶和物品的標(biāo)簽的設(shè)立。

        第二步,輸入用戶的短期興趣標(biāo)簽G,長期興趣標(biāo)簽H,利用余弦相似度公式進行計算。

        用上述公式來計算目標(biāo)用戶與數(shù)據(jù)庫中其余用戶的相似度,得到4到5名與目標(biāo)用戶興趣偏好最相同的用戶。

        詳細闡述了為解決用戶興趣標(biāo)簽的定位不準(zhǔn)確性和標(biāo)簽本身存在的噪音和冗余問題而提出的算法思想和主要步驟。在興趣標(biāo)簽中加入時間衰減系數(shù),通過能反映用戶動態(tài)性和穩(wěn)定性的興趣向量有效的避免了對目標(biāo)用戶偏好的定位的不準(zhǔn)確,降低了標(biāo)簽噪音和冗余問題所來帶的影響。長期興趣標(biāo)簽和短期興趣標(biāo)簽的設(shè)立能反映用戶長期穩(wěn)定的愛好和短期的關(guān)注點,推薦系統(tǒng)可以用根據(jù)這兩個不同的偏好類型進行不同的推薦。先尋找與目標(biāo)用戶偏好最相似的三至五個用戶并將這些用戶組成用戶集提取共同興趣標(biāo)簽,能夠去掉興趣標(biāo)簽的冗余,并且顯著提高推薦系統(tǒng)工作效率。本算法利用余弦相似和多維向量距離計算公式計算相似度并排序輸出結(jié)果,雖然算法復(fù)雜性不夠但適當(dāng)解決了所提出的問題,且效率較高,提升了推薦系統(tǒng)的推薦精度和多樣化程度。

        4 總結(jié)

        個性化的推薦系統(tǒng)在各個領(lǐng)域中得到了廣泛的應(yīng)用,緩解了用戶在各種信息中無從下手找不到自己滿意物品的難題,給用戶帶來了很大的便利,但也存在推薦精度不足、個性化程度低、受干擾信息影響大等缺點。本文對基于用戶興趣標(biāo)簽的混合推薦進行研究和提出算法,解決了推薦系統(tǒng)對用戶興趣標(biāo)簽的不準(zhǔn)確定位。

        本文第一部分說明了研究背景,敘述了一些個性化推薦系統(tǒng)目前存在的缺點以及造成其推薦不準(zhǔn)確的成因。

        本文第二部分介紹了協(xié)同過濾、基于內(nèi)容的推薦和混合推薦這幾個常用的算法,并提出了在標(biāo)簽的設(shè)立上的一些想法,總結(jié)了前輩們在基于標(biāo)簽的推薦算法上所開展的相關(guān)研究工作以及取得的成果。

        本文第三部分詳細闡述所提出的思路和算法。先從興趣標(biāo)簽的設(shè)立方面介紹該算法的準(zhǔn)備步驟,包括確立物品的明確標(biāo)簽、對目標(biāo)用戶進行行為數(shù)據(jù)采集、設(shè)立用戶的短期和長期興趣標(biāo)簽,再從用戶興趣標(biāo)簽本身所存在的問題出發(fā),詳細說明了要解決該問題的具體算法步驟,最后對此算法的優(yōu)缺點進行了總結(jié),即對提高用戶興趣標(biāo)簽設(shè)立的精度,增加推薦系統(tǒng)推薦精度和多樣化程度,提高推薦系統(tǒng)的效率有較好的作用。

        下一步作者會從降低算法復(fù)雜度進行研究,以更好的提高該算法的效率,也會對如何實現(xiàn)大數(shù)據(jù)平臺下用戶興趣標(biāo)簽推薦系統(tǒng)的實現(xiàn)展開進一步的研究。

        猜你喜歡
        張量物品標(biāo)簽
        稱物品
        偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
        “雙十一”,你搶到了想要的物品嗎?
        四元數(shù)張量方程A*NX=B 的通解
        誰動了凡·高的物品
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        擴散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
        標(biāo)簽化傷害了誰
        找物品
        亚洲av人片在线观看调教| 和黑人邻居中文字幕在线| 久久精品黄aa片一区二区三区| 久久久久亚洲精品天堂| 国产69口爆吞精在线视频喝尿| 国产一区二区三区av香蕉| 亚洲成人激情深爱影院在线| 国产成人综合久久久久久| 亚洲av无码专区在线播放| 亚洲 暴爽 av人人爽日日碰| 国产精品一区二区三级| av免费在线观看网站大全| 亚洲中文av中文字幕艳妇| 欧美日韩精品久久久久| 国产成人亚洲精品无码h在线| 亚洲日本在线va中文字幕| 中文字幕一区二区在线| av在线免费高清观看| 国产综合久久久久久鬼色| 成熟人妻av无码专区| 自慰高潮网站在线观看| 国产一区二区三区中出| 国产视频自拍一区在线观看 | 日日噜噜夜夜爽爽| 久久久99精品视频| 大香蕉视频在线青青草| 日本在线视频www色| 伊人久久精品久久亚洲一区 | 高清精品一区二区三区| 国产99久久亚洲综合精品| 少妇bbwbbw高潮| 国产日产韩国级片网站| 放荡的美妇在线播放| 国产av人人夜夜澡人人爽麻豆| 亚洲午夜久久久久中文字幕| 日本中文字幕人妻精品| 国产在线播放一区二区不卡| 亚洲日本一区二区一本一道| 日批视频免费在线观看| 久草视频在线播放免费| 日韩午夜理论免费tv影院|