亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社會(huì)化標(biāo)注的協(xié)同過濾算法

        2020-03-27 08:49:12周康渠
        關(guān)鍵詞:語義資源用戶

        楊 晨 周康渠

        重慶理工大學(xué) 機(jī)械工程學(xué)院 重慶400054

        引言

        在web3.0時(shí)代,互聯(lián)網(wǎng)用戶從信息的消費(fèi)者轉(zhuǎn)變成了信息的生成者,社會(huì)化標(biāo)注這一自下而上的分眾分類方式也逐漸興起,如圖書網(wǎng)站豆瓣讀書、圖片共享網(wǎng)站Flickr等。這些網(wǎng)站允許用戶自主上傳資源,對(duì)網(wǎng)站上的資源自由添加標(biāo)簽來對(duì)資源進(jìn)行描述,并與網(wǎng)站上的其他用戶分享。隨著網(wǎng)站上資源的積累,如何為用戶找到其感興趣的資源成為了這些網(wǎng)站面臨的一大挑戰(zhàn),而基于一些推薦算法的推薦系統(tǒng),成為了解決這一問題的主要方法。

        協(xié)同過濾算法是目前應(yīng)用最為廣泛的一種推薦算法,然而隨著網(wǎng)絡(luò)上資源數(shù)量的迅速積累,協(xié)同過濾算法常常面臨數(shù)據(jù)稀疏、冷啟動(dòng)等問題。在協(xié)同過濾算法中引入語義,可以緩解協(xié)同過濾算法所面臨的數(shù)據(jù)稀疏和冷啟動(dòng)問題,是一種有效提高推薦效率的方法。隨著社會(huì)化標(biāo)注的進(jìn)行,形成的標(biāo)簽集對(duì)資源的內(nèi)容或語義進(jìn)行了揭示[1]。現(xiàn)在已經(jīng)有了一些利用社會(huì)化標(biāo)注系統(tǒng)中標(biāo)簽間的語義關(guān)系來緩解協(xié)同過濾算法所面臨的數(shù)據(jù)稀疏和冷啟動(dòng)問題的研究。

        1 基于社會(huì)化標(biāo)注的協(xié)同過濾算法

        本文的算法依據(jù)標(biāo)簽共現(xiàn)矩陣以及標(biāo)注頻率建立標(biāo)簽樹,結(jié)合標(biāo)簽共現(xiàn)矩陣以及標(biāo)簽樹結(jié)構(gòu)綜合確定標(biāo)簽之間的綜合語義相似度,依據(jù)資源的標(biāo)注情況以及標(biāo)簽間的語義相似度來計(jì)算資源間的語義相似度,并用資源語義相似度對(duì)用戶的評(píng)分矩陣進(jìn)行填充,用填充后的用戶評(píng)分矩陣來找尋用戶的鄰近用戶,從而實(shí)現(xiàn)資源的推薦。

        1.1 標(biāo)簽樹的構(gòu)建 本文在Paul H 等[4]提出的標(biāo)簽樹的構(gòu)建方法上,依據(jù)標(biāo)簽間的相似度以及標(biāo)簽標(biāo)注的資源數(shù)量來實(shí)現(xiàn)標(biāo)簽樹的構(gòu)建。標(biāo)簽的相似度計(jì)算方法有很多,其中基于標(biāo)簽共現(xiàn)的標(biāo)簽相似度計(jì)算是使用的非常多的一種。標(biāo)簽共現(xiàn)是指兩個(gè)不同標(biāo)簽對(duì)于一個(gè)相同的資源進(jìn)行標(biāo)注,而這種共現(xiàn)關(guān)系表明兩個(gè)標(biāo)簽之間存著某種程度上的語義關(guān)系,對(duì)于標(biāo)簽相似度大于一定閾值的一個(gè)標(biāo)簽對(duì),則認(rèn)為其存在語義關(guān)系。在知識(shí)分類體系中,父概念比子概念的內(nèi)涵更抽象,外延更廣泛,在標(biāo)簽間樹的構(gòu)建過程中,即認(rèn)為父標(biāo)簽會(huì)比子標(biāo)簽標(biāo)注更多的資源。標(biāo)簽樹的構(gòu)建包括以下步驟:數(shù)據(jù)預(yù)處理及標(biāo)簽篩選、建立基于共現(xiàn)的標(biāo)簽相似度矩陣、建立標(biāo)簽樹。

        1.1.1 數(shù)據(jù)預(yù)處理及標(biāo)簽篩選 由于社會(huì)化標(biāo)注大多是在無監(jiān)督的情況下進(jìn)行的,具有不規(guī)范性。因此需要對(duì)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)處理,包括對(duì)標(biāo)注數(shù)據(jù)中的大小寫進(jìn)行統(tǒng)一,刪除不能識(shí)別的字符,并對(duì)同義詞、縮寫等進(jìn)行合并等。在數(shù)據(jù)預(yù)處理后,篩選出用于構(gòu)建標(biāo)簽樹的標(biāo)簽。

        1.1.2 建立基于共現(xiàn)的標(biāo)簽相似度矩陣 對(duì)于篩選出的標(biāo)簽集合,建立維度為n×n的標(biāo)簽共現(xiàn)矩陣O,n為篩選出的用于構(gòu)建標(biāo)簽樹的標(biāo)簽的個(gè)數(shù)。

        由于兩兩標(biāo)簽的使用頻次會(huì)對(duì)他們的共現(xiàn)頻次產(chǎn)生影響,難以反應(yīng)兩個(gè)標(biāo)簽之間真正的語義關(guān)系,為了消除標(biāo)簽的熱門程度帶來的影響,引入Ochiia系數(shù)將標(biāo)簽共現(xiàn)矩陣O 轉(zhuǎn)換成標(biāo)簽相似度矩陣,從而反映出標(biāo)簽間的實(shí)質(zhì)性共現(xiàn)關(guān)系,計(jì)算公式如下:

        隨著資源數(shù)量的增加,用戶評(píng)價(jià)過的資源往往只占資源總量的一小部分,尤其是新用戶,因此用戶矩陣往往面臨數(shù)據(jù)稀疏的問題。通過引入資源間的語義關(guān)系,可以對(duì)用戶未評(píng)價(jià)過的資源的評(píng)價(jià)情況進(jìn)行預(yù)測(cè)。

        1.2.1 標(biāo)簽綜合語義相似度計(jì)算 在將標(biāo)簽構(gòu)建成標(biāo)簽樹后,標(biāo)簽之間具有了一定的語義結(jié)構(gòu)。本文使用梁俊杰[5]等提出的語義相似度計(jì)算公式來計(jì)算標(biāo)簽樹中各標(biāo)簽的基于結(jié)構(gòu)的語義相似度。

        結(jié)合基于共現(xiàn)的語義相似度以及基于結(jié)構(gòu)的語義相似度,來計(jì)算標(biāo)簽間的綜合語義相似度,計(jì)算公式如下:

        其中S(i,j)代表標(biāo)簽i和標(biāo)簽j之間的綜合相似度,S1(i,j)代表標(biāo)簽i和標(biāo)簽j之間基于共現(xiàn)的語義相似度,S2(i,j)代表標(biāo)簽i和標(biāo)簽j之間基于結(jié)構(gòu)的語義相似度,α為調(diào)節(jié)系數(shù)。

        1.2.2 資源語義相似度計(jì)算 由于資源的標(biāo)注情況反應(yīng)了資源的屬性,因此可以依據(jù)標(biāo)注于資源的標(biāo)簽來對(duì)資源進(jìn)行分類,分類步驟如下:

        (1)篩選出標(biāo)注于資源的標(biāo)簽中屬于標(biāo)簽樹且標(biāo)注次數(shù)大于閾值的標(biāo)簽,組分該資源的分類標(biāo)簽集。

        (2)若篩選出的標(biāo)簽在標(biāo)簽樹中為父子節(jié)點(diǎn),則選擇在標(biāo)簽樹中層級(jí)最深的標(biāo)簽作為該資源的類。

        資源分類后,按照資源的分類結(jié)果計(jì)算資源間的語義相似度,計(jì)算公式如下。

        3 算法驗(yàn)證

        3.1 實(shí)驗(yàn)數(shù)據(jù) 實(shí)驗(yàn)采用Movielens的電影-評(píng)分?jǐn)?shù)據(jù)集中用戶對(duì)于電影類目為Sci-Fi的電影的評(píng)分,由于要通過電影資源的社會(huì)化標(biāo)注信息來對(duì)電影資源進(jìn)行分類,因此篩選出213個(gè)被標(biāo)注次數(shù)大于10次的電影資源,并篩選出進(jìn)行評(píng)分次數(shù)大于10次的3047個(gè)用戶。即實(shí)驗(yàn)數(shù)據(jù)集中包含3047個(gè)用戶對(duì)于213個(gè)電影資源的99364條電影評(píng)分,評(píng)分分?jǐn)?shù)為1~5分。將其中80%的數(shù)據(jù)用作訓(xùn)練集,20%的數(shù)據(jù)用作測(cè)試集,驗(yàn)證本文算法。

        其中N 為預(yù)測(cè)的資源評(píng)分集合,pi為該資源的預(yù)測(cè)評(píng)分,ri為該資源的實(shí)際評(píng)分,lenth(N)為集合N的長(zhǎng)度。

        3.3 實(shí)驗(yàn)結(jié)果 為了驗(yàn)證本文算法的效果,選取傳統(tǒng)的基于用戶的協(xié)同過濾算法與本文算法進(jìn)行比較。圖1是當(dāng)最鄰近值K取不同值時(shí)各算法MAE的大小對(duì)比。

        圖1 K取不同值時(shí)各算法MAE的大小比較

        由實(shí)驗(yàn)結(jié)果可知,無論K 取何值,本文的算法的MAE值要遠(yuǎn)低于傳統(tǒng)基于用戶的協(xié)同過濾算法。這表明本文算法能有效緩解數(shù)據(jù)稀疏何問題,從而提高推薦效果。

        4 結(jié)語

        本文提出了一種基于標(biāo)簽共現(xiàn)和標(biāo)注頻率建立標(biāo)簽樹的方法來挖掘標(biāo)簽間的語義關(guān)系,并通過資源的標(biāo)注情況以及標(biāo)簽間的語義關(guān)系來確定資源間的語義關(guān)系,并將這種語義關(guān)系與傳統(tǒng)的協(xié)同過濾算法相結(jié)合,來對(duì)用戶評(píng)分矩陣進(jìn)行填充的推薦算法。通過在Movielens數(shù)據(jù)集上對(duì)本文提出的算法進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果證明本文提出的算法能夠有效提高推薦效果。但本文算法也存在一定的局限性,一方面在標(biāo)簽語義挖掘的過程中標(biāo)簽可能會(huì)存在一詞多義的問題,后續(xù)可以與連邊社團(tuán)檢測(cè)算法進(jìn)行結(jié)合。另一方面本文只考慮了資源間的語義相似度,而用戶之間也存在語義相似度,后續(xù)可以綜合考慮用戶和資源的語義相似度來對(duì)算法進(jìn)行進(jìn)一步改進(jìn)。

        猜你喜歡
        語義資源用戶
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        語言與語義
        資源回收
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        認(rèn)知范疇模糊與語義模糊
        中文字幕亚洲无线码高清| 中文字幕在线日亚洲9| 久久夜色精品国产噜噜麻豆| 欧美日韩国产专区| 男女羞羞的视频免费网站| 久久夜色国产精品噜噜亚洲av| 人妻少妇无码精品视频区| 天堂在线www中文| 国产成人精品视频网站| 亚洲av产在线精品亚洲第三站| 亚洲乱色伦图片区小说| 亚洲av色福利天堂| 亚洲国产av剧一区二区三区| 国产免费一区二区在线视频| 亚洲成a人片在线观看无码3d| 成人免费视频在线观看 | 日产乱码一区二区国产内射| 亚洲黄色一级在线观看| 亚洲中文字幕成人无码| 欧美va免费精品高清在线| 精品国产一品二品三品| 国产亚洲一区二区三区综合片| 国产成熟人妻换╳╳╳╳| 女高中生自慰污免费网站| 中文字幕一区二区网址| 婷婷四虎东京热无码群交双飞视频| 中文字幕日韩一区二区三区不卡| 久久与欧美视频| 亚洲男人的天堂av一区| 久久久久免费看成人影片| 亚洲综合无码| 午夜黄色一区二区不卡| 国产大屁股喷水视频在线观看| a级毛片内射免费视频| 大伊香蕉精品视频一区| 国产婷婷成人久久av免费| 中字幕人妻一区二区三区| 久精品国产欧美亚洲色aⅴ大片| 亚洲av毛片在线播放| 中国无码人妻丰满熟妇啪啪软件| 日韩a∨精品日韩在线观看|