亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)規(guī)則和協(xié)同過濾的混合圖書推薦算法

        2017-07-15 04:28:24游卓霖周翔
        求知導(dǎo)刊 2017年15期
        關(guān)鍵詞:協(xié)同過濾關(guān)聯(lián)規(guī)則

        游卓霖++周翔

        摘 要:文章結(jié)合關(guān)聯(lián)規(guī)則挖掘和協(xié)同過濾算法的特點(diǎn),根據(jù)圖書館的實(shí)際情況,提出了混合圖書推薦算法。將該算法應(yīng)用于廣大圖書管理系統(tǒng)中,有助于提高用戶體驗(yàn)。

        關(guān)鍵詞:關(guān)聯(lián)規(guī)則;協(xié)同過濾;圖書推薦

        中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)識(shí)碼:A

        一、引言

        現(xiàn)如今,應(yīng)用大數(shù)據(jù)技術(shù)已成為時(shí)代的主流,但海量的數(shù)據(jù)能給我們提供什么呢?答案是信息,而且是有價(jià)值的信息,能使我們提高工作效率。以圖書館為例,傳統(tǒng)圖書館管理系統(tǒng)中不僅有大量圖書信息、用戶信息,也有許多借閱者的借閱信息,這就帶來一個(gè)問題,這么多借閱信息能帶來什么好處?通過數(shù)據(jù)挖掘,我們就能從中很容易發(fā)現(xiàn)用戶的一些興趣偏好,并以此為依據(jù),向用戶推薦他/她可能感興趣的書籍。

        二、現(xiàn)狀

        推薦系統(tǒng)運(yùn)用十分廣泛,最常見的可能就是電商網(wǎng)站上的推薦系統(tǒng)。國(guó)內(nèi)如阿里旗下的淘寶、天貓等購(gòu)物網(wǎng)站,同時(shí)網(wǎng)易云音樂在推薦系統(tǒng)方面也建樹頗豐,往往能向用戶推薦可滿足其喜好的音樂。在圖書推薦領(lǐng)域,國(guó)內(nèi)外專家學(xué)者在其作品中也有涉及。如吉林大學(xué)李欣弘發(fā)表的《基于關(guān)聯(lián)規(guī)則和情感分析的圖書 推薦算法研究》中就介紹了利用關(guān)聯(lián)規(guī)則和情感分析算法實(shí)現(xiàn)圖書推薦,F(xiàn).Heylighen的“Hebbian algorithms for a digital library recommandation system”等。但是相對(duì)其他領(lǐng)域,推薦算法在圖書推薦方面的應(yīng)用還是相對(duì)較少的。

        三、關(guān)鍵技術(shù)介紹

        1.基于KNN的協(xié)同過濾推薦算法

        鄰居模型通常又稱為KNN模型(K-nearest neighbors),KNN算法的核心思想是:如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。采用 KNN方法進(jìn)行類別決策時(shí),只與極少量的相鄰樣本有關(guān)。相關(guān)性的計(jì)算本例中使用的是Pearson相關(guān)系數(shù)。Pearson相關(guān)系數(shù)考慮到不同用戶的評(píng)分尺度問題,將同一個(gè)用戶對(duì)不同的項(xiàng)目評(píng)分進(jìn)行歸一化的處理,這樣就可消除因由用戶個(gè)人主觀因素而造成的對(duì)相似性結(jié)果的影響。結(jié)合本例Pearson相關(guān)系數(shù)公式如下:

        sim(i,j)=

        sim(i,j)表示書本i和j的相似度,Pmn表示對(duì)書m、n都評(píng)過分的用戶集合rm,rn,分別表示書m和n的平均評(píng)分,分別表示用戶v對(duì)書本m、n的評(píng)分。

        2.關(guān)聯(lián)規(guī)則

        (1)關(guān)聯(lián)分析(Association Analysis)

        用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系,所以發(fā)現(xiàn)的模式通常為關(guān)聯(lián)規(guī)則(Association Rule),或以頻繁項(xiàng)集的形式表示。

        Apriori算法是關(guān)聯(lián)規(guī)則挖掘中最常用的算法,在介紹Apriori算法之前要首先了解何謂先驗(yàn)原理。先驗(yàn)原理是減少候選集數(shù)量的方法之一,其核心思想是:如果一個(gè)項(xiàng)集是頻繁的,則它的所有子集一定也是頻繁的;反之,如果一個(gè)項(xiàng)集是非頻繁的,那么它的所有超集一定也是非頻繁的。Apriori算法正是運(yùn)用這一性質(zhì)。算法的主要步驟主要由連接步和剪枝步組成。這里不再描述連接步和剪枝步的具體實(shí)施步驟。不過Apriori算法存在一定的缺陷,如會(huì)產(chǎn)生龐大的候選集;多次掃描事務(wù)數(shù)據(jù)庫(kù)時(shí),需要很大的I/O負(fù)載。為此Jiawei Han等于2000年提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法——頻繁模式增長(zhǎng)(Frequent-Pattern Growth,F(xiàn)P-Growth)算法。該算法通過把頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵頻繁模式樹上,然后將這個(gè)壓縮后的數(shù)據(jù)庫(kù)劃分成一組條件數(shù)據(jù)庫(kù)并分別挖掘每個(gè)條件數(shù)據(jù)庫(kù),實(shí)驗(yàn)證明,采用這種方法可以克服改正數(shù)據(jù)集過大的缺點(diǎn)。

        四、圖書推薦的實(shí)現(xiàn)

        1.目前圖書推薦方面存在的問題

        (1)KNN協(xié)同過濾算法相似度計(jì)算依賴共同評(píng)分的項(xiàng)目,對(duì)數(shù)據(jù)集的大小或者說數(shù)據(jù)的稀疏程度特別敏感,數(shù)據(jù)集數(shù)量越大,往往推薦的結(jié)果越精確,但系統(tǒng)剛上線時(shí),往往數(shù)據(jù)較少,這時(shí)如果使用KNN協(xié)同過濾算法計(jì)算推薦的書籍時(shí),結(jié)果可能不盡如人意。

        (2)新用戶的問題。其實(shí)和第一個(gè)問題類似,主要是新用戶可能沒有借閱過相應(yīng)的書籍,或者借閱的數(shù)量太少,盲目使用KNN協(xié)同過濾推薦算法時(shí)并不會(huì)產(chǎn)生很好的結(jié)果。

        (3)用戶口味的變化。比如,某位讀者可能以前經(jīng)常看同一類書籍,例如,讀者平常都會(huì)借閱一些與計(jì)算機(jī)相關(guān)的書籍,可是有一天該讀者突然想看一本小說,就借了一本小說,期間讀者可能還想再看其他小說類的書籍。這時(shí)運(yùn)用算法進(jìn)行推薦時(shí),產(chǎn)生的推薦可能還會(huì)是計(jì)算機(jī)方面的書籍居多,這樣的結(jié)果就不會(huì)準(zhǔn)確。

        2.針對(duì)以上問題,我們可以將兩種算法適當(dāng)做點(diǎn)改變并加以應(yīng)用

        首先,用關(guān)聯(lián)規(guī)則算法挖掘圖書與圖書之間的關(guān)聯(lián)程度,找出強(qiáng)關(guān)聯(lián)。這可能需要大量的數(shù)據(jù)進(jìn)行模型訓(xùn)練,所以,初期的數(shù)據(jù)集可以來源于網(wǎng)絡(luò)或者其他資源,這樣就產(chǎn)生了一個(gè)巨大的關(guān)聯(lián)規(guī)則庫(kù),初期的用戶圖書推薦就可以使用這個(gè)關(guān)聯(lián)規(guī)則庫(kù)。例如用戶A的借閱記錄集合為{A,C,D,F(xiàn),G},關(guān)聯(lián)規(guī)則庫(kù){{A=>B},{D,F(xiàn)=>Z},...etc},這時(shí)候就可以把書B和書Z推薦給用戶A。隨著用戶借閱記錄的增多,關(guān)聯(lián)規(guī)則庫(kù)也會(huì)逐漸豐富,借閱數(shù)據(jù)達(dá)到一定量時(shí),可以挖掘符合本管借閱者的借閱習(xí)慣的關(guān)聯(lián)規(guī)則庫(kù)。關(guān)聯(lián)規(guī)則挖掘所需的時(shí)間較長(zhǎng),規(guī)則庫(kù)的更新可以考慮每周更新或者每月更新。

        其次,使用KNN協(xié)同過濾算法可用于實(shí)時(shí)在線的推薦,即推薦的書籍會(huì)根據(jù)用戶的借閱記錄改變而改變。這里又涉及一個(gè)問題,就是用戶喜好突然發(fā)生改變,數(shù)據(jù)中可表示為近期的借閱記錄的圖書的種類與以往借閱圖書的種類產(chǎn)生了區(qū)別,其實(shí)這種喜好變化也很難界定,因此每個(gè)人的借閱習(xí)慣不同。但我們可以大概猜測(cè)到最近的借閱記錄一般對(duì)推薦書籍的影響比較大。二八定律可以解釋生活中的一些現(xiàn)象,在這里我們也同樣可以運(yùn)用。一般來說,最近借閱的書籍對(duì)近期可能想看的書籍的影響程度是80%,而之前看的書可就只有20%。通過應(yīng)用二八定律我們可以這么界定,假設(shè)用戶A的借閱記錄如下{計(jì)算機(jī)類書A,計(jì)算機(jī)類書B,計(jì)算機(jī)類書C},假設(shè)用戶A近期突然借閱了一本文學(xué)類書D,那么用戶A的借閱記錄就可以表示成{計(jì)算機(jī)類書A,計(jì)算機(jī)類書B,計(jì)算機(jī)類書C,文學(xué)類書D},那么接下來用戶A可能就有80%的可能還想借文學(xué)類的書來看,產(chǎn)生推薦結(jié)果時(shí),也可以有80%的書籍是屬于與文學(xué)類書籍D強(qiáng)關(guān)聯(lián)的書,或者至少文學(xué)類的叢書應(yīng)占大多數(shù),這個(gè)問題的解決方案后文有闡述。

        考慮到實(shí)時(shí)推薦,響應(yīng)的時(shí)間往往是決定性因素,為了減少響應(yīng)的時(shí)間,應(yīng)該對(duì)數(shù)據(jù)集進(jìn)行精簡(jiǎn)。圖書的分類是個(gè)很好的切入點(diǎn),根據(jù)中圖分類法,書籍分為五個(gè)基本部類及下設(shè)的二十二個(gè)大類,不用通過實(shí)驗(yàn)計(jì)算,從理論上就可以知道一本相似的圖書也應(yīng)該是屬于它所在的分類,或者在父分類、子分類里。例如,讀者借閱的是一本小說類書籍,則認(rèn)為推薦給該讀者的書籍也一般是小說類。所以可以先從小說這個(gè)分類底下的所有叢書中尋找相似的圖書。如果找不到適合的可推薦的書籍,則再?gòu)淖臃诸愔胁檎?。如果圖中小說分類底下沒有子分類,則從父分類中進(jìn)行查找,即從中國(guó)文學(xué)這個(gè)分類下查找,以此類推,一般來說父級(jí)的父級(jí)類別下的書與當(dāng)前書的相關(guān)性也不高。相似程度從大到小可以分為:當(dāng)前分類>子分類>父分類。

        通過這種方式,可以大大縮短尋找可能推薦書籍的時(shí)間。

        是否可進(jìn)行推薦,主要是預(yù)測(cè)用戶對(duì)這本書可能的評(píng)分,如果大于一個(gè)閾值,則可進(jìn)行推薦。公式如下:

        其中為用戶對(duì)書籍ru,m的(預(yù)測(cè))評(píng)分,Smn為書籍m和書籍n的相似度,ru,n是用戶對(duì)書籍n的評(píng)分,書籍n的選擇就是運(yùn)用到了KNN算法找到的和書本m相似的k個(gè)“鄰居”之一。采用該算法得出的結(jié)論其實(shí)往往并不是用戶真實(shí)想得到的,為此,我們提出了兩個(gè)場(chǎng)景的假設(shè)。場(chǎng)景1:讀者讀書的喜好的變化不大,都是在一個(gè)類別下面的書,即新借閱的書籍的類型和以往的書籍基本類似。場(chǎng)景2:讀者讀書興趣比較廣泛,新借閱的書籍往往和近一段時(shí)間所借閱的書籍的類型不同,可能之前有借閱過,也有可能之前并沒有借閱過。

        針對(duì)以上兩個(gè)場(chǎng)景,可以靈活運(yùn)用這兩個(gè)算法:針對(duì)場(chǎng)景1,在數(shù)據(jù)量足夠大的前提下,可以使用KNN協(xié)同過濾算法進(jìn)行推薦。該算法很重要的一點(diǎn),是在預(yù)測(cè)一本書可能的評(píng)分時(shí),會(huì)去尋找讀者借閱記錄中與該本書相似的書,如果讀者的讀書喜好變化不大,則找到的“鄰居”就足夠多,計(jì)算結(jié)果也就更加準(zhǔn)確。而場(chǎng)景2,則采用關(guān)聯(lián)規(guī)則即可。關(guān)聯(lián)規(guī)則算法彌補(bǔ)了傳統(tǒng)協(xié)同過濾算法的不足。如遇到數(shù)據(jù)集的稀疏性和冷啟動(dòng)問題,同時(shí)針對(duì)場(chǎng)景2和上文遺留下的問題,如果發(fā)現(xiàn)用戶的喜好發(fā)生了改變,應(yīng)用二八定律,80%的書本可以為最近剛借閱的書的類似書本,20%為以前借閱的書籍的類似書。

        最后,同時(shí)對(duì)關(guān)聯(lián)規(guī)則加以挖掘,采用Apriori算法可以產(chǎn)生關(guān)聯(lián)規(guī)則,也可使用FP-Growth算法,兩者各有優(yōu)缺點(diǎn),可根據(jù)實(shí)際情況進(jìn)行選擇;不過在如此大規(guī)模數(shù)據(jù)量的情況下,F(xiàn)P-Growth算法的效率可能會(huì)更高。

        五、結(jié)語(yǔ)

        本文主要介紹了關(guān)聯(lián)規(guī)則和協(xié)同過濾算法在圖書推薦方面的應(yīng)用,在圖書應(yīng)用方面,我們可以巧妙運(yùn)用圖書分類的特點(diǎn),縮小候選圖書集,從而提高圖書推薦的效率,因而可以運(yùn)用于實(shí)時(shí)圖書推薦方面。此外,關(guān)聯(lián)規(guī)則挖掘可以發(fā)據(jù)一些潛在的、不容易讓人察覺的聯(lián)系。本文所闡述的推薦方法還有待優(yōu)化,以實(shí)現(xiàn)目標(biāo)。

        參考文獻(xiàn):

        [1]賀嘉楠,董立巖.基于權(quán)重調(diào)節(jié)的矩陣補(bǔ)全協(xié)同過濾算法的研究[D].長(zhǎng)春:吉林大學(xué),2016

        [2]梁亞聲,徐 欣.數(shù)據(jù)挖掘原理、算法與應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2015.

        [3]汪 靜.一種基于混合推薦模式的圖書推薦系統(tǒng)[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(11).

        [4]王雪梅.基于混合協(xié)同過濾推薦的圖書館管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].秦皇島:燕山大學(xué),2015.

        猜你喜歡
        協(xié)同過濾關(guān)聯(lián)規(guī)則
        圖書推薦算法綜述
        改進(jìn)的協(xié)同過濾推薦算法
        基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
        基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
        基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
        基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
        基于關(guān)聯(lián)規(guī)則和時(shí)間閾值算法的5G基站部署研究
        關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
        數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
        混合推薦算法在電影推薦中的研究與評(píng)述
        丝袜美腿一区二区在线观看| 国产精品a免费一区久久电影 | 精品蜜臀国产av一区二区| 婷婷丁香开心五月综合| 日韩人妻熟女中文字幕a美景之屋 国产suv精品一区二区四 | 亚洲国产精品午夜电影| 亚洲人妻有码中文字幕| 亚洲一区二区三区精品视频| 中文字幕亚洲综合久久| 中国国语毛片免费观看视频| 久久精品国产99精品国偷| 国产成人精品视频网站| 亚洲av综合av国一区二区三区| 国产精华液一区二区三区| 亚洲热妇无码av在线播放| 亚洲不卡中文字幕无码| 久久久久国产精品四虎| 日日噜噜噜夜夜狠狠久久蜜桃 | 无码国产午夜福利片在线观看| 中文字幕avdvd| 久久青青草原亚洲av| 亚洲色图在线免费观看视频| 国产免费一区二区三区免费视频 | 神马影院日本一区二区| 中文字幕中文有码在线| 236宅宅理论片免费| 欧洲AV秘 无码一区二区三 | 日韩人妻精品视频一区二区三区| 99999久久久久久亚洲| 丰满人妻被黑人中出849 | 亚洲av无码av制服另类专区| 精品无码久久久久久久久粉色| 一本久久综合亚洲鲁鲁五月夫| 国产黑丝美女办公室激情啪啪| 国产乱人偷精品人妻a片| 最近日本中文字幕免费完整| 久久亚洲aⅴ精品网站婷婷| 爱爱免费视频一区二区三区| 琪琪色原网站在线观看| 成人白浆超碰人人人人| 久久夜色精品国产噜噜噜亚洲av|