亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的圖書智能推薦系統(tǒng)

        2018-08-06 19:35:08武翔
        智富時代 2018年6期
        關鍵詞:推薦系統(tǒng)數(shù)據(jù)挖掘算法

        武翔

        【摘 要】在傳統(tǒng)圖書館服務中,用戶主要通過搜索來獲取所需信息,這是一種被動的服務方式,只能滿足用戶的基本需求。和搜索相比,推薦系統(tǒng)能通過研究用戶的歷史行為,發(fā)現(xiàn)用戶的興趣偏好,據(jù)此主動為用戶提供推薦服務。不但可以使用戶獲得滿意的結(jié)果,還能引導用戶發(fā)現(xiàn)自己的潛在需求。將推薦技術應用于圖書館系統(tǒng),是圖書館實現(xiàn)信息服務的有效手段,可以有效提高圖書館的服務質(zhì)量和圖書資源的利用率。本文提出一種多算法并行的混合推薦方法來產(chǎn)生推薦結(jié)果,滿足業(yè)務需求。

        【關鍵詞】推薦系統(tǒng);混合推薦;數(shù)據(jù)挖掘;圖書推薦;算法

        一、智能推薦系統(tǒng)概述

        (一)什么是推薦系統(tǒng)

        隨著信息技術和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時代走入了信息過載的時代。在這個時代,無論是信息消費者還是信息生產(chǎn)者都遇到了很大的挑戰(zhàn):作為信息消費者,如何從大量信息中找到自己感興趣的信息是一件非常困難的事情;作為信息的生成者,如何讓自己生產(chǎn)的信息脫穎而出,受到廣大用戶的關注,也是一件非常困難的事情。推薦系統(tǒng)就是解決這一矛盾的重要工具。推薦系統(tǒng)的主要任務就是聯(lián)系用戶和信息,一方面幫助用戶發(fā)現(xiàn)對自己有價值的信息,另一方面讓信息能夠展現(xiàn)在對它感興趣的用戶面前,從而實現(xiàn)信息消費者和信息生產(chǎn)者的雙贏。

        (二)智能推送系統(tǒng)總體設計

        本系統(tǒng)根據(jù)業(yè)務場景,將混合推薦系統(tǒng)分為以下四大模塊:

        * 猜你喜歡模塊

        猜你喜歡模塊是整個系統(tǒng)最核心也是最重要的業(yè)務子模塊之一,根據(jù)用戶的實時收藏記錄進行實時計算,并實時推薦計算結(jié)果到前端進行展示。

        * 相似圖書模塊

        相似圖書模塊是根據(jù)圖書自身的屬性進行推薦(例如簡介、摘要、作者信息、關鍵詞、標簽、中圖法分類信息、評分等字段),對圖書之間的相似度進行度量和智能排序,結(jié)合用戶的離線瀏覽數(shù)據(jù)進行計算并最終在前端進行展示。

        * 相似用戶模塊

        相似用戶模塊是利用用戶本身的收藏、瀏覽等行為數(shù)據(jù)實時推薦與其相似的用戶。

        * 日志分析模塊

        日志分析模塊通過對用戶在平臺產(chǎn)生的瀏覽記錄進行離線分析、挖掘和計算,向其推薦圖書和相似用戶。日志分析模塊和猜你喜歡模塊互為一個完備事件組,對于沒有強行為(如收藏行為)的用戶,可以通過日志分析得到精確的推薦結(jié)果。從而保證了業(yè)務的完備性。

        每個業(yè)務模塊獨立對應一種業(yè)務場景并承接一項計算任務,有離線計算也有在線實時計算,彼此相互協(xié)作卻互不干擾。從而有效保證了業(yè)務的完備性,計算的實時性,結(jié)果的可解釋性。

        二、猜你喜歡模塊

        (一)模塊邏輯結(jié)構

        猜你喜歡是整個推薦系統(tǒng)最核心的模塊之一,通過Redis發(fā)布訂閱模式監(jiān)聽主題對象,當用戶在前端產(chǎn)生行為時觸發(fā)猜你喜歡模塊并進行實時計算,結(jié)果會直接插入redis中。為了保證實時計算效率,在模塊設計中引入聚類思想。在程序觸發(fā)之前,已離線計算出各簇的相似用戶。當新用戶發(fā)生觸發(fā)行為時,匹配最近的簇并與簇內(nèi)用戶進行相似度計算。如此設計,可以大幅提升算法的實時性。

        (二)模塊功能

        猜你喜歡算法借鑒了協(xié)同過濾的基本思想,大幅提升計算的效率來保證用戶喜歡一本圖書后,結(jié)果反饋的實時性和準確性。同時算法還讀取了用戶的歷史收藏數(shù)據(jù)來組成共同的索引向量,以保證該向量能最大程度的反應當前用戶的偏好。

        目前,該算法根據(jù)功能流程劃分為以下四部分:

        * 數(shù)據(jù)預處理:對數(shù)據(jù)進行清洗和轉(zhuǎn)化,輸出給算法

        * K-均值算法:對用戶進行聚類分析

        * 協(xié)同過濾算法:加權計算推薦結(jié)果

        * 推薦模塊:綜合所有計算結(jié)果進行處理,智能排序,降低熱門圖書權重等功能。

        (三)核心算法原理簡述

        1.K-均值聚類算法

        K-means算法是硬聚類算法,是典型的基于原型的目標函數(shù)聚類方法的代表,它是數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標函數(shù),利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則。K-means算法以歐式距離作為相似度測度,它是求對應某一初始聚類中心向量V最優(yōu)分類,使得評價指標J最小。算法采用誤差平方和準則函數(shù)作為聚類準則函數(shù)。

        2.基于用戶的協(xié)同過濾算法

        協(xié)同過濾根據(jù)用戶對項目的評分來產(chǎn)生推薦,是目前在推薦系統(tǒng)應用最成功和廣泛的推薦技術。根據(jù)推薦生產(chǎn)過程的不同,通??梢詫f(xié)同過濾算法分為基于用戶的過濾和基于物品的過濾。本系統(tǒng)主要采用了基于用戶的協(xié)同過濾算法來產(chǎn)生推薦結(jié)果。根據(jù)算法的基本原理,可以把算法的實施分為四個階段:(1)用戶相似性計算;(2)選擇近鄰;(3)預測評分;(4)推薦?;趨f(xié)同過濾的推薦算法,實施簡單有效,可以發(fā)現(xiàn)用戶潛在的但自己尚未察覺的興趣偏好。但是,當用戶的評分數(shù)據(jù)較少時,這一方法無法產(chǎn)生推薦結(jié)果。當系統(tǒng)的數(shù)據(jù)規(guī)模不斷擴大后,推薦效率又會受到影響。

        三、相似圖書模塊

        (一)模塊邏輯結(jié)構

        相似圖書模塊,在整個大數(shù)據(jù)推薦系統(tǒng)中處于離線部分,系統(tǒng)每日會定期計算當前日期前30天的用戶瀏覽圖書數(shù)據(jù)并和庫內(nèi)所有圖書計算相似度后插入redis數(shù)據(jù)庫中。如此設計可以很大程度降低redis數(shù)據(jù)庫的存儲壓力,方便后臺進行快速讀寫。提高讀寫效率。

        (二)模塊流程

        相似圖書算法借鑒了基于內(nèi)容推薦算法的思想,利用余弦相似度計算稀疏矩陣得到相似度矩陣。常用的距離度量方式有:皮爾遜系數(shù)、余弦相似度、曼哈頓距離、阿基米德距離等。這里選用余弦相似度進行度量,好處在于余弦相似度可以在任何維度的向量中進行比較。尤其在高維空間中表現(xiàn)突出。因為圖書內(nèi)容屬于文本向量,分詞后維度很高,所以在圖書推薦算法設計時,距離的度量均采用余弦相似度進行度量。

        根據(jù)20/80法則,熱門圖書與用戶經(jīng)常瀏覽的圖書只占有數(shù)據(jù)庫量級的很小一部分。如果遍歷數(shù)據(jù)庫所有圖書來進行相似度的計算,會造成難以想象的時間復雜度和空間復雜度,并且計算量隨圖書量級的增長所消耗時間會呈現(xiàn)指數(shù)形式上升。為避免這種情況的出現(xiàn),在設計相似圖書算法的時候,采用日志數(shù)據(jù)和相似圖書計算相結(jié)合方式,同時引入隨機模塊,在保證非齊次性的同時,避免了重復性。

        (三)核心算法原理簡述

        1.基于內(nèi)容的推薦算法

        基于內(nèi)容的信息推薦方法的理論依據(jù)主要來自于信息檢索和信息過濾,所謂的基于內(nèi)容的推薦方法就是根據(jù)用戶過去的瀏覽記錄來向用戶推薦用戶沒有接觸過的推薦項。主要是從兩個方法來描述基于內(nèi)容的推薦方法:啟發(fā)式的方法和基于模型的方法。啟發(fā)式的方法就是用戶憑借經(jīng)驗來定義相關的計算公式,然后再根據(jù)公式的計算結(jié)果和實際的結(jié)果進行驗證,然后再不斷修改公式以達到最終目的。而對于模型的方法就是根據(jù)以往的數(shù)據(jù)作為數(shù)據(jù)集,然后根據(jù)這個數(shù)據(jù)集來學習出一個模型。一般的推薦系統(tǒng)中運用到的啟發(fā)式的方法就是使用tf-idf的方法來計算,然后再根據(jù)被推薦項中的權重高的關鍵字來作為推薦項的屬性特征,然后再將這個兩個向量最相近的(與用戶特征的向量計算得分最高)的項推薦給用戶。在計算用戶特征向量和被推薦項的特征向量的相似性時,一般使用的是cosine方法,計算兩個向量之間夾角的cosine值。

        四、相似用戶模塊

        (一)模塊邏輯結(jié)構

        相似用戶模塊邏輯與猜你喜歡基本相同,只是最終計算方式有所不同。

        (二)核心算法原理簡述

        1. TF-IDF轉(zhuǎn)換概述

        TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF實際上是:TF * IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。

        某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。

        五、日志分析模塊

        (一)模塊邏輯結(jié)構

        日志分析主要針對沒有顯性數(shù)據(jù)的用戶,如沒有收藏、點贊、評分等顯性行為。通過分析其瀏覽行為來進行推薦的方式。對于本系統(tǒng),每日會定時分析當天用戶的瀏覽日志,通過智能算法對當天用戶感興趣的圖書進行建模分析,做出圖書推薦。

        日志分析模塊主要是為了保證業(yè)務邏輯上的完備性,對于平臺用戶,可能很大一部分都不會產(chǎn)生顯性數(shù)據(jù),對于之前的猜你喜歡模塊是無法進行圖書和相似用戶推薦。通過引入用戶的瀏覽日志,可以有效解決這一問題,保證了業(yè)務的完備性。

        六、新書熱門推薦及冷啟動問題

        (一)冷啟動問題

        推薦系統(tǒng)需要根據(jù)用戶的歷史行為和興趣預測用戶未來的行為和興趣,因此,大量的用戶行為數(shù)據(jù)就成為推薦系統(tǒng)的重要組成部分和先決條件。

        對于圖書推薦系統(tǒng)而言,在沒有歷史數(shù)據(jù)之前,冷啟動問題是一個非常嚴峻的挑戰(zhàn)。這需要在沒有用戶數(shù)據(jù)前就根據(jù)用戶的瀏覽行為做出相應的推薦。

        本系統(tǒng)在設計之處就考慮到冷啟動問題,目前通過兩種設計方案解決冷啟動問題:

        1.借助外部用戶數(shù)據(jù)來解決系統(tǒng)冷啟動問題:

        通過網(wǎng)絡采集和抓取海量和圖書相關的用戶數(shù)據(jù)、用戶收藏數(shù)據(jù)、用戶評分數(shù)據(jù)、用戶評論、美文等數(shù)據(jù),通過清洗、去重、歸一化等處理后,作為系統(tǒng)自身冷啟動的原始數(shù)據(jù)。

        2.采用基于圖書本身內(nèi)容的推薦算法來作為推薦的底層數(shù)據(jù):

        基于內(nèi)容算法的本質(zhì)是用圖書自身的屬性作為參數(shù)進行關聯(lián)和計算。比如對于圖書的作者、標簽、評論、美文等信息通過分詞或建立主題模型組成一條向量來代表圖書本身,這樣就可以通過向量之間的計算等價代換到圖書之間、用戶之間相似度間的度量。

        (二)新書、熱門圖書

        對于新書和熱門模塊,系統(tǒng)會根據(jù)用戶瀏覽、收藏、評分、點贊等信息進行智能排序、智能推薦。一方面,系統(tǒng)實時抓取版署新出版圖書信息,滿足新書速遞的要求,另一方面,系統(tǒng)會根據(jù)新書本身的內(nèi)容和網(wǎng)絡數(shù)據(jù)對新書進行綜合排序,智能推薦給讀者用戶。

        七、總結(jié)

        本方案將基于內(nèi)容的算法、協(xié)同過濾技術、聚類等算法思想結(jié)合在一起,一個新的自動化推薦機制展示了出來。該方案具有以下優(yōu)勢:

        * 基于圖書內(nèi)容的推薦可以有效解決圖書推薦冷啟動的問題,

        * 協(xié)同過濾可以匹配相似用戶之間未發(fā)覺的興趣愛好,同時基于用戶的協(xié)同過濾在聚類時可以大幅降低系統(tǒng)的時間復雜度,避免維災難。通過混合推薦可以有效避免熱門資源始終被推薦,使系統(tǒng)更為強健。

        * 引入隨機模塊和正則模塊,挖掘圖書長尾市場,避免推薦的齊次性和重復性。

        * 日志分析模塊保證了業(yè)務的完備性,對于沒有強行為的用戶也可以通過瀏覽日志進行推薦。

        * 算法再學習模塊,保證了隨著平臺數(shù)據(jù)的積累,算法的不斷自動調(diào)優(yōu)和智能推薦效果的提升。

        【參考文獻】

        [1] 江寶林,張淵.基于互關聯(lián)后繼樹的WEB日志挖掘[J].計算機應用與軟件,2004(05).

        [2] 楊明.基于數(shù)據(jù)挖掘技術的個性化教學研究[D].云南大學,2004.

        [3] 文春勇.基于關聯(lián)規(guī)則的推薦系統(tǒng)在數(shù)字圖書館中的應用[J].情報科學, 2007(6).

        [4] 楊焱.基于項目聚類的協(xié)同過濾推薦算法的研究[D].東北師范大學,2005.

        猜你喜歡
        推薦系統(tǒng)數(shù)據(jù)挖掘算法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        進位加法的兩種算法
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于用戶偏好的信任網(wǎng)絡隨機游走推薦模型
        基于個性化的協(xié)同過濾圖書推薦算法研究
        個性化推薦系統(tǒng)關鍵算法探討
        淺談Mahout在個性化推薦系統(tǒng)中的應用
        一種改進的整周模糊度去相關算法
        成年无码av片在线| 人妻少妇中文字幕久久hd高清| 在线观看的a站免费完整版| 强d乱码中文字幕熟女免费| 乱色精品无码一区二区国产盗| 精品欧洲av无码一区二区三区| 国产精品午夜波多野结衣性色| 国模一区二区三区白浆| 亚洲三级中文字幕乱码| 一个人看的www片免费高清视频 | 少妇人妻av一区二区三区| 成人免费在线亚洲视频| 国产精品一卡二卡三卡| 国产香蕉97碰碰视频va碰碰看 | 一本一本久久久久a久久综合激情| 91国产自拍视频在线| 天堂丝袜美腿在线观看| 隔壁老王国产在线精品| 国产成人免费一区二区三区| 亚洲ⅤA中文字幕无码| 亚洲天堂av中文字幕| 电驱蚊液可以插一晚上吗| 免费a级毛片18以上观看精品| 亚洲av无码资源在线观看| 一区二区三区四区亚洲综合| 日本一区二区不卡二区| 日韩欧美aⅴ综合网站发布| 国产精品免费大片| 97色综合| 国产中文字幕一区二区视频| 手机在线看片| 国产麻豆精品久久一二三| 日韩中文字幕精品免费一区| 操国产丝袜露脸在线播放| 亚洲国产婷婷香蕉久久久久久 | 人妻少妇av无码一区二区| 无码AⅤ最新av无码专区| 精品亚洲一区二区三洲| 成人免费看aa片| 亚洲精品无码不卡av| 视频女同久久久一区二区三区|