喬娟
摘要:用戶在網(wǎng)絡平臺瀏覽過程中可能會看到一些與自己想要購買的息息無關的網(wǎng)上商品,影響了用戶在網(wǎng)上的購物和體驗,會直接導致用戶大量流失,降低了購物平臺的效率和轉化。要想增加用戶的消費黏度,就需為用戶提供個性化的產品和服務?;?Hadoop平臺的電影推薦系統(tǒng),是為了解決個性化推薦的問題而設計。以網(wǎng)絡電影作為影片推薦的主要研究數(shù)據(jù)對象,選擇基于影片內容的電影推薦方式算法和基于內容協(xié)同數(shù)據(jù)過濾的電影推薦方式算法相關性結合的兩種算法,通過兩種電影推薦方式算法數(shù)據(jù)進行綜合計算后所得到的兩個電影相關性推薦系數(shù)值并進行了隨機組合,得到最終值的電影推薦相關性矩陣,構建了一個電影推薦關系網(wǎng)。
關鍵詞:電子商務系統(tǒng),個性化推薦,Hadoop,MapReduce,協(xié)同過濾
1.緒論
1.1推薦系統(tǒng)介紹
推薦系統(tǒng)是為了防止信息過載而采用的一種措施,面對海量數(shù)據(jù)信息,從中迅速地推薦出一些符合用戶需求特點的物品,解決了一些人的"選擇恐懼癥"。
推薦系統(tǒng)通過分析發(fā)掘這些用戶的消費行為,找到這些用戶的各種個性化消費需求,從而將商品準確及時地推薦給需要的用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難及時發(fā)現(xiàn)的商品。
1.2推薦系統(tǒng)的目的
(1)讓用戶更快更好的獲取到自己需要的內容。
(2)讓內容更快更好的推送到喜歡它的用戶手中。
(3)讓網(wǎng)站更有效的保留用戶資源。
1.3推薦系統(tǒng)的基本思想
(1)知你所想,精準推送
利用每個用戶和推薦物品的不同特征和相關信息,為用戶推薦那些自己喜歡的物品。
(2)物以類聚
利用用戶喜歡的物品,給用戶推薦與他喜好相似的物品。
(3)人以群分
利用和自己相似的其他用戶,推薦和他們的興趣愛好相似的其他用戶最感興趣的物品。
1.4推薦系統(tǒng)的數(shù)據(jù)分析
(1)需要向用戶提供推薦有關物品或服務內容的相關元數(shù)據(jù),例如關鍵詞數(shù)字,分類產品標簽,基因結構描述等;
(2)系統(tǒng)收集用戶的基本資料,例如性別,年齡,興趣標簽等;
(3)用戶的動態(tài)和行為資料,可以被轉化成用戶對于物品或信息的喜愛和偏好,根據(jù)用戶應用本身的差異可能還會包含用戶對于物品的評價;用戶在網(wǎng)上查看以及購買商品的情況和消費記錄,購買用戶的偏愛信息大致可以劃分為兩種類型:
·顯式的用戶反饋:這類是用戶在網(wǎng)站上瀏覽或者使用網(wǎng)站以后提供的反饋信息,例如用戶對物品的評分,或者對物品的評論。
·隱式的個人用戶反饋:這類數(shù)據(jù)是用戶在通過網(wǎng)絡使用個人網(wǎng)站時所產生的信息和數(shù)據(jù),隱式的反應了一個用戶對于物品的偏愛,例如一個用戶已經購買了某件物品,用戶已經查看了某件物品的相關信息等。
2.推薦系統(tǒng)算法
2.1基于人口統(tǒng)計學的推薦算法
基于人口統(tǒng)計學的推薦機制是一種容易設計和實現(xiàn)的推薦方法,它能根據(jù)系統(tǒng)用戶的基本信息去發(fā)現(xiàn)相關程度,然后將相似用戶喜歡的物品推薦給當前用戶。
對于沒有明確含義的用戶信息(比如登錄時間、地域等上下文信息),可以通過聚類等手段,給用戶打上分類標簽。
對于特定標簽的用戶,又可以根據(jù)預設的規(guī)則(知識)或者模型,推薦出對應的物品
用戶信息標簽化的過程一般又稱為用戶畫像(User?Profiling)
2.2基于人口統(tǒng)計學的推薦和用戶畫像
Content-based?Recommendations?(CB)?根據(jù)用戶過去潛在需要的相關物品或其他內容元素的數(shù)據(jù),發(fā)現(xiàn)相似度與物品的潛在關聯(lián)度,再基于用戶以前商品的興趣偏好和使用記錄,為需要用戶進行推薦相似度的物品。
通過從物品圖像中直接分析抽取一個具體物品的內在或者外部圖像特征收集數(shù)據(jù)并用來對其物品進行圖像相似性的分析計算。
將一個特定用戶(user)的物品個人信息(基于自己的興趣喜好進行記錄或者可能是自己預置了感興趣的物品標簽),和一個特定物品(item)的物品特點信息進行直接匹配,這樣可以直接得到一個物品用戶對自己喜愛的物品特點有預置興趣的不同程度
2.3?基于內容的推薦與特征工程
對于物品的特征提取?——?打標簽(tag)
對于文本信息的特征提取?——?關鍵詞
2.4?基于協(xié)同過濾的推薦算法基于近鄰的協(xié)同過濾
基于用戶(User-CF)
基于物品(Item-CF)
基于模型的協(xié)同過濾
奇異值分解(SVD)
潛在語義分析(LSA)
支撐向量機(SVM)
3.電影推薦系統(tǒng)設計
3.1?系統(tǒng)模塊設計
本系統(tǒng)設計主要分三大模塊:基于模型的推薦、系統(tǒng)過濾的推薦和基于內容的推薦。提供用戶的服務又細化為:實時推薦服務、離線推薦服務和內容檢索服務。最后通過用戶的評價,分析用戶的喜好,周期性的更新電影。
3.2?統(tǒng)計推薦模塊
(1)歷史熱門電影統(tǒng)計
根據(jù)所有歷史評分數(shù)據(jù),計算歷史評分次數(shù)最多的電影
(2)近期熱門電影統(tǒng)計
根據(jù)評分,按月為單位計算最近月份評分最多的電影集合
(3)電影平均評分統(tǒng)計
根據(jù)所有的在線用戶對每更新一部在線電影平均進行評分,周期性地自動計算每更新一部在線電影的平均用戶得分。
(4)各類別Top10評分電影統(tǒng)計
按照網(wǎng)站提供的全部電影類別,分析出各種類型的影片在綜合評價中排名為前10的電影。
3.3?離線推薦模塊
(1)用ALS算法訓練隱語義模型
(2)計算用戶推薦矩陣
(3)計算電影相似度矩陣
4.?總結
本文介紹了以電影推薦算法為代表的個性化推薦系統(tǒng),選擇混合算法對所有電影的相關性進行了計算和分析,實現(xiàn)了本文對電影推薦算法的綜合算法。
電影推薦系統(tǒng)能夠為人們量身定制各種不同的個性化推薦。隨著用戶體驗的要求越來越高,系統(tǒng)的響應速度必須被充分納入Web應用的用戶體驗重要指標,傳統(tǒng)的電子商務推薦系統(tǒng)擴展性差和計算耗費大量時間讓人難以接受。雖然不斷有各種高效的推薦算法提出,但是這些算法面對海量數(shù)據(jù)的表現(xiàn)仍然差強人意。通過不斷改進算法的本身來提高計算效率的提升空間越來越小。所以針對目前的個性化推薦系統(tǒng)的改進,需要考慮到平臺存儲、高性能和擴展性問題。Hadoop平臺的分布式文件系統(tǒng)HDFS和分布式批處理框架MapReduce不僅能夠存儲不斷增長的海量數(shù)據(jù),也能對數(shù)據(jù)進行并行化處理,提高算法性能的和系統(tǒng)的響應速度,使個性化推薦系統(tǒng)更能適應海量數(shù)據(jù)的發(fā)展要求.
參考文獻
[1]崔天明,劉瑋.基于大數(shù)據(jù)技術的個性化在線教育系統(tǒng)設計[J].現(xiàn)代電子技術,2021,44(05):175-180.
[2]王世杰,高鑫,許舒翔.一種基于深度學習的推薦系統(tǒng)協(xié)同雙向約束算法分析[J].微型電腦應用,2021,37(02):163-165.
[3]張偉娜,基于深度學習與矩陣分解的推薦算法研究[D].華南理工大學,2020.
[4]王藝航.?基于深度學習的推薦算法研究[D].廣東工業(yè)大學,2020.
[5]伍倩瑩.電商個性化推薦系統(tǒng)在圖書購物網(wǎng)站的應用研究[J].現(xiàn)代營銷(信息版),2020(03):207-208.
[6]尚立.基于協(xié)同過濾的改進課程推薦算法[J].科技傳播,2020,12(05):132-134.