王 艷
(浙江越秀外國語學院東部理工數(shù)據科學與傳播學院 浙江 紹興 312000)
互聯(lián)網上的信息量迅速增加,已經讓搜索引擎的弊端變得更加突出,而現(xiàn)在許多人在上網時都沒有明確的需求指向和瀏覽目的,因此信息獲取出現(xiàn)困難。個性化推薦技術,可以通過對用戶的歷史行為和商品的關聯(lián)進行分析,從而為用戶提供一系列的商品,以此形成一種新的信息獲得方法,這種方式將會成為互聯(lián)網發(fā)展下一個十年的熱門話題[1-2]。當前,現(xiàn)有信息推薦系統(tǒng)是由候選對象、用戶和推薦算法共三部分組成。推薦系統(tǒng)對用戶的行為進行明確或隱含的分析,然后利用自己的個性化推薦算法,將用戶與符合其喜好的商品進行關聯(lián),最后將其歸類到用戶端[3]。但現(xiàn)有推薦系統(tǒng)在實際應用中無法確保最終推薦結果中的所有信息內容均為用戶所需,因此大量的利用價值不高的信息存在于推薦過程中會造成推薦系統(tǒng)運行負擔加重,同時也會導致推薦效率降低。因此,針對這一問題,本文在引入協(xié)同過濾算法的基礎上,開展對大數(shù)據中信息推薦系統(tǒng)的設計研究。
基于大數(shù)據中信息推薦的需要,在對系統(tǒng)設計時,將數(shù)據采集、數(shù)據處理、推薦結果反饋等組合,構建一個具有實時性、個性化特點的推薦系統(tǒng)。本文設計的推薦系統(tǒng)共包含三個基本模塊,分別為offline 模塊、online模塊和Data tables 模塊[4]。三個模塊分別用于:定期對推薦目標用戶聚類;統(tǒng)計和更新推薦目標用戶的相關統(tǒng)計信息;數(shù)據存儲并生成用戶數(shù)據表UT 和信息數(shù)據表ST。圖1為信息推薦系統(tǒng)模塊集成設計圖。
圖1 信息推薦系統(tǒng)模塊集成設計圖
根據信息推薦系統(tǒng)的運行需要,將系統(tǒng)中的模塊集成在由用戶瀏覽層和推薦響應層兩部分組成的系統(tǒng)框架當中。在用戶瀏覽器層中,當用戶在對某一信息瀏覽時,前端與用戶點擊服務器進行通訊,將用戶u的UserId 傳送給用戶點擊服務器,被單擊信息s的ItemID 和單擊時間C1ickTime 均由用戶點擊服務器接收,同時由系統(tǒng)要求將這一單擊記錄寫入到用戶數(shù)據表UT,在此期間中獲得點擊記錄表C1ickList。用戶點擊服務器,使用此點擊記錄表C1ickList 將與信息s相關的伴隨瀏覽信息傳輸、并更新相關統(tǒng)計信息[5]。為了提高系統(tǒng)的效率,可以對用戶點擊服務器進行相應的緩沖操作。
在明確信息推薦系統(tǒng)的各個模塊以及整體框架后,對推薦目標用戶主題興趣進行預測。將大數(shù)據當中所有的信息按照主題劃分為多個類別,并共同組成一個完整的集合C。通過對推薦目標用戶在不同信息主題下的點擊頻次統(tǒng)計,得到一個矢量D(u,t),該矢量表示為推薦目標用戶u在某一時段內的主題興趣信息,其中t的取值可以為1 周或幾周。該矢量的表達式為:
公式中,Ni表示用戶u在某一時段t內對某一主題信息的點擊頻次,i的取值為1,2,3,…,n;Nt表示用戶u在某一時段t中對所有主題信息的總點擊頻次。在此基礎上,通過下述公式,計算得出在某一時間段內推薦目標用戶對主題Ci的興趣,即用戶在規(guī)定時間段內點擊Ci的概率:
公式中,interest(category=Ci)表示用戶在規(guī)定時間段內點擊Ci的概率;pt(category=Ci|click)表示推薦目標用戶在某一時段中點擊主題信息為Ci的信息概率;pt(category=Ci)表示一條信息屬于主題Ci的概率。通過上述公式計算可以預測得出推薦目標用戶的主題興趣,為后續(xù)推薦信息的相似度計算和推薦結果生成提供依據。
結合協(xié)同過濾算法,利用系統(tǒng)當中已有的用戶群過去的瀏覽行為,預測推薦用戶最有可能感興趣的信息[6]。在這一過程中,建立協(xié)同過濾的基礎矩陣,如表1所示。
表1 協(xié)同過濾矩陣
在表1所示的協(xié)同過濾矩陣當中,每一行代表一個用戶(表1中包含用戶A、用戶B 和用戶C);每一列代表一個主題信息(表1中包含主題信息I、主題信息Ⅱ、主題信息Ⅲ和主題信息IV)。表1協(xié)同過濾矩陣當中對應的數(shù)值即為用戶對該主題信息的評分?;谟脩舻膮f(xié)作過濾技術,通過一組已知的用戶分數(shù)和現(xiàn)有用戶的分數(shù),找到具有相同喜好的用戶群體。向用戶推薦一些類似的、但是目前用戶未知的主題信息[7]。在上述協(xié)同過濾矩陣的基礎上,針對推薦系統(tǒng)當中用戶u和用戶v的余弦相似度計算:
公式中,sim(u,v)表示用戶u和用戶v的余弦相似度,即兩名用戶矢量之間的余弦夾角。通過上述計算,得出的sim(u,v)值越小,則說明兩名用戶越相似;反之,若得出的sim(u,v)值越大,則說明兩名用戶越不相似。根據上述公式,確定兩名用戶的相似度。在此基礎上,針對推薦信息的相似度計算,將某一主題信息與主題信息作為矢量,同樣參照上述式(3)計算得出兩個主題信息之間的相似度。
在確定用戶之間相似度和主題信息之間相似度后,結合計算結果,對大數(shù)據當中存在的海量信息過濾,并生成相應的推薦結果[8]。在過濾時,設置用戶與用戶之間相似度閾值、主題信息與主題信息之間相似度閾值。通過將計算得出的結果與閾值的比較,將在閾值范圍內的主題信息保留,將不在其范圍內的主題刪除。根據上述操作得到的過濾結果更加符合推薦目標用戶對信息獲取的需要。在生成推薦結果時,引入機器學習,在推薦系統(tǒng)沒有獲得明確的推薦指令時,高效完成特定推薦任務。利用機器學習的方式實現(xiàn)對主題信息表面特征和語義特征的提取,并按照下述公式完成特征融合:
公式中,V表示經過融合后的主題信息特征;W0(t)和W1(t)表示兩種主題信息的表面特征量化數(shù)值;V0(t)和V1(t)表示兩種主題信息的語義特征量化數(shù)值W0和W1表示所有主題信息的特征量化數(shù)值。根據上述公式,完成對主題信息的特征融合。利用推薦系統(tǒng)中的分類器對主體特征類型劃分。在推薦系統(tǒng)當中分別引入四個分類器,依次完成對營銷類、敏感類、低俗類和無用類信息的過濾。在完成過濾后,對分類結果處理,并收集過濾結果,將過濾結果輸出,此時得到的過濾結果即為推薦系統(tǒng)為推薦目標用戶挑選的主題信息,以此實現(xiàn)對用戶的信息推薦。
針對本文對比實驗所需的Stack8.0 平臺安全運行的實驗條件,設置復雜的大數(shù)據網絡環(huán)境,用于為三種推薦系統(tǒng)提供運行所需。選擇將基于協(xié)同過濾算法的推薦系統(tǒng)作為實驗組,將基于信息覓食理論的推薦系統(tǒng)和基于復合型算法的推薦系統(tǒng)作為對照組。將三種推薦系統(tǒng)應用到上述實驗環(huán)境中,分別從系統(tǒng)自身運行性能角度和推薦效果角度,實現(xiàn)對三種系統(tǒng)綜合應用效果的對比。在實驗開始前,選擇將MovieLens 100 k 數(shù)據集作為實驗用數(shù)據集,該數(shù)據集為GroupLens Research 提供的,用于為推薦系統(tǒng)提供典型測試用例的數(shù)據集。在該數(shù)據集當中包含了526 名用戶針對不同主題給出的超過100 000 條的評價內容,每一位用戶的評價內容記錄在10 條以上,包含了眾多信息要素。將該數(shù)據集以隨機劃分的方式,以80%的數(shù)據作為訓練數(shù)據集,將剩余20%的數(shù)據作為測試數(shù)據集。
在完成上述準備工作后,先針對三種推薦系統(tǒng)的運行性能對比。將推薦系統(tǒng)運行過程中受噪聲信息的干擾程度作為對系統(tǒng)運行性能對比的指標。在實驗過程中,共設置9種噪聲干擾等級,從T1等級到T9等級噪聲強度逐漸增加,其中T1 等級噪聲為30 dB,T9 等級噪聲為120 dB。計算得出三種推薦系統(tǒng)在不同噪聲干擾情況下的具體影響程度。為確保實驗的客觀性,三種推薦系統(tǒng)需要在相同的運行環(huán)境中完成此次實驗。在完成實驗后,將得到的結果記錄如表2所示。
表2 三種推薦系統(tǒng)運行性能對比表
根據表2數(shù)據得出的實驗結果能夠初步證明,三種推薦系統(tǒng)中,實驗組推薦系統(tǒng)的運行性能更理想,在實際應用中不會受到噪聲的干擾,能夠確保推薦系統(tǒng)給出的推薦信息結果與用戶端向用戶展示的推薦信息一致。
為實現(xiàn)對推薦效果的對比,仍然選擇將上述測試數(shù)據集為推薦條件,針對5 名用戶,綜合其興趣偏好、行為習慣等,從測試數(shù)據集中挑選出符合各個系統(tǒng)推薦要求的信息推薦結果。由5 名用戶針對推薦結果給出相應的評分。為確保公正性,評分過程中,需要結合MinHash 算法給出規(guī)范的評分結果。記錄三種推薦系統(tǒng)針對5 名推薦用戶給出的推薦結果的score值,并繪制成圖2所示。
圖2 三種推薦系統(tǒng)推薦效果對比圖
由圖2可知,實驗組推薦系統(tǒng)能夠為用戶提供更符合其主題興趣的推薦信息,并且有利于促進信息利用價值的提升。
本文在引入協(xié)同濾波算法的基礎上,提出了一種新的針對海量大數(shù)據中信息資源推薦的系統(tǒng)。通過將該系統(tǒng)與其他現(xiàn)有兩種推薦系統(tǒng)應用到相同的運行環(huán)境當中,從系統(tǒng)自身運行性能和推薦效果兩方面均證明新系統(tǒng)更具優(yōu)勢。盡管該系統(tǒng)具備極高的推薦精度效果,但仍然存在一定問題。例如該系統(tǒng)與用戶之間的交互性較弱,未綜合考慮到信息與用戶的相關性等。因此,針對上述存在的問題,在后續(xù)的研究當中,還將結合更具現(xiàn)代化的技術手段,對推薦系統(tǒng)進行更深入的研究。