王鈞玉
摘 要: 為了解決網絡由于寬帶擁堵、內容冗長等引起信息資源的共享水平與共享效率下降的問題,設計了一種基于播存網絡環(huán)境下的UCL(Uniform Content Locator)協(xié)同過濾推薦方法。采用播存網絡利用“一點對無限點”物理廣播式方法,對共享信息資源進行分發(fā),能夠有效地解決這一問題。通過研究結果分析可知,相比于傳統(tǒng)的方法,此種推薦方法不但推薦精度比較高,同時還能夠為新的UCL賦予較高的推薦優(yōu)先級,并且為UCL的時效性與熱度提供重要保障。因此,更適合應用在播存網絡環(huán)境下的UCL的推薦。
關鍵詞: 播存網絡; 協(xié)同過濾; 預測
中圖分類號: TP 393 文獻標志碼: A 文章編號: 1671-2153(2018)03-0089-04
播存網絡環(huán)境下傳統(tǒng)協(xié)同過濾推薦方法[1-4]的缺點主要體現在以下幾方面:第一,推薦精度不高,尤其是在數據稀疏時。通常情況下,已知數據均較為稀疏,這種情況下,協(xié)同過濾時對相似度的計算就會變得不夠精準。第二,容易忽視用戶的潛在興趣。傳統(tǒng)的協(xié)同過濾方法,對用戶或者項目之間的相似度過于依賴,進而使得在推薦時,過度依賴已知的用戶興趣,而忽視了用戶的潛在興趣分析。第三,推薦結果的時效性不高。傳統(tǒng)的協(xié)同推薦方法,在設計時不具有時間特性,隨著時間的推移,可能導致推薦信息過期,降低推薦的時效性。本文設計了一種基于播存網絡環(huán)境下,UCL協(xié)同過濾推薦方法。
本研究借助皮爾森相關系數對用戶之間的相似度進行度量[1-2],主要研究以下幾個方面的內容:第一,探究線性衰減、指數衰減以及二次函數衰減對UCF-PT推薦精度的影響;第二,探究UCF-PT在協(xié)同過濾下的精度;第三,探究閾值對性能的影響;第四,分析該方法與常規(guī)方法的差異;第五,分析該方法是否存在推薦UCL的可能。首先根據數據集計算用戶和UCL的相似度;然后根據數據集的數據稀疏情況,加權計算預測評分;根據用戶個數和UCL個數,表示數據集的數據稀疏程度;調整UCL熱度對推薦結果的影響;最后利用指數衰減函數,生成最終推薦結果集。
研究所用數據集為著名電影推薦數據集,包括943個用戶的數據以及1682部電影的評分。在評分設計中,采用5分評價原則,每名用戶評價電影數量超過20部。選擇MovieLens進行數據集分析[2,6],然后修改數據集,保證項目與UCL的對應,同時加入生成時間;數據分析完成后,將80%作為基本數據,通過基本數據的預算,獲取評分參數,而剩余20%作為測試數據,展開對數據的評估。
分別對線性衰減、二次函數衰減、指數衰減3種衰減函數進行實驗[1-2,7],時間在2003-01-01至2017-01-01的范圍內,時間戳為2003-01-01。
首先,將UCL條件固定,對上述衰減函數在數據集上做UCF-PT推薦實驗,從而得到各衰減函數對時效性的影響,并根據實驗結果,繪制出相應的圖像,之后利用該圖像,進一步分析函數對UCF-PT精度的影響,如圖1所示。
圖1中,縱坐標MAE(Mean Absolute Error)表示平均絕對誤差;曲線1為二次函數衰減對推薦精度的影響;曲線2為線性衰減對推薦精度的影響;曲線3為指數衰減對推薦精度的影響。
通過上述圖像觀察可知,對UCF-PT推薦性能進行分析時,各衰減函數的影響效果存在一定差異,其中,指數衰減的特征更加顯著,得出的推薦結果更新奇,并具有較高的精確度?;谏鲜隼碚摲治?,本文在體現UCL衰減特性時,以指數衰減為主。
在UCF-PT方法中,δ1與δ2是非常關鍵的兩個參數,其中,δ1表示相似UCL的臨界值,利用該參數,可以將相似度不高的UCL清除,使得推薦性能更強;而δ2表示篩選后相似度較高UCL的相似度臨界值,進一步對UCL進行篩選,從而能夠獲得UCL的稀疏性。為確保數據的準確性,分別對兩個參數進行了假設,其中δ1與δ2=(0.3,0.5,0.7),0.3為UCL較多,但相似度不高;0.7為UCL較少,但相似度較高;0.5處于兩者之間。
3.1 不同δ1條件下,δ2對推薦精度的干擾
確定好各參數后,首先將δ1固定,研究δ2對推薦精度的干擾,并繪制出相應的曲線,如圖2所示。通過圖2的觀察可以發(fā)現:若δ1=0.3,隨著δ2的提升,MAE將會逐漸減?。划敠?在0.45左右時,MAE獲得最小值;之后,隨著δ2的提升,MAE將會逐漸提升。因此,δ2在0.45左右時,能夠通過相似UCL相似度的方式,得到最準確的推薦結果。若δ1=0.5,開始階段,推薦精度將為穩(wěn)定,當δ2在0.73左右時,精度逐漸上升,之后呈現出下降的趨勢。導致這一現象出現的原因為:在0.73左右時,相似UCL的相似度與數量達到了平衡,當δ2再次增加,相似UCL的數量不斷減少,從而干擾了推薦性能。若δ1=0.7,隨著若δ2的提升,推薦精度并不會增加,而是穩(wěn)定一段時間后,突然迅速減小,從而說明可用相似UCL與待比UCL之間相似度較高,將會使相似UCL降低,從而影響推薦精度。
3.2 推薦效果干擾分析
將δ2固定,研究δ1對推薦精度的干擾,并且繪制出相應的圖像,如圖3所示。通過對圖3的觀察可以看出,若δ1與δ2均在0.3以下,推薦精度非常低;若δ2=0.7,δ1不是很大時,一定范圍內,隨著δ1的不斷提升,推薦精度將不斷增加,并逐漸穩(wěn)固在一定水平上;若δ2=0.5,則推薦精度會受相似UCL的數目與相似度的影響,并在δ1=0.36處得到最佳的推薦精度。
預測評分精確度比較在不同數據稀疏情況下,采用PBCF,ICF,UCF,UUICF和UCL-PT等方法[1-2],對目標UCL評分精確度進行測試。經過多次試驗可以觀察到,UCL相似度與用戶相似度之間的調節(jié)參數可以設定為2,此時,UCL-PT的推薦效果最佳,在與其他方法進行比較之后,其得到結果如圖4所示。由圖4可以看出,預測評分的平均絕對誤差與相似用戶呈現負相關關系,當相似UCL與用戶減少,其預測評分誤差值會逐漸增加,這充分表明了,推薦結果受到數據稀疏性的影響。當數據呈現稀疏狀態(tài)時,推薦結果的可靠性會降低。而當相似用戶高于50時,MAE會逐漸趨于穩(wěn)定。當UCL數據或相似用戶數高于70時,MAE的變化幅度會降低。另外,當任意數據產生稀疏狀態(tài)下,本研究中的UCL-PT方法在精準度預測方面,其預測效果都將比其他方法要明顯,并且,在數據稀疏性不斷加劇的情況下,該方法的優(yōu)點與優(yōu)勢會更加突出。
圖4中,曲線1為ICF,ICF是基于項目相似度的協(xié)同過濾方法;曲線2為UCF,UCF是基于用戶相似度的協(xié)同過濾方法;曲線3為PBCF,PBCF是基于熱度偏好的協(xié)同過濾方法;曲線4為UUICF,UUICF是結合用戶相似度與項目相似度的協(xié)同過濾方法;曲線5為UCL-PT,UCL-PT是播存網絡環(huán)境下的協(xié)同過濾方法。
綜上所述,在播存網絡環(huán)境下,往往存在很多的UCL協(xié)議,這些協(xié)議的存在,將會對整個網絡的運行造成一定影響。基于此,本文設計了一種UCL協(xié)同過濾推薦方法,該方法推薦性較強,易被廣泛推廣。
[1] 顧梁,楊鵬,董永強. 播存網絡環(huán)境下UCL推薦多樣性優(yōu)化算法[J]. 計算機研究與發(fā)展,2017,54(8):1631-1643.
[2] 黃燦,楊鵬,顧梁. 播存網絡中一種融合信任機制的協(xié)同過濾推薦算法[J]. 小型微型計算機系統(tǒng),2016,37(11):2504-2508.
[3] 多杰東主. 關于漢語言文學在網絡環(huán)境下的傳播分析[J]. 中國報業(yè),2013,11(16):115-116.
[4] 郭娟. 網絡環(huán)境下學術信息開放存取研究[J].軟件導刊,2013,12(7):15-17.
[5] 盧云騁,楊鵬,顧梁. 播存環(huán)境中基于廣播的文件傳輸機制[J]. 計算機工程 與設計,2014,26(7):2267-2271.
[6] 張陽,付金華. 大數據環(huán)境下的傳播管理存儲安全分析[J]. 網絡安全技術與應用,2016,19(5):54-55.
[7] 宋艷輝,羅力,武夷山. 網絡環(huán)境下新聞傳播學文獻老化規(guī)律研究[J]. 中國出版,2016,17(11):33-36.
Abstract: The development of the Internet, and improve the degree of resource sharing in modern society, under the influence of various objective factors, however, in the process of sharing information resources, there are a lot of problems, serious impact on the level of the sharing of information resources and sharing efficiency. For example, broadband congestion, long content, etc. And the broadcast network USES the “one point to infinite point” physical broadcast method, distributes the Shared information resources, can effectively solve this kind of problem. Due to broadcast memory network is using unified content labels, based on the user's interests, to recommend information resources, and thus for information storage network, how to effectively obtain the UCL can make themselves interested in is the key. Based on this, this paper designs a UCL collaborative filtering recommendation method based on sod network environment. Through the experimental analysis shows that compared with the traditional method, the recommended method not only recommend the precision is higher, at the same time can also recommend for new UCL gives higher priority, and provide important guarantee for the efficiency of the UCL with heat. Therefore, it is more suitable to apply UCL recommendation in the network environment.
Keywords: sowing network; collaborative filtering; predict
(責任編輯:徐興華)