亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于協(xié)同過濾算法的電子商務推薦系統(tǒng)①

        2018-08-03 05:22:32,
        關鍵詞:度量物品公式

        ,

        (三明學院 信息工程學院,福建 三明 365004)

        0 引 言

        由于互聯(lián)網(wǎng)上的信息數(shù)據(jù)以爆炸性的速度快速增長,使得用戶無法區(qū)分和獲取有效信息,導致信息利用率低下并且信息超載。因此,許多學者已將注意力轉向研究根據(jù)網(wǎng)站收集的用戶信息給用戶自動推薦商品。推薦系統(tǒng)可以通過對目標用戶精準投放興趣信息來減少無用信息量,提高用戶點擊轉換率。目前主流的推薦算法都是基于協(xié)同過濾算法,該算法在預測用戶的興趣度時會不但單只利用該用戶的信息,而是經(jīng)由全部用戶對物品的行動來計算用戶之間、物品之間的類似度,經(jīng)過聚合相似度和用戶的行動數(shù)據(jù)來決議推薦內容。傳統(tǒng)的協(xié)同過濾算法基于鄰近用戶域來預測用戶個性?;驹硎鞘褂盟杏脩舻臍v史數(shù)據(jù)來計算各用戶的鄰居,并將類似的最近鄰居分數(shù)數(shù)據(jù)給目標用戶,這是為了產(chǎn)生目標用戶的推薦信息[2]。隨用戶規(guī)模和項目規(guī)模的爆炸式增長,如何下降算法的復雜度、同時不影響算法的推薦精度是協(xié)同過濾算法面臨的一個挑戰(zhàn)。為了因對這些挑戰(zhàn),本文提出了一種基于物品協(xié)同過濾算法的電子商務推薦系統(tǒng),通過分析用戶行為日志挖掘用戶物品間的相關度,據(jù)此預測用戶偏好,形成推薦清單。并針對電子商務的特性,考慮用戶行為時間上下文關系對用戶興趣度影響,對算法細節(jié)上進行了調整,使得推薦結果更加精準。

        1 基于物品協(xié)同過濾算法

        基于物品的協(xié)同過濾算法會向用戶們提供符合用戶偏好的物品。算法會分析網(wǎng)站收集的所有用戶歷史行為數(shù)據(jù),并從用戶對物品行為中提煉出物品間的類似度。

        1.1 傳統(tǒng)相似度度量方法

        基于物品協(xié)同過濾算法首先需要計算物品之間的相似度,計算相似性有幾種方法:

        1)基于余弦(Cosine-based)的相似度計算,

        (1)

        2)基于皮爾森相關性(PearsonCorrelation-based)的相似度計算

        兩個連續(xù)變量(X,Y)的pearson相關性系數(shù)(Px,y)等于它們之間的協(xié)方差cov(X,Y)除以它們各自標準偏差(σX,σY)的乘積[5]。系數(shù)的取值域為-1至1,它反應變量間線性相關度。相似度計量公式為:

        (2)

        1.2 采用的物品相似度度量方法

        傳統(tǒng)基于物品協(xié)同過濾算法描述物品相似度的基本思想為“如果大部分購買物品A的人同時也購買了物品B,則說明物品A和物品B的相似度非常高”[6]。用公式表達為:

        (3)

        該公式計算相似度時,當物品j被大部分用戶有過行為時,兩個用戶集的交集可能會接近目標物品的用戶集,這導致物品j與任何其他物品的相似度都非常高,這對其他非熱門商品是非常不利的。所以我們對公式(3)作出了改進,采用

        (4)

        分母懲罰項目j的權重,避免了熱門項目的推薦,從而使推薦系統(tǒng)更專注于挖掘長尾信息[ 7 ]。

        這個公式可以用余弦相似度計算物品之間的相似度,但還是過于簡單。針對電子商務的特性對公式作出了以下改進:

        (1)用戶活躍度對物品相似度的影響

        從公式(3)得知,物品間的相似度來源于這兩個物品具有共同的行為用戶集。然而,這些來自不同用戶的貢獻卻并不一定是完全相同的。如果一個用戶購買了商城里大部分的書籍,說明這個用戶可能是開書店的,并不能說明這些書之間有很強的相似度。因此引入了論文[8]中提出的IUF參數(shù),通過該參數(shù)懲罰過于活躍的用戶,得到了新的度量公式:

        (5)

        其中u為同時購買物品i物品j的用戶,N(u)是用戶u的活躍度,通過乘以用戶活躍度對數(shù)的倒數(shù)來懲罰高活躍度用戶對物品相似度的貢獻[8]。

        (2)時間上下文對物品相似度的影響

        用戶偏好是隨時間變化的,時間因素對用戶偏好的影響應當被添加到計算公式中。在用戶行為日志中挖掘出行為的時間信息,并考慮了其對物品相似度計算的影響,用下面的公式改進了相似度計算:

        (6)

        公式加入了時間因素項f(|tui-tuj|),其中|tui-tuj|越大,f(|tui-tuj|)值越小。這樣懲罰了時間過于久遠的用戶行為,提高了用戶近期行為在用戶偏好評估中的權重。本文采 用的衰減函數(shù)如下:

        (7)

        其中a是時間衰減參數(shù),這是提前設定好的超參數(shù)。當a的值比較大時,用戶的偏好和時間因素相關性較強。在調優(yōu)后使用的a的取值為0.7。

        1.3 用戶興趣度計算

        用戶u對目標物品j的興趣度通過以下公式計算:

        (8)

        其中N(u)代表用戶有過行為的所有物品,S(i,k)代表和物品i最臨近的K個物品,wji代表物品j和物品i的相似度,rui代表用戶u對物品i的興趣度[6]。

        在度量興趣度時,添加了時間因素項,在計算用戶的偏好時,給予用戶比最近行為的類似物品更高的權重。用戶興趣度量公式為:

        (9)

        其中,t0是當前時間。b是時間衰減參數(shù)。該公式表明,tuj和t0相隔越短,和物品j相似的物品權重就越高。

        2 電子商務推薦算法

        在傳統(tǒng)的基于物品協(xié)同過濾算法的基礎上針對電子商務進行優(yōu)化,通過在網(wǎng)站保存的用戶行為日志中挖掘相關數(shù)據(jù)并進行數(shù)據(jù)清洗和分析,提取有效數(shù)據(jù)計算出物品之間的類似度,并結合用戶歷史行為生成離線推薦清單,實現(xiàn)對登陸用戶的實時推薦。完整的算法流程如圖1所示:

        2.1 數(shù)據(jù)處理

        采用嵌套字典結構儲存用戶-物品評分表,從用戶行為日志中提取用戶對物品的所有行為類型和時間信息并通過加權相加的方式作為用戶對物品的評分和時間,并通過鍵-值方式儲存在嵌套字典中。

        2.2 物品倒排表

        如果計算所有物品間的相似度,這樣在計算中會存在大量的冗余計算,加大算法的時間復雜度。事實上,部分物品的行為用戶集間不存在交集。即很多時候N(i)∩N(j)=0。所以可以首先計算出N(i)∩N(j)不等于零的物品,建立物品到用戶的倒排表[9],減少計算的時間復雜度。

        2.3 共現(xiàn)矩陣

        共現(xiàn)矩陣是物品和物品之間的關系矩陣,用來計算物品相關度。

        圖1簡單的展示了數(shù)據(jù)的處理過程。如圖2所示將用戶-物品評分表轉化成物品倒排表,并最終生成物品之間的共現(xiàn)矩陣。得到共現(xiàn)矩陣后,通過上部分所講的物品相似度計算方法計算出各物品之間的相似度,運用上部分所講的用戶興趣度計算方法,可以計算出最終的推薦列表并將其儲存為本地文件。當用戶登陸時,可以對用戶進行實時推薦。

        3 實驗結果及其分析

        3.1 數(shù)據(jù)集

        采用阿里天池提供的數(shù)據(jù)集,包括用戶在阿里巴巴移動電商平臺的真實用戶-商品行為數(shù)據(jù)以及百萬級的商品信息。其數(shù)據(jù)結構如下表1所示

        表1 用戶消費數(shù)據(jù)表

        圖1 電子商務算法推薦流程圖

        圖2 用戶物品關系矩陣

        從原始數(shù)據(jù)中提取了用戶行為數(shù)據(jù)和物品信息重疊的部分,先根據(jù)用戶將行為數(shù)據(jù)匯總,以9比1的比例劃分用戶設定訓練集與測試集。 根據(jù)行動時間進一步劃分為訓練集和驗證集,其中將2017年11月18日至12月18日的行為數(shù)據(jù)作為訓練集,2017年12月18日后的行為數(shù)據(jù)用作驗證集。

        圖3 算法比對結果

        3.2 度量標準

        采用平均絕對偏差MAE的倒數(shù)作為度量標準。平均絕對偏差MAE一種常用的精度評估方法,它有解釋性強的優(yōu)點,其度量公式為:

        (9)

        其中P代表算法預測的用戶對物品興趣度,q代表用戶對物品的真實興趣度,N為物品的數(shù)量。

        3.3 實驗結果

        圖3是算法與傳統(tǒng)算法的性能比較,通過比較不同算法在驗證集上的表現(xiàn)來驗證算法的性能。文中電子商務系統(tǒng)算法的改進確實提高了推薦的有效性。

        3.4 實驗結果分析

        提出的基于物品協(xié)同過濾算法,在傳統(tǒng)算法基礎上改進了具有電子商務特征的相似度計算和興趣度計算。 在數(shù)據(jù)挖掘中,提取用戶關于商品行為的時間信息,并進一步利用用戶行為信息。實驗表明這種改進的算法相對傳統(tǒng)的算法在推薦精度上確實有所提升。實驗結果說明了充分利用用戶信息對于提高預測效果確實有幫助。

        4 結 語

        設計了一種基于物品協(xié)同過濾算法的電子商務推薦算法,通過網(wǎng)站記錄的用戶行為日志挖掘用戶-物品信息,計算物品相似度,通過用戶對物品的興趣度給用戶推薦商品。通過對時間上下文的考慮,進一步提高了推薦的效果,通過離線算法保存用戶推薦列表,做到了對用戶的實時推薦。

        猜你喜歡
        度量物品公式
        有趣的度量
        稱物品
        組合數(shù)與組合數(shù)公式
        排列數(shù)與排列數(shù)公式
        模糊度量空間的強嵌入
        “雙十一”,你搶到了想要的物品嗎?
        等差數(shù)列前2n-1及2n項和公式與應用
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        誰動了凡·高的物品
        例說:二倍角公式的巧用
        九色九九九老阿姨| 日本午夜国产精彩| 99re免费在线视频| 一区二区三区日本大片| 久久蜜臀av一区三区| 美女午夜福利视频网址| 亚洲中字幕日产av片在线| 激情伊人五月天久久综合| 无码吃奶揉捏奶头高潮视频| 一本一道av无码中文字幕| 亚洲无码a∨在线视频| 中文字幕人妻乱码在线| 在线观看的a站免费完整版 | 亚洲色偷偷偷综合网| 大陆极品少妇内射aaaaa| 久久久国产精品ⅤA麻豆| 亚洲综合网一区二区三区| 性色av色香蕉一区二区蜜桃| 国产无套中出学生姝| 一本一道人人妻人人妻αv| 天天躁日日躁狠狠很躁 | 日韩毛片基地一区二区三区| 日韩久久久久中文字幕人妻| 女同性恋看女女av吗| 日韩av无码一区二区三区| 精品少妇一区二区三区免费观| 国产一级大片免费看| 国产激情视频在线| 中文字幕色婷婷在线视频| 精品一二三四区中文字幕| 无码av免费精品一区二区三区 | 国产一区白浆在线观看| 奇米影视色777四色在线首页 | 日本老熟欧美老熟妇| 婷婷亚洲国产成人精品性色| 成人短篇在线视频夫妻刺激自拍| 可以直接在线看国产在线片网址| 日本真人添下面视频免费| 国精产品推荐视频| 国产精品青草视频免费播放| 久久视频在线视频精品|