亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合歷史均值與提升樹的客流量預測模型

        2019-04-19 05:24:58白智遠溫從威楊錦浩
        計算機技術(shù)與發(fā)展 2019年4期
        關鍵詞:客流量均值銷量

        白智遠,溫從威,楊錦浩,陳 智,呂 品

        (上海電機學院 電子信息學院,上海 201306)

        0 引 言

        移動定位服務的發(fā)展使得互聯(lián)網(wǎng)商家“線上線下”的交易數(shù)據(jù)急劇增長[1-4]。分析這些數(shù)據(jù)中隱藏的用戶交易習慣和傾向性[5-6]對優(yōu)化商家的運營具有重要作用。近來年,出現(xiàn)了許多關于移動定位服務預測的研究。例如,付全興等[7]使用邏輯回歸和支持向量機,以4個月的電商數(shù)據(jù)為研究對象,預測用戶的購買行為;陳傳波等[8]把平滑加權(quán)的思想應用于實時模型預測,通過提取包含有趨勢的特征來提高預測模型的精確度;張昊等[9]利用XGBoost(extreme gradient boost)算法[10]實現(xiàn)了商品推薦中的用戶購買行為預測。他們將決策樹[11]、隨機森林[12]作為基線對比方法,研究發(fā)現(xiàn)變量的重要性對模型的構(gòu)建有較大影響。

        文中借鑒上述研究的思想,提出了歷史均值與提升樹融合的互聯(lián)網(wǎng)商家客流量預測模型。該模型的本質(zhì)是提升樹模型與歷史均值模型,按照計算公式所求出的權(quán)重系數(shù),按照一定比例而融合的加權(quán)和,不僅考慮了如何提高模型的預測精度,而且還考慮了客流量的預測與時間的依賴關系。并且對不同模型的預測結(jié)果做出了對比分析。最后,將融合了歷史均值與提升樹的客流量預測模型所得到的結(jié)果與傳統(tǒng)的零售業(yè)結(jié)合,粗略進行了分析,對商家今后的運營提出了一些實質(zhì)性的建議。

        1 數(shù)據(jù)預處理

        1.1 數(shù)據(jù)描述

        文中使用的數(shù)據(jù)來自天池大數(shù)據(jù)平臺,共包含某年7月1日至次年10月31日的商家完整行為數(shù)據(jù),分為“商家特征”數(shù)據(jù)、“用戶支付行為”數(shù)據(jù)和“用戶瀏覽行為”數(shù)據(jù)。商家特征反映了商家的熱度,評分高以及評論好的商家,是提高用戶購買力的因素之一,除此之外,門店的等級、菜品的豐富程度也作為商家的考量之一。它的數(shù)據(jù)共包含7個屬性:商家ID、店鋪所在地、人均消費、評分、評論數(shù)、門店等級以及食品分類名稱;用戶支付行為特征反映了用戶的支付習慣方式,包含3個屬性:用戶ID、商家ID和用戶的支付時間;用戶瀏覽行為則反映了用戶的購買習慣,如果用戶經(jīng)常訪問同一個商家,結(jié)合其他兩個特征可以推斷出用戶所喜愛的商品種類、個人口味等信息,包含3個屬性:用戶ID、商家ID和用戶瀏覽商家的時間。

        1.2 數(shù)據(jù)預處理方法

        由于直接使用原始數(shù)據(jù)訓練模型不僅會產(chǎn)生誤差,還會耗費大量的計算資源,因此,對原始數(shù)據(jù)集進行了預處理,將原始數(shù)據(jù)中存在的異常值進行剔除、去重、歸一化等處理。一方面,由于商家從入駐口碑平臺到銷售量增加存在一定的啟動時間,并且可能出現(xiàn)某段時間銷量中斷的現(xiàn)象,因此,商家開業(yè)前7天的數(shù)據(jù)以及銷量中斷前后3天的數(shù)據(jù)不作為訓練數(shù)據(jù);另一方面,由于原始數(shù)據(jù)中存在短時間內(nèi)單個用戶大量購買的情況,為消除這種異常消費對預測的影響,采用了基于規(guī)則的方法對原始數(shù)據(jù)進行歸一化;另外,原始數(shù)據(jù)中還存在一些特殊時間節(jié)點和難以預計的大幅波動,如大型節(jié)假日(如中秋節(jié)、國慶節(jié)等)、停業(yè)、商家開展促銷活動時單個用戶大量購買的情況。對于這些基于規(guī)則的方法難以處理的異常值,文中采用了模型預訓練方法,即采用欠擬合算法對模型預訓練,清除原始數(shù)據(jù)中殘差為10%和25%的數(shù)據(jù)。由于預測目標是商家的日銷量,因此預處理后用于訓練的數(shù)據(jù)是按小時統(tǒng)計的商家的總銷量。

        此外,為提高模型預測的準確性,實驗中還采集了全國各省市的天氣數(shù)據(jù)以及節(jié)假日天氣數(shù)據(jù)作為原始數(shù)據(jù)的補充。在額外采集的氣溫、濕度、氣壓等數(shù)據(jù)中,根據(jù)經(jīng)驗,將天氣狀況簡單轉(zhuǎn)換為降水指數(shù)和天晴指數(shù)兩個指標。由于人體對于氣象參數(shù)的感受不成線性關系,故生成人體舒適度指數(shù)(comfort index of human body,SSD)作為模型訓練的一個重要特征。最終,模型訓練與預測使用的特征與標簽如表1所示。

        表1 模型訓練與預測使用的特征

        2 歷史均值與提升樹融合的客流量預測

        2.1 XGBoost的基本思想

        XGBoost是一種極限提升樹的機器學習方法,具有良好的擴展性,以及計算速度快、模型表現(xiàn)好等特點。對于數(shù)據(jù)集D={(xi,yi)},提升樹方法的核心是最小化式1所示的正則化目標函數(shù)。

        (1)

        一般,對上述目標函數(shù)進行二階泰勒展開(如式2),然后進行優(yōu)化。

        (2)

        假設樹結(jié)構(gòu)q(x)已知,并且Ij={i|q(xi)=j}為葉節(jié)點j的樣本集合,可得葉節(jié)點j的最優(yōu)權(quán)重:

        (3)

        最后,采用貪心算法,從某一葉子開始,反復向樹中添加分支。假設IL和IR是分割后左右節(jié)點的實例集合。令I=IL∪IR,則分裂后的損失可由式4計算。

        (4)

        與傳統(tǒng)的GBDT模型對比,XGBoost還支持線性分類器,并且加入正則化因子,用于控制模型的復雜度。正則項里包含了樹的葉子節(jié)點個數(shù)等信息,它降低了模型的方差,使學習出來的模型更加簡單,防止過擬合,這也是XGBoost優(yōu)于傳統(tǒng)GBDT的一個特性。

        2.2 歷史均值模型的基本思想

        歷史均值模型是以預測日為基準,求出預測日之前到某一天的平均客流量、銷量增量等信息,再以權(quán)重系數(shù)作為融合的比例,預測未來14天的客流量。

        2.3 融合方法

        為獲得精確度高的客流量預測模型,文中采用了二個階段的訓練方法。第一次階段的訓練中,使用了XGBoost與GBDT(gradient boosting decision tree)模型。模型訓練的參數(shù)如表2和表3所示。每一種模型分別使用了2組參數(shù)進行訓練,總共獲得4個模型。

        表2 XGBoost算法的不同參數(shù)

        表3 GBDT算法的不同參數(shù)

        為了減小預測誤差,調(diào)整XGBoost與GBDT算法中樹的深度、學習率以及迭代次數(shù)的參數(shù),在XGBoost算法的1號模型中,一般情況下,學習率的值默認為0.1,而樹的最大深度默認為3。但是,對于不同的問題,理想的學習率有時會在一些特定的區(qū)間范圍之間波動。樹的深度越大,則對數(shù)據(jù)的擬合程度越高。因此,文中在確定XGBoost算法的2號模型的學習率以及樹的最大深度時,引入XGBoost算法中內(nèi)置的cv函數(shù),cv函數(shù)在每一輪迭代中使用交叉驗證,根據(jù)算法參數(shù)的調(diào)整,返回理想的決策樹數(shù)量。因此,通過cv函數(shù)較為精確的計算,將2號模型的學習率調(diào)至0.03,樹的最大深度為5。

        第二階段的訓練使用了歷史均值模型。歷史均值模型以預測日為基準,首先求出預測日之前的21天的銷量平均值,得到每天的平均銷量;其次,以周為單位,統(tǒng)計每周的銷量的中位數(shù)和平均值,通過線性擬合得到每周的銷量增量;最后,將每天的均值銷量與每周的銷量增量疊加,以此預測未來兩周的銷量。該模型把過去21天的歷史銷量的相關度矩陣作為輸入;將未來兩周的銷量和歷史均值模型與第一階段的模型融合的權(quán)重系數(shù)作為輸出。均值模型的融合比例最大為0.75。融合的權(quán)重系數(shù)計算如下:

        (5)

        由此,將XGBoost、GBDT和歷史均值模型得到的過去三周的平均銷量和銷量值,分別代入式5,可求出相應的權(quán)重系數(shù)為:0.47,0.34,0.19。最終,將訓練得到的2組XGBoost模型和2組GBDT的不同結(jié)果分別與歷史均值模型按0.47,0.34,0.19的比例融合,得到預測未來14天的客流量。

        3 實驗分析

        3.1 實驗設置

        該實驗采用的硬件為Inter(R) Core(TM) i5-5200U CPU @ 2.20 GHz。軟件環(huán)境中操作系統(tǒng)為Windows 7,開發(fā)環(huán)境為Python3.6。原始數(shù)據(jù)為2.13 GB,預處理后的數(shù)據(jù)為220 MB。為判斷XGBoost方法預測的有效性,實驗中引入了時間序列加權(quán)回歸的算法作為基線對比方法[8]。

        3.2 預測結(jié)果對比分析

        由于時間序列反映了實體屬性在時間順序上的特征[13],因此,實現(xiàn)了時間序列加權(quán)回歸算法,分析2種算法的預測結(jié)果后,得到的前500位互聯(lián)網(wǎng)商家在未來14天的客流量發(fā)展趨勢,如圖1和圖2所示。

        圖1 歷史均值與提升樹融合模型預測

        分析客流量發(fā)展趨勢可知:

        (1)與瀏覽動作相關的變量對模型的貢獻程度最大,這是因為瀏覽是用戶交互的最主要方式,其信息豐富程度遠高于其他特征;

        (2)部分商家可能所經(jīng)營的商品評價較高,顧客的返回率使得部分商家的客流量穩(wěn)步上升;

        (3)大部分的商家十四天總客流量已經(jīng)突破了5 000,少量甚至達到了約25 000的級別。這極有可能是商家近期的某種促銷活動所導致的。比如通過平臺派發(fā)不同程度的優(yōu)惠券、現(xiàn)金紅包、買滿一定金額優(yōu)惠等活動。但如何調(diào)整自己的運營策略,吸引到更多的客流量顯得至關重要。

        圖2 時間序列加權(quán)回歸模型預測

        3.3 性能分析

        通過優(yōu)化算法參數(shù),采用測試集樣本對建模結(jié)果進行評測[14],算法運行結(jié)果和精度測試如表4所示。

        表4 歷史均值與提升樹融合模型精度測試

        實驗中利用XGBoost自定義的評價函數(shù)對提出的模型進行了性能評估。調(diào)用評價函數(shù)時,傳入驗證集和驗證集上的預測值作為函數(shù)參數(shù),返回一個浮點類型的評估值fevalerror。fevalerror的值越大,模型預測精度越低。反之,fevalerror的值越小,模型預測精度越高。結(jié)果表明,隨著訓練集樣本大小的增加,運算時間增加,fevalerror值逐漸減小,精度上卻逐漸增加。由此,歷史均值與提升樹的融合模型具有預測精度較高、運算速度較快的優(yōu)勢。

        4 結(jié)束語

        將歷史均值模型與提升樹方法進行了融合,對互聯(lián)網(wǎng)商家的線上線下的真實用戶數(shù)據(jù)進行了特征提取和建模預測。并將提出的模型與時間序列加權(quán)回歸進行了預測結(jié)果與性能比較。實驗結(jié)果表明,融合歷史均值模型與提升樹模型的方法能有效實現(xiàn)互聯(lián)網(wǎng)商家客流量的預測。在互聯(lián)網(wǎng)高速發(fā)展的今天,對比傳統(tǒng)的零售行業(yè),互聯(lián)網(wǎng)商家的營銷對用戶消費給予了更多的關注,在產(chǎn)品詳情頁的介紹、客服服務、便捷的移動支付等方面都致力于為用戶帶來更好的消費體驗。通過這次客流量預測模型的構(gòu)建和對用戶數(shù)據(jù)進行的挖掘,商家利用互聯(lián)網(wǎng)這一渠道,能夠更好地與用戶及時溝通,了解用戶感受,使互聯(lián)網(wǎng)商家與用戶建立了信任關系,吸引到更多忠實的用戶。這對互聯(lián)網(wǎng)商家的運營決策、降低成本、改善用戶體驗有著重要的現(xiàn)實意義。

        猜你喜歡
        客流量均值銷量
        同比增長130%!劍指3萬噸銷量,豐華黃顙料迎來大爆發(fā)
        盤點2018年車企銷量
        汽車觀察(2019年2期)2019-03-15 06:00:12
        基于嵌入式系統(tǒng)的商場客流量統(tǒng)計算法
        均值不等式失效時的解決方法
        均值與方差在生活中的應用
        上汽通用172萬銷量下的陰影
        家用汽車(2016年4期)2016-02-28 02:23:37
        基于AFC數(shù)據(jù)的城軌站間客流量分布預測
        關于均值有界變差函數(shù)的重要不等式
        對偶均值積分的Marcus-Lopes不等式
        從客流量推算公交出行PA矩陣的方法
        亚洲性爱区免费视频一区| 激情第一区仑乱| 97免费人妻在线视频 | 国产揄拍国产精品| 在线视频制服丝袜中文字幕| 久久麻豆精亚洲av品国产精品 | 无码中文字幕人妻在线一区| 久热综合在线亚洲精品| 欧美 亚洲 国产 日韩 综AⅤ| 亚洲视频观看一区二区| 国产人成视频在线视频| 国产97在线 | 中文| 最新国产精品亚洲二区| 亚洲国产综合精品中文| 国产成人无码精品久久久免费| 国产suv精品一区二区6| 综合91在线精品| 久久综合伊人有码一区中文字幕 | 成人无码av一区二区| 欧美日韩不卡视频合集| 欧美xxxxx精品| 亚洲美女自拍偷拍视频| 蜜桃久久精品成人无码av| 四虎精品影视| 国产一区二区三区蜜桃| 无码喷潮a片无码高潮| 小sao货水好多真紧h视频| 国产亚洲无码1024| 亚洲视频免费一区二区| 性色av浪潮av色欲av| 国产亚洲精品国产福利在线观看| 最新日本久久中文字幕| 日本爽快片100色毛片| 国产精品一区二区 尿失禁| 情色视频在线观看一区二区三区 | 成人激情视频一区二区三区| 青春草在线视频观看| 少妇人妻真实偷人精品视频| 日本老年人精品久久中文字幕| 美女免费视频观看网址| 岳好紧好湿夹太紧了好爽矜持|