亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于lightGBM的聯(lián)通話費(fèi)購(gòu)?fù)扑]系統(tǒng)研究

        2021-08-27 06:10:43韓哲馬震
        中國(guó)新通信 2021年12期

        韓哲 馬震

        【摘要】? ? 聯(lián)通話費(fèi)購(gòu)是聯(lián)通在線為聯(lián)通用戶提供的專屬權(quán)益電商平臺(tái),可以使用話費(fèi)支付、第三方支付充值話費(fèi)、購(gòu)買各類權(quán)益。本文實(shí)現(xiàn)了在聯(lián)通話費(fèi)購(gòu)平臺(tái)搭建基于lightGBM算法的推薦系統(tǒng)。通過(guò)分析用戶行為,構(gòu)建用戶、商品的動(dòng)態(tài)特征,用協(xié)同過(guò)濾召回的基礎(chǔ)上,利用lightGBM算法做精準(zhǔn)排序,預(yù)測(cè)用戶對(duì)于商品的購(gòu)買率。經(jīng)過(guò)實(shí)際驗(yàn)證表明,推薦的召回率達(dá)到82.3%,下單轉(zhuǎn)化率為30.9%,有效提高了用戶的點(diǎn)擊付費(fèi)轉(zhuǎn)化。

        【關(guān)鍵詞】? ? 推薦系統(tǒng)? ? lightGBM? ? 特征工程? ? 集成學(xué)習(xí)

        一、項(xiàng)目背景

        聯(lián)通話費(fèi)購(gòu)商城是中國(guó)聯(lián)通提供的新型通信賬戶消費(fèi)業(yè)務(wù),是聯(lián)通用戶購(gòu)買多種會(huì)員權(quán)益的專屬商城。為用戶提供話費(fèi)計(jì)費(fèi)和第三方支付等多種支付方式。實(shí)現(xiàn)用戶一站式購(gòu)買音樂(lè)、視頻、小說(shuō)、教育、娛樂(lè)等眾多互聯(lián)網(wǎng)會(huì)員權(quán)益及知識(shí)付費(fèi)類數(shù)字商品,現(xiàn)有自營(yíng)會(huì)員產(chǎn)品話費(fèi)購(gòu)、尊享黃金會(huì)員以及自營(yíng)虛擬貨幣話費(fèi)券。目前,話費(fèi)購(gòu)商城涵蓋影視會(huì)員、出行、音樂(lè)、知識(shí)付費(fèi)、社交、工具等八大產(chǎn)品類80款會(huì)員權(quán)益,近400余款商品。本文通過(guò)為話費(fèi)購(gòu)搭建推薦系統(tǒng),智能化運(yùn)營(yíng)用戶,實(shí)現(xiàn)千人千面,提高商品的曝光、點(diǎn)擊與轉(zhuǎn)化。

        推薦系統(tǒng)的核心在于推薦算法,目前主流的推薦算法分為基于用戶、基于內(nèi)容、基于標(biāo)簽的推薦[1][2]。比較經(jīng)典的協(xié)同過(guò)濾算法可解釋性強(qiáng),但個(gè)性化比較差。Xgboost等集成的樹模型[3][4][5]具有訓(xùn)練速度快,預(yù)測(cè)精度比較高的優(yōu)點(diǎn),但容易過(guò)擬合,且容易受到正負(fù)樣本不均衡的影響。本文采用協(xié)同過(guò)濾召回,lightGBM算法[6]排序的方法,通過(guò)前期埋點(diǎn)獲取用戶真實(shí)的點(diǎn)擊、瀏覽、下單數(shù)據(jù),并進(jìn)行可視化分析。利用協(xié)同過(guò)濾算法召回半年內(nèi)的消費(fèi)用戶,劃分訓(xùn)練集和測(cè)試集,根據(jù)用戶是否在指定時(shí)間段內(nèi)下單區(qū)分正負(fù)樣本,構(gòu)造用戶基礎(chǔ)特征和消費(fèi)行為特征,基于lightGBM算法建模,預(yù)測(cè)用戶對(duì)于全部商品的購(gòu)買概率。最終采用瀑布流的形式在推薦專區(qū)按照用戶的預(yù)測(cè)購(gòu)買率對(duì)商品進(jìn)行排序展示。

        如圖1為話費(fèi)購(gòu)?fù)扑]系統(tǒng)的框架圖,用戶在頁(yè)面的點(diǎn)擊、瀏覽、購(gòu)買數(shù)據(jù)經(jīng)過(guò)批處理后保存到集群中。經(jīng)過(guò)推薦算法的召回、排序、過(guò)濾三個(gè)階段,為用戶計(jì)算推薦商品及得分,并將推薦結(jié)果保存到hbase中,供前端調(diào)用。最后將推薦結(jié)果以“猜你喜歡”專區(qū)上線并評(píng)估效果,根據(jù)用戶的點(diǎn)擊、訂購(gòu)等反饋豐富正負(fù)樣本,迭代優(yōu)化模型。

        二、相關(guān)算法

        本文用到的算法是基于物品的協(xié)同過(guò)濾和lightGBM算法。

        2.1協(xié)同過(guò)濾

        通過(guò)前期的數(shù)據(jù)分析,話費(fèi)購(gòu)的商品數(shù)量不多,用戶的行為比較集中,大部分用戶會(huì)重復(fù)訂購(gòu)之前訂購(gòu)過(guò)的商品,所以采用基于商品的協(xié)同過(guò)濾算法(item-based collaborative filtering, itemCF)做用戶召回。itemCF是基于用戶的行為數(shù)據(jù)計(jì)算商品之間的相似度,維護(hù)商品相似度矩陣,相似度的計(jì)算方式如公式(1)所示[7],其中N(u)表示用戶有過(guò)行為的商品集合。然后根據(jù)用戶點(diǎn)擊或訂購(gòu)過(guò)的商品,計(jì)算與其相似度高的商品作為推薦商品。

        算法優(yōu)勢(shì):可解釋性強(qiáng),適用于商品少的情況,商品都有機(jī)會(huì)被推薦出來(lái)。缺點(diǎn):容易受到熱門商品的影響。

        2.2 lightGBM

        lightGBM(Light Gradient Boosting Machine, lightGBM)[6]是微軟研發(fā)的高效實(shí)現(xiàn)GBDT的開源框架,具有訓(xùn)練速度快、精度高的優(yōu)點(diǎn)。通過(guò)直方圖算法將連續(xù)特征值離散化,采用按葉子生長(zhǎng)的leaf-wise算法,并使用單邊梯度采樣GOSS(Gradient-based One-Side Sampling),采用大梯度樣本和隨機(jī)挑選的小梯度樣本計(jì)算信息增益,劃分節(jié)點(diǎn),保證準(zhǔn)確性的同時(shí)減少計(jì)算冗余的計(jì)算成本。使用互斥特征綁定EFB(Exclusive Feature Bundling)將不同時(shí)為零的互斥特征進(jìn)行捆綁,合成新特征,減少特征數(shù)量,通過(guò)歸集為圖著色問(wèn)題,使用貪心算法求解。

        算法優(yōu)勢(shì):更快的訓(xùn)練速度、更低的內(nèi)存占用率、并行計(jì)算,且支持類別特征。缺點(diǎn):容易過(guò)擬合,需要通過(guò)限制樹的深度等方法增加泛化能力。

        三、建模過(guò)程

        本文所采用的數(shù)據(jù)為聯(lián)通話費(fèi)購(gòu)真實(shí)的用戶行為數(shù)據(jù),所用數(shù)據(jù)表包括曝光表、點(diǎn)擊表、瀏覽表、下單表,及商品表。采用2020.9.27-2021.3.27共6個(gè)月的數(shù)據(jù),字段包括用戶id、商品id、專區(qū)id、用戶行為(點(diǎn)擊、瀏覽、下單)、操作時(shí)間、下單金額、瀏覽時(shí)長(zhǎng)、是否為包月商品、是否首次訂購(gòu)等。以公眾號(hào)商城的數(shù)據(jù)試驗(yàn),召回的數(shù)據(jù)集中用戶-商品的組合數(shù)為973476。采用協(xié)同過(guò)濾算法為用戶召回商品。選取有過(guò)點(diǎn)擊、瀏覽、下單行為的用戶及對(duì)應(yīng)商品劃分lightGBM模型的訓(xùn)練集和測(cè)試集,進(jìn)行排序。

        3.1數(shù)據(jù)處理與可視化

        3.1.1數(shù)據(jù)預(yù)處理

        數(shù)據(jù)處理與分析是模型構(gòu)建的第一步,本文主要做了以下幾種數(shù)據(jù)處理:

        1. 剔除話費(fèi)購(gòu)會(huì)員、話費(fèi)券,并根據(jù)運(yùn)營(yíng)策略過(guò)濾部分活動(dòng)商品,避免前臺(tái)頁(yè)面展示重復(fù)。

        2.剔除空值、異常值,處理字段類型,對(duì)于有空值的字段讀取到dataframe時(shí),會(huì)自動(dòng)處理為浮點(diǎn)型,所以先剔除空值再將品牌id等字段轉(zhuǎn)為整型;并將操作時(shí)間轉(zhuǎn)為datetime64[ns]。

        3. 關(guān)聯(lián)子商品表、品牌表、專區(qū)表,過(guò)濾下架商品及活動(dòng)商品,形成最終的商品詳情表。并對(duì)曝光表、點(diǎn)擊表、瀏覽表、下單表,關(guān)聯(lián)商品詳情表。

        4.補(bǔ)充瀏覽數(shù)據(jù),話費(fèi)購(gòu)的商品入口比較多,埋點(diǎn)采集及數(shù)據(jù)存儲(chǔ)過(guò)程中,可能會(huì)遺漏部分瀏覽數(shù)據(jù),根據(jù)用戶-商品的下單情況,補(bǔ)充遺漏的瀏覽數(shù)據(jù)。其中,根據(jù)商品的平均每用戶的瀏覽次數(shù)補(bǔ)充瀏覽條數(shù),根據(jù)商品的每用戶平均瀏覽時(shí)長(zhǎng)補(bǔ)充瀏覽時(shí)長(zhǎng),根據(jù)支付時(shí)間補(bǔ)充瀏覽時(shí)間。

        3.1.2可視化分析

        基于以上數(shù)據(jù)分析了話費(fèi)購(gòu)的用戶畫像、用戶的購(gòu)買偏好分布、熱銷商品分布以及用戶消費(fèi)分布,以下是分析的部分結(jié)果:

        1.熱銷商品分布

        如圖2可以看出,商品的銷售分布符合長(zhǎng)尾理論,熱銷商品集中在前10種,用戶的消費(fèi)特征比較單一。

        2.用戶消費(fèi)分布

        如圖3,98%的用戶只訂購(gòu)5種以下的品牌,66%的用戶重復(fù)訂購(gòu)率高于50%,說(shuō)明大部分用戶會(huì)選擇購(gòu)買之前訂購(gòu)過(guò)的商品。

        3.2特征工程

        本文分別針對(duì)用戶、商品、用戶-商品構(gòu)造特征。結(jié)合缺失率、相關(guān)性、特征重要性等方法篩選特征,共構(gòu)造38種特征。

        3.3建模

        首先對(duì)數(shù)據(jù)集按照時(shí)間劃分為訓(xùn)練集和測(cè)試集,選擇1.27-2.25一個(gè)月的瀏覽、下單數(shù)據(jù)作為訓(xùn)練集,選擇2.26-3.25一個(gè)月的下單數(shù)據(jù)作為標(biāo)簽集,在標(biāo)簽集中下單的用戶-商品作為訓(xùn)練集的正樣本,其余為負(fù)樣本,正負(fù)樣本比為1:1.88。測(cè)試集選擇2.1-2.27一個(gè)月的數(shù)據(jù),根據(jù)2.28-3.27一個(gè)月的下單數(shù)據(jù)作為正樣本,正負(fù)樣本比為1:1.63。

        分別對(duì)訓(xùn)練集和測(cè)試集構(gòu)造以上特征,采用5折交叉驗(yàn)證,對(duì)訓(xùn)練集建模,采用lightGBM的具體參數(shù)如下:

        利用協(xié)同過(guò)濾算法為每個(gè)用戶召回商品,結(jié)合lightGBM的整體建模過(guò)程如下:

        四、結(jié)果評(píng)估

        基于lightGBM算法的預(yù)測(cè),采用傳統(tǒng)的準(zhǔn)召率評(píng)價(jià)測(cè)試集效果,和邏輯回歸對(duì)比效果如表3所示:

        結(jié)合協(xié)同過(guò)濾算法,以真實(shí)數(shù)據(jù)評(píng)估效果,用戶的覆蓋率為85.2%,推薦專區(qū)Top10的召回率為82.3%,其中召回率的定義如公式(2)所示,T(u)表示用戶真實(shí)訂購(gòu)的商品集合,R(u)表示推薦的商品列表。對(duì)比推薦專區(qū)上線之前,整體的下單轉(zhuǎn)化率提升4%。且推薦專區(qū)的下單轉(zhuǎn)化率遠(yuǎn)高于其他專區(qū),如圖5所示。

        五、結(jié)束語(yǔ)

        本文采用基于商品的協(xié)同過(guò)濾算法召回,以lightGBM算法排序,并結(jié)合運(yùn)營(yíng)策略過(guò)濾部分商品,完成基于話費(fèi)購(gòu)的整套推薦系統(tǒng)的搭建。模型每日更新,將推薦結(jié)果存儲(chǔ)到hbase中,開發(fā)接口供前端調(diào)用展示,接口異常率為1.6%。實(shí)際效果證明,推薦專區(qū)的上線有效提高了用戶的下單轉(zhuǎn)化率,且Top10的推薦商品能覆蓋大多數(shù)用戶的購(gòu)買需求,具有重要的現(xiàn)實(shí)意義。

        參? 考? 文? 獻(xiàn)

        [1]朱揚(yáng)勇, 孫婧. 推薦系統(tǒng)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué)與探索, 2015, 9(5):513-525.

        [2] Almutairi F M , Sidiropoulos N D , Karypis G . Context-aware recommendation-based learning analytics using tensor and coupled matrix factorization[J]. IEEE Journal of Selected Topics in Signal Processing, 2017,11(5):729-741

        [3] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001,29(5):1189-1232.

        [4] Chen T. Guestrin C. XGboost: A Scalable Tree Boosting System[C]//Proc of ACM Sigkdd? International Conference on Knowledge Discovery & Data Mining. 2016:785-794

        [5] Chen T, He T, Benesty M. XGboost: Extreme Gradient Boosting[J]. 2016,5(9):222-208.

        [6] Ke G L, Meng Q, Finley T, et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree[C]//Advances in Neural Information Processing Systems. 2017: 3146-3154.

        [7]項(xiàng)亮. 推薦系統(tǒng)實(shí)踐[M]. 人民郵電出版社, 2012.

        国产v综合v亚洲欧美大天堂| 免费啪啪av人妻一区二区| 亚洲黄色大片在线观看| 亚洲永久国产中文字幕| 亚洲精品少妇30p| 亚欧色一区w666天堂| 亚洲精品自产拍在线观看| 国产精品亚洲ΑV天堂无码| 老熟妇嗷嗷叫91九色| 精品国产乱子伦一区二区三| 精品香蕉99久久久久网站| 国产无遮挡又爽又刺激的视频老师| 国产成人精品无码播放| 永久免费毛片在线播放| 国产精品久久国产三级国| 电驱蚊液可以插一晚上吗| 丰满少妇作爱视频免费观看| 欧美人与动人物姣配xxxx| 亚洲精品成人av观看| 精品一区二区三区牛牛| 无码人妻精品一区二区三区东京热| 狠狠色丁香久久婷婷综合蜜芽五月| 国产亚洲欧美另类久久久| 丝袜美腿制服诱惑一区二区| 久久亚洲欧美国产精品| 波多野结衣aⅴ在线| 久久高潮少妇视频免费| 亚洲日本精品国产一区二区三区| 国产精成人品日日拍夜夜免费| 国产午夜视频在线观看| 欧美日韩性视频| 亚洲蜜桃视频在线观看| 末成年人av一区二区| 国产精品18久久久久久麻辣| 男女视频在线一区二区| 国产视频一区2区三区| 粗大的内捧猛烈进出小视频 | 亚洲av高清资源在线观看三区| 美女人妻中出日本人妻| 97人妻碰碰视频免费上线| 91精品久久久久含羞草|