亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)的重復(fù)購(gòu)買(mǎi)預(yù)測(cè)研究

        2017-10-23 03:39:10
        福建質(zhì)量管理 2017年18期
        關(guān)鍵詞:特征用戶工程

        (重慶工商大學(xué)智能制造服務(wù)國(guó)際科技合作基地 重慶 400047)

        基于神經(jīng)網(wǎng)絡(luò)的重復(fù)購(gòu)買(mǎi)預(yù)測(cè)研究

        張震

        (重慶工商大學(xué)智能制造服務(wù)國(guó)際科技合作基地重慶400047)

        為了提高互聯(lián)網(wǎng)用戶重復(fù)購(gòu)買(mǎi)率預(yù)測(cè)的精確度,本文在人工特征工程(AFE)的基礎(chǔ)上采用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行預(yù)測(cè),實(shí)驗(yàn)對(duì)用戶購(gòu)買(mǎi)行為數(shù)據(jù)提取人工特征,先用logistic回歸進(jìn)行預(yù)測(cè),再與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(ANN)模型進(jìn)行對(duì)比,ANN的F1度量值高于logistic回歸。最終結(jié)果表明,特征工程與神經(jīng)網(wǎng)絡(luò)結(jié)合的預(yù)測(cè)方法在解決重復(fù)購(gòu)買(mǎi)預(yù)測(cè)問(wèn)題中要優(yōu)于傳統(tǒng)的logistic回歸模型,且人工提取的特征集更具有可解釋性,可以發(fā)現(xiàn)用戶購(gòu)買(mǎi)行為與重復(fù)購(gòu)買(mǎi)率之間的關(guān)系,對(duì)于消費(fèi)者行為以及營(yíng)銷工程方面的研究具有重要的意義。

        特征工程;重復(fù)購(gòu)買(mǎi)預(yù)測(cè);邏輯回歸;人工神經(jīng)網(wǎng)絡(luò)

        一、引言

        在網(wǎng)絡(luò)營(yíng)銷中,通過(guò)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的挖掘和預(yù)測(cè)可以理解消費(fèi)者行為,這對(duì)互聯(lián)網(wǎng)商家定位潛在的忠誠(chéng)顧客,采取有針對(duì)性的促銷活動(dòng),降低營(yíng)銷成本,有著至關(guān)重要的作用。重復(fù)購(gòu)買(mǎi)預(yù)測(cè)就是基于互聯(lián)網(wǎng)用戶的個(gè)人信息和行為數(shù)據(jù),利用機(jī)器學(xué)習(xí)技術(shù)對(duì)顧客未來(lái)的購(gòu)買(mǎi)行為進(jìn)行預(yù)測(cè)的二分類問(wèn)題。目前,很多推薦系統(tǒng)類的問(wèn)題都采用了深度學(xué)習(xí)等深層神經(jīng)網(wǎng)絡(luò)模型,這些基于神經(jīng)網(wǎng)絡(luò)發(fā)展出來(lái)的模型與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,可以從無(wú)類別標(biāo)簽的數(shù)據(jù)中采取無(wú)監(jiān)督學(xué)習(xí)機(jī)制學(xué)習(xí)特征,挖掘深層次特征,自動(dòng)學(xué)習(xí)數(shù)據(jù)之間潛在的關(guān)聯(lián)關(guān)系,并且可以精確模擬任意復(fù)雜的非線性函數(shù),在很多分類問(wèn)題上取得了不錯(cuò)的結(jié)果,深度學(xué)習(xí)的這一特點(diǎn)已經(jīng)在多個(gè)復(fù)雜的回歸分類問(wèn)題中得到了有效證實(shí)[1,2,3]。但是,對(duì)于重復(fù)購(gòu)買(mǎi)預(yù)測(cè),原始數(shù)據(jù)全部為類別數(shù)據(jù),深度學(xué)習(xí)無(wú)法直接從這些數(shù)據(jù)中提取特征,雖然可以采用one-hot編碼,構(gòu)造高維度稀疏矩陣作為ANN的輸入,但是采用這種方法對(duì)計(jì)算機(jī)性能要求極高,會(huì)耗費(fèi)大量計(jì)算資源和時(shí)間,沒(méi)有應(yīng)用價(jià)值,而且,在此類問(wèn)題中,如果提取的特征集是一個(gè)黑箱,不具有可解釋性,不能說(shuō)明用戶購(gòu)買(mǎi)行為和重復(fù)購(gòu)買(mǎi)率之間的關(guān)系,那么對(duì)企業(yè)制定營(yíng)銷策略也沒(méi)有任何幫助。本文的創(chuàng)新之處在于,并沒(méi)有直接采用神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)等算法進(jìn)行預(yù)測(cè),而是根據(jù)實(shí)際業(yè)務(wù)經(jīng)驗(yàn),人工提取大量特征,還原原始數(shù)據(jù)的信息后,再用ANN的方法進(jìn)行預(yù)測(cè),并與logistic回歸算法進(jìn)行對(duì)比,得到了不錯(cuò)的效果。

        二、特征工程

        (一)數(shù)據(jù)描述

        本次實(shí)驗(yàn)數(shù)據(jù)來(lái)源于阿里云天池大數(shù)據(jù)競(jìng)賽公布的天貓雙十一當(dāng)天和雙十一前六個(gè)月的匿名用戶行為記錄,數(shù)據(jù)全部字段如下:

        user_id,merchant_id,age_range,gender

        activity_log,cat_id,brand_id,action_type,

        (二)構(gòu)建特征工程表

        原始數(shù)據(jù)中age_range,gender等為類別數(shù)據(jù),而merchant_id,item_id,cat_id等均為字符串特征,不能直接作為輸入數(shù)據(jù)。但是在數(shù)據(jù)集中隱藏著大量的用戶偏好信息,例如,一個(gè)顧客如果平時(shí)的購(gòu)買(mǎi)量和瀏覽商品的次數(shù)遠(yuǎn)少于雙十一當(dāng)天的次數(shù),那么這種類型的用戶可能只對(duì)便宜的促銷商品感興趣,不太可能成為某個(gè)商家的忠誠(chéng)顧客。我們參考文獻(xiàn)[4]的特征工程模型和原始數(shù)據(jù),構(gòu)建出十種特征實(shí)體,分別為:

        usermerchantcategorybranditemuser-merchantuser-branduser-categorymerchant-brandmerchant-category

        每個(gè)特征實(shí)體根據(jù)特征類型又可分為更多的特征,與用戶行為次數(shù)有關(guān)的數(shù)據(jù)(counts/ratio),與統(tǒng)計(jì)量有關(guān)的數(shù)據(jù)(aggregation),用戶近期的行為數(shù)據(jù)(recent activity),與用戶年齡性別有關(guān)的數(shù)據(jù)(age/gender related)。

        基于特征實(shí)體和特征類型的組合構(gòu)建完整的特征工程圖表。例如,user profile和overall action count組成的特征(user_overall_action_count)表示每個(gè)用戶在前六個(gè)月內(nèi)的全部行為次數(shù)(包括點(diǎn)擊行為,購(gòu)買(mǎi)行為,加入購(gòu)物車行為,加入收藏行為),該特征可以刻畫(huà)用戶的行為偏好。再如,item profile和monthly action count組成的特征(item_monthly_action_count)表示某種商品在每個(gè)月內(nèi)被用戶點(diǎn)擊、購(gòu)買(mǎi)、加入購(gòu)物車和加入收藏的次數(shù),顯然,如果某種商品被購(gòu)買(mǎi)的次數(shù)很多,說(shuō)明該種商品很暢銷,很容易吸引回頭客。利用特征工程表構(gòu)建出的特征不僅可以完整的反應(yīng)原始數(shù)據(jù)集的信息,提高預(yù)測(cè)的精度,而且均具有實(shí)際意義,可解釋性強(qiáng)。

        三、預(yù)測(cè)模型

        (一)神經(jīng)網(wǎng)絡(luò)算法(ANN)

        人工神經(jīng)網(wǎng)絡(luò)(ANN)的模型結(jié)構(gòu)通常由三層神經(jīng)元相互連接構(gòu)成,層與層之間相互連接,同層之間無(wú)連接,以監(jiān)督學(xué)習(xí)為例,假設(shè)我們有訓(xùn)練樣本集(x(i),y(i)),那么神經(jīng)網(wǎng)絡(luò)算法能夠提供一種復(fù)雜且非線性的假設(shè)模型hw,b(x),它具有參數(shù)W,b,可以以此參數(shù)來(lái)擬合我們的數(shù)據(jù)。

        1.前向傳播算法

        2.反向傳導(dǎo)算法

        假設(shè)我們有一個(gè)固定樣本集{(x(1),y(1)),…,(x(m),y(m))},它包含m個(gè)樣本例,我們可以用批量梯度下降法來(lái)求解神經(jīng)網(wǎng)絡(luò)。具體來(lái)講,對(duì)單個(gè)樣例(x,y),其代價(jià)函數(shù)為:

        以上公式中的第一項(xiàng)J(W,b)是一個(gè)均方差項(xiàng)。第二項(xiàng)是一個(gè)權(quán)重衰減項(xiàng),其目的是減小權(quán)重的幅度,防止過(guò)擬合。

        用梯度下降法對(duì)參數(shù)W和b進(jìn)行更新,求此代價(jià)函數(shù)的最小值

        在用梯度下降法對(duì)參數(shù)進(jìn)行更新時(shí),其中關(guān)鍵步驟就是計(jì)算偏導(dǎo)數(shù),反向傳播就是計(jì)算偏導(dǎo)數(shù)的一種有效方法。

        反向傳導(dǎo)算法可分為以下幾個(gè)步驟:

        (1)進(jìn)行前饋傳導(dǎo)計(jì)算,利用前向傳導(dǎo)公式,得到L2,L3,…直到輸出層Lnl的激活值

        (2)對(duì)于第nl層(輸出層)的每個(gè)輸出單元i,根據(jù)以下公式計(jì)算殘差:

        (3)對(duì)l=nl-1,nl-2,nl-3,…,2的各個(gè)層,第l層的第i個(gè)節(jié)點(diǎn)的殘差計(jì)算方法如下:

        (4)計(jì)算偏導(dǎo)數(shù),方法如下:

        將求得的導(dǎo)數(shù)帶入到梯度下降算法中,通過(guò)迭代步驟來(lái)減小代價(jià)函數(shù)J(W,b)的值,進(jìn)而求解神經(jīng)網(wǎng)絡(luò)模型。

        四、實(shí)驗(yàn)結(jié)果與分析

        (一)實(shí)驗(yàn)流程1.數(shù)據(jù)樣本預(yù)處理

        收集數(shù)據(jù)樣本,首先對(duì)數(shù)據(jù)進(jìn)行邏輯檢查,之后進(jìn)行預(yù)處理。

        采取公式(1)將數(shù)據(jù)樣本映射到[0,1]。

        2.特征工程

        根據(jù)特征工程表從user_log_format1中提取75組特征,并將這些特征與訓(xùn)練集和測(cè)試集融合。

        3.數(shù)據(jù)樣本的劃分

        將測(cè)試集和訓(xùn)練集拆分,并在訓(xùn)練集中抽取相同數(shù)量的正負(fù)樣本組成新的訓(xùn)練集,再將訓(xùn)練集拆分出一個(gè)驗(yàn)證集。

        4.預(yù)測(cè)模型的訓(xùn)練

        分別用logistic回歸和ANN擬合數(shù)據(jù),并預(yù)測(cè)結(jié)果。

        (二)實(shí)驗(yàn)結(jié)果及分析

        表1為第一階段特征工程結(jié)束時(shí)訓(xùn)練集的測(cè)試結(jié)果,表2為驗(yàn)證集的測(cè)試結(jié)果,可以看出,ANN模型預(yù)測(cè)的結(jié)果在準(zhǔn)確率、查準(zhǔn)率、查全率和F1度量四個(gè)方面的分?jǐn)?shù)均高于logistic回歸,這說(shuō)明ANN的非線性擬合能力較強(qiáng),有助于提高預(yù)測(cè)的精度。

        表1 LR與ANN對(duì)比測(cè)試(第一階段特征工程)

        表2 LR與ANN對(duì)比測(cè)試(第一階段特征工程)

        五、結(jié)語(yǔ)

        本文采用人工特征工程的方法對(duì)用戶購(gòu)買(mǎi)行為數(shù)據(jù)進(jìn)行一定規(guī)模的特征提取,雖然人工提取特征的過(guò)程比較繁瑣,但在實(shí)際的管理應(yīng)用中,這種特征集更具有可解釋性,可以發(fā)現(xiàn)用戶的購(gòu)買(mǎi)行為與重復(fù)購(gòu)買(mǎi)率之間的關(guān)系,對(duì)于消費(fèi)者行為以及營(yíng)銷工程方面的研究具有重要的意義,實(shí)驗(yàn)最后對(duì)比神經(jīng)網(wǎng)絡(luò)算法和logistic回歸算法,發(fā)現(xiàn)人工特征工程結(jié)合神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型要優(yōu)于logistic回歸模型。

        [1]BENGIO Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.

        [2]BENGIO Y,LECUN Y.Scaling learning algorithms towards AI[M].BOTTOU L,CHAPELLE O,DeCOSTE D,et al,Large-Scale Kernal Machines.Cambridge:MIT Press,2007:321-358.

        [3]劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2014,31(7):1921-1942.

        [4]Guimei Liu,Tam T.Nguyen,Gang Zhao,Wei Zha,Jianbo Yang,Jianneng Cao,Min Wu,Peilin Zhao,Wei Chen.Data Analytics Department,Institute for Infocomm Research,Singapore 138632

        [5]Richardson M,Dominowska E,Ragno R.Predicting clicks:estimating the click-through rate for new ads[C].International Conference on World Wide Web.ACM,2007:521-530.

        猜你喜歡
        特征用戶工程
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        子午工程
        太空探索(2016年6期)2016-07-10 12:09:06
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        工程
        如何獲取一億海外用戶
        工程
        麻豆国产AV网站| 人人妻人人爽人人澡人人| 毛片在线播放a| 色欲AV成人无码精品无码| 国产偷拍自拍在线观看| 少妇被黑人整得嗷嗷叫视频| 亚洲av成人无码精品电影在线| 伊人22综合| 冲田杏梨av天堂一区二区三区| 婷婷久久精品国产色蜜蜜麻豆 | 国产深夜男女无套内射| 日韩中文网| 青青草视频在线播放81| 国产毛片av最新视频| 图片区小说区激情区偷拍区| 国产成人九九精品二区三区| 粗大挺进孕妇人妻在线| 国产亚洲精品综合一区| 男人添女人下部高潮全视频| 本道无码一区二区久久激情| 麻豆国产精品伦理视频| 欧美丰满老熟妇aaaa片| 亚洲av无码乱观看明星换脸va| 欧美洲精品亚洲精品中文字幕| 精品国产亚洲一区二区三区四区| 男人和女人做爽爽免费视频 | 吃奶呻吟打开双腿做受视频| 久久久久久久性潮| 日韩不卡无码三区| 久久av不卡人妻出轨一区二区| 国产精品久久人妻无码| 日日摸夜夜欧美一区二区| 久久这黄色精品免费久| 欧美xxxx做受欧美88| 久久亚洲精品无码va大香大香| 日韩人妻无码精品二专区| 日本成人精品在线播放| 国产成人亚洲精品| 婷婷综合缴情亚洲狠狠| 白白色免费视频一区二区在线| 国产综合精品|