亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于迭代回歸樹模型的跨平臺長尾商品購買行為預測

2017-11-27 08:59:25文繼榮楊伯華

中文信息學報 2017年5期

關鍵詞：特征用戶信息

白婷,文繼榮,趙鑫,楊伯華

(1. 中國人民大學信息學院，北京 100872；2. 大數(shù)據(jù)管理與分析方法研究北京市重點實驗室，北京 100872)

基于迭代回歸樹模型的跨平臺長尾商品購買行為預測

白婷1，2,文繼榮1，2,趙鑫1，2,楊伯華1，2

(1. 中國人民大學信息學院，北京 100872；2. 大數(shù)據(jù)管理與分析方法研究北京市重點實驗室，北京 100872)

長尾商品是指單種商品銷量較低，但是由于種類繁多，形成的累計銷售總量較大，能夠增加企業(yè)盈利空間的商品。在電子商務網(wǎng)站中，用戶信息量較少且購買長尾商品數(shù)量較少、數(shù)據(jù)稀疏，因此對用戶購買長尾商品的行為預測具有一定的挑戰(zhàn)性。該文提出預測用戶購買長尾商品的比例，研究單一用戶購買長尾商品的整體偏好程度。利用社交媒體網(wǎng)站上海量的文本信息和豐富的用戶個人信息，提取用戶的個人屬性、文本語義、關注關系、活躍時間等多個種類的特征；采用改進的迭代回歸樹模型MART(Multiple Additive Regression Tree)，對用戶購買長尾商品的行為進行預測分析；分別選取京東商城和新浪微博作為電子商務網(wǎng)站和社交媒體網(wǎng)站，使用真實數(shù)據(jù)構建回歸預測實驗，得到了一些有意義的發(fā)現(xiàn)。該文從社交媒體網(wǎng)站抽取用戶特征，對于預測用戶購買長尾商品的行為給出一個新穎的思路，可以更好地理解用戶個性化需求，挖掘長尾市場潛在的經(jīng)濟價值，改進電子商務網(wǎng)站的服務。

長尾商品；電子商務；社交媒體；購買行為預測

1 引言

長尾商品是指單種商品銷量較低，但由于種類繁多，形成的累計銷售總量較大，能夠增加企業(yè)盈利空間的商品[1]。隨著信息科技的發(fā)展，人們能夠較容易地在電子商務網(wǎng)站中找到實體市場中因為冷門而幾乎沒有消費者的長尾產(chǎn)品。如圖1*維基百科http://zh.wikipedia.org/wiki/%E9%95%BF%E5%B0%BE所示，人們比較關注曲線主體的那些熱門商品，而將處于曲線尾部的商品忽略，但被忽略的較長的尾部商品累計產(chǎn)生的總體效益甚至可以與主體熱銷商品抗衡。首先，長尾商品的銷量可觀，例如，有學者研究過亞馬遜網(wǎng)站的書本銷售量和銷售排名的關系，發(fā)現(xiàn)亞馬遜40%的圖書銷量來自于本地書店里不賣的圖書[2]；Deniz Oktar*D. Oktar. Recommendation Systems: Increasing Profit byLong Tail. http://en.webrazzi.com/2009/09/18/也指出，商家盈利的增加在于對長尾市場的開發(fā)，他認為熱門商品因為很多商家競價出售而導致商品的利潤降低，而長尾商品若能找到對其偏好的消費者，商家獲利的空間將會很大；Anderson也提出通過讓商品種類全面，并幫助用戶找到它，可以推動長尾市場的繁榮[3]。

圖1 長尾理論中商品銷量圖

對用戶購買長尾商品的行為進行預測，就是探究哪些用戶更傾向于購買長尾商品，分析用戶購買長尾商品時的偏好、購買習慣等特點。長尾商品由于購買量少導致數(shù)據(jù)稀疏，傳統(tǒng)的基于內容推薦和協(xié)同過濾、關聯(lián)規(guī)則、聚類等方法適用性較差，所以對用戶購買長尾商品行為的預測具有一定的挑戰(zhàn)性。本文提出一種基于社交媒體信息對用戶購買長尾商品行為做預測的方法，探究如何利用社交媒體上海量的文本信息和豐富的用戶信息，對用戶購買長尾商品的行為做預測，以更好地理解用戶的個性化需求，從而挖掘長尾商品的潛在經(jīng)濟價值。

本文主要有三點貢獻: ①針對長尾商品的購買行為，形式化地給出了研究問題的定義，提出利用社交媒體上海量的文本信息和豐富的用戶信息，對用戶購買長尾商品的比例做預測； ②針對數(shù)據(jù)樣本分布的偏置性問題，改進MART模型，顯著地提高了模型的預測效果； ③在真實的數(shù)據(jù)集(新浪微博、京東商城)上構建大量的實驗，與LR(linear regression)模型,SVR(support vector regression)模型，CART(classification and regression Tree)模型，神經(jīng)網(wǎng)絡多層感知機模型MLP(multilayer perceptron)對比,驗證了預測的效果，并詳細分析用戶特征對其購買長尾商品比例的影響。

2 相關工作

目前，對用戶購買行為的研究大多基于用戶的購買記錄，為用戶推薦可能購買的商品，通常采用基于內容推薦、協(xié)同過濾推薦、關聯(lián)規(guī)則、聚類等方法?；趦热莸耐扑][4]是根據(jù)用戶過去喜歡的物品內容，為用戶推薦相似的物品，長尾商品由于購買量少，基于內容推薦的算法并不適用；協(xié)同過濾算法是利用用戶喜好之間的相似性進行推薦[5],不依賴于商品的實際內容，但需要用戶對商品的喜好信息，在長尾商品的購買中，用戶喜好差別很大，所以也不適用。長尾商品由于購買量少，數(shù)據(jù)稀疏，關聯(lián)規(guī)則、聚類等方法也都適用性較差，這使得對長尾商品的研究具有一定的挑戰(zhàn)性。目前針對長尾商品推薦的研究較少，且都是基于用戶購買記錄本身，如文獻[6]中提出了一種基于用戶購買記錄的圖模型長尾商品推薦算法，文獻[7]中是基于長尾商品在所有商品購買圖中的位置進行分析。

基于購物網(wǎng)站上信息，對長尾商品的購買行為分析存在以下不足: 第一，電子商務網(wǎng)站用戶注冊信息一般比較簡單，如京東商城，用戶只需填寫用戶名和密碼，進行郵箱或手機號的驗證，就可以進行購物；第二，每個用戶長尾商品的購買記錄少，數(shù)據(jù)稀疏。購物網(wǎng)站上簡單的用戶信息，較少的長尾商品購買記錄，是研究長尾商品購買行為的挑戰(zhàn)所在，而在社交媒體上，雖然無法得知用戶的購買記錄，但有豐富的用戶信息，如年齡、性別、職業(yè)及海量文本信息，將這些豐富的信息用于對用戶購買長尾商品的預測，是長尾商品購買行為研究的一個新思路。文獻[8]初步驗證了社交媒體網(wǎng)站中用戶人口統(tǒng)計學特征、喜好，與用戶在電子商務網(wǎng)站中購買商品類別有一定的聯(lián)系，本文針對長尾商品，進一步挖掘社交媒體網(wǎng)站中用戶的信息，對用戶購買行為進行預測，并構建實驗，給出驗證。

3 問題描述及定義

在傳統(tǒng)經(jīng)濟里，“二八定律”認為公司80%的利潤來自20%的暢銷產(chǎn)品，其余20%的利潤則來自于80%的普通產(chǎn)品[1]，因貨架空間的局限和成本問題，那些由于銷量低而周轉速度不足以抵消貨架單位面積成本的長尾商品，將會被排斥在市場之外。隨著電子商務網(wǎng)站的興起，用戶只需簡單搜索，即可看到大量可選的商品，這使得種類豐富的長尾商品有較大機會面向龐大的目標消費群體。本文研究用戶對長尾商品的整體偏好程度，利用用戶特征預測其購買長尾商品的比例，定義如下。

長尾商品根據(jù)“二八定律”，將長尾商品定義為銷量排名大于20%的商品，定義如下: 給定商品集P，商品總數(shù)為N，對商品按照銷量進行倒序排序P={p1,p2,…，pN}，使得?pi∈P,Si≥Si+1，其中Si是商品pi的銷量。長尾商品集PLT(Long Tail Product)可以定義為式(1)。

PLT={pi|i≥N×20%,pi∈P}

(1)

長尾商品購買比例給定用戶集U，對于?u∈U,用戶u購買的商品集為Pu，則該用戶購買的長尾商品比例yu可以定義為式(2)。

4 模型描述

社交媒體中含有豐富的用戶信息，如年齡、性別、喜好、文本信息等，這些信息很難從電子購物網(wǎng)站得到，因此，本文從社交媒體中提取用戶u的特征向量xu={x1,x2,…,xn}，并從電子商務網(wǎng)站中得到用戶μ實際購買長尾商品的比例yu，構造訓練數(shù)據(jù)集{xu,yu}u∈U，則問題轉化為輸入為用戶特征向量xu，期望輸出為用戶實際購買長尾商品比例yu的預測問題。機器學習中有很多模型可以解決此類問題，如線性回歸、支持向量機、決策樹等[9]，迭代回歸樹模型MART(multiple additive regression tree)是由多個回歸樹加權合并成的回歸樹模型，在很多任務中都有不錯的效果，例如在解決互聯(lián)網(wǎng)搜索排序(Web search ranking)[10]、推薦和預測系統(tǒng)[11]中，都有較好的預測效果和較低的錯誤率。在本文中，用戶特征種類較多，特征的不同組合會導致不同的預測結果，與線性回歸、支持向量機等方法相比較，MART模型是由多個簡單的決策樹組合而成的模型，能夠充分利用用戶特征信息，有效學習特征表示[12-14]，故本文中采用MART模型，并通過引入樣本權重的方法對MART模型進行改進，使得改進后的模型預測效果有了顯著的提升。

4.1 MART簡介

MART(multiple additive regression tree)又叫做GBDT(gradient boosting decision tree)，是采用梯度迭代算法實現(xiàn)的回歸樹。

MART模型的輸入為n維特征向量x，由映射函數(shù)F:Rn→R將其映射到預測值。在第m次迭代中，有:

Fm(x)=Fm-1(x)+ρmhm(x;a)

(4)

其中hm(x;a)表示以a為參數(shù)的x的函數(shù)，ρm∈R表示第m個函數(shù)的權重。

其中gm(x)表示函數(shù)Fm-1(x)梯度下降方向，計算公式如式(7)所示。

4.2 MART的改進

MART模型中假設所有實例(用戶)同等重要，本數(shù)據(jù)集中用戶購買長尾商品的比例非常不均勻，購買長尾商品比例較低的用戶占絕大多數(shù)，為了更好地學習用戶的特征與其購買長尾商品的關系，本文對MART模型進行改進，對購買長尾商品比例大的用戶著重學習，即根據(jù)用戶購買長尾商品的比例對用戶進行加權。

定義如下?lián)p失函數(shù):

(9)

模型的權重wi由訓練數(shù)據(jù)確定，在訓練完成得到MART模型參數(shù)am和ρm后，實際預測過程按照式(4)計算，并不需要得待預測樣本的權重。

下一節(jié)介紹如何從社交媒體中提取用戶的特征向量x。

5 特征選擇

本文利用社交媒體中海量的文本信息和豐富的用戶信息，如年齡、性別、職業(yè)及大量文本信息，對用戶購買行為進行預測，構建用戶社交媒體中特征向量，分析用戶特征對購買行為的影響。

5.1 購買行為分析

商品的價格、目標用戶的類別(如男士用品、女士用品)、適用的年齡段(如幼兒產(chǎn)品、老年產(chǎn)品)、功能類別(如日用品、專業(yè)領域用品)等因素都會影響到商品的銷量。因此，用戶的年齡、性別、婚姻狀況、教育背景、職業(yè)等個人屬性，關注的話題、興趣愛好等特征都是影響其購買行為的因素[16]。

5.2 特征向量構建

如何在社交媒體中提取與購買長尾商品有關的特征，是特征提取面臨的一個挑戰(zhàn)。在眾多的社交媒體中，本文選擇涵蓋娛樂、體育、生活等多方面，具有龐大用戶群體的新浪微博作為提取用戶特征的數(shù)據(jù)來源，通過對用戶的社交習慣和購買行為的分析，在新浪微博中提取用戶的四大類12種特征，用戶微博特征見表1。

用戶微博特征詳細說明如下:

(1) 個人屬性特征

年齡: 1～11,12～17,18～30,31～45,46～59,60+；

性別: 男，女；

婚姻狀況: 單身、訂婚、暗戀、結婚、追求、喪偶、分居、離婚、熱戀、曖昧；

表1 用戶微博特征表

教育背景: 自然科學、工程、社會科學、醫(yī)學、藝術、其他；

職業(yè): 互聯(lián)網(wǎng)、設計、服務業(yè)、生產(chǎn)業(yè)、醫(yī)藥業(yè)、科學工作、管理者、其他；

興趣愛好: 由微博用戶標簽得到，包括旅游、攝影、音樂和電影、電腦游戲、其他。

(2) 文本特征

話題分布: 采用主題模型(topic model)可以從用戶所發(fā)的博文中，獲取該用戶的主題分布。采用隱含狄利克雷分布(LDA),將每個用戶的博文聚合成一個文檔。提取用戶的原創(chuàng)、轉發(fā)、評論的文本信息，得到每個微博用戶的主題分布[17]。

(3) 關系特征

群組: 在微博中，有相似關注關系的用戶具有相似興趣愛好的可能性較大，可以根據(jù)用戶的關注關系，將用戶分為群組。與文獻[17]中思路相似，采用LDA模型，將被關注的用戶當做單詞，關注者當做文檔，發(fā)現(xiàn)被關注者的潛在群組，得到每個微博用戶的關注偏好分布。

權威性: 用戶權威性即用戶在微博關系圖中的PageRank值，可以定義為: 微博中的用戶關注關系用圖GU(V,E)來表示，圖中的每一個頂點v∈V代表微博中的每一個用戶,圖中的邊E則為V×V的子集，代表兩個頂點之間的關系。對于頂點vi:

其中M(vi)是指向vi的所有節(jié)點，L(vj)是vj鏈出的節(jié)點數(shù)量，|V|是節(jié)點總數(shù)。

互動率: 由用戶@他人的次數(shù)和用戶參與話題討論Hashtag的使用率構成。

(4) 微博活躍時間特征

每天分布: 每天用戶活躍在微博上的時間分布；

每周分布: 每周用戶活躍在微博上的時間分布。

6 實驗設置及結果分析

6.1數(shù)據(jù)準備

本文分別選取京東商城和新浪微博作為電子商務網(wǎng)站和社交媒體網(wǎng)站，利用京東商城的用戶購買記錄和新浪微博用戶信息構建實驗。

電子商務網(wǎng)站數(shù)據(jù)從國內最大的B2C電子商務網(wǎng)站京東商城爬取商品的評論信息，獲得1200萬用戶對17.5萬商品的1.389億條商品評論。在京東上只有購買商品的用戶才可以對該商品做出評論，每一條評論均可以得到一個用戶的ID(基于用戶隱私考慮，ID均為加密處理)，根據(jù)用戶的ID對商品進行分組，得到每個用戶所購買的商品的列表。

社交網(wǎng)絡數(shù)據(jù)從國內最大的社交媒體網(wǎng)站新浪微博獲取用戶的社交信息，提取從2013年1月1日到2013年6月30日的微博數(shù)據(jù)，去除非正常微博用戶，例如，極度不活躍用戶；粉絲數(shù)低于五個、微博數(shù)低于五條的用戶；活躍度很高但互動率很少的用戶；如一天內同一條微博發(fā)布五次或自轉發(fā)五次以上、所發(fā)微博中半數(shù)以上的微博他人轉發(fā)以及評論人數(shù)少于五人的用戶。最后從500萬正?；钴S的微博用戶中提取17億條博文信息。

京東-微博用戶關聯(lián)用戶在京東購買商品時，有時會采用第三方賬號登錄，如果采用新浪微博賬號登錄，就可獲得一個用戶的新浪微博ID和京東ID；此外，微博用戶有時會將在購物網(wǎng)站上購買的商品鏈接分享到微博上，根據(jù)其分享的鏈接，我們就可以將該用戶的京東ID和新浪微博ID相關聯(lián)，本文從17億條博文信息中抽取京東商品分享信息，從500萬微博用戶中找出23917個同時具有京東購物記錄和新浪微博信息的用戶,去除微博和購買記錄中異常的噪聲數(shù)據(jù)，如微博中博文數(shù)量極少或極多的數(shù)據(jù)，購買記錄中少于10條的用戶，最終我們得到有長尾商品購買記錄的15853個關聯(lián)用戶。

長尾商品集的構建考慮到不同種類的商品銷售量會有很大的差距，比如電子產(chǎn)品和日常生活用品，若將商品整體按銷量排序提取長尾商品，可能會導致銷量少的某一種類如電子產(chǎn)品，都會被劃分到長尾商品中。所以本實驗先將商品按照京東購物網(wǎng)站的16個大類目進行分類，在每個類別中按照公式(1)去除銷量最高的前20%的熱門商品，以及銷售量極少的噪聲數(shù)據(jù)，重新構建得到長尾商品集。找出購買這些長尾商品的用戶ID中屬于關聯(lián)用戶的ID。長尾商品的銷量區(qū)間分布如圖2所示，用戶購買長尾商品比例人數(shù)統(tǒng)計結果如圖3所示，最終得到統(tǒng)計結果如表2所示。

圖2 長尾商品銷量區(qū)間分布

圖3 購買長尾商品用戶所占百分比

關聯(lián)用戶數(shù)/人長尾商品總數(shù)/件商品平均購買量/件長尾商品平均購買量/件平均博文數(shù)量/條15853138015528.241

6.2 評價標準

其中平均絕對誤差(MAE)、均方根誤差(RMSE)反映的是預測值與真實值的擬合程度，數(shù)值越小，表示預測效果越好，確定系數(shù)(R-square)反映的是預測值與真實數(shù)據(jù)的平均值的比較，正常取值范圍區(qū)間為[0,1]，越接近1，表示模型的預測效果越好。

6.3 實驗結果與分析

用改進后的MART模型對用戶特征向量xu={x1,x2,…,xn}進行訓練和測試，與解決回歸問題的LR(linear regression)模型[22]、SVR(support vector regression)模型[23]、CART(classification and regression tree)模型[24]、神經(jīng)網(wǎng)絡多層感知機MLP(multilayer perceptron)模型[25]對比，結果如表3所示。

表3 三種模型評價指標對比

(↑表示值越大，預測效果越好；↓表示值越小，預測效果越好)

實驗結果表明:

① MAE和RMSE兩個評價指標考慮的是預測值和真實數(shù)據(jù)的擬合程度，可以看出: 對比MART與LR、SVR、MLP、CART模型，五種模型預測效果相似，改進后的加權MART模型，預測效果有了明顯的提升。

② R-square反映的是預測值與真實數(shù)據(jù)平均值的比較，數(shù)據(jù)的分布影響預測效果的好壞。R-square正常取值范圍區(qū)間為[0,1]，越接近1，表示模型的預測效果越好。當預測值與真實值相等時，R-square值為1,在本實驗中:

? 用戶長尾商品的購買比例分布見圖3，購買長尾商品比例小于0.3的用戶占總用戶數(shù)的91%，比例在0.3到0.4之間的用戶為5%，比例大于0.4的用戶為4%?？梢钥闯?，購買長尾商品比例比較低的用戶占絕大多數(shù)，購買長尾商品比例較高的用戶由于數(shù)量少，數(shù)據(jù)的分布非常不均勻，導致模型預測效果較差。當預測值偏差較大時，就可能出現(xiàn)負值的情況，表3中SVR模型、MLP模型因數(shù)據(jù)分布的極度不均勻，R-square的值為負值。

? 采用改進后的加權MART模型，即按照用戶購買長尾商品比例加權后，購買長尾商品比例較高的用戶權重得到提高，模型預測效果有了顯著的提升。

6.4 特征分析

本節(jié)主要分析從微博中提取的用戶特征對預測其購買長尾商品比例的貢獻，選取貢獻值最大的四種用戶特征，進行詳細的統(tǒng)計分析。

6.4.1 特征貢獻

在決策樹模型中，可以計算屬性的貢獻值，如論文[26]中介紹的方法，在MART的所有的回歸樹上，計算每個特征對節(jié)點分類的貢獻之和，作為該特征的貢獻值，如圖4所示。

圖4 用戶微博特征貢獻值

由圖4可以看出，用戶微博中抽取的特征對其購買長尾商品的影響，話題分布影響最大，用戶年齡、群組、性別次之，而用戶的興趣愛好、婚姻狀況、職業(yè)、教育背景等特征對其購買長尾商品的貢獻值非常小。特征的貢獻值可能與特征的維度有關，話題和群組維度均為50維，而其他特征維度相對較??；也可能與實驗所用的數(shù)據(jù)集有關，在關聯(lián)用戶的新浪微博爬取的數(shù)據(jù)集中，每類特征的完整度分別為: 性別(100%)、興趣愛好(65.7%)、年齡(36.7%)、教育背景(26.3%)、職業(yè)(12.9%)、婚姻狀況(4.6%)、微博的文本特征(99.1%)。

由圖4可以看出，對用戶購買長尾商品影響最大的四個特征是話題分布、年齡、群組、性別，下面分別對這幾種特征進行分析。

6.4.2 話題、群組的特征分析

定義話題、群組對用戶購買長尾商品的影響度如式(14)所示。

其中pu,i是用戶u在話題(群組)i上的概率分布，pi是所有用戶在話題(群組)i上的概率分布之和，yu是用戶u購買長尾商品的比例。對于每一個話題(群組)i,計算所有用戶購買長尾商品的影響值之和作為該話題(群組)對長尾商品購買的影響度，選取對長尾商品購買影響度最大的五個話題和群組，每個話題和群組中選取10個詞，如表4、表5所示。

表4 對長尾商品購買影響度最大的五個話題

表5 對長尾商品購買影響度最大的五個群組

由表4、表5分析話題、群組對用戶購買長尾商品的影響，結論如下:

① 排名第一的話題27中提及優(yōu)惠、套餐、憑劵、優(yōu)惠券，可以推測，喜歡購買長尾商品的用戶更傾向于關注優(yōu)惠信息；話題24中，提及設計、創(chuàng)意、DIY、手工，推測長尾商品具有新奇、獨特的特點；話題4中提及獎品、抽獎、大獎、機會等詞，推測愿意購買長尾商品的用戶也更愿意去參與一些博彩類的話題;

② 對群組分析發(fā)現(xiàn)，購買長尾商品比例較高的用戶更傾向于去關注娛樂、體育、科技領域的明星，也比較愿意去關注一些語錄和新聞類的用戶。

6.4.3 年齡、性別的特征分析

不同年齡、性別的用戶對長尾商品的購買比例統(tǒng)計結果如圖5所示。

圖5 年齡、性別對其購買長尾商品的影響

由圖5可以看出:

① 46～59歲年齡段的用戶更喜歡購買長尾商品，31～45歲的用戶次之，18～30歲的用戶購買長尾商品的比例最少;

② 女性用戶比男性用戶更傾向于購買長尾商品。

7 總結與展望

本文充分利用社交媒體網(wǎng)站上海量的文本信息和豐富的用戶信息，抽取用戶特征，對預測用戶購買長尾商品的行為給出了一個新穎的解決思路，并分析用戶特征，如年齡、性別、關注的話題和喜好等因素對其購買長尾商品的影響，可以更好地理解用戶個性化需求，可據(jù)此改進電子商務網(wǎng)站的服務，探究長尾商品的個性化推薦，挖掘長尾市場潛在的經(jīng)濟價值。

然而，本文仍然存在一些需要改進的地方，例如，在單一社交媒體上抽取用戶的特征還不夠全面，通過對多個媒體網(wǎng)絡的用戶信息整合，我們可以獲得更豐富的用戶屬性，用來提高預測精度。

近年來，隨著深度學習的廣泛應用，在跨平臺的用戶購買行為預測中也取得不錯的效果[27]，未來我們也將探索利用深度學習模型來對長尾商品進行建模。

針對長尾商品這一較為新穎的研究領域，今后我們還會對以下問題進行研究:

① 探究用戶社交媒體上的用戶特征對其購買長尾商品的類別的影響；

② 如何有效利用用戶社交媒體信息和購買歷史記錄提高長尾商品的推薦準確度；

③ 如何在社交媒體網(wǎng)站上進行長尾商品的個性化推廣。

在后續(xù)的研究中，我們將對用戶特征處理和長尾商品購買行為進行更深入的分析，繼續(xù)探究如何有效利用社交媒體信息，對用戶購買長尾商品的行為做出更為精準的預測。

[1] 克里斯·安德森. 長尾理論[M]. 北京：中信出版社，2006.12.

[2] Brynjolfsson E, Hu Y, Smith M D. Consumer Surplus in the Digital Economy: Estimating the Value of Increased Product Variety at Online Booksellers[J]. Working Papers, 2003, 49(11):1580-1596.

[3] Jansen B J,Chris Anderson.The Long Tail: Why the Future of Business is Selling Less or More.[J]. Information Processing amp; Management, 2007, 43(4):1147-1148.

[4] Ricci F, Rokach L, Shapira B. Introduction to Recommender Systems Handbook[M]. Springer US, 2011:1-4.

[5] Linden G, Smith B, York J. Amazon.com Recommendations: Item-to-Item Collaborative Filtering[J]. IEEE Internet Computing, 2003, 7(1):76-80.

[6] Yin, Hongzhi, Cui, Bin, Li, Jing, et al. Challenging the Long Tail Recommendation[J]. Proceedings of the Vldb Endowment, 2012, 5(9):896-907.

[7] Oestreichersinger G, Sundararajan A. Recommendation Networks and the Long Tail of Electronic Commerce[J]. Social Science Electronic Publishing, 2009, 36(1):65-84.

[8] Zhang Y, Pennacchiotti M. Predicting purchase behaviors from social media[C]//Proceedings of the 22nd International Conference on World Wide Web. 2013:1521-1532.

[9] 陳凱, 朱鈺. 機器學習及其相關算法綜述[J]. 統(tǒng)計與信息論壇, 2007, 22(5):105-112.

[10] S Ankit， S Bhanderi. Survey on Feature Engineering of Author-Paper Pair Matching in Bibliography Data[J]. International Journal of Computer Applications in Engineering Sciences, 2014,6(2):035-039.

[11] Zhang H, Spoelstra J, Spoelstra J, et al. Committee based Prediction System for Recommendation[C]//Proceedings of the 17th International Conference on Kdd Cup, 2011:215-229.

[12] Jerome H. Friedman. Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5):1189-1232.

[13] Chen T, Li H, Yang Q, et al. General Functional Matrix Factorization Using Gradient Boosting[C]//Proceedings of the 31st International Conference on Machine Learning. 2014:436-444.

[14] Zhou K, Yang S H, Zha H. Functional Matrix Factorizations for Cold-start Recommendation[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2011:315-324.

[15] Yan R, Huang C, Tang J, et al. To Better Stand on the Shoulder of Giants[C]//Proceedings of the 12th ACM/IEEE-CS joint conference on Digital Libraries. ACM, 2012:51-60.

[16] Zhao X W, Guo Y, He Y, et al. We know what you want to buy: a demographic-based system for product recommendation on microblogs[C]//Proceedings of the 20th ACM SIGKDD international conference on knowledge discovery and data mining, 2014:1935-1944.

[17] Lin J, Sugiyama K, Kan M Y, et al. Addressing cold-start in app recommendation: latent user models constructed from twitter followers[C]//Proceedings of the 36th international ACM SIGIR conference on research and development in information retrieval. ACM, 2013:283-292.

[18] 朱郁筱, 呂琳媛. 推薦系統(tǒng)評價指標綜述[J]. 電子科技大學學報, 2012, 41(2):163-175.

[19] Shardanand U. Social information filtering: algorithms for automating "word of mouth"[C]//Proceedings of the 13th Sigchi Conference on Human Factors in Computing Systems. ACM Press/Addison-Wesley Publishing Co. 1995:210-217.

[20] Balabanovic, Marko, Shoham, Yoav. Fab: content-based, collaborative recommendation[J]. Communications of the Acm, 1997, 40(3):66-72.

[21] STEEL, R. G. D, TORRIE, J. H. Principles and procedures of statistics.[M]. McGraw-Hill, 1960.

[22] Ellis D M, Draper N P, Smith H S. Applied Regression Analysis[J]. Biometrics, 1998, 17(1):83.

[23] Jing Geng, Min-Liang Huang, Ming-Wei Li, et al. Hybridization of seasonal chaotic cloud simulated annealing algorithm in a SVR-based load forecasting model[J]. Neurocomputing, 2015, 151:1362-1373.

[24] L. Breiman. Classification and regression trees[C]//Proceedings of the Chapman amp; Hall/ CRC, 1984.

[25] Mirjalili S, Mirjalili S M, Lewis A. Let a biogeography-based optimizer train your Multi-Layer Perceptron[J]. Information Sciences, 2014, 269(8):188-209.

[26] Annabi H, Mcgann S T. Social Media as the Missing Link: Connecting Communities of Practice to Business Strategy[J]. Journal of Organizational Computing amp; Electronic Commerce, 2013, 23(1-2):56-83.

[27] Ting Bai, Hongjian Dou, Wayne Xin Zhao, Dingyi Yang, Ji-Rong Wen. An Experimental Study of Text Representation Methods for Cross-Site Purchase Preference Prediction Using the Social Text Data.. Journal of Computer Science and Technology[J]. 2017,32(4): 828-842.

白婷(1992—)，博士研究生，主要研究領域為數(shù)據(jù)挖掘、商品推薦。

E-mail: baiting@ruc.edu.cn

文繼榮(1972—),博士，博士生導師，教授，主要研究領域為信息檢索、數(shù)據(jù)庫。

E-mail: jirong.wen@gmail.com

趙鑫(1985—)，通信作者，博士，副教授，主要研究領域為社交媒體數(shù)據(jù)挖掘、自然語言處理。

E-mail: batmanfly@ruc.edu.cn

ConnectingSocialMediatoE-Commerce:PredictingLong-tailPurchaseBehaviorsusingMultipleAdditiveRegressionTree

BAI Ting1，2, WEN Jirong1，2, ZHAO Xin1，2,YANG Bohua1，2

(1. School of Information, Renmin University of China, Beijing 100872, China；2. Beijing Key Laboratory of Big Data Management and Analysis Methods, Beijing 100872, China)

Long-tail products, with low demands, occupy a significant share of total revenue in total. It is challenging to analyze the long-tail purchase behaviors due to the data sparsity resulted from few purchase behaviors. This paper proposes to leverage online social media information for predicting the long-tail purchase behaviors. In specific, we collect the user profiles form the social media information, including the status text, following links and temporal activity distributions, and predict their purchases by a weighted Multiple Additive Regression Trees (MART). Experimented on the data from JingDong and SinaWeibo, the effectiveness of the proposed method are revealed, together with several interesting findings.

long-tail products; e-commerce shopping; social media; purchase prediction

1003-0077(2017)05-0185-09

TP391

2015-04-15定稿日期2016-03-08

國家自然科學基金青年科學基金(61502502)；國家重點基礎研究發(fā)展計劃(2014CB340403)；北京市自然科學基金(4162032)；中國人民大學2016年度拔尖創(chuàng)新人才培育資助計劃