陳一村,馬堯,王新春,朱山風(fēng)
互聯(lián)網(wǎng)智能化發(fā)展是當(dāng)前互聯(lián)網(wǎng)科技發(fā)展的方向之一。基于用戶的個(gè)人行為,將信息有針對(duì)性地推送給用戶,實(shí)現(xiàn)個(gè)性化的服務(wù),是智能互聯(lián)網(wǎng)的重要體現(xiàn)。目前主流商城站點(diǎn)如Amazon、淘寶、當(dāng)當(dāng)?shù)龋继峁┗谟脩粜袨榈膫€(gè)性化推薦或搜索。在電子商務(wù)領(lǐng)域,個(gè)性化服務(wù)不僅可以及時(shí)發(fā)現(xiàn)用戶最佳購(gòu)買沖動(dòng),提升用戶的購(gòu)買意愿;而且能夠有效地縮短用戶的購(gòu)買路徑和時(shí)間,提升用戶購(gòu)買體驗(yàn)。此外,個(gè)性化搜索服務(wù)消除了傳統(tǒng)營(yíng)銷方式對(duì)用戶的無故騷擾,進(jìn)一步增強(qiáng)用戶體驗(yàn)。
對(duì)于交易網(wǎng)站,用戶的購(gòu)買選擇往往包含著長(zhǎng)期的興趣和短期的偏好[1]。用戶在網(wǎng)站上的操作不斷地暗示著其意圖。如果我們能積極感知這些意圖,那么我們就可以及時(shí)地在用戶下一次操作前做出有效的響應(yīng),從而為用戶提供便捷服務(wù)。這樣的時(shí)效性要求系統(tǒng)的計(jì)算框架能夠以數(shù)據(jù)流的方式來運(yùn)轉(zhuǎn)。本文將針對(duì)大眾點(diǎn)評(píng)網(wǎng)團(tuán)購(gòu)業(yè)務(wù)需求,建立基于Storm框架的實(shí)時(shí)數(shù)據(jù)分析平臺(tái),分析用戶行為,并結(jié)合移動(dòng)用戶的位置信息,對(duì)團(tuán)購(gòu)業(yè)務(wù)的附近搜索提供實(shí)時(shí)反饋的個(gè)性化排序結(jié)果。最后,本文給出了大眾點(diǎn)評(píng)網(wǎng)移動(dòng)主客戶端在團(tuán)購(gòu)附近搜索場(chǎng)景上的真實(shí)運(yùn)行效果。結(jié)果顯示基于Storm框架的實(shí)時(shí)數(shù)據(jù)分析平臺(tái)對(duì)已有系統(tǒng)和 HDFS集群具有良好的兼容性,并且具有高效、實(shí)時(shí)、穩(wěn)定等優(yōu)點(diǎn);同時(shí),對(duì)用戶實(shí)時(shí)反饋的個(gè)性化分析能夠顯著提升團(tuán)購(gòu)附近搜索的性能。
隨著信息化和互聯(lián)網(wǎng)的急速發(fā)展,公司的日常運(yùn)營(yíng)經(jīng)常會(huì)生成TB級(jí)別的數(shù)據(jù),其來源囊括了互聯(lián)網(wǎng)裝置可以捕獲的任何類型數(shù)據(jù),包括網(wǎng)站、社交媒體、交易型商業(yè)數(shù)據(jù)以及其它商業(yè)環(huán)境中創(chuàng)建的數(shù)據(jù)。如何從如此海量的數(shù)據(jù)中發(fā)現(xiàn)其價(jià)值,是大數(shù)據(jù)時(shí)代亟需解決的問題。隨著Google 2004年提出 GFS和 MapReduce[2],其后隨之興起的 Hadoop、Spark/Shark等框架和技術(shù)使得我們能夠大規(guī)模且低成本地處理各種海量數(shù)據(jù)。然而它們?cè)O(shè)計(jì)的初衷都是為了處理靜態(tài)數(shù)據(jù),無法簡(jiǎn)單地轉(zhuǎn)變成實(shí)時(shí)計(jì)算系統(tǒng)??紤]到數(shù)據(jù)的生成形式和產(chǎn)生速度,大規(guī)模的實(shí)時(shí)數(shù)據(jù)處理已經(jīng)變得越來越重要,也成為了許多機(jī)構(gòu)和公司需要面對(duì)的首要挑戰(zhàn)。Google于2010年適時(shí)地推出可用于流式數(shù)據(jù)處理和交互式數(shù)據(jù)處理的Dremel系統(tǒng)。隨后Twitter借助Nathan Marz 的Storm框架,實(shí)現(xiàn)了從海量的推文中提取所浮現(xiàn)的主題趨勢(shì)[3]。與此同時(shí),相關(guān)的企業(yè)和研究所也提出了很多基于自身業(yè)務(wù)特性的流處理框架,比如Yahoo創(chuàng)建的S4項(xiàng)目,應(yīng)用于搜索引擎的“Cost-Per-Click”廣告,能根據(jù)當(dāng)前情景的上下文(用戶偏好、地理位置、已發(fā)生的查詢和點(diǎn)擊等)來評(píng)估用戶點(diǎn)擊的可能性并實(shí)時(shí)做出調(diào)整;eBay針對(duì)自身作為電子商戶和支付平臺(tái)的特性,建立了JetStream系統(tǒng),以處理海量的用戶行為數(shù)據(jù)并實(shí)行24小時(shí)的運(yùn)維監(jiān)控[4]。本文將從Storm框架出發(fā),重點(diǎn)討論大眾點(diǎn)評(píng)網(wǎng)如何利用Storm實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)分析平臺(tái),以及在個(gè)性化搜索上的應(yīng)用。
本文重點(diǎn)涉及的大眾點(diǎn)評(píng)網(wǎng),是國(guó)內(nèi)領(lǐng)先的餐飲、購(gòu)物、休閑娛樂及生活服務(wù)等領(lǐng)域的商戶信息、消費(fèi)優(yōu)惠以及發(fā)布消費(fèi)評(píng)價(jià)的互動(dòng)平臺(tái)。截止2014年08月28日,大眾點(diǎn)評(píng)網(wǎng)的手機(jī)用戶已經(jīng)超過1.5億,月活躍用戶達(dá)到1.3億,來自移動(dòng)端的流量占比超過80%。同時(shí)針對(duì)團(tuán)購(gòu)業(yè)務(wù),日均有超過1500萬的瀏覽用戶及100萬的購(gòu)買用戶,產(chǎn)生1.5億條瀏覽記錄和1.1億元的交易額。本節(jié)將以此為基礎(chǔ),討論如何基于Storm框架建立實(shí)時(shí)數(shù)據(jù)分析平臺(tái),分析用戶行為,從而促進(jìn)團(tuán)購(gòu)在線交易,最后給出平臺(tái)和模型的測(cè)試框架。
從數(shù)據(jù)產(chǎn)生到消費(fèi)流程,大眾點(diǎn)評(píng)網(wǎng)的實(shí)時(shí)數(shù)據(jù)平臺(tái)可分以下5個(gè)部分:
(1)數(shù)據(jù)源:非實(shí)時(shí)的歷史數(shù)據(jù)和實(shí)時(shí)的日志數(shù)據(jù),具體包括前端用戶瀏覽行為數(shù)據(jù)(打點(diǎn)日志):客戶端和瀏覽器數(shù)據(jù),后端服務(wù)器Nginx日志和MySQL數(shù)據(jù)庫的變更消息(PUMA),同時(shí)還包括應(yīng)用程序?qū)崟r(shí)Swallow消息;
(2)傳輸和計(jì)算:利用Blackhole系統(tǒng)處理整合日志信息,然后將日志數(shù)據(jù)流、實(shí)時(shí)Swallow信息和PUMA數(shù)據(jù)庫表更新信息作為輸入數(shù)據(jù)流,用于Storm計(jì)算;
(3)持久化Cache:根據(jù)數(shù)據(jù)類型和使用場(chǎng)景的不同,Storm實(shí)時(shí)輸出數(shù)據(jù)分為3部分存儲(chǔ),分為3部分儲(chǔ)存:用于創(chuàng)建索引的數(shù)據(jù)存于HBase數(shù)據(jù)庫,基于持久化和可靠性考慮的數(shù)據(jù)存于MySQL數(shù)據(jù)庫,以及最后用于高并發(fā)性的實(shí)時(shí)數(shù)據(jù)存于Redis;
(4)數(shù)據(jù)服務(wù):為了便于公司不同業(yè)務(wù)層的使用,建立了數(shù)據(jù)服務(wù)系統(tǒng)Data Service,提供了不同層次的數(shù)據(jù)服務(wù)調(diào)用接口;
(5)數(shù)據(jù)消費(fèi):實(shí)時(shí)系統(tǒng)提供了多樣性的數(shù)據(jù)信息,具體到各個(gè)部門各個(gè)業(yè)務(wù)線又具有更加多樣性的使用,例如搜索平臺(tái)分析用戶的行為數(shù)據(jù),提供個(gè)性化搜索結(jié)果等。
實(shí)時(shí)數(shù)據(jù)平臺(tái)各部分的具體組成和相互關(guān)系如圖 1所示:
圖1 大眾點(diǎn)評(píng)網(wǎng)數(shù)據(jù)實(shí)時(shí)平臺(tái)
以往基于T+1模式(即數(shù)據(jù)的生成和消費(fèi)是分離的,存在一定時(shí)間差的數(shù)據(jù)分析,數(shù)據(jù)往往是先存儲(chǔ)再分析最后消費(fèi),比如打點(diǎn)日志先存于文件,固定時(shí)間讀取分析入庫,最后用于消費(fèi)。而基于Storm框架,本系統(tǒng)能夠?qū)崟r(shí)地處理相關(guān)源數(shù)據(jù)。比如日志,我們建立了用于日志傳輸?shù)腖og Server以及用于提取的Blackhole系統(tǒng),以實(shí)時(shí)提取和清洗日志數(shù)據(jù)。就時(shí)效性而言,傳統(tǒng)PC端和移動(dòng)瀏覽器訪問日志能夠做到實(shí)時(shí)進(jìn)系統(tǒng),而客戶端日志由于上傳速率問題存在略微延遲(<16s)。就數(shù)據(jù)量而言,系統(tǒng)日均批量寫入HDFS的數(shù)據(jù)超過3.2TB,系統(tǒng)實(shí)時(shí)傳輸超過1TB,后臺(tái)平均數(shù)據(jù)延遲小于1s。目前,實(shí)時(shí)系統(tǒng)的Data Service已經(jīng)成為大眾點(diǎn)評(píng)網(wǎng)最大的Pigeon服務(wù)調(diào)用,日均調(diào)用超過10億次,占點(diǎn)評(píng)全站 Pigeon調(diào)用的20%。
對(duì)于交易網(wǎng)站,用戶的購(gòu)買選擇包含著長(zhǎng)期的興趣和短期的偏好[5],比如每天從用戶中心(我的訂單、我的收藏)出發(fā)購(gòu)買的人數(shù)占列表頁購(gòu)買人數(shù)的1/7 ~1/6。對(duì)此,我們分析了團(tuán)購(gòu)用戶長(zhǎng)期到實(shí)時(shí)的行為意圖,從時(shí)間維度大致可分為以下幾部分:
(1)長(zhǎng)期偏好:描述用戶商圈偏好、消費(fèi)能力、環(huán)境、口味偏好等相對(duì)固定的特征;
(2)近期意圖:用戶的購(gòu)買、收藏、點(diǎn)擊等行為,描述用戶近期需求;
(3)當(dāng)天行為:收集用戶在移動(dòng)終端、PC上的各種行為,進(jìn)行多屏互動(dòng);
(4)實(shí)時(shí)意圖:采集各種實(shí)時(shí)用戶數(shù)據(jù),用于判斷用戶實(shí)時(shí)意圖及用戶場(chǎng)景等。
針對(duì)最重要的用戶行為:點(diǎn)擊、購(gòu)買和收藏,我們分析了具有歷史點(diǎn)擊、購(gòu)買和收藏行為的用戶的購(gòu)買情況[6]。用戶在購(gòu)買某個(gè)團(tuán)購(gòu)后,后續(xù)一個(gè)月內(nèi)再次購(gòu)買該相同團(tuán)單的占比高達(dá)20.08%,再次購(gòu)買同商戶團(tuán)單的比例為23.4%;而收藏某個(gè)團(tuán)單后,后續(xù)一個(gè)月內(nèi)購(gòu)買該團(tuán)單可能性為32.5%;用戶點(diǎn)擊團(tuán)單后一周內(nèi)購(gòu)買的可能性高達(dá) 20.61%。點(diǎn)擊、購(gòu)買和收藏用戶的購(gòu)買比率隨時(shí)間的衰減趨勢(shì),如圖2和圖3所示:
圖2 用戶收藏/購(gòu)買后購(gòu)買30天衰減趨勢(shì)
圖3 用戶點(diǎn)擊后購(gòu)買7天衰減趨勢(shì)
從用戶行為看,點(diǎn)擊后購(gòu)買的行為衰減最快,當(dāng)天點(diǎn)擊后購(gòu)買的比例為16.18%,到第二天降為1.57%,其次是收藏,最后是購(gòu)買。對(duì)于用戶行為分析,更多考慮的是用戶的實(shí)時(shí)意圖。因此,在實(shí)際應(yīng)用中主要考慮用戶實(shí)時(shí)的點(diǎn)擊行為,而收藏和重復(fù)購(gòu)買則作為次要因素。下面給出了用戶實(shí)時(shí)行為類型:
(1)團(tuán)單點(diǎn)擊數(shù)據(jù):最直接的點(diǎn)擊數(shù)據(jù),包括用戶在團(tuán)購(gòu)附近列表、商戶列表、關(guān)鍵詞列表的團(tuán)單點(diǎn)擊等;
(2)商戶點(diǎn)擊數(shù)據(jù):用戶點(diǎn)擊相關(guān)商戶等;
(3)導(dǎo)航點(diǎn)擊數(shù)據(jù):用戶選擇的品類、商圈、排序方式以及其他過濾條件等;
(4)用戶輸入的關(guān)鍵詞:包括商戶關(guān)鍵詞、團(tuán)購(gòu)關(guān)鍵詞以及關(guān)鍵詞提示詞等;
在實(shí)現(xiàn)過程中,我們將獲取當(dāng)前用戶的點(diǎn)擊數(shù)據(jù)和之前輸入的關(guān)鍵詞信息,用于索引召回和結(jié)果排序,同時(shí)考慮時(shí)間衰減和距離因素。
基于以上兩點(diǎn),我們?cè)诖蟊婞c(diǎn)評(píng)網(wǎng)主客戶端團(tuán)購(gòu)附近搜索上進(jìn)行了真實(shí)的交易測(cè)試。團(tuán)購(gòu)附近搜索,是指客戶端團(tuán)購(gòu)板塊中,在用戶僅提供位置和類目信息的情況下,團(tuán)購(gòu)列表頁所呈現(xiàn)的個(gè)性化團(tuán)單結(jié)果。以往默認(rèn)算法首先利用團(tuán)單類目信息從索引中召回候選團(tuán)單,然后基于用戶與商戶之間的距離進(jìn)行結(jié)果排序,并未考慮用戶以往的選擇和當(dāng)前的瀏覽點(diǎn)擊。
對(duì)于搜索排序而言,研究人員已經(jīng)提出了很多評(píng)價(jià)方式,比如基于精度的點(diǎn)擊率、轉(zhuǎn)化率,基于排序的NDCG、MAP等。本文中所有實(shí)驗(yàn)都是基于大眾點(diǎn)評(píng)網(wǎng)客戶端在線團(tuán)單交易平臺(tái),故在此采用業(yè)務(wù)評(píng)價(jià)的兩大核心指標(biāo):購(gòu)買轉(zhuǎn)化率和點(diǎn)擊率。
購(gòu)買轉(zhuǎn)化率:調(diào)用搜索返回結(jié)果后有購(gòu)買行為的比率;點(diǎn)擊率:調(diào)用搜索返回結(jié)果后有點(diǎn)擊行為的比率;
同時(shí),考慮到在線交易平臺(tái)日流量和日交易量的波動(dòng)性,我們不能簡(jiǎn)單地縱向比較不同天的購(gòu)買轉(zhuǎn)化率和點(diǎn)擊率。因此,我們將采取AB測(cè)試的策略,即把同時(shí)訪問附近搜索團(tuán)單列表頁的用戶按照客戶端設(shè)備號(hào)(Device ID)或者用戶唯一標(biāo)識(shí)(User ID)切分排序算法,對(duì)50%的用戶流量實(shí)施A版本,對(duì)剩余50%的用戶流量實(shí)施B版本,其中A版本為對(duì)比實(shí)驗(yàn)的基準(zhǔn)策略,B版本為需要測(cè)試的新策略??紤]到劃分用戶人群的差異性,還將考慮實(shí)驗(yàn)前后的總體走勢(shì)。
我們?cè)诖蟊婞c(diǎn)網(wǎng)主客戶端團(tuán)購(gòu)列表上進(jìn)行了真實(shí)的交易測(cè)試,所有數(shù)據(jù)都基于真實(shí)的在線交易。
首先,我們?cè)趫F(tuán)購(gòu)附近搜索進(jìn)行了實(shí)時(shí)反饋的AB測(cè)試,其中A版本為原始的基于距離排序的結(jié)果,B版本為基于用戶行為實(shí)時(shí)反饋的個(gè)性化排序結(jié)果。在11/6/2014上線基于實(shí)時(shí)數(shù)據(jù)反饋的用戶個(gè)性化排序策略之后,新的排序策略表現(xiàn)出優(yōu)異的性能,單日購(gòu)買轉(zhuǎn)化率和點(diǎn)擊率上均超過了基準(zhǔn)版本,如圖4和圖5所示:
圖4 實(shí)時(shí)反饋個(gè)性化策略點(diǎn)擊率對(duì)比
圖5 實(shí)時(shí)反饋個(gè)性化策略轉(zhuǎn)化率對(duì)比
同時(shí)為了排除交易隨時(shí)間和用戶群體不同而產(chǎn)生的波動(dòng)性,即在不同天相同用戶會(huì)呈現(xiàn)出不同的交易模式和偏好性,在穩(wěn)定上線4天后,核心指標(biāo)購(gòu)買轉(zhuǎn)化率總體由6.61%增長(zhǎng)到7.03%,相對(duì)提升6.35%,點(diǎn)擊率總體由48.3%增長(zhǎng)到49.9%,相對(duì)提升3.31%。預(yù)計(jì)切換全流量后,日均可以多帶來2.2K個(gè)購(gòu)買用戶,折算月度將多帶來66K購(gòu)買用戶及6.6M交易額。
實(shí)時(shí)反饋策略在團(tuán)購(gòu)列表頁取得重大提升效果之后,在原來前面基礎(chǔ)上又對(duì)策略中涉及時(shí)間因素的成分進(jìn)行了調(diào)優(yōu),細(xì)分了時(shí)間粒度,即在不同的時(shí)間粒度上具有不同的實(shí)時(shí)反饋分和相應(yīng)權(quán)重,使得實(shí)時(shí)反饋策略具有隨時(shí)間衰減的動(dòng)態(tài)性。時(shí)間粒度調(diào)優(yōu)策略上線后,轉(zhuǎn)化率和點(diǎn)擊率均具有穩(wěn)定的提升,如圖6和圖7所示:
圖6 實(shí)時(shí)反饋個(gè)性化策略(時(shí)間粒度)點(diǎn)擊率對(duì)比
圖7 實(shí)時(shí)反饋個(gè)性化策略(時(shí)間粒度)轉(zhuǎn)化率對(duì)比
其中,A版本為初始化的實(shí)時(shí)反饋版本,B版本為時(shí)間粒度調(diào)優(yōu)后版本。
由圖6和圖7可知,新算法上線后,單日點(diǎn)擊率和轉(zhuǎn)化率具有不同程度的提升,同時(shí)點(diǎn)擊率表現(xiàn)明顯,在實(shí)驗(yàn)的9天中全部勝出,轉(zhuǎn)化率穩(wěn)中有升,9天中6勝3平。最后,考慮總體增長(zhǎng)趨勢(shì),轉(zhuǎn)化率(7.1%->7.2%)和點(diǎn)擊率(54.9%->55.3%)在原來提升的基礎(chǔ)上均有所提升。預(yù)計(jì)切換全流量后,日均可多帶來0.4K購(gòu)買用戶,月度可多帶來1.2M交易額。
眾所周知,團(tuán)購(gòu)業(yè)務(wù)是一種線上購(gòu)買線下消費(fèi)(Online to Offline)的交易模式,用戶在購(gòu)買團(tuán)單時(shí)需要考慮到自身位置與消費(fèi)商家的距離遠(yuǎn)近。同時(shí),針對(duì)移動(dòng)客戶端用戶,即時(shí)的位置會(huì)帶了截然不同的消費(fèi)偏好,尤其是用戶的即時(shí)查詢和消費(fèi),距離因素有可能成為主導(dǎo)因素。而單純考慮時(shí)間粒度和用戶行為,有可能造成一個(gè)離用戶實(shí)時(shí)位置較遠(yuǎn)的團(tuán)單因?yàn)橛脩舻亩唐谑詹攸c(diǎn)擊行為而排在當(dāng)前排序結(jié)果的首位。因此,在前面的優(yōu)化基礎(chǔ)上,為了保證用戶體驗(yàn),我們結(jié)合原有距離區(qū)間策略進(jìn)行了調(diào)整,即近距離區(qū)間的團(tuán)單一定會(huì)排在遠(yuǎn)距離區(qū)間的團(tuán)單之前。調(diào)整策略上線后,結(jié)果如圖8和圖9所示:
圖8 實(shí)時(shí)反饋個(gè)性化策略(距離區(qū)間)點(diǎn)擊率對(duì)比
圖9 實(shí)時(shí)反饋個(gè)性化策略(距離區(qū)間)轉(zhuǎn)化率對(duì)比
其中,A版本為時(shí)間粒度調(diào)優(yōu)后反饋版本,B版本為距離區(qū)間調(diào)優(yōu)后的版本。
由圖8和圖9可知,新策略上線后,單日點(diǎn)擊率和轉(zhuǎn)化率均得到了穩(wěn)定的提升??紤]總體增長(zhǎng)趨勢(shì),購(gòu)買轉(zhuǎn)化率相對(duì)提升 3.17%(6.3%->6.5%),點(diǎn)擊率相對(duì)提升 1.27%(47.2%->47.8%),預(yù)計(jì)切換全流量后,日均可多帶來0.8K個(gè)購(gòu)買用戶,月度可多帶來2.2M交易額。
基于Storm的實(shí)時(shí)數(shù)據(jù)平臺(tái)對(duì)已有系統(tǒng)和HDFS集群具有良好的兼容性,整體運(yùn)行高效、實(shí)時(shí)、穩(wěn)定。從運(yùn)行結(jié)果看,系統(tǒng)完全能夠勝任TB級(jí)別數(shù)據(jù)的實(shí)時(shí)處理;對(duì)于前端的數(shù)據(jù)請(qǐng)求,系統(tǒng)后端能夠做出毫秒級(jí)別的響應(yīng)。用戶的實(shí)時(shí)行為基本能夠在秒級(jí)做出響應(yīng),就團(tuán)購(gòu)附近搜索而言,用戶在點(diǎn)擊/收藏/購(gòu)買之后刷新頁面后就能呈現(xiàn)實(shí)時(shí)反饋排序結(jié)果。
分析用戶行為數(shù)據(jù),我們證實(shí)了團(tuán)購(gòu)用戶的購(gòu)買選擇包含著長(zhǎng)期的興趣和短期的偏好:以往的點(diǎn)擊/收藏/購(gòu)買能夠說明用戶近期的需求,同時(shí)實(shí)時(shí)行為又預(yù)示著當(dāng)前的意圖。實(shí)驗(yàn)證明基于用戶行為實(shí)時(shí)反饋的個(gè)性化排序策略,即根據(jù)用戶的實(shí)時(shí)點(diǎn)擊、收藏、購(gòu)買等行為反作用于排序結(jié)果,能夠明顯提升用戶體驗(yàn),團(tuán)購(gòu)附件搜索的購(gòu)買轉(zhuǎn)化率和點(diǎn)擊率得到了明顯的提升。預(yù)計(jì)切換全流量后,日均可以多帶來3.4K個(gè)購(gòu)買用戶,折算月度將多帶來100K購(gòu)買用戶及10M交易額。
將來,我們將進(jìn)一步擴(kuò)展實(shí)時(shí)數(shù)據(jù)平臺(tái)的使用場(chǎng)景,包括傳統(tǒng)的關(guān)鍵詞搜索、個(gè)性化推薦及廣告推送等[7]。對(duì)于用戶行為實(shí)時(shí)反饋,我們將引入用戶場(chǎng)景和消費(fèi)模式,例如考慮是工作餐還是周末聚餐、是實(shí)時(shí)消費(fèi)還是計(jì)劃性消費(fèi)等等。同時(shí),對(duì)于現(xiàn)有實(shí)時(shí)反饋,我們將進(jìn)一步細(xì)化用戶行為,比如對(duì)于用戶剛剛購(gòu)買的團(tuán)單需要在排序中降權(quán);而對(duì)于用戶的點(diǎn)擊行為,我們要區(qū)分正負(fù)反饋,若用戶的點(diǎn)擊僅出于好奇,我們需要削弱負(fù)反饋的影響。
[1] 張如云,許波勇.基于網(wǎng)站用戶行為的綜合評(píng)價(jià)分析[J].微型電腦應(yīng)用, 2014,30(9).
[2] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J].Communications of the ACM, 2008, 51(1):107-113.
[3] Jones M T. Process real-time big data with Twitter Storm[J]. IBM Technical Library, 2013.eBay用戶行為數(shù)據(jù)流實(shí)時(shí)處理系統(tǒng)[R]. QCon全球軟件開發(fā)大會(huì),2014.
[4] 王繼民,李雷,明子,等.基于日志挖掘的移動(dòng)搜索用戶行為研究綜述[J].情報(bào)理論與實(shí)踐,2014,7(3):134-139.
[5] 袁興福,張鵬翼,劉洪蓮,等.基于點(diǎn)擊流的電商用戶會(huì)話建模[J].圖書情報(bào)工作,59(1):119-126.
[6] 李中良.基于 Web日志挖掘和關(guān)聯(lián)規(guī)則的個(gè)性化推薦系統(tǒng)模型研究[D].重慶:西南大學(xué),2014.