亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        商圈消費(fèi)者畫(huà)像構(gòu)建與潛在消費(fèi)者挖掘方法

        2021-08-28 02:08:36劉旭東陳志豪胡建村
        電腦與電信 2021年6期
        關(guān)鍵詞:商圈通話畫(huà)像

        張 春 劉 超 劉旭東 陳志豪 江 勇 張 輝 周 輝 胡建村

        (1.中移信息技術(shù)有限公司,黑龍江 哈爾濱 150000;2.哈爾濱工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,黑龍江 哈爾濱 150000)

        1 引言

        商圈,即商業(yè)區(qū)域,是指商店以其所在地點(diǎn)為中心,沿著一定的方向和距離擴(kuò)展,吸引顧客的輻射范圍[1]。本文所研究的商圈更具體為商場(chǎng)及其鄰近街區(qū)內(nèi)的消費(fèi)場(chǎng)所。商圈是各類線下商業(yè)活動(dòng)集中活躍區(qū)域,但越來(lái)越多的消費(fèi)者選擇線上消費(fèi),商圈的客流日趨減少。截至2020年6月我國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)到9.32億,網(wǎng)民使用手機(jī)上網(wǎng)比例高達(dá)99.2%,網(wǎng)絡(luò)購(gòu)物消費(fèi)者規(guī)模達(dá)到7.49億[2]。傳統(tǒng)的發(fā)傳單及無(wú)差別短信推送的營(yíng)銷方式,無(wú)法掌握消費(fèi)者信息,營(yíng)銷效率低下。如何掌握更多的消費(fèi)者信息,識(shí)別商圈的忠誠(chéng)消費(fèi)者及潛在消費(fèi)者,是線下商圈與線上購(gòu)物平臺(tái)爭(zhēng)奪客流面臨的關(guān)鍵問(wèn)題。解決該問(wèn)題,將有助于線下商圈的持續(xù)發(fā)展。

        在大數(shù)據(jù)背景下,一種解決該問(wèn)題的方式是通過(guò)自動(dòng)數(shù)據(jù)收集和智能數(shù)據(jù)提取獲取更多的消費(fèi)者信息,創(chuàng)建消費(fèi)者畫(huà)像并標(biāo)記出不同消費(fèi)者的需求,為市場(chǎng)營(yíng)銷提供決策依據(jù),獲取商業(yè)的成功[3]。消費(fèi)者畫(huà)像,是針對(duì)消費(fèi)者信息內(nèi)容的整合,即信息的標(biāo)簽化,是通過(guò)分析消費(fèi)者的社會(huì)屬性、生活習(xí)慣以及消費(fèi)行為特點(diǎn)等信息而抽象出的一種標(biāo)簽化的消費(fèi)者模型[4]。利用大數(shù)據(jù)構(gòu)建消費(fèi)者畫(huà)像進(jìn)行消費(fèi)者分析成為了營(yíng)銷的新手段[5],在民用航空的競(jìng)爭(zhēng)[6]、供應(yīng)鏈銷售[7]、新產(chǎn)品的推廣[8]、汽車的銷售[9]等多領(lǐng)域中都進(jìn)行了應(yīng)用,取得了顯著成效。但既有研究沒(méi)有關(guān)注到線下商圈的營(yíng)銷,也沒(méi)有為其設(shè)計(jì)構(gòu)造消費(fèi)者畫(huà)像挖掘潛在消費(fèi)者。

        針對(duì)以上問(wèn)題,本文研究聯(lián)合中移信息技術(shù)有限公司,圍繞哈爾濱市主城區(qū)內(nèi)152個(gè)商圈及覆蓋的基站,利用信令數(shù)據(jù)搜集2020年1月1日至2020年1月21日到訪的400萬(wàn)消費(fèi)者的信息。消費(fèi)者信息經(jīng)過(guò)匿名、清洗后,根據(jù)數(shù)據(jù)的特征建立了客戶畫(huà)像、社交關(guān)系畫(huà)像、消費(fèi)偏好畫(huà)像的多維度畫(huà)像體系。畫(huà)像以消費(fèi)者忠誠(chéng)度指標(biāo)為核心,劃分了忠誠(chéng)消費(fèi)者和非忠誠(chéng)消費(fèi)者。本文利用邏輯回歸對(duì)各個(gè)商圈忠誠(chéng)消費(fèi)者進(jìn)行回歸分析,構(gòu)建不同商圈的核心客戶簇特征,再結(jié)合隨機(jī)森林方法,對(duì)各個(gè)商圈的非忠誠(chéng)消費(fèi)者進(jìn)行分類及預(yù)測(cè),識(shí)別潛在的消費(fèi)者。經(jīng)過(guò)結(jié)算與檢驗(yàn),本文建立的消費(fèi)者畫(huà)像與潛在消費(fèi)者挖掘方法的識(shí)別準(zhǔn)確度較高,能用于實(shí)際的營(yíng)銷活動(dòng)中。

        2 相關(guān)研究

        近年來(lái),圍繞“大數(shù)據(jù)”,或利用新的數(shù)據(jù)源,或利用大數(shù)據(jù)處理分析技術(shù),解決傳統(tǒng)領(lǐng)域難以解決的問(wèn)題的研究方興未艾。如利用消費(fèi)者的網(wǎng)頁(yè)點(diǎn)擊數(shù)據(jù),根據(jù)矩陣計(jì)算分析競(jìng)爭(zhēng)對(duì)手在美國(guó)航空市場(chǎng)中的表現(xiàn)[6];利用消費(fèi)者在線評(píng)論,通過(guò)自然語(yǔ)言處理技術(shù)幫助企業(yè)測(cè)試新產(chǎn)品[8];利用微博等社交平臺(tái)的用戶數(shù)據(jù),通過(guò)構(gòu)建消費(fèi)者畫(huà)像,為汽車企業(yè)捕捉潛在消費(fèi)者[9]等等,不一而足。注意到,這些“新數(shù)據(jù)源”都是與互聯(lián)網(wǎng)相關(guān)的數(shù)據(jù),但由于互聯(lián)網(wǎng)自身局限與匿名化特征,搜集而來(lái)的數(shù)據(jù)維度不夠廣,真實(shí)程度存疑[10]。

        當(dāng)前有一種特殊的數(shù)據(jù)源,是由通信運(yùn)營(yíng)商提供的匿名化的消費(fèi)者信令數(shù)據(jù),以及與之相關(guān)的話單數(shù)據(jù)、客戶資料等。信令數(shù)據(jù)是通信運(yùn)營(yíng)商用戶與發(fā)射基站之間的數(shù)據(jù),包含了用戶當(dāng)前的經(jīng)緯數(shù)據(jù)、用戶通信數(shù)據(jù)等。由于我國(guó)實(shí)行手機(jī)卡實(shí)名制且手機(jī)使用者數(shù)量龐大,其所產(chǎn)生的信令數(shù)據(jù)是當(dāng)前包含用戶數(shù)據(jù)規(guī)模最大、維度最廣的數(shù)據(jù)源。既有研究中,利用信令數(shù)據(jù)識(shí)別用戶的軌跡,幫助城市進(jìn)行道路交通規(guī)劃[11],識(shí)別不同興趣點(diǎn)的消費(fèi)者在畫(huà)像特征上有明顯差異[12],都取得了顯著的成果。但限于數(shù)據(jù)的敏感性,利用該數(shù)據(jù)源進(jìn)行的研究較少。

        消費(fèi)者畫(huà)像,或稱用戶畫(huà)像,是標(biāo)簽化的模型[13]。當(dāng)前結(jié)合大數(shù)據(jù),利用消費(fèi)者畫(huà)像進(jìn)行目標(biāo)客戶挖掘的常用的算法有分類算法[14]、聚類算法[15]、因子模型[16]等。不同的算法具有不同的特點(diǎn),需結(jié)合數(shù)據(jù)集特征進(jìn)行選擇[17]。需要特別注意的是,基于消費(fèi)者畫(huà)像的潛在/目標(biāo)消費(fèi)者識(shí)別,都是根據(jù)消費(fèi)者畫(huà)像特征的相似程度進(jìn)行識(shí)別[18]。

        綜上,圍繞著大數(shù)據(jù)的精準(zhǔn)營(yíng)銷應(yīng)用,既有的研究重點(diǎn)在于新的、規(guī)模大的數(shù)據(jù)源的利用。鮮有利用通信運(yùn)營(yíng)商的數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷的研究,也鮮有圍繞商圈的消費(fèi)者畫(huà)像識(shí)別的研究。既有的研究關(guān)于利用消費(fèi)者畫(huà)像識(shí)別潛在消費(fèi)者的原理一致,但使用何種方法更好,因研究場(chǎng)景而異。

        3 方法設(shè)計(jì)與畫(huà)像構(gòu)建

        3.1 方法框架

        本研究基于通訊運(yùn)營(yíng)商提供的涉及訪商圈消費(fèi)者的數(shù)據(jù)集建立消費(fèi)者畫(huà)像。具體地,基于信令數(shù)據(jù)進(jìn)行忠誠(chéng)度計(jì)算,建立客戶畫(huà)像;基于話單數(shù)據(jù)進(jìn)行社交親密度計(jì)算,建立社交關(guān)系畫(huà)像;基于APP 使用數(shù)據(jù)進(jìn)行消費(fèi)傾向計(jì)算,建立消費(fèi)偏好畫(huà)像。再基于三種畫(huà)像構(gòu)建的多維畫(huà)像體系,依據(jù)忠誠(chéng)度將商圈的消費(fèi)者劃分為忠誠(chéng)消費(fèi)者、非忠誠(chéng)消費(fèi)者。進(jìn)行隨機(jī)采樣后,進(jìn)行邏輯回歸計(jì)算得到各個(gè)商圈的核心消費(fèi)者特征。再根據(jù)特征建立隨機(jī)森林,將全部的非忠誠(chéng)消費(fèi)者進(jìn)行分類,將作為正例輸出的消費(fèi)者識(shí)別為潛在消費(fèi)者。

        3.2 客戶畫(huà)像

        客戶畫(huà)像用于反應(yīng)客戶對(duì)商場(chǎng)的關(guān)注度、忠誠(chéng)度。本文設(shè)計(jì)核心客戶忠誠(chéng)度指標(biāo),在運(yùn)營(yíng)商數(shù)據(jù)基礎(chǔ)上描述某商場(chǎng)核心消費(fèi)者的質(zhì)量,從而提高以核心消費(fèi)者為基礎(chǔ)的潛在消費(fèi)者識(shí)別的準(zhǔn)確度。本文提出了忠誠(chéng)度計(jì)算及迭代方法,以同時(shí)考慮消費(fèi)者對(duì)商場(chǎng)訪問(wèn)程度相對(duì)核心消費(fèi)者群整體的水平和消費(fèi)者對(duì)商場(chǎng)的歷史訪問(wèn)情況。

        消費(fèi)者的周訪問(wèn)總時(shí)長(zhǎng)為t,周訪問(wèn)次數(shù)為n,則每周訪問(wèn)平均時(shí)長(zhǎng)λ可以表示為:

        顯然λ≥0,為了根據(jù)數(shù)據(jù)分布得到更合理的估計(jì),對(duì)λ作如下對(duì)數(shù)變換得到周訪問(wèn)度λln:

        對(duì)所有消費(fèi)者計(jì)算周訪問(wèn)度λln,計(jì)算得到λln的均值μλ和標(biāo)準(zhǔn)差σλ,則消費(fèi)者x的周訪問(wèn)時(shí)長(zhǎng)得分scoret,x和周訪問(wèn)次數(shù)得分scoren,x的計(jì)算公式如下:

        這里需要說(shuō)明的是scoren,x的取值原則是考慮消費(fèi)者一周內(nèi)1次長(zhǎng)時(shí)間訪問(wèn)近似等效于3次短時(shí)間訪問(wèn)對(duì)忠誠(chéng)度產(chǎn)生的影響。本周忠誠(chéng)度得分Lx與上周忠誠(chéng)度得分之間的迭代計(jì)算關(guān)系為:

        綜上,客戶畫(huà)像構(gòu)成如表1所示。

        表1 客戶畫(huà)像屬性表

        3.3 社交關(guān)系畫(huà)像

        社交關(guān)系的親密程度高的兩消費(fèi)者更可能有著相似的生活水平和消費(fèi)習(xí)慣。本文定義社交親密度屬性衡量消費(fèi)者間的社交親密程度,社交親密度指特定雙方消費(fèi)者之間的親密程度,以多種通話記錄屬性作為衡量基礎(chǔ)。由于主要屬性如通話時(shí)長(zhǎng)、通話次數(shù)與消費(fèi)者職業(yè)、所處社會(huì)環(huán)境有較大關(guān)聯(lián),不適合給定同一標(biāo)準(zhǔn),故使用局部排名作為衡量依據(jù)。此處先介紹單向?qū)傩缘挠?jì)算,即以雙方消費(fèi)者中的一方作為研究對(duì)象,研究其主叫時(shí)長(zhǎng)、主要次數(shù)等影響。

        下文以消費(fèi)者A與消費(fèi)者B為例,以消費(fèi)者A為研究對(duì)象介紹算法。對(duì)于主叫時(shí)長(zhǎng)屬性,定義平均主叫時(shí)長(zhǎng)降序排名rankduravg,即消費(fèi)者A 主叫消費(fèi)者B 的通話平均時(shí)長(zhǎng)在消費(fèi)者A 的所有主叫通話平均時(shí)長(zhǎng)中的排名??紤]到A 和B可能因?yàn)楣ぷ麝P(guān)系有較長(zhǎng)的通話時(shí)間,為了降低此類影響,綜合考慮通話的閑忙時(shí)段,參與排名計(jì)算的矯正通話時(shí)長(zhǎng)calling'與原始通話時(shí)長(zhǎng)calling之間的關(guān)系如下:

        其中,busy為忙時(shí)通話時(shí)長(zhǎng),called為被叫時(shí)長(zhǎng),即消費(fèi)者B主叫消費(fèi)者A的通話時(shí)長(zhǎng)。對(duì)于主叫次數(shù)屬性,定義主叫次數(shù)降序排名rankcnt,即消費(fèi)者A主叫消費(fèi)者B的通話次數(shù)在消費(fèi)者A的所有主叫通話次數(shù)中的排名。

        此外,考慮到社交關(guān)系較近即社交親密度較高的消費(fèi)者間應(yīng)該有較高的通話頻率。定義通話密度排名rankdense,實(shí)現(xiàn)為對(duì)一個(gè)月內(nèi)A到B的通話記錄,在A的對(duì)端通話中先根據(jù)通話天數(shù)降序排序,再根據(jù)通話最長(zhǎng)間隔天數(shù)升序排名的最終排名。為避免其中某一屬性因特殊情況有較大偏差影響整體排名,做調(diào)和平均處理,獲得消費(fèi)者B 在消費(fèi)者A 視角下的單向排名rankcalling,其計(jì)算公式如下:

        同理可獲得消費(fèi)者A 在消費(fèi)者B 視角下的單向排名rankcalled。則消費(fèi)者A與消費(fèi)者B的親密度intsocial定義為:

        由上述公式可知,intsocial取值越大,消費(fèi)者間親密度越強(qiáng)。由于排名均為大于1 的正數(shù),故親密度intsocial的取值范圍為(0,1],當(dāng)且僅當(dāng)雙方均在對(duì)方的社交圈中取得最高排名時(shí)親密度達(dá)到最大值。

        社交關(guān)系畫(huà)像單方畫(huà)像描繪社交網(wǎng)絡(luò)中消費(fèi)者個(gè)人的顯著性與影響力,除上述社交影響力外,還應(yīng)考慮:1)消費(fèi)者的通話強(qiáng)度得分,即通話時(shí)長(zhǎng)對(duì)數(shù)化后相對(duì)對(duì)數(shù)分布均值偏移量scorecall,time;2)消費(fèi)者的通話頻率得分,即通話次數(shù)對(duì)數(shù)化后相對(duì)對(duì)數(shù)分布均值偏移量scorecall,stren。這兩種指標(biāo)的通用計(jì)算方式如下:

        上述公式為通用公式,metriccall指消費(fèi)者通話的衡量指標(biāo),具體為通話時(shí)長(zhǎng)或通話頻率,metriclncall為對(duì)數(shù)化通話指標(biāo),μlncall與σlncall分別為metriclncall分布的均值與標(biāo)準(zhǔn)差,則scorecall即為最終得分。

        綜上,建立的社會(huì)關(guān)系畫(huà)像如表2所示。

        表2 社交關(guān)系畫(huà)像屬性表

        3.4 消費(fèi)偏好畫(huà)像

        消費(fèi)偏好畫(huà)像反映消費(fèi)者的線上購(gòu)物APP 使用行為和線下商場(chǎng)訪問(wèn)行為的特征,消費(fèi)偏好畫(huà)像的數(shù)據(jù)周期為7天。

        圖1 消費(fèi)者畫(huà)像構(gòu)建與潛在消費(fèi)者挖掘方法流程框架

        3.4.1 線上消費(fèi)偏好

        線上消費(fèi)偏好識(shí)別專注于分析消費(fèi)者的消費(fèi)類APP 使用狀態(tài)變化,除常規(guī)消費(fèi)頻次、強(qiáng)度統(tǒng)計(jì)外,還關(guān)注近期消費(fèi)類APP使用情況的變化量,作為衡量消費(fèi)者短期線上消費(fèi)意圖的重要因素。

        線上購(gòu)物情況主要考慮某消費(fèi)者使用購(gòu)物類APP 的強(qiáng)度相對(duì)目標(biāo)消費(fèi)者整體使用情況的水平,以及消費(fèi)者近期購(gòu)物APP使用強(qiáng)度的變化程度。

        本文分析先對(duì)消費(fèi)者對(duì)于不同購(gòu)物類APP 的使用情況在全體消費(fèi)者下的水平進(jìn)行評(píng)估,得到scoreapp評(píng)分,以避免結(jié)果向單一大流量APP 偏斜??紤]到不同消費(fèi)者有一定的APP 使用偏好,故對(duì)不同購(gòu)物類APP 的使用水平,即所有的取scoreapp評(píng)分最大值作為該消費(fèi)者的購(gòu)物類APP 使用強(qiáng)度scoreshopping。相關(guān)計(jì)算公式如下:

        其中,flowapp表示消費(fèi)者使用某一APP產(chǎn)生的流量,uapp和σapp為的flowlnapp分布均值和標(biāo)準(zhǔn)差。

        通過(guò)上述公式變換,消費(fèi)者對(duì)某一APP 未產(chǎn)生使用流量,則使用強(qiáng)度評(píng)分為0;若產(chǎn)生流量,則使用強(qiáng)度評(píng)分區(qū)間為[1,5]。此外,設(shè)計(jì)近期線上購(gòu)物傾向?qū)傩裕枋鱿M(fèi)者近期購(gòu)物類APP 使用情況的變化量。定義近期線上購(gòu)物傾向△scoreshopping為本周與上周的購(gòu)物類APP 使用強(qiáng)度差值,計(jì)算公式如下:

        由于△scoreshopping與消費(fèi)者APP 使用流flowapp之間存在對(duì)數(shù)關(guān)系,故△scoreshopping的實(shí)際意義為本周與上周購(gòu)物類APP的流量使用增長(zhǎng)率。

        3.4.2 線下消費(fèi)偏好

        線下購(gòu)物意圖分析模型專注于分析消費(fèi)者訪問(wèn)商場(chǎng)的狀態(tài)及其變化,除在客戶畫(huà)像中獲得的常規(guī)消費(fèi)頻次、強(qiáng)度統(tǒng)計(jì)外,關(guān)注近期訪問(wèn)商場(chǎng)時(shí)長(zhǎng)變化量incrvisit,time、強(qiáng)度變化量incrvisit,stren,作為衡量消費(fèi)者短期線下消費(fèi)意圖的重要因素。

        定義近期線下消費(fèi)傾向?qū)傩裕≈禐榫€下商場(chǎng)訪問(wèn)時(shí)長(zhǎng)變化率。定義近期線下活躍傾向?qū)傩?,取值為較前一周的目標(biāo)消費(fèi)者活躍度變化率。其統(tǒng)一計(jì)算公式如下:

        其中,visit為本周線下消費(fèi)傾向?qū)傩曰蚓€下活躍傾向?qū)傩?。以visit為本周線下消費(fèi)傾向?qū)傩詾槔瑅isit'表示上周線下消費(fèi)傾向?qū)傩?,則incrvisit即為線下商場(chǎng)訪問(wèn)時(shí)長(zhǎng)變化率。綜上,建立的消費(fèi)偏好畫(huà)像如表3所示。

        表3 消費(fèi)偏好畫(huà)像屬性表

        3.5 算法說(shuō)明

        3.5.1 Logistics Regression

        根據(jù)已經(jīng)得到多維消費(fèi)者畫(huà)像,也即每個(gè)樣本的特征,一個(gè)直觀的想法是計(jì)算出各個(gè)商圈的忠誠(chéng)客戶的在不同特征上的范圍或系數(shù),作為區(qū)分商圈與識(shí)別忠誠(chéng)消費(fèi)者的依據(jù)?;谶@種想法,考慮使用線性分類機(jī)器學(xué)習(xí)算法,基于Spark 平臺(tái)的候選算法有Logistics Regression(邏輯回歸)及SVM 模型。本文使用邏輯回歸,根據(jù)構(gòu)建的忠誠(chéng)消費(fèi)者簇特征,對(duì)各個(gè)商圈的消費(fèi)者進(jìn)行劃分。

        3.5.2 Random Forest

        Random Forest即隨機(jī)森林算法,是一種由若干決策樹(shù)通過(guò)bagging 方式構(gòu)成的繼承算法,在很多應(yīng)用中都有不錯(cuò)的表現(xiàn)。隨機(jī)森林具有過(guò)擬合風(fēng)險(xiǎn)低、支持并行、支持高緯度特征、訓(xùn)練速度快等特點(diǎn)。本文使用隨機(jī)森林,根據(jù)各個(gè)商圈的邏輯回歸結(jié)果,對(duì)各個(gè)商圈的非忠誠(chéng)消費(fèi)者進(jìn)行分類及預(yù)測(cè),識(shí)別出潛在消費(fèi)者。

        4 數(shù)據(jù)分析與計(jì)算結(jié)果

        4.1 數(shù)據(jù)說(shuō)明

        本研究與中國(guó)移動(dòng)通信集團(tuán)合作,以哈爾濱市區(qū)為核心,自2020年1月1日至2020年1月21日,搜集了152個(gè)大型商場(chǎng)輻射的400萬(wàn)的消費(fèi)者的信令數(shù)據(jù)、話單數(shù)據(jù)、APP使用數(shù)據(jù),如圖2所示。數(shù)據(jù)包括脫敏的消費(fèi)者個(gè)人特征及消費(fèi)者的移動(dòng)數(shù)據(jù)與上網(wǎng)數(shù)據(jù),具體包括消費(fèi)者的年齡、消費(fèi)者各個(gè)時(shí)段的經(jīng)緯度及各個(gè)時(shí)段的通信與流量去向。

        圖2 信令數(shù)據(jù)覆蓋的商圈

        4.2 數(shù)據(jù)的相關(guān)分析

        由于本研究的目的包括評(píng)價(jià)消費(fèi)者社交影響力等,對(duì)消費(fèi)者通話記錄較為敏感,故需要過(guò)濾特殊職業(yè)如外賣、快遞、客服等產(chǎn)生的高頻通話記錄。

        圖3 平均通話時(shí)長(zhǎng)對(duì)數(shù)分布

        圖4 一分鐘內(nèi)通話次數(shù)對(duì)數(shù)分布

        根據(jù)上述分析,在系統(tǒng)實(shí)現(xiàn)時(shí),對(duì)于平均通話時(shí)長(zhǎng)、一分鐘內(nèi)通話次數(shù)使用4σ過(guò)濾標(biāo)準(zhǔn)。為了提高識(shí)別準(zhǔn)確度,本文進(jìn)一步約束在該距離外的消費(fèi)者樣本同時(shí)滿足通話次數(shù)分布在1σ距離外時(shí),才作為離群點(diǎn)過(guò)濾。對(duì)于其余屬性,使用3σ過(guò)濾標(biāo)準(zhǔn),即認(rèn)為該距離外的消費(fèi)者樣本為離群點(diǎn),并過(guò)濾。

        圖5以購(gòu)物類APP流量使用為例,統(tǒng)計(jì)了所有目標(biāo)消費(fèi)者在2020年1月1日至2020年1月7日的主要購(gòu)物類APP中所使用的流量隨時(shí)間的分布圖。

        圖5 購(gòu)物類APP不同時(shí)段流量分布圖

        由曲線可以看出,不同APP的流量使用在整體上均呈現(xiàn)晚上至睡前時(shí)間段達(dá)到高峰,而在白天尤其是工作時(shí)間段水平較低。這說(shuō)明通過(guò)對(duì)消費(fèi)者APP 使用的活躍時(shí)段可以在一定程度上描繪消費(fèi)者的生活習(xí)慣。而從表4中可以看出,不同的購(gòu)物類APP的流量使用存在較大差異,在進(jìn)行APP使用強(qiáng)度統(tǒng)計(jì)時(shí),需進(jìn)行歸一化處理。

        表4 購(gòu)物類APP人均流量使用統(tǒng)計(jì)

        男性和女性有著天然的偏好差異,但從圖6中可以明顯看出,對(duì)于商圈涉及的消費(fèi)者而言,不同性別的消費(fèi)者的年齡分布極為相似,因此在構(gòu)建商圈的消費(fèi)者畫(huà)像時(shí),僅考慮年齡,而不進(jìn)行性別區(qū)分,也是合理的。

        圖6 商圈消費(fèi)者性別年齡分布圖

        4.3 計(jì)算結(jié)果與分析

        樣本數(shù)據(jù)的忠誠(chéng)消費(fèi)者類由忠誠(chéng)度前60%的高質(zhì)量核心客戶組成,實(shí)際忠誠(chéng)度閾值約為3.0。為了提升訓(xùn)練效率,本研究對(duì)總數(shù)據(jù)進(jìn)行了隨機(jī)采樣,最終得到訓(xùn)練樣本數(shù)據(jù)組成如表5所示。

        表5 樣本數(shù)據(jù)的組成

        本文基于Spark框架spark-mllib模塊實(shí)現(xiàn)分布式模型訓(xùn)練。將訓(xùn)練數(shù)據(jù)隨機(jī)劃分為80%的訓(xùn)練集和20%的測(cè)試集。模型的最大迭代次數(shù)為100次,誤差容忍度為1e-6,采用L2 正則化。在采用L2 正則化的情況下,模型效果在較低程度上受正則化系數(shù)影響,經(jīng)測(cè)試在正則化系數(shù)為0.5 的情況下達(dá)到局部最優(yōu)效果。模型在測(cè)試集上取得的效果評(píng)價(jià)如表6所示。

        表6 Logistic Regression模型評(píng)價(jià)

        圖8和圖9展示了基分類器個(gè)數(shù)和最大樹(shù)深度對(duì)模型效果的影響?;诸惼髂P蛿?shù)量對(duì)模型性能影響不明顯,考慮到模型更關(guān)注召回率指標(biāo),故確定模型基分類器數(shù)量參數(shù)為40 個(gè)。由于運(yùn)行環(huán)境資源限制,最多測(cè)試到最大樹(shù)深為14層,為避免深度過(guò)大導(dǎo)致過(guò)擬合,確定模型最大樹(shù)深度參數(shù)為14層。

        圖7 基分類器數(shù)量對(duì)模型的影響

        圖8 最大樹(shù)深度對(duì)模型的影響

        圖9 預(yù)測(cè)標(biāo)簽結(jié)果組成

        根據(jù)上述結(jié)果,模型最終在測(cè)試集上取得了94.1%的精確率,其他評(píng)價(jià)指標(biāo)得分見(jiàn)表7。

        表7 隨機(jī)森林模型評(píng)價(jià)

        4.4 識(shí)別效果與討論

        本研究最終采用隨機(jī)森林分類預(yù)測(cè)算法模型作為識(shí)別潛在消費(fèi)者算法。用該模型對(duì)全部約113萬(wàn)不屬于忠誠(chéng)消費(fèi)者群的消費(fèi)者進(jìn)行預(yù)測(cè),共得到正例64879人作為潛在消費(fèi)者。預(yù)測(cè)結(jié)果的標(biāo)簽組成如圖10所示。

        圖10 預(yù)測(cè)概率分布

        注意到隨機(jī)森林分類需要對(duì)概率閾值進(jìn)行設(shè)置,默認(rèn)為0.5,則不同閾值下的正例人數(shù)分布如圖11 所示。可見(jiàn)隨概率的增加區(qū)間內(nèi)人數(shù)加速減少,在以識(shí)別潛在消費(fèi)者人數(shù)最大為目標(biāo)時(shí),默認(rèn)概率是最佳的選擇。

        圖11 社交關(guān)系對(duì)識(shí)別結(jié)果的影響

        既有研究認(rèn)為社會(huì)關(guān)系接近的消費(fèi)者相似度大,進(jìn)而更有可能屬于同一類人群?;诒狙芯繕?gòu)建的方法,社交關(guān)系對(duì)識(shí)別結(jié)果的影響如圖12所示。結(jié)果顯示,在識(shí)別出的潛在消費(fèi)者中僅4%的消費(fèi)者與其他潛在消費(fèi)者有緊密的社交關(guān)系,也即任意一個(gè)潛在消費(fèi)者,其關(guān)系緊密的朋友中有一個(gè)也為潛在消費(fèi)者的概率低于0.05。社交關(guān)系對(duì)潛在消費(fèi)者沒(méi)有預(yù)測(cè)性。

        圖12 到訪記錄對(duì)識(shí)別結(jié)果的影響

        同一商圈,相對(duì)于既有的忠誠(chéng)消費(fèi)者,識(shí)別出的潛在消費(fèi)者雖然與既有消費(fèi)者在畫(huà)像上具有高相似度,但很有可能由于居住地點(diǎn)與該商圈相距過(guò)遠(yuǎn)等客觀因素的約束,因而并不會(huì)去該商圈消費(fèi)。根據(jù)識(shí)別結(jié)果,統(tǒng)計(jì)識(shí)別出的商圈潛在消費(fèi)者有無(wú)到該商圈的歷史到訪記錄,結(jié)果如圖13所示。約38%的潛在消費(fèi)者,有到訪目標(biāo)商圈的記錄,即接近40%的潛在消費(fèi)者沒(méi)有客觀條件約束。這意味著約4成的潛在消費(fèi)者,能轉(zhuǎn)化為忠誠(chéng)消費(fèi)者。

        5 結(jié)語(yǔ)

        大數(shù)據(jù)背景下,如何尋找到數(shù)據(jù)源,從新的視角解決傳統(tǒng)場(chǎng)景中的難題是當(dāng)前的研究熱點(diǎn)。其中,利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷,被廣泛證實(shí)是可行的。但如何獲取數(shù)據(jù)源,并在處理分析中保證消費(fèi)者的隱私,也是難點(diǎn)之一。本研究嘗試與中國(guó)移動(dòng)通信集團(tuán)合作,獲取匿名處理后的消費(fèi)者信令數(shù)據(jù)、話單數(shù)據(jù)、APP 使用數(shù)據(jù)。通過(guò)對(duì)商圈到訪消費(fèi)者建立客戶畫(huà)像、社交關(guān)系、消費(fèi)傾向的多維畫(huà)像體系,幫助商圈識(shí)別忠誠(chéng)消費(fèi)者;并利用邏輯回歸與隨機(jī)森林方法,幫助商圈識(shí)別忠誠(chéng)消費(fèi)者的特征及識(shí)別潛在消費(fèi)者。根據(jù)計(jì)算結(jié)果,本研究提出的消費(fèi)者畫(huà)像構(gòu)建與潛在消費(fèi)者識(shí)別方法準(zhǔn)確度較高,潛在消費(fèi)者識(shí)別準(zhǔn)確度為94.1%。通過(guò)識(shí)別結(jié)果的討論發(fā)現(xiàn),基于通話記錄構(gòu)建的社交關(guān)系對(duì)識(shí)別潛在消費(fèi)者幫助極低,潛在消費(fèi)者之間的社交關(guān)系并不強(qiáng);商圈約有38%的潛在消費(fèi)者有到訪記錄,但超過(guò)半數(shù)的潛在消費(fèi)者由于各種原因沒(méi)有到訪過(guò)該商圈。本研究的意義在于利于大數(shù)據(jù)突破了商圈傳統(tǒng)的營(yíng)銷手段,能幫助商圈快速且準(zhǔn)確地掌握忠誠(chéng)消費(fèi)者的畫(huà)像特征,并找到一大批潛在的消費(fèi)者,不僅提高了營(yíng)銷效率,還增加線下商圈面對(duì)線上購(gòu)物平臺(tái)的競(jìng)爭(zhēng)力,同時(shí)豐富了利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷的研究。

        本研究的特點(diǎn)在于使用了與既有研究不相同的數(shù)據(jù)集,并用于新領(lǐng)域;構(gòu)建了多維度的消費(fèi)者畫(huà)像,用于精準(zhǔn)營(yíng)銷。基于本文的研究成果,未來(lái)可以對(duì)識(shí)別效果的影響因素進(jìn)行探索與規(guī)律驗(yàn)證,并討論不同算法在識(shí)別潛在消費(fèi)者的準(zhǔn)確度方面的表現(xiàn),進(jìn)一步提升營(yíng)銷的準(zhǔn)確度。

        猜你喜歡
        商圈通話畫(huà)像
        威猛的畫(huà)像
        打造世界級(jí)文旅窗口 構(gòu)建千億級(jí)黃金商圈
        “00后”畫(huà)像
        畫(huà)像
        《戊戌元日與友人通話》
        農(nóng)產(chǎn)品電商圈的“烏托邦”
        低成本視頻通話APP
        商圈商業(yè)的秘密:創(chuàng)新
        商圈檔案
        2013年11月通信業(yè)主要指標(biāo)完成情況(一)
        欧美亚洲另类自拍偷在线拍| 久久成人国产精品免费软件| 伦人伦xxxx国语对白| 加勒比黑人在线| 白白色发布视频在线播放 | 中文字幕亚洲精品第一页| 亚洲日本人妻少妇中文字幕| 久久久无码精品亚洲日韩蜜臀浪潮| 99久久国语露脸精品国产| 免费大学生国产在线观看p| 午夜视频在线观看国产19| 日日摸天天摸97狠狠婷婷| 人妻aⅴ无码一区二区三区| 精品人妻av区乱码| 美丽小蜜桃1一3在线观看| 和黑人邻居中文字幕在线| 亚洲欧美国产日韩天堂在线视| 蜜桃视频色版在线观看| 久久伊人精品中文字幕有尤物| 日日噜噜夜夜狠狠va视频| 国产2021精品视频免费播放| 国产美女主播福利一区| 久久精品一区午夜视频| a级毛片无码免费真人| 一区五码在线| 国产极品大秀在线性色| 亚洲中文字幕久久精品无码a| 亚洲精品永久在线观看| 蜜桃一区二区免费视频观看| 亚洲另类丰满熟妇乱xxxx| 亚洲老妈激情一区二区三区| 一区二区三区不卡在线| 日本免费播放一区二区| 亚洲乱码国产乱码精品精| 久久精品国产夜色| av男人操美女一区二区三区| 五月色婷婷丁香无码三级| 18禁无遮挡羞羞污污污污网站| 亚洲愉拍99热成人精品热久久| 无码国产精品一区二区免费16| 男女性搞视频网站免费|