程豪,呂曉玲,范超,趙昱
(1.中國(guó)科學(xué)技術(shù)協(xié)會(huì)創(chuàng)新戰(zhàn)略研究院調(diào)查統(tǒng)計(jì)中心,北京100012;2.中國(guó)人民大學(xué)a.應(yīng)用統(tǒng)計(jì)科學(xué)研究中心;b.統(tǒng)計(jì)學(xué)院,北京100872;3.QuestMobile&人大統(tǒng)計(jì)移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)研究院,北京100015)
近年來,“打造智能生活”的理念不斷落實(shí)到社會(huì)各個(gè)領(lǐng)域。作為智能化產(chǎn)業(yè)之一,智能手機(jī)的迅猛發(fā)展,影響并改變著人們的生活方式。智能手機(jī)的普及和推廣直接導(dǎo)致海量數(shù)據(jù)和信息的產(chǎn)生。比如,越來越多的用戶位置信息(GPS軌跡、手機(jī)的基站定位數(shù)據(jù)等)能夠被精確地記錄和獲取[1]。隨著日常運(yùn)營(yíng)中生成和積累的用戶行為數(shù)據(jù)的逐漸堆積龐大,給人類在這些數(shù)量龐雜、種類繁多的資源中甄別并獲取有價(jià)值的信息資源增加了難度[2]。因此,數(shù)據(jù)清洗和數(shù)據(jù)分析顯的更為重要。而針對(duì)智能手機(jī)監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)清洗方案鮮有人涉及,如何在盡可能保證信息不受損失的同時(shí),清晰條理的提出一套智能手機(jī)數(shù)據(jù)清洗方案顯得尤為迫切。
目前有關(guān)手機(jī)大數(shù)據(jù)的研究主要集中通過手機(jī)GPS或通信基站來獲取用戶的具體地理位置經(jīng)緯度數(shù)據(jù),以此來分析用戶的行為軌跡特征,研究的內(nèi)容主要集中在智能交通和用戶行為兩個(gè)方面[3]。在智能交通方面,Zhang等[4]研究數(shù)據(jù)驅(qū)動(dòng)下的智能交通系統(tǒng),Cao等[5]根據(jù)GPS軌跡繪制電子地圖等;在用戶行為方面,Pablo[6]根據(jù)行為理解提煉出用戶行為模式、Leskovec等[7]在考慮時(shí)間因素下討論社交關(guān)系、David等[8]根據(jù)地理信息完成服務(wù)推薦研究等。但是,這些研究往往基于用戶在生活中進(jìn)行用餐、購物、旅游等與物理世界緊密相連的行為[1],將用戶的生活狀態(tài)和興趣習(xí)慣毫無保留的予以公開,其敏感性導(dǎo)致研究工作受到局限。此外,將研究關(guān)注在用戶行為軌跡方面,而非手機(jī)屬性本身,對(duì)手機(jī)智能化推廣指導(dǎo)借鑒意義不大。在智能手機(jī)逐步取代傳統(tǒng)功能型手機(jī)的大潮中,通過對(duì)手機(jī)用戶群體現(xiàn)在選擇偏好和潛在需求的深入研究[9],并提供方法學(xué)依據(jù),成為智能手機(jī)廠商成功打開市場(chǎng)急需思考的問題。
因此,本文提出以APP應(yīng)用程序?yàn)橛脩粜袨闃?biāo)識(shí),分析不同手機(jī)屬性下的用戶行為特征,預(yù)測(cè)選擇偏好,為智能手機(jī)監(jiān)測(cè)數(shù)據(jù)的研究提供一種新思路。
本文數(shù)據(jù)來自QM公司的智能手機(jī)監(jiān)測(cè)數(shù)據(jù)。該數(shù)據(jù)包括2015年2月1日到5月17日內(nèi)13余萬安卓系統(tǒng)用戶,具備數(shù)據(jù)量巨大(Volume)、增長(zhǎng)速度快(Velocity)、內(nèi)容多樣化(Variety)、價(jià)值密度低(Value)的4V特征。見表1所示。
本文以Shell、Python為工具[10],根據(jù)手機(jī)用戶數(shù)據(jù)特點(diǎn)和分析目的,提取用戶ID全集及相關(guān)信息表和用戶APP使用信息表。其中,用戶ID全集及相關(guān)信息表包含用戶的地理位置和手機(jī)型號(hào)數(shù)據(jù)。這兩項(xiàng)數(shù)據(jù)是用戶重要的特征標(biāo)簽,但并非所有的用戶都存在地理位置和手機(jī)型號(hào)信息記錄,本文提取在106天中同時(shí)存在該兩項(xiàng)信息記錄的人群。
用戶ID全集及相關(guān)信息表的提取流程如下(流程圖見圖1):
圖1 用戶ID全集及其相關(guān)信息表的提取流程圖
第1步:根據(jù)106天每天的地理位置數(shù)據(jù)表,將用戶ID及所在省份合并作為唯一標(biāo)識(shí),進(jìn)行word count處理。
第2步:根據(jù)106天每天的手機(jī)型號(hào)信息表,以用戶ID、品牌、型號(hào)、尺寸、分辨率為唯一標(biāo)識(shí)進(jìn)行word count處理。
第3步:將106天的word count結(jié)果合并,進(jìn)而得到在Location表和手機(jī)信息表中都出現(xiàn)過的所有用戶ID,并記錄他們被監(jiān)測(cè)的天數(shù)、次數(shù)。
第4步:106天匯總結(jié)果中可能存在用戶ID重復(fù)的問題,原因是某用戶在這106天中出入了多個(gè)省份,或者是使用過不同的手機(jī)。為解決該問題,本文將用戶在106天內(nèi)停留時(shí)間最長(zhǎng)的省份作為該用戶的常駐省份,將其使用時(shí)間最長(zhǎng)的手機(jī)型號(hào)作為該用戶的常用手機(jī)。
第5步:最后根據(jù)用戶ID匹配的省份和手機(jī)信息,將無法匹配的用戶刪除,最終得到132845名用戶ID全集及相關(guān)信息表。
用戶APP使用信息表的提取流程如下(流程圖見圖2):
圖2 APP使用信息表的提取流程圖
第1步:提取每天的App行為監(jiān)測(cè)表,按用戶ID以及打標(biāo)簽后的APP類別作為唯一識(shí)別,匯總每人每天每類APP的使用時(shí)長(zhǎng),把不屬于APP分揀表內(nèi)的APP標(biāo)記為ELSE類處理。
第2步:利用第1步得到的匯總數(shù)據(jù),根據(jù)用戶ID將其各類APP使用時(shí)間進(jìn)行連接,進(jìn)而得到每人每天每類APP使用情況矩陣。該矩陣中每一行代表一個(gè)用戶,每一列代表一個(gè)APP,每個(gè)位點(diǎn)的數(shù)據(jù)代表該用戶當(dāng)天使用該APP的時(shí)間。
第3步:根據(jù)用戶ID將第2步中得到的用戶APP使用情況矩陣進(jìn)行匯總,進(jìn)而得到106天每人每類APP總使用時(shí)間及使用天數(shù)矩陣,最后刪除ELSE類所在的列。
根據(jù)數(shù)據(jù)中的現(xiàn)有信息,以20類APP使用時(shí)間(單位:秒)作為用戶行為特征的標(biāo)識(shí),通過研究手機(jī)名牌、價(jià)格、屏幕大小和分辨率四個(gè)屬性與20類APP間的關(guān)系,對(duì)用戶進(jìn)行分類,并為不同類用戶貼標(biāo)簽。由于任一屬性與APP間的相關(guān)系數(shù)都較低(大多在0.1以下),故可以推斷變量間不存在顯著的線性關(guān)系??紤]到所選模型要既能夠分析數(shù)據(jù)間的非線性特征,又能對(duì)變量間的關(guān)系有較強(qiáng)的解釋性,因此選擇決策樹[11]作為分析工具,分析用戶行為特征。需要說明的是,本文以使用人數(shù)超過100為標(biāo)準(zhǔn),從3000多款手機(jī)型號(hào)中選取240個(gè)具體型號(hào)(涉及用戶102614人),通過中關(guān)村在線(www.zol.com.cn)網(wǎng)站獲得手機(jī)價(jià)格。
經(jīng)統(tǒng)計(jì),102614個(gè)用戶中三星和小米的使用比重最高(分別占43.7%和22.3%)。這兩個(gè)品牌中國(guó)市場(chǎng)也極具代表性,不妨以品牌二分類變量(三星、小米)為因變量,20類APP的使用時(shí)間為自變量,構(gòu)建決策樹1(如圖3所示)。102614個(gè)用戶中,手機(jī)價(jià)格的中位數(shù)為1400元,不妨定義小于等于1400元的手機(jī)為價(jià)格相對(duì)便宜的低端手機(jī),大于1400元的手機(jī)為價(jià)格較貴的高端手機(jī),即把手機(jī)價(jià)格轉(zhuǎn)換為取值為高端和低端的二分類因變量,構(gòu)建決策樹2(如下頁圖4所示)。同理,以屏幕尺寸的中位數(shù)為5寸為分界,將小于5寸的手機(jī)定義為小屏幕手機(jī),大于等于5寸的手機(jī)定為大屏幕手機(jī),構(gòu)建決策樹3(如下頁圖5所示)。設(shè)定對(duì)角線分辨率<=1500為低分辨率手機(jī),對(duì)角線分辨率>1500為高分辨率手機(jī),構(gòu)建決策樹4(如下頁圖6所示)。
圖3 基于手機(jī)品牌構(gòu)建的決策樹1
圖4 基于手機(jī)價(jià)格構(gòu)建的決策樹2
圖5 基于手機(jī)屏幕大小構(gòu)建的決策樹3
圖6 基于手機(jī)屏幕分辨率構(gòu)建的決策樹
圖3表明,區(qū)分三星和小米用戶的最主要變量是系統(tǒng)工具(手機(jī)自帶的應(yīng)用、刷機(jī)軟件等)。三星手機(jī)用戶的特征是對(duì)系統(tǒng)工具的使用更頻繁,且非常喜歡使用通信聊天APP(微信、QQ等),會(huì)使用網(wǎng)絡(luò)金融APP(理財(cái)、基金應(yīng)用等),但對(duì)于鬧鐘、天氣預(yù)報(bào)等實(shí)用工具的使用則較少;而部分小米用戶非常喜歡滴滴打車等汽車服務(wù)類應(yīng)用,對(duì)手機(jī)自帶的系統(tǒng)工具則使用較少,但對(duì)鬧鐘、萬年歷等實(shí)用工具的使用相對(duì)多一些。因此,三星手機(jī)的特點(diǎn)是手機(jī)內(nèi)已事先安裝了大量質(zhì)量較好的APP(如日歷、鬧鐘等功能),用戶已無需再下載安裝這類實(shí)用軟件,導(dǎo)致對(duì)系統(tǒng)工具使用較多而對(duì)實(shí)用工具APP使用較少。而有些用戶可能覺得預(yù)裝的APP過多,因此會(huì)用ROOT系統(tǒng)工具軟件來卸載部分APP。小米手機(jī)用戶追求的是手機(jī)性價(jià)比,注重價(jià)格,使用者多為年輕人,他們易于嘗試新鮮事物,因此對(duì)滴滴打車這類既方便又省錢的新鮮事物感興趣。
圖4表明,判別用戶使用手機(jī)價(jià)位的最重要變量是實(shí)用工具,使用高端機(jī)的用戶特點(diǎn)是喜歡使用效率辦公APP,也會(huì)使用新聞資訊APP,相比低端手機(jī)用戶,游戲軟件的使用也更為頻繁,但對(duì)打車軟件(即汽車服務(wù))使用較少;而低端機(jī)型用戶的特點(diǎn)是基本不使用新聞資訊和效率辦公APP,對(duì)APP的普遍使用相對(duì)較少。因此,中高收入者一般會(huì)使用高端機(jī)型,他們大多屬于社會(huì)精英,注重辦事效率和時(shí)事新聞,而不太關(guān)注像滴滴打車這種“占便宜”的行為。高端機(jī)通常是大屏幕、高分辨率、運(yùn)行速度快,適合玩游戲。而低端機(jī)配置一般,內(nèi)置軟件的用戶體驗(yàn)也一般,使用APP會(huì)降低手機(jī)運(yùn)行速度,因此對(duì)APP整體使用較少。此外,一般老年人會(huì)選擇低端機(jī),對(duì)APP的整體使用也相對(duì)較少。
圖5表明,區(qū)分用戶屏幕大小偏好的最重要變量是系統(tǒng)工具,大屏手機(jī)用戶更愛玩游戲,愛聊天,使用主題美化APP和效率辦公軟件。而小屏手機(jī)則對(duì)這些APP使用較少。因此,大屏手機(jī)更適合玩游戲,適合聊QQ,也適合通過主題美化軟件為屏幕設(shè)定更漂亮的壁紙,且大屏手機(jī)可能價(jià)格更貴,因此,注重效率的社會(huì)精英更青睞這類手機(jī)。而小屏手機(jī)則不適合玩游戲,不適合長(zhǎng)時(shí)間看手機(jī)屏幕,用戶僅是用于最基本的通信功能,較少使用游戲、主題美化等APP。
圖6表明,使用高分辨率用戶的特點(diǎn)是經(jīng)常使用通信聊天、游戲和網(wǎng)絡(luò)視頻APP,使用低分辨的用戶則不常用這些APP。顯然,因?yàn)楦叻直媛实氖謾C(jī)屏幕更加清楚,更適合打游戲、看視頻及網(wǎng)上聊天。
根據(jù)用戶行為特征研究建立監(jiān)督學(xué)習(xí)下的預(yù)測(cè)模型,預(yù)測(cè)不同特征的用戶更傾向于選擇使用哪類手機(jī),可為手機(jī)廠商提供巨大的商業(yè)前景。按照Breiman對(duì)統(tǒng)計(jì)模型的劃分[11,12],本文分別選擇4個(gè)數(shù)據(jù)模型(線性判別分析、二次判別分析、Probit回歸和Logistic回歸)和4個(gè)算法模型(決策樹、Bagging、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò))。其中,判別分析和Logistic回歸是統(tǒng)計(jì)學(xué)中常用的分類方法,應(yīng)用領(lǐng)域非常廣泛,特別在醫(yī)學(xué)生物學(xué)領(lǐng)域和經(jīng)濟(jì)管理等研究領(lǐng)域。需要說明,線性判別需要假定兩類樣本的協(xié)方差矩陣相同,而二次判別的假定不同。作為最早的組合數(shù)方法之一,Bagging實(shí)現(xiàn)了從訓(xùn)練集中隨機(jī)抽取部分樣本生成決策樹[11]。而在此基礎(chǔ)上提出的隨機(jī)森林在每個(gè)分割節(jié)點(diǎn)處隨機(jī)選取一定數(shù)量的變量而非所有變量,避免某些“強(qiáng)勢(shì)”變量支配模型。大量研究表明,隨機(jī)森林具有很高的預(yù)測(cè)準(zhǔn)確率,對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合[11]。人工神經(jīng)網(wǎng)絡(luò)(NNET)作為一種按照誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),具有良好的自適應(yīng)能力和自學(xué)習(xí)能力[11,13]。人工神經(jīng)網(wǎng)絡(luò)可以通過比較模型在測(cè)試集和訓(xùn)練集上的分類正確率,以訓(xùn)練集分類正確率最大處為最佳層數(shù)(見表2)。
表2 人工神經(jīng)網(wǎng)絡(luò)的最佳層數(shù)
研究表明,對(duì)于價(jià)格和分辨率,選取1層最為合適,對(duì)于品牌和屏幕大小,選取2層最為合適(見表2)。確定好人工神經(jīng)網(wǎng)絡(luò)的最佳層數(shù)后,用決策樹(DT)、Bagging(BG)、隨機(jī)森林(RF)、人工神經(jīng)網(wǎng)絡(luò)(NNET)、Logistic回歸(LR)、Probit回歸(PR)、線性判別分析(LDA)和二次判別分析(QDA)進(jìn)行10折交叉驗(yàn)證,計(jì)算測(cè)試集和訓(xùn)練集的平均正確率。
顯然,兩種組合方法(Bagging和隨機(jī)森林)在訓(xùn)練集上表現(xiàn)最優(yōu),手機(jī)4個(gè)屬性的分類正確率幾乎均為1(見表3)。但是,測(cè)試集上的分類表現(xiàn)才是手機(jī)選擇偏好預(yù)測(cè)效果的評(píng)判標(biāo)準(zhǔn)。研究表明,根據(jù)手機(jī)價(jià)格預(yù)測(cè)用戶選擇偏好效果最好的模型為Bagging(0.662);根據(jù)手機(jī)品牌預(yù)測(cè)用戶選擇偏好效果最好的模型為隨機(jī)森林(0.858),Bagging(0.857)的表現(xiàn)不差上下;根據(jù)手機(jī)屏幕分辨率預(yù)測(cè)用戶選擇偏好效果最好的模型為L(zhǎng)ogistic回歸(0.696);根據(jù)手機(jī)屏幕大小預(yù)測(cè)用戶選擇偏好效果最好的模型為隨機(jī)森林(0.628)。
表3 8個(gè)模型在測(cè)試集和訓(xùn)練集的平均正確率
以測(cè)試集上分類正確率為評(píng)判標(biāo)準(zhǔn),預(yù)測(cè)效果最佳者推薦為手機(jī)偏好預(yù)測(cè)模型。4個(gè)手機(jī)屬性中有2個(gè)(手機(jī)品牌和手機(jī)屏幕大?。┩扑]隨機(jī)森林,3個(gè)(手機(jī)價(jià)格、手機(jī)品牌和手機(jī)屏幕大?。┩扑]組合算法。因此,應(yīng)該推薦組合算法(尤其是隨機(jī)森林)作為手機(jī)屬性整體意義上的最佳預(yù)測(cè)模型。4個(gè)手機(jī)屬性中,手機(jī)價(jià)格、手機(jī)分辨率和手機(jī)屏幕大小在8個(gè)模型下的分類正確率都不是很高(低于0.700)。而8個(gè)模型在手機(jī)品牌這一屬性的分類正確率幾乎都在相對(duì)較高的水平(80%左右),明顯高于其他屬性。因此,可以考慮根據(jù)手機(jī)品牌一個(gè)屬性對(duì)手機(jī)選擇偏好進(jìn)行預(yù)測(cè),減少獲取手機(jī)價(jià)格、手機(jī)分辨率和手機(jī)屏幕大小信息的任務(wù)量,提高預(yù)測(cè)效率。綜上所述,根據(jù)手機(jī)品牌,選擇組合算法,依次計(jì)算隨機(jī)森林和Bagging的分類正確率,兼顧兩種模型的預(yù)測(cè)效果,為手機(jī)生產(chǎn)廠商推測(cè)消費(fèi)者選擇偏好提供指導(dǎo)和借鑒。
智能手機(jī)的推廣和普及隨時(shí)隨地產(chǎn)生海量的數(shù)據(jù)信息。這些數(shù)據(jù)的清洗會(huì)直接影響后續(xù)研究結(jié)論。就用戶ID全集及相關(guān)信息表和用戶APP使用信息表的數(shù)據(jù)提取問題,本文提出一套清洗方案,為大數(shù)據(jù)清洗提供一種思路。智能手機(jī)用戶行為特征分析揭示了不同手機(jī)屬性下用戶行為規(guī)律:(1)三星用戶更傾向使用系統(tǒng)工具、通信聊天、網(wǎng)絡(luò)金融,小米用戶更傾向使用汽車服務(wù)、實(shí)用工具;(2)高端機(jī)用戶較多使用效率辦公、游戲,關(guān)注新聞資訊,低端機(jī)用戶較少使用APP;(3)大屏手機(jī)用戶喜歡玩游戲、網(wǎng)聊和美化手機(jī),小屏手機(jī)用戶則對(duì)以上行為不感興趣;(4)高分辨率手機(jī)用戶較常使用通信聊天、游戲、網(wǎng)絡(luò)視頻,低分辨率手機(jī)用戶則較少使用上述應(yīng)用。這些研究結(jié)論反饋用戶的真實(shí)感受與偏好,明確智能手機(jī)未來的研發(fā)方向,縮短產(chǎn)品更新速率,也為手機(jī)生產(chǎn)和銷售提供指導(dǎo)和借鑒。以用戶行為特征分析為基礎(chǔ),預(yù)測(cè)手機(jī)選擇偏好面臨模型選擇的挑戰(zhàn)。通過8大模型的對(duì)比研究,選擇針對(duì)智能手機(jī)選擇偏好預(yù)測(cè)效果最好的模型——隨機(jī)森林和Bagging,為智能手機(jī)由研發(fā)階段投入市場(chǎng)環(huán)節(jié)提供方法學(xué)依據(jù),提升整個(gè)智能產(chǎn)業(yè)的運(yùn)營(yíng)效率,為打造智能生活提供基石。
但是,本文以安卓系統(tǒng)的智能手機(jī)用戶為例,沒有涉及蘋果用戶。用戶行為特征與選擇偏好預(yù)測(cè)的相關(guān)結(jié)論是否適用于所有智能手機(jī)數(shù)據(jù),有待進(jìn)一步研究。
[1]張富崢.基于大規(guī)模位置和消費(fèi)數(shù)據(jù)的用戶行為理解[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué)博士學(xué)位論文,2015.
[2]呂苗.基于情境的商品個(gè)性化推薦方法研究[D].大連:大連理工大學(xué)博士學(xué)位論文,2015.
[3]陳康,黃曉宇,王愛寶等.基于位置信息的用戶行為軌跡分析與應(yīng)用綜述[J].電信科學(xué),2013,(4).
[4]Zhang J P,Wang F Y,Wang K F.Data-driven Intelligent Transportation Systems:A Survey[J].IEEE Transations on Intelligent Transportation Systems,2011,(7).
[5]Cao L,Krumm J.From GPS Traces to a Routable Road Map[R].17thACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2009.
[6]PabloBellver A K.Extracting Patterns From Location History[R].In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2011.
[7]Leskovec J,Kleinberg J,Faloutsos C.Graphs Over Time:Densification Laws,Shrinking Diameters and Possible Explanations[R].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,2005.
[8]Crandalla D J,Backstromb L,Cosleyc D.Inferring Social Ties from Geographic Coincidences[J].Proceedings of the National Academy of Sciences of the United States of America,2010,(10).
[9]楊歡.基于聯(lián)合分析的智能手機(jī)購買偏好研究——以北京地區(qū)大學(xué)生為樣本[D].北京:北京工商大學(xué)碩士論文,2013.
[10]Miller T W.Modeling Techniques in Predictive Analytics With Python and R[M].London:Pearson Education,Inc.,2014.
[11]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical Learning:Data Mining,Inference and Prediction[M].Heidberg:Springer,2001.
[12]Breiman L.Statistical Modeling:The Two Culture[J].Statistical Science,2001,(16).
[13]劉鵬飛.基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)統(tǒng)計(jì)研究[D].西安:西安科技大學(xué)碩士論文,2012.