亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于 Spark 平臺(tái)的網(wǎng)絡(luò)游戲用戶流失預(yù)測(cè)方法*

        2022-10-28 01:22:00胡艷芳
        關(guān)鍵詞:特征游戲用戶

        胡艷芳,熊 文,高 煒

        (云南師范大學(xué)信息學(xué)院,云南 昆明 650500)

        1 引言

        隨著移動(dòng)互聯(lián)網(wǎng)和智能終端的普及,國(guó)內(nèi)游戲市場(chǎng)已經(jīng)進(jìn)入存量競(jìng)爭(zhēng)階段,手機(jī)游戲行業(yè)的從業(yè)者面臨著前所未有的競(jìng)爭(zhēng)。一方面,由于從業(yè)者版權(quán)意識(shí)薄弱,導(dǎo)致公司之間相互抄襲,游戲同質(zhì)化競(jìng)爭(zhēng)嚴(yán)重。另一方面,無線互聯(lián)網(wǎng)的發(fā)展已經(jīng)進(jìn)入穩(wěn)定期,新用戶的獲取成本不斷攀升。因此,部分敏銳的游戲公司開始調(diào)整方向,把對(duì)存量用戶的服務(wù)放在首要位置。如何深入地了解用戶需求,推動(dòng)產(chǎn)品升級(jí)迭代,執(zhí)行精細(xì)化的市場(chǎng)策略,減緩或阻止用戶流失成為運(yùn)營(yíng)者面臨的首要問題。

        如何在游戲用戶的日常行為數(shù)據(jù)中挖掘有價(jià)值的知識(shí)和信息,來支持游戲平臺(tái)的運(yùn)營(yíng)決策,研究者們已經(jīng)進(jìn)行了大量行之有效的探索。這些探索可以分為3個(gè)方面。

        (1)特征的選擇與提取方面:魏玲等[1]通過直方圖檢驗(yàn)與卡方檢驗(yàn)確定影響用戶流失的特征變量。舒文麗等[2]引入二次特征提取的方法,從多個(gè)維度描述用戶體驗(yàn)和行為,并針對(duì)多個(gè)維度分別建模,以提高流失與非流失用戶體驗(yàn)的區(qū)分度。鄭杰文[3]通過使用激活擴(kuò)散算法提取用戶相關(guān)性特征來提高預(yù)測(cè)性能,并結(jié)合用戶之間的相關(guān)性統(tǒng)計(jì)和特征的相對(duì)重要性來證實(shí)用戶相關(guān)性的作用。Kamya等[4]提出了一個(gè)基于特征提取的流失預(yù)測(cè)模型,該模型側(cè)重于具有顯著流失能力的最相關(guān)特征的使用。

        (2)分類器的設(shè)計(jì)與選擇方面:鄭杰文[3]提出了基于Spark平臺(tái)的Mini-Batch BP神經(jīng)網(wǎng)絡(luò)分布式算法來改善2種傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)算法的性能,從而減少訓(xùn)練時(shí)間。桂昂稀[5]基于gcForest深度森林算法搭建用戶流失預(yù)測(cè)模型,并與常見的機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,得到基于gcForest深度森林算法的用戶流失預(yù)測(cè)模型優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法的結(jié)論。陳林輝[6]使用機(jī)器學(xué)習(xí)算法構(gòu)建了一個(gè)用戶流失預(yù)測(cè)模型,對(duì)與用戶流失相關(guān)的數(shù)據(jù)進(jìn)行訓(xùn)練。魏玲等[1]提出了基于改進(jìn)RFM(Recency Frequency Monetary)與GMDH(Group Method of Data Handing)算法的用戶流失預(yù)測(cè)。Shirazi等[7]提出利用大數(shù)據(jù)構(gòu)建用戶流失預(yù)測(cè)模型。Olasehinde等[8]調(diào)用大數(shù)據(jù)分析工具Spark中的隨機(jī)森林分類器與普通的隨機(jī)森林分類器進(jìn)行對(duì)比,發(fā)現(xiàn)Spark結(jié)合隨機(jī)森林分類器的計(jì)算性能更好。

        (3)不平衡分類問題方面:桂昂稀[5]基于EasyEnsemble算法的思想,將SMOTE(Synthetic Minority Over-sampling TEchnique)算法和ENN(Edited Nearest Neighbor)算法融合到gcForest算法框架之中,提出了OSEEN-gcForest算法,得到了更優(yōu)越的性能。吳悅昕等[9]在流失預(yù)測(cè)中使用了基于采樣法的不平衡數(shù)據(jù)處理策略,并對(duì)現(xiàn)有主要的幾種采樣算法進(jìn)行了對(duì)比實(shí)驗(yàn)和分析。

        但是,隨著游戲平臺(tái)和用戶規(guī)模的擴(kuò)大,游戲平臺(tái)產(chǎn)生的數(shù)據(jù)成指數(shù)級(jí)增長(zhǎng),海量的用戶行為日志也源源不斷地產(chǎn)生,傳統(tǒng)的數(shù)據(jù)分析工具已經(jīng)不能滿足游戲平臺(tái)大規(guī)模數(shù)據(jù)的存儲(chǔ)和分析需求。本文借助Spark大數(shù)據(jù)計(jì)算引擎,基于一個(gè)超大規(guī)模的真實(shí)游戲用戶日志數(shù)據(jù)集,對(duì)游戲用戶的流失情況進(jìn)行了預(yù)測(cè)。首先,在游戲用戶行為日志中分別抽取靜態(tài)特征和動(dòng)態(tài)特征;然后,對(duì)這些特征進(jìn)行重要性計(jì)算和選擇;最后,用隨機(jī)森林RF(Random Forest)[10]等經(jīng)典算法對(duì)挑選出的特征進(jìn)行建模,模型以一組特征作為輸入,流失與否作為輸出。具體來講,本文的貢獻(xiàn)如下:

        (1)提出了一種基于集成學(xué)習(xí)的游戲用戶流失預(yù)測(cè)方法,從用戶信息和行為日志數(shù)據(jù)中構(gòu)建靜態(tài)特征和動(dòng)態(tài)特征并根據(jù)相關(guān)性對(duì)特征進(jìn)行選取?;谶x取的特征,使用隨機(jī)森林分類器構(gòu)建二分類預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)游戲用戶的流失預(yù)測(cè)。

        (2)系統(tǒng)地評(píng)估了隨機(jī)森林、支持向量機(jī)SVM(Support Vector Machine)[11]、多層感知機(jī)MLP(Multi-Layer Perceptions)[12]、梯度提升決策樹GBDT(Gradient Boost Decision Tree)[13]、邏輯回歸LR(Logistic Regression)[14]和分類回歸樹CART(Classification And Regression Tree)[15]等經(jīng)典算法,發(fā)現(xiàn)隨機(jī)森林的預(yù)測(cè)精度最高,預(yù)測(cè)準(zhǔn)確率達(dá)到了91%,如果將用戶進(jìn)一步細(xì)分,預(yù)測(cè)精度可以達(dá)到93%。

        2 背景和動(dòng)機(jī)

        某在線平臺(tái)開發(fā)并運(yùn)營(yíng)了近百款地方游戲,包括斗地主、打麻將和棋類等益智類游戲。用戶通過手機(jī)和平板等移動(dòng)終端參與游戲互動(dòng),游戲公司后臺(tái)采集并存儲(chǔ)用戶的行為數(shù)據(jù)。截止到2021年12月底,該游戲平臺(tái)的全球注冊(cè)用戶數(shù)超過了1 600萬,日活躍用戶數(shù)超過了100萬,最高同時(shí)在線用戶超過了10萬。面對(duì)不斷增長(zhǎng)的數(shù)據(jù)量,游戲公司的IT部門通過構(gòu)建大數(shù)據(jù)平臺(tái)來滿足數(shù)據(jù)的存儲(chǔ)和分析需求。運(yùn)營(yíng)部門借助大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)來精細(xì)化市場(chǎng)營(yíng)銷。如何識(shí)別流失用戶的特征,構(gòu)建流失預(yù)測(cè)模型,通過營(yíng)銷策略阻止和緩解游戲用戶的流失成為運(yùn)營(yíng)部門面臨的首要問題。圖1是該平臺(tái)2020年8月份到2021年3月份共8個(gè)月的用戶流失數(shù)目。由圖1可以看出,該游戲平臺(tái)的用戶流失情況嚴(yán)重,尤其在2021年的2月和3月流失用戶數(shù)猛增。

        Figure 1 Number of churn users per month

        針對(duì)該平臺(tái)用戶數(shù)量龐大,用戶流失情況嚴(yán)重的問題,市場(chǎng)營(yíng)銷一直試圖解決該問題,導(dǎo)致費(fèi)用居高不下。本文借助Spark平臺(tái)實(shí)現(xiàn)了大規(guī)模的數(shù)據(jù)處理、對(duì)流失用戶的特征進(jìn)行分析,并結(jié)合隨機(jī)森林算法對(duì)游戲用戶進(jìn)行了流失預(yù)測(cè),從而為游戲運(yùn)營(yíng)商提供決策支持。

        3 研究方法

        3.1 問題定義

        定義1(包房) 游戲是在包房里進(jìn)行的,用戶需要?jiǎng)?chuàng)建包房或進(jìn)入包房。

        定義2(注冊(cè)包ID) 運(yùn)營(yíng)商將游戲安裝包放在不同的平臺(tái)供用戶下載注冊(cè),每個(gè)平臺(tái)的安裝包有其特有的ID。運(yùn)營(yíng)商可根據(jù)用戶的注冊(cè)包ID判斷該用戶來自哪個(gè)平臺(tái)。

        定義3(特征) 在本文中指用戶的屬性,比如游戲局?jǐn)?shù)、登錄天數(shù)和游戲時(shí)長(zhǎng)等。

        定義4(標(biāo)記) 在本文中將用戶標(biāo)記為流失用戶和未流失用戶。

        定義5(分類器) 對(duì)樣本進(jìn)行分類的算法的統(tǒng)稱。

        定義6(club) 親友圈的代稱。親友圈的功能是借助其特有的機(jī)制幫助圈內(nèi)的親戚和朋友更好地進(jìn)行游戲互動(dòng)和交流。

        3.2 本文方法

        本文方法包括數(shù)據(jù)預(yù)處理、特征構(gòu)造與選擇、游戲用戶流失預(yù)測(cè)和應(yīng)用4個(gè)部分,如圖2所示。

        Figure 2 The proposed method

        首先,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去掉缺失值和異常值,將多個(gè)表連接起來進(jìn)行數(shù)據(jù)整合。其次,進(jìn)行特征構(gòu)造和選擇,初步確立特征和標(biāo)記。本文將用戶一個(gè)月不玩游戲定義為流失,流失的標(biāo)記為“1”,不流失的標(biāo)記為“0”。初步選取了用戶的靜態(tài)特征和動(dòng)態(tài)特征。最后,將標(biāo)記和特征組合起來,得到字段如表1所示的樣本數(shù)據(jù)。

        Table 1 Preliminary sample data

        在確定好特征和標(biāo)記后,單獨(dú)對(duì)每個(gè)特征和標(biāo)記進(jìn)行相關(guān)性檢驗(yàn),并根據(jù)檢驗(yàn)結(jié)果進(jìn)行二次特征選擇。接下來,針對(duì)含有特征和標(biāo)記的樣本集構(gòu)建隨機(jī)森林模型,對(duì)游戲用戶進(jìn)行流失預(yù)測(cè)。

        下一步,分4種情況對(duì)流失用戶進(jìn)行特征可視化分析,分別是:流失用戶整體、流失用戶中的新用戶、流失用戶中的中間用戶、流失用戶中的老用戶。其中,將注冊(cè)時(shí)長(zhǎng)小于6個(gè)月的用戶定義為新用戶、注冊(cè)時(shí)長(zhǎng)在6~32個(gè)月的用戶定義為中間用戶,注冊(cè)時(shí)長(zhǎng)大于或等于32個(gè)月的用戶定義為老用戶。將這4個(gè)數(shù)據(jù)源的特征可視化結(jié)果進(jìn)行對(duì)比分析,觀察特征分布有何不同。

        最后,將預(yù)測(cè)結(jié)果和可視化結(jié)果反饋給游戲運(yùn)營(yíng)商,為其提供決策支持。

        3.3 相關(guān)性檢驗(yàn)原理

        本文選用了Point-biserial[16]相關(guān)性檢驗(yàn)。Point-biserial相關(guān)性檢驗(yàn)通常用于檢驗(yàn)連續(xù)變量和二元分類變量的相關(guān)性,其公式如式(1)所示:

        (1)

        其中,A1表示二元分類變量中的“1”對(duì)應(yīng)的連續(xù)變量的均值;A0表示二元分類變量中的“0”對(duì)應(yīng)的連續(xù)變量的均值;Sn表示連續(xù)變量的標(biāo)準(zhǔn)偏差;p表示二元分類變量中“1”在總的變量中的比例;q表示二元變量中“0”在總的變量中的比例。

        3.4 隨機(jī)森林工作原理

        相對(duì)于其它算法,隨機(jī)森林在處理大數(shù)據(jù)集時(shí)表現(xiàn)更好,并且對(duì)于不平衡的數(shù)據(jù)集來說,隨機(jī)森林可以平衡誤差且模型泛化能力強(qiáng)、訓(xùn)練速度快。隨機(jī)森林工作原理如圖3所示。假設(shè)從含有特征和標(biāo)記信息的數(shù)據(jù)中選出的訓(xùn)練集為S,該訓(xùn)練集包括N個(gè)樣本,M個(gè)特征。隨機(jī)森林的工作流程如下所示:

        Figure 3 Schematic diagram of random forest

        步驟1每次有放回地從訓(xùn)練集S中隨機(jī)抽取1個(gè)樣本,抽取N次,得到樣本集S1。

        重復(fù)執(zhí)行步驟1,得到S2,S3,…,SK。

        步驟2隨機(jī)從T1決策樹的屬性集中抽取一個(gè)有m個(gè)屬性的子集a,再?gòu)腶中選擇一個(gè)最優(yōu)的劃分屬性。對(duì)決策樹T2,T3,…,TK重復(fù)執(zhí)行步驟2。

        步驟3以投票法作為結(jié)合策略,得到最后的預(yù)測(cè)結(jié)果。

        3.5 模型的評(píng)估標(biāo)準(zhǔn)

        本文研究需要同時(shí)考慮查全率P和查準(zhǔn)率R,所以選擇了查準(zhǔn)率-查全率曲線(P-R曲線)圖[17]、受試者工作特征ROC(Receiver Operating Characteristic)圖[18]、ROC曲線下的面積AUC(Area Under Curve)[19]及Fβ值[20]作為模型的評(píng)估標(biāo)準(zhǔn)。在介紹P-R曲線圖、ROC曲線圖、AUC及Fβ之前,先介紹幾個(gè)概念:真正例(True Positive)、假正例(False Positive)、真反例(True Negative)和假反例(False Negative)。通常借助表2的混淆矩陣[20]來理解這幾個(gè)概念。

        Table 2 Confusion matrix of classification results

        式(2)~式(5)分別是查準(zhǔn)率P、查全率R、真正例率TPR和假正例率FPR的計(jì)算公式:

        (2)

        (3)

        (4)

        (5)

        P-R曲線圖的橫軸和縱軸分別是查全率和查準(zhǔn)率。預(yù)測(cè)模型的查全率和查準(zhǔn)率在P-R曲線圖上能被直觀地展現(xiàn)出來。如果預(yù)測(cè)模型A的P-R曲線被預(yù)測(cè)模型B的P-R曲線完全“包住”,說明預(yù)測(cè)模型B的性能比預(yù)測(cè)模型A的性能好。

        ROC圖的橫軸是假正例率,縱軸是真正例率。如果預(yù)測(cè)模型A的ROC曲線被預(yù)測(cè)模型B的ROC曲線完全“包住”,說明預(yù)測(cè)模型B的性能比預(yù)測(cè)模型A的性能好。

        除了用P-R曲線圖、ROC圖和AUC值以外,本文還采用了Fβ進(jìn)行度量。Fβ的計(jì)算公式如式(6)所示:

        (6)

        其中,β>0表示查全率對(duì)查準(zhǔn)率的相對(duì)重要性;β=1時(shí)退化為標(biāo)準(zhǔn)的F1;β>1時(shí)查全率有更大的影響;β<1時(shí),查準(zhǔn)率有更大的影響。本文方法希望盡可能少地漏掉流失用戶,因此查全率更重要。

        4 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

        4.1 實(shí)驗(yàn)環(huán)境介紹

        (1)實(shí)驗(yàn)環(huán)境硬件配置如表3所示。

        Table 3 Hardware configuration of experimental environment

        (2)實(shí)驗(yàn)環(huán)境軟件配置如表4所示。

        Spark MLlib作為Spark的核心組件之一,是Spark對(duì)常用機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫(kù)。本文在Spark平臺(tái)實(shí)現(xiàn)數(shù)據(jù)預(yù)處理及樣本數(shù)據(jù)的生成,借助Spark MLlib構(gòu)建預(yù)測(cè)模型。同時(shí),為了更直觀地將6個(gè)算法的對(duì)比效果展現(xiàn)出來,本文實(shí)驗(yàn)借助Python進(jìn)行可視化。

        Table 4 Software configuration of experimental environment

        4.2 實(shí)驗(yàn)數(shù)據(jù)集

        本文研究是基于某游戲平臺(tái)的真實(shí)游戲用戶數(shù)據(jù)來進(jìn)行的。實(shí)驗(yàn)數(shù)據(jù)包括從2020年7月至2021年4月共10個(gè)月的用戶信息,數(shù)據(jù)集大小為420.3 GB,其中,用戶有300萬左右。為了盡可能全面地了解用戶行為特點(diǎn),初步選取了可能與用戶流失相關(guān)的所有字段,如表5所示。

        Table 5 Preliminary selected fields

        5 實(shí)驗(yàn)及結(jié)果分析

        5.1 特征的相關(guān)性檢驗(yàn)

        Point-biserial函數(shù)是用來檢驗(yàn)連續(xù)變量和二元分類變量之間的相關(guān)性。在本文的數(shù)據(jù)集中,標(biāo)記是二分類變量;登錄天數(shù)、注冊(cè)時(shí)長(zhǎng)、游戲總局?jǐn)?shù)、去過的包房數(shù)、游戲總時(shí)長(zhǎng)、所在club的總局?jǐn)?shù)、所在club的游戲總時(shí)長(zhǎng)和用戶年齡是連續(xù)變量,所以選擇Point-biserial函數(shù)進(jìn)行相關(guān)性檢驗(yàn)。由于性別是二分類變量,packageID是無序變量,在自變量是二分類的情況下,暫時(shí)沒有找到可以檢驗(yàn)的方法,所以這2個(gè)變量不加入相關(guān)性檢驗(yàn)。

        本文調(diào)用了scipy.stats.pointbiserialr(x,y)函數(shù)計(jì)算點(diǎn)雙線相關(guān)系數(shù),也就是計(jì)算2個(gè)變量之間的關(guān)系。點(diǎn)雙線相關(guān)系數(shù)的取值在[-1,1],當(dāng)值是0時(shí),表明沒有相關(guān)性;取值越靠近1或-1,表明相關(guān)性越強(qiáng)。表6是標(biāo)記與各個(gè)特征的相關(guān)性檢驗(yàn)結(jié)果。

        Table 6 Correlation test results

        從表6可以看出,這幾個(gè)特征都與標(biāo)記具有一定的相關(guān)性。其中,登錄天數(shù)、去過的包房數(shù)、游戲總局?jǐn)?shù)和游戲總時(shí)長(zhǎng)這幾個(gè)特征與標(biāo)記有超過0.2的負(fù)相關(guān)關(guān)系。但整體來看,這幾個(gè)特征與結(jié)果的相關(guān)性都比較弱,考慮到多個(gè)因素共同作用對(duì)結(jié)果產(chǎn)生影響的情況,此處繼續(xù)保留所有特征。

        5.2 流失用戶特征的可視化分析

        對(duì)流失用戶的特征進(jìn)行可視化分析,得到流失用戶的特征分布,能幫助游戲運(yùn)營(yíng)商進(jìn)行運(yùn)營(yíng)策略的調(diào)整??梢暬卣靼ǎ耗挲g、性別、注冊(cè)包ID流失率、登錄天數(shù)、注冊(cè)時(shí)長(zhǎng)、總的游戲局?jǐn)?shù)、去過的包房數(shù)、游戲總時(shí)長(zhǎng)、所在club的游戲總時(shí)長(zhǎng)和所在club的游戲總局?jǐn)?shù)。

        本文對(duì)2020年8月至2021年3月間的流失用戶數(shù)據(jù)進(jìn)行有放回抽樣,共得到21 430名流失用戶。本文將其分為4種情況進(jìn)行特征分析,分別是:全部流失用戶、流失用戶中的新用戶、流失用戶中的中間用戶和流失用戶中的老用戶。其中,每種情況下注冊(cè)包ID的流失率為ML/NL,其中,ML表示該情況下的注冊(cè)包ID對(duì)應(yīng)的流失用戶數(shù)目,NL表示該情況下的流失用戶總數(shù)。下面選取了幾個(gè)可視化效果比較有特點(diǎn)的特征進(jìn)行展示。

        (1)流失用戶年齡分布。

        圖4是流失用戶的年齡分布圖。由圖4可以看出,4種情況下的流失用戶的年齡分布情況基本相同。其中,年齡段在28~33歲的流失人數(shù)最多,基于現(xiàn)實(shí)因素的考慮,游戲玩家的年齡主要是集中在23~43歲,28~33歲的人們多數(shù)會(huì)偏重于家庭和工作,由此造成了用戶的流失。運(yùn)營(yíng)商可以針對(duì)這部分人群采取一定的營(yíng)銷措施,比如在下班后或周末時(shí)間針對(duì)這部分用戶進(jìn)行一定的營(yíng)銷活動(dòng),從而達(dá)到挽回流失用戶的目的,提高游戲運(yùn)營(yíng)的效益。

        Figure 4 Age distribution of churn users

        (2)注冊(cè)包ID的流失率。

        圖5是注冊(cè)包ID的流失率分布圖。從圖5可以看出,整體情況下,流失率在40%及以上的注冊(cè)包ID有10003、10011和10037。其中,新用戶中流失率比較嚴(yán)重的注冊(cè)包ID是10003和10033;中間用戶中流失率比較嚴(yán)重的是10011和10037;老用戶中流失率比較嚴(yán)重的是10037。對(duì)于流失情況嚴(yán)重的注冊(cè)包ID,說明通過這幾個(gè)ID注冊(cè)的用戶質(zhì)量較差,由此運(yùn)營(yíng)商可以減少在這幾個(gè)注冊(cè)包ID所在平臺(tái)的廣告投放量,降低游戲的運(yùn)營(yíng)投入。

        Figure 5 Chrun rate of registration package ID

        (3)所在club的游戲總時(shí)長(zhǎng)。

        圖6是流失用戶所在club的游戲總時(shí)長(zhǎng)分布。圖6中,4種情況下的流失用戶所在club的游戲總時(shí)長(zhǎng)分布情況基本相同,都分布在[0,4.17]和[66.67,79.17]??梢钥闯?,流失用戶所在的club的游戲時(shí)長(zhǎng)要么過短要么過長(zhǎng),從側(cè)面說明club的游戲時(shí)長(zhǎng)過短或過長(zhǎng)都會(huì)導(dǎo)致club中的用戶流失。所以,運(yùn)營(yíng)商應(yīng)該多關(guān)注游戲時(shí)長(zhǎng)過短或者過長(zhǎng)的club,并采取措施對(duì)這些club中的用戶進(jìn)行挽留。

        Figure 6 Distribution of total game duration of churn users’ club

        通過可視化分析可以得出如下結(jié)論:

        (1)流失用戶的年齡、登錄天數(shù)、游戲總局?jǐn)?shù)、去過的包房數(shù)、游戲總時(shí)長(zhǎng)、所在club的總時(shí)長(zhǎng)和所在club的總局?jǐn)?shù)等特征在4種情況下的分布幾乎一致;注冊(cè)包ID和性別的分布稍微有點(diǎn)不同,造成這種情況的原因可能是因?yàn)橛螒蚬驹O(shè)定了注冊(cè)包ID默認(rèn)的注冊(cè)性別。

        (2)登錄天數(shù)、去過的包房數(shù)、游戲總時(shí)長(zhǎng)和游戲總局?jǐn)?shù)等幾個(gè)特征與流失用戶的人數(shù)成一定的反比;年齡、性別、注冊(cè)包ID、注冊(cè)時(shí)長(zhǎng)、所在club的游戲總時(shí)長(zhǎng)和所在club的游戲總局?jǐn)?shù)等幾個(gè)特征的分布特點(diǎn)各不相同。通過與前面的相關(guān)性檢驗(yàn)比較發(fā)現(xiàn),可視化結(jié)果與相關(guān)性檢驗(yàn)結(jié)果所得的結(jié)論一致,可視化分析可以更直觀地看到這些特征對(duì)用戶流失的影響。

        5.3 預(yù)測(cè)模型的評(píng)估

        預(yù)測(cè)模型的評(píng)估部分使用的是相同的訓(xùn)練集和測(cè)試集。訓(xùn)練集和測(cè)試集是按k折交叉驗(yàn)證法進(jìn)行劃分的。圖7是在相同的訓(xùn)練集和測(cè)試集下,支持向量機(jī)(SVM)、隨機(jī)森林(RF)、邏輯回歸(LR)、多層感知機(jī)(MLP)、梯度提升決策樹(GBDT)和分類回歸樹(CART)等6種常見算法的ROC曲線及AUC值。從圖7可以看出,梯度提升決策樹、邏輯回歸和隨機(jī)森林三者的表現(xiàn)相差不大。其中,隨機(jī)森林算法的ROC曲線面積,即AUC值,最大達(dá)到了0.875 7,表現(xiàn)最好。

        Figure 7 ROC curves and AUC values of six algorithms

        圖8是將全部數(shù)據(jù)放入在Spark平臺(tái)構(gòu)建的各個(gè)分類模型的Fβ值,可以看出,在β取值0.5,1.0和1.5時(shí),梯度提升決策樹、多層感知機(jī)、邏輯回歸、隨機(jī)森林和支持向量機(jī)的表現(xiàn)相差不大。其中,隨機(jī)森林的Fβ值都是最高的,即隨機(jī)森林算法在本文中表現(xiàn)最好。

        Figure 8 Fβvalues of six algorithms

        圖9是隨機(jī)森林算法在流失用戶整體、流失用戶中的新用戶、流失用戶中的中間用戶、流失用戶中的老用戶這4種情況下的P-R曲線圖。從圖9可以直觀地看出預(yù)測(cè)方法在4種情況下的查全率和查準(zhǔn)率。通過對(duì)圖中P-R曲線進(jìn)行對(duì)比分析,可以看出將用戶分為新用戶、中間用戶和老用戶之后,隨機(jī)森林算法的查全率和查準(zhǔn)率都得到了很大的提升。

        Figure 9 P-R curves of random forest algorithm in four cases

        圖10是統(tǒng)一取β=1.5時(shí)4種情況下隨機(jī)森林算法的Fβ值,可以看出,把用戶分情況用隨機(jī)森林算法建模以后,可以提高部分情況下的Fβ值。

        Figure 10 Fβ values of random forest algorithm in four cases

        同時(shí),從圖10可以看出,在沒有對(duì)用戶進(jìn)行劃分的情況下,F(xiàn)β值已經(jīng)到達(dá)91%,但從表6 相關(guān)性檢驗(yàn)結(jié)果上看,各個(gè)特征的相關(guān)性都比較弱,這里可以進(jìn)一步說明用戶流失受到了多個(gè)因素影響。

        6 結(jié)束語

        本文以一個(gè)大規(guī)模的真實(shí)網(wǎng)絡(luò)游戲用戶日志數(shù)據(jù)集為基礎(chǔ),借助Spark大數(shù)據(jù)處理平臺(tái)和機(jī)器學(xué)習(xí)算法,對(duì)游戲用戶流失情況進(jìn)行建模和預(yù)測(cè),并對(duì)流失用戶的特征進(jìn)行了系統(tǒng)分析。在數(shù)據(jù)處理過程中,使用Spark SQL對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,完成了特征的選擇和樣本的生成;使用Spark MLlib算法庫(kù)中的經(jīng)典算法進(jìn)行建模。實(shí)驗(yàn)結(jié)果顯示,隨機(jī)森林算法在此次預(yù)測(cè)中表現(xiàn)最佳,預(yù)測(cè)精確度達(dá)到了91%。

        本文還可以從以下2個(gè)方面開展進(jìn)一步的研究:

        (1)改進(jìn)用戶的分類方法,以替代目前的靜態(tài)劃分方法。使用用戶特征進(jìn)行聚類,并為每種類型的用戶進(jìn)行建模和預(yù)測(cè),以進(jìn)一步提升預(yù)測(cè)模型的精確性。

        (2)本文在選擇最優(yōu)預(yù)測(cè)模型時(shí),只選擇了ROC、AUC值及Fβ值作為評(píng)價(jià)指標(biāo),下一步可考慮將模型的訓(xùn)練成本納入評(píng)價(jià)指標(biāo),結(jié)合預(yù)測(cè)模型的實(shí)際部署環(huán)境,全方位評(píng)價(jià)各種模型。

        猜你喜歡
        特征游戲用戶
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        數(shù)獨(dú)游戲
        瘋狂的游戲
        飛碟探索(2016年11期)2016-11-14 19:34:47
        爆笑游戲
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        第八章直接逃出游戲
        内射欧美老妇wbb| 香蕉视频www.5.在线观看| 亚洲 欧美 影音先锋| 成人在线免费视频亚洲| 中文字幕人妻在线少妇完整版| 中文字幕亚洲入口久久| 亚洲欧洲成人精品香蕉网| 久久久久亚洲av片无码下载蜜桃| 色狠狠色狠狠综合一区| 国内精品九九久久精品小草| 亚洲丰满熟女一区二亚洲亚洲 | 国产精品毛片久久久久久l| 国产丝袜在线福利观看| 人妻少妇哀求别拔出来| 台湾无码av一区二区三区| 久久久AV无码精品免费| 免费人成网站在线观看| 国产香港明星裸体xxxx视频| 国产又滑又嫩又白| 久久网视频中文字幕综合| 久久精品中文字幕亚洲| 风韵犹存丰满熟妇大屁股啪啪| 岳好紧好湿夹太紧了好爽矜持 | 免费毛片性天堂| av天堂手机一区在线| 喷水白浆视频在线观看| 欧美性受xxxx狂喷水| 乱码午夜-极品国产内射| 国产亚洲AV片a区二区| 国产高清精品一区二区| 无码尹人久久相蕉无码| 国产 中文 制服丝袜 另类| 久久精品国产亚洲av网在 | 久久国产精彩视频| 性色av一区二区三区密臀av| 最美女人体内射精一区二区| 少妇饥渴xxhd麻豆xxhd骆驼 | 国产精品美女久久久免费| 国产精品美女久久久久久久久| 中文一区二区三区无码视频| 亚洲乱码中文字幕第一页|