亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動APP演化模式分析與預測*

        2019-12-19 17:24:40張藝璇歐陽逸於志文
        計算機與生活 2019年12期
        關鍵詞:預測特征算法

        張藝璇,郭 斌,歐陽逸,王 柱,於志文

        西北工業(yè)大學 計算機學院,西安 710072

        1 引言

        1.1 研究背景

        移動APP 自推出以來就飛速影響著人們的生活。隨著其數(shù)量的爆炸式增長,軟件開發(fā)商需要根據(jù)市場反饋及時做出運營決策,廣告投放商更需要通過預判抓住轉瞬即逝的商機。顯然,如果各種類型APP的流行度演化過程以及其未來一段時間內(nèi)的預期表現(xiàn)能夠被開發(fā)商和廣告商事先得知,則可為相關決策提供十分有價值的信息。本文中流行度演化是指APP的受歡迎程度在時間軸上的流動與變化過程。如果能夠對演化過程進行合理分析與預測,就能夠為軟件開發(fā)商管理和更新APP 提供決策建議,切實提高消費者的使用體驗,從而逐漸實現(xiàn)APP的智能演化;長遠來看,這有利于應用軟件市場的細分與優(yōu)化,最終導致市場整合,帶來極大的應用和商業(yè)價值。

        然而,流行度動態(tài)演變迅速,其背后各種因素交織作用,很難完成單獨量化?,F(xiàn)有APP 流行度相關研究可大致概括為以下三方面:

        一部分研究[1-2]通過分析促進APP發(fā)展的積極屬性來構建預測模型,或通過分類預測用戶下一個應用的APP。這樣方便分析和理解APP的發(fā)展過程,但不同種類、不同排名的APP所受影響因素不同,僅僅依靠影響因素對APP流行度進行預測不具有通用性。

        另一部分研究[3-5]側重從APP早期流行度出發(fā)建立回歸方程或者采用分類算法預測流行度,針對時態(tài)模式的組成預測APP流行度發(fā)展。這種方法在預測近期流行度時具有較高準確度,但當預測時間延長時則表現(xiàn)不佳。另外,這樣預測流行度時效性不強,必須等待歷史流行度數(shù)據(jù)出來后才能進行預測。

        此外,由于APP市場龐大,各類使用數(shù)據(jù)種類眾多且十分復雜[6-7],預測工作不應只獲得預期流行度,還應針對流行度演化過程給出合理分析和解釋。

        1.2 研究問題

        為了全面考慮早期流行度、影響特征對APP 的影響,本文針對流行度演化的分析、預測,主要研究以下3個問題:

        (1)APP 流行度演化過程中是否存在一些共性模式?

        APP 流行度的演化過程通過APP 每日流行度的擬合曲線表示,其中流行度以每日下載量量化,演化中必然存在大量上升與下降過程[8]。如果能夠將上升與下降合理切割歸類為演化模式,就能把復雜無規(guī)律的APP 演化量化為某些模式的組合,這些模式分別對應不同的含義和意義。這直接有助于判斷APP 的生命狀態(tài)、當前受制約因素和未來改進的方向;從逆向工程的角度而言,這項研究能夠對APP進行實時監(jiān)測,考查APP各項指標的異常情況,從而更加精準地決策當前最佳更新或營銷活動,而不是僅僅為了提高產(chǎn)品在APP 市場中的曝光率而盲目更新。這項工作直接與未來的預測息息相關。

        (2)如何找到并量化流行度的影響因素,如何衡量它們的影響作用?

        APP的自身特性、同類產(chǎn)品間的競爭情況以及用戶對于APP使用感受的反饋等因素都直接影響APP的流行度,如果能夠量化對應這3類影響因素的具體特征指標,并結合得到的演化模式進行分析,就能得知是怎樣的組合導致了某一時刻APP 的流行度表現(xiàn)。一旦找到影響流行度的因素并量化其影響力大小,便能夠針對表現(xiàn)不佳的影響因素提出改進策略。

        (3)如何針對影響特征建立模型以預測流行度的演化趨勢?

        當獲得APP流行度的影響因素及其權重便可建立數(shù)學模型以預測未來一段時間內(nèi)APP的受歡迎程度。這項工作有助于軟件開發(fā)商針對自身APP未來預計表現(xiàn)及時作出決策,提高用戶體驗;同時,它對APP市場整合和智能演化均有幫助。

        1.3 研究成果

        針對以上3個問題,本文得到如下成果:

        (1)發(fā)現(xiàn)了7種流行度演化的原子結構,并通過序列模式挖掘發(fā)現(xiàn)了6類演化模式。

        執(zhí)行曲線切割算法后,針對曲線形狀進行聚類,最終得到不同狀態(tài)下的7種原子演化結構,它們均代表APP流行度的上升或者下降的單個過程。之后針對APP為期一年的流行度演化原子結構進行序列模式挖掘來將上升與下降的原子結合得到6類演化模式。后文將針對不同的演化模式分別給出定義、特征、出現(xiàn)時期、意義等詳細表述。

        (2)選擇出6種與APP流行度演化相關的特征并對其作用進行了詳細分析。

        通過對獲取數(shù)據(jù)的分析并參考已有文獻中特征的選取,本文歸納6種作用于APP 流行度表現(xiàn)特征,它們歸類為以下三方面:自身特性(版本更新、營銷活動等)、同類競爭(實時排名等)、市場反饋(評論量、評分和評論情感等)。后文給出各種特征的解釋說明,從而證實選取該特征的正確性。

        (3)結合分析內(nèi)容建立CrowdPop 預測模型,通過更加細粒度地結合歷史表現(xiàn)與特征因素,實現(xiàn)了對APP流行度演化的準確預測。

        本文提出一個綜合考慮APP歷史演化模式與日常特征因素的CrowdPop 預測模型,并根據(jù)實驗結果通過不斷優(yōu)化演化模式的量化方法從而提高預測模型的準確性。實驗設計包括4類特征作為預測因子的CrowdPop模型基準研究和8類特征作為預測因子的CrowdPop 模型,通過最小化測試集與預測集間均方誤差選取最優(yōu)的改進模型,并與另外兩種算法進行預測精度的對比,從而驗證了成果(2)中有關APP演化模式的分析結果,從而證實了分析和模型的準確性與實用性。

        與現(xiàn)有工作相比,CrowdPop 模型綜合考慮了歷史流行度與影響特征對APP 未來流行度的影響,并且隨著預測時間的延長,該模型均表現(xiàn)出較好的準確性,克服了現(xiàn)有研究中長遠流行度預測準確率不能保證以及忽略歷史流行度的影響等問題。

        2 相關工作

        2.1 APP流行度的影響因素

        目前國內(nèi)外學者針對移動APP流行度的影響因素開展了系列研究。Lee[9]提出并分析了對移動APP的可持續(xù)性產(chǎn)生積極影響的若干屬性,并提出一種選取有效特征的方法,為本文選取影響特征提供了思路。Liu 等人[10]通過分析應用程序的用戶行為數(shù)據(jù),獲得多個應用程序管理活動和應用程序使用模式。Guzman 等人[11]提出了一種自動化方法,可幫助開發(fā)人員過濾、匯總和分析用戶評論。它可以幫助開發(fā)人員系統(tǒng)地分析用戶對單個功能的意見并過濾不相關的評論。Sarro等人[12]介紹了應用商店中APP生命周期的理論特征,他們的分析還突出了價格、評級和受歡迎程度之間的關聯(lián)。Tian等人[13]從1 492個高評級和低評級APP案例研究中提取最有影響力的因素,并應用隨機森林分類器來識別高評級應用。Arzt 等人[14]提出了一種基于用戶行為來衡量應用相似性的新技術。他們采用信息檢索來提取特征并將其用作APP的表征,然后使用這些屬性來聚類APP。

        2.2 流行度建模與預測

        現(xiàn)有預測工作中,針對網(wǎng)絡信息或者線上內(nèi)容的研究最為成熟,它們針對時序化的流行度建模,流行度定義為某時刻發(fā)生的積極網(wǎng)絡動作的次數(shù)?,F(xiàn)有研究工作從預測方法的角度可以分為3類:基于早期流行度、基于影響流行度的因素和級聯(lián)傳播理論。Zhu 等人[15]提出一種基于隱馬爾可夫模型的順序方法,用于對移動APP 的流行度信息進行建模。Lu 等人[16]提出了一種捕獲用戶行為的方法,包括APP下載和安裝、卸載和用戶評級。通過用戶行為與開發(fā)人員可控屬性相結合來預測APP 未來使用率。斯坦福大學的Yang等人[17]提出了一個有效的時間序列聚類算法以研究線上內(nèi)容隨時間變化的模式。Cha 等人[18]通過研究發(fā)現(xiàn)網(wǎng)絡信息中早期流行度與未來流行度存在較強關系,由此該研究以早期流行度作為預測因子建立回歸方程開展預測工作。Hong等人[19]將經(jīng)典的一元回歸SH(Szabo-Huberman)模型擴展至多元,針對歷史流行度分配不同權重,以最小化平均相對平方誤差為目的訓練模型。Bandari等人[20]針對時效性較強的新聞信息定義4個特征并將其作為自變量,未來流行度作為因變量并建立對數(shù)回歸方程,相比早期流行度對時效型信息預測的不準確性而大幅度提高模型的預測性能。許多現(xiàn)有的預測模型對于短期預測具有良好的準確性,但當用于長期預測時性能變差。

        以上工作為本文研究APP流行度預測提供了思路。本文同時考慮影響因素與早期流行度對APP未來一段時間的流行性的影響,并針對早期流行度挖掘出6種演化模式。之后建立預測模型CrowdPop,將選定的因素和模式量化為8種預測因子用作模型輸入。實驗表明,與基準研究相比,CrowdPop在預測精度上獲得相對更好的性能。另外,本文提出的6種演化模式為后續(xù)研究人員在理解APP流行度演化的過程中奠定良好基礎。

        3 數(shù)據(jù)收集與預處理

        3.1 問題表述與分析

        現(xiàn)有預測工作中,針對網(wǎng)絡信息或者線上內(nèi)容的研究最為成熟,它們針對時序化的流行度建模,流行度定義為某時刻發(fā)生的積極網(wǎng)絡動作的次數(shù)。

        為了統(tǒng)一概念與符號,方便理解內(nèi)容,本節(jié)針對第1章中提出的研究中3個基本問題的相關概念和理論進行形式化描述和說明。

        (1)流行度:給定某個APPi和時間點t,流行度pi(t)定義為其在時刻t的受歡迎程度。本文選取APP當日下載量來量化APP當日流行度。下載量能夠較好地反映用戶對于APP的喜愛程度。

        (2)流行度演化:給定某個APPi和生命長度Li,流行度演化定義為時間序列{pi(1),pi(2),…,pi(Li)}。通過以一天為時序單位,以一年時間跨度的每日下載量曲線來模擬APP 流行度一年內(nèi)的變化情況,探尋影響流行度變化的因素和流行度的變化特征。

        通過對APP 的流行度演化的基本觀察與分析,本文提出3類與流行度緊密相關的指標:自身特性、同類競爭和用戶反饋。這3類指標分別由以下特征進行量化。

        (1)自身特性

        ①版本更新

        軟件開發(fā)商會不定時推出軟件的更新版本供用戶下載使用。更新動作從短期來看能夠有效提高APP在應用市場中的活躍度和曝光率,提高潛在用戶的安裝率;長遠來看更新動作實現(xiàn)了對軟件性能的優(yōu)化,能夠穩(wěn)定已有用戶群體并吸引潛在用戶使用。

        ②營銷活動

        開發(fā)商會不定時推出一系列線上或者線下的營銷活動來提高APP的關注度。良好的營銷活動能夠有效提高用戶體驗,增加用戶粘度,有助于潛在用戶的積極轉化。

        (2)同類競爭

        ①實時排名

        本文利用日下載量數(shù)據(jù)中最近一天的APP市場排名作為APP 的流行度排名,用于觀察隨流行度下降演化模式的變化情況。同時,實時排名符合“富者更富”思想,即當前十分流行的APP未來會更有可能被潛在用戶知曉并安裝使用。

        ②同類APP數(shù)量

        盡管市場排名能夠很好代表某APP在同類產(chǎn)品中的受歡迎程度,但是同類APP 數(shù)量更能反映子市場競爭的激烈程度。這里統(tǒng)計同類APP 的數(shù)量,用于日后觀測某類型對應子市場的發(fā)展情況。

        (3)用戶反饋

        評論量、評分和評論情感:開發(fā)商往往采取評論有獎、APP 彈窗等措施來鼓勵用戶積極評論以促進APP的完善。本文將用戶評論劃分為三部分,評論量、評分和評論情感。評論量在一定程度上能夠表征用戶對于APP使用感受發(fā)表意見的積極程度。評分是用戶對于APP最直觀的感受,十分直觀但不夠細致。評論情感是針對評論內(nèi)容進行文本分析得到的文本情感評分,更加具體地反映了用戶對APP的喜愛程度。

        3.2 數(shù)據(jù)收集與描述

        本文收集了來自酷傳網(wǎng)站(http://www.kuchuan.com)的多源群智APP 數(shù)據(jù),涵蓋360、百度、應用寶、豌豆莢等10個在中國廣受歡迎的APP市場,涉及APP單日下載量、日均使用時間、實時排名、用戶評論等多類時序和文本數(shù)據(jù)。數(shù)據(jù)集相關信息如表1所示。

        3.3 數(shù)據(jù)預處理

        首先針對采集數(shù)據(jù)進行初步篩選,選取各項指標均不為空的APP,并參考APP市場中的分類對APP分類和整合;之后對上述特征數(shù)據(jù)進行預處理得到各項時序數(shù)據(jù)。不同類型的數(shù)據(jù)的處理方式如下。

        (1)日下載量:首先對日下載量進行歸一化,之后采用Matlab 的工具箱進行曲線擬合,從而得到貼近真實演化過程的平滑曲線。

        (2)版本更新與營銷活動:這兩者處理為0/1結構,即當天有更新發(fā)生則數(shù)值記為1,反之為0;當天有營銷活動則記為1,反之為0。這樣就相當于間接給有更新和營銷活動的日期標注,方便日后分析當日APP流行度所受的影響因素。

        (3)實時排名:針對每一類APP進行實時排名的升序排列。存在一種情況:部分排名在中段的APP因數(shù)據(jù)類型不全而被剔除,注意更新排名的數(shù)字。

        (4)同類APP數(shù)量:通過統(tǒng)計每種類型中APP的個數(shù)來得到同類APP 的數(shù)量,用于日后結合實時排名進行關乎市場競爭的綜合判斷。

        (5)評論量:針對獲取的每日評論進行計數(shù),用數(shù)值大小來代表當日用戶評論的活躍情況。

        (6)評分:用戶切換至APP市場的評論界面時可以對APP直接打分。假設沒有用戶惡意評論的情況,直接對每日評分求平均值,這個平均值代表當日該APP獲得的評分。最后針對一年的評分做歸一化處理。

        (7)評論情感:本文采用SnowNLP(https://github.com/isnowfy/snownlp)計算評論的情感得分。SnowNLP是用于切割識別中文短語的Python 語言類庫,用來對評論量化生成情感評分。在計算每日評論情感得分的平均值后針對一年的數(shù)據(jù)進行歸一化。

        4 移動APP流行度分析

        本章通過對APP一年時間內(nèi)流行度演化的過程進行統(tǒng)計和分析,旨在發(fā)現(xiàn)流行度演化的基本原子結構,挖掘頻繁序列模式并探究演化發(fā)展的規(guī)律及其背后的原因。

        4.1 原子結構

        本文采用APP的日下載量來刻畫APP在用戶市場中的流行程度,以每日時間點作為橫坐標,每日下載量作為縱坐標的取值。這里給出原子結構的形式化定義。

        原子結構:給定某APP的流行度演化曲線,原子演化結構是其中一段由相鄰連續(xù)坐標點組成的整體符合單調增或減的二維序列,保證序列在維持原有增減性下的最大化。增減過程中允許出現(xiàn)若干小型波動,但波動處的差值不能超過序列首尾縱向差值的θ(0 <θ<1)。

        下面對以上定義進行解釋。APP 流行度演化整體符合上升-下降模式,但允許在上升或者下降過程中出現(xiàn)并不影響整體走勢的波動。這些波動可能是因為APP的連續(xù)更新動作導致流行度迎來持續(xù)的脈沖式增長(對應波動式增長原子),也有可能是因為更新后APP的不穩(wěn)定性導致用戶評分走低從而流失部分潛在用戶(對應波動式下降原子),具體原因將在第5章給出。但并不代表只要存在波峰或者波谷就應該被劃分為不同子序列,這樣做可能會破壞在升降中出現(xiàn)的異常。

        下面給出切割算法。

        算法1演化曲線切割算法

        輸入:流行度演化序列和生命周期時間序列。

        輸出:流行度單調子序列集合。

        1.讀取流行度波峰值和波谷值;

        2.分別讀取波峰值,劃分振幅閾值內(nèi)的鄰居點作為上升子序列;

        3.保存上述序列至單調增序列集合中;

        4.分別讀取波谷值,劃分振幅閾值內(nèi)的鄰居點作為下降子序列;

        5.保存上述序列至單調降序列集合中;

        6.輸出兩個單調子序列集合;

        7.結束。

        針對APP 流行度擬合曲線切割后,得到對應時序數(shù)據(jù)的原子結構序列。針對原子結構進行聚類時,本文采用K-means 聚類算法(https://github.com/skyline0623/K-meansCluster),這是一種通過計算歐氏距離來尋找聚類中心點的迭代算法,由于移動APP數(shù)據(jù)之間差別很大,上升和下降情況十分復雜,聚類并不局限于增降過程的速率。聚類后得到并定義7種原子結構,結果如圖1所示。其中原子結構A2和A4表示上升和下降環(huán)節(jié)中存在一個或多個小型的波峰或波谷,圖中一律使用一個波折段表示。A5和A6表征了更新動作發(fā)生時下載量尖峰式的脈沖。A7表示了較長一段時間內(nèi)APP流行性維持平穩(wěn)狀態(tài)波動很小的狀態(tài)。

        Fig.1 APP popularity atomic evolution structure圖1 APP流行度原子演化結構

        4.2 序列模式挖掘

        本文采用APP的日下載量來刻畫APP在用戶市場中的流行程度,以每日時間點作為橫坐標,每日下載量作為縱坐標的取值。這里給出原子結構的形式化定義。

        由于APP 的流行演化基本遵循上升-下降的過程,因此本文針對得到的原子結構序列進行相鄰奇偶位置組合統(tǒng)計,篩選高頻出現(xiàn)的原子結構對歸納為演化模式,共得到6個不同類型的組合即流行度演化模式,結果如圖2所示。

        Fig.2 APP popularity evolution pattern圖2 APP流行度演化模式

        (1)P1模式

        這種模式最為常見,是最主流的APP演化模式,在絕大多數(shù)APP 的生命周期中均會存在。P1代表一種相對穩(wěn)定的流行度變化狀態(tài)。它表征APP在發(fā)展過程中受到某些內(nèi)部或者外部刺激時,其流行度產(chǎn)生相對穩(wěn)定的應激反應。其中的上升與下降過程均為冪律消長狀態(tài)。整個過程可理解為,流行度上升過程中未受到消極因素影響而阻礙正常進度,下降過程也符合冪律型自然發(fā)展規(guī)律,未受到人為干預或干預較小。

        (2)P2模式

        這種模式是繼P1后較常見模式之一,流行度的下降過程仍遵循冪律形式,但上升中存在一個及以上的中斷或者波動,流行度的增長受到一定內(nèi)部或外部阻礙。本文認為中間的波動存在兩種可能:正常增長過程受到內(nèi)部或外部影響因素的阻礙而減緩增長速度;增長處于瓶頸狀態(tài)因采取一定措施(連續(xù)更新或者營銷活動)而挽回一定的增加量。

        (3)P3模式

        這種模式是繼P1之后另一種較為常見的模式,其流行度上升過程遵循冪律形式,但在下降過程中存在一個及以上的中斷或者波動,流行度的降低受到一定內(nèi)部或者外部的積極刺激而產(chǎn)生正向反饋。中間的波動存在兩種可能:正常下降過程受到內(nèi)部或外部的積極影響,例如開發(fā)商的一系列有效動作等,從而在流行度下降的中段位置維持了一段時間的穩(wěn)定水平;某些導致流行度下降的不利因素級聯(lián)式地擴大,從而牽連至原本較為穩(wěn)定的用戶群體。

        (4)P4模式

        P4是一種不常見的模式,其上升和下降階段中都存在若干波動,但整體仍呈冪律走勢。導致P4的原因較為復雜,兩個階段的波動除受上述評論、更新等因素影響外,可能還存在其他組合因素的影響。整體而言,演化模式P4代表APP受內(nèi)外部因素影響后波動最為復雜,穩(wěn)定性較差,尚未形成自身的發(fā)展規(guī)律。

        (5)P5模式

        P5代表存在更新動作時APP 流行度演化的模式。本文將更新動作發(fā)生的前一天作為第一個數(shù)據(jù)點,以完整表現(xiàn)更新動作對APP 流行度的巨大影響。由于使用下載量量化APP 流行度,因此大量已經(jīng)安裝此APP的用戶可能會選擇更新,從而P5會顯示出急速的上升和下降。

        (6)P6模式

        P6被定義為連續(xù)7天及以上只發(fā)生微小變化的情況。事實上,數(shù)據(jù)統(tǒng)計顯示大多數(shù)情況下一段時間內(nèi)的下載量趨于零。因為流行度演化通常是遵循上升、下降的模式,所以這是一種異常的演化模式。排除數(shù)據(jù)采集出現(xiàn)的缺失,這可能是APP 流行度演化中較為嚴重的瓶頸期,大多存在于流行度排名較差的APP中。

        4.3 演化模式分析

        針對不同APP 的頻繁模式序列,本文進行了數(shù)量、頻率、類別、排名等不同方面的統(tǒng)計工作,并從統(tǒng)計結果中分析得到了系列論點以及論點的合理解釋。由于P5和P6代表特殊情況的演化模式,因此本文暫不考慮。

        4.3.1 生命周期中的演化模式數(shù)量

        演化模式P1在各類APP 的生命周期中大量存在,是最為常見的演化模式,因此P1的數(shù)量可用于刻畫大部分APP 生命周期中演化模式的整體數(shù)量。另外,由于數(shù)據(jù)時間跨度較長,因此某類演化模式出現(xiàn)數(shù)量的多少在一定程度上可以反映這類演化模式出現(xiàn)的頻率。

        P2與P3屬于較為常見的演化模式,其中大多數(shù)類別的APP 的生命周期中P3的出現(xiàn)次數(shù)較P2多。這是由于APP 市場本身并不穩(wěn)定,內(nèi)外部影響因素繁多復雜,APP 的流行度增長的原因較為清晰,但導致下降的因素較為復雜多變,這也是APP 市場波動頻繁劇烈的因素之一。

        P4是這4類中出現(xiàn)次數(shù)最少的演化模式,它代表著APP的不穩(wěn)定狀態(tài),受內(nèi)部外部影響變化劇烈,但這種不穩(wěn)定狀態(tài)并不常見。

        4.3.2 不同演化模式的占比

        不同模式所占百分比情況如圖3所示。

        P1在各類APP中的出現(xiàn)次數(shù)均達到整體模式的43%以上,是所有APP中的主流模式。

        P2與P3所占百分比浮動較大,但其加和不超過P1所占百分比。P2與P3的比重變化更多受APP所屬類別以及該類市場發(fā)展情況的影響。

        Fig.3 Percentage of 4 evolution patterns圖3 4種演化模式出現(xiàn)次數(shù)所占百分比

        P4所占百分比浮動不大,一般在5.50%左右。

        4.3.3 不同流行度之間的演化模式差異

        這里根據(jù)APP的市場排名對不同APP的流行度進行排名,考察當流行度逐漸下降時演化模式的不同表現(xiàn)。

        (1)演化模式數(shù)量差異明顯

        隨著APP 流行度的下降,演化模式數(shù)量出現(xiàn)一定規(guī)律的波動,波動情況如圖4所示。其中位于流行度排名中上段和中后段的APP 其模式數(shù)量較大,具體為25.0%左右與80%左右。

        Fig.4 The number of 4 patterns as APP ranks down圖4 隨APP排名下降4種演化模式出現(xiàn)次數(shù)

        分析認為排名在25.0%左右的APP 正處于加速上升的競爭階段,這期間開發(fā)商更新動作頻繁,流行度變化速度加快,因此演化模式數(shù)量在該類APP 中占據(jù)高點。

        分析認為排名在79.2%左右的APP 用戶群體較小,APP 的流行度發(fā)展遠遠未到達穩(wěn)定狀態(tài),受內(nèi)外部沖擊后波動幅度頻繁且劇烈,因此演化模式數(shù)量明顯大于其他排名的APP。

        排名理想的APP多屬于行業(yè)巨頭,其發(fā)展穩(wěn)定,更新動作規(guī)律,評論真實性較高,具有穩(wěn)定的用戶群體,因此受內(nèi)部、外部影響波動小。

        (2)演化模式占比變化較大

        隨著流行度的下降,演化模式P1所占比例在逐步下降,演化模式P2、P3、P4都有不同幅度的波動且總體呈上升趨勢,這證明隨流行度下降,APP 發(fā)展所受影響因素增多,波動增多,常見的穩(wěn)態(tài)模式逐漸減少,富于波動的模式的出現(xiàn)更加頻繁。

        (3)演化模式的活躍位置不同

        這里以演化模式出現(xiàn)的百分比量化該演化模式的活躍度。在生命周期中,演化模式出現(xiàn)百分比越大,則證明當前時期該演化模式越活躍。不同模式在APP排名中活躍位置如圖5所示。

        Fig.5 Active position with 4 patterns as APP ranks down圖5 隨APP排名下降4種演化模式的活躍位置

        P1在整個生命周期中都十分活躍,但隨著流行度的下降,演化模式P1的活躍度整體呈下降趨勢。排名在50%左右的APP 是演化模式P1占比下降的分水嶺,前后兩階段的APP 的演化模式P1出現(xiàn)的百分比差異較大。

        P2的最活躍期出現(xiàn)在25%左右,說明對于流行度增長速度表現(xiàn)強勁的APP,P2是它們最受歡迎的模式,這既代表開發(fā)商對于增長的努力,也代表未來發(fā)展良好的能力。當然這也與APP 發(fā)展現(xiàn)狀相吻合,同行競爭大,流行度上升難,但APP穩(wěn)定性強,因此需要采取措施不斷提高流行度增長的速度。

        P3的最活躍期出現(xiàn)在70%左右,大多出現(xiàn)在排名的中后段位置,說明流行性表現(xiàn)不佳的APP 在針對降低下降速度而做出努力,此處開發(fā)商的關注點可能已轉移到如何減小損失,降低每次下降的速率。這也與APP 發(fā)展現(xiàn)狀相吻合,來自相同位次的同行間競爭較小,流行度上升較為容易,但APP發(fā)展的穩(wěn)定性差,因此需要不斷采取措施減緩流行度下降的速度。P2與P3的活躍位置還受其他因素影響。

        P4因出現(xiàn)數(shù)量較少無法得到確切的規(guī)律,但可以看出其多活躍于排名中后段的APP 的生命周期中。說明流行度排名較為優(yōu)越的APP很難出現(xiàn)上升下降過程中都包含曲折過程的演化模式,當排名不佳時,其演化過程更為復雜,所受影響因素更多,更加不穩(wěn)定。

        4.3.4 演化模式平均持續(xù)時間的差異

        并非是TOP APP 就一定穩(wěn)定,它們的每一次更新影響深遠,波及用戶人數(shù)多,演化模式持續(xù)時間較短但演化模式種類較為單一。

        排名中上段較為穩(wěn)定,演化模式持續(xù)時間較長,種類開始增多,上升需要更多助力,主要精力放在增加下載量上。中下段不是非常穩(wěn)定,演化模式持續(xù)時間短,變化多,開發(fā)商動作頻繁但影響并不深遠,主要精力放在減慢下降速度上。最后段表現(xiàn)不佳,變化多但可能更多是受外部影響,穩(wěn)定性差。根據(jù)統(tǒng)計計算,演化模式的平均持續(xù)時間如表2所示。

        Table 2 Average duration of each pattern表2 演化模式平均持續(xù)時間

        5 APP流行度預測方法

        5.1 CrowdPop預測模型架構

        本文提出基于隨機森林(random forest,RF)的CrowdPop 預測模型,將深遠影響APP 流行度的8種特征作為預測因子輸入,通過訓練21天(第1至3周)的APP數(shù)據(jù)來預測后7天(第4周)的APP流行度。采用MSE(mean square error)與RMSE(root mean square error)來驗證模型的準確性。為了進行對比,采用多元線性回歸(linear regression,LR)和支持向量機回歸(support vector regression,SVR)兩種算法作為參考基準。CrowdPop模型架構如圖6所示。

        Fig.6 CrowdPop model architecture圖6 CrowdPop模型架構

        5.2 CrowdPop預測因子

        CrowdPop 模型的預測因子包括P1、P2、P3和P4的表現(xiàn)、評論量、評分、評論情感、更新動作,需要將其量化為8種時序數(shù)據(jù)作為CrowdPop模型輸入。

        為方便區(qū)分,將APP 的更新頻率、評論量、評分和評論情感這4種特征稱為顯式特征,因為其源于APP的維護運營和用戶反饋中;對應的隱式特征是包含APP生命周期中流行度演化過程反映出的演化模式組成、持續(xù)時間等特征信息。

        為了更加顯著地表現(xiàn)出CrowdPop 模型的優(yōu)越性,實現(xiàn)演化模式組成這一預測因子的最佳量化,本節(jié)共提出4種表示隱式特征的方法,分別為:

        方法1當天演化模式占比序列

        即當前時間內(nèi)所處演化模式的類型。這里數(shù)據(jù)采用稀疏矩陣的表示方法,每行4個狀態(tài)中僅有一個狀態(tài)取值為1,代表當前正處于這類演化模式的過程中。

        方法2疊加式演化模式占比序列

        考慮到演化模式并不只是作用于相鄰的有限時間內(nèi),方法2將針對方法1中的稀疏矩陣進行縱向疊加,疊加后每行數(shù)據(jù)代表截止到當天,之前出現(xiàn)的所有演化模式的組合情況。

        方法3疊加式持續(xù)時間序列

        參考本文在4.3.4小節(jié)中得到的結論即不同演化模式的持續(xù)時間差別較大,考慮到僅僅標記演化模式的出現(xiàn)并不能準確刻畫出不同模式在APP流行度演化過程中的持續(xù)性,這里提出方法3,將矩陣表示為直至當天時間,之前出現(xiàn)的各演化模式的持續(xù)時間的疊加,不同演化模式的出現(xiàn)頻率不同,出現(xiàn)次序不同,其持續(xù)時間也不同,方法3更加細化了演化模式對于未來流行度的影響和作用。

        方法4時間窗口式持續(xù)時間序列

        設置時間窗口滑動機制,通過改變窗口長度來確定疊加的時間長度,矩陣數(shù)據(jù)仍表示為持續(xù)時間的疊加,但不直接設定為截至當天出現(xiàn)的所有演化模式的持續(xù)時間。

        CrowdPop模型分別采用以上4種方法作為輸入并依次計算不同方法下CrowdPop 模型的預測精度,最終發(fā)現(xiàn)方法4作為最佳輸入有效優(yōu)化了基準研究的預測精度。實驗輸出為模型中的各概率初始參數(shù),預測周的平均下載量和預測周的流行度演化曲線。

        5.3 CrowdPop預測算法

        CrowdPop 模型采用隨機森林RF 算法對輸入的預測因子進行APP未來一段時間內(nèi)流行度的預測工作。之后分別與多元線性回歸LR、支持向量機回歸SVR算法的預測精度進行對比,以驗證CrowdPop模型在預測算法方面的優(yōu)越性。首先對RF算法進行簡要介紹。

        隨機森林是一種多功能機器學習算法,能夠執(zhí)行回歸和分類的任務。在APP流行度的預測工作中,隨機森林算法主要從以下步驟完成回歸預測工作:

        (1)針對訓練集生成多個決策樹并組成決策森林;

        (2)基于APP 的8種特征數(shù)據(jù)進行未來流行度的預估;

        (3)隨機森林中的每一棵樹都會給出自身的分類輸出值;

        (4)森林整體將所有決策樹輸出的平均值作為輸出結果,即對應當前特征取值的APP一周下載量。

        另外本文引入多元線性回歸與支持向量機回歸兩種算法與CrowdPop模型進行對比,下面分別對LR和SVR進行簡要介紹。

        (1)LR算法

        多元線性回歸算法用于刻畫與APP流行度演化相關的8個自變量與APP未來流行度間的線性關系。通過LR算法建立訓練集中7天前特征的取值與當前流行度的線性關系,并得到不同特征的權重參數(shù),以便實現(xiàn)通過當前特征取值預測未來流行度的工作。

        (2)SVR算法

        SVR 算法本質為尋找一個回歸平面,讓一個集合的所有數(shù)據(jù)到該平面的距離最近。它從訓練集數(shù)據(jù)中選取一部分更加有效的支持向量,根據(jù)這些訓練樣本的值通過回歸分析預測對應當前特征數(shù)據(jù)取值的未來一段時間APP流行度的取值。

        6 實驗驗證

        預處理的數(shù)據(jù)包括7個功能分類共126個APP,每4周為一組數(shù)據(jù),共計6 148組。其中每組數(shù)據(jù)包括21天(3周)的訓練數(shù)據(jù)和7天(1周)的測試數(shù)據(jù)。

        6.1 實驗設置

        為了更加清晰地對比CrowdPop模型結合4種不同量化方法的預測精度,以及引入P1、P2、P3和P4這一隱式特征對于APP 流行度預測的必要性,本節(jié)設置基準方法,實現(xiàn)結果的清晰對照。這里仍采用CrowdPop 預測模型架構,但只引入除去演化模式的其他4類影響因子:評論量、評分、評論情感和更新動作。并將預測結果的MSE 與RMSE 作為對比基準。在增加演化模式組成與持續(xù)時間這一影響特征后,通過比較不同方法的MSE與基準方法MSE的大小,從而判斷不同方法下CrowdPop 模型針對APP 流行度預測的性能差異,選取最優(yōu)模型與方法。

        首先建立4類顯式特征與APP 流行度間的數(shù)學關系。分別采用LR、RF和SVR算法針對顯式特征與APP流行度之間建立數(shù)學關系,計算對應測試集的預測數(shù)據(jù)集,并計算測試集與預測集的MSE和RMSE,統(tǒng)計針對每個APP 產(chǎn)生最小MSE 值的算法,結果如表3所示。

        其中,最優(yōu)百分比表示這種算法在針對同一APP進行預測時,相比其他兩種方法,其MSE 值最小,即預測準確性最優(yōu)??梢钥闯?,LR 與RF 在這6 148組數(shù)據(jù)中的表現(xiàn)平分秋色,MSE 的均值也在同一數(shù)量級上,相差較小。而SVR在預測精度上則表現(xiàn)不佳,其MSE值與RF相差一個數(shù)量級,當對同一APP進行預測時,更是很難表現(xiàn)絕對優(yōu)勢。因此下一步實驗摒棄SVR算法,采用LR與RF進行性能對比。

        Table 3 Accuracy comparison of predictive algorithm表3 預測算法精度對比

        6.2 實驗結果

        方法1當天演化模式占比序列

        這里采用稀疏矩陣表示,通過0或1來代表當天流行度處于何種演化模式。設置為4×365的稀疏矩陣,其中行值代表時間序列,列值表征4種演化模式在某一天的取值,當天如果正處于演化模式P2,則該天P2特征值取值為1,P1、P3和P4特征值取值為0。從橫向的角度看,P1、P2、P3和P4的取值構成了4個隱式特征,0/1取值反映當天APP 所處演化模式的狀態(tài)。從縱向來看只研究一周前的同一時間APP所處演化模式對于當下流行度的影響,實際上可以理解為歷史流行度對于當前流行度如何演化的影響。將演化模式序列與其他4個顯式特征對應組合后,應用LR 和RF 兩種算法分別對APP 的一周流行度進行預測和計算MSE,并將實驗結果與6.1節(jié)中對應數(shù)據(jù)的MSE 比較,從而發(fā)現(xiàn)方法1對于預測模型的優(yōu)化情況。其中優(yōu)化結果如表4所示。

        Table 4 Method 1 optimization表4 方法1優(yōu)化情況

        隱式特征的引入能切實提高模型的預測精度,但是并不能實現(xiàn)對所有實驗集的優(yōu)化,排除APP 個體差異,有理由認為只是反映當前APP 演化模式的狀態(tài)并不能完全涵蓋演化模式中蘊含的信息。例如一個APP如果連續(xù)處于多個P1模式中,那么在一段時間內(nèi)其隱式特征取值就不會改變,如果考慮演化模式的出現(xiàn)對于未來APP 流行度演化的疊加式效應,模型的預測精度是否會進一步提升呢?

        方法2疊加式演化模式占比序列

        引入隱式特征的疊加式數(shù)據(jù)來探究其對APP流行度演化的影響和對模型的優(yōu)化。具體為實現(xiàn)方法1中代表4個隱式特征的稀疏矩陣進行縱向的疊加,即當前隱式特征仍表示為4×365的數(shù)值矩陣,但每一個數(shù)值代表截止到當前時間,之前出現(xiàn)過某種演化模式的次數(shù)。在對模型進行進一步的改進之后將實驗結果繼續(xù)與基準研究對比,對比結果如表5所示。

        Table 5 Method 2 optimization表5 方法2優(yōu)化情況

        實驗結果顯示方法2針對基準研究優(yōu)化范圍十分有限,即當引入演化模式在時間推移上的疊加式影響時,模型的準確性并沒有得到預期效果。為此本文分析方法2得到的各個特征數(shù)據(jù)的平均參數(shù),并與基準研究中4個顯式特征的參數(shù)進行對比。對比結果如圖7所示。對比發(fā)現(xiàn),顯式特征在不同模型中的變化并不顯著,針對不同APP 進行預測時其值在正常范圍內(nèi)波動。圖7展現(xiàn)了在基準研究和方法2中采用特征不同但顯式特征參數(shù)近似的情況。之后統(tǒng)計所有樣本集P1、P2、P3和P4這4個隱式特征的參數(shù)并求取平均值,結果如表6所示。

        各演化模式表現(xiàn)在方法2模型中的參數(shù)值依次遞減,其中P2至P4和P1對應的參數(shù)相差4個數(shù)量級。模型不夠合理,因為P2、P3和P4在影響流行度的過程中權重太低以至于沒有考慮它們的必要。但從4.3節(jié)中得知不同演化模式都因代表不同狀態(tài)而存在,因此考慮這4類常見演化模式并沒有問題。方法2在處理演化模式這一類隱式特征的方法有待優(yōu)化,因為:

        Fig.7 Explicit feature weights of method 2 vs.benchmark studies圖7 方法2與基準研究的顯式特征權重對比

        (1)P1出現(xiàn)最為頻繁導致其特征值遠遠超過P2、P3和P4的特征值。P1作為最常見的模式,疊加式統(tǒng)計出現(xiàn)次數(shù)和整體歸一化的計算方法無疑縮小了原本就出現(xiàn)次數(shù)較少的P2、P3和P4這3類演化模式間的差異。

        (2)不同演化模式本身的影響和作用并沒有單獨量化。方法2中簡單地用0/1來表示在某一時間點下某種演化模式是否出現(xiàn),這基于一項基本假設:任意一個演化模式對APP未來流行度的影響只與其在生命周期中出現(xiàn)的次數(shù)有關,而與演化模式的不同種類無關。

        (3)演化模式的持續(xù)時間各不相同。在4.3.4小節(jié)中明確指出模式的持續(xù)時間,并且不同演化模式的持續(xù)時間的差異顯然是不能粗略認為是等同的。

        因此需要針對方法2中不同演化模式的同種量化方法進行改進。

        方法3疊加式持續(xù)時間序列

        方法2認為演化模式這種隱式特征可以量化為兩種統(tǒng)計數(shù)值的乘積:某種演化模式的影響力和它在生命周期中出現(xiàn)的次數(shù)。這里可以選取演化序列中統(tǒng)計的演化模式的持續(xù)時間來表征不同演化模式對于APP 未來流行度的影響,顯然這兩者確實是直接相關的,并且持續(xù)時間是由統(tǒng)計工作得到,本身能夠較為客觀地反映演化中的復雜影響。

        采用累加式持續(xù)時間來表征隱式特征P1至P4的數(shù)值。這里繼續(xù)采用數(shù)值矩陣表示,仍以一天時間為單位,即每過一個時間單位,若某種演化模式仍在持續(xù)就在數(shù)值上疊加1。例如演化模式P3在某個APP的生命周期中持續(xù)8天,則這8天內(nèi)隱式特征P3的取值為(1,2,3,4,5,6,7,8),當然在統(tǒng)計工作結束后需要對隱式特征的取值統(tǒng)一歸一化。這里采用LR和RF兩種算法分別針對新的數(shù)據(jù)集進行訓練并輸出預測結果,同時計算測試集與預測集之間MSE 取值來衡量模型的精度。

        圖8顯示了集中于前40%時間段內(nèi)的數(shù)據(jù)的詳細分析。其中橫坐標表示預測集中的周序號,縱坐標表示預測的優(yōu)化率與失誤率,優(yōu)化率定義為方法3中模型預測后成功降低原始模型(只考慮顯式特征)MSE數(shù)值的百分比,而失誤率則代表方法3模型與原始模型相比MSE 反而升高的百分比。可以清楚看到,方法3模型除了在初始周的優(yōu)化率達到100%,最高優(yōu)化率出現(xiàn)在第8周,之后便逐漸降低,在第20周甚至小于50%;相反的是,其失誤率從第9周開始逐周增長,且具有持續(xù)增長的走勢。

        Fig.8 Accuracy of top 40%data prediction result in method 3圖8 方法3前40%數(shù)據(jù)預測結果準確率

        通過對方法3的細致分析,認為改進的模型相比原始模型確實能夠有效降低MSE 數(shù)值,這說明將演化模式量化為持續(xù)時間著實是正確的。但新模型的優(yōu)化性能卻因APP生命周期的推移而受限。這里尚待商榷的因素還有一個:持續(xù)時間的累加程度。方法3將某一天的演化模式表征為之前所有持續(xù)時間的加和,這存在前提假設:之前所有的演化模式的出現(xiàn)都對未來流行度產(chǎn)生相同程度的影響。顯然這不夠合理,例如100天前的演化模式的構成比例對于當前的流行度的影響十分微妙。因此再次對模型進行改進,提出方法4。

        方法4時間窗口式持續(xù)時間序列

        設置滑動時間窗口,每次選取固定時長的演化特征的取值來引入模型。也就是說,在每天特征中,演化模式處的4個特征值分別為之前42天(6周)的持續(xù)時間的疊加值。分別計算不同時間窗口下對應模型的優(yōu)化率,實驗結果如圖9所示。

        Fig.9 Accuracy of prediction results in method 4圖9 方法4預測結果準確率對比

        由圖9可知,當時間窗口為4周時方法4的優(yōu)化率能夠達到最高為85.7%。

        7 總結與展望

        本文采集大量APP 群智感知數(shù)據(jù),通過對APP流行度演化曲線的切割與聚類歸納出7種原子演化結構;之后通過序列模式挖掘發(fā)現(xiàn)APP 流行度演化過程的6種基本演化模式;針對統(tǒng)計數(shù)據(jù)分析后,探究了影響APP 流行度演化的7種影響因素:更新動作、營銷活動、同類APP 數(shù)量、實時排名、評論量、評分和評論情感。之后將演化模式與7種影響因素結合,針對其內(nèi)源性聯(lián)系和相互影響進行探究并得到一系列普適結論;之后本文提出預測APP流行度演化的CrowdPop 模型,模型采用隨機森林算法,將演化模式的組成與作用以及探索得到的7種影響因素歸納并量化為8種特征數(shù)據(jù)作為預測因子,并提出量化演化模式的4種不同方法并與其他兩種算法進行對比,實驗證明,CrowdPop模型能夠有效提高預測精度。

        本研究中仍有很多問題值得繼續(xù)探索,例如擴展CrowdPop 預測模型,通過引入更加細粒度的APP使用數(shù)據(jù)作為預測因子來提高預測精度,并針對不同類型、不同市場排名等分類方式細化CrowdPop 模型,訓練APP不同標簽的特征參數(shù),使預測模型針對性更強且又涵蓋全面。

        猜你喜歡
        預測特征算法
        無可預測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預測卷(A卷)
        選修2-2期中考試預測卷(B卷)
        如何表達“特征”
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        進位加法的兩種算法
        抓住特征巧觀察
        不必預測未來,只需把握現(xiàn)在
        日日噜噜夜夜狠狠久久av| 精品人妻中文无码av在线| 亚洲精品中文字幕一二三区| 亚洲综合色婷婷七月丁香| 国产激情з∠视频一区二区| 亚洲日本国产乱码va在线观看| 亚洲一区二区三区免费的视频| 免费国产线观看免费观看| 色五月丁香五月综合五月4438| 亚洲成av人片无码不卡播放器| 日韩色久悠悠婷婷综合| 国产精品久久免费中文字幕| 国产xxxxx在线观看| 国产精品第1页在线观看| 亚洲视频中文字幕更新| 亚洲午夜精品一区二区麻豆av | 国产午夜精品一区二区三区嫩草| 久久久久久久久久久熟女AV| 日本少妇比比中文字幕| 字幕网中文字幕精品一区| 五月色丁香婷婷网蜜臀av| 亚洲国产长腿丝袜av天堂 | 色偷偷亚洲av男人的天堂| 最新日本人妻中文字幕| 五月综合激情婷婷六月色窝| 精品亚洲国产探花在线播放| 中文乱码字幕人妻熟女人妻| 欧美激欧美啪啪片| 亚洲精品久久久久久| 亚洲亚洲网站三级片在线| 日本高清免费播放一区二区| 国产人妖乱国产精品人妖| 亚洲欧洲无码一区二区三区| 国产精品乱子伦一区二区三区| 亚洲乱码中文字幕一线区| 久久精品中文字幕大胸| 国产欧美va欧美va香蕉在线观| 日韩伦理av一区二区三区| 欧洲熟妇色xxxx欧美老妇性| 少妇被粗大的猛进69视频| 亚洲精品一区二区在线播放|