韓丹
摘 要:互聯(lián)網(wǎng)是當今社會不可取代的一種工具,她的出現(xiàn)改變了人們原有的生活方式,隨著科技的不斷進步,互聯(lián)網(wǎng)也在進行不斷的轉(zhuǎn)變。移動終端井噴式的爆發(fā),預示著移動互聯(lián)網(wǎng)絡的興盛。隨時隨地獲取通信聯(lián)絡、獲取信息,利用碎片化的時間學習和生活,人們逐漸形成了移動生活行為。而這一切都是因為移動互聯(lián)網(wǎng)。面對龐大的用戶群,作為移動互聯(lián)網(wǎng)是否具備了良好的分析能力呢?本文就將從移動互聯(lián)網(wǎng)的數(shù)據(jù)概念說起,分析海量用戶的數(shù)據(jù)應用。
關(guān)鍵詞:海量用戶;數(shù)據(jù)分析;移動互聯(lián)網(wǎng);智能移動端
智能移動終端的快速發(fā)展,為人們的工作生活帶來了新的時代,互聯(lián)網(wǎng)也由傳統(tǒng)的PC端向移動端進行轉(zhuǎn)變。智能移動端擁有便捷性、即時性、定向性以及精準性的特點,符合當前人們的快速的生活方式,因此擁有了一大批的追隨者,移動互聯(lián)網(wǎng)絡也由此快速發(fā)展。相比PC端互聯(lián)網(wǎng),移動互聯(lián)網(wǎng)絡更能深入到人們生活、休閑、娛樂等各方各面。而支撐移動互聯(lián)網(wǎng)功能性的是海量用戶的數(shù)據(jù)分析,下面就介紹有關(guān)移動互聯(lián)網(wǎng)大數(shù)據(jù)的情況。
1、移動互聯(lián)網(wǎng)的大數(shù)據(jù)時代
在互聯(lián)網(wǎng)的模式下,數(shù)據(jù)分析作為一個強大的工具,成為近些年來“兵家爭先獲取的香餑餑”,更是有“得數(shù)據(jù)者的天下”的說法。在大數(shù)據(jù)的時代中,移動互聯(lián)網(wǎng)擁有著強大的用戶群體,其面對著諸多不同類型的數(shù)據(jù),如何對這些數(shù)據(jù)進行有序的整理和分析,是移動互聯(lián)網(wǎng)絡最有價值的部分。目前,根據(jù)種類對海量用戶數(shù)據(jù)基本得出三大類:
一是用戶數(shù)據(jù):即使用移動互聯(lián)網(wǎng)絡的用戶信息、行為習慣、支付習慣等。具體信息包含個人信息:用戶的姓名、年齡、性別、職業(yè)等;行為習慣:在移動終端上的瀏覽記錄、興趣愛好等;行為軌跡:上網(wǎng)的時間,常用地點等;消費記錄:資金支付明細、支付習慣等。
二是產(chǎn)品數(shù)據(jù):在移動互聯(lián)網(wǎng)絡中出現(xiàn)的產(chǎn)品,擁有自己的數(shù)據(jù)分類,其中包含產(chǎn)品的屬性、名稱、圖片、功能介紹、品牌、來源渠道等信息。
三是運營數(shù)據(jù):使用移動互聯(lián)網(wǎng)的過程中,網(wǎng)管的能力以及網(wǎng)絡的運營數(shù)據(jù)等。
通過了解數(shù)據(jù)的種類可以看出,移動互聯(lián)網(wǎng)的大數(shù)據(jù)可以幫助用戶進行行為習慣的選擇,根據(jù)日常喜好進行產(chǎn)品、娛樂、生活等推薦。其提供了完整的行為軌跡,同時也幫助運營商很好的了解用戶的習慣,以此來推出更加適應消費者的商業(yè)模式。大數(shù)據(jù)時代下的“精準營銷”正是利用這一點,通過大數(shù)據(jù)獲取對象的喜好,行為偏好,對不同對象進行不同營銷。從此可以看出數(shù)據(jù)分析的能力非常重要??梢哉f大數(shù)據(jù)時代下,促進了整個電信產(chǎn)業(yè)的發(fā)展。但如何高效的利用海量用戶數(shù)據(jù),是當前移動互聯(lián)網(wǎng)絡運營商所需要思考的問題。
2 移動互聯(lián)網(wǎng)大數(shù)據(jù)中具備的關(guān)鍵性技術(shù)
移動互聯(lián)網(wǎng)絡面對海量的用戶數(shù)據(jù),是由一整套的技術(shù)串聯(lián)在一起的。他們之間相互合作,確保數(shù)據(jù)分析結(jié)果準確無誤。其具備了諸多的關(guān)鍵性技術(shù),像是異構(gòu)數(shù)據(jù)管理、挖掘?qū)崟r數(shù)據(jù)、分析高效數(shù)據(jù)等。大數(shù)據(jù)時代,說的簡單一點就是有效的管理、分析和利用收集到的用戶數(shù)據(jù)。通過數(shù)據(jù)探測收集用戶在使用移動互聯(lián)網(wǎng)過程中的數(shù)據(jù)信息,然后分析數(shù)據(jù)的類別做出實時處理和批量處理的判斷,再根據(jù)所需進行數(shù)據(jù)的有效利用。這就是數(shù)據(jù)分析的大致流程。其中在進行數(shù)據(jù)處理判斷時,涉及處理時間的問題,一般根據(jù)需求和處理的時間劃分為三種處理方式,分別是在線式、近線式以及離線式。本文中討論在線處理時間的方式——流處理方式。
一般流處理方式的處理數(shù)據(jù)時間在毫秒之間,速度非???,這就體現(xiàn)了移動互聯(lián)網(wǎng)的真諦——實時計算?;ヂ?lián)網(wǎng)上海量數(shù)據(jù)(一般為日志流)的實時計算過程被劃分為三個階段:分別是數(shù)據(jù)的產(chǎn)生與收集階段、傳輸與分析處理階段、存儲對對外提供服務階段。三個階段都講求實時性。流處理系統(tǒng)就是實時計算最好的體現(xiàn)形式。目前,國內(nèi)常見的流處理系統(tǒng)是采用Flume、Kafka以及Storm系統(tǒng)框架,三者都可以提供對數(shù)據(jù)進行實時分析處理的功能。在對數(shù)據(jù)進行處理后,將會提供數(shù)據(jù)服務,這一步驟是向數(shù)據(jù)訪問層提供的,在處理后將統(tǒng)一存入DBMS數(shù)據(jù)庫系統(tǒng)。以淘寶的實例進行分析,Storm被淘寶用來進行實時日志處理,出現(xiàn)在實時統(tǒng)計、實時風控、實時推薦等場景中。每天淘寶的實時消息量從幾百萬到幾十億不等,數(shù)據(jù)總量達到TB級(TB級數(shù)據(jù)庫是指存儲數(shù)據(jù)量為1TB以上的數(shù)據(jù)庫,相當于萬億字節(jié)),所以對于淘寶來講,Storm往往會配合分布式存儲服務一起使用,以此來確保數(shù)據(jù)的分析,一般來講構(gòu)建合理的架構(gòu)后,可以確保從用戶行為發(fā)生到完成分析延遲在秒級。
3 移動互聯(lián)網(wǎng)海量用戶的數(shù)據(jù)分析及要點
每天從智能移動終端上會海量的數(shù)據(jù),其具有廣泛分布、多元異構(gòu)、動態(tài)持續(xù)增長的特點。面對這一情況,移動互聯(lián)網(wǎng)一定要擁有強大的數(shù)據(jù)采集、處理和分析能力。但現(xiàn)實的情況并沒有理想中的樂觀,常常會出現(xiàn)數(shù)據(jù)收集有誤或不全的情況。為了解決這一問題,結(jié)合移動互聯(lián)網(wǎng)的特點,得出以下五個改進方面:
3.1 異構(gòu)數(shù)據(jù)管理
異構(gòu)數(shù)據(jù)是當前互聯(lián)網(wǎng)大數(shù)據(jù)時代中最基本的數(shù)據(jù)類型,擁有不同的結(jié)構(gòu)和來源的數(shù)據(jù)。在大數(shù)據(jù)時代中具體的表現(xiàn)形式就是,數(shù)據(jù)沒有完全標示用戶、數(shù)值、符號、聲音等信息,沒有辦法對該數(shù)據(jù)進行有效的分析和管理。面對具有時效性的信息,也沒有辦法及時做出反饋,針對這樣的情況,在移動互聯(lián)網(wǎng)中建立了異構(gòu)數(shù)據(jù)管理系統(tǒng),針對大量的異構(gòu)數(shù)據(jù)進行類別劃分,方便記錄、儲存和分析。異構(gòu)數(shù)據(jù)管理的目標是為了實現(xiàn)不同結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)信息資源、硬件設(shè)備資源的合并和共享。
3.2 資源的分享和數(shù)據(jù)分析
對大數(shù)據(jù)進行有效的資源管理是確保移動互聯(lián)網(wǎng)絡正常運行的關(guān)鍵。移動互聯(lián)網(wǎng)每分每秒都在接收來自海量智能移動終端的數(shù)據(jù),而當前智能移動終端的種類繁雜,類型也多變,在對數(shù)據(jù)的處理、感知、控制上也都存在較大的差異,所以當前的移動互聯(lián)網(wǎng)是一個高度混雜的狀態(tài)。這一情況的出現(xiàn)對于移動互聯(lián)網(wǎng)來講,是收集用戶信息中的難題。如何高效的進行用戶信息資源的管理和分析是當前移動互聯(lián)網(wǎng)最需要著重考慮的地方。
3.3 數(shù)據(jù)實時共享和挖取
實時計算最重要的一個需求是能夠?qū)崟r響應計算結(jié)果,一般要求為秒級。在移動互聯(lián)網(wǎng)大數(shù)據(jù)處理中一般會出現(xiàn)兩種實時情景:第一是數(shù)據(jù)源是實時的不間斷的,要求對用戶的響應時間是實時的。主要的體現(xiàn)是互聯(lián)網(wǎng)流式數(shù)據(jù)處理。第二是數(shù)據(jù)量大且無法或沒必要預算,要求對用戶的響應時間是實時的。當數(shù)據(jù)量很大,同時發(fā)現(xiàn)無法窮舉所有可能條件的查詢組合或者大量窮舉出來的條件組合無用的時候,實時計算就可以發(fā)揮作用,將計算過程推遲到查詢階段進行,但需要為用戶提供實時響應。實時共享和實時計算兩者有著密不可分的聯(lián)系,其也正是移動互聯(lián)網(wǎng)的最大特點。
在進行實時的計算和共享之前,需要對數(shù)據(jù)進行深度的挖掘,數(shù)據(jù)挖掘是用人工智能、機器學習、統(tǒng)計學和數(shù)據(jù)庫的交叉方法在相對較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式的計算過程,屬于非傳統(tǒng)的數(shù)據(jù)處理。一般挖掘的過程是在隱藏的數(shù)據(jù)信息中,在原始數(shù)據(jù)中含有很多具有趨向性、相關(guān)性的信息,數(shù)據(jù)挖掘就是找出這些信息,進行數(shù)據(jù)的分析和判斷。而這也正是日后移動互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展方向。
3.4 建立大數(shù)據(jù)平臺
大數(shù)據(jù)平臺的建立是為了迎合海量的數(shù)據(jù)需求,所謂大數(shù)據(jù)平臺,既要收集億級的海量數(shù)據(jù),然后還要篩選出來數(shù)據(jù)屬性和范疇,數(shù)據(jù)分析邏輯需要像人一樣的思考,又要超越人的思維能力。建立大數(shù)據(jù)平臺是建立一個生態(tài)的過程,力求在整個生態(tài)環(huán)境中各個環(huán)節(jié)都可以平衡。大數(shù)據(jù)平臺需要具備兩個特點分別是穩(wěn)定性 Stability 和可擴展性 Scalability。
穩(wěn)定性:這是一個系統(tǒng)平臺的基礎(chǔ),穩(wěn)定性包含的內(nèi)容有很多,像是運營商信息數(shù)據(jù)分布穩(wěn)定、接口的穩(wěn)定、收集用戶信息的穩(wěn)定等等。這些同時穩(wěn)定的運行才會確保平臺的平穩(wěn)。收集數(shù)據(jù)、分析數(shù)據(jù)、管理數(shù)據(jù)、整合數(shù)據(jù)等步驟才能有序進行。穩(wěn)定性是高效運作的前提,同時也保證了數(shù)據(jù)完整性和準確性。
可拓展性:平臺系統(tǒng)并不是一次性就可以完善的,這是一個不斷進步的過程,對于數(shù)據(jù)平臺來講,每天接收的數(shù)據(jù)不可計數(shù),數(shù)據(jù)平臺則需要根據(jù)實際的情況進行有利的改變。所以大數(shù)據(jù)平臺是具有可拓展性的,要用長遠的眼光去看待,才將有利于該平臺的發(fā)展。
3.5 確保安全管理
數(shù)據(jù)安全是大數(shù)據(jù)時代最需要警戒的問題,互聯(lián)網(wǎng)之所以成就了時代,是因為便捷、快速傳播以及低門檻,每個人都可以使用互聯(lián)網(wǎng)絡,通過移動終端產(chǎn)生使用數(shù)據(jù),而后個人信息就會通過網(wǎng)絡傳輸?shù)綄臄?shù)據(jù)管理系統(tǒng)中。數(shù)據(jù)被盜的事故鮮有發(fā)生,越來越多的黑客了利用大數(shù)據(jù)時代盜取相關(guān)的信息,從中謀取利益。這樣的行為令人發(fā)指,同時也應該讓人有所警惕。數(shù)據(jù)安全管理是確保大數(shù)據(jù)時代順利發(fā)展的保障。面對海量的用戶信息,如何確保信息的完整和私密性,是接下來大數(shù)據(jù)時代需要著重考慮的問題,也是政府相關(guān)部門需要了解和深入的問題。
4 結(jié)束語
綜上所述,移動終端井噴式的爆發(fā),預示著移動互聯(lián)網(wǎng)絡的興盛。移動互聯(lián)網(wǎng)絡深入到人們生活、休閑、娛樂等各方各面,隨之而來的是海量用戶的信息數(shù)據(jù)處理問題。在互聯(lián)網(wǎng)的模式下,有“得數(shù)據(jù)者得天下”的說法,數(shù)據(jù)對于互聯(lián)網(wǎng)來講有十分重要的作用,移動互聯(lián)網(wǎng)的大數(shù)據(jù)可以幫助用戶進行行為習慣的選擇,根據(jù)日常喜好進行產(chǎn)品、娛樂、生活等推薦。其提供了完整的行為軌跡,同時也幫助運營商很好的了解用戶的習慣。大數(shù)據(jù)時代下的“精準營銷”正是利用的這一點。而在進行移動互聯(lián)網(wǎng)海量用戶數(shù)據(jù)的分析與研究時,涉及到的核心技術(shù)包括異構(gòu)數(shù)據(jù)管理、挖掘?qū)崟r數(shù)據(jù)、分析高效數(shù)據(jù)等。
面對廣泛分布、多元異構(gòu)、動態(tài)持續(xù)增長的海量數(shù)據(jù),目前移動互聯(lián)網(wǎng)還存在不足,可在異構(gòu)數(shù)據(jù)管理、資源的分享和數(shù)據(jù)分析、數(shù)據(jù)實時共享和挖取、建立大數(shù)據(jù)平臺、確保安全管理方面加強改善。相信未來,在科技不斷的進步之下,我國移動互聯(lián)網(wǎng)也將克服困難迎來璀璨的明天。
參考文獻
[1]羅海艷. 移動用戶網(wǎng)絡行為分析與預測方法研究[D].沈陽農(nóng)業(yè)大學,2015.
[2]王沖生. 移動互聯(lián)網(wǎng)用戶數(shù)據(jù)的分析與研究[D].北京郵電大學,2013.
[3]余波. 移動互聯(lián)網(wǎng)中海量用戶數(shù)據(jù)分析與研究[J]. 技術(shù)與市場,2016,08:192+195.
[4]陶彩霞,謝曉軍,陳康,郭利榮,劉春. 基于云計算的移動互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計[J]. 電信科學,2013,03:27-31.