亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)應用的數(shù)據(jù)采集處理一體化方案

        2019-05-08 03:01:26李映范瀅
        科學與技術 2019年19期
        關鍵詞:移動互聯(lián)網(wǎng)大數(shù)據(jù)

        李映 范瀅

        摘要:各類移動應用需采集與處理用戶在使用期間的行為與業(yè)務等數(shù)據(jù),以提供定制化的優(yōu)質服務。本文詳細分析了業(yè)界已有方案的特點與不足,基于江蘇移動掌上營業(yè)廳實際應用情況,提出了一種針對移動互聯(lián)網(wǎng)應用的數(shù)據(jù)采集與處理一體化方案,并對此方案的各個模塊進行了詳細分析與闡述。

        關鍵詞:移動互聯(lián)網(wǎng);數(shù)據(jù)采集與處理;大數(shù)據(jù)

        一、引言

        移動互聯(lián)網(wǎng)的快速發(fā)展極大地方便了人們的生活,也給企業(yè)帶來新的挑戰(zhàn)和機遇。如何全面且準確地把握用戶在移動應用上的行為與業(yè)務特征,向用戶提供優(yōu)質的個性化服務成為各移動應用亟待解決的問題。

        江蘇移動擁有掌上營業(yè)廳客戶端這樣作為國內運營商月活用戶數(shù)首個破三千萬的熱門互聯(lián)網(wǎng)應用,針對以上數(shù)據(jù)采集與處理的問題進行了深入研究并實現(xiàn)了一體化方案,在實際運營中加以應用,取得了優(yōu)異的效果。

        二、業(yè)界現(xiàn)狀

        在應用上用戶行為與業(yè)務的數(shù)據(jù)采集處理方面,目前業(yè)內主要有以下兩類方案:

        1.傳統(tǒng)方案

        對用戶在客戶端與在服務器端產(chǎn)生的Server Logs、Error Logs、Cookie Logs等類型的日志文件進行采集,然后通過Oracle、SPSS、SAS等傳統(tǒng)數(shù)據(jù)挖掘工具對采集到的數(shù)據(jù)進行分析處理等工作。

        此類方案存在以下問題:

        (1)僅采集客戶端和服務器端的傳統(tǒng)日志,對用戶行為軌跡和業(yè)務軌跡均記載不夠完整。

        (2)數(shù)據(jù)挖掘工具不具備海量大數(shù)據(jù)的處理能力,且只能在單臺服務器上部署和工作,數(shù)據(jù)處理能力弱。

        2.網(wǎng)站分析方案

        以Webtrends為代表的業(yè)界網(wǎng)站和應用商業(yè)分析解決方案是目前網(wǎng)站分析采取的主流方案。

        此類方案的特點有:

        (1)對頁面進行埋點插碼以采集用戶的行為數(shù)據(jù)。

        (2)通過離線分析報告的形式對數(shù)據(jù)分析結果進行展示。

        也存在以下不足:

        (1)因不涉及各應用的后臺系統(tǒng),只能采集用戶的瀏覽、點擊等行為數(shù)據(jù),對用戶業(yè)務辦理等數(shù)據(jù)無法進行采集與整合。

        (2)離線分析報告一般在次日給出,無法滿足互聯(lián)網(wǎng)應用的實時精確營銷等場景。

        綜上所述,傳統(tǒng)方案與網(wǎng)站分析方案均不能滿足移動互聯(lián)網(wǎng)應用對用戶行為與業(yè)務數(shù)據(jù)進行采集與分析的需求。

        三、新的系統(tǒng)方案ECBData

        結合業(yè)界數(shù)據(jù)采集與處理方案的各種不足,針對以江蘇移動掌上營業(yè)廳APP為代表的互聯(lián)網(wǎng)應用對用戶行為與業(yè)務數(shù)據(jù)采集、處理、應用的采集完整性、處理實時性、展現(xiàn)多樣性等要求,本文設計了完整的一體化方案ECBData,方案架構如下:

        從數(shù)據(jù)的流向出發(fā),可分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)應用三個主要模塊:

        (一)數(shù)據(jù)采集

        創(chuàng)建遠程控制插碼方案,能夠對Android、IOS原生應用和H5網(wǎng)頁迅速進行埋點插碼,對用戶在互聯(lián)網(wǎng)上行為信息和業(yè)務數(shù)據(jù)進行實時采集并向服務器傳輸。

        日志采集是指通過在客戶端和服務器端插入部分腳本或代碼,從而捕捉完整的用戶行為和業(yè)務過程發(fā)生的各種信息,并進行采集記錄和上傳到特定服務器,并生成相應的用戶行為日志和業(yè)務日志的過程。

        針對不同的數(shù)據(jù)源采取不同的技術手段進行采集:

        ●Web網(wǎng)頁用戶行為:通過自研的網(wǎng)頁插碼技術,對用戶在網(wǎng)頁上操作的行為等信息進行完整采集。

        ●手機App用戶行為:在App中嵌入定制化SDK,把用戶在APP中的操作熱點事件都記錄在緩存中,在WiFi環(huán)境下,采集到的信息被整合為JSON格式發(fā)送至服務端。

        ●業(yè)務日志數(shù)據(jù):對用戶在客戶端與在服務器端產(chǎn)生的業(yè)務日志進行特定規(guī)范以進行采集。

        (二)數(shù)據(jù)處理

        ?此部分主要進行數(shù)據(jù)預處理、數(shù)據(jù)中間存儲、數(shù)據(jù)分析等操作。

        1.數(shù)據(jù)預處理:此過程是對采集到的原始數(shù)據(jù)進行清洗,去除無效的信息,篩選出有效內容,并對這些內容做基本的格式轉換和整理。此過程是通過在Flume-NG的source中編程實現(xiàn)。

        2. 數(shù)據(jù)中間存儲:原始數(shù)據(jù)經(jīng)過預處理后已經(jīng)變得有序化,在進一步分析之前需根據(jù)數(shù)據(jù)的實時性要求對數(shù)據(jù)進行不同方式的存儲,采用兩個存儲方案:

        (1)非實時存儲:采用HDFS文件系統(tǒng)對非實時數(shù)據(jù)進行存儲,由于HDFS本身保存多個副本的容錯機制,從節(jié)省空間的角度,服務器不做磁盤RAID。通過Flume-NG預處理過的非實時數(shù)據(jù)信息將會被直接存儲在HDFS文件系統(tǒng)中。

        (2)實時存儲:采用分布式消息隊列對實時數(shù)據(jù)進行存儲,由于數(shù)據(jù)的實時性要求高、數(shù)據(jù)量大、因此采用Kafka+Zookeeper構成的消息隊列集群將數(shù)據(jù)緩存在內存中。

        3.數(shù)據(jù)分析

        本階段通過在大數(shù)據(jù)分析工具中自定義分析算法,建立應用場景模型,從存儲的復雜海量數(shù)據(jù)中獲取關鍵數(shù)據(jù),供前端不同應用場景使用。

        (1)非實時分析:從HDFS文件系統(tǒng)中將數(shù)據(jù)進行進一步的規(guī)約,將其結構化到Hive中,然后通過SparkSQL從Hive中讀取數(shù)據(jù)進行分析,將分析結果存儲到關系型數(shù)據(jù)庫中供后續(xù)展現(xiàn)或者使用。

        (2)實時分析:從Kafka中獲得數(shù)據(jù),通過Spark Streaming對數(shù)據(jù)進行流式處理,分析結果數(shù)據(jù)將采用Redis、Coherence等緩存行存儲或者直接通過數(shù)據(jù)流傳輸給前端應用。

        (三)數(shù)據(jù)應用

        本階段將數(shù)據(jù)的分析處理結果通過報表、分析報告、實時營銷推薦等形式在以下各種場景進行應用,全面提升運營效率。

        1.非實時類場景:運營分析、安全稽核

        2.實時類場景:實時安全防護、實時營銷推送、大屏數(shù)據(jù)看板

        四、總結

        本文通過對應用在江蘇移動掌上營業(yè)廳客戶端的營銷運營系統(tǒng)中數(shù)據(jù)采集、存儲和分析與應用等模塊的詳細分析,闡述了一種基于大數(shù)據(jù)的移動應用用戶行為和業(yè)務數(shù)據(jù)的采集處理系統(tǒng)方案。本方案在應用中取得了很好的效果。

        參考文獻

        [1]劉暢.大數(shù)據(jù)分析技術在采集運維業(yè)務中的應用[J]科技資訊,2017(30).

        [2]邊紅軍.數(shù)據(jù)挖掘技術在信用卡業(yè)務中的分析研究[J]無線互聯(lián)科技,2015(1).

        [3]劉光榕.數(shù)據(jù)倉庫及OLAP技術在電信業(yè)務分析中的應用探討[J]電腦編程技巧與維護,2011(4).

        [4]季文天,郭清菊,馬杰.基于模型驅動的框架技術在數(shù)據(jù)采集平臺中的分析與應用[J]軟件,2014(35).

        [5]溫向慧.大數(shù)據(jù)處理平臺Spark研究[J]數(shù)碼世界,2017(2).

        [6]王珣.基于Spark平臺的大數(shù)據(jù)挖掘技術研究[J]微型電腦應用,2017(6).

        猜你喜歡
        移動互聯(lián)網(wǎng)大數(shù)據(jù)
        微美學
        人間(2016年28期)2016-11-10 23:41:49
        智能手機在大學生移動學習中的應用研究
        軟件導刊(2016年9期)2016-11-07 22:29:13
        基于Android的一鍵智能報警系統(tǒng)設計與實現(xiàn) 
        軟件導刊(2016年9期)2016-11-07 18:38:25
        O2O電子商務模式發(fā)展問題及對策研究
        時代金融(2016年23期)2016-10-31 14:09:08
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于移動互聯(lián)網(wǎng)的心理健康教育初探
        考試周刊(2016年76期)2016-10-09 09:37:54
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        免费va国产高清不卡大片 | 在线日本高清日本免费| 日韩精品成人一区二区三区| 日本二一三区免费在线| 综合色区亚洲熟妇另类| 中文在线а√天堂官网| av在线免费观看你懂的| 精品一区二区av在线| 成人亚洲精品777777| 免费无码av片在线观看网址| 亚洲天堂无码AV一二三四区| 日韩精品极品系列在线免费视频 | 99精品视频69v精品视频| 国产婷婷一区二区三区| 日韩成人精品日本亚洲| 久久少妇高潮免费观看| 日韩夜夜高潮夜夜爽无码| 国产高潮国产高潮久久久| 国产亚洲精品不卡在线| 亚洲一区二区三区在线最新| 欧美最猛黑人xxxx黑人猛交| 四虎成人精品无码永久在线| 国产精品一区二区av白丝在线| 亚洲97成人在线视频| 国产真实乱对白精彩久久老熟妇女 | 日本免费三片在线播放| 久久精品免费一区二区喷潮| 野花社区视频www官网| 国产精品久久久亚洲第一牛牛 | 国产精品亚洲第一区二区三区| 久久综合九色综合欧美狠狠| 日韩丝袜亚洲国产欧美一区| 97女厕偷拍一区二区三区| 无套中出丰满人妻无码| 国产黑色丝袜在线观看下| 亚洲二区三区四区太九| 精品人妻一区二区三区久久| 婷婷色中文字幕综合在线| 国产精品久久久久久久y| 中文字幕久久久人妻人区| 蜜桃视频无码区在线观看 |