亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)

        2016-05-06 05:23:35汪曉東中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司煙臺(tái)分公司
        大陸橋視野 2016年4期
        關(guān)鍵詞:移動(dòng)互聯(lián)網(wǎng)處理整合

        汪曉東/中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司煙臺(tái)分公司

        移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)

        汪曉東/中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司煙臺(tái)分公司

        【摘 要】通過(guò)大數(shù)據(jù)的研究處理將獲得的有用信息服務(wù)于企業(yè)或機(jī)構(gòu),使其在競(jìng)爭(zhēng)中取得優(yōu)勢(shì),來(lái)為企業(yè)提供更好的處理大數(shù)據(jù)的方法,幫助企業(yè)更深刻的理解客戶對(duì)其的需求和體驗(yàn),以利于業(yè)務(wù)的發(fā)展,用戶也可以更好地體驗(yàn)移動(dòng)互聯(lián)網(wǎng)各種資源。本文首先對(duì)移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)做了概述,然后分析了移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問(wèn)題,最后詳細(xì)闡述了移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)。

        【關(guān)鍵詞】移動(dòng)互聯(lián)網(wǎng);大數(shù)據(jù);處理;排重;整合

        一、移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)概述

        移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)是指用戶使用智能終端在移動(dòng)網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),主要包括:與網(wǎng)絡(luò)信令、協(xié)議、流量等相關(guān)的網(wǎng)絡(luò)信息數(shù)據(jù);與用戶信息相關(guān)的用戶數(shù)據(jù);與業(yè)務(wù)相關(guān)的數(shù)據(jù)。

        大數(shù)據(jù)提供客戶經(jīng)歷的各種體驗(yàn)的完整信息,可以詳盡到在任何時(shí)間、地點(diǎn),結(jié)合移動(dòng)客戶體驗(yàn)方案來(lái)分析相關(guān)數(shù)據(jù),從而幫助運(yùn)營(yíng)商更詳細(xì)掌握客戶體驗(yàn)情況,提前預(yù)知網(wǎng)絡(luò)上可能發(fā)生的問(wèn)題,及時(shí)做出合理響應(yīng),這些信息對(duì)運(yùn)營(yíng)商的服務(wù)提供很大的幫助。大數(shù)據(jù)分析為整個(gè)電信產(chǎn)業(yè)帶來(lái)了前所未有的機(jī)遇與挑戰(zhàn),如何高效地發(fā)揮這些數(shù)據(jù)資源的作用,是擺在為運(yùn)營(yíng)商面前的關(guān)鍵問(wèn)題。

        二、移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問(wèn)題

        (一)多源數(shù)據(jù)采集問(wèn)題

        大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在如下幾個(gè)特點(diǎn):多源異構(gòu)、分布廣泛、動(dòng)態(tài)增長(zhǎng)、先有數(shù)據(jù)后有模式。舉例來(lái)說(shuō),一個(gè)用戶的一條位置信息的價(jià)值是很小的,但是很多這樣的低價(jià)值數(shù)據(jù)可以完整刻畫出用戶的運(yùn)動(dòng)軌跡,獲得本質(zhì)上的價(jià)值提升。然而,在已有的數(shù)據(jù)采集系統(tǒng)中,數(shù)據(jù)收集不全面是一個(gè)普遍的問(wèn)題,如何處理來(lái)自多源的數(shù)據(jù)是移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代面臨的新挑戰(zhàn)。其中,迫切需要解決如下幾個(gè)問(wèn)題:

        1.無(wú)線移動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要在網(wǎng)絡(luò)中高效地采集數(shù)據(jù)。

        2.多源數(shù)據(jù)集成和多類型數(shù)據(jù)集成的技術(shù)。

        3.兼顧用戶的隱私和數(shù)據(jù)的所有權(quán)和使用權(quán)等。

        (二)移動(dòng)互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理問(wèn)題

        據(jù)統(tǒng)計(jì),2003年前人類共創(chuàng)造了5艾字節(jié)(Exabytes)的數(shù)據(jù),而今天兩天的時(shí)間就可以創(chuàng)造如此大量的數(shù)據(jù)。這些數(shù)據(jù)大部分是異構(gòu)數(shù)據(jù),有些具有用戶標(biāo)注、有些沒(méi)有;有些是結(jié)構(gòu)化的(比如數(shù)值、符號(hào))、有些是非結(jié)構(gòu)化話的(比如圖片、聲音);有些時(shí)效性強(qiáng)、有些時(shí)效性弱;有些價(jià)值度高、有些價(jià)值度低。移動(dòng)互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理平臺(tái)包含以下關(guān)鍵研究和技術(shù):海量異構(gòu)大數(shù)據(jù)傳輸控制、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)質(zhì)量管理。

        (三)移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)挖掘問(wèn)題

        傳統(tǒng)意義上的數(shù)據(jù)分析(Analysis)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi),且已經(jīng)形成了一整套行之有效的分析體系。首先,利用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),根據(jù)需要構(gòu)建數(shù)據(jù)立方體進(jìn)行聯(lián)機(jī)分析處理(OLAP,Online Analytical Processing),可以進(jìn)行多個(gè)維度的下鉆(Drill-down)或上卷(Roll-up)操作。對(duì)于從數(shù)據(jù)中提煉更深層次的知識(shí)的需求促使了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類、關(guān)聯(lián)分析等一系列在實(shí)踐中行之有效的方法。這一整套處理流程在處理相對(duì)較少的結(jié)構(gòu)化數(shù)據(jù)時(shí)極為高效。但是,對(duì)于移動(dòng)互聯(lián)網(wǎng)來(lái)說(shuō),涉及更多的是多模態(tài)數(shù)據(jù)挖掘,這些數(shù)據(jù)包括手機(jī)上的傳感器,包括加速度計(jì)、陀螺儀、指南針、GPS、麥克風(fēng)、攝像頭、以及各種無(wú)線信號(hào)(如GSM、WiFi)和藍(lán)牙等。這些原始數(shù)據(jù)在不同維度上刻畫被感知的對(duì)象,需要經(jīng)過(guò)不同層次的加工和提煉才能形成從數(shù)據(jù)到信息再到知識(shí)的飛躍。移動(dòng)互聯(lián)網(wǎng)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長(zhǎng),給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的沖擊和挑戰(zhàn)。

        三、移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)

        (一)數(shù)據(jù)處理的整體框架

        數(shù)據(jù)處理的整個(gè)過(guò)程如圖1所示,主要包括四個(gè)模塊:分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數(shù)據(jù)。

        圖1 數(shù)據(jù)處理的整體框架

        這四個(gè)模塊的主要功能如下。

        分詞:對(duì)抓取到的網(wǎng)頁(yè)內(nèi)容進(jìn)行切詞處理。

        排重:對(duì)眾多的網(wǎng)頁(yè)內(nèi)容進(jìn)行排重。

        整合:對(duì)不同來(lái)源的數(shù)據(jù)內(nèi)容進(jìn)行格式上的整合。

        數(shù)據(jù):包含兩方面的數(shù)據(jù),Spider Data(爬蟲從網(wǎng)頁(yè)中抽取出來(lái)的數(shù)據(jù))和 Dp Data(在整個(gè)數(shù)據(jù)處理過(guò)程中產(chǎn)生的的數(shù)據(jù))。

        (二)數(shù)據(jù)處理的基本流程

        整個(gè)數(shù)據(jù)處理過(guò)程的基本步驟如下:

        1.對(duì)抓取來(lái)的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞。

        2.將分詞處理的結(jié)果寫入數(shù)據(jù)庫(kù)。

        3.對(duì)抓取來(lái)的網(wǎng)頁(yè)內(nèi)容進(jìn)行排重。

        4.將排重處理后的數(shù)據(jù)寫入數(shù)據(jù)庫(kù)。

        5.根據(jù)之前的處理結(jié)果,對(duì)數(shù)據(jù)進(jìn)行整合。

        6.將整合后的結(jié)果寫入數(shù)據(jù)庫(kù)。

        (三)數(shù)據(jù)處理的關(guān)鍵技術(shù)

        1.排重。

        排重就是排除掉與主題相重復(fù)項(xiàng)的過(guò)程,網(wǎng)頁(yè)排重就是通過(guò)兩個(gè)網(wǎng)頁(yè)之間的相似度來(lái)排除重復(fù)項(xiàng)。Simhash算法是一種高效的海量文本排重算法,相比于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash避免了對(duì)文本兩兩進(jìn)行相似度比較的復(fù)雜方式,從而大大提高了效率。

        采用Simhash算法來(lái)進(jìn)行抓取網(wǎng)頁(yè)內(nèi)容的排重,可以容納更大的數(shù)據(jù)量,提供更快的數(shù)據(jù)處理速度,實(shí)現(xiàn)大數(shù)據(jù)的快速處理。

        Simhash算法的基本思想描述如下:輸入為一個(gè)N維向量V,比如文本的特征向量,每個(gè)特征具有一定權(quán)重。輸出是一個(gè)C位的二進(jìn)制簽名S。

        (1)初始化一個(gè)C維向量Q為0,C位的二進(jìn)制簽名S為0。

        (2)對(duì)向量V中的每一個(gè)特征,使用傳統(tǒng)的Hash算法計(jì)算出一個(gè)C位的散列值H。對(duì)1〈=i〈=C,如果H的第i位為1,則Q的第i個(gè)元素加上該特征的權(quán)重;否則,Q的第i個(gè)元素減去該特征的權(quán)重。

        (3)如果Q的第i個(gè)元素大于0,則S的第i位為1;否則為0。

        (4)返回簽名S。

        對(duì)每篇文檔根據(jù)SimHash算出簽名后,再計(jì)算兩個(gè)簽名的海明距離(兩個(gè)二進(jìn)制異或后1的個(gè)數(shù))即可。根據(jù)經(jīng)驗(yàn)值,對(duì)64位的SimHash,海明距離在3以內(nèi)的可以認(rèn)為相似度比較高。

        2.整合。

        整合就是把抓取來(lái)的網(wǎng)頁(yè)內(nèi)容與各個(gè)公司之間建立對(duì)應(yīng)關(guān)系。對(duì)于每一個(gè)公司來(lái)說(shuō),可以用一組關(guān)鍵詞來(lái)對(duì)該公司進(jìn)行描述,同樣的,經(jīng)過(guò)dp處理之后的網(wǎng)頁(yè)內(nèi)容,也可以用一組關(guān)鍵詞來(lái)進(jìn)行描述。因此,整合就變成了兩組關(guān)鍵詞(公司關(guān)鍵詞,內(nèi)容關(guān)鍵詞)之間的匹配。

        對(duì)于網(wǎng)頁(yè)內(nèi)容的分詞結(jié)果來(lái)說(shuō),存在著兩個(gè)特點(diǎn):(1)分詞結(jié)果的數(shù)量很大;(2)大多數(shù)的分詞對(duì)描述該網(wǎng)頁(yè)內(nèi)容來(lái)說(shuō)是沒(méi)有貢獻(xiàn)的。因此,對(duì)網(wǎng)頁(yè)的分詞結(jié)果進(jìn)行一下簡(jiǎn)化,使用詞頻最高的若干個(gè)詞匯來(lái)描述該網(wǎng)頁(yè)內(nèi)容。

        3.流處理系統(tǒng)。

        移動(dòng)互聯(lián)網(wǎng)的多源異構(gòu)數(shù)據(jù)每時(shí)每刻都在大量產(chǎn)生著。數(shù)據(jù)探測(cè)模塊根據(jù)這些數(shù)據(jù)處理的不同要求,將數(shù)據(jù)分別送給實(shí)時(shí)處理系統(tǒng)和批處理系統(tǒng)。很多互聯(lián)網(wǎng)公司將根據(jù)業(yè)務(wù)的需求和處理的時(shí)間將劃分為在線、近線和離線三種方式來(lái)處理業(yè)務(wù)消耗的時(shí)間。這其中,在線處理的處理時(shí)間通常在毫秒級(jí),一般采用流處理方式;離線處理的處理時(shí)間通常以天為單位,一般采用批處理方式。這樣會(huì)最大程度地利用好輸入/輸出系統(tǒng)。近線處理對(duì)其處理模式?jīng)]有特別的要求,處理的時(shí)間一般在分鐘級(jí)或小時(shí)級(jí),在實(shí)際情況中多采用此處理方式,可根據(jù)需求靈活選擇。

        四、結(jié)語(yǔ)

        綜上,隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,客戶處理的業(yè)務(wù)越來(lái)越復(fù)雜,與其相關(guān)的大數(shù)據(jù)正逐漸增長(zhǎng),大數(shù)據(jù)分析技術(shù)已經(jīng)成為各方關(guān)注的焦點(diǎn)。合理使用大數(shù)據(jù)將有效的發(fā)揮移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)的資源作用,使大數(shù)據(jù)為用戶獲得前所未有的體驗(yàn),為企業(yè)發(fā)展提供完整清晰的指引。

        參考文獻(xiàn):

        [1]張錚. 淺析網(wǎng)絡(luò)大數(shù)據(jù)的采集和處理方法[J]. 信息系統(tǒng)工程,2015(10).

        [2]劉智慧,張泉靈. 大數(shù)據(jù)技術(shù)研究綜述[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014(06).

        [3]王秀磊,劉鵬. 大數(shù)據(jù)關(guān)鍵技術(shù)[J]. 中興通訊技術(shù),2013(04).

        猜你喜歡
        移動(dòng)互聯(lián)網(wǎng)處理整合
        智能手機(jī)在大學(xué)生移動(dòng)學(xué)習(xí)中的應(yīng)用研究
        基于Android的一鍵智能報(bào)警系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 
        視頻后期剪輯制作中鏡頭時(shí)長(zhǎng)的處理
        戲劇之家(2016年19期)2016-10-31 18:38:40
        聲樂(lè)演唱中藝術(shù)與情感的深入處理
        戲劇之家(2016年19期)2016-10-31 18:04:18
        東風(fēng)4B型內(nèi)燃機(jī)車C6級(jí)維修后冷卻風(fēng)扇不動(dòng)作原因及解決辦法
        橋梁軟土基礎(chǔ)處理應(yīng)用
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于移動(dòng)互聯(lián)網(wǎng)的心理健康教育初探
        考試周刊(2016年76期)2016-10-09 09:37:54
        記初中英語(yǔ)詞匯教學(xué)的一次歸類、整合改革及反思
        考試周刊(2016年76期)2016-10-09 08:23:04
        音樂(lè)與科學(xué)有效整合的研究
        成才之路(2016年26期)2016-10-08 11:39:33
        在线人成免费视频69国产| 亚洲国产高清在线一区二区三区| 成人欧美一区二区三区白人| 欧美一级欧美一级在线播放| 水蜜桃一二二视频在线观看免费 | 美女被躁到高潮嗷嗷免费观看| 国产精品亚洲av无人区一区香蕉 | 丝袜美腿一区二区国产| 亚洲熟女乱色综合亚洲av| 国产成人vr精品a视频| 粗大挺进尤物人妻一区二区| 亚洲一区二区三区1区2区| 草草影院ccyy国产日本欧美| 丰满少妇a级毛片| 国产美女在线精品免费观看网址| 在线偷窥制服另类| 国产一区二区中文字幕在线观看| 蜜桃av噜噜一区二区三区策驰 | 国产70老熟女重口小伙子| 国产丝袜免费精品一区二区 | 久久久人妻丰满熟妇av蜜臀| 久久亚洲道色综合久久| 国产特级毛片aaaaaaa高清 | 中国丰满熟妇xxxx| 蜜桃在线播放免费一区二区三区| 一区二区三区在线日本视频 | 成人无码α片在线观看不卡| 一级做a爰片久久毛片| 国产无套粉嫩白浆内精| 性色av一二三天美传媒| 成午夜精品一区二区三区| 国产午夜福利在线播放| 日本VA欧美VA精品发布| 亚洲免费人成网站在线观看 | 狠狠噜狠狠狠狠丁香五月| 三级特黄60分钟在线观看| 青青青伊人色综合久久亚洲综合| 97成人精品在线视频| 艳妇臀荡乳欲伦69调教视频| 精品国产午夜福利在线观看| 亚洲欧洲综合有码无码|