亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

        2016-08-09 02:12:08王亮
        大科技 2016年33期
        關(guān)鍵詞:分詞網(wǎng)頁(yè)數(shù)據(jù)挖掘

        王亮

        互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

        王亮

        (貴州江南航天信息網(wǎng)絡(luò)通信有限公司 貴州遵義 563000)

        在互聯(lián)網(wǎng)時(shí)代進(jìn)一步發(fā)展普及的過(guò)程中,大數(shù)據(jù)時(shí)代隨之到來(lái),主要體現(xiàn)為大數(shù)據(jù)計(jì)算。常見(jiàn)的大數(shù)據(jù)計(jì)算主要有兩種形態(tài),即有批量計(jì)算與流式計(jì)算,這些新技術(shù)的發(fā)展為現(xiàn)代化的互聯(lián)網(wǎng)數(shù)據(jù)采集與處理奠定了基礎(chǔ)。本文即探討了互聯(lián)網(wǎng)大數(shù)據(jù)的采集與處理技術(shù)要點(diǎn),以供參考。

        互聯(lián)網(wǎng);大數(shù)據(jù);采集;處理

        1 引言

        當(dāng)前,網(wǎng)絡(luò)大數(shù)據(jù)正迅速走入人們的日常生產(chǎn)生活,以及社會(huì)的各行各業(yè)中,影響著大眾的學(xué)習(xí)、工作與生活,深刻影響并改變了常規(guī)的、傳統(tǒng)的生活方式。為了嗯嗯鞏固將網(wǎng)絡(luò)大數(shù)據(jù)的作用發(fā)揮到極致,必須掌握網(wǎng)絡(luò)大數(shù)據(jù)的采集和處理技術(shù),從而使其服務(wù)于現(xiàn)代化發(fā)展的社會(huì)生產(chǎn)與生活。

        2 互聯(lián)網(wǎng)大數(shù)據(jù)概述

        2.1 互聯(lián)網(wǎng)大數(shù)據(jù)

        在互聯(lián)網(wǎng)新興技術(shù)的逐漸普及過(guò)程中,產(chǎn)生了越來(lái)越多的用戶數(shù)據(jù),以及大體量、多樣化、高速度和低價(jià)值的大數(shù)據(jù)概念(big data),并逐漸滲透入每一個(gè)行業(yè)、業(yè)務(wù)的職能領(lǐng)域中,進(jìn)而能夠?yàn)樯虡I(yè)、金融服務(wù)創(chuàng)新浪潮,奠定相應(yīng)的數(shù)據(jù)基礎(chǔ)?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)大數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)公司、金融機(jī)構(gòu)等,用以獲取用戶消費(fèi)、交易、產(chǎn)品評(píng)價(jià)信息和其他社交信息等的重要途徑,因此,互聯(lián)網(wǎng)網(wǎng)頁(yè)的大數(shù)據(jù)采集與處理技術(shù)的探討,具有重要的意義。

        2.2 大數(shù)據(jù)采集和處理的基本流程

        互聯(lián)網(wǎng)大數(shù)據(jù)的采集,就是在互聯(lián)網(wǎng)中獲取并抽取用戶所需要的屬性內(nèi)容,針對(duì)其內(nèi)容、格式等進(jìn)行轉(zhuǎn)換和加工處理,使之能夠適應(yīng)用戶需求,并存儲(chǔ)起來(lái)以供后用?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)大數(shù)據(jù)采集、處理整體過(guò)程如圖1所示,其中包含了四個(gè)主要模塊:①爬蟲(Spider):從Internet上選擇網(wǎng)頁(yè)內(nèi)容,并從中抽取相應(yīng)的屬性內(nèi)容;②數(shù)據(jù)處理(Dp-data Process):對(duì)爬蟲所采集的內(nèi)容信息進(jìn)行加工處理;③URL隊(duì)列(Url Queue):為爬蟲提供所要求采集數(shù)據(jù)網(wǎng)站的url;④數(shù)據(jù)(Data):a.Site Url,需要抓取數(shù)據(jù)網(wǎng)站的Url信息;b.Spider Data,爬蟲從網(wǎng)頁(yè)中抽取出來(lái)的數(shù)據(jù);c.Dp Data,經(jīng)過(guò)dp處理之后的數(shù)據(jù)。

        圖1 web數(shù)據(jù)采集和處理

        3 網(wǎng)絡(luò)大數(shù)據(jù)的采集技術(shù)分析

        3.1 采集技術(shù)要點(diǎn)

        隨著網(wǎng)絡(luò)技術(shù)的提高,數(shù)據(jù)類型呈現(xiàn)多樣化。從原始的數(shù)據(jù)、圖片形式,到如今的文本、媒體、影像技術(shù)都成為了信息傳播的新形式。為了能夠快速且有效的采集網(wǎng)絡(luò)大數(shù)據(jù),應(yīng)當(dāng)重視以下要點(diǎn):

        (1)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有一致性。不同工作人員所采集的數(shù)據(jù)必須具有一致性,用以防止數(shù)據(jù)的混雜。那么對(duì)于采集大數(shù)據(jù)的程序而言,對(duì)它的性能要求更是不可馬虎。

        (2)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有正確性。數(shù)據(jù)的正確性是一切工作的核心,也是工作能否繼續(xù)的前提更是保障工作正確運(yùn)行的關(guān)鍵。數(shù)據(jù)來(lái)源必須明確,數(shù)據(jù)采集過(guò)程必須準(zhǔn)確無(wú)誤。

        (3)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有完整性。對(duì)于采集數(shù)據(jù)者來(lái)說(shuō)理應(yīng)擁有實(shí)事求是的態(tài)度,不應(yīng)該抱有個(gè)人觀點(diǎn),更不應(yīng)該隨意篡改數(shù)據(jù)或不完整的采集大數(shù)據(jù),但是對(duì)于機(jī)器采集數(shù)據(jù)達(dá)到此要求而言,則要求采集工作高精度運(yùn)行。面對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的多元性,人工錯(cuò)誤很難免除。工作程序的高精度運(yùn)行更是不可忽視的問(wèn)題。

        3.2 互聯(lián)網(wǎng)大數(shù)據(jù)采集關(guān)鍵技術(shù)

        3.2.1 實(shí)時(shí)數(shù)據(jù)挖掘技術(shù)

        互聯(lián)網(wǎng)的大數(shù)據(jù)環(huán)境本身較為復(fù)雜,且針對(duì)不同的使用目的,會(huì)存在不同的實(shí)時(shí)數(shù)據(jù)挖掘技術(shù)。關(guān)注運(yùn)營(yíng)商對(duì)網(wǎng)絡(luò)的維護(hù)和業(yè)務(wù)推廣兩個(gè)重要功能,對(duì)無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析。

        3.2.2 無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)

        網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,主要體現(xiàn)在網(wǎng)元多、多種無(wú)線技術(shù)共存、網(wǎng)絡(luò)故障診斷、干擾用戶體驗(yàn)因素等方面。無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊能夠針對(duì)網(wǎng)絡(luò)中產(chǎn)生的各類日志文件、信令采集系統(tǒng)、計(jì)費(fèi)信息、用戶簽約信息等,進(jìn)行綜合大數(shù)據(jù)分析,并通過(guò)統(tǒng)計(jì)和數(shù)據(jù)挖掘,生成報(bào)表。

        具體可以提供的信息包括:①網(wǎng)絡(luò)分析:分析內(nèi)容有全網(wǎng)的使用流量、會(huì)話與告警、漫游、網(wǎng)絡(luò)使用變化以及網(wǎng)絡(luò)性能的KPI分析等。②網(wǎng)元分析:包括網(wǎng)元對(duì)比分析、網(wǎng)元組對(duì)比分析、網(wǎng)元時(shí)間變化趨勢(shì)分析、全網(wǎng)Cell累計(jì)分布分析和RNC性能負(fù)載分析。③終端分析:終端設(shè)備使用趨勢(shì)分析、終端設(shè)備每天小時(shí)時(shí)段變化趨勢(shì)的分析、終端設(shè)備的性能指標(biāo)分析等。④用戶分析:用戶比較分析、無(wú)線共享路由用戶對(duì)比分析、無(wú)線共享路由用戶的資源使用、無(wú)線共享路由用戶的設(shè)備型號(hào)/操作系統(tǒng)構(gòu)成分析、用戶組的比較分析、全網(wǎng)用戶累積分布分析、單用戶時(shí)間變化趨勢(shì)分析等。⑤應(yīng)用分析:應(yīng)用的業(yè)務(wù)主要包括整體、小時(shí)段中變化趨勢(shì)的分析、指定終端設(shè)備類型上TopN應(yīng)用業(yè)務(wù)分析、應(yīng)用業(yè)務(wù)性能分析、應(yīng)用業(yè)務(wù)系統(tǒng)分組的性能KPI分析、應(yīng)用業(yè)務(wù)組使用趨勢(shì)分析、應(yīng)用業(yè)務(wù)組每天小時(shí)時(shí)段趨勢(shì)變化分析。

        4 處理網(wǎng)絡(luò)大數(shù)據(jù)的處理技術(shù)分析

        4.1 處理技術(shù)要點(diǎn)

        隨著網(wǎng)絡(luò)時(shí)代的到來(lái),電腦、智能手機(jī)等電子設(shè)備在實(shí)際生活中得到應(yīng)用,并成為日常生活的重要組成部分,人們所接受到的信息越來(lái)越豐富,圖像、文本、視頻活躍在生活與交流之中。

        4.1.1 數(shù)據(jù)處理整體框架

        數(shù)據(jù)處理主要包括以下模塊:①分詞:對(duì)在互聯(lián)網(wǎng)中獲取的網(wǎng)頁(yè)內(nèi)容,采取切詞處理;②排重:對(duì)眾多網(wǎng)頁(yè)內(nèi)容實(shí)施排重措施;③整合:針對(duì)不同來(lái)源數(shù)據(jù)的格式進(jìn)行整合;④數(shù)據(jù):有兩方面數(shù)據(jù),即Spider Data(爬蟲從網(wǎng)頁(yè)中抽取出來(lái)的數(shù)據(jù))和Dp Data(在整個(gè)數(shù)據(jù)處理過(guò)程中產(chǎn)生的的數(shù)據(jù))。

        4.1.2 數(shù)據(jù)處理的基本流程

        數(shù)據(jù)的處理過(guò)程如下:①將抓取來(lái)的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞處理;②將分詞處理成果寫入數(shù)據(jù)庫(kù)中;③將所抓取來(lái)的網(wǎng)頁(yè)內(nèi)容排重;④將排重處理的成果寫入數(shù)據(jù)庫(kù)中;⑤依據(jù)前面的處理結(jié)果,對(duì)數(shù)據(jù)進(jìn)行二次整合;⑥將整合成果寫入數(shù)據(jù)庫(kù)中。

        4.2 數(shù)據(jù)處理的關(guān)鍵技術(shù)

        4.2.1 排重

        所謂排重處理,就是將與主題相重復(fù)的項(xiàng)排除掉的過(guò)程,而網(wǎng)頁(yè)排重即是指通過(guò)兩個(gè)網(wǎng)頁(yè)間相似度因素為依據(jù),進(jìn)行重復(fù)項(xiàng)的排除。Simhash算法屬于一種高效海量文本排重算法,相較于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash能夠有效避免進(jìn)行文本兩兩的相似度比較復(fù)雜過(guò)程,從而得以大大提高計(jì)算效率。因此,運(yùn)用Simhash算法實(shí)施網(wǎng)頁(yè)內(nèi)容的排重工作,可容納更大數(shù)據(jù)量,提供更快數(shù)據(jù)處理速度,最終實(shí)現(xiàn)大數(shù)據(jù)的迅速處理。

        4.2.2 整合

        所謂整合,即是指將抓取的網(wǎng)頁(yè)內(nèi)容,與各公司之間構(gòu)建彼此對(duì)應(yīng)的關(guān)系。對(duì)于公司而言,可使用一組關(guān)鍵詞對(duì)自身進(jìn)行描述,同樣,經(jīng)過(guò)dp處理后的網(wǎng)頁(yè)內(nèi)容也可使用一組關(guān)鍵詞進(jìn)行描述。通過(guò)整合,即可形成兩組關(guān)鍵詞的匹配。

        網(wǎng)頁(yè)內(nèi)容分詞結(jié)果有以下問(wèn)題:①分詞結(jié)果數(shù)量較大;②大多數(shù)分詞對(duì)于描述該網(wǎng)頁(yè)的內(nèi)容而言沒(méi)有貢獻(xiàn)。所以,必要的情況下可對(duì)網(wǎng)頁(yè)分詞結(jié)果實(shí)施簡(jiǎn)化,采用詞頻最高的若干詞匯進(jìn)行描述即可。經(jīng)簡(jiǎn)化后,兩組關(guān)鍵詞不僅可以大大提高彼此的匹配效率,還可以保證其采集的準(zhǔn)確度,而在經(jīng)過(guò)整合后,所抓取的網(wǎng)頁(yè)內(nèi)容和公司之間,也會(huì)建立其一個(gè)對(duì)應(yīng)關(guān)系,便于知道某個(gè)具體的公司包含怎樣的數(shù)據(jù)信息。

        5 結(jié)語(yǔ)

        在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,客戶處理業(yè)務(wù)也日益復(fù)雜起來(lái),與其相關(guān)的大數(shù)據(jù)更是呈現(xiàn)逐漸增長(zhǎng)的趨勢(shì),對(duì)于大數(shù)據(jù)的分析處理技術(shù),成為重點(diǎn)關(guān)注內(nèi)容之一。如果能夠合理發(fā)揮大數(shù)據(jù)作用,使其服務(wù)于光蛋用戶,能夠?yàn)槠髽I(yè)的發(fā)展,提供更為完整清晰的指引。

        [1]齊 志.4G網(wǎng)絡(luò)時(shí)代大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)[J].商,2015(48):206.

        [2]吳純青,任沛閣,王小峰.基于語(yǔ)義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索[J].計(jì)算機(jī)學(xué)報(bào),2015,38(1):1~17.

        [3]康書生,曹榮.互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在融資領(lǐng)域的應(yīng)用研究[J].金融理論與實(shí)踐,2014(1):108~110.

        TP274.2

        A

        1004-7344(2016)33-0254-02

        2016-11-8

        猜你喜歡
        分詞網(wǎng)頁(yè)數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        結(jié)巴分詞在詞云中的應(yīng)用
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        值得重視的分詞的特殊用法
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        亚洲精品一区二区网站| 欧美综合自拍亚洲综合图片区 | 日本岛国一区二区三区四区| av高清在线不卡直播| 丁香美女社区| 亚洲精品成人无码中文毛片| 天下第二社区在线视频| 精品人妻系列无码一区二区三区| 成人免费无码a毛片| 亚洲一区不卡在线导航| 亚洲av色香蕉一区二区三区蜜桃 | 午夜国产一区二区三区精品不卡| 亚洲欧洲综合有码无码| 男女午夜视频一区二区三区| 日本免费一区二区在线视频播放| 国模冰莲自慰肥美胞极品人体图 | 亚州AV无码乱码精品国产| 亚洲黄色性生活一级片| 精品人妻免费看一区二区三区| 小黄片免费在线播放观看| 亚洲中文字幕av天堂自拍| 国产一区二区女内射| 亚洲 成人 无码 在线观看| 亚洲中文字幕在线第二页| 99久久婷婷国产一区| 麻豆文化传媒精品一区观看| 免费操逼视频| 麻豆五月婷婷| 蜜桃在线观看视频在线观看| 国产av久久在线观看| 久久精品国产亚洲av果冻传媒| 性生交大全免费看| 1000部精品久久久久久久久| 亚洲女同成av人片在线观看 | 国产美女主播福利一区| 久久综合伊人有码一区中文字幕 | 无码ol丝袜高跟秘书在线观看| 国产在线精品一区二区三区不卡 | 亚洲人成无码区在线观看| 久久精品久久久久观看99水蜜桃| 日本精品一区二区在线看|