王亮
互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)
王亮
(貴州江南航天信息網(wǎng)絡(luò)通信有限公司 貴州遵義 563000)
在互聯(lián)網(wǎng)時(shí)代進(jìn)一步發(fā)展普及的過(guò)程中,大數(shù)據(jù)時(shí)代隨之到來(lái),主要體現(xiàn)為大數(shù)據(jù)計(jì)算。常見(jiàn)的大數(shù)據(jù)計(jì)算主要有兩種形態(tài),即有批量計(jì)算與流式計(jì)算,這些新技術(shù)的發(fā)展為現(xiàn)代化的互聯(lián)網(wǎng)數(shù)據(jù)采集與處理奠定了基礎(chǔ)。本文即探討了互聯(lián)網(wǎng)大數(shù)據(jù)的采集與處理技術(shù)要點(diǎn),以供參考。
互聯(lián)網(wǎng);大數(shù)據(jù);采集;處理
當(dāng)前,網(wǎng)絡(luò)大數(shù)據(jù)正迅速走入人們的日常生產(chǎn)生活,以及社會(huì)的各行各業(yè)中,影響著大眾的學(xué)習(xí)、工作與生活,深刻影響并改變了常規(guī)的、傳統(tǒng)的生活方式。為了嗯嗯鞏固將網(wǎng)絡(luò)大數(shù)據(jù)的作用發(fā)揮到極致,必須掌握網(wǎng)絡(luò)大數(shù)據(jù)的采集和處理技術(shù),從而使其服務(wù)于現(xiàn)代化發(fā)展的社會(huì)生產(chǎn)與生活。
2.1 互聯(lián)網(wǎng)大數(shù)據(jù)
在互聯(lián)網(wǎng)新興技術(shù)的逐漸普及過(guò)程中,產(chǎn)生了越來(lái)越多的用戶數(shù)據(jù),以及大體量、多樣化、高速度和低價(jià)值的大數(shù)據(jù)概念(big data),并逐漸滲透入每一個(gè)行業(yè)、業(yè)務(wù)的職能領(lǐng)域中,進(jìn)而能夠?yàn)樯虡I(yè)、金融服務(wù)創(chuàng)新浪潮,奠定相應(yīng)的數(shù)據(jù)基礎(chǔ)?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)大數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)公司、金融機(jī)構(gòu)等,用以獲取用戶消費(fèi)、交易、產(chǎn)品評(píng)價(jià)信息和其他社交信息等的重要途徑,因此,互聯(lián)網(wǎng)網(wǎng)頁(yè)的大數(shù)據(jù)采集與處理技術(shù)的探討,具有重要的意義。
2.2 大數(shù)據(jù)采集和處理的基本流程
互聯(lián)網(wǎng)大數(shù)據(jù)的采集,就是在互聯(lián)網(wǎng)中獲取并抽取用戶所需要的屬性內(nèi)容,針對(duì)其內(nèi)容、格式等進(jìn)行轉(zhuǎn)換和加工處理,使之能夠適應(yīng)用戶需求,并存儲(chǔ)起來(lái)以供后用?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)大數(shù)據(jù)采集、處理整體過(guò)程如圖1所示,其中包含了四個(gè)主要模塊:①爬蟲(Spider):從Internet上選擇網(wǎng)頁(yè)內(nèi)容,并從中抽取相應(yīng)的屬性內(nèi)容;②數(shù)據(jù)處理(Dp-data Process):對(duì)爬蟲所采集的內(nèi)容信息進(jìn)行加工處理;③URL隊(duì)列(Url Queue):為爬蟲提供所要求采集數(shù)據(jù)網(wǎng)站的url;④數(shù)據(jù)(Data):a.Site Url,需要抓取數(shù)據(jù)網(wǎng)站的Url信息;b.Spider Data,爬蟲從網(wǎng)頁(yè)中抽取出來(lái)的數(shù)據(jù);c.Dp Data,經(jīng)過(guò)dp處理之后的數(shù)據(jù)。
圖1 web數(shù)據(jù)采集和處理
3.1 采集技術(shù)要點(diǎn)
隨著網(wǎng)絡(luò)技術(shù)的提高,數(shù)據(jù)類型呈現(xiàn)多樣化。從原始的數(shù)據(jù)、圖片形式,到如今的文本、媒體、影像技術(shù)都成為了信息傳播的新形式。為了能夠快速且有效的采集網(wǎng)絡(luò)大數(shù)據(jù),應(yīng)當(dāng)重視以下要點(diǎn):
(1)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有一致性。不同工作人員所采集的數(shù)據(jù)必須具有一致性,用以防止數(shù)據(jù)的混雜。那么對(duì)于采集大數(shù)據(jù)的程序而言,對(duì)它的性能要求更是不可馬虎。
(2)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有正確性。數(shù)據(jù)的正確性是一切工作的核心,也是工作能否繼續(xù)的前提更是保障工作正確運(yùn)行的關(guān)鍵。數(shù)據(jù)來(lái)源必須明確,數(shù)據(jù)采集過(guò)程必須準(zhǔn)確無(wú)誤。
(3)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有完整性。對(duì)于采集數(shù)據(jù)者來(lái)說(shuō)理應(yīng)擁有實(shí)事求是的態(tài)度,不應(yīng)該抱有個(gè)人觀點(diǎn),更不應(yīng)該隨意篡改數(shù)據(jù)或不完整的采集大數(shù)據(jù),但是對(duì)于機(jī)器采集數(shù)據(jù)達(dá)到此要求而言,則要求采集工作高精度運(yùn)行。面對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的多元性,人工錯(cuò)誤很難免除。工作程序的高精度運(yùn)行更是不可忽視的問(wèn)題。
3.2 互聯(lián)網(wǎng)大數(shù)據(jù)采集關(guān)鍵技術(shù)
3.2.1 實(shí)時(shí)數(shù)據(jù)挖掘技術(shù)
互聯(lián)網(wǎng)的大數(shù)據(jù)環(huán)境本身較為復(fù)雜,且針對(duì)不同的使用目的,會(huì)存在不同的實(shí)時(shí)數(shù)據(jù)挖掘技術(shù)。關(guān)注運(yùn)營(yíng)商對(duì)網(wǎng)絡(luò)的維護(hù)和業(yè)務(wù)推廣兩個(gè)重要功能,對(duì)無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析。
3.2.2 無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)
網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,主要體現(xiàn)在網(wǎng)元多、多種無(wú)線技術(shù)共存、網(wǎng)絡(luò)故障診斷、干擾用戶體驗(yàn)因素等方面。無(wú)線網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊能夠針對(duì)網(wǎng)絡(luò)中產(chǎn)生的各類日志文件、信令采集系統(tǒng)、計(jì)費(fèi)信息、用戶簽約信息等,進(jìn)行綜合大數(shù)據(jù)分析,并通過(guò)統(tǒng)計(jì)和數(shù)據(jù)挖掘,生成報(bào)表。
具體可以提供的信息包括:①網(wǎng)絡(luò)分析:分析內(nèi)容有全網(wǎng)的使用流量、會(huì)話與告警、漫游、網(wǎng)絡(luò)使用變化以及網(wǎng)絡(luò)性能的KPI分析等。②網(wǎng)元分析:包括網(wǎng)元對(duì)比分析、網(wǎng)元組對(duì)比分析、網(wǎng)元時(shí)間變化趨勢(shì)分析、全網(wǎng)Cell累計(jì)分布分析和RNC性能負(fù)載分析。③終端分析:終端設(shè)備使用趨勢(shì)分析、終端設(shè)備每天小時(shí)時(shí)段變化趨勢(shì)的分析、終端設(shè)備的性能指標(biāo)分析等。④用戶分析:用戶比較分析、無(wú)線共享路由用戶對(duì)比分析、無(wú)線共享路由用戶的資源使用、無(wú)線共享路由用戶的設(shè)備型號(hào)/操作系統(tǒng)構(gòu)成分析、用戶組的比較分析、全網(wǎng)用戶累積分布分析、單用戶時(shí)間變化趨勢(shì)分析等。⑤應(yīng)用分析:應(yīng)用的業(yè)務(wù)主要包括整體、小時(shí)段中變化趨勢(shì)的分析、指定終端設(shè)備類型上TopN應(yīng)用業(yè)務(wù)分析、應(yīng)用業(yè)務(wù)性能分析、應(yīng)用業(yè)務(wù)系統(tǒng)分組的性能KPI分析、應(yīng)用業(yè)務(wù)組使用趨勢(shì)分析、應(yīng)用業(yè)務(wù)組每天小時(shí)時(shí)段趨勢(shì)變化分析。
4.1 處理技術(shù)要點(diǎn)
隨著網(wǎng)絡(luò)時(shí)代的到來(lái),電腦、智能手機(jī)等電子設(shè)備在實(shí)際生活中得到應(yīng)用,并成為日常生活的重要組成部分,人們所接受到的信息越來(lái)越豐富,圖像、文本、視頻活躍在生活與交流之中。
4.1.1 數(shù)據(jù)處理整體框架
數(shù)據(jù)處理主要包括以下模塊:①分詞:對(duì)在互聯(lián)網(wǎng)中獲取的網(wǎng)頁(yè)內(nèi)容,采取切詞處理;②排重:對(duì)眾多網(wǎng)頁(yè)內(nèi)容實(shí)施排重措施;③整合:針對(duì)不同來(lái)源數(shù)據(jù)的格式進(jìn)行整合;④數(shù)據(jù):有兩方面數(shù)據(jù),即Spider Data(爬蟲從網(wǎng)頁(yè)中抽取出來(lái)的數(shù)據(jù))和Dp Data(在整個(gè)數(shù)據(jù)處理過(guò)程中產(chǎn)生的的數(shù)據(jù))。
4.1.2 數(shù)據(jù)處理的基本流程
數(shù)據(jù)的處理過(guò)程如下:①將抓取來(lái)的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞處理;②將分詞處理成果寫入數(shù)據(jù)庫(kù)中;③將所抓取來(lái)的網(wǎng)頁(yè)內(nèi)容排重;④將排重處理的成果寫入數(shù)據(jù)庫(kù)中;⑤依據(jù)前面的處理結(jié)果,對(duì)數(shù)據(jù)進(jìn)行二次整合;⑥將整合成果寫入數(shù)據(jù)庫(kù)中。
4.2 數(shù)據(jù)處理的關(guān)鍵技術(shù)
4.2.1 排重
所謂排重處理,就是將與主題相重復(fù)的項(xiàng)排除掉的過(guò)程,而網(wǎng)頁(yè)排重即是指通過(guò)兩個(gè)網(wǎng)頁(yè)間相似度因素為依據(jù),進(jìn)行重復(fù)項(xiàng)的排除。Simhash算法屬于一種高效海量文本排重算法,相較于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash能夠有效避免進(jìn)行文本兩兩的相似度比較復(fù)雜過(guò)程,從而得以大大提高計(jì)算效率。因此,運(yùn)用Simhash算法實(shí)施網(wǎng)頁(yè)內(nèi)容的排重工作,可容納更大數(shù)據(jù)量,提供更快數(shù)據(jù)處理速度,最終實(shí)現(xiàn)大數(shù)據(jù)的迅速處理。
4.2.2 整合
所謂整合,即是指將抓取的網(wǎng)頁(yè)內(nèi)容,與各公司之間構(gòu)建彼此對(duì)應(yīng)的關(guān)系。對(duì)于公司而言,可使用一組關(guān)鍵詞對(duì)自身進(jìn)行描述,同樣,經(jīng)過(guò)dp處理后的網(wǎng)頁(yè)內(nèi)容也可使用一組關(guān)鍵詞進(jìn)行描述。通過(guò)整合,即可形成兩組關(guān)鍵詞的匹配。
網(wǎng)頁(yè)內(nèi)容分詞結(jié)果有以下問(wèn)題:①分詞結(jié)果數(shù)量較大;②大多數(shù)分詞對(duì)于描述該網(wǎng)頁(yè)的內(nèi)容而言沒(méi)有貢獻(xiàn)。所以,必要的情況下可對(duì)網(wǎng)頁(yè)分詞結(jié)果實(shí)施簡(jiǎn)化,采用詞頻最高的若干詞匯進(jìn)行描述即可。經(jīng)簡(jiǎn)化后,兩組關(guān)鍵詞不僅可以大大提高彼此的匹配效率,還可以保證其采集的準(zhǔn)確度,而在經(jīng)過(guò)整合后,所抓取的網(wǎng)頁(yè)內(nèi)容和公司之間,也會(huì)建立其一個(gè)對(duì)應(yīng)關(guān)系,便于知道某個(gè)具體的公司包含怎樣的數(shù)據(jù)信息。
在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,客戶處理業(yè)務(wù)也日益復(fù)雜起來(lái),與其相關(guān)的大數(shù)據(jù)更是呈現(xiàn)逐漸增長(zhǎng)的趨勢(shì),對(duì)于大數(shù)據(jù)的分析處理技術(shù),成為重點(diǎn)關(guān)注內(nèi)容之一。如果能夠合理發(fā)揮大數(shù)據(jù)作用,使其服務(wù)于光蛋用戶,能夠?yàn)槠髽I(yè)的發(fā)展,提供更為完整清晰的指引。
[1]齊 志.4G網(wǎng)絡(luò)時(shí)代大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)[J].商,2015(48):206.
[2]吳純青,任沛閣,王小峰.基于語(yǔ)義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索[J].計(jì)算機(jī)學(xué)報(bào),2015,38(1):1~17.
[3]康書生,曹榮.互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在融資領(lǐng)域的應(yīng)用研究[J].金融理論與實(shí)踐,2014(1):108~110.
TP274.2
A
1004-7344(2016)33-0254-02
2016-11-8