亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化技術(shù)研究

2018-08-15 10:01:34胡瑞娟

軟件工程 2018年5期

關(guān)鍵詞：可視化

摘要：在大數(shù)據(jù)背景下，數(shù)據(jù)膨脹的速度已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工分析的能力范圍，因此，如何在大數(shù)據(jù)時(shí)代構(gòu)建熱詞發(fā)現(xiàn)與可視化機(jī)制尤為緊迫和重要。本文通過研究Hadoop大數(shù)據(jù)平臺下的MapReduce計(jì)算框架和TF-IDF算法，給出了TF-IDF算法在Hadoop分布式并行化計(jì)算平臺下的具體實(shí)現(xiàn)，并以此并行化算法作為大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)技術(shù)的核心算法，然后利用可視化工具對結(jié)果進(jìn)行分析處理。結(jié)果表明，TF-IDF并行化算法可以較好地發(fā)現(xiàn)大規(guī)模數(shù)據(jù)量中的熱點(diǎn)詞匯；與傳統(tǒng)單機(jī)下的算法相比，該算法處理效率更高。

關(guān)鍵詞：Hadoop；TF-IDF并行化；熱詞發(fā)現(xiàn)；可視化

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A

Abstract：The speed of data expansion is far beyond the ability of artificial analysis in the era of big data.Therefore，it is particularly urgent and important how to build hot word discovery and visualization mechanism.By studying the MapReduce computing framework and TF-IDF algorithm under the Hadoop platform，this paper gives the concrete implementation of the TF-IDF algorithm under the Hadoop distributed parallel computing platform，and uses this parallel algorithm as the core algorithm of the hot word discovery technology based on the big data architecture，and then uses the visualization tool to display and analyze the results.The results show that the TF-IDF parallelization algorithm can find the hot words in large amount of data much better.Compared with traditional single-machine algorithms，this algorithm is more efficient.

Keywords：Hadoop；TF-IDF parallelization；hot word discovery；visualization

1 引言（Introduction）

大數(shù)據(jù)時(shí)代，數(shù)據(jù)膨脹的速度已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工分析的能力范圍。要從這些龐雜的數(shù)據(jù)中獲取有效信息更是難上加難。如何能夠簡單、快速并且有效地得知人們感興趣的內(nèi)容是一個重要的問題。熱詞發(fā)現(xiàn)作為近年來的一個研究熱點(diǎn)，不失為一個切實(shí)可行的解決方案。因?yàn)闊嵩~[1]往往能夠反映一個國家、一個地區(qū)在一個時(shí)期人們普遍關(guān)注的問題和事物，具有時(shí)代特征，所以及時(shí)準(zhǔn)確地發(fā)現(xiàn)當(dāng)前熱點(diǎn)信息并進(jìn)行整理分析對于了解民意動向、分析輿情走勢十分重要。其結(jié)果不僅為政府和有關(guān)機(jī)構(gòu)及時(shí)了解并處理重大社會熱點(diǎn)問題提供很大的參考價(jià)值，也為廣大人民群眾能夠在信息爆炸時(shí)代里了解社會熱點(diǎn)提供了快速而有效的方法[2]。

本文通過研究Hadoop大數(shù)據(jù)平臺下的MapReduce計(jì)算框架和TF-IDF算法，給出了TF-IDF算法在Hadoop分布式并行化計(jì)算平臺下的具體實(shí)現(xiàn)，并以此并行化算法作為大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)技術(shù)的核心算法，然后利用可視化工具R語言[3]對結(jié)果進(jìn)行分析處理。

2 大數(shù)據(jù)與Hadoop平臺（BigData and Hadoop）

IDC公司從四個特征定義大數(shù)據(jù)，即海量的數(shù)據(jù)規(guī)模（Volume）、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系（Velocity）、多樣的數(shù)據(jù)模態(tài)（Variety）和巨大的數(shù)據(jù)價(jià)值（Value）。根據(jù)大數(shù)據(jù)的生命周期，大數(shù)據(jù)的技術(shù)體系可以分為大數(shù)據(jù)采集與預(yù)處理[2]、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)計(jì)算模式與系統(tǒng)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)可視化計(jì)算和大數(shù)據(jù)隱私安全等方面。我們通常選用Hadoop系統(tǒng)來存儲、管理、分析這些數(shù)據(jù)，以獲取更多有價(jià)值的信息[4]。

Hadoop是Apache軟件基金會旗下的一個開源分布式計(jì)算平臺，以Hadoop分布式文件系統(tǒng)HDFS和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯性、高伸縮性允許用戶將Hadoop部署在低廉的硬件上，形成分布式系統(tǒng)；由于Hadoop擁有可計(jì)量、成本低、高效、可信等特點(diǎn)，基于Hadoop的應(yīng)用已經(jīng)開始遍布互聯(lián)網(wǎng)領(lǐng)域。MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下運(yùn)行應(yīng)用程序[5]。

3 大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)理論基礎(chǔ)（Theoretical

foundation of hot word discovery based on

bigdata architecture）

3.1 MapReduce計(jì)算框架

分布式文件系統(tǒng)（HDFS）和MapReduce編程模型是Hadoop的主要組成部分。MapReduce模型[6]的計(jì)算流程如圖2所示。分布式文件系統(tǒng)主要負(fù)責(zé)各節(jié)點(diǎn)上的數(shù)據(jù)的存儲，并實(shí)現(xiàn)高吞吐的數(shù)據(jù)讀寫。MapReduce計(jì)算模型的核心部分是Map和Reduce兩個函數(shù)[7]。Map的輸入是in_key和in_value，指明了Map需要處理的原始數(shù)據(jù)。Map的輸出結(jié)果是一組對。系統(tǒng)對Map操作的結(jié)果進(jìn)行歸類處理。Reduce的輸入是（key，[value1…value m]）。Reduce的工作是將相同key的value值進(jìn)行歸并處理最終形成（key，final_value）的結(jié)果，所有的Reduce結(jié)果并在一起就是最終結(jié)果。

3.2 TF-IDF熱詞發(fā)現(xiàn)算法

TF-IDF（Term Frequency-Inverse Document Frequency）[8]是一種服務(wù)數(shù)據(jù)挖掘的常用的加權(quán)技術(shù)。該算法可以評價(jià)一個單詞對于語料庫中的某一文件的重要程度。該算法的計(jì)算公式為：

（1）

其中，TF（詞頻，Term Frequency）指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。同一個詞語在長文件里可能會比短文件有更高的詞數(shù)，而不管該詞語重要與否。對于在某一特定文件里的詞語ti來說，它的重要性可表示為：

（2）

其中，ni，j是該詞ti在文件dj中的出現(xiàn)次數(shù)，而分母則是在文件dj中所有字詞的出現(xiàn)次數(shù)之和。

IDF（逆向文件頻率，Inverse Document Frequency）是一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目，再將得到的商取對數(shù)得到：

（3）

其中，|D|：語料庫中的文件總數(shù)，：包含詞語ti的文件數(shù)目（即的文件數(shù)目）如果該詞語不在語料庫中，就會導(dǎo)致被除數(shù)為零，因此一般情況下使用。

可以看到，TF-IDF與一個詞在文檔中出現(xiàn)的次數(shù)成正比，同時(shí)與該詞在整個語料庫中出現(xiàn)的次數(shù)成反比。因此，要想得到TD-IDF值，需要分別求出TF、IDF兩個值。無論是計(jì)算TF還是IDF的值，由于文檔總數(shù)是一個常量，所以在得到TF后，只需要統(tǒng)計(jì)所有語料中包含該單詞的文檔的個數(shù)，即可進(jìn)行TF-IDF值的計(jì)算。從TF-IDF的計(jì)算公式中不難看出，它非常適合利用分布式并行化平臺進(jìn)行計(jì)算求解。

3.3 R語言

R語言是一個擁有強(qiáng)大的統(tǒng)計(jì)計(jì)算和制圖能力的可視化工具。作為一個統(tǒng)計(jì)分析軟件，R集統(tǒng)計(jì)分析和圖形顯示于一體，與其他統(tǒng)計(jì)分析軟件相比，R還具有開源且免費(fèi)使用、與各種OS兼容性好、豐富的插件支持、互動性好等特點(diǎn)[9，10]。

4 大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化系統(tǒng)的構(gòu)建

（Construction of hot word discovery and visualization

system based on bigdata architecture）

根據(jù)MapReduce、TF-IDF算法等基本理論，本文設(shè)計(jì)了大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)系統(tǒng)，在Hadoop平臺上實(shí)現(xiàn)了TF-IDF并行化算法。該系統(tǒng)主要包括數(shù)據(jù)采集（獲取實(shí)驗(yàn)語料）、數(shù)據(jù)預(yù)處理、Hadoop平臺搭建、TF-IDF算法并行化實(shí)現(xiàn)及結(jié)果可視化五部分。系統(tǒng)總體框架如圖2所示。

4.1 數(shù)據(jù)采集與預(yù)處理

（1）實(shí)驗(yàn)數(shù)據(jù)

本文的實(shí)驗(yàn)數(shù)據(jù)是從人民日報(bào)官網(wǎng)http：//paper.people.com.cn上，利用網(wǎng)絡(luò)爬蟲獲取2011年至2016年這六年間每一天的人民日報(bào)電子版，得到格式為PDF，總大小為34.3GB，共計(jì)2191個文件。本設(shè)計(jì)以上述文件作為實(shí)驗(yàn)的原始數(shù)據(jù)。

（2）數(shù)據(jù)預(yù)處理

首先對爬取到的人民日報(bào)進(jìn)行格式轉(zhuǎn)換，格式化文件名（文件名中不得含有中文及中文字符），修改文檔的編碼方式，并去除所有的特殊符號，為接下來的中文分詞做準(zhǔn)備。然后利用斯坦福大學(xué)NLP研究室提供的Stanford CoreNLP工具包對語料進(jìn)行中文分詞。最終將數(shù)據(jù)集按年度分開（years），每年分為12個文檔（每月一個文檔，month）。

4.2 TF-IDF算法的并行化實(shí)現(xiàn)

利用Hadoop集群環(huán)境及MapReduce計(jì)算框架，對TF-IDF算法進(jìn)行并行化實(shí)現(xiàn)，其核心思想是將任務(wù)進(jìn)行分割，并分配到集群主機(jī)運(yùn)行。通過分割數(shù)據(jù)，可以將統(tǒng)計(jì)文檔中單詞詞頻的任務(wù)并行化處理，從而減少處理時(shí)間，提高處理效率。

具體流程如下：

（1）計(jì)算各文檔中單詞的詞頻TF

在讀入目標(biāo)文檔所在的HDFS路徑后，將原始數(shù)據(jù)進(jìn)行分片并傳給Map函數(shù)，在Map中利用正則表達(dá)式刪除空行和空字符串，然后傳給Reduce函數(shù)統(tǒng)計(jì)單詞詞頻，并將結(jié)果輸出到臨時(shí)文件中保存，作為下一個MapReduce的輸入。該函數(shù)設(shè)計(jì)如下：

Map（）：

Input：

Output：

Reduce（）：

Input：

Output：

（2）計(jì)算單詞的逆文檔頻率IDF

讀取上一步輸出的臨時(shí)文件tfidf-tf作為本次Map函數(shù)的輸入。在Map中拆分單詞，按頻次為1，以便Reduce分文件名進(jìn)行合并。在Reduce中統(tǒng)計(jì)所有語料中包含wordname一詞的文檔總數(shù)termdocnum和文檔總數(shù)alldoc，然后按照公式計(jì)算idf值，并將結(jié)果以鍵值對的形式輸出到臨時(shí)文件中保存，作為下一個MapReduce的輸入。該函數(shù)設(shè)計(jì)如下：

Map（）：

Input：

Output：

Reduce（）：

Input：

Output：

（3）計(jì)算單詞的TF-IDF

利用兩個Map函數(shù)分別讀取前兩步輸出的臨時(shí)文件tfidf-tf和tfidf-idf作為輸入。在Reduce中按照公式計(jì)算tfidf值，并將結(jié)果以鍵值對的形式輸出到結(jié)果文件tfidf-tfidf中保存，作為結(jié)果分析的依據(jù)。該函數(shù)設(shè)計(jì)如下：

Map（）：

Input：

Output：

Reduce（）：

Input：

Output：

計(jì)算TF-IDF的整個流程如圖3所示。

4.3 利用R語言進(jìn)行結(jié)果可視化

以數(shù)據(jù)集years作為實(shí)驗(yàn)語料，在集群模式下運(yùn)行程序，得到結(jié)果后利用R語言分別對2011—2016年的年度熱詞進(jìn)行可視化展示，2016年度熱詞可視化結(jié)果如圖4所示。

可以看出，2016年度的熱點(diǎn)詞匯有“兩學(xué)一做”“三嚴(yán)三實(shí)”“供給側(cè)結(jié)構(gòu)性改革”“大數(shù)據(jù)”“黨風(fēng)廉政建設(shè)”“創(chuàng)新”“改革”“全面二孩”“戰(zhàn)略支援部隊(duì)”“深化國防軍隊(duì)改革”“工匠精神”“強(qiáng)軍目標(biāo)”“軍事斗爭準(zhǔn)備”“人工智能”“營改增”等。而互聯(lián)網(wǎng)中給出的2016年年度熱詞為：“供給側(cè)改革”“全面二孩”“工匠精神”“人工智能”“營改增”“不忘初心”“里約奧運(yùn)會”“電信詐騙”“房價(jià)”“網(wǎng)約車”?？紤]到本實(shí)驗(yàn)的語料來源僅為《人民日報(bào)》，其中并不完全包含互聯(lián)網(wǎng)中的內(nèi)容，而互聯(lián)網(wǎng)上公布的結(jié)果則是綜合多方面內(nèi)容得到的，因此二者的結(jié)果存在一定的出入。但從整體上來看，由該問題導(dǎo)致的誤差在可接受范圍內(nèi)，實(shí)驗(yàn)結(jié)果較為可靠，該實(shí)驗(yàn)?zāi)軌蜉^好地完成大數(shù)據(jù)規(guī)模下的熱詞發(fā)現(xiàn)任務(wù)。

5 結(jié)論（Conclusion）

大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化技術(shù)研究，可以幫助相關(guān)人員及時(shí)準(zhǔn)確地發(fā)現(xiàn)當(dāng)前熱點(diǎn)信息，這些信息為政府和有關(guān)機(jī)構(gòu)及時(shí)了解并處理重大社會熱點(diǎn)問題提供很大的參考價(jià)值；另一方面，通過對熱詞發(fā)現(xiàn)結(jié)果的可視化，直觀形象地展示出熱詞，可以為廣大人民群眾能夠在信息爆炸時(shí)代里了解社會熱點(diǎn)提供了快速而有效的方法；同時(shí)，一些優(yōu)秀的網(wǎng)絡(luò)熱詞可以作為漢語言文庫的一種有益補(bǔ)充和豐富，為語言學(xué)家研究漢語言提供一定的幫助。

參考文獻(xiàn)（References）

[1] 耿升華.新詞識別和熱詞排名方法研究[D].重慶大學(xué)，2013.

[2] 劉晨，焦合軍.基于HADOOP集群的數(shù)據(jù)采集和清洗[J].軟件工程，2016，19（11）：20-24.

[3] 湯銀才.R語言與統(tǒng)計(jì)分析[M].高等教育出版社，2008.

[4] 崔文斌，牟少敏，王云誠，等.Hadoop大數(shù)據(jù)平臺的搭建與測試[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)自然科學(xué)版，2013，44（4）：550-555.

[5] 孟永偉，黃建強(qiáng)，曹騰飛，等.Hadoop集群部署實(shí)驗(yàn)的設(shè)計(jì)與實(shí)現(xiàn)[J].實(shí)驗(yàn)技術(shù)與管理，2015，32（1）：145-149.

[6] 郝樹魁.Hadoop HDFS和MapReduce架構(gòu)淺析[J].郵電設(shè)計(jì)技術(shù)，2012（7）：37-42.

[7] Luis Torgo，李洪成，陳道輪，等.數(shù)據(jù)挖掘與R語言[J].計(jì)算機(jī)教育，2013（12）：102-102.

[8] 張建娥.基于TFIDF和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J].情報(bào)科學(xué)，2012（10）：110-112；123.

[9] 吳丹露，魏彤，許家清.R語言環(huán)境下的文本可視化及主題分析——以社會服務(wù)平臺數(shù)據(jù)為例[J].寧波工程學(xué)院學(xué)報(bào)，2015，27（1）：19-25.

[10] 葉文春.淺談R語言在統(tǒng)計(jì)學(xué)中的應(yīng)用[J].中共貴州省委黨校學(xué)報(bào)，2008（4）：123-125.

[11] 使用Stanford CoreNLP工具包處理中文[EB/OL].http：//blog.csdn.net/u014749291/article/details/51152007，2016-04-14.

[12] 使用Stanford NLP進(jìn)行中文分詞[EB/OL].http：//blog.sectong.com/blog/corenlp_segment.html，2016-03-26.

[13] 趙偉燕.基于Hadoop平臺的TFIDF算法并行化研究[D].內(nèi)蒙古科技大學(xué)，2013.

作者簡介：

胡瑞娟（1983-），女，碩士，講師.研究領(lǐng)域：大數(shù)據(jù)智能處理.