亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        海量數(shù)據(jù)的分析研究

        2020-07-08 02:00:34黃素萍常加強
        科學(xué)技術(shù)創(chuàng)新 2020年15期
        關(guān)鍵詞:信息

        黃素萍 常加強 高 妍

        (咸陽師范學(xué)院 計算機學(xué)院,陜西 咸陽712000)

        1 概述

        近十年來,互聯(lián)網(wǎng)迅速發(fā)展,資訊來源也從過去的報刊雜志、電視、電臺,變成當(dāng)下的網(wǎng)絡(luò)新聞門戶、博客網(wǎng)站、微博、推特等各種各樣的網(wǎng)絡(luò)輿情平臺。獲得資訊的方式也從過去的定時播報、定時收聽收看變成了現(xiàn)在的即時訂閱,隨時隨地訪問。網(wǎng)絡(luò)已成為人們獲取各類信息的重要渠道。然而,網(wǎng)絡(luò)中每天如潮水般的大量信息,使人們很難快速獲取到自己想要的信息,因此,如何從海量的數(shù)據(jù)中快速篩選、過濾出用戶需要的重要信息的分布狀況,幫助用戶快速獲取有用信息,已成為當(dāng)今研究的熱點之一。本文以新聞信息為例,介紹了海量新聞信息的分析處理過程,以可視化的結(jié)果,向用戶展示了熱點新聞的分布狀況,幫助人們快速了解掌握熱點新聞信息。

        2 海量數(shù)據(jù)分析的相關(guān)技術(shù)

        在進(jìn)行海量新聞信息的數(shù)據(jù)采集、數(shù)據(jù)消費、處理和數(shù)據(jù)分析過程中涉及到如下核心技術(shù):

        2.1 Hadoop

        Hadoop 是一個分布式處理框架,是大數(shù)據(jù)技術(shù)中最核心的組件,像Hbase,Spark,ZooKeeper 都是基于Hadoop 搭建的[1]。它里面有兩個核心的組件Hdfs 和Mapreduce, 其中Hdfs 用來存儲海量數(shù)據(jù),Mapreduce 用來進(jìn)行數(shù)據(jù)計算。

        隨著Apache Hadoop 系統(tǒng)開源化的發(fā)展,Hadoop 平臺從最初只包含HDFS、MapReduce、HBase 等基本子系統(tǒng),到現(xiàn)在已演變成包含很多相關(guān)子系統(tǒng)的完整的大數(shù)據(jù)處理生態(tài)系統(tǒng)[2]。

        2.2 ZooKeeper

        ZooKeeper 是集群的管理者,它監(jiān)督著Hadoop 各個組件集群的節(jié)點,當(dāng)某一個集群的節(jié)點掛掉時,ZooKeeper 中flower 就會檢測到接收請求并向observer 傳遞消息,observer 接收到請求后會將請求轉(zhuǎn)發(fā)給leader,隨后leader 就會及時更新狀態(tài),所以ZooKeeper 主要是用來協(xié)調(diào)Hadoop 各個組件集群的工作,當(dāng)集群中一個節(jié)點出現(xiàn)故障,ZooKeeper 會自動檢測正常節(jié)點,并安排它進(jìn)行工作,保證集群的正常運行。ZooKeeper 只適合存儲一些少量信息如配置文件、發(fā)布信息、訂閱信息等,而不適合存儲大規(guī)模的信息。Hadoop、Storm、消息中間件、RPC 服務(wù)框架、分布式數(shù)據(jù)庫同步系統(tǒng),這些都是Zookeeper 的應(yīng)用場景。

        2.3 Flume

        Flume 是一個可以從不同的數(shù)據(jù)源有效的進(jìn)行數(shù)據(jù)采集,并將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)中心的分布式、可靠、和高可用系統(tǒng),它可以接受任何數(shù)據(jù)源,在日志系統(tǒng)中進(jìn)行設(shè)置,用于收集、聚合從許多來源傳來的大量流數(shù)據(jù)事件,并將它們轉(zhuǎn)移到一個中央數(shù)據(jù)存儲中,它提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方。

        2.4 Spark

        Spark 是一個開源的基于內(nèi)存計算的集群計算系統(tǒng),包含了Spark Core、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX 等大數(shù)據(jù)領(lǐng)域常見的各種計算框架[3]。其中Spark Core是離線計算,主要對已加載的數(shù)據(jù)進(jìn)行計算處理;Spark Streaming 是實時流式計算,主要對傳輸中數(shù)據(jù)進(jìn)行計算;Spark SQL 是交互式查詢,通過SQL 語句查詢數(shù)據(jù);Spark MLlib 用于機器學(xué)習(xí);Spark GraphX 用于進(jìn)行圖計算[4]。這些組件可以使它完成一站式的大數(shù)據(jù)任務(wù)。同時,Spark 提供了更多的數(shù)據(jù)集操作的方法,幫助開發(fā)人員處理更復(fù)雜的任務(wù)。

        3 海量數(shù)據(jù)的分析過程

        3.1 數(shù)據(jù)的采集

        目前,數(shù)據(jù)采集主要使用爬蟲采集器和網(wǎng)絡(luò)爬蟲,兩種網(wǎng)絡(luò)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的過程較繁瑣,需要用戶編寫代碼,效率較低,容易出現(xiàn)問題。采用爬蟲采集器無需用戶編寫代碼,操作方便,效率較高。本次采用八爪魚采集器獲取網(wǎng)絡(luò)新聞數(shù)據(jù)。

        八爪魚采集器獲取數(shù)據(jù)的流程:先采集器選擇采集數(shù)據(jù)方式,設(shè)置要采集數(shù)據(jù)的網(wǎng)址,如https://news.sina.com.cn/china/并保存,選擇相應(yīng)的流程滾動設(shè)置,設(shè)置要爬取的數(shù)據(jù)項(如,新聞標(biāo)題),保存設(shè)置后可開始采集數(shù)據(jù)。數(shù)據(jù)采集完成,選擇導(dǎo)出數(shù)據(jù)格式,如Excel 格式文檔。

        3.2 數(shù)據(jù)預(yù)處理

        前期從各大新聞網(wǎng)站爬取的大量新聞數(shù)據(jù)格式雜亂無章,沒有統(tǒng)一格式,沒有規(guī)律,各類符號都混雜在一起,如果直接使用這些原始新聞數(shù)據(jù)進(jìn)行處理,既浪費精力,工作效率又低。所以要對采集的新聞數(shù)據(jù)進(jìn)行預(yù)處理,即是對新聞數(shù)據(jù)進(jìn)行統(tǒng)一格式化處理,此處是將原始新聞數(shù)據(jù)格式統(tǒng)一轉(zhuǎn)換成以逗號分隔的連續(xù)字符串。具體的做法是將數(shù)據(jù)集文檔格式轉(zhuǎn)換為log類型文檔,再使用命令cat,將數(shù)據(jù)集文檔中的制表符,空格符等更換為逗號。

        3.3 數(shù)據(jù)清洗和存儲

        接下來需要在Hadoop 數(shù)據(jù)處理集成平臺中進(jìn)行數(shù)據(jù)的處理。這個過程需要進(jìn)行Flume 和Kafka 系統(tǒng)的安裝和部署。

        3.3.1 數(shù)據(jù)清洗

        數(shù)據(jù)清洗主要是把有用的數(shù)據(jù)留下,無用的數(shù)據(jù)刪掉。它是整個數(shù)據(jù)處理分析過程中最核心的一個環(huán)節(jié)。這里使用了SparkStreaming 并行計算框架,通過其Transformation 轉(zhuǎn)換算子進(jìn)行數(shù)據(jù)的轉(zhuǎn)換和處理,對實時傳輸過來的新聞數(shù)據(jù)進(jìn)行清洗,從中獲取新聞標(biāo)題、分類名、新聞網(wǎng)站等信息,分別統(tǒng)計出標(biāo)題出現(xiàn)的次數(shù),標(biāo)題分類名和新聞網(wǎng)站出現(xiàn)的次數(shù)。

        數(shù)據(jù)清洗的過程為:先獲取Kafka 從Flume 中消費的數(shù)據(jù),同時創(chuàng)建DStream。DStream 是以鍵值對的形式存在,對DStream進(jìn)行Map 操作獲取到它的value 值,即所有實時傳輸進(jìn)來的數(shù)據(jù),返回一個新的DStream。再對DStream 進(jìn)行Map 操作返回多行數(shù)據(jù),隨后用函數(shù)獲取到新聞標(biāo)題、分類名、新聞網(wǎng)站等關(guān)鍵數(shù)據(jù),最后進(jìn)行聚合操作,獲取各個項目名對應(yīng)的出現(xiàn)次數(shù)。

        3.3.2 數(shù)據(jù)存儲

        清洗后的數(shù)據(jù)需要進(jìn)行存儲,這里采用MySQL 數(shù)據(jù)庫完成。

        數(shù)據(jù)存儲的具體實現(xiàn):先將獲取到的Dstream 轉(zhuǎn)換成Spark中的RDD,再對RDD 進(jìn)行分區(qū),然后遍歷每個分區(qū)中出現(xiàn)的信息。并和MySQL 數(shù)據(jù)庫進(jìn)行連接,調(diào)用存儲過程將對應(yīng)數(shù)據(jù)插入到相應(yīng)表的字段中,完成數(shù)據(jù)存儲。

        進(jìn)行數(shù)據(jù)存儲的表有三張:標(biāo)題表(Title),分類表(Classify)和新聞網(wǎng)站表(Url)。標(biāo)題表主要存儲新聞的標(biāo)題名和出現(xiàn)的次數(shù)。分類表存儲新聞分類名和出現(xiàn)的次數(shù)。新聞網(wǎng)站表存儲新聞網(wǎng)站名和出現(xiàn)的次數(shù)。

        3.4 數(shù)據(jù)分析和結(jié)果展示

        3.4.1 程序框架及插件簡介

        本次研究開發(fā)的程序使用Spring Boot 和Echarts 框架。Spring Boot 框架可以非常容易和快速的創(chuàng)建應(yīng)用程序,從而使開發(fā)人員不再需要定義樣板化的配置。Echarts 是一款非常優(yōu)秀的可視化前端框架,支持如IE,Chrome,F(xiàn)irefox 在內(nèi)的多種瀏覽器。它提供了豐富的API 接口以及文檔,通過合理設(shè)置并結(jié)合后臺傳送的JSON 數(shù)據(jù),即可展示所需的數(shù)據(jù)主題。

        3.4.2 程序功能設(shè)計和實現(xiàn)

        通過研究,新聞標(biāo)題出現(xiàn)的頻度可以反映新聞話題的熱度,程序基于已處理的新聞數(shù)據(jù),按新聞出現(xiàn)的次數(shù),結(jié)合echarts圖表庫,展示出排名前5 的新聞話題。同時,基于排名的新聞話題,分別對其所屬的新聞類型和來源的新聞網(wǎng)站的次數(shù)進(jìn)行統(tǒng)計,獲得熱點新聞所屬的新聞類型和來源網(wǎng)站統(tǒng)計結(jié)果,展示出排名前10 的新聞領(lǐng)域和排名前6 的新聞網(wǎng)站。

        圖1 熱點新聞話題排名

        圖2 新聞分類展示結(jié)果

        圖3 新聞網(wǎng)站展示結(jié)果

        4 結(jié)論

        本次研究是基于數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)分析等技術(shù),通過采集器采集新聞數(shù)據(jù),用Kafka 和Flume 集成環(huán)境對海量的新聞數(shù)據(jù)進(jìn)行傳輸,使用SparkStreaming 并行計算框架進(jìn)行數(shù)據(jù)處理,將數(shù)據(jù)存儲在MySQL 數(shù)據(jù)庫,最后結(jié)合Echarts 可視化插件,將熱點新聞數(shù)據(jù)狀況以動態(tài),以更直觀的方式展示熱點新聞的分布信息。由于各方面的局限性,本次工作只是在現(xiàn)有技術(shù)的基礎(chǔ)上,做了一些具體的實現(xiàn)。今后在海量信息的處理方面,還需進(jìn)一步的深入研究。

        猜你喜歡
        信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        信息超市
        展會信息
        展會信息
        展會信息
        展會信息
        展會信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲av综合av成人小说| 日本二区三区视频免费观看| 国产一区二区三区成人av | 日本真人添下面视频免费| 免费人成再在线观看视频| 欧美极品第一页| 日韩极品免费在线观看| 变态另类人妖一区二区三区| 成人国产精品一区二区视频| 伊人久久大香线蕉免费视频| 亚洲福利av一区二区| 久草视频在线手机免费看| 亚洲av日韩av在线观看| 丁香综合网| av在线网站手机播放| 亚洲免费国产中文字幕久久久 | 日本人妻精品有码字幕| 亚洲a∨无码一区二区三区| 久久久久无码精品亚洲日韩| 亚洲av色香蕉一区二区蜜桃| 国产亚洲熟妇在线视频| 天堂√在线中文官网在线| 色综合久久丁香婷婷| 日韩av中文字幕一卡二卡| av大全亚洲一区二区三区| 亚洲一本到无码av中文字幕| 亚洲成在人网av天堂| 日韩有码中文字幕在线视频 | 免费看黄片视频在线观看| 亚洲成a人v欧美综合天堂| 精品无码专区久久久水蜜桃| 亚洲日产AV中文字幕无码偷拍| 国产av天堂亚洲av刚刚碰| 挺进朋友人妻雪白的身体韩国电影| 国产精品爆乳在线播放| 天堂精品人妻一卡二卡| 人妻精品久久久久中文字幕69| 亚洲男人第一av网站| 看全色黄大黄大色免费久久| 蜜桃传媒免费在线播放| 亚洲男同志网站|