亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2017-08-23 06:31:36齊鋼雷潘堅(jiān)
        科技創(chuàng)新導(dǎo)報(bào) 2017年16期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        齊鋼雷 潘堅(jiān)

        摘 要:大數(shù)據(jù)時(shí)代,輿情監(jiān)測和分析越發(fā)重要。針對單機(jī)爬蟲效率低、可擴(kuò)展性差、存儲(chǔ)管理困難及信息展示不友好等問題,設(shè)計(jì)并實(shí)現(xiàn)了一套基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),系統(tǒng)首先利用基于MapReduce的分布式網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)抓取,以HDFS作為底層存儲(chǔ)系統(tǒng),在其上構(gòu)建基于HBase的分布式數(shù)據(jù)庫對輿情信息進(jìn)行統(tǒng)一存儲(chǔ)管理;通過提供定制化查詢功能及相關(guān)輔助功能協(xié)助輿情分析人員實(shí)時(shí)監(jiān)測輿情。測試結(jié)果表明,系統(tǒng)可以有效地實(shí)現(xiàn)對網(wǎng)絡(luò)輿情的監(jiān)測并實(shí)現(xiàn)定制化展示,達(dá)到了設(shè)計(jì)要求。

        關(guān)鍵詞:輿情監(jiān)測 數(shù)據(jù)挖掘 航天 Hadoop

        中圖分類號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)6(a)-0181-04

        Abstract:In the era of large data, public opinion monitoring and analysis is becoming more and more important. Aiming at solving low efficiency for stand-alone reptiles, poor scalability, poor storage management, unfriendly information display and other problems, a set of Hadoop-based space network public opinion monitoring system is designed and implemented. The system first uses the distributed web crawler based on MapReduce to carry out data crawling, and HDFS is used as the underlying storage system to build a distributed database based on HBase. Through the provision of customized query function and related auxiliary functions to assist public opinion analysts to monitor public opinion in real time. The test results showed that the system can effectively realize the monitoring of the network public opinion and realize the customized display, and meet the design requirements.

        Key Words:Public opinion monitoring;Data mining;Aerospace;Hadoop

        大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)輿情極強(qiáng)的傳播力和影響力越發(fā)受到社會(huì)各界重視。因此,及時(shí)發(fā)現(xiàn)和掌握網(wǎng)絡(luò)輿情的發(fā)展動(dòng)向,有針對性地提出解決方案、消除負(fù)面影響,對政府機(jī)關(guān)和企事業(yè)單位意義重大[1-2]。

        針對以上問題,該文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)。該系統(tǒng)采用分布并行方式對互聯(lián)網(wǎng)信息進(jìn)行采集[3-4],分析挖掘輿情信息的內(nèi)在聯(lián)系,為政府機(jī)關(guān)和企事業(yè)單位第一時(shí)間了解自身相關(guān)輿情并進(jìn)行及時(shí)預(yù)警、形成輿情分析報(bào)告并為領(lǐng)導(dǎo)決策提供智力支持。

        1 相關(guān)理論研究

        1.1 網(wǎng)絡(luò)輿情概念

        網(wǎng)絡(luò)輿情是指民眾通過互聯(lián)網(wǎng)圍繞著特定社會(huì)事件產(chǎn)生的對事件及領(lǐng)導(dǎo)者所持有的態(tài)度、情緒以及意見等的集合。網(wǎng)絡(luò)輿情特別是一些負(fù)面輿情的形成和傳播通常會(huì)十分迅速并且在極短時(shí)間內(nèi)發(fā)展到相當(dāng)大的規(guī)模。如果不能對此進(jìn)行監(jiān)測和預(yù)警,會(huì)給涉事主體帶來難以估量的損失。另外隨著大數(shù)據(jù)時(shí)代的到來,如何對海量的輿情信息進(jìn)行搜集、處理并挖掘信息成了擺在輿情分析人員面前的一個(gè)亟待解決的問題[5]。

        網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的出現(xiàn)為輿情分析人員的分析工作提高了巨大便利,它利用自然語言處理技術(shù)以及數(shù)據(jù)挖掘技術(shù)通過對互聯(lián)網(wǎng)信息的采集、預(yù)處理、分析來滿足用戶對網(wǎng)絡(luò)輿情監(jiān)測的各種需求,并可形成統(tǒng)計(jì)性圖表、報(bào)告等,使用戶能夠及時(shí)發(fā)現(xiàn)輿情突發(fā)事件,并且第一時(shí)間做出針對性反應(yīng),進(jìn)而為高層決策提供支持,是大數(shù)據(jù)技術(shù)在輿情分析領(lǐng)域的典型應(yīng)用[6]。

        1.2 Hadoop

        Hadoop可以歸類成一個(gè)完整的生態(tài)系統(tǒng),包含從數(shù)據(jù)存儲(chǔ)到集成、數(shù)據(jù)處理及數(shù)據(jù)分析等大量組件,可以使用戶在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序。HDFS作為Hadoop生態(tài)系統(tǒng)的基礎(chǔ)組件可以將海量數(shù)據(jù)分布到計(jì)算機(jī)集群之上,實(shí)現(xiàn)一次寫入,多次讀取。Hadoop的主要執(zhí)行框架是MapReduce,它是一個(gè)用于分布式并行數(shù)據(jù)處理的編程模型。HBase是一個(gè)構(gòu)建于HDFS之上的面向列的NoSQL數(shù)據(jù)庫,提供對海量數(shù)據(jù)的快速讀寫能力,它利用Zookeeper作為自己的分布式協(xié)調(diào)工具[7]。利用Hadoop組件可以實(shí)現(xiàn)功能強(qiáng)大的大數(shù)據(jù)支撐平臺(tái)。

        2 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2.1 總體架構(gòu)設(shè)計(jì)

        該文設(shè)計(jì)的基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要包括三個(gè)子系統(tǒng):互聯(lián)網(wǎng)信息監(jiān)控子系統(tǒng)、輿情數(shù)據(jù)分析子系統(tǒng)和輿情服務(wù)子系統(tǒng)。其中輿情數(shù)據(jù)分析子系統(tǒng)功能結(jié)構(gòu)最為復(fù)雜,該文將給出詳細(xì)設(shè)計(jì)說明。

        互聯(lián)網(wǎng)信息監(jiān)控子系統(tǒng)的主要工作是抓取互聯(lián)網(wǎng)信息,對抓取的互聯(lián)網(wǎng)信息進(jìn)行處理、存儲(chǔ),為上層分析提供數(shù)據(jù)支持。系統(tǒng)采用HDFS作為底層數(shù)據(jù)存儲(chǔ)介質(zhì),在其之上構(gòu)建更高層次的HBase和Hive進(jìn)行數(shù)據(jù)管理[8]。輿情數(shù)據(jù)分析子系統(tǒng)采用分布式編程設(shè)計(jì)對原始網(wǎng)頁信息進(jìn)行處理,包括文本預(yù)處理、文本聚類、摘要提取和話題發(fā)現(xiàn)等。輿情服務(wù)子系統(tǒng)為用戶提供功能豐富的輿情信息展示功能,包括多種輿情信息的查看和多種統(tǒng)計(jì)輔助工具的使用?;贖adoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)總體架構(gòu)如圖1所示。

        系統(tǒng)總體架構(gòu)分為四層,分別為展現(xiàn)層、共性服務(wù)層、存儲(chǔ)層和數(shù)據(jù)聚合層。

        展現(xiàn)層為用戶提供訪問系統(tǒng)途徑,考慮到輿情信息的保密相關(guān)要求,可根據(jù)實(shí)際情況只設(shè)置為輿情分析師操作用的輿情數(shù)據(jù)操作平臺(tái)和為高層領(lǐng)導(dǎo)用的手機(jī)APP軟件。該文將采用這種設(shè)計(jì)方式。

        共性服務(wù)層提供輿情信息展現(xiàn)所需要的共性服務(wù),包括標(biāo)引服務(wù)、關(guān)鍵詞服務(wù)、摘要服務(wù)、自動(dòng)分類、聚類服務(wù)、自動(dòng)情感分析、涉事主體識(shí)別、敏感信息識(shí)別等。

        存儲(chǔ)層包括輿情監(jiān)控?cái)?shù)據(jù)緩存服務(wù)器和輿情分析數(shù)據(jù)服務(wù)器,用于數(shù)據(jù)的存儲(chǔ)。

        數(shù)據(jù)聚合層通過網(wǎng)絡(luò)信息獲取技術(shù)獲取輿情資源,并通過排重、去噪、提取、索引、整合等技術(shù)手段處理信息并存入數(shù)據(jù)庫。

        2.2 功能設(shè)計(jì)

        該文設(shè)計(jì)的輿情監(jiān)測系統(tǒng)是一套可提供輿情監(jiān)測、輿情分析和輿情服務(wù)的軟件系統(tǒng),系統(tǒng)通過監(jiān)控國內(nèi)互聯(lián)網(wǎng)獲取輿情數(shù)據(jù),并經(jīng)過自動(dòng)處理后,提供給輿情分析師再進(jìn)行更細(xì)致的人工處理。系統(tǒng)具體功能結(jié)構(gòu)如圖2所示。

        2.3 輿情信息分析子系統(tǒng)

        輿情數(shù)據(jù)分析子系統(tǒng)運(yùn)行在輿情分析數(shù)據(jù)服務(wù)器上,它包含一系列的智能化語義分析工具、輔助研判評估模型和統(tǒng)計(jì)圖表制作工具等,以提高分析人員的工作效率,加強(qiáng)輿情工作的快速反應(yīng)能力;系統(tǒng)同時(shí)提供多種情報(bào)簡報(bào)、專報(bào)的輔助制作功能和輿情數(shù)據(jù)推送管理功能。下面將對“智能化語義分析工具集”和“輿情分析平臺(tái)”做詳細(xì)設(shè)計(jì)和介紹。

        2.3.1 智能化語義分析工具集

        智能化語義分析工具集融合最新的人工智能、信息檢索、數(shù)據(jù)挖掘等研究成果,通過信息檢索、提取、處理及信息模塊拼裝技術(shù),以用戶的需求為中心,將數(shù)據(jù)處理結(jié)果結(jié)構(gòu)化的呈現(xiàn)給用戶。

        該功能模塊主要實(shí)現(xiàn)如下功能。

        標(biāo)引服務(wù):從文本中識(shí)別文章標(biāo)題、作者、來源、發(fā)布時(shí)間、正文內(nèi)容等。

        關(guān)鍵詞服務(wù):從正文里面把跟這篇文章意義最相關(guān)的一些詞抽取出來,為確保關(guān)鍵詞抽取的維數(shù)不至于太高,只選取和航天緊密相關(guān)的名詞、動(dòng)詞。

        摘要服務(wù):利用中文分詞技術(shù)等自動(dòng)地從原始文獻(xiàn)中提取能夠全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡單連貫的短文。

        聚類服務(wù):將數(shù)據(jù)集中的所有數(shù)據(jù),按照相似性劃分為多個(gè)類別,結(jié)合人工研判,得出熱點(diǎn)話題,達(dá)到熱點(diǎn)話題發(fā)現(xiàn)、實(shí)現(xiàn)輿情預(yù)警功能。

        自動(dòng)分類:按照事先設(shè)定的輿情事件類型,如:貪污腐敗、生活作風(fēng)、上訪、四風(fēng)等建立自動(dòng)分類模型,實(shí)現(xiàn)信息的自動(dòng)分類功能,便于相關(guān)話題、事件的后續(xù)追蹤。

        自動(dòng)情感分析:識(shí)別出信息中蘊(yùn)含的正負(fù)面信息,對文本信息進(jìn)行情感分析,進(jìn)而判斷文本的情感正負(fù)屬性。

        涉事主體識(shí)別:按照預(yù)設(shè)的監(jiān)控體系,自動(dòng)識(shí)別信息關(guān)聯(lián)的相關(guān)企業(yè)、產(chǎn)品、重大項(xiàng)目、人員等。

        2.3.2 輿情分析平臺(tái)

        輿情分析平臺(tái)是輿情分析師查看、分析、統(tǒng)計(jì)輿情數(shù)據(jù)的操作平臺(tái),其利用構(gòu)建的輿情分析數(shù)學(xué)模型來輔助輿情分析師發(fā)現(xiàn)和分析輿情事件,并提供一系列功能支撐輿情分析師對輿情事件做出更準(zhǔn)確的判斷,提高工作效率。

        該功能模塊主要實(shí)現(xiàn)如下功能。

        重大事件輿情分析:針對影響力較大的已知事件、提前部署的監(jiān)控事件設(shè)定專用識(shí)別模型進(jìn)行監(jiān)控和識(shí)別分析,實(shí)時(shí)監(jiān)測相關(guān)動(dòng)態(tài)。

        主要企業(yè)輿情分析:將集團(tuán)公司的多級企業(yè)與監(jiān)控的信息進(jìn)行識(shí)別和關(guān)聯(lián),選中具體企業(yè)名稱,則檢索出和該企業(yè)相關(guān)的輿情信息。

        重點(diǎn)產(chǎn)品輿情分析:針對主要的航天產(chǎn)品如長征火箭、遙感衛(wèi)星、北斗衛(wèi)星、彩虹無人機(jī)等,設(shè)定專用識(shí)別模型,實(shí)時(shí)監(jiān)測相關(guān)的輿情信息,達(dá)到分類跟蹤的目的。

        重大工程輿情分析:針對航天領(lǐng)域重大工程,如探月工程、載人航天工程、深空探測工程等,分別設(shè)定專用識(shí)別模型,實(shí)時(shí)監(jiān)控相關(guān)領(lǐng)域的輿情信息,達(dá)到分類跟蹤的目的。

        重點(diǎn)人員輿情分析:針對集團(tuán)公司及下屬各單位的重點(diǎn)人員(領(lǐng)導(dǎo)、總師、重要技術(shù)人員等),設(shè)定專用識(shí)別模型,實(shí)時(shí)監(jiān)控相關(guān)輿情信息,達(dá)到分類跟蹤的目的。

        數(shù)據(jù)統(tǒng)計(jì)分析:根據(jù)用戶需求建立統(tǒng)計(jì)分析模型和搭建圖表表示模型,根據(jù)用戶需求分析特定條件下的統(tǒng)計(jì)信息,為用戶提供圖表化的統(tǒng)計(jì)信息展示。

        輿情報(bào)告制作:根據(jù)相關(guān)分析數(shù)據(jù)自動(dòng)生成輿情簡報(bào)摘要,輔助輿情分析人員撰寫輿情報(bào)告。

        輿情信息推送:輿情分析人員將第一時(shí)間發(fā)現(xiàn)的敏感輿情信息通過人工判研推送到手機(jī)APP,使輿情分析小組成員及時(shí)收到輿情提醒,及時(shí)參與討論。

        輿情數(shù)據(jù)分析子系統(tǒng)業(yè)務(wù)流程圖如圖3所示。

        3 系統(tǒng)測試

        考慮到系統(tǒng)信息的敏感性,系統(tǒng)設(shè)置要求只有當(dāng)用戶正確輸入用戶名和密碼及驗(yàn)證碼后才能登錄系統(tǒng),否則系統(tǒng)提示相關(guān)錯(cuò)誤信息。用戶成功登錄系統(tǒng)后,進(jìn)入首頁的輿情信息展示頁面。

        輿情信息展示頁面展示的是最新抓取到的符合要求的輿情信息,每條輿情信息包括抓取時(shí)間、輿情主題、輿情正負(fù)面標(biāo)識(shí)、命中的關(guān)鍵詞組和輿情信息摘要。輿情分析人員可點(diǎn)擊輿情主題或輿情信息摘要查看詳細(xì)信息。當(dāng)點(diǎn)擊“推送”后,會(huì)彈出針對本條輿情信息的推送設(shè)置信息,輿情分析師可把該條輿情信息通過手機(jī)APP推送給主管領(lǐng)導(dǎo)或輿情分析小組,達(dá)到快速商議和溝通目的。

        當(dāng)點(diǎn)擊“任務(wù)跟蹤”、“事件跟蹤”、“企業(yè)輿情”、“人員輿情”、“產(chǎn)品工程輿情”、“行為特征”、“統(tǒng)計(jì)分析”功能選項(xiàng)時(shí),系統(tǒng)則自動(dòng)從數(shù)據(jù)庫中按以上查詢條件查詢并顯示,達(dá)到按指定條件查詢并顯示的目的。

        當(dāng)點(diǎn)擊“簡報(bào)制作編輯”功能選項(xiàng)時(shí),則進(jìn)入輿情簡報(bào)編輯頁面,輿情分析工作人員可選取系統(tǒng)提供的編輯模板來輔助編輯,編輯完畢后可保存為word文檔格式留檔存用。

        4 結(jié)語

        信息時(shí)代自媒體等網(wǎng)絡(luò)載體成了人們發(fā)表言論的“主戰(zhàn)場”,由于自媒體傳播信息有著傳播速度快、影響范圍廣等特點(diǎn),及時(shí)對相關(guān)言論進(jìn)行監(jiān)測,在發(fā)生重要輿情事件時(shí)有針對性地提出解決方案、消除負(fù)面影響,對涉事主體意義重大。

        該文分析了輿情和Hadoop的基本概念,針對輿情監(jiān)測系統(tǒng)中存在的問題進(jìn)行了說明,并設(shè)計(jì)實(shí)現(xiàn)了一套基于Hadoop的航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)。系統(tǒng)能全天候?qū)χ付ňW(wǎng)絡(luò)資源進(jìn)行監(jiān)控,并提供了定制查詢、統(tǒng)計(jì)分析及輿情簡報(bào)輔助等功能,測試結(jié)果表明,系統(tǒng)運(yùn)行穩(wěn)定,達(dá)到了設(shè)計(jì)要求。

        參考文獻(xiàn)

        [1] 張薇.網(wǎng)絡(luò)輿情對國家安全影響分析[J].信息工程大學(xué)理學(xué)院,2016,11(13):244-245.

        [2] 李振江.航天網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)框架研究[J].中國管理信息化,2015,11(13):193-195.

        [3] 張小明,李舟軍,巢文涵.基于增量型聚類的自動(dòng)話題檢測研究[J].軟件學(xué)報(bào),2012,23(6):1578-1587.

        [4] 劉霽,周亞東,高峰,等.一種基于文本語義的網(wǎng)絡(luò)敏感話題識(shí)別方法[J].深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2012,9(3):33-37.

        [5] 賀靈,蔡易超.數(shù)據(jù)挖掘中的聚類算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2013,24(1):10-13.

        [6] 劉宏偉.分布式海量數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].西安電子科技大學(xué),2012.

        [7] 陳彥舟,曹金璇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(4):18-22.

        [8] 鄒鴻程.微博話題檢測與追蹤技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2012.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        水蜜桃亚洲一二三四在线| 久久精品蜜桃美女av| 亚洲国产精品区在线观看| 日韩精品中文字幕综合| va精品人妻一区二区三区| 国产精品亚洲精品日韩已方 | 在线亚洲精品一区二区三区| 丰满人妻猛进入中文字幕| 国产精品激情| 欧美成人免费高清视频 | 久久久亚洲一区二区三区| 色婷婷精品久久二区二区蜜桃| 中文字幕久久久人妻无码| 91视频88av| 手机在线免费看av网站| 成人国产激情自拍视频| 男人进去女人爽免费视频| 99热在线精品播放| 亚洲综合免费在线视频| 风韵丰满熟妇啪啪区99杏| 丰满少妇a级毛片野外| 日本欧美国产精品| 中文字幕亚洲精品一二三区| 国产视频自拍一区在线观看| 国产精品久久久久久久久岛| 亚洲精品黄网在线观看| 久久久精品久久久国产| 亚洲国产成人精品无码区在线播放 | 欧美在线观看www| 日本免费一区二区在线看片| 女的扒开尿口让男人桶30分钟| 污污污污污污WWW网站免费| 99久久无色码中文字幕鲁信| 美女视频一区二区三区在线| 97久久草草超级碰碰碰| 91av视频在线| 日韩字幕无线乱码免费| 中文字幕av中文字无码亚| 无码中文字幕人妻在线一区二区三区| 国产美女被遭强高潮露开双腿| 久久久精品人妻一区二区三区游戏|