亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數據挖掘的微博輿情采集及研判研究

        2017-01-25 04:12:50冉朝霞
        中共鄭州市委黨校學報 2017年6期
        關鍵詞:熱點話題研判詞組

        冉朝霞

        (中共鄭州市委黨校 公共管理教研部,河南 鄭州 450042)

        微博成為大數據時代人們獲取信息、交流信息的重要渠道,每天有成千上萬的話題從微博上產生,能快速地從微博海量信息中完成熱點話題的采集,對了解社會發(fā)展形勢、掌握輿論動態(tài)將起到指導性的作用。目前,普遍采用的微博輿情采集技術是通過對特定時間段內特定話題下的微博數量進行對比,通過數量排序找到最熱的微博話題,微博數量越多說明話題活躍程度越高。由于微博數量比對技術是僅對單一話題的微博數量進行統(tǒng)計,因此容易將短時間內大規(guī)模集中發(fā)布的話題誤判為熱點話題。這種技術沒有考慮到微博轉發(fā)數量和微博評論數量對微博話題的影響因素,從而導致有些評論熱烈的微博話題被忽略。此外,數量排序技術也沒有考慮微博認證用戶(加V用戶)的影響因素,認證用戶參與程度越多的事件越是熱門話題。綜上所述,現有的微博輿情大數據采集技術并不能全面、準確地挖掘出微博熱點話題。而基于數據挖掘技術的微博輿情大數據采集框架可以規(guī)避上述技術缺陷,全面、準確地挖掘出微博輿情熱點話題。數據挖掘技術首先對采集到的微博大數據進行分詞處理,并抽取出熱門關鍵詞組,隨后啟動計算模塊,對涉及熱門關鍵詞組的微博數量進行統(tǒng)計,根據微博數量和相應參數進行加權計算,獲得熱門關鍵詞組的熱度值后啟動排序模塊,對熱門微博關鍵詞組熱度值進行排序,從而獲取微博熱點話題排行。

        一、運用數據挖掘技術,創(chuàng)新微博輿情大數據采集模式

        運用數據挖掘技術和數據分析軟件,可以對微博轉發(fā)和評論數據進行抓取、采集,繪制出時間軸和主題分析,全面揭示微博輿情大數據的采集模式及微博熱點話題的挖掘方法。本文以2017年陜西榆林縣“產婦跳樓事件”入手,給出大數據挖掘的實例。

        第一步,利用大數據技術繪制“產婦跳樓事件微博評論轉發(fā)”時間軸是在軟件自動采集到的微博大數據的基礎上運用數據挖掘技術繪制出事件傳播時間軸圖表。從事件發(fā)生的時間節(jié)點可以看出輿論傳播的基本脈絡如下:9月5日大V開始轉發(fā)榆林產婦跳樓事件,引起廣泛討論;9月6日院方再次發(fā)布聲明,公布事件監(jiān)控視頻截圖,引起了更為廣泛的關注,輿論出現一邊倒,聲討產婦家屬;9月7日跳樓產婦的母親做出回應,且院方說法出現前后矛盾,聲援產婦家屬的聲音開始出現;9月8日官方公布調查結果,聲討醫(yī)院之聲漸起;9月9日院方產科副主任和助產士的說辭引發(fā)的社會質疑聲越來越多;9月10日醫(yī)院與產婦家屬達成和解協(xié)議;9月11日院方兩名工作人員被停職?;诖髷祿诰蚣夹g,以4小時為區(qū)間繪制的事件時間軸,可以清晰判斷輿情演進的脈絡和關鍵的轉折點。

        第二步,運用大數據挖掘技術,對榆林產婦跳樓事件在微博傳播中的詞頻進行采集和統(tǒng)計。第一階段(9月5日至9月6日),“怒”“微笑”(貶義)的表情符比例較高,多數民眾在表示對產婦家屬的憤怒;“嫁”“這家”“老婆”“一家人”“媽”“恐婚”等與“家庭關系”相關的詞語比重較大,微博輿論的矛頭直接指向產婦家屬,民眾認為“不該嫁到這樣的家庭”,從而又引發(fā)了對“女性權利”“婆媳關系”“夫妻關系”等問題的相關討論。第二階段(9月7日至9月8日),“責任”“同意”“簽字”“拒絕”“真相”等詞出現,輿論開始對醫(yī)院進行質疑和指責,質疑治療過程中家屬拒絕剖腹產這一說法是否屬實,質疑醫(yī)院沒有承擔相應責任,進而民眾呼吁相關部門公布事件真相。

        第三步,數據挖掘技術在上述詞頻統(tǒng)計的基礎上,繼續(xù)對主題詞進行挖掘分析,以一些規(guī)模較小的網絡為傳播形式,形成聚合的“主題詞話題圈”[1]。

        通過主題分析能夠看出,從9月5日、6日到9月7日、8日,輿論從完全一邊倒的情況到發(fā)生輿情反轉,從指責產婦家屬轉向指責醫(yī)院,由震驚和憤怒等負面垃圾情緒的宣泄轉向理性的討論和反思。

        從上述陜西榆林縣“產婦跳樓事件”大數據挖掘實例可以看出,基于數據挖掘技術的微博輿情大數據采集包括如下幾種模式。

        1.分詞技術與主題詞搜索模式。分詞技術與核心詞搜索是微博大數據挖掘的基礎,分詞技術是將微博內容轉化為結構化向量,針對提交查詢的關鍵詞串進行處理,再根據查詢后的關鍵詞串用各種匹配方法進行分詞的一種技術。分詞技術包括詞語切分、詞語信息標注、內容核心詞和實體詞提取及語義依存分析等。核心詞搜索功能模塊包括內嵌正負面情感極性分析、單點故障容錯、語義聯想搜索、臨近搜索、支持增量索引、自動緩存機制、自動備份與恢復機制、搜索屏蔽與恢復和自動優(yōu)化機制等等。

        2.聚類技術模式。聚類技術主要用于熱點話題的挖掘以及為相關內容推薦提供關聯資源。根據收集的微博內容采用自動聚類的方法對微博進行分類,獲取不同的微博類別。

        3.詞擴展技術模式。聚類技術的效果取決于內容分析的深度。微博的內容比較短,可提取的關鍵信息比較少,做相關運算時容易因為數據稀疏而難以平衡推薦召回率和準確率。因此有必要引入詞擴展技術,優(yōu)化核心詞擴展效果,以此為基礎開展詞聚類的工作,實現推薦召回率和準確率的同步提升。

        4.結構化分析和相關性運算模式。從采集的各微博類別下的微博內容中提取一個或多個中心詞,對從同一微博內容中提取的中心詞進行結構化分析,并將分析后的中心詞進行組合,獲取中心詞組,計算各微博類別下每個中心詞組所涉及的微博數量,并根據微博數量從中心詞組中抽取出各微博類別下的熱門關鍵詞組。運算模塊進一步對同一微博類別下涉及熱門關鍵詞組的微博數量進行統(tǒng)計,并根據微博數量和微博參數進行加權計算,獲取各微博類別下熱門關鍵詞組的熱度值。

        二、運用數據挖掘技術,構建微博輿情大數據研判機制

        運用數據挖掘技術構建微博輿情大數據研判機制要注重以下幾個方面的轉變。

        1.輿情研判主體:由人工型向智能型轉變。輿情收集的智能化、輿情分析的智能化、輿情引導的智能化不僅可以從數據挖掘和分析的層面運用大數據助力輿情研判工作,還可以在輿情處置中整合專家數據庫,把大數據的分析結果與輿情研判專家的經驗相結合,實現人與機器的良性互動溝通機制,從而達到提升微博輿情大數據的實用效能。此外,在實踐中還應注意優(yōu)化和創(chuàng)新人與機器的互動溝通機制,以便更好地發(fā)揮微博輿情大數據在輿情研判中的效用。在大數據的支撐下,輿情研判主體可以建立開放式、可擴展的全息模擬仿真環(huán)境,提供自然、社會與人文的標準化建模,以呈現輿情事件全過程的動態(tài)建模;可以自動獲取微博輿情大數據與其他多源異構數據,實現人工與真實事件系統(tǒng)的交互協(xié)同演化;可以提供基于模擬仿真平臺的綜合集成支持,實現對多種過程與結果的研判。這些都將為輿情研判提供極為有力的輔助作用,也將更有利于微博輿情大數據效用的發(fā)揮。

        2.輿情研判對象:由模糊型向可視型轉變。數據可視化是指將大型數據以圖像形式表示,利用數據分析和開發(fā)工具發(fā)現其中未知信息的處理過程。在大數據時代,作為輿情研判對象,可以通過關聯不同領域、不同維度的微博大數據,利用數據交叉復現和鏈接推送技術還原輿情研判對象多維度的真實信息,實現對輿情研判對象的可視化[2]。針對微博環(huán)境下數據體量大、數據生產速度快、數據類型及內容龐雜等特點,在對微博輿情大數據進行實時、全面、準確地進行分布式處理的同時,還應考慮如何優(yōu)化集群規(guī)模,以便能充分利用各節(jié)點的性能來實現輿情研判對象的可視化。從微博輿情監(jiān)管的角度,還應進一步發(fā)揮大數據的預測功能,將全部相關輿情大數據信息,如網民評論、情緒波動、社會關系等,以量化的形式轉化為可供運算的標準數據,從而實現輿情研判對象由模糊型向可視型的轉變。

        3.輿情研判機制:由控制型向預測型轉變。在輿情研判機制中,需要處理的大多是由人類社會這個復雜開放的巨大系統(tǒng)所產生的超大規(guī)模的各種數據。面對超大規(guī)模的數據,傳統(tǒng)的因果分析方法往往難以奏效,因為整個系統(tǒng)中若干組成部分相互影響,甚至有可能互為因果,故而因果關系隱藏在整個系統(tǒng)之中。傳統(tǒng)的因果分析方法可以很容易實現對采集到的微博輿情大數據進行分類和控制。與傳統(tǒng)的以邏輯推理為基礎的因果分析方法不同的是,基于大數據挖掘技術的輿情研判機制更側重于對數量巨大的數據實施搜索、比對、聚類、分析和歸納,更多關注的是數據之間通過數據挖掘技術才能洞知的隱含的相關關系,即尋找數據集合里隱藏的相關性[3]。建立在這種相關關系基礎之上的預測,正是構建基于大數據挖掘技術微博輿情研判機制的核心議題。

        [1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活工作與思維的大變革[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013.51-58.

        [2]李國杰,程學旗.大數據研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2016,(6).

        [3]李磊,劉繼,張雄魅.基于共現分析的網絡輿情話題發(fā)現及態(tài)勢演化研究[J].情報科學,2016,(1).

        猜你喜歡
        熱點話題研判詞組
        徐州市超前研判 做好春節(jié)安全防范
        研判當前貨幣政策走勢的“量”與“價”
        中國外匯(2019年20期)2019-11-25 09:54:52
        研判當前貨幣政策的“變”與“不變”
        中國外匯(2019年18期)2019-11-25 01:41:48
        2017年高考作文熱點話題預測
        基于CRF文本挖掘的事故研判分析
        基于SVM的熱點話題跟蹤實現過程研究
        副詞和副詞詞組
        熱點話題排行榜
        基于熵值的網絡論壇熱點話題發(fā)現
        計算機工程(2014年6期)2014-02-28 01:28:00
        国产精品99久久不卡二区| 亚洲日本精品一区二区三区 | 亚洲香蕉av一区二区三区| 国产黄三级三级三级三级一区二区| 一本到亚洲av日韩av在线天堂| 少妇爽到高潮免费视频| 伊人久久大香线蕉午夜av| 国产成人喷潮在线观看| 中文无码乱人伦中文视频在线v| 亚洲香蕉成人AV网站在线观看| 国产女高清在线看免费观看| 97无码人妻一区二区三区蜜臀 | 黄色三级国产在线观看| 一本之道久久一区二区三区| 公与淑婷厨房猛烈进出| 十八18禁国产精品www| 丰满人妻妇伦又伦精品国产 | 国语对白做受xxxxx在| 精品无码国产自产野外拍在线| 欧美性猛交xxxx乱大交蜜桃| 亚洲AV无码一区二区三区精神 | 久久久精品视频网站在线观看| 3d动漫精品啪啪一区二区免费| 无码av免费一区二区三区| 本道无码一区二区久久激情| 亚洲av一二三又爽又爽又色| 亚洲成人一区二区av| 丰满少妇高潮惨叫久久久| 国产精品久久久久久久免费看| 国产主播无套内射一区| 中文字幕人妻乱码在线| 亚洲乱码av乱码国产精品| 精品国产一二三产品区别在哪| 亚洲人成无码网www| 国产成人精品免费视频大全| 亚洲女同人妻在线播放| 69国产成人精品午夜福中文| 狠狠色噜噜狠狠狠狠米奇777| 秋霞午夜无码鲁丝片午夜精品| 国产免费视频一区二区| 好看的日韩精品视频在线|