亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博的社會輿情研判與預(yù)警體系構(gòu)建

        2013-10-14 12:52:52張利民鄒姝陽
        卷宗 2013年10期
        關(guān)鍵詞:研判微博輿情

        張利民 鄒姝陽

        摘 要:本研究以新浪微博為主要輿情采集平臺,對微博系統(tǒng)內(nèi)海量信息進行日常性和持續(xù)性的抓取、跟蹤與搜集。本論文針對微博信息傳播特點,充分利用網(wǎng)絡(luò)信息挖掘技術(shù)、計算機中文信息處理技術(shù)、數(shù)據(jù)挖掘技術(shù)等應(yīng)用技術(shù),研究微博輿情監(jiān)測關(guān)鍵技術(shù)及實施方案,力求構(gòu)建適應(yīng)微博特點的網(wǎng)絡(luò)輿情預(yù)警機制。

        關(guān)鍵詞:微博;輿情;研判;預(yù)警

        1 引言

        近年來我國各類突發(fā)事件頻發(fā),社會穩(wěn)定性顯著降低,這不僅直接導(dǎo)致社會經(jīng)濟生活及人身財產(chǎn)安全的重大損失,也極大地危害到社會的穩(wěn)定與發(fā)展。中國社科院在其出版的《社會藍(lán)皮書》一書中,將微博定義為"殺傷力最強的輿論載體",體現(xiàn)了微博輿論的強大影響力。

        本研究來源于北京市大學(xué)生科研創(chuàng)新項目《基于微博的社會輿情研判與預(yù)警》的子項目,試圖以新浪微博為對象,研究微博輿情監(jiān)測關(guān)鍵技術(shù)及實施方案,具體內(nèi)容包括:博文自動抽取、中文分詞、文檔清洗(去停用詞)、中文計算機表達、文檔情感傾向判別、意見領(lǐng)袖識別、綜合輿情判斷等內(nèi)容。

        2 研究過程

        2.1 微博數(shù)據(jù)的自動獲取

        網(wǎng)絡(luò)輿情數(shù)據(jù)獲取是網(wǎng)絡(luò)輿情分析的前提。面對互聯(lián)網(wǎng)的海量信息,迫切需要一種技術(shù)來幫助人們自動從網(wǎng)絡(luò)上獲取相關(guān)信息,從而可以極大地提高人們獲取信息的速度和廣度。網(wǎng)絡(luò)爬蟲(WEB Crawler)是搜索引擎的重要組成部分之一,其作用是為搜索引擎從網(wǎng)絡(luò)中下載所需的網(wǎng)頁。相比網(wǎng)絡(luò)爬蟲,新浪微博的開放API接口可以更加簡潔的獲取相應(yīng)的數(shù)據(jù),本研究即采用新浪微博的API接口作為數(shù)據(jù)挖掘工具。

        ① OAUTH認(rèn)證:使用新浪API前首先須完成用戶認(rèn)證。新浪微博API采用OAUTH認(rèn)證為用戶提供了一個安全的、開放而又簡易的標(biāo)準(zhǔn)。

        ② 新浪微博API接口定義:新浪微博API調(diào)用接口形如:http: //api.t.sina.com.cn/statuses/followers.json? source=appkey&user_id=11051&count=200&cursor=1200。該命令分別指定了新浪API服務(wù)器地址、接口信息具體內(nèi)容及方法;OAUTH認(rèn)證信息、用戶數(shù)字ID、返回記錄的首位置及記錄條數(shù)。

        ③ 微博數(shù)據(jù)抽取器的主要功能包括:用戶登錄驗證,獲取follower微博列表,獲取回復(fù)列表,獲取私信列表,獲取收藏列表等。

        2.2 文本分詞處理及矢量化表示

        ① 中文分詞及詞性標(biāo)注:由于英文文本每個單詞間用空格分開,計算機很容易識別。但對于中文文本,詞語之間無區(qū)分字符,需根據(jù)語義語法來分?jǐn)?。中科院的中文分詞系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞準(zhǔn)確率較高,本研究選取ICTCLAS進行分詞。

        ② 中文文本表示模型:常見的文本表示模型主要有布爾模型、向量空間模型、概率語言模型等。布爾模型采用布爾向量來表示文本,但不能定量反映特征項對于文本的貢獻程度;概率模型用概率值來表示詞在各類文本中出現(xiàn)的概率,但無法處理語言中的長距離依賴;向量空間模型采取TF-IDF值表示特征項的權(quán)值。詞頻TF(Term Frequency)指某一特征詞在當(dāng)前文本出現(xiàn)的相對次數(shù);逆文檔頻率IDF(Inverse Document Frequency)用于評估特征詞的重要性。由于該模型簡易高效,本研究即采用此法表示中文文本。

        2.3 文本清洗(去停用詞)

        停用詞是指文本中出現(xiàn)頻率很高,但實際意義又不大的詞。停用詞大致有兩類,第一類包括語氣助詞、介詞等,如常見的“的”、“地”之類;另一種是在所有文檔中大量出現(xiàn)的詞,如“頂”之類。本研究中使用停用詞表實現(xiàn)對停用詞的過濾功能。

        2.4 文本情感傾向判斷

        輿情立場判別可通過判斷博文的感情傾向得到,最常見的是根據(jù)其包含的褒貶詞匯來進行計算。為獲得文本的情感極性,需首先提取情感詞,本研究基于情感詞詞典的方法來提取情感詞。

        ① 極性詞典的構(gòu)建:詞語除可表達特有的概念外,還能傳達一定的感情色彩。感情色彩大體分為褒義和貶義兩種,褒義如“好,聰明、優(yōu)秀”等,貶義如“壞、鄙夷、惡魔”等。具有褒貶義的詞語集合稱為極性詞典,本研究的極性詞典主要取自《知網(wǎng)》 (HowNet),包括程度級別詞語、正負(fù)面評價詞語、正負(fù)面情感詞語等。

        ② 傾向性分析算法與實現(xiàn)過程:詞語中還有些極性修飾詞,處理時,可給這些修飾詞設(shè)置不同的強度系數(shù)。如定義極性褒義、貶義的原始強度分別為:+1,-1,再定義極性修飾詞“極其/最”的強度系數(shù)為2,則總的情感極性=詞語極性*強度系數(shù)。另有些特殊情況需考慮:句式反轉(zhuǎn)規(guī)則,適用于漢語中表示否定和反問句式,如:“不、不是、非、并非、難道、豈不”引導(dǎo)的句子,另遇到雙引號或單引號括起的情感詞,均應(yīng)對原話中的褒貶義進行反轉(zhuǎn)。感情強化規(guī)則:漢語的感嘆號等可表示情感的增強,故可用感嘆號的數(shù)量來表示感情色彩的強度。

        2.5 意見領(lǐng)袖識別

        社會突發(fā)事件發(fā)生后,微博中會往往會產(chǎn)生群體情緒,其間意見領(lǐng)袖對群體情緒的演化及輿情研判影響極大。據(jù)拉扎菲爾德的定義,意見領(lǐng)袖指在某一主題內(nèi)特別活躍且有極大影響力的用戶,所以本研究從如下兩個方面分析微博意見領(lǐng)袖:用戶影響力和用戶活躍度。

        ① 用戶影響力:微博中有三種交互行為可以作為影響力考慮因素。轉(zhuǎn)發(fā)行為,信息被轉(zhuǎn)發(fā)的次數(shù)越多,產(chǎn)生的影響越大;評論行為,信息得到的評論越多,意味著信息影響的范圍越廣; “@“行為,一個用戶被提及的次數(shù)越多,意味著這個用戶對其他用戶的吸引力越大。

        ② 用戶活躍度:意見領(lǐng)袖要對其他人施加影響,僅僅發(fā)布信息而不參與互動交流是無法影響到人們的觀點和意見。包括:原創(chuàng)微博數(shù)量,代表用戶表達自己思想的愿望;自回帖行為,反映用戶之間的交流活躍度;回復(fù)他人帖子數(shù),反映對其他用戶的言論關(guān)注度;活躍天數(shù),反映用戶對事件的關(guān)注持久度。

        2.6 輿情指標(biāo)體系

        由網(wǎng)絡(luò)的海量個體信息中發(fā)掘群體行為規(guī)律,對確定突發(fā)事件的發(fā)展?fàn)顟B(tài)以及對衍生事件的預(yù)警具有重要價值,可以實現(xiàn)對社會事件高效的輔助決策。本研究將指標(biāo)評價體系劃分為:輿情主體、輿情信息、輿情傳播和輿情受眾4個指標(biāo),細(xì)述如下:

        輿情主體指標(biāo):是指微博所有者的相關(guān)個人身份信息指標(biāo)。

        輿情信息指標(biāo):輿情信息指標(biāo)反映了該輿情的敏感程度、危害程度以及受到關(guān)注的程度。

        輿情傳播指標(biāo):輿情傳播指標(biāo)反映了該輿情在傳播過程中的擴散效果。

        輿情受眾指標(biāo):輿情的受眾指標(biāo)反映了受眾所處的地域,對輿情的共鳴及回應(yīng)態(tài)度。

        3 結(jié)論

        本文依據(jù)微博傳播特點,借助網(wǎng)絡(luò)信息挖掘、計算機中文信息處理等原理及技術(shù),構(gòu)建了一個微博輿情自動監(jiān)測系統(tǒng)的實施方案,并對其關(guān)鍵技術(shù)進行研究。該方案涉及到博文自動抽取、中文分詞、文檔清洗(去停用詞)、中文計算機表達、文檔情感傾向判別、意見領(lǐng)袖識別、綜合輿情判斷等各專項技術(shù),從而可為基于微博內(nèi)容的網(wǎng)絡(luò)輿情自動監(jiān)測及預(yù)警提供準(zhǔn)確的依據(jù)。

        參考文獻

        [1]王曉龍,關(guān)毅.計算機自然語言處理[M].北京:清華大學(xué)出版社,2005.

        [2]劉豐;基于微博的突發(fā)事件檢測和信息傳播建模[D];哈爾濱工業(yè)大學(xué);2011年

        [3]曉龍;突發(fā)事件的互聯(lián)網(wǎng)信息傳播規(guī)律研究[D];哈爾濱工業(yè)大學(xué);2011年

        [4]陳友,程學(xué)旗,楊森. 面向網(wǎng)絡(luò)論壇的突發(fā)話題發(fā)現(xiàn)[J]. 中文信息學(xué)報. 2010(03)

        作者簡介

        張利民,(1964-),女,甘肅蘭州人,1986年畢業(yè)于西北師范大學(xué)政法學(xué)院,獲得學(xué)士學(xué)位,副教授;主要研究方向:汽車技術(shù)服務(wù)與營銷。

        鄒姝陽,(1990-),女,甘肅蘭州人,2013年畢業(yè)于中央財經(jīng)大學(xué),獲得學(xué)士學(xué)位,目前碩士就讀于香港中文大學(xué)新聞與傳播學(xué)院,主要研究方向:財經(jīng)新聞,企業(yè)傳播。

        猜你喜歡
        研判微博輿情
        青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
        徐州市超前研判 做好春節(jié)安全防范
        研判當(dāng)前貨幣政策走勢的“量”與“價”
        中國外匯(2019年20期)2019-11-25 09:54:52
        研判當(dāng)前貨幣政策的“變”與“不變”
        中國外匯(2019年18期)2019-11-25 01:41:48
        基于CRF文本挖掘的事故研判分析
        事實與流言的博弈
        人間(2016年26期)2016-11-03 18:19:04
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        微博的輿情控制與言論自由
        欧美牲交a欧美牲交aⅴ免费下载 | 99久久国产综合精品五月天| 日本黑人亚洲一区二区| 蜜臀av国内精品久久久人妻| 日韩欧美亚洲综合久久影院d3| 亚洲国产精品久久电影欧美| 国产在线精品成人一区二区三区| 日韩欧美亚洲国产一区二区三区| 国产精品成人99一区无码| 好紧好爽免费午夜视频| 中文字幕人妻日韩精品 | 韩国19禁无遮挡啪啪无码网站| 亚洲人精品午夜射精日韩| 一本色道久久亚洲av红楼| 国产在线一区二区视频免费观看| 国产精品国产三级农村妇女| 无码乱人伦一区二区亚洲一 | 久久久中日ab精品综合| 国产亚洲精品精品综合伦理| 丰满人妻一区二区三区免费 | 亚洲熟妇中文字幕日产无码| 亚洲一二三区在线观看| 女人被男人躁得好爽免费视频| 国产香港明星裸体xxxx视频| 国产精品国产三级国产剧情 | 国语对白做受xxxxx在线中国| 久久视频在线| 又黄又爽又色视频| 亚洲中文字幕精品视频| 在线视频播放观看免费| 国内精品视频成人一区二区| 久久永久免费视频| 熟妇人妻无码中文字幕| 久久久无码精品亚洲日韩按摩| 精品亚洲麻豆1区2区3区| 国产精品亚洲av高清二区| 牛仔裤人妻痴汉电车中文字幕| 久久AⅤ天堂Av无码AV| 免费无码又爽又刺激高潮的视频网站 | 国产精品久久熟女吞精| 国产成人精品人人做人人爽|