亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類(lèi)定量分析的微博輿情監(jiān)測(cè)與預(yù)警

        2017-04-25 06:28:20李立煊
        傳媒 2017年7期
        關(guān)鍵詞:領(lǐng)袖輿情消息

        文/李立煊

        基于聚類(lèi)定量分析的微博輿情監(jiān)測(cè)與預(yù)警

        文/李立煊

        隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和時(shí)代的進(jìn)步,微博輿情逐漸進(jìn)入大眾的視野,微博輿情在一定程度反映了民情民意,因此,如何更好地對(duì)網(wǎng)絡(luò)輿情進(jìn)行引導(dǎo)和控制,并進(jìn)行輿情的風(fēng)險(xiǎn)預(yù)警成為目前亟待解決的問(wèn)題。本文以微博消息為研究對(duì)象,基于K-means算法完成對(duì)微博消息的聚類(lèi)定量分析,找到所要分析的某類(lèi)微博內(nèi)容,進(jìn)而在這類(lèi)微博中找出微博消息意見(jiàn)領(lǐng)袖,提出微博意見(jiàn)領(lǐng)袖影響力評(píng)估算法,完成微博消息預(yù)警模塊的實(shí)現(xiàn),對(duì)微博輿情監(jiān)測(cè)分析系統(tǒng)進(jìn)行研究。

        微博輿情 監(jiān)測(cè)分析 K-means算法 聚類(lèi)定量分析

        網(wǎng)絡(luò)輿情的重要性已經(jīng)毋庸置疑,有關(guān)網(wǎng)絡(luò)輿情管理與檢測(cè)的研究也日趨成熟,有關(guān)網(wǎng)絡(luò)輿情管理與監(jiān)測(cè)的系統(tǒng)越來(lái)越多,微博輿情的分析平臺(tái)也隨之出現(xiàn),不過(guò)多數(shù)是為政府和企業(yè)服務(wù),其僅對(duì)有可能爆發(fā)的負(fù)面信息和重大事件進(jìn)行監(jiān)控,不對(duì)普通用戶開(kāi)放,而有關(guān)微博消息的分析軟件不但費(fèi)用昂貴而且只是對(duì)信息的已傳播軌跡進(jìn)行呈現(xiàn)和分析,既缺乏對(duì)微博消息未來(lái)走向的一個(gè)分析預(yù)測(cè),也沒(méi)有對(duì)微博消息傳播范圍廣度的分級(jí)。

        對(duì)于微博輿情的監(jiān)測(cè)是要對(duì)微博內(nèi)容進(jìn)行聚類(lèi)分析,所謂聚類(lèi),就是一個(gè)集群的集合。聚類(lèi)的目的是找到對(duì)象組,進(jìn)而通過(guò)數(shù)據(jù)分析確定對(duì)數(shù)據(jù)分析有用的群體。國(guó)內(nèi)學(xué)者對(duì)微博聚類(lèi)方法進(jìn)行的研究,主要采用劃分法、層次法、基于密度方法、網(wǎng)格方法、模型方法等,其中劃分法作為一種主流的聚類(lèi)分析方法進(jìn)行初步分類(lèi),并采用不斷迭代的方法優(yōu)化分組方案,目前劃分法大都采用定性分析方法,諸如Vlan等方法,對(duì)定量分析的方法尚未有文獻(xiàn)提及。

        一、微博消息的傳播類(lèi)型

        1.微博消息傳播的特點(diǎn)。微博消息的傳播具有直接性、互動(dòng)性以及突發(fā)性等特點(diǎn),微博網(wǎng)絡(luò)輿情的這三個(gè)典型特點(diǎn),可以看出它與其他輿情傳播存在著顯著差別,而想要對(duì)微博輿情進(jìn)行管理,必須很好的利用這三種特點(diǎn)。

        2.微博用戶狀態(tài)。在調(diào)研文獻(xiàn)時(shí),病毒在傳播的時(shí)候會(huì)出現(xiàn)三種用戶狀態(tài):感染態(tài)、免疫態(tài)、易感染態(tài)。由于病毒傳播與微博消息的傳播相似性,假設(shè)一個(gè)用戶發(fā)布一條消息后,他的粉絲用戶都一定會(huì)看到這條消息,類(lèi)比病毒傳播的三種狀態(tài),將微博用戶也分為三種狀態(tài):未知狀態(tài)、轉(zhuǎn)發(fā)狀態(tài)、已知不傳播狀態(tài)(見(jiàn)圖1)。

        圖1 微博用戶狀態(tài)圖

        3.微博意見(jiàn)領(lǐng)袖。微博意見(jiàn)領(lǐng)袖的粉絲數(shù)量通常為上萬(wàn)甚至幾十萬(wàn)乃至上百萬(wàn),成為微博平臺(tái)上的明星,他們常通過(guò)與粉絲互動(dòng)引導(dǎo)輿情導(dǎo)向。不過(guò)轉(zhuǎn)發(fā)量并不是判斷意見(jiàn)領(lǐng)袖影響力的唯一標(biāo)準(zhǔn),粉絲數(shù)、轉(zhuǎn)發(fā)率以及活躍程度均是評(píng)估意見(jiàn)領(lǐng)袖影響力的重要參考標(biāo)準(zhǔn),通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)結(jié)果的總結(jié),可以得出評(píng)估用戶影響力的標(biāo)準(zhǔn):粉絲數(shù)、轉(zhuǎn)發(fā)率、歷史轉(zhuǎn)發(fā)率(該用戶的活躍程度)。

        4.微博傳播模型。微博的傳播模型具有很強(qiáng)的單向性,類(lèi)似病毒的傳播,病毒感染一臺(tái)主機(jī)則這臺(tái)主機(jī)進(jìn)入感染態(tài),而感染一臺(tái)服務(wù)器,則訪問(wèn)這臺(tái)服務(wù)器的所有主機(jī)都會(huì)了解這個(gè)病毒,或感染或免疫。微博中消息傳播也是如此,普通用戶相當(dāng)于終端,而微博意見(jiàn)領(lǐng)袖則相當(dāng)于服務(wù)器,區(qū)別在于,消息的接受是被動(dòng)的,只要登錄微博就能看到關(guān)注者的消息,而不像用戶一樣需要登錄服務(wù)器。

        對(duì)微博數(shù)據(jù)的抓取分析可以看到,微博中大V領(lǐng)袖的意見(jiàn)引導(dǎo)著大多數(shù)用戶的意見(jiàn)。在微博信息傳播初期,微博大V的加入會(huì)使消息傳播呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),隨著傳播時(shí)間的不斷增長(zhǎng),微博大V的影響力逐漸衰弱,慢慢趨向于消失。

        通過(guò)對(duì)數(shù)據(jù)分析可以發(fā)現(xiàn),消息的傳播廣度與初始微博意見(jiàn)領(lǐng)袖加入的多少有一定關(guān)系,當(dāng)單位時(shí)間內(nèi)意見(jiàn)領(lǐng)袖的影響力達(dá)到了一個(gè)閾值M后,可以認(rèn)為在之后的一段時(shí)間內(nèi),此消息的傳播范圍會(huì)有一個(gè)明顯的增長(zhǎng)。通過(guò)研究發(fā)現(xiàn),消息成為熱點(diǎn)有以下三種規(guī)律,每一種都會(huì)在熱點(diǎn)的成長(zhǎng)曲線中出現(xiàn)。對(duì)一個(gè)范圍內(nèi)的微博意見(jiàn)領(lǐng)袖進(jìn)行監(jiān)控,發(fā)現(xiàn)意見(jiàn)領(lǐng)袖對(duì)一條微博消息的轉(zhuǎn)發(fā)比例達(dá)到10%時(shí),可以認(rèn)為此消息會(huì)有一個(gè)廣泛的傳播,會(huì)成為一個(gè)熱點(diǎn)話題;通過(guò)對(duì)已知此消息但未轉(zhuǎn)發(fā)的意見(jiàn)領(lǐng)袖的比例與已知此消息并轉(zhuǎn)發(fā)的意見(jiàn)領(lǐng)袖所占比例的對(duì)比,可實(shí)現(xiàn)對(duì)未來(lái)的微博消息傳播范圍的判斷;在單位時(shí)間內(nèi)(設(shè)為1個(gè)小時(shí))的消息傳播量達(dá)到一個(gè)閾值M后,可以認(rèn)為此消息傳播進(jìn)入爆發(fā)期,會(huì)出現(xiàn)較大增長(zhǎng),通過(guò)設(shè)置不同M值,可對(duì)未來(lái)的消息傳播范圍有一個(gè)大致的分級(jí),不同級(jí)別表示預(yù)測(cè)此消息傳播的最大廣度。從趨勢(shì)分析角度來(lái)說(shuō),以上三種規(guī)律無(wú)論應(yīng)用哪一種均可以對(duì)消息傳播趨勢(shì)做一個(gè)分析,采用多種規(guī)律對(duì)趨勢(shì)分析精度的提升也是有限的,而對(duì)一種規(guī)律分析的足夠透徹已經(jīng)可以達(dá)到一個(gè)接受的趨勢(shì)分析的準(zhǔn)確度了。

        二、基于K-means算法的微博輿情監(jiān)測(cè)分析系統(tǒng)

        1.K-means算法概述。K-means在分群方法中視為一個(gè)最為簡(jiǎn)單并且有效率的方法,K-means表示依K個(gè)質(zhì)心(means)做分群。K-means分群算法能在大量數(shù)據(jù)中找尋出最具代表的數(shù)據(jù)點(diǎn)并將其視為質(zhì)心,也就是分群的中心點(diǎn),而后以這些中心點(diǎn)為根據(jù),計(jì)算其他數(shù)據(jù)點(diǎn)與其中心點(diǎn)之距離,例如在大量的資料中,找尋最具代表的K個(gè)數(shù)據(jù)點(diǎn)作為中心點(diǎn)(也就是質(zhì)心),將其他數(shù)據(jù)點(diǎn)與K的中心點(diǎn)分別做距離運(yùn)算,運(yùn)算后可得知各個(gè)數(shù)據(jù)點(diǎn)與K個(gè)中心點(diǎn)的距離,將數(shù)據(jù)點(diǎn)與其計(jì)算出距離最近的中心點(diǎn)分為同一群,而這些距離較近的數(shù)據(jù)點(diǎn),代表與中心點(diǎn)的相似度高,反之,距離較遠(yuǎn)的為較不相似的數(shù)據(jù)點(diǎn),則不會(huì)被分為同一群。K-means還有另一個(gè)優(yōu)勢(shì),可利用少數(shù)的數(shù)據(jù)點(diǎn)(大量數(shù)據(jù)中選出最具代表性的數(shù)據(jù)點(diǎn))來(lái)代表大量資料,借此達(dá)到數(shù)據(jù)壓縮效果。本研究主要探討K-means分群的效果,以少數(shù)的數(shù)據(jù)點(diǎn)來(lái)代表特定類(lèi)別之?dāng)?shù)據(jù),降低數(shù)據(jù)的計(jì)算量以及避免噪聲或是其他不良的影響(如圖2)。

        圖2 K-means算法流程圖

        2.微博輿情監(jiān)測(cè)分析系統(tǒng)設(shè)計(jì)流程。如圖3所示,獲得關(guān)鍵詞或核心微博后,從數(shù)據(jù)庫(kù)中獲取微博相關(guān)數(shù)據(jù)。將微博內(nèi)容與微博ID掛鉤,用中文分詞系統(tǒng)將微博內(nèi)容進(jìn)行分詞,首先在數(shù)據(jù)庫(kù)中新建一表項(xiàng),用于存儲(chǔ)分詞后的文本內(nèi)容;其次繼續(xù)以微博ID為區(qū)分,將分詞后的文本放入K-means算法中進(jìn)行迭代聚類(lèi),選出關(guān)鍵詞或核心微博所在類(lèi)為相關(guān)微博類(lèi),刪除數(shù)據(jù)庫(kù)中其他無(wú)關(guān)微博;最后可篩選出符合微博意見(jiàn)領(lǐng)袖定義的用戶,進(jìn)入微博意見(jiàn)領(lǐng)袖影響力評(píng)估算法,分析出每個(gè)意見(jiàn)領(lǐng)袖的重要程度。以小時(shí)為單位,計(jì)算單位時(shí)間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定不同等級(jí)閾值M,存在超過(guò)M值的時(shí)間段即可分析預(yù)測(cè)出消息未來(lái)走勢(shì),進(jìn)而將意見(jiàn)領(lǐng)袖重要性在前10名的用戶數(shù)據(jù)反饋數(shù)據(jù)庫(kù),將用戶按時(shí)間順序進(jìn)行排序存儲(chǔ)到數(shù)據(jù)庫(kù)交給管理平臺(tái)進(jìn)行結(jié)果反饋,這就是整個(gè)數(shù)據(jù)分析系統(tǒng)的主要流程。

        圖3 微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)主要流程

        三、微博輿情監(jiān)測(cè)分析系統(tǒng)實(shí)現(xiàn)步驟

        1.微博數(shù)據(jù)轉(zhuǎn)化。向量空間模型廣泛應(yīng)用在信息檢索的相關(guān)領(lǐng)域,例如在文件分類(lèi)與文件分群。其方法是轉(zhuǎn)換文件(或是查詢語(yǔ)句,在本論文中為試題的關(guān)鍵詞)到向量空間后,在此空間中比對(duì)查詢條件與文件的相似度。字詞頻率的公式最早是由Rocchio于1971年所提出,他經(jīng)過(guò)大量的統(tǒng)計(jì)分析后發(fā)現(xiàn),文件中出現(xiàn)次數(shù)為中頻率的字詞,往往是整篇文件中的每一個(gè)不同的詞項(xiàng),在向量中只記錄一個(gè)分量。重要的字詞,或稱為關(guān)鍵詞(Keywords),其中包含以下關(guān)鍵內(nèi)容。一是字詞頻率(Term Frequency,TF):表示在一篇文件中,某個(gè)字詞出現(xiàn)的次數(shù),目的是對(duì)一篇文件中出現(xiàn)次數(shù)為高頻率的字詞加權(quán)。二是文件頻率(Document Frequency,DF):表示某個(gè)字詞有在那幾篇文件出現(xiàn)。三是反文件頻率(Inverse Document Frequency,IDF):將上述的文件頻率取倒數(shù)后乘上所有的文件總數(shù),之后再取自然對(duì)數(shù),目的是為了對(duì)一篇文件中出現(xiàn)次數(shù)為低頻率的字詞作加權(quán)。經(jīng)過(guò)VSM分類(lèi)的文本文檔,可以看做粗略的分類(lèi),不過(guò)不夠精確,所以需要后續(xù)的文本聚類(lèi)的精確分類(lèi)來(lái)確定所需要的微博消息。

        2.K-means聚類(lèi)分析算法流程。輸入:聚類(lèi)個(gè)數(shù) k以及包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集。輸出:滿足目標(biāo)函數(shù)值最小的k個(gè)聚類(lèi)算法流程:第一步從n個(gè)數(shù)據(jù)對(duì)象中任意選擇k個(gè)對(duì)象作為初始聚類(lèi)中心;第二步循環(huán)下述流程第三步到第四步,直到目標(biāo)函數(shù)J取值不再變化;第三步根據(jù)每個(gè)聚類(lèi)對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離,并且根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;第四步重新計(jì)算每個(gè)聚類(lèi)的均值(中心對(duì)象)。

        3.微博意見(jiàn)領(lǐng)袖重要性評(píng)估。從前文中可以知道,微博意見(jiàn)領(lǐng)袖在微博消息傳播中具有重要作用,但對(duì)于影響力大小的衡量需要通過(guò)PageRank算法來(lái)進(jìn)行評(píng)估。

        對(duì)于意見(jiàn)領(lǐng)袖的影響力評(píng)估,通常采用兩個(gè)指標(biāo)進(jìn)行評(píng)估。一是被轉(zhuǎn)發(fā)量,被轉(zhuǎn)發(fā)量通常指用戶信息被他人轉(zhuǎn)發(fā)的次數(shù)。二是粉絲數(shù)量,粉絲數(shù)量就是該用戶吸收粉絲的數(shù)量。

        圖4 意見(jiàn)領(lǐng)袖用戶傳播率

        為了評(píng)價(jià)微博大V對(duì)用戶的影響力,以及覆蓋的人群數(shù)量,本文通過(guò)以上的算法,對(duì)意見(jiàn)領(lǐng)袖累計(jì)覆蓋率進(jìn)行了統(tǒng)計(jì),如圖4所示,從圖中可以看到,意見(jiàn)領(lǐng)袖的信息覆蓋能力超過(guò)一般人群,本文的算法從定量角度上準(zhǔn)確衡量微博大V對(duì)用戶的影響力。

        4.微博輿情預(yù)警模塊。微博消息有兩種傳播模式,一種是常見(jiàn)媒體在用戶中的傳播,一種是微博大V的信息傳播模式,圖5就是兩種方式的轉(zhuǎn)發(fā)量時(shí)間曲線圖,例子選擇則是媒體模式選擇的是南方周末“一名中國(guó)公民在波士頓爆炸案中遇難”的消息傳播。微博達(dá)人模式選擇的是“國(guó)學(xué)大師劉文典說(shuō)過(guò)的一句話”,圖6和圖7選擇的是傳播量時(shí)間曲線圖。其中南方周末微博消息在一天時(shí)間內(nèi)的轉(zhuǎn)發(fā)量為997,傳播用戶量接近500萬(wàn),《南方周末》的粉絲數(shù)量就占了近450萬(wàn),轉(zhuǎn)發(fā)率非常低,但是傳播范圍廣,依然是熱點(diǎn);而微博達(dá)人模式則不一樣,轉(zhuǎn)發(fā)量為724,最終傳播用戶量接近10萬(wàn),在一定范圍內(nèi)也成為了熱點(diǎn),而它的傳播時(shí)間圖就和起點(diǎn)很高的《南方周末》圖形很不一樣,有著較高的轉(zhuǎn)發(fā)率,雖然廣度不及《南方周末》,但也形成熱點(diǎn)話題。從兩種模式的傳播圖形中可以看出,傳統(tǒng)的媒體傳播模式在開(kāi)始的時(shí)候信息傳播數(shù)量猛增,隨后時(shí)間的增長(zhǎng)很快趨近與穩(wěn)定,而微博大V的傳播模式中,信息剛開(kāi)始傳播數(shù)量緩慢增長(zhǎng),隨著微博大V的加入,傳播消息數(shù)量出現(xiàn)猛增,隨著傳播時(shí)間的繼續(xù)增長(zhǎng),逐漸趨近于穩(wěn)定。這兩個(gè)圖形很好的描述了兩種模式的傳播過(guò)程特性。

        圖5 轉(zhuǎn)發(fā)量時(shí)間曲線圖

        圖6 微博達(dá)人模式圖

        圖7 媒體模式傳播圖

        四、小結(jié)

        本文以微博消息為研究對(duì)象,基于K-means算法完成對(duì)微博消息的聚類(lèi)定量分析,找到所要分析的某類(lèi)微博內(nèi)容,進(jìn)而在這類(lèi)微博中找出微博消息意見(jiàn)領(lǐng)袖,提出微博意見(jiàn)領(lǐng)袖影響力評(píng)估算法,完成微博消息預(yù)警模塊的實(shí)現(xiàn),對(duì)微博輿情監(jiān)測(cè)分析系統(tǒng)進(jìn)行研究。

        作者系華中科技大學(xué)公共管理學(xué)院博士、韶關(guān)學(xué)院新聞與傳播學(xué)講師

        [1]張洋,何楚杰,段俊文,楊春程.微博輿情熱點(diǎn)分析系統(tǒng)設(shè)計(jì)研究[J].信息網(wǎng)絡(luò)安全,2012(09).

        [2]H Wang,P Yin,J Yao,JNK Liu.Text feature selection for sentiment classification of Chinese online reviews[J].Journal of Experimental & Theoretical Artificial Intelligence,2013(04).

        [3]唐曉波,宋承偉.基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析[J].情報(bào)學(xué)報(bào),2012(11).

        [4]CS Park.Does Twitter motivate involvement in politics?Tweeting, opinion leadership,and political engagement[J].Computers in Human Behavior,2013(04).

        [5]莫溢,劉盛華,劉悅,程學(xué)旗.一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí)算法[J].中文信息學(xué)報(bào),2012(05).

        [6]D Pelleg,AW Moore.X-means:Extending k-means with efficient estimation of the number of clusters[M].Seventeenth International Conference on Machine Learning,2000.

        [7]李清,沈彤,關(guān)毅.面向大規(guī)模日志數(shù)據(jù)的聚類(lèi)算法研究[J].智能計(jì)算機(jī)與應(yīng)用,2012(05).

        [8]肖宇,許煒,商召璽.微博用戶區(qū)域影響力識(shí)別算法及分析[J].計(jì)算機(jī)科學(xué),2012(09).

        [9]楊春霞,胡丹婷,胡森.微博病毒傳播模型研究[J].計(jì)算機(jī)工程,2012(15).

        [10]李雯靜,許鑫,陳正權(quán).網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計(jì)與分析[J].情報(bào)科學(xué),2009(07).

        [11]高承實(shí),榮星,陳越.微博輿情監(jiān)測(cè)指標(biāo)體系研究[J].情報(bào)雜志,2011(09).

        [12]何黎,何躍,霍葉青.微博用戶特征分析和核心用戶挖掘[J].情報(bào)理論與實(shí)踐,2011(11).

        猜你喜歡
        領(lǐng)袖輿情消息
        領(lǐng)袖風(fēng)范
        黃河之聲(2022年6期)2022-08-26 06:46:04
        咱們的領(lǐng)袖毛澤東
        一張圖看5G消息
        領(lǐng)袖哲學(xué)
        輿情
        輿情
        輿情
        平民領(lǐng)袖
        消息
        消息
        男女搞基视频免费网站| 无码人妻精品一区二区三区在线| 国产精品久久久久久麻豆一区| 国产精品反差婊在线观看| 日韩一级137片内射视频播放| 中国杭州少妇xxxx做受| 免费人成在线观看视频播放 | 麻豆成年视频在线观看| av免费在线国语对白| 亚洲av无码乱码国产一区二区| 色一情一乱一伦一区二区三区| 国产视频最新| 国产成人久久精品二区三区| 五月天中文字幕日韩在线| 国产成人亚洲精品青草天美| 91在线在线啪永久地址| 色视频日本一区二区三区 | 丰满少妇人妻无码| 国产精品久久久久影院嫩草| 国产成人精品日本亚洲专区6| 精品日韩在线观看视频| 少妇高潮av久久久久久| 日韩精品无码一区二区中文字幕| 亚洲乱在线播放| 日本免费看片一区二区三区| 亚洲精品成人网站在线播放| 大地资源网最新在线播放| 蜜桃一区二区免费视频观看 | 无码一区二区波多野结衣播放搜索 | 日韩国产欧美视频| 国产毛片一区二区三区| 在线观看一级黄片天堂| 搡老熟女中国老太| 亚洲天堂av免费在线看| 毛茸茸的女性外淫小视频| 精品国产这么小也不放过| 日韩无码无播放器视频| 国产精品农村妇女一区二区三区| 嫩草伊人久久精品少妇av| 免费a级毛片出奶水| 国产精品无码久久AⅤ人妖|