柳向東曹雨婷李利梅
(1.暨南大學(xué)經(jīng)濟(jì)學(xué)院統(tǒng)計(jì)學(xué)系,廣東廣州 510632;2.暨南大學(xué)外國(guó)語(yǔ)學(xué)院,廣東廣州 510632;3.深圳大學(xué)校長(zhǎng)辦公室,廣東深圳 518060)
網(wǎng)絡(luò)影響力預(yù)知模型:一種大數(shù)據(jù)下高校輿情監(jiān)測(cè)與預(yù)警機(jī)制
柳向東1,曹雨婷2,李利梅3
(1.暨南大學(xué)經(jīng)濟(jì)學(xué)院統(tǒng)計(jì)學(xué)系,廣東廣州 510632;2.暨南大學(xué)外國(guó)語(yǔ)學(xué)院,廣東廣州 510632;3.深圳大學(xué)校長(zhǎng)辦公室,廣東深圳 518060)
互聯(lián)網(wǎng)對(duì)高校大學(xué)生的思想傳播模式尤其對(duì)輿情的傳播產(chǎn)生了巨大影響。對(duì)于這樣的新形勢(shì),建立和健全高校大學(xué)生輿情監(jiān)測(cè)與預(yù)警機(jī)制對(duì)于及時(shí)了解大學(xué)生的思想動(dòng)態(tài),分析和解決思想問(wèn)題,為大學(xué)生樹(shù)立正確“三觀”具有重要的意義。本文建立了一種監(jiān)測(cè)大學(xué)生網(wǎng)絡(luò)輿情的模型——基于連續(xù)時(shí)間馬爾科夫過(guò)程的用戶影響力預(yù)知模型,通過(guò)該模型找到高校社交媒體中最具影響力的用戶,鎖定最具影響力的用戶群(關(guān)鍵人物),采用基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類方法,對(duì)該群體進(jìn)行分類,主要分為三類:積極型關(guān)鍵人物、中立型關(guān)鍵人物、消極型關(guān)鍵人物。最后針對(duì)不同類型的關(guān)鍵人物采取不同的措施以達(dá)到對(duì)高校大學(xué)生社交網(wǎng)絡(luò)輿情發(fā)展的監(jiān)測(cè)與預(yù)警。
大數(shù)據(jù);大學(xué)生網(wǎng)絡(luò)輿情;監(jiān)測(cè)預(yù)警;馬爾科夫過(guò)程;文本分類
18世紀(jì)法國(guó)首先提出了“公眾意見(jiàn)”(opinion public)一詞,直到20世紀(jì)初,輿情的概念逐步為多個(gè)國(guó)家使用,輿情理論、輿情調(diào)查學(xué)經(jīng)歷了萌芽期、成長(zhǎng)期、成熟期的演變,成為針對(duì)社會(huì)當(dāng)前運(yùn)行狀態(tài)和未來(lái)發(fā)展進(jìn)行預(yù)測(cè)的重要依據(jù),并據(jù)此適時(shí)地調(diào)整政策以確保社會(huì)持續(xù)的穩(wěn)定運(yùn)行。網(wǎng)絡(luò)輿情是指在各種事件的刺激下,人們通過(guò)互聯(lián)網(wǎng)手段表達(dá)的對(duì)該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合。網(wǎng)絡(luò)輿情涉及的問(wèn)題和事件包羅萬(wàn)象,表達(dá)和傳播的途徑更是千變?nèi)f化。
現(xiàn)今網(wǎng)絡(luò)世界越來(lái)越成為高校大學(xué)生精神生活中的一個(gè)重要方面?;ヂ?lián)網(wǎng)帶動(dòng)了大學(xué)生人際交往方面發(fā)生巨大變化,產(chǎn)生了一種全新的人際關(guān)系模式。在社交網(wǎng)絡(luò)(例如微博、微信、貼吧等)上發(fā)帖、轉(zhuǎn)發(fā)、評(píng)論及參加網(wǎng)絡(luò)調(diào)查、投票等方式已經(jīng)成為高校大學(xué)生社會(huì)生活中極為常見(jiàn)并且相當(dāng)重要的一部分。這種全新的模式對(duì)高校大學(xué)生的社會(huì)適應(yīng)能力和人際交往能力的培養(yǎng)以及世界觀、人生觀、價(jià)值觀、道德觀的形成都產(chǎn)生了強(qiáng)烈的影響。在這種新的模式里,各種社會(huì)思潮、宗教文化不斷涌入,不斷影響著大學(xué)生的思想。大學(xué)生輿情是指在高校圍繞某些事態(tài)的發(fā)生發(fā)展和變化,大學(xué)生在網(wǎng)絡(luò)上表達(dá)和傳播對(duì)國(guó)家管理者產(chǎn)生和持有的社會(huì)政治態(tài)度。由于輿情的本質(zhì)是社會(huì)群體和政府管理者之間關(guān)系的反映,并且高校大學(xué)生是相對(duì)高素質(zhì)、高文化并且思想活躍的群體,因此研究高校網(wǎng)絡(luò)輿情,建立和健全高校大學(xué)生輿情監(jiān)測(cè)和預(yù)警機(jī)制可以了解大學(xué)生的思想動(dòng)態(tài),分析和解決學(xué)生的思想問(wèn)題,優(yōu)化高校思想政治教育機(jī)制,進(jìn)一步可以促進(jìn)社會(huì)穩(wěn)定和發(fā)展。
對(duì)高校網(wǎng)絡(luò)輿情的監(jiān)測(cè)與預(yù)警可以從挖掘網(wǎng)絡(luò)輿情傳播關(guān)鍵人物入手。挖掘關(guān)鍵人物的意義在于:(1)找出關(guān)鍵人物進(jìn)行密切關(guān)注,便于快速及時(shí)發(fā)現(xiàn)問(wèn)題苗頭,有效控制負(fù)面虛假信息的大肆傳播;(2)深入了解高校網(wǎng)絡(luò)輿情的傳播機(jī)制,便于有效傳播健康正面的消息。此處的關(guān)鍵人物可以有以下兩個(gè)定義:第一,可以簡(jiǎn)單將那些擁有最多朋友或者追隨者的用戶定義為最具影響力的用戶。最典型的這一類用戶就是高校的網(wǎng)絡(luò)紅人(貼吧)、知名博主(微博)或者熱門(mén)公眾號(hào)主編(微信),他們通常擁有極大比例的粉絲或者追隨者。第二,也可以針對(duì)社交網(wǎng)絡(luò)中的信息傳播情況來(lái)找出最具有影響力的用戶。例如,如果一個(gè)用戶的信息經(jīng)常被其他用戶轉(zhuǎn)發(fā),就可以認(rèn)為這個(gè)用戶具有比較高的影響力。
面對(duì)社交媒體在高校發(fā)展的新形勢(shì),建立大學(xué)生網(wǎng)絡(luò)輿情的預(yù)警機(jī)制對(duì)于控制網(wǎng)絡(luò)輿情在高校的傳播有著非常重大的意義,而其中挖掘最具影響力用戶是最關(guān)鍵的一個(gè)步驟。找到在高校社交媒體上最具影響力的關(guān)鍵人物,通過(guò)關(guān)鍵人物發(fā)表的一些言論來(lái)判斷出該用戶的思想傾向及其對(duì)周圍人的傾向影響,從而能夠及時(shí)針對(duì)輿情言論采取不同的應(yīng)對(duì)措施,實(shí)現(xiàn)對(duì)高校社交輿情的控制。對(duì)于最具影響力的用戶的挖掘方法被分為兩種,一種是靜態(tài)挖掘,另一種是動(dòng)態(tài)挖掘。
靜態(tài)方法將注意力集中在社交網(wǎng)絡(luò)的靜態(tài)屬性和特征,通常假設(shè)當(dāng)前的社交網(wǎng)絡(luò)是穩(wěn)定的,然后根據(jù)該社交網(wǎng)絡(luò)的屬性來(lái)定義用戶的影響力,通過(guò)其影響力的大小來(lái)挖掘出最具影響力的用戶。
度[1-2]是對(duì)于網(wǎng)絡(luò)上的某一節(jié)點(diǎn)的鄰接節(jié)點(diǎn)的數(shù)量。對(duì)于社交網(wǎng)絡(luò),度是最簡(jiǎn)單的定義靜態(tài)影響力的方法。對(duì)于不同的社交網(wǎng)絡(luò),度的定義方式不同。對(duì)于人人網(wǎng)這類的社交媒體,根據(jù)朋友關(guān)系得到的社交網(wǎng)絡(luò)上的度則是某個(gè)用戶在網(wǎng)絡(luò)中的好友數(shù)量;對(duì)于貼吧這類的社交網(wǎng)絡(luò),根據(jù)回復(fù)關(guān)系得到的度是某個(gè)用戶在網(wǎng)絡(luò)中回復(fù)其他用戶的數(shù)量;對(duì)于微博這類的社交網(wǎng)絡(luò),根據(jù)傳播關(guān)系得到的度是某個(gè)用戶所轉(zhuǎn)發(fā)的其他用戶的總數(shù),另一方面根據(jù)提及關(guān)系得到的度則是某個(gè)用戶在網(wǎng)絡(luò)所提及的用戶的總數(shù)。
接近性核心性其定義的公示如下:
這里指的是網(wǎng)絡(luò)中所有的節(jié)點(diǎn),而d指的是兩個(gè)節(jié)點(diǎn)之間的距離。接近性核心性描述了一個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中到其他所有節(jié)點(diǎn)的距離。離所有其他節(jié)點(diǎn)越近的節(jié)點(diǎn),其影響力越大。
中介性核心性
其中,σst表示從節(jié)點(diǎn)s到t的最短路徑的數(shù)量,而σst(ν)表示從節(jié)點(diǎn)s到t并且經(jīng)過(guò)ν的最短路徑的數(shù)量。
PageRank算法[3]是Stanford大學(xué)研究人員開(kāi)發(fā)的Google搜索引擎的頁(yè)面質(zhì)量評(píng)價(jià)算法,沿用此算法也可對(duì)社交網(wǎng)絡(luò)中最具影響力用戶進(jìn)行挖掘。其定義如下:
其中,neighbor(ν)指代那些在網(wǎng)絡(luò)中直接指向ν的用戶,L(u)指的是從u指出的鏈接數(shù)量,而N指的是網(wǎng)絡(luò)中的用戶數(shù)。
以上四種靜態(tài)挖掘方法都能夠找出高校社交網(wǎng)絡(luò)中最具影響力用戶,但是考慮到現(xiàn)代網(wǎng)絡(luò)的多變性,而靜態(tài)挖掘的前提是假設(shè)社交網(wǎng)絡(luò)的穩(wěn)定性,所以通過(guò)靜態(tài)方法找到的結(jié)果是基于某個(gè)時(shí)點(diǎn)的,是片面的。
動(dòng)態(tài)挖掘方法不僅基于高校社交媒體本身的屬性,而且考慮到網(wǎng)絡(luò)的多變性,根據(jù)其實(shí)時(shí)變化來(lái)及時(shí)調(diào)整運(yùn)算的目標(biāo),實(shí)現(xiàn)在時(shí)間軸上的動(dòng)態(tài)變化。
針對(duì)靜態(tài)挖掘存在的種種不足,本文參考李濤教授提到的動(dòng)態(tài)挖掘用戶影響力的方法[4],探尋更加適合實(shí)際情況的研究方法。
為了挖掘高校社交媒體中最具影響力用戶,首先要建立信息擴(kuò)散模型。常用到的信息擴(kuò)散模型主要包括獨(dú)立級(jí)聯(lián)模型及線性閾值模型。這兩種傳統(tǒng)的信息擴(kuò)散模型都認(rèn)為網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)都有一個(gè)屬性標(biāo)明它是否已經(jīng)被激活,那些被激活的節(jié)點(diǎn)又會(huì)通過(guò)它們?cè)谏缃痪W(wǎng)絡(luò)上的邊將信息擴(kuò)散給其他的節(jié)點(diǎn),這樣信息就得到了傳播與擴(kuò)散。
以上兩種模型存在自身的缺點(diǎn),即假設(shè)社交媒體網(wǎng)絡(luò)的穩(wěn)定性,致力于計(jì)算靜態(tài)的擴(kuò)散概率,為了更貼切實(shí)際社交網(wǎng)絡(luò)情況,基于連續(xù)時(shí)間馬爾科夫過(guò)程的信息擴(kuò)散模型被提出。該模型動(dòng)態(tài)地展現(xiàn)了信息傳播的概率,能更好地模擬現(xiàn)實(shí)世界中信息的擴(kuò)散情況。
(一)馬爾科夫過(guò)程
假設(shè)X(t)代表了一個(gè)t時(shí)間上針對(duì)某一信息的時(shí)間影響力社交網(wǎng)絡(luò)的狀態(tài)。它有在時(shí)間t上發(fā)表或提及該信息的所有用戶。X=X(t),t≥0則構(gòu)成了一個(gè)連續(xù)的馬爾科夫過(guò)程[5]。在這個(gè)馬爾科夫過(guò)程中,一個(gè)用戶提及該信息的概率依賴于該信息在歷史上傳播的情況,而這個(gè)概率實(shí)際上僅僅依賴于在該用戶提及之前其他提及該信息的用戶。這種屬性便是馬爾科夫?qū)傩?,其公式表示如下?/p>
其中,Pij是時(shí)間t內(nèi)從用戶i到用戶j的傳遞概率,即i為當(dāng)前討論該信息用戶,j為下一個(gè)將要討論該信息的用戶。x(μ)表示先于時(shí)間點(diǎn)γ的主題傳播的歷史。假定傳播概率Pij并不依賴于整個(gè)信息傳播過(guò)程中時(shí)間的真正起始值,那基于連續(xù)時(shí)間的馬爾科夫過(guò)程的影響力閾值模型就是時(shí)間其次的,其公式表示如下:
(二)基于馬爾科夫過(guò)程的用戶影響力定義
給定一個(gè)時(shí)間窗口t,為了描述用戶i在該時(shí)間點(diǎn)上對(duì)于一則信息的擴(kuò)散能力,需要估計(jì)該用戶i到其他用戶的傳遞概率(擴(kuò)散概率),該概率能用于最終預(yù)測(cè)用戶i的影響力。對(duì)于用戶i,其在時(shí)間窗口t上的最終推廣數(shù)量可以定義如下:
其中,ni表示用戶在時(shí)間窗口t中可能出現(xiàn)的次數(shù),該參數(shù)可以通過(guò)t線性遞增估計(jì)的辦法得到,同時(shí)可以根據(jù)用戶i在歷史上不同時(shí)間出現(xiàn)的次數(shù)使用回歸模型計(jì)算得到。這里,本文選擇首先計(jì)算傳遞速率矩陣Q,然后通過(guò)Q來(lái)間接得到P(t)。
傳遞速率矩陣Q又被稱為連續(xù)時(shí)間馬爾科夫過(guò)程的無(wú)窮小生成元。它的定義為時(shí)間t無(wú)限接近于0時(shí)P(t)的導(dǎo)數(shù),其公式如下:
在Q中,每一個(gè)條目qij都指代將一個(gè)主題從用戶傳遞到用戶j的速率。Q的每一行的和都是0,每一行均滿足以下條件:
其中,qij反映了從用戶i傳遞到用戶j的傳遞概率的變化。另一方面,qi指代了用戶傳遞到任何其他用戶的速率??梢?jiàn),是計(jì)算其他參數(shù)的基礎(chǔ),為計(jì)算qi,假定用戶i傳播一則信息到其他用戶的時(shí)間服從指數(shù)分布,該指數(shù)分布的速率參數(shù)正是qi[2]。故服從該指數(shù)分布的隨機(jī)變量Ti的期望公式表示如下:
根據(jù)連續(xù)時(shí)間馬爾科夫過(guò)程的理論,用戶i傳遞到用戶j的速率可以表示如下:
其中,m指代歷史上從用戶i傳遞到用戶j的主題的數(shù)量,而tmij表示第m個(gè)主題從用戶i傳遞到用戶j所用時(shí)間。
(四)傳遞概率矩陣的計(jì)算
在計(jì)算到Q矩陣后,傳遞概率矩陣P(t)便可得到。根據(jù)柯?tīng)柲吡_夫向后方程:
通過(guò)代數(shù)變換,以上的公式可以轉(zhuǎn)化為如下的矩陣形式:
3.加強(qiáng)消毒。球蟲(chóng)卵(囊)對(duì)大部分消毒劑均有耐受性,對(duì)空雞舍最好選用火焰消毒法,用具可用熱水、熱蒸汽燙或3%~5%的熱堿水洗。
而這一方程的一般解法是由如下公式給出的:
由于是一個(gè)不可約的隨機(jī)矩陣,我們可以使用泰勒擴(kuò)展來(lái)近似它。所以可以用如下公式來(lái)估計(jì):
我們將(I+Qt/n)的指數(shù)升至一個(gè)足夠大的n,得到P(t)矩陣后,我們便可用于計(jì)算所有用戶的影響力了。根據(jù)他們影響力的排序,我們最終可獲得最具影響力的用戶,本文稱之為關(guān)鍵人物。
基于連續(xù)時(shí)間馬爾科夫過(guò)程的用戶影響力預(yù)知模型得出的關(guān)鍵人物,然后通過(guò)該群體在社交網(wǎng)絡(luò)上發(fā)表的一些言論,對(duì)于信息或主題的一些評(píng)論來(lái)將其進(jìn)行分類。本文采用基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類方法。
(一)基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類
基于機(jī)器學(xué)習(xí)[6]的自動(dòng)文本分類是一種典型的有指導(dǎo)的機(jī)器學(xué)習(xí)問(wèn)題,這可以定義為:根據(jù)一些已分配好類標(biāo)簽(這些類標(biāo)簽預(yù)先定義好)的訓(xùn)練文本集合來(lái)對(duì)新文本分配類標(biāo)簽。一般來(lái)說(shuō),文本分類主要由以下幾個(gè)步驟完成:
1.建立數(shù)據(jù)集
這一步主要是搜集文本,并進(jìn)行預(yù)處理,包括處理亂碼、非文本內(nèi)容等;機(jī)器內(nèi)碼轉(zhuǎn)換;抽取詞干及去停用詞;刪除無(wú)效文本;按類型集進(jìn)行人工分類;按一定比例隨機(jī)劃分訓(xùn)練集和測(cè)試集。
2.建立文本表示模型
即選用什么樣的語(yǔ)言要素(或者說(shuō)文本特征)和用什么樣的數(shù)學(xué)模型組織這些語(yǔ)言要素來(lái)表示文本。目前的文本分類方法和系統(tǒng)大多以詞或詞組作為表征文本語(yǔ)義的語(yǔ)言要素;表示模型主要有布爾模型和向量空間模型。
3.文本特征選擇
即選擇盡可能少而準(zhǔn)確且與文本主題概念密切相關(guān)的文本特征進(jìn)行文本分類。
4.機(jī)器學(xué)習(xí)
在訓(xùn)練集上進(jìn)行機(jī)器學(xué)習(xí),確定分類器的各個(gè)參數(shù),建立分類器。機(jī)器學(xué)習(xí)主要依據(jù)文本的內(nèi)容。
5.測(cè)試
用分類器對(duì)測(cè)試集進(jìn)行分類,得到機(jī)器分類的結(jié)果。測(cè)試有封閉測(cè)試和開(kāi)放測(cè)試。封閉測(cè)試時(shí),測(cè)試集是訓(xùn)練集的一部分;開(kāi)放測(cè)試時(shí),測(cè)試集與訓(xùn)練集是服從同一分布、相互獨(dú)立的兩個(gè)數(shù)據(jù)集。封閉測(cè)試不具有可比性,文本分類中主要采用開(kāi)放測(cè)試。
6.性能評(píng)價(jià)
采用一定的評(píng)價(jià)指標(biāo),對(duì)機(jī)器分類的結(jié)果進(jìn)行評(píng)價(jià)。不符合要求時(shí),需要返回到前面的某一步驟,調(diào)整參數(shù),重新再做。目前使用較多的分類性能評(píng)價(jià)指標(biāo)為查全率和查準(zhǔn)率,這是來(lái)源于信息檢索中的兩個(gè)術(shù)語(yǔ)。目前最常使用的文本分類算法有:kNN分類算法、樸素貝葉斯分類算法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、最大熵等。
(二)用戶群分類
根據(jù)以上的方法,將第二節(jié)所得到的關(guān)鍵人物進(jìn)行分類,分類流程如圖1
根據(jù)以上文本分類方法可以將最近一段時(shí)間內(nèi)在高校大學(xué)生之間傳播的輿情思想傾向進(jìn)行定義和分類,分為“積極”、“中立”和“消極”三類。對(duì)于挖掘出的關(guān)鍵人物,對(duì)其最近一段時(shí)間內(nèi)涉及到的相關(guān)輿情思想傾向類型進(jìn)行統(tǒng)計(jì),選擇占比例最大的類型對(duì)其進(jìn)行定義,可以分為“積極型關(guān)鍵人物”、“中立型關(guān)鍵人物”和“消極型關(guān)鍵人物”。例如,某個(gè)關(guān)鍵人物A近期參與發(fā)布和轉(zhuǎn)發(fā)了100條輿情相關(guān)言論,若其中60條被定義為具有“積極”傾向,則該關(guān)鍵人物被定義為“積極型關(guān)鍵人物”。
對(duì)于“積極型關(guān)鍵人物”,高校思政教育者可對(duì)其進(jìn)行鼓勵(lì),鼓勵(lì)其繼續(xù)對(duì)大學(xué)生積極輿論做出引導(dǎo);對(duì)于“中立型關(guān)鍵人物”,則可以對(duì)其進(jìn)行引導(dǎo),引導(dǎo)其向“積極型關(guān)鍵人物”發(fā)展;而對(duì)于“消極型關(guān)鍵人物”,高校思政教育者則需要重點(diǎn)關(guān)注其行為,并在適當(dāng)?shù)臅r(shí)候與其溝通,盡量轉(zhuǎn)變其思想。
監(jiān)測(cè)和預(yù)警不是目的,而是為了解決問(wèn)題,防范危機(jī)或者風(fēng)險(xiǎn)的發(fā)生。大學(xué)生輿情是高校學(xué)生思想動(dòng)態(tài)變化的晴雨表,通過(guò)互聯(lián)網(wǎng)社交媒體表現(xiàn)得淋漓盡致。通過(guò)分析輿情,及時(shí)發(fā)現(xiàn)問(wèn)題,解決矛盾,有利于促進(jìn)高校和諧和社會(huì)和諧。高校德育工作者在采取上述監(jiān)測(cè)和預(yù)警方法之外還應(yīng)做到以下幾點(diǎn):(1)建立平等的對(duì)話機(jī)制。這對(duì)于融洽教育者與被教育者的關(guān)系,減少不必要的矛盾沖突,把問(wèn)題消解在初級(jí)階段具有不可低估的作用。(2)建立危機(jī)干預(yù)機(jī)制。大學(xué)生社會(huì)經(jīng)驗(yàn)不足,生活閱歷淺,缺乏全面深入辯證的思考能力,常常以偏概全,形成偏激的觀點(diǎn)或思想。必須加強(qiáng)對(duì)網(wǎng)絡(luò)輿情的監(jiān)測(cè),及時(shí)發(fā)現(xiàn)集群行為的苗頭,及時(shí)進(jìn)行危機(jī)干預(yù)。(3)解決思想問(wèn)題與解決實(shí)際問(wèn)題相結(jié)合。在網(wǎng)絡(luò)輿情監(jiān)測(cè)的過(guò)程中應(yīng)當(dāng)發(fā)現(xiàn)學(xué)生最關(guān)心、關(guān)系最密切的實(shí)際問(wèn)題,急學(xué)生之所急,想學(xué)生之所想,把解決思想問(wèn)題與實(shí)踐問(wèn)題結(jié)合在一起。
[1]K.Saito,M.Kimura,K.Ohara,and H.Motoda.Efficient estimation of cumulative influence for multiple activation information diffusion model with continuous time delay[J].In PRACAI 2010:Trends in Artificial Intelligence,Springer,2010,6230:244-255.
[2]肖宇,許煒,張晨,何丹丹.社交網(wǎng)絡(luò)中用戶區(qū)域影響力評(píng)估算法研究[J].微電子學(xué)與計(jì)算機(jī),2012,29(7):58-63.
[3]X.Song,Y.Chi,K.Hino,and B.L.Tseng.Information flow modeling based on diffusion rate for prediction and ranking[J].In Procedings of the 16th international conference on World Wide Web,ACM,2007,25:191-200.
[4]李濤等.數(shù)據(jù)挖掘的應(yīng)用與實(shí)踐——大數(shù)據(jù)時(shí)代的案例分析[M].廈門(mén):廈門(mén)大學(xué)出版社,2013.216-229.
[5]W.J.Anderson.Continuous-timeMarkovchains:An applications-oriented approach[M].Springer-Verlag New York,1991,volume 7.
[6]SebastianiF.Machinelearninginautomatedtext categorization[J].ACM Computing Survey,2002,34(1):1-47.
【責(zé)任編輯:周琍】
Predicting Model in Network Impact:a Monitoring and Warning System for Public Opinion in Universities under Big Data Framework
Liu Xiangdong1,Cao Yuting2,Li Limei3
(1.Department of Statistics,School of Economics,Jinan University,Guangzhou,Guangdong,510632;2.School of Foreign Languages,Jinan University,Guangzhou,Guangdong,510632;3.Office of the President,Shenzhen University,Shenzhen,Guangdong,518060)
The Internet has great impact on the dissemination of ideas,and in particular public opinion,among college students.Under these new circumstances,it is of great significance to build up and gradually improve a monitoring and warning system for public opinion in universities,which will enable us to know how the students think,and address relevant issues in order to help them to establish the correct"three-values".This paper proposes a monitoring system for college student online public opinion,a predicting model of user influence based on the continuous time Markov process,through which we will find the most influential users(key figures)the social network of college students.With an automatic text classification method based on machine learning,the key figures are mainly classified into three categories:positive key figures,neutral key figures,and negative key figures.Finally,the paper proposes some measures in accordance with different types of key figures to promote the development of social networking service for college students.
big data;Internet public opinion;monitoring and warning;Markov process;text categorization
G 647
A
1000-260X(2015)04
2015-03-23
教育部人文社會(huì)科學(xué)研究項(xiàng)目“基于市道輪換框架下帶levy跳的高頻數(shù)據(jù)的波動(dòng)率研究”(14YJAZH052);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金“PMCMC算法在市道輪換框架下利率結(jié)構(gòu)模型中的應(yīng)用”;深圳大學(xué)科研項(xiàng)目“大數(shù)據(jù)環(huán)境下社會(huì)輿情分析、監(jiān)測(cè)與預(yù)警研究——基于特大城市深圳市的研究”(W201402)
柳向東,理學(xué)博士,暨南大學(xué)副教授,主要從事概率統(tǒng)計(jì)在經(jīng)濟(jì)金融領(lǐng)域的研究;曹雨婷,暨南大學(xué)外國(guó)語(yǔ)學(xué)院、經(jīng)濟(jì)學(xué)院雙學(xué)位在讀生;李利梅,深圳大學(xué)高級(jí)統(tǒng)計(jì)師,從事高校統(tǒng)計(jì)研究。