亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校BBS教育輿情的時(shí)空特征模型構(gòu)建和熱點(diǎn)發(fā)現(xiàn)
        ——基于南京大學(xué)小百合BBS數(shù)據(jù)集的分析

        2016-02-15 09:00:46王麗英
        現(xiàn)代情報(bào) 2016年1期
        關(guān)鍵詞:回帖頁面輿情

        王麗英

        (南京師范大學(xué)教育技術(shù)系,江蘇南京210097)

        高校BBS教育輿情的時(shí)空特征模型構(gòu)建和熱點(diǎn)發(fā)現(xiàn)
        ——基于南京大學(xué)小百合BBS數(shù)據(jù)集的分析

        王麗英

        (南京師范大學(xué)教育技術(shù)系,江蘇南京210097)

        自媒體時(shí)代網(wǎng)絡(luò)輿情的治理與引導(dǎo)在時(shí)、效、度3個(gè)維度都面臨著巨大的挑戰(zhàn)。針對(duì)高校BBS教育輿情,運(yùn)用網(wǎng)絡(luò)測量學(xué)技術(shù)對(duì)自動(dòng)采集到的南京大學(xué)小百合BBS相關(guān)數(shù)據(jù)集加以分析,構(gòu)建了教育輿情的時(shí)空特征模型。該模型顯示,測量輿情的空間特征和多個(gè)時(shí)間特征能夠有效快速發(fā)現(xiàn)熱點(diǎn)信息。實(shí)驗(yàn)證明,高校BBS教育輿情總體分布比較稀疏,單日活躍用戶數(shù)并不高,并且熱點(diǎn)信息相對(duì)較少、利用顯著的時(shí)空特征易于檢測。

        教育輿情;網(wǎng)絡(luò)測量學(xué);時(shí)空特征模型;熱點(diǎn)發(fā)現(xiàn)

        自媒體時(shí)代網(wǎng)絡(luò)輿情的治理與引導(dǎo)在時(shí)、效、度3個(gè)維度都面臨著巨大的挑戰(zhàn)。自媒體的特點(diǎn)是以用戶生成內(nèi)容和共享為主,但內(nèi)容可信度低,影響力無法確定。由于網(wǎng)絡(luò)空間的開放性,我們無法事先預(yù)知自媒體上輿情傳播演變的時(shí)空特征,也就無法確定監(jiān)控的重點(diǎn)和引導(dǎo)時(shí)機(jī),所以在線實(shí)時(shí)監(jiān)測成為一個(gè)難題。

        自媒體中的論壇采用了主回帖關(guān)聯(lián)的組織方式,沒有用戶關(guān)聯(lián)功能,而且內(nèi)容采用目錄方式呈現(xiàn),結(jié)構(gòu)相對(duì)簡單,所以基于論壇的在線實(shí)時(shí)監(jiān)測相對(duì)容易實(shí)現(xiàn)。由于論壇的開發(fā)技術(shù)相異,如開源的Discuz、BBSXp等,工業(yè)界的軟件難以通用。加之針對(duì)高校BBS的實(shí)時(shí)監(jiān)測和預(yù)警軟件相對(duì)較少,所以亟需開發(fā)針對(duì)性的軟件為校園管理提供輔助支撐。

        1 相關(guān)理論基礎(chǔ)與研究進(jìn)展

        2011年輿情行業(yè)被稱為朝陽行業(yè)。圍繞網(wǎng)絡(luò)媒體的話題檢測與跟蹤、熱點(diǎn)話題發(fā)現(xiàn)、意見領(lǐng)袖挖掘等輿情問題得到了充分研究。相關(guān)的網(wǎng)絡(luò)測量學(xué)、自然語言處理、文本特征表示、機(jī)器學(xué)習(xí)、社會(huì)網(wǎng)絡(luò)分析等理論和算法為內(nèi)容自動(dòng)監(jiān)控提供了重要支持。

        網(wǎng)絡(luò)測量學(xué)是利用網(wǎng)絡(luò)爬蟲采集數(shù)據(jù),對(duì)整體網(wǎng)絡(luò)開展輿情定量統(tǒng)計(jì)、整體監(jiān)測和趨勢分析。樊鵬翼等人[1]對(duì)新浪微博進(jìn)行了網(wǎng)絡(luò)測量,得到小世界拓?fù)涮卣骱陀脩舭l(fā)博時(shí)間的周分布模式。徐恪等人[2]全面綜述網(wǎng)絡(luò)測量學(xué)的相關(guān)技術(shù),闡述了大數(shù)據(jù)分析在線社交網(wǎng)絡(luò)的輿情演化、拓?fù)浣Y(jié)構(gòu)和用戶行為的可行性和典型方法。上述研究拓展了輿情治理和引導(dǎo)的時(shí)、效、度的研究視野,不再停留于歷史抽樣的文本數(shù)據(jù)分析和概念層面。

        很多學(xué)者從傳播學(xué)角度研究網(wǎng)絡(luò)輿情的傳播過程和規(guī)律,發(fā)現(xiàn)熱點(diǎn)。以高校BBS熱點(diǎn)發(fā)現(xiàn)的相關(guān)研究為例,蘭凱梅[3]以主帖的回帖數(shù)、用戶數(shù)和人氣數(shù)的加權(quán)之和作為主題帖的熱度;羅泰曄[4]根據(jù)發(fā)帖量定義活躍用戶,利用用戶回復(fù)關(guān)系計(jì)算點(diǎn)出入度,由此區(qū)分活躍用戶的4種類型;喬文妤等人[5]統(tǒng)計(jì)發(fā)帖數(shù)、回帖數(shù)和回復(fù)率,發(fā)現(xiàn)信息的數(shù)量規(guī)模和活躍話題存在長尾效應(yīng),能夠確定出信息傳播的關(guān)鍵節(jié)點(diǎn)。王君澤等人[6]指出王青從輿情熱度、強(qiáng)度、傾度和生長度4個(gè)指標(biāo)來評(píng)價(jià)輿情,但已有網(wǎng)絡(luò)輿情指標(biāo)體系還不完善,直接影響輿情研判和預(yù)警。

        熱點(diǎn)信息挖掘常見的做法是:通過文本分析提取語義特征、特征表示之后,聚類歸納出主題。其中,語義特征是基于“詞是文本的最小語義單位”來提取的。目前,國內(nèi)學(xué)者廣泛應(yīng)用的自然語言處理二次開發(fā)接口有NLPIR/ICTCLAS漢語分詞、Lucene分詞引擎等,效果都很好。語義特征表示模型主要有向量空間模型VSM、隱含主題概率模型LDA。VSM以詞頻統(tǒng)計(jì)值如TF、TF-IDF或布爾型值作為詞語權(quán)重表示文本。VSM表示容易實(shí)現(xiàn),應(yīng)用廣泛。例如,劉驊等人[7]采用布爾型值作為詞語權(quán)重表示文本,通過凝聚式層次聚類法分析BBS“每日十大熱門話題”標(biāo)題共同的熱點(diǎn);蘭凱梅采用網(wǎng)絡(luò)爬蟲收集論壇文本,用TF-IDF值作為詞語權(quán)重表示文本,應(yīng)用多中心增量聚類來發(fā)現(xiàn)主題帖熱點(diǎn)。VSM存在的問題是,會(huì)丟失詞語之間的語義關(guān)聯(lián)信息,導(dǎo)致文本聚類結(jié)果不夠準(zhǔn)確。與之相比,LDA在文本和詞之間增加了主題層,以主題分布概率作為主題權(quán)重表示文本,所以效果優(yōu)于VSM。比如黃煒[8]就是采用LDA聚類算法感知輿情事件的熱點(diǎn)。上述研究都局限于對(duì)歷史數(shù)據(jù)進(jìn)行線下的主回帖關(guān)聯(lián)分析,無法及時(shí)反映網(wǎng)絡(luò)輿情的實(shí)時(shí)變化。

        國內(nèi)外很多公司、科研單位和媒體本身開展輿情研究,積極應(yīng)對(duì)信息安全和市場營銷的需要,形成了相應(yīng)的輿情監(jiān)控軟件。例如,國外的Buzzlogic、Radian6、TNS Cymdony、Trackur、Reputation Defender等,用于公司、產(chǎn)品、品牌在網(wǎng)頁上的影響力監(jiān)測。在國內(nèi),中科點(diǎn)擊的軍犬、優(yōu)捷信達(dá)的Rank、紅麥聚信的紅麥等軟件,用于政府、企業(yè)等單位輿情重點(diǎn)監(jiān)控;融尚Winshield、互普威盾、歐克深信服、天銳網(wǎng)絡(luò)警、網(wǎng)絡(luò)幽狗、網(wǎng)貓等軟件,主要針對(duì)上網(wǎng)行為、聊天內(nèi)容、郵件等進(jìn)行監(jiān)控。已有的監(jiān)控工具或軟件是通用的,沒有專門的面向教育領(lǐng)域的設(shè)計(jì),缺乏針對(duì)性。

        基于專用軟件的缺乏及網(wǎng)絡(luò)輿情指標(biāo)體系不完善的現(xiàn)狀,本研究試圖運(yùn)用網(wǎng)絡(luò)測量學(xué)技術(shù)解析高校BBS教育輿情傳播的時(shí)空特征,為熱點(diǎn)發(fā)現(xiàn)、實(shí)時(shí)監(jiān)控提供支持。

        2 研究框架

        本研究的基本思路是:首先,對(duì)南京大學(xué)小百合BBS的教育主題相關(guān)的主題帖進(jìn)行自動(dòng)采集;然后對(duì)采集得到的教育輿情數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)測量,建立時(shí)空特征模型;再依據(jù)該模型測量新數(shù)據(jù),以發(fā)現(xiàn)輿情熱點(diǎn)和演變趨勢。

        整個(gè)研究框架包括信息采集、特征模型、特征測量和熱點(diǎn)追蹤4個(gè)步驟,如圖1所示。

        圖1 在線輿情監(jiān)測研究框架

        本研究的技術(shù)路線是:首先,基于網(wǎng)絡(luò)爬蟲構(gòu)建教育輿情采集算法,獲得論壇空間2013年11月2日至2014年5月10日之間的教育主題帖數(shù)據(jù)集;然后,運(yùn)用網(wǎng)絡(luò)測量學(xué)技術(shù)分析教育輿情,構(gòu)建一個(gè)時(shí)空特征模型;最后,運(yùn)用時(shí)空特征指標(biāo)進(jìn)行輿情測量,發(fā)現(xiàn)熱點(diǎn)和引導(dǎo)時(shí)機(jī)。

        3 教育輿情采集算法

        本研究以蘭凱梅的網(wǎng)絡(luò)爬蟲算法為基礎(chǔ),根據(jù)南京大學(xué)的小百合BBS的信息組織結(jié)構(gòu)對(duì)該算法進(jìn)行了相應(yīng)的調(diào)整,形成本研究的教育輿情采集算法。通過頁面爬行、頁面解析、文本結(jié)構(gòu)化等步驟得到教育輿情數(shù)據(jù)集。

        3.1 采集算法流程

        本研究的采集算法流程如圖2所示。其中,初始URL設(shè)為各個(gè)討論區(qū)的匯總頁面,即“全部討論區(qū)”頁面URL。經(jīng)過順序爬行得到各個(gè)討論區(qū)首頁URL,然后并行爬行討論區(qū)首頁URL及其主題帖頁面URL。

        圖2 教育相關(guān)的主題網(wǎng)絡(luò)爬蟲的工作流程

        每個(gè)討論區(qū)首頁采用主題模式和一般模式兩種呈現(xiàn)方式。主題模式以主題帖為單位顯示,主題帖包含主帖及其回帖等全部內(nèi)容。一般模式以用戶帖子為單位顯示,主帖及其回帖分離,需要通過帖子頁面中“同主題閱讀”才能相互關(guān)聯(lián)。因此本研究采用主題模式直接找到關(guān)聯(lián)的主回帖內(nèi)容。

        頁面分析包括內(nèi)容和鏈接的解析和評(píng)價(jià):解析是利用CHttpFile API接口讀取頁面文件,然后定位HTML標(biāo)簽,提取出主題帖信息,包括標(biāo)題、作者、正文、發(fā)表時(shí)間、人氣數(shù)、回帖數(shù)等,存儲(chǔ)到結(jié)構(gòu)化的主題帖數(shù)據(jù)庫中;評(píng)價(jià)包括時(shí)間相關(guān)、主題相關(guān)和重復(fù)數(shù)據(jù)過濾。主題相關(guān)通過標(biāo)題和正文中預(yù)設(shè)主題詞的詞頻統(tǒng)計(jì)進(jìn)行過濾,詞頻越大,相關(guān)度越大,頁面越重要。本研究選取教育相關(guān)的一些主題詞,如學(xué)術(shù)、講座、考試、獎(jiǎng)學(xué)金等,從而聚焦到關(guān)于師生權(quán)益、校園聲譽(yù)等方面的教育輿情監(jiān)控。

        3.2 并行采集策略

        由于論壇帖子數(shù)量龐大,而順序爬行耗時(shí)長、時(shí)效差,所以采用并行爬行加速。如果URL隊(duì)列中的元素不存在爬行的順序依賴關(guān)系,可以認(rèn)為URL具有獨(dú)立性,可以并行爬行和解析。論壇上能并行爬行的URL有兩類:一類是各個(gè)討論區(qū)首頁的URL;另一類是各個(gè)主題帖頁面的URL。據(jù)此設(shè)計(jì)了兩類線程,實(shí)現(xiàn)同進(jìn)程下的多線程并行算法。

        第一類線程負(fù)責(zé)爬行和解析一個(gè)討論區(qū)首頁的URL頁面,提取若干主題帖頁面的URL和“上一頁”的URL。因?yàn)椤吧弦豁摗钡腢RL不符合獨(dú)立性,只能按順序逐頁爬行。如果頁面上不存在“上一頁”URL,則該討論區(qū)的爬行結(jié)束。討論區(qū)逐頁順序爬行的流程圖如圖3所示。主題帖的標(biāo)題是主題相關(guān)的,就把該主題帖頁面的URL加入到待爬行的URL隊(duì)列中。

        第二類線程負(fù)責(zé)解析一個(gè)主題帖頁面,解析過程采用離線方式。離線方式是下載主題帖頁面到本地,留待以后解析。離線方式能夠減少頁面采樣時(shí)差,因?yàn)橹黝}帖的爬行時(shí)刻大致相同,也就是采樣時(shí)刻近似相等。所有主題帖下載到本地的頁面集合構(gòu)成頁面庫,相當(dāng)于某個(gè)時(shí)刻對(duì)論壇的一次快照。與離線方式相比,在線方式邊爬行邊解析,耗時(shí)較長,使得主題帖頁面的采樣時(shí)刻先后相差很大,在此期間會(huì)有新帖發(fā)布的可能,因此在線方式不能收集到同一個(gè)采樣時(shí)刻論壇的真實(shí)數(shù)據(jù)。

        圖3 討論區(qū)主題帖逐頁順序爬行流程圖

        多線程數(shù)量受限于同一個(gè)網(wǎng)站的HTTP請(qǐng)求的次數(shù),所以不能過于頻繁。經(jīng)過實(shí)驗(yàn),將多線程數(shù)量設(shè)置為8個(gè)。

        南京大學(xué)小百合BBS上共有討論區(qū)459個(gè)、用戶數(shù)60 883個(gè)。應(yīng)用上述算法,采集了2013年11月2日之后190天的教育主題帖,總計(jì)帖子數(shù)22 054個(gè)、主帖數(shù)5 172個(gè)、轉(zhuǎn)載帖1 781個(gè),涉及約48%的討論區(qū)(223個(gè))、11%的用戶(6 944個(gè))。

        4 時(shí)空特征模型

        采用網(wǎng)絡(luò)測量學(xué)技術(shù)分析該數(shù)據(jù)集上的教育輿情,形成教育輿情的時(shí)空特征模型。

        4.1 輿情空間特征

        教育輿情的發(fā)帖量在各個(gè)討論區(qū)中的分布并不均勻,常常集中在幾個(gè)討論區(qū)中。數(shù)據(jù)集的討論區(qū)發(fā)帖量統(tǒng)計(jì)如圖4所示。

        圖4 討論區(qū)發(fā)帖量統(tǒng)計(jì)圖

        圖4 (a)顯示出大部分(大于300個(gè))討論區(qū)的發(fā)帖量接近于零,圖4(b)顯示98%的發(fā)帖量位于6.6%的討論區(qū)中。利用教育輿情在討論區(qū)空間的分布特征可以預(yù)測輿情出現(xiàn)的可能性概率。討論區(qū)的教育輿情相關(guān)度的計(jì)算公式為:B=(c1N+c2P)/t,表示時(shí)間t內(nèi)新增帖子數(shù)N和人氣數(shù)P??紤]到回帖數(shù)對(duì)輿情的貢獻(xiàn)權(quán)重比人氣數(shù)的要大得多,本研究取c1=1,c2=0.05。

        討論區(qū)首頁的URL的重要性按照討論區(qū)的輿情相關(guān)度B進(jìn)行評(píng)價(jià),相關(guān)度大的討論區(qū)在監(jiān)控時(shí)窗內(nèi)排序靠前,就會(huì)優(yōu)先采集和監(jiān)控,盡早獲得相關(guān)數(shù)據(jù),而不是在其他討論區(qū)上費(fèi)時(shí)費(fèi)力卻一無所獲。需要說明的是,本研究關(guān)注教育話題,與論壇本身的前一日十大熱門討論區(qū)、各區(qū)十大熱門話題及全站的十大熱門話題不同。

        4.2 輿情時(shí)間特征

        輿情測量的時(shí)間特征如表1所示。

        表1 輿情測量的時(shí)間特征

        4.2.1 生存期、貢獻(xiàn)度和活躍度分析

        主題帖的生存期T以小時(shí)為單位,分段統(tǒng)計(jì)結(jié)果如圖5所示。T=0的主題帖占77.8%,表明主帖是沒有回帖的;T∈[0,24]的主題帖占91.2%。這表明,不同主題帖的生存期有很大差異,大部分持續(xù)時(shí)間短,只有小部分的主題帖具有吸引力,持續(xù)時(shí)間長。

        圖5 主題帖生存期(小時(shí))分段統(tǒng)計(jì)餅圖

        統(tǒng)計(jì)主題帖的貢獻(xiàn)度和生存期的關(guān)系??梢园l(fā)現(xiàn)以下幾點(diǎn):

        (1)生存期長但用戶少、回帖少、人氣少,代表無人問津,貢獻(xiàn)度小。例如,生存期最長的主題帖,標(biāo)題為:“蘇州索法招聘留學(xué)寫作人員(全職)”,生存期T=108天,但R=5,U=1,P=297。

        (2)生存期長、活躍度低的主題帖,其輿情貢獻(xiàn)度小。例如,生存期前10名的主題帖中,9個(gè)主題帖的參與用戶數(shù)U<5?;钴S度低的主題帖還表現(xiàn)為日貢獻(xiàn)度持續(xù)較小。例如,參與用戶數(shù)最多但活躍度低的主題帖,其標(biāo)題為:“招聘,工作地點(diǎn):常州”,其時(shí)間特征指標(biāo)T=68、R=20、U=13、P=1367,日貢獻(xiàn)量為(0,1]:4/4、(1,2]:5/6、(2,6]:1/2或0/2或1/1或0/1、(67,68]:1/1。其中,(0,1]:4/4表示第1天新增用戶數(shù)為4,新增回帖數(shù)為4。

        (3)生存期居中、活躍度A比較高的主題帖,才能進(jìn)入活躍集S,成為監(jiān)測重點(diǎn)。例如,數(shù)據(jù)集中參與用戶數(shù)U>7的主題帖共計(jì)406個(gè),占比7.8%,回帖數(shù)7 332個(gè),其生存期T平均值為3天,取值范圍是1小時(shí)到31天,其中7天之內(nèi)的主題帖占92.7%。

        統(tǒng)計(jì)表明,聯(lián)合多個(gè)時(shí)間特征指標(biāo)可以快速發(fā)現(xiàn)輿情熱點(diǎn)。

        4.2.2 回帖時(shí)間間隔分析

        跟蹤活躍集S中主題帖的回帖發(fā)布的時(shí)間間隔,繪制了活躍度降序排名在第1和100位的主題帖回帖時(shí)間間隔變化圖,如圖6所示。圖6說明,活躍度低的主題帖的回帖時(shí)間間隔大,其線性(紅色)趨勢線的斜率更大。

        假設(shè),主題帖的回帖時(shí)間函數(shù)y=f(x),其中x代表回帖的樓號(hào),y代表時(shí)刻,f(0)表示主帖的發(fā)布時(shí)刻。時(shí)間函數(shù)的一階差分f′(x)表示相鄰兩個(gè)回帖之間的時(shí)間間隔。時(shí)間函數(shù)的二階差分f″(x)表示時(shí)間間隔差分,即時(shí)間間隔變化量,變化量遞增說明活躍度下降,反之活躍度上升。利用時(shí)間間隔變化量與主題貼的活躍度是負(fù)相關(guān)的關(guān)系,對(duì)引導(dǎo)時(shí)機(jī)的時(shí)間窗口進(jìn)行預(yù)測。當(dāng)時(shí)間間隔變化量小于閾值時(shí)進(jìn)入時(shí)間窗,當(dāng)時(shí)間間隔變化量大于閾值時(shí)離開時(shí)間窗。

        最后,按照發(fā)布時(shí)間分24小時(shí)統(tǒng)計(jì)發(fā)帖數(shù),如圖7所示。發(fā)現(xiàn),教育輿情活躍的時(shí)間段在早上9點(diǎn)到夜間24點(diǎn),這是監(jiān)測的重點(diǎn)時(shí)域。

        5 實(shí)驗(yàn)結(jié)果

        采用vc和sql server實(shí)現(xiàn)了針對(duì)南大小百合BBS教育輿情的采集算法和B/S模式的論壇熱點(diǎn)跟蹤系統(tǒng)。

        圖6 回帖時(shí)間間隔變化圖

        圖7 發(fā)帖數(shù)的分時(shí)統(tǒng)計(jì)圖

        每次采集之后,測量本次采集到的數(shù)據(jù)集時(shí)空特征指標(biāo)。指標(biāo)排序靠前、達(dá)到閾值要求的確定為熱點(diǎn)信息。并且熱點(diǎn)信息的采集時(shí)間間隔將被調(diào)小,普通信息的采集時(shí)間間隔將被調(diào)大。作為監(jiān)控重點(diǎn),熱點(diǎn)信息主要包括熱門討論區(qū)、熱門話題和活躍用戶。

        5.1 熱門討論區(qū)

        統(tǒng)計(jì)討論區(qū)的主帖數(shù)、回帖數(shù)和回復(fù)率指標(biāo),降序排名,前十名統(tǒng)計(jì)如果如表2所示。從主帖數(shù)排名發(fā)現(xiàn),“就業(yè)”“創(chuàng)業(yè)與求職”“兼職工作信息”“實(shí)習(xí)”等4個(gè)板塊的信息相對(duì)較多,說明這些版塊是校園信息發(fā)布的重要渠道,信息更新傳播快,對(duì)BBS的貢獻(xiàn)度最大。從回帖數(shù)排名發(fā)現(xiàn),“貼圖版”“創(chuàng)業(yè)與求職”“飛越重洋”3個(gè)版塊的回應(yīng)信息多,說明這些版塊為學(xué)生提供了交流思想的空間?!帮w越重洋”具有較高的回復(fù)率,說明南大學(xué)生對(duì)出國留學(xué)有非常高的意愿,渴望交流,學(xué)校應(yīng)給予相關(guān)指導(dǎo)。在主、回帖數(shù)排名前10的討論區(qū)中,貼圖版是回復(fù)率最高的版塊,說明媒體素材的豐富可以促進(jìn)用戶的深度交流,是在校學(xué)生交流的主要陣地,應(yīng)該成為監(jiān)控的重點(diǎn)。從小百合自身在線人氣排序得出的熱門討論區(qū)(TOP20)看,盡管“百年好合”“女生天地”等版塊排名靠前,但在主、回帖數(shù)和回復(fù)率的指標(biāo)上排名并不靠前,因此可以推斷這兩個(gè)版塊以圍觀人數(shù)居多,不必過多監(jiān)控。

        表2 熱門討論區(qū)排名表

        5.2 熱門話題

        統(tǒng)計(jì)主題帖的回帖數(shù)R、參與用戶數(shù)U、人氣數(shù)P、轉(zhuǎn)載數(shù),降序排名。排名靠前的熱門話題是近期師生共同關(guān)心的學(xué)習(xí)生活事件,包括了用戶的個(gè)人見解和思想交鋒。以2014/5/1和2014/5/7單日發(fā)布的帖子為例,排名居首的主題帖如表3所示。從回帖情況看,BBS上沒有進(jìn)行任何干預(yù)。

        例如2014/5/1的排名首位的熱門主題帖,其回帖情況如表4所示,將“外甥現(xiàn)象”歸因于“慈母多敗兒”有失偏頗。監(jiān)測回帖時(shí)間間隔,設(shè)時(shí)間間隔閾值為10分鐘。當(dāng)時(shí)間間隔小于閾值時(shí),該主題帖進(jìn)入監(jiān)控時(shí)間窗。因此,從21樓開始進(jìn)入監(jiān)控時(shí)間窗,成為預(yù)測的引導(dǎo)時(shí)機(jī)。

        表3 單日熱門主題帖表

        表4 主題帖的回帖時(shí)間表

        5.3 活躍用戶

        統(tǒng)計(jì)用戶發(fā)布的主帖數(shù)M、回帖數(shù)Ru、獲回帖數(shù)R(指用戶發(fā)布的主帖的回帖數(shù)),降序排名,數(shù)值大于閾值的成為活躍用戶。結(jié)合用戶回復(fù)率(Ru/M)以及獲得回復(fù)率(R/M),將活躍用戶細(xì)分為發(fā)帖型、回應(yīng)型和領(lǐng)袖型。發(fā)帖型是用戶回復(fù)率極低,回應(yīng)型是用戶回復(fù)率極高,領(lǐng)袖型是獲得回復(fù)率極高。表5羅列給出了2014年3月前4位活躍用戶的發(fā)帖情況。

        表5 活躍用戶表

        6 結(jié) 論

        高校網(wǎng)絡(luò)空間中,BBS是教育輿情反映比較集中的平臺(tái)。高校BBS教育輿情總體分布比較稀疏,主要反映在熱門討論區(qū)中。單日活躍用戶數(shù)(DAU)并不高,南大BBS的DAU平均只有36.5人/天?;钴S度高的主題帖比例很小,該比例在南大BBS上不到7.8%。這說明,只有少部分主題帖時(shí)空特征顯著,易于檢測。

        本研究根據(jù)一所高校BBS教育輿情數(shù)據(jù)集分析得到時(shí)空特征模型,能夠有效發(fā)現(xiàn)熱點(diǎn),預(yù)測引導(dǎo)時(shí)機(jī)。如果要推廣到其他主題的BBS輿情時(shí)空特征測量、分析,只要修改采集算法中的頁面分析模塊就可以實(shí)現(xiàn),修改難度低,工作量比較小。因此,本研究具有一般意義及普適性價(jià)值。

        盡管本研究具有在線實(shí)時(shí)監(jiān)控輿情的優(yōu)勢,但因?yàn)橹魂P(guān)注輿情傳播的時(shí)空特征,沒有考慮內(nèi)容語義分析,使得結(jié)果不夠全面。進(jìn)一步的工作可以結(jié)合文本內(nèi)容分析的方法,挖掘重大事件,分析敏感異常輿情。

        [1]樊鵬翼,王暉.微博網(wǎng)絡(luò)測量研究[J].計(jì)算機(jī)研究與發(fā)展,2012,49(4):691-699.

        [2]徐恪,張賽,陳昊,等.在線社會(huì)網(wǎng)絡(luò)的測量與分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):165-188.

        [3]蘭凱梅.BBS熱點(diǎn)話題發(fā)現(xiàn)與監(jiān)控系統(tǒng)[D].北京:北京交通大學(xué),2011.

        [4]羅泰曄.高校BBS活躍用戶信息行為分析[J].現(xiàn)代情報(bào),2011,31(1):150-152.

        [5]喬文妤,高冕.高校BBS討論區(qū)內(nèi)信息有序化研究與管理啟示——以南京大學(xué)小百合網(wǎng)站為例[J].圖書情報(bào)工作,2013,57(5):116-120.

        [6]王君澤,方醒,杜洪濤.網(wǎng)絡(luò)輿情分析系統(tǒng)中的支撐技術(shù)研究[J].現(xiàn)代情報(bào),2015,35(8):51-56.

        [7]劉驊,朱慶華.基于標(biāo)題的BBS熱點(diǎn)話題挖掘——以南京大學(xué)小百合BBS為例[J].現(xiàn)代情報(bào),2013,33(1):162-164.

        [8]黃煒,姚嘉威.網(wǎng)絡(luò)輿情事件的主動(dòng)感知實(shí)踐[J].現(xiàn)代情報(bào),2015,35(10):7-11.

        (本文責(zé)任編輯:郭沫含)

        Construction of Spatial-Time Feature Model for Educational Public Opinion on University BBS and Hot Opinion Detection—Analysis of Nanjing University Lily BBS Dataset

        Wang Liying
        (Department of Educational Techenology,Nanjing Normal University,Nanjing 210097,China)

        The governance and guidance of public opinion on Internet self-media are facing with big challenge in three dimentions of time effect and degree.For educational public opinion on university BBS,the network measurement technology is applied to analyze the related dataset,which is gathered automaticly from Nanjing University Lily BBS for a half year.A spatial-time feature model for educational public opinion is built,which indicates that it is effective to rapidly detect hot opinion from spatial and multiple time features.Experiments showed that educational public opinion on university BBS distributes very sparse,related day active user number is not high,hot opinion is relatively few and easy to be detected from its prominent spatial-time features.

        educational public opinion;network measurement;spatial-time feature model;hot opinion detection

        10.3969/j.issn.1008-0821.2016.01.015

        G250.73

        A

        1008-0821(2016)01-0084-07

        2015-10-20

        江蘇省高校哲學(xué)社會(huì)科學(xué)研究基金“高校網(wǎng)絡(luò)教育輿情的熱點(diǎn)信息挖掘與異常監(jiān)測”(項(xiàng)目編號(hào):2011SJB880029)。

        王麗英(1976-),女,講師,博士,研究方向:網(wǎng)絡(luò)信息安全、計(jì)算機(jī)圖形學(xué)。

        猜你喜歡
        回帖頁面輿情
        大狗熊在睡覺
        刷新生活的頁面
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        “術(shù)”材擴(kuò)用·善意回帖
        善意回帖:韓國教授的民間努力
        世界博覽(2014年14期)2015-03-25 20:20:15
        微博的輿情控制與言論自由
        同一Word文檔 縱橫頁面并存
        淺析ASP.NET頁面導(dǎo)航技術(shù)
        99热免费精品| 熟妇人妻AV中文字幕老熟妇| 无码国产激情在线观看| 中国人妻与老外黑人| 熟女精品视频一区二区三区| 日韩精品无码一区二区三区视频| 91久久精品国产91久久| 久久99精品中文字幕在| 精品国产亚洲av成人一区| 隔壁的日本人妻bd高清中字| 有坂深雪中文字幕亚洲中文| 国产国语亲子伦亲子| 亚洲av无码一区二区乱孑伦as| 亚洲av无码一区二区三区网站| 69av视频在线| 亚洲视频观看一区二区| 天堂蜜桃视频在线观看| 免费不卡无码av在线观看| 精品亚洲成a人片在线观看| 精品国产乱码久久久软件下载 | 日本边添边摸边做边爱喷水| 97精品一区二区视频在线观看| 91精品福利一区二区| 日韩人妻无码中文字幕一区| 伊人久久亚洲综合av影院| 免费人成视网站在线剧情| 在线看无码的免费网站| 久久老子午夜精品无码怎么打| 亚洲区小说区图片区qvod伊| 富婆叫鸭一区二区三区| 国产精品国三级国产a| 97在线视频免费人妻| 亚洲老妇色熟女老太| 亚洲综合偷自成人网第页色| 免费女同毛片在线不卡| 综合国产婷婷精品久久99之一| 狠狠色综合7777久夜色撩人| 伊人久久综合精品无码av专区| 最新永久免费AV网站| 中文字幕有码在线亚洲 | 久久99国产亚洲高清观看韩国|