亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高職院校學生網(wǎng)絡輿情分析系統(tǒng)的研究*

        2011-02-02 00:57:20婁建瑋
        濰坊學院學報 2011年2期
        關鍵詞:分類文本學生

        婁建瑋

        (濰坊職業(yè)學院,山東 濰坊 261031)

        0 引言

        隨著社會自由度的逐漸開放和大眾傳媒的進一步普及,輿情(public opinion sentiment)在當前社會的政治和生活中發(fā)揮著越來越重要的作用。合理正確的輿情引導,成為秩序建設的特殊形式,也是構(gòu)建和諧社會的重要組成部分。與此同時,隨著高職院校的院校網(wǎng)絡迅速建設,“網(wǎng)絡化生存”正逐漸成為學生在校生活的重要方式,使得高職院校的校園輿情也出現(xiàn)了與網(wǎng)絡相結(jié)合的新特征。校園輿情同公眾輿情一樣,是大學生作為輿情主體基于自身的某種利益,對校園現(xiàn)實或社會現(xiàn)實的反映和對自身意愿的表達[1]。同時校園論壇已經(jīng)成為學生發(fā)表輿情的重要平臺。

        因此,基于校園論壇建立一個有效的輿情熱點推薦系統(tǒng),通過信息化技術(shù)了解學生當前的思想狀態(tài),幫助學生管理人員快速尋找到當前學生的輿情熱點,并對學生進行恰當?shù)囊龑?對學生管理工作不無裨益。本研究以校園網(wǎng)絡服務器中的論壇數(shù)據(jù)庫話題記錄表為基礎,提出一種基于Web數(shù)據(jù)挖掘的關鍵詞權(quán)重評分協(xié)同過濾聚類算法為主線,來達到匯集輿情熱點的目的。

        1 論壇輿情挖掘中的數(shù)據(jù)過濾

        面對網(wǎng)絡上的海量數(shù)據(jù),首先使用數(shù)據(jù)過濾來解決網(wǎng)絡輿情數(shù)據(jù)信息量大、數(shù)據(jù)噪聲多等問題。以學校服務器上的論壇數(shù)據(jù)庫為基礎,從tb_User表、tb_Topic表、tb_Revert表等數(shù)據(jù)表中使用聯(lián)合查詢獲得相應數(shù)據(jù)。對學生用戶發(fā)表的話題,進行前置轉(zhuǎn)換與處理,將發(fā)表話題ID、發(fā)表用戶登陸名、發(fā)表時間、話題內(nèi)容長度、瀏覽次數(shù)和回復次數(shù)等四項數(shù)據(jù)作為分析的基礎,本文以表1為例進行分析。

        表1 前置處理后的數(shù)據(jù)表

        根據(jù)從服務器數(shù)據(jù)庫中所擷取出的學生所發(fā)表帖子數(shù)據(jù)內(nèi)容特性,可根據(jù)定義數(shù)據(jù)取用的限制條件,過濾出有效的數(shù)據(jù)。而在本研究中,定義了三項限制條件。

        1.1 時間限制

        本研究立足于對當前學生輿情的分析與引導,一般而言,學生關心的輿情熱點存在季節(jié)性的差別,因此本研究首先針對前置處理后的數(shù)據(jù),擷取出2009年的記錄,如表2所示。表2為表1的延續(xù),其中的數(shù)據(jù)僅保留發(fā)表于2009年的話題記錄,其余記錄皆忽略不計。

        表2 時間限制

        1.2 內(nèi)容長度限制

        學生用戶以設定的賬號與密碼登入論壇發(fā)表話題,鑒于每個學生用戶具有不同的發(fā)表目的,具有明確發(fā)表意向的用戶往往會有較多文字內(nèi)容的描述。為了使分析結(jié)果具有較高的參考性,排除部分學生用戶較少字數(shù)話題的干擾項,本研究定義了一個最低內(nèi)容字數(shù)的門坎值,以過濾出為獲得用戶積分而發(fā)表的字數(shù)較少無實際內(nèi)容的話題,如表3所示。表3為表2例子的延續(xù),其中話題字數(shù)小于5個字的,其瀏覽記錄將忽略不計。

        1.3 興趣度限制

        當在論壇上學生對一個話題的瀏覽次數(shù)(點擊率)和回復次數(shù)很高時,我們可以稱學生對該話題具有較高的興趣度。所以本研究定義了一個最低點擊率門坎值,以過濾出點擊率和回復次數(shù)之和低于門坎值的用戶話題,如表4所示。表4為表3的延續(xù),其中學生在論壇上發(fā)表的某個話題如果沒有引起足夠的興趣度即瀏覽次數(shù)和回復數(shù)之和低于12次的,將被忽略。

        表3 內(nèi)容長度限制

        表4 興趣度限制

        根據(jù)本研究所定義的三項限制條件,上述例子最后得到表4的話題瀏覽記錄,大幅降低了待處理的數(shù)據(jù)量。

        如何有效地描述互聯(lián)網(wǎng)輿情指數(shù),如何精確地判定某個網(wǎng)絡突發(fā)事件發(fā)生,如何準確地將網(wǎng)絡突發(fā)事件類別化等等,所有這些問題都源自互聯(lián)網(wǎng)輿情關鍵詞的挖掘技術(shù)。因此,在下個步驟中,要從被選數(shù)據(jù)集中獲得相應的輿情關鍵詞集分類。

        2 輿情關鍵詞集的分類

        2.1 輿情關鍵詞挖掘方法概述

        首先,互聯(lián)網(wǎng)可用的信息源非常豐富,為了避免所研究的問題過于龐雜,我們將網(wǎng)絡輿情的信息源限定到校園網(wǎng)絡服務器的BBS論壇上。BBS最主要的信息傳遞方式是話題的文本信息,為網(wǎng)絡輿情的發(fā)生和變化提供了平臺,因此可以也應當考慮用代表文本信息的特征詞,即輿情關鍵詞對網(wǎng)絡輿情進行必要的描述。從話題的文本信息中挖掘輿情關鍵詞并對其進行必要的分類。

        2.2 輿情關鍵詞集的選取

        本文依據(jù)校園網(wǎng)絡的BBS論壇等文本內(nèi)容均是網(wǎng)絡輿情的直接反映,可以作為語料集的待選信息源。內(nèi)容頁面是用戶感興趣信息的主要載體,一個內(nèi)容頁面中包含了圖像、動畫、音頻、超鏈接等豐富的信息表達方式,但最主要的信息傳遞方式還是正文的文字信息。為了簡單起見,本文只處理正文信息,為此我們將原始語料集中網(wǎng)頁結(jié)構(gòu)信息,以及圖像、動畫、音頻、超鏈接等信息統(tǒng)一屏蔽,僅僅保留原始語料集的正文信息。

        與英文不同,中文詞匯不像英語中的單詞那樣是自然分割的,有的時候是詞和詞之間緊密連接成為短語。句子中的詞匯需要人為地通過語境來切分,短語所表達的意思會因不同的切分方式而與單個的詞語意不同。在短文本串聚類方面,黃永光等人針對近些年來大量出現(xiàn)的聊天語言和手機短信中的短文本,提出了一種面向變異短文本的快速高效的聚類算法,該算法采取特征串抽取方法,并融合了壓縮編碼的思想,從而加快了處理速度,該方法較適合手機短信等不規(guī)范的短文本進行聚類[2]。另外,朱燁行等人為方便BBS瀏覽提取一種新的文本聚類方法,即以分等級的菜單方式組織帖子,該方法類似于找出最長公共特征串,利用頻繁出現(xiàn)的串先聚成小類,再對小類進行合并,進而得到粒度適當?shù)念怺3]。在研究BBS、Blog等短文本聚類時,這些技術(shù)可以有效的得到正確的關鍵詞和關鍵詞短語。

        文獻[4]中給出了如何建立備選網(wǎng)絡輿情關鍵詞語料集,基于統(tǒng)計的中文高頻詞提取,輿情關鍵詞的評價標準、提取算法以及輿情關鍵詞的分類,即網(wǎng)絡輿情關鍵詞挖掘的四個步驟,并在關鍵詞的分類技術(shù)上,給出了一種改進了的k-均值(k-means)聚類分析算法。

        經(jīng)過試驗,我們按照已選定網(wǎng)絡輿情的備選關鍵詞原始語料集的分類目錄分別運行進行改進了的k -均值聚類分析程序,剔除重復的關鍵詞,得到代表網(wǎng)絡輿情的關鍵詞。

        2.3 輿情關鍵詞集的分類

        得到了關鍵詞集以后,為了確定各個關鍵詞分類,選用德爾菲法,根據(jù)濰坊職業(yè)學院信息工程系中具有多年學生管理工作經(jīng)驗的各位輔導員的意見獲得大體的關鍵詞分類,然后統(tǒng)計關鍵詞評估因素分類表如表5所示。

        表5 關鍵詞分類表

        主要分成了六大類評估因素,在每一個大的評估因素里面,為了方便關鍵詞分類,又細分了各個方面的分支,例如,如果關鍵詞屬于對人評價類評估因素中的教師評教類,則它的分類編號為D。得到了關鍵詞的分類表就可以運用關鍵詞項目評分來匯總輿情熱點。

        3 基于關鍵詞評分的協(xié)同過濾算法

        基于詞匯權(quán)重評分的協(xié)同過濾算法的基本思想就是對輿情關鍵詞權(quán)重評分相似的最近鄰居(如果兩個話題文本的輿論方向大體一致,我們就稱其中一個話題文本為另一個目標話題文本的最近鄰居)的聚類算法。該相似度聚類方法基于這樣一個前提:在單一文本中關鍵詞的出現(xiàn)頻數(shù)可以作為用于描述文本的特征向量,如果最近鄰居對相同類別的輿情關鍵詞的權(quán)重評分與目標話題非常相似,則這兩個話題文本屬于同一種輿情方向。

        在基于校園網(wǎng)絡的大型論壇(BBS)系統(tǒng)中,一個比較明顯的問題在于:當學生用戶數(shù)目和發(fā)表的話題數(shù)目增加很快,關鍵詞的評分數(shù)據(jù)卻和大幅增加的學生發(fā)表的話題成反比。在關鍵詞分布極端稀疏的情況下,根據(jù)文獻[5]中提出的基于項目評分聚類的協(xié)同過濾推薦算法(K-means聚類算法)可以有效的根據(jù)關鍵詞的相似性度量對輿情的方向進行聚合。

        4 輿情熱點的推薦

        在數(shù)據(jù)過濾之后,根據(jù)關鍵字庫的分類,分析話題關鍵詞的偏好。通過使用關鍵詞表遍歷數(shù)據(jù)庫,在話題中出現(xiàn)的關鍵詞標記為(關鍵詞類別號,關鍵詞編號),例如(A,14)代表該關鍵詞為A類第14號關鍵詞。在表4的基礎上得到表6。按照話題所包含的某類別的關鍵詞出現(xiàn)次數(shù)為評分標準,在表6的基礎上得到表7。

        表6 話題關鍵詞集合

        表7 關鍵詞評分矩陣

        由于表7為表1一路衍生而來,所以表7中包含的所有話題,均符合文中所定義的時間限制、內(nèi)容長度限制、興趣度限制。

        在整理出目標關鍵詞表和關鍵詞評分矩陣之后,可以把關鍵詞集合評分大體相同的話題聚合在一起,根據(jù)協(xié)同過濾推薦算法,分別計算話題的相似度。Topic08和 Topic10的相似度近似為1,Topic23和 Topic71的相似度為1,因此 Topic10和 Topic71可以作為輿情方向相似項分別與 Topic08、Topic23進行聚合。這樣可以有效減少分析的數(shù)據(jù)量并且不影響數(shù)據(jù)挖掘的結(jié)果,為進一步縮減的結(jié)果,通過以上的方法,可以得到與合并相近性后的話題集合。接著根據(jù)興趣度即點擊率和回復率之和降序擺列,將推薦后興趣度高的話題排放在前面,整理如表8。

        表8 關鍵詞評分聚類后的話題集合

        在每次聚類時,把相同輿情方向中被合并的話題數(shù)目進行記錄,根據(jù)表8操作所得的結(jié)果,將得到的輿情熱點整理如表9所示。

        表9 絡輿情熱點

        5 實驗結(jié)果與分析

        首先從校園服務器上的論壇SQL數(shù)據(jù)庫中取出論壇的話題及回復話題的記錄,共計52750條記錄,接著根據(jù)所定義的限定性條件:

        (1)時間限制:2009年11月份、12月份的記錄

        (2)內(nèi)容長度限制:發(fā)表的話題字數(shù)在10個字以上的。

        (3)興趣度限制:瀏覽和回復次數(shù)在12次以上的。

        過濾后,留下1386條記錄,再使用關鍵詞評分,進行相似度計算,合并相似度近的輿情熱點。(見表10)

        表10 網(wǎng)絡輿情熱點分析

        根據(jù)匯總出2009年11月份、12月份的學生網(wǎng)絡輿情主要方向有:

        (1)部分學生對學校的硬件設備滿意度不高,認為很多學生活動的實施過程形式化,沒有預期的效果。

        (2)部分學生對技能大賽還存在疑惑,不知道自己適合哪個方向,哪個方向能出成績。選方向的時候基本是根據(jù)對指導老師的認可度進行選擇。

        (3)部分學生對2009年11月份的學校獎學金評定過程感覺不公平,獎罰不分明,不少同學對獎學金的評選特別是市級以上獎學金的評選失去信心。

        得到了大體的輿情方向后,班主任、輔導員就可以采取班會、座談會等形式,對學生進行積極的開導和引導。

        [1]陳文舉,夏泉.試論高校輿論引導與和諧校園建設[J].濟南大學學報,2006,16(6):88-95.

        [2]黃永光,劉挺.面向變異短文本的快速聚類算法[J].中文信息學報,2007,21(2):63-68.

        [3]朱燁行,戴冠中.一種文本聚類方法及BBS瀏覽機制研究[J].微電子學與計算機,2006,23(8):55-60.

        [4]趙旭東.互聯(lián)網(wǎng)輿情指數(shù)挖掘方法研究[D].哈爾濱:哈爾濱工業(yè)大學,2007.

        [5]鄧愛林,左子葉,朱揚勇.基于項目聚類的協(xié)同過濾推薦算法[J].小型微型計算機系統(tǒng),2004,24(9):67-68.

        猜你喜歡
        分類文本學生
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        趕不走的學生
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        學生寫話
        學生寫的話
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        少妇高潮免费在线观看| 久久夜色撩人精品国产小说| 欧美在线成人午夜网站| 日韩av在线不卡观看| 日本一区二区三区不卡在线| 秋霞在线视频| 亚洲日韩欧洲无码av夜夜摸| 伊人久久一区二区三区无码| 久久亚洲精精品中文字幕早川悠里 | 在线va免费看成| 中文字幕亚洲好看有码| 我的极品小姨在线观看| 欧美白人战黑吊| 午夜成人无码福利免费视频| 国产高清精品自在线看| 国产熟妇一区二区三区网站| 亚洲综合av一区二区三区蜜桃| 精品成人av一区二区三区| 欧美a在线播放| 国产av一区仑乱久久精品| 亚洲精品在线国产精品| 中国熟妇人妻xxxxx| 2021年最新久久久视精品爱| 亚洲精品综合久久国产二区| 黑人巨大精品欧美| 国产精品欧美成人| 久久亚洲av成人无码软件| 国产福利不卡视频在线| 97se亚洲国产综合在线| 少妇精品久久久一区二区三区| 久久99老妇伦国产熟女高清| 亚洲中文字幕人成乱码在线| 免费视频成人片在线观看| 狠狠久久久久综合网| 99久久免费中文字幕精品| 色视频网站一区二区三区| 精产国品一二三产品蜜桃| 8av国产精品爽爽ⅴa在线观看| 国内国外日产一区二区| 亚洲午夜精品一区二区| 香蕉久久久久久久av网站|