亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)*

        2014-10-10 07:33:18劉志兵

        劉志兵

        (長(zhǎng)沙大學(xué)附屬中學(xué),湖南長(zhǎng)沙 410022)

        高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)*

        劉志兵

        (長(zhǎng)沙大學(xué)附屬中學(xué),湖南長(zhǎng)沙 410022)

        立足于對(duì)高校網(wǎng)絡(luò)這一校內(nèi)主要輿論平臺(tái)的監(jiān)控的實(shí)際需要,結(jié)合中文信息處理領(lǐng)域中網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)除噪、特征提取、文本分類(lèi)等技術(shù),給出了一種高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方案,并通過(guò)實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的有效性.

        網(wǎng)絡(luò)輿情;數(shù)據(jù)挖掘;網(wǎng)絡(luò)爬蟲(chóng);聚類(lèi)分析

        2014年11月,CNNIC第33次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》表明,至2013年12月,我國(guó)網(wǎng)民已達(dá)到6.18億.在高校校園,網(wǎng)絡(luò)已經(jīng)成為在校大學(xué)生獲取信息、表達(dá)意見(jiàn)、參與社會(huì)事務(wù)的重要平臺(tái),是網(wǎng)絡(luò)社會(huì)的重要力量.在這一虛擬空間里,國(guó)內(nèi)外的一些重大突發(fā)事件以及高校內(nèi)的熱點(diǎn)問(wèn)題都會(huì)在很短時(shí)間內(nèi)引發(fā)在校學(xué)生的關(guān)切,當(dāng)主題逐漸收斂為特定對(duì)象,就形成了網(wǎng)絡(luò)輿情現(xiàn)象.本文將基于網(wǎng)頁(yè)信息挖掘技術(shù),針對(duì)輿情監(jiān)控系統(tǒng)展開(kāi)研究.

        1 網(wǎng)絡(luò)輿情研究現(xiàn)狀

        目前,在國(guó)內(nèi)學(xué)術(shù)界,針對(duì)于“網(wǎng)絡(luò)輿情”這一概念,還沒(méi)有形成統(tǒng)一的認(rèn)識(shí)[1].其中“網(wǎng)絡(luò)輿情是由各種社會(huì)群體構(gòu)成的公眾,在一定的社會(huì)空間內(nèi),對(duì)自己關(guān)心或與自身利益緊密相關(guān)的各種公共事務(wù)所持有的多種情緒、態(tài)度和意見(jiàn)交錯(cuò)的總和”這一表述較為普便認(rèn)同.

        在國(guó)際上,網(wǎng)絡(luò)輿情的研究方向主要有兩個(gè):一是基于自然語(yǔ)言的處理,其關(guān)鍵技術(shù)有中英文分詞技術(shù)和未登錄詞鑒別.而就熱點(diǎn)發(fā)現(xiàn)的研究,基于論壇的信息、環(huán)境、目標(biāo)的共享等多種度量指標(biāo),則采用多維向量技術(shù)來(lái)度量話(huà)題活性的方法.二是利用數(shù)據(jù)挖掘技術(shù),研究熱點(diǎn)的發(fā)現(xiàn).利用網(wǎng)絡(luò)的復(fù)雜特性對(duì)內(nèi)容進(jìn)行分聚類(lèi).該技術(shù)基于網(wǎng)絡(luò)無(wú)尺度網(wǎng)絡(luò),即:Scale-Free,此類(lèi)技術(shù)立足于Web特性和數(shù)據(jù)挖掘.

        2 系統(tǒng)功能實(shí)現(xiàn)分析

        為了測(cè)試系統(tǒng)功能的有效性,將本系統(tǒng)部署在湖南省長(zhǎng)沙某高校校園網(wǎng)絡(luò)內(nèi),輿情分析監(jiān)控系統(tǒng)重點(diǎn)關(guān)校內(nèi)某學(xué)生論壇的輿情數(shù)據(jù).系統(tǒng)開(kāi)發(fā)語(yǔ)言為JAVA;數(shù)據(jù)庫(kù)軟件為MySQL;開(kāi)發(fā)工具為MyEclipes6;采用為B/S架構(gòu),主程序運(yùn)行在Linux 2.6.32環(huán)境中,中間件采用為T(mén)omcat6.0.24,下圖1,為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的工作流程和主要功能模塊.

        2.1 信息采集模塊

        信息采集模塊負(fù)責(zé)本系統(tǒng)的對(duì)校園網(wǎng)上各類(lèi)網(wǎng)站論壇上頁(yè)面的數(shù)據(jù)抓取,并為此后進(jìn)行信息分析提數(shù)據(jù)來(lái)源.在校園網(wǎng)中的各類(lèi)網(wǎng)站、論壇web頁(yè)中,蘊(yùn)涵了非常多的數(shù)據(jù)信息,且此類(lèi)頁(yè)面以半結(jié)構(gòu)化或者是非結(jié)構(gòu)化形式存儲(chǔ)數(shù)據(jù),并處于時(shí)刻更新的狀態(tài),所以,系統(tǒng)就必須具備一個(gè)信息采集模塊,負(fù)責(zé)對(duì)輿情信息進(jìn)行有效收集,其工作流程如下圖2所示.

        圖1 系統(tǒng)工作流程和主要功能模塊

        圖2 系統(tǒng)采集模塊的工作流程

        輿情信息采集是指對(duì)網(wǎng)頁(yè)的抓取和相關(guān)數(shù)據(jù)的存儲(chǔ),網(wǎng)頁(yè)抓取基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù).第一步,利用頁(yè)面數(shù)據(jù)采集器,從初始數(shù)據(jù)集開(kāi)始,將此類(lèi)URL鏈接信息都存儲(chǔ)在一個(gè)有序的、等待收集的隊(duì)列之中;第二步,根據(jù)順序獲取URL信息,定向的所指網(wǎng)頁(yè),并返回得到頁(yè)面文件.第三步,通過(guò)分析已獲取的網(wǎng)頁(yè)鏈接信息,生成下一步需要采集的頁(yè)面的鏈接信息,并再次將其重新放入待采集的隊(duì)列中,通過(guò)不斷重復(fù)以上步驟,直到目標(biāo)網(wǎng)站所有頁(yè)面或者預(yù)設(shè)層級(jí)頁(yè)面被全部抓取.為了提高效率,系統(tǒng)設(shè)計(jì)了幾個(gè)信息采集器并行采集數(shù)據(jù),即多線(xiàn)程地爬行多個(gè)網(wǎng)頁(yè)并存儲(chǔ)網(wǎng)頁(yè)源碼.另外,為提高采集頁(yè)面效率,可使用基于特定主題的定向抓取技術(shù),如:主題網(wǎng)絡(luò)爬蟲(chóng).該技術(shù)是通過(guò)一定的web分析算法,先過(guò)濾掉和指定主題無(wú)關(guān)的URL,再將有用連接信息存入等待抓取的隊(duì)列之中,依據(jù)預(yù)設(shè)主題,對(duì)頁(yè)面連接與已下載內(nèi)容進(jìn)行分析,從而預(yù)測(cè)出,下步需要進(jìn)行抓取的連接以及當(dāng)前web頁(yè)的主題關(guān)聯(lián)性,確保爬蟲(chóng)對(duì)于頁(yè)面下載的有效性.本系統(tǒng)模塊具體要求滿(mǎn)足兩類(lèi)操作,一是對(duì)普通瀏覽網(wǎng)頁(yè)的抓取,二是對(duì)用戶(hù)信息的抓取,采用的技術(shù)主要是網(wǎng)絡(luò)爬蟲(chóng)技術(shù).

        (1)對(duì)網(wǎng)頁(yè)的爬取

        本文系統(tǒng)利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),根據(jù)網(wǎng)頁(yè)或者論壇頁(yè)面結(jié)構(gòu)進(jìn)行過(guò)濾爬取選定的URL所指頁(yè)面,分別存放在系統(tǒng)中的:forum、board、rootboard、post文件夾中.并為后續(xù)信息理提供基礎(chǔ)數(shù)據(jù).具體方法如下:

        設(shè)置爬取深度“1”,對(duì)網(wǎng)站或者論壇頁(yè)面進(jìn)行爬取.URL過(guò)濾規(guī)則是依照對(duì)其鏈接進(jìn)行字符串鑒別.對(duì)符合規(guī)則的爬取下載頁(yè)面,按照時(shí)間分別存放到系統(tǒng)中相應(yīng)文件夾中.

        (2)用戶(hù)信息爬取

        用戶(hù)的信息爬取,必須模擬登陸后方能操作,具體分為模擬登陸和爬取信息兩個(gè)部分.爬取的注冊(cè)用戶(hù)信息格式如下形式:

        2.2 信息預(yù)處理模塊

        在已抓取的頁(yè)面之中,除了有用的正文信息外,還存在大量的其他無(wú)用信息內(nèi)容,如:菜單導(dǎo)航、網(wǎng)站版權(quán)、友情鏈接等,不同于結(jié)構(gòu)化數(shù)據(jù),web中的數(shù)據(jù)多為半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),其形式非常復(fù)雜,所以,一般程序就難以對(duì)此類(lèi)原始數(shù)據(jù)直接進(jìn)行分析和處理.而系統(tǒng)中的信息預(yù)處理模塊,其主要負(fù)責(zé)的工作,就是對(duì)網(wǎng)頁(yè)進(jìn)行無(wú)用信息的清洗除噪,并對(duì)內(nèi)容、特征以及關(guān)鍵詞等進(jìn)行提取工作,下圖3所示,即為此模塊的工作流程.

        圖3 系統(tǒng)信息預(yù)處理模塊流程

        (1)頁(yè)面除噪和內(nèi)容提?。喝缜八?,由于web頁(yè)中含有大量的除正文外的噪聲信息,另外,在頁(yè)面語(yǔ)義內(nèi)聚性上很難保證,一個(gè)網(wǎng)頁(yè)中,往往有若干個(gè)與語(yǔ)義無(wú)關(guān)內(nèi)容,因此首先進(jìn)行頁(yè)面除噪,將對(duì)后續(xù)的數(shù)據(jù)挖掘效果起到非常重要的作用.該項(xiàng)工作的目標(biāo)是從網(wǎng)頁(yè)里獲得更加精確的數(shù)據(jù)信息單位,過(guò)濾掉如:頁(yè)面導(dǎo)航、標(biāo)注、廣告等垃圾信息.在完成除噪后,通過(guò)內(nèi)容提取,系統(tǒng)將半結(jié)構(gòu)或者非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂薪Y(jié)構(gòu)化模式的,且可操作的信息.在本網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)里,內(nèi)容的提取,是依據(jù)以下兩步完成:第一步,web頁(yè)邏輯結(jié)構(gòu)的解釋?zhuān)坏诙?,針?duì)特定元素內(nèi)容的篩擇.

        (2)特征和關(guān)鍵詞提取:特征提取,就是從文本分詞處理后的文檔當(dāng)中,獲取有效信息的技術(shù)方式.經(jīng)常使用的是:基于詞義、詞性特征的提取方法.本系統(tǒng)采用的就是基于詞性的特征提取.第一步,獲取文本內(nèi)容里的動(dòng)詞、名詞等,并將其定義為該文本1級(jí)特征詞,再通過(guò)計(jì)算此級(jí)別特征詞的文本頻數(shù)以及文檔頻數(shù),進(jìn)而得到其權(quán)重值.第二步,依據(jù)先前得到的特征詞的各權(quán)重值,對(duì)此類(lèi)1級(jí)特征詞實(shí)施排序,并預(yù)設(shè)K,為閾值,然后在此類(lèi)詞中,選出權(quán)重值較大的1級(jí)特征詞,K個(gè),作為核心特征詞,進(jìn)而生成表示該文本的特征向量.

        2.3 輿情分析與預(yù)警模塊

        輿情分析是本系統(tǒng)當(dāng)中最為關(guān)鍵的一個(gè)處理模塊,該模塊基于文本分類(lèi)和聚類(lèi)等方法,對(duì)先前預(yù)處理后的輿情數(shù)據(jù)進(jìn)行深入挖掘和分析,并以此提供“話(huà)題發(fā)現(xiàn)”和“熱點(diǎn)跟蹤”,下圖4,即為輿情分析模塊的工作流程.

        圖4 輿情分析功能模塊流程

        (1)話(huà)題發(fā)現(xiàn)與跟蹤:話(huà)題發(fā)現(xiàn)功能是將信息內(nèi)容歸入不同的話(huà)題,并在需要的時(shí)候建立新話(huà)題,等同于無(wú)指導(dǎo)的聚類(lèi);話(huà)題追蹤負(fù)責(zé)追蹤用戶(hù)選定興趣話(huà)題的后續(xù)發(fā)展,判斷出與之相關(guān)事件[4].此類(lèi)功能的實(shí)現(xiàn)采用的是文本聚類(lèi)分析技術(shù).聚類(lèi)分析就參照一定規(guī)律要求對(duì)事物進(jìn)行區(qū)分的過(guò)程,把內(nèi)容相近的文檔進(jìn)行歸納.聚類(lèi)分析,其數(shù)學(xué)描述如下[5]:

        針對(duì)一個(gè)特定的數(shù)據(jù)樣本集合:

        依照集合中數(shù)據(jù)點(diǎn)的相似程度,將數(shù)據(jù)的樣本集合分成若干個(gè)簇

        的過(guò)程,我們就稱(chēng)其為:聚類(lèi)的分析.

        典型應(yīng)用是作為一個(gè)獨(dú)立的工具透視數(shù)據(jù)分布.

        基本步驟如下:

        第一步,指定一個(gè)數(shù)據(jù)集合作為聚類(lèi).

        第二步,選取文檔中的數(shù)據(jù)特征.

        第三步,按照特征,聚合文檔到對(duì)應(yīng)類(lèi).

        第四步,選擇關(guān)鍵詞,對(duì)聚類(lèi)進(jìn)行標(biāo)記.

        在實(shí)際應(yīng)用當(dāng)中,我們最為常見(jiàn)的文本聚類(lèi)算法有基于網(wǎng)格的方法,還有層次型、分割型等聚類(lèi)算法.

        (2)敏感話(huà)題識(shí)別:此項(xiàng)功能,是用于分析特定主題在不同時(shí)段之中,被瀏覽者關(guān)注的程度.在互聯(lián)網(wǎng)里,話(huà)題往往會(huì)根據(jù)時(shí)間的推移,或者某類(lèi)事件的發(fā)生,出現(xiàn)一定的規(guī)律變動(dòng).經(jīng)過(guò)研究,可以發(fā)現(xiàn),小規(guī)模話(huà)題,即使觀點(diǎn)對(duì)立度在一定時(shí)段中變化較快,但因?yàn)槿藗儏⑴c話(huà)題規(guī)模不大,無(wú)法代表多數(shù)人意見(jiàn),故,在進(jìn)行敏感話(huà)題識(shí)別時(shí),就必須還要結(jié)合話(huà)題參與規(guī)模、網(wǎng)民觀注度這些要素,找出輿情在一定時(shí)段中的相關(guān)網(wǎng)頁(yè)數(shù)量,只有能夠都滿(mǎn)足參與規(guī)模數(shù)、觀點(diǎn)對(duì)立度兩個(gè)閾值,系統(tǒng)才可以啟動(dòng)預(yù)警.

        (3)輿情預(yù)警:此模塊提供輿情監(jiān)控系統(tǒng)和用戶(hù)之間的各類(lèi)交互操作,可以通過(guò)報(bào)表、圖型等方式,將經(jīng)過(guò)系統(tǒng)分析后的結(jié)果最終反饋給管理者.其中常見(jiàn)功能如:敏感話(huà)題趨勢(shì)、熱點(diǎn)話(huà)題排序等,系統(tǒng)通過(guò)此類(lèi)直觀交互性展示信息,能使管理者對(duì)各類(lèi)熱點(diǎn)敏感信息的進(jìn)行在線(xiàn)分析,及時(shí)把握輿情變化趨勢(shì),必要時(shí),系統(tǒng)還能實(shí)現(xiàn)預(yù)警的自動(dòng)觸發(fā).而預(yù)警功能是檢驗(yàn)本系統(tǒng)實(shí)際應(yīng)用效果的一個(gè)關(guān)鍵指標(biāo)項(xiàng),為此本系統(tǒng)針對(duì)該模塊功能進(jìn)行了如下評(píng)價(jià)測(cè)試.

        ①評(píng)價(jià)標(biāo)準(zhǔn):輿情預(yù)警能對(duì)系統(tǒng)分析出的熱點(diǎn)詞匯、敏感詞匯等要素對(duì)獲取的網(wǎng)頁(yè)信息進(jìn)行二次處理,并有效提供管理者查詢(xún)分析使用.

        ②實(shí)驗(yàn)環(huán)境:系統(tǒng)針對(duì)特定敏感詞“聚會(huì)”,對(duì)從論壇下載的網(wǎng)頁(yè)進(jìn)行篩選,整理出符合條件的網(wǎng)頁(yè)信息結(jié)果.實(shí)驗(yàn)的硬件配置為戴爾PowerEdge T110塔式服務(wù)器,CPU:Xeon E3-1220,內(nèi)存:1GB,系統(tǒng)環(huán)境:Windows 2003.

        ③結(jié)果分析

        圖5 輿情預(yù)警對(duì)敏感詞的篩選結(jié)果

        以上結(jié)果可以看出,本系統(tǒng)輿情預(yù)警服務(wù)能針對(duì)熱詞、敏感詞、關(guān)鍵字進(jìn)行有效篩選,能為管理者及時(shí)提供預(yù)警信息幫助.

        3 結(jié)語(yǔ)

        加強(qiáng)高校校園網(wǎng)上網(wǎng)站、論壇BBS上的網(wǎng)絡(luò)輿情信息監(jiān)控,及時(shí)追蹤校園網(wǎng)上的輿情變化趨勢(shì),對(duì)于分析在校大學(xué)生的思想行為特點(diǎn),指導(dǎo)學(xué)生身心健康發(fā)展,引導(dǎo)校園文化和輿論的正確走向都具有非常重要的積極作用.本文中涉及的輿情系統(tǒng)經(jīng)過(guò)前期的詳細(xì)論證、認(rèn)真設(shè)計(jì),以及后期的試運(yùn)行分析,已經(jīng)表明系統(tǒng)已具備一定的實(shí)用功效.但由于時(shí)間倉(cāng)促,在系統(tǒng)的實(shí)際應(yīng)用過(guò)程中,我們也發(fā)現(xiàn)了一些問(wèn)題,這也是我認(rèn)在今后需要進(jìn)行重點(diǎn)改進(jìn)的地方:

        (1)系統(tǒng)的輿情分析功能有待加強(qiáng):經(jīng)過(guò)一段時(shí)間的運(yùn)行表明,本系統(tǒng)在一些基本功能方面都已具備,在今后的研究當(dāng)中,“文本傾向性分析”技術(shù)的應(yīng)用和優(yōu)化仍然需要重點(diǎn)進(jìn)行改進(jìn)的內(nèi)容.

        (2)系統(tǒng)擴(kuò)展性有待加強(qiáng):本次工作中所設(shè)計(jì)實(shí)現(xiàn)的網(wǎng)絡(luò)輿情分析監(jiān)控系統(tǒng)主要還是針對(duì)高校普遍采用的論壇架構(gòu)體系而言,雖然能通過(guò)修改相關(guān)XML配置文件和類(lèi)屬性可以實(shí)現(xiàn)對(duì)不同類(lèi)型論壇的分析監(jiān)控,但針對(duì)其他如傳統(tǒng)網(wǎng)站、應(yīng)用日志、非HTTP下載應(yīng)用的信息獲取和分析功能還需要進(jìn)一步完善.

        (3)系統(tǒng)部署通用性和兼容性:本系統(tǒng)主要部署在校內(nèi)服務(wù)器上,并基于Linux操作系統(tǒng)和Tomcat中間件發(fā)布,目前只應(yīng)用于校內(nèi)論壇的輿情信息的監(jiān)控,如需推廣應(yīng)用,系統(tǒng)就必須綜合考慮不同網(wǎng)絡(luò)環(huán)境、系統(tǒng)架構(gòu)下的兼容性和通用性.

        [1]姚占雷,許鑫,趙路平.2005-2009年國(guó)內(nèi)網(wǎng)絡(luò)輿情文獻(xiàn)的計(jì)量分析[J].現(xiàn)代情報(bào),2010,(10):174-177.

        [2]Franz M,Ward T,McCarley JS,et al.Unsupervised and supervised clustering for topic tracking[A].Proceedingsof the24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2001.

        [3]Alena N.Sematically distinct verb classes involved in sentiment analysis[A].IADIS International Conference Applied Computing[C].2009.

        (作者本人校對(duì))

        Realization of the Public Opinion M onitoring System of College Network

        LIU Zhibing
        (The Middle School Attached to Changsha University,Changsha Hunan 410022,China)

        Based on the actualneeds of college campus network,amajormediamonitoring platform,and combined with Chinese information processing fields,such asWeb crawler,web noise removal,feature extraction and text classification techniques,this paper provides an implementation method of university network public opinion monitoring system,and verifies the effectiveness of the system through experiments.

        network public opinion;datamining;crawlers;cluster analysis

        TP391

        A

        1008-4681(2014)05-0056-03

        2014-07-14

        劉志兵(1986-),男,湖南長(zhǎng)沙人,長(zhǎng)沙大學(xué)附屬中學(xué)網(wǎng)絡(luò)工程師,碩士.研究方向:網(wǎng)絡(luò)工程.

        男人的天堂一区二av| 妺妺窝人体色www聚色窝| 最大色网男人的av天堂| 久久精品熟女亚洲av麻豆永永 | 一区二区三区四区国产99| 中文字幕丰满乱子无码视频| 精品国产福利一区二区在线| 亚洲夫妻性生活视频网站| 97精品熟女少妇一区二区三区| 欧美性猛交xxxx免费看蜜桃 | 精品黄色av一区二区三区| 成av人大片免费看的网站| 日韩日韩日韩日韩日韩| 亚洲男人天堂| 欧美成人网视频| 亚洲1区第2区第3区在线播放| 国产白浆流出一区二区| 日本午夜理论片在线观看| 亚洲午夜福利在线视频| 亚洲成a人片在线网站| 一区二区三区精品偷拍| 激情综合五月婷婷久久| 国产在视频线精品视频| 99久久超碰中文字幕伊人| av一区二区三区有码| 欧美激情肉欲高潮视频| 法国啄木乌av片在线播放| 国产高清女人对白av在在线| 给我看免费播放的视频在线观看| 久久99精品久久久久久9蜜桃| 在线一区不卡网址观看| 精品一区二区亚洲一二三区| 亚洲一区在线观看中文字幕| 国产熟女露脸大叫高潮| 久久精品国产热久久精品国产亚洲| 中文字幕乱码人妻在线| 在线播放免费人成毛片乱码| 精品乱码一区二区三区四区| 久久综合激激的五月天| 人妻诱惑中文字幕在线视频| 一本色道久久综合亚洲精品不卡|