亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)輿情分析系統(tǒng)信息清理的研究

        2009-07-16 09:33:54呂洪波姚錦峰
        新媒體研究 2009年8期
        關(guān)鍵詞:信息采集

        呂洪波 姚錦峰 梁 飛

        [摘要]信息采集是網(wǎng)絡(luò)輿情分析系統(tǒng)中最主要的步驟之一,搜索引擎在網(wǎng)絡(luò)上搜索主題相關(guān)信息時(shí),不可避免的會(huì)產(chǎn)生相當(dāng)數(shù)量的與主題無關(guān)信息。將這些無關(guān)信息清理掉,對(duì)提高話題抽取和情感分析的效率和精度意義重大,能夠加快整個(gè)系統(tǒng)分析速度和準(zhǔn)確度。提出信息清理的必要性,在系統(tǒng)中將信息清理和中文采詞結(jié)合起來,提高系統(tǒng)運(yùn)行效率和準(zhǔn)確度。

        [關(guān)鍵詞]網(wǎng)絡(luò)輿情分析 信息采集 中文分詞 信息清理

        中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0420070-01

        一、引言

        公眾關(guān)于現(xiàn)實(shí)社會(huì)以及社會(huì)中的各種現(xiàn)象、問題所持有的信念態(tài)度及觀點(diǎn)和(或)情緒的總和稱之為輿情。輿情可以通過多種方式、多種媒介表示和表達(dá)出來。其中,通過計(jì)算機(jī)網(wǎng)絡(luò)和通信網(wǎng)絡(luò),是當(dāng)前最重要的方式之一。這就是所謂網(wǎng)絡(luò)輿情[1-3]。在互聯(lián)網(wǎng)上,網(wǎng)民針對(duì)那些關(guān)系到自身利益或者是自己所關(guān)心的各種公共事務(wù),包括突發(fā)事件、社會(huì)熱點(diǎn)問題、政府決策、公眾人物言行等等,比在現(xiàn)實(shí)世界中會(huì)更積極地發(fā)言,這是有益的一面。但由于歷史的原因,我國曾長期處于封閉狀態(tài),容易受到外來思想文化的沖擊,這是有害的一面。我國當(dāng)前所面臨的網(wǎng)絡(luò)輿情分析與預(yù)警的形勢極其嚴(yán)峻,政府及相關(guān)管理者亟需對(duì)處于“未然態(tài)”的輿情信息進(jìn)行挖掘與分析,把握處理危機(jī)事件的最佳時(shí)機(jī)。

        因此,必須利用現(xiàn)代信息技術(shù)對(duì)網(wǎng)絡(luò)輿情予以分析,從而進(jìn)行控制和引導(dǎo)。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng)。及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵,化為主動(dòng)梳理、引導(dǎo)。系統(tǒng)中的信息采集一步中,不可避免地會(huì)有相當(dāng)數(shù)量與主題無關(guān)的信息被采集到,從而影響到后面分析的速度和準(zhǔn)確度,所以應(yīng)該將其清除。本文主要闡述對(duì)無關(guān)信息的清理,提高后面分析的速度與準(zhǔn)確度。

        二、信息處理

        (一)信息采集系統(tǒng)

        信息采集是通過搜索引擎實(shí)現(xiàn)的。搜索引擎(searchEngine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎的搜索過程一般包括3個(gè)步驟:

        本系統(tǒng)采用Win web Crawer v2.0 Final。它是強(qiáng)大的網(wǎng)站抓取工具,可從網(wǎng)站、網(wǎng)頁目錄、搜索結(jié)果、文件的URL清單中抓取URL的Meta 標(biāo)簽(標(biāo)題,描述,關(guān)鍵字);標(biāo)簽間的純文本;頁面大??;最后修改日期值等信息。高速,多因子,準(zhǔn)確抓取-直接存儲(chǔ)數(shù)據(jù)到磁盤文件。程序有無數(shù)過濾器來限制進(jìn)程,例如URL過濾器,文本過濾器,數(shù)據(jù)過濾器,域過濾器,數(shù)據(jù)修改等等。它允許用戶選擇重建等級(jí),激活信息,超時(shí)限制,代理支持等許多其它功能。將主題句輸入進(jìn)行搜索,得到的結(jié)果依次存入數(shù)據(jù)庫中。

        (二)中文分詞模塊

        眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個(gè)意思。例如,英文句子"I am a student",用中文則為:"我是一個(gè)學(xué)生"。計(jì)算機(jī)可以很簡單通過空格知道"student"是一個(gè)單詞,但是不能很容易明白「學(xué)」、「生」兩個(gè)字合起來才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。

        中國科學(xué)院計(jì)算技術(shù)研究所在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于多層隱馬模型的漢語詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。ICTCLAS被中外媒體廣泛地報(bào)道,國內(nèi)很多免費(fèi)的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。

        本系統(tǒng)的中文分詞模塊就是基于ICTCLAS,能對(duì)中文句子進(jìn)行分詞和詞形標(biāo)注。如圖1。

        (三)信息處理模塊

        通過Win web Crawer v2.0 Final搜索到的信息會(huì)有大量與主題無關(guān)??梢酝ㄟ^相應(yīng)的標(biāo)題和用于搜索的主題句,將這些用于下一步分析的標(biāo)簽間的純文本清除。具體過程為:將用于搜索的主題句通過中文分詞程序,保留名詞、動(dòng)詞和詞組,再將采集到的每篇文章的標(biāo)題依次從數(shù)據(jù)庫中調(diào)出,通過中文分詞程序,將名詞、動(dòng)詞和詞組分別與主題句中得到的進(jìn)行比較,如果找不到相同的就采用VC程序?qū)⑵鋸臄?shù)據(jù)庫中刪除,從而去除了大量無關(guān)的信息[4-6]。

        三、試驗(yàn)結(jié)果

        (一)實(shí)驗(yàn)環(huán)境

        由于數(shù)據(jù)量不是很大(小于10萬條),所以使用一般的PC作為服務(wù)器。CPU使用Intel(R)Pentium(R)D2.80GHz(雙核),內(nèi)存大小為1GB,操作系統(tǒng)使用W in-dowsXP Professional SP2,數(shù)據(jù)庫為SQL Server2000。

        (二)性能分析

        實(shí)驗(yàn)結(jié)果見表1。表1的說明:N信息源個(gè)數(shù);EN清除后信息源個(gè)數(shù);MN清除掉的信息源;個(gè)數(shù)V平均每秒處理的個(gè)數(shù);包括信息的數(shù)據(jù)庫存儲(chǔ)。

        由實(shí)驗(yàn)結(jié)果可見,使用該方法可以有效的清除大量無關(guān)信息,處理速度較快,能夠完成網(wǎng)絡(luò)輿情分析系統(tǒng)對(duì)該模塊的要求。

        四、結(jié)束語

        信息采集中得到的無關(guān)信息不但會(huì)占用空間還會(huì)影響后面分析的速度與精度,為了提高話題抽取和情感分析的效率與精度,有必要把這些無關(guān)的信息清理掉。每次采集得到的無關(guān)信息的多少都會(huì)不同,經(jīng)過信息清理得到的效果也不相同。通過信息清理去除了大量無關(guān)信息,提高了后面分析的速度與準(zhǔn)確度,信息清理工作是成功的。

        參考文獻(xiàn):

        [1]王來華,輿情研究概論:理論、方法和現(xiàn)實(shí)熱點(diǎn),天津:天津社會(huì)科學(xué)院,2003.9(1).

        [2]陳力丹,輿論學(xué)輿論導(dǎo)向研究[M].北京:中國廣播電視出版社,1999:10-11.

        [3]王來華、劉毅,中國2004年輿情研究綜述[J].新華文摘,2005(18).

        [4]Introuduction to Programming with C++:Comprehensive Version.

        [5]Sartaj Sahni.Data Structures,Algorithms,and Applications in C++Publisher: Silicon Press;2 edition (August 31,2004).

        [6]Vapnik V.Statistical Learning Theory .Wiley, 1998.

        猜你喜歡
        信息采集
        基于Internet的網(wǎng)絡(luò)化交通信息采集系統(tǒng)
        科學(xué)家(2016年3期)2016-12-30 00:03:25
        Windows下網(wǎng)絡(luò)空間主機(jī)節(jié)點(diǎn)信息采集
        如何提高卷煙零售市場信息采集的有效性
        計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在信息工程中的應(yīng)用
        電力信息采集系統(tǒng)中對(duì)載波現(xiàn)場測試儀的應(yīng)用
        水文信息采集網(wǎng)絡(luò)受工程影響的分析
        用電信息采集系統(tǒng)安全防護(hù)
        無線傳感器網(wǎng)絡(luò)在農(nóng)田溫濕度信息采集中的應(yīng)用
        科技視界(2016年9期)2016-04-26 09:33:08
        電力用戶用電信息采集系統(tǒng)應(yīng)用及效益分析
        淺析計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在電子信息工程中的實(shí)踐
        日韩精品免费在线视频一区| 国产精品538一区二区在线| 日韩在线 | 中文| 成人毛片av免费| 在线观看午夜亚洲一区| 国产70老熟女重口小伙子| 天天干成人网| 在线a亚洲视频播放在线观看| 美女裸体无遮挡免费视频国产| 手机在线看片在线日韩av| 国产精品女同二区五区九区 | 粉嫩的极品女神尤物在线| 伊人久久大香线蕉av波多野结衣| 无码a级毛片免费视频内谢| 精产国品一二三产品蜜桃| 亚洲av无码片在线播放| 韩国女主播一区二区在线观看 | 欧美巨大性爽| 国产在线不卡AV观看| 国产成+人+综合+亚洲专| 日韩精品不卡一区二区三区| 女优av一区二区在线观看| 欧美成人秋霞久久aa片| 自拍偷自拍亚洲精品情侣| 嫩草影院未满十八岁禁止入内| 91热爆在线精品| av网址大全在线播放| 国产一区二区三区青青草| 国产乱人对白| 国产70老熟女重口小伙子| 国语精品视频在线观看不卡| 黄色三级国产在线观看| 91精品国产一区国产二区久久| 色偷偷av一区二区三区| 国产亚洲午夜高清国产拍精品| 久久久久国产一区二区三区 | 秀人网嫩模李梓熙大尺度| 亚洲精品国产亚洲av| 比较有韵味的熟妇无码| 中文字幕精品无码一区二区| 中文字幕日本人妻一区|