陳 濤,劉世洪
(農(nóng)業(yè)部農(nóng)業(yè)信息服務(wù)技術(shù)重點(diǎn)實(shí)驗(yàn)室中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)研究與應(yīng)用
陳 濤,劉世洪*
(農(nóng)業(yè)部農(nóng)業(yè)信息服務(wù)技術(shù)重點(diǎn)實(shí)驗(yàn)室中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
圍繞農(nóng)產(chǎn)品安全輿情監(jiān)管要求,研發(fā)面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)。利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)互聯(lián)網(wǎng)農(nóng)產(chǎn)品安全相關(guān)信息進(jìn)行采集,利用中文分詞技術(shù)處理,設(shè)計(jì)適合農(nóng)產(chǎn)品安全的聚類(lèi)和分類(lèi)算法進(jìn)行分析,完成了農(nóng)產(chǎn)品安全輿情分析的實(shí)時(shí)采集、智能處理和分析、熱點(diǎn)話(huà)題發(fā)現(xiàn)、輿情分類(lèi)、可視化展示和個(gè)性化定制功能。該系統(tǒng)實(shí)現(xiàn)了農(nóng)產(chǎn)品安全輿情信息的獲取、處理、分析和服務(wù),系統(tǒng)的使用增強(qiáng)了農(nóng)產(chǎn)品安全輿情監(jiān)管力度,并為相關(guān)決策部門(mén)提供了科學(xué)依據(jù)。
農(nóng)產(chǎn)品安全;互聯(lián)網(wǎng)輿情;輿情監(jiān)管;輿情分析;信息系統(tǒng)
文獻(xiàn)著錄格式:陳濤,劉世洪.面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)研究與應(yīng)用[J].浙江農(nóng)業(yè)科學(xué),2015,56(9):1464-1467.
DOI 10.16178/j.issn.0528-9017.20150941
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)民對(duì)網(wǎng)絡(luò)事件可隨時(shí)進(jìn)行評(píng)論,這就誕生了一個(gè)新詞,“網(wǎng)絡(luò)輿情”。網(wǎng)絡(luò)的便捷提供了網(wǎng)民言論自由的機(jī)會(huì),但同時(shí)帶來(lái)了網(wǎng)絡(luò)輿論監(jiān)管的挑戰(zhàn)。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2015年1月發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示,截至2014年12月,中國(guó)網(wǎng)民規(guī)模達(dá)6.49億,中國(guó)網(wǎng)民中農(nóng)村網(wǎng)民占比27.5%,規(guī)模達(dá)1.78億[1]。近年來(lái),輿論對(duì)于農(nóng)產(chǎn)品質(zhì)量安全問(wèn)題的放大和炒作,大大增加了質(zhì)量安全監(jiān)管工作的難度,嚴(yán)重挫傷消費(fèi)者信心,也給產(chǎn)業(yè)發(fā)展帶來(lái)嚴(yán)重?fù)p失,甚至引發(fā)毀滅性打擊,已成為影響社會(huì)和諧和經(jīng)濟(jì)發(fā)展的重要因素,因而農(nóng)產(chǎn)品質(zhì)量安全輿情問(wèn)題日益受到監(jiān)督管理部門(mén)及有關(guān)領(lǐng)導(dǎo)、專(zhuān)家的重視[2]。2014年監(jiān)測(cè)獲得的全部農(nóng)產(chǎn)品質(zhì)量安全輿情信息中,來(lái)自于網(wǎng)站的輿情信息數(shù)量首次超過(guò)50%,占比高達(dá)51.95%,互聯(lián)網(wǎng)已成為農(nóng)產(chǎn)品質(zhì)量安全輿情信息的主渠道[3]。當(dāng)前,網(wǎng)絡(luò)輿情研究逐步擴(kuò)大,但大部分的研究停留在理論上。在大數(shù)據(jù)時(shí)代,應(yīng)該利用先進(jìn)的計(jì)算機(jī)技術(shù)進(jìn)行研究。最近中央提出的“互聯(lián)網(wǎng)+農(nóng)業(yè)”為現(xiàn)代化農(nóng)業(yè)發(fā)展帶來(lái)新的契機(jī)。因此,為增強(qiáng)農(nóng)業(yè)信息化建設(shè)的需要,為滿(mǎn)足農(nóng)產(chǎn)品安全監(jiān)測(cè)的需求,作者開(kāi)發(fā)了一套面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)。
1.1 系統(tǒng)概述
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)是以信息技術(shù)為基礎(chǔ),以互聯(lián)網(wǎng)上農(nóng)產(chǎn)品相關(guān)數(shù)據(jù)為信息源,利用計(jì)算機(jī)技術(shù)對(duì)采集的信息進(jìn)行分析,最后以可視化的界面展示給用戶(hù),以便快速做出決策。整個(gè)系統(tǒng)工作流程從信息的采集、信息處理和分析到輿情服務(wù)是具有生命周期的。從對(duì)網(wǎng)絡(luò)輿情信息的需求的產(chǎn)生開(kāi)始,到輿情的規(guī)劃,通過(guò)技術(shù)手段到網(wǎng)絡(luò)輿情信息的采集、網(wǎng)絡(luò)輿情信息的分析、網(wǎng)絡(luò)輿情信息的服務(wù)、網(wǎng)絡(luò)輿情信息的預(yù)警,最后到部門(mén)領(lǐng)導(dǎo)的決策,整個(gè)生命周期是不斷循環(huán)的,且每個(gè)環(huán)節(jié)也是必不可少的。其流程如圖1所示。
圖1 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的工作流程
1.2 系統(tǒng)架構(gòu)設(shè)計(jì)
在農(nóng)產(chǎn)品安全輿情分析系統(tǒng)中,整個(gè)系統(tǒng)應(yīng)有嚴(yán)格的數(shù)據(jù)流和信息流的流動(dòng)方向,以及各個(gè)層次之間的劃分和相互關(guān)聯(lián)??傮w設(shè)計(jì)是系統(tǒng)設(shè)計(jì)的核心部分,設(shè)計(jì)的好壞直接影響到系統(tǒng)未來(lái)的應(yīng)用。因此,在設(shè)計(jì)時(shí)必須著眼于信息技術(shù)目前和未來(lái)的發(fā)展趨勢(shì),在充分了解系統(tǒng)需求的基礎(chǔ)上,合理規(guī)劃系統(tǒng)的組織結(jié)構(gòu),定義好各個(gè)模塊之間的接口,使系統(tǒng)具備較好的靈活性和擴(kuò)展性。農(nóng)產(chǎn)品安全輿情分析系統(tǒng)是一個(gè)數(shù)據(jù)分析系統(tǒng),也是一個(gè)應(yīng)用業(yè)務(wù)系統(tǒng),這么一個(gè)復(fù)雜的系統(tǒng),其總體設(shè)計(jì)架構(gòu)要合理完善。在綜合考慮系統(tǒng)建設(shè)的成本、需求和面向用戶(hù)對(duì)象的基礎(chǔ)上,提出了網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的總體架構(gòu)(圖2)。
圖2 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的總體架構(gòu)
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)采用基于B/S架構(gòu)的系統(tǒng)設(shè)計(jì)框架。通過(guò)瀏覽器進(jìn)行信息的查詢(xún)和溝通,這種方式能更好地滿(mǎn)足政府部門(mén)、農(nóng)產(chǎn)品企業(yè)和一般農(nóng)戶(hù)的需求。通過(guò)對(duì)農(nóng)產(chǎn)品安全輿情分析能夠及時(shí)挖掘農(nóng)產(chǎn)品安全的輿論信息,從而采取有效的應(yīng)對(duì)措施,提升政府、企業(yè)的品牌形象。
1.3 關(guān)鍵技術(shù)
1.3.1 農(nóng)產(chǎn)品安全輿情信息抓取
信息采集的數(shù)據(jù)都是來(lái)自互聯(lián)網(wǎng),采集的來(lái)源主要是各類(lèi)網(wǎng)站。本系統(tǒng)是面向農(nóng)產(chǎn)品安全的輿情監(jiān)測(cè),在信息采集來(lái)源方面面向農(nóng)產(chǎn)品的網(wǎng)站,包括中國(guó)農(nóng)產(chǎn)品信息網(wǎng)、農(nóng)業(yè)部網(wǎng)、中國(guó)農(nóng)業(yè)新聞網(wǎng)等網(wǎng)站,以及貼吧和博客等。采用開(kāi)源搜索引擎Nutch進(jìn)行數(shù)據(jù)抓取,Nutch是一個(gè)Java實(shí)現(xiàn)和平臺(tái)無(wú)關(guān)性的搜索引擎,提供了運(yùn)行自己的搜索引擎所需的全部工具。作為一個(gè)研究平臺(tái),Nutch有開(kāi)放靈活的架構(gòu)。用戶(hù)可定制個(gè)性化的搜索引擎[4]。
1.3.2 農(nóng)產(chǎn)品安全輿情信息智能處理與分析
輿情信息的智能處理和分析技術(shù)是整個(gè)系統(tǒng)的核心的技術(shù)。農(nóng)產(chǎn)品安全輿情數(shù)據(jù)采集后,通過(guò)網(wǎng)頁(yè)去噪、排重、中文分詞、特征提取和聚類(lèi)分類(lèi)分析,最后得出結(jié)果。在這個(gè)過(guò)程中采用中科院的分詞軟件ICTCLAS分詞[5]進(jìn)行中文分詞處理,采用TF-IDF算法[6]進(jìn)行特征提取,使用向量空間模型VSM[7-8],最后使用文本聚類(lèi)和分類(lèi)算法得出農(nóng)產(chǎn)品安全的熱門(mén)話(huà)題,實(shí)現(xiàn)全過(guò)程的智能處理和分析。
1.3.3 農(nóng)產(chǎn)品安全輿情服務(wù)
輿情信息服務(wù)是通過(guò)技術(shù)將分析的結(jié)果以可視化的方式展示給用戶(hù)。結(jié)合用戶(hù)的需求,系統(tǒng)以簡(jiǎn)報(bào)形式呈現(xiàn)出日監(jiān)測(cè)報(bào)告、周監(jiān)測(cè)報(bào)告和月監(jiān)測(cè)報(bào)告發(fā)布,也可對(duì)農(nóng)產(chǎn)品安全專(zhuān)題全面而系統(tǒng)的報(bào)道。同時(shí)根據(jù)用戶(hù)的工作范圍或工作重點(diǎn)對(duì)信息源權(quán)限賦值,將其最關(guān)注的輿情展示出來(lái)供優(yōu)先瀏覽及輿情分析。按照用戶(hù)關(guān)注的類(lèi)別分類(lèi)展示輿情,通過(guò)類(lèi)別的選擇了解各類(lèi)別輿情信息。
2.1 系統(tǒng)功能模塊劃分
根據(jù)農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的實(shí)際需求,本系統(tǒng)由4大功能模塊組成,即農(nóng)產(chǎn)品安全輿情信息采集模塊、農(nóng)產(chǎn)品安全輿情信息處理模塊、農(nóng)產(chǎn)品安全輿情信息分析模塊和系統(tǒng)管理模塊。
2.2 系統(tǒng)功能模塊詳細(xì)設(shè)計(jì)
2.2.1 農(nóng)產(chǎn)品安全輿情信息采集模塊
本模塊主要功能是負(fù)責(zé)輿情信息的采集。為了能夠在海量數(shù)據(jù)中抓取與農(nóng)產(chǎn)品安全相關(guān)的輿情信息,需要構(gòu)建一個(gè)針對(duì)農(nóng)產(chǎn)品安全監(jiān)測(cè)的爬蟲(chóng)。本文采用Nutch開(kāi)源搜索引擎作為農(nóng)產(chǎn)品安全輿情信息采集的工具,主要是基于Nutch的二次開(kāi)發(fā)。通過(guò)事先選取部分種子的URL列表,然后使用Nutch網(wǎng)絡(luò)爬蟲(chóng)從種子URL列表爬取農(nóng)產(chǎn)品安全的輿情信息,將得到的網(wǎng)頁(yè)信息進(jìn)行數(shù)據(jù)清洗、網(wǎng)頁(yè)去噪、網(wǎng)頁(yè)內(nèi)容文本提取等操作,將其作為數(shù)據(jù)源。Nutch中還可設(shè)置URL地址的黑白名單,來(lái)實(shí)現(xiàn)部分網(wǎng)站的精確爬取(圖3)。
2.2.2 農(nóng)產(chǎn)品安全輿情信息處理模塊
信息處理模塊的主要功能是將采集模塊采集的信息進(jìn)行初步處理,再將其存入數(shù)據(jù)庫(kù),變成可進(jìn)行輿情分析的數(shù)據(jù),即信息處理模塊的結(jié)果作為輿情分析模塊的輸入信息。信息處理模塊主要包含頁(yè)面解析、網(wǎng)頁(yè)去噪、網(wǎng)頁(yè)排重、內(nèi)容提取、中文分詞、特征提取、文本向量表示等過(guò)程。具體流程如圖4所示。
圖3 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的信息采集模塊
圖4 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的信息處理流程
2.2.3 農(nóng)產(chǎn)品安全輿情信息分析模塊
農(nóng)產(chǎn)品安全輿情信息分析模塊是系統(tǒng)的核心模塊,主要針對(duì)處理后的信息進(jìn)行分析,包括農(nóng)產(chǎn)品安全的熱點(diǎn)話(huà)題發(fā)現(xiàn)、農(nóng)產(chǎn)品安全話(huà)題監(jiān)測(cè)與追蹤、農(nóng)產(chǎn)品安全敏感信息監(jiān)測(cè)、農(nóng)產(chǎn)品安全自動(dòng)摘要等。在此基礎(chǔ)上,進(jìn)行農(nóng)產(chǎn)品的安全趨勢(shì)預(yù)測(cè)、安全輿情預(yù)警、安全輿情報(bào)表服務(wù)、安全輿情分類(lèi)、安全專(zhuān)題追蹤、安全統(tǒng)計(jì)分析、安全高危輿情、安全輿情檢索和用戶(hù)個(gè)性化定制等,包含了農(nóng)產(chǎn)品安全監(jiān)測(cè)的各個(gè)方面,總體上能夠滿(mǎn)足用戶(hù)的農(nóng)產(chǎn)品安全輿情監(jiān)測(cè)需求。
2.2.4 系統(tǒng)管理模塊
輿情管理模塊包含兩部分,一是農(nóng)產(chǎn)品安全輿情管理,包括輿情報(bào)告管理、輿情話(huà)題管理、輿情文檔管理等;二是輿情系統(tǒng)管理,設(shè)置系統(tǒng)的相關(guān)信息,包括系統(tǒng)權(quán)限管理、系統(tǒng)角色管理、系統(tǒng)字典管理等。輿情發(fā)布管理主要是輿情報(bào)告的生成,系統(tǒng)通過(guò)預(yù)先設(shè)置的統(tǒng)計(jì)報(bào)告生成模板,生成用戶(hù)所需的輿情報(bào)告。輿情話(huà)題管理主要是實(shí)現(xiàn)話(huà)題的增、刪、改操作。輿情系統(tǒng)管理主要是對(duì)系統(tǒng)的基本信息進(jìn)行配置管理。主要包括用戶(hù)權(quán)限的管理、角色管理、用戶(hù)管理和系統(tǒng)配置信息管理等。
3.1 系統(tǒng)開(kāi)發(fā)環(huán)境
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)軟件是在NET環(huán)境下采用C#語(yǔ)言進(jìn)行開(kāi)發(fā),系統(tǒng)是基于B/S架構(gòu)設(shè)計(jì),用戶(hù)可以不受地域的限制和B/S架構(gòu)的平臺(tái)無(wú)關(guān)性,可以隨時(shí)隨地進(jìn)行查詢(xún)和瀏覽等。系統(tǒng)數(shù)據(jù)庫(kù)開(kāi)發(fā)工具采用MySQL關(guān)系數(shù)據(jù)庫(kù)。
3.2 系統(tǒng)應(yīng)用情況
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)通過(guò)一系列的對(duì)數(shù)據(jù)的處理,最終結(jié)果將以可視化的界面與用戶(hù)進(jìn)行交互。目前,本系統(tǒng)部署在中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息所,利用信息所的平臺(tái),包括大型的服務(wù)器、農(nóng)產(chǎn)品安全預(yù)警方面專(zhuān)家和科研團(tuán)隊(duì),采集模塊可以全天候24 h進(jìn)行農(nóng)產(chǎn)品安全輿情采集,通過(guò)系統(tǒng)分析,結(jié)合專(zhuān)家和團(tuán)隊(duì)的意見(jiàn),實(shí)現(xiàn)農(nóng)產(chǎn)品安全輿情全方位、多方面的監(jiān)測(cè)。系統(tǒng)目前運(yùn)行良好,具有一定的應(yīng)用價(jià)值。
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第35次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2015-01].http://cnnic.cn/gywm/ xwzx/rdxw/2015/201502/W020150203456823090968.pdf.
[2] 郭林宇,戚亞梅,李艷,等.農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)測(cè)工作的幾點(diǎn)思考[J].中國(guó)食物與營(yíng)養(yǎng),2012,18 (12):5-7.
[3] 崔建玲.2014年我國(guó)農(nóng)產(chǎn)品質(zhì)量安全輿情概況[J].農(nóng)產(chǎn)品市場(chǎng)周刊,2015(8):22.
[4] 張彧.基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.
[5] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421-1429.
[6] 李海蓉.基于概念向量空間的文檔語(yǔ)義分類(lèi)模型研究[J].圖書(shū)情報(bào)工作,2011,55(24):106-108.
[7] 田文穎.面向?qū)I(yè)領(lǐng)域的文本特征提取技術(shù)研究[D].北京:國(guó)防科學(xué)技術(shù)大學(xué),2009.
[8] 李祥洲,錢(qián)永忠,鄧玉,等.2014年農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情特征分析研究[J].農(nóng)產(chǎn)品質(zhì)量與安全,2015(1): 41-47.
(責(zé)任編輯:張瑞麟)
S 126;F 307.5
A
0528-9017(2015)09-1464-04
2015-04-17
中國(guó)農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程農(nóng)業(yè)網(wǎng)絡(luò)創(chuàng)新基金項(xiàng)目
陳 濤(1989-),男,江西萍鄉(xiāng)人,在讀碩士,研究方向?yàn)樾畔⒐芾砗蛿?shù)據(jù)挖掘。E-mail:lotus.ct@hotmail.com。
劉世洪。E-mail:lotusct@16.com。