亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于質(zhì)量安全信息的輿情監(jiān)測(cè)系統(tǒng)研究

        2017-01-23 01:54:32鄭兢
        中國(guó)科技博覽 2016年27期
        關(guān)鍵詞:風(fēng)險(xiǎn)監(jiān)測(cè)質(zhì)量安全輿情

        鄭兢

        [摘 ?要]近年來(lái)我國(guó)產(chǎn)品質(zhì)量安全問題頻繁發(fā)生,不僅引起了社會(huì)恐慌而且造成了國(guó)家巨大的經(jīng)濟(jì)損失,甚至在一定程度上會(huì)影響我國(guó)在國(guó)際貿(mào)易中的信譽(yù)。產(chǎn)品質(zhì)量危機(jī)是公共危機(jī)的一種形式,但是其安全問題是涉及范圍最廣、影響公眾生命健康最直接的一種公共危機(jī)。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵,化為主動(dòng)梳理、引導(dǎo)。

        [關(guān)鍵詞]輿情、風(fēng)險(xiǎn)監(jiān)測(cè)、質(zhì)量安全

        中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2016)27-0147-01

        1、引言

        近年來(lái),隨著新媒體的迅猛發(fā)展, 我國(guó)網(wǎng)絡(luò)輿情的影響日益巨大。自2008年以來(lái),“三聚氰胺”,“一滴香”、“瘦肉精”事件以及近期出現(xiàn)的“搖搖車”、“電梯事故”等一系列質(zhì)量安全問題的出現(xiàn),都在社會(huì)中產(chǎn)生了巨大的負(fù)面影響,產(chǎn)品質(zhì)量安全的網(wǎng)絡(luò)輿情的數(shù)量和影響持續(xù)上升,對(duì)政府輿論應(yīng)對(duì)能力提出新的挑戰(zhàn),加強(qiáng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)控管理研究的現(xiàn)實(shí)需求十分迫切。

        2、輿情檢索技術(shù)

        網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)是一項(xiàng)復(fù)雜而龐大工程,它涵蓋了幾乎所有的互聯(lián)網(wǎng)領(lǐng)域的基本技術(shù),但從系統(tǒng)的功能實(shí)現(xiàn)上看,輿情監(jiān)測(cè)系統(tǒng)的關(guān)鍵技術(shù)是由數(shù)據(jù)采集和關(guān)鍵信息提取技術(shù)構(gòu)成的。

        2.1 數(shù)據(jù)采集

        網(wǎng)絡(luò)爬蟲是當(dāng)前主流網(wǎng)絡(luò)搜索引擎使用的技術(shù),也是輿情監(jiān)測(cè)工具中處理網(wǎng)頁(yè)獲取、網(wǎng)頁(yè)跟蹤、網(wǎng)頁(yè)分析、網(wǎng)頁(yè)搜索、網(wǎng)頁(yè)評(píng)級(jí)和結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)抽取以及后期更細(xì)粒度的數(shù)據(jù)挖掘等方方面面的主要工具。

        網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)方式是通過(guò)訪問網(wǎng)頁(yè)中的超文本鏈接,自動(dòng)抓取互聯(lián)網(wǎng)內(nèi)部的程序或者腳本。

        2.2 通用型爬蟲與主題性爬蟲介紹

        當(dāng)前主流的網(wǎng)絡(luò)爬蟲技術(shù)主要分為通用型網(wǎng)絡(luò)爬蟲技術(shù)和主題性網(wǎng)絡(luò)爬蟲技術(shù)。通用型網(wǎng)絡(luò)爬蟲的主要目標(biāo)是大量采集信息頁(yè)面[1],有較高的網(wǎng)絡(luò)覆蓋率,但其盲目的抓取會(huì)下載大量的垃圾頁(yè)面,浪費(fèi)網(wǎng)絡(luò)資源。

        主題型爬蟲以自定義的主題信息為出發(fā)點(diǎn)抓取信息,基于此假設(shè):如果網(wǎng)頁(yè)U與主題相關(guān),并且頁(yè)面V到網(wǎng)頁(yè)U通過(guò)一個(gè)超鏈接進(jìn)行連接,那么抓取頁(yè)面V的主題相關(guān)度比從網(wǎng)頁(yè)中隨機(jī)抓取的頁(yè)面相關(guān)度要高。與通用型爬蟲不同之處在于主題型爬蟲可專門面向某一特定主題進(jìn)行搜索,對(duì)于質(zhì)檢行業(yè)所關(guān)注的產(chǎn)品、標(biāo)準(zhǔn)、項(xiàng)目有更好的適應(yīng)性。

        2.3 主題型爬蟲的工作方式

        主題型爬蟲的運(yùn)行過(guò)程大致為:

        1.將搜索到的頁(yè)面和各種信息項(xiàng)放到一個(gè)信息集合項(xiàng)中;

        2.分析每個(gè)信息項(xiàng),將其中的基本信息單元作為索引,并形成索引庫(kù)。同時(shí)建立一個(gè)存儲(chǔ)Web頁(yè)面的metadata數(shù)據(jù)庫(kù)。

        3.Web瀏覽器將用戶通過(guò)瀏覽器的查詢請(qǐng)求通過(guò)HTTP協(xié)議傳到搜索引擎,搜索引擎利用索引庫(kù)找到相關(guān)文檔并返回Web頁(yè)面,或者將URL列表以及相應(yīng)的摘要反饋給Web瀏覽器的用戶查詢界面。

        4.用戶獲得Web頁(yè)面摘要信息或者信息項(xiàng)的列表,若想查看其中具體的內(nèi)容,則點(diǎn)擊標(biāo)題訪問,瀏覽器在matadata數(shù)據(jù)庫(kù)的支持下通過(guò)HTTP協(xié)議從信息的原始位置取回Web頁(yè)面或其他信息。

        2.4 主題型爬蟲的爬行策略

        實(shí)現(xiàn)主題型爬蟲最常用的策略是PageRank和HITS算法,其共同點(diǎn)是根據(jù)頁(yè)面與主題的相似程度來(lái)確定主題的相關(guān)度,并根據(jù)主題的相關(guān)度來(lái)評(píng)估子網(wǎng)頁(yè)的重要性。[2]

        RageRank算法可以得出網(wǎng)頁(yè)的重要程度,進(jìn)而對(duì)其權(quán)威性進(jìn)行評(píng)價(jià)。

        HITS算法也是一種通過(guò)網(wǎng)頁(yè)鏈接來(lái)評(píng)估網(wǎng)頁(yè)重要性的算法。相較于PageRank算法,HITS算法在網(wǎng)頁(yè)鏈接與用戶需求主體的關(guān)聯(lián)性上有所改進(jìn)。

        3 質(zhì)量輿情系統(tǒng)架構(gòu)設(shè)計(jì)研究

        3.1 數(shù)據(jù)預(yù)處理

        預(yù)處理包括網(wǎng)頁(yè)噪音去除和語(yǔ)義分析。

        噪音去除:

        對(duì)抓取到的數(shù)據(jù)進(jìn)行噪音去除,包括網(wǎng)頁(yè)周邊廣告和版權(quán)聲明。對(duì)保留的有效內(nèi)容,逐句做正負(fù)面判定,以及品牌、屬性詞條的露出標(biāo)注。并將預(yù)處理后的信息入庫(kù)保存。

        語(yǔ)義分析:

        1,智能語(yǔ)義分析:基于基礎(chǔ)的分詞詞典、正負(fù)面詞典、15個(gè)領(lǐng)域的知識(shí)庫(kù)和句法分析算法,可以自動(dòng)的對(duì)網(wǎng)絡(luò)信息進(jìn)行實(shí)體、屬性識(shí)別以及正負(fù)面判定,從而實(shí)現(xiàn)了海量信息下的口碑分類與危機(jī)識(shí)別。

        2,半結(jié)構(gòu)化信息的自動(dòng)提?。嚎梢宰詣?dòng)提取互聯(lián)網(wǎng)網(wǎng)頁(yè)中的有用信息,保存到結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中實(shí)現(xiàn)方便的查詢,如網(wǎng)絡(luò)論壇中的分樓、帖子作者、時(shí)間、點(diǎn)擊數(shù)、回復(fù)數(shù)等。

        3,海量文本的分類與聚類:可靈活的為各種分類體系訓(xùn)練相應(yīng)的分類器,適應(yīng)應(yīng)用場(chǎng)景中多變的分類需求?;贚DA改進(jìn)算法的聚類結(jié)果,可以充分挖掘語(yǔ)義層的關(guān)聯(lián),進(jìn)行大規(guī)模的文本聚類,并進(jìn)一步應(yīng)用到互聯(lián)網(wǎng)內(nèi)容傳播中的話題管理與新話題發(fā)現(xiàn)。

        4,內(nèi)容關(guān)聯(lián)性分析:基于FSP、卡方、Word2Vec等各種算法開發(fā)的內(nèi)容關(guān)聯(lián)性分析,適合各種不同應(yīng)用場(chǎng)景中的關(guān)聯(lián)發(fā)現(xiàn)需求,產(chǎn)品-屬性、產(chǎn)品-競(jìng)品、產(chǎn)品-廣告匹配,等等。

        5,分詞與領(lǐng)域內(nèi)命名實(shí)體識(shí)別:常規(guī)自動(dòng)發(fā)現(xiàn)互聯(lián)網(wǎng)新詞、領(lǐng)域內(nèi)新詞、以及領(lǐng)域內(nèi)的命名實(shí)體識(shí)別,從而在應(yīng)用中更為準(zhǔn)確的定位目標(biāo)實(shí)體。

        3.2 數(shù)據(jù)提取

        提取出網(wǎng)頁(yè)中內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)并入庫(kù)保存,供報(bào)告統(tǒng)計(jì)和前臺(tái)查詢時(shí)使用。結(jié)構(gòu)化數(shù)據(jù)包括文章的作者、時(shí)間、發(fā)布站點(diǎn)、點(diǎn)擊、回復(fù)、閱讀、評(píng)論、點(diǎn)贊等。動(dòng)態(tài)指標(biāo)數(shù)據(jù)可以根據(jù)需求做定期更新。對(duì)于頁(yè)面中的互動(dòng)內(nèi)容,如論壇的分樓回復(fù)、新聞下評(píng)論、可以做精細(xì)化提取為作者、時(shí)間、回復(fù)內(nèi)容?;?dòng)內(nèi)容需要根據(jù)站點(diǎn)做定制開發(fā),目前覆蓋熱門100個(gè)論壇,以及4大門戶的新聞評(píng)論。

        3.3 數(shù)據(jù)索引

        為了提供快速的關(guān)鍵詞檢索,系統(tǒng)采用倒排表作為文本內(nèi)容的索引。為提高效率,系統(tǒng)索引分為三級(jí)。當(dāng)日內(nèi)的數(shù)據(jù)放在一級(jí)索引里,本周數(shù)據(jù)放在二級(jí)索引里,本周前的數(shù)據(jù)放在三級(jí)索引里。每日抓取回的數(shù)據(jù)每小時(shí)都會(huì)更新到一級(jí)索引里。當(dāng)抓取內(nèi)容進(jìn)入索引后,就可以提供對(duì)外的查詢。

        3.4 數(shù)據(jù)檢索

        用戶在平臺(tái)上做監(jiān)測(cè)關(guān)鍵詞配置后,系統(tǒng)的數(shù)據(jù)檢索模塊會(huì)定期對(duì)后臺(tái)的索引進(jìn)行檢索,篩選出來(lái)符合平臺(tái)配置的文章,放到平臺(tái)上提供展示和統(tǒng)計(jì)篩選。對(duì)于有特殊需求的客戶,比如危機(jī)預(yù)警客戶,可以定制平臺(tái)數(shù)據(jù)更新頻次和時(shí)間點(diǎn),從而實(shí)現(xiàn)平臺(tái)更頻繁更新。

        3.5 平臺(tái)信息展示與API數(shù)據(jù)接口

        系統(tǒng)通過(guò)Web 服務(wù)的方式,呈現(xiàn)監(jiān)測(cè)對(duì)象的相關(guān)數(shù)據(jù),并按照時(shí)間、站點(diǎn)、正負(fù)面、作者等維度進(jìn)行數(shù)據(jù)篩選。并在數(shù)據(jù)基礎(chǔ)上統(tǒng)計(jì)出熱門話題、負(fù)面話題、熱詞云圖等數(shù)據(jù)統(tǒng)計(jì)結(jié)果。

        4、結(jié)束語(yǔ)

        我國(guó)的質(zhì)檢行業(yè)面臨的市場(chǎng)化的挑戰(zhàn),而當(dāng)前質(zhì)檢行業(yè)對(duì)信息技術(shù)手段的利用離現(xiàn)代企業(yè)管理還有差距。輿情監(jiān)測(cè)系統(tǒng)能夠幫助質(zhì)量監(jiān)管部門獲取當(dāng)前市場(chǎng)上最關(guān)注的的質(zhì)量問題。我國(guó)的質(zhì)檢行業(yè)面臨的市場(chǎng)化的挑戰(zhàn),而當(dāng)前質(zhì)檢行業(yè)對(duì)信息技術(shù)手段的利用離現(xiàn)代企業(yè)管理還有差距。輿情監(jiān)測(cè)系統(tǒng)能夠幫助質(zhì)量監(jiān)管部門獲取當(dāng)前市場(chǎng)上最關(guān)注的的質(zhì)量問題。通過(guò)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì),系統(tǒng)、科學(xué)、高效的分析和預(yù)警質(zhì)量信息,是質(zhì)量監(jiān)管部門維護(hù)社會(huì)穩(wěn)定,保護(hù)企業(yè)形象的基礎(chǔ)保障。但是對(duì)于怎樣挖掘更深入的信息,怎樣對(duì)挖掘的信息進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)價(jià),依然需要深入研究。

        參考文獻(xiàn)

        [1] 王桂梅.主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2009.

        [2] 劉毅, 網(wǎng)絡(luò)輿情研究概論[M],天津;天津出版社,2007.

        猜你喜歡
        風(fēng)險(xiǎn)監(jiān)測(cè)質(zhì)量安全輿情
        肇慶市食品安全風(fēng)險(xiǎn)監(jiān)測(cè)信息平臺(tái)建設(shè)
        肇慶市食品安全風(fēng)險(xiǎn)監(jiān)測(cè)信息平臺(tái)建設(shè)
        民航機(jī)務(wù)維修系統(tǒng)安全風(fēng)險(xiǎn)產(chǎn)生的原因及監(jiān)測(cè)措施探討
        農(nóng)產(chǎn)品質(zhì)量安全追溯系統(tǒng)的混合模式研究
        農(nóng)產(chǎn)品質(zhì)量安全檢驗(yàn)檢測(cè)體系建設(shè)的創(chuàng)新策略分析
        科技資訊(2016年18期)2016-11-15 20:45:23
        我國(guó)農(nóng)產(chǎn)品農(nóng)藥殘留的困境
        輿情
        輿情
        證券公司財(cái)務(wù)管理風(fēng)險(xiǎn)監(jiān)測(cè)與防范措施分析
        輿情
        人妻中文字幕无码系列 | 日本熟妇人妻xxxxx视频| 精品人妻伦九区久久aaa片69| 国产精品成人一区二区三区 | 欧美日韩国产在线观看免费| 免费人成视频网站在线观看不卡| 色噜噜亚洲精品中文字幕| 亚洲精品国产av日韩专区| 亚洲国产日韩a在线乱码| 首页 综合国产 亚洲 丝袜| 免费人成无码大片在线观看 | 午夜亚洲国产精品福利| 日韩极品视频在线观看免费| 国产女人av一级一区二区三区| 日韩精品综合一本久道在线视频| 麻豆md0077饥渴少妇| 亚欧中文字幕久久精品无码| 精品少妇爆乳无码av无码专区| 色综合久久久久久久久五月| 99精品国产成人一区二区在线| 国产一区二区三区 在线观看 | 少妇被粗大的猛进69视频| 精品国产精品三级在线专区| 少妇性bbb搡bbb爽爽爽| 亚洲av无码精品色午夜果冻不卡| 国产成人精品无码一区二区老年人| 亚洲偷自拍国综合第一页国模 | 中文字幕一区二区三区日日骚| 国产精品无码一区二区三区在| 国产精品综合一区二区三区| 欧美mv日韩mv国产网站| 国语憿情少妇无码av| 看国产亚洲美女黄色一级片| 美女网站免费观看视频| 亚洲综合在线一区二区三区| 亚洲va欧美va国产综合| 国产精品久久中文字幕第一页 | 国产精品国产三级国产不卡| 国产精品性色av麻豆| 成人影院在线视频免费观看| 开心五月激情综合婷婷色|