亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)的建立

        2015-10-31 03:49:44呂潤輝嚴(yán)建新單敏謝斐桂家祥
        關(guān)鍵詞:爬蟲產(chǎn)品質(zhì)量網(wǎng)頁

        呂潤輝 嚴(yán)建新 單敏 謝斐 桂家祥

        (贛州出入境檢驗(yàn)檢疫局 江西贛州 341000)

        全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)的建立

        呂潤輝 嚴(yán)建新 單敏 謝斐 桂家祥*

        (贛州出入境檢驗(yàn)檢疫局 江西贛州 341000)

        通過建立一個基于“網(wǎng)絡(luò)爬蟲”技術(shù)的全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng),針對全球主要國家就中國產(chǎn)品在其市場的質(zhì)量安全信息(包括退運(yùn)、召回、下架、銷毀、通報、索賠等)自動收集和分類整理,實(shí)現(xiàn)對中國出口產(chǎn)品質(zhì)量安全的實(shí)時監(jiān)控,為后續(xù)建立中國出口產(chǎn)品國外質(zhì)量安全信息的披露機(jī)制和處置機(jī)制,科學(xué)構(gòu)建后市場監(jiān)管制度奠定基礎(chǔ)。

        網(wǎng)絡(luò)爬蟲;出口產(chǎn)品質(zhì)量安全;信息采集

        1 前言

        近年來,隨著中國綜合國力的增強(qiáng)和世界貿(mào)易的不斷發(fā)展,在習(xí)近平總書記“三個轉(zhuǎn)變”重要論述和李克強(qiáng)總理關(guān)于建設(shè)質(zhì)量強(qiáng)國的“簡、管、治”理論指導(dǎo)下,檢驗(yàn)檢疫系統(tǒng)深入法檢體制改革,轉(zhuǎn)變監(jiān)管思路和手段,由傳統(tǒng)的注重事前監(jiān)管向建立更加注重事中、事后監(jiān)管的后市場監(jiān)管體系轉(zhuǎn)變。

        為更好地適應(yīng)法檢制度改革的新常態(tài),有效促進(jìn)貿(mào)易便利化,完善后市場監(jiān)管手段,贛州出入境檢驗(yàn)檢疫局先行先試,著力探索貿(mào)易便利化基礎(chǔ)上的出口監(jiān)管新模式,按“設(shè)路標(biāo)、布天網(wǎng)、查違章”的理念,創(chuàng)新了后市場監(jiān)管模式。其中“布天網(wǎng)”的基本要求是要建立中國產(chǎn)品出口到全球范圍內(nèi)的質(zhì)量安全信息收集機(jī)制、處置機(jī)制和披露機(jī)制,構(gòu)建出口產(chǎn)品質(zhì)量安全的立體監(jiān)控網(wǎng)絡(luò)。及時采集和分析中國出口產(chǎn)品在國外市場的質(zhì)量安全信息成為后市場監(jiān)管的前提條件。

        本項(xiàng)目通過對互聯(lián)網(wǎng)信息采集相關(guān)技術(shù)的研究和比較,針對網(wǎng)絡(luò)質(zhì)量安全信息的特性,對信息采集技術(shù)進(jìn)行探索、選擇和優(yōu)化,在國內(nèi)首次建立了一個基于“網(wǎng)絡(luò)爬蟲”技術(shù)的全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)。該系統(tǒng)的建立,將代替人工搜集信息工作,減少信息采集的難度和時間,增加信息采集的準(zhǔn)確性和及時性,有效提高檢驗(yàn)檢疫部門對出口產(chǎn)品的質(zhì)量安全監(jiān)管能力。

        2 基礎(chǔ)技術(shù)及要求

        2.1網(wǎng)絡(luò)爬蟲簡述

        網(wǎng)絡(luò)爬蟲(Web Crawler)又稱為網(wǎng)絡(luò)蜘蛛(Web Spider)或Web信息采集器,是一個自動下載網(wǎng)頁的計算機(jī)程序或自動化腳本[1]。它通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站的某一個頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,一直循環(huán)直到按某種策略把互聯(lián)網(wǎng)上的所有網(wǎng)頁都抓取完為止[2]。

        作為搜索引擎的基礎(chǔ)構(gòu)件之一[3],網(wǎng)絡(luò)爬蟲直接面向互聯(lián)網(wǎng),是搜索引擎的數(shù)據(jù)來源,決定著整個系統(tǒng)內(nèi)容是否豐富、信息能否得到及時更新,其性能表現(xiàn)直接影響整個搜索引擎的效果[4]。目前關(guān)于網(wǎng)絡(luò)爬蟲的研究比較多,在網(wǎng)頁搜索策略上探索了深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先3種模式;在網(wǎng)頁分析算法上又歸納了基于網(wǎng)絡(luò)拓?fù)?、基于網(wǎng)頁內(nèi)容和基于用戶訪問行為3種類型[5]。按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),可將網(wǎng)絡(luò)爬蟲分為通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)、增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)和深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler),實(shí)際使用中的網(wǎng)絡(luò)爬蟲通常結(jié)合了幾種爬蟲技術(shù)[1],各種基礎(chǔ)技術(shù)的完善大大促進(jìn)了網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展和在各領(lǐng)域的應(yīng)用。

        2.2收集信息的目標(biāo)要求

        目前,對于中國出口產(chǎn)品質(zhì)量安全信息的收集工作,主要集中在食品、農(nóng)產(chǎn)品、消費(fèi)品等不多對象上,且主要靠人工收集的方法進(jìn)行,全智能化定向收集全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)尚未建立。

        后市場監(jiān)管給出口產(chǎn)品質(zhì)量安全信息的收集工作提出了更高的要求。一方面,收集的對象須為全球主要貿(mào)易國家就中國產(chǎn)品在其市場的質(zhì)量安全信息,包括退運(yùn)、召回、下架、銷毀、通報、索賠等;信息來源須為全球各主要貿(mào)易國官方網(wǎng)站上發(fā)布的權(quán)威信息,確保信息來源的準(zhǔn)確性。另一方面,信息的收集需建立一個智能化的采集系統(tǒng)來自動采集相關(guān)信息,增加信息的采集覆蓋率,提高工作效率;同時,該采集系統(tǒng)還需實(shí)現(xiàn)在全球范圍內(nèi)24小時不間斷地搜尋,做到對信息的及時采集。

        3 信息采集系統(tǒng)的建立

        3.1技術(shù)原理及工作流程

        通過對信息采集技術(shù)進(jìn)行探索、選擇和優(yōu)化,建立一個基于“網(wǎng)絡(luò)爬蟲”技術(shù)的全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)。

        網(wǎng)絡(luò)爬蟲是全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)的核心組成部分,在該系統(tǒng)中,通過設(shè)定關(guān)鍵詞、從URL抓取、網(wǎng)頁源文件抓取、標(biāo)題和正文抽取、網(wǎng)頁去重等一系列工作流程,將質(zhì)量安全信息預(yù)處理后存入質(zhì)量安全信息庫存儲,為下一步繼續(xù)對質(zhì)量安全信息的分析和處理提供數(shù)據(jù)支持。該系統(tǒng)抓取的信息涵蓋了發(fā)布國家或地區(qū)、信息來源、發(fā)布時間、產(chǎn)品原產(chǎn)國、產(chǎn)地詳情、生產(chǎn)企業(yè)、通報口岸、通報原因、處理類型和措施等各項(xiàng)內(nèi)容,具有較強(qiáng)的參考性和實(shí)用性。傳統(tǒng)搜索引擎的網(wǎng)絡(luò)爬蟲,主要是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成鏡像備份,俗稱快照(Snapshot)。而全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)的網(wǎng)絡(luò)爬蟲,在快照的基礎(chǔ)上,還需要進(jìn)行數(shù)據(jù)有效性識別和分析。

        其基本工作流程見圖1:①選取一些精心挑選的URL作為種子,將這些URL放入待抓取URL隊列;②使用多核并行技術(shù),從待抓取URL隊列中取出URL并開始工作,判斷是否有信息更新,將更新緩存在內(nèi)存中,并正確地索引;③從緩存中獲取更新的內(nèi)容,剔除無效字符,并根據(jù)網(wǎng)站的特征獲得最有效的數(shù)據(jù),將有效數(shù)據(jù)存入數(shù)據(jù)庫,等待后期處理;④根據(jù)信息更新標(biāo)記,找出更新的數(shù)據(jù),利用翻譯引擎自動翻譯非中文,并導(dǎo)出可定制格式的數(shù)據(jù)。

        圖1 信息采集系統(tǒng)技術(shù)原理圖

        3.2系統(tǒng)功能的實(shí)現(xiàn)

        全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)以全球各國或地區(qū)的產(chǎn)品質(zhì)量安全信息官方網(wǎng)站為信息源,待確定所需的產(chǎn)品質(zhì)量安全信息相關(guān)內(nèi)容后,運(yùn)用科學(xué)完善的搜尋技術(shù),在全球范圍內(nèi)24小時不間斷地搜尋信息,然后對搜集的信息進(jìn)行篩選分類,整合各個模塊后建立信息平臺。該系統(tǒng)能夠?qū)崿F(xiàn)五大功能,見圖2。

        圖2 系統(tǒng)功能圖

        系統(tǒng)提供實(shí)時監(jiān)控功能。系統(tǒng)運(yùn)行的同時將會進(jìn)行實(shí)時監(jiān)控,這樣一方面可通過系統(tǒng)監(jiān)控了解當(dāng)前運(yùn)行狀況,以便及時排除異常和更新版本;另一方面可通過監(jiān)控查看網(wǎng)絡(luò)數(shù)據(jù)的采集情況,保持鏈接的有效性和數(shù)據(jù)的時效性。

        當(dāng)被抓取的網(wǎng)站架構(gòu)發(fā)生重大改變導(dǎo)致系統(tǒng)無法正確識別時,可設(shè)定暫時停止對網(wǎng)站的抓取工作。經(jīng)過設(shè)定后,系統(tǒng)可將無效的網(wǎng)站信息排除在采集序列之外,還可按照預(yù)設(shè)的國家/區(qū)域等關(guān)鍵詞進(jìn)行篩選采集,避免耗費(fèi)時間采集不需要的數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)采集完畢后將被保存在系統(tǒng)數(shù)據(jù)庫中,開啟數(shù)據(jù)自動生成功能后,可將數(shù)據(jù)導(dǎo)出變成Excel表格格式。

        鑒于本項(xiàng)目需要面向全球范圍內(nèi)各主要貿(mào)易國的官方網(wǎng)站進(jìn)行信息采集,系統(tǒng)內(nèi)置了百度和微軟兩種翻譯引擎,通過翻譯引擎可將非中文信息自動翻譯成中文,并在導(dǎo)出的數(shù)據(jù)中提供原始信息和中文參考信息,使得系統(tǒng)運(yùn)用起來更加便捷。

        系統(tǒng)還能提供對采集的歷史數(shù)據(jù)實(shí)施數(shù)據(jù)回溯功能,包括對未經(jīng)任何處理的原始數(shù)據(jù)查詢,以及經(jīng)過處理后的數(shù)據(jù)查詢。歷史數(shù)據(jù)以Excel表格格式為載體進(jìn)行保存,可隨時導(dǎo)出。

        系統(tǒng)還提供數(shù)據(jù)庫維護(hù)功能,對運(yùn)行過程中產(chǎn)生的數(shù)據(jù)、日志及運(yùn)行過程中操作數(shù)據(jù)產(chǎn)生的空間浪費(fèi)進(jìn)行清理和維護(hù),縮小數(shù)據(jù)庫文件,以保證系統(tǒng)長期高效運(yùn)作。

        4 信息采集系統(tǒng)的應(yīng)用

        4.1系統(tǒng)采集與人工收集驗(yàn)證比對

        為了進(jìn)一步了解該系統(tǒng)采集信息的科學(xué)性與及時性,通過隨機(jī)選取同一天內(nèi)系統(tǒng)自動采集的信息和人工方法收集的信息,對比兩種方法的信息采集情況,結(jié)果見表1。

        表1 網(wǎng)絡(luò)爬蟲采集信息與人工采集信息抽樣對比表

        表1顯示:在同一天內(nèi),基于網(wǎng)絡(luò)爬蟲技術(shù)的全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng)所采集到的信息和人工收集到的信息完全一致,顯示了系統(tǒng)采集信息的科學(xué)性。

        另外,由于系統(tǒng)具有實(shí)時監(jiān)控功能,系統(tǒng)運(yùn)行時將會對國外質(zhì)量安全信息發(fā)布官方網(wǎng)站進(jìn)行實(shí)時監(jiān)控,可通過監(jiān)控查看網(wǎng)絡(luò)數(shù)據(jù)的采集情況,保持鏈接的有效性和數(shù)據(jù)的時效性,這樣確保了信息采集的及時性。

        4.2后市場監(jiān)管中的應(yīng)用

        本項(xiàng)目將“網(wǎng)絡(luò)爬蟲”技術(shù)應(yīng)用于檢驗(yàn)檢疫所涉及的質(zhì)量安全信息收集工作,建立了全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng),這在國內(nèi)尚屬首次。①實(shí)現(xiàn)了24小時無間斷采集中國產(chǎn)品出口到歐盟、美、日、韓、加拿大等全球各主要貿(mào)易伙伴國家/地區(qū)的警示通報、出口退運(yùn)、產(chǎn)品召回等質(zhì)量安全信息,并對采集的信息自動完成分類整理,對中國的出口產(chǎn)品做到了實(shí)時監(jiān)控。②進(jìn)一步充實(shí)了贛州檢驗(yàn)檢疫局以“設(shè)路標(biāo)、布天網(wǎng)、查違章”理念積極探索的后市場監(jiān)管新模式,該平臺是“布天網(wǎng)”工程建設(shè)的一項(xiàng)重要基礎(chǔ)工作,為后續(xù)建立中國產(chǎn)品國外質(zhì)量安全信息的披露機(jī)制和處置機(jī)制,構(gòu)建出口產(chǎn)品質(zhì)量安全立體監(jiān)控網(wǎng)絡(luò),完善后市場監(jiān)管手段提供了有力保障。③通過建立一個智能化的出口產(chǎn)品質(zhì)量安全信息采集系統(tǒng),自動采集相關(guān)信息,增加了信息的采集覆蓋率,有效提高了工作效率。

        在具體工作實(shí)踐中,本項(xiàng)目將收集到的質(zhì)量安全信息進(jìn)行分析匯總后分成3類,按不同類別對轄區(qū)內(nèi)相關(guān)出口企業(yè)分別采取不同的監(jiān)管措施:涉及本轄區(qū)內(nèi)企業(yè)生產(chǎn)銷售出口產(chǎn)品的質(zhì)量安全信息確定為重點(diǎn)關(guān)注信息,對企業(yè)采取現(xiàn)場調(diào)查措施;本轄區(qū)內(nèi)企業(yè)生產(chǎn)銷售類似出口產(chǎn)品的確定為一般關(guān)注信息,對轄區(qū)內(nèi)相關(guān)企業(yè)采取警示通報措施;與本轄區(qū)內(nèi)企業(yè)生產(chǎn)銷售出口產(chǎn)品無關(guān)的確定為非關(guān)注信息。

        5 結(jié)束語

        改革開放三十余年來,中國作為“貿(mào)易大國”在產(chǎn)品出口的數(shù)量和品種方面實(shí)現(xiàn)了飛躍,但要實(shí)現(xiàn)從“貿(mào)易大國”到“貿(mào)易強(qiáng)國”的華麗轉(zhuǎn)身,還需進(jìn)一步提高出口產(chǎn)品的質(zhì)量[6]。本項(xiàng)目開發(fā)的基于“網(wǎng)絡(luò)爬蟲”技術(shù)的全球產(chǎn)品質(zhì)量安全信息采集系統(tǒng),對全球主要國家/地區(qū)發(fā)布的警示通報、出口退運(yùn)、產(chǎn)品召回等質(zhì)量安全信息進(jìn)行自動采集并分類整理,實(shí)現(xiàn)了對中國出口產(chǎn)品質(zhì)量安全的實(shí)時監(jiān)控,為后續(xù)建立中國產(chǎn)品國外質(zhì)量安全信息的披露機(jī)制和處置機(jī)制,構(gòu)建出口產(chǎn)品質(zhì)量安全立體監(jiān)控網(wǎng)絡(luò),完善后市場監(jiān)管手段提供了有力保障。

        [1]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識與技術(shù),2010,6(15):4112-4115.

        [2]周建梁.聚焦爬蟲原理及關(guān)鍵技術(shù)研究[J].科技資訊,2008,22:26.

        [3]Brian Pinkerton.Finding what people want:Experiences with the web crawler[C].The Second International WWW Conference Chicago,USA,1994,10:17-20.

        [4]周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲[J].計算機(jī)科學(xué),2009,36(8):26-29.

        [5]胡宏濤,常佳.基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J].福建電腦,2006,4:60-61.

        [6]徐美娜,彭羽.出口產(chǎn)品質(zhì)量的國外研究綜述[J].國際經(jīng)貿(mào)探索,2014,30(7):25-36.

        The Establishing of Global Products Quality&Safety Information Collection System Based on Web Crawler Technology

        Lv Runhui,Yan Jianxin,Shan Min,Xie Fei,Gui Jiaxiang*
        (Ganzhou Entry-Exit Inspection and Quarantine Bureau,Ganzhou,Jiangxi,341000)

        Changing from the traditional ex-ante supervision to mid and post supervision has become inevitable to the Inspection and Quarantine regulation System's reform.The prerequisite for post-market supervision is to collect and analyze the quality and safety information for China export products.By establishing a global product quality and safety information collection system based on‘web crawler' tech,it is focusing on collecting and classifying the quality and safety information automatically including cargo withdrawal,recall,shelf off,destroy,alarming notice,and claim etc.Not only this system can realizethereal-timemonitoring of Chinaexportproducts'quality andsafety,butalsoitlaysa foundation for the future export goods quality safety information disclosure&disposal mechanism,and building the scientific post market supervision system.

        Web Crawler;Export Product Quality Safety;Information Collection

        F74

        E-mail:469723450@qq.com

        E-mail:jxgui@126.com

        2015-07-02

        猜你喜歡
        爬蟲產(chǎn)品質(zhì)量網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        產(chǎn)品質(zhì)量監(jiān)督抽查的本質(zhì)與拓展
        加強(qiáng)PPE流通領(lǐng)域產(chǎn)品質(zhì)量監(jiān)督
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        “望聞問切”在產(chǎn)品質(zhì)量鑒定工作中的應(yīng)用
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        產(chǎn)品質(zhì)量好 認(rèn)證不能少
        亚洲精品久久| 精品黑人一区二区三区久久hd| 久久久麻豆精亚洲av麻花| 亚洲女同性恋在线播放专区| 日韩精品视频免费网站| 欧美成妇人吹潮在线播放| 国产成人精品电影在线观看| 日韩在线观看你懂的| 日韩少妇高潮在线视频| 国产成人一区二区三区乱| 色综合久久久久久久久久 | 伊人激情av一区二区三区| 毛片网站视频| 亚洲av网站首页在线观看| 国产精品福利高清在线| 噜噜噜噜私人影院| 精品久久久久久久久久中文字幕| 岛国av无码免费无禁网站下载| 中文无码制服丝袜人妻AV| 一区二区在线观看精品在线观看 | 久久精品国产亚洲av四虎| 国产97色在线 | 免| 亚洲大胆视频在线观看| 色综合久久网| 亚洲精品欧美二区三区中文字幕| 日本高清一区二区不卡视频| 亚洲一本二区偷拍精品| 强开少妇嫩苞又嫩又紧九色| 国产在线精品一区在线观看| 久久精品无码一区二区三区蜜费 | 国产精品爆乳在线播放| 热综合一本伊人久久精品| 亚洲另类无码专区首页| 初女破初的视频| 国产AV无码专区亚洲AV桃花庵| 日本97色视频日本熟妇视频| 亚洲国产精品久久久久秋霞小说| 国产乱人伦av在线无码| 丁香九月综合激情| 日本一二三四高清在线| 久激情内射婷内射蜜桃人妖|