亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)爬蟲的專利技術(shù)綜述

        2018-07-12 07:56:22馬明陽郭明亮魏留強(qiáng)
        科技視界 2018年22期
        關(guān)鍵詞:暗網(wǎng)爬蟲專利申請(qǐng)

        馬明陽 郭明亮 魏留強(qiáng)

        (國家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心,河南 鄭州 450000)

        1 概述

        1.1 網(wǎng)絡(luò)爬蟲原理

        網(wǎng)絡(luò)爬蟲技術(shù)是許多互聯(lián)網(wǎng)應(yīng)用的基礎(chǔ)技術(shù)[1],特別是在大數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、網(wǎng)絡(luò)取證、信息聚合、輿情監(jiān)控、網(wǎng)頁快照等領(lǐng)域有非常普遍的應(yīng)用。如果把互聯(lián)網(wǎng)比成一張無形的巨大網(wǎng)絡(luò),那么網(wǎng)絡(luò)爬蟲就是一只在這張網(wǎng)上爬來爬去的蟲子,網(wǎng)絡(luò)爬蟲因此得名。一個(gè)網(wǎng)絡(luò)爬蟲的工作過程,就是從某個(gè)網(wǎng)站中的某一個(gè)頁面開始,讀取網(wǎng)頁的HTML內(nèi)容,并在該網(wǎng)頁中找到其他網(wǎng)頁的鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)絡(luò)中所有的網(wǎng)頁都抓取完為止[2]。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)爬蟲就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。在“互聯(lián)網(wǎng)+”時(shí)代,網(wǎng)絡(luò)爬蟲技術(shù)將在云計(jì)算、大數(shù)據(jù)分析、電子商務(wù)、社交網(wǎng)絡(luò)、輿情監(jiān)控等諸多互聯(lián)網(wǎng)前沿技術(shù)領(lǐng)域發(fā)揮重要的作用。

        1.2 網(wǎng)絡(luò)爬蟲存在的問題

        由于互聯(lián)網(wǎng)上目前存在的網(wǎng)頁數(shù)量超過百億,網(wǎng)頁的展現(xiàn)形態(tài)也是不斷出新,導(dǎo)致網(wǎng)絡(luò)爬蟲技術(shù)也面臨著諸多技術(shù)上的難題。

        首先,網(wǎng)絡(luò)爬蟲需要解決如何能夠在有限的時(shí)間內(nèi),根據(jù)現(xiàn)有的硬件基礎(chǔ)獲得更全面的數(shù)據(jù)量;并且需要對(duì)采集到的海量網(wǎng)頁數(shù)據(jù)進(jìn)行有效去重[3],并為海量的網(wǎng)頁數(shù)據(jù)提供高效的存儲(chǔ)和查詢方式。

        其次,由于多線程并發(fā)執(zhí)行的網(wǎng)絡(luò)爬蟲很可能會(huì)造成服務(wù)器資源的枯竭,導(dǎo)致對(duì)方服務(wù)器出現(xiàn) “拒絕服務(wù)”的情況[4],目前大多數(shù)Web服務(wù)器會(huì)對(duì)網(wǎng)絡(luò)訪問請(qǐng)求進(jìn)行過濾,將短時(shí)間內(nèi)發(fā)出大量訪問請(qǐng)求的疑似“機(jī)器人”或網(wǎng)絡(luò)爬蟲拒之門外,導(dǎo)致網(wǎng)絡(luò)爬蟲的暫時(shí)失效。

        此外,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,特別是“深網(wǎng)”的出現(xiàn)和“暗網(wǎng)”和泛濫[5],導(dǎo)致大量有價(jià)值的網(wǎng)絡(luò)頁面處于常規(guī)網(wǎng)絡(luò)爬蟲無法獲取到的狀態(tài),這在一定程度上制約了網(wǎng)絡(luò)爬蟲,導(dǎo)致網(wǎng)絡(luò)爬蟲在深網(wǎng)和暗網(wǎng)中無法正常展開工作。

        2 專利申請(qǐng)狀況分析

        本文主要基于專利檢索系統(tǒng)平臺(tái)S系統(tǒng),分析網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展現(xiàn)狀,檢索數(shù)據(jù)庫為DWPI數(shù)據(jù)庫,采用 web、crawler、spider、robot等關(guān)鍵詞進(jìn)行限 定,得到相關(guān)專利文獻(xiàn)2235篇,檢索日期為2018年5月18日。

        在2000-2002年,受互聯(lián)網(wǎng)泡沫破裂的影響,網(wǎng)絡(luò)爬蟲技術(shù)專利的相關(guān)申請(qǐng)量一度出現(xiàn)了將大幅度的下降,至2006年左右,網(wǎng)絡(luò)爬蟲技術(shù)的專利申請(qǐng)量由每年100篇左右快速地增長(zhǎng)至每年150-200篇左右,而到了2016年,網(wǎng)絡(luò)爬蟲技術(shù)的專利申請(qǐng)量達(dá)到了最大值306篇每年??梢钥闯?,目前全球?qū)W(wǎng)絡(luò)爬蟲技術(shù)的研究還處于非?;钴S的時(shí)期。

        網(wǎng)絡(luò)爬蟲技術(shù)的主要申請(qǐng)人則集中在美國、中國、韓國、日本、歐洲、德國等地區(qū),可以看出,中美兩國在網(wǎng)絡(luò)爬蟲技術(shù)這一技術(shù)領(lǐng)域處于全球領(lǐng)先的地位,這與中美兩國互聯(lián)網(wǎng)技術(shù)的普遍應(yīng)用,以及互聯(lián)網(wǎng)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展有密切關(guān)系。

        其中,IBM(International Business Machine)的專利申請(qǐng) 量 最 大 , 微 軟 (Microsoft)、 雅 虎 (Yahoo)、 谷 歌(Google)等是主要的國外申請(qǐng)人,而在中國主要有國雙科技(Gridsum)阿里巴巴(Alibaba)、奇虎(Qihoo)、百度(Baidu)等專利申請(qǐng)人。

        可以看出,互聯(lián)網(wǎng)巨頭們都非常重視網(wǎng)絡(luò)爬蟲技術(shù)的專利申請(qǐng)和保護(hù),這是由于網(wǎng)絡(luò)爬蟲技術(shù)作為互聯(lián)網(wǎng)應(yīng)用的基礎(chǔ)性、關(guān)鍵性技術(shù)而決定的,加強(qiáng)網(wǎng)絡(luò)爬蟲技術(shù)的專利儲(chǔ)備,積極開展網(wǎng)絡(luò)爬蟲技術(shù)領(lǐng)域的專利布局,符合互聯(lián)網(wǎng)巨頭們的發(fā)展利益。

        3 重要專利技術(shù)分析

        在網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展過程中,網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展方向主要包括了硬件提升、算法改進(jìn)、突破限制、暗網(wǎng)爬蟲等多個(gè)方向。

        為了提升網(wǎng)絡(luò)爬蟲的爬取效率,對(duì)實(shí)施爬蟲的硬件做出改進(jìn)是最直接有效的。在硬件改進(jìn)方面,很多申請(qǐng)人引入了分布式系統(tǒng)以增強(qiáng)爬蟲的調(diào)度效率、存儲(chǔ)效率、查詢效率。例如,申請(qǐng)人為美國微軟公司的申請(qǐng)?zhí)枮?US20030670681的專利申請(qǐng) (申請(qǐng)日期20030925,公開號(hào)為US2005071766A1)利用服務(wù)器的客戶機(jī)的分布式性質(zhì)來提供快速、準(zhǔn)確的web蠕動(dòng)數(shù)據(jù)。將服務(wù)器的web爬蟲所搜集的信息與該服務(wù)器的客戶機(jī)所檢索的數(shù)據(jù)進(jìn)行比較,以更新該爬蟲的數(shù)據(jù)。該申請(qǐng)通過利用經(jīng)由搜索引擎結(jié)果網(wǎng)頁而加以傳播的信息,來實(shí)現(xiàn)數(shù)據(jù)比較,由概括web爬蟲數(shù)據(jù)的客戶機(jī)詞典(從服務(wù)器發(fā)出)來實(shí)現(xiàn)數(shù)據(jù)證實(shí)。本發(fā)明也通過提供用于抵抗web爬蟲的電子欺騙法的方法,以提高數(shù)據(jù)準(zhǔn)確度,來促進(jìn)數(shù)據(jù)分析。該專利申請(qǐng)不僅通過分布式的客戶機(jī)提高了網(wǎng)絡(luò)爬蟲的爬取速度,而且由于客戶機(jī)的真實(shí)性和分散性,很好地解決了網(wǎng)絡(luò)爬蟲在短時(shí)間內(nèi)發(fā)出大量訪問請(qǐng)求被服務(wù)器認(rèn)定為疑似 “機(jī)器人”而拒之門外,導(dǎo)致網(wǎng)絡(luò)爬蟲的暫時(shí)失效的問題。

        在對(duì)爬蟲的調(diào)度算法進(jìn)行改進(jìn)時(shí),一項(xiàng)最重要的工作就是去重。由于互聯(lián)網(wǎng)上高熱度網(wǎng)頁內(nèi)容會(huì)被多次轉(zhuǎn)載,為了避免爬取到重復(fù)的網(wǎng)頁內(nèi)容,對(duì)爬取內(nèi)容進(jìn)行去重可以極大地提高爬蟲的工作效率。例如,申請(qǐng)人為中國百度網(wǎng)訊科技有限公司的申請(qǐng)?zhí)枮镃N201310078316的專利申請(qǐng)(申請(qǐng)日期 20130312,公開號(hào)CN103226568A)請(qǐng)求保護(hù)一種用于爬取頁面的方法和設(shè)備,爬取設(shè)備根據(jù)已爬取頁面,獲取對(duì)應(yīng)候選爬取頁面的候選頁面標(biāo)識(shí)信息;根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標(biāo)識(shí)信息添加至對(duì)應(yīng)的待爬頁面集合;根據(jù)所述待爬頁面集合,確定待爬取頁面的目標(biāo)爬取標(biāo)識(shí)信息;爬取所述目標(biāo)爬取標(biāo)識(shí)信息所對(duì)應(yīng)的目標(biāo)頁面。與現(xiàn)有技術(shù)相比,該發(fā)明根據(jù)所述關(guān)聯(lián)性信息,有效的避免了重復(fù)爬取相同或相似網(wǎng)頁、浪費(fèi)系統(tǒng)資源以及爬取效率低下的問題,實(shí)現(xiàn)了爬取調(diào)度的可配置性,使得爬取能夠目的地?cái)U(kuò)散,控制爬蟲在網(wǎng)頁間移動(dòng)的方向和速度,提高了垂直爬蟲的爬取效率。

        此外,隨著本領(lǐng)域?qū)?shù)據(jù)保護(hù)的意識(shí)增強(qiáng),多數(shù)大型網(wǎng)站增加了對(duì)爬蟲程序或機(jī)器人程序的識(shí)別檢測(cè),提出了多種相應(yīng)的爬蟲防范策略。對(duì)此,申請(qǐng)人為中國奇虎科技有限公司的申請(qǐng)?zhí)枮镃N201510901579的專利申請(qǐng)(申請(qǐng)日期20151208,公開號(hào) CN105354337A)請(qǐng)求保護(hù)一種網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法,該方法模擬用戶對(duì)網(wǎng)頁的訪問操作發(fā)送網(wǎng)頁訪問請(qǐng)求;根據(jù)網(wǎng)頁訪問請(qǐng)求對(duì)應(yīng)的反饋內(nèi)容獲得相應(yīng)的網(wǎng)頁內(nèi)容;分析獲得的網(wǎng)頁內(nèi)容,獲得目標(biāo)信息。通過該技術(shù)方案實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲并不直接訪問網(wǎng)站服務(wù)器獲取資源,而是通過模擬正常用戶的網(wǎng)頁訪問請(qǐng)求,在客戶端如瀏覽器獲取到網(wǎng)頁內(nèi)容,避免了受到網(wǎng)站設(shè)置的robots.txt中對(duì)網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)內(nèi)容的限制,并且獲取到的內(nèi)容也是通過正當(dāng)途徑訪問網(wǎng)頁獲取的,既可以滿足用戶爬取數(shù)據(jù)的需求,也不違反網(wǎng)站服務(wù)提供方的約束。

        而隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,特別是“深網(wǎng)”的出現(xiàn)和“暗網(wǎng)”的泛濫,導(dǎo)致大量有價(jià)值的網(wǎng)絡(luò)頁面處于常規(guī)網(wǎng)絡(luò)爬蟲無法獲取到的狀態(tài),這在一定程度上制約了網(wǎng)絡(luò)爬蟲,導(dǎo)致網(wǎng)絡(luò)爬蟲在深網(wǎng)和暗網(wǎng)中無法正常展開工作。為此,申請(qǐng)人哈爾濱工業(yè)大學(xué)提出了一種專門面向暗網(wǎng)數(shù)據(jù)采集與抽取的網(wǎng)絡(luò)爬蟲方法(CN107808000A),首先通過手動(dòng)或自動(dòng)獲取暗網(wǎng) url,構(gòu)筑基于Hadoop+Nutch的分布式爬蟲平臺(tái),配置Tor服務(wù),修改Hutch的配置使其與socks協(xié)議交互,基于Hutch做進(jìn)一步的開發(fā),解決其表單登錄和Cookie登錄的問題,采用基于Hadoop+Nutch的分布式爬蟲平臺(tái)爬取暗網(wǎng)url,得到html文檔,對(duì)爬取得到的html文檔依次進(jìn)行數(shù)據(jù)預(yù)處理、頁面解析樹生成、頁面結(jié)構(gòu)向量化、hash學(xué)習(xí)與特征碼生成、模板集生成、相似度計(jì)算與模板集更新、頁面內(nèi)容抽取,采用數(shù)據(jù)對(duì)齊策略對(duì)抽取得到的內(nèi)容重組,同時(shí)將內(nèi)容相近的數(shù)據(jù)記錄融合存入數(shù)據(jù)庫中。

        4 結(jié)論

        網(wǎng)絡(luò)爬蟲的原理雖然簡(jiǎn)單,但是網(wǎng)絡(luò)環(huán)境是非常復(fù)雜的,因此,網(wǎng)絡(luò)爬蟲的應(yīng)用必須克服網(wǎng)絡(luò)環(huán)境中的諸多障礙,才能充分發(fā)揮出網(wǎng)絡(luò)爬蟲技術(shù)的能力。在網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展過程中,網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展方向主要包括了硬件提升、算法改進(jìn)、主題爬蟲、突破限制、暗網(wǎng)爬蟲等多個(gè)方向,在這些發(fā)展方向上,網(wǎng)絡(luò)爬蟲越來越能夠適應(yīng)最新的網(wǎng)絡(luò)環(huán)境,滿足人們多樣化的爬蟲需求。

        猜你喜歡
        暗網(wǎng)爬蟲專利申請(qǐng)
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        暗網(wǎng)犯罪的現(xiàn)狀及趨勢(shì)研究
        法制博覽(2021年1期)2021-11-25 19:18:02
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        嗅出“暗網(wǎng)”中隱匿的犯罪信息
        暗網(wǎng)
        方圓(2020年16期)2020-09-22 07:03:44
        被“暗網(wǎng)”盯上的年輕人
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        專利申請(qǐng)審批流程圖
        河南科技(2016年8期)2016-09-03 08:08:22
        專利申請(qǐng)三步曲
        亚洲肥老太bbw中国熟女| 亚洲男人的天堂av一区| 日本九州不卡久久精品一区| www国产亚洲精品| 中文字幕aⅴ人妻一区二区| 亚洲国产综合精品 在线 一区 | 精品国产一区二区三区av片| 久热在线播放中文字幕| 亚洲AV无码日韩综合欧亚 | 中文字幕亚洲乱码熟女一区二区| 91热爆在线精品| 免费观看国产激情视频在线观看| 国产精品午夜夜伦鲁鲁| 丰满人妻一区二区三区免费视频| 99re热视频这里只精品| 五月婷婷影视| 久久天堂精品一区专区av| 国产一区二区三区视频地址| 国产a√无码专区亚洲av| 日韩人妻无码免费视频一区二区三区 | 熟妇激情内射com| 亚洲男人第一av网站| 一区视频在线观看免费播放.| 久久黄色精品内射胖女人| 粗大猛烈进出高潮视频大全| 一本色道无码道在线观看| 无码人妻丰满熟妇精品区| 好看午夜一鲁一鲁一鲁| 人妻在线有码中文字幕| 刺激一区仑乱| 99久久er这里只有精品18| 天堂在线观看av一区二区三区| 久久夜色精品亚洲天堂| 日本激情网站中文字幕| 无码任你躁久久久久久老妇| 无码人妻丰满熟妇精品区| 亚洲av色在线观看网站| 蜜臀av一区二区三区久久| 少妇高潮一区二区三区99| 少妇太爽了在线观看| 国产高清丝袜美腿视频在线观看|