亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深層網(wǎng)頁垂直爬蟲技術(shù)研究綜述

        2018-08-31 05:54:18廣州工商學(xué)院電子信息工程系何小明
        電子世界 2018年16期
        關(guān)鍵詞:爬蟲數(shù)據(jù)源相似性

        廣州工商學(xué)院電子信息工程系 何小明

        引言

        通用爬蟲雖已發(fā)展多年,技術(shù)較為成熟,但僅可采集到具有統(tǒng)一資源定位符(URL)的淺層網(wǎng)頁(Surface Web)。隨著Web技術(shù)的快速發(fā)展,越來越多的網(wǎng)頁將其數(shù)據(jù)與業(yè)務(wù)進行物理分離,僅提供限制性的數(shù)據(jù)訪問接口,使其具有商業(yè)價值的數(shù)據(jù)隱藏到深層網(wǎng)頁(Deep Web)背后的網(wǎng)絡(luò)數(shù)據(jù)庫中。目前,很多爬蟲研究者試圖設(shè)計一個能采集全部深層網(wǎng)頁數(shù)據(jù)的通用爬蟲,由于不同深層網(wǎng)頁數(shù)據(jù)加載方式的不同,使得這類深層網(wǎng)頁通用爬蟲只能采集有限深層網(wǎng)頁的數(shù)據(jù)。為了獲得特定主題內(nèi)容或特定領(lǐng)域的深層網(wǎng)頁數(shù)據(jù),還需定制開發(fā)出專門的深層網(wǎng)頁垂直爬蟲。

        1 深層網(wǎng)頁垂直爬蟲工作原理

        深層網(wǎng)頁垂直爬蟲是根據(jù)深層網(wǎng)頁的垂直結(jié)構(gòu)而定制的一個自動提取數(shù)據(jù)的程序,通過采集深層網(wǎng)頁的數(shù)據(jù)塊來分析出用戶需要的數(shù)據(jù)實體。

        深層網(wǎng)頁垂直爬蟲以查詢接口或網(wǎng)站導(dǎo)航頁面為入口,結(jié)合相應(yīng)的操作策略,通過網(wǎng)頁腳本、異步請求、交互操作或頁面渲染等動態(tài)網(wǎng)頁技術(shù)加載出完整的深層網(wǎng)頁,定位并提取網(wǎng)頁頁面包含的數(shù)據(jù)塊,再分析出數(shù)據(jù)實體,并評估采集到的數(shù)據(jù)是否完備,若未完備,則不斷重復(fù)該過程,直到數(shù)據(jù)采集完備,結(jié)束爬蟲程序的運行。其運行流程如圖1所示。在這個過程中,可根據(jù)數(shù)據(jù)實體的分析結(jié)果優(yōu)化爬蟲的運行策略,以便反饋與指導(dǎo)后續(xù)的工作。

        圖1 深層網(wǎng)頁垂直爬蟲運行流程示意圖

        (1)如何加載出完整的深層網(wǎng)頁;

        (2)如何定位并抽取網(wǎng)頁數(shù)據(jù)塊;

        (3)如何分析出數(shù)據(jù)實體。

        深層網(wǎng)頁的完整加載決定數(shù)據(jù)采集的完整性,也是深層網(wǎng)頁垂直爬蟲定位、抽取網(wǎng)頁數(shù)據(jù)塊和分析數(shù)據(jù)實體的基礎(chǔ)。網(wǎng)頁數(shù)據(jù)塊的定位與抽取是爬蟲采集數(shù)據(jù)的關(guān)鍵步驟,分析數(shù)據(jù)實體的方法依賴于所抽取數(shù)據(jù)塊的結(jié)構(gòu)與特征。整個深層網(wǎng)頁垂直爬蟲的運行策略就是在這三個關(guān)鍵技術(shù)上建立的,下面將介紹深層網(wǎng)頁垂直爬蟲的關(guān)鍵技術(shù)及其爬取策略。

        2 深層網(wǎng)頁垂直爬蟲的關(guān)鍵技術(shù)

        2.1 動態(tài)網(wǎng)頁的加載

        通過超文本傳輸協(xié)議(HTTP),深層網(wǎng)頁垂直爬蟲從URL處僅可加載出深層網(wǎng)頁的靜態(tài)內(nèi)容,需結(jié)合交互操作、網(wǎng)頁腳本、異步請求或頁面渲染等動態(tài)網(wǎng)頁技術(shù),將深層網(wǎng)頁內(nèi)容完整加載。

        交互操作是用戶對網(wǎng)頁元素實施的可加載出深層網(wǎng)頁動態(tài)內(nèi)容的操作。常見的交互操作有按鍵或超鏈接的點擊、文本框的輸入與表單的提交[1]、頁面或元素的滑動等。網(wǎng)頁腳本是為提高Web系統(tǒng)的響應(yīng)速度而設(shè)計的解釋性程序,具有跨平臺執(zhí)行的特點,常用于數(shù)據(jù)驗證、多媒體加載與播放、網(wǎng)頁元素的事件處理等操作。異步請求[2]是為提高網(wǎng)頁交互的流暢性而設(shè)計的多線程處理機制,在實際的應(yīng)用中還具有隱藏數(shù)據(jù)請求接口、保護重要數(shù)據(jù)的作用。網(wǎng)頁的頁面渲染因無法脫離瀏覽器程序的支持,正逐漸成為一種有效的反爬蟲技術(shù)。深層網(wǎng)頁垂直爬蟲通常采用集成瀏覽器內(nèi)核的方式來解決網(wǎng)頁渲染的限制,常見的瀏覽器內(nèi)核有Mozilla Gecko內(nèi)核、IE內(nèi)核和開源內(nèi)核。

        2.2 數(shù)據(jù)塊的定位與抽取

        深層網(wǎng)頁可視為網(wǎng)絡(luò)數(shù)據(jù)庫的一種視圖。由于網(wǎng)頁設(shè)計風(fēng)格的不同,網(wǎng)頁上的數(shù)據(jù)已丟失了其存儲于數(shù)據(jù)庫中時所具有的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)實體被拆分與組合成許多數(shù)據(jù)塊,分布在一個或多個深層網(wǎng)頁中。深層網(wǎng)頁垂直爬蟲需利用基于DOM樹[3]、基于頁面定位語言或基于CSS選擇器的工具定位出深層網(wǎng)頁上的數(shù)據(jù)塊,并通過程序自動化或半自動化地抽取出這些數(shù)據(jù)塊。

        2.3 數(shù)據(jù)實體的分析

        用戶對數(shù)據(jù)需求的不同,決定數(shù)據(jù)來源的不同。針對某一數(shù)據(jù)實體,有的只需采集特定網(wǎng)頁下的數(shù)據(jù)塊,有的則需從同領(lǐng)域下不同的深層網(wǎng)頁中采集多個數(shù)據(jù)塊。這樣從多網(wǎng)頁下采集到的多個數(shù)據(jù)塊包含的信息具有片面性且相互之間存在冗余,需將數(shù)據(jù)塊進行分析以提煉出完整的數(shù)據(jù)實體,所涉及到的分析算法包括頁面分類、數(shù)據(jù)源采樣、數(shù)據(jù)塊標(biāo)注、數(shù)據(jù)塊相似性度量和數(shù)據(jù)源整合。

        導(dǎo)入環(huán)節(jié):教師可請學(xué)生打一諺語:形容在一個地方兩個強者不能相容。在熱烈的氣氛中,學(xué)生齊聲說出答案“一山不容二虎”。隨后,教師進一步拋疑:是什么原因?學(xué)生甲說:“是由于食物不充足導(dǎo)致?!睂W(xué)生乙說:“是由于能量供應(yīng)出了問題?!苯處熆闪舫鰬夷睿谏贤晷抡n后再評價。

        2.3.1 頁面分類

        深層網(wǎng)頁垂直爬蟲在運行的過程中,對查詢接口頁面、導(dǎo)航頁面、索引頁面和數(shù)據(jù)頁面等不同類別的網(wǎng)頁分別采取不同的處理方式,故需對這些頁面進行分類。文獻[4]將深層網(wǎng)頁標(biāo)簽名稱、文本值和默認值等作為語義特征進行提取,通過決策樹分類算法生成數(shù)據(jù)源的分類規(guī)則樹。文獻[5]采用C4.5決策樹和樸素貝葉斯相結(jié)合的分類方法,并結(jié)合反饋機制,能有效地判斷爬蟲提取的網(wǎng)頁信息是否與主題相關(guān)。

        2.3.2 數(shù)據(jù)源采樣

        同領(lǐng)域下不同深層網(wǎng)頁數(shù)據(jù)源質(zhì)量的高低會直接影響深層網(wǎng)頁垂直爬蟲獲取數(shù)據(jù)實體的效率,這就需要對多個數(shù)據(jù)源進行質(zhì)量評估。由于數(shù)據(jù)源包含的數(shù)據(jù)量太大,難以對所有數(shù)據(jù)進行評估,在實際操作中,通常用數(shù)據(jù)源采樣算法來降低數(shù)據(jù)評估的運算量。常用的數(shù)據(jù)源采樣算法可分為挖掘采樣算法和隨機采樣算法。挖掘采樣算法是通過Web系統(tǒng)的日志模塊來挖掘關(guān)鍵詞與數(shù)據(jù)屬性的關(guān)聯(lián)性,從該日志模塊中提取出Web系統(tǒng)的高頻關(guān)鍵詞來完成數(shù)據(jù)源的采樣[6]。由于日志模塊通常無法被爬蟲訪問,導(dǎo)致該類采樣算法的實用性較低。隨機采樣算法是根據(jù)文本頻率、集合詞頻和平均詞頻等統(tǒng)計量來對數(shù)據(jù)源進行隨機采樣,可有效地描述數(shù)據(jù)庫內(nèi)容。

        2.3.3 數(shù)據(jù)塊標(biāo)注

        對于同一數(shù)據(jù)實體,深層網(wǎng)頁垂直爬蟲從同領(lǐng)域下不同深層網(wǎng)頁中采集到的數(shù)據(jù)塊存在多種表述,需對數(shù)據(jù)塊進行標(biāo)注,歸一化的標(biāo)注描述便于爬蟲對數(shù)據(jù)塊進一步分析。常用的數(shù)據(jù)標(biāo)注方法有基于頁面信息的數(shù)據(jù)標(biāo)注算法、基于領(lǐng)域知識的數(shù)據(jù)標(biāo)注算法、基于接口模式的數(shù)據(jù)標(biāo)注算法和基于結(jié)果模式的數(shù)據(jù)標(biāo)注算法等?;陧撁嫘畔⒌臄?shù)據(jù)標(biāo)注算法依賴于數(shù)據(jù)塊所在網(wǎng)頁的標(biāo)簽結(jié)構(gòu)。由于深層網(wǎng)頁設(shè)計風(fēng)格的多樣化,使得網(wǎng)頁標(biāo)簽的結(jié)構(gòu)存在多樣性,因此該標(biāo)注算法的實用性較低。基于領(lǐng)域知識的數(shù)據(jù)標(biāo)注算法是通過構(gòu)造相關(guān)領(lǐng)域的對象知識模型,利用機器學(xué)習(xí)算法對數(shù)據(jù)塊進行標(biāo)注?;诮涌谀J降臄?shù)據(jù)標(biāo)注算法和基于結(jié)果模式的數(shù)據(jù)標(biāo)注算法分別依賴數(shù)據(jù)查詢接口頁面和查詢結(jié)果頁面的數(shù)據(jù)屬性,對同一領(lǐng)域內(nèi)的深層網(wǎng)頁的數(shù)據(jù)塊可實現(xiàn)準(zhǔn)確的標(biāo)注[7]。

        2.3.4 數(shù)據(jù)塊相似性度量

        數(shù)據(jù)塊之間的相似性度量用于識別數(shù)據(jù)塊之間是否存在冗余或互補屬性,從而提取出信息完善的數(shù)據(jù)實體。數(shù)據(jù)塊之間的相似性度量方法可分為基于文本、結(jié)構(gòu)和語義的相似性度量?;谖谋鞠嗨菩远攘克惴ㄊ菍?shù)據(jù)塊的文本進行相似性計算?;诮Y(jié)構(gòu)相似性度量算法是計算數(shù)據(jù)塊所在網(wǎng)頁的標(biāo)簽結(jié)構(gòu)的相似性?;谡Z義相似性度量算法是從網(wǎng)頁的文本提取出語義詞匯,通過計算語義詞匯的相似度得到數(shù)據(jù)塊的相似性。上述每種數(shù)據(jù)塊相似性度量算法都有各自的特點,實際應(yīng)用時可結(jié)合多種度量算法來提高數(shù)據(jù)相似性的精度。

        2.3.5 數(shù)據(jù)源整合

        若同領(lǐng)域下不同的深層網(wǎng)頁提供較高相似度的數(shù)據(jù)塊,則可對這些深層網(wǎng)頁的數(shù)據(jù)源進行整合。數(shù)據(jù)源整合通常要結(jié)合網(wǎng)頁頁面的結(jié)構(gòu)特征和數(shù)據(jù)塊的語義特征,采用聚類算法或混合特征的方法來完善數(shù)據(jù)實體,從而實現(xiàn)數(shù)據(jù)源的整合。文獻[8]通過計算不同數(shù)據(jù)源的數(shù)據(jù)塊屬性的相似性,判別出數(shù)據(jù)塊間的共有屬性和私有屬性,通過組合每個數(shù)據(jù)實體的共有屬性和私有屬性來完成多個數(shù)據(jù)源的整合。

        3 深層網(wǎng)頁垂直爬蟲的爬取策略

        深層網(wǎng)絡(luò)垂直爬蟲的數(shù)據(jù)入口可分為基于關(guān)鍵詞查詢接口和基于導(dǎo)航分類頁面的接口。針對單一領(lǐng)域的深層網(wǎng)頁,如電商、社交領(lǐng)域,深層網(wǎng)頁垂直爬蟲通常以導(dǎo)航分類頁面為入口,動態(tài)地加載出所有的深層網(wǎng)頁?;陉P(guān)鍵詞查詢接口的爬取策略則是深層網(wǎng)絡(luò)垂直爬蟲的主要研究方向,下面重點介紹基于關(guān)鍵詞查詢接口的爬取策略。

        對于以表單作為數(shù)據(jù)入口的深層網(wǎng)頁,通常以詞典、統(tǒng)計表等基于領(lǐng)域的本體知識庫作為關(guān)鍵詞篩選策略。爬蟲程序先構(gòu)建一個關(guān)鍵詞詞庫,詞庫在關(guān)鍵詞篩選策略下動態(tài)地變動,爬蟲加載出詞庫中全部關(guān)鍵字對應(yīng)的深層網(wǎng)頁;網(wǎng)頁經(jīng)過分類處理后,爬蟲再對分類出的查詢結(jié)果網(wǎng)頁進行數(shù)據(jù)塊的定位、抽取和相似性度量,提煉出完整的數(shù)據(jù)實體,最后將數(shù)據(jù)實體進行持久化存儲;當(dāng)關(guān)鍵詞所關(guān)聯(lián)的數(shù)據(jù)實體被持久化存儲后,該關(guān)鍵詞將被移出詞庫,重復(fù)上述過程直至詞庫為空,爬蟲程序停止工作。

        結(jié)束語

        從互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用前景來看,深層網(wǎng)頁垂直爬蟲將成為采集海量數(shù)據(jù)的重要工具之一,其技術(shù)仍處于待完善的階段,有很多值得我們深入研究與探討的課題,如下:

        (1)多媒體信息的采集。多媒體數(shù)據(jù)包含豐富的信息,當(dāng)前爬蟲程序主要采集的數(shù)據(jù)對象是文本信息,極少去采集多媒體數(shù)據(jù)本身并進行分析。

        (2)反爬蟲的干擾。深層網(wǎng)頁垂直爬蟲面臨的另一個挑戰(zhàn)就是反爬蟲。反爬蟲以保護網(wǎng)頁數(shù)據(jù)、避免爬蟲過度占用網(wǎng)絡(luò)帶寬為目的來阻止爬蟲的運作,爬蟲則需采取相應(yīng)的策略來應(yīng)對該限制。爬蟲與反爬蟲之間的這種技術(shù)較量,降低了爬蟲程序的生命周期,給爬蟲開發(fā)者帶來了極大的技術(shù)挑戰(zhàn)。

        (3)數(shù)據(jù)價值的挖掘。深層網(wǎng)頁垂直爬蟲是一種采集數(shù)據(jù)的工具,其數(shù)據(jù)的應(yīng)用價值并未完全體現(xiàn)。目前,大數(shù)據(jù)、數(shù)據(jù)挖掘、人工智能、深度學(xué)習(xí)等技術(shù)研究正如火如荼地展開著,這些研究工作都需以海量數(shù)據(jù)作支撐,而這正是爬蟲所能提供的。

        除了上述三方面的困難與挑戰(zhàn),深層網(wǎng)頁垂直爬蟲技術(shù)還有很多需要我們改進與完善的方面,這也是我們今后的主要研究內(nèi)容。希望通過更多研究人員的努力,建立起一個更高效、更智能的深層網(wǎng)頁垂直爬蟲。

        猜你喜歡
        爬蟲數(shù)據(jù)源相似性
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        一類上三角算子矩陣的相似性與酉相似性
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        淺析當(dāng)代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        低滲透黏土中氯離子彌散作用離心模擬相似性
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        久久精品99国产精品日本| 日本一区二区三区女优在线| 亚洲阿v天堂2018在线观看| 日韩在线不卡一区在线观看| 亚洲午夜无码久久久久软件| 亚洲中文字幕在线精品2021| 亚洲精品不卡av在线免费| 久久99亚洲精品久久久久 | 中文字幕在线看精品乱码| 国产精品无码一区二区三级 | 精品伊人久久大线蕉色首页| 久久久久国产一区二区| 天天躁日日躁狠狠躁人妻| 国产精品成人午夜久久| 开心激情站开心激情网六月婷婷| 日本中文字幕官网亚洲| 亚洲国产综合久久天堂| 中文无码伦av中文字幕| 国产成年女人特黄特色毛片免| 国产欧美日韩在线观看| 音影先锋色天堂av电影妓女久久 | 日本一本二本三本道久久久| 国产一区二区精品人妖系列在线 | 老头巨大挺进莹莹的体内免费视频| 免费毛片在线视频| 国产成年无码久久久久下载| 少妇人妻无奈的跪趴翘起| 亚洲爆乳无码精品aaa片蜜桃| 中文字幕日本特黄aa毛片| 日韩精品一区二区三区四区| 日美韩精品一区二区三区| 亚洲国产av一区二区三区天堂| 欧美丰满老熟妇aaaa片| a级毛片高清免费视频就| 国产第一草草影院| 中文亚洲成a人片在线观看| 亚洲自拍偷拍一区二区三区 | 少妇性饥渴无码a区免费| 日本一区午夜艳熟免费| 日韩啪啪精品一区二区亚洲av| 久久黄色精品内射胖女人|