亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Hidden Web信息獲取

        2007-01-01 00:00:00陳小英
        計算機時代 2007年5期

        摘要:如今Web上越來越多的信息可以通過查詢接口獲得,但為了獲取某Hidden Web站點的頁面,用戶不得不鍵入一系列的關(guān)鍵詞。由于沒有直接指向Hidden Web頁面的靜態(tài)鏈接,當(dāng)前大多搜索引擎不能發(fā)現(xiàn)和索引這些頁面。然而,研究表明,由Hidden Web站點提供的高質(zhì)量的信息對許多用戶來說非常有價值。文章通過研究針對特定類型的表單,建立一個有效的Hidden Web爬蟲,以便獲取Hidden Web后臺數(shù)據(jù)庫信息。

        關(guān)鍵詞:Hidden Web;Hidden Web爬蟲;靜態(tài)鏈接;搜索引擎;采樣策略

        0 引言

        網(wǎng)絡(luò)上大部分內(nèi)容是不能通過靜態(tài)鏈接獲取的,特別是大部分隱藏在搜索表單之后的頁面只有通過用戶鍵入一系列關(guān)鍵詞才可以獲得。這些頁面被稱為Hidden Web。由于當(dāng)前的搜索引擎不能索引到或不能在它們的返回結(jié)果中顯示這些頁面,因此對用戶來說這部分頁面是隱藏的。Hidden Web最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎難以發(fā)現(xiàn)其信息內(nèi)容的Web頁面。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過互聯(lián)網(wǎng)可以獲取,但普通搜索引擎由于受技術(shù)限制而不能或不作索引的那些文本頁、文件或其它通常是高質(zhì)量、權(quán)威的信息。根據(jù)最近對HiddenWeb的調(diào)查文獻得到了如下有意義的發(fā)現(xiàn):

        (1)Hidden Web大約有307,000個站點,450,000個后臺數(shù)據(jù)庫和1,258,000個查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

        (2)Hidden Web內(nèi)容分布于多種不同的主題領(lǐng)域,電子商務(wù)是主要的驅(qū)動力量,但非商業(yè)領(lǐng)域相對占更大比重。

        (3)當(dāng)今的爬蟲并非完全爬行不到Hidden Web后臺數(shù)據(jù)庫內(nèi),一些主要的搜索引擎已經(jīng)覆蓋Hidden Web大約三分之一的內(nèi)容。然而,在覆蓋率上當(dāng)前搜索引擎存在技術(shù)上的本質(zhì)缺陷。

        (4)Hidden Web中的后臺數(shù)據(jù)庫大多是結(jié)構(gòu)化的,其中結(jié)構(gòu)化的是非結(jié)構(gòu)化的3.4倍之多。

        (5)雖然一些Hidden Web目錄服務(wù)已經(jīng)開始索引Web數(shù)據(jù)庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。

        (6)Web數(shù)據(jù)庫往往位于站點淺層,多達94%的Web數(shù)據(jù)庫可以在站點前3層發(fā)現(xiàn)。

        可以看出Hidden Web中信息量要比Surface Web信息量多得多,同時由于Hidden Web頁面信息是由后臺數(shù)據(jù)庫動態(tài)產(chǎn)生的,數(shù)據(jù)庫大多是結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫,因此信息的質(zhì)量比非結(jié)構(gòu)化的頁面要高。

        本文以不含或含有少量的文本元素,其它類型元素都具有值的表單作為研究對象,提出了Hidden Web爬蟲沒設(shè)計的—種框架。

        1 Hidden Web爬蟲

        為實現(xiàn)自動獲取Hidden Web頁面的任務(wù),此爬蟲必須能自動尋找表單,填寫表單,然后獲取和識別結(jié)果頁面。HiddenWeb爬蟲系統(tǒng)結(jié)構(gòu)如圖1所示。

        圖1 Hidden Web爬蟲系統(tǒng)框架

        1.1尋找Hidden Web入口頁面

        Web上存在多種多樣的表單,同時表單上含有各種各樣的元素,如單選按鈕、下拉列表框、文本框等,有些還是用戶自定義的,因此處理所有的表單是比較困難的。為此,需要先解析HTML頁面,獲取要研究的表單類型,同時從中抽取有用信息。本文要研究的是不含或含有少量的文本框元素,其它類型元素都具有默認值的表單。這很容易通過解析HTML表單來完成,如可以使用標(biāo)記序列樹或DOM(文檔對象模型)來過濾出要研究的表單。

        1.2自動提交表單

        當(dāng)搜索表單提供了每一表單元素所有可能的值時,直接的方法是對具有少量的文本框元素使用空串作為默認值,窮盡表單其他元素所有可能值的組合來填寫表單,獲取后臺數(shù)據(jù)庫全部的數(shù)據(jù)。此方法存在兩個問題:①處理過程非常耗時;②在窮盡所有可能值組合之前,也許已經(jīng)獲取了所有或大部分的后臺數(shù)據(jù)庫數(shù)據(jù),從而出現(xiàn)了重復(fù)提交;③多個字段組合可能存在語義上的沖突。Hidden Web爬蟲設(shè)計的目標(biāo)是使用最少的資源(如提交時間或次數(shù)等)獲取特定Hidden Web站點內(nèi)最大量的數(shù)據(jù),然而不能保證對所有表單使用有限次的提交可以獲取后臺數(shù)據(jù)庫的全部數(shù)據(jù),因此有必要再次發(fā)送查詢來確定是否已獲取了全部數(shù)據(jù)。本文提出一種兩階段采樣爬行策略以充分獲取Hidden Web數(shù)據(jù),它分為如下兩個步驟:

        (1)首先使用表單提供的默認值來提交;

        (2)然后對表單元素值組合進行采樣以確定默認值提交是否返回了后臺數(shù)據(jù)庫的所有數(shù)據(jù),若返回了后臺數(shù)據(jù)庫所有或大部分數(shù)據(jù)則可以結(jié)束提交過程。否則,在爬蟲所具有資源限制范圍內(nèi)窮盡所有可能值的組合。

        1.2.1采樣查詢后臺數(shù)據(jù)庫

        下面介紹采樣階段以確定默認值提交是否返回了后臺數(shù)據(jù)庫的全部數(shù)據(jù)。一種方法是從表單元素所有可能值的組合中隨機采樣來提交表單。然而隨機采樣提交不能覆蓋表單元素每種取值,造成所有可能值的不均勻使用,如表1所示。這里形式化定義表單的第i個元素為因子Li。集合L1,L2,…,Ln是對應(yīng)于表單上具有有限值的所有元素,| Li|表示第i個因子可能取值的個數(shù),則表單元素所有可能值組合的個數(shù)為:

        這里考慮了表單具有多個元素而勢很小的情況。其中「log2N」的選擇參見文獻。

        對表單元素所有可能值組合采樣C次后若沒有新的數(shù)據(jù)記錄返回則表明已經(jīng)獲取了所有數(shù)據(jù)。舉例來說,假設(shè)一個含有兩個元素的表單,它們都具有有限的值域,每個元素可能取值個數(shù)為7和4,則上述N=28,C=6。

        表1 隨機采樣

        從表1中可以看到,對于元素A的可能值a6和a7,元素B的可能值b3在采樣提交中一次都沒有使用,同時元素B的可能值b1在6次采樣提交中就使用了3次。這說明使用隨機采樣來提交表單可能造成表單元素某些值可能過分使用,而漏用其它一些值的情況。解決這個問題的一種方法是記錄采樣因子已經(jīng)使用的值的次數(shù),擴大采樣值的范圍,即“分層采樣”的方法。使用此方法采樣提交模式如表2所示。

        表2 使用規(guī)則模式的“分層采樣”

        表2使用了一個規(guī)則的模式“分層采樣”來覆蓋每個因子的所有可能值。根據(jù)上述規(guī)則下次將使用(a7,b4)來填寫表單元素。可以看到此方法覆蓋了元素B的所有可能值,這種規(guī)則的模式必然會對某些元素有所偏重。為了覆蓋所有元素的可能值,表3使用了一個隨機的“分層采樣”方法。

        對上述處理含有兩個因子的表單的方法加以擴展,可用于含有兩個以上元素的表單。

        在C次采樣提交的過程中,系統(tǒng)處理返回的頁面來確定是否已返回了后臺數(shù)據(jù)庫的所有記錄。若返回了所有記錄則結(jié)束提交過程,否則進入窮盡階段。用來確定一個查詢提交是否返回了新的數(shù)據(jù)記錄的方法很多。一種方法是使用Web信息抽取工具抽取返回頁面中的記錄,把記錄存儲到數(shù)據(jù)庫中,然后通過數(shù)據(jù)庫記錄比較來確定是否有新的記錄加入。這里使用改進后的復(fù)本檢測系統(tǒng)來判斷記錄是否重復(fù)。它主要是計算每個候選記錄的哈希值,視具有相同哈希值的為重復(fù)記錄。

        表3 使用隨機模式的“分層采樣”

        1.2.2窮盡后臺數(shù)據(jù)庫信息

        如果C次采樣提交每次都產(chǎn)生了新的記錄,則窮盡表單元素其它可能值組合來提交表單,直到滿足特定的結(jié)束條件。然而在繼續(xù)提交表單前,先要估計完成這樣的操作所需的最大剩余時間和用于存儲所有結(jié)果記錄所需的最大空間??梢灾付ㄈ缦聨讉€參數(shù)來完成此階段的任務(wù):最大查詢提交次數(shù)、最大存儲空間和最大剩余時間等。

        可以通過疊加每次查詢所返回的數(shù)據(jù)量來估計所需最大存儲空間S。類似地可以估計最大剩余時間T。

        在窮盡階段,可以使用幾個參數(shù)閥值來提前結(jié)束提交過程。包括:

        (1)獲取Web數(shù)據(jù)庫數(shù)據(jù)的百分比:通過估計Web數(shù)據(jù)庫百分比以確定獲取了多少數(shù)據(jù)以后可以結(jié)束提交過程。

        (2)查詢提交次數(shù):通過確定查詢提交次數(shù)來減輕站點的負擔(dān)。

        (3)獲取數(shù)據(jù)的數(shù)量:即獲取了多少惟一性的Web數(shù)據(jù)庫信息。

        (4)提交時間:爬行某特定站點需要多長時間。

        上述每一個閥值或其組合都可以在窮盡階段提前結(jié)束爬蟲爬行。

        1.3識別和存取查詢結(jié)果

        對表單提交操作產(chǎn)生的響應(yīng)主要有如下幾種情況:響應(yīng)頁含有后臺數(shù)據(jù)庫部分或所有數(shù)據(jù);響應(yīng)頁不僅包含有數(shù)據(jù)還包含鏈接;響應(yīng)頁含有數(shù)據(jù)和原始表單結(jié)構(gòu);響應(yīng)頁可能是另一張需要進一步填寫的表單;錯誤頁面通知;無記錄通知或需要缺失字段。這一步主要是針對這些可能出現(xiàn)的情況進行處理。然后從含有豐富數(shù)據(jù)的頁面中使用信息抽取工具抽取結(jié)構(gòu)化的數(shù)據(jù)構(gòu)建數(shù)據(jù),以進一步提供信息檢索服務(wù)。

        2 結(jié)束語

        本文提出一種針對特定類型表單獲取Hidden Web頁面的爬蟲設(shè)計原型系統(tǒng),它首先使用默認值來提交表單,以兩階段采樣策略確定是否充分獲取了后臺數(shù)據(jù)庫數(shù)據(jù),然后從響應(yīng)頁中抽取出用戶感興趣的信息。此爬蟲可以獲取一部分Hidden Web頁面,它彌補了當(dāng)前爬蟲只能索引靜態(tài)頁面的不足。下一步需要做的工作是,在真實Hidden Web站點進行大量實驗及解決自動發(fā)現(xiàn)搜索接口等問題以完善此系統(tǒng)。畢竟存在很多需要填寫文本元素的表單,這就需要擴展此系統(tǒng)使其能自動填寫文本域元素。如使用HiWE系統(tǒng)中的屬性標(biāo)簽值對表或使用領(lǐng)域本體知識庫來自動學(xué)習(xí)填寫表單以處理更多類型的表單,從而從Hidden Web中獲取更多的用戶感興趣的高質(zhì)量信息。

        注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

        久久久精品456亚洲影院| 日本师生三片在线观看| 精品亚洲国产成人av色哟哟| 国产成+人欧美+综合在线观看| 欧美性受xxxx黑人xyx性爽| 日韩不卡无码三区| 亚洲色图偷拍自拍在线| 国产又色又爽无遮挡免费软件| 蜜臀aⅴ国产精品久久久国产老师| 欧美人妻日韩精品| 精品国产一区二区三区19| 熟女系列丰满熟妇av| 日本亚洲中文字幕一区| 欧美人与禽zozzo性伦交 | 欧美一欧美一区二三区性| 国产在线观看不卡网址| 在线观看一区二区三区视频| 国产精品高清网站| 国产亚洲精品久久久久婷婷瑜伽| 日本在线观看不卡| 中文字幕人妻av四季| 免费无码不卡视频在线观看| 男女18禁啪啪无遮挡| 免费无码黄网站在线观看| 国产剧情av麻豆香蕉精品| 免费人妻精品一区二区三区| 亚洲一级黄色毛片| 久草视频在线播放免费| 人妻丰满熟妇aⅴ无码| 人人妻人人澡人人爽欧美二区| 久久精品成人91一区二区| 国产激情一区二区三区成人| 亚洲乱码一区av春药高潮| 三上悠亚精品一区二区久久| 国产成版人性视频免费版| 亚洲精品国产精品乱码在线观看| 少女高清影视在线观看动漫| 国模少妇无码一区二区三区| 日本免费观看视频一区二区| 亚洲av福利无码无一区二区 | 蜜桃在线观看免费高清完整版|