亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于視覺特征的Deep Web信息抽取方法

        2016-07-02 01:44:09陳軍華廉德勝

        孫 璐 陳軍華 廉德勝

        (上海師范大學(xué) 上?!?00234)

        一種基于視覺特征的Deep Web信息抽取方法

        孫璐陳軍華廉德勝

        (上海師范大學(xué)上海200234)

        摘要隨著Web數(shù)據(jù)庫的不斷增長,大量網(wǎng)絡(luò)信息通過普通搜索引擎難以滿足用戶的需求,需要用戶提交表單查詢并從后臺(tái)數(shù)據(jù)庫中返回結(jié)果頁面才能獲取到想要的信息,稱為Deep Web。因此如何有效地抽取這些實(shí)體信息成為一個(gè)值得研究的問題。論文通過分析Deep Web結(jié)果頁面的特點(diǎn),結(jié)合人的視覺特征,提出了一種基于視覺特征的Deep Web信息抽取方法。該方法充分利用了人的視覺特征,在解析器將Web文檔解析成語法樹之前,將Web頁面一些與主題無關(guān)的信息(例如導(dǎo)航欄、廣告)等去除,并對(duì)優(yōu)化后的DOM樹利用VIPS算法對(duì)其進(jìn)行語義分塊,分塊后根據(jù)位置特征首先尋找到基準(zhǔn)視覺塊,以該基準(zhǔn)視覺塊作為中心位置逆序和順序遍歷DOM樹尋找所有相似的視覺塊并對(duì)其進(jìn)行抽取。從實(shí)驗(yàn)效果來看,該方法從提取信息速度和提取信息的準(zhǔn)確率和完整率方面與傳統(tǒng)方法相比都有一定的提高。

        關(guān)鍵詞Deep Web; 視覺特征; DOM樹; 語義分塊; 信息抽取

        Class NumberJ653

        1引言

        信息抽取可以理解為從一段待處理文本中抽取指定的一類信息,并將其以結(jié)構(gòu)化的形式表示(如XML等)供用戶查詢和使用的過程。針對(duì)Web信息抽取工作目前國內(nèi)外已展開了大量的研究,并且取得了一定的成果。其中按照抽取技術(shù)的不同可以分為基于自然語言處理方式的實(shí)體抽取;基于包裝器歸納法的信息抽取;基于模板的信息抽取;基于視覺特征的信息抽取和基于DOM樹的實(shí)體抽取技術(shù)。其中基于視覺特征的信息抽取和基于DOM樹的信息抽取是目前應(yīng)用比較廣泛的方法。

        由于構(gòu)成網(wǎng)頁的HTML語言在很大程度上是用來顯示數(shù)據(jù)而不是展示其內(nèi)容結(jié)構(gòu)的,所以從用戶的視覺角度對(duì)Web頁面進(jìn)行分析有其一定的合理性。文獻(xiàn)[10]提出了基于視覺特征的VIPS算法,該算法充分利用了Web頁面的視覺特征,例如顏色、字體大小、圖片等,把Web頁面劃分為許多視覺塊,根據(jù)視覺塊之間的相似度重構(gòu)頁面的內(nèi)容結(jié)構(gòu),從而對(duì)信息進(jìn)行抽取。但是該方法基于許多啟發(fā)式的規(guī)則,有時(shí)會(huì)受人的視覺誤導(dǎo),把頁面一些無用的信息當(dāng)作視覺塊處理,例如廣告信息等。文獻(xiàn)[6~8]提出了基于DOM樹的實(shí)體抽取技術(shù)。在該方法中,首先利用解析器將Web文檔解析成語法樹,然后深度遍歷整棵DOM樹,利用DOM樹節(jié)點(diǎn)之間的相似度確定正文區(qū)域,從而對(duì)文本信息進(jìn)行有效抽取。但是該方法是把文本節(jié)點(diǎn)和標(biāo)簽節(jié)點(diǎn)放在一起對(duì)整個(gè)DOM文檔進(jìn)行遍歷分析,加大了遍歷DOM樹的時(shí)間復(fù)雜度。本文通過觀察大量Deep Web結(jié)果頁面,首先運(yùn)用啟發(fā)式規(guī)則對(duì)原始頁面進(jìn)行去噪處理,使得去噪后解析DOM樹的節(jié)點(diǎn)數(shù)大大減少,然后在DOM樹結(jié)構(gòu)基礎(chǔ)之上,運(yùn)用文獻(xiàn)[10]提到的VIPS算法,把Web頁面分割成許多大小不等的視覺語義塊,利用頁面中心位置的坐標(biāo)確定出基準(zhǔn)視覺塊,然后根據(jù)Web頁面正文信息的位置分布特征和正文視覺塊之間的視覺相似性,以該視覺塊作為中心位置,順序和逆序遞歸遍歷整棵DOM樹,尋找出所有相似視覺塊,即要提取的正文信息。實(shí)驗(yàn)表明該方法與傳統(tǒng)的方法相比有一定的優(yōu)勢。

        2基于基準(zhǔn)視覺塊的信息抽取算法

        2.1Web頁面去噪

        一般的網(wǎng)頁可以分為導(dǎo)航型網(wǎng)頁和內(nèi)容型網(wǎng)頁兩種,由于本文主要是針對(duì)特定領(lǐng)域的關(guān)鍵詞搜索結(jié)果研究,所以不對(duì)導(dǎo)航型網(wǎng)頁做研究。對(duì)于一個(gè)已抽取到的Deep Web結(jié)果頁面,需要提取的數(shù)據(jù)區(qū)域往往集中于頁面的某個(gè)區(qū)域,稱之為正文區(qū)域。而普通的Deep Web頁面往往包含標(biāo)題、廣告欄、導(dǎo)航鏈接等許多噪聲信息,一些針對(duì)特定領(lǐng)域的數(shù)據(jù)查詢(如圖書查詢),因?yàn)樗鼈冇幸?guī)律地分布在頁面的特定部分,使得這些無用的噪聲信息占了整個(gè)頁面的一定比重,這樣不利于頁面的信息抽取,所以對(duì)初始頁面做去噪處理是非常有必要的。本文通過觀察大量的網(wǎng)頁后臺(tái)HTML代碼并結(jié)合文獻(xiàn)[9]提到的網(wǎng)頁信息去噪技術(shù),得出如下一些啟發(fā)式規(guī)則:

        規(guī)則一:如果一個(gè)節(jié)點(diǎn)周圍含有大量的鏈接節(jié)點(diǎn),如〈link〉等,即鏈接節(jié)點(diǎn)數(shù)超過了該區(qū)域總數(shù)的一定比例,在這里取95%,那么傾向于把這片信息塊看作噪聲信息,反之則為正文信息;

        規(guī)則二:如果一個(gè)節(jié)點(diǎn)的position屬性為fixed,并且該節(jié)點(diǎn)下還包括img、object或iframe節(jié)點(diǎn),那么把該節(jié)點(diǎn)作為噪聲節(jié)點(diǎn);

        規(guī)則三:如果一個(gè)文本節(jié)點(diǎn)的文本字?jǐn)?shù)低于版權(quán)信息節(jié)點(diǎn)所含文本的字?jǐn)?shù)(這里把版權(quán)信息的字?jǐn)?shù)作為一個(gè)閾值)那么傾向于把它看作噪聲節(jié)點(diǎn)或無用節(jié)點(diǎn)?;谝陨弦恍┮?guī)則,可以初步對(duì)原始Web頁面做一些優(yōu)化處理。

        本文采用HTMLPaster的詞法分析器對(duì)頁面的HTML代碼進(jìn)行分析,通過提交關(guān)鍵字查詢獲取Deep Web頁面作為實(shí)驗(yàn)數(shù)據(jù)的來源。解析到原始頁面的HTML代碼后,利用上一節(jié)提到的啟發(fā)式規(guī)則對(duì)頁面的噪聲進(jìn)行過濾處理。可以看出,經(jīng)過處理后DOM樹的節(jié)點(diǎn)數(shù)大大減少了。

        圖1 頁面結(jié)構(gòu)和去噪節(jié)點(diǎn)對(duì)比圖

        2.2VIPS算法

        VIPS算法主要是利用Web頁面的視覺特征如背景顏色,字體的顏色和大小等把頁面分成許多合適的視覺塊,根據(jù)視覺塊之間的邏輯間距重構(gòu)語義DOM樹,進(jìn)而對(duì)頁面信息抽取的過程。下面對(duì)該算法做一個(gè)簡單介紹。在VIPS算法中,一個(gè)Web頁面由Ω表示,Ω=(O,Φ,δ)。其中O={Ω1,Ω2,…,ΩN}是一系列有限的頁面塊的集合,Φ={Φ1,Φ2,…,ΦT}是一系列有限的分隔符的集合,δ=O×O→Φ∪{NULL},它表示O中每兩個(gè)塊之間的關(guān)系[10]。例如,假設(shè)Ωi和Ωj是O中的兩個(gè)對(duì)象,δ(Ωi,Ωj)≠NULL表明Ωi和Ωj之間是有聯(lián)系的,即它們有可能是DOM樹中的兩個(gè)相鄰的節(jié)點(diǎn)。另外,在Ω中,每一個(gè)頁面塊都可以看作一個(gè)子頁面,所以可以遞歸地對(duì)它作同樣的處理,直到當(dāng)前頁面塊不能再分割為止。

        下面以當(dāng)當(dāng)網(wǎng)為例具體闡述整個(gè)分割過程。在當(dāng)當(dāng)網(wǎng)首頁輸入“計(jì)算機(jī)”,點(diǎn)查詢,可以得到如圖2結(jié)果頁面。

        圖2 當(dāng)當(dāng)網(wǎng)頁面

        圖3 當(dāng)當(dāng)網(wǎng)視覺分塊圖

        根據(jù)VIPS算法,把該頁面分割成如圖3所示的視覺塊,其中VB1中主要是查詢信息和導(dǎo)航信息,還夾雜了一些廣告信息,VB3和VB4是底下一些服務(wù)指南和版權(quán)信息,VB2是想要提取的正文信息。可以看到要提取的信息,即VB2主要集中在頁面的某一特定部位,以VB2為例簡單說明VIPS分塊過程。VB2的DOM樹結(jié)構(gòu)如圖4所示。

        圖4 VB2的DOM樹結(jié)構(gòu)

        首先得到〈table〉標(biāo)簽,它有孩子節(jié)點(diǎn)〈tr〉,且孩子節(jié)點(diǎn)的背景顏色和它父親節(jié)點(diǎn)的背景顏色不同,所以分隔這個(gè)節(jié)點(diǎn),這樣就得到兩個(gè)節(jié)點(diǎn)塊,然后分別對(duì)這兩個(gè)節(jié)點(diǎn)塊進(jìn)一步分析。它有四個(gè)〈td〉節(jié)點(diǎn),其中兩個(gè)是無效節(jié)點(diǎn),取出剩下的兩個(gè)有效節(jié)點(diǎn)即VB2_1和VB2_2所在視覺塊。分別對(duì)兩個(gè)視覺塊深度遍歷,得到〈table〉子節(jié)點(diǎn),它有可能是想要的文本信息,所以把它放到分塊池中等待進(jìn)一步被分析。等到所有的節(jié)點(diǎn)都被分析完放入池中后,再遞歸地對(duì)分塊池中的節(jié)點(diǎn)塊作同樣的分析,直到得到合適的視覺信息塊。至此,整個(gè)DOM樹的分塊過程完畢。

        2.3頁面信息提取算法

        VIPS算法是對(duì)頁面所有信息進(jìn)行分塊,而信息提取只需要提取與主題有關(guān)的正文信息,本文討論的是針對(duì)特定領(lǐng)域的Deep Web結(jié)果頁面信息,這些信息大都集中在Web頁面的特定位置(一般在正中間)。并且這些信息塊具有相似的層次結(jié)構(gòu),大小和顏色,所以可以根據(jù)頁面視覺特征和DOM樹的層次結(jié)構(gòu)找出一個(gè)基準(zhǔn)視覺塊,并逆序和順序遍歷整棵DOM樹,找出頁面所有相似視覺塊,若存在形似的視覺塊,再遞歸地對(duì)相似視覺塊做以上同樣的操作。直到找到所有想要抽取的信息。抽取流程圖如圖5所示。

        圖5 信息抽取流程圖

        下面具體說明正文信息提取算法。以圖6為例定義網(wǎng)頁左上角頂點(diǎn)為坐標(biāo)原點(diǎn),網(wǎng)頁中心坐標(biāo)為(Center_X,Center_Y),定義每個(gè)視覺塊的中心坐標(biāo)為(Block_Xi,Block_Yi),其中i={1,2,3,…,n},n∈Z。頁面信息提取過程可以描述如下:

        步驟二:提取相似視覺塊。通過觀察可以發(fā)現(xiàn),處于正文位置的視覺塊具有相似的視覺特征,并且它們在DOM樹中有相似的樹層次結(jié)構(gòu)和相同的父節(jié)點(diǎn)信息,所以可以以該基準(zhǔn)視覺塊即VB2_2_3所在樹層次作為中心位置,遍歷該視覺塊所在層次的所有的兄弟節(jié)點(diǎn),得到VB2_2_1和VB2_2_2并把它們和VB2_2_3作比較,它們具有相似的視覺大小和顏色,并處在相同層次的結(jié)構(gòu)樹中,所以把這三個(gè)視覺塊其作為要提取的正文信息存儲(chǔ)在目標(biāo)池中。

        步驟三:提取其他可能視覺塊。盡管在Web頁面中DOM結(jié)構(gòu)樹為基本的對(duì)象提供了一種層次結(jié)構(gòu),但是DOM結(jié)構(gòu)樹主要是用來顯示而不是組織內(nèi)容的,所以具有相似語義的視覺塊可能存在不同的DOM樹中,因此需要對(duì)DOM樹進(jìn)行進(jìn)一步遍歷以便找到所有可能的視覺塊。這里采用文獻(xiàn)[11]提到的逆序遍歷方法。首先逆序遍歷DOM樹節(jié)點(diǎn),找出目標(biāo)池中所有視覺塊VB2_2_1、VB2_2_2和VB2_2_3對(duì)應(yīng)DOM樹層次結(jié)構(gòu)所在節(jié)點(diǎn)的公共父節(jié)點(diǎn),即VB2_2,再逆序向上找出該公共父節(jié)點(diǎn)的根節(jié)點(diǎn)VB2,對(duì)此節(jié)點(diǎn)進(jìn)行順序遍歷,得到VB2_1和VB2_3兩個(gè)子節(jié)點(diǎn),它們?yōu)閂B2_2所在DOM樹結(jié)構(gòu)的所有兄弟節(jié)點(diǎn)。如果還有相似的正文目標(biāo)視覺塊存在,那么他們應(yīng)該存在于VB2_1和VB2_3的子節(jié)點(diǎn)中,否則,說明不存在其他DOM樹中包含相似的目標(biāo)視覺塊。在這里遍歷到VB2_1_1、VB2_1_2、VB2_3_1和VB2_3_2四個(gè)孩子節(jié)點(diǎn),把他們分別和基準(zhǔn)視覺塊VB2_2_3作比較,從圖6中可以發(fā)現(xiàn),這四個(gè)節(jié)點(diǎn)的大小和VB2_2_3相差較大,所以舍棄這些節(jié)點(diǎn)。

        步驟四:根據(jù)步驟三的結(jié)果,如果提取到相似的視覺塊信息,那么以提取到的視覺塊作為新的基準(zhǔn)視覺塊遞歸作同樣的操作,直到找到所有可能的視覺塊。至此,正文信息視覺塊提取結(jié)束。

        圖6 頁面視覺分塊圖

        圖7 頁面視覺塊對(duì)應(yīng)的DOM結(jié)構(gòu)圖

        3實(shí)驗(yàn)

        本文實(shí)驗(yàn)分別實(shí)現(xiàn)傳統(tǒng)的基于DOM樹的網(wǎng)頁信息抽取方法和本文提出的基于基準(zhǔn)視覺塊的逆序提取網(wǎng)頁正文信息的抽取方法,并把這兩種方法做比較,以體現(xiàn)本文提出的方法的優(yōu)勢。傳統(tǒng)的基于DOM樹的網(wǎng)頁信息抽取方法主要是用一些開源工具如NekoHTML、Jtidy等把Web頁面解析成一棵DOM樹,然后深度遍歷DOM樹節(jié)點(diǎn)提取出頁面正文信息。該方法實(shí)現(xiàn)簡單,并具有一定代表性。本文通過對(duì)當(dāng)當(dāng)網(wǎng)、淘寶網(wǎng)等一些特定領(lǐng)域網(wǎng)站提交關(guān)鍵詞查詢獲得大量的結(jié)果頁面,把這些結(jié)果頁面作為實(shí)驗(yàn)數(shù)據(jù)的來源。實(shí)驗(yàn)環(huán)境采用的是:主機(jī)ASUS,處理器Intel(R) Celeron(R) CPU 1.50GHz,內(nèi)存4GB,硬盤250GB,操作系統(tǒng)為Window 7。

        圖8 兩種算法使用的節(jié)點(diǎn)數(shù)比較

        圖8顯示的是使用兩種不同的算法提取正文信息需要解析的DOM樹節(jié)點(diǎn)數(shù),從圖中可以看出,不管是提取哪一類的網(wǎng)頁,經(jīng)過去噪處理的基于基準(zhǔn)視覺塊的逆序提取方法都只需解析幾乎只包含正文信息的DOM節(jié)點(diǎn)。

        另外,為了進(jìn)一步驗(yàn)證該算法的性能和可行性,本文進(jìn)行了信息抽取的準(zhǔn)確率實(shí)驗(yàn)。分別對(duì)每類網(wǎng)站抽取10個(gè)頁面,人工提取出關(guān)鍵正文信息,并估算總共包含的正文信息個(gè)數(shù),與本文提出的抽取出正文信息塊方法抽取出的正文信息以及正文信息數(shù)量進(jìn)行人工比對(duì),結(jié)果如表1所示。

        表1 Web頁面信息抽取性能

        其中完整率=(抽取到正文信息個(gè)數(shù)/總共包含的正文信息個(gè)數(shù))×100%;準(zhǔn)確率=(準(zhǔn)確抽取到正文信息個(gè)數(shù)/抽取到正文信息個(gè)數(shù))×100%。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的基于基準(zhǔn)視覺塊的Web頁面抽取方法可以較準(zhǔn)確并完整地抽取到所需要的正文信息,證明了該方法的可行性。由于一些網(wǎng)站,例如搜狐,并不屬于純粹的針對(duì)特定領(lǐng)域的網(wǎng)頁,所以該類網(wǎng)頁中包含的干擾視覺信息塊較多,并且正文信息與基準(zhǔn)信息不具有相似的視覺特征和位置特征,所以有部分正文信息塊會(huì)被遺漏,導(dǎo)致抽取的完整率和準(zhǔn)確率會(huì)有所下降。

        4結(jié)語

        本文在基于DOM樹結(jié)構(gòu)的Web頁面基礎(chǔ)之上,利用人的視覺特征,首先根據(jù)一些啟發(fā)式規(guī)則對(duì)原始頁面去噪優(yōu)化,然后利用VIPS算法把Web頁面分成不同的視覺塊,根據(jù)正文信息在頁面的分布特征提取出基準(zhǔn)視覺塊,并根據(jù)基準(zhǔn)視覺塊的視覺特征逆序和順序遍歷整棵DOM樹,遞歸提取出所有相似的視覺塊。從實(shí)驗(yàn)結(jié)果來看,本文提出的方法在提取速度方面與傳統(tǒng)方法相比有了一定的提高,并且有較高的準(zhǔn)確率和完整率。但是本文的方法還有許多有待改進(jìn)的地方。比如該方法比較適用于主題單一的網(wǎng)站,即整個(gè)網(wǎng)頁只含單個(gè)文本區(qū)域的網(wǎng)站。如果頁面結(jié)構(gòu)較復(fù)雜,文本塊較多,那么使用該方法有可能丟失一些有用的信息。另外,基準(zhǔn)視覺塊的大小也是一個(gè)關(guān)鍵,視覺塊過大或過小都會(huì)影響實(shí)驗(yàn)的準(zhǔn)確性和提取效率,下一步將對(duì)這方面做進(jìn)一步研究,以達(dá)到更好的抽取效果。

        參 考 文 獻(xiàn)

        [1] 吳茜,劉嘉勇.基于VIPS算法和模糊字典匹配的網(wǎng)頁提取技術(shù)研究[J].技術(shù)研究,2014(10):49-53.

        WU Qian, LIU Jiayong. Web Page extraction technology research Based on VIPS algorithm and fuzzy dictionary matching[J]. Netifo Security Technology Research,2014(1):49-53.

        [2] 安增文,徐杰鋒.基于視覺特征的網(wǎng)頁正文提取方法研究[J].微型機(jī)與應(yīng)用,2010(3):38-41.

        AN Zengwen, XU Jiefeng. Web Page text extraction technology research Based on Visual feature[J]. Micro Computer and Application,2010(3):38-41.

        [3] 郭迎春,劉一偉,陳召旭.Deep Web數(shù)據(jù)抽取的分析與研究[J].南開大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,45(3):9-14.

        GUO Yingchun, LIU Yiwei, CHEN Zhaoxu. Analysis and Research on Deep Web Data Extraction[J]. Journal of Nankai University(Natural Science Edition),2012,45(3):9-14.

        [4] Wachirawut Thamviset, Sartra Wongthanavasu. Information extraction for deep web using repetitive subject pattern, World Wide Web 2014 DOI 10.1007/s11280-013-0248-y.

        [5] 顧韻華,高原,等.基于模板和領(lǐng)域本體的Deep Web信息抽取研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(1):327-332.

        GU Yunhua, GAO Yuan, et al. Deep Web information extraction research Based on template and domain ontology[J]. Computer Engineering and Design,2014,35(1):327-332.

        [6] 田建偉,李石君.基于層次樹模型的Deep Web數(shù)據(jù)提取方法.計(jì)算機(jī)研究與發(fā)展 ISSN 1000-1239/CN 11-1777/TP,2011,48(1):94-102.

        TIAN Jianwei, LI Shijun. Deep Web data extraction method based on hierarchical tree model[J]. Computer Research and Development ISSN 1000-1239/CN 11-1177/TP,2011,48(1):94-102.

        [7] 李朝,彭宏,葉蘇南,等.基于DOM樹的可適應(yīng)性Web信息抽取[J].計(jì)算機(jī)科學(xué),2009,36(7):202-210.

        LI Chao PENG Hong, YE Sunan, et al. Adaptive Web information extraction based on DOM Tree[J]. Computer Science,2009,36(7):202-210.

        [8] 寇月,李冬.D-EEM:一種基于DOM樹的Deep Web實(shí)體抽取機(jī)制[J].計(jì)算機(jī)研究與發(fā)展,2010,47(5):858-865.

        KOU Yue, LI Dong. A Deep Web entity extraction mechanism based on DOM Tree[J]. Computer Research and Development,2010,47(5):858-865.

        [9] 付濤.基于DOM和顯示屬性的網(wǎng)頁信息除噪技術(shù)研究[J].商丘師范學(xué)院學(xué)報(bào),2010,26(9):90-93.

        FU Tao. Web Information noise cancellation technology research Based on DOM and Display attributes[J]. Journal of Shangqiu Normal College,2010,26(9):90-93.

        [10] Deng Cai, Shipeng Yu. Extracting Content_Structure for Web Pages based on Visual Representation Microsoft Research Asia.

        [11] 張瑞雪,宋明秋.逆序解析DOM樹及網(wǎng)頁正文信息提取[J].計(jì)算機(jī)科學(xué),2011,38(4):213-215.

        ZHANG Ruixue, SONG Mingqiu. Reverse parsing the DOM tree and informaiton extraction on the web page[J]. Computer Science,2011,38(4):213-215.

        Deep Web Information Extraction Method Based on Visual Features

        SUN LuCHEN JunhuaLIAN Desheng

        (Shanghai Normal University, Shanghai200234)

        AbstractWith the constantly development of Web database, a large number of information can not be got by ordinary search engine. The results which users want to get need them submit the form query so that the information can be got from the database behind called Deep Web. Thus how to effectively extract these information become a problem which worth of study. This paper propose an improved method by analyzing the characteristics of the results pages combining with human visual sense. This method makes full use of human visual characteristics, before the parser parsed the Web document into a syntax tree, and removed some information which has nothing to do with the theme such as navigation, advertising, etc. After that, division the DOM tree into semantic block using VIPS algorithm. Sw we can find the standard block according to the block’s position, then put the standard block as center block which used to find all similar visual blocks by reversing and suquential traversal the DOM tree. These result blocks are the information blocks which we want to extraction. According to the experimental results, this method has some improvement from the aspects of accuracy rate and complete rate to some extent compared with traditional method.

        Key WordsDeep Web, visual characteristics, DOM tree, semantic block, information extraction

        收稿日期:2015年12月5日,修回日期:2016年1月23日

        作者簡介:孫璐,女,碩士研究生,研究方向:數(shù)據(jù)庫。陳軍華,男,碩士,副教授,研究方向:數(shù)據(jù)庫。廉德勝,男,碩士研究生,研究方向:人工智能。

        中圖分類號(hào)J653

        DOI:10.3969/j.issn.1672-9722.2016.06.026

        中文字幕大乳少妇| 亚洲国产精品第一区二区| 国产亚洲精久久久久久无码| 无码一区二区三区网站| 久久亚洲av成人无码国产| 精品无码成人片一区二区| 中文字幕一区二区三区综合网| 色综合天天综合网国产成人网| 国产精品丝袜久久久久久不卡| 亚洲精品国产一二三无码AV| 最新日本免费一区二区三区| 久久精品国产亚洲av精东 | 国产亚洲午夜精品久久久| 久久久久无码国产精品一区| 一个人看的www免费视频中文| 水蜜桃一二二视频在线观看免费 | av网站韩日在线观看免费| 亚无码乱人伦一区二区| 少妇装睡让我滑了进去| 久久亚洲日本免费高清一区 | 亚洲熟妇网| 在线观看高清视频一区二区三区| 强开小婷嫩苞又嫩又紧视频| 国产乱人伦av在线a| 男人天堂AV在线麻豆| 一区二区三区免费观看日本| 国产精品久线在线观看| 最近日韩激情中文字幕| 日韩高清av一区二区| 成人自拍偷拍视频在线观看| 精品久久久bbbb人妻| 精品视频一区二区三三区四区| 美女叉开双腿让男人插| 真实夫妻露脸爱视频九色网 | 精品日本韩国一区二区三区| 产美女被爽到高潮免费a| 无遮无挡爽爽免费毛片| 久草热这里只有精品在线| 亚洲第一页视频在线观看| 人妻少妇偷人精品无码| 国产高潮精品久久AV无码|