胡 瑞,郭 星,黃永聰
(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601)
?
基于視覺特征的主題型網(wǎng)頁信息抽取
胡瑞,郭星,黃永聰
(安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽合肥230601)
摘要:互聯(lián)網(wǎng)高速發(fā)展的多年積累,如今web已經(jīng)成為我們每一個(gè)普通人日常的一部分.Web絕對(duì)是世界上最大的信息數(shù)據(jù)庫.同時(shí)每一個(gè)web頁面中也包含這個(gè)目標(biāo)信息以外的各種廣告鏈接.稱之為噪聲.如何有效的過濾噪聲,提取想要的目標(biāo)內(nèi)容已經(jīng)成為一個(gè)實(shí)用且重要的研究領(lǐng)域.傳統(tǒng)的方法大多都是基于DOM樹及網(wǎng)頁源代碼的.這里在基于網(wǎng)頁視覺特征分塊算法VIPS的基礎(chǔ)上,通過觀察歸納網(wǎng)頁目標(biāo)內(nèi)容和噪聲的視覺特征來進(jìn)行噪聲過濾和目標(biāo)內(nèi)容提取.并提出了基于噪聲和目標(biāo)內(nèi)容的視覺特征區(qū)別算法NGFV(Based on noise and goal content visual feature algorithm).
關(guān)鍵詞:VIPS;NGFV;噪聲過濾;DOM樹
隨著互聯(lián)網(wǎng)的告訴發(fā)展和個(gè)人計(jì)算機(jī)的普及,因特網(wǎng)上的信息已經(jīng)龐大到人類前幾個(gè)世紀(jì)信息總數(shù)的多倍!網(wǎng)頁無疑成為最龐大的信息資源,我們?cè)谌粘I钪性缫央x不開這種信息獲取和發(fā)布的方式.
如何對(duì)網(wǎng)頁中信息進(jìn)行高效的提取,去除噪聲獲取我們想要的信息.傳統(tǒng)角度很自然都是基于網(wǎng)頁源代碼的分析研究的.但是觀察網(wǎng)頁特點(diǎn),我們很容易發(fā)現(xiàn)雖然因特網(wǎng)上有大量的網(wǎng)頁,但是其頁面都是有一點(diǎn)的特征和板塊分布規(guī)律的.我們稱之為頁面特征,于是一些基于頁面視覺特征的網(wǎng)頁信息抽取的方法相繼提出.尤其是在VIPS算法[1]提出以后.本文將在前人的一些基礎(chǔ)上提出自己的基于視覺特征信息抽取算法.
對(duì)于網(wǎng)頁信息的抽取大多都是利用網(wǎng)頁的HTML源文件對(duì)網(wǎng)頁進(jìn)行解析生成語法樹.傳統(tǒng)的網(wǎng)頁信息抽取技術(shù)我們大體分為三類:(1)基于包裝器(Wrapper)的方法;(2)基于DOM(Document Object Model)規(guī)格樹的方法;(3)基于機(jī)器學(xué)習(xí)的方法.首先基于包裝器的方法前提是一個(gè)網(wǎng)頁必須能夠分為語意相關(guān)的幾個(gè)部分,包裝器就可以很容易的匹配并提取數(shù)據(jù),包裝器可以通過一些人工的或自動(dòng)的算法生成.而基于DOM規(guī)格樹的方法主要是基于Web頁面HTML結(jié)構(gòu)和標(biāo)簽屬性的.很多研究都是基于此方法的,比如文獻(xiàn)[2].機(jī)器學(xué)習(xí)方法主要用于內(nèi)容提取和分類實(shí)驗(yàn),常用的算法有:HMM.CRF,SVM來完成內(nèi)容提取.這些對(duì)web data抽取的方法一般都是基于分析HTML源碼或者網(wǎng)頁的標(biāo)簽等,這些方法會(huì)有兩個(gè)問題:第一,他們都是基于網(wǎng)頁編程語言的,但是無論什么編程語言都是在不斷更新不斷變化的尤其是HTML,所以當(dāng)每一次新版本和新標(biāo)簽引進(jìn)的時(shí)候之前的工作就必須進(jìn)行相應(yīng)的修改.第二,它們也不能解決網(wǎng)頁源碼日益復(fù)雜化的問題,比如之前的很多方法就沒有考慮到在HTML網(wǎng)頁中的JAVASCRIPT,CSS等因素.
本文采用基于web頁面視覺特征的方法來進(jìn)行網(wǎng)頁目標(biāo)信息提取.目前涉及到網(wǎng)頁視覺特征的研究成果也有很多[3],這些研究試圖將網(wǎng)頁信息提取與網(wǎng)頁的源碼分離開來,取得了一定的成果,但總體上任然出于發(fā)展階段.大多都是基于VPIS算法的基礎(chǔ)上提出的一些信息塊定位方法,本文也是如此.在比較同一個(gè)網(wǎng)站上兩個(gè)乃至多個(gè)網(wǎng)頁后根據(jù)網(wǎng)頁視覺快上的視覺特征進(jìn)行定位.
本算法是在對(duì)網(wǎng)頁使用VIPS算法進(jìn)行視覺分塊后生成視覺分塊樹VBT(Visual Block Tree),進(jìn)行進(jìn)一步處理,關(guān)于VIPS算法在文獻(xiàn)[1]中有詳細(xì)介紹,在此不再熬述.如圖1:網(wǎng)頁對(duì)應(yīng)的視覺樹
圖1 新浪網(wǎng)頁的VBT
目標(biāo)內(nèi)容塊B確定
首先對(duì)于上圖中得到的BAT的每個(gè)視覺快B都有相應(yīng)的信息記錄:如在網(wǎng)頁中的位置,大小,文字特征,圖片,視頻等等一些列信息記錄.在這些信息的基礎(chǔ)上我們對(duì)視覺快B節(jié)點(diǎn)做如下的預(yù)定義:
定義1節(jié)點(diǎn)B的面積S_B與web頁面面積S_page之比
定義2節(jié)點(diǎn)B純文本密度ρ_text等于節(jié)點(diǎn)B的純文本長(zhǎng)度L_text和B的面積之比ρ_text=
定義3節(jié)點(diǎn)B的超鏈接密度ρ_link等于節(jié)點(diǎn)B的超鏈接長(zhǎng)度L_link與B中純文本和超鏈接文本的長(zhǎng)度和之比.
定義4節(jié)點(diǎn)B中的超鏈接數(shù)為num_link.
定義5同一網(wǎng)站上不同網(wǎng)頁相同位置節(jié)點(diǎn)Bti和Btj的相異性Diversity(Bti,Btj)=|γti-γtj|+|ρti_text -ρtj_link|其中Bti和Btj是同一網(wǎng)站上第i和j個(gè) web網(wǎng)頁所生成的VBT上的相應(yīng)節(jié)點(diǎn)B.i,j= {1,2,3,4,……}.相應(yīng)的γti,ρti_text,ρtj_link|分別指第i 個(gè)web頁面所生成的VBT上節(jié)點(diǎn)B的面積S_B與web頁面面積S_page之比,純文本密度和超鏈接密度.
對(duì)上面的定義的解釋說明:
對(duì)于一個(gè)網(wǎng)站,尤其是各大門戶網(wǎng)站,例如新浪網(wǎng),鳳凰網(wǎng),騰訊網(wǎng).其所包含的無數(shù)網(wǎng)頁中基本組成格式肯定是基本一樣的.網(wǎng)頁中噪聲塊的內(nèi)容,超鏈接數(shù)及超鏈接密度,和大小也基本上是相似的乃至相同的.而我們的目標(biāo)內(nèi)容卻各不相同,相應(yīng)的內(nèi)容中純文本密度,內(nèi)容塊大小,超鏈接個(gè)數(shù)也各不相同,如圖2.我們上面的定義和下面的算法也就是基于網(wǎng)頁的這種視覺特點(diǎn)進(jìn)行處理的.
由此有Diversity(Bti,Btj)值越大則節(jié)點(diǎn)Bti和Btj區(qū)別越大,那么越有可能是我們的目標(biāo)內(nèi)容節(jié)點(diǎn).相反則為噪聲節(jié)點(diǎn).
據(jù)此我們?cè)跒镈iversity(Bti,Btj)定義一個(gè)臨界值η,當(dāng)Diversity(Bti,Btj)>η時(shí)此位置的節(jié)點(diǎn)B為我們要提取的目標(biāo)內(nèi)容節(jié)點(diǎn),反正為噪聲節(jié)點(diǎn).其中η=0.06由實(shí)驗(yàn)確定.
圖2 兩個(gè)同類網(wǎng)頁的比較
NGFV算法
算法輸入:一個(gè)網(wǎng)站的不同網(wǎng)頁視覺樹VBT,ti,tj.
算法輸出:返回目標(biāo)內(nèi)容視覺快的信息.
步驟:
本文實(shí)驗(yàn)結(jié)果也采用信息抽取主要的評(píng)價(jià)指標(biāo)準(zhǔn)確率(Precision)和召回率(Recall).
分別取新浪,鳳凰,騰訊和網(wǎng)頁四大主題型網(wǎng)站內(nèi)的各100個(gè)網(wǎng)頁進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表所示:
表一 實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出本文所提出的基于視覺樹的主題網(wǎng)頁信息抽取算法——基于噪聲和目標(biāo)內(nèi)容塊區(qū)別性的算法在準(zhǔn)確率和召回率上都相對(duì)較高.但偶爾也會(huì)因?yàn)槟承┚W(wǎng)頁的特殊性比如目標(biāo)內(nèi)容中文本很少甚至有大量超鏈接存在等特殊情況導(dǎo)致結(jié)果有些不理想.但總體上對(duì)于大多數(shù)主題信息類型的網(wǎng)頁的信息抽取都很理想.
本文在VPIS算法生成視覺樹VBT的基礎(chǔ)上提出了針對(duì)主題型網(wǎng)頁目標(biāo)內(nèi)容的抽取算法,利用網(wǎng)頁中噪聲和目標(biāo)信息的視覺和內(nèi)容區(qū)別的特點(diǎn)來進(jìn)行信息定位.由于主題型網(wǎng)頁中目標(biāo)信息一般都存在視覺樹VBT的第二層或第三層的某個(gè)節(jié)點(diǎn)中,所以通過對(duì)視覺樹VBT的廣度優(yōu)先遍歷進(jìn)行定位而且找到符合要求的節(jié)點(diǎn)就返回結(jié)果.
進(jìn)一步的研究將會(huì)涉及到更多類型的網(wǎng)站如BBS型,電商型等.并將嘗試對(duì)VPIS算法進(jìn)行一些細(xì)微的前期處理從而更加有助于后期的提取算法的編寫.
參考文獻(xiàn):
〔1〕Deng Cai,Shipeng Yu,Ji-Rong Wen,等.Extracting Content Structure for Web Pages based on Visual Representation [C].Proc Asia Pacific Web Conference.2003:406-417.
〔2〕Bhavdeep Mehta,Meera Narvekar.DOM Tree Based Approach for Web Content Extraction [C].India,ICCICT,2015:16-17.
〔3〕Narwal,Neetu.Improving web data extraction by noise removal.Communication and Computing (ARTCom)[C].2013:388-395.
〔4〕Mr.SatishJ.Pusdekar,Pro.Shaikh.phiroj Chhaware.Using Visual Clues Concept for Extracting Main Data from Deep Web Pages.International Conference on Electronic Systems,Signal Processing and Computing Technologies [C].2014:190-193.
〔5〕吳倩,楊逍,張兆心.基于視覺特征的網(wǎng)頁信息提取[C].第六屆全國信息檢索學(xué)術(shù)會(huì)議,2010.16-23.
〔6〕于滿泉,陳鐵睿,許哄波,基于分塊的網(wǎng)頁信息解析器研究與設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用.2005,25(4):974-976.
〔7〕陳勁,林懷忠,陳方疏,等.一種從中文網(wǎng)頁中抽取信息的綜合方法.計(jì)算機(jī)研究與發(fā)展[S].2012.171-178.
〔8〕張昕,鄂海紅,宋美娜.基于視覺特征的就業(yè)信息頁面抽取方法[J].軟件,2014,35(9):16-20.
〔9〕Lei Fu,Yao Meng,Yingju XIA,等.Content Extraction based on Webpage Layout Analysis[C].IEEE,2010:40-43.
基金項(xiàng)目:安徽大學(xué)創(chuàng)新基金項(xiàng)目(yph100153)
收稿日期:2015-12-7
中圖分類號(hào):TP311.12
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1673-260X(2016)03-0023-03
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2016年6期