亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視覺特征的主題型網(wǎng)頁信息抽取

        2016-04-20 11:39:19黃永聰

        胡 瑞,郭 星,黃永聰

        (安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601)

        ?

        基于視覺特征的主題型網(wǎng)頁信息抽取

        胡瑞,郭星,黃永聰

        (安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽合肥230601)

        摘要:互聯(lián)網(wǎng)高速發(fā)展的多年積累,如今web已經(jīng)成為我們每一個(gè)普通人日常的一部分.Web絕對(duì)是世界上最大的信息數(shù)據(jù)庫.同時(shí)每一個(gè)web頁面中也包含這個(gè)目標(biāo)信息以外的各種廣告鏈接.稱之為噪聲.如何有效的過濾噪聲,提取想要的目標(biāo)內(nèi)容已經(jīng)成為一個(gè)實(shí)用且重要的研究領(lǐng)域.傳統(tǒng)的方法大多都是基于DOM樹及網(wǎng)頁源代碼的.這里在基于網(wǎng)頁視覺特征分塊算法VIPS的基礎(chǔ)上,通過觀察歸納網(wǎng)頁目標(biāo)內(nèi)容和噪聲的視覺特征來進(jìn)行噪聲過濾和目標(biāo)內(nèi)容提取.并提出了基于噪聲和目標(biāo)內(nèi)容的視覺特征區(qū)別算法NGFV(Based on noise and goal content visual feature algorithm).

        關(guān)鍵詞:VIPS;NGFV;噪聲過濾;DOM樹

        1 引言

        隨著互聯(lián)網(wǎng)的告訴發(fā)展和個(gè)人計(jì)算機(jī)的普及,因特網(wǎng)上的信息已經(jīng)龐大到人類前幾個(gè)世紀(jì)信息總數(shù)的多倍!網(wǎng)頁無疑成為最龐大的信息資源,我們?cè)谌粘I钪性缫央x不開這種信息獲取和發(fā)布的方式.

        如何對(duì)網(wǎng)頁中信息進(jìn)行高效的提取,去除噪聲獲取我們想要的信息.傳統(tǒng)角度很自然都是基于網(wǎng)頁源代碼的分析研究的.但是觀察網(wǎng)頁特點(diǎn),我們很容易發(fā)現(xiàn)雖然因特網(wǎng)上有大量的網(wǎng)頁,但是其頁面都是有一點(diǎn)的特征和板塊分布規(guī)律的.我們稱之為頁面特征,于是一些基于頁面視覺特征的網(wǎng)頁信息抽取的方法相繼提出.尤其是在VIPS算法[1]提出以后.本文將在前人的一些基礎(chǔ)上提出自己的基于視覺特征信息抽取算法.

        2 相關(guān)工作

        對(duì)于網(wǎng)頁信息的抽取大多都是利用網(wǎng)頁的HTML源文件對(duì)網(wǎng)頁進(jìn)行解析生成語法樹.傳統(tǒng)的網(wǎng)頁信息抽取技術(shù)我們大體分為三類:(1)基于包裝器(Wrapper)的方法;(2)基于DOM(Document Object Model)規(guī)格樹的方法;(3)基于機(jī)器學(xué)習(xí)的方法.首先基于包裝器的方法前提是一個(gè)網(wǎng)頁必須能夠分為語意相關(guān)的幾個(gè)部分,包裝器就可以很容易的匹配并提取數(shù)據(jù),包裝器可以通過一些人工的或自動(dòng)的算法生成.而基于DOM規(guī)格樹的方法主要是基于Web頁面HTML結(jié)構(gòu)和標(biāo)簽屬性的.很多研究都是基于此方法的,比如文獻(xiàn)[2].機(jī)器學(xué)習(xí)方法主要用于內(nèi)容提取和分類實(shí)驗(yàn),常用的算法有:HMM.CRF,SVM來完成內(nèi)容提取.這些對(duì)web data抽取的方法一般都是基于分析HTML源碼或者網(wǎng)頁的標(biāo)簽等,這些方法會(huì)有兩個(gè)問題:第一,他們都是基于網(wǎng)頁編程語言的,但是無論什么編程語言都是在不斷更新不斷變化的尤其是HTML,所以當(dāng)每一次新版本和新標(biāo)簽引進(jìn)的時(shí)候之前的工作就必須進(jìn)行相應(yīng)的修改.第二,它們也不能解決網(wǎng)頁源碼日益復(fù)雜化的問題,比如之前的很多方法就沒有考慮到在HTML網(wǎng)頁中的JAVASCRIPT,CSS等因素.

        本文采用基于web頁面視覺特征的方法來進(jìn)行網(wǎng)頁目標(biāo)信息提取.目前涉及到網(wǎng)頁視覺特征的研究成果也有很多[3],這些研究試圖將網(wǎng)頁信息提取與網(wǎng)頁的源碼分離開來,取得了一定的成果,但總體上任然出于發(fā)展階段.大多都是基于VPIS算法的基礎(chǔ)上提出的一些信息塊定位方法,本文也是如此.在比較同一個(gè)網(wǎng)站上兩個(gè)乃至多個(gè)網(wǎng)頁后根據(jù)網(wǎng)頁視覺快上的視覺特征進(jìn)行定位.

        3 基于噪聲和目標(biāo)內(nèi)容的視覺特征區(qū)別算法(NGFV)

        本算法是在對(duì)網(wǎng)頁使用VIPS算法進(jìn)行視覺分塊后生成視覺分塊樹VBT(Visual Block Tree),進(jìn)行進(jìn)一步處理,關(guān)于VIPS算法在文獻(xiàn)[1]中有詳細(xì)介紹,在此不再熬述.如圖1:網(wǎng)頁對(duì)應(yīng)的視覺樹

        圖1 新浪網(wǎng)頁的VBT

        目標(biāo)內(nèi)容塊B確定

        首先對(duì)于上圖中得到的BAT的每個(gè)視覺快B都有相應(yīng)的信息記錄:如在網(wǎng)頁中的位置,大小,文字特征,圖片,視頻等等一些列信息記錄.在這些信息的基礎(chǔ)上我們對(duì)視覺快B節(jié)點(diǎn)做如下的預(yù)定義:

        定義1節(jié)點(diǎn)B的面積S_B與web頁面面積S_page之比

        定義2節(jié)點(diǎn)B純文本密度ρ_text等于節(jié)點(diǎn)B的純文本長(zhǎng)度L_text和B的面積之比ρ_text=

        定義3節(jié)點(diǎn)B的超鏈接密度ρ_link等于節(jié)點(diǎn)B的超鏈接長(zhǎng)度L_link與B中純文本和超鏈接文本的長(zhǎng)度和之比.

        定義4節(jié)點(diǎn)B中的超鏈接數(shù)為num_link.

        定義5同一網(wǎng)站上不同網(wǎng)頁相同位置節(jié)點(diǎn)Bti和Btj的相異性Diversity(Bti,Btj)=|γti-γtj|+|ρti_text -ρtj_link|其中Bti和Btj是同一網(wǎng)站上第i和j個(gè) web網(wǎng)頁所生成的VBT上的相應(yīng)節(jié)點(diǎn)B.i,j= {1,2,3,4,……}.相應(yīng)的γti,ρti_text,ρtj_link|分別指第i 個(gè)web頁面所生成的VBT上節(jié)點(diǎn)B的面積S_B與web頁面面積S_page之比,純文本密度和超鏈接密度.

        對(duì)上面的定義的解釋說明:

        對(duì)于一個(gè)網(wǎng)站,尤其是各大門戶網(wǎng)站,例如新浪網(wǎng),鳳凰網(wǎng),騰訊網(wǎng).其所包含的無數(shù)網(wǎng)頁中基本組成格式肯定是基本一樣的.網(wǎng)頁中噪聲塊的內(nèi)容,超鏈接數(shù)及超鏈接密度,和大小也基本上是相似的乃至相同的.而我們的目標(biāo)內(nèi)容卻各不相同,相應(yīng)的內(nèi)容中純文本密度,內(nèi)容塊大小,超鏈接個(gè)數(shù)也各不相同,如圖2.我們上面的定義和下面的算法也就是基于網(wǎng)頁的這種視覺特點(diǎn)進(jìn)行處理的.

        由此有Diversity(Bti,Btj)值越大則節(jié)點(diǎn)Bti和Btj區(qū)別越大,那么越有可能是我們的目標(biāo)內(nèi)容節(jié)點(diǎn).相反則為噪聲節(jié)點(diǎn).

        據(jù)此我們?cè)跒镈iversity(Bti,Btj)定義一個(gè)臨界值η,當(dāng)Diversity(Bti,Btj)>η時(shí)此位置的節(jié)點(diǎn)B為我們要提取的目標(biāo)內(nèi)容節(jié)點(diǎn),反正為噪聲節(jié)點(diǎn).其中η=0.06由實(shí)驗(yàn)確定.

        圖2 兩個(gè)同類網(wǎng)頁的比較

        NGFV算法

        算法輸入:一個(gè)網(wǎng)站的不同網(wǎng)頁視覺樹VBT,ti,tj.

        算法輸出:返回目標(biāo)內(nèi)容視覺快的信息.

        步驟:

        4 實(shí)驗(yàn)結(jié)果

        本文實(shí)驗(yàn)結(jié)果也采用信息抽取主要的評(píng)價(jià)指標(biāo)準(zhǔn)確率(Precision)和召回率(Recall).

        分別取新浪,鳳凰,騰訊和網(wǎng)頁四大主題型網(wǎng)站內(nèi)的各100個(gè)網(wǎng)頁進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表所示:

        表一 實(shí)驗(yàn)結(jié)果

        從實(shí)驗(yàn)結(jié)果可以看出本文所提出的基于視覺樹的主題網(wǎng)頁信息抽取算法——基于噪聲和目標(biāo)內(nèi)容塊區(qū)別性的算法在準(zhǔn)確率和召回率上都相對(duì)較高.但偶爾也會(huì)因?yàn)槟承┚W(wǎng)頁的特殊性比如目標(biāo)內(nèi)容中文本很少甚至有大量超鏈接存在等特殊情況導(dǎo)致結(jié)果有些不理想.但總體上對(duì)于大多數(shù)主題信息類型的網(wǎng)頁的信息抽取都很理想.

        5 總結(jié)

        本文在VPIS算法生成視覺樹VBT的基礎(chǔ)上提出了針對(duì)主題型網(wǎng)頁目標(biāo)內(nèi)容的抽取算法,利用網(wǎng)頁中噪聲和目標(biāo)信息的視覺和內(nèi)容區(qū)別的特點(diǎn)來進(jìn)行信息定位.由于主題型網(wǎng)頁中目標(biāo)信息一般都存在視覺樹VBT的第二層或第三層的某個(gè)節(jié)點(diǎn)中,所以通過對(duì)視覺樹VBT的廣度優(yōu)先遍歷進(jìn)行定位而且找到符合要求的節(jié)點(diǎn)就返回結(jié)果.

        進(jìn)一步的研究將會(huì)涉及到更多類型的網(wǎng)站如BBS型,電商型等.并將嘗試對(duì)VPIS算法進(jìn)行一些細(xì)微的前期處理從而更加有助于后期的提取算法的編寫.

        參考文獻(xiàn):

        〔1〕Deng Cai,Shipeng Yu,Ji-Rong Wen,等.Extracting Content Structure for Web Pages based on Visual Representation [C].Proc Asia Pacific Web Conference.2003:406-417.

        〔2〕Bhavdeep Mehta,Meera Narvekar.DOM Tree Based Approach for Web Content Extraction [C].India,ICCICT,2015:16-17.

        〔3〕Narwal,Neetu.Improving web data extraction by noise removal.Communication and Computing (ARTCom)[C].2013:388-395.

        〔4〕Mr.SatishJ.Pusdekar,Pro.Shaikh.phiroj Chhaware.Using Visual Clues Concept for Extracting Main Data from Deep Web Pages.International Conference on Electronic Systems,Signal Processing and Computing Technologies [C].2014:190-193.

        〔5〕吳倩,楊逍,張兆心.基于視覺特征的網(wǎng)頁信息提取[C].第六屆全國信息檢索學(xué)術(shù)會(huì)議,2010.16-23.

        〔6〕于滿泉,陳鐵睿,許哄波,基于分塊的網(wǎng)頁信息解析器研究與設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用.2005,25(4):974-976.

        〔7〕陳勁,林懷忠,陳方疏,等.一種從中文網(wǎng)頁中抽取信息的綜合方法.計(jì)算機(jī)研究與發(fā)展[S].2012.171-178.

        〔8〕張昕,鄂海紅,宋美娜.基于視覺特征的就業(yè)信息頁面抽取方法[J].軟件,2014,35(9):16-20.

        〔9〕Lei Fu,Yao Meng,Yingju XIA,等.Content Extraction based on Webpage Layout Analysis[C].IEEE,2010:40-43.

        基金項(xiàng)目:安徽大學(xué)創(chuàng)新基金項(xiàng)目(yph100153)

        收稿日期:2015-12-7

        中圖分類號(hào):TP311.12

        文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1673-260X(2016)03-0023-03

        欧美整片第一页| 亚洲 日本 欧美 中文幕| 白色月光免费观看完整版| 国内精品亚洲成av人片| 永久黄网站色视频免费看| 白嫩少妇激情无码| 无码啪啪熟妇人妻区| 亚洲熟女av在线观看| 成人试看120秒体验区| 亚洲熟妇少妇任你躁在线观看无码 | 处破痛哭a√18成年片免费| 在线亚洲AV不卡一区二区| 一区二区三区四区午夜视频在线| 亚洲国产果冻传媒av在线观看| 日本成本人三级在线观看| 粗大挺进尤物人妻一区二区| 亚洲中文字幕综合网站| 亚洲欧美v国产一区二区| 少妇白浆高潮无码免费区| 九九精品国产99精品| 日本免费精品一区二区| 情人伊人久久综合亚洲| 国产目拍亚洲精品一区二区| 精品一区二区三区中文字幕在线| 最新日韩精品视频免费在线观看| 中文字幕精品一区二区三区| 久久久久亚洲av无码专区首jn| 久久中文字幕人妻熟av女蜜柚m| 午夜亚洲国产精品福利| 国产一级黄色片在线播放| 真人做人试看60分钟免费视频| 日韩一级特黄毛片在线看| 偷拍一区二区三区在线观看| 色视频网站一区二区三区| 国产真实夫妇交换视频| 久久老子午夜精品无码| 在线视频一区二区国产| 日日碰狠狠添天天爽五月婷| 日本国产视频| 精品国产亚洲av久一区二区三区| 十八禁无遮挡99精品国产|