亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視覺特征去噪和DOM樹的網(wǎng)頁信息提取方法

        2022-01-04 01:54:00陳壯葛斌
        關(guān)鍵詞:網(wǎng)頁準確率噪聲

        陳壯, 葛斌

        安徽理工大學計算機科學與工程學院, 安徽 淮南 232001

        0 引言

        信息塊是由網(wǎng)頁的主要內(nèi)容塊組成.非信息塊諸如導航菜單、底部的聯(lián)系人信息以及廣告等,都是噪聲信息.要想提高信息提取的性能,必須要去除這些噪聲信息,并快速準確地對網(wǎng)頁進行分割,從而獲得組成塊并對其進行準確的提取.

        在網(wǎng)頁信息提取方面,文獻[1,2]使用基于統(tǒng)計的網(wǎng)頁信息提取方法,主要根據(jù)網(wǎng)頁中信息的分布情況來決定提取的內(nèi)容.缺點是當網(wǎng)頁中字符較少時,會導致提取錯誤的信息.文獻[3,4]使用基于網(wǎng)頁分割的信息提取方法,利用網(wǎng)頁中的一些特征對網(wǎng)頁進行分割,再從分割塊中選取包含網(wǎng)頁信息的塊并提取網(wǎng)頁信息.缺點是信息塊內(nèi)容字符數(shù)較少,而噪聲信息較多時,提取的塊可能出錯.文獻[5]提出了一種使用自然語言處理技術(shù)提取信息的方法.缺點是未充分利用以文本格式編寫的注釋.文獻[6]通過使用字符串方法和其他信息快速提取內(nèi)容,而無需創(chuàng)建DOM樹.文獻[7]實現(xiàn)了對復雜網(wǎng)頁中數(shù)據(jù)記錄的提取.缺點是對于一些復雜的網(wǎng)頁,該方法去除噪聲信息的效果不是太理想.文獻[8]可以從多種類型的網(wǎng)頁中抽取正文信息.缺點是對于細粒度結(jié)構(gòu)化Web信息抽取的精度效果仍達不到最理想的程度.文獻[9]通過三個啟發(fā)式規(guī)則的加權(quán)平均獲得組成塊分數(shù),得分最高的就是信息塊.缺點是只使用緊密度中心性顯得太片面,不足以表示塊的中心性.

        1 所提出的方法

        1.1 網(wǎng)頁預處理

        1.1.1 視覺特征去噪

        通過查看網(wǎng)頁發(fā)現(xiàn),大量的網(wǎng)頁都是由Head、Foot、Left、Right、Center五部分[10]或者其中某幾部分組成,其中大多數(shù)的網(wǎng)頁均含有Head、Foot區(qū)域.

        所提出的方法,先將網(wǎng)頁轉(zhuǎn)化成DOM結(jié)構(gòu),并得到頁面的大小;根據(jù)頁面大小獲得上下左右四部分閾值,記為W1,W2,W3,W4;再通過對網(wǎng)頁內(nèi)元素的絕對坐標以及實際大小與獲得的閾值進行比較,通過此方法劃分區(qū)域.若任意元素E,所占區(qū)域上的左上角原點絕對坐標為(a,b),元素所占區(qū)域大小為(width,height).如果E.b + E.height <=W1,則E屬于Head區(qū)域;如果E.b>=W2,則E屬于Foot區(qū)域;如果E.a + E.width <=W3,則E屬于Left區(qū)域;如果E.a >= W4,則E屬于Right區(qū)域,所有不屬于Head,Foot,Left,Right的區(qū)域作為結(jié)果返回.設(shè)計的算法如下所示:

        算法1 Visual Denoising

        輸入:頁面大小閾值W1,W2,W3,W4,元素E,元素絕對坐標(a,b);

        輸出:網(wǎng)頁中心區(qū)域t.

        Begin

        1 if b+height<=W1then //(width,height)為元素所占區(qū)域大小

        2E∈Head; //Head、Foot、Left、Right為網(wǎng)頁區(qū)域

        3 else ifb>=W2then

        4E∈Foot;

        5 else ifa+E.width<=W3then

        6E∈Left;

        7 else ifa>=W4then

        8E∈Right;

        9 else

        10E∈t;//元素E屬于Center部分

        11 return t; End

        1.1.2 正則表達式去噪

        在經(jīng)過視覺特征去噪后,仍可能包含未去除干凈的噪聲信息,需要通過正則表達式過濾噪聲標簽的方式再次去除.噪聲信息如表1所示.

        表1 噪聲信息

        1.2 網(wǎng)頁分割和信息塊提取

        本文以一個簡單的方式分割網(wǎng)頁,首先將網(wǎng)頁沿垂直方向拆分成列,對拆分后的每部分進行判斷,是否可以進行沿垂直方向拆分為列或者沿水平方向拆分為行;然后再對于拆分后的每行或者每列,再繼續(xù)進行沿垂直方向拆分或者沿水平方向拆分.在此基礎(chǔ)上,重復進行上述操作,如圖1所示.

        圖1 網(wǎng)頁拆分圖

        本文將網(wǎng)頁轉(zhuǎn)換成DOM樹結(jié)構(gòu),在此基礎(chǔ)上,自下向上遍歷中生成一個新的網(wǎng)頁視覺樹.在遍歷的過程中,為了提高網(wǎng)頁信息處理的效率,進行兩次去除噪聲操作:利用視覺特征和正則表達式去除那些噪聲節(jié)點,對通常不含正文文本內(nèi)容的標簽做剪枝處理,得到一個簡潔的DOM樹.并為新的視覺樹中每個提取的節(jié)點分配一個判斷符:即為每個節(jié)點標記兩個變量,代表其子樹中是否存在沿垂直方向拆分.

        構(gòu)建網(wǎng)頁視覺樹之后,需要識別組成塊.本文從視覺樹對應(yīng)的根節(jié)點展開新的可視化樹.首先需要判斷是否進行了沿垂直方向拆分,如果當前節(jié)點的子節(jié)點有子節(jié)點,即進行了沿垂直方向拆分,則增加一個粒度,繼續(xù)擴展當前節(jié)點的子節(jié)點;如果當前子樹只有沿水平方向拆分,則不進行擴展.如此重復進行上述操作,當整個樹不再進行擴展時,所有的葉節(jié)點都是預期的組成塊.通過上述過程,就可以獲得網(wǎng)頁的所有組成塊.接下來就是從這些組成塊當中提取出信息塊.信息塊通常是最靠近網(wǎng)頁中心的塊,通過上述過程后標記數(shù)最多的塊是所有塊中面積最大的塊.本文在視覺去噪時已經(jīng)輸出的就是Center部分,只需要使用兩個啟發(fā)式規(guī)則:信息塊是通過上述網(wǎng)頁分割過程后標記數(shù)最多的塊,是所有組成塊中面積最大的塊.通過加權(quán)平均來獲得信息塊的分數(shù),就能進行信息的提取,分數(shù)最大的組成塊即信息塊.

        如圖2所示,圖中①代表視覺去噪結(jié)果,②代表組成塊,③代表信息塊.計算公式如下:

        圖2 信息塊提取圖

        Score(bi)=α×Areai+(1-α)|bi|

        (1)

        式中:|bi|為塊bi中標記數(shù)目,Area為塊bi的面積,得分最高的塊是信息塊.

        2 實驗評估

        在本節(jié)中,對本文方法進行了評估,將其與文獻[1]中PPL、PPR、CEPR算法和文獻[9]算法進行了比較.

        2.1 數(shù)據(jù)集和評估指標

        2.1.1 數(shù)據(jù)集

        利用三個數(shù)據(jù)集來驗證本文提出方法的性能.在表2中顯示數(shù)據(jù)集的詳細信息.

        表2 三個數(shù)據(jù)集統(tǒng)計

        2.1.2 評估指標

        使用準確率,召回率和F1量度[11]來評估本文信息提取方法的性能,計算公式如下所示:

        (2)

        (3)

        (4)

        其中S1表示抽取結(jié)果的集合,而S2表示手工標記結(jié)果的集合.

        2.2 實驗評估

        2.2.1 實驗結(jié)果

        本文實驗結(jié)果如下表3所示

        表3 本文實驗結(jié)果(%)

        觀察表4到表6發(fā)現(xiàn),在人民網(wǎng)數(shù)據(jù)集、搜狐網(wǎng)數(shù)據(jù)集、新浪網(wǎng)數(shù)據(jù)集上,本文的方法都能取得較高的準確率,但召回率相對較低,這是因為人民網(wǎng)、搜狐網(wǎng)包含大量的導航或者評論內(nèi)容,導致錯誤地將其當成正文信息并提取.相對于文獻[1]中PPL、PPR、CEPR算法和文獻[9]算法,本文方法在準確率上高于另外幾種算法,在召回率上,本文方法高于文獻[1]中的PPL、PPR、CEPR方法,但是在部分數(shù)據(jù)集上低于文獻[9]中算法.對于F1值,本文的方法也優(yōu)于其他幾種網(wǎng)頁信息提取方法.

        表4 準確率(P)對比結(jié)果(%)

        表5 召回率(R)對比結(jié)果(%)

        表6 F1值對比結(jié)果(%)

        2.2.2 參數(shù)分析

        參數(shù)α是用于平衡兩個啟發(fā)式規(guī)則之間的重要權(quán)值,若α值太高,則組成塊面積會占據(jù)更多的權(quán)值,同時可能會導致獲得錯誤的結(jié)果.通過一些先前的觀察,決定將α權(quán)值設(shè)置在0.4以內(nèi),實驗結(jié)果如圖3到圖5所示.

        通過觀察圖3到圖5可以發(fā)現(xiàn),當參數(shù)α大于或者小于0.2時,準確率、召回率、F1值都沒有達到最好的效果,因此本文方法實驗參數(shù)設(shè)置為0.2.

        3 結(jié)語

        本研究提出了一種基于視覺特征去噪和DOM樹的網(wǎng)頁信息提取方法.與其他幾種方法相比,準確率有所提高.同時,本方法也適合許多網(wǎng)站,但是在個別網(wǎng)頁當中也會存在不準確的信息塊提取.比如正文文本較短,可能會導致提取錯誤;同時由于本算法主要依賴元素的位置信息,錯誤的位置將導致錯誤的劃分,它將進一步影響信息塊提取的準確性,這將是今后方法改進的方向.

        猜你喜歡
        網(wǎng)頁準確率噪聲
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
        高速公路車牌識別標識站準確率驗證法
        基于CSS的網(wǎng)頁導航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        控制噪聲有妙法
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        一種基于白噪聲響應(yīng)的隨機載荷譜識別方法
        亚洲乱码av乱码国产精品| 日韩少妇激情一区二区| 中文字幕第一页亚洲| 亚洲欧美日韩高清中文在线| 中文字幕有码在线视频| 中文字幕一区二区区免| 极品人妻少妇av免费久久| 免费无遮挡无码永久视频| 99久久免费国产精品| 欧美激情在线不卡视频网站| 国产三级伦理视频在线| 国产乱码精品一区二区三区久久| 国产网红主播无码精品| 久久亚洲Av无码专区| 国产人妖xxxx做受视频| 人妖系列在线免费观看| 一区二区三区日韩精品视频| 成人无码一区二区三区| 四虎国产精品永久在线国在线| 亚洲无毛片| 国产一区二区毛片视频| 国产精品亚洲第一区二区三区 | 亚洲av永久无码精品三区在线 | 亚洲欧洲综合有码无码| 中文字幕亚洲精品专区| 亚洲av无码国产精品永久一区| 野花在线无码视频在线播放 | 亚洲sm另类一区二区三区| 日本做受高潮好舒服视频| 狠狠色噜噜狠狠狠97影音先锋| 日韩av最新在线地址| 日本伊人精品一区二区三区| 亚洲人成影院在线观看| 国产精品麻豆综合在线| 男女干逼视频免费网站| 白嫩丰满少妇av一区二区| 亚洲av无码精品色午夜果冻不卡| 一区二区精品| 亚洲av男人免费久久| 亚洲va久久久噜噜噜久久天堂| 久久久久亚洲av无码a片软件|