亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種DOM樹標(biāo)簽路徑和行塊密度結(jié)合的Web信息抽取方法

        2017-09-18 21:38:56馬曉慧李泓瑩
        智能計算機(jī)與應(yīng)用 2017年4期

        馬曉慧++李泓瑩

        摘要:本文提出了一種標(biāo)簽路徑和行塊分布函數(shù)相結(jié)合的信息抽取方法來實(shí)現(xiàn)Web頁面的信息抽取。該方法將Web頁面解析成DOM樹,使用視覺特征和標(biāo)簽過濾的規(guī)則將樹進(jìn)行剪枝,引入標(biāo)簽路徑特征的方法粗略劃分出網(wǎng)頁的正文內(nèi)容和噪音內(nèi)容,最終使用行塊分布函數(shù)的方法進(jìn)行抽取,獲得正文文本。實(shí)驗(yàn)結(jié)果表明,這種抽取方法有效地防止了正文內(nèi)容誤刪及噪音內(nèi)容漏刪的現(xiàn)象,使得提取的正文信息更加準(zhǔn)確,準(zhǔn)確度達(dá)到91%,召回率達(dá)到95%,F(xiàn)值達(dá)到93%。本算法對于包含過多短文本的網(wǎng)頁抽取的準(zhǔn)確度還有待提高。

        關(guān)鍵詞: DOM樹; 視覺特征; 標(biāo)簽路徑特征; 行塊分布函數(shù)

        中圖分類號:TP391

        文獻(xiàn)標(biāo)志碼:A

        文章編號:2095-2163(2017)04-0013-05

        0引言

        Web頁面是目前人們獲取信息的主要方式之一,也是輿情監(jiān)測、數(shù)據(jù)分析和處理的一個重要來源。常見的Web頁面除了包含有用的正文信息外,還包含了大量的與正文主題無關(guān)的鏈接、圖片、腳本等內(nèi)容。因此,從紛雜的信息中快速準(zhǔn)確地提取所需信息就顯得尤為重要,Web頁面的信息抽取也成為了研究的一個熱點(diǎn)問題。

        劉秉權(quán)[1]等提出了基于DOM樹的方法,根據(jù)HTML標(biāo)簽把網(wǎng)頁解析為一顆樹,在樹上通過DES算法、MDR算法等應(yīng)用算法抽取網(wǎng)頁中有效信息。聶卉[2]等深入研究了一種基于GATE語義標(biāo)注的Web信息自動抽取技術(shù),這種技術(shù)通過領(lǐng)域本體對網(wǎng)頁進(jìn)行語義標(biāo)注準(zhǔn)確定位目標(biāo)項(xiàng),再通過從構(gòu)建好的DOM樹中抽取語義項(xiàng)的特征描述構(gòu)建樣本實(shí)例,最后運(yùn)用歸納算法實(shí)現(xiàn)抽取。陳鑫[3]則重點(diǎn)探討了在經(jīng)過初步過濾后的HTML中,結(jié)合正文區(qū)的密度,以行為自變量,行塊長度為因變量建立線性行塊分布函數(shù),通過分布函數(shù)圖找出閾值,從而得到有效的正文內(nèi)容。朱澤德[4]等建立了一個融合結(jié)構(gòu)和語言特征的統(tǒng)計模型,利用高斯平滑運(yùn)算對密度序列進(jìn)行計算以獲取平滑文本密度,再由最大子序列分割平滑文本密度抽取正文內(nèi)容。張乃洲等[5]用節(jié)點(diǎn)密度熵為度量分割DOM樹,再采用K最近鄰標(biāo)簽傳播的半監(jiān)督法和SVM分類器對頁面進(jìn)行分類,抽取有用類。微軟亞洲研究院[6]最早開展了基于視覺特征的信息抽取技術(shù)研究,可將人對一個網(wǎng)頁的視覺感受作為依據(jù),區(qū)分出不同主題的主題塊,對所需主題塊進(jìn)行提取。孫璐等人[7]還在此方法基礎(chǔ)上做出了實(shí)用升級改進(jìn),利用VIPS算法將去除無關(guān)信息的DOM樹來拓展執(zhí)行語義分塊,而后根據(jù)位置特征找到基準(zhǔn)塊,以此作為中心,遍歷DOM樹找到所有相似塊并引入抽取處理,提高了抽取效率。此外,還有基于模板的技術(shù)。顧韻華等人[8]在領(lǐng)域本體的引導(dǎo)下建立了雙模板——DIV塊模板和表格模板,可用其分別實(shí)現(xiàn)粗粒度和細(xì)粒度的信息抽取。郭少華等[9]基于模板提出正交過濾算法,過濾掉模板中的噪音信息,改善了生成的模板。隨著研究的深入,后期出現(xiàn)了基于機(jī)器學(xué)習(xí)等多種抽取技術(shù),在上述抽取方式中,以DOM樹方法應(yīng)用最為廣泛。本文即在DOM樹的基礎(chǔ)上提出了一種根據(jù)標(biāo)簽特征、行塊分布函數(shù)以及鏈接密度精確抽取正文的方法。研究設(shè)計內(nèi)容可做如下論述。

        [BT4]1抽取系統(tǒng)實(shí)現(xiàn)框架

        本文致力于探討的這種研究方法大致可分為3步。首先將經(jīng)過規(guī)范化的網(wǎng)頁解析成DOM樹,由標(biāo)簽過濾和鏈接密度過濾的方式去除不必要的分枝,使一顆結(jié)構(gòu)復(fù)雜的樹簡潔化。其次,遍歷DOM樹,對樹中的所有標(biāo)簽路徑、文本標(biāo)簽及標(biāo)點(diǎn)個數(shù)提供數(shù)理運(yùn)算統(tǒng)計,分別計算所有可到達(dá)文本長度之和與標(biāo)簽路徑的比值和所有可到達(dá)標(biāo)點(diǎn)路徑之和與標(biāo)簽路徑的比值,大致區(qū)分正文和噪音部分。最后,使用行塊分布函數(shù)法對已劃分出的正文和噪音完善推演、并設(shè)計進(jìn)一步的過濾、抽取,最終能夠高精度地從網(wǎng)頁中抽取得到有效信息。

        [BT5]1.1構(gòu)建DOM樹

        DOM樹具有結(jié)構(gòu)性強(qiáng),將無序網(wǎng)頁有序化的特點(diǎn),能夠清晰地展示一個網(wǎng)頁的結(jié)構(gòu)。因此,為了使網(wǎng)頁結(jié)構(gòu)更加直觀,方便正文抽取工作,首先可將網(wǎng)頁轉(zhuǎn)換成DOM樹。設(shè)計過程可詳述如下。

        1.1.1規(guī)范化HTML語法

        在將網(wǎng)頁解析成DOM樹前,需使用W3的HTML Validator工具檢驗(yàn)HTML代碼是否合法,對不合法的代碼進(jìn)行修正,獲取規(guī)范的HTML文檔。本文所采用的部分語法規(guī)范準(zhǔn)則如表1所示。

        1.1.2解析DOM樹

        通過標(biāo)簽屬性對,將獲取的HTML文檔解析為一顆以html為根節(jié)點(diǎn)的DOM樹,現(xiàn)以圖1所示網(wǎng)頁為例,解析后生成的DOM樹結(jié)構(gòu)如圖2所示。

        1.2降噪處理

        初步構(gòu)建好的DOM樹分支多,其中大量分支放置著無意義內(nèi)容,如腳本信息、鏈接廣告等。這樣的樹若是不拓展設(shè)置降噪環(huán)節(jié),不但會將之后正文抽取的工作復(fù)雜化,還會在一定程度上降低抽取的效率和精確度。本文用視覺特征和標(biāo)簽過濾的方法對網(wǎng)頁做降噪處理,對通常不含正文文本內(nèi)容的標(biāo)簽做剪枝處理,得到一個簡潔的DOM樹。這里將給出研究分述如下。

        1.2.1視覺特征降噪

        經(jīng)比對多個網(wǎng)頁發(fā)現(xiàn),大量的網(wǎng)頁布局基本類似,都由head、foot、right、left、center這5個區(qū)域中的任意幾個構(gòu)成,其中97%的網(wǎng)頁均含有head、foot區(qū)域,right、left區(qū)域選擇性擁有。以圖1為例,對應(yīng)的區(qū)域結(jié)構(gòu)則如圖3所示。

        [JP2]參閱文獻(xiàn)[10]所示,依據(jù)其中提出的可視布局去除網(wǎng)頁噪音的算法,去除網(wǎng)頁中的head,foot區(qū)域。設(shè)計得到步驟如下:[JP]

        1)顯示已解析的DOM樹,由此獲取網(wǎng)頁實(shí)際大小。

        2)由網(wǎng)頁的實(shí)際大小分別得出上、下邊界的閾值,相應(yīng)記為top、lower。

        3)將網(wǎng)頁內(nèi)除body標(biāo)簽外的所有元素取得的絕對坐標(biāo)及其實(shí)際大小同由閾值劃分的區(qū)域展開比較。以任一元素Element為例,其所屬區(qū)域左上角的原點(diǎn)絕對坐標(biāo)為(X,Y),且設(shè)定所占區(qū)域大小為(Height,Width)。若Element.Y+Element.Height<=top,則元素Element屬于head。若Element.Y>=lower,則元素Element屬于foot。據(jù)此規(guī)則對DOM樹進(jìn)行遍歷,對區(qū)域進(jìn)行劃分,去除head、foot區(qū)域,實(shí)現(xiàn)初步噪音處理。未去除的元素均暫時作為正文。endprint

        1.2.2標(biāo)簽過濾

        在初步獲取的正文文本中,可能包含right、left區(qū)域,這些區(qū)域中的元素都作為正文包含其中,需要通過標(biāo)簽過濾的方式再次去除網(wǎng)頁噪音。這里的標(biāo)簽過濾分為2種,一種是過濾不含正文的標(biāo)簽,另一種是通過鏈接密度過濾正文中難以識別的超鏈接。

        [JP2]網(wǎng)頁中的標(biāo)簽大體可分為2類,一類是構(gòu)建網(wǎng)頁框架,顯示正文文本的有用標(biāo)簽,一類是用來修飾網(wǎng)頁使其美觀的無用標(biāo)簽。本文的目的是抽取正文信息,因此需刪去DOM樹上的無用標(biāo)簽,如:script和hidden的標(biāo)簽及其內(nèi)容,文本樣式修飾標(biāo)簽

        [BT4]2實(shí)驗(yàn)數(shù)據(jù)比對與分析

        [JP2]為驗(yàn)證本抽取方法的有效性,隨機(jī)爬取了新聞、軍事、體育和財經(jīng)等4種類型的800個網(wǎng)頁,使用單一的基于視覺特征網(wǎng)頁信息抽取[11]方法、行塊分布函數(shù)分別進(jìn)行抽取,并同本抽取方法展開了研究對比。[JP]

        [BT5]2.1實(shí)驗(yàn)數(shù)據(jù)集

        本文的數(shù)據(jù)集來源于8個網(wǎng)站,分別是:今日頭條、環(huán)球網(wǎng)、網(wǎng)易軍事、新浪軍事、搜狐體育、體壇周報、東方財富、鳳凰財經(jīng),從中隨機(jī)抽取800個網(wǎng)頁,因而得到抽取網(wǎng)頁數(shù)據(jù)的結(jié)果信息則如表2所示。

        [BT5]2.2評價標(biāo)準(zhǔn)

        在從Web頁面中抽取有效信息的實(shí)驗(yàn)中,采用準(zhǔn)確率(Precision)、召回率(Recall)和F 值作為實(shí)驗(yàn)結(jié)果的性能評估指標(biāo)。準(zhǔn)確率、召回率、F值的計算公式可分見公式(4)~(6)。

        P=〖SX(〗TP〖〗TP+FP〖SX)〗[JY](4)

        R=〖SX(〗TP〖〗TP+FN〖SX)〗[JY](5)

        F=〖SX(〗2PR〖〗P+R〖SX)〗[JY](6)

        其中,TP為抽取出的所有信息中的有效信息量,F(xiàn)P為抽取出的所有信息中包含的無效信息量,F(xiàn)N為未被抽取出的信息中的有效信息量。

        2.3比對結(jié)果及分析

        在抽取的這8個網(wǎng)站中,今日頭條網(wǎng)站中含有噪音內(nèi)容較少,正文以段落長文本為主體,無圖片及鏈接的干擾。環(huán)球網(wǎng)、體壇周報與新浪軍事網(wǎng)結(jié)構(gòu)類似,噪音內(nèi)容集中在頭部、尾部及右側(cè)區(qū)域,正文中有圖片插入,文字為長文本。網(wǎng)易軍事網(wǎng)站中的網(wǎng)頁正文區(qū)域以圖片為主,文字為輔,文本內(nèi)容較少,多為1~2句話。搜狐體育除以長文本構(gòu)成的正文區(qū)域外,右側(cè)區(qū)域也含有比賽時間這類短文本正文內(nèi)容。東方財富與鳳凰財經(jīng)這2個財經(jīng)類網(wǎng)站的正文中有大量短句格式,二者區(qū)別在于,東方財富中網(wǎng)頁內(nèi)容均由短句、數(shù)字構(gòu)成,而鳳凰財經(jīng)中網(wǎng)頁內(nèi)容中除短句外也含有長文本,廣告鏈接插在正文中。

        將研究選用的800個網(wǎng)頁分別用視覺特征網(wǎng)頁信息[11]的方法、行塊分布函數(shù)法與本文方法進(jìn)行信息抽取,抽取結(jié)果如表3所示。由表3中的數(shù)據(jù)可以看出,本文方法的抽取效果較為理想,但對于包含過多短文本的網(wǎng)頁抽取的準(zhǔn)確度還有待提高。

        3結(jié)束語

        [HT5”SS][ST5”BZ][WT5”BZ]

        本文提出了一種Dom樹標(biāo)簽路徑剪枝和行塊密度結(jié)合的Web信息抽取方法。將Web頁面解析成DOM文檔,在此基礎(chǔ)上根據(jù)路徑標(biāo)簽比和行塊分布函數(shù)對信息進(jìn)行抽取,獲取精確度頗高的抽取結(jié)果。經(jīng)實(shí)驗(yàn)表明,本文研發(fā)方法的準(zhǔn)確率達(dá)到91%,由此可知方法設(shè)計效果高效可行,但對于類似財經(jīng)類這種包含過多短文本的網(wǎng)頁,對其抽取的準(zhǔn)確度還有待后續(xù)的改進(jìn)提高。在今后的研究中,將對本文方法設(shè)計引入進(jìn)一步優(yōu)化處理,擴(kuò)大抽取方法的適用范圍,提高抽取系統(tǒng)的性能。

        參考文獻(xiàn):

        劉秉權(quán),王喻紅,葛冬梅,等. 基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[C]//黑龍江省計算機(jī)學(xué)會2007年學(xué)術(shù)交流年會論文集. 大慶:黑龍江計算機(jī)學(xué)會,2007:14-17.

        [2] 聶卉,黃貴鵬. 基于GATE語義標(biāo)注的Web信息的自動抽取[J]. 圖書情報工作,2010,54(5):110-114.

        [3] 陳鑫. 基于行塊分布函數(shù)的通用網(wǎng)頁正文抽取[EB/OL]. [2016-02-23]. https://www.doc88.com/p-912707793066.html.

        [4] 朱澤德,李淼,張健,等. 基于文本密度模型的Web 正文抽取[J]. 模式識別與人工智能,2013,26(7):667-672.

        [5] 張乃洲,曹薇,李石君. 一種基于節(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁面挖掘方法[J]. 計算機(jī)學(xué)報,2015,38(2):349-364.

        [6] Cai Deng,Yu Shipeng, Wen Jirong, et al. VIPS: A visionbased page segmentation[R]. Redmond, WA:Microsoft corporation,2003.

        [7] 孫璐,陳軍華,廉德勝. 一種基于視覺特征的Deep Web信息抽取方法[J]. 計算機(jī)與數(shù)字工程,2016,44(6):1107-1111,1126.

        [8] 顧韻華,高原,高寶,等. 基于模板和領(lǐng)域本體的Deep Web信息抽取研究[J]. 計算機(jī)工程與設(shè)計,2014,35(1):327-332.

        [9] 郭少華,郭巖,李海燕,等. 可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取研究[J]. 中文信息學(xué)報,2015,29(1):97-103.

        [10]荊濤,左萬利. 基于可視布局信息的網(wǎng)頁噪音去除算法[J]. 華南理工大學(xué)學(xué)報(自然科學(xué)版),2004,32(S1):84-87,98.

        [11]安增文,徐杰鋒. 基于視覺特征的網(wǎng)頁正文提取方法研究[J]. 微型機(jī)與應(yīng)用,2010(3):38-41.[ZK)][FL)]endprint

        久久91精品国产91久久跳舞| 亚洲精品国偷拍自产在线观看 | 久久AⅤ无码精品色午麻豆| 久久精品成人91一区二区| 一区二区三区免费观看在线视频| 一区二区三区四区四色av| 毛片精品一区二区二区三区| 蜜桃av中文字幕在线观看| 中文字幕一区二区人妻性色av| 久久无码高潮喷水抽搐| 久久精品国产精油按摩| 久久这里只精品国产免费10| 国产亚洲精品久久久久久久久动漫| 九九久久精品大片| 日韩女优中文字幕在线| 国产精品毛片毛片av一区二区| 亚洲tv精品一区二区三区| 天堂中文官网在线| 久久国产精品久久久久久| 少妇无码一区二区三区免费| 人妻系列无码专区久久五月天| 成人做爰高潮尖叫声免费观看| 欧美z0zo人禽交欧美人禽交| 亚洲人成人一区二区三区| 91精品国产综合久久青草| 国产精品爽爽VA吃奶在线观看| 亚洲国产av自拍精选| 国产一区二区三区特黄| 日本免费播放一区二区| 青青草 视频在线观看| 无码av中文一区二区三区| 日产精品久久久一区二区| 韩日午夜在线资源一区二区| 亚洲第一无码xxxxxx| 丁香婷婷色| 国产午夜精品av一区二区三| 国产毛片精品av一区二区| 欧美怡春院一区二区三区| 亚洲日韩av无码中文字幕美国| 蜜桃臀无码内射一区二区三区| 亚洲an日韩专区在线|