亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種DOM樹標(biāo)簽路徑和行塊密度結(jié)合的Web信息抽取方法

2017-09-18 21:38:56馬曉慧李泓瑩

智能計算機(jī)與應(yīng)用 2017年4期

馬曉慧++李泓瑩

摘要：本文提出了一種標(biāo)簽路徑和行塊分布函數(shù)相結(jié)合的信息抽取方法來實(shí)現(xiàn)Web頁面的信息抽取。該方法將Web頁面解析成DOM樹，使用視覺特征和標(biāo)簽過濾的規(guī)則將樹進(jìn)行剪枝，引入標(biāo)簽路徑特征的方法粗略劃分出網(wǎng)頁的正文內(nèi)容和噪音內(nèi)容，最終使用行塊分布函數(shù)的方法進(jìn)行抽取，獲得正文文本。實(shí)驗(yàn)結(jié)果表明，這種抽取方法有效地防止了正文內(nèi)容誤刪及噪音內(nèi)容漏刪的現(xiàn)象，使得提取的正文信息更加準(zhǔn)確，準(zhǔn)確度達(dá)到91%，召回率達(dá)到95%，F(xiàn)值達(dá)到93%。本算法對于包含過多短文本的網(wǎng)頁抽取的準(zhǔn)確度還有待提高。

關(guān)鍵詞： DOM樹；視覺特征；標(biāo)簽路徑特征；行塊分布函數(shù)

中圖分類號：TP391

文獻(xiàn)標(biāo)志碼：A

文章編號：2095-2163（2017）04-0013-05

0引言

Web頁面是目前人們獲取信息的主要方式之一，也是輿情監(jiān)測、數(shù)據(jù)分析和處理的一個重要來源。常見的Web頁面除了包含有用的正文信息外，還包含了大量的與正文主題無關(guān)的鏈接、圖片、腳本等內(nèi)容。因此，從紛雜的信息中快速準(zhǔn)確地提取所需信息就顯得尤為重要，Web頁面的信息抽取也成為了研究的一個熱點(diǎn)問題。

劉秉權(quán)[1]等提出了基于DOM樹的方法，根據(jù)HTML標(biāo)簽把網(wǎng)頁解析為一顆樹，在樹上通過DES算法、MDR算法等應(yīng)用算法抽取網(wǎng)頁中有效信息。聶卉[2]等深入研究了一種基于GATE語義標(biāo)注的Web信息自動抽取技術(shù)，這種技術(shù)通過領(lǐng)域本體對網(wǎng)頁進(jìn)行語義標(biāo)注準(zhǔn)確定位目標(biāo)項(xiàng)，再通過從構(gòu)建好的DOM樹中抽取語義項(xiàng)的特征描述構(gòu)建樣本實(shí)例，最后運(yùn)用歸納算法實(shí)現(xiàn)抽取。陳鑫[3]則重點(diǎn)探討了在經(jīng)過初步過濾后的HTML中，結(jié)合正文區(qū)的密度，以行為自變量，行塊長度為因變量建立線性行塊分布函數(shù)，通過分布函數(shù)圖找出閾值，從而得到有效的正文內(nèi)容。朱澤德[4]等建立了一個融合結(jié)構(gòu)和語言特征的統(tǒng)計模型，利用高斯平滑運(yùn)算對密度序列進(jìn)行計算以獲取平滑文本密度，再由最大子序列分割平滑文本密度抽取正文內(nèi)容。張乃洲等[5]用節(jié)點(diǎn)密度熵為度量分割DOM樹，再采用K最近鄰標(biāo)簽傳播的半監(jiān)督法和SVM分類器對頁面進(jìn)行分類，抽取有用類。微軟亞洲研究院[6]最早開展了基于視覺特征的信息抽取技術(shù)研究，可將人對一個網(wǎng)頁的視覺感受作為依據(jù)，區(qū)分出不同主題的主題塊，對所需主題塊進(jìn)行提取。孫璐等人[7]還在此方法基礎(chǔ)上做出了實(shí)用升級改進(jìn)，利用VIPS算法將去除無關(guān)信息的DOM樹來拓展執(zhí)行語義分塊，而后根據(jù)位置特征找到基準(zhǔn)塊，以此作為中心，遍歷DOM樹找到所有相似塊并引入抽取處理，提高了抽取效率。此外，還有基于模板的技術(shù)。顧韻華等人[8]在領(lǐng)域本體的引導(dǎo)下建立了雙模板——DIV塊模板和表格模板，可用其分別實(shí)現(xiàn)粗粒度和細(xì)粒度的信息抽取。郭少華等[9]基于模板提出正交過濾算法，過濾掉模板中的噪音信息，改善了生成的模板。隨著研究的深入，后期出現(xiàn)了基于機(jī)器學(xué)習(xí)等多種抽取技術(shù)，在上述抽取方式中，以DOM樹方法應(yīng)用最為廣泛。本文即在DOM樹的基礎(chǔ)上提出了一種根據(jù)標(biāo)簽特征、行塊分布函數(shù)以及鏈接密度精確抽取正文的方法。研究設(shè)計內(nèi)容可做如下論述。

[BT4]1抽取系統(tǒng)實(shí)現(xiàn)框架

本文致力于探討的這種研究方法大致可分為3步。首先將經(jīng)過規(guī)范化的網(wǎng)頁解析成DOM樹，由標(biāo)簽過濾和鏈接密度過濾的方式去除不必要的分枝，使一顆結(jié)構(gòu)復(fù)雜的樹簡潔化。其次，遍歷DOM樹，對樹中的所有標(biāo)簽路徑、文本標(biāo)簽及標(biāo)點(diǎn)個數(shù)提供數(shù)理運(yùn)算統(tǒng)計，分別計算所有可到達(dá)文本長度之和與標(biāo)簽路徑的比值和所有可到達(dá)標(biāo)點(diǎn)路徑之和與標(biāo)簽路徑的比值，大致區(qū)分正文和噪音部分。最后，使用行塊分布函數(shù)法對已劃分出的正文和噪音完善推演、并設(shè)計進(jìn)一步的過濾、抽取，最終能夠高精度地從網(wǎng)頁中抽取得到有效信息。

[BT5]1.1構(gòu)建DOM樹

DOM樹具有結(jié)構(gòu)性強(qiáng)，將無序網(wǎng)頁有序化的特點(diǎn)，能夠清晰地展示一個網(wǎng)頁的結(jié)構(gòu)。因此，為了使網(wǎng)頁結(jié)構(gòu)更加直觀，方便正文抽取工作，首先可將網(wǎng)頁轉(zhuǎn)換成DOM樹。設(shè)計過程可詳述如下。

1.1.1規(guī)范化HTML語法

在將網(wǎng)頁解析成DOM樹前，需使用W3的HTML Validator工具檢驗(yàn)HTML代碼是否合法，對不合法的代碼進(jìn)行修正，獲取規(guī)范的HTML文檔。本文所采用的部分語法規(guī)范準(zhǔn)則如表1所示。

1.1.2解析DOM樹

通過標(biāo)簽屬性對，將獲取的HTML文檔解析為一顆以html為根節(jié)點(diǎn)的DOM樹，現(xiàn)以圖1所示網(wǎng)頁為例，解析后生成的DOM樹結(jié)構(gòu)如圖2所示。

1.2降噪處理

初步構(gòu)建好的DOM樹分支多，其中大量分支放置著無意義內(nèi)容，如腳本信息、鏈接廣告等。這樣的樹若是不拓展設(shè)置降噪環(huán)節(jié)，不但會將之后正文抽取的工作復(fù)雜化，還會在一定程度上降低抽取的效率和精確度。本文用視覺特征和標(biāo)簽過濾的方法對網(wǎng)頁做降噪處理，對通常不含正文文本內(nèi)容的標(biāo)簽做剪枝處理，得到一個簡潔的DOM樹。這里將給出研究分述如下。

1.2.1視覺特征降噪

經(jīng)比對多個網(wǎng)頁發(fā)現(xiàn)，大量的網(wǎng)頁布局基本類似，都由head、foot、right、left、center這5個區(qū)域中的任意幾個構(gòu)成，其中97%的網(wǎng)頁均含有head、foot區(qū)域，right、left區(qū)域選擇性擁有。以圖1為例，對應(yīng)的區(qū)域結(jié)構(gòu)則如圖3所示。

[JP2]參閱文獻(xiàn)[10]所示，依據(jù)其中提出的可視布局去除網(wǎng)頁噪音的算法，去除網(wǎng)頁中的head，foot區(qū)域。設(shè)計得到步驟如下：[JP]

1）顯示已解析的DOM樹，由此獲取網(wǎng)頁實(shí)際大小。

2）由網(wǎng)頁的實(shí)際大小分別得出上、下邊界的閾值，相應(yīng)記為top、lower。

3）將網(wǎng)頁內(nèi)除body標(biāo)簽外的所有元素取得的絕對坐標(biāo)及其實(shí)際大小同由閾值劃分的區(qū)域展開比較。以任一元素Element為例，其所屬區(qū)域左上角的原點(diǎn)絕對坐標(biāo)為（X，Y），且設(shè)定所占區(qū)域大小為（Height，Width）。若Element.Y+Element.Height<=top，則元素Element屬于head。若Element.Y>=lower，則元素Element屬于foot。據(jù)此規(guī)則對DOM樹進(jìn)行遍歷，對區(qū)域進(jìn)行劃分，去除head、foot區(qū)域，實(shí)現(xiàn)初步噪音處理。未去除的元素均暫時作為正文。endprint

1.2.2標(biāo)簽過濾

在初步獲取的正文文本中，可能包含right、left區(qū)域，這些區(qū)域中的元素都作為正文包含其中，需要通過標(biāo)簽過濾的方式再次去除網(wǎng)頁噪音。這里的標(biāo)簽過濾分為2種，一種是過濾不含正文的標(biāo)簽，另一種是通過鏈接密度過濾正文中難以識別的超鏈接。

[JP2]網(wǎng)頁中的標(biāo)簽大體可分為2類，一類是構(gòu)建網(wǎng)頁框架，顯示正文文本的有用標(biāo)簽，一類是用來修飾網(wǎng)頁使其美觀的無用標(biāo)簽。本文的目的是抽取正文信息，因此需刪去DOM樹上的無用標(biāo)簽，如：script和hidden的標(biāo)簽及其內(nèi)容，文本樣式修飾標(biāo)簽

[BT4]2實(shí)驗(yàn)數(shù)據(jù)比對與分析

[JP2]為驗(yàn)證本抽取方法的有效性，隨機(jī)爬取了新聞、軍事、體育和財經(jīng)等4種類型的800個網(wǎng)頁，使用單一的基于視覺特征網(wǎng)頁信息抽取[11]方法、行塊分布函數(shù)分別進(jìn)行抽取，并同本抽取方法展開了研究對比。[JP]

[BT5]2.1實(shí)驗(yàn)數(shù)據(jù)集

本文的數(shù)據(jù)集來源于8個網(wǎng)站，分別是：今日頭條、環(huán)球網(wǎng)、網(wǎng)易軍事、新浪軍事、搜狐體育、體壇周報、東方財富、鳳凰財經(jīng)，從中隨機(jī)抽取800個網(wǎng)頁，因而得到抽取網(wǎng)頁數(shù)據(jù)的結(jié)果信息則如表2所示。

[BT5]2.2評價標(biāo)準(zhǔn)

在從Web頁面中抽取有效信息的實(shí)驗(yàn)中，采用準(zhǔn)確率（Precision）、召回率（Recall）和F 值作為實(shí)驗(yàn)結(jié)果的性能評估指標(biāo)。準(zhǔn)確率、召回率、F值的計算公式可分見公式（4）～（6）。

P=〖SX（〗TP〖〗TP+FP〖SX）〗[JY]（4）

R=〖SX（〗TP〖〗TP+FN〖SX）〗[JY]（5）

F=〖SX（〗2PR〖〗P+R〖SX）〗[JY]（6）

其中，TP為抽取出的所有信息中的有效信息量，F(xiàn)P為抽取出的所有信息中包含的無效信息量，F(xiàn)N為未被抽取出的信息中的有效信息量。

2.3比對結(jié)果及分析

在抽取的這8個網(wǎng)站中，今日頭條網(wǎng)站中含有噪音內(nèi)容較少，正文以段落長文本為主體，無圖片及鏈接的干擾。環(huán)球網(wǎng)、體壇周報與新浪軍事網(wǎng)結(jié)構(gòu)類似，噪音內(nèi)容集中在頭部、尾部及右側(cè)區(qū)域，正文中有圖片插入，文字為長文本。網(wǎng)易軍事網(wǎng)站中的網(wǎng)頁正文區(qū)域以圖片為主，文字為輔，文本內(nèi)容較少，多為1～2句話。搜狐體育除以長文本構(gòu)成的正文區(qū)域外，右側(cè)區(qū)域也含有比賽時間這類短文本正文內(nèi)容。東方財富與鳳凰財經(jīng)這2個財經(jīng)類網(wǎng)站的正文中有大量短句格式，二者區(qū)別在于，東方財富中網(wǎng)頁內(nèi)容均由短句、數(shù)字構(gòu)成，而鳳凰財經(jīng)中網(wǎng)頁內(nèi)容中除短句外也含有長文本，廣告鏈接插在正文中。

將研究選用的800個網(wǎng)頁分別用視覺特征網(wǎng)頁信息[11]的方法、行塊分布函數(shù)法與本文方法進(jìn)行信息抽取，抽取結(jié)果如表3所示。由表3中的數(shù)據(jù)可以看出，本文方法的抽取效果較為理想，但對于包含過多短文本的網(wǎng)頁抽取的準(zhǔn)確度還有待提高。

3結(jié)束語

[HT5”SS][ST5”BZ][WT5”BZ]

本文提出了一種Dom樹標(biāo)簽路徑剪枝和行塊密度結(jié)合的Web信息抽取方法。將Web頁面解析成DOM文檔，在此基礎(chǔ)上根據(jù)路徑標(biāo)簽比和行塊分布函數(shù)對信息進(jìn)行抽取，獲取精確度頗高的抽取結(jié)果。經(jīng)實(shí)驗(yàn)表明，本文研發(fā)方法的準(zhǔn)確率達(dá)到91%，由此可知方法設(shè)計效果高效可行，但對于類似財經(jīng)類這種包含過多短文本的網(wǎng)頁，對其抽取的準(zhǔn)確度還有待后續(xù)的改進(jìn)提高。在今后的研究中，將對本文方法設(shè)計引入進(jìn)一步優(yōu)化處理，擴(kuò)大抽取方法的適用范圍，提高抽取系統(tǒng)的性能。

參考文獻(xiàn)：

劉秉權(quán)，王喻紅，葛冬梅，等. 基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[C]//黑龍江省計算機(jī)學(xué)會2007年學(xué)術(shù)交流年會論文集. 大慶：黑龍江計算機(jī)學(xué)會，2007：14-17.

[2] 聶卉，黃貴鵬. 基于GATE語義標(biāo)注的Web信息的自動抽取[J]. 圖書情報工作，2010，54（5）：110-114.

[3] 陳鑫. 基于行塊分布函數(shù)的通用網(wǎng)頁正文抽取[EB/OL]. [2016-02-23]. https：//www.doc88.com/p-912707793066.html.

[4] 朱澤德，李淼，張健，等. 基于文本密度模型的Web 正文抽取[J]. 模式識別與人工智能，2013，26（7）：667-672.

[5] 張乃洲，曹薇，李石君. 一種基于節(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁面挖掘方法[J]. 計算機(jī)學(xué)報，2015，38（2）：349-364.

[6] Cai Deng，Yu Shipeng， Wen Jirong， et al. VIPS： A visionbased page segmentation[R]. Redmond， WA：Microsoft corporation，2003.

[7] 孫璐，陳軍華，廉德勝. 一種基于視覺特征的Deep Web信息抽取方法[J]. 計算機(jī)與數(shù)字工程，2016，44（6）：1107-1111，1126.

[8] 顧韻華，高原，高寶，等. 基于模板和領(lǐng)域本體的Deep Web信息抽取研究[J]. 計算機(jī)工程與設(shè)計，2014，35（1）：327-332.

[9] 郭少華，郭巖，李海燕，等. 可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取研究[J]. 中文信息學(xué)報，2015，29（1）：97-103.

[10]荊濤，左萬利. 基于可視布局信息的網(wǎng)頁噪音去除算法[J]. 華南理工大學(xué)學(xué)報（自然科學(xué)版），2004，32（S1）：84-87，98.

[11]安增文，徐杰鋒. 基于視覺特征的網(wǎng)頁正文提取方法研究[J]. 微型機(jī)與應(yīng)用，2010（3）：38-41.[ZK）][FL）]endprint

智能計算機(jī)與應(yīng)用2017年4期

智能計算機(jī)與應(yīng)用的其它文章: 一種基于Java Web的敏感詞過濾方法研究與實(shí)現(xiàn); 輕量級加密算法mCrypton的不可能差分分析; 一種串并聯(lián)汽車模擬器的控制設(shè)計與實(shí)現(xiàn); 基于TV—維納濾波的散斑噪聲抑制; 一種基于線性回歸的新型推薦方法; 機(jī)車接地?zé)粼\斷電路故障的Multisim仿真