支持DOM模板可視化配置的網(wǎng)頁抽取方法

2018-05-18 07:58:27李健馬延周

現(xiàn)代計算機 2018年10期

李健，馬延周

（解放軍信息工程大學(xué)洛陽校區(qū)基礎(chǔ)部，洛陽 471003）

0 引言

萬維網(wǎng)是Internet信息發(fā)布的主要形式，各類網(wǎng)站多如牛毛，所包含的網(wǎng)頁更是浩如煙海。這些網(wǎng)頁中包含海量的數(shù)據(jù)，也蘊藏著巨大的價值。網(wǎng)絡(luò)爬蟲是按照某定規(guī)則自動地抓取Web信息的應(yīng)用程序[1]。從采集粒度上看，網(wǎng)絡(luò)爬蟲可分為“頁面級”爬蟲和“元素級”爬蟲。“頁面級”爬蟲追求內(nèi)容的覆蓋率，希望盡量多地爬取到相關(guān)網(wǎng)頁；“元素級”爬蟲則追求內(nèi)容的精準(zhǔn)性，其目標(biāo)是精確抽取出網(wǎng)頁中的關(guān)鍵內(nèi)容?，F(xiàn)有“元素級”爬蟲多采用模板匹配的方法[2-3]，但往往需要手動配置。手動配置對專業(yè)要求較高，需要了解網(wǎng)頁結(jié)構(gòu)、正則表達式等知識；又因其配置過程復(fù)雜且需手動輸入而使效率低下且容易出錯。

針對上述不足，本文提出一種支持可視化模板配置的網(wǎng)頁抽取方法，用戶可使用鼠標(biāo)直接點選頁面元素自動生成DOM模板，進而實現(xiàn)網(wǎng)頁抽取。下面將詳情介紹其抽取原理和關(guān)鍵技術(shù)。

1 抽取原理

1.1 元素的DOM路徑

根據(jù)DOM的定義[4]，一個HTML文檔可以看作一顆樹，其中每個元素（結(jié)點）都按照一定的層次結(jié)構(gòu)組織在這顆樹中。元素是文檔樹的根，每個元素都存在一條從根到該元素的層次路徑，我們稱這個層次路徑為“DOM路徑”。DOM路徑具有元素定位功能，是網(wǎng)頁抽取的基礎(chǔ)。

例1有網(wǎng)頁內(nèi)容如下：

例如，本例中“”標(biāo)簽在文檔樹中的層次路徑為：

又如，本例中“

床前明月光

”標(biāo)簽在文檔樹中的層次路徑為：

1.2 根據(jù)DOM路徑抽取元素

對于給定元素，我們可以獲取其DOM路徑；反之，如果給定路徑信息，我們也可以“自頂向下”找出這個元素（或者同級別同類型的多個元素）。

根據(jù)路徑1，可在例1中匹配到1個

元素。匹配過程如下：
表1
根據(jù)路徑2，我們則可以匹配到所有4個
元素。匹配過程如下：
表2
由此可以歸納出網(wǎng)頁抽取的基本思路：首先在頁面中選擇元素生成路徑模板，然后根據(jù)模板抽取更多網(wǎng)頁元素。注意：這里所說的更多元素，可以是一個網(wǎng)頁中的同類元素，也可以是其他同構(gòu)網(wǎng)頁中的同類元素。
例2：有網(wǎng)頁內(nèi)容如下：
本例與上例為同構(gòu)頁面，若用上例中的路徑1（html->body->div->h1）對本例進行元素抽取，可得到2個

元素，匹配過程如下：
表3
若用路徑2（html->body->div->p）對本例進行元素抽取則可得到8個
元素，匹配過程如下：
表4

1.3 為DOM路徑設(shè)置條件

同一個DOM路徑在網(wǎng)頁中可能對應(yīng)多個元素，而我們或許只需要其中一部分。此時可對DOM路徑設(shè)置一些限制條件，以篩選出需要的元素。在元素路徑的基礎(chǔ)上設(shè)置一些匹配條件，就構(gòu)成了一個內(nèi)容抽取模板。常用限制條件有：ID、CLASS、Text。

例2中共有8個

元素，它們的DOM路徑均為“html->body->div->p”，我們直接用這個路徑抽取可以找到全部的

元素。若希望僅抽取第二首詩的正文內(nèi)容，就可在div層加上“id='sceond'”的限制條件。匹配過程如下：

表5

這樣就只保留了第二首詩的正文內(nèi)容。除了id條件，我們還可以設(shè)置class和text條件。

例3:有網(wǎng)頁內(nèi)容如下：

本例正文部分包含一組產(chǎn)品鏈接，它們的DOM路徑均為“html->body->div->div->a”。經(jīng)分析發(fā)現(xiàn)這些產(chǎn)品有新舊之分，若我們希望只抽取新產(chǎn)品鏈接，則可在層添加“class='new'”的條件限制。此時抽取模板為：html->body->div->div->a[class='new']，抽取過程不再列出。

在頁面下部有一組分頁鏈接，它們具有相同的DOM路徑，即使設(shè)置id和class條件也不能區(qū)分。如果我們要抽取“下一頁”鏈接，而不是所有分頁鏈接，則可通過元素的內(nèi)置本文加以區(qū)分。此時抽取模板為：html->body->div->a[text='下一頁']，抽取過程不再列出。