馬瑞民,錢 浩 (東北石油大學計算機與信息技術學院,黑龍江大慶163318)
當前,Web已經(jīng)成為人們獲取信息的主要渠道。怎樣對Web上大量的數(shù)據(jù)信息進行抽取成了現(xiàn)今數(shù)據(jù)挖掘研究的熱點。Web信息抽取是從網(wǎng)絡中獲得用戶需要的信息的過程[1],目前已有的技術有基于歸納學習的信息抽取、基于DOM的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取、基于模型的信息抽取和基于本體的信息抽取[1]等。其中基于DOM的Web信息抽取的特點是,將Web文檔轉換成反映HTML/XML文件層次結構的DOM樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則。
以上的方法在技術方面都比較成熟,但均沒有考慮到時間因素。為此,筆者結合DOM的Web信息抽取加上時間因素,提出了一種基于TFW-DOM的Web信息抽取方法。該方法考到多次抽取的情況,通過對頁面DOM樹加權,利用公式計算每次的抽取時間,結合基于DOM的抽取方法完成每次的信息抽取。
圖1 DOM樹
定義1(抽取項) 抽取項即用戶想在頁面中抽取的文本內容[2]。
定義2(抽取規(guī)則) 抽取規(guī)則是對抽取項在整個文檔中的定位,表現(xiàn)在DOM樹上就是由根節(jié)點到抽取項路過的節(jié)點序列所表示的路徑信息。假設DOM樹中的節(jié)點用element(i)(i=0,1,2,…)表示,抽取項的路徑信息就是一組element(i)(j)序列 (其中i≠j,i<j)。如圖 1所示,如果要定位Text:“My link”節(jié)點,它的路徑就應該是element(0)element(2)element(4)。
定義3(T加權) T加權是對DOM樹中每個元素添加時間屬性的過程,這2個屬性分別是最近一次(假設是第n次)抽取該節(jié)點信息的時間e-time和第n次抽取與第n-1次抽取的時間間隔et-interval。
定義4(F加權) F加權是對DOM樹中每個元素添加頻率的過程,表示調用信息抽取模塊用到該屬性的頻率。
圖2 TFW-DOM抽取流程
定義5(TFW-DOM) 經(jīng)過了T、F加權后得到的DOM樹。TFW-DOM樹的每個元素至少有3個屬性:e-time、et-interval、frequcency。
基于 TFW-DOM的 Web信息抽取方法(簡稱 TFW-DOM抽取)考慮的是多次抽取的情況,用戶無需手動抽取,系統(tǒng)通過抽取時間計算公式計算出每次的抽取時間,然后按照基于DOM的抽取方法進行抽取。該方法適用于多級管理層,每級管理層對數(shù)據(jù)的實時性要求不一,在時間上具有很大的靈活性?;赥FW-DOM的Web信息抽取方法的處理流程如圖2所示。
首先根據(jù)用戶的需求,獲得相關Web頁面URL,通過頁面清理把不規(guī)則的源代碼變?yōu)榉蟇3C標準的 HTML/XML文檔;對于規(guī)則庫中沒有現(xiàn)成規(guī)則的URL,進入DOM樹加權,然后在基于DOM的Web信息抽取方法[3]的基礎上,通過抽取時間計算得到抽取規(guī)則,將生成的抽取規(guī)則分別輸入規(guī)則庫和抽取的執(zhí)行模塊,下次再遇到類似的抽取任務就可以直接從規(guī)則庫中調取抽取規(guī)則;根據(jù)抽取規(guī)則在執(zhí)行模塊完成抽取后,結果進入數(shù)據(jù)處理部分,最后生成結構化數(shù)據(jù)。生成的數(shù)據(jù)結構可根據(jù)用戶的實際需要選擇,具有很大的靈活性。
1)頁面清理模塊 在頁面清理模塊中,利用Tidy庫提供的功能對Web頁面進行標準化處理,得到符合W3C的HTML/XML文檔,部分糾錯過濾代碼如下:
2)計算抽取時間算法 在這個模塊主要使用一個循環(huán)利用2個計算公式,完成抽取時間的計算,算法步驟如下:
其中,frequency是原頻率;frequency是新產(chǎn)生的頻率;time為系統(tǒng)當前時間。
選取中國石油化工股份有限公司企業(yè)網(wǎng)站對其化工產(chǎn)品進行實驗,對于抽取方法主要從抽取速度、時間準確性、召回率和準確率4方面來檢驗,試驗數(shù)據(jù)比較結果如表1。
因為針對專門的領域,所以TFW-DOM抽取法有很好的準確率和召回率;同時試驗結果表明TFW-DOM抽取法對多次抽取的效率明顯高于文獻 [4]的方法;因為受抽取時間計算公式中各計算因子影響,在抽取時間準確率上不能達到100%,但基本能夠滿足用戶各管理級的時間要求。
表1 試驗比較結果
筆者提出的抽取方法在初次抽取后得到的抽取規(guī)則存入規(guī)則庫中,可重復使用,避免了抽取規(guī)則的重用,在整個抽取過程中不需要人工參與,在提高效率的同時也減輕了用戶的操作負擔?;赥FWDOM的Web信息抽取方法通過抽取規(guī)則文件得到抽取任務的相關信息和執(zhí)行抽取的條件,因此,用戶只需改變輸入的頁面URL,完成初次抽取時的抽取規(guī)則文件生成,即可完成全新的抽取任務,并且最終得到的數(shù)據(jù)在數(shù)據(jù)結構上有相應的靈活性,這些使得基于TFW-DOM的Web信息抽取方法具備良好的可用性、易用性和通用性。
[1]色菲,王佳,潘超.基于XML描述的WEB信息抽取技術研究[J].計算機與信息技術,2007,34(2):403,380.
[2]陳曉鋒,張凌,董守斌.基XPath比較Web數(shù)據(jù)抽取方法[J].鄭州大學學報,2007,39(2):161-166.
[3]李效東,顧毓清.基于DOM的Web信息提取 [J].計算機學報,2002,25(5):526-533.
[4]于靜,李森.基于信息抽取的主動服務技術研究[J].計算機系統(tǒng)應用,2008,(1):54-56,60.