摘要:隨著互聯(lián)網(wǎng)應(yīng)用的不斷開發(fā),基于網(wǎng)頁正文提取的技術(shù)層出不窮。幾種比較經(jīng)典的提取模型包括:基于DOM樹網(wǎng)頁提取模型、基于統(tǒng)計的網(wǎng)頁提取模型、基于分塊的網(wǎng)頁提取模型。本文對網(wǎng)頁正文提取技術(shù)的綜合分析與研究,各種網(wǎng)頁提取算法的優(yōu)劣。
關(guān)鍵詞:網(wǎng)頁正文提取技術(shù);經(jīng)典提取模型的分析與研究
中圖分類號:TP301.6 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 22-0000-02
1 引言
隨著信息技術(shù)的迅速發(fā)展,基于互聯(lián)網(wǎng)的應(yīng)用越來越多的受到人們關(guān)注。WWW以超文本的形式給用戶提供多種類別和形式的信息(包括技術(shù)資料、商業(yè)信息、新聞報道、娛樂信息等)。可以說,WWW是當(dāng)今世界上最大的電子信息庫,蘊含著許多具有潛在價值的知識。根據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)最新報告顯示,截至2011年6月,中國網(wǎng)民規(guī)模達(dá)到4.85億,較2010年底增加2770萬人;互聯(lián)網(wǎng)普及率攀升至36.2%,較2010年提高1.9個百分點。我國手機(jī)網(wǎng)民規(guī)模為3.18億,較2010年底增加了1494萬人。手機(jī)網(wǎng)民在總體網(wǎng)民中的比例達(dá)65.5%,成為中國網(wǎng)民的重要組成部分。人們可以借助移動設(shè)備以及計算機(jī),通過互聯(lián)網(wǎng)尋找任何自己想要的信息,然而,互聯(lián)網(wǎng)又是一個具有開放性、異構(gòu)性以及動態(tài)性的分布式網(wǎng)絡(luò),其資源分布分散、管理結(jié)構(gòu)不一,這就導(dǎo)致了知識獲取的困難。如何準(zhǔn)確識別并有效提取包含在Web網(wǎng)頁中的正文內(nèi)容是Web智能信息檢索[1-2]、文檔自動摘要[3-4]、用戶瀏覽體驗等諸多領(lǐng)域的重要工作之一。
2 基于DOM樹的網(wǎng)頁正文提取技術(shù)
目前在網(wǎng)頁信息抽取技術(shù)中研究得最多的基于DOM的網(wǎng)頁抽取技術(shù),它歷屬于自動訓(xùn)練的研究方法,也是近些年來發(fā)展得最好的技術(shù)方法。DOM就是文檔對象模型,全稱為Document Object Model,它將HTML文檔里的標(biāo)簽信息,如Table,List等利用起來,把文檔解析成一個邏輯樹型結(jié)構(gòu),節(jié)點就是對象。構(gòu)建完DOM樹后,通過將各個節(jié)點遍歷,對各種非正文信息包括廣告,鏈接群等識別并移除,移除完非正文信息后,正文內(nèi)容就是DOM樹中剩下的節(jié)點內(nèi)容。
由于依賴于HTML文檔里的標(biāo)簽結(jié)構(gòu)的基于DOM樹的算法,對于HTML規(guī)范語法的要求很寬松,所以不同的設(shè)計人員執(zhí)行的規(guī)范程度不一樣,比如標(biāo)簽的不匹配等。雖然這種不規(guī)范性對于HTML本身的執(zhí)行不會造成問題,但卻可能使構(gòu)建DOM樹的過程瀕臨崩潰。另外,更加重要的一點在于,解析DOM樹的過程效率比較低。因為它會對文檔中的每一個Element、Attribute、Comment等都創(chuàng)建一個對象,這樣,大量的對象在運行過程中將會被創(chuàng)建和銷毀,大大增加了搜索引擎中海量數(shù)據(jù)的處理的負(fù)擔(dān)。
3 基于統(tǒng)計的網(wǎng)頁正文提取技術(shù)
傳統(tǒng)的網(wǎng)頁內(nèi)容提取方法需要針對不同的數(shù)據(jù)源創(chuàng)建不同的包裝器,基于統(tǒng)計的網(wǎng)頁正文抽取技術(shù)克服了這樣的缺點,它具有了一定的普遍性。不需要樣本學(xué)習(xí),也大大提高了正文抽取的速度。
Finn等人將HTML看作是字符和標(biāo)簽組成的序列,判斷文字是否為正文的依據(jù)是使用文本和HTML代碼的密度,從而在字符集中的區(qū)域提取文字。基本的處理工作如下:
(1)解析HTML代碼并記下處理的字節(jié)數(shù);(2)以行或段的形式保存解析輸出的文本;(3)統(tǒng)計每一行文本對應(yīng)的HTML代碼的字節(jié)數(shù);(4)通過計算文本相對于字節(jié)數(shù)的比率來獲取文本密度;(5)最后用神經(jīng)網(wǎng)絡(luò)來決定這一行是不是文本的一部分。
李蕾等人提出了一種基于快速傅立葉變換(FFT)的網(wǎng)頁正文內(nèi)容提取算法。采用窗口分段的方法, 利用統(tǒng)計學(xué)原理和FFT, 得出每個可能區(qū)間的權(quán)值, 從而求解出最佳正文區(qū)間。其基本步驟如下:
(1)讀入HTML文件,轉(zhuǎn)換為Unicode代碼;(2)采用窗口分段的方法,將文件切分成若干等長窗口段;(3)應(yīng)用統(tǒng)計學(xué)原理,對字符進(jìn)行強(qiáng)制編碼轉(zhuǎn)換;(4)對每一段窗口作FFT,得到頻域的F向量;(5)各段頻域互相求差;(6)計算每個區(qū)間的權(quán)值;(7)依據(jù)權(quán)值排序;(8)加權(quán)平均。
這些方法不必知道HTML網(wǎng)頁文件的結(jié)構(gòu)和它所使用的lable標(biāo)簽,不管是含有文本內(nèi)容的新聞文章還是博客頁面,它都能有效的工作。但這種方法對于有表格和鏈接等標(biāo)簽結(jié)構(gòu)的網(wǎng)頁,不能有效的工作,它僅適用于正文文字較集中的網(wǎng)頁。
4 基于分塊的網(wǎng)頁正文提取技術(shù)
當(dāng)Web頁面呈現(xiàn)在用戶面前時,用戶可能下意識地將網(wǎng)頁頁面劃分成幾個語義塊?;诜謮K的網(wǎng)頁正文提取技術(shù)類似于基于DOM的正文提取技術(shù),區(qū)別在于前者在對頁面分塊時,僅僅考慮布局標(biāo)簽或其他頁面布局信息。
一種基于HTML標(biāo)簽及其所含內(nèi)容,把每一個
塊看成是一個內(nèi)容塊,然后計算內(nèi)容塊內(nèi)關(guān)鍵字的嫡值,來確定每個內(nèi)容塊的嫡值,這個嫡值是指出現(xiàn)在整個網(wǎng)頁簇中的特征詞的權(quán)重。利用貪心法動態(tài)的選擇墑值的閉值,找出含有有用的信息內(nèi)容塊。實驗證明這種方法的召回率和準(zhǔn)確率都較高。
一些人提出基于視覺特征的網(wǎng)頁分塊法VIPS(Vision-based Page Segmentation),旨在基于頁面視覺表示提取Web頁面的語義結(jié)構(gòu)。對應(yīng)于一塊。每個節(jié)點將賦予一個值(凝聚度)指明基于視覺塊中內(nèi)容的凝VIPS算法全部利用頁面的布局特征。首先,結(jié)合DOM樹以及一些視覺提示信息得到頁面的基于視覺的內(nèi)容結(jié)構(gòu)。根據(jù)一定的語義關(guān)聯(lián),利用字體、顏色、大小等網(wǎng)頁版面特征,將整個網(wǎng)頁表示成一棵HTML-DOM樹;從HTML-DOM樹中找出所有合適的塊,然后提取這些塊的隔離物。這里,隔離物是Web頁面中的水平線或垂直線,在視覺上不與任何塊相交?;谶@些隔離物可以構(gòu)造web頁面的語義樹。一個web頁面可以表示成塊即為語義樹的葉節(jié)點的集合。與基于DOM的方法相比,由VIPS得到的分割聚集了更多的語義信息。由于噪聲信息,如導(dǎo)航、廣告、修飾等,經(jīng)常放在頁面的特定位置上,所以很容易去除。具有不同主題的內(nèi)容區(qū)分為分離的塊。
基于特定標(biāo)簽的分塊方法局限于文字內(nèi)容比較集中的網(wǎng)頁。實際情況中的網(wǎng)頁樣式結(jié)構(gòu)和
5 總結(jié)
前面對已有的國內(nèi)外主流的網(wǎng)頁提取技術(shù)做了總結(jié)和歸納,總結(jié)傳統(tǒng)的網(wǎng)頁提取技術(shù),我們發(fā)現(xiàn)其在復(fù)雜性和準(zhǔn)確率上很難達(dá)成統(tǒng)一:
1)經(jīng)典研究以字符串匹配和樹形結(jié)構(gòu)匹配為基礎(chǔ)],盡管可以很好反映Web文檔的結(jié)構(gòu),但是其時間復(fù)雜度至少為,很難滿足Web應(yīng)用實時性需求;2)基于統(tǒng)計學(xué)提取方法只適用于正文文字較集中的網(wǎng)頁,如果段落間有表格或鏈接等標(biāo)簽豐富的結(jié)構(gòu),就不能有效處理了;3)基于分塊和視覺的提取方法運用的啟發(fā)知識往往較為模糊,需要人工不斷地總結(jié)調(diào)整規(guī)則,規(guī)則較多,很難找到統(tǒng)一的規(guī)則集,很難普及使用。
總之,網(wǎng)頁正文提取技術(shù)目前尚屬一個較新的領(lǐng)域,也是當(dāng)前的一個研究熱點。雖然國外在這方面的研究取得了一定的進(jìn)展。但在理論和技術(shù)上仍然存在著諸多困難和局限性。尤其是很難再復(fù)雜性和準(zhǔn)確率上達(dá)成統(tǒng)一,為此,本論文試圖進(jìn)行嘗試新的研究,利用中文文字自身的特點,通過一種基于神經(jīng)網(wǎng)絡(luò)的正文提取的新方法讓計算機(jī)自動識別正文行。然后根據(jù)識別的正文行標(biāo)記,對網(wǎng)頁進(jìn)行分塊,最后選擇最優(yōu)分塊作為網(wǎng)頁正文。
[作者簡介]
楊麗萍(1976-),女,籍貫:黑龍江省海倫市,講師。碩士學(xué)位,研究方向:數(shù)據(jù)挖掘