向菁菁 耿光剛 李曉東
摘要:針對網(wǎng)頁正文提取算法缺乏通用性,以及對新聞網(wǎng)頁的提取缺乏標(biāo)題、時間、來源信息的問題,提出一種新聞關(guān)鍵信息的提取算法newsExtractor。該算法首先通過預(yù)處理將網(wǎng)頁轉(zhuǎn)換成行號和文本的集合,然后根據(jù)字?jǐn)?shù)最長的一句話出現(xiàn)在新聞?wù)牡母怕蕵O高的特點,從正文中間開始向兩端尋找正文的起點和終點提取新聞?wù)?,根?jù)最長公共子串算法提取標(biāo)題,構(gòu)造正則表達(dá)式并以行號輔助判斷提取時間,根據(jù)來源的格式特點并輔以行號提取來源;最后構(gòu)造了數(shù)據(jù)集與國外開源軟件newsPaper進(jìn)行提取準(zhǔn)確率的對比實驗。實驗結(jié)果表明,newsExtractor在正文、標(biāo)題、時間、來源的平均提取準(zhǔn)確率上均優(yōu)于newsPaper,具有通用性和魯棒性。
關(guān)鍵詞:網(wǎng)頁信息提?。恍侣勑畔⑻崛?;網(wǎng)頁去噪
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
0引言
信息抽取[1]的概念最早是由Jim Cowie和Yorick Wilks于1996年提出,他們稱信息抽取就是任何能夠選擇性地將顯式或隱式的文本進(jìn)行組織和結(jié)合的方法,該概念的提出是為了解決互聯(lián)網(wǎng)中信息量大且過于繁雜、無法讓用戶快速獲取需要的信息的問題。在近20年的發(fā)展中,已有諸多學(xué)者針對不同的抽取需求提出了不同的信息抽取方法。在網(wǎng)頁信息提取方面,被提及最多的是網(wǎng)頁正文提取算法,但目前網(wǎng)頁正文提取算法尚存在缺點:首先,算法普遍存在缺乏通用性的問題;其次,在某些應(yīng)用場合(如:新聞溯源)除正文之外還需要新聞的標(biāo)題、時間和來源信息,但目前尚沒有能夠完全滿足需求的方法。因此,本文主要基于此展開研究。
1相關(guān)研究
針對不同的信息抽取需求,不同的學(xué)者提出的算法也不盡相同。
比如,識別網(wǎng)頁中的實體(如:人名、地名、事件名、時間等),文獻(xiàn)[2]提出了一種算法用于識別生物期刊摘要中的人體蛋白質(zhì)名稱;根據(jù)抽取規(guī)則生成方式的不同,又可以分為自動生成[3-4]和半自動生成[5]兩類。
對于網(wǎng)頁正文的提取算法,國內(nèi)外也已有許多方法,簡單歸類如下:
1)基于網(wǎng)頁標(biāo)簽[6-8]。這類方法依賴HTML語言中的閉合標(biāo)簽對(如:
、
)進(jìn)行提取。但HTML語言本身對使用者來說不具有標(biāo)準(zhǔn)的格式,再加上層疊樣式表(Cascading Style Sheets, CSS)盛行之后,為了顯示的美觀而添加的各類元素使得頁面內(nèi)容變得更為復(fù)雜,因此,該方法并不具備魯棒性。
2)基于模板[5,9-10]。這類方法通過給定的模板將需要的網(wǎng)頁信息輸出,優(yōu)點在于準(zhǔn)確率較其他方法高;缺點是如果為每個待提取的網(wǎng)頁都設(shè)計模板,計算和時間開銷大,缺乏通用性。
3)基于文檔對象模型(Document Object Model, DOM)樹結(jié)構(gòu)[11-13]。HTML網(wǎng)頁可以解析成DOM樹的結(jié)構(gòu),然后根據(jù)DOM樹的結(jié)構(gòu)特性提取正文。文獻(xiàn)[11]中就提出了一種方法:首先確定部分正文內(nèi)容,然后依據(jù)路徑相似度尋找其他正文,最終合并為網(wǎng)頁正文。文獻(xiàn)[12]則在文獻(xiàn)[11]的基礎(chǔ)上進(jìn)行了改進(jìn)。
4)基于布局相似性[14-16]。網(wǎng)頁所屬網(wǎng)站的網(wǎng)頁具有布局相似的特點,在同一個網(wǎng)站多個網(wǎng)頁中頻繁出現(xiàn)的內(nèi)容具有極大概率為噪聲。該方法不具備實時性,在對于某一網(wǎng)頁進(jìn)行提取時,必須先獲取與其布局類似的其他網(wǎng)頁。
5)基于視覺熱區(qū)[17]。這種方法主要依據(jù)人們在瀏覽網(wǎng)頁時視覺頻繁停留的區(qū)域去判斷正文的位置進(jìn)行提取。該方法的理論支撐不足,同時也缺乏大量的視覺數(shù)據(jù)支持
此外,還有學(xué)者使用了不同方法的結(jié)合[18]以及融合了機(jī)器學(xué)習(xí)的方法[19]。
綜上所述,以上提及的方法或過時(例如基于網(wǎng)頁標(biāo)簽的方法中依賴