范春曉 和曉軍 李淑云
[摘 要]針對現(xiàn)有現(xiàn)有HTML網(wǎng)頁的特點,提出了一種基于標簽的Web 網(wǎng)頁的清洗技術(shù),該方法基于HTML各種標簽的特點,對修飾性等與內(nèi)容無關(guān)的標簽進行清洗,首先界定清洗的規(guī)則,對可清洗的標簽進行定義;然后根據(jù)清洗規(guī)則對HTML網(wǎng)頁進行處理。本論文所提方法沒有改變文檔的半結(jié)構(gòu)特點,使后續(xù)信息的抽取較之未改進有明顯的優(yōu)勢。