摘 要:主題型網(wǎng)頁標題是網(wǎng)頁正文內(nèi)容的高度概括,利于標題與正文相似性之間的關(guān)系,提出了基于標題與文本相似度的網(wǎng)頁正文提取算法。該算法首先把網(wǎng)頁解析成DOM樹,再生成STU-DOM,接著對STU-DOM進行粗剪枝。對剪枝后的語義樹通過Shingle算法對網(wǎng)頁標題與節(jié)點文本進行切分,生成標題和節(jié)點文本詞匯單元集合,利用改進后的Dice系數(shù)計算標題與文本的相似性實現(xiàn)網(wǎng)頁正文提取。實驗結(jié)果表明,該抽取方法準確率達到90%以上,具有可觀的實用價值。
關(guān)鍵詞:網(wǎng)頁去噪;DOM;STU;Shingle;Dice