摘要:提出一種改進的樹匹配算法,通過考量HTML特性,對樹編輯距離方法進行改進,根據(jù)不同HTML樹結(jié)點在瀏覽器中所顯示的相關(guān)數(shù)據(jù)的不同權(quán)重賦以不同的權(quán)重值。算法由HTML數(shù)據(jù)對象構(gòu)造具有結(jié)點權(quán)重的HTML樹,模式識別通過取得兩棵構(gòu)造樹的最大映射值達成。通過基于商用網(wǎng)站的實驗對算法有效性進行了證實。
關(guān)鍵詞:信息抽??;DOM;樹編輯距離;模式識別
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文