摘要:傳統(tǒng)web爬蟲無法解決爬行Ajax應(yīng)用所面臨的Javascript執(zhí)行、狀態(tài)識別與切換、重復(fù)狀態(tài)檢測等問題。為此,首先定義Ajax應(yīng)用的狀態(tài)轉(zhuǎn)換圖,并設(shè)計(jì)了一種基于狀態(tài)轉(zhuǎn)換圖的Ajax爬行算法,通過該算法可以獲取Ajax用狀態(tài)信息和后臺De印Web資源。為了提高Ajax爬行的準(zhǔn)確性、減少待爬行的狀態(tài)數(shù)目,使用Ajax指紋識別、DOM結(jié)構(gòu)過濾等方法改進(jìn)上述算法。實(shí)驗(yàn)結(jié)果表明了算法的有效性和性能。
關(guān)鍵詞:Ajax爬蟲;狀態(tài)轉(zhuǎn)換圖;Weh爬蟲;DeepWeb
中圖分類號:TP393
文獻(xiàn)標(biāo)志碼:A
文章編號:1001—3695(2009)11—4266—04