梁思遠 成都市鐵路中學
現(xiàn)在網(wǎng)上購物已成為人們生活的一部分,各類購物網(wǎng)站中蘊含著巨大商品信息和商品價格。但是,因為在購物網(wǎng)站中存在大量的商家,同一個商品的報價存在著差異,對于購買客戶來說價格比較是一個比較枯燥煩瑣的問題,因此,許多技術成熟的科研團隊自行開發(fā)爬蟲系統(tǒng)來獲取商品信息和價格供購買客戶進行價格比較,我們在這兒只是探討一下爬蟲技術的簡單實現(xiàn)。
Python 作為一個語法簡潔的程序設計語言,對于爬蟲開 發(fā)上有得天獨厚的優(yōu)勢,在模擬瀏覽器行為登入網(wǎng)站時,Python 相比于 Java,C#,C++等擁有更簡潔抓取接口,當模擬 session/cookie 的存儲和設置時,Python 提供諸多優(yōu)秀的第 三方包譬如 Requests。在進行網(wǎng)頁抓取后的處理工作時,Python 提供的 BeautifulSoup 庫能用極簡短的代碼完成過濾html 標簽,提取文本的工作。
[1]林曉麗,胡可可,胡青.基于 Python 的微博用戶關系挖掘 研究[J].情報雜志,2014,33(6):144-148.
[2]陳政伊 袁云靜 賀月錦 武瑞軒基于 Python 的微博爬蟲系統(tǒng)研究 [J].大眾科技,2017年8月第19卷216期:8-11.
[3]周中華,張惠然,謝 江 . 基于 Python 的新浪微博數(shù)據(jù)爬蟲 [J].計算機應用,2014,34( 11) : 3131 - 3134
[4]Shih-Yu Huang,Yeuan-Kuen Lee,Graeme Bell,Zhan-he Ou,et al. An efficient segmentation algorithm for CAPTCHAs with line cluttering and character warping[J].Multimedia Tools and Applications,2009,48(2):267-289.