徐東升 張昊辰
一、前言
我國政府非常重視農(nóng)業(yè)的信息化建設(shè),農(nóng)業(yè)信息化已有30多年的歷史,特別是近幾年,基于物聯(lián)網(wǎng)技術(shù)、傳感器、移動通信、云計(jì)算等技術(shù)為基礎(chǔ)的智慧農(nóng)業(yè)的發(fā)展,農(nóng)業(yè)的信息化建設(shè)已經(jīng)融入到農(nóng)業(yè)產(chǎn)業(yè)的各個領(lǐng)域。
隨著農(nóng)業(yè)信息量的加大,如何利用數(shù)據(jù)爬取的方法,幫助農(nóng)業(yè)信息需求者從已存在的海量數(shù)據(jù)中快速定位自身需求的信息,從而使需求與信息匹配,最大程度的發(fā)揮農(nóng)業(yè)信息對農(nóng)業(yè)經(jīng)濟(jì)的支撐和引導(dǎo)作用是一個研究點(diǎn)。
二、技術(shù)研究
從海量的數(shù)據(jù)中爬取需要的數(shù)據(jù)并入庫是本研究的重點(diǎn),以從農(nóng)業(yè)信息網(wǎng)(www.nongnet.com)獲取“蘋果”信息為例進(jìn)行接下來的研究。從農(nóng)業(yè)信息需要者的視角登錄并訪問該網(wǎng)站,打開任意1條“蘋果”的農(nóng)業(yè)信息,需要從首頁開始依次點(diǎn)擊“水果”->“蘋果”,并點(diǎn)擊大圖列表才能進(jìn)入具體的頁面。這個過程是非常繁瑣和低效的。對有信息需求者而言,最關(guān)注的的就是三個信息,即聯(lián)系人,聯(lián)系方式和地址,可以看到對應(yīng)網(wǎng)站上的條目分別是“聯(lián)系人”、“手機(jī)號碼”、“所在地區(qū)”。加上要查找信息的條件,即“產(chǎn)品品種”,相當(dāng)于對于任何來自于該網(wǎng)站的信息,最關(guān)鍵的只需要首先獲取者以上4條信息即可。
接下來利用python編寫一段程序,將該網(wǎng)站下的基于以上4個關(guān)鍵字段進(jìn)行網(wǎng)頁爬取。部分代碼如下:
resp=requests.get(url,timeout=30)
respencoding='utf-8'
print(resp.status_code)
products=refindall(r'pic_divxinxi_title.+?