徐東升 張昊辰
一、刖吾
我國(guó)政府非常重視農(nóng)業(yè)的信息化建設(shè),農(nóng)業(yè)信息化已有30多年的歷史,特別是近幾年,基于物聯(lián)網(wǎng)技術(shù)、傳感器、移動(dòng)通信、云計(jì)算等技術(shù)為基礎(chǔ)的智慧農(nóng)業(yè)…的發(fā)展,農(nóng)業(yè)的信息化建設(shè)已經(jīng)融入到農(nóng)業(yè)產(chǎn)業(yè)的各個(gè)領(lǐng)域。
隨著農(nóng)業(yè)信息量的加大,如何利用數(shù)據(jù)爬取的方法,幫助農(nóng)業(yè)信息需求者從已存在的海量數(shù)據(jù)中快速定位自身需求的信息,從而使需求與信息匹配,最大程度的發(fā)揮農(nóng)業(yè)信息對(duì)農(nóng)業(yè)經(jīng)濟(jì)的支撐和引導(dǎo)作用是一個(gè)研究點(diǎn)。
二、技術(shù)研究
從海量的數(shù)據(jù)中爬取需要的數(shù)據(jù)并入庫(kù)是本研究的重點(diǎn),以從農(nóng)業(yè)信息網(wǎng)( WWW.nongnet.com)獲取“蘋(píng)果”信息為例進(jìn)行接下來(lái)的研究。從農(nóng)業(yè)信息需要者的視角登錄并訪問(wèn)該網(wǎng)站,打開(kāi)任意1條“蘋(píng)果”的農(nóng)業(yè)信息,需要從首頁(yè)開(kāi)始依次點(diǎn)擊“水果”一>“蘋(píng)果”,并點(diǎn)擊大圖列表才能進(jìn)入具體的頁(yè)面。這個(gè)過(guò)程是非常繁瑣和低效的。對(duì)有信息需求者而言,最關(guān)注的的就是三個(gè)信息,即聯(lián)系人,聯(lián)系方式和地址,可以看到對(duì)應(yīng)網(wǎng)站上的條目分別是“聯(lián)系人”、“手機(jī)號(hào)碼”、“所在地區(qū)”。加上要查找信息的條件,即“產(chǎn)品品種”,相當(dāng)于對(duì)于任何來(lái)自于該網(wǎng)站的信息,最關(guān)鍵的只需要首先獲取者以上4條信息即可。
接下來(lái)利用python編寫(xiě)一段程序,將該網(wǎng)站下的基于以上4個(gè)關(guān)鍵字段進(jìn)行網(wǎng)頁(yè)爬取。部分代碼如下:
resp=requests.get(url,timeout=30)
resp.encoding= 'utf-8'
print(resp.status_code)
products= re.findall(r'pic_divxinxi_ title.+?