亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Python爬取天氣預(yù)報(bào)

        2020-01-05 07:05:21
        電腦報(bào) 2020年44期
        關(guān)鍵詞:頁(yè)面內(nèi)容信息

        之前我們已經(jīng)介紹過(guò)用Python可以輔助快速分析處理工作中遇到的數(shù)據(jù)表。隨著時(shí)代的進(jìn)步,網(wǎng)絡(luò)成為大量數(shù)據(jù)的載體,我們有時(shí)需要從網(wǎng)上獲取大量的信息資源進(jìn)行分析,但是如何能夠高效地獲取需要的信息成了一個(gè)挑戰(zhàn)。傳統(tǒng)的搜索引擎可以幫助我們解決部分問(wèn)題,但還有不少局限性。為此,程序員使用了“聚焦網(wǎng)絡(luò)爬蟲(chóng)”,簡(jiǎn)單來(lái)說(shuō)網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)獲取初始網(wǎng)頁(yè)上所有鏈接的程序,而聚焦爬蟲(chóng)更加智能,它能夠根據(jù)設(shè)計(jì)者的要求有選擇地訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,經(jīng)算法過(guò)濾后只獲取需要的信息,這種爬蟲(chóng)并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),因此效率更高。

        一、 爬蟲(chóng)基本流程

        爬蟲(chóng)的基本工作流程分為四個(gè)步驟:發(fā)送請(qǐng)求,獲取響應(yīng)內(nèi)容,解析內(nèi)容,保存數(shù)據(jù)。發(fā)送請(qǐng)求:通過(guò)HTTP庫(kù)向目標(biāo)網(wǎng)站發(fā)送一個(gè)請(qǐng)求,等待響應(yīng);獲取響應(yīng)內(nèi)容:服務(wù)器正常響應(yīng)后能得到一個(gè)響應(yīng)(Response),內(nèi)容為獲取頁(yè)面的內(nèi)容,可能是HTML、JSON字符或者二進(jìn)制數(shù)據(jù)等類型;解析內(nèi)容:得到的內(nèi)容如果是HTML,可以通過(guò)正則表達(dá)式或網(wǎng)頁(yè)解析庫(kù)進(jìn)行解析,如果是JSON字符可以直接轉(zhuǎn)換為JSON對(duì)象解析,如果是二進(jìn)制數(shù)據(jù)可以保存后作進(jìn)一步處理;保存數(shù)據(jù):把解析后的數(shù)據(jù)保存下來(lái),可以是文本,也可以保存到數(shù)據(jù)庫(kù)當(dāng)中。

        二、 切勿非法使用爬蟲(chóng)

        特別提醒你注意!因非法使用爬蟲(chóng)獲刑的案件屢見(jiàn)不鮮,一定要合法合規(guī)使用爬蟲(chóng)工具,切記遵守以下原則:遵守 Robots 協(xié)議,限制爬蟲(chóng)頻率,不強(qiáng)行突破反爬限制,只獲取公開(kāi)數(shù)據(jù),禁止利用爬取數(shù)據(jù)牟利!如果你還抱有僥幸心理請(qǐng)一定先去看看中國(guó)裁判文書網(wǎng)上大量因非法利用爬蟲(chóng)而獲刑的實(shí)際判例。

        三、 前置知識(shí)和庫(kù)的準(zhǔn)備

        學(xué)習(xí)爬蟲(chóng)之前我們需要梳理一下編寫爬蟲(chóng)需要用到的庫(kù)和準(zhǔn)備知識(shí)。

        1.Requests模塊:Requests是Python一種第三方模塊,主要用于發(fā)送請(qǐng)求,支持HTTP連接池的連接保持,支持使用Cookie保持會(huì)話,支持文件上傳,支持自動(dòng)響應(yīng)內(nèi)容的編碼,支持國(guó)際化數(shù)據(jù)自動(dòng)編碼。在Python內(nèi)置模塊的基礎(chǔ)上進(jìn)行了高度的封裝,使得Python進(jìn)行網(wǎng)絡(luò)請(qǐng)求時(shí),變得人性化,使用Requests可以輕而易舉地完成瀏覽器需要的任何操作。

        2. BeautifulSoup也是一個(gè)受歡迎的Python第三方庫(kù),它是一款優(yōu)秀的網(wǎng)頁(yè)解析庫(kù),提供了很多接口幫助我們來(lái)處理導(dǎo)航、搜索、修改分析樹(shù),它的查找提取功能非常好用,能夠節(jié)省程序員大量的時(shí)間。

        3. 除此之外你還要掌握一定的HTML+CSS網(wǎng)頁(yè)知識(shí)內(nèi)容,這是理解Python爬蟲(chóng)的基礎(chǔ),想要自己編寫爬蟲(chóng)程序就需要提前學(xué)習(xí)這方面的知識(shí)。

        四、 信息源網(wǎng)頁(yè)分析

        今天我們就以爬取浙江地區(qū)天氣情況為例,獲取日期(周/日)、浙江天氣(多云/晴/雨)、風(fēng)力(風(fēng)向/級(jí)數(shù))……

        使用中國(guó)天氣網(wǎng)作為數(shù)據(jù)源,進(jìn)入當(dāng)?shù)靥鞖忭?yè)面,對(duì)浙江地區(qū)的天氣進(jìn)行查詢,選擇七天天氣變化,表格中會(huì)出現(xiàn)七天天氣變化包括日期、溫度、風(fēng)向……接著我們?cè)谟益I頁(yè)面檢查網(wǎng)頁(yè)源代碼(根據(jù)瀏覽器不同快捷鍵可能是F12或Ctrl+Shift+F)進(jìn)入如圖1的頁(yè)面。

        有HTML基礎(chǔ)的可以直接在網(wǎng)頁(yè)源代碼中找需要的信息標(biāo)簽,也可以點(diǎn)擊左上方的鼠標(biāo)按鈕,開(kāi)啟快速查找,點(diǎn)擊圖1網(wǎng)頁(yè)中7天天氣信息定位到該信息的網(wǎng)頁(yè)源代碼,右邊代碼框中用紅框圈出的部分就是目標(biāo)數(shù)據(jù)。

        下面開(kāi)始對(duì)網(wǎng)頁(yè)目標(biāo)區(qū)域代碼進(jìn)行解析,我們通過(guò)Python的BeautifulSoup的方法來(lái)鎖定信息,先找到對(duì)應(yīng)id和class的div,然后再找到ul中class為“t clearfix”的部分,其中所有的li標(biāo)簽中的內(nèi)容就是我們的目標(biāo)。div相當(dāng)于一個(gè)整體的框鍵,而li相當(dāng)于框架中的七個(gè)小框鍵用來(lái)存放每一天的天氣數(shù)據(jù)。

        接下來(lái)分析li中的內(nèi)容,再次通過(guò)BeatifulSoup來(lái)進(jìn)行數(shù)據(jù)的解析,我們把weathers中的日期、天氣、溫度、風(fēng)力的信息通過(guò)class名字獲取。采用遍歷的方式每次獲取一個(gè)標(biāo)簽,最后輸出相應(yīng)的內(nèi)容,然后存放在文檔中。

        代碼如下:

        首先導(dǎo)入需要的庫(kù)requests和BeautifulSoup。接下來(lái)設(shè)置保存路徑save,這里存放在了我的電腦桌面的bd.txt中,編碼格式為utf-8。

        接下來(lái)res就是我們通過(guò)網(wǎng)址用requests模塊去獲取的存有天氣數(shù)據(jù)的網(wǎng)頁(yè)101210404.shtml。

        通過(guò)BeautifulSoup來(lái)搜索確定定位需要爬取的標(biāo)簽內(nèi)容(id,ul,li),具體數(shù)值以網(wǎng)頁(yè)分析為準(zhǔn)。查找成功之后便可以鎖定weather區(qū)域,通過(guò)循環(huán)將天氣中的日期、天氣、溫度、風(fēng)力信息通過(guò)class名字獲取,獲取到的值通過(guò)result全部累加疊合在一起,并且有序地輸出到文本中并保存,作為數(shù)據(jù)源用于后續(xù)的分析處理。

        猜你喜歡
        頁(yè)面內(nèi)容信息
        大狗熊在睡覺(jué)
        刷新生活的頁(yè)面
        內(nèi)容回顧溫故知新
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        展會(huì)信息
        同一Word文檔 縱橫頁(yè)面并存
        淺析ASP.NET頁(yè)面導(dǎo)航技術(shù)
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        健康信息(九則)
        祝您健康(1987年2期)1987-12-30 09:52:28
        国产自产在线视频一区| 十八岁以下禁止观看黄下载链接| 欧美视频第一页| 日韩人妻av不卡一区二区三区| 日本一区二区视频在线| 强奷乱码中文字幕| 国产精品厕所| 久久久2019精品视频中文字幕 | 亚洲最大中文字幕在线| 帮老师解开蕾丝奶罩吸乳网站| 亚洲精品成人网久久久久久| 日日骚一区二区三区中文字幕| 亚洲高清国产成人精品久久| 亚洲日韩av无码一区二区三区人| 最新亚洲av日韩av二区| 国产99精品精品久久免费| 91成人黄色蘑菇视频| 永久黄网站免费视频性色| 精品人无码一区二区三区| 毛片色片av色在线观看| 亚洲一区毛片在线观看| 精品无码中文字幕在线| 91精品国产免费青青碰在线观看| 熟女高潮av一区二区| 国产精品白丝久久av网站| 精品久久久久久中文字幕大豆网| 日韩中文字幕久久久经典网 | 一区二区三区中文字幕p站| 欧美亚洲国产片在线播放| 久久这里都是精品一区| 亚洲黄色精品在线播放| 欧美人与禽z0zo牲伦交| 国产国拍亚洲精品mv在线观看 | 人妻少妇乱子伦无码视频专区| 国产成人精品三级麻豆| 国产美女久久久亚洲综合| 中文字幕成人乱码熟女精品国50| 最近中文字幕视频完整版在线看| 中文字幕一区二区三区人妻精品 | 不卡视频在线观看网站| 亚洲成av人影院|