亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XPath的天氣數(shù)據(jù)的爬取研究

        2021-11-17 08:16:10史雅婷梁洪炎吉卓嘎強(qiáng)巴卓瑪
        江蘇通信 2021年5期
        關(guān)鍵詞:利用信息

        王 康 史雅婷 梁洪炎 吉卓嘎 強(qiáng)巴卓瑪

        西藏民族大學(xué)信息工程學(xué)院

        0 引言

        在大數(shù)據(jù)時(shí)代,誰(shuí)擁有了數(shù)據(jù),誰(shuí)就有更多的籌碼。氣象服務(wù)是這個(gè)時(shí)代必不可少的部分,人們每天的出行計(jì)劃需要依靠今天的天氣狀況來(lái)定。氣象部門(mén)每天通過(guò)手機(jī)、電視、報(bào)紙、廣播、短信來(lái)告知人們今天的天氣狀況,以防范自然災(zāi)害等突發(fā)狀況。截至2018年,全國(guó)共有661個(gè)市,每小時(shí)統(tǒng)計(jì)一次,在一天內(nèi)就收集到了661×24=15 864條數(shù)據(jù)。

        網(wǎng)絡(luò)爬蟲(chóng)本質(zhì)上是利用程序在網(wǎng)上搜集有用的數(shù)據(jù),是一種按照一定的規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)信息的腳本。開(kāi)發(fā)者可以隨意地?cái)U(kuò)展各個(gè)組件,來(lái)實(shí)現(xiàn)抓取邏輯。網(wǎng)絡(luò)爬蟲(chóng)能幫助人們快捷、方便地獲取天氣網(wǎng)特定城市近7天內(nèi)的天氣預(yù)報(bào)數(shù)據(jù)。

        網(wǎng)絡(luò)爬蟲(chóng)有很多類(lèi)型,不同類(lèi)型的爬蟲(chóng)適用于不同的場(chǎng)景,本文提到的爬蟲(chóng)為批量性爬蟲(chóng),這種爬蟲(chóng)一般適用于用戶(hù)明確自己想要的信息或者知道所需信息的網(wǎng)絡(luò)結(jié)構(gòu)位置。但在一些大數(shù)據(jù)或者超大數(shù)據(jù)的分析與處理中,一般要用增量型爬蟲(chóng),其是一種沒(méi)有明確限制的爬蟲(chóng),信息量大且比較雜亂,需要用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對(duì)爬去的信息進(jìn)行分析和處理,而且增量型爬蟲(chóng)容易被網(wǎng)站反爬蟲(chóng)程序檢測(cè)。除此之外,還有深度網(wǎng)絡(luò)爬蟲(chóng)等。

        1 XPath及其應(yīng)用

        XPath是在XML文檔中查找信息的一種語(yǔ)言,用于在XML文檔中通過(guò)元素和屬性進(jìn)行導(dǎo)航。XPath使用路徑表達(dá)式來(lái)選取XML文檔中的節(jié)點(diǎn)或節(jié)點(diǎn)集。XPath依賴(lài)于Python中的lxml第三方類(lèi)包。XPath使用路徑表達(dá)式選取XML文檔中的節(jié)點(diǎn)或節(jié)點(diǎn)集。正則表達(dá)式是一個(gè)特殊的字符序列,用來(lái)檢查一個(gè)字符串是否與某種模式匹配,通過(guò)特殊的語(yǔ)法來(lái)表示。正則表達(dá)式依賴(lài)于Python中的re模塊。部分正則表達(dá)式常用符號(hào)如表1所示,正則表達(dá)式的書(shū)寫(xiě)規(guī)則較多,這里不再一一贅述。XPath解析的原理如圖1所示。

        表1 具體正則表達(dá)式常見(jiàn)符號(hào)(部分)

        圖1 XPath解析的原理

        1.1 lxml,xwlt,matplotlib

        lxml用于解析XML和HTML文件??梢钥焖俣ㄎ?,搜索、獲取特定內(nèi)容。其支持XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且實(shí)現(xiàn)了常見(jiàn)的ElementTree API。lxml模塊中常用的有l(wèi)xml.html,lxml.etree,lxml.cssselect,lxml.BeautifulSoup。在天氣數(shù)據(jù)爬取中,本設(shè)計(jì)主要用到的是lxml.etree模塊。Xwlt是Python用來(lái)在Excel寫(xiě)入數(shù)據(jù)和格式化數(shù)據(jù)的工具包,是用來(lái)生成兼容Excel997/2000/XP/2003,OpenOffice.org CalcGnumeric的表格庫(kù)。本文利用 xlwt模塊將爬取的天氣數(shù)據(jù)寫(xiě)入Excel文件。Matplotlib是Python中類(lèi)似MATLAB的繪圖工具,文章引入Matplotlib模塊將爬取的天氣數(shù)據(jù)以圖片形式保存,并且引入了 xlwt模塊以excel形式保存數(shù)據(jù)。

        1.2 數(shù)據(jù)爬取

        首先,得到詳情頁(yè)的url,隨機(jī)獲取一個(gè)瀏覽器的表頭,將獲取的瀏覽器信息賦給agant_chose,其核心代碼是agant_chose = random.choice(agant)

        其次,確定要爬取天氣數(shù)據(jù)的城市,作者以是衡陽(yáng)、咸陽(yáng)、西安、成都、廣州5個(gè)城市為例,進(jìn)行7天天氣數(shù)據(jù)的爬取。爬取天氣數(shù)據(jù)的核心代碼是:html=etree.HTML(data.text)

        first_weather=html.xpath(‘/html/body/div[5]/div[1]/div[1]/div[2]/ul/li[1]/p[1]/text()’)。上述代碼只是對(duì)某個(gè)節(jié)點(diǎn)的數(shù)據(jù)的爬取,而讀者可以根據(jù)自己想要的數(shù)據(jù)所處的位置編寫(xiě)代碼來(lái)爬取自己想要的節(jié)點(diǎn)或節(jié)點(diǎn)集數(shù)據(jù)。根據(jù)代碼所寫(xiě)的html路徑所選取的節(jié)點(diǎn)依次將爬取的近7天的天氣數(shù)據(jù)進(jìn)行保存。數(shù)據(jù)爬取過(guò)程如圖2所示。

        圖2 爬取數(shù)據(jù)的過(guò)程

        2 數(shù)據(jù)可視化處理

        利用python語(yǔ)言中帶的xwlt模塊和matplotib模塊將保存的數(shù)據(jù)進(jìn)行可視化處理,讓數(shù)據(jù)可以用折線圖和Excel表格形式保存,讓數(shù)據(jù)變得更加生動(dòng)形象并且能夠更好地利用。將爬取的天氣數(shù)據(jù)寫(xiě)入excel文件,核心代碼是excelpath=(‘{}.xls’.format(city_name[number])

        Workbook=xlwt.Workbook(encoding=’utf-8’)。將數(shù)據(jù)用圖片的形式保存的核心代碼是pyplot.plot(x,highest_temperature)

        pyplot.plot(x, lowest_temperature),以西安為例的excel表格的部分?jǐn)?shù)據(jù)如圖3所示。

        圖3 以excel形式保存的部分天氣數(shù)據(jù)(西安)

        3 結(jié)束語(yǔ)

        本文介紹了利用XPath爬取網(wǎng)頁(yè)數(shù)據(jù)的相關(guān)原理,并爬取了一些天氣數(shù)據(jù)。利用XPath爬取網(wǎng)頁(yè)數(shù)據(jù)簡(jiǎn)單而且靈活,相對(duì)于使用正則表達(dá)式稍簡(jiǎn)單,可以在知道數(shù)據(jù)爬取的HTML位置或者是爬取的數(shù)據(jù)的網(wǎng)頁(yè)位置相對(duì)固定的情況下使用,適合剛接觸Python爬蟲(chóng)的人。在爬蟲(chóng)開(kāi)發(fā)中,為追求高效可以?xún)?yōu)先選擇正則表達(dá)式。

        猜你喜歡
        利用信息
        利用min{a,b}的積分表示解決一類(lèi)絕對(duì)值不等式
        利用倒推破難點(diǎn)
        利用一半進(jìn)行移多補(bǔ)少
        利用數(shù)的分解來(lái)思考
        Roommate is necessary when far away from home
        利用
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會(huì)信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲AV色欲色欲WWW| 黄片视频免费观看蜜桃| 男人添女人囗交做爰视频| 久久久久女人精品毛片| 国产99久久无码精品| 日本口爆吞精在线视频| 亚洲天堂中文字幕君一二三四| 国产熟妇一区二区三区网站| 中文字幕亚洲一区二区不下| 中文字幕乱偷无码av先锋蜜桃 | 一本大道熟女人妻中文字幕在线| 中文字幕精品一二三四五六七八 | 亚洲欧美日韩一区二区在线观看| 国产亚洲日韩AV在线播放不卡| 精品少妇一区二区三区入口| 国产精品极品美女自在线观看免费| 亚洲国产成人精品无码区二本| 四虎精品视频| 台湾佬中文偷拍亚洲综合| 日本一区二区三区亚洲| 精品无码国产一区二区三区av| 最新国产乱视频伦在线| 国产精品久久中文字幕亚洲| 日本一区二区三区视频网站| 国产真实偷乱视频| 亚洲图区欧美| 久久精品国产亚洲av桥本有菜| 亚洲av一区二区三区色多多| 亚洲综合色区另类av| 美国黄色片一区二区三区 | 亚洲av网站在线免费观看| 国产69精品久久久久9999apgf | 超碰国产精品久久国产精品99| 久久精品人人做人人综合| 国产女人91精品嗷嗷嗷嗷| 国产av一级二级三级| 九九久久自然熟的香蕉图片| 日韩AV不卡一区二区三区无码| 国产熟女精品一区二区三区| 美女丝袜诱惑在线播放蜜桃| 国产电影一区二区三区|