亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python的關(guān)于Flickr圖片網(wǎng)站的爬蟲

        2019-02-18 00:48:36王金峰李世良王明羅星宇張雪玉
        中小企業(yè)管理與科技 2019年2期
        關(guān)鍵詞:爬蟲調(diào)用列表

        王金峰 ,李世良 ,王明 ,羅星宇 ,張雪玉

        (1.防災(zāi)科技學(xué)院 信息工程學(xué)院,河北 三河 065201,2.河北女子職業(yè)技術(shù)學(xué)院,石家莊 050091)

        1 引言

        隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)具有數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多 (Variety)、價值密度低 (Value)、處理速度快(Velocity)的特點[1]。面對人們越來越多樣的需求[2],可以根據(jù)自己的實際需求,繼續(xù)修改程序來達(dá)到自己的要求[3]。程序按照一個檢索詞列表進(jìn)行批量爬取,并把圖片信息存入數(shù)據(jù)庫中。本文提供了一個通過Python調(diào)用Flickr API實現(xiàn)通過關(guān)鍵字檢索獲取圖片信息并批量下載的程序。

        2 相關(guān)技術(shù)

        2.1 Python

        Python是一種計算機程序設(shè)計語言,是一種動態(tài)的、面向?qū)ο蟮哪_本語言。Python語言的一大優(yōu)勢就是其語法簡潔清晰,并具有豐富和強大的類庫[5],這為程序的編寫提供了極大的便利使得數(shù)據(jù)抓取工作變得生動有趣[6],從而簡化了程序。

        2.2 Flickr API

        Flickr是雅虎旗下的圖片分享網(wǎng)站,上面有全世界網(wǎng)友分享的大量精彩圖片,被認(rèn)為是專業(yè)的圖片網(wǎng)站。

        3 爬蟲系統(tǒng)工作

        系統(tǒng)分為兩部分:第一部分即調(diào)用Flickr API獲取圖片等數(shù)據(jù),第二部分即根據(jù)數(shù)據(jù)庫中的圖片Url下載圖。獲取圖片信息的流程圖如圖1所示,下載的流程圖如圖2所示。

        3.1 調(diào)用API獲取信息

        Flickr網(wǎng)站上的每張圖片都有一個唯一標(biāo)識的ID,如果想要知道圖片的信息首先就是要獲取圖片在Flickr上的ID,再通過調(diào)用Flickr的多種方法來獲取圖片的不同信息。Flickr API庫有很多方法可以調(diào)用,可以獲取不同的圖片數(shù)據(jù)[4]。但是使用前提都是需要有Flickr API的密鑰,參考代碼如下:

        程序主要通過關(guān)鍵詞來進(jìn)行檢索相應(yīng)的圖片,tags和text就是對應(yīng)輸入相應(yīng)的關(guān)鍵詞參數(shù),extras為要求返回不同大小圖片的Url。參考代碼如下:

        通過photos.search方法就可以獲得檢索圖片的Json列表,再對圖片列表逐個分析通過調(diào)用photo.get()獲得關(guān)鍵的數(shù)據(jù)即圖片url和圖片在Flickr網(wǎng)站上的id,

        圖1

        圖2

        返回的Json列表:

        如果想要獲取圖片的其他數(shù)據(jù)可以根據(jù)獲取到的圖片id通過調(diào)用其他的方法并解析返回的Json數(shù)據(jù)來進(jìn)行獲取。方法調(diào)用參考代碼如下:

        3.2 圖片的下載

        圖片的下載是根據(jù)之前獲取的圖片的url借助request庫來進(jìn)行下載的。圖片保存的格式是按照檢索的字段為文件夾,文件夾里包含下載的圖片。參考代碼如下:

        在圖片的下載時將采用多線程下載借助threadpool庫實現(xiàn),參考代碼如下:

        4 結(jié)語

        本文的爬蟲通過調(diào)用Flickr API和Python豐富的第三庫實現(xiàn)了對Flickr網(wǎng)站上的圖片和圖片信息進(jìn)行批量爬取的程序,為一些追求高質(zhì)量的,準(zhǔn)確的,想要獲取圖片相關(guān)信息數(shù)據(jù)的研究者提供了一種方案。通過充分利用Python語言的特點結(jié)合Flickr API,能夠方便快捷地獲取大量的圖片和圖片相關(guān)信息,并將獲取到的圖片自動存儲到本地,為后續(xù)的機器學(xué)習(xí)、人工智能奠定了數(shù)據(jù)基礎(chǔ)。

        猜你喜歡
        爬蟲調(diào)用列表
        巧用列表來推理
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        學(xué)習(xí)運用列表法
        擴列吧
        核電項目物項調(diào)用管理的應(yīng)用研究
        LabWindows/CVI下基于ActiveX技術(shù)的Excel調(diào)用
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        基于系統(tǒng)調(diào)用的惡意軟件檢測技術(shù)研究
        水蜜桃视频在线观看免费18| 成人性做爰aaa片免费看| 风流少妇又紧又爽又丰满| 国产成年无码AⅤ片日日爱| 久亚洲一线产区二线产区三线麻豆| 精品久久久久久综合日本| 日本免费一区二区三区| 无码不卡免费一级毛片视频 | 在线不卡中文字幕福利| 亚洲一区亚洲二区视频在线| 成人精品视频一区二区| 内射口爆少妇麻豆| 国产乱子伦视频大全| A亚洲VA欧美VA国产综合| 少妇被粗大猛进进出出男女片| 亚洲乱码中文字幕久久孕妇黑人| 97精品依人久久久大香线蕉97| 国产成人综合久久精品推荐免费| 中文字幕日韩精品永久在线| 亚洲综合av永久无码精品一区二区| 久久亚洲精品ab无码播放| 日韩Va亚洲va欧美Ⅴa久久| 日本第一影院一区二区| 少妇被粗大的猛烈进出免费视频| 国产乱人视频在线看| 久久亚洲av午夜福利精品西区| 免费a级毛片在线播放| 欧妇女乱妇女乱视频| 国产成人亚洲欧美三区综合| 中文日本强暴人妻另类视频| 亚洲精品乱码久久久久久中文字幕 | 日韩女优图播一区二区| 亚洲精品久久久www小说| 日韩中文字幕中文有码| 男女啦啦啦视频在线观看| 国产成人无码一区二区三区| 欧美日韩精品一区二区在线观看| 校花高潮一区日韩| 亚洲日本一区二区三区四区| 久久久国产精品免费a片3d| 精品国产福利久久久|