亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多線程和翻譯的網(wǎng)絡(luò)爬蟲鳥類音頻數(shù)據(jù)采集系統(tǒng)設(shè)計與實現(xiàn)

        2018-11-20 11:54:14劉江劉國璽張雁呂丹桔
        現(xiàn)代計算機 2018年30期
        關(guān)鍵詞:爬蟲鳥類網(wǎng)頁

        劉江,劉國璽,張雁,呂丹桔

        (西南林業(yè)大學(xué)大數(shù)據(jù)與智能工程學(xué)院,昆明 650224)

        0 引言

        隨著信息技術(shù),網(wǎng)絡(luò)技術(shù)的發(fā)展,Internet成為匯聚信息的中心載體。如何高效便捷地收集和提取In?ternet上的信息,是一項巨大的挑戰(zhàn)。網(wǎng)絡(luò)爬蟲是按照一定規(guī)則,能夠自動地對萬維網(wǎng)網(wǎng)頁信息進行下載的計算機程序或腳本。聚焦網(wǎng)絡(luò)爬蟲是在網(wǎng)絡(luò)爬蟲的基礎(chǔ)上設(shè)計的,可以按照用戶需求選擇性地對網(wǎng)頁信息進行提取,極大地節(jié)省了資源[1-3]。因為建立鳥類聲音樣本庫和鳥鳴分類識別系統(tǒng)都需要大量的鳥類音頻數(shù)據(jù)作為支撐,通過對鳥類聲音爬取關(guān)鍵字信息的搜索,未能搜索到有關(guān)鳥類聲音爬取的程序或腳本。在考慮實際運用的情況下,本文采用多線程、網(wǎng)絡(luò)爬蟲、翻譯等技術(shù)設(shè)計并實現(xiàn)了鳥類音頻數(shù)據(jù)采集系統(tǒng)。該系統(tǒng)的建立有助于豐富鳥類聲音樣本庫,最終實現(xiàn)花費較少資源能夠大量獲取關(guān)于鳥類音頻文件和鳥類信息的目標(biāo),解決了人工采集聲音效率低、投資大、風(fēng)險高、質(zhì)量差,人工對鳥類音頻數(shù)據(jù)搜集、整理速度慢、耗費時間長、工作內(nèi)容繁瑣等問題。

        1 系統(tǒng)設(shè)計的目標(biāo)功能

        鳥類音頻數(shù)據(jù)采集系統(tǒng)的目標(biāo)是通過網(wǎng)絡(luò)爬蟲抓取互聯(lián)網(wǎng)上鳥類的音頻數(shù)據(jù),構(gòu)建豐富的鳥類聲音樣本庫。由于鳥類音頻數(shù)據(jù)的數(shù)據(jù)量比較大,本文在設(shè)計鳥類音頻數(shù)據(jù)采集系統(tǒng)的時候綜合考慮了相關(guān)因素,把采集系統(tǒng)建設(shè)分為兩個部分:一是數(shù)據(jù)抓取[4]部分,二是數(shù)據(jù)下載部分。該系統(tǒng)為了在硬件環(huán)境的支持下能夠最大限度地提升程序運行速率設(shè)計了多線程控制器[5];為了解決獲取外文網(wǎng)站信息時使獲取的信息能夠符合中文的語義表達方式的問題設(shè)計了翻譯模塊[6],對提取的信息進行翻譯處理。設(shè)計URL[7]管理器對URL進行管理,HTML獲取器下載頁面,HTML解析器解析下載的頁面,存儲模塊[8]數(shù)據(jù)庫存儲資源,下載器下載相關(guān)內(nèi)容。

        數(shù)據(jù)抓取部分在URL入口輸入進入URL后開始工作,抓取到與該URL相關(guān)的網(wǎng)頁信息,解析提取所有URL和所需數(shù)據(jù),翻譯器對所需內(nèi)容進行翻譯,最后把音頻數(shù)據(jù)的URL和相關(guān)信息提取保存到數(shù)據(jù)庫中。數(shù)據(jù)下載部分通過對數(shù)據(jù)庫信息的讀取,URL管理器處理后交給下載器進行下載。

        2 系統(tǒng)的流程設(shè)計

        為了解決鳥類音頻文件的數(shù)據(jù)量較大,爬取頁面較多,爬取外文網(wǎng)站信息時不符合中文的語義表達方式等問題設(shè)計鳥類音頻數(shù)據(jù)采集系統(tǒng),其基本流程圖如圖1所示:

        圖1 系統(tǒng)基本流程圖

        本系統(tǒng)分為數(shù)據(jù)抓取部分和數(shù)據(jù)下載部分。數(shù)據(jù)抓取部分包括六個模塊:URL管理中心、HTML獲取器、HTML解析器、多線程控制器、HTML翻譯器和數(shù)據(jù)庫存儲,這六個模塊共同完成數(shù)據(jù)抓取并存儲于數(shù)據(jù)庫的整個過程。數(shù)據(jù)下載部分包括四個模塊:數(shù)據(jù)讀取、URL管理中心、多線程控制器、文件下載,這四個模塊完成數(shù)據(jù)下載到本地的整個進程。

        2.1 數(shù)據(jù)抓取部分

        (1)URL管理中心

        為了解決URL指向循環(huán)和URL重復(fù)等問題設(shè)立URL管理中心,URL管理中心的作用是管理待爬取的URL和已經(jīng)爬取過的URL,每個網(wǎng)頁爬取的信息都包含指向其他網(wǎng)頁的URL,其他網(wǎng)頁同樣會包含指向本網(wǎng)頁的URL。這樣URL的指向就存在循環(huán),嚴(yán)重影響網(wǎng)絡(luò)抓取數(shù)據(jù)的速度,當(dāng)兩個URL相互指向形成無限循環(huán),就會導(dǎo)致程序運行出錯。設(shè)計URL管理中心能夠很好的解決這個問題,防止程序運行出錯。

        (2)HTML獲取器

        HTML獲取器負(fù)責(zé)把網(wǎng)頁中對應(yīng)的信息下載到本地,這是整個爬蟲的核心部分。它從互聯(lián)網(wǎng)上查詢URL對應(yīng)的網(wǎng)頁,將其內(nèi)容按照HTML的格式下載到本地,便于后續(xù)分析處理。

        (3)HTML解析器

        HTML解析器對HTML獲取器下載的頁面進行解析,提取出頁面中包含的URL和數(shù)據(jù)。本系統(tǒng)實現(xiàn)的是定向網(wǎng)絡(luò)爬蟲,除了提取頁面中待爬取的URL,還提取了很多實驗所需數(shù)據(jù)。

        (4)多線程控制器

        為了解決程序運行的速率問題,減少運行時間,提高效率,本系統(tǒng)設(shè)計多線程控制器。多線程控制器的功能是對爬蟲程序的線程數(shù)加以控制,根據(jù)數(shù)據(jù)要求和系統(tǒng)性能對程序進行控制,最大限度的提高程序運行速率。

        (5)翻譯

        針對搜集外文網(wǎng)站數(shù)據(jù)時語言、語義不同且不符合中文的語言表達方式,分析理解這些數(shù)據(jù)困難等問題設(shè)計翻譯模塊。此模塊負(fù)責(zé)對HTML提取解析后的數(shù)據(jù)進行翻譯、注解。在翻譯模塊中調(diào)用百度翻譯的API[9]實現(xiàn)對提取出來的內(nèi)容進行翻譯,翻譯之后將數(shù)據(jù)提交到數(shù)據(jù)庫進行存儲。

        (6)數(shù)據(jù)庫存儲

        為了存儲和讀取數(shù)據(jù)方便設(shè)計數(shù)據(jù)庫模塊,數(shù)據(jù)庫是根據(jù)實際需求設(shè)計,能夠?qū)Ψg器提交過來的數(shù)據(jù)進行存儲。

        2.2 數(shù)據(jù)下載部分

        這部分實現(xiàn)的是對數(shù)據(jù)庫中數(shù)據(jù)的讀取與下載,讀取數(shù)據(jù)庫中保存的信息和URL,將讀取信息提交給URL管理中心對URL進行管理,多線程控制器對下載程序進行控制,音頻文件下載是為了實現(xiàn)對數(shù)據(jù)庫中的URL進行訪問,下載鳥類音頻文件。

        2.3 數(shù)據(jù)抓取流程

        數(shù)據(jù)抓取部分流程如圖2所示,由流程圖可知在爬蟲程序中,URL管理器用來管理待爬取的URL列表和已經(jīng)爬取過的URL列表,從URL管理器中取出URL,判斷該URL是否被爬取過,如果是未爬取過的URL,則將此URL發(fā)送給HTML下載器。HTML下載器對該URL指定的網(wǎng)頁進行下載存儲在本地服務(wù)器中,HTML解析器對下載器下載的頁面進行解析,解析出網(wǎng)頁內(nèi)容和URL,解析器把URL提交給URL管理器,只要URL滿足程序運行條件程序就一直運行,對網(wǎng)頁進行下載、解析、翻譯最后保存到數(shù)據(jù)庫,直到程序結(jié)束運行。

        圖2 數(shù)據(jù)抓取流程圖

        2.4 數(shù)據(jù)下載流程

        數(shù)據(jù)下載流程如圖3所示,由數(shù)據(jù)下載的流程圖可知系統(tǒng)從數(shù)據(jù)庫中提取數(shù)據(jù),經(jīng)URL管理器處理之后,把URL傳遞給下載器直接訪問音頻數(shù)據(jù)的URL對鳥類音頻數(shù)據(jù)進行下載,直到所有數(shù)據(jù)下載完成結(jié)束程序。

        圖3 數(shù)據(jù)下載流程圖

        3 多線程和翻譯的實現(xiàn)

        為了提升程序運行的速度,在串行網(wǎng)絡(luò)爬蟲的基礎(chǔ)上,設(shè)計多線程網(wǎng)絡(luò)爬蟲程序。爬蟲程序開始執(zhí)行后,程序向網(wǎng)頁發(fā)送訪問的請求,程序等待網(wǎng)頁做出響應(yīng)。根據(jù)等待的時間來衡量爬蟲的效率,等待的時間越長,效率就越低。當(dāng)程序采用多線程的時候,程序與網(wǎng)頁進行通信等待的時間有所降低,提高了數(shù)據(jù)抓取的和數(shù)據(jù)下載的效率。

        當(dāng)搜集目標(biāo)網(wǎng)站的數(shù)據(jù)信息的語言與系統(tǒng)所需信息的語言不一致時,需要對爬蟲收集的數(shù)據(jù)進行加工處理,使其符合中文的語義表達習(xí)慣,但人工對數(shù)據(jù)進行整理,翻譯需要耗費較多的人力、物力,增加實驗任務(wù)。在網(wǎng)絡(luò)爬蟲程序中增加翻譯模塊可直接對網(wǎng)頁數(shù)據(jù)進行翻譯,使其符合中文的語義表達方式、語義規(guī)則。翻譯模塊的實現(xiàn)是通過調(diào)用百度翻譯的API對數(shù)據(jù)進行處理的,通過調(diào)用API編譯程序代碼實現(xiàn)翻譯功能,最終滿足于實際運用的需求。

        4 系統(tǒng)測試

        軟件測試環(huán)境如下:操作系統(tǒng):Windows 10家庭版;CPU:I5 4700M;內(nèi)存:8G;網(wǎng)絡(luò)帶寬:100Mb;應(yīng)用工具:Python 3.6。

        在考慮了計算機的硬件配置和數(shù)據(jù)應(yīng)用的情況下,測試分為對國內(nèi)網(wǎng)站爬取和國外網(wǎng)站爬取進行。

        4.1 對某國內(nèi)聲音網(wǎng)站的爬取

        表1為爬取某國內(nèi)網(wǎng)站的實驗數(shù)據(jù),表2是為下載某國內(nèi)網(wǎng)站的實驗數(shù)據(jù)。

        表1 某國內(nèi)網(wǎng)站數(shù)據(jù)爬取

        表2 某國內(nèi)網(wǎng)站音頻文件下載

        4.2 對某國外聲音網(wǎng)站的爬取

        表3為爬取某國外網(wǎng)站的實驗數(shù)據(jù),表4是為下載某國外網(wǎng)站的實驗數(shù)據(jù)。

        表3 某國外網(wǎng)站數(shù)據(jù)爬取

        表4 某國外網(wǎng)站數(shù)據(jù)下載

        4.3 測試結(jié)果分析

        本系統(tǒng)分別爬取國內(nèi)和國外網(wǎng)站數(shù)據(jù)進行測試實驗,經(jīng)過系統(tǒng)爬取整理之后實驗數(shù)據(jù)滿足具體應(yīng)用需求。實驗中耗費較少的時間資源能夠爬取到大量的信息,多線程爬取和下載都速率都比較快,耗費資源少。人工對實驗結(jié)果進行查看,發(fā)現(xiàn)爬取外文網(wǎng)站的信息符合中文的表達規(guī)范和語義要求,綜合來看本次實驗結(jié)果滿足系統(tǒng)建立的需求。實驗研究發(fā)現(xiàn)當(dāng)線程數(shù)達到一定程度時數(shù)據(jù)的下載速度與網(wǎng)絡(luò)帶寬有關(guān),受網(wǎng)絡(luò)帶寬[1]的影響。當(dāng)線程數(shù)達到200,下載速度通過360測速工具測試知道速度為8000KB/s,接近當(dāng)前帶寬的最大速率。在調(diào)用不用翻譯工具對數(shù)據(jù)進行翻譯的對比實驗中,我們發(fā)現(xiàn)很多專業(yè)名詞的解釋更加符合中文語言規(guī)則的是百度翻譯工具。

        5 總結(jié)與展望

        鳥類聲音樣本庫的豐富度決定鳥鳴分類識別系統(tǒng)的識別效果,基于多線程翻譯網(wǎng)絡(luò)爬蟲的鳥類音頻數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)解決了在萬維網(wǎng)上獲取鳥類音頻文件,鳥類知識信息等問題,豐富了鳥類聲音樣本庫。本系統(tǒng)的建立,能夠便捷高效地獲取鳥類音頻數(shù)據(jù),滿足具體應(yīng)用需求,解決了人工采集聲音效率低、投資大、風(fēng)險高、質(zhì)量差,人工對鳥類音頻數(shù)據(jù)搜集、整理速度慢、耗費時間長、工作內(nèi)容繁瑣;人工處理翻譯外文數(shù)據(jù)效率低、耗費資源多等問題。

        猜你喜歡
        爬蟲鳥類網(wǎng)頁
        善于學(xué)習(xí)的鳥類
        學(xué)與玩(2022年9期)2022-10-31 02:54:08
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        我的濕地鳥類朋友
        文苑(2020年12期)2020-04-13 00:54:14
        鳥類
        小太陽畫報(2019年1期)2019-06-11 10:29:48
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        鳥類的叫聲
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        伊人久久大香线蕉综合网站| 精品国产乱子伦一区二区三| 精品人妻av一区二区三区| 岳毛多又紧做起爽| 国产成人av一区二区三区在线观看| 在线人成免费视频69国产| 免费毛片在线视频| 久久精品国产亚洲综合色| 偷拍一区二区三区黄片| 亚洲av无码乱码精品国产| 无码精品人妻一区二区三区人妻斩| 亚洲日韩欧美国产另类综合| 亚洲精品国产不卡在线观看| 白白色最新福利视频二| 亚洲精品国产第一综合色吧| 最近免费mv在线观看动漫| 亚洲欧美中文在线观看4| 亚洲高清av一区二区| 亚洲中文字幕国产视频| 成人妇女免费播放久久久| 麻豆密入视频在线观看| 一区二区亚洲 av免费| 性av一区二区三区免费| 日本乱偷人妻中文字幕在线| 国产内射XXXXX在线| 国产不卡一区二区av| 中文字幕av长濑麻美| 最新亚洲人成网站在线观看 | 天天中文字幕av天天爽| 少妇人妻无奈的跪趴翘起| 久久国产劲爆∧v内射| 美女把尿囗扒开让男人添| 18无码粉嫩小泬无套在线观看| 人妻AV无码一区二区三区奥田咲| 国产在线播放免费人成视频播放| 亚洲熟妇av一区二区三区| 性一乱一搞一交一伦一性| 亚洲无码啊啊啊免费体验| 国产一区二区三区不卡在线观看| 日韩丰满少妇无码内射| 亚洲男人的天堂精品一区二区|