亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學(xué)習(xí)資源爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2017-06-20 22:42:24胡鵬
        軟件導(dǎo)刊 2017年4期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲學(xué)習(xí)資源

        胡鵬

        摘要:互聯(lián)網(wǎng)是信息的載體,隨著信息量的迅速增長,給用戶檢索獲取需要的互聯(lián)網(wǎng)學(xué)習(xí)資源增加了難度和時(shí)間。因此,學(xué)習(xí)資源爬蟲是亟待研究與解決的問題。實(shí)現(xiàn)學(xué)習(xí)資源爬蟲系統(tǒng)的關(guān)鍵為:首先界定互聯(lián)網(wǎng)學(xué)習(xí)資源的概念、類型、格式形態(tài),然后設(shè)計(jì)學(xué)習(xí)資源爬蟲結(jié)構(gòu)以及抓取、解析、去重、下載功能,最后根據(jù)系統(tǒng)開發(fā)環(huán)境實(shí)現(xiàn)爬蟲結(jié)果。借助webdriver、Firfox瀏覽器并結(jié)合反網(wǎng)絡(luò)爬蟲策略,解決動(dòng)態(tài)網(wǎng)站腳本與服務(wù)器異步交互時(shí)的數(shù)據(jù)丟失問題,進(jìn)行完整、自動(dòng)、高效的批量內(nèi)容下載,優(yōu)化學(xué)習(xí)資源獲取的準(zhǔn)確率與效率,以獲取更有價(jià)值的學(xué)習(xí)資源。

        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;Web網(wǎng)頁;學(xué)習(xí)資源

        中圖分類號(hào):TP319

        文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):16727800(2017)004011103

        0引言

        隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)信息量呈指數(shù)級(jí)爆炸性增長[1],信息淹沒在浩瀚如海的互聯(lián)網(wǎng)數(shù)據(jù)中。用戶要從海量、異構(gòu)、半異構(gòu)、動(dòng)態(tài)數(shù)據(jù)中快速獲取有價(jià)值的學(xué)習(xí)資源是非常困難的。網(wǎng)絡(luò)中學(xué)習(xí)資源數(shù)據(jù)量龐大,百度、Google檢索也僅收錄了頁面的1/3,基于漢語自身的復(fù)雜性及特點(diǎn),檢索獲取有價(jià)值的學(xué)習(xí)資源效率低、花費(fèi)時(shí)間長[2]。為此,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)學(xué)習(xí)資源爬蟲系統(tǒng),使學(xué)習(xí)資源檢索能快速、準(zhǔn)確地達(dá)到預(yù)期目標(biāo)。首先對(duì)學(xué)習(xí)資源的概念、類型、格式作一定闡述與界定。學(xué)習(xí)資源是指學(xué)習(xí)、教育被應(yīng)用、參考,并以數(shù)字化信息加載的一切對(duì)象;學(xué)習(xí)資源類型是指試題、試卷、案例、問題解答、媒體素材、網(wǎng)絡(luò)課程、網(wǎng)絡(luò)課件;學(xué)習(xí)資源格式是指HTML、TXT、Word、PPT、PDF、Excel格式的文本或文檔。

        1系統(tǒng)總體設(shè)計(jì)

        聚焦網(wǎng)絡(luò)爬蟲(Web Crawler)也稱為主題網(wǎng)絡(luò)蜘蛛,是一個(gè)自動(dòng)下載網(wǎng)頁的計(jì)算機(jī)程序。設(shè)置初始的URL(Uniform Resource Location)隊(duì)列序列化開始爬取,解析原URL指向的網(wǎng)頁并提取新的URL鏈接與頁面信息,提取過程中對(duì)網(wǎng)頁信息、文檔文本進(jìn)行過濾,剔除重復(fù)、不符合要求的URL及文本文檔,下載有關(guān)主題信息儲(chǔ)入數(shù)據(jù)庫,并且不斷遍歷整個(gè)過程,直至程序報(bào)錯(cuò)或達(dá)到系統(tǒng)的預(yù)定規(guī)則而停止[3]。本系統(tǒng)設(shè)計(jì)學(xué)習(xí)資源爬蟲結(jié)構(gòu)如圖1所示,根據(jù)系統(tǒng)的爬蟲結(jié)構(gòu),其功能模塊主要包括:網(wǎng)頁抓取、網(wǎng)頁解析、內(nèi)容去重、內(nèi)容下載。系統(tǒng)的功能模塊其學(xué)習(xí)資源爬蟲流程如圖2所示。

        2系統(tǒng)功能模塊

        2.1網(wǎng)頁抓取

        網(wǎng)頁抓取策略包括深度優(yōu)先搜索策略、最佳優(yōu)先搜索策略、廣度優(yōu)先搜索策略。深度優(yōu)先搜索策略在深度大、數(shù)據(jù)多時(shí),抓取深度、命中率以及抓取效率會(huì)大幅下降,同時(shí)由于受系統(tǒng)堆棧容量限制,內(nèi)存也會(huì)產(chǎn)生溢出;最佳優(yōu)先策略是一種局部最優(yōu)搜索算法,需結(jié)合具體應(yīng)用進(jìn)行改進(jìn);廣度優(yōu)先搜索策略必須考慮溢出和節(jié)省內(nèi)存空間的問題,運(yùn)行速度要比深度優(yōu)先搜索快很多。本文采用廣度優(yōu)先爬蟲策略結(jié)合反網(wǎng)絡(luò)爬蟲策略,網(wǎng)頁抓取時(shí)應(yīng)配置爬蟲網(wǎng)頁的腳本,配置網(wǎng)頁腳本為XML、Groovy文件,XML用于限定爬蟲的對(duì)象范圍,過濾與學(xué)習(xí)資源無關(guān)的信息;Groovy用于限定爬蟲對(duì)象內(nèi)容的范圍,為網(wǎng)頁內(nèi)容過濾掉“廣告條”以及網(wǎng)頁下方的網(wǎng)站說明等信息。系統(tǒng)啟動(dòng)時(shí)將初始的URL種子集隊(duì)列放入Redis SitesQueue臨時(shí)數(shù)據(jù)庫,并不斷地從Redis隊(duì)列中抽取URL,解析其DNS,訪問網(wǎng)頁協(xié)議HTTP、主機(jī)名、路徑,建立網(wǎng)絡(luò)通信發(fā)送請(qǐng)求報(bào)文,連接Web服務(wù)器下載頁面并把頁面內(nèi)容及鏈接信息保存到本地磁盤上[4],以節(jié)約主機(jī)內(nèi)存的占用,提高網(wǎng)頁抓取效率。

        2.2網(wǎng)頁解析

        網(wǎng)頁解析是網(wǎng)頁處理的起點(diǎn),程序發(fā)送請(qǐng)求信息,協(xié)議允許訪問頁面則進(jìn)入頁面框架。通過解析類ParserFile.class對(duì)HTML網(wǎng)頁進(jìn)行DOM解析,其中包括HTML標(biāo)簽、元素內(nèi)容、腳本內(nèi)容、注釋等,用index處理HTML中的標(biāo)簽、文本、注釋、指令,以及這些符號(hào)之間的語法關(guān)系,如標(biāo)簽與標(biāo)簽、標(biāo)簽與文本的關(guān)系。主要解析標(biāo)簽包括:正文標(biāo)題(Title)、正文內(nèi)容(Article)、鏈接(Link)、作者(Author)、發(fā)布時(shí)間(Publishtime)、來源(Source)。用inline處理錨文本對(duì)應(yīng)URL鏈接節(jié)點(diǎn)下的“href”屬性,獲取錨文本與URL之間的對(duì)應(yīng)關(guān)系。在DOM解析與URL語法解析的基礎(chǔ)上,即可進(jìn)行網(wǎng)頁內(nèi)容的識(shí)別操作[5],提取內(nèi)容進(jìn)行去重處理,提取鏈接URL進(jìn)行判斷處理。解析主要代碼如下://判斷fileDir文件的第index個(gè)dom中,有無嵌套標(biāo)簽 Element dom_el=root.getChild("list").getChildren("dom").get(domNo);String inline = dom_el.getChildText("inline");if(inline != null && !"".equals(inline)) return true;else return false;//inline 標(biāo)簽有幾個(gè)attr屬性Element dom_el=root.getChild("list").getChildren("dom").get(domNo);Element inline_el = dom_el.getChild("inline");int depth = inline_el.getChildren().size()+1;

        2.3內(nèi)容去重

        目前Internet的重復(fù)網(wǎng)頁約占35%~45%,大部分是內(nèi)答轉(zhuǎn)載。爬取這些網(wǎng)頁或者重復(fù)內(nèi)容既占用網(wǎng)絡(luò)帶寬又浪費(fèi)資源,用戶不希望收集一堆內(nèi)容相同或近似的檢索結(jié)果。因此,程序啟動(dòng)之前已配置網(wǎng)頁腳本為XML、Groovy文件,在URL中限定了爬蟲對(duì)象、內(nèi)容的范圍,剔除了與學(xué)習(xí)資源無關(guān)的信息內(nèi)容。程序運(yùn)行時(shí),處理爬蟲過程中存在的重復(fù)網(wǎng)址,剔除重復(fù)學(xué)習(xí)資源內(nèi)容或文本文檔?;ヂ?lián)網(wǎng)學(xué)習(xí)資源范圍和數(shù)量龐大,選擇好的去重策略,能節(jié)約大量爬蟲時(shí)間,提高爬蟲效率[67]。程序?qū)edis緩存內(nèi)容去重效率相當(dāng)高,對(duì)內(nèi)存要求也相對(duì)較高。同時(shí)Redis要關(guān)閉VM功能,需要設(shè)置好redis.conf配置文件,因?yàn)閮?nèi)存使用過高將導(dǎo)致內(nèi)存溢出。內(nèi)容去重主要包括正文標(biāo)題(Title)、正文內(nèi)容(Article)的去重,是一種高效去重的方法。

        2.4內(nèi)容下載

        網(wǎng)頁分為靜態(tài)和動(dòng)態(tài)。靜態(tài)網(wǎng)頁由HTML代碼生成,頁面的內(nèi)容、結(jié)果基本不會(huì)有變化;動(dòng)態(tài)網(wǎng)頁是相對(duì)靜態(tài)的一種網(wǎng)頁編程技術(shù),具有如下幾個(gè)特點(diǎn):交互性、更新性、效果動(dòng)態(tài)性。由于動(dòng)態(tài)網(wǎng)站腳本與服務(wù)器異步交互易產(chǎn)生數(shù)據(jù)丟失,需借助Firfox瀏覽器、Webdriver測試工具解決該問題,以進(jìn)行完整、高效、自動(dòng)的批量網(wǎng)頁內(nèi)容下載。系統(tǒng)運(yùn)行主程序MainQuartz和子程序ListStart、DetailStart時(shí),ListStart子程序根據(jù)節(jié)點(diǎn)下載網(wǎng)址的主列表,DetailStart子程序下載列表項(xiàng)內(nèi)容。List表下載鏈接URL、時(shí)間、標(biāo)題、來源,Article表下載正文內(nèi)容、發(fā)布時(shí)間、來源、作者、描述、關(guān)鍵字。下載模塊始終在監(jiān)聽等待爬蟲List表和Article表,如果為空,則處于等待狀態(tài);如果不為空,則下載列表內(nèi)容,查看HeidiSQL數(shù)據(jù)庫管理界面,存儲(chǔ)記錄每一條爬取成功的信息。

        3系統(tǒng)開發(fā)環(huán)境

        硬件配置:CPU為Intel Core i5,內(nèi)存為8G,硬盤500G。 軟件配置:操作系統(tǒng)為Windows7 64bit,軟件集成開發(fā)工具為Eclipse,開發(fā)語言為Java,數(shù)據(jù)庫為MySQL、Redis。 本系統(tǒng)需要對(duì)Redis緩存內(nèi)容去重,對(duì)內(nèi)存要求會(huì)偏高,因此采用CPU Intel Core i5,內(nèi)存8G。開發(fā)工具是以Eclipse為集成框架,開發(fā)語言采用Java,因已生成的類包庫可以直接調(diào)用,簡單方便。Redis作為緩存數(shù)據(jù)庫,可大幅提高爬蟲效率,也相對(duì)減輕了對(duì)內(nèi)存的需求,很大程度上避免了內(nèi)存溢出,MySQL為存儲(chǔ)數(shù)據(jù)庫。

        4系統(tǒng)爬蟲結(jié)果與結(jié)論

        根據(jù)爬蟲結(jié)構(gòu)、功能設(shè)計(jì)與系統(tǒng)開發(fā)環(huán)境的配置,爬蟲數(shù)據(jù)來源于中國教育信息網(wǎng)、百度文庫資源、小學(xué)資源網(wǎng)、小教資源網(wǎng),以及部分研究機(jī)構(gòu)與高校的共享資源等。爬取學(xué)習(xí)資源Article表數(shù)據(jù)如圖3所示。由List表和Article表的數(shù)據(jù)可知,List爬蟲存入數(shù)據(jù)庫的平均速度為1.3頁/秒,Article表爬蟲存入數(shù)據(jù)庫的平均速度為6.5頁/秒,學(xué)習(xí)資源爬蟲的平均速度為4.0頁/秒,準(zhǔn)確率在95%左右。系統(tǒng)可大幅提高抓取學(xué)習(xí)資源的準(zhǔn)確率與效率,同時(shí)提升了獲取的學(xué)習(xí)資源的價(jià)值性。

        爬取的學(xué)習(xí)資源為HTML、TXT、Word、PPT、PDF、Excel的文本或文檔。其中影響爬蟲的因素有網(wǎng)速、網(wǎng)址服務(wù)器以及學(xué)習(xí)資源的文本或文檔大小等。本文設(shè)計(jì)的學(xué)習(xí)資源爬蟲系統(tǒng)采用廣度優(yōu)先爬蟲和反網(wǎng)絡(luò)爬蟲策略,通過解析類ParserFile.class對(duì)HTML網(wǎng)頁進(jìn)行DOM解析,通過程序?qū)edis緩存內(nèi)容去重,并借助webdriver、Firfox瀏覽器,進(jìn)行完整、高效、自動(dòng)的批量網(wǎng)頁內(nèi)容下載,改善了網(wǎng)絡(luò)爬蟲易被屏蔽的缺點(diǎn),降低了爬蟲難度與任務(wù)量,同時(shí)解決了動(dòng)態(tài)網(wǎng)站腳本與服務(wù)器異步交互的數(shù)據(jù)丟失問題,優(yōu)化了學(xué)習(xí)資源獲取的準(zhǔn)確率、效率,從而獲取更多、更有價(jià)值的學(xué)習(xí)資源。

        參考文獻(xiàn):[1]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010(15):41124115.

        [2]楊彥軍,郭紹青.ELearning學(xué)習(xí)資源的交互設(shè)計(jì)研究[J].現(xiàn)代遠(yuǎn)程教育研究,2012(1):6267.

        [3]J CHO.Crawling the Web:discovery and maintenance of largescale Web data[J].International Journal of Advances in Engineering Sciences, 2001,3(3):6266.

        [4]翁巖青. 網(wǎng)頁抓取策略研究[D].哈爾濱:哈爾濱工程大學(xué),2010.

        [5]王璟琦. 基于內(nèi)容單元的網(wǎng)頁解析與內(nèi)容提取[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.

        [6]黃聰會(huì),張水平,胡洋.主題Deep Web爬蟲框架研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(5):929931,935.

        [7]孫濤,曹丙章,邱荷花.基于MapReduce的視屏爬蟲系統(tǒng)研究[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2015(5):129132.

        (責(zé)任編輯:黃?。?

        猜你喜歡
        網(wǎng)絡(luò)爬蟲學(xué)習(xí)資源
        煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于新技術(shù)環(huán)境下的自主學(xué)習(xí)
        考試周刊(2016年94期)2016-12-12 13:18:29
        中等職業(yè)教育中教育技術(shù)的應(yīng)用研究
        基于大數(shù)據(jù)背景下的智慧化環(huán)境藝術(shù)設(shè)計(jì)教學(xué)
        基于大學(xué)生成才的移動(dòng)學(xué)習(xí)軟件應(yīng)用調(diào)查研究
        成才之路(2016年30期)2016-10-31 16:15:01
        基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
        淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲流量
        中國市場(2016年23期)2016-07-05 04:35:08
        網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究
        基于遠(yuǎn)程開放教育的學(xué)習(xí)資源理論研究
        科技視界(2016年4期)2016-02-22 12:00:33
        欧美mv日韩mv国产网站 | 久久久精品人妻一区二区三区妖精| 国产小视频在线看不卡| 国产又色又爽无遮挡免费软件| 久久久精品人妻无码专区不卡| 嗯啊哦快使劲呻吟高潮视频| 中文字幕国产欧美| 91福利国产在线观看网站| 国产精品一区二区三区黄片视频 | 国产精品日韩经典中文字幕| 亚洲av中文无码乱人伦下载| 性色做爰片在线观看ww| 国产性猛交╳xxx乱大交| 欧美久久久久中文字幕| 久久亚洲一级av一片| 成人影院羞羞的视频免费观看| 日韩中文字幕在线观看一区| 高潮抽搐潮喷毛片在线播放| 在线综合亚洲欧洲综合网站| 国际无码精品| 偷拍区亚洲区一区二区| 亚洲精品国产二区在线观看| 国模91九色精品二三四| 久久99国产精品久久| 亚洲av无码成人专区片在线观看| 1000部拍拍拍18勿入免费视频下载| 国产精品久久中文字幕第一页| 亚洲素人av在线观看| 中文字幕乱码亚洲一区二区三区| 中文字幕av中文字无码亚| 久久久国产精品免费a片3d| 久久久精品久久日韩一区综合 | 无码中文字幕av免费放| 国产一区二区在三区在线观看| 二区免费在线视频观看| 挺进邻居丰满少妇的身体| 51久久国产露脸精品国产| 热久久网站| 最大色网男人的av天堂| 在线观看一区二区中文字幕| 亚洲国产一二三精品无码|