亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2017-03-24 13:09:39靳晟李永可李悅陳燕紅
        電腦知識與技術(shù) 2017年1期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲

        靳晟+李永可+李悅+陳燕紅

        摘要:垂直信息檢索是針對某一行業(yè)的專業(yè)檢索技術(shù),為用戶提供高相關(guān)度信息檢索服務(wù)。本文通過對分布式系統(tǒng)hadoop、搜索引擎、分布式數(shù)據(jù)庫、倒排索引等技術(shù)的研究,開發(fā)設(shè)計(jì)了分布式農(nóng)業(yè)信息檢索系統(tǒng),為用戶提供專業(yè)的農(nóng)業(yè)信息檢索服務(wù)。系統(tǒng)主要包括分布式平臺模塊,分布式網(wǎng)絡(luò)采集器模塊,分布式檢索系統(tǒng)等模塊。

        關(guān)鍵詞:分布式平臺;網(wǎng)絡(luò)爬蟲;分布式檢索

        中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)01-0237-02

        隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)資源呈爆炸式增長,互聯(lián)網(wǎng)數(shù)據(jù)的快速增長雖然滿足了我們?nèi)找嬖鲩L的信息需求,但對信息檢索技術(shù)也提出了挑戰(zhàn),如何在大規(guī)模的數(shù)據(jù)集中快速檢索出用戶需要的有價(jià)值信息成為當(dāng)前研究的熱點(diǎn)。全文檢索針對范圍廣,返回檢索結(jié)果往往涉及各個(gè)方面知識,而用戶真正關(guān)心領(lǐng)域的知識可能不多或者排在了檢索結(jié)果后面,這給用戶從檢索結(jié)果中挑選自己需要的結(jié)果帶來了一定的困難,而垂直檢索只是針對某一領(lǐng)域的專業(yè)檢索,檢索范圍只針對該領(lǐng)域,返回結(jié)果不多,但都是用戶關(guān)心領(lǐng)域的結(jié)果,和傳統(tǒng)全文搜索引擎相比,垂直搜索引擎更能滿足用戶信息檢索需求。

        1 系統(tǒng)總體設(shè)計(jì)及結(jié)構(gòu)

        分布式農(nóng)業(yè)搜索引擎首先要解決單機(jī)環(huán)境下數(shù)據(jù)采集效率低、存儲難以擴(kuò)充等問題,分步式系統(tǒng)是解決這些問題的完美方案,本系統(tǒng)采用Hadoop的HDFS作為分布式搜索引擎底層文件系統(tǒng),解決了分布式存儲和檢索問題,使用nutch作為數(shù)據(jù)采集器,負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)的采集,使用Solr作為檢索器,本系統(tǒng)主要包括信息采集模塊、倒排索引模塊、信息檢索模塊、HDFS系統(tǒng)等四大部分組成,系統(tǒng)結(jié)構(gòu)圖如圖1。

        2 分布式農(nóng)業(yè)信息采集子系統(tǒng)

        分布式農(nóng)業(yè)信息采集子系統(tǒng)主要負(fù)責(zé)從互聯(lián)網(wǎng)抓取指定站點(diǎn)的農(nóng)業(yè)信息,該模塊維護(hù)有一張農(nóng)業(yè)種子網(wǎng)站列表,目前在該列表中有3000個(gè)農(nóng)業(yè)網(wǎng)站,該模塊采用分布式采集技術(shù),底層分布式系統(tǒng)采用Hadoop2.4版本,網(wǎng)絡(luò)爬蟲使用nutch2.3,分布式數(shù)據(jù)庫使用HBase0.94,采用分布式架構(gòu)不但大大提高了數(shù)據(jù)采集效率,而且使系統(tǒng)具有高伸縮性,當(dāng)數(shù)據(jù)采集節(jié)點(diǎn)不夠時(shí)可方便向集群中添加新的采集節(jié)點(diǎn)。數(shù)據(jù)采集模塊是搜索引擎設(shè)計(jì)的基礎(chǔ),該模塊為搜索引擎提供源源不斷的數(shù)據(jù)源,分布式數(shù)據(jù)采集系統(tǒng)功能模塊圖如圖2所示。

        網(wǎng)絡(luò)爬蟲從種子列表開始,逐級解析網(wǎng)頁中出現(xiàn)的url鏈接,本系統(tǒng)采取廣度優(yōu)先算法進(jìn)行網(wǎng)頁抓取,直到網(wǎng)絡(luò)爬蟲采集到系統(tǒng)設(shè)定級數(shù)時(shí)才停止采集,數(shù)據(jù)采集采用增量更新原則,確保采集過的網(wǎng)頁沒有發(fā)生變化時(shí)不再重新采集,提高采集效率降低磁盤冗余。數(shù)據(jù)采集流程如圖3所示。

        采集模塊從URL種子列表開始,首先讀取完整的的url地址信息,檢驗(yàn)url有效性,刪除無效url地址,將有效url地址注入CrawDb庫中,注入CrawDb庫后,Generate模塊從該庫中提取出所有url并按指定規(guī)則進(jìn)行過濾,之后生成FetchList待采集列表,并將此列表寫進(jìn)Segments目錄中;根據(jù)Fetchlist列表,F(xiàn)etch模塊按廣度優(yōu)先算法依次抓取網(wǎng)頁信息并保存在本地的crawl-fetch目錄下;根據(jù)采集到的網(wǎng)頁數(shù)據(jù),Parse模塊對數(shù)據(jù)進(jìn)行解析并將解析后的完整數(shù)據(jù)保存至crawl-parse目錄下;根據(jù)Fetch模塊和Parse模塊采集到的數(shù)據(jù)Updata模塊對已采集到的數(shù)據(jù)進(jìn)行增量更新。

        3 分布式索引子系統(tǒng)

        分布式索引模塊將分布式采集模塊采集到的數(shù)據(jù)建立倒排索引,為分布式檢索系統(tǒng)提供檢索服務(wù)支撐,分布式索引系統(tǒng)使用lucene4.1設(shè)計(jì)實(shí)現(xiàn),分布式檢索系統(tǒng)結(jié)構(gòu)如圖4所示。

        索引模塊將對采集模塊采集到的數(shù)據(jù)進(jìn)行文檔解析、語義分析、詞法分析、分詞、相關(guān)度評分等操作,經(jīng)這些處理后最終建立倒排索引文件。任務(wù)調(diào)度器JobTracher會協(xié)調(diào)各Slave節(jié)點(diǎn)采用MapReduce算法建立倒排索引文件,并在本地HDFS服務(wù)器進(jìn)行存儲,為檢索系統(tǒng)提供分布式檢索支撐。

        4 分布式檢索模塊

        分布式檢索模塊為用戶提供分布式檢索服務(wù),分布式檢索模塊依據(jù)MapReduce算法設(shè)計(jì),對Lucene4.10和solr4.10進(jìn)行二次開發(fā)設(shè)計(jì)用戶檢索接口,為用戶提供檢索界面和檢索服務(wù),分布檢索模塊系統(tǒng)結(jié)構(gòu)如圖5所示。

        分布式檢索服務(wù)器根據(jù)IPC(Inter-Process Communication)通信規(guī)則向分布式系統(tǒng)中各子節(jié)點(diǎn)分發(fā)檢索請求,各檢索子節(jié)點(diǎn)根據(jù)檢索請求從本地索引中檢索并將檢索結(jié)果反饋給檢索服務(wù)器,檢索服務(wù)器將反饋會的結(jié)果進(jìn)行處理后反饋給用戶,分布式檢索對檢索語句進(jìn)行詞法分析、語法分析、分詞、去停用詞等處理,然后從倒排索引中進(jìn)行關(guān)鍵詞檢索,然后對檢索結(jié)果進(jìn)行相關(guān)性排序并將關(guān)鍵詞進(jìn)行高亮顯示,最后將排序后的結(jié)果反饋給檢索用戶。

        5 總結(jié)

        通過對分布式系統(tǒng)、搜索引擎技術(shù)、倒排索引技術(shù)、MapReduce技術(shù)的深入研究,開發(fā)設(shè)計(jì)了基于分布式平臺的農(nóng)業(yè)垂直搜索引擎,系統(tǒng)具有高擴(kuò)展性和穩(wěn)定性,為用戶提供了高相關(guān)度的信息檢索服務(wù),滿足了用戶的基本信息檢索需求,后期系統(tǒng)將進(jìn)行數(shù)據(jù)清洗技術(shù)的研究,對采集到的數(shù)據(jù)進(jìn)行相識度分析,過濾重復(fù)頁面,為用戶提供更加友好、高質(zhì)量的信息檢索服務(wù)。

        參考文獻(xiàn):

        [1] 崔杰,李陶深,蘭紅星. 基于Hadoop的海量數(shù)據(jù)存儲平臺設(shè)計(jì)與開發(fā)[J]. 計(jì)算機(jī)研究與發(fā)展,2012,49(s1):12-18.

        [2] 許丞,劉洪,譚良. Hadoop云平臺的一種新的任務(wù)調(diào)度和監(jiān)控機(jī)制[J]. 計(jì)算機(jī)科學(xué),2013,40(1):112-117.

        [3] 朱珠. 基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[M].北京:北京郵電大學(xué),2008.

        [4] 鄭曉薇,項(xiàng)明. 基于節(jié)點(diǎn)能力的Hadoop集群任務(wù)自適應(yīng)調(diào)度方法[J]. 計(jì)算機(jī)研究與發(fā)展,2014(3):618-626.

        [5] 詹恒飛,楊岳湘. Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J]. 計(jì)算機(jī)科學(xué)與探索,2011,5(1):68-74.

        猜你喜歡
        網(wǎng)絡(luò)爬蟲
        基于物聯(lián)網(wǎng)技術(shù)的智慧搜索引擎設(shè)計(jì)
        微信平臺下的教務(wù)信息獲取和隱私保護(hù)方法研究
        基于網(wǎng)絡(luò)爬蟲的電子易購軟件設(shè)計(jì)與實(shí)現(xiàn)
        搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
        煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
        淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
        中國市場(2016年23期)2016-07-05 04:35:08
        基于淘寶某商品銷售量監(jiān)控系統(tǒng)
        網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
        中文字幕精品久久一区二区三区| 国产免国产免费| 日出水了特别黄的视频| 亚洲av日韩精品久久久久久| 国产盗摄XXXX视频XXXX| 亚洲发给我的在线视频| 中出人妻希奇杰卡西av| 亚洲精品tv久久久久久久久久| 久久夜色精品国产噜噜av| 婷婷第四色| 一区二区三区熟妇人妻18| 日韩av在线不卡一区二区| 亚洲va久久久噜噜噜久久天堂| 特级无码毛片免费视频尤物| 色999欧美日韩| 极品人妻少妇一区二区| 蜜桃视频在线在线观看| 午夜精品久久久久久久久| 伊人久久精品久久亚洲一区| 欧美一区二区午夜福利在线yw| 亚洲一区极品美女写真在线看| 久久一区二区三区少妇人妻| 乱中年女人伦av三区| 亚洲av综合色区无码一二三区| 亚洲区精选网址| 亚洲综合小综合中文字幕| 国产 一二三四五六| 日韩欧群交p片内射中文| 日韩女人毛片在线播放| 天天综合色中文字幕在线视频 | 亚洲精品有码日本久久久| 亚洲熟女www一区二区三区| 亚洲av无码一区二区三区性色| 99RE6在线观看国产精品| 最新69国产精品视频| 一本加勒比hezyo无码专区| 中文字幕一区二区三区精华液| 亚洲精品国产不卡在线观看| 中文字幕在线亚洲精品一区| 成人丝袜激情一区二区| 久久久久久伊人高潮影院|