亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Nutch框架的農(nóng)業(yè)信息垂直搜索引擎研究與設(shè)計

        2015-10-13 23:03:01高亮亮等
        湖北農(nóng)業(yè)科學(xué) 2015年18期
        關(guān)鍵詞:設(shè)計

        高亮亮等

        摘要:針對當(dāng)前農(nóng)業(yè)搜索引擎存在的查不全、查不準(zhǔn)、死鏈等問題,在分析中國使用率比較高的農(nóng)搜、搜農(nóng)、華農(nóng)在線和中國農(nóng)業(yè)信息網(wǎng)站等搜索引擎的基礎(chǔ)上,提出了基于Nutch框架的農(nóng)業(yè)信息垂直搜索引擎。該搜索引擎對農(nóng)業(yè)詞語進(jìn)行分類,并構(gòu)建專門的農(nóng)業(yè)詞典,提高查詢速度。此外,基于Nutch框架的搜索引擎采用了改進(jìn)的PageRank算法對網(wǎng)頁進(jìn)行排序得到權(quán)值最高的網(wǎng)頁,呈現(xiàn)出具有價值搜索結(jié)果,達(dá)到初步的搜索結(jié)果的預(yù)期目標(biāo)。

        關(guān)鍵詞:Nutch框架;農(nóng)業(yè)搜索引擎;農(nóng)業(yè)詞典;設(shè)計

        中圖分類號:TP391.3 文獻(xiàn)標(biāo)識碼:A 文章編號:0439-8114(2015)18-4603-04

        DOI:10.14088/j.cnki.issn0439-8114.2015.18.055

        隨著農(nóng)業(yè)信息化的發(fā)展,農(nóng)業(yè)信息出現(xiàn)了爆炸性增加的局面,搜索引擎成為了必不可少的搜索工具,是人們進(jìn)行信息收集的必要手段之一。當(dāng)前農(nóng)業(yè)信息量達(dá)到了百TB量級,面對如此多的農(nóng)業(yè)數(shù)據(jù),如何快速、有效地獲取個性化的農(nóng)業(yè)知識和信息資源就成為了當(dāng)前農(nóng)業(yè)信息搜索中迫在眉睫的問題[1]。近年來,伴隨著農(nóng)業(yè)信息化的推進(jìn),各類的農(nóng)業(yè)搜索引擎逐漸發(fā)展,雖然能夠基本滿足當(dāng)前農(nóng)業(yè)發(fā)展的需要,但還需要進(jìn)一步發(fā)展專題農(nóng)業(yè)信息檢索。

        1 農(nóng)業(yè)搜索現(xiàn)狀

        目前,農(nóng)業(yè)領(lǐng)域中已存在1萬多個各類網(wǎng)站,網(wǎng)頁數(shù)量超過200多萬[2],劉艷華等[3]對谷歌、百度和中國搜農(nóng)3個搜索引擎在農(nóng)業(yè)領(lǐng)域中進(jìn)行了分析對比,表明了綜合搜索引擎在搜索功能、結(jié)果、信息量等方面存在明顯的優(yōu)勢,但是在農(nóng)業(yè)內(nèi)容的專業(yè)化、內(nèi)容時效性方面存在欠缺。

        中國也有許多農(nóng)業(yè)類搜索引擎,如農(nóng)搜、搜農(nóng)、華農(nóng)在線、中國農(nóng)業(yè)信息網(wǎng)站等搜索引擎。農(nóng)搜網(wǎng)采用的是獨(dú)特的智能頁面技術(shù),實現(xiàn)網(wǎng)頁信息的結(jié)構(gòu)化索引,將使用者所查詢的結(jié)果以農(nóng)業(yè)科研單位、農(nóng)業(yè)專家人才、農(nóng)業(yè)實用技術(shù)等分類呈現(xiàn),實現(xiàn)了農(nóng)業(yè)信息的大眾化和個性化服務(wù),為急需農(nóng)業(yè)科技信息和市場信息的企業(yè)、部門、農(nóng)戶精確獲取農(nóng)業(yè)信息提供了有益的工具。搜農(nóng)網(wǎng)采用的是基于網(wǎng)頁主體內(nèi)容的索引,其優(yōu)點是加快信息的更新速度,提高信息的查全率和查準(zhǔn)率,建立了全新的復(fù)雜自適應(yīng)搜索模型,開發(fā)并部署了6 200多個軟機(jī)器人承擔(dān)WEB農(nóng)業(yè)信息的采集、清洗、分類、聚類、排序、發(fā)布等系列工作,基本實現(xiàn)了WEB信息處理工作的自動化,代替了農(nóng)業(yè)信息服務(wù)采、編、發(fā)等系列繁重的人工勞動,大大降低了農(nóng)村網(wǎng)絡(luò)信息服務(wù)成本。華農(nóng)在線實現(xiàn)了在農(nóng)業(yè)行業(yè)的垂直搜索應(yīng)用,將起到整合現(xiàn)有互聯(lián)網(wǎng)涉及的各類和各行業(yè)主管部門的農(nóng)業(yè)信息資源;實現(xiàn)滿足涉農(nóng)人員的個性化信息需求;提供專業(yè)知識問答及其推送功能;組織農(nóng)業(yè)專家答疑,開展學(xué)術(shù)論壇;建立農(nóng)業(yè)物流、農(nóng)產(chǎn)品價格、其交易平臺及與外國交流的行業(yè)平臺。

        這些農(nóng)業(yè)搜索引擎雖然可以滿足用戶的一般需求,但是也存在一些問題,查全率和查準(zhǔn)率低以及存在死鏈的現(xiàn)象,使得用戶搜索的結(jié)果不全面、不準(zhǔn)確或網(wǎng)頁打不開,難免會使用戶受到其他信息的干擾或?qū)λ阉饕娴牟粷M。張彧[4]將Nutch搜索引擎應(yīng)用到農(nóng)業(yè)信息搜索中進(jìn)行了初步的研究,將Nutch搜索引擎擴(kuò)展到農(nóng)業(yè)信息搜索中。本研究將Nutch搜索框架應(yīng)用于農(nóng)業(yè)信息搜索中,建立了基于Nutch搜索框架的農(nóng)業(yè)信息垂直搜索引擎,并將當(dāng)前農(nóng)業(yè)詞語進(jìn)行分類,建立專業(yè)的農(nóng)業(yè)詞典,將網(wǎng)頁農(nóng)業(yè)信息進(jìn)行精確分類,可以使用戶得到更加準(zhǔn)確和實用的查詢信息。

        2 Nutch搜索引擎

        Nutch是Apache的項目之一,是以Java語言作為實現(xiàn)手段及開發(fā)工具,作為一個完全開源的搜索引擎包,廣泛應(yīng)用于局域和廣域網(wǎng)絡(luò)的搜索引擎,Nutch搜索引擎的流程(圖1)。

        3 農(nóng)業(yè)搜索引擎的設(shè)計與實現(xiàn)

        Nutch搜索引擎具有良好的框架結(jié)構(gòu),為農(nóng)業(yè)搜索引擎的設(shè)計帶來了便捷,在此結(jié)構(gòu)基礎(chǔ)上設(shè)計不同的插件,實現(xiàn)引擎的功能。本研究設(shè)計的整個搜索引擎分為信息過濾模塊、信息抓取模塊、中文分詞模塊、農(nóng)業(yè)專業(yè)詞典、索引存儲模塊和查詢模塊6大主要模塊,如圖2所示。

        3.1 功能結(jié)構(gòu)

        根據(jù)當(dāng)前農(nóng)業(yè)發(fā)展和農(nóng)業(yè)搜索引擎的現(xiàn)狀,本研究提出了基于專業(yè)農(nóng)業(yè)詞典的搜索引擎,整個搜索引擎包含6個主要模塊:信息過濾模塊、信息抓取模塊、中文分詞模塊、農(nóng)業(yè)專業(yè)詞典、索引存儲模塊和查詢模塊。其中,信息抓取模塊、索引存儲模塊、查詢模塊是基于Nutch搜索框架中已存在的模塊所實現(xiàn)的。根據(jù)農(nóng)業(yè)搜索的專業(yè)主題要求設(shè)計開發(fā)了信息過濾模塊、農(nóng)業(yè)專業(yè)詞典模塊以及查詢模塊中排序算法的改進(jìn),能夠更好地滿足農(nóng)業(yè)專題搜索的要求

        3.1.1 農(nóng)業(yè)信息過濾模塊 該模塊的功能是過濾農(nóng)業(yè)網(wǎng)站中不相關(guān)網(wǎng)頁和鏈接,爬蟲會分析網(wǎng)站的URL,將URL當(dāng)中的前后綴去除,提取出關(guān)鍵字。根據(jù)專業(yè)農(nóng)業(yè)詞典進(jìn)行過濾,將無關(guān)URL和網(wǎng)頁鏈接剔除,然后將這些相關(guān)的網(wǎng)頁內(nèi)容(網(wǎng)頁的title、摘要、正文等)進(jìn)行提?。ňW(wǎng)頁的title、摘要、正文等),將所有非結(jié)構(gòu)化的網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化,利用與農(nóng)業(yè)專業(yè)詞典相結(jié)合對所提取內(nèi)容關(guān)鍵詞出現(xiàn)頻率進(jìn)行加權(quán)處理,進(jìn)行初步的農(nóng)業(yè)信息過濾。

        3.1.2 農(nóng)業(yè)專業(yè)詞典模塊 農(nóng)業(yè)專業(yè)詞典是分詞準(zhǔn)確的必備條件,一般詞語的詞性參照GB/T13715-92《信息處理用現(xiàn)代漢語分詞規(guī)范》所定義的名詞、動詞、形容詞、代詞、數(shù)次、量詞、副詞、介詞、連詞、助詞、語氣詞、嘆詞、象聲詞13類。該農(nóng)業(yè)搜索引擎中將提供農(nóng)業(yè)科學(xué)、農(nóng)業(yè)產(chǎn)業(yè)、農(nóng)業(yè)產(chǎn)業(yè)鏈和綜合搜索4大搜索功能,為此,該系統(tǒng)中將農(nóng)業(yè)詞語分為了農(nóng)業(yè)科學(xué)、農(nóng)業(yè)產(chǎn)業(yè)、農(nóng)業(yè)產(chǎn)業(yè)鏈和其他4大類,農(nóng)業(yè)科學(xué)包括傳統(tǒng)的農(nóng)業(yè)科學(xué)、水產(chǎn)科學(xué)、林業(yè)科學(xué)等(圖3)。傳統(tǒng)的農(nóng)業(yè)科學(xué)包括農(nóng)業(yè)環(huán)境科學(xué)、作物生產(chǎn)科學(xué)、畜牧科學(xué)、農(nóng)業(yè)工程科學(xué)、農(nóng)業(yè)經(jīng)濟(jì)科學(xué)等[5]。水產(chǎn)科學(xué)包括水產(chǎn)資源學(xué)、水產(chǎn)養(yǎng)殖學(xué)、捕撈學(xué)、水產(chǎn)品加工工藝學(xué)、漁業(yè)經(jīng)濟(jì)學(xué)等[6]。林業(yè)科學(xué)包括林業(yè)基礎(chǔ)科學(xué)、林學(xué)、森林環(huán)境科學(xué)、森林工程科學(xué)、林產(chǎn)加工科學(xué)、林業(yè)經(jīng)濟(jì)管理科學(xué)等[7]。農(nóng)業(yè)產(chǎn)業(yè)包括糧食、經(jīng)濟(jì)作物、果樹、蔬菜、花卉、生豬、肉牛、家禽、水產(chǎn)、農(nóng)產(chǎn)品物流等。產(chǎn)業(yè)鏈的產(chǎn)前包含種苗業(yè)、農(nóng)業(yè)設(shè)施;生產(chǎn)包含種植/養(yǎng)殖/捕撈、農(nóng)資產(chǎn)品、農(nóng)業(yè)機(jī)具、田間管理;加工包含清洗/包裝、品級分類、保險處理、食品加工;流通包含倉庫物流、批發(fā)、零售;消費(fèi)包含營銷推廣、餐飲服務(wù)。綜合搜索是全方面農(nóng)業(yè)信息的搜索,包括農(nóng)業(yè)科學(xué)、農(nóng)業(yè)產(chǎn)業(yè)、產(chǎn)業(yè)鏈3個類別。

        通過專業(yè)詞典的構(gòu)建,用戶可以在知道自己查詢詞屬性后直接在相關(guān)詞庫中查詢;若不知道,可以在綜合搜索中查詢,這樣會使查詢時間大大縮短,使得查詢結(jié)果更加精確。

        3.1.3 查詢模塊 用戶通過在搜索界面中輸入搜索命令,可以采用模糊查詢和多條件查詢等,系統(tǒng)會調(diào)用中文分詞模塊,將搜索命令進(jìn)行分詞,分解為關(guān)鍵詞,在Nutch索引庫中進(jìn)行索引,找到滿足用戶的網(wǎng)頁,通過評分加權(quán)的方式對搜多結(jié)果進(jìn)行排序,呈現(xiàn)給用戶,傳統(tǒng)的PageRank排序算法[8]:

        P(μ)=c■■ (1)

        式中,μ是一個網(wǎng)頁,P(μ)是網(wǎng)頁的PageRank值,F(xiàn)(μ)是頁面μ指向的網(wǎng)頁集合,B(μ)是指向μ的網(wǎng)頁集合,N(μ)=|F(μ)|是μ指向外的鏈接數(shù),P(v)是網(wǎng)頁μ指向網(wǎng)頁v的PageRank值,N(v)是v指向外的鏈接數(shù),c是規(guī)范化因子(一般取0.85)。由于該算法不能判別網(wǎng)頁中超鏈接是否與主題的相關(guān)性導(dǎo)致PageRank排序算法存在主題漂移的現(xiàn)象,本系統(tǒng)采用的對PageRank算法的改進(jìn)算法[9]:

        PR(p)=(1-d)+d×■■ (2)

        其中,PR(p)代表網(wǎng)頁P(yáng)的PageRanK值,PR(Ti)代表網(wǎng)頁Ti的PageRank值,d是規(guī)范化因子,是在相似度舉證S中網(wǎng)頁p對Ti的相似度值,S(Ti)=■,B■是網(wǎng)頁Ti的鏈出連接集合。該算法通過驗證可以使網(wǎng)頁的PageRank值在具有相似主題的網(wǎng)頁上傳播,極大地減少了無關(guān)網(wǎng)頁對該值的擴(kuò)散,影響網(wǎng)頁權(quán)重的現(xiàn)象。

        3.2 整體流程

        整個搜索引擎包含3個過程:信息抓取、信息處理、信息檢索。

        3.2.1 農(nóng)業(yè)信息抓取 主要負(fù)責(zé)將農(nóng)業(yè)信息從各個農(nóng)業(yè)網(wǎng)站中抓取、整理、入庫,這個過程由爬蟲、頁面分析器、URL更新器、農(nóng)業(yè)信息過濾器組成。爬蟲將會在合作的農(nóng)業(yè)網(wǎng)站中利用遍歷的形式將農(nóng)業(yè)信息進(jìn)行抓取有用的網(wǎng)頁和連接。頁面分析器將會對所抓取的內(nèi)容進(jìn)行語法、詞法分析,去掉重復(fù)URL,將檢查過的內(nèi)容網(wǎng)頁內(nèi)容送到頁面分析器中,對頁面信息進(jìn)行過濾,去掉無用的網(wǎng)頁和URL。URL更新器主要是更新過濾后的URL方便下一輪的抓取。

        3.2.2 農(nóng)業(yè)信息的加工和分類處理 對抓取的網(wǎng)頁進(jìn)行相關(guān)性分析,根據(jù)本研究中確定的農(nóng)業(yè)詞典中分好的農(nóng)業(yè)大類,對抓取網(wǎng)頁信息進(jìn)行匹配,通過不同類別關(guān)鍵詞的匹配,將所抓取網(wǎng)頁進(jìn)行分類存取,并按照倒排序的方式建立檢索式。主要步驟為:①將網(wǎng)頁信息轉(zhuǎn)變?yōu)榧兾谋拘畔?;②通過中文分詞,按照農(nóng)業(yè)專業(yè)詞典進(jìn)行匹配;③將匹配好的農(nóng)業(yè)信息按照分類進(jìn)行存儲,建立倒排序檢索。

        3.2.3 農(nóng)業(yè)信息網(wǎng)頁資源的檢索 農(nóng)業(yè)用戶通過發(fā)送查詢請求,查詢模塊會調(diào)用基于專業(yè)農(nóng)業(yè)詞典的中文分詞模塊,將用戶輸入的請求進(jìn)行解析,封裝成規(guī)定的檢索式來查詢本地Nutch庫,返回用戶所要求的網(wǎng)頁記錄。同時在該模塊中,會用到改進(jìn)的PageRank算法,利用返回網(wǎng)頁的基礎(chǔ)上進(jìn)行網(wǎng)頁加權(quán)處理,并作歸一化處理,得到最符合關(guān)鍵詞前100個進(jìn)行展示,通過該算法的計算會極大地提高查詢結(jié)果的查準(zhǔn)率和查全率。

        4 小結(jié)

        本研究在Nutch搜索框架的基礎(chǔ)上,通過建立農(nóng)業(yè)專業(yè)詞典,對農(nóng)業(yè)信息進(jìn)行精確分詞和網(wǎng)頁信息精確分類,建立Nutch索引庫,用戶通過查詢,系統(tǒng)會對初始搜索結(jié)果通過改進(jìn)后的PageRank算法進(jìn)行排序,將搜索結(jié)果中與關(guān)鍵詞最相關(guān)的結(jié)果進(jìn)行顯示。通過整個系統(tǒng)的構(gòu)建和插件的設(shè)計,將會實現(xiàn)農(nóng)業(yè)領(lǐng)域信息搜索的“專、精、深”的目的,為用戶提供更加全面、準(zhǔn)確的搜索結(jié)果。

        參考文獻(xiàn):

        [1] 周 鵬.農(nóng)業(yè)搜索引擎系統(tǒng)的關(guān)鍵技術(shù)研究[D].北京:首都師范大學(xué),2009.

        [2] 周國民,樊景超,周義桃.基于SDD算法的中文農(nóng)業(yè)搜索引擎設(shè)計與實現(xiàn)[J].農(nóng)業(yè)圖書情報學(xué)刊,2008(11):48-50.

        [3] 劉艷華,徐 勇.不同搜索引擎在農(nóng)業(yè)領(lǐng)域的應(yīng)用效果對比[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2009(8):25-29.

        [4] 張 彧.基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D].北京:北京郵電大學(xué),2013.

        [5] 農(nóng)學(xué)分類.農(nóng)學(xué)[EB/OL].http://baike.baidu.com/view/100209.html.2014-05-10.

        [6] 水產(chǎn)科學(xué)[EB/OL].http://baike.baidu.com/view/76777.html.2014-05-05.

        [7] 林業(yè)科學(xué)[EB/OL].http://baike.baidu.com/view/76775.html.2013-04-19.

        [8] 王德廣,周志剛,梁 旭.PageRank算法的分析及其改進(jìn)[J].計算機(jī)工程,2010,36(22):291-292.

        [9] 黃德才,戚華春.PageRank算法研究[J].計算機(jī)工程,2006, 32(4):145-146.

        猜你喜歡
        設(shè)計
        二十四節(jié)氣在平面廣告設(shè)計中的應(yīng)用
        河北畫報(2020年8期)2020-10-27 02:54:06
        何為設(shè)計的守護(hù)之道?
        《豐收的喜悅展示設(shè)計》
        流行色(2020年1期)2020-04-28 11:16:38
        基于PWM的伺服控制系統(tǒng)設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        基于89C52的32只三色LED搖搖棒設(shè)計
        電子制作(2019年15期)2019-08-27 01:11:50
        基于ICL8038的波形發(fā)生器仿真設(shè)計
        電子制作(2019年7期)2019-04-25 13:18:16
        瞞天過?!律O(shè)計萌到家
        設(shè)計秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        從平面設(shè)計到“設(shè)計健康”
        商周刊(2017年26期)2017-04-25 08:13:04
        免费无码又黄又爽又刺激| 开心五月激情五月天天五月五月天 | 亚洲AV日韩Av无码久久| 国产免费人成视频在线观看播放播 | 亚洲视频观看一区二区| 变态调教一区二区三区女同| 中国女人内谢69xxxx免费视频| 91av精品视频| 偷拍av一区二区三区| 美女视频在线观看亚洲色图| 国产xxxxx在线观看| 夜夜综合网| 亚洲视频中文字幕更新| av中文字幕一区不卡| 国产精品欧美福利久久| 啪啪无码人妻丰满熟妇| 伊人久久大香线蕉综合av| 亚洲中文字幕午夜精品| 亚洲人成电影在线观看天堂色| 无码毛片高潮一级一免费| 高清成人在线视频播放| 成人片黄网站a毛片免费| 久久精品无码免费不卡| 国产亚洲欧美另类第一页| 国产91会所女技师在线观看| 亚洲成av人的天堂在线观看| 91日韩高清在线观看播放| 免费av网址一区二区| 亚洲av无码乱码国产麻豆| 摸进她的内裤里疯狂揉她动视频| 亚欧免费视频一区二区三区| 日本女优久久精品观看| 97久久精品人妻人人搡人人玩 | 久久亚洲成a人片| 一区二区中文字幕在线观看污污| 日本高清视频永久网站www| 99热在线精品播放| 国产精品亚洲在钱视频| 日韩大片高清播放器大全| 久久丫精品国产亚洲av| 中文字幕在线人妻视频|