亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Nutch的搜索引擎的研究

        2016-05-14 07:11:51杜旭升
        電子技術(shù)與軟件工程 2016年6期
        關(guān)鍵詞:搜索引擎開源網(wǎng)頁(yè)

        摘 要面對(duì)互聯(lián)網(wǎng)浩如煙海的信息,如何從中挑選出合理、排序公平的搜索結(jié)果是當(dāng)今的一大難題。Nutch擁有開放的結(jié)果排序算法,且具有一個(gè)大型分布式搜索引擎所需的基本功能,研究Nutch對(duì)于我們更加深入的了解搜索引擎具有突出的作用。

        【關(guān)鍵詞】搜索引擎 Nutch

        二十一世紀(jì)是互聯(lián)網(wǎng)的時(shí)代,隨著科技的發(fā)展,互聯(lián)網(wǎng)已經(jīng)深入到普羅大眾的日常生活中。然而面對(duì)如此巨量的信息,我們卻顯得不知所措。Nutch的誕生為我們從多如牛毛的信息中提取出相對(duì)公平客觀的信息提供了巨大的幫助。Nutch擁有搜索引擎的一些基本功能,并擁有自身特別的對(duì)網(wǎng)頁(yè)價(jià)值評(píng)定的算法,努力為使用者提供最合理的搜索結(jié)果。

        1 Nutch簡(jiǎn)介

        Nutch是一個(gè)開源的、java實(shí)現(xiàn)的搜索引擎。雖然市場(chǎng)上已經(jīng)有比較成熟的幾款searcher engine,但并不妨礙我們對(duì)Nutch的研究,對(duì)Nutch的學(xué)習(xí)主要是因?yàn)椋?/p>

        1.1 透明度

        Nutch是一款開源軟件,因此任何開發(fā)者都可以看到它內(nèi)部的排序算法。因此Nutch比較適合對(duì)結(jié)果的公平性相對(duì)較高信息的查詢。

        1.2 可以加深對(duì)搜索引擎的深入了解

        Nutch的研究可以讓我們更好的了解到一個(gè)大型分布式的搜索引擎是如何工作的很有意義。

        2 Nutch的系統(tǒng)結(jié)構(gòu)和工作流程

        Nutch的基本組成主要包括爬蟲,索引,搜索三部分。其體系結(jié)構(gòu)如圖1所示。

        Nutch由Web-DB、LinkDB、Segements和Index的數(shù)據(jù)結(jié)構(gòu)提供數(shù)據(jù)支持,Nutch整個(gè)的工作流程可以分為如下幾步:

        (1)建立種子URL;

        (2)將種子URL加入到crawlDB數(shù)據(jù)庫(kù),整個(gè)網(wǎng)頁(yè)抓取過(guò)程將會(huì)從URL開始抓取,一直到指定的抓取層數(shù);

        (3)創(chuàng)建抓取列表;

        (4)執(zhí)行抓取,得到網(wǎng)頁(yè)內(nèi)容信息;

        (5)更新數(shù)據(jù)庫(kù);

        (6)重復(fù)進(jìn)行3~5的步驟,直到預(yù)先設(shè)定的抓取深度。

        (7)對(duì)于每一個(gè)Segement生成一個(gè)索引;

        (8)從這些索引中刪除冗余的網(wǎng)頁(yè)和URL;

        (9)將小索引合并成大的索引;

        (10)用戶通過(guò)用戶端口進(jìn)行查詢操作;

        (11)將用戶查詢轉(zhuǎn)化為L(zhǎng)ucene查詢;

        (12)返回結(jié)果。

        3 Nutch的技術(shù)分析

        Nutch主要由Crawler及Searcher組成。Crawler是從互聯(lián)網(wǎng)上抓取到網(wǎng)頁(yè),并且給每個(gè)網(wǎng)頁(yè)建立一個(gè)特定的索引。Searcher則是利用crawler建立的索引根據(jù)用戶查找的關(guān)鍵詞來(lái)查找出結(jié)果。Crawler與Searcher的接口是索引。

        3.1 Crawler的研究

        Crawler的重點(diǎn)是其運(yùn)行過(guò)程和包含的data file的格式和含義。data file主要包括三類,web database,Segement以及index。Crawler詳細(xì)工作流程是:在創(chuàng)建一個(gè)WebDB之后,“產(chǎn)生/抓取/更新”循環(huán)根據(jù)一些種子URLs開始啟動(dòng)。當(dāng)這個(gè)循環(huán)徹底結(jié)束,Crawler根據(jù)抓取中生成的Segement創(chuàng)建索引。在進(jìn)行URLs清除之前,每個(gè)Segement的索引都是獨(dú)立的。最終,各個(gè)獨(dú)立的Segement索引被合并為一個(gè)最終的索引index。

        3.2 Nutch的網(wǎng)頁(yè)去噪

        網(wǎng)頁(yè)去噪主要是去除掉廣告標(biāo)簽等無(wú)用的信息,盡量獲取到網(wǎng)頁(yè)的實(shí)質(zhì)性內(nèi)容,對(duì)于一個(gè)網(wǎng)頁(yè),去噪過(guò)程包括以下步驟:

        (1)在

        標(biāo)簽中抽取正文題目,根據(jù)標(biāo)志字“by”,“l(fā)ast modified”等來(lái)抽取作者,修改日期等信息。

        (2)利用HtmlParse去除掉各種腳本、圖片等信息,得到只有鏈接和文本的字符串。

        (3)利用網(wǎng)頁(yè)的一般性特征去除掉導(dǎo)航欄文字,去除所有以“<”和“>”標(biāo)識(shí)的鏈接文字。

        (4)去除版權(quán)聲明信息。

        經(jīng)過(guò)上述四種方法,基本上能夠去除掉廣告、導(dǎo)航信息、客戶端代碼等相對(duì)沒有value的信息,對(duì)于獲得比較好的網(wǎng)頁(yè)內(nèi)容具有極大的幫助。

        4 Nutch的對(duì)比分析

        通過(guò)搜索,我們將Nutch與時(shí)下比較好的開源搜索引擎進(jìn)行對(duì)比測(cè)評(píng),分別有Heritris、WCT、以及Web-Harvest。Nutch提供網(wǎng)頁(yè)的抓取,分析了解網(wǎng)頁(yè)、建立連接數(shù)據(jù)庫(kù)、對(duì)網(wǎng)頁(yè)進(jìn)行評(píng)分、建立Lucene索引和提供檢索界面登陸等。Heritrix提供了豐富的抓取設(shè)置選項(xiàng),完善的、精確的站點(diǎn)內(nèi)容深度復(fù)制。WCT能獲得目標(biāo)站點(diǎn)的深度采集授權(quán)、采集調(diào)度、資源描述等信息。Web-Harvest能以用戶所指定的網(wǎng)頁(yè)為抓取起始頁(yè),通過(guò)規(guī)則表達(dá)語(yǔ)法進(jìn)行多層抓取,形成XML文檔。

        從圖2可以看出,Nutch具有很強(qiáng)的對(duì)比優(yōu)勢(shì)。Nutch在抓取過(guò)程中,對(duì)于需要存儲(chǔ)空間較大,但又value不高的信息就有較高的優(yōu)勢(shì)。

        5 Nutch待改進(jìn)的方面

        經(jīng)過(guò)團(tuán)隊(duì)的不斷研究與測(cè)試,發(fā)現(xiàn)Nutch主要存在以下問題,影響了其性能的進(jìn)一步提高:

        5.1 等待時(shí)間僵化

        Nutch抓取網(wǎng)頁(yè)上的內(nèi)容主要是利用protocol-http實(shí)現(xiàn)的。N每下載一個(gè)頁(yè)面等待時(shí)間都是Nutch-default.xml配置文件預(yù)設(shè)的固定值:http.max.delays和fetcher.server.delay,這在不同的網(wǎng)絡(luò)情況下會(huì)造成時(shí)間的巨大浪費(fèi)。

        5.2 抓取失敗的鏈接網(wǎng)站管理不夠

        Nutch對(duì)于抓取失敗的網(wǎng)頁(yè)鏈接沒有詳細(xì)的監(jiān)管??赡苣硞€(gè)網(wǎng)站關(guān)閉了,或者更換域名,但依然在其他的站點(diǎn)存在鏈接,如果被Nutch發(fā)現(xiàn)而且還一個(gè)一個(gè)去實(shí)驗(yàn),將會(huì)浪費(fèi)大量的時(shí)間和網(wǎng)絡(luò)資源。

        6 結(jié)束語(yǔ)

        Nutch由于透明的查詢算法,其搜索結(jié)果對(duì)用戶而言是比較公平的。然而Nutch離谷歌和百度等這些商業(yè)引擎依舊存在較大的差距,希望開發(fā)者們一起為Nutch的發(fā)展與完善貢獻(xiàn)出自己的一份力量。

        作者簡(jiǎn)介

        杜旭升(1995-),男,甘肅省慶陽(yáng)市人。現(xiàn)為新疆大學(xué)大學(xué)本科在讀學(xué)生。軟件工程專業(yè)。

        作者單位

        新疆大學(xué) 新疆維吾爾自治區(qū)烏魯木齊市 830000

        猜你喜歡
        搜索引擎開源網(wǎng)頁(yè)
        五毛錢能買多少頭牛
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大家說(shuō):開源、人工智能及創(chuàng)新
        開源中國(guó)開源世界高峰論壇圓桌會(huì)議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        開源計(jì)算機(jī)輔助翻譯工具研究
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
        国产精品三级av及在线观看 | 人妻熟女翘屁股中文字幕| AV无码系列一区二区三区| 欧美性群另类交| 国产一区二区三区免费观看在线| 性色av色香蕉一区二区蜜桃| 免费在线观看亚洲视频| 久久免费网国产AⅤ| 欧美性巨大╳╳╳╳╳高跟鞋 | 亚洲欧洲日产国码无码AV一| 国产综合无码一区二区色蜜蜜| 国产性自爱拍偷在在线播放| 日本三区在线观看视频| 午夜av内射一区二区三区红桃视| 宅男噜噜噜| a级毛片100部免费看| 久久精品无码一区二区日韩av| 日本亚洲中文字幕一区| 久久久精品国产亚洲av网不卡| 中文字幕无码日韩欧毛| 亚洲成人小说| 国产真人性做爰久久网站| 国产激情视频在线观看的| 国产女主播一区二区三区| 青青草视频在线免费视频| 久久亚洲aⅴ精品网站婷婷| 欧美喷潮系列在线观看| 国产精品美女久久久久 | 久久99精品久久久久久久清纯| 天天躁日日躁狠狠躁av| 日韩精品视频一区二区三区 | 无码国产精品一区二区免费模式| 日本精品少妇一区二区三区| 日本最新一区二区三区在线视频 | 无遮挡边吃摸边吃奶边做| 久久久受www免费人成| 精品国产综合区久久久久久| 亚洲一区二区三区四区精品在线| 国产夫妻自偷自拍第一页| 亚洲一区极品美女写真在线看 | 久久福利资源国产精品999|