亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新聞類垂直搜索引擎系統(tǒng)研究與設(shè)計

        2016-12-27 07:59:10方志民戴洋洋董淑珍溫芳馨宋新航
        關(guān)鍵詞:搜索引擎網(wǎng)頁頁面

        方志民,戴洋洋,董淑珍,李 渤,溫芳馨,宋新航

        (黑龍江工程學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050)

        新聞類垂直搜索引擎系統(tǒng)研究與設(shè)計

        方志民,戴洋洋,董淑珍,李 渤,溫芳馨,宋新航

        (黑龍江工程學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050)

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,新聞類信息資源呈現(xiàn)出信息量大且分散、種類多、具有不一致性和不完整性等特點,傳統(tǒng)的通用搜索引擎服務(wù)已不能解決網(wǎng)民對新聞信息獲取要求精、準(zhǔn)、全、快的問題。采用垂直搜索引擎,利用JAVA語言和MYSQL數(shù)據(jù)庫,設(shè)計并實現(xiàn)一個包括網(wǎng)絡(luò)信息爬取、信息存儲、索引創(chuàng)建、索引查詢、頁面查詢與展示等功能的新聞類垂直搜索引擎系統(tǒng)。該系統(tǒng)可以實現(xiàn)人們對新聞類資源信息的無誤定位,具有快速、準(zhǔn)確、實時、實用等特點。

        搜索引擎;垂直搜索;新聞搜索;互聯(lián)網(wǎng)

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Internet上的信息量呈爆炸性增長,現(xiàn)實生活中人們經(jīng)常通過搜索關(guān)鍵詞進(jìn)行信息檢索。然而,這種查找方式通常會得到成千上萬條信息,其中包含大量不相關(guān)信息、重復(fù)信息和死鏈接等,用戶在很短的時間內(nèi)很難準(zhǔn)確地篩選出最重要的信息,特別是對于特定行業(yè)的科研和從業(yè)人員,希望通過搜索得到更專業(yè)、更深入和更有價值的信息。

        根據(jù)搜索的內(nèi)容范圍,搜索引擎可分為綜合型和專題型檢索工具,即水平搜索引擎與垂直搜索引擎[1]。綜合搜索引擎的資源非常豐富,用戶可以利用它來檢索任何類型的信息資源,但它搜索出的信息內(nèi)容無序,查詢不準(zhǔn)確,有較多的死鏈接,并且深度也不夠。垂直搜索引擎是一種新的搜索引擎服務(wù)模式,主要針對某一特定領(lǐng)域、人群及需求提供有一定價值的信息和相關(guān)服務(wù),其特點就是專、精、深且具有行業(yè)色彩[2-3]。

        現(xiàn)今很多大型的網(wǎng)站如Google、Baidu、Yahoo、Bing在綜合搜索引擎方面做出了非常好的范例,從各種角度滿足著個人對信息量的需求。針對行業(yè)的特點,運用垂直引擎專門針對旅游愛好者,開發(fā)的去哪兒、攜程、途牛等網(wǎng)站,還有大家比較熟悉的大眾點評網(wǎng)站、高德地圖等等。運用垂直引擎開發(fā)的系統(tǒng)和網(wǎng)站追求專業(yè)性與服務(wù)深度,具有重復(fù)率低、相關(guān)性強(qiáng)、查準(zhǔn)率高的特點。新聞信息是一種特殊形態(tài)的信息,新聞標(biāo)題都是以簡短的文句概括新聞內(nèi)容,集中體現(xiàn)新聞的傳播價值。隨著信息化網(wǎng)絡(luò)的日益成熟,紛繁復(fù)雜的網(wǎng)絡(luò)新聞在網(wǎng)絡(luò)媒體中進(jìn)行傳播[4]。對新聞愛好者卻沒有提供功能相對完善的系統(tǒng)和網(wǎng)站,用戶迫切需要一個數(shù)據(jù)分類細(xì)致、精確、全面、更新及時的、面向特征的搜索技術(shù)和方法來獲得新聞資源信息。

        1 新聞類垂直搜索引擎總體設(shè)計

        1.1 組成結(jié)構(gòu)

        垂直搜索引擎主要由網(wǎng)絡(luò)蜘蛛、索引與搜索、Web服務(wù)三大模塊組成,如圖1所示。網(wǎng)絡(luò)蜘蛛也被稱為“網(wǎng)絡(luò)機(jī)器人”(Spider),網(wǎng)絡(luò)蜘蛛模塊主要負(fù)責(zé)網(wǎng)絡(luò)信息提取與存儲[5]。該模塊能夠爬行指定網(wǎng)站,從互聯(lián)網(wǎng)的網(wǎng)頁上抓取所需要的數(shù)據(jù),并將抓取回來的頁面(主要是目標(biāo)網(wǎng)站的基本信息頁面)保存于服務(wù)器中。索引模塊包括索引器和索引數(shù)據(jù)庫、中文分詞子模塊和網(wǎng)頁過濾子模塊。索引器將原始數(shù)據(jù)庫的內(nèi)容重新組織,建立索引數(shù)據(jù)庫,以提高檢索效率。搜索模塊根據(jù)用戶輸入搜索內(nèi)容,搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索,然后把符合查詢要求的數(shù)據(jù)按照特定的策略進(jìn)行分級排列并且返回給用戶。Web服務(wù)模塊負(fù)責(zé)查詢頁面、信息檢索、搜索結(jié)果頁面的展示功能,包括負(fù)責(zé)監(jiān)聽服務(wù)器端口、調(diào)用搜索模塊的接口進(jìn)行查詢等功能。

        圖1 垂直搜索引擎的組成結(jié)構(gòu)

        1.2 工作原理

        新聞類垂直搜索引擎主要有3個基本模塊:網(wǎng)絡(luò)蜘蛛模塊、索引與搜索模塊、Web服務(wù)模塊,在工作原理上同通用搜索引擎基本相同。

        網(wǎng)絡(luò)蜘蛛模塊保證在輸入一定搜索關(guān)鍵字之后,對信息進(jìn)行采集,根據(jù)信息的匹配程度,把能夠滿足用戶需求的信息提取出來[6]。模塊又分為Spider模塊和網(wǎng)頁評分模塊。Spider模塊是搜索器,主要依靠主題網(wǎng)絡(luò)爬蟲程序自動爬取符合爬取策略的相關(guān)網(wǎng)頁信息,包括提取網(wǎng)頁中的鏈接信息,為下一次爬取提供網(wǎng)頁地址;提取正文內(nèi)容,存入數(shù)據(jù)庫,以便供索引模塊對其進(jìn)行索引工作。網(wǎng)頁評分模塊根據(jù)文檔的內(nèi)容,判斷文檔的內(nèi)容和主題是否相關(guān),如果相關(guān),在文檔中的標(biāo)題、正文、超鏈接中會有和主題相關(guān)的關(guān)鍵詞,給每個關(guān)鍵詞一個權(quán)重,就能夠訪問和主題相關(guān)的URL[7]。為了實現(xiàn)網(wǎng)絡(luò)信息的定向提取、存儲,本系統(tǒng)采用了Google提出的網(wǎng)頁評分機(jī)制PageRank 算法[8-9],實現(xiàn)了網(wǎng)絡(luò)信息的定向提取、存儲。實踐證明PageRank能夠大幅度地提高檢索之后返回結(jié)果的質(zhì)量。

        索引與搜索模塊主要部件是索引器與檢索器。索引器是根據(jù)上述搜索器搜索得到的信息,經(jīng)過一系列的處理得到的關(guān)鍵詞,建立從關(guān)鍵字到網(wǎng)頁URL(統(tǒng)一資源定位器)的關(guān)系索引倒排文檔,即建立索引數(shù)據(jù)庫。同時索引需要及時更新,更新的內(nèi)容存入到索引數(shù)據(jù)庫中。中文分詞模塊采用的是Lucene中文分詞技術(shù),用于構(gòu)建中文搜索引擎。網(wǎng)頁過濾模塊用于對網(wǎng)頁信息進(jìn)行結(jié)構(gòu)化抽取,然后把提取的數(shù)據(jù)進(jìn)行深度加工處理,過濾網(wǎng)頁噪聲。檢索器的功能是根據(jù)用戶輸入的查詢詞,在索引數(shù)據(jù)庫中進(jìn)行查詢詞與索引數(shù)據(jù)庫的匹配算法,然后將查詢結(jié)果按相關(guān)程度排序并輸出到瀏覽器上。

        Web服務(wù)模塊搜索引擎大部分都是通過Web服務(wù)向用戶提供搜索功能,這就需要系統(tǒng)提供Web服務(wù)并且與索引數(shù)據(jù)庫進(jìn)行連接??蛻糨斎胨阉鲀?nèi)容在瀏覽器中,Web服務(wù)接收到客戶的搜索內(nèi)容后在索引數(shù)據(jù)庫中進(jìn)行查詢、整理并將其返回給客戶端,實現(xiàn)為用戶提供搜索服務(wù)的功能。

        2 模型實現(xiàn)與驗證

        2.1 系統(tǒng)實現(xiàn)

        為了驗證提出的新聞類垂直搜索引擎系統(tǒng)的有效性,對所設(shè)計的垂直搜索引擎系統(tǒng)進(jìn)行了模擬實現(xiàn)。網(wǎng)絡(luò)蜘蛛功能首先加載配置文件,讀取配置信息,包括網(wǎng)站種子鏈接、鏈接過濾方式等信息。然后,進(jìn)行初始化操作,包括種子鏈接初始化、數(shù)據(jù)庫鏈接初始化、爬取策略初始化、蜘蛛程序初始化。最后,創(chuàng)建執(zhí)行程序?qū)嵗M(jìn)行信息提取。索引模塊和查詢模塊使用Lucene框架對數(shù)據(jù)庫中各字段數(shù)據(jù)進(jìn)行分詞索引,并使用Lucene提供的查詢功能實現(xiàn)Web查詢[10]。Web服務(wù)功能使用Tomcat作為Web容器,采用JSP進(jìn)行前臺頁面展示,Java進(jìn)行后臺業(yè)務(wù)邏輯運算。新聞類搜索引擎的查詢與展示頁面如圖2所示。

        圖2 新聞類搜索引擎的查詢與展示頁面

        2.2 模型驗證

        為了滿足用戶對信息查詢的需求,提高用戶的搜索體驗,覆蓋率和準(zhǔn)確率是兩個非常重要的性能指標(biāo)。但是,由于覆蓋率要涉及整個Web中信息資源的分布情況,在現(xiàn)實測試中一般很難得到,所以不進(jìn)行覆蓋率測試。準(zhǔn)確率是表示網(wǎng)絡(luò)中所采集的相關(guān)網(wǎng)頁數(shù)和所有采集的頁面數(shù)的比率[11]。本文對系統(tǒng)的準(zhǔn)確率、響應(yīng)時間、穩(wěn)定性等進(jìn)行了測試,系統(tǒng)運行環(huán)境為:內(nèi)存4 GB、CPU 3.3 GHz、硬盤500 G、網(wǎng)絡(luò)100 M、操作系統(tǒng)Windows 7 、Web服務(wù)器為Tomcat服務(wù)器,系統(tǒng)運行1 h后的實驗結(jié)果如表1所示。從表1可以看出,該系統(tǒng)響應(yīng)時間快、系統(tǒng)穩(wěn)定性好、準(zhǔn)確率高。

        表1 Spdier準(zhǔn)確率測試數(shù)據(jù)

        3 結(jié)束語

        本文開發(fā)的面向新聞類信息檢索的垂直搜索引擎系統(tǒng)彌補了傳統(tǒng)搜索引擎技術(shù)在新聞檢索領(lǐng)域存在的缺陷,不僅能使新聞用戶從眾多的新聞來源中快速獲取自己想要的信息,還能保證在新聞的完整性以及各種評論等數(shù)據(jù)準(zhǔn)確性的情況下,自動進(jìn)行數(shù)據(jù)的抓取分析,保證用戶能夠?qū)崟r查看新聞的最新相關(guān)消息以及發(fā)展情形。最后,該系統(tǒng)還能對異常情況做出快速處理,具有一定的靈活性。

        [1] 陳新顏.垂直搜索引擎辨析[J]. 現(xiàn)代情報,2004, 24(9):133-134.

        [2] 季春, 姜琴, 吳錚悅. 垂直搜索引擎關(guān)鍵技術(shù)研究綜述[J]. 情報探索, 2012(10):91-93.

        [3] 趙海智. 淺談計算機(jī)技術(shù)在現(xiàn)代社會發(fā)展中的重要性[J]. 中國科教創(chuàng)新導(dǎo)刊, 2012(23):175-175.

        [4] 賀立凱. 淺析網(wǎng)絡(luò)新聞標(biāo)題的特色[J]. 北方文學(xué)旬刊, 2015(3):177-178.

        [5] 張彧. 基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D]. 北京:北京郵電大學(xué), 2013.

        [6] 徐玲玉, 何利力. 淺析垂直搜索引擎的應(yīng)用[J]. 計算機(jī)光盤軟件與應(yīng)用, 2014(10):101-102.

        [7] 張啟宇, 于輝輝, 陳英義,等. 基于農(nóng)業(yè)垂直搜索引擎中文分詞詞典的構(gòu)建研究[J]. 廣東農(nóng)業(yè)科學(xué), 2015, 42(3):165-169.

        [8] BRIN S, PAGE L, MOTWAMI R, et al. The PageRank citation ranking: bringing order to the web. Technical Report 199-0120, Computer Science Department, Stanford University, Stanford, CA, 1999.

        [9] KAMVAR S D, HAVELIWALA T H, GOLUB G H. Adaptive methods for the computation of PageRank. Linear Algebra Appl, 2004, 386: 51-56.

        [10] 宋獻(xiàn)民, 逄煥利, 魏姁妲. 基于lucene的垂直搜索引擎的研究與設(shè)計[J]. 信息技術(shù)與信息化, 2015(1):147-148.

        [11] 周屹, 辛壯, 方志民,等. 基于自然交互的教學(xué)輔助系統(tǒng)研究與設(shè)計[J]. 黑龍江工程學(xué)院學(xué)報, 2015(6):38-40.

        [責(zé)任編輯:郝麗英]

        Research and design of news vertical search engine system

        FANG Zhimin,DAI Yangyang,DONG Shuzhen,WEN Fangxin,LI Bo,SONG Xinhang

        (College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China)

        With the rapid development of Internet technology, news information shows the characteristics of amouts, disperstiveness, variety, inconsistency and incompleteness. Traditional search engine can not cater to the Internet users` need of grabbing information precisely, comprehensively and quickly. This paper uses a vertical search engine, supported by JAVA and MYSQL database, to design and achieve a news search engine system covering network information crawling, information storage, index creation, index query, interface query and display. This system can realize the accurate positioning of information resources, and has the characteristics of being fast, accurate, real-time, practical and so on.

        search engine; vertical search; news search; Internet

        10.19352/j.cnki.issn1671-4679.2016.06.008

        2016-09-20

        黑龍江省大學(xué)生創(chuàng)新訓(xùn)練項目(201611802087);黑龍江省大學(xué)生創(chuàng)新訓(xùn)練項目(201511802013)

        方志民(1994-),男,本科生,研究方向:網(wǎng)絡(luò)應(yīng)用.

        TP391.3

        A

        1671-4679(2016)06-0035-03

        猜你喜歡
        搜索引擎網(wǎng)頁頁面
        大狗熊在睡覺
        刷新生活的頁面
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        廣告主與搜索引擎的雙向博弈分析
        同一Word文檔 縱橫頁面并存
        精品视频手机在线免费观看| 2021久久最新国产精品| 成人午夜免费福利| av男人天堂网在线观看| 强开小婷嫩苞又嫩又紧视频 | 国产精品人伦一区二区三| 女人脱了内裤趴开腿让男躁| 曰本极品少妇videossexhd| 久久久午夜毛片免费| 日韩激情视频一区在线观看| 热99re久久精品这里都是精品免费| 97久久香蕉国产线看观看| 无码人妻av一二区二区三区 | 中文字幕视频一区二区| 国产性自爱拍偷在在线播放| 天天躁日日躁狠狠躁av| 日韩亚洲中文图片小说| 少妇被躁到高潮和人狍大战| 免费又黄又爽又色的视频| 国产精品人妻一区夜夜爱| 日韩在线视频不卡一区二区三区| 亚洲中文字幕精品久久a| а√天堂资源官网在线资源| 亚洲AV成人无码久久精品老人| 精品国产又大又黄又粗av| 蜜桃91精品一区二区三区| 高清破外女出血av毛片| 国产男女插插一级| 午夜视频一区二区在线观看 | 国产精品久久久久久影视| 美女爽好多水快进来视频| 男女互舔动态视频在线观看| 麻豆tv入口在线看| 亚洲综合色一区二区三区小说| 中文字幕 在线一区二区| 午夜性刺激免费看视频| 99偷拍视频精品一区二区| 一区二区三区国产高潮| 日韩精品人妻系列中文字幕| 欧美日韩视频在线第一区| 国产精品福利小视频|