亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        垂直搜索引擎的研究現(xiàn)狀綜述

        2017-03-10 23:17:28宋金平馬曉娟
        環(huán)球市場(chǎng) 2017年27期
        關(guān)鍵詞:搜索引擎結(jié)構(gòu)化網(wǎng)頁

        宋金平 馬曉娟

        集寧師范學(xué)院計(jì)算機(jī)系

        垂直搜索引擎的研究現(xiàn)狀綜述

        宋金平 馬曉娟

        集寧師范學(xué)院計(jì)算機(jī)系

        垂直搜索是針對(duì)某些特定應(yīng)用、特定任務(wù)或者特定領(lǐng)域的結(jié)構(gòu)化內(nèi)容的搜索技術(shù),是對(duì)Web信息中的某類專門的信息進(jìn)行整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶的搜索方式。垂直搜索引擎是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式,針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求,提供有一定價(jià)值的信息和相關(guān)服務(wù)。相比較通用搜索引擎的海量信息無序化,垂直搜索引擎更加專注、具體和深入。本文主要探討垂直搜索引擎的研究現(xiàn)狀。

        垂直搜索;定向搜索;數(shù)據(jù)集成

        1.1 基于主題的定向搜索

        基于主題的定向搜索又叫主題信息采集,并不是一個(gè)新的研究課題,它針對(duì)的是某一具體的主題信息,主題信息采集試圖去辨別與主題最相關(guān)的信息而舍棄那些不相關(guān)的信息,從而達(dá)到縮小信息采集范圍、降低信息容量、減少系統(tǒng)開銷和提高數(shù)據(jù)更新率的目的。同時(shí),由于主題信息采集著重考慮被采集信息的主題,具有針對(duì)性強(qiáng)、專業(yè)性強(qiáng)的特點(diǎn),從而能更好地滿足建設(shè)特色信息資源,專業(yè)性較強(qiáng)的信息資源的需要。

        1.2 深度Web的領(lǐng)域數(shù)據(jù)集成

        互聯(lián)網(wǎng)上的Web數(shù)據(jù)近年來呈爆炸式發(fā)展,就Web數(shù)據(jù)蘊(yùn)含信息的“深度”來說,一般將其分為Surface Web和Deep Web兩大部分,Surface Web通常是指通過Web上的HTTP超鏈接能夠直接訪問到的靜態(tài)頁面的集合,目前搜索引擎的工作基本集中在淺層Web上。而Deep Web指的是可以通過Web在線訪問數(shù)據(jù)庫(kù)的集合。Deep Web不僅規(guī)模巨大,覆蓋了現(xiàn)實(shí)世界的所有主題,而且對(duì)Deep Web的訪問量要高于Surface Web一半以上。對(duì)于Deep Web,即使是Google這樣的搜索引擎,也僅僅只爬取了約5%的最新內(nèi)容。對(duì)于Deep Web的研究主要是要解決如下的問題:

        (1)發(fā)現(xiàn)并抽?。横槍?duì)Deep Web數(shù)據(jù)的抽取方法一般而言有四類方法,第一種是基于字符串的方法,把整個(gè)網(wǎng)頁文本看成線性的字符串,然后通過相應(yīng)的方法歸納出對(duì)字符串中目標(biāo)數(shù)據(jù)的抽取規(guī)則;第二種是基于DOM Tree的工具,將網(wǎng)頁轉(zhuǎn)換成DOM樹,然后抽取出DOM樹中相應(yīng)數(shù)據(jù);第三種是利用類似視覺信息或者Web頁面腳本信息來進(jìn)行頁面信息抽取的方法;第四種是利用語義標(biāo)注或者本體Ontology的方法。

        (2)結(jié)構(gòu)化集成:Deep Web同時(shí)被稱為Web Database,大部分Deep Web的動(dòng)態(tài)內(nèi)容是由結(jié)構(gòu)化的數(shù)據(jù)庫(kù)底層提供的。由于Deep Web的數(shù)據(jù)規(guī)模過于龐雜,內(nèi)涵的數(shù)據(jù)模式(schema)也是多種多樣,對(duì)于Web底層數(shù)據(jù)的集成,是否結(jié)構(gòu)和模式越多,數(shù)據(jù)所表現(xiàn)的特征就越“無結(jié)構(gòu)化”。垂直搜索引擎面向的正是單個(gè)領(lǐng)域內(nèi)的Deep Web數(shù)據(jù),結(jié)構(gòu)化處理相對(duì)簡(jiǎn)單。

        (3)去除噪音和重復(fù)數(shù)據(jù):在Crawler抓取網(wǎng)頁,從中獲取所需信息的同時(shí),還會(huì)常常獲取大量和本文所關(guān)心內(nèi)容無關(guān)的“噪音”內(nèi)容,有效的去除和網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,提取網(wǎng)頁的元數(shù)據(jù)信息,如關(guān)鍵詞、摘要、網(wǎng)頁內(nèi)容類別等,是Web信息處理的一項(xiàng)重要內(nèi)容。在網(wǎng)頁搜集的過程中,通過URL的MD5摘要計(jì)算,我們可以完全避免對(duì)相同的URL執(zhí)行多次網(wǎng)頁抓取過程。但這并不保證抓到系統(tǒng)中來的網(wǎng)頁都是不同的。Web上大量的網(wǎng)頁鏡像和轉(zhuǎn)載現(xiàn)象使得內(nèi)容真正“獨(dú)立的”網(wǎng)頁要比實(shí)際搜集到的網(wǎng)頁數(shù)量少很多。將相似的網(wǎng)頁識(shí)別出來,當(dāng)查詢發(fā)生時(shí)只返回一個(gè)代表,這同樣是整合Web數(shù)據(jù)時(shí)的重要工作。

        1.3 垂直搜索系統(tǒng)的性能指標(biāo)

        數(shù)據(jù)采集和用戶查詢的效率是垂直搜索引擎系統(tǒng)至關(guān)重要的性能指標(biāo)。垂直搜索引擎系統(tǒng)和傳統(tǒng)的通用搜索引擎系統(tǒng)相似。這里有三個(gè)需要重視的要點(diǎn):

        (1)可以接受的時(shí)間

        一般指垂直搜索引擎的響應(yīng)時(shí)間,有研究指出,作為Web公共服務(wù),大型搜索引擎的響應(yīng)時(shí)間不應(yīng)超過3秒,垂直搜索引擎由于返回的網(wǎng)頁信息、列表與用戶感興趣的領(lǐng)域知識(shí)相關(guān)度較高,用戶可以接受的系統(tǒng)響應(yīng)時(shí)間也相對(duì)較長(zhǎng),但是響應(yīng)時(shí)間也應(yīng)保持在“秒”的量級(jí),本文認(rèn)為,一個(gè)高效的垂直搜索引擎系統(tǒng)響應(yīng)時(shí)間不應(yīng)超過5秒。

        (2)最新領(lǐng)域內(nèi)網(wǎng)頁信息

        垂直搜索引擎的信息和數(shù)據(jù)都是從互聯(lián)網(wǎng)上采集并集成的,如何盡量保證這些信息數(shù)據(jù)是最新的,就要求垂直搜索引擎的信息采集系統(tǒng)數(shù)據(jù)采集是高效、增量式的。對(duì)于垂直搜索引擎來說,信息采集的效率非常重要,而采用怎樣頻度的“重新抓取”要取決于垂直搜索引擎所專注的領(lǐng)域。除新聞網(wǎng)站外,許多網(wǎng)頁的內(nèi)容變化并不是很經(jīng)常的,這樣做每次搜集的網(wǎng)頁量不會(huì)很大。因此,與新聞相關(guān)的垂直搜索引擎可以提高“重新抓取”的頻率,而與學(xué)術(shù)文章類相關(guān)的垂直搜索引擎可以相應(yīng)降低“重新抓取”的頻率。

        (3)與用戶查詢匹配的有序列表

        在傳統(tǒng)的搜索引擎中,“與用戶查詢匹配”一般就是指網(wǎng)頁包含用戶查詢的關(guān)鍵詞。然而垂直搜索引擎由于數(shù)據(jù)源較為單一,數(shù)據(jù)與領(lǐng)域信息高度相關(guān)且高度集成,可以適當(dāng)調(diào)整“與用戶查詢匹配”的定義,在一定的語義范圍內(nèi),不包含用戶查詢關(guān)鍵詞的網(wǎng)頁或是數(shù)據(jù)條目也可以返回給用戶,以自動(dòng)擴(kuò)展用戶查詢的語義。此時(shí),我們需要一個(gè)完全不同的“用戶查詢匹配度”的排序方法,而且這個(gè)排序方法必須同時(shí)是高效的。

        垂直搜索引擎面向的是海量的領(lǐng)域Web網(wǎng)頁數(shù)據(jù),與現(xiàn)代大規(guī)模、高性能的搜索引擎相同,采取三段式的工作流程,即網(wǎng)頁數(shù)據(jù)采集、預(yù)處理和查詢服務(wù)。

        因此,高效的垂直搜索引擎必須具備以下的三個(gè)特征:

        (1)具備高穩(wěn)定性和高效率的數(shù)據(jù)采集模塊。

        (2)高效的解析和存儲(chǔ)網(wǎng)頁數(shù)據(jù)。

        (3)高性能的用戶查詢模塊提供快速的系統(tǒng)響應(yīng)。

        對(duì)于高性能的垂直搜索引擎來說,以上三個(gè)階段的工作都應(yīng)當(dāng)是并行、分布式完成的,典型的樞架結(jié)構(gòu)。

        某個(gè)行業(yè)領(lǐng)域的歷史發(fā)展、最新動(dòng)向、趨勢(shì)都是行業(yè)從業(yè)人員非常關(guān)注的話題。垂直搜索引擎集中了行業(yè)領(lǐng)域內(nèi)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的數(shù)據(jù)挖掘、智能分析以及可視化展示,將為行業(yè)創(chuàng)造非常有價(jià)值的信息增值服務(wù)。

        [1]王文鈞等,垂直搜索引擎的現(xiàn)狀與發(fā)展研究[J].情報(bào)科學(xué),2010(28):477-480

        [2]楊皖蘇等,垂直搜索引擎發(fā)展策略探討[J].商業(yè)時(shí)代,2009(23):94-95

        項(xiàng)目名稱:基于云計(jì)算的教學(xué)資源垂直搜索研究,項(xiàng)目編號(hào):NJZC14291,批準(zhǔn)單位:內(nèi)蒙古教育廳,姓名:宋金平,單位:集寧師范學(xué)院

        項(xiàng)目名稱:基于TCPN的SIP協(xié)議形式化驗(yàn)證與分析,項(xiàng)目編號(hào):NJZY283,批準(zhǔn)單位:內(nèi)蒙古教育廳,姓名:馬曉娟,單位:集寧師范學(xué)院

        猜你喜歡
        搜索引擎結(jié)構(gòu)化網(wǎng)頁
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        廣告主與搜索引擎的雙向博弈分析
        色欲aⅴ亚洲情无码av蜜桃| 亚洲天堂亚洲天堂亚洲色图| 丝袜美腿亚洲第一免费| 欧美成人午夜免费影院手机在线看 | 亚洲欧洲日产国码高潮αv| 欧美成人高清手机在线视频| 蜜桃在线观看免费高清| 阴唇两边有点白是怎么回事| 精品卡一卡二卡3卡高清乱码| 久久精品国产网红主播| 久久亚洲av永久无码精品| 亚洲国产视频精品一区二区| 亚洲国产大胸一区二区三区| 精品国产一区二区三区三| 久久久亚洲精品无码| 亚洲精品自产拍在线观看| 日韩肥熟妇无码一区二区三区| 成人黄色片久久久大全| 第一次处破女18分钟高清| 久久精品免费一区二区三区| 国产精品无码无片在线观看3D| 成人综合亚洲国产成人| 久久亚洲中文字幕精品熟| 香港aa三级久久三级| 国产高潮国产高潮久久久| 国产福利小视频91| 蜜桃久久综合一区二区| 亚洲成a人片在线观看无码专区| 精产国品一二三产品蜜桃| 国产在线观看黄| 精品国产3p一区二区三区| 国产自拍视频免费在线| 亚洲日韩国产一区二区三区在线| 亚洲AV一二三四区四色婷婷| 亚洲视频一区二区蜜桃| 女同同志熟女人妻二区| 国产一区二区三区免费观看在线| 成人国产精品一区二区网站| 黑人一区二区三区高清视频| 少妇下面好爽好紧好湿一区二区| 国产女人的高潮国语对白|