宋金平 馬曉娟
集寧師范學(xué)院計(jì)算機(jī)系
垂直搜索引擎的研究現(xiàn)狀綜述
宋金平 馬曉娟
集寧師范學(xué)院計(jì)算機(jī)系
垂直搜索是針對(duì)某些特定應(yīng)用、特定任務(wù)或者特定領(lǐng)域的結(jié)構(gòu)化內(nèi)容的搜索技術(shù),是對(duì)Web信息中的某類專門的信息進(jìn)行整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶的搜索方式。垂直搜索引擎是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式,針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求,提供有一定價(jià)值的信息和相關(guān)服務(wù)。相比較通用搜索引擎的海量信息無序化,垂直搜索引擎更加專注、具體和深入。本文主要探討垂直搜索引擎的研究現(xiàn)狀。
垂直搜索;定向搜索;數(shù)據(jù)集成
基于主題的定向搜索又叫主題信息采集,并不是一個(gè)新的研究課題,它針對(duì)的是某一具體的主題信息,主題信息采集試圖去辨別與主題最相關(guān)的信息而舍棄那些不相關(guān)的信息,從而達(dá)到縮小信息采集范圍、降低信息容量、減少系統(tǒng)開銷和提高數(shù)據(jù)更新率的目的。同時(shí),由于主題信息采集著重考慮被采集信息的主題,具有針對(duì)性強(qiáng)、專業(yè)性強(qiáng)的特點(diǎn),從而能更好地滿足建設(shè)特色信息資源,專業(yè)性較強(qiáng)的信息資源的需要。
互聯(lián)網(wǎng)上的Web數(shù)據(jù)近年來呈爆炸式發(fā)展,就Web數(shù)據(jù)蘊(yùn)含信息的“深度”來說,一般將其分為Surface Web和Deep Web兩大部分,Surface Web通常是指通過Web上的HTTP超鏈接能夠直接訪問到的靜態(tài)頁面的集合,目前搜索引擎的工作基本集中在淺層Web上。而Deep Web指的是可以通過Web在線訪問數(shù)據(jù)庫(kù)的集合。Deep Web不僅規(guī)模巨大,覆蓋了現(xiàn)實(shí)世界的所有主題,而且對(duì)Deep Web的訪問量要高于Surface Web一半以上。對(duì)于Deep Web,即使是Google這樣的搜索引擎,也僅僅只爬取了約5%的最新內(nèi)容。對(duì)于Deep Web的研究主要是要解決如下的問題:
(1)發(fā)現(xiàn)并抽?。横槍?duì)Deep Web數(shù)據(jù)的抽取方法一般而言有四類方法,第一種是基于字符串的方法,把整個(gè)網(wǎng)頁文本看成線性的字符串,然后通過相應(yīng)的方法歸納出對(duì)字符串中目標(biāo)數(shù)據(jù)的抽取規(guī)則;第二種是基于DOM Tree的工具,將網(wǎng)頁轉(zhuǎn)換成DOM樹,然后抽取出DOM樹中相應(yīng)數(shù)據(jù);第三種是利用類似視覺信息或者Web頁面腳本信息來進(jìn)行頁面信息抽取的方法;第四種是利用語義標(biāo)注或者本體Ontology的方法。
(2)結(jié)構(gòu)化集成:Deep Web同時(shí)被稱為Web Database,大部分Deep Web的動(dòng)態(tài)內(nèi)容是由結(jié)構(gòu)化的數(shù)據(jù)庫(kù)底層提供的。由于Deep Web的數(shù)據(jù)規(guī)模過于龐雜,內(nèi)涵的數(shù)據(jù)模式(schema)也是多種多樣,對(duì)于Web底層數(shù)據(jù)的集成,是否結(jié)構(gòu)和模式越多,數(shù)據(jù)所表現(xiàn)的特征就越“無結(jié)構(gòu)化”。垂直搜索引擎面向的正是單個(gè)領(lǐng)域內(nèi)的Deep Web數(shù)據(jù),結(jié)構(gòu)化處理相對(duì)簡(jiǎn)單。
(3)去除噪音和重復(fù)數(shù)據(jù):在Crawler抓取網(wǎng)頁,從中獲取所需信息的同時(shí),還會(huì)常常獲取大量和本文所關(guān)心內(nèi)容無關(guān)的“噪音”內(nèi)容,有效的去除和網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,提取網(wǎng)頁的元數(shù)據(jù)信息,如關(guān)鍵詞、摘要、網(wǎng)頁內(nèi)容類別等,是Web信息處理的一項(xiàng)重要內(nèi)容。在網(wǎng)頁搜集的過程中,通過URL的MD5摘要計(jì)算,我們可以完全避免對(duì)相同的URL執(zhí)行多次網(wǎng)頁抓取過程。但這并不保證抓到系統(tǒng)中來的網(wǎng)頁都是不同的。Web上大量的網(wǎng)頁鏡像和轉(zhuǎn)載現(xiàn)象使得內(nèi)容真正“獨(dú)立的”網(wǎng)頁要比實(shí)際搜集到的網(wǎng)頁數(shù)量少很多。將相似的網(wǎng)頁識(shí)別出來,當(dāng)查詢發(fā)生時(shí)只返回一個(gè)代表,這同樣是整合Web數(shù)據(jù)時(shí)的重要工作。
數(shù)據(jù)采集和用戶查詢的效率是垂直搜索引擎系統(tǒng)至關(guān)重要的性能指標(biāo)。垂直搜索引擎系統(tǒng)和傳統(tǒng)的通用搜索引擎系統(tǒng)相似。這里有三個(gè)需要重視的要點(diǎn):
(1)可以接受的時(shí)間
一般指垂直搜索引擎的響應(yīng)時(shí)間,有研究指出,作為Web公共服務(wù),大型搜索引擎的響應(yīng)時(shí)間不應(yīng)超過3秒,垂直搜索引擎由于返回的網(wǎng)頁信息、列表與用戶感興趣的領(lǐng)域知識(shí)相關(guān)度較高,用戶可以接受的系統(tǒng)響應(yīng)時(shí)間也相對(duì)較長(zhǎng),但是響應(yīng)時(shí)間也應(yīng)保持在“秒”的量級(jí),本文認(rèn)為,一個(gè)高效的垂直搜索引擎系統(tǒng)響應(yīng)時(shí)間不應(yīng)超過5秒。
(2)最新領(lǐng)域內(nèi)網(wǎng)頁信息
垂直搜索引擎的信息和數(shù)據(jù)都是從互聯(lián)網(wǎng)上采集并集成的,如何盡量保證這些信息數(shù)據(jù)是最新的,就要求垂直搜索引擎的信息采集系統(tǒng)數(shù)據(jù)采集是高效、增量式的。對(duì)于垂直搜索引擎來說,信息采集的效率非常重要,而采用怎樣頻度的“重新抓取”要取決于垂直搜索引擎所專注的領(lǐng)域。除新聞網(wǎng)站外,許多網(wǎng)頁的內(nèi)容變化并不是很經(jīng)常的,這樣做每次搜集的網(wǎng)頁量不會(huì)很大。因此,與新聞相關(guān)的垂直搜索引擎可以提高“重新抓取”的頻率,而與學(xué)術(shù)文章類相關(guān)的垂直搜索引擎可以相應(yīng)降低“重新抓取”的頻率。
(3)與用戶查詢匹配的有序列表
在傳統(tǒng)的搜索引擎中,“與用戶查詢匹配”一般就是指網(wǎng)頁包含用戶查詢的關(guān)鍵詞。然而垂直搜索引擎由于數(shù)據(jù)源較為單一,數(shù)據(jù)與領(lǐng)域信息高度相關(guān)且高度集成,可以適當(dāng)調(diào)整“與用戶查詢匹配”的定義,在一定的語義范圍內(nèi),不包含用戶查詢關(guān)鍵詞的網(wǎng)頁或是數(shù)據(jù)條目也可以返回給用戶,以自動(dòng)擴(kuò)展用戶查詢的語義。此時(shí),我們需要一個(gè)完全不同的“用戶查詢匹配度”的排序方法,而且這個(gè)排序方法必須同時(shí)是高效的。
垂直搜索引擎面向的是海量的領(lǐng)域Web網(wǎng)頁數(shù)據(jù),與現(xiàn)代大規(guī)模、高性能的搜索引擎相同,采取三段式的工作流程,即網(wǎng)頁數(shù)據(jù)采集、預(yù)處理和查詢服務(wù)。
因此,高效的垂直搜索引擎必須具備以下的三個(gè)特征:
(1)具備高穩(wěn)定性和高效率的數(shù)據(jù)采集模塊。
(2)高效的解析和存儲(chǔ)網(wǎng)頁數(shù)據(jù)。
(3)高性能的用戶查詢模塊提供快速的系統(tǒng)響應(yīng)。
對(duì)于高性能的垂直搜索引擎來說,以上三個(gè)階段的工作都應(yīng)當(dāng)是并行、分布式完成的,典型的樞架結(jié)構(gòu)。
某個(gè)行業(yè)領(lǐng)域的歷史發(fā)展、最新動(dòng)向、趨勢(shì)都是行業(yè)從業(yè)人員非常關(guān)注的話題。垂直搜索引擎集中了行業(yè)領(lǐng)域內(nèi)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的數(shù)據(jù)挖掘、智能分析以及可視化展示,將為行業(yè)創(chuàng)造非常有價(jià)值的信息增值服務(wù)。
[1]王文鈞等,垂直搜索引擎的現(xiàn)狀與發(fā)展研究[J].情報(bào)科學(xué),2010(28):477-480
[2]楊皖蘇等,垂直搜索引擎發(fā)展策略探討[J].商業(yè)時(shí)代,2009(23):94-95
項(xiàng)目名稱:基于云計(jì)算的教學(xué)資源垂直搜索研究,項(xiàng)目編號(hào):NJZC14291,批準(zhǔn)單位:內(nèi)蒙古教育廳,姓名:宋金平,單位:集寧師范學(xué)院
項(xiàng)目名稱:基于TCPN的SIP協(xié)議形式化驗(yàn)證與分析,項(xiàng)目編號(hào):NJZY283,批準(zhǔn)單位:內(nèi)蒙古教育廳,姓名:馬曉娟,單位:集寧師范學(xué)院