劉苗苗 張永生
(大慶石油學院,河北 秦皇島 066004)
面對萬維網(wǎng)上海量的信息資源,人們迫切需要從中快速準確地找到有用的信息,搜索引擎技術(shù)的誕生為信息檢索提供了方便,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對其進行提取和處理,從而為用戶提供檢索服務[1]。但由于其查準率或查全率不高,其檢索結(jié)果遠不能令人滿意,因此本文以現(xiàn)有搜索引擎工作機制為基礎,提出將文本分類[2]和特征抽取[3]技術(shù)應用到搜索引擎上,通過文本分類器將檢索結(jié)果進行快速自動分類,以分類目錄樹的方式來顯示檢索結(jié)果。該方法有效地改善了檢索結(jié)果的組織,大大降低了用戶所需瀏覽的檢索結(jié)果數(shù)量,方便用戶快速找到跟查詢請求相關的有用信息。
廣義的搜索引擎指一切提供信息檢索服務的工具或系統(tǒng)。狹義的搜索引擎指利用網(wǎng)絡自動搜索技術(shù)軟件對web資源進行搜集、整理并提供檢索服務的一類信息服務系統(tǒng)[4]。它一般包括信息搜集、信息整理和用戶查詢?nèi)糠帧?/p>
搜索引擎至少有三個因素值得重視:數(shù)據(jù)庫、用戶搜索、搜索結(jié)果排序。其工作原理是:首先利用高性能的Spider程序在互聯(lián)網(wǎng)中發(fā)現(xiàn)并搜集有用的網(wǎng)頁信息,然后利用分析索引系統(tǒng)將收集到的信息進行分類整理,建立索引數(shù)據(jù)庫,最后當用戶輸入關鍵詞搜索時,搜索系統(tǒng)從索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁,并將其鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶,而與用戶的搜索條件最相關的結(jié)果因其相關度高而出現(xiàn)在檢索結(jié)果最前面的位置。
影響一個搜索引擎系統(tǒng)性能的因素有很多[5],最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結(jié)果的排序方法等。評價一個搜索引擎系統(tǒng)好與壞的指標有查全率、查準率及響應速度和時間等。
圖1 基于文本分類的搜索引擎模型
圖2 文本自動分類的過程
搜索引擎位于信息檢索系統(tǒng)的底層,它以Web上的信息為處理對象,用戶可以通過可視化接口跟檢索器相連。由于現(xiàn)有的搜索引擎技術(shù)在查全率或查準率方面不能令人滿意,因此本文提出了基于文本自動分類的搜索引擎系統(tǒng)。該系統(tǒng)分為以下6個基本部分:Robot、查詢分析器、索引器、檢索器、文本分類器和用戶接口,其模型如圖1所示。
Robot:可稱為“自動跟蹤索引軟件”,它在網(wǎng)絡上檢索文件且自動跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件,隨時將新信息添加到搜索引擎中供查詢;查詢分析器:主要是對本地文檔集合的文檔進行分析以用于索引;索引器:它將文檔表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中;檢索器:從索引數(shù)據(jù)庫中找出與用戶的查詢請求相關的文檔,提交給文本分類器;文本分類器:將檢索器提交過來的文檔進行自動分類,其關鍵技術(shù)主要有文本的表示[6]、特征項的抽取、分類算法的選擇等等;用戶接口:為用戶提供可視化的查詢輸入和結(jié)果輸出界面。
上面所述的基于文本自動分類的搜索引擎的設計中,Robot軟件程序編制、分析器、索引器、檢索器的功能與設計均是建立在當前搜索引擎工作機制的基礎之上。目前文本的平面分類技術(shù)已經(jīng)發(fā)展的比較成熟,分類的正確率達到90%以上,分類器對于文本層次分類和并行處理方面的研究有待加強,這是制約其應用到搜索引擎上的瓶頸。
文本分類是信息檢索的關鍵。目前目錄式搜索引擎的分類是由人工完成的,因此實時性差,更新速度慢,查全率低,成本也較高,且檢索的最終結(jié)果是網(wǎng)址,不便于瀏覽。而全文檢索式搜索引擎的檢索結(jié)果是一個線性文檔的列表,雖然經(jīng)過了相關度排序,但用戶仍需要逐個瀏覽才能找出所需信息。基于以上兩種搜索引擎的缺點本文提出將粗糙集的文本自動分類技術(shù)應用到搜索引擎上。在該系統(tǒng)中文本分類器的設計是其中的難點,將其應用到搜索引擎上需要解決兩個主要問題:其一文本分類器對檢索出來的文本的分類速度應該足夠快,否則用戶會感到?jīng)]有耐心等待檢索結(jié)果的顯示,即要提高搜索引擎的響應速度;其二是分類的準確率要高,方便用戶在確定的目錄下準確查找到所需要的文本,即要提高查準率。
系統(tǒng)中用到的關鍵技術(shù)主要是文本自動分類和特征抽取。
文本自動分類一般分為訓練和分類兩個階段,其系統(tǒng)流程如圖2所示。研究文本自動分類的關鍵問題是如何構(gòu)造分類函數(shù)。
文本的特征抽取也是設計中的一個重點。在分類階段,經(jīng)過預處理后,文本的特征向量維數(shù)仍然很高,因此在分類前需要進行特征子集的選取。一般情況下對于正文中特征項的抽取[4]是構(gòu)造一個評估函數(shù),對特征集中的每個特征進行獨立的評估,然后對所有的特征按照其評估分的大小排序,選取預定數(shù)目的最佳特征作為文本的特征集。
總之,文本自動分類以及特征抽取技術(shù)在搜索引擎上的應用,將給信息檢索技術(shù)的研究帶來一定的啟發(fā)與幫助。
在對現(xiàn)有搜索引擎技術(shù)及其工作原理進行總結(jié)的基礎上,本文提出了基于文本分類和特征抽取的搜索引擎系統(tǒng)的設計,對其系統(tǒng)設計、工作原理及可行性進行了一定的探討。該系統(tǒng)能對搜索結(jié)果進行快速自動分類,在一定程度上改善了信息檢索的效率及質(zhì)量,方便了用戶的信息查詢。如果能夠?qū)崿F(xiàn)檢索結(jié)果的快速聯(lián)機分類,將會給目前的信息檢索技術(shù)帶來新的突破,便于用戶快速檢索到需要的結(jié)果,這是本文下一步的研究目標。
[1]搜索引擎簡介及研究專欄-搜索引擎發(fā)展歷史.http://www.china-seo.org/se-jj/history.htm
[2]王漢萍,張繼軍等.基于粗糙集的文本自動分類方法的研究[J],信息技術(shù),2003年第8期
[3]魏天濱.基于粗糙集理論的文本分類規(guī)則抽取[J],中國海洋大學學報自然科學版,2003,33(6):943~949
[4]搜索引擎直通車-搜索引擎發(fā)展史[EB/OL].http://www.se-express.com/about/about.htm
[5]馬彪,李恒.搜索引擎的性能評價[EB/OL].新世紀圖書館 2003年第6期
[6]方蘭、王明文 文本自動分類技術(shù)及其應用[J],計算機與現(xiàn)代化 2004.7第107期,25~29