宇 盟 傅素英
摘要:首先對智能搜索引擎做了簡要概述.接著提出了一種新的搜索引擎的設計思路.并針對獨立搜索引擎的不足。獨立搜索引擎與元搜索引擎結合起來。提高了搜索引擎的精度和效率。
關鍵詞:智能搜索引擎元搜索引擎
中圖分類號TP311.11文獻標識碼B文章編號:1002-2422(2007)03-0037-03
1教育搜索引擎組成與原理
本搜索引擎將傳統(tǒng)專業(yè)搜索引擎和元搜索引擎結合起來,不僅提高了搜索引擎的覆蓋率,而且采用一種綜合評價算法,優(yōu)化了搜索結果的排列次序,同時根據(jù)各返回頁面的主題內容進行聚類顯示,方便用戶檢索。該搜索引擎主要包括4個模塊:信息采集模塊、信息挖掘模塊、元搜索引擎模塊和結果排序、聚類模塊。
1.1信息挖掘模塊
該模塊對搜索器所采集的信息進行單漢字標引(即全文索引),主題概念標引,摘要自動生成及對網頁重要程度進行評價。單漢字標引法將概念詞拆成單漢字,以單漢字為處理單位,利用漢字索引文件實現(xiàn)自動標引和邏輯檢索。由于這種方法把對“詞”的處理改為對“字”的處理,因此就繞過了漢語分詞的難題。主題概念標引模塊對采集來的信息進行內容特征分析,并抽取出能表達該信息主題的關鍵詞、關鍵句,為用戶提供主題概念檢索入口。
1.2元搜索引擎模塊
該模塊將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索,并將各個檢索結果與本地檢索相互印證,互相比較,可以進一步提高查全率和查準率。
1.3結果合并、排序、聚類顯示模塊
搜索引擎對檢索結果的組織性是提高系統(tǒng)運行和性能評價的關鍵技術。近年來一直是國際上搜索引擎界的研究熱點。該模塊完成獨立搜索引擎與元搜索引擎返回結果的合并、排序。并對信息進行主題概念聚類。搜索結果以聚類樹和權重順序兩種形式顯示。
2智能搜索引擎系統(tǒng)中關鍵技術的實現(xiàn)
系統(tǒng)的關鍵技術包括資源采集控制、其他獨立搜索引擎的調用接口及返回結果的排序算法。
2.1信息采集控制
信息采集是從一個初始URL集合開始,順著這些URL中的超鏈接,循環(huán)往復地在互聯(lián)網中發(fā)現(xiàn)信息。我們這個系統(tǒng)是針對教育資源領域的一個專業(yè)搜索引擎,如果任意選擇初始URL集合,則很可能使Robot(采集程序)偏離教育資源這一領域。我們發(fā)現(xiàn),Google、百度等大型綜合搜索引擎可以為我們指引初始方向:以“教育資源”、“教學資源”,“教學課件”等關鍵詞組進行搜索,就可以得到大量超鏈接。這些超鏈接組織成一個質量較高的初始URL集合。
網站中不是所有的URL鏈接都是與教育、教學相關。如果Robot沿著這些無用鏈接去采集信息,不僅降低了采集效率,而且會收集到大量垃圾信息,如廣告超鏈接。因此,對信息采集進行控制。
信息挖掘模塊首先對采集到頁面進行主題分析,如果頁面主題與教育相關,則通過反饋,允許Robot沿著該頁面的URL繼續(xù)采集信息:否則終止在該頁面的采集活動。
2.2其他獨立搜索引擎的調用
元搜索引擎要通過程序接口調用其他多個獨立搜索引擎,就必須要獲取到這些獨立搜索引擎的程序接口。要獲得這些程序接口很容易,觀察每個獨立搜索引擎的地址欄的變化就可以總結出它們的接口。如用http://www.baidu.com/s?lm=0&si=&m=10&ie=gb2312&ct=0&wd=電子商務%Fl&pn=l&cl=3,就可以得到百度有關“電子商務”的搜索結果,其中“pn=l”表示從第一條返回結果開始顯示。
2.3搜索結果的排序算法
最終的搜索結果包括兩部分:本地數(shù)據(jù)的檢索結果和元搜索引擎模塊獲得的搜索結果。結果排序模塊將這兩部分搜索結果合并到一起,并按每個搜索結果與用戶提問表達式的符合程度進行排序,最后顯示給用戶。搜索結果與用戶提問表達式的復合程度可以通過計算它們之間的相似度來衡量。
首先,提取提問表達式中的主題概念,把抽取出的主題概念表示成向量形式,代表提問式,如,q=(q1,w1;q2,w2;…qi;…,qn,wn),qi表示從提問式抽出的主題概念,wi表示qi的權值,這里默認為1;然后,抽取每一個搜索結果的主題概念,并用這些主題概念形成的向量代表搜索結果,如di=(c1,w1;c2,w2;…ci,wi:…cn,wn):ci表示從搜索結果中抽出的主題概念,wi表示ci的權值,可以用TF-IDF計算得到;最后,用公式1計算搜索結果向量與提問式向量之間的相似度,輸出模塊最終以相似度的大小排序輸出公式如下: