[摘 要] 本文首先討論傳統(tǒng)信息檢索模式及其局限,從而導出研究并開發(fā)智能能化搜索模式的意義。研究語義Web中概念的意義及知識體系,語義搜索模型對傳統(tǒng)搜索模式進行了擴展。最后,設計出基于概念的語義智能搜索模型的體系結構,詳述概念層次,Robot,索引器,搜索器的工作過程。
[關鍵詞] 語義Web 概念 智能搜索 模型
目前,傳統(tǒng)的信息搜索模式一般都使用兩種技術來實現信息檢索:一是使用網站分類技術,二是使用全文檢索技術。即用戶提交的關鍵字被直接傳給搜索代理,搜索代理用機械匹配的方式到預先建好的索引文件中去檢索,然后把檢索的相關結果返給用戶。它不能對用戶輸入的關鍵字進行詞意分析和詞意擴展,缺乏知識處理能力和理解能力。
一、基于概念的語義智能搜索的特點
所謂概念,是關于具有共同屬性的一組對象、事件或符號的知識。它可能是具體的,也可能是抽象地刻畫、定義了一對象類的特征,通過描述元素表達出來。同一個概念可以用多個抽象元素來表達,這些描述元素在此概念的約束下構成了同義關系,它們在意義上可以等同。
要做到智能搜索,還必須考慮知識庫和信息庫結合的問題。要使兩個核心庫有機結合就要做到三點:語義分析、知識管理、知識檢索。
二、基于概念的語義智能搜索模型的體系結構
基于概念的語義搜索引擎在建立索引和檢索過程中,所有工作都是建立在其概念層次之上的。語義智能搜索模型的基本框架如圖所示。
語義智能搜索模型的基本工作原理是:搜索器首先將用戶提交的查詢送到語義模型中進行詞義分析和擴展,然后將分析擴展后的查詢關鍵詞提交給索引器查找相應的數據(這里要求數據索引能夠實現與語義模型間的映射),接下來搜索器還要對索引庫返回的數據結果進行排序,最后將結果返回給用戶。
1.概念層次
概念層次(或稱語義模型)是一個帶標識的有向圖,其中,節(jié)點表示概念,有向邊指明所聯接的概念節(jié)點之間的某種關系。概念的不同層次表明其抽象的程度不同,層次越高概括性越強,包含的下位概念可能就越多。上位概念由一組下位概念組成,上位概念常常是下位概念的抽象、概括或整體表示;下位概念往往是上位概念的屬性、特征或說明,是對上位概念的補充和細化,用于描述自己的獨有屬性,同時繼承上位概念的屬性。
2.Robot
Robot(機器人)的主要功能就是利用網頁中的超文本鏈在因特網中漫游、發(fā)現和搜集信息。系統(tǒng)中維護一個超鏈隊列,其中包含一些起始URL。 Robot從這些URL出發(fā)采用深度優(yōu)先搜索策略對Web進行遍歷,下載相應的頁面,并從中抽取出新的超文本鏈加入到隊列中。上述過程不斷重復,直到隊列為空。
3.索引器
索引器從Robot抓回的主頁中抽取主題詞,對其賦予不同的權值,以表明這些主題詞同網頁內容的相關度,并從文檔的標記項中抽取相應的項目建立索引。其工作過程如下:
(1)索引器對網頁中的文本信息進行提取,建立相應文檔。
(2)根據普通詞典和主題詞典,按照正向最大匹配算法進行分詞、抽詞,形成關鍵詞,確定關鍵詞的分類標識。
(3)對關鍵詞按照詞頻、詞的位置等因素進行加權、排序并建立索引,形成倒排索引,存入索引庫中。
4.搜索器
搜索器響應用戶的檢索請示,并用用戶輸入的檢索詞在建立的倒排索引庫中進行查詢,然后做相關性排序,再將排序結果反饋給用戶。
以同義關系為例,當用戶輸入關鍵詞后,首先按照普通詞典對其進行標注,然后根據主題詞典對其各種相關關系進行分析,最后,根據索引庫檢索出相應結果,提交給用戶。這些同義詞擁有同樣的標識,也就是搜索器所得到的分類標識。接下來搜索器在倒排索引庫中按此標識進行檢索,即可將所有同義詞所對應的URL檢索出來反饋給用戶。
三、小結
本文首先提出研究并開發(fā)智能化搜索模式的意義。研究語義Web中概念的意義及知識體系。最后,設計出基于概念的語義智能搜索模型的體系結構,詳述概念層次,Robot,索引器,搜索器的工作過程。
參考文獻:
[1]Nick Crofts, Martin Doerr, Tony Gill, Stephen Stead, Matthew Stiff: Definition of the CIDOC Conceptual Reference Model[R].ICOM/CIDOC CRM Special Interest Group, Version 3.4.9 30th November 2003
[2]郭 鳴 李善平 董金祥 付相君:基于本體論及語義網的產品信息模型研究[J]浙江大學學報(工學版),第38卷第1期,2004年1月
[3]顧慧翔 俞 勇:基于領域本體和知識推理的語義因特網應用[J].上海交通大學學報,第38卷第4期,2004