楊 娜 王 巖
(1:吉林建筑工程學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,長春 130118;2:吉林建筑工程學(xué)院學(xué)生工作處,長春 130118)
近年來,隨著互聯(lián)網(wǎng)的普及和快速發(fā)展,信息資源與站點(diǎn)越來越多,而且信息的組織方式也非常自由.當(dāng)網(wǎng)上的信息越來越多,單純地通過傳統(tǒng)、手工的獲取信息方式,達(dá)到快速而且準(zhǔn)確地獲取信息顯然不太可能.現(xiàn)在,在互聯(lián)網(wǎng)上人們用來查詢信息的工具是搜索引擎.據(jù)統(tǒng)計(jì),搜索引擎是排在電子郵件之后的第2個人們用的最多的網(wǎng)絡(luò)工具[1].但隨著網(wǎng)絡(luò)信息增長的速度越來越快,而且人們對知識的要求也更為精確,現(xiàn)在的搜索引擎已遠(yuǎn)遠(yuǎn)不能滿足人們的需要,需要更為智能化、個性化的搜索引擎.如何快速、準(zhǔn)確地從浩瀚的信息海洋中找到自己需要的信息,已成為互聯(lián)網(wǎng)應(yīng)用中一個極為重要的研究課題.目前,現(xiàn)有的搜索引擎存在的問題是:
(1)現(xiàn)有的搜索引擎仍存在著高覆蓋率和低查全率的問題;
(2)用于表示W(wǎng)eb信息的數(shù)據(jù)類型的多樣性、數(shù)據(jù)格式的松散性,導(dǎo)致了這些信息之間的格式轉(zhuǎn)換成為了挖掘中的一個瓶頸,從而阻礙了挖掘和搜索的速度,延長了響應(yīng)時(shí)間[2];
(3)搜索引擎在用戶接口設(shè)計(jì)方面和互動性方面存在的缺陷,使用戶無法準(zhǔn)確地定義檢索條件,檢索結(jié)果偏離用戶的意圖,降低了搜索結(jié)果的準(zhǔn)確率.
(4)對搜索的結(jié)果無法按照用戶的個性特征進(jìn)行一定的排序,使用戶需要用大量的時(shí)間在搜索的結(jié)果中尋找自己最想獲取的信息[3].
為了有效描述搜索路徑,這里引入了“路標(biāo)”網(wǎng)頁的概念.所謂“路標(biāo)”網(wǎng)頁,就是指該網(wǎng)頁的存在對指導(dǎo)搜索路徑目標(biāo)網(wǎng)頁起著積極的引導(dǎo)作用.接著,將會看到引入“路標(biāo)”網(wǎng)頁,對有效約束可能發(fā)生的搜索路徑以及確認(rèn)搜索路徑的有效性都起到了很好的促進(jìn)作用.如圖1中,各菱形框代表與搜索過程密切相關(guān)的各基本網(wǎng)頁,這些基本網(wǎng)頁或其中部分信息可能包含在最終的信息搜索結(jié)果中,或標(biāo)志著搜索過程的一個重要階段,或它能夠被較為容易地識別出來.
圖1 多層知識表示方法的示意描述
例如,由于在大學(xué)計(jì)算機(jī)系教員信息網(wǎng)頁搜索過程中,所獲得的大學(xué)主頁和計(jì)算機(jī)系教員信息網(wǎng)頁搜索過程中,所獲得的大學(xué)生主頁和計(jì)算機(jī)系主頁中的一部分信息內(nèi)容,最后將與教員的有關(guān)信息結(jié)合在一起,作為最終的搜索結(jié)果反饋給用戶.因此,在描述大學(xué)計(jì)算機(jī)系教員信息網(wǎng)頁搜索知識時(shí),大學(xué)主頁和計(jì)算機(jī)系主頁全部都將作為基本網(wǎng)頁參與描述有關(guān)的搜索路徑.
所示搜索知識的基本含義就是:從一個基本網(wǎng)頁1搜索到下一個基本網(wǎng)頁2時(shí),中間最多可能存在3條基本搜索路徑,這3條基本搜索路徑分別是:
(1)通過基本網(wǎng)頁1中的某個網(wǎng)鏈,就可直接(到達(dá))獲得基本網(wǎng)頁2;
(2)經(jīng)過基本網(wǎng)頁1中的某個網(wǎng)鏈,以及一個中間網(wǎng)鏈(一個過渡網(wǎng)頁中的某個網(wǎng)鏈),便可(到達(dá))獲得基本網(wǎng)頁2;
(3)經(jīng)過基本網(wǎng)頁1中的某個網(wǎng)鏈,以及兩個中間網(wǎng)鏈(分別經(jīng)過兩個過渡網(wǎng)頁中的各自一個網(wǎng)鏈),方可(到達(dá))獲得基本網(wǎng)頁2.
多層知識表示方法是通過兩個層面來描述進(jìn)行網(wǎng)頁準(zhǔn)確搜索所需的有關(guān)搜索知識.這兩個層面分別是:與網(wǎng)站內(nèi)部組織結(jié)構(gòu)密切相關(guān)的搜索路徑知識的相關(guān)描述,以及與網(wǎng)站內(nèi)容(網(wǎng)頁)密切相關(guān)的搜索基本單元(網(wǎng)頁或網(wǎng)鏈)知識的相關(guān)描述.采用這種以搜索路徑對象描述為搜索知識的表示主體,網(wǎng)頁或網(wǎng)鏈對象(搜索基本單元)描述為搜索知識基本組成的多層知識表示方法,不僅能夠幫助準(zhǔn)確有效搜索出所需要的目標(biāo)網(wǎng)頁,而且也有助于實(shí)現(xiàn)搜索知識的自我完善.
利用前面所介紹搜索知識表示方法,及其所表示的具體知識,采用深度優(yōu)先的啟發(fā)搜索策略,從事先指定的若干網(wǎng)站和教育資源數(shù)據(jù)庫中,分別搜索出所需要的各目標(biāo)網(wǎng)站的整個處理流程.此外,在搜索的過程中,還可根據(jù)已完成的搜索過程及結(jié)果,不斷地進(jìn)行完善目前所擁有的搜索知識,以便能夠不斷地提高自己的搜索能力.
我們用從B網(wǎng)頁到C網(wǎng)頁搜索的部分過程進(jìn)行實(shí)驗(yàn),
BC11:Faculty(2,2)
BC21:Faculty(2,2)+Title(2,2)+Staff(2,2)
BC22:Faculty(2,2)
搜索知識中基本網(wǎng)頁共有兩個B和C,前者無需再識別;后者則是利用標(biāo)題內(nèi)容中的兩個特征就可加以識別.其中特征類型說明所使用的T和L分別表示該特征為網(wǎng)頁的標(biāo)題(title)內(nèi)容和超級鏈接(anchor text)內(nèi)容.在實(shí)際操作時(shí),一般都是將以上所描述的人工智能搜索所需的搜索知識用3個知識對象,即搜索路徑、基本網(wǎng)頁和搜索路徑基本單元(網(wǎng)鏈),結(jié)合在一起來加以描述.
圖2 某學(xué)校網(wǎng)站
①用戶提出搜索請求;②據(jù)當(dāng)前的搜索狀態(tài)和搜索知識以及當(dāng)前所獲得的網(wǎng)頁,推斷下一步網(wǎng)址;③根據(jù)前一步分析結(jié)果決定是繼續(xù)搜索數(shù)據(jù)庫還是搜索已失敗或成功;④在當(dāng)前網(wǎng)站搜索結(jié)果結(jié)束;⑤不斷重復(fù)上述4個步驟,直到事先給定的網(wǎng)站均被搜索完畢為止;⑥將搜索到的符合用戶標(biāo)準(zhǔn)的結(jié)果返回給用戶.
圖3 基于智能搜索的教育資源搜索引擎結(jié)構(gòu)
人工智能搜索算法所采取的主要處理步驟如圖3所示.
①用戶提出搜索請求,根據(jù)給出的網(wǎng)址獲取相應(yīng)的主頁;②在教育資源數(shù)據(jù)庫,網(wǎng)絡(luò)以及用戶的網(wǎng)絡(luò)日志中搜索,根據(jù)當(dāng)前的搜索狀態(tài)和搜索知識,以及當(dāng)前所獲得的網(wǎng)頁,推斷下一步搜索網(wǎng)址;③根據(jù)前一步分析結(jié)果,決定是繼續(xù)搜索教育資源數(shù)據(jù)庫,網(wǎng)絡(luò)以及用戶的網(wǎng)絡(luò)日志,還是搜索已失敗或成功;④在當(dāng)前網(wǎng)站搜索結(jié)果結(jié)束(無論搜索失敗或者成功),對本次搜索所經(jīng)歷的所有搜索路徑進(jìn)行分析總結(jié),以完善自己的搜索知識;⑤不斷重復(fù)上述4個處理步驟,直到事先給定的網(wǎng)站均被搜索完畢為止;⑥將搜索到的符合用戶標(biāo)準(zhǔn)的結(jié)果返回給用戶.
在這個新的模型中,不僅能夠?qū)W(wǎng)站中網(wǎng)頁進(jìn)行深度優(yōu)先的人工智能搜索,而且還能夠通過對其搜索過程和結(jié)果的自我學(xué)習(xí)來獲取更多更好的搜索知識.在新模型的設(shè)計(jì)過程中,使用了一種有效的搜索知識的新型表示方法,并且為了有效描述搜索路徑,在搜索路徑中引入了“路標(biāo)”網(wǎng)頁的概念.通過路標(biāo)網(wǎng)頁不僅可以搜索出存在的網(wǎng)頁,而且對指導(dǎo)搜索路徑確定目標(biāo)網(wǎng)頁起到了積極的引導(dǎo)作用.
[1]趙夷平.傳統(tǒng)搜索引擎與語義搜索引擎服務(wù)比較研究[J].情報(bào)科學(xué),2010,10(2):10-13.
[2]張培榮.元搜索引擎與獨(dú)立搜索引擎比較研究[J].現(xiàn)代圖書情報(bào)技術(shù),2004(11):35-37.
[3]李觀金.基于搜索引擎自然檢索的搜索引擎優(yōu)化[J].硅谷,2011,3(7):48-50.