李春+楊明+顧婷婷
【摘要】 互聯(lián)網(wǎng)的資源具備復(fù)雜性,資料的數(shù)量非常巨大,使用這些雜亂的數(shù)據(jù)需要進(jìn)行數(shù)據(jù)分揀,選出具有應(yīng)用價(jià)值的信息,搜索引擎能夠完成這一功能。搜索引擎指的是用戶用來(lái)搜索關(guān)聯(lián)信息的工具,搜索引擎能夠利用搜索關(guān)聯(lián)策略搜集整理信息,需求的信息在經(jīng)過(guò)重新的匯總、整理后,提供給用戶的檢索服務(wù)可以達(dá)成信息導(dǎo)航功能。搜索引擎的成功運(yùn)作可以提供極大的便利,幫助人們高效的獲取網(wǎng)絡(luò)資源信息。當(dāng)前針對(duì)用戶或其他本體的新型搜索引擎能夠帶來(lái)的更高效的檢索服務(wù)已經(jīng)成為了信息檢索領(lǐng)域的研究重點(diǎn)?;诒倔w建立搜索引擎模型,并就這一模型進(jìn)行分析研究,總結(jié)出搜索引擎的語(yǔ)義非常重要,這種搜索引擎具備的內(nèi)涵,可以在用戶的操作歷史記錄上推理得來(lái),這種推理出的數(shù)據(jù)對(duì)于提供更友好的用戶體驗(yàn)非常重要,也能夠進(jìn)一步的改善用戶查詢準(zhǔn)確性。目前的搜索引擎尚不能夠提供成熟的服務(wù),基于本體的搜索引擎也存在很多問(wèn)題,仍需要加以探索,提供更專業(yè)、準(zhǔn)確的搜索服務(wù)將會(huì)是搜索引擎的發(fā)展方向。
【關(guān)鍵詞】 本體 信息關(guān)聯(lián) 搜索引擎
前言
互聯(lián)網(wǎng)技術(shù)隨著時(shí)代與科技的發(fā)展已經(jīng)日益成熟,并且逐漸的融入了我們的日常生活,成為了重要工具?;ヂ?lián)網(wǎng)的資源非常豐富,網(wǎng)絡(luò)上的信息摻雜在一起,在使用時(shí)需要甄選出具有應(yīng)用價(jià)值的信息,為滿足這一需求,各大編程工程人員研發(fā)設(shè)計(jì)出了多種搜索引擎。
搜索引擎指的是用戶用來(lái)搜索關(guān)聯(lián)信息的工具,搜索引擎能夠利用搜索關(guān)聯(lián)策略搜集整理信息,需求的信息在經(jīng)過(guò)重新的匯總、整理后,提供給用戶的檢索服務(wù)可以達(dá)成信息導(dǎo)航功能。搜索引擎的成功運(yùn)作可以提供極大的便利,幫助人們高效的獲取網(wǎng)絡(luò)資源信息。
目前網(wǎng)絡(luò)信息發(fā)展速度極快,信息的膨脹化發(fā)展具備多元化的新特性。傳統(tǒng)的搜索引擎愈發(fā)的難以滿足目前信息的搜索需求,使用者常常會(huì)需求多條類似的信息,這種批量的信息需求讓操作者只能在大量重復(fù)繁瑣的信息庫(kù)中逐個(gè)查找。當(dāng)前的搜索引擎不僅需要提供用戶需求的準(zhǔn)確、有用信息,能夠快速整理出分類細(xì)致、準(zhǔn)確、全面、具備時(shí)效性的搜索列表就顯得非常重要,這就需要基于本體的信息關(guān)聯(lián)搜索,這種基于本體的搜索強(qiáng)化了針對(duì)某一主體信息的相關(guān)收錄及更新,減少了搜索中涉及的大量無(wú)用信息,查詢搜索的效率極高。這樣就改善優(yōu)化了相似的其他檢索工具在信息檢索上的功能,具有先進(jìn)的優(yōu)勢(shì)。
目前的搜索引擎多采用的語(yǔ)法層級(jí)搜索,搜索匹配大多是機(jī)械性的檢索。而本體相關(guān)的信息關(guān)聯(lián)搜索,可以針對(duì)使用者搜索的關(guān)鍵詞展開(kāi)語(yǔ)義分析并加以處理,這樣進(jìn)行的搜索操作就具有了一定的智能性,運(yùn)行得出的結(jié)果不管是查準(zhǔn)率還是覆蓋面都非常優(yōu)秀。
搜索引擎究其功能仍是作為網(wǎng)絡(luò)信息的檢索查詢工具,具備策略性,并就策略在互聯(lián)網(wǎng)中檢索、搜集信息,整理組織信息,為用戶提供所需的信息資源。隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎也不斷的進(jìn)化著。
一、搜索引擎的發(fā)展
1.1 Archie——原始搜索引擎
在1990年,加拿大蒙特利爾McGill University的學(xué)生AlanEmtage等人發(fā)明了這一搜索引擎,在那時(shí),萬(wàn)維網(wǎng)仍未出現(xiàn),Archie仍舊是基于互聯(lián)網(wǎng)的FTP網(wǎng)站文件自動(dòng)索引程序,嚴(yán)格來(lái)講還不是真正意義的搜索引擎,十一個(gè)可以提供搜索功能的文件名列表,操作者在這一流標(biāo)中錄入精準(zhǔn)的文件全程才能夠搜索出結(jié)果,結(jié)果通常是FTP下載地址。
1.2 World Wide Web Wanderer——首個(gè)網(wǎng)絡(luò)機(jī)器人
這是世界上第一個(gè)Spider程序,之所以被稱為Spider程序的起因在于專用信息檢索的Robot程序在運(yùn)作時(shí),會(huì)像Spider(蜘蛛)一樣在字節(jié)網(wǎng)絡(luò)之間爬動(dòng),所以對(duì)于搜索引擎所使用的Robot程序,往往都被稱之為Spider程序。World Wide Web Wanderer是1993年MIT的Matthew Gary編寫(xiě)的,能夠在互聯(lián)網(wǎng)中追蹤發(fā)展規(guī)模,起初這一程序是用來(lái)整理匯總互聯(lián)網(wǎng)中的服務(wù)器數(shù)量的,慢慢的衍生出了捕獲網(wǎng)址的功能(url)。
1.3 Yahoo——目錄型搜索引擎
隨著互聯(lián)網(wǎng)的發(fā)展逐漸成熟,時(shí)至1994年,斯坦福大學(xué)的兩名博士生:楊致遠(yuǎn)(美籍華人)與David Filo聯(lián)合創(chuàng)立了Yahoo。并且在Yahoo投入使用后訪問(wèn)量及收錄鏈接量飛速上漲,Yahoo的不斷成長(zhǎng),進(jìn)化出了目錄基礎(chǔ)上的簡(jiǎn)單數(shù)據(jù)檢索功能。介于手工輸入的數(shù)據(jù),Yahoo仍舊不能夠作為成熟的搜索引擎,僅僅是基于網(wǎng)絡(luò)的可搜索目錄,但在當(dāng)時(shí)Yahoo已經(jīng)能夠展現(xiàn)出優(yōu)異、高效的搜索效率,在之后的發(fā)展中,Yahoo使用了AltaVista、Inktomi、Google等搜索引擎服務(wù)。
1.4 Metacrawler——第一個(gè)元搜索引擎
元搜索引擎一般都不具備自身的數(shù)據(jù),這種搜索引擎是借助多個(gè)搜索引擎運(yùn)作的,能夠?qū)⒂脩翡浫氲乃阉髡?qǐng)求遞交到其他搜索引擎上,其他搜索引擎回復(fù)結(jié)果再經(jīng)過(guò)元搜索引擎的二次處理后能夠?qū)⒆陨硖峁┑慕Y(jié)果返到用戶受眾,這種搜索引擎能夠聯(lián)合多引擎的搜索數(shù)據(jù),并進(jìn)行重組排序過(guò)濾掉無(wú)用的信息,搜索結(jié)果具備更好的客戶滿意度。
二、搜索引擎的分類
搜索引擎主要的劃分一局基于信息搜集方式與提供的服務(wù)形式。
2.1目錄式搜索引擎
目錄式的搜索引擎是最為原始的一種搜索引擎,主要的代表當(dāng)屬Yahoo,目前我國(guó)的Sohu也是相同類型的搜索引擎。這種目錄式搜索引擎運(yùn)作的原理在于對(duì)網(wǎng)絡(luò)信息進(jìn)行主題分類,將整體劃分為主要的幾個(gè)大類,然后再將大類進(jìn)行細(xì)分,最后就生成了具備瀏覽功能的多等級(jí)主題檢索形式的搜索引擎,常規(guī)情況下的的搜索引擎大多是五至六層結(jié)構(gòu),多的可以達(dá)到十幾層。
目錄式的搜索引擎檢索信息主要是人工操作的,編目員來(lái)甄別挑選并進(jìn)行分類處理。因?yàn)槟夸浭降乃阉饕嬖趯?duì)信息進(jìn)行分類及匯總信息時(shí),主要是依靠人來(lái)進(jìn)行的。這種搜索準(zhǔn)確度比較高,但運(yùn)作效率很慢,這就難以做到實(shí)時(shí)高效的監(jiān)控網(wǎng)絡(luò)信息,所能夠提供的查詢?nèi)嫘砸矘O低,大多是作為網(wǎng)站層級(jí)搜索用引擎。
2.2機(jī)器人搜索引擎
這種搜索引擎多是基于某策略基礎(chǔ)上,能夠智能的自動(dòng)搜索網(wǎng)絡(luò)中的有用信息,索引器能夠匯總所有檢索出的信息并對(duì)此建立索引,檢索器可以利用用戶的錄入信息生成索引項(xiàng),檢索器在此基礎(chǔ)上基于用戶的查詢,進(jìn)入檢索索引庫(kù)中搜索,然后生成直接的查詢結(jié)果并將信息返還用戶,為實(shí)現(xiàn)這種操作就不得不建立復(fù)雜的搜索引擎,但是這種信息檢索具備全面的覆蓋性,信息的更新效率也很高,這一搜索引擎的代表主要是Google與Baidu等,此類機(jī)器人搜索引擎的開(kāi)發(fā)并投入運(yùn)行代表了搜索引擎的時(shí)代性變革,也是信息檢索挖掘技術(shù)的革新。
2.3元搜索引擎
元搜索引擎一般都不具備自身的數(shù)據(jù),這種搜索引擎是借助多個(gè)搜索引擎運(yùn)作的,能夠?qū)⒂脩翡浫氲乃阉髡?qǐng)求遞交到其他搜索引擎上,其他搜索引擎回復(fù)結(jié)果再經(jīng)過(guò)元搜索引擎的二次處理后能夠?qū)⒆陨硖峁┑慕Y(jié)果返到用戶受眾,這種搜索引擎能夠聯(lián)合多引擎的搜索數(shù)據(jù),并進(jìn)行重組排序過(guò)濾掉無(wú)用的信息,搜索結(jié)果具備更好的客戶滿意度,比較成功的搜索引擎代表主要是萬(wàn)維搜索引擎與Vivisino等。
2.4客戶端搜索引擎
聯(lián)通Web網(wǎng)絡(luò)的客戶機(jī)中的搜索引擎能夠提供客戶端搜索引擎的運(yùn)作平臺(tái),建立在已知文檔之上檢索萬(wàn)維網(wǎng)上的文檔資料,并且將有用資料發(fā)送出,文檔中存有的多條超文本連接能夠連接到更多的相關(guān)文檔中,最終達(dá)成文本要求,這種以客戶端為基礎(chǔ)的搜索引擎能夠省去第三方檢索,這就一定程度的優(yōu)化了用戶截面。因?yàn)檫@種搜索是針對(duì)用戶設(shè)計(jì)的,搜索具備時(shí)效性,搜索出的資料都是最新的,但搜索速度很滿,網(wǎng)絡(luò)承擔(dān)的負(fù)載以及服務(wù)器負(fù)載較大。
2.5分布式搜索引擎
分布式搜索引擎主要是在區(qū)域及主體等標(biāo)準(zhǔn)之上進(jìn)行索引的服務(wù)器,各服務(wù)器會(huì)互相交流信息,查詢過(guò)程存在往復(fù)的功能。一但某構(gòu)成元素檢索服務(wù)器不能夠達(dá)成查詢檢索需求,便會(huì)轉(zhuǎn)發(fā)搜索請(qǐng)求到具備對(duì)應(yīng)數(shù)據(jù)的檢索服務(wù)器中,多個(gè)分布數(shù)據(jù)庫(kù)在通過(guò)分布式的搜索引擎之下,能夠一定程度的所見(jiàn)數(shù)據(jù)庫(kù),搜索引擎能夠涉及的內(nèi)容并未隨著減小,反而更全面且減少了信息的重復(fù)率,這也是分布式搜索引擎的優(yōu)點(diǎn)之一,但多個(gè)數(shù)據(jù)庫(kù)的協(xié)作運(yùn)行在實(shí)現(xiàn)過(guò)程中存在難度,當(dāng)前仍沒(méi)有真正意義上的分布式搜索引擎。
三、搜索引擎的本體論
3.1概念
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,對(duì)于計(jì)算機(jī)功能的需求也在豐富著。各具特色的計(jì)算機(jī)技術(shù)也演變的非???,這種飛速的發(fā)展效率讓相關(guān)研發(fā)機(jī)構(gòu)面對(duì)著諸多的困難。信息知識(shí)的表達(dá)以及組織、軟件復(fù)用等困難非常顯著。因?yàn)榛ヂ?lián)網(wǎng)的發(fā)展非???,大量的信息數(shù)據(jù)在組織管理及后期維護(hù)方面變得日益迫切。本體論最早起源于西方哲學(xué)史,最早是追問(wèn)萬(wàn)物本愿的學(xué)問(wèn),最早是一種哲學(xué)術(shù)語(yǔ)。
3.2搜索引擎本體論的構(gòu)成
Ontology在計(jì)算機(jī)科學(xué)領(lǐng)域的發(fā)展在朝著智能化的方向發(fā)展著,本體逐漸成為了針對(duì)某領(lǐng)域的描述,這一描述是基于繼承關(guān)系組織成的知識(shí)庫(kù)框架。Ontology能夠在計(jì)算機(jī)上進(jìn)行操作處理,能夠體現(xiàn)共同認(rèn)可的相關(guān)知識(shí),針對(duì)的對(duì)象主要是整體,Ontology所捕獲的領(lǐng)域具有相關(guān)性。在構(gòu)件搜索引擎本體的時(shí)候需要借助多重工具,選取最適工具能夠方便本體的構(gòu)建。Apollo、LinkFactory、Ontoligua、WebODE等工具有具有不同的特性。
四、基于本體的搜索引擎系統(tǒng)
基于本體的搜索引擎系統(tǒng)需要將針對(duì)專題的網(wǎng)頁(yè)文件進(jìn)行甄選,選擇恰當(dāng)?shù)膬?chǔ)存到對(duì)應(yīng)的網(wǎng)頁(yè)文件哭,然后利用網(wǎng)頁(yè)文件庫(kù)中存儲(chǔ)的文件,進(jìn)行倒排索引操作生成索引文件。最后使用者能夠在查詢接口上提交查詢請(qǐng)求,搜索引擎系統(tǒng)在用戶的錄入數(shù)據(jù)上在此進(jìn)行分詞,對(duì)本體的資料庫(kù)中概念進(jìn)行匹配處理,索引文件庫(kù)中搜索出的相關(guān)結(jié)論回復(fù)到使用者手中。系統(tǒng)需要達(dá)成以下要求:
(1)保證滿足需求的查全率;
(2)保證滿足需求的查準(zhǔn)率;
(3)保證性能(主要保證查詢速度與內(nèi)存之間的要求);
(4)保證系統(tǒng)的功能性;
(5)具備可移植性;
(6)功能的分類模塊化;
(7)保證參數(shù)配置;
(8)友好、個(gè)性化的查詢界面(針對(duì)用戶體驗(yàn))。
互聯(lián)網(wǎng)的數(shù)據(jù)信息在迅猛增長(zhǎng)的背后存在著海量的信息資源,為了解決多關(guān)鍵詞的重復(fù)及其他錯(cuò)誤產(chǎn)生服務(wù)上的偏差,并將檢索質(zhì)量進(jìn)一步提高。需要借助本體技術(shù)來(lái)改善這一問(wèn)題,本體技術(shù)的應(yīng)用能夠形成概念層次結(jié)構(gòu),幫助推理。借助推理展開(kāi)檢索條件,將用戶的需求利用智能程序解決,最終檢索出用戶需求的信息資料。對(duì)比在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上得出的信息檢索,本體表達(dá)的語(yǔ)義關(guān)系更強(qiáng),信息檢索系統(tǒng)能夠借助本體系統(tǒng)具備更高的智能程度,其結(jié)構(gòu)上也更準(zhǔn)確,能夠適應(yīng)用戶的切實(shí)需求。
采用本體技術(shù)加以應(yīng)用則需要?jiǎng)?chuàng)建用戶模型,這就用到了元數(shù)據(jù)。元數(shù)據(jù)能夠抽象的表達(dá)用戶知識(shí)背景、興趣、情感、社會(huì)關(guān)系等方方面面。這些將實(shí)際情況總結(jié)出的用戶信息,在展開(kāi)語(yǔ)義標(biāo)注的時(shí)候強(qiáng)化了用戶本體。所有相關(guān)的用戶本體都是整體模型的獨(dú)立實(shí)例,體現(xiàn)的知識(shí)結(jié)構(gòu)也存在特異性。用戶的歷史訪問(wèn)資源能夠提供用戶的知識(shí)結(jié)構(gòu)等數(shù)據(jù),用戶本體能夠動(dòng)態(tài)的更新。領(lǐng)域知識(shí)本體的相關(guān)概念、實(shí)例也需要投入用戶本體的使用中,在進(jìn)行檢索操作的時(shí)候用戶特征可以用來(lái)匹配搜索結(jié)論,最終提供給用戶符合其自身情況的學(xué)習(xí)資源。
而用戶本體具有更新行為,用戶的興趣及情感都會(huì)隨著多重影響因素產(chǎn)生變化,這就需要系統(tǒng)能夠適時(shí)的做出改變,這樣才能夠迎合用戶需求。及時(shí)的利用歷史記錄來(lái)查詢出搜索引擎用戶本體產(chǎn)生的變化,能夠幫助搜索引擎改善用戶體驗(yàn),所以用戶本體的更新需要及時(shí)進(jìn)行,并且不能夠忽略細(xì)節(jié)。用戶的實(shí)際操作記錄一般都會(huì)歲用戶的使用時(shí)長(zhǎng)產(chǎn)生波動(dòng),理想上的與用戶使用系統(tǒng)進(jìn)行同步更新是不能夠?qū)崿F(xiàn)的,而用戶在使用時(shí)會(huì)產(chǎn)生大量的操作數(shù)據(jù),對(duì)這大量的操作數(shù)據(jù)進(jìn)行操作產(chǎn)生的工作量十分大,短時(shí)間內(nèi)是不能夠達(dá)成的。為求實(shí)現(xiàn)這一目標(biāo),通過(guò)離線更新、在線更新兩種形式的結(jié)合作用,可以通過(guò)在線更新解決實(shí)時(shí)影響較小且數(shù)據(jù)量較少的操作;面對(duì)其他整理計(jì)算工作量更大的的更新操作,則需要通過(guò)離線更新來(lái)解決。
這種在用戶本體元基礎(chǔ)上建立的數(shù)據(jù)模型,可以詳細(xì)的表達(dá)出用戶的背景知識(shí)以及算法等多個(gè)方面。用戶的社交各級(jí)關(guān)系上的算法,以及用戶在情感取向相關(guān)的判定也具有知道效果,通過(guò)對(duì)用戶的興趣展開(kāi)識(shí)別處理能夠適時(shí)的動(dòng)態(tài)更新用戶模型,這就從根本強(qiáng)化了這一用戶模型的準(zhǔn)確性、全面性,為建立基于本體的信息關(guān)聯(lián)搜索引擎建立穩(wěn)固基礎(chǔ)。
五、總結(jié)
互聯(lián)網(wǎng)的發(fā)展速度非???,身為相關(guān)行業(yè)的研究人員、工作人員應(yīng)當(dāng)緊隨技術(shù)與需求的演變。常規(guī)的搜索引擎難以適應(yīng)整體大環(huán)境的需求,當(dāng)前針對(duì)用戶或其他本體的新型搜索引擎能夠帶來(lái)的更高效的檢索服務(wù)已經(jīng)成為了信息檢索領(lǐng)域的研究重點(diǎn)。基于本體建立搜索引擎模型,并就這一模型進(jìn)行分析研究,總結(jié)出搜索引擎的語(yǔ)義非常重要,這種搜索引擎具備的內(nèi)涵,可以在用戶的操作歷史記錄上推理得來(lái),這種推理出的數(shù)據(jù)對(duì)于提供更友好的用戶體驗(yàn)非常重要,也能夠進(jìn)一步的改善用戶查詢準(zhǔn)確性。當(dāng)前基于本體的搜索引擎尚未成熟,仍需要加以探索,力求提供更專業(yè)、準(zhǔn)確的搜索服務(wù)。
參 考 文 獻(xiàn)
[1]陸幸福. 論搜索引擎服務(wù)商在提供鏈接過(guò)程中的權(quán)利與義務(wù)——基于霍菲爾德權(quán)利理論的一種分析[J]. 法學(xué)評(píng)論,2013,04:3-11.
[2]黎邦群. 基于搜索引擎與用戶體驗(yàn)優(yōu)化的OPAC研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2013,04:120-129.
[3]李憶,袁志會(huì),袁梓翔. 搜索引擎優(yōu)化技術(shù)對(duì)網(wǎng)站友好性影響的實(shí)證研究[J]. 情報(bào)雜志,2014,09:173-180.
[4]朝樂(lè)門(mén),張勇,邢春曉. 面向跨領(lǐng)域海量信息資源的元搜索引擎研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2011,02:19-29.
[5]馬少平,劉奕群,劉健,張敏,祝建華,茹立云. 中文搜索引擎用戶行為的演化分析[J]. 中文信息學(xué)報(bào),2011,06:90-97.
[6]王知津,潘穎. 中文搜索引擎商業(yè)模式比較:以百度和谷歌為例[J]. 圖書(shū)館工作與研究,2012,11:4-11.
[7]馬費(fèi)成,望俊成,吳克文,邱璇. 國(guó)外搜索引擎檢索效能研究述評(píng)[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2009,04:72-79.
[8]陳遠(yuǎn),成全,鐘曉星. 基于搜索引擎的關(guān)鍵詞廣告及策略[J]. 情報(bào)理論與實(shí)踐,2005,02:169-172.
[9]黃知義,周寧. 幾類搜索引擎的原理剖析、比較研究及發(fā)展趨勢(shì)探討[J]. 圖書(shū)館學(xué)研究,2005,03:61-64+67.
[10]趙金海,趙西安. 國(guó)外網(wǎng)絡(luò)搜索引擎優(yōu)秀資源現(xiàn)狀述評(píng)——搜索引擎網(wǎng)站、論壇、新聞和學(xué)術(shù)會(huì)議資源[J]. 現(xiàn)代情報(bào),2008,01:218-220+223.
[11]倪德強(qiáng). 基于本體的軟件構(gòu)件描述與檢索[J].指揮信息系統(tǒng)與技術(shù),2010,04:24—28