亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于本體的信息關(guān)聯(lián)搜索

2017-07-16 20:31:57李春楊明顧婷婷

中國(guó)新通信 2017年11期

李春+楊明+顧婷婷

【摘要】互聯(lián)網(wǎng)的資源具備復(fù)雜性，資料的數(shù)量非常巨大，使用這些雜亂的數(shù)據(jù)需要進(jìn)行數(shù)據(jù)分揀，選出具有應(yīng)用價(jià)值的信息，搜索引擎能夠完成這一功能。搜索引擎指的是用戶用來(lái)搜索關(guān)聯(lián)信息的工具，搜索引擎能夠利用搜索關(guān)聯(lián)策略搜集整理信息，需求的信息在經(jīng)過(guò)重新的匯總、整理后，提供給用戶的檢索服務(wù)可以達(dá)成信息導(dǎo)航功能。搜索引擎的成功運(yùn)作可以提供極大的便利，幫助人們高效的獲取網(wǎng)絡(luò)資源信息。當(dāng)前針對(duì)用戶或其他本體的新型搜索引擎能夠帶來(lái)的更高效的檢索服務(wù)已經(jīng)成為了信息檢索領(lǐng)域的研究重點(diǎn)?；诒倔w建立搜索引擎模型，并就這一模型進(jìn)行分析研究，總結(jié)出搜索引擎的語(yǔ)義非常重要，這種搜索引擎具備的內(nèi)涵，可以在用戶的操作歷史記錄上推理得來(lái)，這種推理出的數(shù)據(jù)對(duì)于提供更友好的用戶體驗(yàn)非常重要，也能夠進(jìn)一步的改善用戶查詢準(zhǔn)確性。目前的搜索引擎尚不能夠提供成熟的服務(wù)，基于本體的搜索引擎也存在很多問(wèn)題，仍需要加以探索，提供更專業(yè)、準(zhǔn)確的搜索服務(wù)將會(huì)是搜索引擎的發(fā)展方向。

【關(guān)鍵詞】本體信息關(guān)聯(lián) 搜索引擎

前言

互聯(lián)網(wǎng)技術(shù)隨著時(shí)代與科技的發(fā)展已經(jīng)日益成熟，并且逐漸的融入了我們的日常生活，成為了重要工具?；ヂ?lián)網(wǎng)的資源非常豐富，網(wǎng)絡(luò)上的信息摻雜在一起，在使用時(shí)需要甄選出具有應(yīng)用價(jià)值的信息，為滿足這一需求，各大編程工程人員研發(fā)設(shè)計(jì)出了多種搜索引擎。

搜索引擎指的是用戶用來(lái)搜索關(guān)聯(lián)信息的工具，搜索引擎能夠利用搜索關(guān)聯(lián)策略搜集整理信息，需求的信息在經(jīng)過(guò)重新的匯總、整理后，提供給用戶的檢索服務(wù)可以達(dá)成信息導(dǎo)航功能。搜索引擎的成功運(yùn)作可以提供極大的便利，幫助人們高效的獲取網(wǎng)絡(luò)資源信息。

目前網(wǎng)絡(luò)信息發(fā)展速度極快，信息的膨脹化發(fā)展具備多元化的新特性。傳統(tǒng)的搜索引擎愈發(fā)的難以滿足目前信息的搜索需求，使用者常常會(huì)需求多條類似的信息，這種批量的信息需求讓操作者只能在大量重復(fù)繁瑣的信息庫(kù)中逐個(gè)查找。當(dāng)前的搜索引擎不僅需要提供用戶需求的準(zhǔn)確、有用信息，能夠快速整理出分類細(xì)致、準(zhǔn)確、全面、具備時(shí)效性的搜索列表就顯得非常重要，這就需要基于本體的信息關(guān)聯(lián)搜索，這種基于本體的搜索強(qiáng)化了針對(duì)某一主體信息的相關(guān)收錄及更新，減少了搜索中涉及的大量無(wú)用信息，查詢搜索的效率極高。這樣就改善優(yōu)化了相似的其他檢索工具在信息檢索上的功能，具有先進(jìn)的優(yōu)勢(shì)。

目前的搜索引擎多采用的語(yǔ)法層級(jí)搜索，搜索匹配大多是機(jī)械性的檢索。而本體相關(guān)的信息關(guān)聯(lián)搜索，可以針對(duì)使用者搜索的關(guān)鍵詞展開(kāi)語(yǔ)義分析并加以處理，這樣進(jìn)行的搜索操作就具有了一定的智能性，運(yùn)行得出的結(jié)果不管是查準(zhǔn)率還是覆蓋面都非常優(yōu)秀。

搜索引擎究其功能仍是作為網(wǎng)絡(luò)信息的檢索查詢工具，具備策略性，并就策略在互聯(lián)網(wǎng)中檢索、搜集信息，整理組織信息，為用戶提供所需的信息資源。隨著互聯(lián)網(wǎng)的發(fā)展，搜索引擎也不斷的進(jìn)化著。

一、搜索引擎的發(fā)展

1.1 Archie——原始搜索引擎

在1990年，加拿大蒙特利爾McGill University的學(xué)生AlanEmtage等人發(fā)明了這一搜索引擎，在那時(shí)，萬(wàn)維網(wǎng)仍未出現(xiàn)，Archie仍舊是基于互聯(lián)網(wǎng)的FTP網(wǎng)站文件自動(dòng)索引程序，嚴(yán)格來(lái)講還不是真正意義的搜索引擎，十一個(gè)可以提供搜索功能的文件名列表，操作者在這一流標(biāo)中錄入精準(zhǔn)的文件全程才能夠搜索出結(jié)果，結(jié)果通常是FTP下載地址。

1.2 World Wide Web Wanderer——首個(gè)網(wǎng)絡(luò)機(jī)器人

這是世界上第一個(gè)Spider程序，之所以被稱為Spider程序的起因在于專用信息檢索的Robot程序在運(yùn)作時(shí)，會(huì)像Spider（蜘蛛）一樣在字節(jié)網(wǎng)絡(luò)之間爬動(dòng)，所以對(duì)于搜索引擎所使用的Robot程序，往往都被稱之為Spider程序。World Wide Web Wanderer是1993年MIT的Matthew Gary編寫(xiě)的，能夠在互聯(lián)網(wǎng)中追蹤發(fā)展規(guī)模，起初這一程序是用來(lái)整理匯總互聯(lián)網(wǎng)中的服務(wù)器數(shù)量的，慢慢的衍生出了捕獲網(wǎng)址的功能（url）。

1.3 Yahoo——目錄型搜索引擎

隨著互聯(lián)網(wǎng)的發(fā)展逐漸成熟，時(shí)至1994年，斯坦福大學(xué)的兩名博士生：楊致遠(yuǎn)（美籍華人）與David Filo聯(lián)合創(chuàng)立了Yahoo。并且在Yahoo投入使用后訪問(wèn)量及收錄鏈接量飛速上漲，Yahoo的不斷成長(zhǎng)，進(jìn)化出了目錄基礎(chǔ)上的簡(jiǎn)單數(shù)據(jù)檢索功能。介于手工輸入的數(shù)據(jù)，Yahoo仍舊不能夠作為成熟的搜索引擎，僅僅是基于網(wǎng)絡(luò)的可搜索目錄，但在當(dāng)時(shí)Yahoo已經(jīng)能夠展現(xiàn)出優(yōu)異、高效的搜索效率，在之后的發(fā)展中，Yahoo使用了AltaVista、Inktomi、Google等搜索引擎服務(wù)。

1.4 Metacrawler——第一個(gè)元搜索引擎

元搜索引擎一般都不具備自身的數(shù)據(jù)，這種搜索引擎是借助多個(gè)搜索引擎運(yùn)作的，能夠?qū)⒂脩翡浫氲乃阉髡?qǐng)求遞交到其他搜索引擎上，其他搜索引擎回復(fù)結(jié)果再經(jīng)過(guò)元搜索引擎的二次處理后能夠?qū)⒆陨硖峁┑慕Y(jié)果返到用戶受眾，這種搜索引擎能夠聯(lián)合多引擎的搜索數(shù)據(jù)，并進(jìn)行重組排序過(guò)濾掉無(wú)用的信息，搜索結(jié)果具備更好的客戶滿意度。

二、搜索引擎的分類

搜索引擎主要的劃分一局基于信息搜集方式與提供的服務(wù)形式。

2.1目錄式搜索引擎

目錄式的搜索引擎是最為原始的一種搜索引擎，主要的代表當(dāng)屬Yahoo，目前我國(guó)的Sohu也是相同類型的搜索引擎。這種目錄式搜索引擎運(yùn)作的原理在于對(duì)網(wǎng)絡(luò)信息進(jìn)行主題分類，將整體劃分為主要的幾個(gè)大類，然后再將大類進(jìn)行細(xì)分，最后就生成了具備瀏覽功能的多等級(jí)主題檢索形式的搜索引擎，常規(guī)情況下的的搜索引擎大多是五至六層結(jié)構(gòu)，多的可以達(dá)到十幾層。

目錄式的搜索引擎檢索信息主要是人工操作的，編目員來(lái)甄別挑選并進(jìn)行分類處理。因?yàn)槟夸浭降乃阉饕嬖趯?duì)信息進(jìn)行分類及匯總信息時(shí)，主要是依靠人來(lái)進(jìn)行的。這種搜索準(zhǔn)確度比較高，但運(yùn)作效率很慢，這就難以做到實(shí)時(shí)高效的監(jiān)控網(wǎng)絡(luò)信息，所能夠提供的查詢?nèi)嫘砸矘O低，大多是作為網(wǎng)站層級(jí)搜索用引擎。

2.2機(jī)器人搜索引擎

這種搜索引擎多是基于某策略基礎(chǔ)上，能夠智能的自動(dòng)搜索網(wǎng)絡(luò)中的有用信息，索引器能夠匯總所有檢索出的信息并對(duì)此建立索引，檢索器可以利用用戶的錄入信息生成索引項(xiàng)，檢索器在此基礎(chǔ)上基于用戶的查詢，進(jìn)入檢索索引庫(kù)中搜索，然后生成直接的查詢結(jié)果并將信息返還用戶，為實(shí)現(xiàn)這種操作就不得不建立復(fù)雜的搜索引擎，但是這種信息檢索具備全面的覆蓋性，信息的更新效率也很高，這一搜索引擎的代表主要是Google與Baidu等，此類機(jī)器人搜索引擎的開(kāi)發(fā)并投入運(yùn)行代表了搜索引擎的時(shí)代性變革，也是信息檢索挖掘技術(shù)的革新。

2.3元搜索引擎

2.4客戶端搜索引擎

聯(lián)通Web網(wǎng)絡(luò)的客戶機(jī)中的搜索引擎能夠提供客戶端搜索引擎的運(yùn)作平臺(tái)，建立在已知文檔之上檢索萬(wàn)維網(wǎng)上的文檔資料，并且將有用資料發(fā)送出，文檔中存有的多條超文本連接能夠連接到更多的相關(guān)文檔中，最終達(dá)成文本要求，這種以客戶端為基礎(chǔ)的搜索引擎能夠省去第三方檢索，這就一定程度的優(yōu)化了用戶截面。因?yàn)檫@種搜索是針對(duì)用戶設(shè)計(jì)的，搜索具備時(shí)效性，搜索出的資料都是最新的，但搜索速度很滿，網(wǎng)絡(luò)承擔(dān)的負(fù)載以及服務(wù)器負(fù)載較大。

2.5分布式搜索引擎

分布式搜索引擎主要是在區(qū)域及主體等標(biāo)準(zhǔn)之上進(jìn)行索引的服務(wù)器，各服務(wù)器會(huì)互相交流信息，查詢過(guò)程存在往復(fù)的功能。一但某構(gòu)成元素檢索服務(wù)器不能夠達(dá)成查詢檢索需求，便會(huì)轉(zhuǎn)發(fā)搜索請(qǐng)求到具備對(duì)應(yīng)數(shù)據(jù)的檢索服務(wù)器中，多個(gè)分布數(shù)據(jù)庫(kù)在通過(guò)分布式的搜索引擎之下，能夠一定程度的所見(jiàn)數(shù)據(jù)庫(kù)，搜索引擎能夠涉及的內(nèi)容并未隨著減小，反而更全面且減少了信息的重復(fù)率，這也是分布式搜索引擎的優(yōu)點(diǎn)之一，但多個(gè)數(shù)據(jù)庫(kù)的協(xié)作運(yùn)行在實(shí)現(xiàn)過(guò)程中存在難度，當(dāng)前仍沒(méi)有真正意義上的分布式搜索引擎。

三、搜索引擎的本體論

3.1概念

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，對(duì)于計(jì)算機(jī)功能的需求也在豐富著。各具特色的計(jì)算機(jī)技術(shù)也演變的非?？?，這種飛速的發(fā)展效率讓相關(guān)研發(fā)機(jī)構(gòu)面對(duì)著諸多的困難。信息知識(shí)的表達(dá)以及組織、軟件復(fù)用等困難非常顯著。因?yàn)榛ヂ?lián)網(wǎng)的發(fā)展非?？?，大量的信息數(shù)據(jù)在組織管理及后期維護(hù)方面變得日益迫切。本體論最早起源于西方哲學(xué)史，最早是追問(wèn)萬(wàn)物本愿的學(xué)問(wèn)，最早是一種哲學(xué)術(shù)語(yǔ)。

3.2搜索引擎本體論的構(gòu)成

Ontology在計(jì)算機(jī)科學(xué)領(lǐng)域的發(fā)展在朝著智能化的方向發(fā)展著，本體逐漸成為了針對(duì)某領(lǐng)域的描述，這一描述是基于繼承關(guān)系組織成的知識(shí)庫(kù)框架。Ontology能夠在計(jì)算機(jī)上進(jìn)行操作處理，能夠體現(xiàn)共同認(rèn)可的相關(guān)知識(shí)，針對(duì)的對(duì)象主要是整體，Ontology所捕獲的領(lǐng)域具有相關(guān)性。在構(gòu)件搜索引擎本體的時(shí)候需要借助多重工具，選取最適工具能夠方便本體的構(gòu)建。Apollo、LinkFactory、Ontoligua、WebODE等工具有具有不同的特性。

四、基于本體的搜索引擎系統(tǒng)

基于本體的搜索引擎系統(tǒng)需要將針對(duì)專題的網(wǎng)頁(yè)文件進(jìn)行甄選，選擇恰當(dāng)?shù)膬?chǔ)存到對(duì)應(yīng)的網(wǎng)頁(yè)文件哭，然后利用網(wǎng)頁(yè)文件庫(kù)中存儲(chǔ)的文件，進(jìn)行倒排索引操作生成索引文件。最后使用者能夠在查詢接口上提交查詢請(qǐng)求，搜索引擎系統(tǒng)在用戶的錄入數(shù)據(jù)上在此進(jìn)行分詞，對(duì)本體的資料庫(kù)中概念進(jìn)行匹配處理，索引文件庫(kù)中搜索出的相關(guān)結(jié)論回復(fù)到使用者手中。系統(tǒng)需要達(dá)成以下要求：

（1）保證滿足需求的查全率；

（2）保證滿足需求的查準(zhǔn)率；

（3）保證性能（主要保證查詢速度與內(nèi)存之間的要求）；

（4）保證系統(tǒng)的功能性；

（5）具備可移植性；

（6）功能的分類模塊化；

（7）保證參數(shù)配置；

（8）友好、個(gè)性化的查詢界面（針對(duì)用戶體驗(yàn)）。

互聯(lián)網(wǎng)的數(shù)據(jù)信息在迅猛增長(zhǎng)的背后存在著海量的信息資源，為了解決多關(guān)鍵詞的重復(fù)及其他錯(cuò)誤產(chǎn)生服務(wù)上的偏差，并將檢索質(zhì)量進(jìn)一步提高。需要借助本體技術(shù)來(lái)改善這一問(wèn)題，本體技術(shù)的應(yīng)用能夠形成概念層次結(jié)構(gòu)，幫助推理。借助推理展開(kāi)檢索條件，將用戶的需求利用智能程序解決，最終檢索出用戶需求的信息資料。對(duì)比在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上得出的信息檢索，本體表達(dá)的語(yǔ)義關(guān)系更強(qiáng)，信息檢索系統(tǒng)能夠借助本體系統(tǒng)具備更高的智能程度，其結(jié)構(gòu)上也更準(zhǔn)確，能夠適應(yīng)用戶的切實(shí)需求。

采用本體技術(shù)加以應(yīng)用則需要?jiǎng)?chuàng)建用戶模型，這就用到了元數(shù)據(jù)。元數(shù)據(jù)能夠抽象的表達(dá)用戶知識(shí)背景、興趣、情感、社會(huì)關(guān)系等方方面面。這些將實(shí)際情況總結(jié)出的用戶信息，在展開(kāi)語(yǔ)義標(biāo)注的時(shí)候強(qiáng)化了用戶本體。所有相關(guān)的用戶本體都是整體模型的獨(dú)立實(shí)例，體現(xiàn)的知識(shí)結(jié)構(gòu)也存在特異性。用戶的歷史訪問(wèn)資源能夠提供用戶的知識(shí)結(jié)構(gòu)等數(shù)據(jù)，用戶本體能夠動(dòng)態(tài)的更新。領(lǐng)域知識(shí)本體的相關(guān)概念、實(shí)例也需要投入用戶本體的使用中，在進(jìn)行檢索操作的時(shí)候用戶特征可以用來(lái)匹配搜索結(jié)論，最終提供給用戶符合其自身情況的學(xué)習(xí)資源。

而用戶本體具有更新行為，用戶的興趣及情感都會(huì)隨著多重影響因素產(chǎn)生變化，這就需要系統(tǒng)能夠適時(shí)的做出改變，這樣才能夠迎合用戶需求。及時(shí)的利用歷史記錄來(lái)查詢出搜索引擎用戶本體產(chǎn)生的變化，能夠幫助搜索引擎改善用戶體驗(yàn)，所以用戶本體的更新需要及時(shí)進(jìn)行，并且不能夠忽略細(xì)節(jié)。用戶的實(shí)際操作記錄一般都會(huì)歲用戶的使用時(shí)長(zhǎng)產(chǎn)生波動(dòng)，理想上的與用戶使用系統(tǒng)進(jìn)行同步更新是不能夠?qū)崿F(xiàn)的，而用戶在使用時(shí)會(huì)產(chǎn)生大量的操作數(shù)據(jù)，對(duì)這大量的操作數(shù)據(jù)進(jìn)行操作產(chǎn)生的工作量十分大，短時(shí)間內(nèi)是不能夠達(dá)成的。為求實(shí)現(xiàn)這一目標(biāo)，通過(guò)離線更新、在線更新兩種形式的結(jié)合作用，可以通過(guò)在線更新解決實(shí)時(shí)影響較小且數(shù)據(jù)量較少的操作；面對(duì)其他整理計(jì)算工作量更大的的更新操作，則需要通過(guò)離線更新來(lái)解決。

這種在用戶本體元基礎(chǔ)上建立的數(shù)據(jù)模型，可以詳細(xì)的表達(dá)出用戶的背景知識(shí)以及算法等多個(gè)方面。用戶的社交各級(jí)關(guān)系上的算法，以及用戶在情感取向相關(guān)的判定也具有知道效果，通過(guò)對(duì)用戶的興趣展開(kāi)識(shí)別處理能夠適時(shí)的動(dòng)態(tài)更新用戶模型，這就從根本強(qiáng)化了這一用戶模型的準(zhǔn)確性、全面性，為建立基于本體的信息關(guān)聯(lián)搜索引擎建立穩(wěn)固基礎(chǔ)。

五、總結(jié)

互聯(lián)網(wǎng)的發(fā)展速度非?？?，身為相關(guān)行業(yè)的研究人員、工作人員應(yīng)當(dāng)緊隨技術(shù)與需求的演變。常規(guī)的搜索引擎難以適應(yīng)整體大環(huán)境的需求，當(dāng)前針對(duì)用戶或其他本體的新型搜索引擎能夠帶來(lái)的更高效的檢索服務(wù)已經(jīng)成為了信息檢索領(lǐng)域的研究重點(diǎn)。基于本體建立搜索引擎模型，并就這一模型進(jìn)行分析研究，總結(jié)出搜索引擎的語(yǔ)義非常重要，這種搜索引擎具備的內(nèi)涵，可以在用戶的操作歷史記錄上推理得來(lái)，這種推理出的數(shù)據(jù)對(duì)于提供更友好的用戶體驗(yàn)非常重要，也能夠進(jìn)一步的改善用戶查詢準(zhǔn)確性。當(dāng)前基于本體的搜索引擎尚未成熟，仍需要加以探索，力求提供更專業(yè)、準(zhǔn)確的搜索服務(wù)。

參考文獻(xiàn)

[1]陸幸福. 論搜索引擎服務(wù)商在提供鏈接過(guò)程中的權(quán)利與義務(wù)——基于霍菲爾德權(quán)利理論的一種分析[J]. 法學(xué)評(píng)論，2013，04：3-11.

[2]黎邦群. 基于搜索引擎與用戶體驗(yàn)優(yōu)化的OPAC研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào)，2013，04：120-129.

[3]李憶，袁志會(huì)，袁梓翔. 搜索引擎優(yōu)化技術(shù)對(duì)網(wǎng)站友好性影響的實(shí)證研究[J]. 情報(bào)雜志，2014，09：173-180.

[4]朝樂(lè)門(mén)，張勇，邢春曉. 面向跨領(lǐng)域海量信息資源的元搜索引擎研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào)，2011，02：19-29.

[5]馬少平，劉奕群，劉健，張敏，祝建華，茹立云. 中文搜索引擎用戶行為的演化分析[J]. 中文信息學(xué)報(bào)，2011，06：90-97.

[6]王知津，潘穎. 中文搜索引擎商業(yè)模式比較：以百度和谷歌為例[J]. 圖書(shū)館工作與研究，2012，11：4-11.

[7]馬費(fèi)成，望俊成，吳克文，邱璇. 國(guó)外搜索引擎檢索效能研究述評(píng)[J]. 中國(guó)圖書(shū)館學(xué)報(bào)，2009，04：72-79.

[8]陳遠(yuǎn)，成全，鐘曉星. 基于搜索引擎的關(guān)鍵詞廣告及策略[J]. 情報(bào)理論與實(shí)踐，2005，02：169-172.

[9]黃知義，周寧. 幾類搜索引擎的原理剖析、比較研究及發(fā)展趨勢(shì)探討[J]. 圖書(shū)館學(xué)研究，2005，03：61-64+67.

[10]趙金海，趙西安. 國(guó)外網(wǎng)絡(luò)搜索引擎優(yōu)秀資源現(xiàn)狀述評(píng)——搜索引擎網(wǎng)站、論壇、新聞和學(xué)術(shù)會(huì)議資源[J]. 現(xiàn)代情報(bào)，2008，01：218-220+223.

[11]倪德強(qiáng). 基于本體的軟件構(gòu)件描述與檢索[J].指揮信息系統(tǒng)與技術(shù)，2010，04：24—28