亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        搜索引擎在高校圖書館信息服務(wù)中的應(yīng)用

        2012-04-29 00:00:00曾定山
        網(wǎng)友世界 2012年15期

        【摘 要】介紹了一種新型的校園網(wǎng)絡(luò)環(huán)境下的搜索引擎。從搜索引擎所需技術(shù)的各個方面對這種搜索引擎的架構(gòu),具體實現(xiàn)方法進行詳細的闡述。包括最新的P2P技術(shù),網(wǎng)絡(luò)架構(gòu),搜索引擎系統(tǒng)架構(gòu),中文分詞技術(shù),數(shù)據(jù)提交,用戶接口等等。側(cè)重介紹了這種搜索引擎的實現(xiàn)模型和原理,具體實現(xiàn)環(huán)節(jié)還需要詳細的實踐和理論考證。

        【關(guān)鍵詞】搜索引擎;P2網(wǎng)絡(luò)架構(gòu)系統(tǒng)架構(gòu);中文分詞;知識挖掘

        隨著信息的發(fā)展和科技的進步,人們將現(xiàn)實世界中存在的信息,如報紙,期刊,書籍等都放到網(wǎng)上去,同時也不停地在網(wǎng)絡(luò)上生產(chǎn)出數(shù)之不盡的新信息,整個網(wǎng)絡(luò)正在堆積成一個超級大型數(shù)據(jù)庫。如何在浩瀚如海的信息空間里,快速查找并獲取自己所需的信息已經(jīng)成為信息時代重要需求。

        搜索引擎成了最受人們關(guān)注的焦點之一,許多公司紛紛架起了搜索引擎,對各種資源信息進行綜合、分析,以解決人們在日常生活中遇到的各種問題。但是對于民辦高校來說,這項工作相對比較落后。如何充分發(fā)揮高校圖書館內(nèi)部資源的優(yōu)勢,實現(xiàn)更大范圍資源共享,這是新型搜索引擎所要解決的問題。

        一、相關(guān)技術(shù)原理

        1.校園網(wǎng)絡(luò)環(huán)境下的搜索引擎和WEB搜索引擎的區(qū)別

        數(shù)據(jù)量:校園網(wǎng)絡(luò)環(huán)境下的搜索引擎面向的是校園網(wǎng)絡(luò)資源信息,一般的索引庫規(guī)模多在GB級,但是Internet搜索需要處理的是成千上萬的網(wǎng)頁信息,搜索引擎的方法是采用服務(wù)器集群和分布式計算技術(shù)。

        搜索相關(guān)性:一般的搜索引擎采用的多是網(wǎng)頁鏈接分析技術(shù)。像GOOGLE采用的就是Pagerank和Hilltop算法相結(jié)合的方式,根據(jù)互聯(lián)網(wǎng)上網(wǎng)頁被鏈接次數(shù)作為重要性評判的依據(jù)。但這里的搜索引擎的數(shù)據(jù)源中相互鏈接的程度不是很高,所以就不能作為判別重要性的依據(jù),只能關(guān)于內(nèi)容的相關(guān)性排序而已[1]。

        網(wǎng)絡(luò)安全性:網(wǎng)絡(luò)上搜索引擎的數(shù)據(jù)來源都是互聯(lián)網(wǎng)上公開的信息,而且除了正文內(nèi)容以外,其他信息都不重要,但這里的搜索引擎的數(shù)據(jù)源都是來自校園網(wǎng)絡(luò)各個主機內(nèi)部的信息,其中可能包含了個人隱私,以及一些個人重要信息[2]。

        內(nèi)容多樣性:Web搜索引擎是基于HTTP協(xié)議,對HTML,TXT等進行檢索。而這里的搜索引擎是基于P2P技術(shù)進行網(wǎng)絡(luò)傳輸,搜索的文件類型包括DOC,PDF,RAR等等各種格式,進一步提高網(wǎng)絡(luò)資源的共享。

        2.P2P技術(shù)

        P2P是peer-to-peer的縮寫,意為對等網(wǎng)絡(luò)。其在加強網(wǎng)絡(luò)上人的交流,文件交換,分布計算等方面大有前途。簡單的說,P2P直接將人們聯(lián)系起來,讓人們通過互聯(lián)網(wǎng)直接交流。P2P使得網(wǎng)絡(luò)上的溝通變得容易、更直接共享和交流,真正地消除中間商。P2P使人們可以直接連接到其他用戶的計算機、交換文件,而不是像過去那樣連接到服務(wù)器去瀏覽與下載。

        校園網(wǎng)絡(luò)環(huán)境下的信息交換,由于其網(wǎng)絡(luò)覆蓋面較小,網(wǎng)絡(luò)信息量較少,網(wǎng)絡(luò)傳輸速度快等特點,很適合采用P2P技術(shù)進行信息交換。

        假如某個學(xué)生需要從網(wǎng)絡(luò)上搜索有關(guān)于“搜索引擎”資料,他只要在搜索引擎的用戶界面輸入“搜索引擎”,選擇*.doc,*.pdf等等格式,然后敲下回車,信息首先提交到服務(wù)器上,服務(wù)器首先對校園網(wǎng)絡(luò)資源數(shù)據(jù)庫進行檢索,查找到相關(guān)的記錄,然后返回給用戶資源所在的主機名,路徑。當用戶點擊鏈接時,直接就和遠程的計算機進行信息交換,不再需要通過服務(wù)器。當然如果找不到可用的資源,還可以直接連接到圖書館的數(shù)據(jù)庫,進行檢索。

        3.中文分詞技術(shù)

        分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵詞串進行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行分析的一種技術(shù)[3]。中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來理解哪些是詞,哪些不是,但是計算機怎么理解了,這就是中文分詞技術(shù)需要解決的問題?,F(xiàn)有的分詞技術(shù)有三種:

        (1)字符串匹配的分詞方法:是常用的分詞法,百度就是用此種分詞?;谧址ヅ涞姆衷~方法,從左到右,或者從右到左拆分。

        (2)詞義分詞法:這種就是一種機器語音判斷的分詞方法,進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象來分詞。

        (3)統(tǒng)計分詞法:根據(jù)詞組的統(tǒng)計,就會發(fā)現(xiàn)兩個相鄰的字出現(xiàn)的頻率最多,那么這個詞就很重要。就可以作為用戶提供字符串中的分隔符,這樣來分詞。

        校園網(wǎng)絡(luò)環(huán)境下的搜索引擎對中文分詞技術(shù)和傳統(tǒng)WEB搜索引擎的類似,因此,可以采用以上所敘的方法。

        二、系統(tǒng)結(jié)構(gòu)

        搜索引擎系統(tǒng)架構(gòu),傳統(tǒng)的搜索引擎由3大部分構(gòu)成,網(wǎng)上機器人(Robot Spiders),它是一種穿梭于WWW空間的計算機軟件,自動從一個網(wǎng)頁跨越到另一個網(wǎng)頁,自動追尋超文本的鏈接,對信息進行采集,標引,然后發(fā)送回服務(wù)器。索引數(shù)據(jù)庫(Index Database),存放經(jīng)過處理的機器人采集和標引的信息記錄。檢索代理(Agent),提供查詢服務(wù),對返回給用戶的結(jié)果進行排序等處理。

        校園網(wǎng)環(huán)境下的搜索引擎,采用的也是傳統(tǒng)的架構(gòu),但針對其特有的網(wǎng)絡(luò)環(huán)境,也有其獨特的地方。其中關(guān)鍵不同的是:由于其數(shù)據(jù)庫是基于校園內(nèi)部的信息資源而建立,并且,信息資源來源一般固定,因此,直接采用固定客服端程序進行信息的采集。當然,采集的信息量除了傳統(tǒng)的超文本,文本,還包括Doc,Pdf,Jpg,Rar等等類型的文件,大大提高網(wǎng)絡(luò)資源信息量,能夠滿足用戶的各種信息需求。在傳回給服務(wù)器端程序的表單中,包含的也不再是URL等,而是用戶的主機IP,ID,文件存放的路徑等等。

        三、數(shù)據(jù)提交程序的原理

        每個學(xué)生,教師在申請加入校園網(wǎng)時,都要提交一份申請表單,并保證在自己的PC上提供一定數(shù)量,大小的文擋數(shù)據(jù)等。通過這個共享的分區(qū),實現(xiàn)資源共享,查詢等操作。這是整個數(shù)據(jù)庫資源重要的一部分。申請后,學(xué)校分配每個用戶一個登陸的用戶名,IP地址,以及發(fā)放一個客服端程序(AI Terminal),客服端程序如同傳統(tǒng)WEB搜索引擎中的Robot Spider,但是傳統(tǒng)的Robot Spider一般是爬行在Internet上,不斷的搜集數(shù)據(jù),URL,發(fā)送回服務(wù)器。這里的AI Terminal一般是固定在客服端,收集包括doc,pdf,jpj,rar等等文件信息,然后進行歸類,對內(nèi)容關(guān)鍵字,存放路徑進行整理,制作成索引表單,發(fā)送回服務(wù)器。由于用戶數(shù)據(jù)的不定時變動,更新,因此AI Terminal需要定時的對共享信息,進行再次檢索歸類,以提供最新的路徑和文件信息給服務(wù)器端程序[4]。

        四、提問式處理

        提問式處理實際上是自然語言的處理技術(shù)。包括三個部分,問題分類,關(guān)鍵詞提取,關(guān)鍵詞拓展。

        1.問題分類:對不同類型的問題,往往有不同的處理方法,所以不論是英文系統(tǒng)還是中文系統(tǒng)一般都有問題分類這個過程。這里我們以中文系統(tǒng)為例,一般的中文系統(tǒng)都按照疑問短語來對問題進行分類。

        2.關(guān)鍵詞提取:我們需要在用戶提問的問題中,提取出對后面檢索系統(tǒng)有用的關(guān)鍵字。并不是在問題中的每個詞都可以提取出來作為檢索系統(tǒng)的關(guān)鍵詞。比如,疑問詞和一些常用的“吧、了、的”等詞就應(yīng)該被過濾掉,為此,需要一個停用詞表來過濾這些詞。

        3.關(guān)鍵詞拓展:為了提高檢索系統(tǒng)的查全率,一般的系統(tǒng)都對關(guān)鍵詞進行擴展。但如果擴展不適當會極大地降低了檢索查準率,因此一般的系統(tǒng)對關(guān)鍵詞的擴展都是很謹慎的。所以對關(guān)鍵詞的擴展要添加了很多限制條件。一般可以根據(jù)同義詞典,同音詞典等進行拓展。拓展后的關(guān)鍵詞的重要性要比直接提取的關(guān)鍵詞的重要性要低,適當?shù)慕档退鼈兊臋?quán)重來提高查準率。

        五、信息檢索

        傳統(tǒng)的檢索技術(shù)是基于關(guān)鍵詞匹配進行檢索的,往往存在查不全,查不準,質(zhì)量不高的現(xiàn)象,特別是現(xiàn)代信息量的急速膨脹,利用關(guān)鍵詞匹配很難滿足用戶的要求。因此需要采用更加智能化的信息檢索技術(shù)。現(xiàn)代技術(shù)主要利用分詞詞典,同義詞典,同音詞典來改善檢索效果。信息檢索的技術(shù)由:

        1.并行檢索:并行信息檢索是由多個可同時工作的處理部件或處理器構(gòu)成的計算機體系進行信息檢索。并行檢索算法對數(shù)據(jù)和計算進行了分割。數(shù)據(jù)分割有邏輯分割與物理分割兩種形式。

        2.分布式檢索:分布式搜索引擎把信息通過網(wǎng)絡(luò)物理的分布存儲和維護,把更大范圍的分布,文檔信息形成一個邏輯整體,為用戶提供分布的信息檢索。分布信息檢索的目標就是按照一致的信息描敘,標識,將用戶引導(dǎo)進入分布式的信息空間,進行信息檢索[5]。

        六、用戶接口

        好的搜索引擎,不光有高智能化的檢索機制,海量的數(shù)據(jù)信息,清晰,友好的用戶界面頁非常重要。尤其是在現(xiàn)代商業(yè)化的搜索引擎中,用戶界面的好壞,很大程度上關(guān)系著用戶的使用量。在校園網(wǎng)絡(luò)環(huán)境中,對搜索引擎的評價,用戶界面的分量雖然沒有那么重,但是,一個簡潔,友好界面能獲得更多用戶的使用,從而能更進一步的促進網(wǎng)絡(luò)資源的共享,更加有效地利用校園網(wǎng)絡(luò)。

        七、結(jié)語

        互聯(lián)網(wǎng)在21世紀得到了飛速的發(fā)展,它在一步步深入人們的生活,改變?nèi)藗兊纳?,互?lián)網(wǎng)經(jīng)濟也進入了“搜索力經(jīng)濟”的時代。因此許多公司內(nèi)部,學(xué)校內(nèi)部也紛紛架起了搜索引擎,對各種資源信息進行綜合、分析,以幫助解決生活中遇到的各種問題。本論文提出了校園網(wǎng)絡(luò)環(huán)境下的搜索引擎的解決方案。采用了最新出現(xiàn)的P2P等技術(shù),雖然某些技術(shù)現(xiàn)階段實現(xiàn)存在一些困難,但是作為一種最新的發(fā)展趨勢,相信不久會得到解決。

        參考文獻:

        [1]何世林.基于Java技術(shù)的搜索引擎研究與實現(xiàn)織[D].西南交通大學(xué),2008.

        [2]呂霞.搜索引擎去重算法的研究與實現(xiàn)[D].江蘇大學(xué),2010.

        [3]何欣全.互聯(lián)網(wǎng)環(huán)境下基于專題內(nèi)容的搜索系統(tǒng)的研究與設(shè)計[D].同濟軟件學(xué)院,2010.

        [4]周赟.垂直搜索引擎Spider技術(shù)的研究和應(yīng)用[D].中山大學(xué),2009.

        [5]劉雁南.利用TRS構(gòu)造全文檢索信息系統(tǒng)的設(shè)計與實現(xiàn)[D].山東大學(xué),2010.

        国产精品第一国产精品| 色婷婷亚洲一区二区在线| 日韩一区二区中文字幕| 亚洲av老熟女一区二区三区| 久久精品国产99久久久| 久久久久亚洲av成人网人人网站| 无码熟妇人妻av在线影片| 国产精品久久中文字幕第一页 | 91亚洲最新国语中文字幕| 亚洲岛国一区二区三区| 国产av熟女一区二区三区 | 全程国语对白资源在线观看| 日本视频在线观看二区| 亚洲精品无码专区| 午夜dj在线观看免费视频| 婷婷一区二区三区在线| 手机在线观看成年人视频| 美女很黄很色国产av| а√天堂资源官网在线资源| 国产乱人伦偷精品视频| 天天摸天天做天天爽天天舒服| 国产在线视频一区二区三区不卡| 日本在线观看一区二区三| 亚洲色大成网站www久久九九| 两个黑人大战嫩白金发美女| 中文字幕日本女优在线观看| 一区视频免费观看播放| 999国产精品999久久久久久| 日本少妇被黑人xxxxx| 国产一区二区三区爆白浆| 麻豆三级视频网站在线观看| 国产美女主播视频一二三区| 丰满人妻一区二区三区视频53| 欧美日韩亚洲精品瑜伽裤| 精品国产乱来一区二区三区| 97精品人妻一区二区三区在线| 色欲综合一区二区三区| 4444亚洲人成无码网在线观看| 婷婷精品国产亚洲av| 青青草激情视频在线播放| 欧美牲交videossexeso欧美|