亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XML的搜索引擎

        2008-04-12 00:00:00吳啟明

        摘要: 對(duì)比介紹了XML語(yǔ)言與HTML語(yǔ)言以及搜索引擎的工作原理和相關(guān)的幾項(xiàng)技術(shù),設(shè)計(jì)了基于XML的搜索引擎的模型,介紹了模型的設(shè)計(jì)思想及大體框架。模型包括機(jī)器人模塊、轉(zhuǎn)換模塊、解析模塊、索引模塊和查詢(xún)模塊這幾部分。

        關(guān)鍵詞:XML;HTML;搜索

        1 引言

        HTML-Hypertext Markup Language,即超文本標(biāo)記語(yǔ)言。以其簡(jiǎn)單精煉的語(yǔ)法、極易掌握的通用性與易學(xué)性,使互聯(lián)網(wǎng)也才得以普及發(fā)展以至今日的輝煌。然而,隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展,出現(xiàn)了Web文件的復(fù)雜化、多樣化、智能化,另外同樣的數(shù)據(jù)能否根據(jù)不同用戶(hù)的需求以不同的效果、形式、表達(dá)再現(xiàn)出來(lái)也是人們關(guān)注的問(wèn)題??蓴U(kuò)展標(biāo)記語(yǔ)言就是在這樣的背景下應(yīng)運(yùn)而生,以XML為基礎(chǔ)的新一代WWW環(huán)境是直接面對(duì)Web數(shù)據(jù)的,不僅可以很好的兼容原有的Web應(yīng)用,而且可以更好的實(shí)現(xiàn)Web中的信息共享與交換,隨著XML的廣泛應(yīng)用,基于XML文檔的搜索引擎模型就成為眾望所歸。

        2 搜索引擎的工作原理

        一般說(shuō)來(lái),搜索引擎由搜索器、索引器、檢索器和用戶(hù)接口四個(gè)部分組成。

        2.1 搜索器一抓取網(wǎng)頁(yè)

        搜索器根據(jù)一定的網(wǎng)頁(yè)搜集策略和規(guī)劃,調(diào)度運(yùn)行網(wǎng)頁(yè)自動(dòng)搜索軟件如Crawl、Spider等,對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行快速有效的搜集,并將它們存入搜索引擎的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中。

        2.2 索引器一處理網(wǎng)頁(yè)

        索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng)用于表示文檔以及生成文檔庫(kù)的索引表。此外還包括去除重復(fù)網(wǎng)頁(yè)、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度功能等。

        2.3 檢索器一提供檢索服務(wù)

        檢索器的功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)用戶(hù)相關(guān)性反饋。

        2.4 用戶(hù)接口一界面

        用戶(hù)接口的作用是便于輸入用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供用戶(hù)相關(guān)性反饋,分為簡(jiǎn)單接口和復(fù)雜接口兩種類(lèi)型。簡(jiǎn)單接口只提供用戶(hù)輸入查詢(xún)串的文本框,復(fù)雜接口可以讓用戶(hù)對(duì)查詢(xún)進(jìn)行限制。

        3 基于XML的搜索引擎整體設(shè)計(jì)

        基于XML的搜索引擎的總體結(jié)構(gòu)和普通的基于HTML的搜索引擎一樣仍然包括網(wǎng)頁(yè)采集、索引以及用戶(hù)查詢(xún)這幾大模塊,但是,由于HTML語(yǔ)言與XML語(yǔ)言并存,必需有把HTML格式的文檔轉(zhuǎn)換為XML格式的轉(zhuǎn)換模塊。另外針對(duì)XML文檔的特點(diǎn),建立索引之前需要提取XML文檔的文本信息和結(jié)構(gòu)信息,這個(gè)工作由一個(gè)XML解析器來(lái)完成,所以在索引模塊中應(yīng)加入一個(gè)XML文檔解析器,文中把加入解析器后的索引模塊稱(chēng)為解析索引模塊。

        所以基于XML的搜索引擎應(yīng)由網(wǎng)頁(yè)采集模塊、HTML到XML轉(zhuǎn)換模塊、網(wǎng)頁(yè)解析和索引模塊、用戶(hù)查詢(xún)模塊這四部分組成。如圖1所示。

        4模塊設(shè)計(jì)

        4.1網(wǎng)頁(yè)采集器模塊

        基于XML的搜索引擎的網(wǎng)頁(yè)采集器模塊和基于HTML的普通搜索引擎的網(wǎng)頁(yè)采集器職能相同,它們都是一個(gè)Robot程序通過(guò)在Internet上一刻不停的漫游,抓取網(wǎng)頁(yè)資源,同時(shí)定期瀏覽己存儲(chǔ)在自己數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè),以避免網(wǎng)頁(yè)過(guò)期導(dǎo)致的無(wú)效鏈接。機(jī)器人和web站點(diǎn)的web服務(wù)器通過(guò)HTTP ( Hypertext Transfer Protocol)協(xié)議進(jìn)行交互,從Web站點(diǎn)下載XML文檔和HTML文檔。

        4.2轉(zhuǎn)換模塊

        機(jī)器人模塊下載的文檔包括HTML文檔和XML文檔,而索引器要為XML文檔建立索引,必須把HTML文檔轉(zhuǎn)換為XML文檔,這就需要有個(gè)轉(zhuǎn)換器。

        轉(zhuǎn)換方法主要有:HTML文檔直接向XML的轉(zhuǎn)換;利用XHTML進(jìn)行轉(zhuǎn)換;利用智能代理進(jìn)行轉(zhuǎn)換。文章使用了網(wǎng)上的轉(zhuǎn)換工具(http: //www.html2XML.com/Html2XMLIntro. asp)這個(gè)轉(zhuǎn)換工具,可以對(duì)網(wǎng)絡(luò)HTML格式資源的URL或上載一個(gè)HTML文檔進(jìn)行轉(zhuǎn)換為XML,輸出XML文檔格式,通過(guò)IE5.0內(nèi)嵌的樣式表進(jìn)行顯示,還可以下載XML2html.xsl工具把XML文檔轉(zhuǎn)換回HTML文檔。

        4.3解析索引模塊

        基于XML搜索引擎的解析與索引模塊是整個(gè)搜索引擎最關(guān)鍵的部分。XML文檔是一種半結(jié)構(gòu)化的數(shù)據(jù),它的數(shù)據(jù)包含結(jié)構(gòu)和內(nèi)容兩部分,在對(duì)它建立索引前首先必須對(duì)它進(jìn)行解析,將結(jié)構(gòu)信息和內(nèi)容信息分別提取出來(lái)為它們建立索引。在對(duì)以前的HTML文檔數(shù)據(jù)建立索引時(shí),需要保存的信息主要是文檔中的詞項(xiàng)信息,就是某一個(gè)詞項(xiàng)在那篇文檔中出現(xiàn),出現(xiàn)了幾次以及出現(xiàn)的位置,所謂的詞項(xiàng)即是在檢索的時(shí)候用戶(hù)可能輸入的關(guān)鍵詞。對(duì)XML文檔數(shù)據(jù)建立索引時(shí),要保存更多的信息。首先當(dāng)然是標(biāo)簽間的數(shù)據(jù)信息,另外還有標(biāo)簽信息和文檔中標(biāo)簽的嵌套層次信息。衡量索引的好壞是看它本身占據(jù)多少額外的磁盤(pán)空間和查詢(xún)時(shí)的檢索速度。

        解析與索引模塊要實(shí)現(xiàn)的功能包括兩部分:對(duì)XML文檔的解析和對(duì)解析后提取的內(nèi)容信息和結(jié)構(gòu)信息建立索引。

        4.3.1解析

        XML文檔的解析是通過(guò)一個(gè)解析器來(lái)完成的,解析器的主要任務(wù)是提取XML文檔的內(nèi)容信息和結(jié)構(gòu)信息,它負(fù)責(zé)對(duì)輸入的XML文檔進(jìn)行解析,生成DOM樹(shù),DOM樹(shù)生成后,對(duì)樹(shù)的每個(gè)節(jié)點(diǎn)做個(gè)標(biāo)記,這個(gè)標(biāo)記在它所處的文檔中是唯一的,即一個(gè)標(biāo)記唯一標(biāo)識(shí)一個(gè)節(jié)點(diǎn),這可以方便津立素引。我們采用了Apache Software Foundation提供的DOM軟件包xercesl.3.1 XML解析器來(lái)實(shí)現(xiàn)文檔的解析。

        4.3.2索引

        索引的組織方式對(duì)于搜索引擎的檢索效率起著關(guān)鍵作用,基于XML的搜索引擎也不例外,索引器就是用來(lái)為文檔建立索引的。由于對(duì)XML文檔的索引既要對(duì)標(biāo)簽標(biāo)注的內(nèi)容建立索引,又要對(duì)標(biāo)簽本身建立索引,所以XML文檔的索引文件比HTML文檔的索引文件要大。

        采用傳統(tǒng)倒排文件索引表,索引表有幾種類(lèi)型。有文檔結(jié)構(gòu)表、文檔信息表、關(guān)鍵詞索引表。文檔結(jié)構(gòu)表主要記錄文檔的標(biāo)簽信息;文檔信息表記錄文檔元信息;關(guān)鍵詞索引表記錄文檔內(nèi)容信息。

        4.4查詢(xún)模塊

        與基于HTML文檔的搜索引擎相同,基于XML文檔的搜索引擎也要有其用戶(hù)檢索機(jī)制,即本系統(tǒng)中的查詢(xún)模塊,基本過(guò)程都是用戶(hù)輸入關(guān)鍵詞,搜索引擎返回與關(guān)鍵詞相關(guān)的網(wǎng)頁(yè)網(wǎng)址及該網(wǎng)頁(yè)的簡(jiǎn)單描述。

        5 結(jié)束語(yǔ)

        隨著XML的不斷完善,該技術(shù)必將發(fā)展成為將來(lái)IT業(yè)的主流,而基于XML文檔檢索的搜索引擎也將是未來(lái)Internet信息技術(shù)熱點(diǎn)。它的前景將是十分廣闊。

        參考文獻(xiàn)

        [1] 王海波,姜吉發(fā).XML搜索引擎研究[J]計(jì)算機(jī)應(yīng)用研究,200118(4)

        [2]史艷,李偉生.基于XML的搜索引擎技術(shù)的研究與設(shè)計(jì)[J]計(jì)算機(jī)工程與設(shè)計(jì),1999 (9)

        [3] 胡師彥.XML原理與應(yīng)用[[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào),2001,17(4): 55-58

        作者簡(jiǎn)介:吳啟明(1973- ), 男, 湖南瀏陽(yáng), 武漢大學(xué)碩士, 講師, 研究方向?yàn)閿?shù)據(jù)挖掘,XML數(shù)據(jù)處理,個(gè)性化搜索。

        色一情一乱一伦麻豆| 一区二区无码精油按摩| 少妇勾引视频网站在线观看| 精品国产一区二区三区av免费| 国产国产人免费人成免费视频| 国产一区二区不卡老阿姨| 国产高清在线91福利| av在线一区二区三区不卡| 欧美伦费免费全部午夜最新| 99精品免费久久久久久久久日本 | 国产精品国产三级国产专播| 精品国产精品久久一区免费| 欧美精品色婷婷五月综合| 国产精选污视频在线观看| 91短视频在线观看免费| 日本老熟女一区二区三区| 久久不见久久见免费视频6| 国产av无码专区亚洲av琪琪| 在线成人tv天堂中文字幕| 国产91在线播放九色快色| 精品九九人人做人人爱| 久久久精品久久日韩一区综合| 亚洲乱色视频在线观看| 一区二区三区中文字幕脱狱者| 又大又粗又爽18禁免费看| 国产一级毛片AV不卡尤物| 久久久一本精品久久久一本| 亚洲综合网国产精品一区| 日韩乱码人妻无码中文字幕视频 | 亚洲av网一区二区三区| 中年熟妇的大黑p| 无码一区二区三区网站| 国产人妖视频一区二区| 无码人妻精品一区二区蜜桃网站| 久久6国产| 久久精品国产福利亚洲av| 公与淑婷厨房猛烈进出| 亚洲另类自拍丝袜第五页| 喷潮出白浆视频在线观看| 国产99一区二区三区四区| 真人无码作爱免费视频禁hnn|