亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化

        2014-07-12 13:21:36肖捷
        關(guān)鍵詞:全文檢索內(nèi)存檢索

        肖捷

        基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化

        肖捷

        (東莞理工學(xué)院 計(jì)算機(jī)學(xué)院,廣東東莞 523808)

        全文檢索是基于Web的信息搜索的關(guān)鍵技術(shù),文章從基于KySou的全文檢索系統(tǒng)的實(shí)現(xiàn)機(jī)制入手,深入分析了全文檢索系統(tǒng)的工作原理、系統(tǒng)組成及API接口設(shè)計(jì),并就全文檢索系統(tǒng)的優(yōu)化進(jìn)行探討,包括索引過程優(yōu)化和搜索過程優(yōu)化。

        KySou;全文檢索;索引優(yōu)化;搜索優(yōu)化

        全文檢索是一個(gè)非常有效的信息檢索技術(shù),它極大地提高了從海量數(shù)據(jù)中查找特定信息的效率。隨著Internet的飛速發(fā)展,基于Web的全文檢索技術(shù)正得到日益廣泛的應(yīng)用,像Alta Vista、Excite、InfoS-eek、Google、Baidu、KySou等這些典型的檢索工具對(duì)Web文檔信息的查詢起到了巨大作用。但是,這些系統(tǒng)都存在一些局限性,有待進(jìn)一步提高。因此,研究分析全文檢索技術(shù)非常必要。

        1 全文檢索系統(tǒng)的深入分析

        外部查詢模塊是基于Web的應(yīng)用系統(tǒng)的重要組成部分,通過提供功能強(qiáng)大的搜索引擎,能夠從海量資料庫中快速找出所需的所有相關(guān)資料,為用戶提供方便、快捷的信息資料查詢服務(wù)。全文檢索是外部查詢模塊的關(guān)鍵技術(shù),下面以暫住人口與出租屋綜合信息管理系統(tǒng)中的全文檢索系統(tǒng)為例,深入分析了全文檢索系統(tǒng)的實(shí)現(xiàn)機(jī)制,并就全文檢索系統(tǒng)的優(yōu)化設(shè)計(jì)進(jìn)行探討。

        1.1 實(shí)現(xiàn)機(jī)制

        全文檢索就是索引程序通過掃描資料源,逐詞建立索引并標(biāo)記該詞在資料源中出現(xiàn)的位置和次數(shù),檢索程序依據(jù)索引進(jìn)行查找,反饋查找結(jié)果給用戶[1]。通常包括按字檢索和按詞檢索兩種方法,按字檢索就是針對(duì)資料源逐字建立索引,檢索時(shí)需要將詞分解為字,再按字檢索。不同語言,字的含義不同,西文字詞合一,中文字組成詞。按詞檢索就是針對(duì)資料源逐詞建立索引,檢索時(shí)按詞檢索[2]。西方文字按空格分詞,實(shí)現(xiàn)過程類似按字方式,實(shí)現(xiàn)容易較為。東方文字必須進(jìn)行字詞切分,才能按詞索引。字詞切分是全文檢索技術(shù)的難點(diǎn)。

        全文檢索系統(tǒng)建立在全文檢索理論基礎(chǔ)上,一般具有索引和查找兩大功能,索引功能包括建立索引、增加索引和優(yōu)化索引結(jié)構(gòu)等。查找功能包括檢索條件分析、索引匹配、匹配結(jié)果排序、結(jié)果輸出等。組成結(jié)構(gòu)通常包括索引引擎、查詢引擎、文本分析引擎、對(duì)外接口及外圍應(yīng)用系統(tǒng)等。工作原理如圖1所示。

        通常全文檢索系統(tǒng)API接口設(shè)計(jì)比較通用,輸入輸出結(jié)構(gòu)類似數(shù)據(jù)庫表、記錄和字段,許多傳統(tǒng)應(yīng)用中的文件或數(shù)據(jù)庫等都能方便地映射到存儲(chǔ)結(jié)構(gòu)/接口,因此,全文檢索系統(tǒng)可以看作是個(gè)支持全文索引的數(shù)據(jù)庫系統(tǒng)。表1列出了全文檢索系統(tǒng)與數(shù)據(jù)庫系統(tǒng)間的對(duì)照關(guān)系。

        圖1 全文檢索系統(tǒng)工作原理

        全文檢索

        數(shù)據(jù)庫

        表1 全文檢索實(shí)現(xiàn)與數(shù)據(jù)庫對(duì)照表

        1.2 優(yōu)化設(shè)計(jì)

        全文檢索系統(tǒng)的優(yōu)化:使用B樹結(jié)構(gòu)來維護(hù)索引是大部分基于數(shù)據(jù)庫的搜索引擎的常用方法,索引更新會(huì)導(dǎo)致大量輸入和輸出操作(文件I/O是一件非常消耗資源的事情),索引效率較低。因此,全文檢索系統(tǒng)必須進(jìn)行優(yōu)化設(shè)計(jì),在保證不影響檢索效率的前提下,提高索引和搜索的效率。通??梢詮乃饕^程優(yōu)化和搜索過程優(yōu)化兩方面著手。

        1.2.1 索引過程優(yōu)化

        索引可以有兩種實(shí)現(xiàn)方式:小批理索引擴(kuò)展和大批量索引重建。由于索引過程需要進(jìn)行大量的文件I/O,非常消耗資料。實(shí)質(zhì)上,并非每次新的DOC文檔加入都需要重新進(jìn)行一次索引文件的IO操作,可以對(duì)索引過程進(jìn)行優(yōu)化。

        索引過程優(yōu)化思想:充分利用內(nèi)存,降低文件IO頻率,提升索引速度。也即,索引操作先在內(nèi)存完成,再按照合適的批量間隔值完成文件IO操作。因此,批量間隔值的選擇非常關(guān)鍵,一般來說,批量間隔值與內(nèi)存占用成正比,與文件IO頻率成反比,與索引速度成正比。也就是說,批量間隔值越大,占用內(nèi)存就越多,但文件IO頻率就越小。相反,批量間隔值越小,占用內(nèi)存就越少,文件IO頻率就越大,索引速度就越慢。下面以KySou為例,探討索引過程的優(yōu)化。

        在KySou索引器IndexWriter中,MERGE-FACTOR就是一個(gè)與批量間隔值相關(guān)的關(guān)鍵參數(shù),可以根據(jù)應(yīng)用環(huán)境的具體情況調(diào)整MERGE-FACTOR參數(shù),達(dá)到加快索引速度的目標(biāo),從而實(shí)現(xiàn)索引過程的優(yōu)化。根據(jù)作者本人的經(jīng)驗(yàn),KySou索引器IndexWriter的MERGE-FACTOR參數(shù)的默認(rèn)值是20(即:每索引20條記錄,文件IO一次),如果將該參數(shù)擴(kuò)大50倍,可以提升索引速度近2倍。當(dāng)然,調(diào)整MERGE-FACTOR參數(shù)值應(yīng)根據(jù)具體的應(yīng)用環(huán)境,而且應(yīng)不斷優(yōu)化調(diào)整。

        1.2.2 搜索過程優(yōu)化

        支持內(nèi)存索引的全文檢索系統(tǒng)與基于文件I/O的全文檢索系統(tǒng)相比較,雖然搜索速度有數(shù)量級(jí)的提升。但搜索過程優(yōu)化能進(jìn)一步提升搜索速度,因此,探討搜索過程的優(yōu)化也非常必要。

        搜索過程優(yōu)化思想:①盡量減少創(chuàng)建IndexSearcher。②盡量減少搜索結(jié)果的前臺(tái)緩存。④自動(dòng)過濾掉匹配度低的搜索結(jié)果。下面以KySou為例,探討搜索過程的優(yōu)化。

        KySou面向全文檢索的優(yōu)化在于首次索引檢索后,并不將檢索到的全部記錄(Document)的具體內(nèi)容都讀取出來,而只把匹配度最高的前100條結(jié)果的ID緩存到結(jié)果集。比較數(shù)據(jù)庫檢索:如果數(shù)據(jù)庫檢索結(jié)果集包含10,000條記錄,那么數(shù)據(jù)庫必須在取得所有記錄內(nèi)容后再返回結(jié)果集,即使結(jié)果集中的匹配總數(shù)很多,內(nèi)存占用也不至太多。但針對(duì)絕大多數(shù)(超過90%)的模糊檢索應(yīng)用,一般在頭100條記錄中便可得到滿足。如果首批緩存結(jié)果達(dá)不到檢索要求,那么IndexSearcher將再次檢索并且生成比上次搜索緩存數(shù)大1倍的緩存,并重新向后抓取。依此類推,直到滿足檢索要求。在搜索過程中,可以采用分級(jí)緩存策略來緩存結(jié)果記錄,以達(dá)到充分利用首次緩存結(jié)果且不浪費(fèi)多次檢索的目標(biāo)。另外,KySou還使用自動(dòng)過濾掉匹配度低的結(jié)果記錄的策略,進(jìn)一步對(duì)搜索過程進(jìn)行優(yōu)化,效果極好。

        2 結(jié)論

        在信息檢索領(lǐng)域,全文檢索是一個(gè)非常有效的新型檢索技術(shù),它克服了傳統(tǒng)索引檢索在多文獻(xiàn)集合和復(fù)雜條件下檢索效率低的不足,極大地提高了從海量數(shù)據(jù)中查找特定信息的效率。但是,全文檢索仍然存在一些問題,一方面,全文檢索技術(shù)的理論基礎(chǔ)還不夠完備;另一方面,中文檢索的特殊性和難度。因此,如何進(jìn)一步優(yōu)化設(shè)計(jì)全文檢索系統(tǒng),提高檢索效率和吞吐量是一個(gè)值得研究的問題?本文僅起拋磚引玉作用。

        [1] 蘇新寧.信息檢索理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2004:99-100.

        [2] 李宇,吳俊杰.開放源代碼的全文檢索引擎Lucene[M].北京:中國人民大學(xué)學(xué)報(bào),2005:6-7.

        Analysis and Optimization of Full Text Retrieval System Based on KySou

        XIAO Jie

        (Computer College,Dongguan University of Technology,Dongguan 523808,China)

        Full Text Retrieval is a key technirue based on Web’s information search.Starting from the implementation mechanism of Full Text Retrieval system based on KySou,this paper conducts a detailed analysis onthe operational principle,components of the system and API interface design.Besides,it also probes into how to optimize the Full Text Retrieval system,which includes the optimizations of the indexing process and the searching process.

        KySou;the Full Text Retrieval;optimization of indexing;optimization of searching

        TP312

        符:A

        1009-0312(2014)03-0025-03

        2014-06-03

        廣東省高等學(xué)校教學(xué)質(zhì)量與教學(xué)改革工程本科類項(xiàng)目(粵教高函〔2012〕123號(hào));東莞理工學(xué)院教學(xué)改革項(xiàng)目(莞工教[2012]33號(hào));東莞理工學(xué)院教學(xué)改革項(xiàng)目(莞工教[2011]65號(hào))。

        肖捷(1966—),男,副教授,碩士,主要從事網(wǎng)絡(luò)與數(shù)據(jù)庫技術(shù)、企業(yè)ERP技術(shù)等方面研究。

        猜你喜歡
        全文檢索內(nèi)存檢索
        “春夏秋冬”的內(nèi)存
        2019年第4-6期便捷檢索目錄
        Oracle數(shù)據(jù)庫全文檢索性能研究
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        全文檢索引擎技術(shù)在電子病歷中的應(yīng)用
        基于內(nèi)存的地理信息訪問技術(shù)
        特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計(jì)
        國際標(biāo)準(zhǔn)檢索
        國際標(biāo)準(zhǔn)檢索
        上網(wǎng)本為什么只有1GB?
        亚洲中文字幕乱码在线视频| 中文日韩亚洲欧美制服| 亚洲精品无码成人片久久不卡 | 成人午夜福利视频后入| 国产精品久久久久久久久免费| 亚洲av无码精品色午夜| 国产精品丝袜在线不卡| 亚洲av五月天天堂网| 亚洲精品中文字幕不卡| 99精品国产在热久久无毒不卡| 免费看美女被靠到爽的视频| 久久精品国产99国产精品亚洲 | 欧洲AV秘 无码一区二区三| 日本一区二区三区在线播放| 女女同性av一区二区三区免费看 | 亚洲精品国产老熟女久久| 91精品国产91热久久p| 国产爆乳美女娇喘呻吟久久| 免费看草逼操爽视频网站| 成人一区二区三区国产| 国产不卡精品一区二区三区| 国产精品美女久久久久av福利| 亚洲欧洲无码一区二区三区| 一个人看的www免费视频中文| 亚洲在线一区二区三区四区| 国产精品综合女同人妖| 无码毛片内射白浆视频| 亚洲欧美aⅴ在线资源| 成人午夜无人区一区二区| 色av色婷婷18人妻久久久| 蜜桃在线高清视频免费观看网址| 2021国产精品视频网站| 乱人伦人妻中文字幕无码| 国产乱子伦视频大全| 中文字幕大屁股熟女乱| 中文字幕久久熟女人妻av免费| 91精品国产乱码久久中文| 人妻少妇-嫩草影院| 欧美粗大猛烈老熟妇| 狠狠色婷婷久久一区二区| 国产精品一卡二卡三卡|