亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lucene的自定義檢索模型在內(nèi)容管理系統(tǒng)全文檢索中的應(yīng)用

        2014-01-21 06:53:12王瑋璇
        關(guān)鍵詞:全文檢索關(guān)鍵字搜索引擎

        王瑋璇

        (1.同濟(jì)大學(xué),上海 200092;2.上海亞太神通計(jì)算機(jī)有限公司,上海 200040)

        0 引言

        在計(jì)算機(jī)語言中,數(shù)據(jù)總體上可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)指的是具有固定格式或有限長度的數(shù)據(jù),如XML、數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)等。非結(jié)構(gòu)化數(shù)據(jù)指不定長度或無固定格式的數(shù)據(jù),如郵件、文檔等。由于結(jié)構(gòu)化數(shù)據(jù)具有一定的規(guī)律和結(jié)構(gòu),因此查詢起來比較容易和快速。但對于非結(jié)構(gòu)化數(shù)據(jù),目前大量使用的方法是全文檢索法,其基本思路是從非結(jié)構(gòu)化的數(shù)據(jù)中提取一部分信息進(jìn)行重構(gòu),使其具有一定的結(jié)構(gòu),然后再對這部分有結(jié)構(gòu)的數(shù)據(jù)進(jìn)行搜索[1]。在日常生活中,對非結(jié)構(gòu)化數(shù)據(jù)的需求量要遠(yuǎn)多于對結(jié)構(gòu)化數(shù)據(jù)的需求量,因此,全文檢索法作為創(chuàng)建搜索引擎的基本思路被廣泛使用。

        目前,判斷兩組向量相關(guān)性的方法主要使用空間向量模型算法,作為業(yè)界最為知名的開源搜索引擎Lucene,它的評分機(jī)制也是以空間向量模型作為理論基礎(chǔ)。Lucene 默認(rèn)通過實(shí)現(xiàn)Similarity 模型對文檔相關(guān)性進(jìn)行評分[2]。但在實(shí)際應(yīng)用中,Similarity 模型的默認(rèn)實(shí)現(xiàn)往往不能夠適應(yīng)特定的業(yè)務(wù)邏輯,需要對Similarity 模型進(jìn)行衍生和擴(kuò)展。在常見的內(nèi)容管理系統(tǒng)門戶網(wǎng)站中都具有全文檢索功能,能夠根據(jù)查詢關(guān)鍵字將站內(nèi)的數(shù)據(jù)按照一定的排序邏輯進(jìn)行檢索,本文將著重研究內(nèi)容管理系統(tǒng)中全文檢索功能的具體實(shí)現(xiàn)。

        1 搜索引擎的工作原理及Lucene 評分機(jī)制

        全文檢索過程主要分為索引創(chuàng)建和索引搜索兩部分。索引創(chuàng)建對包括文件系統(tǒng)、數(shù)據(jù)庫、互聯(lián)網(wǎng)等現(xiàn)實(shí)世界中所有結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行提取和重構(gòu),使之成為結(jié)構(gòu)化文檔;索引搜索是從客戶端得到查詢語句,再從現(xiàn)有的索引中查詢符合關(guān)鍵字的結(jié)果[3]。

        Lucene 是一套用于全文檢索和搜尋的開源程式庫,由Apache 軟件基金會(huì)支持和提供。Lucene 提供了一個(gè)簡單卻強(qiáng)大的應(yīng)用程式接口,提供全文索引和搜尋功能。在Java 開發(fā)環(huán)境里L(fēng)ucene 基于Java 開發(fā)環(huán)境,具備成熟的開源全文檢索框架,它的評分機(jī)制(Lucene Scoring) 建立在Similarity 模型的基礎(chǔ)上,是整個(gè)框架的核心部分[4]。

        在Lucene 中,默認(rèn)Similarity 模型的實(shí)現(xiàn)是基于空間向量模型中的向量相關(guān)性的余弦公式,其評分公式為:

        其中,coord(q,d)—該分值衡量了文檔中所含Term 的數(shù)量,Term 的數(shù)量越多,相應(yīng)文檔的分值越高;queryNorm(q)—表示標(biāo)準(zhǔn)化因子,對多個(gè)查詢器返回的結(jié)果進(jìn)行比較,不影響文檔的排名。用于給查詢器設(shè)置權(quán)重;tf(tinq)—表示查詢關(guān)鍵字在文檔中出現(xiàn)的頻率,即詞頻。關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)越多,得分越高;idf(t)—代表著關(guān)鍵字的逆詞頻,衡量了關(guān)鍵字在整個(gè)文檔庫中出現(xiàn)的頻度。其值越大,得分越高;t.getBoost()—該值表示搜索時(shí)權(quán)重因子,用于在查詢時(shí)賦予不同的查詢關(guān)鍵字相應(yīng)的權(quán)重;norm(t,d)—封裝了索引時(shí)的標(biāo)準(zhǔn)化因子,它包括三個(gè)參數(shù): ①Document boost: 衡量了文檔的重要程度,該值越大,說明此文檔越重要;②Field boost: 設(shè)置域的權(quán)重,值越大,說明該域越重要;③Length Norm: 衡量了文檔的長度,文檔越長,值越小。

        2 基于自定義Similarity 模型的全文檢索

        Lucene 默認(rèn)的相似度評分算法考慮到不同的影響因素,提供了比較精確的相似度算法,但對于全文檢索業(yè)務(wù)邏輯,其檢索結(jié)果與用戶滿意度存在較大的差距,它在文檔相似度上計(jì)算得非常細(xì)致,但對于所有全文檢索業(yè)務(wù)邏輯來說并不是越細(xì)致越好[5],如圖1 所示的為使用Lucene 默認(rèn)的DefaultSimilarity 相似度模型算法查詢關(guān)鍵字為“2013 同濟(jì)” 的文檔。

        在前6 篇文檔的標(biāo)題和摘要中出現(xiàn) “2013 同濟(jì)” 的次數(shù)是差不多的,事實(shí)上它們在相似度評分上的差異并不大,用戶此時(shí)更關(guān)心的是查詢關(guān)鍵字在標(biāo)題中的命中率以及發(fā)布日期越新越好,但默認(rèn)的相似度算法計(jì)算出的評分太過細(xì)致,人工基本無法使用其他排序規(guī)則對這些相似度差異不大的文檔進(jìn)行排序。這就要求我們在創(chuàng)建索引時(shí)提高標(biāo)題域的權(quán)重,同時(shí)對Similarity 模型進(jìn)行改造[6],在查詢結(jié)果排序時(shí)對相似度相同的文檔按照發(fā)布日期進(jìn)行倒序排列[7],除此之外,在內(nèi)容管理系統(tǒng)發(fā)布文章時(shí),通常都會(huì)設(shè)置文章的欄目,因此,在創(chuàng)建索引時(shí)需要將欄目信息也進(jìn)行索引。具體做法如下:

        (1)在創(chuàng)建每一篇文檔的索引時(shí),為欄目、標(biāo)題、摘要和發(fā)布日期創(chuàng)建索引,同時(shí)提高標(biāo)題域的權(quán)重,本文中將其放大100 倍,這樣做的目的是增加關(guān)鍵字在標(biāo)題中出現(xiàn)的評分比重。

        (2)新建Similarity 模型CustomSimilarity,使用面向?qū)ο蠓绞綄⑵淅^承Similarity 默認(rèn)的DefaultSimilarity 實(shí)現(xiàn)類,并重寫其中計(jì)算queryNorm,tf,idf 等相關(guān)性因子的計(jì)算邏輯,此處為了徹底屏蔽這些次要因素對相關(guān)性評分的影響,均將它們的計(jì)算結(jié)果返回1.0f。這樣做意在使相似度差不多的文檔具有相同的相似度,以此來突出發(fā)布日期對排序的影響。

        圖1 使用DefaultSimilarity 的查詢結(jié)果

        表1 相關(guān)性評分的比較

        (3)在查詢索引時(shí),先確定欄目域,再對查詢關(guān)鍵字進(jìn)行分詞處理,最后按照相關(guān)性評分排序,對于評分相同的文檔按照發(fā)布日期倒序,取排序前十名的文檔。使用explain 方法對比DefaultSimilatiry 和CustomSimilatiry 計(jì)算的相關(guān)性信息可以得出表1 的數(shù)據(jù)[8],由于屏蔽了詞頻、逆詞頻、關(guān)鍵字權(quán)重、文檔權(quán)重、文檔長度等因素的影響,CustomSimilatiry 相對于DefaultSimilatiry,它的得分粒度被放大了,從而出現(xiàn)了一些有著相同相關(guān)性評分的文檔,把這些文檔按照發(fā)布日期進(jìn)行倒序排列,如圖2 所示,最終得到的是更加合理的查詢結(jié)果。

        3 結(jié)論

        對于Lucene 搜索引擎來說,其默認(rèn)的相關(guān)性評分模型僅僅提供了一種通用的相關(guān)性算法,對于特定的檢索邏輯,需要借用面向?qū)ο蟮姆椒▽δJ(rèn)的相關(guān)性模型算法進(jìn)行擴(kuò)展。本文描述了在內(nèi)容管理系統(tǒng)中對Lucene搜索引擎文檔相關(guān)性評分模型Similarity 進(jìn)行個(gè)性化定制,從中可以看出經(jīng)過自定義的評分模型相比默認(rèn)的評分模型更具合理性,類似的,這種自定義評分模型的方式也可以使用在其他全文檢索業(yè)務(wù)當(dāng)中。

        圖2 使用CustomSimilarity 的查詢結(jié)果

        [1] 倪俊峰.基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005.

        [2] 李明宙,羅艷,王宗義.Lucene 全文檢索引擎的研究及應(yīng)用[A];廣西計(jì)算機(jī)學(xué)會(huì),2010年學(xué)術(shù)年會(huì)論文集[C];2010.

        [3] 張校乾.基于Lucene 的全文檢索系統(tǒng)的研究與應(yīng)用[D].大連理工大學(xué),2005.

        [4] 徐財(cái)應(yīng).基于Lucene 的搜索引擎技術(shù)的研究與改進(jìn)[D].長春理工大學(xué),2010.

        [5] 于飛.基于搜索引擎的個(gè)性化推薦研究[D].哈爾濱理工大學(xué),2010.

        [6] 周月紅.基于Lucene 的站內(nèi)搜索引擎的設(shè)計(jì)與開發(fā)[D],華東理工大學(xué),2011.

        [7] 侯云.構(gòu)建基于Lucene 的網(wǎng)站站內(nèi)搜索[J].信息與電腦(理論版),2010,2.

        [8] 王紅勝.多文檔全文檢索系統(tǒng)的設(shè)計(jì)與開發(fā)[D].電子科技大學(xué),2010.

        猜你喜歡
        全文檢索關(guān)鍵字搜索引擎
        履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
        成功避開“關(guān)鍵字”
        Oracle數(shù)據(jù)庫全文檢索性能研究
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
        廣告主與搜索引擎的雙向博弈分析
        特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計(jì)
        基于用戶反饋的關(guān)系數(shù)據(jù)庫關(guān)鍵字查詢系統(tǒng)
        誘導(dǎo)性虛假下載鏈接不完全評測
        亚洲精品久久久久中文字幕| 在线观看视频国产一区二区三区| 久久精品蜜桃亚洲av高清| 午夜免费视频| 18级成人毛片免费观看| 亚洲AV日韩Av无码久久| 91乱码亚洲精品中文字幕| 国产一区二区精品久久岳| 天天摸日日摸狠狠添| 国产av综合一区二区三区最新 | 国产一区二区三区精品毛片| 18禁免费无码无遮挡不卡网站 | 男女性高爱潮免费观看| 99riav精品国产| 亚洲精品中文字幕不卡| 欧美多人片高潮野外做片黑人| 国产农村妇女高潮大叫| 亚洲成熟丰满熟妇高潮XXXXX| 亚洲一区二区三区av资源| 中文字幕一区日韩精品| 中文字幕欧美一区| 久久99精品免费国产| 精品人妖一区二区三区四区| 国产精品_国产精品_k频道 | 亚洲∧v久久久无码精品| 国产精品原创永久在线观看| 高清少妇二区三区视频在线观看 | 久久久久久久一线毛片| 成人黄色片久久久大全| 一本色道久久88加勒比—综合| 无尽动漫性视频╳╳╳3d| 91免费国产高清在线| 日韩精品人妻系列中文字幕| 亚洲av无码专区在线播放中文| 精品无码久久久久久久久粉色| 国产偷闻女邻居av在线观看| 国自产拍偷拍精品啪啪一区二区| 久久婷婷色综合一区二区| 午夜香蕉av一区二区三区| 老女老肥熟女一区二区| 吃奶摸下的激烈视频|