亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Indri的檢索模型研究

        2012-07-13 06:30:08王莉軍
        電子設(shè)計工程 2012年24期
        關(guān)鍵詞:特征向量結(jié)構(gòu)化文檔

        王莉軍

        (渤海大學(xué) 遼寧 錦州 121013)

        Indri是開源的信息檢索工程Lemur的一個子項目。Indri是一個完整的搜索引擎,支持各種不同格式文本的索引創(chuàng)建,提出了優(yōu)秀的文檔檢索模型,支持結(jié)構(gòu)化查詢語言,在研究和實際應(yīng)用領(lǐng)域都有比較高的價值。Indri系統(tǒng)采用C++語言編寫,提供了方便的API供使用者調(diào)用,由于項目本身開源,對于開發(fā)者而言,也可以方便的對其進(jìn)行二次開發(fā)。

        1 Indri檢索模型

        Indri結(jié)合了推理網(wǎng)絡(luò)模型 (Inference net)和語言模型(language modeling)的優(yōu)點,提出了一套檢索模型,其利用推理網(wǎng)絡(luò)模型的優(yōu)勢來支持比較復(fù)雜的結(jié)構(gòu)化查詢(結(jié)構(gòu)化通常指查詢語言中的用來表達(dá)檢索文檔中詞與詞之間聯(lián)系的operators),又利用語言模型及平滑技術(shù)對推理網(wǎng)絡(luò)中的一些節(jié)點進(jìn)行有效的預(yù)估,從而使查詢得到比較好的效果[1]。這之前,單純的推理網(wǎng)絡(luò)模型節(jié)點的預(yù)估采用的是規(guī)格化的tf.idf(這個值與詞在文檔中出現(xiàn)的頻率稱正比,與包含該詞的文檔數(shù)成反比)權(quán)重,而單純的語言模型則無法支持結(jié)構(gòu)化查詢。所以Indri檢索模型采用了兩種模型相結(jié)合的方式[2]。

        推理網(wǎng)絡(luò)模型網(wǎng)絡(luò)圖如圖1所示,實際上是一個貝葉斯網(wǎng)絡(luò)(Bayesian networks)。貝葉斯網(wǎng)絡(luò)是一個有向,無環(huán)圖。

        網(wǎng)絡(luò)中每個節(jié)點代表一個事件,有一個連續(xù)或者離散的結(jié)果集。每個非根節(jié)點存儲了一個條件概率表,這個條件概率表完全描述了與給定父節(jié)點的情況下該節(jié)點出現(xiàn)相關(guān)聯(lián)的結(jié)果集的概率。每個與根節(jié)點相關(guān)聯(lián)的結(jié)果集被指派了一個先驗概率。這樣在已知網(wǎng)絡(luò)圖,先驗概率,條件概率表和節(jié)點代表的事件之后,就可以通過網(wǎng)絡(luò)計算出檢索文檔中出現(xiàn)查詢的概率,并按照這個概率值的大小進(jìn)行排序輸出。

        圖1 推理網(wǎng)絡(luò)模型網(wǎng)絡(luò)圖Fig.1 Inference network network diagram

        主要包含有以下幾類節(jié)點[3]:

        1)文檔節(jié)點 D(Document Node);

        2)平滑參數(shù)節(jié)點 alpha,beta(Smoothing parameter nodes);

        3)模型節(jié)點 θ(Model nodes);

        4)特征表示節(jié)點 r(Representation concept nodes);

        5)查詢節(jié)點 q(Belief nodes);

        6)信息需求節(jié)點 I(Information need node)。

        文檔節(jié)點(Document Node):文檔節(jié)點是文檔表示的一個隨機(jī)值。Indri采用二進(jìn)制特征向量集對文檔進(jìn)行表示,而不是一般模型中單純的term序列,文檔的特征向量表示可以挖掘出更多的文本的信息,例如短語,是否是大寫字母詞等。文檔中每個term的位置被一個特征向量表示,向量中的元素表示特征的有無。如此一來可以將文檔看作一個多伯努利分布(Multiple-Bernoulli distribution)的抽樣。

        舉一個文檔表示很簡單的例子,假設(shè)文檔是由5個詞組成的,則我們用下面12個特征組成的特征序列來表示文檔,如下[4],

        Document:A B C A B

        假設(shè)特征序列是[A B C AA AB AC BA BB BC CA CB CC]

        平滑參數(shù)節(jié)點:是為模型節(jié)點提供平滑參數(shù)。

        模型節(jié)點Model nodes(M):模型節(jié)點代表所謂的特征語言模型。在Indri框架中,它們是平滑過的多伯努利分布,該分布是對文檔表示的一個建模。網(wǎng)絡(luò)中可能會有不止一個模型節(jié)點,與同一文檔的不同表示相關(guān)聯(lián),如上圖所示,模型節(jié)點包括title,body,h1等3個模型節(jié)點,分別為文檔的title,body,h1部分的表示,這樣就允許模型通過不同的文檔表示來進(jìn)行預(yù)估,合并。

        這里需要計算 P(M|D),

        特征表示節(jié)點Representation concept nodes(r):特征表示節(jié)點是與上述文檔表示中提到的特征向量直接相關(guān)的二進(jìn)制隨機(jī)值。這里,同樣的特征節(jié)點可能會在網(wǎng)絡(luò)中出現(xiàn)多次,因為每個相同的特征節(jié)點可能會有一個不同的父節(jié)點。

        查詢節(jié)點Belief nodes(q):查詢節(jié)點是用來合并特征節(jié)點或者其他查詢節(jié)點的二進(jìn)制隨機(jī)值。每個查詢節(jié)點關(guān)聯(lián)到不同的條件概率表,允許節(jié)點以多種不同的方式合并。查詢節(jié)點是根據(jù)Indri的結(jié)構(gòu)化查詢動態(tài)的添加到網(wǎng)絡(luò)中,因此網(wǎng)絡(luò)拓?fù)涫请S著每次查詢改變的。這使得網(wǎng)絡(luò)很強大,根據(jù)不同的查詢式,使用不同的打分方法。

        信息需求節(jié)點Information need node(I):信息需求節(jié)點可以看作一個簡單的查詢節(jié)點,將所有的查詢節(jié)點合并到一個節(jié)點,這個節(jié)點作為rank的基礎(chǔ)[5]。

        也就是說 rank的依據(jù)是 P(I=1|D,alpha,beta)。

        例如一個查詢:#weight(2.0#or(#1(north korea)iraq )1.0 policy),查詢的意思大概是 “包含韓國或者伊朗以及policy的文檔,并且包含north korea或者iraq所占的比重系數(shù)為2.0,而包含policy的比重系統(tǒng)為1.0”。推理網(wǎng)絡(luò)如圖2所示。

        圖2 推理網(wǎng)絡(luò)Fig.2 Inference network

        再例如一個查詢:#combine( #uw8( hurricane wind ).(title)damage),這個查詢的大概意思是“文檔題目域中包含一個8個詞的窗口,窗口中可以無序的包含hurricane和wind兩個詞,并且文檔中包含damage這個詞”。推理網(wǎng)絡(luò)如圖3所示。

        圖3 推理網(wǎng)絡(luò)Fig.3 Inference network

        2 Indri查詢語言

        為了充分利用上面提到的檢索模型,Indri提供了一套查詢語言可以表達(dá)復(fù)雜的概念。Indri查詢語言是一種結(jié)構(gòu)化查詢語言,是由一些operation組成的,每個operation代表了推理網(wǎng)絡(luò)中的一個查詢節(jié)點(即q節(jié)點)[6]。

        Operation可以分為以下幾類:

        1)Basic operation

        第三,時間和空間延展性的變化帶來的影響?;ヂ?lián)網(wǎng)上沒有時間和空間的限制,企業(yè)只需花費較少的成本就可以加入到全球信息網(wǎng)絡(luò)和貿(mào)易網(wǎng)絡(luò)中,與消費者進(jìn)行溝通,將產(chǎn)品的信息傳遞到消費者中去。網(wǎng)絡(luò)商城的空間可以無限擴(kuò)張,可以陳列無限多的商品,消費者通過互聯(lián)網(wǎng)可以用很低的價格選購商品,所看到的商品比任何一間大商場的產(chǎn)品都多,方便消費者進(jìn)行商品的比較和擇優(yōu)。

        Indri查詢語言的基本操作是繼承Inquery結(jié)構(gòu)化查詢語言的,舉一些簡單的例子:

        #uwN(t1 t2…)包含N個單詞的無序窗口

        #odN(t1 t2…)包含N個單詞的有序窗口

        #combine(q1 q2…) 合并查詢q1和q2

        #weight(w1q1 w1q2…) 合并查詢q1和q2并且設(shè)置了每個查詢的權(quán)重

        #filrej(c s) 當(dāng)c不滿足的情況下計算表達(dá)式s

        2)Field operation

        這類操作符是為了支持結(jié)構(gòu)化文檔設(shè)計的。最簡單的形式,比如term.field,意思是term只有出現(xiàn)在field時才是與查詢相關(guān)的。

        域可以是文檔中的任何打了標(biāo)簽的信息。例如可以是文檔的一大段(如一個章節(jié)),一小段(如一個自然段),或者只有幾個句子(如名詞短語等)。一個域也可以多次出現(xiàn)在文檔中。

        例如wash.np就可以用來實現(xiàn)這樣的查詢,“查找出現(xiàn)在名詞短語中的wash”。

        3)Extent retrieval

        Indri也支持用域來在某一區(qū)域中打分。例如查詢#combine[field](q1,…qn),在 field 指定的區(qū)域中對(q1,…qn)進(jìn)行打分和排序。這樣可以方便地支持類似段落查詢或者語句查詢等這樣的需求。

        4)Date and numeric retrieval

        Indri來識別數(shù)字相關(guān)的性質(zhì),包括日期等。為了查詢數(shù)字相關(guān)的性質(zhì),Indri提供了#less,#greater和 #equal等操作。對 于 日 期 的 查 詢 ,Indri提 供 了 #date:before,#date:before 和#date:before 等操作。

        一些相關(guān)操作符的計算如下[5]:

        3 結(jié) 論

        Indri的檢索模型合并了推理網(wǎng)絡(luò)模型和語言模型,可以比較好的支持結(jié)構(gòu)化查詢和推理網(wǎng)絡(luò)節(jié)點的預(yù)估,里面還涉及了多伯努利分布,貝葉斯方法等數(shù)學(xué)行比較強的推導(dǎo)過程,從測試結(jié)果來看,查詢效果比較好,具有較大的參考實用價值。

        [1]Strohman T,Metzler D,Turtle H,et al.Indri.A language model-based serach engine for complex queries,IA 2005[C]//Proceedings of the 2nd International Conference on Intelligence Analysis (to appear),2005:5-10.

        [2]Strohman T.Dynamic collections in Indri[C]//Technical Report IR-426, University of Massachusetts Amherst,2005:124-125.

        [3]Strohman T.Low Latency Index Maintenance in Indri[C]//IR-503, University of Massachusetts Amherst,2006:54-58.

        [4]Metzler D,Croft W B.Combining the language model and inference network approaches to retrieval[C]//Info.Proc.and Mgt,2004,40(5):735-750.

        [5]Metzler D,Lavrenko V,Croft W B.Formal multiple Bernoulli models for language modeling[C]//2004:540-541.

        [6]Zhai C,Lafferty J.A study of smoothing methods for language models applied to information retrieval ACM Trans.Inf.Syst[C]//2004:179-214.

        猜你喜歡
        特征向量結(jié)構(gòu)化文檔
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        有人一聲不吭向你扔了個文檔
        促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        基于RI碼計算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        亚洲中文字幕无码永久在线| 青草久久婷婷亚洲精品| 蜜桃视频免费进入观看| 色费女人18毛片a级毛片视频| 亚洲欧美日韩人成在线播放| 97福利视频| 久久久亚洲日本精品一区| 日本av一级视频在线观看| 97精品人妻一区二区三区蜜桃| 亚洲成av人在线播放无码| 精品久久亚洲中文无码| 亚洲成精品动漫久久精久| 福利视频在线一区二区三区| 亚洲国产一区二区三区| 免费视频成人片在线观看| 99久久99久久精品国产片果冻| 国产中文字幕乱码在线| 超短裙老师在线观看一区二区| 91成人黄色蘑菇视频| 亚洲av无码乱码在线观看牲色| 亚洲国产日韩欧美一区二区三区 | 日本亚洲中文字幕一区| 女人被男人爽到呻吟的视频| 亚洲啪啪综合av一区| 亚洲成a人网站在线看| 亚洲二区精品婷婷久久精品| 国产精品国产高清国产专区| 国产日产欧产精品精品 | 亚洲一区二区三区久久不卡| 亚洲国产中文字幕九色| 日本一区二区三区免费精品| 成人国内精品久久久久一区| 亚洲AV永久天堂在线观看 | 日本妇人成熟免费2020| 久久er99热精品一区二区| 成黄色片视频日本秘书丝袜 | 亚洲精品人成中文毛片| 曰本大码熟中文字幕| 国产精品无码久久久久免费AV| 国产少妇一区二区三区| 午夜视频在线观看一区二区小|