亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用主題內(nèi)容排序的偽相關(guān)反饋*

        2017-06-05 15:05:51高光來
        計(jì)算機(jī)與生活 2017年5期
        關(guān)鍵詞:排序語義內(nèi)容

        閆 蓉,高光來

        內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,呼和浩特 010021

        利用主題內(nèi)容排序的偽相關(guān)反饋*

        閆 蓉+,高光來

        內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,呼和浩特 010021

        傳統(tǒng)的偽相關(guān)反饋(pseudo relevance feedback,PRF)方法,將文檔作為基本抽取單元進(jìn)行查詢擴(kuò)展,抽取粒度過大造成擴(kuò)展源中噪音量的增加。研究利用主題分析技術(shù)來減輕擴(kuò)展源的低質(zhì)量現(xiàn)象。通過獲取隱藏在偽相關(guān)文檔集(pseudo-relevant set)各文檔內(nèi)容中的語義信息,并從中提取與用戶查詢相關(guān)的抽象主題內(nèi)容作為基本抽取單元用于查詢擴(kuò)展。在NTCIR 8中文語料上,與傳統(tǒng)PRF方法和基于主題模型的PRF方法相比較,實(shí)驗(yàn)結(jié)果表明該方法可以抽取出更符合用戶查詢的擴(kuò)展詞。此外,結(jié)果顯示從更小的主題內(nèi)容粒度出發(fā)進(jìn)行查詢擴(kuò)展,可以有效提升檢索性能。

        主題模型;主題內(nèi)容;偽相關(guān)反饋

        1 引言

        查詢擴(kuò)展(query expansion,QE)技術(shù)[1]可以有效彌補(bǔ)用戶查詢信息不足造成的用戶表達(dá)問題,通過在用戶初始查詢中增加與其語義相近詞項(xiàng)的方式,將用戶初始查詢中未充分表達(dá)的內(nèi)容展示出來。QE按照是否考慮初檢結(jié)果文檔集,分為全局和局部兩種技術(shù)。在局部QE技術(shù)中,按照是否考慮初檢結(jié)果文檔集中與用戶查詢真正相關(guān)的文檔,又可以分為相關(guān)反饋(relevance feedback,RF)和偽相關(guān)反饋(pseudo relevance feedback,PRF)兩種方法。RF方法利用與用戶查詢真相關(guān)文檔對(duì)用戶查詢進(jìn)行重構(gòu)。然而,這種方法要求用戶將初檢結(jié)果標(biāo)注為相關(guān)或不相關(guān),這在用戶的真實(shí)檢索過程中是很難實(shí)現(xiàn)的。相反,PRF方法[2]是一種與用戶行為無關(guān)、簡單有效的自動(dòng)QE方法,其簡單假設(shè)初檢(first-pass)結(jié)果集中前k個(gè)文檔與用戶初始查詢相關(guān),構(gòu)成偽相關(guān)文檔集(pseudo-relevant set),并從中按照某種方式自動(dòng)地抽取擴(kuò)展詞,然后將擴(kuò)展詞加入到初始查詢中,優(yōu)化初始查詢后進(jìn)行二次檢索(second-pass)。影響PRF檢索性能的直接和主要因素是偽相關(guān)文檔集中的文檔質(zhì)量。PRF方法研究中有大量的工作,都是圍繞如何提高偽相關(guān)文檔集文檔質(zhì)量的,其本質(zhì)就是如何提升擴(kuò)展源質(zhì)量。目前,相關(guān)研究[3-7]主要集中在對(duì)從詞項(xiàng)空間(term space)[3-4]和主題空間(topic space)[5-7]中獲取的統(tǒng)計(jì)信息提出的各種相關(guān)方法。這些研究工作中,大多數(shù)的工作都致力于找到一種有效二值判別方法,其主要策略是將偽相關(guān)文檔集中的文檔,利用判別方法區(qū)分為與用戶查詢相關(guān)和不相關(guān),然后從判別為相關(guān)的文檔中提取擴(kuò)展詞來重構(gòu)用戶初始查詢,達(dá)到提高檢索性能的目的。但以上這些方法均是以文檔作為整體來判別其是否與用戶查詢相關(guān),即將文檔作為擴(kuò)展詞選取單元。顯然,片面地將文檔作為待區(qū)分單元,直接標(biāo)定為與用戶查詢相關(guān)或不相關(guān)是不合適的,不能保證擴(kuò)展源質(zhì)量,增加了噪音量,導(dǎo)致“主題漂移”(topic drift)現(xiàn)象出現(xiàn)。本文認(rèn)為,將文檔作為擴(kuò)展源的抽取基本單元過于簡單和粗糙,不利于擴(kuò)展詞的選取。本文嘗試從更細(xì)微的粒度——文檔內(nèi)容本身出發(fā),不再以文檔作為判別基本單元,利用主題分析技術(shù),構(gòu)建文檔主題內(nèi)容排序框架,將在主題空間抽象表示的文檔內(nèi)容作為待區(qū)分單元,將判別為與用戶查詢相關(guān)的文檔內(nèi)容作為擴(kuò)展源。

        2 相關(guān)工作

        PRF算法假設(shè)簡單,實(shí)現(xiàn)機(jī)制通俗,是一種有效的提高檢索系統(tǒng)整體性能的方法[3-7]。然而,傳統(tǒng)的PRF方法并不是針對(duì)所有查詢都有效,某些查詢經(jīng)過反饋處理后,檢索效果反而會(huì)很差[8-9],這也是制約PRF方法不能在實(shí)際檢索中應(yīng)用的根本原因。為了提高PRF檢索的魯棒性,研究者們提出了很多解決方法和策略[9-12]。文獻(xiàn)[9]提出了一種帶有約束的優(yōu)化方法,用于降低反饋行為帶來的負(fù)面影響;文獻(xiàn)[10]提出利用EM算法減少PRF模型對(duì)于反饋文檔數(shù)量的敏感性;文獻(xiàn)[11]利用多種反饋模型提出一種啟發(fā)式的非監(jiān)督方法;文獻(xiàn)[12]綜合幾種偽反饋方法,研究如何既保證PRF的魯棒性,同時(shí)又兼顧整體性能有效性的方法。

        但上述諸方法研究和擴(kuò)展處理的對(duì)象,均是以文檔作為基本處理單元和粒度,未從更細(xì)微的文檔內(nèi)容本身考慮與用戶查詢的相關(guān)性,會(huì)直接導(dǎo)致主題偏移現(xiàn)象,影響檢索性能。

        近年來,潛在主題模型[13]這種主題分析(topic analysis)技術(shù)被用于文本內(nèi)容的分析處理。文獻(xiàn)[7]嘗試通過對(duì)整個(gè)偽相關(guān)文檔集上建立與用戶查詢相關(guān)的主題模型TopicRF,抽取與用戶查詢相關(guān)的主題信息,來提高PRF的檢索性能。但其本質(zhì)上還是以文檔作為擴(kuò)展源單元。

        本文的研究工作也并沒有直接區(qū)分偽相關(guān)文檔集中各文檔的相關(guān)性。但與文獻(xiàn)[7]工作不同的是,本文所關(guān)注的偽相關(guān)文檔集質(zhì)量是文本本身內(nèi)容的質(zhì)量。本文認(rèn)為在偽相關(guān)文檔集中包含的若干主題中,只有部分是與用戶查詢相關(guān)聯(lián),對(duì)反饋行為有效。在對(duì)用戶實(shí)際查詢需求不明確的情況下,在偽相關(guān)文檔集中,如何利用多樣化思想,彰顯文檔中與用戶查詢相關(guān)的那部分主題內(nèi)容來進(jìn)行擴(kuò)展詞的選取,就是本文關(guān)注的核心和重點(diǎn)。具體實(shí)現(xiàn)可以描述為:首先對(duì)整個(gè)文檔數(shù)據(jù)集建立主題空間,然后對(duì)偽相關(guān)文檔集中每個(gè)文檔進(jìn)行主題分析,從淺層語義角度出發(fā),充分挖掘這些文檔內(nèi)容中與用戶信息需求相關(guān)的潛在語義信息,突顯刻畫主題特性的描述詞,并從中抽取擴(kuò)展詞實(shí)施偽反饋。

        3 基于主題內(nèi)容排序的偽相關(guān)反饋

        3.1 主題內(nèi)容排序

        概率主題模型(probabilistic topic model,PTM)是一種利用貝葉斯方法,通過構(gòu)造詞項(xiàng)-主題-文檔三層結(jié)構(gòu),對(duì)數(shù)據(jù)進(jìn)行抽象建模的方法。通過引入主題變量(latent topic)概念,將數(shù)據(jù)集中共同隱含的信息描述出來。本質(zhì)上,對(duì)數(shù)據(jù)集進(jìn)行主題建模其實(shí)就是構(gòu)建合適的文檔語義描述空間。假設(shè)對(duì)有M個(gè)文檔,存在V個(gè)不同詞項(xiàng)(keyword)的數(shù)據(jù)集進(jìn)行主題建模,每個(gè)文檔會(huì)被表示成K個(gè)主題變量的概率分布(topic distribution),記為θ∈RM×K,每一個(gè)θj,i表示第j個(gè)文檔中主題i所占比重,它是從文檔角度獲得的語義信息。同時(shí),主題變量被表示成各詞項(xiàng)的概率分布(word distribution),記為Φ∈RK×V,每一個(gè)?i,m表示在主題i中生成第m個(gè)詞項(xiàng)的概率值,它是從數(shù)據(jù)集角度獲得的語義信息。通常,上述兩種語義信息可以認(rèn)為是數(shù)據(jù)集的特征信息,這些特征信息不僅包含豐富的語義,而且還具有很強(qiáng)的區(qū)分性[14]。但面對(duì)結(jié)構(gòu)復(fù)雜多樣和信息量巨大的Web信息資源時(shí),這兩個(gè)分布獲得的過程抽象,最終結(jié)果也抽象,用戶很難理解數(shù)據(jù)集的主題分析結(jié)果。另外,常常會(huì)發(fā)生同一詞項(xiàng)在多個(gè)主題中出現(xiàn)的情況,各主題并不是孤立的存在,這會(huì)進(jìn)一步增加用戶理解主題結(jié)果的負(fù)擔(dān)。因此在實(shí)際應(yīng)用中,為了有效利用數(shù)據(jù)集的主題建模結(jié)果的特征區(qū)分特性,非常有必要對(duì)主題建模結(jié)果進(jìn)行排序。通常意義下,對(duì)主題建模結(jié)果的排序,即是對(duì)主題內(nèi)容的排序。一般的,主題內(nèi)容排序[15]的方式有兩種,包括主題分布中的詞項(xiàng)排序和主題分布排序。

        Cao等人[16]研究表明,PRF選取的擴(kuò)展詞數(shù)目并不是越多越好,過多的擴(kuò)展詞反而會(huì)降低檢索性能;文獻(xiàn)[17]分別對(duì)8個(gè)不同的檢索系統(tǒng),針對(duì)查詢擴(kuò)展中詞項(xiàng)數(shù)目的選擇進(jìn)行了詳細(xì)實(shí)驗(yàn),其結(jié)果表明,針對(duì)主題對(duì)象來選擇擴(kuò)展詞項(xiàng)將有助于提升檢索的性能。本文提出的PRF方法,目的是通過淺層語義信息來改善反饋擴(kuò)展詞質(zhì)量,提高查詢效率。因此,本文對(duì)于偽相關(guān)文檔集中文檔的主題內(nèi)容排序,主要完成以下三方面工作:

        (1)文檔主題分布中的詞項(xiàng)排序。實(shí)現(xiàn)用突顯刻畫主題特征的特征詞項(xiàng)來表示主題。

        (2)文檔的主題分布排序。按照與用戶查詢的相關(guān)程度,將各個(gè)主題進(jìn)行排序,實(shí)現(xiàn)用有限有效主題表達(dá)文檔,使得這些主題中的特征詞項(xiàng)可以分別具有將主題之間相互區(qū)別和文檔之間相互區(qū)別的特性。

        (3)從文檔內(nèi)容的主題表達(dá)結(jié)果中,針對(duì)判別為用戶查詢相關(guān)的內(nèi)容,抽取擴(kuò)展詞項(xiàng)進(jìn)行二次反饋。

        下面將分別對(duì)這三方面工作進(jìn)行詳細(xì)闡述。

        3.2 文檔主題分布中的詞項(xiàng)排序

        對(duì)數(shù)據(jù)集進(jìn)行主題建模得到的詞項(xiàng)-主題分布Φ中的各詞項(xiàng),已經(jīng)按照其對(duì)所描述主題的概率值大小進(jìn)行排列,但概率排列分布與各詞項(xiàng)對(duì)于描述其所在特定主題語義的貢獻(xiàn)分布描述是不一致的[18]。文獻(xiàn)[15]為了使文檔的Φ分布表達(dá)更易于理解,提出類似TF-IDF(term frequency-inverse documentation frequency)方法,計(jì)算每個(gè)詞項(xiàng)描述特定主題的權(quán)重(weight),來重新衡量描述主題中各詞項(xiàng)的重要程度。文獻(xiàn)[14]提出用詞項(xiàng)顯著度(term significance)來定義主題與文檔中包含的各詞項(xiàng)分布間的距離,用于特定領(lǐng)域的主題推薦和自動(dòng)文摘。盡管這些方法計(jì)算權(quán)重的角度不同,但其目的都是將每個(gè)主題描述為有限有效詞項(xiàng),即將描述Φ分布中那些對(duì)主題語義描述差或貢獻(xiàn)度低的詞項(xiàng)過濾掉。本文沿用文獻(xiàn)[15]計(jì)算各詞項(xiàng)權(quán)重的方法,將描述主題含義的各個(gè)詞項(xiàng),按照計(jì)算得到的詞項(xiàng)權(quán)重值進(jìn)行排序,并依此排序結(jié)果,過濾掉那些使得主題間語義區(qū)分度小的詞項(xiàng),獲得更能描述主題的有限詞項(xiàng)組成的集合。各詞項(xiàng)權(quán)重值的計(jì)算如式(1)[15]所示:

        其中,wi表示主題 j(j∈[1,K])中第i個(gè)詞項(xiàng),i∈[1,V]。

        本文采用標(biāo)準(zhǔn)的主題建模方式LDA(latent Dirichlet allocation)[13]對(duì)數(shù)據(jù)集建模。LDA假設(shè)主題變量服從Dirichlet分布,即主題之間是相互獨(dú)立的。但事實(shí)上,利用LDA對(duì)文本建模的結(jié)果,存在同一詞項(xiàng)同時(shí)出現(xiàn)在多個(gè)不同主題分布中的情況,這使得詞項(xiàng)信息不能很好地完成刻畫主題特征的任務(wù),即影響主題間的差異性。本文關(guān)注的是如何利用主題信息來區(qū)分文本內(nèi)容與用戶查詢的相關(guān)性,保持詞項(xiàng)信息對(duì)主題內(nèi)容刻畫的互異性,也就是保證在主題數(shù)目確定的情形下,不降低LDA表示數(shù)據(jù)的能力。這里對(duì)式(1)做了適當(dāng)?shù)淖冃停缡剑?)所示:

        通過上述方法,實(shí)現(xiàn)了用突顯刻畫主題特征的特征詞項(xiàng)來表示主題的目的,文中將有限詞項(xiàng)集記為keyword_set。

        3.3 文檔的主題分布排序

        由于主題建模過程中的“詞袋”假設(shè),即不考慮詞項(xiàng)在文檔中的出現(xiàn)順序,主題間的差異僅限于各詞項(xiàng)對(duì)其描述的概率值大小的差異,主題之間并沒有明顯的區(qū)分特性。要從主題分析的角度,將偽相關(guān)文檔集的主題內(nèi)容區(qū)分為與用戶查詢相關(guān)或不相關(guān),就有必要對(duì)其中的文檔主題分布進(jìn)行區(qū)分。在給定用戶查詢的情況下,按照與用戶查詢相關(guān)程度,將無序的文檔-主題分布按照其與用戶查詢的相關(guān)程度進(jìn)行排序標(biāo)定。由于主題信息已經(jīng)被表示為有限詞項(xiàng)集,那么用戶查詢與文檔主題分布中各主題之間的相關(guān)程度,就可以利用用戶查詢與表征主題信息的詞項(xiàng)集的相關(guān)程度來衡量,可以分別通過式(4)和式(5)得到:

        其中,Q表示用戶查詢,記為Q={qw1,qw2,…,qwn},由n個(gè)不同詞項(xiàng)qwi組成。Rel(Q,j)表示用戶查詢Q與主題 j的相關(guān)程度。給定包含有M個(gè)文檔的文檔集C,有V個(gè)不同的詞C={d1,d2,…,dM},每個(gè)文檔di由Ni個(gè)不同的詞項(xiàng)構(gòu)成di={w1,w2,…,wNi},wi表示文檔di中第i個(gè)詞。假設(shè)文檔集C存在K個(gè)主題,主題j(j∈[1,K])的描述詞集 keyword_setj={wtj1,wtj2,…,wtjl}由l個(gè)不同詞項(xiàng)wtji組成,i∈[1,l],θi,j表示文檔di在主題j上的概率分布。SR(wi,wj)表示兩個(gè)詞語wi和wj之間的語義相關(guān)度[19]。Rank(di,j)表示文檔di的文檔-主題分布中主題j與用戶查詢的相關(guān)程度。本文對(duì)詞語間語義相關(guān)度計(jì)算方法SR(w1,w2),由于篇幅關(guān)系不再贅述,詳細(xì)信息參閱文獻(xiàn)[19]。

        文檔的主題分布排序算法描述如下:

        算法1 Topic_distribution_ranking

        輸入:(1)用戶查詢Q和文檔集C中所有文檔di的K個(gè)無序主題的描述詞集keyword_setj,j∈[1,K];(2)文檔-主題分布θ。

        輸出:所有文檔di的K個(gè)有序主題分布。

        步驟1對(duì)Q進(jìn)行預(yù)處理;

        步驟2利用式(4),計(jì)算Q中各詞項(xiàng)和每個(gè)主題j的描述詞集keyword_setj中各詞項(xiàng)的語義相關(guān)度;

        步驟3利用式(5)計(jì)算文檔di的主題分布中各主題 j與Q之間的相關(guān)度,并按相關(guān)度大小對(duì)各主題進(jìn)行排序。

        3.4 基于主題內(nèi)容排序的偽相關(guān)反饋

        另外,相對(duì)于其他產(chǎn)業(yè),體育產(chǎn)業(yè)具有較強(qiáng)的靈活性。結(jié)合當(dāng)?shù)厣鐣?huì)文化環(huán)境對(duì)體育產(chǎn)業(yè)進(jìn)行相應(yīng)的調(diào)整和改進(jìn),有助于突出當(dāng)?shù)禺a(chǎn)業(yè)發(fā)展的特色。

        綜上所述,基于主題內(nèi)容排序的偽相關(guān)反饋方法實(shí)現(xiàn)過程如圖1所示。

        Fig.1 Procedure of PRF based on topic content ranking圖1 基于主題內(nèi)容排序的PRF過程

        本文對(duì)于描述文檔di的特征主題集中各主題的抽取,采取設(shè)定閾值η的方式來進(jìn)行。若文檔di中主題 j的Rank(di,j)值超過閾值η,則認(rèn)為該主題是與用戶查詢是相關(guān)的,將該主題設(shè)定為topic_setdi集合中的元素。反之,則認(rèn)為該主題與用戶查詢是不相關(guān)的。文檔di擴(kuò)展詞集expan_setdi的獲取,是通過將topic_setdi中各主題的特征詞項(xiàng)集keyword_setj進(jìn)行集合的合并操作完成的。特別的,在對(duì)文檔主題分布中的詞項(xiàng)排序過程中,本文利用式(2)通過重新計(jì)算每個(gè)詞項(xiàng)對(duì)其描述主題的權(quán)重大小,可以在一定程度上減少同一詞項(xiàng)在不同主題中出現(xiàn)的情況,或是增加同一詞項(xiàng)在不同主題中出現(xiàn)的特異性,即同一詞項(xiàng)在主題描述中的概率值差別顯著。但事實(shí)上,LDA建模的本質(zhì)及語言描述文本的特殊性,決定了不同主題的描述詞項(xiàng)信息一定會(huì)出現(xiàn)交集,因此在特征詞項(xiàng)合并過程中,當(dāng)出現(xiàn)有詞項(xiàng)重復(fù)的狀況時(shí),實(shí)驗(yàn)中會(huì)將該詞項(xiàng)在expan_setdi中僅保留一次,并設(shè)置其權(quán)重值為合并前的最大權(quán)重值。同樣,初檢集合的擴(kuò)展詞集expan_set的獲取,是將排序靠前的各文檔的擴(kuò)展詞集expan_setdi中的詞項(xiàng)進(jìn)行集合的合并操作完成的。

        4 實(shí)驗(yàn)與分析公式

        4.1 實(shí)驗(yàn)設(shè)置

        (1)實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理

        實(shí)驗(yàn)的數(shù)據(jù)集包括文本集和查詢集(均為簡體中文)兩部分。其中,文本數(shù)據(jù)集是Xinhua語料,共包含308 845個(gè)文檔,涉及多種主題2002年至2005年4年的新聞?wù)Z料,最長的文檔長度為1 824,最短的文檔長度為4。查詢集為ACLIA2-CS-0001~ACLIA2-CS-0100,共100個(gè)查詢。在檢索過程中,本文將查詢中的主題描述作為用戶查詢。利用Lemur(http:// www.lemurproject.org)工具對(duì)文本數(shù)據(jù)集建立索引和進(jìn)行查詢操作。實(shí)驗(yàn)中,由于采用的是中文語料,首先對(duì)建立索引的文本數(shù)據(jù)集和查詢集都進(jìn)行了預(yù)處理,包括分詞和去停用詞。主題建模過程中,對(duì)文本數(shù)據(jù)集還進(jìn)行了去除低頻詞操作。

        (2)實(shí)驗(yàn)參數(shù)設(shè)置

        初檢的相關(guān)度排序方法選用一元語言模型LM(language model)方法。實(shí)驗(yàn)中統(tǒng)一采用Dirichlet平滑方法,設(shè)置固定平滑參數(shù)為1 000,設(shè)定初檢結(jié)果集中選取top-50個(gè)結(jié)果作為偽相關(guān)文檔集。主題建模過程中,采用吉布斯采樣(Gibbs sampling)[20]來實(shí)現(xiàn)模型估計(jì)和求解。設(shè)定每個(gè)主題返回NT=30個(gè)詞項(xiàng)信息,Gibbs采樣的迭代次數(shù)設(shè)定為100次。文檔di主題集topic_setdi中各特征主題的抽取實(shí)現(xiàn)中,設(shè)定閾值η為0.18,實(shí)驗(yàn)效果最好。文獻(xiàn)[17]研究表明,擴(kuò)展詞個(gè)數(shù)設(shè)定為10~20時(shí),效果最佳。實(shí)驗(yàn)中統(tǒng)一設(shè)定固定值 feedbackTermCount=20。

        因?yàn)橛脩粼跈z索過程中主要關(guān)注排名靠前的檢索結(jié)果,所以實(shí)驗(yàn)中主要從查詢準(zhǔn)確率角度進(jìn)行評(píng)價(jià)。分別采用前n個(gè)結(jié)果的查準(zhǔn)率Precision@n和平均查準(zhǔn)率MAP(mean average precision)來衡量。

        4.2 實(shí)驗(yàn)結(jié)果與分析

        表1列出了部分主題初始建模的部分詞項(xiàng)集合和重新計(jì)算詞項(xiàng)權(quán)重后的部分詞項(xiàng)集合。

        從表1中可以看出,通過對(duì)詞項(xiàng)-主題分布中的各詞項(xiàng)按照其權(quán)重值進(jìn)行重新排序,不僅做到了主題內(nèi)容的進(jìn)一步壓縮和抽象,同時(shí)降低了那些對(duì)主題內(nèi)容區(qū)分能力描述弱的詞項(xiàng)的重要程度,使得描述主題的各詞項(xiàng)的重要程度差別更加明顯,從而主題間區(qū)別更加明顯。

        為了實(shí)現(xiàn)用淺層語義指導(dǎo)檢索過程,本文設(shè)計(jì)并實(shí)現(xiàn)了如下實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。

        首先,將本文方法(OurMethod)與基本的基于主題的PRF方法(LDA)進(jìn)行比較,兩種方法Precision-Recal(l精度-召回率)對(duì)比分析結(jié)果如圖2所示。

        從圖2中可以看出,本文方法好于基于主題的PRF方法檢索性能,說明對(duì)文本內(nèi)容進(jìn)行主題分析,將有助于提高檢索性能。

        其次,將本文方法與未進(jìn)行主題內(nèi)容排序的基本PRF方法進(jìn)行比較,表2給出了偽相關(guān)文檔集數(shù)量為50和100時(shí)的檢索結(jié)果,其中No_Trank和Trank分別表示沒有進(jìn)行主題內(nèi)容排序的PRF方法和進(jìn)行主題內(nèi)容排序的PRF方法。

        從表2的結(jié)果中可以看出,選取那些豐富的、能表達(dá)語義的主題中的詞項(xiàng)集信息作為擴(kuò)展詞,要比直接從偽相關(guān)文檔集中選取單個(gè)的詞項(xiàng)信息作為擴(kuò)展詞,可以進(jìn)一步地提升檢索性能,而且隨著偽相關(guān)文檔集中文檔數(shù)目的增加,MAP值增加明顯,MAP(100)比MAP(50)增加14.9%。分析其原因,在于隨著偽相關(guān)文檔集中文檔數(shù)目的增加,抽取出相關(guān)主題內(nèi)容的可能性也增加了,其中包含了更多能夠體現(xiàn)用戶查詢需求中未能體現(xiàn)的上下文語義信息。

        最后,為了進(jìn)一步驗(yàn)證本文方法的科學(xué)性,考察將PRF抽取基本單元由文檔轉(zhuǎn)變到文檔內(nèi)容粒度是否真實(shí)有效,設(shè)計(jì)了如下實(shí)驗(yàn)。將本文方法與傳統(tǒng)的偽反饋方法——TF-IDF和BM25進(jìn)行比較,3種方法的Precision-Recal(l精度-召回率)對(duì)比分析結(jié)果如圖3所示。

        Table1 Example of effective word sets in Topic 1 and Topic 4表1 Topic 1和Topic 4中部分有效詞項(xiàng)集合

        Fig.2 Precision-Recall curve of two methods圖2 兩種方法的Precision-Recall曲線圖

        Table 2 Comparison of retrieval performance表2 檢索評(píng)價(jià)指標(biāo)對(duì)比

        Fig.3 Precision-Recall curve of 3 methods圖3 3種方法的Precision-Recall曲線圖

        從圖3中可以看出,與兩種傳統(tǒng)PRF方法比較,本文方法可以更有效地提高檢索性能,說明了本文方法的有效性。

        5 結(jié)束語

        主題模型是用來抽象地表示無標(biāo)記文本的一種無監(jiān)督建模方法。為了保證PRF的魯棒性,本文提出了一種基于淺層語義的自動(dòng)查詢擴(kuò)展方法。實(shí)驗(yàn)結(jié)果表明,這種將文檔內(nèi)容作為擴(kuò)展詞抽取的方法是切實(shí)可行的。但是隨著文本數(shù)據(jù)集規(guī)模的增大,主題建模之后的主題數(shù)目會(huì)進(jìn)一步增加,通過主題學(xué)習(xí)到的特征描述知識(shí)就更為抽象,如何利用這些越來越抽象的主題特征,使其更適合描述用戶初始查詢意圖,將是進(jìn)一步工作的方向。

        [1]Arguello J,Elsas J L,Callan J,et al.Document representation and query expansion models for blog recommendation [C]//Proceedings of the 2nd International Conference on Weblogs and Social Media,Seattle,USA,Mar 30-Apr 2, 2008.Menlo Park,USA:AAAI,2008:11-18.

        [2]Xu Jinxi,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Switzerland,Aug 18-22,1996.New York:ACM,1996:4-11.

        [3]He Ben,Ounis I.Finding good feedback documents[C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6, 2009.New York:ACM,2009:2011-2014.

        [4]Parapar J,Presedo-Quindimil M A,Barreiro á.Score distributions for pseudo relevance feedback[J].Information Sciences,2014,273:171-181.

        [5]Yi Xing,Allan J.Evaluating topic models for information retrieval[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,Napa Valley, USA,Oct 26-30,2008.New York:ACM,2008:1431-1432.

        [6]Huang Shu,Zhao Qiankun,Mitra P,et al.Hierarchical location and topic based query expansion[C]//Proceedings of the 23rd National Conference onArtificial Intelligence,Chicago,USA,Jul 13-17,2008.Menlo Park,USA:AAAI,2008, 2:1150-1155.

        [7]Zheng Ye,Huang Xiangji,Lin Hongfei.Finding a good queryrelated topic for boosting pseudo-relevance feedback[J]. Journal of the American Society for Information Science and Technology,2011,62(4):748-760.

        [8]Harman D,Buckley C.The NRRC reliable information access(RIA)workshop[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Sheffield,UK,Jul 25-29,2004.New York:ACM,2004:528-529.

        [9]Collins-Thompson K.Reducing the risk of query expansion via robust constrained optimization[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6,2009.New York: ACM,2009:837-846.

        [10]Tao Tao,Zhai Chenxiang.Regularized estimation of mixture models for robust pseudo-relevance feedback[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Seattle,USA,Aug 6-11,2006.NewYork:ACM,2006: 162-169.

        [11]Soskin N,Kurland O,Domshlak C.Navigating in the dark: modeling uncertainty in ad hoc retrieval using multiple relevance models[C]//Proceedings of the 2nd International Conference on Theory of Information Retrieval:Advances in Information Retrieval Theory,Cambridge,UK,Sep 10-12,2009. Berlin,Heidelberg:Springer,2009:79-91.

        [12]Lv Yuanhua,Zhai Chengxiang,Chen Wan.A boosting approach to improving pseudo-relevance feedback[C]//Proceedings of the 2011 ACM International Conference on Research and Development in Information Retrieval,Beijing, China,Jul 24-28,2011.New York:ACM,2011:165-174.

        [13]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003,3:993-1022.

        [14]Xiao Zhibo.Research on ranking topic models and their applications[D].Dalian:Dalian Maritime University,2014.

        [15]Song Yangqiu,Pan Shimei,Liu Shixia,et al.Topic and keyword re-ranking for LDA-based topic modeling[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6,2009. New York:ACM,2009:1757-1760.

        [16]Cao Guihong,Nie Jianyun,Gao Jianfeng,et al.Selecting good expansion terms for pseudo-relevance feedback[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM, 2008:243-250.

        [17]Ogilvie P,Voorhees E,Callan J.On the number of terms used in automatic query expansion[J].Information Retrieval, 2009,12(6):666-679.

        [18]Xia Yunqing,Tang Nan,Hussain A,et al.Discriminative biterm topic model for headline-based social news clustering [C]//Proceedings of the 28th International Flairs Artificial Intelligence Research Society Conference,Hollywood,USA, May 18-20,2015.Menlo Park,USA:AAAI,2015:311-316.

        [19]Yan Rong,Gao Guanglai.Word sense disambiguation based on word semantic relevancy computation[J].Computer Engineering andApplications,2012,48(27):109-113.

        [20]Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States ofAmerica,2004,101(S1):5228-5235.

        附中文參考文獻(xiàn):

        [14]肖智博.排序主題模型及其應(yīng)用研究[D].大連:大連海事大學(xué),2014.

        [19]閆蓉,高光來.面向詞義消歧的詞語相關(guān)度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(27):109-113.

        YAN Rong was born in 1979.She is a Ph.D.candidate and lecturer at College of Computer Science,Inner Mongolia University.Her research interests include natural language processing and information retrieval.

        閆蓉(1979—),女,內(nèi)蒙古鄂爾多斯人,內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院講師、博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,信息檢索。

        GAO Guanglai was born in 1964.He is a professor and Ph.D.supervisor at Inner Mongolia University.His research interest is intelligent information processing.

        高光來(1964—),男,內(nèi)蒙古扎賚特旗人,內(nèi)蒙古大學(xué)教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橹悄苄畔⑻幚怼?/p>

        Using Topic Content Ranking for Pseudo Relevance Feedback*

        YAN Rong+,GAO Guanglai
        College of Computer Science,Inner Mongolia University,Hohhot 010021,China

        +Corresponding author:E-mail:csyanr@imu.edu.cn

        YAN Rong,GAO Guanglai.Using topic content ranking for pseudo relevance feedback.Journal of Frontiers of Computer Science and Technology,2017,11(5):814-821.

        Traditional pseudo relevance feedback(PRF)algorithms use the document as a unit to extract words for query expansion,which will increase the noise of expansion source due to the larger extraction unit.This paper exploits the topic analysis techniques so as to alleviate the low quality of expansion source condition.Obtain semantic information hidden in the content of each document of pseudo-relevant set,and extract the abstract topic content information according to the relevance of the user query,which is described as a basic extraction unit to be used for query expansion.Compared with the traditional PRF algorithms and the PRF based on topic model algorithm,the experimental results on NTCIR 8 dataset show that the scheme in this paper can effectively extract more appropriate expansion terms.In addition,the results also show that the scheme in this paper has a positive impact to improve the retrieval performance on a smaller topic content granularity level.

        topic model;topic content;pseudo relevance feedback(PRF)

        10.3778/j.issn.1673-9418.1603068

        A

        TP391.3

        *The National Natural Science Foundation of China under Grant No.61263037(國家自然科學(xué)基金);the Natural Science Foundation of Inner Mongolia under Grant Nos.2014BS0604,2014MS0603(內(nèi)蒙古自然科學(xué)基金).

        Received 2016-02,Accepted 2016-04.

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-04-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160401.1614.014.html

        猜你喜歡
        排序語義內(nèi)容
        內(nèi)容回顧溫故知新
        排序不等式
        恐怖排序
        語言與語義
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        語義分析與漢俄副名組合
        丰满少妇弄高潮了www| 成人国产精品高清在线观看| 一区二区久久精品66国产精品| 国产精品老熟女乱一区二区| 亚洲av无码乱码在线观看牲色 | 狠狠综合亚洲综合亚色| 一区二区三区在线乱码| 永久免费毛片在线播放| 乌克兰少妇xxxx做受野外| av一区无码不卡毛片| 中文天堂一区二区三区| 最新国产熟女资源自拍| 欧美私人情侣网站| 亚洲午夜精品久久久久久一区| 日韩在线中文字幕一区二区三区| 亚洲97成人在线视频| 日韩欧美亚洲综合久久影院ds| 五月激情婷婷丁香| 区二区三区亚洲精品无| 国产av无码专区亚洲av麻豆| 亚洲综合区图片小说区| 最新国产精品亚洲二区| 日本午夜a级理论片在线播放| 午夜爽爽爽男女免费观看影院| 99久久国产露脸精品竹菊传媒| 久久99精品波多结衣一区| 日本人妻97中文字幕| 亚洲av无码一区二区三区天堂古代| 国产天堂网站麻豆| 亚洲人成伊人成综合网中文| 久久久国产精品123| 亚洲精品无码久久久久秋霞| 99久久国内精品成人免费| 成年人视频在线观看麻豆| 欧美牲交videossexeso欧美| 人妻在卧室被老板疯狂进入国产 | 在线观看日韩精品视频网站| 亚洲av成人一区二区三区本码 | 国产精品农村妇女一区二区三区| 亚洲a无码综合a国产av中文| 18禁超污无遮挡无码免费游戏|