亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于檢索結(jié)果排序的偽相關(guān)反饋

        2016-09-29 17:40:26閆蓉高光來
        計(jì)算機(jī)應(yīng)用 2016年8期

        閆蓉 高光來

        摘要:針對(duì)傳統(tǒng)偽相關(guān)反饋(PRF)算法擴(kuò)展源質(zhì)量不高使得檢索效果不佳的問題,提出一種基于檢索結(jié)果的排序模型(REM)。首先,該模型從初檢結(jié)果中選擇排名靠前的文檔作為偽相關(guān)文檔集;然后,以用戶查詢意圖與偽相關(guān)文檔集中各文檔的相關(guān)度最大化、并且各文檔之間相似性最小化作為排序原則,將偽相關(guān)文檔集中各文檔進(jìn)行重排序;最后,將排序后排名靠前的文檔作為擴(kuò)展源進(jìn)行二次反饋。實(shí)驗(yàn)結(jié)果表明,與兩種傳統(tǒng)偽反饋方法相比,該排序模型能獲得與用戶查詢意圖相關(guān)的反饋文檔,可有效地提高檢索效果。

        關(guān)鍵詞:偽相關(guān)反饋;潛在狄里克雷分配;主題模型;查詢擴(kuò)展

        中圖分類號(hào):TP391.3

        文獻(xiàn)標(biāo)志碼:A

        0引言

        隨著Web的普及,越來越多的用戶希望從互聯(lián)網(wǎng)上獲取信息。對(duì)于目前主流的基于關(guān)鍵詞的搜索方式,用戶必須通過構(gòu)造有限的查詢?cè)~來表達(dá)信息需求(information need)。Carpineto等[1]在查詢擴(kuò)展綜述中明確指出,大多數(shù)用戶喜歡構(gòu)造短查詢交給搜索引擎,且構(gòu)造的查詢?cè)~多以1~3個(gè)詞居多;并且用戶的查詢構(gòu)造本身就是一個(gè)抽象的過程,查詢構(gòu)造結(jié)果具有模糊性、不確定性和描述的多樣性。在這種情況下,由于缺乏上下文語境,搜索引擎很難完全理解用戶的查詢意圖,返回的結(jié)果中經(jīng)常會(huì)包含大量無關(guān)或相似的文檔。特別是當(dāng)查詢?cè)~出現(xiàn)歧義時(shí),返回的文檔集會(huì)偏向于某一個(gè)主題,而該主題往往并不是用戶潛在查詢意圖[2]。如果搜索引擎能夠?qū)⑴c用戶初始查詢構(gòu)造相關(guān)的信息全部返回給用戶,那么,用戶就可以在多個(gè)不同查詢結(jié)果中找到自己最想要的結(jié)果。文獻(xiàn)[3]的研究表明,提高用戶體驗(yàn)較好的辦法就是給用戶提供盡可能多的不同信息,而這些信息中至少會(huì)有一個(gè)是與用戶需求相關(guān)的。

        查詢擴(kuò)展可以有效地解決用戶表達(dá)問題。其基本思想是利用與關(guān)鍵詞相關(guān)的詞語對(duì)用戶原始查詢進(jìn)行修正,彌補(bǔ)用戶初始查詢信息的不足,提高查全率。偽相關(guān)反饋(Pseudo Relevance Feedback,PRF)作為一種有效的自動(dòng)查詢擴(kuò)展方法[4-6],其假設(shè)初檢查詢結(jié)果集中排名靠前的k個(gè)文檔是與用戶查詢相關(guān)的,記為偽相關(guān)文檔集,并從中抽取擴(kuò)展詞進(jìn)行查詢擴(kuò)展。該方法的查詢效果主要受制于選取的前k個(gè)文檔的數(shù)目及質(zhì)量[7-8],在其質(zhì)量偏低的情況下,容易產(chǎn)生“查詢主題偏移”現(xiàn)象。提升前k個(gè)相關(guān)文檔的質(zhì)量可以有效避免這種現(xiàn)象,形成真正與用戶查詢需求相關(guān)的偽相關(guān)文檔集合。通常,改善偽反饋文檔質(zhì)量包括調(diào)整[9-11]和聚類[12]兩種方法。其中,調(diào)整的方法包括對(duì)查詢結(jié)果重排序和過濾兩種方式:重排序的方法通過給查詢結(jié)果集中各文檔賦予不同的值來進(jìn)行排序,通過構(gòu)造算子[9]或是加權(quán)[10]完成;過濾的方法[11]主要通過給查詢結(jié)果集中各文檔添加若干特征,突顯相關(guān)文檔,提高相關(guān)文檔的排名,從而達(dá)到過濾的目的。

        以上這些偽相關(guān)反饋方法關(guān)注的重點(diǎn)仍是用戶查詢?cè)~的表象形式,而不是用戶的內(nèi)在實(shí)際信息需求,得到的偽相關(guān)文檔中往往有很多是非常相似的,造成查詢結(jié)果冗余的增加,不能很好地體現(xiàn)用戶不同層面的查詢需求[8]。本文研究認(rèn)為,用戶的查詢需求并不是單一的,而是多層面和多角度的,要實(shí)現(xiàn)自動(dòng)的查詢擴(kuò)展,就要求偽相關(guān)文檔中的各文檔內(nèi)容既保證與用戶原查詢相關(guān),又要保證其與用戶多層面需求的一一映射關(guān)系,從而降低查詢主題偏移的風(fēng)險(xiǎn),進(jìn)而獲取與用戶查詢盡可能相關(guān)的信息來進(jìn)行偽反饋。有鑒于此,本文提出一種提高偽反饋文檔質(zhì)量的排序模型REM(REorder Model)。該模型從文檔隱含語義角度出發(fā),通過對(duì)初檢查詢結(jié)果集中各文檔進(jìn)行重調(diào)序的方式,提高與用戶查詢主題相關(guān)文檔的位序,確保二次反饋擴(kuò)展源的質(zhì)量,進(jìn)而提高檢索效果。

        1基于檢索結(jié)果排序的PRF模型

        偽反饋文檔質(zhì)量不高實(shí)質(zhì)上是由于搜索引擎對(duì)于用戶查詢理解不充分造成的,而要讓搜索引擎完成這種充分理解是不大可能的。那么,如果能夠?qū)⒂脩舨樵儽旧硭邢嚓P(guān)內(nèi)容都盡可能地覆蓋到,這樣就可以在偽相關(guān)文檔中減少不相關(guān)文檔的數(shù)量,從而提高查詢準(zhǔn)確率。為了確保偽相關(guān)文檔中各文檔滿足用戶查詢覆蓋度的要求,本文提出一個(gè)排序模型REM。該模型將初檢查詢結(jié)果文檔集中的各文檔依據(jù)滿足用戶查詢意圖相關(guān)度程度進(jìn)行重新排序,選擇排名靠前的top-k個(gè)文檔來構(gòu)造二次反饋的擴(kuò)展源集合。

        1.1排序原則

        Carbonell等[13]提出的最大邊緣相關(guān)算法(Maximal Marginal Relevance, MMR)是用來解決查詢結(jié)果多樣化問題的一種方法。該算法分別對(duì)各文檔與用戶查詢間的相關(guān)度和文本之間的相關(guān)度進(jìn)行度量,所謂的邊緣相關(guān)即為二者的線性組合。按照各文檔的邊緣相關(guān)最大化作為排序依據(jù),提升在已有查詢結(jié)果中與查詢相關(guān)性盡量大、且與先前被選擇的文檔間相似性盡量小的文檔的排名次序,完成對(duì)各文檔的重定序。

        本文的排序策略與MMR很類似,區(qū)別在于:本文認(rèn)為初檢查詢結(jié)果集中的各文檔還應(yīng)當(dāng)依據(jù)其與用戶查詢意圖相關(guān)度高低來進(jìn)行排序,并從排序結(jié)果中構(gòu)造偽相關(guān)文檔集。這就要求構(gòu)造的REM排序模型,一方面要保證偽相關(guān)文檔集中各文檔與用戶各層次查詢需求的一一映射關(guān)系,另一方面要保證其中的文檔間的相似度最小。本文假定初檢查詢結(jié)果各文檔相關(guān)主題的語義集合涵蓋了用戶的查詢需求。由此,構(gòu)造REM模型的排序準(zhǔn)則如下:排序結(jié)果集中的各文檔要滿足用戶各層次查詢需求,即需求覆蓋度的最大化;同時(shí)還應(yīng)保證各文檔之間盡可能的不相似,即冗余度的最小化。

        2文本相似度計(jì)算

        式(2)中列出了兩個(gè)相似度計(jì)算,它們是構(gòu)造本文排序模型的關(guān)鍵。對(duì)于文本間相似度的計(jì)算方法大部分以基于向量空間模型[14]為主。該方法通過構(gòu)造詞典空間,將文本在詞典空間表示為詞向量的方式進(jìn)行建模。但在真實(shí)數(shù)據(jù)集中構(gòu)造的詞典空間存在維度過高和數(shù)據(jù)稀疏的問題,而且在建模過程中未考慮文本中各詞項(xiàng)的語義特征。在本文的排序模型中,目的是讓偽相關(guān)反饋集中的各文檔盡量滿足用戶各層面的信息需求,那么,在相似度計(jì)算中,應(yīng)該選取一種更合適的,能考慮文本中各詞項(xiàng)語義特征的文本表示方法。近年來,主題模型——潛在狄利克雷分配(Latent Dirichlet Allocation, LDA)[15]被研究應(yīng)用在文本相似度計(jì)算[16]中。LDA通過引入隱含主題(latent topic)概念,在主題空間(topic space)中用有限主題數(shù)目將文檔表示成低維的文檔主題向量,并且考慮了文本的語義特征,通過構(gòu)造“詞匯主題文檔”模式來提取大規(guī)模數(shù)據(jù)集中潛在的主題(語義)信息?;诖?,本文選用LDA主題模型抽象表示文本,用于計(jì)算文本間語義相似度。

        信息檢索本身對(duì)于詞匯的精確度要求高。但是,LDA在建模過程中抽象的主要對(duì)象是整個(gè)數(shù)據(jù)集,對(duì)應(yīng)用LDA模型生成的文本來說,文本被表示成所有主題的特定比例的混合。如果依此方式對(duì)用短文本構(gòu)造的用戶查詢直接進(jìn)行LDA建模,會(huì)由于數(shù)據(jù)稀疏的原因,使得這種文本表示結(jié)果不合適[17],勢(shì)必會(huì)造成檢索性能較差。所以本文在實(shí)驗(yàn)過程中,僅對(duì)進(jìn)行Sim2(di, dj)計(jì)算的兩個(gè)文本進(jìn)行LDA建模,而對(duì)Sim1(di, Q)相似度計(jì)算,本文將直接利用經(jīng)典的BM25[18]檢索結(jié)果。對(duì)于LDA建模后的兩個(gè)文本,本文使用JS(Jensen-Shannon)距離[19]計(jì)算文本相似度,如式(4)所示:

        3實(shí)驗(yàn)設(shè)置及評(píng)價(jià)

        3.1實(shí)驗(yàn)設(shè)置

        3.1.1索引建立

        本文使用lemur(http://www.lemurproject.org)工具建立文檔索引和查詢。實(shí)驗(yàn)數(shù)據(jù)集包括文檔集和查詢集,其中:文檔集包括簡(jiǎn)體中文Xinhua(2002—2005)四年的新聞文檔,共308845個(gè)文檔;查詢集包括簡(jiǎn)體中文ACLIA2-CS(0001 ~0100),共100個(gè)查詢。由于數(shù)據(jù)集為中文數(shù)據(jù),所以在進(jìn)行檢索和查詢前,首先對(duì)文檔集和查詢集都進(jìn)行了預(yù)處理,包括分詞(采用的是中國科學(xué)院計(jì)算技術(shù)研究所的ICTCLAS)和去除停用詞。

        3.1.2LDA建模

        在進(jìn)行LDA建模前,為了降低少數(shù)低頻詞對(duì)文本建模結(jié)果的影響,對(duì)實(shí)驗(yàn)文檔集作了進(jìn)一步的預(yù)處理:去除部分虛詞、形容詞、副詞等意義不大的詞;刪除文檔集中出現(xiàn)頻度小于5的詞匯。最后對(duì)剩余的65082429個(gè)詞項(xiàng)進(jìn)行LDA主題建模。LDA建模的參數(shù)估計(jì)利用MCMC(Markov Chain Monte Carlo)方法中的Gibbs抽樣[20]算法。初始設(shè)置主題個(gè)數(shù)M=10, α=50/M, β=0.01,Gibbs抽樣的迭代次數(shù)為100。

        LDA建模過程中主題數(shù)目M的設(shè)置非常關(guān)鍵,主要是因?yàn)橹黝}數(shù)目與數(shù)據(jù)集密切相關(guān)。用LDA對(duì)數(shù)據(jù)建模后,數(shù)據(jù)會(huì)通過主題進(jìn)行高度抽象和壓縮,主題數(shù)目的設(shè)置應(yīng)當(dāng)以數(shù)據(jù)為根本,因?yàn)椴煌闹黝}數(shù)目會(huì)導(dǎo)致每個(gè)主題詞項(xiàng)分布結(jié)果的不一樣,直接影響文本的語義表達(dá)。所以對(duì)于不同的數(shù)據(jù)集,主題數(shù)目M的取值是不固定的。困惑度(Perplexity)[21]可以用來評(píng)價(jià)主題模型的生成性能,本文采用該方法作為評(píng)價(jià)指標(biāo)來確定最佳主題數(shù)目M。一般地,困惑度取值越低,就表示模型更能發(fā)現(xiàn)數(shù)據(jù)中深層次的語義結(jié)構(gòu),模型的推廣性就越好。困惑度的計(jì)算如式(6)所示:

        本文實(shí)驗(yàn)中,依次取主題個(gè)數(shù)M=10,20,…,100,分別對(duì)LDA建模,分析困惑度的變化。實(shí)驗(yàn)結(jié)果如圖2所示。從圖2可以看出,當(dāng)M=60,模型困惑度達(dá)到最小峰值,此時(shí)模型的生成性能最佳。因此,實(shí)驗(yàn)中選取主題數(shù)目M=60。

        3.2實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)和結(jié)果分析

        初檢的相關(guān)度排序方法選用的是典型的一元語言模型(Language Model, LM)方法,采用Dirichlet平滑方法,設(shè)置值為1000。LM是基于詞項(xiàng)空間的統(tǒng)計(jì)結(jié)果來對(duì)用戶查詢和文檔的相關(guān)度進(jìn)行計(jì)算的,并沒有考慮詞語所表達(dá)的語義信息。選取其結(jié)果作為初檢結(jié)果的目的,是為了驗(yàn)證引入表達(dá)語義信息的文本表示方法后,從淺層語義的角度是否可以通過文檔位序的調(diào)整來達(dá)到提升擴(kuò)展源質(zhì)量的目的。因?yàn)榇蠖鄶?shù)用戶在檢索過程中主要關(guān)注排名靠前的結(jié)果,實(shí)驗(yàn)結(jié)果應(yīng)該考察其是否符合大多數(shù)檢索用戶的習(xí)慣,所以實(shí)驗(yàn)中主要從查詢準(zhǔn)確率方面進(jìn)行評(píng)價(jià),分別采用前n個(gè)結(jié)果的查準(zhǔn)率Precision@n(簡(jiǎn)記為P@n)和平均查準(zhǔn)率 (Mean Average Precision, MAP)來衡量。

        實(shí)驗(yàn)中初檢查詢結(jié)果文檔個(gè)數(shù)設(shè)定為K=50,并設(shè)置統(tǒng)一從排名前10個(gè)文檔(即k=10)中抽取擴(kuò)展詞。文獻(xiàn)[22]研究表明,擴(kuò)展詞個(gè)數(shù)的數(shù)目設(shè)定為10~20時(shí),檢索效果最好,所以實(shí)驗(yàn)中設(shè)置feedbackTermCount=20進(jìn)行偽反饋。Baseline選取標(biāo)準(zhǔn)的BM25[18]偽反饋。REM算法中關(guān)于參數(shù)λ取值,本文采用貪心策略,當(dāng)λ取0.7時(shí),檢索效果最好。為了有效驗(yàn)證REM方法,本文還和TF-IDF(Term Frequency-Inverse Document Frequency)偽反饋方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果如表1所示。

        從表1的結(jié)果可以看到,REM方法比Baseline(BM25)和TF-IDF偽反饋方法在MAP和P@5指標(biāo)上有了明顯的提高,說明REM方法對(duì)于提高檢索效果是有效的;但在指標(biāo)P@10上的結(jié)果略有下降,該結(jié)果其實(shí)正體現(xiàn)了本文的核心思想,即實(shí)際應(yīng)用中對(duì)于搜索引擎提供的查詢結(jié)果,應(yīng)該做到查詢的多樣性與查詢內(nèi)容的相關(guān)性及有用性的折中。

        為了進(jìn)一步驗(yàn)證本文提出方法的有效性,將REM方法結(jié)果與直接對(duì)初檢結(jié)果利用MMR算法進(jìn)行調(diào)序的結(jié)果(VSM_PRF)進(jìn)行了比較。在VSM_PRF方法中,文檔采用向量空間模型文本表示方法,并基于Cosine系數(shù)計(jì)算文檔間相似度。這樣做,還可以比較兩種不同文本表示方法對(duì)于檢索效果的影響。另外,本文同時(shí)還與初始結(jié)果直接進(jìn)行偽反饋的結(jié)果(LM_PRF)進(jìn)行了比較。結(jié)果如表2所示。

        從表2結(jié)果可以看出,在各項(xiàng)評(píng)測(cè)指標(biāo)上,VSM_PRF和REM均明顯高于LM_PRF檢索結(jié)果,說明從文本語義角度出發(fā)對(duì)初檢結(jié)果進(jìn)行重排序的方法是切實(shí)可行的。另外,對(duì)MMR結(jié)果進(jìn)一步改進(jìn),可以達(dá)到更好的檢索效果,REM方法在MAP指標(biāo)上比VSM_PRF高出6.4%,表明引入主題空間的統(tǒng)計(jì)信息,可以更有效地改善詞項(xiàng)空間的統(tǒng)計(jì)結(jié)果;但二者在P@5和P@10指標(biāo)上相差無幾,主要是由于本文提出的算法對(duì)于文本的主題建模精度要求高所造成的。

        4結(jié)語

        主流的關(guān)鍵詞查詢表達(dá)多樣性使得傳統(tǒng)的查詢擴(kuò)展會(huì)發(fā)生“查詢主題偏移”問題,為此提出一種新的偽相關(guān)反饋方法,通過引入排序模型REM對(duì)初檢結(jié)果文檔集中各文檔進(jìn)行重排序,從而獲取高質(zhì)量偽相關(guān)文檔,減小查詢主題偏移的風(fēng)險(xiǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出方法的有效性。與傳統(tǒng)的偽反饋方法比較而言,本文提出的REM模型更有助于提高查詢效果;而且實(shí)驗(yàn)結(jié)果還表明,在重排序過程中,與基于詞匯級(jí)別上的文本建模方式相比,基于主題級(jí)別上的文本建模方式能夠獲取更多的語義信息,有助于提升偽相關(guān)文檔的質(zhì)量,改善檢索效果。

        本文將淺層語義應(yīng)用于文本相似度計(jì)算中,并對(duì)將其用于解決實(shí)際的檢索問題進(jìn)行了初步嘗試。但在實(shí)際的檢索實(shí)現(xiàn)中,需要用戶的參與或分析和挖掘用戶檢索行為來獲取與用戶查詢真相關(guān)的RR集合,這是一件很困難的事情。所以進(jìn)一步的工作重點(diǎn)在于,在對(duì)大規(guī)模文本數(shù)據(jù)集進(jìn)行主題建?;A(chǔ)上,有效利用隱藏在偽反饋文檔中的主題信息,進(jìn)而提取與用戶查詢相關(guān)的語義信息,以達(dá)到用淺層語義指導(dǎo)檢索過程的目的。

        參考文獻(xiàn):

        [1]CARPINETO C, ROMANO G. A survey of automatic query expansion in information retrieval [J]. ACM Computing Surveys, 2012, 44(1): Article No. 1.

        [2]VARGAS S, SANTOS R L T, MACDONALD C, et al. Selecting effective expansion terms for diversity [C]// OAIR2013: Proceedings of the 10th Conference on Open Research Areas in Information Retrieval. Paris: Le Centre de Hautes Etudes Internationales DInformatique Documentaire, 2013: 69-76.

        【只有法文名稱LE CENTRE DE HAUTES ETUDES INTERNATIONALES DINFORMATIQUE DOCUMENTAIRE】

        http://dblp.uni-trier.de/rec/bibtex/conf/riao/EmbarekF10,該頁面上縮寫用的是

        publisher = {{CID} - Le Centre de Hautes Etudes Internationales D'Informatique Documentaire},

        [3]TEEVAN J, DUMAIS S T, HORVITZ E. Characterizing the value of personalizing search [C]// SIGIR2007: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 757-758.

        [4]COLLINS-THOMPSOM K. Reducing the risk of query expansion via robust constrained optimization [C]// CIKM2009: Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York: ACM, 2009: 837-846.

        [5]RAMAN K, UDUPA R, BHATTACHARYA P, et al. On improving pseudo-relevance feedback using pseudo-irrelevant documents [C]// ECIR 2010: Proceedings of the 32nd European Conference on IR Research, LNCS 5993. Berlin: Springer-Verlag, 2010: 573-576.

        [6]ZHAI C, LAFFERTY J. Model-based feedback in the language modeling approach to information retrieval [C]// CIKM2001: Proceedings of the 10th International Conference on Information and Knowledge Management. New York: ACM, 2001: 403-410.

        [7]HUANG Q, SONG D, RüGER S. Robust query-specific pseudo feedback document selection for query expansion [C]// ECIR 2008: Proceedings of the 30th European Conference on IR Research, LNCS 4956. Berlin: Springer-Verlag, 2008: 547-554.

        [8]HE B, OUNIS I. Studying query expansion effectiveness [C]// ECIR 2009: Proceedings of the 31th European Conference on IR Research, LNCS 5478. Berlin: Springer-Verlag, 2009: 611-619.

        [9]MITRA M, SINGHAL A, BUCKLEY C. Improving automatic query expansion [C]// SIGIR1998: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 206-214.

        [10]AMO P, FERRERAS F L, CRUZ F, et al. Smoothing functions for automatic relevance feedback in information retrieval [C]// DEXA 2000: Proceedings of the 11th International Workshop on Database and Expert Systems Applications. Washington, DC: IEEE Computer Society, 2000: 115-119.

        [11]葉正.基于網(wǎng)絡(luò)挖掘與機(jī)器學(xué)習(xí)技術(shù)的相關(guān)反饋研究[D].大連:大連理工大學(xué), 2011: 51-55. (YE Z. The research of machine learning techniques and external Web resources for relevance feedback [D]. Dalian: Dalian University of Technology, 2011: 51-55.

        [12]PU Q, HE D. Pseudo relevance feedback using semantic clustering in retrieval language model [C]// CIKM2009: Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York: ACM, 2009: 1931-1934.

        [13]CARBONELL J, GOLDSTEIN J. The use of MMR, diversity-based reranking for reordering documents and producing summaries [C]// SIGIR 1998: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 335-336.

        [14]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.

        [15]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

        [16]ZHOU D, DING Y, YOU Q, et al. Learning to rank documents using similarity information between objects [C]// ICONIP 2011: Proceedings of the 18th International Conference on Neural Information Processing, LNCS 7063. Berlin: Springer-Verlag, 2011: 374-381.

        [17]HONG L, DAVISON B D. Empirical study of topic modeling in twitter [C]// SOMA 10: Proceedings of the First Workshop on Social Media Analytics. New York: ACM, 2010: 80-88.

        [18]JONES K S, WALKER S, ROBERTSON S E. A probabilistic model of information retrieval: development and comparative experiments: Part 1 [J]. Information Processing & Management, 2000, 36(6): 779-808.

        [19]LIN J. Divergence measures based on Shannon entropy[J]. IEEE Transactions on Information Theory, 1991, 37(14):145-151.

        [20]GRIFFITHS T L, STEYVERS M. Finding scientific topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(Supp 1): 5228-5235.

        [21]BLEI D B, LAFFERTY J D. Correlated topic models [C]// NIPS 2005: Advances in Neural Information Processing Systems 18. Cambridge, MA: MIT Press, 2005, 18: 147-155.

        [22]OGILVIE P, VOORHEES E, CALLAN J. On the number of terms used in automatic query expansion [J]. Information Retrieval, 2009, 12(6): 666-679.

        国产精品久久久久尤物| 精品国产3p一区二区三区| 亚洲成生人免费av毛片| 亚洲白嫩少妇在线喷水| 国产av天堂亚洲av刚刚碰| 青青手机在线观看视频| 成人精品视频一区二区三区尤物 | 久久性爱视频| 少妇av射精精品蜜桃专区| 毛茸茸的中国女bbw| 一级午夜视频| 国产精品毛片大尺度激情| 美女被黑人巨大入侵的的视频| 久久99精品久久久久久噜噜| 国产无遮挡又黄又爽免费网站 | 一区二区三区四区亚洲综合| 韩国黄色三级一区二区| 中文字日产幕码三区的做法步| 人妻少妇精品久久久久久| 大地资源在线播放观看mv| 草莓视频在线观看无码免费| 国产av一区二区内射| 激情综合婷婷色五月蜜桃| 中文字幕人妻无码一夲道| 日韩成人精品在线| 亚洲 美腿 欧美 偷拍| 中文字幕人妻激情在线视频| av无码小缝喷白浆在线观看| 精品国产乱码久久久软件下载| 欧美精品一本久久男人的天堂| 亚洲国产av一区二区三区天堂| 亚洲精品欧美精品日韩精品| 久久aⅴ人妻少妇嫩草影院| 国产国拍亚洲精品mv在线观看| 91精品日本久久久久久牛牛| 少妇人妻字幕一区二区| 国产免费观看久久黄av麻豆| 看久久久久久a级毛片| 人妻在卧室被老板疯狂进入国产 | 性一交一乱一乱一视频亚洲熟妇| 精品亚洲一区二区三区四区五区|