郭嘉豐 范意興
(中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院計(jì)算技術(shù)研究所) 北京 100190) (中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190) (guojiafeng@ict.ac.cn)
從大規(guī)模數(shù)據(jù)中幫助用戶快速高效地獲取所需的相關(guān)信息是信息檢索研究的核心問(wèn)題.近年來(lái),盡管信息檢索技術(shù)已經(jīng)取得了長(zhǎng)足的發(fā)展,特別地針對(duì)大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的搜索引擎已經(jīng)成為用戶日常獲取網(wǎng)絡(luò)信息的主要手段,它離真正智能的信息獲取系統(tǒng)仍有較大的差距,這主要體現(xiàn)在3個(gè)方面:
1) 為了支撐大規(guī)模數(shù)據(jù)的檢索,基于關(guān)鍵詞的倒排索引是當(dāng)前搜索引擎的基礎(chǔ)架構(gòu)[1],關(guān)鍵詞檢索成為獲取候選相關(guān)文檔的基本手段,這極大地限制了對(duì)復(fù)雜的信息需求與網(wǎng)絡(luò)信息語(yǔ)義匹配的能力;
2) 大部分搜索引擎將網(wǎng)頁(yè)作為基本搜索對(duì)象,缺乏對(duì)其包含的數(shù)據(jù)內(nèi)容的理解和加工,把真正的信息理解和獲取難題仍然留給了用戶;
3) 被搜索引擎廣泛采用的機(jī)器學(xué)習(xí)排序模型[2],通常把相關(guān)性建模為人工定義特征的某種簡(jiǎn)單組合,缺乏對(duì)相關(guān)性的深入理解與建模、缺乏對(duì)信息獲取復(fù)雜交互過(guò)程的支持.理想的搜索引擎,能夠通過(guò)對(duì)網(wǎng)絡(luò)空間大量數(shù)據(jù)內(nèi)容的獲取、閱讀與理解,將其中所包含的關(guān)鍵語(yǔ)義信息建模與存儲(chǔ)下來(lái);當(dāng)用戶有信息需求時(shí),用戶可以用自然的描述方式闡述其信息需求,系統(tǒng)通過(guò)檢索獲得相關(guān)的支撐信息,并通過(guò)知識(shí)推理、相關(guān)決策與信息加工最終決定返回給用戶的信息內(nèi)容.我們將這樣的搜索引擎稱為“智能信息獲取系統(tǒng)”,因?yàn)樗煌谝酝乃阉饕鎯H把原始存在的網(wǎng)頁(yè)/資源看作是天然的檢索對(duì)象,而是認(rèn)為網(wǎng)絡(luò)數(shù)據(jù)包含的關(guān)鍵信息內(nèi)容才是真正的獲取對(duì)象,通過(guò)對(duì)細(xì)粒度信息內(nèi)容的建模、索引、檢索、決策、交互與生成,滿足用戶的信息需求.為了能夠支撐這樣的智能信息獲取,我們亟需在檢索架構(gòu)、檢索模型上產(chǎn)生根本性的改變和理論突破,包括:1)如何對(duì)網(wǎng)絡(luò)數(shù)據(jù)包含的關(guān)鍵信息內(nèi)容進(jìn)行表征、存儲(chǔ)與索引,以支撐大規(guī)模信息內(nèi)容的高效語(yǔ)義檢索(非關(guān)鍵詞匹配);2)如何建模復(fù)雜的用戶需求與信息的相關(guān)匹配關(guān)系,實(shí)現(xiàn)對(duì)相關(guān)性更深層更完備的推理、決策與生成.
近年來(lái),深度學(xué)習(xí)技術(shù)在圖像[3]、語(yǔ)音[4]、自然語(yǔ)言處理[5-6]等領(lǐng)域取得了顯著的突破,已經(jīng)開始延伸到信息檢索領(lǐng)域,深度學(xué)習(xí)模型強(qiáng)大的表達(dá)能力和學(xué)習(xí)能力,可以為智能信息獲取中數(shù)據(jù)語(yǔ)義信息表征、相關(guān)性推理決策以及復(fù)雜交互過(guò)程的建模提供良好的支撐.Google、微軟等公司在該方向已經(jīng)有了不少嘗試[7],斯坦福大學(xué)的Manning教授在SIGIR 2016的大會(huì)主題報(bào)告上預(yù)言2017年將會(huì)是深度學(xué)習(xí)進(jìn)軍信息檢索領(lǐng)域的一年,神經(jīng)網(wǎng)絡(luò)搜索的研討會(huì)(NeuIR Workshop)也連續(xù)2年在SIGIR會(huì)議上成為最受關(guān)注的研討會(huì),由此可見無(wú)論工業(yè)界還是學(xué)術(shù)界對(duì)深度學(xué)習(xí)檢索都十分關(guān)注.然而,目前已有的結(jié)果顯示深度學(xué)習(xí)應(yīng)用于檢索并不是其他領(lǐng)域深度學(xué)習(xí)模型的簡(jiǎn)單移植,而是需要結(jié)合信息檢索的固有特征、領(lǐng)域知識(shí)和獨(dú)特模式來(lái)構(gòu)建,并且對(duì)信息檢索最基本的架構(gòu)也會(huì)產(chǎn)生巨大的影響.
鑒于此,我們圍繞智能信息獲取的需求,利用深度學(xué)習(xí)檢索框架展開了系統(tǒng)性研究,形成了一系列關(guān)于稠密數(shù)據(jù)索引和深度相關(guān)匹配的探索.隨后,我們將從數(shù)據(jù)表征、數(shù)據(jù)索引和檢索模型3個(gè)層面簡(jiǎn)要介紹我們?cè)谏疃葘W(xué)習(xí)檢索方面所取得的最新研究成果.
如何將語(yǔ)言文本表示成計(jì)算機(jī)可理解的表達(dá)形式,一直是自然語(yǔ)言理解任務(wù)中的重要問(wèn)題.長(zhǎng)久以來(lái),最常用的單詞表示方法一直是獨(dú)熱表示(one-hot representation),這種表示方法將單詞表示成只有某一維非0的向量,且每個(gè)單詞使用不同的維度.這種表示方法在實(shí)際應(yīng)用中面臨著稀疏以及組合爆炸的問(wèn)題.近年來(lái),伴隨著深度學(xué)習(xí)研究的崛起,分布式表示,即將文本表示成低維實(shí)數(shù)向量,得到了廣泛的研究,同時(shí)這些表示也被應(yīng)用到自然語(yǔ)言處理的各類任務(wù)中并取得了顯著性能提升.文本數(shù)據(jù)的表征研究主要集中在單詞分布式表示研究以及句子的分布式表示研究,以下將對(duì)這2部分的工作進(jìn)行詳細(xì)的介紹.
分布式單詞表示,又常被稱作詞向量或詞嵌入,將單詞表示為低維實(shí)數(shù)向量.這些向量,可以有多個(gè)維度取非零.最常見的形式則是所有維度都有值,也就是稠密向量.目前主流的學(xué)習(xí)單詞的分布式表示的主流思路都是基于分布語(yǔ)義假設(shè)(distributional hypothesis)[8-9].它是整個(gè)自然語(yǔ)言處理領(lǐng)域最重要的假設(shè)之一,其假設(shè)處于相似上下文中的單詞具有相似的含義.數(shù)十年來(lái),研究人員基于此假設(shè)提出了大量的單詞表示學(xué)習(xí)模型.這些模型大體上都是利用上下文的統(tǒng)計(jì)信息來(lái)表示一個(gè)單詞,不同的只是不同模型使用了不同的方法,計(jì)算了不同的統(tǒng)計(jì)信息.而從分布語(yǔ)義假設(shè)的內(nèi)容容易看出,“上下文”才是整個(gè)假設(shè)的基礎(chǔ).根據(jù)模型所建模的上下文的不同,現(xiàn)有的單詞表示工作可以分為2類:
1) 橫向組合模型,主要使用單詞所處的文檔(或句子)作為單詞的上下文,認(rèn)為2個(gè)單詞如果經(jīng)常在相同文本中共現(xiàn),則這2個(gè)單詞語(yǔ)義相似.對(duì)于圖1示例,此類模型可以捕捉“Einstein”與“physicist”之間的語(yǔ)義關(guān)聯(lián).這類模型常用于信息檢索領(lǐng)域,在這類場(chǎng)景下文檔是一個(gè)關(guān)于單詞上下文的自然選擇,代表性工作包括隱式語(yǔ)義分析(latent semantic analysis)[10]和非負(fù)矩陣分解(non-negative matrix factorization)[11].
2) 縱向聚合模型,主要使用單詞周圍的單詞作為上下文,認(rèn)為如果2個(gè)單詞其周圍的單詞總是相似的,則這2個(gè)單詞語(yǔ)義相似.對(duì)于圖1示例,此類模型可以捕捉“Einstein”與“physicist”之間的相似性,即使這2個(gè)單詞并未在一句話中共現(xiàn).這類模型主要建模了單詞間的縱向聚合關(guān)系,在自然語(yǔ)言處理領(lǐng)域是一個(gè)非常常見的選擇,代表性工作包括CBOW(continuous bag-of-words),SG(skip gram)[12-13]以及GloVe[14]等.
Fig.1 Example for syntagmatic and paradigmatic relations圖1 橫向與縱向組合樣例
然而,這2類工作都只建模了單詞間的一種關(guān)系,丟失了單詞的部分語(yǔ)義信息.如橫向組合模型,雖然可以編碼單詞橫向之間(如Einstein與physicist)的相似性,卻無(wú)法捕捉縱向之間(如Einstein與Feynman)的相似,因?yàn)樗鼈儾]有共現(xiàn).另一方面,縱向聚合模型雖然能得到單詞縱向(如Einstein與Feynman)之間的相似性,卻丟失了單詞的橫向關(guān)聯(lián)(如Einstein與physicist).為克服這個(gè)問(wèn)題,我們提出一種同時(shí)建模單詞間的橫向組合與縱向聚合關(guān)系的方法[15],具體地,本文不但利用單詞所處的文本區(qū)域(如句子、文檔)來(lái)學(xué)習(xí)單詞的表示,同時(shí)也利用單詞周圍的單詞(單詞周圍某個(gè)大小的窗口內(nèi)的單詞)來(lái)學(xué)習(xí)它的表示.如圖2所示,在PDC模型中,不僅使用單詞周圍的上下文來(lái)預(yù)測(cè)它,還使用它所在的文檔來(lái)預(yù)測(cè)它,前一個(gè)任務(wù)捕捉了單詞間的縱向聚合關(guān)系,因?yàn)橄嗨粕舷挛囊馕吨嗨频木W(wǎng)絡(luò)輸入,可以得到相似的輸出向量;后一個(gè)任務(wù)則捕捉了單詞間的橫向組合關(guān)系,也就是單詞間的共現(xiàn)信息.在HDC(hierarchical document context)模型中,首先使用單詞所在的文檔去預(yù)測(cè)當(dāng)前單詞,然后再使用此單詞預(yù)測(cè)其周圍的每一個(gè)單詞.與PDC類似,文檔預(yù)測(cè)單詞部分建模了單詞間的橫向組合關(guān)系,而單詞預(yù)測(cè)上下文部分則建模了單詞間的縱向聚合關(guān)系.通過(guò)并行地或者層次化地建模這2種信息,本文提出了2個(gè)新型的學(xué)習(xí)單詞表示的聯(lián)合訓(xùn)練模型.本文在單詞相似度以及單詞類比這2個(gè)任務(wù)的多個(gè)數(shù)據(jù)集上對(duì)所提模型進(jìn)行了實(shí)驗(yàn)評(píng)價(jià).實(shí)驗(yàn)結(jié)果顯示,本文所提模型在這2個(gè)任務(wù)上均顯著好于現(xiàn)有只建模一種關(guān)系的模型.
Fig.2 PDC model and HDC model圖2 PDC模型和HDC模型框架圖
單詞的分布式表示在近些年取得了長(zhǎng)足的發(fā)展,已成功用于文本處理的方方面面.在復(fù)雜的自然語(yǔ)言處理任務(wù)中,僅使用單詞的語(yǔ)義表示并不足以直接完成這些任務(wù).因此,句子的表示學(xué)習(xí)也成為近年來(lái)自然語(yǔ)言處理與機(jī)器學(xué)習(xí)另一個(gè)火熱研究點(diǎn).借助單詞的分布式表示在文本處理領(lǐng)域取得顯著突破,在單詞表示上構(gòu)建句子的分布式表示,逐漸成為句子表示領(lǐng)域的主流,目前也已在多個(gè)領(lǐng)域取得良好結(jié)果.
通過(guò)句子與單詞間的共現(xiàn)信息利用統(tǒng)計(jì)學(xué)習(xí)方法來(lái)學(xué)習(xí)句子的表示,這種思路最早可以追溯到弗雷格于1892年提出的復(fù)合性原理(principle of compositionality),一句話的語(yǔ)義由其各組成部分的語(yǔ)義以及它們之間的組合方法所確定[16].這類方法大體上使用某種語(yǔ)義組合方式,組合單詞的表示來(lái)得到句子的表示,常見的組合方法有簡(jiǎn)單求和[17-19]、按位乘法[20]、矩陣乘法[21]、張量乘法[22-23]等方式.然而,Gershman與Tenenbaum的最新工作表明,這些基于線性代數(shù)的組合方式并不能完全捕捉短語(yǔ)及句子的語(yǔ)義[24].同時(shí),這些方法也存在另一些明顯的缺陷:1)缺少健全的概率基礎(chǔ),使得它們具有很弱的可解釋性;2)假設(shè)了文本間的相互獨(dú)立,限制了對(duì)整體語(yǔ)料信息的利用.
Fig.3 Spherical paragraph model圖3 球面文檔模型
為了解決上述問(wèn)題,我們提出了一個(gè)基于詞向量包(bag-of-word-embedding)的spherical paragraph model (SPM)模型[25],其通過(guò)建模整個(gè)語(yǔ)料庫(kù)的生成來(lái)學(xué)習(xí)文本的表達(dá).如圖3所示,首先,每個(gè)文本先被表示成L2正則化詞向量的詞袋.通過(guò)正則化,詞向量間的余弦相似度就等于詞向量間的點(diǎn)積,因此所有的詞向量都在一個(gè)單元超球面上.然后,我們假設(shè)生成過(guò)程為:首先從語(yǔ)料層的先驗(yàn)分布中采樣一個(gè)文本向量,然后再?gòu)奈谋緦拥姆植贾胁蓸游谋景乃性~向量.其中,von mises-fisher (vMF)分布能很好地建模單元球面上的數(shù)據(jù),因此被用作語(yǔ)料層和文本層中的分布.和傳統(tǒng)模型相比,我們的模型有3個(gè)特點(diǎn):1)通過(guò)建模整個(gè)語(yǔ)料庫(kù)的生成,SPM能很好地利用詞語(yǔ)義,詞-文本共現(xiàn)以及語(yǔ)料庫(kù)信息;2)通過(guò)使用vMF分布,SPM能很好地捕捉詞向量間的語(yǔ)義相似度;3)SPM具有很好的概率可解釋性.基于單詞的分布式表達(dá),另一種構(gòu)建文本片段表征的方法是使用fisher kernel (FK)框架.在傳統(tǒng)的FK聚合方法中,詞首先通過(guò)隱形語(yǔ)義索引(LSI)映射到歐幾空間中;然后高斯混合模型(GMM)被應(yīng)用作詞向量的生成模型;最后,GMM的參數(shù)梯度被用作文本的表示.如今分布式表達(dá)(distributed representation)已經(jīng)被證明比LSI具有更好的表現(xiàn),因此我們希望將分布式表達(dá)很好地應(yīng)用在FK框架中.然而,直接在分布式表達(dá)上使用FK框架是不合適的,因?yàn)閭鹘y(tǒng)方法中的GMM模型是被用來(lái)捕捉詞向量間的歐氏距離,而分布式詞向量之間的語(yǔ)義關(guān)系由余弦相似度測(cè)量更合適.因此,我們提出了一個(gè)基于分布式詞向量的FK表達(dá)方法[26].如上所述,von mises-fisher (vMF)分布能很好地建模單元球面上的方向數(shù)據(jù),并且能捕捉向量間的方向關(guān)系.因此,我們引入mixture of von mises-fisher distributions (moVMF)取代傳統(tǒng)FK框架中的GMM,作為詞向量的生成模型.我們?cè)谖谋痉诸?,文本聚類以及信息檢索3個(gè)任務(wù)上,和已有的文本表達(dá)模型做了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了我們模型的有效性.
直接面向稠密向量的索引方法在原始空間進(jìn)行搜索,嘗試減少距離計(jì)算來(lái)加速搜索.面向稠密向量的索引方式根據(jù)采用的數(shù)據(jù)結(jié)構(gòu)的不同,可以分為兩大類,分別是層次結(jié)構(gòu)索引和近鄰圖索引.層次結(jié)構(gòu)索引方法的主要思想是分層劃分空間或數(shù)據(jù),以范圍從大到小.如圖4所示,當(dāng)給定一個(gè)查詢時(shí),從查詢項(xiàng)在最后一層所在區(qū)域開始查找,排除掉大部分無(wú)關(guān)的向量來(lái)進(jìn)行快速檢索.早期的K-d樹[27]通過(guò)分割空間和回溯查找嘗試加速近鄰查找,在向量維度較低時(shí)取得良好效果,但在維度較高時(shí)性能急劇下降,甚至退化到比線性搜索還慢.K-means樹[28]是和k-d樹類似的層次結(jié)構(gòu),不同的是,每一層采用K-means算法聚類來(lái)將數(shù)據(jù)分成2份或多份.然而,由于高維空間精確查找近鄰問(wèn)題太過(guò)于困難[29],基于k-d樹和K-means樹的隨機(jī)版本[30]被提出,每次劃分時(shí)采用隨機(jī)選取的維度或者聚類中心來(lái)實(shí)現(xiàn)每一層的不確定劃分,葉子結(jié)點(diǎn)也可以保存多個(gè)向量數(shù)據(jù),檢索時(shí)避免過(guò)多的回溯操作,同時(shí)可以采用多棵樹構(gòu)成森林同時(shí)查找來(lái)提升效果.近鄰圖索引則將每個(gè)向量連向一定數(shù)目的鄰居,構(gòu)成一張圖,如圖4(b)所示.基于近鄰圖索引的搜索算法的核心思想可以概括為鄰居的鄰居也有可能是鄰居,通過(guò)在近鄰圖上采樣一些點(diǎn)作為搜索起始點(diǎn),不斷擴(kuò)展它們的鄰居并保留離查詢項(xiàng)更近的點(diǎn)作為下次擴(kuò)展的起點(diǎn),重復(fù)這個(gè)迭代過(guò)程直至無(wú)法擴(kuò)展出更近的點(diǎn).K-最近鄰圖(K-nearest-neighbor graph,K-NN)[31]關(guān)注在索引結(jié)構(gòu)的構(gòu)建上,將每個(gè)點(diǎn)連向離它最近的k個(gè)鄰居.KGraph[32]采用k-NN圖作為索引,同時(shí)提出了一種快速構(gòu)建近似索引的最近鄰下降算法.多樣化近似圖(diversified proximity graph)[33]提出采用雙向圖來(lái)提高圖的連通性,同時(shí)提出選擇的鄰居應(yīng)當(dāng)在方向上多樣性,并提出一種啟發(fā)式算法來(lái)選擇鄰居,取得了不錯(cuò)的效果.小世界圖(small world graph)[34]則提出構(gòu)建的圖應(yīng)具有導(dǎo)航功能,在圖上的搜索時(shí)可以實(shí)現(xiàn)跳躍功能,加速查找.
Fig.4 Different indexing methods圖4 不同的索引方法
Fig.5 Hash indexing methods圖5 Hash索引算法
Hash索引則是尋求數(shù)據(jù)更簡(jiǎn)潔的表示,在編碼空間盡可能保持原有空間的關(guān)系,主要通過(guò)減少計(jì)算帶來(lái)加速搜索.由于表示簡(jiǎn)單,Hash索引同時(shí)具有存儲(chǔ)代價(jià)小的特點(diǎn),得到了廣泛的應(yīng)用.Hash相關(guān)的工作主要關(guān)注如何學(xué)習(xí)出更好的Hash編碼,即采用更好的Hash函數(shù),從而更好地保持原始空間的關(guān)系,根據(jù)是否考慮數(shù)據(jù)的分布可以分為局部敏感Hash和Hash學(xué)習(xí)兩大類.局部敏感Hash(locality sensitive hashing,LSH)[35]是一類基于LSH家族定義,采用隨機(jī)投影框架來(lái)將原始向量轉(zhuǎn)為Hash編碼進(jìn)行近鄰搜索方法的總稱.如圖5(a)所示,LSH家族是一類將相似的輸入項(xiàng)比不相似的輸入項(xiàng)以更高概率映射到相同Hash編碼的函數(shù)家族.局部敏感Hash相關(guān)研究針對(duì)不同的距離或者相似性度量設(shè)計(jì)了不同的LSH家族,在不同距離度量空間下盡可能地保持原始向量之間的距離關(guān)系,如面向lp距離的p-穩(wěn)定分布LSH[36]、面向余弦相似度的正負(fù)隨機(jī)投影[37]等.Hash學(xué)習(xí)則試圖根據(jù)原始向量空間中數(shù)據(jù)的分布學(xué)習(xí)出向量的Hash編碼,更好地保持原始空間的關(guān)系,取得了比基于隨機(jī)投影框架的局部敏感Hash更好的檢索效果.Hash學(xué)習(xí)方法主要需要考慮5個(gè)方面的問(wèn)題[38],即采用什么樣的Hash函數(shù)、編碼空間采用什么樣的相似度、采用什么樣的目標(biāo)函數(shù)、采用什么樣的優(yōu)化技術(shù).例如迭代量化(iterative quantization,ITQ)[39]通過(guò)主成分分析PCA將原始向量進(jìn)行降維,根據(jù)向量中各元素的符號(hào)將其量化為比特.現(xiàn)有提出的Hash函數(shù)基于線性投影、核函數(shù)或者深度神經(jīng)網(wǎng)絡(luò)等,例如有線性Hash函數(shù)方法[40]和核函數(shù)Hash方法[41].除了二元Hash編碼,量化采用多元編碼[42-43],將原始向量劃分為多個(gè)子空間,在多個(gè)子空間進(jìn)行聚類,用聚類中心來(lái)替代子空間向量,所有子空間向量所屬的聚類中心的拼接對(duì)原始向量進(jìn)行估計(jì).
現(xiàn)有的致力于分割數(shù)據(jù)或分割空間,希望能迅速排除掉大部分距離較遠(yuǎn)的向量,只對(duì)部分向量進(jìn)行計(jì)算,以實(shí)現(xiàn)良好的檢索性能.但是隨著維度的增加,相鄰塊數(shù)目也以指數(shù)的速度增加.而近鄰圖結(jié)構(gòu)不再分割空間,而是連接空間來(lái)構(gòu)建索引[44],然而大部分k-最近鄰圖的方法中鄰居是最近的頂點(diǎn),因此缺乏探索能力,容易陷入局部最優(yōu).針對(duì)這一難題,我們提出了k-多樣化最近鄰圖[45],并受信息檢索中最著名的最大間隔多樣性算法[46]的啟發(fā),提出了一種快速索引構(gòu)建算法.我們希望圖索引中每個(gè)頂點(diǎn)選擇的鄰居既盡可能靠近頂點(diǎn),同時(shí)又盡可能在方向上多樣化,這個(gè)目標(biāo)和最大間隔多樣化排序算法接近.受此啟發(fā),我們將k-多樣化最近鄰圖的構(gòu)建考慮成一個(gè)2階段多樣化排序過(guò)程:1)我們利用NN-Descent[47]算法為每個(gè)頂點(diǎn)獲取鄰居候選點(diǎn);2)我們應(yīng)用一個(gè)最大間隔多樣化的算法對(duì)鄰居候選點(diǎn)進(jìn)行重排序,為每個(gè)頂點(diǎn)獲取k個(gè)多樣化的最近鄰.通過(guò)這種方式,我們能平衡近鄰圖的準(zhǔn)確率和多樣性,因此同時(shí)具有良好的探索能力和利用能力.這個(gè)方法也提出了一種新的視角,將索引的構(gòu)建過(guò)程視作信息檢索中搜索結(jié)果多樣化.具體來(lái)說(shuō),將每個(gè)頂點(diǎn)看作查詢,鄰居候選點(diǎn)看作文檔,用最大間隔相關(guān)性準(zhǔn)則來(lái)對(duì)鄰居進(jìn)行排序.
相關(guān)性建模一直是信息檢索的核心問(wèn)題,如何建模復(fù)雜的用戶需求與信息的相關(guān)關(guān)系,實(shí)現(xiàn)對(duì)相關(guān)性更深層、更復(fù)雜的推理與決策成為了推進(jìn)排序模型的原動(dòng)力.近年來(lái),深度學(xué)習(xí)的方法由于其強(qiáng)大的數(shù)據(jù)擬合能力,在各個(gè)領(lǐng)域取得了不同程度的進(jìn)展,如計(jì)算機(jī)視覺中圖片分類任務(wù)[48]、語(yǔ)音處理中語(yǔ)音識(shí)別任務(wù)[49]、自然語(yǔ)言處理中機(jī)器翻譯任務(wù)[50]等.基于深度學(xué)習(xí)的相關(guān)性模型大致可以分為2類:1)利用神經(jīng)表達(dá)改進(jìn)排序模型,這類方法仍然以現(xiàn)有的相關(guān)性模型為主體框架,利用神經(jīng)表達(dá)(neural representation)來(lái)改進(jìn)其中的關(guān)鍵模塊;2)端到端的神經(jīng)網(wǎng)絡(luò)排序模型,這是一種全新的方法體系,直接利用神經(jīng)網(wǎng)絡(luò)來(lái)建模查詢與文檔之間的相關(guān)性.
在利用神經(jīng)表達(dá)改進(jìn)相關(guān)性模型的工作中,主要是借助詞向量在刻畫單詞語(yǔ)義關(guān)聯(lián)上的優(yōu)勢(shì)來(lái)解決傳統(tǒng)檢索模型的不足.傳統(tǒng)的方法基于獨(dú)熱的單詞表示來(lái)表達(dá)查詢和文檔,面臨著經(jīng)典的語(yǔ)義失配的問(wèn)題.例如給定查詢“deep learning methods”,當(dāng)一個(gè)相關(guān)的文檔中大量出現(xiàn)“neural network algorithm”時(shí),在獨(dú)熱表示下是無(wú)法刻畫這些單詞之間的語(yǔ)義關(guān)聯(lián),捕捉二者之間的相關(guān)性.一個(gè)最直接的方法就是使用上述的詞向量來(lái)表示單詞輔助文檔與查詢的相關(guān)性判斷.基于此想法,研究人員提出了不同的利用詞向量來(lái)改進(jìn)現(xiàn)有相關(guān)性建模的方法[51-54],根據(jù)相關(guān)性判斷中詞向量使用方式不同,這些方法可以分為2類:全局匹配方法和局部匹配方法.
全局匹配方法使用查詢或文檔內(nèi)部單詞的詞向量來(lái)構(gòu)建查詢和文檔的整體向量表示,然后在向量空間中計(jì)算查詢和文檔的相關(guān)性.最直接的一個(gè)方法就是詞向量加權(quán)法(average word embedding,AWE)[51],AWE采用線性組合詞向量的方式來(lái)計(jì)算查詢和文檔的表達(dá),然后通過(guò)余弦相似度來(lái)計(jì)算二者的相關(guān)性.進(jìn)一步地,Clinchant等人[52]提出了一個(gè)非線性的組合詞向量的方式來(lái)得到查詢和文檔的向量表示,他們基于fisher kernel(FK)框架,提出了一個(gè)新穎的fisher vector(FV)的文檔表示方法.全局匹配的方法直接在查詢和文檔的向量表示空間中進(jìn)行相關(guān)性度量,其性能依然和傳統(tǒng)的相關(guān)性模型差別甚遠(yuǎn)[51],這主要是因?yàn)橹苯訉⑽臋n中所有的單詞向量組合得到文檔的全局向量,包含了太多的噪音信息,難以精確刻畫單詞之間的細(xì)粒度匹配信號(hào).然而,通過(guò)結(jié)合基于向量的全局匹配與傳統(tǒng)的相關(guān)性模型,性能能夠得到一定的提升.
局部匹配方法則直接利用詞向量來(lái)計(jì)算查詢和文檔中單詞之間的匹配相似度,然后整合局部單詞的相似度值得到查詢和文檔整體的相關(guān)度.Mitra等人[53]指出在使用Word2Vec訓(xùn)練得到的詞向量來(lái)增強(qiáng)查詢和文檔的相關(guān)性建模時(shí),在查詢語(yǔ)料中訓(xùn)練得到的詞向量比在文檔語(yǔ)料中得到的詞向量效果更好,提出了一個(gè)對(duì)偶向量空間模型(dual embedding space model,DESM),通過(guò)為查詢中的每一個(gè)單詞計(jì)算其與文檔整體的相似度,再融合不同的查詢單詞的匹配程度得到最終的相關(guān)性得分,DESM取得了比AVE更好的效果;Ganguly等人[54]基于語(yǔ)言模型提出了一個(gè)一般的語(yǔ)言模型(generalized language model, GLM)的方法,在原始的使用精確匹配語(yǔ)言模型的基礎(chǔ)上引入了基于詞向量的翻譯模型.基于詞向量的局部匹配組合得到查詢-文檔對(duì)的整體匹配的方法,總之,比基于全局的向量空間的匹配方法具有更好的性能.但是,由于在單詞的相似度計(jì)算時(shí),需要計(jì)算查詢?cè)~和整個(gè)詞表中所有單詞的相似度,因此計(jì)算代價(jià)較大.
在借助分布式單詞表示來(lái)增強(qiáng)查詢和文檔的相關(guān)性建模方面,我們?cè)谝酝~袋模型的基礎(chǔ)上,為每個(gè)單詞關(guān)聯(lián)其對(duì)應(yīng)的詞向量,得到詞向量袋(bag-of-word-embedding, BoWE)假設(shè)表示.基于此,我們提出了一個(gè)基于詞運(yùn)輸框架的相關(guān)性模型(non-linear word transportation,NWT),將查詢與文檔的相關(guān)性看成是一個(gè)從文檔到查詢的語(yǔ)義信息的運(yùn)輸過(guò)程,如圖6所示,文檔中的詞看成是信息的“消費(fèi)者”,查詢中的詞則是信息的“消費(fèi)者”,從文檔到查詢運(yùn)送的信息就是“商品”,最終文檔向查詢能運(yùn)送的“商品”的總量就是文檔與查詢的相關(guān)程度.根據(jù)信息檢索中相關(guān)性匹配的特性需求,我們?yōu)橄嚓P(guān)匹配中的詞運(yùn)輸問(wèn)題增加了3項(xiàng)假設(shè):1)文檔中的單詞根據(jù)出現(xiàn)的頻率有其確定的信息容量,且信息容量的設(shè)置需要滿足不同文檔類型的需要;而查詢由于其模糊的信息需求,每個(gè)查詢?cè)~的信息容量則不做限制,這樣使得查詢能夠從文檔中接收盡可能多的相關(guān)信號(hào).因此,相關(guān)匹配的詞運(yùn)輸是一個(gè)非對(duì)稱的信息運(yùn)輸問(wèn)題.2)從文檔單詞到查詢單詞“運(yùn)送”的語(yǔ)義相關(guān)的詞取得的信息增益定義為運(yùn)輸?shù)摹笆找妗?,且精確匹配運(yùn)輸收益要顯著優(yōu)于語(yǔ)義匹配的運(yùn)輸收益.3)每個(gè)查詢?cè)~的總收益應(yīng)該滿足邊際效應(yīng)遞減的性質(zhì),也就是說(shuō),一個(gè)查詢?cè)~上收益的增量會(huì)隨著收益總量的增加而減少,以保證相關(guān)文檔對(duì)于查詢中不同層面信息需求的滿足[55].最終,一個(gè)文檔與查詢的相關(guān)性匹配得分就由它能給查詢提供的最大信息收益決定.NWT模型能有效地利用詞向量來(lái)克服查詢與文檔之間的單詞失配問(wèn)題,顯著提升相關(guān)性建模的性能,同時(shí),NWT模型的設(shè)計(jì)極具靈活性,可以為不同模塊設(shè)計(jì)合適的函數(shù),從而得到不同的模型變種.
Fig.6 Non-linear word transportation model圖6 非線性的詞運(yùn)輸模型
在利用深度學(xué)習(xí)方法直接建模查詢與文檔的相關(guān)性方法中,使用神經(jīng)網(wǎng)絡(luò)端到端的從原始的數(shù)據(jù)表示中學(xué)習(xí)二者的相關(guān)性特征用于最終的相關(guān)性的建模.伴隨著深度學(xué)習(xí)方法的崛起,研究人員提出了大量的深度匹配模型,這些方法根據(jù)網(wǎng)絡(luò)關(guān)注角度的不同,可以分為2類:關(guān)注表征的匹配模型和關(guān)注交互的匹配模型.
在關(guān)注表征的匹配模型中,其重點(diǎn)在于更好的學(xué)習(xí)文本的表征,因此這類模型通常是使用深度神經(jīng)網(wǎng)絡(luò)為文本(即查詢或文檔)構(gòu)建復(fù)雜的表征,然后基于二者的表達(dá)進(jìn)行簡(jiǎn)單的匹配.例如DSSM[56]將查詢和文檔中的詞拆解成字母N-元組;然后使用全連接神經(jīng)網(wǎng)絡(luò)將查詢和文檔映射到同一個(gè)語(yǔ)義空間,得到二者的高層抽象的表征;最后通過(guò)簡(jiǎn)單的余弦相似度函數(shù)來(lái)刻畫二者的語(yǔ)義相關(guān)性.另外,CDSSM[57]同樣使用單詞N-元組為基本的輸入單元;然后使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)查詢和文檔的高層的語(yǔ)義表征;最終在語(yǔ)義空間中,同樣使用余弦相似度函數(shù)來(lái)計(jì)算二者的相關(guān)程度.另外,ARC-I[58]直接基于原始的單詞,使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)逐層抽象得到文本的稠密向量空間表征,最后通過(guò)全連接網(wǎng)絡(luò)來(lái)建模2個(gè)表征的匹配.同樣地,卷積神經(jīng)張量網(wǎng)絡(luò)(convolutional neural tensor network, CNTN)[59]使用卷積神經(jīng)網(wǎng)絡(luò)得到2個(gè)文本的表征,不同的是,交互函數(shù)使用的是張量匹配而不是全鏈接網(wǎng)絡(luò).Socher等人[60]提出了一個(gè)可擴(kuò)展遞歸自編碼器(unfolding recursive antoencoder, uRAE)模型,uRAE首先基于句法分析樹使用遞歸自編碼器為句子構(gòu)建層次化的組合表達(dá),然后通過(guò)不同層次的表達(dá)之間的匹配判斷2個(gè)句子之間的語(yǔ)義關(guān)系.Yin等人[61]提出了一個(gè)MultiGranCNN模型,使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)層次化的句子表達(dá),最后基于不同粒度的表達(dá)之間的交互得到最終的文本匹配得分.
在關(guān)注交互的匹配模型中,其重點(diǎn)在于建模文本內(nèi)部基本單元的交互信號(hào),因此這類模型通常是先構(gòu)建2個(gè)文本(即查詢與文檔)中的單詞交互,這里的交互函數(shù)可以是簡(jiǎn)單的異或函數(shù)、點(diǎn)積函數(shù)、或是余弦函數(shù)等,得到二者的交互矩陣;然后使用深度神經(jīng)網(wǎng)絡(luò)從交互矩陣中逐層抽象得到最終的匹配得分.大量的模型都屬于這一類別,例如在DeepMatch[62]中,文本中的單詞序列通過(guò)主題模型構(gòu)建好單詞的基本交互矩陣,然后使用深度前饋神經(jīng)網(wǎng)絡(luò)來(lái)得到最終匹配得分.在ARC-II[58]中,單詞被映射到詞向量,然后使用拼接函數(shù)得到單詞之間的交互,然后使用深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)捕捉信號(hào)之間的交互最終得到二者的匹配得分.MatchPyramid[63]首先基于詞向量構(gòu)建2個(gè)文本片段匹配矩陣或者張量M,M中的元素值為2個(gè)句子中對(duì)應(yīng)單詞的詞向量的交互得分,在匹配矩陣的基礎(chǔ)上使用卷積神經(jīng)網(wǎng)絡(luò)逐層抽象得到最終的匹配得分.和MatchPyramid類似,Match-SRNN[64]也是先構(gòu)建匹配矩陣M,不同的是,Match-SRNN使用二維循環(huán)神經(jīng)網(wǎng)絡(luò)(2D-GRU)來(lái)捕捉2個(gè)文本片段中的遞歸的匹配模式.
Fig.7 The deep relevance matching model圖7 深度相關(guān)性匹配模型
盡管大量深度匹配模型被剔除并用于文本的匹配,但是這些方法大都是面向2個(gè)同構(gòu)的文本片段之間的匹配,例如復(fù)述問(wèn)題中2個(gè)句子的匹配,即便是針對(duì)信息檢索設(shè)計(jì)的模型DSSM和CDSSM,也是在點(diǎn)擊日志的查詢-標(biāo)題對(duì)上取得較好的效果.然而,對(duì)于像短查詢與長(zhǎng)文檔這類異構(gòu)文本之間的相關(guān)性匹配,目前依然沒有取得太大的進(jìn)展.同時(shí),當(dāng)我們將這些深度匹配模型應(yīng)用在檢索中查詢與文檔的匹配時(shí),發(fā)現(xiàn)其效果比傳統(tǒng)的檢索方法(如BM25和語(yǔ)言模型)更差.針對(duì)這個(gè)問(wèn)題,我們對(duì)檢索問(wèn)題中的相關(guān)性建模進(jìn)行了深入的分析,利用深度學(xué)習(xí)模型,從相關(guān)匹配、相關(guān)決策到相關(guān)感知,不斷深入地建模相關(guān)關(guān)系,提出了一系列的相關(guān)性模型[65-68].
3.2.1 基于匹配的深度相關(guān)性模型
查詢與內(nèi)容的相關(guān)性判定問(wèn)題可以被形式化成2個(gè)文本片段的匹配問(wèn)題.以往的工作將信息檢索中的相關(guān)性匹配問(wèn)題與復(fù)述問(wèn)題、自動(dòng)問(wèn)答和對(duì)話系統(tǒng)等任務(wù)同等對(duì)待,然而,我們認(rèn)為信息檢索中的相關(guān)性匹配與其他自然語(yǔ)言任務(wù)存在顯著的差異.具體地,在傳統(tǒng)的自然語(yǔ)言相關(guān)任務(wù)中,最核心的關(guān)注點(diǎn)是語(yǔ)義匹配,而在信息檢索中重點(diǎn)關(guān)注的是相關(guān)性匹配.語(yǔ)義匹配與相關(guān)性匹配在建模時(shí)有各自完全不同的需求:對(duì)于語(yǔ)義匹配而言,相似度匹配信號(hào)、組合語(yǔ)義以及全局的匹配(例如主題匹配)是其最重要的3個(gè)特性;而對(duì)于相關(guān)性匹配、精確匹配信號(hào)、查詢?cè)~的重要度以及多樣的匹配需求(例如對(duì)于一個(gè)查詢、一篇相關(guān)的文檔可以是全局匹配也可以是局部部分匹配)是其最核心的要素.
針對(duì)上述提出的信息檢索中相關(guān)性匹配的需求,我們提出了一個(gè)深度相關(guān)性匹配模型(deep relevance matching model)[66].具體地,我們的模型包括3個(gè)部分,如圖7所示:1)匹配直方圖映射網(wǎng)絡(luò).這個(gè)網(wǎng)絡(luò)將查詢與文檔內(nèi)容的匹配信號(hào)按信號(hào)強(qiáng)度分成不同的直方圖,從而能直接區(qū)分精確匹配和相似度匹配的信號(hào).2)前饋匹配網(wǎng)絡(luò).這個(gè)網(wǎng)絡(luò)將上一個(gè)網(wǎng)絡(luò)的輸出作為輸入,通過(guò)前饋網(wǎng)絡(luò)來(lái)捕捉多樣的不同層次的匹配需求;最后一個(gè)部分是詞門控網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)對(duì)不同的查詢?cè)~分配不同的重要度.3)融合起來(lái)就得到如圖1所示的最終網(wǎng)絡(luò)模型圖.我們和多個(gè)基準(zhǔn)模型在3個(gè)經(jīng)典的相關(guān)性匹配任務(wù)上進(jìn)行了比較,我們的模型比所有的基準(zhǔn)模型效果都要顯著地好.
3.2.2 基于決策的相關(guān)性模型DeepRank
之前的工作直接建模了用戶信息需求與文本內(nèi)容的相關(guān)匹配關(guān)系,但是進(jìn)一步我們發(fā)現(xiàn)人們對(duì)相關(guān)性的判斷是一個(gè)復(fù)雜的決策過(guò)程,僅僅考慮簡(jiǎn)單的匹配是不足夠的.我們通過(guò)分析人工標(biāo)注相關(guān)性標(biāo)簽的產(chǎn)生過(guò)程,形成對(duì)人們判斷相關(guān)性的主要階段的認(rèn)識(shí),進(jìn)而提出了一個(gè)結(jié)合語(yǔ)義匹配信息、匹配信號(hào)的空間關(guān)系以及匹配信號(hào)的聚合方式,即端到端的相關(guān)性排序深度學(xué)習(xí)模型——DeepRank[67].DeepRank模型啟發(fā)自人工標(biāo)注相關(guān)文檔的過(guò)程,主要分為3個(gè)模塊:相關(guān)區(qū)域檢測(cè)策略、局部相關(guān)性度量網(wǎng)絡(luò)和全局相關(guān)性聚合網(wǎng)絡(luò),具體的模型結(jié)構(gòu)圖如圖8所示:
Fig.8 The DeepRank model圖8 深度排序模型
根據(jù)人工標(biāo)注過(guò)程的理解與眼球跟蹤實(shí)驗(yàn)的結(jié)論,我們發(fā)現(xiàn)人們?cè)谂袛辔臋n相關(guān)性的時(shí)候重點(diǎn)會(huì)關(guān)注關(guān)鍵詞匹配為中心的一個(gè)窗口內(nèi)的文本,所以我們定義相關(guān)區(qū)域?yàn)橐圆樵冺?xiàng)關(guān)鍵詞為中心的一個(gè)文本片段.得到的文本片段數(shù)量相對(duì)于整個(gè)文檔而言已經(jīng)大大精簡(jiǎn),不僅減少了計(jì)算量,也很好地過(guò)濾了長(zhǎng)文檔中的噪聲影響.在這些得到的文檔片段之上,我們采用深度文本匹配的模型MatchPyramid和MatchSRNN,建模查詢項(xiàng)和文檔片段之間的相關(guān)性,我們稱為局部相關(guān)性度量.為了得到全局相關(guān)性的分?jǐn)?shù),需要經(jīng)過(guò)2個(gè)步驟的局部相關(guān)性的聚合:1)在查詢項(xiàng)關(guān)鍵詞級(jí)別的聚合,聚合采用時(shí)序相關(guān)的循環(huán)神經(jīng)網(wǎng)絡(luò),旨在建模不同片段出現(xiàn)的先后順序和重要程度的累計(jì);2)在全局的相關(guān)度聚合,聚合采用門控神經(jīng)網(wǎng)絡(luò),旨在確定各個(gè)查詢項(xiàng)關(guān)鍵詞的重要度.最后我們提出的DeepRank與當(dāng)前的基于特征構(gòu)建的learning to rank方法進(jìn)行了對(duì)比,發(fā)現(xiàn)僅僅用文本內(nèi)容信息的DeepRank模型,已經(jīng)能達(dá)到和超過(guò)利用了文檔重要度等其他特征的learning to rank模型.
3.2.3 基于感知的相關(guān)性模型ViP
在這部分工作組中,我們進(jìn)一步利用深度學(xué)習(xí)模型的強(qiáng)大能力來(lái)直接模擬人看網(wǎng)頁(yè)內(nèi)容、產(chǎn)生相關(guān)性判斷的過(guò)程.具體地,我們直到傳統(tǒng)的排序模型主要是基于學(xué)習(xí)排序(learning to rank, L2R)的思想來(lái)構(gòu)建的,學(xué)習(xí)排序的方法需要對(duì)網(wǎng)頁(yè)和查詢對(duì)構(gòu)建相關(guān)性的特征,目前現(xiàn)有的特征構(gòu)建是先從網(wǎng)頁(yè)中抽取出網(wǎng)頁(yè)的正文內(nèi)容,然后基于正文的內(nèi)容和查詢構(gòu)建相關(guān)性的特征.然而,一個(gè)網(wǎng)頁(yè)是一個(gè)精心設(shè)計(jì)的文檔,其不僅包含重要的文本信息,同時(shí),還包含了豐富的視覺信息.首先,給定一個(gè)網(wǎng)頁(yè),從該網(wǎng)頁(yè)的快照信息中可以看到,一個(gè)高質(zhì)量的網(wǎng)頁(yè)往往具有良好的結(jié)構(gòu)、清晰的布局;而一個(gè)低質(zhì)量的垃圾網(wǎng)頁(yè),通常具有很多漂浮的廣告,布局也比較凌亂.其次,在給定一個(gè)查詢的情況下,一個(gè)整體相關(guān)的網(wǎng)頁(yè),查詢?cè)~通常會(huì)均勻分布在網(wǎng)頁(yè)正文的各個(gè)部分,而一個(gè)相關(guān)度比較低的網(wǎng)頁(yè)、查詢?cè)~可能會(huì)分布在網(wǎng)頁(yè)中比較邊緣的位置(例如廣告區(qū)).
我們提出直接利用網(wǎng)頁(yè)的視覺信息來(lái)進(jìn)行相關(guān)性建模.具體地,給定一個(gè)網(wǎng)頁(yè),我們首先生成該網(wǎng)頁(yè)的快照,網(wǎng)頁(yè)的快照是從原始的網(wǎng)頁(yè)內(nèi)容渲染處理出來(lái)的一個(gè)圖片.網(wǎng)頁(yè)快照包含2種:1)查詢無(wú)關(guān)的,這種快照就是原始的網(wǎng)頁(yè)圖片;2)查詢相關(guān)的網(wǎng)頁(yè)快照,這種快照是在原始網(wǎng)頁(yè)快照的基礎(chǔ)上,將查詢中每個(gè)詞在網(wǎng)頁(yè)快照中高亮出來(lái).基于網(wǎng)頁(yè)的快照,我們提出了一個(gè)視覺感知模型(visual perception model)[68]來(lái)學(xué)習(xí)網(wǎng)頁(yè)的視覺特征,如圖9所示,該模型是模擬人們?cè)诰W(wǎng)頁(yè)上的視覺搜索行為而設(shè)計(jì)的,具體地,給定一個(gè)網(wǎng)頁(yè),人們?yōu)g覽網(wǎng)頁(yè)是呈現(xiàn)F型的瀏覽模式,具有從左到右、從上到下的一個(gè)順序.基于此,我們將網(wǎng)頁(yè)按行切成多個(gè)塊,每個(gè)塊具有和原始網(wǎng)頁(yè)快照相同的寬度,塊的高度則作為一個(gè)可調(diào)節(jié)的超參.針對(duì)每一個(gè)塊,我們使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)獲取該塊的特征;然后使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)對(duì)不同塊的特征進(jìn)行整合得到整個(gè)文檔的視覺特征;最后,通過(guò)視覺感知模型學(xué)習(xí)到的特征可以和傳統(tǒng)的文本相關(guān)的特征拼接起來(lái)輸入到全連接的網(wǎng)絡(luò)中,得到最終查詢和網(wǎng)頁(yè)的相關(guān)度.同時(shí),針對(duì)該視覺感知模型,我們改進(jìn)了原始倒排索引,用以支持快速的網(wǎng)頁(yè)快照檢索,具體地,我們?cè)谠嫉牡古潘饕?,針?duì)每一個(gè)文檔id,我們不僅存儲(chǔ)了原始的網(wǎng)頁(yè)內(nèi)容,同時(shí)也存儲(chǔ)了網(wǎng)頁(yè)的快照,除此以外,我們還存儲(chǔ)了該倒排索引詞在快照中出現(xiàn)的位置,可以在網(wǎng)頁(yè)快照中快速地渲染查詢?cè)~的信息.我們和多個(gè)基準(zhǔn)模型在2個(gè)經(jīng)典的相關(guān)性匹配的任務(wù)上進(jìn)行了比較,實(shí)驗(yàn)效果得到了顯著的提升.
Fig.9 Visual perception model圖9 視覺感知模型
信息檢索技術(shù)的研究已經(jīng)有很長(zhǎng)的歷史,傳統(tǒng)的檢索框架已經(jīng)進(jìn)入到了相對(duì)成熟的階段,但是隨著數(shù)據(jù)規(guī)模、復(fù)雜程度的不斷增大,人們對(duì)信息獲取手段更加智能的期望也越來(lái)也強(qiáng)烈,這對(duì)已有的信息檢索框架提出了全新的挑戰(zhàn),也為這個(gè)領(lǐng)域的技術(shù)革新提供了契機(jī).我們有幸參與到這個(gè)歷程中,并通過(guò)多年的研究取得了一些創(chuàng)新的理論成果.未來(lái),對(duì)于信息內(nèi)容、用戶、檢索過(guò)程、交互方式都有可能產(chǎn)生全新的定義,通過(guò)引入全新的機(jī)器學(xué)習(xí)技術(shù)(例如深度學(xué)習(xí)技術(shù)和強(qiáng)化學(xué)習(xí)技術(shù)),我們有可能帶來(lái)搜索體系全新的變革,讓信息檢索變得更智能、更高效以及更無(wú)所不在.