(廣東理工學(xué)院 廣東 526100)
根據(jù)資料顯示到2015年底我國搜索引擎用戶數(shù)量達(dá)到5.66億之多,精明的商家在龐大的數(shù)字背后找到了巨大商業(yè)信息。因此,在學(xué)術(shù)界和業(yè)界,搜索引擎都引起了人們極高的關(guān)注。很多學(xué)者都希望得到一種適用的關(guān)于搜索引擎結(jié)果相關(guān)度的計(jì)算方法,以往的幾種大家都常用的方法有:利用互聯(lián)網(wǎng)群體智慧來改善搜索結(jié)果相關(guān)度估計(jì)的方法、TF 多,精明等統(tǒng)計(jì)方法、利用用戶與搜索引擎的交互行為出發(fā)的建模分析方法等。但是隨著交互技術(shù)的出現(xiàn)和發(fā)展,搜索引擎的界面結(jié)果呈現(xiàn)異質(zhì)化趨勢和二維模塊展現(xiàn)形式,這些傳統(tǒng)的方法都無法完全描述和分析真實(shí)的搜索引擎的界面結(jié)果的拓?fù)浣Y(jié)構(gòu)。本文就是希望建立一個(gè)多模態(tài)結(jié)果來彌補(bǔ)這個(gè)缺陷,利用神經(jīng)網(wǎng)絡(luò)框架,在搜索查詢詞和文本類型結(jié)果之間引入一個(gè)多模態(tài)的相似性函數(shù),讓一個(gè)表征形式為矩陣樣式的來表達(dá)它們之間的相關(guān)性。
圖1 搜索引擎結(jié)果頁面異質(zhì)化結(jié)果
本次實(shí)驗(yàn)有兩個(gè)任務(wù),分別是:(1)建立模型,能描述異質(zhì)展現(xiàn)形式結(jié)果和二維排布結(jié)果;(2)用戶的點(diǎn)擊行為能把搜索引擎的圖片和文本相關(guān)信息放在同一個(gè)空間并且能進(jìn)行相關(guān)性比較。
用戶的行為模型是指用戶從開始搜索到結(jié)束搜索之間檢驗(yàn)的行為模型,一般用戶是通過點(diǎn)擊來實(shí)現(xiàn)。這種行為模型是建立在文檔被點(diǎn)擊需要同時(shí)滿足兩個(gè)相互獨(dú)立的假設(shè)之上的,這兩個(gè)獨(dú)立的假設(shè)是:(1)該文檔被用戶瀏覽過,(2)該文檔與查詢詞相關(guān)。在實(shí)驗(yàn)中我們用,Ci=1 表示第i條結(jié)果被用戶點(diǎn)擊,Ei=1 表示第i條結(jié)果被用戶瀏覽檢驗(yàn)過,Ri=1 表示第i條結(jié)果與查詢詞相關(guān),符號“→”來表示滿足某前提條件,則以上兩個(gè)假設(shè)可以用如下公式進(jìn)行如下表達(dá):
CI=1→EI=1,Ri=1 Ei=0→Ci=0
Ri=0→CI=0
如果以P(Ri=1)=ru來表示觀測相關(guān)性的概率,則文檔被用戶點(diǎn)擊的概率可以用下面公式表示:
P(CI=1)=P(Ei=1)P(Ri=1)
級聯(lián)模型就是基于點(diǎn)擊的模型,在使用過程中該模型的有效性有些許欠缺。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模進(jìn)行了改進(jìn),它是把搜索結(jié)果摘要造成的展現(xiàn)偏置也包括在里面的點(diǎn)擊模型,這個(gè)模型考慮了實(shí)際相關(guān)性和察覺相關(guān)性。Wang 等人是把文本信息和用戶行為信息結(jié)合起來考慮的點(diǎn)擊模型,這種模型結(jié)果較前幾種就更有效。現(xiàn)在部分學(xué)者除了考慮結(jié)果位置的之外,還把點(diǎn)擊的順序也考慮了進(jìn)去,這種方法應(yīng)該比前面就更加精準(zhǔn)的預(yù)測性能。
對于數(shù)據(jù)文本的處理方法,在以前的研究中具有代表性的有salakhutdi-nov和Hinton 等人的利用深度網(wǎng)絡(luò)的改進(jìn)版LSA模型,其原理是使用自動(dòng)編碼
器學(xué)習(xí)到的瓶頸特征,而且它主要是用在信息檢索方面。有Huang和Shen 主張的框架構(gòu)建系列模型,其原理是把查詢詞和結(jié)果組合放到同一個(gè)空間里面,用相關(guān)度來衡量它們間的距離。等等這些方法在完成搜索任務(wù)時(shí)也取得了很好的效果,但由于用戶的搜索的復(fù)雜多變,想要擴(kuò)展它們的模型就變得有點(diǎn)困難。后來又有了Liu 等人的廣告推廣搜索,其原理是通過點(diǎn)擊預(yù)測把模型中的多種元素的輸入樣的局部關(guān)鍵特征提取出來,并且把文本信息也加以考慮進(jìn)去。Zhang 等人采用了遞歸神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊預(yù)測框架,其原理是通過建模進(jìn)行為廣告推廣搜索而設(shè)計(jì)。Severyn 等人利用深度學(xué)習(xí)框架,用于對短文本進(jìn)行排序,對查詢詞建立一個(gè)矩陣。
對于圖片的處理常用的方法有Krizhevsky 等人的卷積神經(jīng)網(wǎng)絡(luò)模型,其原理是利用框架中對神經(jīng)元使用非飽和、非線性的激活函數(shù)使得對圖片的處理速度更快。Lin 等人建立了以自然語言問題和圖片的卷積神經(jīng)網(wǎng)絡(luò)框架,形成一個(gè)整體模型卷積神經(jīng)網(wǎng)絡(luò)框架。Wan等人建立了深度卷積神經(jīng)網(wǎng)絡(luò)框架,它可以直接從大規(guī)模的圖片數(shù)據(jù)中提取圖片的特征,從而得到高質(zhì)量的語義信息。本次實(shí)驗(yàn)采取了卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型的框架,它把查詢詞文本信息、結(jié)果文本信息、垂直結(jié)果圖片信息和用戶行為結(jié)合起來進(jìn)行了考慮。對比前面的方法,本次采用的方式主要優(yōu)點(diǎn)有:同時(shí)把點(diǎn)擊概率,結(jié)果的相關(guān)度和用戶的檢驗(yàn)信息結(jié)合起來;把文本信息、圖片信息和用戶的行為信息進(jìn)行結(jié)合起來;能把從搜索返回結(jié)果進(jìn)行排序研究。
本次實(shí)驗(yàn)采取的模型框架是能夠把神經(jīng)網(wǎng)絡(luò)與用戶行為信息相結(jié)合起來,然后再把它們放在連接層和隱層進(jìn)行聚合的,其模型框架如圖2。
查閱了很多資料和以前的實(shí)驗(yàn),本次采用了選擇詞向量來生成句子矩陣的方法。在實(shí)驗(yàn)工作中,使用了一個(gè)開源工具,在一個(gè)知名的商業(yè)搜索引擎中進(jìn)行了實(shí)驗(yàn),把獲得的詞向量數(shù)據(jù)集,以100 維位單位詞向量的維度。圖片矩陣采用了縱向拼接的方法,這樣就把圖片的由原來的三維降到了兩維,灰度圖就用一個(gè)實(shí)數(shù)來表示一個(gè)像素點(diǎn)。
利用卷積層來對文本和圖片進(jìn)行采樣,從中提取一些有用的有效特征。方法是利用寬卷積來計(jì)算文本和圖片的矩陣,其后還加上了一個(gè)非線性的激活函數(shù)并且可以計(jì)算卷積層輸出的元素。為了結(jié)果的正確,本次實(shí)驗(yàn)計(jì)算中還加了修正線性單元f(x)=max(0,x)來激活卷積層輸出元素。
圖2 基于神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型框架
本次實(shí)驗(yàn)采用了常用的效果較好的最大值池化操作方法,這樣做是為了獲得更好的點(diǎn)擊模型和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合效果。在輸入層中我們把文本信息和圖片信息以向量的形式展示出來了,這樣就可以計(jì)算查詢詞和文本、圖片結(jié)果之間的相似度,由Bordes 等人提出的方法公式,就可以得到如下的向量間的相似度和相互影響程度公式:
其中xq為搜索查詢詞對應(yīng)的向量,xdi為搜索引擎結(jié)果頁面第i條結(jié)果標(biāo)題內(nèi)容對應(yīng)的向量,xpi為圖片垂直結(jié)果中的第i 張圖片內(nèi)容對應(yīng)的向量,M是相關(guān)性矩陣(計(jì)算過程中會(huì)不斷更新)。
全連接層把所有的中間向量(包括點(diǎn)擊模型得到的加入模型的框架中用戶行為信息、查詢詞與圖片對應(yīng)的向量和兩者之間的相似度分?jǐn)?shù))都串聯(lián)了起來。在隱層里面把全連接層得出的向量進(jìn)行交互,其計(jì)算公式為:
α(ωh×xjoint+b)
其中ωh是隱層的權(quán)重向量,α()是非線性變換。經(jīng)過這一步后,向量就傳遞給點(diǎn)擊模型層,在點(diǎn)擊模型層生成最終的點(diǎn)擊預(yù)測概率[3]。
點(diǎn)擊模型層由兩部分節(jié)點(diǎn)組成,一部分可以用于檢驗(yàn),另一部分為相關(guān)度。檢驗(yàn)概率和相關(guān)度通過函數(shù)sigmod 得到,把特征輸入如下公式通過計(jì)算得到:
公式中,xc表示查詢詞、結(jié)果標(biāo)題文本、圖片的信息特征,xm表示由傳統(tǒng)點(diǎn)擊模型得到的特征,θc,',θm,'是為了結(jié)合所有特征值的權(quán)重參數(shù),λ與λ′是為了平衡內(nèi)容影響和點(diǎn)擊模型特征影響的權(quán)重參數(shù)。
本次實(shí)驗(yàn)采用了概率圖來模擬點(diǎn)擊模型框架,通過點(diǎn)擊概率預(yù)測得分來評估點(diǎn)擊模型的性能。該值越低就表示該概率分布對于預(yù)測結(jié)果越準(zhǔn)確,本次用到的公式如下:
公式中,Perplexityi是第i個(gè)結(jié)果位置的預(yù)測點(diǎn)擊概率分?jǐn)?shù),N是所有的會(huì)話數(shù)量,Ci是實(shí)際用戶在這個(gè)位置的點(diǎn)擊情況,Pi是模型預(yù)測的這個(gè)位置的點(diǎn)擊情況。我們的取值為實(shí)驗(yàn)數(shù)據(jù)的平均值。實(shí)驗(yàn)數(shù)據(jù)如表1。
表1 實(shí)驗(yàn)數(shù)據(jù)
本次實(shí)驗(yàn),文本類信息結(jié)果的向量用100 維為基本維數(shù),對于一些大規(guī)格的圖片進(jìn)行了技術(shù)性的壓縮,輸入采用三原色表示法。從實(shí)驗(yàn)數(shù)據(jù)可以得到,在性能上只有文本信息的模型比包含文本和圖片結(jié)果兩種信息的模型要高,使用全零圖片比使用實(shí)際圖片預(yù)測結(jié)果要好,實(shí)驗(yàn)還表明用不同的表示方法也能得出不同的結(jié)果,部分實(shí)驗(yàn)結(jié)果如圖3。
圖3 實(shí)際圖片輸入與全零操作模型性能對比
本次實(shí)驗(yàn)是利用深度神經(jīng)網(wǎng)絡(luò)和點(diǎn)擊模型信息的框架對現(xiàn)在常用的搜索引擎進(jìn)行研究,找出它們之間的相關(guān)性。我們實(shí)驗(yàn)結(jié)果也表明框架比點(diǎn)擊模型在各方面都有所提高。但是由于信息的復(fù)雜多變性,即便是深度神經(jīng)網(wǎng)絡(luò)的框架也很難把文本信息間建立起十分強(qiáng)的相關(guān)性關(guān)系。
在未來實(shí)驗(yàn)中,一定要對圖片采取更加靈活更加適合的特征提取方法,像現(xiàn)在剛發(fā)現(xiàn)的白化操作降低輸入數(shù)據(jù)的冗余信息。對于圖片將會(huì)再進(jìn)行二維模塊瀏覽點(diǎn)擊行為實(shí)驗(yàn),以尋求它們之間的相關(guān)性。