亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于神經(jīng)網(wǎng)絡(luò)的搜索引擎模型構(gòu)建研究

2020-03-07 06:35:28

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2020年2期

（廣東理工學(xué)院廣東 526100）

根據(jù)資料顯示到2015年底我國搜索引擎用戶數(shù)量達(dá)到5.66億之多，精明的商家在龐大的數(shù)字背后找到了巨大商業(yè)信息。因此，在學(xué)術(shù)界和業(yè)界，搜索引擎都引起了人們極高的關(guān)注。很多學(xué)者都希望得到一種適用的關(guān)于搜索引擎結(jié)果相關(guān)度的計(jì)算方法，以往的幾種大家都常用的方法有：利用互聯(lián)網(wǎng)群體智慧來改善搜索結(jié)果相關(guān)度估計(jì)的方法、TF 多，精明等統(tǒng)計(jì)方法、利用用戶與搜索引擎的交互行為出發(fā)的建模分析方法等。但是隨著交互技術(shù)的出現(xiàn)和發(fā)展，搜索引擎的界面結(jié)果呈現(xiàn)異質(zhì)化趨勢和二維模塊展現(xiàn)形式，這些傳統(tǒng)的方法都無法完全描述和分析真實(shí)的搜索引擎的界面結(jié)果的拓?fù)浣Y(jié)構(gòu)。本文就是希望建立一個(gè)多模態(tài)結(jié)果來彌補(bǔ)這個(gè)缺陷，利用神經(jīng)網(wǎng)絡(luò)框架，在搜索查詢詞和文本類型結(jié)果之間引入一個(gè)多模態(tài)的相似性函數(shù)，讓一個(gè)表征形式為矩陣樣式的來表達(dá)它們之間的相關(guān)性。

圖1 搜索引擎結(jié)果頁面異質(zhì)化結(jié)果

本次實(shí)驗(yàn)有兩個(gè)任務(wù)，分別是：（1）建立模型，能描述異質(zhì)展現(xiàn)形式結(jié)果和二維排布結(jié)果；（2）用戶的點(diǎn)擊行為能把搜索引擎的圖片和文本相關(guān)信息放在同一個(gè)空間并且能進(jìn)行相關(guān)性比較。

1 前期工作

1.1 行為模型

用戶的行為模型是指用戶從開始搜索到結(jié)束搜索之間檢驗(yàn)的行為模型，一般用戶是通過點(diǎn)擊來實(shí)現(xiàn)。這種行為模型是建立在文檔被點(diǎn)擊需要同時(shí)滿足兩個(gè)相互獨(dú)立的假設(shè)之上的，這兩個(gè)獨(dú)立的假設(shè)是：（1）該文檔被用戶瀏覽過，（2）該文檔與查詢詞相關(guān)。在實(shí)驗(yàn)中我們用，Ci=1 表示第i條結(jié)果被用戶點(diǎn)擊，Ei=1 表示第i條結(jié)果被用戶瀏覽檢驗(yàn)過，Ri=1 表示第i條結(jié)果與查詢詞相關(guān)，符號“→”來表示滿足某前提條件，則以上兩個(gè)假設(shè)可以用如下公式進(jìn)行如下表達(dá)：

CI=1→EI=1，Ri=1 Ei=0→Ci=0

Ri=0→CI=0

如果以P（Ri=1）＝ru來表示觀測相關(guān)性的概率，則文檔被用戶點(diǎn)擊的概率可以用下面公式表示：

P(CI=1)=P(Ei=1)P（Ri=1）

級聯(lián)模型就是基于點(diǎn)擊的模型，在使用過程中該模型的有效性有些許欠缺。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模進(jìn)行了改進(jìn)，它是把搜索結(jié)果摘要造成的展現(xiàn)偏置也包括在里面的點(diǎn)擊模型，這個(gè)模型考慮了實(shí)際相關(guān)性和察覺相關(guān)性。Wang 等人是把文本信息和用戶行為信息結(jié)合起來考慮的點(diǎn)擊模型，這種模型結(jié)果較前幾種就更有效。現(xiàn)在部分學(xué)者除了考慮結(jié)果位置的之外，還把點(diǎn)擊的順序也考慮了進(jìn)去，這種方法應(yīng)該比前面就更加精準(zhǔn)的預(yù)測性能。

1.2 文本處理方法

對于數(shù)據(jù)文本的處理方法，在以前的研究中具有代表性的有salakhutdi-nov和Hinton 等人的利用深度網(wǎng)絡(luò)的改進(jìn)版LSA模型，其原理是使用自動(dòng)編碼

器學(xué)習(xí)到的瓶頸特征，而且它主要是用在信息檢索方面。有Huang和Shen 主張的框架構(gòu)建系列模型，其原理是把查詢詞和結(jié)果組合放到同一個(gè)空間里面，用相關(guān)度來衡量它們間的距離。等等這些方法在完成搜索任務(wù)時(shí)也取得了很好的效果，但由于用戶的搜索的復(fù)雜多變，想要擴(kuò)展它們的模型就變得有點(diǎn)困難。后來又有了Liu 等人的廣告推廣搜索，其原理是通過點(diǎn)擊預(yù)測把模型中的多種元素的輸入樣的局部關(guān)鍵特征提取出來，并且把文本信息也加以考慮進(jìn)去。Zhang 等人采用了遞歸神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊預(yù)測框架，其原理是通過建模進(jìn)行為廣告推廣搜索而設(shè)計(jì)。Severyn 等人利用深度學(xué)習(xí)框架，用于對短文本進(jìn)行排序，對查詢詞建立一個(gè)矩陣。

1.3 圖片處理方法

對于圖片的處理常用的方法有Krizhevsky 等人的卷積神經(jīng)網(wǎng)絡(luò)模型，其原理是利用框架中對神經(jīng)元使用非飽和、非線性的激活函數(shù)使得對圖片的處理速度更快。Lin 等人建立了以自然語言問題和圖片的卷積神經(jīng)網(wǎng)絡(luò)框架，形成一個(gè)整體模型卷積神經(jīng)網(wǎng)絡(luò)框架。Wan等人建立了深度卷積神經(jīng)網(wǎng)絡(luò)框架，它可以直接從大規(guī)模的圖片數(shù)據(jù)中提取圖片的特征，從而得到高質(zhì)量的語義信息。本次實(shí)驗(yàn)采取了卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型的框架，它把查詢詞文本信息、結(jié)果文本信息、垂直結(jié)果圖片信息和用戶行為結(jié)合起來進(jìn)行了考慮。對比前面的方法，本次采用的方式主要優(yōu)點(diǎn)有：同時(shí)把點(diǎn)擊概率，結(jié)果的相關(guān)度和用戶的檢驗(yàn)信息結(jié)合起來；把文本信息、圖片信息和用戶的行為信息進(jìn)行結(jié)合起來；能把從搜索返回結(jié)果進(jìn)行排序研究。

2 基于神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型的構(gòu)建

本次實(shí)驗(yàn)采取的模型框架是能夠把神經(jīng)網(wǎng)絡(luò)與用戶行為信息相結(jié)合起來，然后再把它們放在連接層和隱層進(jìn)行聚合的，其模型框架如圖2。

2.1 輸入層

查閱了很多資料和以前的實(shí)驗(yàn)，本次采用了選擇詞向量來生成句子矩陣的方法。在實(shí)驗(yàn)工作中，使用了一個(gè)開源工具，在一個(gè)知名的商業(yè)搜索引擎中進(jìn)行了實(shí)驗(yàn)，把獲得的詞向量數(shù)據(jù)集，以100 維位單位詞向量的維度。圖片矩陣采用了縱向拼接的方法，這樣就把圖片的由原來的三維降到了兩維，灰度圖就用一個(gè)實(shí)數(shù)來表示一個(gè)像素點(diǎn)。

2.2 卷積層

利用卷積層來對文本和圖片進(jìn)行采樣，從中提取一些有用的有效特征。方法是利用寬卷積來計(jì)算文本和圖片的矩陣，其后還加上了一個(gè)非線性的激活函數(shù)并且可以計(jì)算卷積層輸出的元素。為了結(jié)果的正確，本次實(shí)驗(yàn)計(jì)算中還加了修正線性單元f(x)=max(0，x)來激活卷積層輸出元素。

圖2 基于神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊模型框架

2.3 池化層和相似度計(jì)算層

本次實(shí)驗(yàn)采用了常用的效果較好的最大值池化操作方法，這樣做是為了獲得更好的點(diǎn)擊模型和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合效果。在輸入層中我們把文本信息和圖片信息以向量的形式展示出來了，這樣就可以計(jì)算查詢詞和文本、圖片結(jié)果之間的相似度，由Bordes 等人提出的方法公式，就可以得到如下的向量間的相似度和相互影響程度公式：

其中xq為搜索查詢詞對應(yīng)的向量，xdi為搜索引擎結(jié)果頁面第i條結(jié)果標(biāo)題內(nèi)容對應(yīng)的向量，xpi為圖片垂直結(jié)果中的第i 張圖片內(nèi)容對應(yīng)的向量，M是相關(guān)性矩陣（計(jì)算過程中會(huì)不斷更新）。

2.4 全連接層和隱層

全連接層把所有的中間向量（包括點(diǎn)擊模型得到的加入模型的框架中用戶行為信息、查詢詞與圖片對應(yīng)的向量和兩者之間的相似度分?jǐn)?shù)）都串聯(lián)了起來。在隱層里面把全連接層得出的向量進(jìn)行交互，其計(jì)算公式為：

α（ωh×xjoint+b）

其中ωh是隱層的權(quán)重向量，α（）是非線性變換。經(jīng)過這一步后，向量就傳遞給點(diǎn)擊模型層，在點(diǎn)擊模型層生成最終的點(diǎn)擊預(yù)測概率[3]。

2.5 點(diǎn)擊模型層

點(diǎn)擊模型層由兩部分節(jié)點(diǎn)組成，一部分可以用于檢驗(yàn)，另一部分為相關(guān)度。檢驗(yàn)概率和相關(guān)度通過函數(shù)sigmod 得到，把特征輸入如下公式通過計(jì)算得到：

公式中，xc表示查詢詞、結(jié)果標(biāo)題文本、圖片的信息特征，xm表示由傳統(tǒng)點(diǎn)擊模型得到的特征，θc，'，θm，'是為了結(jié)合所有特征值的權(quán)重參數(shù)，λ與λ′是為了平衡內(nèi)容影響和點(diǎn)擊模型特征影響的權(quán)重參數(shù)。

3 實(shí)驗(yàn)過程及結(jié)果與討論

3.1 實(shí)驗(yàn)過程

本次實(shí)驗(yàn)采用了概率圖來模擬點(diǎn)擊模型框架，通過點(diǎn)擊概率預(yù)測得分來評估點(diǎn)擊模型的性能。該值越低就表示該概率分布對于預(yù)測結(jié)果越準(zhǔn)確，本次用到的公式如下：

公式中，Perplexityi是第i個(gè)結(jié)果位置的預(yù)測點(diǎn)擊概率分?jǐn)?shù)，N是所有的會(huì)話數(shù)量，Ci是實(shí)際用戶在這個(gè)位置的點(diǎn)擊情況，Pi是模型預(yù)測的這個(gè)位置的點(diǎn)擊情況。我們的取值為實(shí)驗(yàn)數(shù)據(jù)的平均值。實(shí)驗(yàn)數(shù)據(jù)如表1。

表1 實(shí)驗(yàn)數(shù)據(jù)

3.2 結(jié)果與討論

本次實(shí)驗(yàn)，文本類信息結(jié)果的向量用100 維為基本維數(shù)，對于一些大規(guī)格的圖片進(jìn)行了技術(shù)性的壓縮，輸入采用三原色表示法。從實(shí)驗(yàn)數(shù)據(jù)可以得到，在性能上只有文本信息的模型比包含文本和圖片結(jié)果兩種信息的模型要高，使用全零圖片比使用實(shí)際圖片預(yù)測結(jié)果要好，實(shí)驗(yàn)還表明用不同的表示方法也能得出不同的結(jié)果，部分實(shí)驗(yàn)結(jié)果如圖3。

圖3 實(shí)際圖片輸入與全零操作模型性能對比

4 總結(jié)與未來工作

本次實(shí)驗(yàn)是利用深度神經(jīng)網(wǎng)絡(luò)和點(diǎn)擊模型信息的框架對現(xiàn)在常用的搜索引擎進(jìn)行研究，找出它們之間的相關(guān)性。我們實(shí)驗(yàn)結(jié)果也表明框架比點(diǎn)擊模型在各方面都有所提高。但是由于信息的復(fù)雜多變性，即便是深度神經(jīng)網(wǎng)絡(luò)的框架也很難把文本信息間建立起十分強(qiáng)的相關(guān)性關(guān)系。

在未來實(shí)驗(yàn)中，一定要對圖片采取更加靈活更加適合的特征提取方法，像現(xiàn)在剛發(fā)現(xiàn)的白化操作降低輸入數(shù)據(jù)的冗余信息。對于圖片將會(huì)再進(jìn)行二維模塊瀏覽點(diǎn)擊行為實(shí)驗(yàn)，以尋求它們之間的相關(guān)性。