亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bi-LSTM和分布式表示的網(wǎng)頁(yè)主題相關(guān)度計(jì)算

        2018-07-25 11:21:40蔡?hào)|風(fēng)王鐵錚
        關(guān)鍵詞:實(shí)驗(yàn)模型

        王 鋒 白 宇 蔡?hào)|風(fēng) 王鐵錚

        (沈陽(yáng)航空航天大學(xué)計(jì)算機(jī)學(xué)院 遼寧 沈陽(yáng) 110136) (遼寧省知識(shí)工程與人機(jī)交互工程技術(shù)研究中心 遼寧 沈陽(yáng) 110136)

        0 引 言

        計(jì)算網(wǎng)頁(yè)主題和特定主題的相關(guān)度能輔助技術(shù)人員在海量的互聯(lián)網(wǎng)數(shù)據(jù)中發(fā)現(xiàn)與特定主題相關(guān)的網(wǎng)頁(yè)。目前最普遍的相關(guān)度計(jì)算的模型是向量空間模型[1](VSM),而最典型的向量空間模型是Bag-of-Words,因?yàn)樗邆浜?jiǎn)單性、有效性和經(jīng)常令人驚奇的準(zhǔn)確性。該方法以文本中的詞作為特征項(xiàng)形成向量表示,并且特征權(quán)重以詞的TF-IDF值的形式表示。盡管Bag-of-Words經(jīng)常被使用,但它有兩個(gè)主要缺點(diǎn):一是失去了詞的順序,二是忽略了詞的語(yǔ)義。當(dāng)詞的順序丟失時(shí),不同的句子可以具有完全相同的表示,只要使用相同的詞即可。即使n-grams在短時(shí)間內(nèi)考慮了單詞順序,它也受到數(shù)據(jù)稀疏和高維度的影響。Bag-of-Words和Bag-of-n-Gram對(duì)于這些詞的語(yǔ)義或單詞之間的距離幾乎沒(méi)有意義。這意味著“高鐵”、“動(dòng)車”和“沈陽(yáng)”同樣遙遠(yuǎn),盡管語(yǔ)義上“高鐵”應(yīng)該比“沈陽(yáng)”更接近“動(dòng)車”。

        本文綜合現(xiàn)有方法的優(yōu)缺點(diǎn),提出一種基于雙向LSTM[2]和分布式表示的網(wǎng)頁(yè)主題相關(guān)度計(jì)算方法。首先將查詢關(guān)鍵詞通過(guò)分布式表示和雙向LSTM表示成向量形式,然后在詞向量空間中找出與其語(yǔ)義上相近的詞,并將其添加到查詢關(guān)鍵詞中,再將搜索到的網(wǎng)頁(yè)通過(guò)基于文檔的分布式表示方法形成網(wǎng)頁(yè)向量與主題關(guān)鍵詞進(jìn)行相關(guān)度計(jì)算。本文將上述方法實(shí)現(xiàn)并在搜狗實(shí)驗(yàn)室公開(kāi)的測(cè)試數(shù)據(jù)集上進(jìn)行了測(cè)試。

        1 相關(guān)研究

        1.1 詞的向量表示

        自然語(yǔ)言處理中,將詞的向量表示的最簡(jiǎn)單方法是One-hot 表示方法。其主要思想是將詞形成一個(gè)與詞表長(zhǎng)度一致的稀疏向量,除詞所在維度為1,其余維度都為0。比如:“動(dòng)車”和“高鐵”,“動(dòng)車”表示為[0,0,1,0,0,…,0,…],“高鐵”表示為[0,0,0,0,1,0,…,0,…]。如果采用稀疏方式存儲(chǔ),會(huì)非常簡(jiǎn)單。但“動(dòng)車”和“高鐵”是語(yǔ)義上近似的詞,而這種方法表示出的向量卻無(wú)法反映這點(diǎn)[3]。這種方法存在兩個(gè)缺點(diǎn),一方面是向量的維度會(huì)隨著文本中詞匯數(shù)目的增加而增加;另一方面是任意兩個(gè)詞語(yǔ)都是獨(dú)立存在,沒(méi)有語(yǔ)義層面的表示[4]。

        1.2 相關(guān)度計(jì)算

        早在20世紀(jì)70年代,Salton等就提出來(lái)VSM算法來(lái)計(jì)算文檔間的相似度。VSM是一種簡(jiǎn)單有效的計(jì)算文檔相似度的方法,VSM常采用TF-IDF算法計(jì)算文檔特征詞的權(quán)重,然后將文檔表示成向量形式就可以用余弦公式[5]來(lái)計(jì)算文檔相似度了。但是這種方法丟失了詞序且沒(méi)有考慮詞語(yǔ)背后的語(yǔ)義信息,忽視了詞與詞之間的相似度。人們?yōu)榱烁珳?zhǔn)地計(jì)算文本相似度,提出了一些基于語(yǔ)義的相似度計(jì)算方法,如文獻(xiàn)[6]利用WordNet語(yǔ)義詞典研究局部相關(guān)性信息以此來(lái)確定文本之間的相似性。上述方法采用領(lǐng)域知識(shí)庫(kù)來(lái)構(gòu)建詞語(yǔ)間的語(yǔ)義關(guān)系,與基于統(tǒng)計(jì)學(xué)的方法相比準(zhǔn)確率有提高,但是知識(shí)庫(kù)的建立是一項(xiàng)復(fù)雜而繁瑣的工程,需要耗費(fèi)大量人力。

        網(wǎng)頁(yè)主題相關(guān)度計(jì)算的研究是為了提高特定主題相關(guān)網(wǎng)頁(yè)的發(fā)現(xiàn),隨著研究的深入,研究者們提出來(lái)許多網(wǎng)頁(yè)主題相關(guān)度計(jì)算方法。文獻(xiàn)[7]提出了基于VSM的計(jì)算方法,根據(jù)向量空間模型思想,結(jié)合網(wǎng)頁(yè)結(jié)構(gòu)和概念層次關(guān)系,優(yōu)化網(wǎng)頁(yè)特征和權(quán)重,以提高網(wǎng)頁(yè)主題相關(guān)度計(jì)算的準(zhǔn)確性。綜合上述的網(wǎng)頁(yè)主題相關(guān)度計(jì)算方法的優(yōu)缺點(diǎn),本文提出一種基于雙向LSTM和分布式表示的網(wǎng)頁(yè)主題相關(guān)度計(jì)算方法,通過(guò)將詞的分布式表示應(yīng)用到查詢關(guān)鍵詞擴(kuò)展中,同時(shí)將文檔的分布式表示應(yīng)用到網(wǎng)頁(yè)主題相關(guān)度計(jì)算上,提升了相關(guān)網(wǎng)頁(yè)識(shí)別的精度。

        2 基于雙向LSTM和分布式表示的網(wǎng)頁(yè)主題相關(guān)度計(jì)算

        本文在傳統(tǒng)的VSM的基礎(chǔ)上,在進(jìn)行主題關(guān)鍵擴(kuò)展時(shí)采用了基于雙向LSTM和詞的分布式向量表示的查詢擴(kuò)展方法,在進(jìn)行網(wǎng)頁(yè)主題相關(guān)度計(jì)算時(shí)采用了基于文檔的分布式向量表示的網(wǎng)頁(yè)相關(guān)度計(jì)算方法。

        2.1 分布式表示

        2.1.1 詞的分布式表示

        詞的分布式表示[8]是指將詞表中的詞映射為一個(gè)稠密的、低維的實(shí)值向量,深度學(xué)習(xí)中一般用到的詞向量就是用分布式表示的一種低維實(shí)數(shù)向量。詞的分布式向量表示可以通過(guò)上下文中給出的其他單詞來(lái)預(yù)測(cè)下一個(gè)詞。在分布式表示中,每個(gè)詞被映射到由矩陣W中的列表示的唯一向量,該列通過(guò)詞在詞匯表中的位置進(jìn)行索引。然后將向量的連接或平均值作為特征來(lái)預(yù)測(cè)句子中的下一個(gè)詞。如圖1所示,使用三個(gè)詞(“小明”,“提交”和“一篇”)的上下文來(lái)預(yù)測(cè)第四個(gè)單詞(“論文”)。將輸入詞映射到矩陣W的列以預(yù)測(cè)輸出詞。

        圖1 詞的分布式向量表示的學(xué)習(xí)框架

        訓(xùn)練時(shí),詞向量模型的目的是使平均對(duì)數(shù)概率L如式(1)最大化(分類器是Softmax),其中p(wt|wt-k,…,wt+k)如式(2),y如式(3)所示:

        (1)

        (2)

        y=b+Uh(wt-k,…,wt+k;W)

        (3)

        詞分布式表示的訓(xùn)練方法有很多,Bengio等[9]提出FFNNLM模型(Feed-Forward Neural Net Language Model)可以訓(xùn)練出詞的向量表示形式,不過(guò)FFNNLM并非是專門(mén)用來(lái)訓(xùn)練詞向量的。相比較FFNNLM模型,Word2Vec運(yùn)行速度更快。Word2vec作為一種高效地將詞表示為低維實(shí)數(shù)向量的詞向量工具,使用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)分布式向量表示,每個(gè)單詞由在上下文中與其他單詞向量連接或平均的向量表示,并且所得到的向量用于預(yù)測(cè)上下文中的其他單詞[10]。例如“動(dòng)車”的分布式向量表示為[0.452,-2.194,1.095,2.094,…],“高鐵”的分布式向量表示為[2.831,-1.369,-0.350,-1.202,…]。

        2.1.2 文檔的分布式表示

        文檔的分布式向量表示可以從可變長(zhǎng)度的文本片段(如句子、段落和文檔)中學(xué)習(xí)固定長(zhǎng)度的特征表示,通過(guò)密集的向量表示每個(gè)文檔,該向量被訓(xùn)練來(lái)預(yù)測(cè)文檔中的單詞[11]。文檔的分布式向量表示無(wú)監(jiān)督為文本片段學(xué)習(xí)連續(xù)的分布式向量表示。文本可以是可變長(zhǎng)度,從句子到文檔。即該方法可以應(yīng)用于可變長(zhǎng)度的文本段,從短語(yǔ)或句子到大型文檔的任何內(nèi)容。

        每個(gè)段落被映射到由矩陣D中的列表示的唯一向量,并且每個(gè)單詞也被映射到由矩陣W中的列表示的唯一向量。段落向量記住當(dāng)前上下文中丟失的內(nèi)容或段落的主題,即PV-DM模型如圖2所示。該模型的唯一變化是在式(1)中,其中h由W和D構(gòu)成。算法本身有兩個(gè)關(guān)鍵的階段:第一是訓(xùn)練以獲得已經(jīng)看到的段落的單詞向量W,Softmax權(quán)重U、b和段落向量D。第二是通過(guò)在D中添加更多的列和在D上梯度下降來(lái)獲得新段落的段落向量D,同時(shí)保持W、U、b固定。

        圖2 文檔的分布式向量表示的學(xué)習(xí)框架(PV-DM)

        文檔的分布式向量表示的一個(gè)重要優(yōu)點(diǎn)是它們是從沒(méi)有標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)的,且包含語(yǔ)義信息和詞序。上述方法考慮了段落向量與詞向量的連接以預(yù)測(cè)文本窗口中的下一個(gè)詞。另一種方法是PV-DBOW模型如圖3所示,在給定段落向量的情況下形成一個(gè)分類任務(wù),而不是前面PV-DM模型,在PV-DBOW模型中段落向量被訓(xùn)練以預(yù)測(cè)小窗口中的詞。在本文中,每個(gè)段落向量是兩個(gè)向量的組合:一個(gè)向量是分布式記憶的標(biāo)準(zhǔn)段向量模型(PV- DM模型),一個(gè)向量是沒(méi)有詞序信息的分布式詞袋模型(PV-DBOW模型)。

        圖3 文檔的分布式向量表示學(xué)習(xí)框架(PV-DBOW)

        在進(jìn)行網(wǎng)頁(yè)主題相關(guān)度計(jì)算時(shí)采用文檔的分布式表示即用Doc2Vec[12]生成網(wǎng)頁(yè)的分布式向量表示和主題關(guān)鍵詞計(jì)算網(wǎng)頁(yè)主題相關(guān)度,確定其相關(guān)度閾值φ,由φ來(lái)判斷網(wǎng)頁(yè)是否相關(guān),相似度計(jì)算小于φ的網(wǎng)頁(yè)則認(rèn)為不相關(guān)。

        2.2 雙向LSTM

        詞嵌入(詞的分布式表示)可以在緊湊低維的詞向量表示中捕獲單個(gè)詞的語(yǔ)義和句法信息,但是預(yù)訓(xùn)練的詞嵌入所包含的關(guān)于詞與句子語(yǔ)境作為一個(gè)整體的信息是有限的,多數(shù)都是對(duì)詞窗口內(nèi)的詞有所傾向性的。而雙向RNN尤其是LSTM,適用于在更大范圍的句子語(yǔ)境中學(xué)習(xí)內(nèi)在表示,可以有效學(xué)習(xí)長(zhǎng)句的語(yǔ)境向量。將整個(gè)句子語(yǔ)境和目標(biāo)詞嵌入到同一低維空間,進(jìn)一步優(yōu)化以反映目標(biāo)詞和其整個(gè)句子語(yǔ)境作為整體的內(nèi)部依賴關(guān)系。

        為了從詞周圍可變長(zhǎng)度的句子語(yǔ)境學(xué)習(xí)一個(gè)通用的嵌入函數(shù),如圖4所示,在Word2Vec的CBOW模型中,將它原來(lái)在固定窗口內(nèi)的詞嵌入取平均作為語(yǔ)境模型,替換成一個(gè)更有效的神經(jīng)網(wǎng)絡(luò)模型——雙向LSTM。

        圖4 Word2vec的CBOW模型

        兩個(gè)模型都同時(shí)學(xué)習(xí)語(yǔ)境和目標(biāo)詞的分布式表示,通過(guò)一同嵌入低維向量空間,目的是用上下文語(yǔ)境預(yù)測(cè)目標(biāo)詞,通過(guò)一個(gè)對(duì)數(shù)線性模型。不同的是,雙向LSTM更能有效地捕捉句子語(yǔ)境的本質(zhì)。

        圖5說(shuō)明了雙向LSTM是如何表示句子語(yǔ)境的,把句子中的詞從左到右輸入一個(gè)LSTM,從右往左輸入另一個(gè)LSTM,這兩個(gè)網(wǎng)絡(luò)的參數(shù)是完全分開(kāi)的,包括兩個(gè)獨(dú)立的從左至右和從右至左的語(yǔ)境詞向量。

        給定一個(gè)句子w1:n,我們對(duì)目標(biāo)詞wi的雙向LSTM語(yǔ)境表示定義為以下向量連接:

        biLS(w1:n,i)=lLS(l1:i-1)⊕rLS(rn:i+1)

        (4)

        式中:l/r表示句子中詞的從左到右和從右到左詞嵌入,和標(biāo)準(zhǔn)的雙向LSTM不同,我們并不將目標(biāo)詞wi本身輸入到LSTM中。

        圖5 雙向LSTM

        為表示句子中目標(biāo)詞的語(yǔ)境(例如,“小明 [提交] 畢業(yè) 論文”) ,首先將LSTM輸出的從左到右語(yǔ)境(“小明”)的向量表示和從右到左(“畢業(yè) 論文”)的向量表示連接起來(lái),這樣做的目的是獲得句子語(yǔ)境中的相關(guān)信息,即使有時(shí)它離目標(biāo)詞很遠(yuǎn)。

        接下來(lái),對(duì)左右語(yǔ)境表示的連接使用非線性函數(shù)。

        MLP(x)=L2(ReLU(L1(x)))

        (5)

        式中:MLP代表多層感知機(jī),ReLU[13]是激活函數(shù),Li(x)=Wix+bi是全連接線性操作。將連接后的向量輸入到多層感知機(jī),就可以表示兩側(cè)文本的重要依賴。將此層的輸出作為目標(biāo)詞整個(gè)連接句子語(yǔ)境的嵌入。雙向LSTM和Word2Vec的CBOW模型之間的唯一差別是CBOW模型是對(duì)目標(biāo)詞語(yǔ)境表示為周圍一定窗口內(nèi)語(yǔ)境詞的簡(jiǎn)單平均,雙向LSTM則使用了語(yǔ)境的全句神經(jīng)表示。讓c=(w1,…,wi-1,-,wi+1,…,wn)代表目標(biāo)詞wi的句子語(yǔ)境。目標(biāo)詞及其語(yǔ)境的向量維度相同,語(yǔ)境向量C:

        C=MLP(biLS(w1:n,i))

        (6)

        式中:求和遍歷訓(xùn)練語(yǔ)料中的每一個(gè)詞t和它所對(duì)應(yīng)的句子語(yǔ)境c、σ表示sigmoid函數(shù)[14]。采用word2vec中的負(fù)采樣目標(biāo)函數(shù)如式(7)來(lái)學(xué)習(xí)語(yǔ)境嵌入網(wǎng)絡(luò)的參數(shù)、目標(biāo)詞向量和語(yǔ)境向量??梢愿鶕?jù)詞向量的余弦相似度找出與其語(yǔ)義上相近的詞,在本文中主要是根據(jù)詞的分布式表示和雙向LSTM來(lái)做查詢擴(kuò)展。

        (7)

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 查詢擴(kuò)展實(shí)驗(yàn)

        查詢擴(kuò)展分別是基于詞的分布式表示和雙向LSTM的,詞的分布式表示實(shí)驗(yàn)使用Word2Vec工具,搜狗實(shí)驗(yàn)室公開(kāi)的搜狗全網(wǎng)新聞數(shù)據(jù)作為詞向量訓(xùn)練語(yǔ)料,使用Skip-gram模型訓(xùn)練且訓(xùn)練的窗口大小為5,生成200維的詞向量,基于雙向LSTM的查詢擴(kuò)展實(shí)驗(yàn)使用相同的訓(xùn)練語(yǔ)料生成詞向量。設(shè)計(jì)了三個(gè)實(shí)驗(yàn),實(shí)驗(yàn)1是比較查詢擴(kuò)展詞的個(gè)數(shù)對(duì)檢索性能的影響,得到擴(kuò)展詞后,逐漸增加擴(kuò)展次數(shù),比較檢索結(jié)果;實(shí)驗(yàn)2是比較查詢擴(kuò)展詞的相關(guān)度閾值對(duì)檢索性能的影響,同時(shí)和實(shí)驗(yàn)1的結(jié)果作比較;實(shí)驗(yàn)3是把本文方法和其他查詢擴(kuò)展方法做個(gè)比較。

        為了精確地判定擴(kuò)展查詢結(jié)果的準(zhǔn)確度,用平均準(zhǔn)確率MAP和n位置的準(zhǔn)確率Pn來(lái)評(píng)測(cè)。MAP是所有標(biāo)準(zhǔn)相關(guān)網(wǎng)頁(yè)的所有查詢的AP平均值,檢索到的相關(guān)網(wǎng)頁(yè)位置越靠前,那么MAP值便會(huì)越靠前,如公式所示:

        (8)

        式中:r為標(biāo)準(zhǔn)相關(guān)網(wǎng)頁(yè)數(shù);wi為第i個(gè)相關(guān)網(wǎng)頁(yè);n(wi)為第i個(gè)相關(guān)網(wǎng)頁(yè)的排序。

        Pn是指對(duì)一個(gè)排序結(jié)果,返回前n個(gè)結(jié)果的準(zhǔn)確率。有時(shí)用戶使用搜索引擎時(shí)可能只對(duì)返回的前n個(gè)網(wǎng)頁(yè)感興趣,Pn就是從這樣的角度對(duì)檢索性能進(jìn)行衡量的評(píng)價(jià)標(biāo)準(zhǔn),如公式所示:

        (9)

        式中:n是返回的前n個(gè)網(wǎng)頁(yè),Wn是前n個(gè)網(wǎng)頁(yè)的相關(guān)與否。

        從圖6中可以看出,擴(kuò)展詞數(shù)量在0到6之間時(shí),隨著查詢擴(kuò)展詞數(shù)的增加,檢索性能MAP和Pn都有一定幅度的提高,當(dāng)擴(kuò)展詞數(shù)達(dá)到6時(shí),檢索性能達(dá)到最優(yōu)。當(dāng)擴(kuò)展詞數(shù)達(dá)到6之后。增加擴(kuò)展詞個(gè)數(shù)并沒(méi)有繼續(xù)增加檢索性能,反而性能有一定的下降。由此可見(jiàn),查詢擴(kuò)展詞數(shù)應(yīng)該選擇6的時(shí)候檢索性能最好,太多的話會(huì)引入噪聲。

        圖6 不同擴(kuò)展詞個(gè)數(shù)的實(shí)驗(yàn)結(jié)果

        為了進(jìn)一步驗(yàn)證實(shí)驗(yàn)1,對(duì)查詢擴(kuò)展的相關(guān)度閾值設(shè)置進(jìn)行實(shí)驗(yàn),如圖7所示,當(dāng)查詢擴(kuò)展的相關(guān)度閾值大于0.6時(shí),MAP和Pn的檢索性能達(dá)到最優(yōu),平均閾值為0.6時(shí),檢索性能最優(yōu),這時(shí)的擴(kuò)展詞數(shù)也是接近6,驗(yàn)證了實(shí)驗(yàn)1的查詢擴(kuò)展詞數(shù)。

        圖7 不同相關(guān)度閾值的實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)3是把本文擴(kuò)展方法和其他查詢擴(kuò)展方法做了比較,相同實(shí)驗(yàn)參數(shù)下,查詢擴(kuò)展詞數(shù)為6個(gè)時(shí),基于HowNet[15]語(yǔ)義詞典的查詢擴(kuò)展方法為W1,基于本體和局部共現(xiàn)的查詢擴(kuò)展方法[16]為W2,本文基于雙向LSTM和詞的分布式表示方法為W3,實(shí)驗(yàn)3的平均準(zhǔn)確率和n位置的準(zhǔn)確率如圖8所示。

        圖8 不同擴(kuò)展方法的實(shí)驗(yàn)結(jié)果

        從圖8中可以看出,本文的方法和其他查詢擴(kuò)展方法相比較平均準(zhǔn)確率和n位置的準(zhǔn)確率都有一定的提高。這主要是因?yàn)樵~的分布式表示和雙向LSTM生成的詞向量都包含了語(yǔ)義相關(guān)的信息,同時(shí)也包含了上下文及詞序信息,這使得查詢擴(kuò)展方法的效果有所提升。

        3.2 網(wǎng)頁(yè)主題相關(guān)度計(jì)算實(shí)驗(yàn)

        查詢擴(kuò)展在基于詞分布式表示和雙向LSTM的關(guān)鍵詞擴(kuò)展后得到最終的主題關(guān)鍵詞集合,再做進(jìn)一步的實(shí)驗(yàn)。本文提出的基于分布式表示的網(wǎng)頁(yè)主題相關(guān)度計(jì)算方法在Sogou實(shí)驗(yàn)室的評(píng)測(cè)數(shù)據(jù)中的國(guó)際類、體育類、社會(huì)類和娛樂(lè)類語(yǔ)料上進(jìn)行測(cè)試。文檔的分布式表示實(shí)驗(yàn)采用DBOW模型,訓(xùn)練的窗口大小為8,迭代200次生成200維的文檔向量。

        文檔的分布式表示實(shí)驗(yàn)使用Doc2Vec生成文檔向量計(jì)算網(wǎng)頁(yè)主題相關(guān)度,與查詢擴(kuò)展后基于VSM和LDA[17]的網(wǎng)頁(yè)主題相關(guān)度計(jì)算形成對(duì)比。

        根據(jù)實(shí)驗(yàn)設(shè)定網(wǎng)頁(yè)主題相關(guān)度閾值φ=0.28,計(jì)算查詢關(guān)鍵詞和網(wǎng)頁(yè)的余弦相似度大于φ時(shí),則網(wǎng)頁(yè)與查詢關(guān)鍵詞主題相關(guān),否則不相關(guān)。

        用正確率式(10)、召回率式(11)和F值式(12)來(lái)評(píng)測(cè)分別基于VSM和LDA的網(wǎng)頁(yè)主題相關(guān)度計(jì)算和本文方法的實(shí)驗(yàn)對(duì)比結(jié)果。

        (10)

        (11)

        (12)

        如表1和表2所示為基于VSM、LDA的網(wǎng)頁(yè)主題相關(guān)度計(jì)算在Sogou評(píng)測(cè)數(shù)據(jù)上四類語(yǔ)料上述指標(biāo)下的實(shí)驗(yàn)結(jié)果,表3為本文方法在Sogou評(píng)測(cè)數(shù)據(jù)上四類語(yǔ)料上述指標(biāo)下的實(shí)驗(yàn)結(jié)果。從表中可以看出基于雙向LSTM和分布式表示的網(wǎng)頁(yè)主題相關(guān)度計(jì)算(Bi-LSTM and DP)在準(zhǔn)確率、召回率和F值上相較基于VSM和基于LDA的網(wǎng)頁(yè)主題相關(guān)度計(jì)算都有了明顯的提高,主要是因?yàn)榭紤]了特征詞和文檔在語(yǔ)義層次上的相關(guān),同時(shí)還沒(méi)有丟失詞序的信息。

        表1 基于VSM的網(wǎng)頁(yè)主題相關(guān)度計(jì)算

        表2 基于LDA的網(wǎng)頁(yè)主題相關(guān)度計(jì)算

        表3 基于Bi-LSTM和分布式表示的網(wǎng)頁(yè)主題相關(guān)度計(jì)算

        4 結(jié) 語(yǔ)

        用戶通過(guò)查詢關(guān)鍵詞得到相關(guān)網(wǎng)頁(yè)時(shí),VSM僅從查詢關(guān)鍵詞的詞頻等統(tǒng)計(jì)信息與網(wǎng)頁(yè)進(jìn)行余弦相似度計(jì)算,從而判斷網(wǎng)頁(yè)相關(guān)與否,沒(méi)有考慮到查詢關(guān)鍵詞的語(yǔ)義相關(guān)以及關(guān)鍵詞的上下文語(yǔ)境。本文通過(guò)雙向LSTM和詞的分布式表示來(lái)擴(kuò)展查詢關(guān)鍵詞,對(duì)最終的主題關(guān)鍵詞集合與搜索網(wǎng)頁(yè)進(jìn)行余弦相關(guān)度計(jì)算,得到主題相關(guān)網(wǎng)頁(yè)。本文的查詢擴(kuò)展方法根據(jù)查詢?cè)~的上下文語(yǔ)境可以得到其語(yǔ)義相關(guān)詞,同時(shí)還包含了詞的語(yǔ)序。進(jìn)行余弦相似度計(jì)算時(shí)將文檔的分布式表示應(yīng)用到網(wǎng)頁(yè)主題相關(guān)度計(jì)算上,考慮了網(wǎng)頁(yè)中的段落信息,可以提高主題相關(guān)網(wǎng)頁(yè)計(jì)算的準(zhǔn)確率。

        猜你喜歡
        實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        久久久久久久极品内射| 色婷婷久久99综合精品jk白丝| 国产激情视频在线观看首页| 色婷婷精品久久二区二区蜜臀av| 99精品国产一区二区三区不卡| 国产精品久久久久久久久鸭| 国产成人丝袜在线无码| 国产乱淫h侵犯在线观看| 成人免费无码视频在线网站| 无码午夜人妻一区二区三区不卡视频| 99re6久精品国产首页| 麻豆成人久久精品二区三区免费| 人妻丝袜中文无码av影音先锋专区| 久青草久青草视频在线观看| 欧美日本免费一区二| 亚洲一区二区三区自拍麻豆| 亚洲成a∨人片在线观看无码| 337人体做爰大胆视频| 高清国产美女av一区二区| 亚洲hd高清在线一区二区| 一本久久综合亚洲鲁鲁五月天| 久久久久久久久888| 吃下面吃胸在线看无码| 可以直接在线看国产在线片网址| 国内精品久久久人妻中文字幕| 在线播放国产一区二区三区| 一区二区三区不卡免费av| 午夜大片在线播放观看| 国产盗摄xxxx视频xxxx| 囯产精品无码va一区二区| 国产大片在线观看91| 亚洲三区在线观看内射后入| 99re热这里只有精品最新| 人人妻人人澡av| 国产免费人成视频网站在线18| 丰满少妇三级全黄| 无码人妻系列不卡免费视频| 国产精品高清免费在线| 国产精品白浆在线观看免费| 天天做天天爱天天综合网| 女人一级特黄大片国产精品|