面向個(gè)性化站點(diǎn)的用戶檢索意圖建模方法

2018-03-19 02:44:49張瑞芳郭克華

計(jì)算機(jī)工程與應(yīng)用 2018年6期

關(guān)鍵詞：排序文本用戶

張瑞芳，郭克華，2

1.中南大學(xué)信息科學(xué)與工程學(xué)院，長(zhǎng)沙410083

2.南京理工大學(xué)高維信息智能感知與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室，南京210094

面向個(gè)性化站點(diǎn)的用戶檢索意圖建模方法

張瑞芳1，郭克華1，2

1.中南大學(xué)信息科學(xué)與工程學(xué)院，長(zhǎng)沙410083

2.南京理工大學(xué)高維信息智能感知與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室，南京210094

CNKI網(wǎng)絡(luò)出版：2017-03-16,http://kns.cnki.net/kcms/detail/11.2127.TP.20170316.1528.032.html

1 引言

近年來(lái)，個(gè)性化Web站點(diǎn)，如高校網(wǎng)站、政府網(wǎng)站、中小型企業(yè)網(wǎng)站等，在互聯(lián)網(wǎng)上發(fā)揮著越來(lái)越重要的作用。與大型Web網(wǎng)站相比，個(gè)性化站點(diǎn)的關(guān)注點(diǎn)一般以內(nèi)容為主，在網(wǎng)站建設(shè)與維護(hù)中常忽略搜索算法的優(yōu)化。用戶在瀏覽這些站點(diǎn)時(shí)，可能耗費(fèi)更多時(shí)間和精力來(lái)得到符合自己檢索意圖的結(jié)果。因此，如何為個(gè)性化站點(diǎn)提供一種檢索優(yōu)化方法，使其能為用戶提供更加優(yōu)質(zhì)的檢索服務(wù)，成為個(gè)性化站點(diǎn)檢索研究的一個(gè)重要問題。

目前，商用搜索引擎公司如谷歌等始終致力于搜索引擎算法的優(yōu)化[1]，來(lái)預(yù)測(cè)用戶搜索意圖，保證用戶搜索結(jié)果的質(zhì)量，取得了一定的成果。文獻(xiàn)[2]將用戶查詢意圖分為導(dǎo)航類、信息類和事務(wù)類三種。文獻(xiàn)[3]通過分析用戶搜索上下文猜測(cè)其檢索意圖。文獻(xiàn)[4-5]將查詢結(jié)果分類后讓用戶粗略選擇，并以此為依據(jù)對(duì)結(jié)果再提取。文獻(xiàn)[6]提出，Web日志中可能隱含用戶檢索意圖，因此，可以通過分析Web日志得到用戶歷史模型。文獻(xiàn)[7]通過分析瀏覽器的公共查詢?nèi)罩竞陀脩魝€(gè)人查詢活動(dòng)來(lái)理解用戶意圖。

但是，由于商業(yè)原因，以上這些方法未廣泛應(yīng)用于個(gè)性化站點(diǎn)的優(yōu)化。針對(duì)此問題，研究者提出了很多對(duì)個(gè)性化站點(diǎn)的優(yōu)化方法。文獻(xiàn)[8]提出一種針對(duì)小型機(jī)構(gòu)的網(wǎng)站服務(wù)器模型，采用了Top-k關(guān)鍵詞有機(jī)搜索、相似關(guān)鍵詞搜索和圖像搜索的優(yōu)化技術(shù)。文獻(xiàn)[9]通過挖掘用戶訪問日志，建立反饋相似度模型，利用該模型訓(xùn)練用戶訪問日志，指導(dǎo)搜索結(jié)果排序。文獻(xiàn)[10]針對(duì)新聞網(wǎng)站，從用戶的瀏覽日志中提取上下文相關(guān)特征，然后訓(xùn)練一個(gè)Logistic回歸模型來(lái)預(yù)測(cè)用戶的查詢內(nèi)容。但是，現(xiàn)有這些優(yōu)化方法中有的是基于站點(diǎn)的建設(shè)初期對(duì)網(wǎng)站設(shè)計(jì)方案的研究，而不是對(duì)已投入運(yùn)行的個(gè)性化站點(diǎn)的優(yōu)化；有的則需要訓(xùn)練數(shù)據(jù)模型，存在冷啟動(dòng)及日志增量不易處理等問題。目前，對(duì)于個(gè)性化站點(diǎn)搜索策略優(yōu)化問題的研究仍處于起步階段。個(gè)性化站點(diǎn)的文本檢索通常僅以用戶提交的關(guān)鍵詞為查詢依據(jù)，較少考慮用戶檢索意圖。

關(guān)鍵詞提取[11]和文本排序是個(gè)性化站點(diǎn)搜索優(yōu)化的兩大重要問題。目前，有很多方法可以有效提取

關(guān)鍵詞：（1）基于統(tǒng)計(jì)的方法，該方法通過統(tǒng)計(jì)詞語(yǔ)的頻率判定其權(quán)重，典型代表為交叉信息熵算法（TFIDF）[12]。文獻(xiàn)[13]基于基尼指數(shù)原理提出一種改進(jìn)的TFIDF特征選擇算法，文獻(xiàn)[14]提出一種基于信息增益與信息熵的TFIDF改進(jìn)算法。（2）基于語(yǔ)義的方法[15-16]，該方法用詞語(yǔ)的語(yǔ)義特征提取關(guān)鍵詞。文獻(xiàn)[17]提出基于詞匯鏈的關(guān)鍵詞提取方法。基于語(yǔ)義的方法從語(yǔ)義的角度考慮詞語(yǔ)權(quán)重，但它難以很好地解決同義詞冗余等問題。（3）基于機(jī)器學(xué)習(xí)的方法[18]，如貝葉斯分類器[19]和基于SVM的方法[20]。該方法屬于機(jī)器學(xué)習(xí)范疇，需要大量訓(xùn)練數(shù)據(jù)。（4）基于文檔網(wǎng)絡(luò)的方法，它將一篇文檔映射成詞語(yǔ)網(wǎng)絡(luò)。代表性算法有TextRank[21]和復(fù)雜網(wǎng)絡(luò)算法[22]。但是，TextRank算法忽略了詞語(yǔ)本身的重要性，復(fù)雜網(wǎng)絡(luò)算法僅考慮單一文檔。

文本排序旨在使查詢結(jié)果順序更加合理且符合用戶意圖。引入文本表示模型，并計(jì)算文本間相似度，可以對(duì)文本進(jìn)行排序。常見的文本表示模型有：（1）布爾檢索模型[23]：以布爾邏輯為基礎(chǔ)，對(duì)詞語(yǔ)進(jìn)行嚴(yán)格匹配。但由于邏輯表達(dá)式過于嚴(yán)格，容易導(dǎo)致漏檢；且沒有計(jì)算詞語(yǔ)權(quán)重，從而返回了大量無(wú)序文本。（2）概率模型[24]：該模型考慮了詞語(yǔ)與文本間的內(nèi)在聯(lián)系，但忽略了詞語(yǔ)在文檔中的頻率。（3）向量空間模型[25]應(yīng)用簡(jiǎn)單的數(shù)學(xué)方法將文本內(nèi)容量化成空間向量。

考慮個(gè)性化站點(diǎn)網(wǎng)頁(yè)結(jié)構(gòu)簡(jiǎn)單的特點(diǎn)，本文通過充分分析用戶與服務(wù)器交互過程中的訪問行為，從中挖掘出用戶意圖模型。該模型采用結(jié)合交叉信息熵和詞語(yǔ)特征信息的關(guān)鍵詞提取方法以及結(jié)合余弦相似度和加權(quán)海明距離的文本排序方法。它首先從用戶瀏覽的網(wǎng)頁(yè)中提取出關(guān)鍵詞集并建立意圖模型，然后將新關(guān)鍵詞集作為查詢條件重新檢索，最后對(duì)檢索結(jié)果重新排序，從而為用戶提供更加符合用戶檢索意圖的結(jié)果。該方法不要求用戶進(jìn)行額外的反饋操作，在用戶正常檢索時(shí)可以實(shí)現(xiàn)用戶意圖的即時(shí)建模過程。

2 基本框架

個(gè)性化站點(diǎn)的檢索模式通常為將用戶輸入的查詢條件與數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行匹配，得到查詢結(jié)果列表。而一般情況下，用戶只輸入簡(jiǎn)短的詞語(yǔ)作為查詢條件，這樣就導(dǎo)致在該模式下的檢索結(jié)果濫而不準(zhǔn)，用戶則需要耗費(fèi)更多的時(shí)間和精力于通過查看鏈接的詳細(xì)信息來(lái)查找目標(biāo)結(jié)果。

因此，利用本文提出的檢索模式，以現(xiàn)有個(gè)性化站點(diǎn)為應(yīng)用對(duì)象，為其提供關(guān)鍵詞提取和文本排序兩個(gè)功能，能夠使個(gè)性化站點(diǎn)為用戶推薦更加符合檢索意圖的結(jié)果。具體流程如圖1所示。

圖1 基于用戶意圖檢索系統(tǒng)流程圖

個(gè)性化站點(diǎn)網(wǎng)頁(yè)訪問路徑命名規(guī)則普遍單一化，同一站點(diǎn)中同類型內(nèi)容網(wǎng)頁(yè)采用相同的訪問路徑構(gòu)造方法。因此，可據(jù)此對(duì)用戶訪問的網(wǎng)頁(yè)進(jìn)行過濾，當(dāng)用戶瀏覽信息類網(wǎng)頁(yè)（非導(dǎo)航類網(wǎng)頁(yè)）時(shí)，系統(tǒng)可利用過濾器獲取該網(wǎng)頁(yè)訪問路徑并通過爬蟲得到用戶想要訪問的網(wǎng)頁(yè)信息?；陉P(guān)鍵詞提取和文本排序的用戶意圖檢索方法以該交互文本為前提，對(duì)該文本中的信息進(jìn)行分析，此文本在一定程度上包含了用戶希望獲得的信息。

將從用戶與個(gè)性化站點(diǎn)服務(wù)器交互中提取的文本信息記為T，對(duì)T進(jìn)行分析。用結(jié)合交叉信息熵和詞語(yǔ)特征信息算法對(duì)T進(jìn)行關(guān)鍵詞提取，得到關(guān)鍵詞集K={(ki,w(ki))|1≤i≤M}，其中，M表示集合K中元素個(gè)數(shù)，ki表示K中第i個(gè)關(guān)鍵詞，w(ki)表示ki的權(quán)重值。構(gòu)造用戶意圖模型U=[w1,w2,…,wM]，其中，U是由K中M個(gè)關(guān)鍵詞的權(quán)重值降序排列形成的矩陣向量。

由于K中包含了用戶檢索意圖，因此，以K作為檢索條件在搜索引擎中進(jìn)行二次檢索，從而得到檢索結(jié)果集Ts={ti|1≤i≤H}，其中，ti表示Ts中第i個(gè)文本信息，H表示Ts中文本個(gè)數(shù)。為Ts中的文本建立向量空間模型Ti=[w1,w2,…,wM]。通過計(jì)算Ti與U之間的向量空間距離Sim(U,Ti)對(duì)Ts排序，從而將更加符合用戶意圖的結(jié)果顯示在靠前部分，提升用戶體驗(yàn)。

3 實(shí)現(xiàn)方案

3.1 關(guān)鍵詞提取算法

關(guān)鍵詞提取部分采用結(jié)合交叉信息熵和詞語(yǔ)特征信息的方法計(jì)算關(guān)鍵詞權(quán)重，已有前人對(duì)該方法進(jìn)行過類似研究，但未曾應(yīng)用于此場(chǎng)景。

用戶所瀏覽網(wǎng)頁(yè)可以反映其興趣方向，因此，利用該網(wǎng)頁(yè)中的文本信息可以建立用戶意圖模型。關(guān)鍵詞提取過程如圖2所示。

文獻(xiàn)[26]中的NLPIR分詞系統(tǒng)在分詞方面能夠取得較好效果，但它在提取關(guān)鍵詞時(shí)采用的是交叉信息熵算法，較少考慮詞語(yǔ)特征信息，因此，本文同時(shí)考慮詞語(yǔ)特征信息和交叉信息熵來(lái)決定關(guān)鍵詞權(quán)重。

對(duì)于詞的特征信息，可以考慮以下方面：（1）詞頻權(quán)重；（2）詞性因子權(quán)重；（3）詞位置權(quán)重；（4）詞跨度權(quán)重。具體定義如下：

（1）詞頻權(quán)重（F）

其中，freq(ki)表示詞語(yǔ)ki在T中的頻率。

（2）詞性因子權(quán)重（P）

其中，p(ki)表示詞語(yǔ)ki的詞性，noun表示名詞，verb表示動(dòng)詞，others表示其他詞性。

（3）詞位置權(quán)重（L）

表示若詞語(yǔ)ki位于標(biāo)題位置，則將L(ki)賦值為0.5。

（4）詞跨度權(quán)重（S）

其中，last(ki)、first(ki)分別表示詞語(yǔ)ki最后一次和第一次出現(xiàn)在T中的位置，N表示T分詞后詞語(yǔ)的總數(shù)。

已知利用網(wǎng)絡(luò)爬蟲技術(shù)抓取文本信息T，需要從T中提取關(guān)鍵詞集K，并建立用戶意圖模型U。具體過程如下：

步驟1利用NLPIR分詞系統(tǒng)從文本T中提取初始關(guān)鍵詞集K1={(k1i,w1(k1i))|1≤i≤R}，其中，w1的值等于詞語(yǔ)k1i的交叉信息熵值TFIDF(ki)。并保留由NLPIR系統(tǒng)分析計(jì)算得到的關(guān)鍵詞的p(ki)、freq(ki)和TFIDF(ki)。

步驟2計(jì)算K1={(k1i,w1(k1i))|1≤i≤R}中各關(guān)鍵詞的綜合權(quán)重值w(ki)，得到K2={(ki,w(ki))|1≤i≤R}。k2i的綜合權(quán)重值計(jì)算公式如下：

其中，a、b、c、d、e分別為各特征權(quán)重的比例系數(shù)，用來(lái)調(diào)節(jié)不同特征權(quán)重對(duì)于綜合權(quán)重的重要程度，此公式中，設(shè)置各比例系數(shù)為：a=1.5,b=1.1,c=0.8,d=1.0,e=0.8。TFIDF(ki)已由步驟1計(jì)算得到。

步驟3父串子串過濾。為消除同一關(guān)鍵詞重復(fù)提取和父串子串共現(xiàn)問題，采用如下算法：

算法1父串子串過濾

輸入：由步驟2計(jì)算所得K2={(k2i,w(k2i))|1≤i≤R}。

輸出：過濾后的關(guān)鍵詞集K={(ki,w(ki))|1≤i≤M}。

圖2 關(guān)鍵詞提取過程

步驟4按降序?qū)螷中關(guān)鍵詞的w值排序，得到向量U=[w1,w2,…,wM]，即為用戶意圖模型。

3.2 結(jié)果集排序算法

本模型中，把利用關(guān)鍵詞提取算法提取出的K中的Q(1≤Q≤M)個(gè)元素作為重新檢索的條件在該搜索引擎中重新檢索，得到Ts={ti|1≤i≤H}，采用上述方法計(jì)算每個(gè)文本的特征向量Ti=[wt1,wt2,…,wtM]。然后采用余弦相似性與加權(quán)海明距離相結(jié)合的方法計(jì)算Ts中每個(gè)文本與U的相似度大小Sim(U,Ti)。Ti與U的余弦相似度計(jì)算公式如下：

U中的特征值按降序排列，而余弦相似性方法未考慮不同關(guān)鍵詞的重要性差異，為此，本文采用加權(quán)海明距離算法來(lái)彌補(bǔ)該不足點(diǎn)。加權(quán)海明距離指按照關(guān)鍵詞作用不同，在海明距離基礎(chǔ)上添加合適的權(quán)值，然后對(duì)不同關(guān)鍵詞的權(quán)值進(jìn)行求和計(jì)算。不同位置關(guān)鍵詞的距離權(quán)值定義為：

本文中計(jì)算兩個(gè)文本空間向量的加權(quán)海明距離算法如下：

算法2加權(quán)海明距離

輸入：用戶意圖模型U=[w1,w2,…,wM]，文本Ti的特征向量Ti=[wt1,wt2,…,wtM]。

輸出：用戶意圖模型與文本Ti的加權(quán)海明距離dis(U,Ti)。

利用以下公式計(jì)算U與Ti的最終相似度值Sim(U,Ti)：

其中，p1、p2為比例系數(shù)，并取p1=p2=1.0。

將集合Ts中的所有文本按Sim(U,Ti)降序排列并返回給用戶，從而實(shí)現(xiàn)基于用戶意圖檢索的建模過程。

3.3 系統(tǒng)模塊化

由于不同個(gè)性化站點(diǎn)采用不同的開發(fā)技術(shù)，且擁有各自的系統(tǒng)框架，如果將本文中基于用戶檢索意圖建模方法分別在不同個(gè)性化站點(diǎn)實(shí)現(xiàn)，可能會(huì)導(dǎo)致大量的代碼修改或增加。因此，本文提出將該方法進(jìn)行模塊化處理，網(wǎng)站開發(fā)者只需進(jìn)行少量配置和代碼增加就可以實(shí)現(xiàn)個(gè)性化站點(diǎn)搜索性能的優(yōu)化。模塊結(jié)構(gòu)圖如圖3所示。

圖3 模塊包圖

利用該模塊對(duì)個(gè)性化站點(diǎn)進(jìn)行優(yōu)化的步驟如下：

步驟1將mainpackage包和nlpir包放入工程中。

步驟2在工程中添加過濾器并在web.xml中配置。

步驟3新建一個(gè)web頁(yè)面用于顯示推薦結(jié)果。

該模塊的時(shí)間成本包括三個(gè)因素：（1）對(duì)每個(gè)文本進(jìn)行關(guān)鍵詞提取，并構(gòu)造特征向量Ti，時(shí)間復(fù)雜度為O(H)。（2）計(jì)算Ti(1≤i≤H)與U之間的相似度Sim(U,Ti)，時(shí)間復(fù)雜度為O(H)。（3）根據(jù)Sim(U,Ti)對(duì)Ts排序，采用快速排序算法，時(shí)間復(fù)雜度為O(HlgH)～O(H2)。

4 性能測(cè)試與評(píng)價(jià)

4.1 實(shí)驗(yàn)設(shè)置

為驗(yàn)證本文中基于用戶意圖檢索模型的有效性，實(shí)驗(yàn)選取若干個(gè)性化站點(diǎn)測(cè)試效果，并以典型站點(diǎn)（http：//news.csu.edu.cn/）為例說明。實(shí)驗(yàn)抓取了典型站點(diǎn)中32 236條數(shù)據(jù)作為測(cè)試數(shù)據(jù)集，該站點(diǎn)主要提供校內(nèi)新聞，抓取的測(cè)試數(shù)據(jù)中，包含學(xué)校要聞、綜合新聞、領(lǐng)導(dǎo)論壇等20余個(gè)專題，每個(gè)專題爬取約1 000個(gè)對(duì)應(yīng)的網(wǎng)頁(yè)，網(wǎng)頁(yè)內(nèi)容主要包括新聞的標(biāo)題、內(nèi)容及發(fā)布時(shí)間等信息。

系統(tǒng)開發(fā)和運(yùn)行環(huán)境如下：（1）PC（Personal Computer）版本為微軟系列（CPU為Intel?CoreTMi5-3470，3.20 GHz，內(nèi)存為8.00 GB，操作系統(tǒng)為Windows 10）。（2）服務(wù)器配置：使用Oracle 11g數(shù)據(jù)庫(kù)和Tomcat 7.0 Web服務(wù)器。（3）實(shí)驗(yàn)過程使用Java語(yǔ)言實(shí)現(xiàn)，開發(fā)環(huán)境為MyEclipse 10.7。

4.2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)1結(jié)合交叉信息熵和詞語(yǔ)特征信息計(jì)算綜合權(quán)重時(shí)交叉信息熵比例系數(shù)e的設(shè)定對(duì)檢索結(jié)果的影響。

在對(duì)用戶所瀏覽網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行分析時(shí)，依據(jù)詞語(yǔ)的綜合權(quán)重值大小從中提取關(guān)鍵詞，而公式（5）中系數(shù)e的設(shè)定直接影響提取結(jié)果（系數(shù)a、b、c、d均已確定）。本實(shí)驗(yàn)分別統(tǒng)計(jì)公式（5）中系數(shù)e設(shè)置為0.5～1.5時(shí)檢索結(jié)果中Top40提取精度，得到圖4所示的統(tǒng)計(jì)結(jié)果。比較對(duì)象如下：

方法1采用本文所描述的算法，結(jié)合交叉信息熵和詞語(yǔ)特征信息計(jì)算關(guān)鍵詞權(quán)重。

方法2只根據(jù)交叉信息熵算法提取關(guān)鍵詞。

圖4 交叉信息熵系數(shù)e不同時(shí)的查準(zhǔn)率

由圖4可知，當(dāng)系數(shù)e設(shè)置較小時(shí)，平均查準(zhǔn)率較低，當(dāng)e值達(dá)到0.8時(shí)，平均查準(zhǔn)率達(dá)到最優(yōu)狀態(tài)，而隨著e值增大，平均查準(zhǔn)率逐漸降低并趨于一定值。這是由于當(dāng)系數(shù)e值較小時(shí)，交叉信息熵對(duì)綜合權(quán)重值影響小，詞語(yǔ)的特征信息作為綜合權(quán)重值計(jì)算的主導(dǎo)，當(dāng)系數(shù)e較大時(shí)，則與上述情況相反。而當(dāng)兩者對(duì)綜合權(quán)重值的貢獻(xiàn)達(dá)到最佳狀態(tài)時(shí)，能夠得到最高平均查準(zhǔn)率。同時(shí)，從圖4可以得出，本文結(jié)合詞語(yǔ)特征信息和交叉信息熵計(jì)算關(guān)鍵詞綜合權(quán)重的方法優(yōu)于文獻(xiàn)[26]中的交叉信息熵算法，并有效地提高了原網(wǎng)站的查準(zhǔn)率。

實(shí)驗(yàn)2算法1（父串子串過濾算法）對(duì)檢索結(jié)果的影響。

為了測(cè)試本文中過濾算法的有效性，以不同的查詢?cè)~作為檢索條件，統(tǒng)計(jì)檢索結(jié)果Top40的提取精度。此時(shí)，將系數(shù)e設(shè)置為0.8。比較使用和不使用父串子串過濾規(guī)則時(shí)的檢索查準(zhǔn)率。比較對(duì)象如下：

方法1使用本文提出的父串子串過濾規(guī)則。

方法2不使用父串子串過濾規(guī)則。

從圖5可知，在多數(shù)檢索情況下，使用父串子串過濾規(guī)則時(shí)的查準(zhǔn)率更高。這是因?yàn)楫?dāng)檢索關(guān)鍵詞數(shù)量一定時(shí)，若存在的父串、子串的詞語(yǔ)組合過多，會(huì)嚴(yán)重影響檢索結(jié)果的查全率，進(jìn)而影響查準(zhǔn)率。因此，采用一種有效的父串子串過濾規(guī)則來(lái)適當(dāng)減少該類組合占用的關(guān)鍵詞資源，對(duì)提高檢索結(jié)果的查準(zhǔn)率有一定影響。

實(shí)驗(yàn)3采用算法2（加權(quán)海明距離算法）對(duì)檢索結(jié)果的影響。

對(duì)查詢結(jié)果排序的目的是將符合用戶檢索意圖的結(jié)果排在前面。本實(shí)驗(yàn)通過采用不同向量空間距離計(jì)算方法對(duì)文本排序結(jié)果的對(duì)比，驗(yàn)證本文所采用的文本排序算法的有效性。比較對(duì)象如下：

方法1利用本文提出的結(jié)合余弦相似度與加權(quán)海明距離算法對(duì)文本排序。

方法2利用余弦相似度方法對(duì)文本排序。

方法3利用歐式距離算法對(duì)文本排序。

方法4利用海明距離算法對(duì)文本排序。

方法5利用加權(quán)海明距離對(duì)文本排序。

方法6利用Jaccard距離算法對(duì)文本排序。

由圖6可知，在檢索結(jié)果的Top40中，通過方法1和方法5計(jì)算得到的符合用戶意圖的結(jié)果最多，這是因?yàn)檫@兩種方法比傳統(tǒng)計(jì)算空間向量相似度方法（方法2、方法3和方法6）考慮了更多可能影響計(jì)算結(jié)果的因素，從而使相似度計(jì)算更加精確。通過方法1計(jì)算得到的檢索結(jié)果排序中，符合用戶意圖的結(jié)果排名比方法5更加靠前，原因是僅僅通過計(jì)算兩個(gè)文本向量空間夾角來(lái)衡量它們的相似度還不夠，在該方法基礎(chǔ)上，進(jìn)一步考慮兩個(gè)文本相同關(guān)鍵詞的個(gè)數(shù)及其權(quán)重，從而獲得更好的效果。

圖5 選擇性使用父串子串過濾規(guī)則時(shí)的查準(zhǔn)率

圖6 不同文本排序方法對(duì)檢索結(jié)果的影響

實(shí)驗(yàn)4從K中選取查詢關(guān)鍵詞個(gè)數(shù)Q的確定對(duì)檢索結(jié)果的影響。

本實(shí)驗(yàn)對(duì)從K中所選取查詢關(guān)鍵詞個(gè)數(shù)Q進(jìn)行設(shè)置，統(tǒng)計(jì)檢索關(guān)鍵詞個(gè)數(shù)不同時(shí)系統(tǒng)的平均查準(zhǔn)率。為了測(cè)試關(guān)鍵詞個(gè)數(shù)對(duì)檢索結(jié)果的影響，以1為步長(zhǎng)，將N分別從4取至14，統(tǒng)計(jì)Top40中滿足用戶檢索意圖結(jié)果的個(gè)數(shù)。

由圖7可知，查詢關(guān)鍵詞個(gè)數(shù)Q對(duì)檢索精度存在影響。關(guān)鍵詞個(gè)數(shù)較少時(shí)，檢索的平均查準(zhǔn)率較低，這是因?yàn)殛P(guān)鍵詞個(gè)數(shù)少，不足以全面涵蓋用戶的檢索意圖，導(dǎo)致漏查。關(guān)鍵詞個(gè)數(shù)增多，對(duì)于某一搜索引擎而言，將會(huì)達(dá)到一個(gè)最優(yōu)值，使檢索的平均查準(zhǔn)率最高。而若關(guān)鍵詞個(gè)數(shù)繼續(xù)增加，則發(fā)現(xiàn)平均查準(zhǔn)率將會(huì)下降且最后趨于穩(wěn)定值，原因是過多的關(guān)鍵詞中除了能夠代表用戶意圖的信息外，還會(huì)包含噪聲干擾，導(dǎo)致查準(zhǔn)率下降，但是即使存在這些噪聲干擾，系統(tǒng)仍能夠通過文本相似度計(jì)算將更加符合用戶意圖的結(jié)果排在前面。

圖7 關(guān)鍵詞個(gè)數(shù)對(duì)檢索結(jié)果的影響

實(shí)驗(yàn)5不同數(shù)據(jù)集下參數(shù)的設(shè)置與相關(guān)策略的不同對(duì)檢索結(jié)果的影響。

在上述4個(gè)實(shí)驗(yàn)中，參數(shù)的設(shè)置與相關(guān)策略的采用與否都是針對(duì)前述數(shù)據(jù)信息集進(jìn)行決策的，將該數(shù)據(jù)信息集記為數(shù)據(jù)集1。為研究文中參數(shù)的設(shè)置對(duì)不同搜索引擎檢索精度的影響，本文另采集某一個(gè)性化站點(diǎn)中13 211條數(shù)據(jù)作為數(shù)據(jù)集2進(jìn)行實(shí)驗(yàn)1至實(shí)驗(yàn)4。分別統(tǒng)計(jì)交叉信息熵系數(shù)e、查詢關(guān)鍵詞個(gè)數(shù)Q變化時(shí)以及采用不同向量空間距離計(jì)算方法和父串子串過濾算法時(shí)，檢索結(jié)果中Top40的平均檢索精度，得到如表1和表2所示的結(jié)果。

由表1和表2可知，對(duì)于不同的數(shù)據(jù)集，最佳檢索精度的參數(shù)設(shè)置并不完全相同。由表1可以看到，交叉信息熵系數(shù)e設(shè)置為0.8左右、采用父串子串過濾策略對(duì)于數(shù)據(jù)集1和數(shù)據(jù)集2均可獲得較高平均查準(zhǔn)率，而針對(duì)參數(shù)Q設(shè)置問題，要想得到最優(yōu)查準(zhǔn)率，數(shù)據(jù)集1中應(yīng)設(shè)置為6，而數(shù)據(jù)集2中應(yīng)設(shè)置為7，這是因?yàn)椴煌阉饕娴臋z索策略不同，對(duì)用戶輸入的關(guān)鍵詞處理方式也不同。由表2可以得出，利用方法1進(jìn)行文本排序?qū)τ跀?shù)據(jù)集1和數(shù)據(jù)集2均可得到最佳結(jié)果。

5 結(jié)束語(yǔ)

本文主要針對(duì)中小型搜索引擎檢索效果差的情況，提出了一種基于關(guān)鍵詞提取和文本排序的用戶意圖檢索模型。該模型可實(shí)現(xiàn)一種輕量級(jí)、模塊化、適用于結(jié)構(gòu)簡(jiǎn)單的網(wǎng)站（如高校、新聞?lì)惥W(wǎng)站）的結(jié)果推薦模塊。實(shí)驗(yàn)表明，該方法能夠有效提高搜索引擎的檢索查準(zhǔn)率，具有一定可行性。

但本文中的實(shí)驗(yàn)是在較單一檢索條件下進(jìn)行的，在檢索策略上與真實(shí)網(wǎng)站存在一定差異，所得實(shí)驗(yàn)結(jié)果與在真實(shí)情況下運(yùn)行的結(jié)果可能存在差距；其次，如果兩個(gè)不同的用戶在該方法實(shí)現(xiàn)的場(chǎng)景下進(jìn)行完全相同的操作，他們將得到相同的推薦結(jié)果，未考慮不同用戶的個(gè)體差異而可能導(dǎo)致不同檢索意圖的推測(cè)；此外，本文考慮到該模型的應(yīng)用場(chǎng)景，在提取關(guān)鍵詞和文本排序方面采用的是使用較為廣泛且復(fù)雜度較小的算法，為進(jìn)一步提高結(jié)果的準(zhǔn)確率，有必要在后續(xù)研究中進(jìn)行改進(jìn)。

表1 不同參數(shù)設(shè)置對(duì)不同數(shù)據(jù)集檢索查準(zhǔn)率的影響

表2 不同向量空間距離計(jì)算方法對(duì)不同數(shù)據(jù)集檢索精度的影響

[1] Gudivada V N，Rao D，Paris J.Understanding searchengineoptimization[J].Computer，2015，48（10）：43-52.

[2] BroderA.A taxonomy of Web search[J].ACM SIGIR Forum，2002，36（2）：3-10.

[3]Yu Jie，Liu Fangfang.Mining user context based on interactive computing for personalized Web search[C]//2010 2nd International Conference on Computer Engineering and Technology，2010：209-214.

[4] Tang Xiaoou，Liu Ke，Cui Jingyu，et al.IntentSearch：Capturing user intention for one-click Internet image search[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2012，34（7）：1342-1353.

[5] Guo Kehua，Zhang Ruifang，Zhou Zhurong，et al.Combined Retrieval：A convenient and precise approach for Internet image retrieval[J].Information Sciences，2016，358（9）：151-163.

[6] Ravi B，Rajender N.Automatic recommendation of Web pages for online users using Web usage mining[C]//2012 International Conference on Computing Sciences，2012：371-374.

[7] Shang Yue，Ding Wanying，Liu Mengwen，et al.Scalable user Intent mining using a multimodal restricted boltzmann machine[C]//2015 International Conference on Computing，Networking and Communications，2015：618-624.

[8] Chung P，Chung S，Hui C.A web server design using search engine optimization techniques for web intelligence for small organizations[C]//IEEE Long Island Systems，Applications and Technology Conference，2012：1-6.

[9] 潘明遠(yuǎn)，方金云，章立生.基于用戶反饋的POI搜索引擎優(yōu)化研究[J].計(jì)算機(jī)工程與應(yīng)用，2010，46（32）：112-115.

[10] 張驍逸，蘇宇，晏小輝.基于用戶瀏覽日志的上下文相關(guān)新聞推薦[J].計(jì)算機(jī)工程與應(yīng)用，2016，52（22）：99-104.

[11] Wang Zhijuan，F(xiàn)eng Yinghui.F2N-Rank：Domain keywords extraction algorithm[J].Metallurgical and Mining Industry，2015，7（9）：225-230.

[12] Wang Jingyu，Zhao Weiyan.Research on parallelizing the TFIDF algorithm based on Hadoop[J].Computer Engineering and Science，2014，36（6）：1018-1022.

[13] Yang Chengcheng，He Xingshi.A text feature selection algorithm based on improved TFIDF[C]//2008 Chinese Conference on Pattern Recognition（CCPR’08），2008：1-2.

[14] Li Xueming，Li Hairui，Xue Liang，et al.TFIDF algorithm based on information gain and information entropy[J].Computer Engineering，2012，38（8）：37-40.

[15] 姜芳，李國(guó)和，岳翔，等.基于語(yǔ)義的文檔關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用研究，2015，32（1）：142-145.

[16] Guo Kehua，Pan Wei，Lu Mingming，et al.An effective and economical architecture for semantic-based heterogeneous multimedia big data retrieval[J].Journal of Systems and Software，2015，102（4）：207-216.

[17] 劉端陽(yáng)，王良芳.基于語(yǔ)義詞典和詞匯鏈的關(guān)鍵詞提取算法[J].浙江工業(yè)大學(xué)學(xué)報(bào)，2013，41（5）：545-551.

[18] Sarkar K，Nasipuri M，Ghose S.Machine learning based keyphrase extraction：Comparing decision trees，Na?ve Bayes，and artificial neural networks[J].Journal of Information Processing Systems，2012，8（4）：693-712.

[19] Rabia I，Sharifullah K，Ali M Q，et al.Refining Kea++automatic keyphrase assignment[J].Journal of Information Science，2014，40（4）：446-459.

[20] Xu Ruifeng，Gui Lin，Xu Jun，et al.Cross lingual opinionholderextractionbasedonmulti-kernelSVMs and transfer learning[J].World Wide Web，2015，18（2）：299-316.

[21] Li Peng，Wang Bin，Shi Zhiwei，et al.Tag-TextRank：A webpage keyword extraction method based on tags[J].Journal of Computer Research and Development，2012，49（11）：2344-2351.

[22] Nan Jiangxia，Xiao Bo，Lin Zhiqing，et al.Keywords extraction from Chinese document based on complex network theory[C]//2014 7th International Symposium on Computational Intelligence and Design，2015，2：383-386.

[23] Arash H L，F(xiàn)ereshteh M，Vahid G.A boolean model in information retrieval for search engines[C]//2009 International Conference on Information Management and Engineering（ICIME’09），2009：385-389.

[24] Takafumi N.Semantic context-dependent weighting for vector space model[C]//2014 IEEE International Conference on Semantic Computing（ICSC），2014：262-266.

[25] 胡堰，彭啟民，胡曉惠，等.一種基于隱語(yǔ)義概率模型的個(gè)性化Web服務(wù)推薦方法[J].計(jì)算機(jī)研究與發(fā)展，2014，51（8）：1781-1793.

[26] 張華平.NLPIR/ICTCLAS2014分詞系統(tǒng)開發(fā)文檔[EB/OL].（2014）.http：//ICTCLAS.nlpir.org.

ZHANG Ruifang,GUO Kehua.Novel retrieval intention modeling method for personalized website.Computer Engineering andApplications,2018,54（6）：37-43.

ZHANG Ruifang1,GUO Kehua1，2

1.School of Information Science&Engineering,Central South University,Changsha 410083,China
2.Key Laboratory of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education,Nanjing University of Science and Technology,Nanjing 210094,China

Personalized website rarely considers user’s search intention in retrieval process.To recommend more satisfactory results without any user feedback in personalized website retrieval,this paper proposes a keyword extraction method combining the cross entropy with word feature information,and a text ranking method assembling the cosine similarity with weighted Hamming distance.Firstly,web page text content is obtained from the requested personalized website by filtering the web page address.Secondly,based on the obtained text content,keywords which can reflect user’s retrieval intention are extracted.Thirdly,user’s intention vector model is constructed and a re-retrieval process is performed by calling the main search engine.Finally,the similarity between the user’s intention model and the re-retrieved records is computed,and the results sorted by the similarity values are returned to user.Experimental results show that the proposed method can reflect the user’s query intention and provide a notably convenient user experience.

personalized website;user intention;query recommendation;information retrieval

針對(duì)個(gè)性化站點(diǎn)較少考慮用戶檢索意圖的問題，提出結(jié)合交叉信息熵和詞語(yǔ)特征信息的關(guān)鍵詞提取方法以及結(jié)合余弦相似度和加權(quán)海明距離的文本排序方法，旨在不需要用戶任何反饋的條件下，為用戶推薦更滿意的檢索結(jié)果。通過過濾用戶請(qǐng)求個(gè)性化站點(diǎn)時(shí)的訪問地址，獲取用戶瀏覽的網(wǎng)頁(yè)文本內(nèi)容，從中提取能夠表示用戶檢索意圖的關(guān)鍵詞集進(jìn)行重新檢索后對(duì)檢索結(jié)果排序，最后將排序后的結(jié)果作為推薦模塊返回給用戶。實(shí)驗(yàn)表明，利用該方法獲得的查詢推薦結(jié)果能夠更加符合用戶檢索意圖，提供更好的用戶體驗(yàn)。

個(gè)性化站點(diǎn)；用戶意圖；查詢推薦；信息檢索

2016-11-07

2017-01-03

1002-8331（2018）06-0037-07

TP391

10.3778/j.issn.1002-8331.1611-0108

國(guó)家自然科學(xué)基金（No.61672535）；高維信息智能感知與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室創(chuàng)新基金（No.JYB201502）；湖南省普通高校青年教師培養(yǎng)計(jì)劃；中南大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)（No.2016zzts351）；中南大學(xué)創(chuàng)新驅(qū)動(dòng)計(jì)劃（No.2015CXS010）；中南大學(xué)升華育英計(jì)劃專項(xiàng)。

張瑞芳（1992—），女，碩士生，主要研究方向?yàn)槎嗝襟w檢索；郭克華（1980—），通訊作者，男，副教授，主要研究方向?yàn)槎嗝襟w檢索、普適計(jì)算。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向個(gè)性化站點(diǎn)的用戶檢索意圖建模方法

1 引言

2 基本框架

3 實(shí)現(xiàn)方案

3.1 關(guān)鍵詞提取算法

3.2 結(jié)果集排序算法

3.3 系統(tǒng)模塊化

4 性能測(cè)試與評(píng)價(jià)

4.1 實(shí)驗(yàn)設(shè)置

4.2 實(shí)驗(yàn)結(jié)果與分析

5 結(jié)束語(yǔ)