亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶意圖的搜索結(jié)果文本突顯方法

        2020-03-09 01:36:46馬少平
        關(guān)鍵詞:搜索引擎詞語(yǔ)特征

        張 輝, 馬少平

        (清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系; 智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100084)

        用戶根據(jù)自身的信息需求形成查詢意圖,并將查詢意圖通過(guò)關(guān)鍵詞或自然語(yǔ)言的方式提交給搜索引擎;搜索引擎則根據(jù)用戶提交的查詢?cè)~或自然語(yǔ)言,從網(wǎng)絡(luò)上搜集相關(guān)信息整理成與查詢意圖相匹配的搜索引擎結(jié)果頁(yè)面(SERP),每條搜索結(jié)果包含了標(biāo)題、摘要、網(wǎng)址等信息[1].從用戶查詢意圖的形成到用戶提交查詢關(guān)鍵詞的整個(gè)過(guò)程受限于用戶自身的語(yǔ)言特點(diǎn),可能發(fā)生信息模糊、信息丟失或信息冗余等情況,在這種條件下查詢關(guān)鍵詞通常難以充分并準(zhǔn)確地表達(dá)用戶的查詢意圖[2].

        Clarke等[3]提出相關(guān)性間接判定假設(shè),即用戶主要根據(jù)SERP中的結(jié)果標(biāo)題和結(jié)果摘要判斷搜索結(jié)果與用戶查詢的相關(guān)性,繼而決定是否瀏覽/點(diǎn)擊這一搜索結(jié)果.因此, SERP中所展示的搜索結(jié)果是決定用戶搜索交互行為的關(guān)鍵因素.SERP中所展示的搜索結(jié)果給予用戶的最終感受包括內(nèi)容和展現(xiàn)形式兩方面.目前,商用搜索引擎在SERP的展示形式上,通常采用查詢?cè)~突顯(QTH)策略,即通過(guò)變色/加粗等方式突出顯示查詢?cè)~,進(jìn)而達(dá)到吸引用戶注意力的目的.這種策略包含兩個(gè)假設(shè):① 查詢?cè)~是體現(xiàn)用戶查詢信息需求最重要的詞,這一假設(shè)忽略了用戶提交查詢本身的局限性以及用戶意圖和提交查詢?cè)~之間的不一致性;② 搜索引擎的SERP包含合適數(shù)量的查詢?cè)~,這一假設(shè)忽略了結(jié)果摘要的生成方式千差萬(wàn)別,能同時(shí)滿足代表原始網(wǎng)頁(yè)文檔和完美匹配查詢?cè)~這兩個(gè)條件的結(jié)果摘要少之又少.例如,查詢需求為“中秋看望父母,聽說(shuō)喝紅酒對(duì)老年人有好處,想買1瓶千元以內(nèi),適合老年人喝的紅酒”.

        查詢方法1以“老年人紅酒”作為查詢關(guān)鍵詞時(shí),1條SERP中展示的搜索結(jié)果為:老年人可以適當(dāng)飲用葡萄酒,不過(guò)應(yīng)該注意的是,如果老年人有三高癥狀就堅(jiān)決不能喝酒.在給老年人選擇葡萄酒時(shí),應(yīng)盡量選擇酒精含量比較低的干型葡萄酒,避免過(guò)量……

        查詢方法2以自然語(yǔ)言“我想買適合老年人飲用的千元以內(nèi)的紅酒”作為查詢語(yǔ)句時(shí),1條SERP中展示的搜索結(jié)果為:事實(shí)上葡萄酒并非都很貴,很多葡萄酒都是百元以內(nèi)的,甚至四五十塊的紅酒有很多都很好喝.很多適宜日常飲用的葡萄酒,果香豐富,口感順滑,便宜又好喝.……這些拍賣行的葡萄酒拍品,往往是老年份的葡萄酒,市場(chǎng)上比較少見的酒,……事實(shí)上,新世界的酒,以果味新鮮為主,適合盡早飲用,新西蘭不少走自然風(fēng)格……

        查詢方法1的信息量有限,不能充分地表達(dá)用戶的查詢意圖,存在信息模糊及信息丟失現(xiàn)象,如“葡萄酒”、“干紅”這些對(duì)于滿足用戶查詢需求有用的詞語(yǔ)并不會(huì)被突出顯示;查詢方法2使用的查詢語(yǔ)句較長(zhǎng),與目前商業(yè)搜索引擎通常采用的關(guān)鍵詞框架設(shè)計(jì)不一致,存在信息冗余現(xiàn)象,搜索引擎容易把“適合”、“飲用”等這些對(duì)于滿足用戶信息需求不重要的詞語(yǔ)突出顯示.

        在中文語(yǔ)言環(huán)境下,用戶提交的查詢以關(guān)鍵詞查詢?yōu)橹?,查詢往往較短,含有的信息量有限.余慧佳等[4]統(tǒng)計(jì)了查詢?nèi)罩?,發(fā)現(xiàn)有93%的查詢包含不超過(guò)3個(gè)查詢?cè)~,平均長(zhǎng)度為1.85個(gè)詞.因此,當(dāng)用戶提交的查詢?yōu)殛P(guān)鍵詞時(shí),將研究對(duì)象定為SERP的文本突顯策略.同時(shí),考慮到結(jié)果標(biāo)題和結(jié)果摘要在用戶查詢過(guò)程中所承擔(dān)的作用,為了使所研究的問(wèn)題更有針對(duì)性,重點(diǎn)關(guān)注了搜索結(jié)果中結(jié)果摘要的突顯策略.首先基于用戶標(biāo)注的突顯詞,提出一種關(guān)鍵詞突顯策略;然后,基于4種常用的序列標(biāo)注機(jī)器學(xué)習(xí)算法——結(jié)構(gòu)化支持向量機(jī)(SVMStruct)、隱Markov(HMM)、最大間隔Markov網(wǎng)絡(luò)(M3N)和條件隨機(jī)場(chǎng)(CRF)算法,提出一種新的聯(lián)合序列標(biāo)注學(xué)習(xí)(JSL)算法,并利用詞語(yǔ)4個(gè)方面的屬性特征自動(dòng)識(shí)別突顯詞;最后,對(duì)比分析在2種文本突顯方法下的用戶搜索行為,調(diào)查不同文本突顯方法在整個(gè)用戶搜索交互過(guò)程中所承擔(dān)的作用.

        1 相關(guān)研究工作

        研究?jī)?nèi)容主要包括3個(gè)方面:文本突顯對(duì)于用戶閱讀、認(rèn)知及搜索行為的影響;查詢擴(kuò)展、查詢縮減和查詢推薦的方法;文本關(guān)鍵詞的提取方法.

        一段文本內(nèi)不同亮度、顏色的文本具有視覺(jué)敏感性.文本突顯的目的是通過(guò)改變文本的外在展示形式獲取視覺(jué)注意,即“吸引注意力”[5-6].Few[7-8]發(fā)現(xiàn)通過(guò)在摘要中突顯查詢?cè)~(顏色突顯)可以吸引用戶的注意力,改善用戶搜索中信息的獲取效率.然而,過(guò)多的顏色突顯反而會(huì)降低用戶的視覺(jué)注意力,引起視覺(jué)分散的現(xiàn)象.Kickmeier等[9]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)文本突顯的密度對(duì)用戶的點(diǎn)擊行為及記憶準(zhǔn)確性都有明顯的影響,文本突顯密度過(guò)高或過(guò)低都會(huì)對(duì)用戶造成選擇困擾,從而增加結(jié)果相關(guān)性的判斷時(shí)間.然而,這些實(shí)驗(yàn)都著重于研究突顯查詢?cè)~及文本突顯密度對(duì)于用戶行為的影響,并沒(méi)有考慮突顯不同的詞語(yǔ)對(duì)用戶搜索效率的影響.

        為了解決用戶所提交的查詢與用戶的查詢意圖不一致的問(wèn)題,查詢擴(kuò)展技術(shù)、查詢縮減技術(shù)和查詢推薦技術(shù)通過(guò)一定的方法策略,如增加、減少或更換一些詞或詞語(yǔ)到原查詢中,達(dá)到提高信息檢索的查全率及查準(zhǔn)率的目的[10-11].這些方法從一定程度上解決了查詢信息不足的問(wèn)題,但其出發(fā)點(diǎn)為查詢?cè)~,被擴(kuò)展或更換的詞語(yǔ)往往是查詢?cè)~的同義詞、近義詞,或來(lái)自于搜索引擎公司提供的查詢推薦詞,這些詞語(yǔ)并不一定存在于SERP的結(jié)果摘要中.因此,搜索結(jié)果的展示方式依然是面向查詢、而非面向用戶查詢意圖的.文本關(guān)鍵詞的提取技術(shù)通過(guò)一定的方法策略提取能夠體現(xiàn)作者(原始文本)主要思想的重要詞語(yǔ)[12-13],但其僅與文本自身相關(guān).搜索結(jié)果中需要突顯的詞語(yǔ)是由用戶的查詢?nèi)蝿?wù)所決定的,文本的關(guān)鍵詞并不一定是滿足用戶意圖的關(guān)鍵詞.綜上所述,基于查詢的查詢擴(kuò)展技術(shù)、推薦技術(shù)和基于搜索結(jié)果的關(guān)鍵詞提取技術(shù)都不能直接作為SERP的結(jié)果摘要突顯詞.SERP的結(jié)果摘要突顯詞是存在于結(jié)果摘要中、與查詢?nèi)蝿?wù)相關(guān)且對(duì)于用戶信息查詢需求最重要的詞或詞語(yǔ).

        圖1 用戶標(biāo)注前后的SERP示意圖Fig.1 The diagram of SERP before and after highlighting words by users

        2 突顯詞用戶標(biāo)注調(diào)查

        研究由日本國(guó)家科學(xué)信息系統(tǒng)中心(NACSIS)策劃主辦的檢索與自然語(yǔ)言處理測(cè)試任務(wù)(NTCIR IMine)[14]中的12對(duì)中文查詢?cè)~,如表1所示.每組2個(gè)查詢?nèi)蝿?wù)的查詢需求類似、查詢難度相當(dāng),其中包括2組4個(gè)導(dǎo)航(NA)類查詢,2組4個(gè)事務(wù)(TR) 類查詢和8組16個(gè)信息(IN)類查詢.針對(duì)每個(gè)查詢?nèi)蝿?wù),利用Google搜索引擎獲取前10個(gè)純文本的搜索結(jié)果,去除SERP中含有圖片、視頻等內(nèi)容的查詢結(jié)果.

        表1 用戶標(biāo)注采用的24個(gè)中文查詢Tab.1 Twenty-four Chinese queries annotated by users

        針對(duì)表1中的每個(gè)查詢?nèi)蝿?wù)撰寫相應(yīng)的任務(wù)描述.提供用戶查詢?nèi)蝿?wù)說(shuō)明、查詢?cè)~以及去除結(jié)果摘要中文本突顯的SERP(形成統(tǒng)一的字體顏色),供用戶進(jìn)行突顯詞的選擇及標(biāo)注,如圖1(a)所示.調(diào)查對(duì)突顯文本的內(nèi)容、長(zhǎng)短及次數(shù)不進(jìn)行任何限制,只要求用戶根據(jù)自身對(duì)任務(wù)描述及查詢(詞)的理解,標(biāo)注出個(gè)人認(rèn)為最重要的、對(duì)完成查詢?nèi)蝿?wù)最有價(jià)值的、最應(yīng)該被突顯的詞或詞語(yǔ),標(biāo)注結(jié)果如圖 1(b) 所示.調(diào)查一共邀請(qǐng)了10個(gè)計(jì)算機(jī)專業(yè)、自述能夠熟練地使用搜索引擎的用戶對(duì)24個(gè)任務(wù)的SERP(前10個(gè)結(jié)果)進(jìn)行標(biāo)注,最終產(chǎn)生 2 400 個(gè)搜索結(jié)果的突顯詞標(biāo)注結(jié)果.

        由圖1可知,用戶標(biāo)注的突顯詞(關(guān)鍵詞)與查詢?cè)~并不一致.挑選幾個(gè)用戶標(biāo)注的突現(xiàn)詞進(jìn)行示例,如圖2所示.當(dāng)查詢?yōu)椤鞍滩∑つw癥狀”時(shí),用戶更傾向于將“艾滋病初期皮膚癥狀”作為一個(gè)整體突顯來(lái)標(biāo)注,而不是分別標(biāo)注“艾滋病”、“皮膚”、“癥狀”等這些單獨(dú)的詞語(yǔ);當(dāng)查詢?yōu)椤柏S田銳志”時(shí),用戶除了標(biāo)注“豐田銳志”這個(gè)實(shí)體,還傾向于標(biāo)注“參數(shù)配置”、“報(bào)價(jià)”等與該實(shí)體相對(duì)應(yīng)的屬性詞;當(dāng)查詢?yōu)椤爸Ц秾氹娫挕睍r(shí),用戶更傾向于標(biāo)注出可能的答案,如“95188”和“0571-6500-5120”. 綜上所述,在不同的查詢?nèi)蝿?wù)中,用戶更傾向于標(biāo)注較長(zhǎng)的突顯詞、更為豐富的關(guān)鍵詞或直接標(biāo)注可能的答案.

        圖2 用戶標(biāo)注突顯詞示例Fig.2 Examples of highlighting words labelled by users

        3 突顯詞自動(dòng)識(shí)別算法

        3.1 問(wèn)題描述

        結(jié)果摘要的文本突顯問(wèn)題可以看作為一個(gè)序列標(biāo)注任務(wù).如圖3所示,在給定查詢Q、結(jié)果標(biāo)題T和結(jié)果摘要S的情況下,序列標(biāo)注的最終目的是預(yù)測(cè)結(jié)果摘要中詞語(yǔ)的突顯標(biāo)簽Y和非突顯標(biāo)簽N.前文的用戶標(biāo)注調(diào)查已經(jīng)得到了 2 400 條用戶的標(biāo)注數(shù)據(jù),因此可以把識(shí)別突顯詞任務(wù)看成一個(gè)有監(jiān)督的序列標(biāo)注任務(wù).

        圖3 結(jié)果摘要文本的突顯詞識(shí)別問(wèn)題示例Fig.3 An example of search result snippet highlighting terms tagging

        假定摘要的固定長(zhǎng)度為K,則輸出序列為y=[y1y2…yK],其中yk(k=1,2,…,K)為第k個(gè)詞.能夠觀測(cè)到的用戶標(biāo)注序列為x=[x1x2…xK].其中:xk,yk∈{N,Y},k=1,2,…,K.突顯詞識(shí)別任務(wù)由已經(jīng)觀測(cè)到的用戶標(biāo)注序列x對(duì)最終的輸出序列y進(jìn)行估計(jì)和推斷[15].在自然語(yǔ)言處理序列標(biāo)注任務(wù)中廣泛應(yīng)用的SVMStruct[16]、M3N[17]和CRF[18]算法選取條件概率P(y|x),而HMM[19]算法選取聯(lián)合概率P(x,y)分布中最大的一個(gè)y*作為輸出序列.在模型訓(xùn)練階段,預(yù)測(cè)序列可由下式計(jì)算得出:

        y*=argmaxyP(y|x) 或

        y*=argmaxyP(x,y)

        (1)

        其中:argmax可以通過(guò)Viterbi動(dòng)態(tài)規(guī)劃算法獲得.

        3.2 序列標(biāo)注模型

        由于SVMStruct、HMM、M3N和CRF算法在預(yù)測(cè)不同標(biāo)簽上的特性不同,將這些機(jī)器學(xué)習(xí)算法聯(lián)合起來(lái)提出一種新的JSL算法,用以進(jìn)一步提高算法性能,如圖4所示.

        圖4 JSL算法模型示意圖Fig.4 Schematic diagram of JSL algorithm

        為獲得序列y,構(gòu)造(K-1)個(gè)2×2的轉(zhuǎn)移矩陣Tk(m,n)記為countk(m,n),為k位置上的標(biāo)簽m變換成標(biāo)簽n的次數(shù),其中,k=1,2,…,K-1;m,n∈{N,Y}.定義標(biāo)簽的狀態(tài)權(quán)重為Uk(t)=countk(t),代表位置k上標(biāo)簽t出現(xiàn)的次數(shù),其中,k=1,2,…,K;t∈{N,Y}.預(yù)測(cè)序列y的表達(dá)式為

        (2)

        3.3 特征參數(shù)

        采用基于詞匹配、詞信息、詞向量和詞屬性的4類特征預(yù)測(cè)一條結(jié)果摘要中哪些詞應(yīng)該被突出顯示為紅色,而哪些詞不需要被突出顯示,表2所示為其特征列表.

        表2 突顯詞識(shí)別所用詞語(yǔ)特征列表Tab.2 The features used in tagging of the highlighting words

        基于詞匹配的特征(★):衡量該詞語(yǔ)是否存在于查詢、結(jié)果標(biāo)題、維基百科、百度百科或者搜索推薦之中.

        基于詞信息的特征(■):衡量該詞語(yǔ)與對(duì)應(yīng)的詞語(yǔ)之間的距離或者詞頻-逆文本頻率指數(shù)(tf-idf)值.其中:tf值是該詞在維基百科中的數(shù)量;而idf值則是根據(jù)所有查詢?cè)~對(duì)應(yīng)的維基百科文本計(jì)算得出的.

        基于詞向量的特征(◆):用詞向量表達(dá)一個(gè)詞,并基于這一向量計(jì)算該詞語(yǔ)與對(duì)應(yīng)詞語(yǔ)之間的相似度等特征.其中,詞向量是基于搜狗互聯(lián)網(wǎng)語(yǔ)料庫(kù)(SogouT)數(shù)據(jù)集[20]采用詞向量(word2vec)[21]算法預(yù)先訓(xùn)練得到的,并在整個(gè)突顯詞識(shí)別算法的訓(xùn)練過(guò)程中保持不變.

        基于詞屬性的特征(●):該詞語(yǔ)自身包含的信息包括詞性、情感以及主題特征,這部分特征可以由中科院ICTCLAS系統(tǒng)和MB-PL-ASUM算法得到[22].

        3.4 算法性能

        3.4.1模型性能 通常序列預(yù)測(cè)算法的目標(biāo)是所有詞語(yǔ)的標(biāo)簽預(yù)測(cè)綜合性能達(dá)到最優(yōu),一般損失函數(shù)(AverageLoss)表示所有詞語(yǔ)的預(yù)測(cè)標(biāo)簽與詞語(yǔ)實(shí)際標(biāo)簽之間的差異程度,其表達(dá)式為

        AverageLoss=

        (3)

        為了測(cè)試不同算法的綜合性能指標(biāo),采用所有種類的特征信息計(jì)算5種算法在模型準(zhǔn)確度、精度、召回率及F值方面的性能,計(jì)算結(jié)果如表3所示.由表3可知:① SVMstruct算法在模型準(zhǔn)確度及召回率方面的性能較好;而CRF算法在模型精度及F值方面的性能較好.② HMM算法在模型準(zhǔn)確度、召回率及F值3方面的性能都表現(xiàn)得較差,這可能是由于模型本身采用的是聯(lián)合概率而非條件概率所引起的.③ JSL算法在模型準(zhǔn)確度、精度及F值方面的性能都是最優(yōu)的,相較于其他4種算法都有一定程度的提高.但由于數(shù)據(jù)的不均衡性,在提高突顯詞語(yǔ)的預(yù)測(cè)比重后導(dǎo)致了更多的非突顯詞不能被識(shí)別,故在召回率方面有所降低.各算法在JSL算法中的所占比重分別為:SVMstruct算法占70.1%;CRF算法占16.2%;M3N算法占7.1%;HMM算法占6.6%.SVMstruct算法與CRF算法所占比重較高,這是由于SVMstruct算法和CRF算法解決了M3N算法的標(biāo)簽偏置問(wèn)題并弱化了HMM算法的獨(dú)立性假設(shè),所以在JSL算法中優(yōu)勢(shì)更為突出,獲得了較大的比重.

        表3 各序列標(biāo)簽學(xué)習(xí)模型的性能對(duì)比

        Tab.3 The performance comparison of different sequence label learning algorithms

        算法準(zhǔn)確度/%精度/%召回率/%F值/%SVMstruct92.5019.2090.4031.7HMM81.1017.8063.2027.8M3N90.0032.8064.5043.5CRF91.2037.9062.4047.2JSL93.3048.5069.4057.1

        3.4.2不同特征下的JSL算法性能 不同特征下的JSL算法性能如表4所示,其中↑和↓為相比于上一個(gè)數(shù)量較少的特征,F(xiàn)值的變化是增大還是減小.由表4可知:① 當(dāng)僅采用詞匹配和詞屬性信息特征時(shí),查詢效果較差;當(dāng)采用詞信息或詞向量特征時(shí),查詢效果明顯提高,說(shuō)明用戶需要更多有效的信息為搜索交互過(guò)程提供必要的線索.② 當(dāng)將詞向量與詞匹配、詞信息與詞屬性分別組合成2組特征信息時(shí),則算法的F值有所下降,這可能是由于2組特征混合在一起后使得算法出現(xiàn)了過(guò)擬合問(wèn)題,同時(shí)也說(shuō)明詞向量對(duì)于JSL算法而言是作用比較大的一組特征;當(dāng)采用3組特征時(shí),F(xiàn)值有所提高;當(dāng)采用4組特征時(shí),JSL算法性能達(dá)到最優(yōu),說(shuō)明這4組特征在識(shí)別突顯詞這一任務(wù)中都是有效的特征.③ 當(dāng)預(yù)測(cè)所有詞語(yǔ)的整體準(zhǔn)確度達(dá)到93%時(shí), JSL算法的F值僅有57%,說(shuō)明該數(shù)據(jù)集是一個(gè)不均衡的數(shù)據(jù)集,突顯詞數(shù)量非常少,因而出現(xiàn)了過(guò)擬合的問(wèn)題.

        表4 不同特征下的JSL算法性能比較

        Tab.4 The performance comparison of JSL algorithm under different features

        3.4.3不同任務(wù)下的JSL算法性能 不同搜索任務(wù)下,同時(shí)采用4類特征時(shí)的JSL算法性能如表5所示,其中ALL為所有任務(wù).由表5可知:① 當(dāng)搜索任務(wù)為NA類查詢?nèi)蝿?wù)時(shí),JSL算法的預(yù)測(cè)性能最優(yōu),這是由于NA類查詢?nèi)蝿?wù)是搜索一個(gè)與查詢高度相關(guān)的網(wǎng)站,此時(shí)預(yù)測(cè)算法使用的特征已經(jīng)包含了查詢內(nèi)容;當(dāng)搜索任務(wù)為TR類和IN類查詢?nèi)蝿?wù)時(shí),用戶往往需要更加豐富的線索信息,此時(shí)預(yù)測(cè)突顯詞更加困難.② 當(dāng)搜索任務(wù)為ALL時(shí),預(yù)測(cè)摘要中的查詢?cè)~性能較好,而預(yù)測(cè)摘要中的非查詢?cè)~性能較差, 其F值分別為70.2%和38.7%.這可能是由于所采用的特征大部分是與查詢相關(guān)的特征,所以預(yù)測(cè)查詢?cè)~較容易,而預(yù)測(cè)非查詢?cè)~較困難.③ 從預(yù)測(cè)結(jié)果可以看出,當(dāng)查詢?nèi)蝿?wù)是TR類或IN類時(shí),用戶需要更豐富的線索信息以直接突顯答案,但目前的預(yù)測(cè)算法在這方面的性能有待提高,這可能會(huì)是下一步的研究重點(diǎn).

        表5 不同搜索任務(wù)下JSL算法的性能

        Tab.5 The performance comparison of JSL algorithm under different search tasks

        搜索任務(wù)突顯詞F值/%NA類全部摘要詞語(yǔ)66.0TR類全部摘要詞語(yǔ)56.4IN類全部摘要詞語(yǔ)53.0ALL查詢?cè)~70.2ALL非查詢?cè)~38.7

        4 用戶實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)流程

        實(shí)驗(yàn)邀請(qǐng)了12名參與者,包括4名女生和8名男生,均為同一所大學(xué)一年級(jí)的本科生,就讀專業(yè)包括經(jīng)濟(jì)學(xué)、美學(xué)、法學(xué)、社會(huì)科學(xué)等,自我報(bào)告有1年以上的搜索引擎使用經(jīng)驗(yàn).每人需要完成24個(gè)查詢?nèi)蝿?wù),其中12個(gè)任務(wù)采用QTH策略,另外12個(gè)任務(wù)采用關(guān)鍵詞突顯(KTH)策略.實(shí)驗(yàn)采用希臘拉丁方及隨機(jī)序列方法保證每個(gè)任務(wù)以相同的概率展現(xiàn)給用戶.針對(duì)每種突顯策略下的每個(gè)查詢?nèi)蝿?wù),收集到6個(gè)用戶的查詢?nèi)蝿?wù)數(shù)據(jù).實(shí)驗(yàn)提供的界面形式采用Google框架的搜索引擎,用戶可通過(guò)該搜索引擎完成正常的搜索功能.此外,用戶交互的鼠標(biāo)數(shù)據(jù)和眼動(dòng)數(shù)據(jù)均會(huì)被記錄下來(lái).實(shí)驗(yàn)要求參與者必須在90分鐘內(nèi)完成所有查詢?nèi)蝿?wù),完成任務(wù)后通過(guò)口頭詢問(wèn)的方式確保參與者以認(rèn)真的態(tài)度完成任務(wù),同時(shí)搜集用戶關(guān)于頁(yè)面突顯感受的反饋.

        4.2 評(píng)價(jià)指標(biāo)和實(shí)驗(yàn)結(jié)果

        搜索用戶的交互過(guò)程通常采用的是成本-效益框架評(píng)價(jià)搜索引擎的性能[23-24],并以商業(yè)搜索引擎采用的QTH策略作為對(duì)比基準(zhǔn),與基于JSL算法產(chǎn)生的KTH策略進(jìn)行對(duì)比,采用的評(píng)價(jià)指標(biāo)如表6所示.

        表6 搜索效益評(píng)價(jià)指標(biāo)體系Tab.6 The evaluation index system of search performance

        表7 KTH與QTH策略下的搜索效益對(duì)比

        Tab.7 The performance comparison between KTH and QTH highlighting strategies

        指標(biāo)NA/%IN/%TR/%C-CG8.2Δ9.1Δ22.4C-DCG6.2Δ4.820.9DT6.3Δ18.713.0C-RN5.0Δ7.8Δ19.0C-RD26.713.7Δ17.6C-SL5.0Δ8.218.6

        用戶的注視行為熱度如圖5所示.突顯詞可以吸引用戶的注意力,讓用戶“注意看”突顯詞,進(jìn)而使得用戶關(guān)注位置靠后但更為相關(guān)的搜索結(jié)果.當(dāng)查詢?cè)~為“降壓藥種類”時(shí),在QTH策略下(見圖5),突顯詞為“降壓藥”、“種類”等,用戶優(yōu)先關(guān)注排名靠前的結(jié)果,排名靠后的結(jié)果(排名為第7和第8名的結(jié)果)用戶基本不會(huì)注意到;在KTH策略下(見圖6),排名為第7和第8名的結(jié)果突顯詞為“6大類”、“5大類”、“利尿藥”、“β受體阻滯藥”和“鈣離子拮抗劑CCB”等,用戶則重點(diǎn)關(guān)注了這些結(jié)果突顯詞,原因是這些結(jié)果突出詞顯示了對(duì)于用戶查詢意圖更有價(jià)值的關(guān)鍵詞.

        圖5 用戶注視熱度圖Fig.5 People’s gaze paths in the heat map

        圖6 用戶注視熱度圖Fig.6 People’s gaze paths in the heat map

        5 結(jié)語(yǔ)

        基于用戶標(biāo)注的數(shù)據(jù),提出一種新的突顯策略,以突顯更能滿足用戶查詢意圖的關(guān)鍵詞;采用JSL算法,使用詞匹配、詞信息、詞向量以及詞屬性4個(gè)方面的特征,自動(dòng)識(shí)別搜索結(jié)果摘要中的突顯詞,取得了接近于人工標(biāo)注的效果;設(shè)計(jì)用戶搜索實(shí)驗(yàn),并且與目前通用的QTH策略進(jìn)行對(duì)比,進(jìn)而分析不同突顯策略對(duì)于用戶行為及搜索效益的影響.實(shí)驗(yàn)證明不同突顯詞對(duì)于用戶搜索行為有較大的影響,KTH策略明顯優(yōu)于QTH策略,能夠有效地提升搜索效益.

        猜你喜歡
        搜索引擎詞語(yǔ)特征
        容易混淆的詞語(yǔ)
        找詞語(yǔ)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        詞語(yǔ)欣賞
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        一枚詞語(yǔ)一門靜
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        日韩欧美第一区二区三区 | 亚洲精品第一国产综合精品| 无遮挡边摸边吃奶边做视频免费| 久久精品国产热| 亚洲成人免费久久av| 亚洲av久播在线一区二区| 超碰97资源站| 久久精品无码一区二区三区不| 亚洲中文字幕高清乱码毛片| 一二三区无线乱码中文在线| 国产顶级熟妇高潮xxxxx| 亚洲aⅴ无码国精品中文字慕| 国产三级精品三级在线| 日韩欧美一区二区三区免费观看| 亚洲日韩欧洲无码av夜夜摸| 国产一区二区精品久久凹凸| 亚洲av高清一区二区| 老色鬼在线精品视频| vr成人片在线播放网站| 亚洲精品乱码久久久久99| 美女与黑人巨大进入免费观看| 天天摸夜夜摸夜夜狠狠摸| 污污污污污污WWW网站免费| 亚洲综合原千岁中文字幕| 国产主播一区二区三区蜜桃| 成人免费无码大片a毛片软件| 麻豆久久五月国产综合| 女同重口味一区二区在线| 午夜成人理论福利片| 久久夜色撩人精品国产小说| 久久久精品国产视频在线| 国产成人精品人人做人人爽97 | 久久久久麻豆v国产精华液好用吗| 国产人禽杂交18禁网站| 青青青免费在线视频亚洲视频| 97人人模人人爽人人少妇| 中文字幕无码人妻丝袜| 久久狼人国产综合精品| 特黄大片又粗又大又暴| 亚洲欧美另类自拍| 亚洲国产都市一区二区|