亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向數(shù)字資源查詢的用戶行為建模研究

        2022-05-20 10:13:16白瑩琦帕力旦吐爾遜
        物聯(lián)網(wǎng)技術(shù) 2022年5期
        關(guān)鍵詞:頁(yè)面動(dòng)作用戶

        白瑩琦,帕力旦·吐爾遜,李 煜,付 敏

        (1.西北大學(xué) 圖書館,陜西 西安 710127;2.新疆師范大學(xué),新疆 烏魯木齊 830017)

        0 引 言

        用戶在搜索數(shù)字文獻(xiàn)資源時(shí),其結(jié)果頁(yè)面是一個(gè)返回列表。此時(shí),用戶可能會(huì)進(jìn)行多種方式的操作。例如在點(diǎn)擊任何一個(gè)返回結(jié)果之前,先快速瀏覽很多其他結(jié)果的名稱;或者按照返回結(jié)果列表依次點(diǎn)擊瀏覽;或者放棄當(dāng)前搜索并發(fā)出一個(gè)新的查詢。因此,用戶與系統(tǒng)交互式的行為建模研究是實(shí)現(xiàn)良好搜索引擎的關(guān)鍵因素。

        對(duì)于系統(tǒng)平臺(tái),將用戶搜索某項(xiàng)記錄的操作動(dòng)作進(jìn)行排序,便可以表示為一個(gè)動(dòng)作序列,具體定義為=<(,), (,), (,)...>,其中(d,s)是由兩個(gè)元素組成的動(dòng)作:動(dòng)作的類型d以及該動(dòng)作對(duì)應(yīng)的返回結(jié)果序列r≥1。其中動(dòng)作類型包含三種,具體如下:

        (1)快速瀏覽:d="",當(dāng)一個(gè)搜索結(jié)果簡(jiǎn)介在電腦屏幕上停留的時(shí)間至少為1 s時(shí),數(shù)據(jù)庫(kù)系統(tǒng)平臺(tái)將其定義為“一次快速瀏覽”。

        (2)查閱查看:d="",當(dāng)用戶選擇某條特定的結(jié)果并加載更為詳細(xì)的結(jié)果介紹時(shí),系統(tǒng)平臺(tái)將記錄該操作,并定義為“查閱查看”。

        (3)下載確定:d="",當(dāng)用戶在查閱查看后,確認(rèn)填寫和提交下載該記錄。這樣的操作在系統(tǒng)平臺(tái)也會(huì)被記錄,并定義為“下載確定”。

        以某省屬211高校圖書館數(shù)據(jù)庫(kù)系統(tǒng)日志為例,摘錄某注冊(cè)用戶的一組動(dòng)作序列,每組動(dòng)作序列也可以看作是三個(gè)動(dòng)作分量序列的組合。例如,某用戶已經(jīng)快速瀏覽結(jié)果頁(yè)面的第1~5條記錄,隨后更為詳細(xì)地查閱查看了第4條記錄的詳細(xì)情況,下載確認(rèn)該紀(jì)錄后再瀏覽第5條記錄。

        每種動(dòng)作之間存在關(guān)聯(lián),對(duì)該關(guān)聯(lián)的挖掘可以憑借研究連續(xù)動(dòng)作序列進(jìn)行建模與分析。由于“查閱查看”是可以監(jiān)測(cè)到的,而“快速瀏覽”則不然,只是記錄了是否進(jìn)行,而無法對(duì)被瀏覽的記錄進(jìn)行排序。因此,本文的研究目標(biāo)在于能夠通過“查閱查看”動(dòng)作記錄中推斷出“快速瀏覽”時(shí)符合用戶需求的結(jié)果排序。主要貢獻(xiàn)總結(jié)如下:

        (1)建立了使用“查閱查看”信息來估計(jì)“快速瀏覽”順序的模型。

        (2)針對(duì)常規(guī)用戶行為特征,提出條件連續(xù)概率來評(píng)估行為模型。

        1 相關(guān)工作

        在有關(guān)提升搜索引擎性能的工作中,White等人通過使用商用搜索線索集,研究了用戶與結(jié)果頁(yè)面交互時(shí)搜索行為的可變性,其中每個(gè)線索代表一個(gè)交互圖;從用戶提交查詢開始,到用戶完成搜索任務(wù)結(jié)束,通過交互圖的變化展現(xiàn)行為的動(dòng)態(tài)變化。Klockner等人通過眼睛跟蹤實(shí)驗(yàn)來研究掃描瀏覽的序列。Cutrell等人根據(jù)眼睛跟蹤的數(shù)據(jù),研究了搜索結(jié)果對(duì)用戶行為的影響。Joachims等人調(diào)查了用戶“從上到下”的瀏覽行為,其結(jié)論是在用戶單擊搜索結(jié)果之前,已經(jīng)查看了大多數(shù)的結(jié)果,只有少數(shù)的結(jié)果沒有被查看。Thomas等人也通過眼睛跟蹤實(shí)驗(yàn),得出用戶遵循“進(jìn)兩步,退一步”的方式來瀏覽結(jié)果頁(yè)面?,F(xiàn)有方法足以感知用戶在進(jìn)行數(shù)字資源搜索時(shí)的“快速瀏覽”動(dòng)作。

        針對(duì)在線用戶的行為,Spina等人研究了某在線社交網(wǎng)站的互動(dòng)日志,從點(diǎn)擊和查詢提交關(guān)鍵詞兩方面調(diào)查了該網(wǎng)站會(huì)員的個(gè)人行為特征;Mansouri等人從數(shù)以百萬計(jì)的在線求職頁(yè)面記錄中,選擇與職位相關(guān)的查詢,研究了最熱門職位數(shù)量與一周內(nèi)的職位搜索次數(shù)之間的關(guān)系。

        對(duì)于電子商務(wù)搜索日志,Parikh等人分析了大約1.15億個(gè)eBay查詢記錄,并指出不同查詢的頻率分布遵循冪律分布;Hasan等人則擴(kuò)展了這一研究,發(fā)現(xiàn)查詢頻率(查詢受歡迎程度的衡量標(biāo)準(zhǔn))與eBay上檢索結(jié)果的數(shù)量呈正相關(guān),這顯示了供求之間的平衡。

        2 可預(yù)測(cè)模型分析

        本文的數(shù)據(jù)集是某高校圖書館數(shù)據(jù)庫(kù)的用戶交互日志樣本。測(cè)試分析時(shí)采用了兩種不同工作模式的動(dòng)作序列:(1)基于手機(jī)的Android/iOS應(yīng)用程序進(jìn)行在線搜索,其中搜索結(jié)果頁(yè)面沒有分頁(yè)和連續(xù)滾動(dòng);(2)基于桌面的網(wǎng)絡(luò)瀏覽器進(jìn)行搜索,結(jié)果頁(yè)面都是分頁(yè)的,每個(gè)頁(yè)面包含15個(gè)結(jié)果。采用近2萬個(gè)動(dòng)作序列分別響應(yīng)Android/iOS查詢和瀏覽器查詢。

        “快速瀏覽”是“查閱查看”和“下載確定”的前提。對(duì)于每條記錄,用戶通常會(huì)在“查閱查看”結(jié)果之前“快速瀏覽”包括在內(nèi)的幾乎所有返回結(jié)果,記錄下用戶查看其他返回結(jié)果的數(shù)量。對(duì)比Android/iOS用戶和瀏覽器用戶,使用瀏覽器的用戶每次“查閱查看”某條結(jié)果時(shí),“快速瀏覽”的結(jié)果數(shù)量比使用Android/iOS的用戶更多。

        通常情況下,用戶在完成本次搜索之前,已經(jīng)對(duì)搜索結(jié)果頁(yè)面進(jìn)行了更深入的檢查??偟膩碚f,所有對(duì)結(jié)果進(jìn)行“查閱查看”的返回結(jié)果中,用戶的“快速瀏覽”排列次序都遵循類似的模式,這意味著可以從“查閱查看”信息中推斷“快速瀏覽”;而“下載確認(rèn)”這一動(dòng)作提供的額外信息會(huì)進(jìn)一步加強(qiáng)這種關(guān)系。

        對(duì)于“下載確認(rèn)”與“快速瀏覽”的推斷,與Wicaksono等人所提出的經(jīng)驗(yàn)值()計(jì)算近似。根據(jù)經(jīng)驗(yàn)值的計(jì)算,這里考慮前20個(gè)結(jié)果(基于瀏覽器用戶的第一頁(yè)),對(duì)“下載確認(rèn)”和“快速瀏覽”分別估計(jì)的延續(xù)概率明顯不同,見表1所列的RBP和INSQ這兩個(gè)模型的最佳擬合參數(shù)的值。然而,本文依舊認(rèn)為“快速瀏覽”可以從“下載確認(rèn)”這一動(dòng)作序列中推斷出來,具體將在后文中說明。

        表1 RBP和INSQ的最佳擬合參數(shù)值

        3 預(yù)測(cè)印象分布

        本章描述了印象模式的建模方法。進(jìn)行回歸預(yù)測(cè)時(shí),基于以下三個(gè)假設(shè)選擇模型:

        (1)用戶從上到下查看返回結(jié)果。

        (2)如果第條返回結(jié)果被“查閱查看”,則第1至條返回記錄都被“快速瀏覽”。

        (3)用戶可以在“查閱查看”第條返回結(jié)果之前,先查看后續(xù)返回結(jié)果。

        在上述假設(shè)中,第一個(gè)是人們正常閱讀習(xí)慣,并具有已有研究結(jié)果的支撐。

        針對(duì)假設(shè)二,圖1為其提供了進(jìn)一步的證據(jù),顯示了用戶“查閱查看”和“快速瀏覽”結(jié)果的最大數(shù)量之間的差異分布。

        圖1 兩種訪問方式下交互動(dòng)作數(shù)量差異(diff)分布

        對(duì)于第三個(gè)假設(shè),首先定義兩個(gè)與“查閱查看”動(dòng)作相關(guān)的特征,如式(1)所示,為用戶“查閱查看”數(shù)量最多的結(jié)果排序位置;為“查閱查看”不同屬性結(jié)果的數(shù)量。其中,w為使用線性回歸得到的線性組合最佳系數(shù);為偏移參數(shù)。

        表2顯示了擬合參數(shù)取值影響占比,支撐了上文給出的第三個(gè)假設(shè)。在其他因素保持不變的情況下,diff隨用戶“查閱查看”數(shù)量最多的結(jié)果排序位置(>0)的增加而增加,隨不同屬性結(jié)果的“查閱查看”數(shù)量(<0)的減少而減少。

        表2 擬合參數(shù)取值影響占比

        綜合上述三個(gè)假設(shè)條件,累積分布(diff≥)是用戶“快速瀏覽”從返回結(jié)果(,)到(,)+的占比,其中(,)是用戶在“快速瀏覽”結(jié)果時(shí)“查閱查看”最多結(jié)果的排序位置。建立如下三個(gè)模型:

        模型1:基于啟發(fā)式方法,設(shè)計(jì)一個(gè)具有“相似行為”的函數(shù)近似表征(diff=),并通過“快速瀏覽”和“查看查閱”日志記錄來選擇參數(shù)。具體定義如下:

        其中:為超參,經(jīng)驗(yàn)取值為0.832;為控制衰變率的參數(shù)。根據(jù)交互日志中不同用戶訪問數(shù)據(jù)庫(kù)的方式不同,分別計(jì)算如下:

        模型2:前期分析中發(fā)現(xiàn),diff依賴于和這兩個(gè)因素。為了更精準(zhǔn)地估計(jì),對(duì)衰變參數(shù)進(jìn)行線性擬合,則有:

        則模型1可近似等價(jià)地定義為:

        模型3:為了更精確地估計(jì)推斷,需要進(jìn)一步使用用戶“查閱查看”的分布密度來估計(jì)用戶在最后一次點(diǎn)擊“快速瀏覽”之后的返回結(jié)果數(shù)量。設(shè)(imp=|,)為用戶在對(duì)結(jié)果進(jìn)行“查閱查看”時(shí),已完成對(duì)結(jié)果“快速瀏覽”的概率。同時(shí)提出“查閱查看”間斷分布(gap=|,),即用戶在面對(duì)個(gè)返回結(jié)果時(shí),連續(xù)“快速瀏覽”個(gè)結(jié)果而不“查閱查看”的概率。于是模型3可定義為:

        其中:(gap≥(·|))是由用戶發(fā)出的所有查詢的平均值決定的;用戶的總體推斷模型(imp=|,)也是通過求平均值來計(jì)算的。

        其中:C()為記錄的用戶“查閱查看”次數(shù);為經(jīng)驗(yàn)常數(shù)。

        4 測(cè)試評(píng)估

        本文分析了高校圖書館數(shù)據(jù)庫(kù)服務(wù)器所提供的交互日志,其中包含利用移動(dòng)設(shè)備(Android/iOS)應(yīng)用程序發(fā)起查詢的1.58萬條搜索查詢交互日志,以及通過臺(tái)式機(jī)/筆記本電腦瀏覽器發(fā)起查詢的40 129條交互日志。

        如圖2和圖3顯示了得到的經(jīng)驗(yàn)條件連續(xù)概率 ,并將其與SDCG和INSQ的兩條參考曲線進(jìn)行了比較?!翱焖贋g覽”下的延續(xù)概率與“查看查閱”的明顯不同。

        圖2 “快速瀏覽”下的條件延續(xù)概率

        圖3 “查看查閱”下的條件延續(xù)概率

        將近似估計(jì)的 值與使用原始查詢集計(jì)算的參數(shù)進(jìn)行比較,并將其 應(yīng)用于“查閱查看”動(dòng)作序列中。表3的數(shù)據(jù)表明三種模型下近似 與真值的加權(quán)頻率均方誤差(WMSE)越小越好。

        表3 加權(quán)頻率均方誤差(WMSE)

        ()是根據(jù)“加權(quán)精度有效性”度量與搜索引擎結(jié)果頁(yè)面中的第個(gè)返回記錄相關(guān)聯(lián)的權(quán)重;同時(shí)也是根據(jù)用戶查看的第個(gè)記錄而產(chǎn)生推斷的直接估計(jì)。在加權(quán)精度度量中,權(quán)重()是非遞增的,()≥(+1),這意味著查看排在后面的返回結(jié)果的概率小于查看排在前面的結(jié)果。使用相對(duì)熵即K-L散度來衡量概率分布之間的差異。表4顯示了在每個(gè)搜索引擎結(jié)果頁(yè)面的前10個(gè)和前50個(gè)結(jié)果的計(jì)算值,數(shù)值越小越好。從實(shí)驗(yàn)結(jié)果可以看出,對(duì)于前10個(gè)結(jié)果的評(píng)估,模型1優(yōu)于模型2;對(duì)于前50個(gè)結(jié)果的評(píng)估,模型3優(yōu)于模型2。

        表4 K-L散度分布差異

        5 結(jié) 語

        通過研究數(shù)據(jù)資源后臺(tái)用戶交互日志中的交互動(dòng)作模式,并確認(rèn)用戶通常在每次“查閱查看”之前會(huì)“快速瀏覽”第個(gè)之前的絕大多數(shù)結(jié)果以及第個(gè)之后的少數(shù)結(jié)果,提出推斷模型。該模型基于“查閱查看”動(dòng)作序列來推斷返回結(jié)果列表中的哪些結(jié)果可能已經(jīng)被用戶“快速瀏覽”,從而有助于對(duì)用戶行為模型予以修訂,為下次精準(zhǔn)搜索提供依據(jù)。

        猜你喜歡
        頁(yè)面動(dòng)作用戶
        大狗熊在睡覺
        刷新生活的頁(yè)面
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        非同一般的吃飯動(dòng)作
        如何獲取一億海外用戶
        天涯成人国产亚洲精品一区av| 香蕉色香蕉在线视频| 黑人巨大精品欧美在线观看| 亚洲国产精品成人一区二区三区| 懂色av一区二区三区尤物| 亚洲人精品亚洲人成在线| 亚洲va在线va天堂va手机| 精品日本韩国一区二区三区| 在线免费看91免费版.| 欧美日韩精品久久久免费观看| 亚洲国产区男人本色| 日日噜噜噜夜夜爽爽狠狠视频| 精品人妻少妇丰满久久久免| 手机在线看片| 特级婬片国产高清视频| 999久久66久6只有精品| 日本一区二区视频免费在线观看| 日本一本免费一二区| 18禁超污无遮挡无码免费游戏| 国产女奸网站在线观看| 91国产熟女自拍视频| 丰满少妇作爱视频免费观看| 久久久久麻豆v国产精华液好用吗| 无码中文字幕专区一二三| 人妻中文久久人妻蜜桃| aⅴ精品无码无卡在线观看| 国产精品日韩高清在线蜜芽| 国产伦理自拍视频在线观看| 国产乱理伦在线观看美腿丝袜| 吃奶摸下激烈床震视频试看| 亚洲色成人WWW永久在线观看| 麻豆国产精品伦理视频| 久久久国产精品va麻豆| 国产亚洲av人片在线观看| 国产精品一区成人亚洲| 日本系列中文字幕99| 亚洲av成人中文无码专区| 丝袜欧美视频首页在线| 亚洲一区二区蜜桃视频| 天堂中文官网在线| 四虎永久免费影院在线|