亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        個性化搜索用戶興趣更新學(xué)習(xí)及評價研究

        2018-06-20 07:46:08徐志明
        計算機技術(shù)與發(fā)展 2018年6期
        關(guān)鍵詞:分類用戶方法

        宋 毅,徐志明

        (1.哈爾濱華德學(xué)院 電子與信息工程學(xué)院 計算機應(yīng)用技術(shù)系,黑龍江 哈爾濱 150025;2.哈爾濱工業(yè)大學(xué) 計算機學(xué)院,黑龍江 哈爾濱 150025)

        0 引 言

        每個用戶總體興趣是個恒定常數(shù)。人的精力是有限的,用戶興趣類別偏好也是有限的,如果對某些類興趣度高,對其他類興趣度必然降低。文中關(guān)注用戶感興趣的類別,用戶整體興趣滿足固定常數(shù),也就是隨著更新學(xué)習(xí),用戶某些興趣可能由高到低遞減變化,而有些類別興趣由低到高遞增變化,但是用戶在整個類別偏好體系中興趣度總和個恒定常數(shù)用戶興趣能夠反映用戶主題偏好[1]。然而現(xiàn)有大部分個性化搜索引擎沒有識別用戶長期興趣和短期興趣,因此提出基于短期興趣來學(xué)習(xí)用戶長期興趣[2]。

        用戶興趣隨時間變化符合一定規(guī)律,基本規(guī)律是先快后慢,先多后少,逐漸遺忘。面對興趣遺忘過程,如果興趣模型不進行更新,將會出現(xiàn)用戶興趣漂移現(xiàn)象:也就是隨著時間變化,用戶對某類興趣可能增加,對另一類興趣可能減小,也會有短期興趣積累一定時間,將會向長期興趣演變,用戶興趣需要定期更新,可使模型自動發(fā)現(xiàn)用戶的新興趣,并能適應(yīng)用戶興趣的變化,從而能更好、更準確地反映用戶的真實興趣。具體更新需要對增量數(shù)據(jù)進行處理,因為如果用戶對某類興趣增加,相關(guān)文檔會增加,對新增數(shù)據(jù)的大量數(shù)據(jù)計算需要本文高效處理[3]。

        1 用戶興趣更新學(xué)習(xí)方法

        1.1 時間窗原理

        時間窗通過時間的閾值來設(shè)定,有很多研究均采用此方案?;趦?yōu)化時間窗的用戶興趣漂移算法[4],利用分類錯誤率的變化跟蹤用戶興趣的漂移,當用戶興趣發(fā)生變化時,通過優(yōu)化時間窗算法自動調(diào)節(jié)時間窗的大小[5],用戶模型根據(jù)該值來進行改進。該算法主要通過客觀的時間來設(shè)定,因此對于用戶遺忘比較公正。目前有學(xué)者討論了個性化技術(shù)兼顧時間窗算法的模型[6]。在此,考慮長期因素,也包括短期因素,兩者兼顧觀察用戶興趣的趨勢。該機制效率良好。

        1.2 相關(guān)反饋原理

        為了改進用戶興趣模型的精準率,加入相關(guān)反饋知識[7]。該算法是根據(jù)原來的文本時間,當有更新文本值時,加入新的文本,同時原來文本相同的不進行更新,只更新不同的差值,這樣對于更新時間明顯減少,更新效率大大提高,對于發(fā)現(xiàn)用戶最新的興趣節(jié)省了時間。

        1.3 遺忘規(guī)律

        有研究學(xué)者根據(jù)遺忘規(guī)律進行衰減[8],通過不同的年齡來標識樣本信息,時間增長,標識信息的日期也增長,如果時間超出設(shè)定數(shù)值,忽略該樣本信息。改進用戶模型僅用沒有被篩選掉的數(shù)據(jù),被篩選留下的數(shù)據(jù)可以反映用戶隨時間變化的興趣規(guī)律。

        1.4 更新學(xué)習(xí)思想

        第一是用戶短期興趣更新學(xué)習(xí),采用遺忘因子進行更新;第二是短期興趣向長期興趣變化更新,由于短期興趣經(jīng)過一定時期累加[9],隨著興趣度累加到一定時期[10],短期興趣會演變?yōu)殚L期興趣,面對增大的數(shù)據(jù)量,文中考慮增量學(xué)習(xí)方法,所以采用改進的Rocchio定期自動調(diào)整學(xué)習(xí)模型[11];最后是長期興趣學(xué)習(xí):由于長期興趣具有變化緩慢、穩(wěn)定的特點,如果長時間內(nèi)長期興趣的興趣度仍然較小,可以判斷用戶對該類興趣不感興趣,可以對該類興趣進行淘汰。由此啟發(fā),聯(lián)想到操作系統(tǒng)中的最近最少使用算法(LRU)[12],對應(yīng)最近一段時間內(nèi)最久沒有使用的興趣類別進行淘汰,也就是對最近一段時間內(nèi)長時間興趣度低的興趣類別進行淘汰,將新加入的興趣度高的興趣類別更新進行替換,進行長期用戶興趣更新學(xué)習(xí)。

        2 短期用戶興趣更新學(xué)習(xí)

        用戶興趣更新學(xué)習(xí)包括加入用戶的最新興趣和對舊興趣的遺忘[12]。實驗證明,人們在學(xué)習(xí)中遺忘是有規(guī)律的,遺忘的進程很快,并且先快后慢。觀察曲線會發(fā)現(xiàn),學(xué)得的知識在一天后如不抓緊復(fù)習(xí),就只剩下原來的25%。隨著時間的推移,遺忘的速度減慢,遺忘的數(shù)量也就減少。有人做過一個實驗[13],兩組學(xué)生學(xué)習(xí)一段課文,甲組在學(xué)習(xí)后不復(fù)習(xí),一天后記憶率36%,一周后只剩13%。乙組按艾賓浩斯記憶規(guī)律復(fù)習(xí),一天后保持記憶率98%,一周后保持86%,乙組的記憶率明顯高于甲組。遺忘因子[7]F(x)如式1所示:

        (1)

        其中,cur為當前日期;est為興趣詞在用戶興趣庫中出現(xiàn)的最近日期;hl為減弱值。

        經(jīng)過弱化,用戶興趣遺忘一半,但并不是線性遺忘,遺忘速度是先快后慢。hl可以根據(jù)大量實驗測試確定,也可以人為確定,確保在短期興趣中歷史興趣遺忘快些,長期興趣中遺忘速度適當慢些。hl短期=2,hl長期=7,隨著時間的流逝,用戶興趣也會有對應(yīng)一些規(guī)律性變更,因此挖掘用戶模型也對應(yīng)參數(shù)調(diào)整。隨著個性化信息推薦的發(fā)展,研究人員進行了時間參數(shù)更新的模型研究,對于存在的差異也就是興趣的偏移解決策略提出了對應(yīng)方案:時間窗方法、遺忘函數(shù)方法、混合用戶模型等[14]。以上思想基本是FIFO算法原理,缺乏考慮用戶長期和短期結(jié)合的思想[14]。

        實驗中,每天用戶興趣度更新都有所變化,或增大,或減小,以第7天為例,用戶興趣更新遺忘規(guī)律如圖1所示。通過圖1可以看出,用戶在第7天時,在各類興趣度都有所減小,在體育和軍事類興趣減小均等,在旅游類興趣減小幅度大,可以推測用戶在一周后對旅游領(lǐng)域興趣明顯降低,相對不感興趣了,而對汽車和軍事類別還是比較感興趣。

        圖1 用戶興趣遺忘結(jié)果

        文中將10天設(shè)定為短期用戶興趣,具體更新結(jié)果如圖2所示。可以看出,整體衰減速度是先快后慢,先多后少的趨勢符合人們的遺忘規(guī)律。

        圖2 短期興趣更新

        3 長期用戶興趣更新學(xué)習(xí)

        3.1 長期興趣更新學(xué)習(xí)方法

        個性化原理是按照用戶所感興趣的數(shù)據(jù),根據(jù)時間的變化以及興趣的熱點來獲取用戶興趣點,用戶實際需要的數(shù)據(jù)也會根據(jù)模型而輸出具體數(shù)值[15]。該算法通過最近最久未用方法改進用戶模型,設(shè)定閾值的尺寸為L,當有多于L個興趣出現(xiàn)時,利用“訪問的局部問題”,按照“到目前為止最少使用的興趣,很可能也就是將來最少使用的興趣”的原則,把興趣點最低的值淘汰。

        3.2 長期興趣更新學(xué)習(xí)實驗

        根據(jù)原理,被移除的興趣應(yīng)該是那些在近期內(nèi)被再次訪問的可能性最低的興趣對象[16]。該算法優(yōu)于時間窗機制進行淘汰的方法,優(yōu)點是命中率較高。根據(jù)用戶在半個月內(nèi)在體育、軍事、教育、汽車、旅游和IT六類的興趣度淘汰表,可以計算出命中率,就是新加入興趣已在原用戶興趣序列中的命中次數(shù)與新加入興趣的總數(shù)之比。長期興趣更新結(jié)果如圖3所示。

        圖3 長期興趣更新

        4 實驗結(jié)果及結(jié)論

        4.1 興趣度的相對誤差

        興趣計算的準確程度需要衡量,所以采用傳統(tǒng)的相對誤差方法,如式2所示。

        (2)

        其中,E為相對誤差;V為真實興趣度;V'為測量興趣度。

        表1是用戶在體育、軍事、汽車、教育、旅游和IT六類中興趣度相對誤差實驗結(jié)果,相對誤差率越小,表明興趣度越準確,用戶興趣模型性能越好。表中顯示了用戶的興趣誤差:誤差范圍在0.011之內(nèi),興趣度計算相對誤差率較低,表明用戶興趣度的計算相對準確率較高。

        表1 誤差分析

        4.2 查詢分類的準確率

        采用傳統(tǒng)的兩個參數(shù)評價分類性能,即查準率及召回率。具體定義如式3所示。

        (3)

        其中,QT為查詢分類正確數(shù)量;QA為所有查詢數(shù)量。

        查詢串有相應(yīng)類別,文中模型的本質(zhì)是將查詢分類,以查詢分類的準確率來評價分類準確性。輸入查詢串320個,分別屬于體育、軍事、汽車、教育、旅游、IT六類,分類準確率平均值為0.86,每類分類性能如表2所示。

        表2 查詢分類準確率

        5 結(jié)束語

        闡述了用戶興趣更新學(xué)習(xí)意義和現(xiàn)有方法,基本的用戶興趣更新學(xué)習(xí)方法包括時間窗機制、遺忘因子更新學(xué)習(xí)和最近最少使用算法等。分為短期用戶興趣更新學(xué)習(xí)和長期用戶興趣更新學(xué)習(xí)。短期興趣學(xué)習(xí)方法采用遺忘因子進行更新學(xué)習(xí),長期興趣學(xué)習(xí)方法采用最近最少使用算法。通過更新學(xué)習(xí),能夠動態(tài)識別用戶興趣。評價方法包括相對誤差分析方法、傳統(tǒng)的準確率方法。相對誤差值越小,查詢串分類準確率越高,說明用戶興趣模型識別用戶興趣類別越準確。相應(yīng)地給出了實驗分析,并且具體評價了用戶興趣模型的性能。

        參考文獻:

        [1] 邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,2007,44(2):296-301.

        [2] 費洪曉,戴 弋,穆 珺,等.基于優(yōu)化時間窗的用戶興趣

        漂移方法[J].計算機工程,2008,34(16):210-211.

        [3] 戰(zhàn)守義,井 新.加入時間因素的個性化信息過濾技術(shù)[J].北京理工大學(xué)學(xué)報,2005,25(9):782-785.

        [4] 蔣 萍.基于用戶興趣挖掘的個性化模型研究與設(shè)計[D].蘇州:蘇州大學(xué),2005.

        [5] 史朝輝,王曉丹,楊建勛.一種SVM增量訓(xùn)練淘汰算法[J].計算機工程與應(yīng)用,2005,41(23):187-189.

        [6] 李 娜.基于垂直搜索引擎的農(nóng)業(yè)信息推薦關(guān)鍵技術(shù)研究[D].沈陽:沈陽農(nóng)業(yè)大學(xué),2016.

        [7] 韓春曉.中文期刊個性化搜索引擎的設(shè)計與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.

        [8] 張梅芳.基于改進PageRank算法和用戶興趣的個性化搜索研究[D].天津:河北工業(yè)大學(xué),2014.

        [9] 王 哲.一種基于位置服務(wù)的個性化美食搜索算法研究與實現(xiàn)[D].長沙:湖南大學(xué),2013.

        [10] 黃華東.基于用戶模型的個性化搜索研究[D].上海:華東理工大學(xué),2013.

        [11] 鄧曉嘉.一種基于RSS用戶興趣的個性化搜索系統(tǒng)[D].北京:北京工業(yè)大學(xué),2010.

        [12] 石志偉,劉 濤,吳功宜.一種快速高效的文本分類方法[J].計算機工程與應(yīng)用,2005,41(29):180-183.

        [13] QIU Feng,CHO J.Automatic identification of user interest for personalized search[C]//Proceedings of the 15th international conference on world wide web.Edinburgh,Scotland,UK:ACM,2006:23-26.

        [14] KOUTRIKA G,IOANNIDISY.Personalized queries under a generalized preference model[C]//Proceedings of the 21st international conference on data engineering.Tokoyo,Japan:IEEE,2005.

        [15] CLAYPOOL M,LE P,WASEDA M,et al.Implicit interest indicators[C]//Proceedings of the 6th international conference on intelligent user interfaces.Santa Fe,New Mexico,USA:ACM,2001:33-40.

        [16] SHEN Xuehua,TAN Bin,ZHAI Chengxiang.Implicit user modeling for personalized search[C]//Proceedings of the 14th ACM international conference on information and knowledge management.Bremen,Germany:ACM,2015:824-831.

        猜你喜歡
        分類用戶方法
        分類算一算
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        日韩中文字幕欧美亚洲第一区| 精品国产中文久久久免费| 日本最新一区二区三区在线视频| 国产精品一区二区三区免费视频| 成人无码av免费网站| 无码午夜成人1000部免费视频| 少妇厨房愉情理伦片免费| 亚洲精品6久久久久中文字幕| 成年毛片18成年毛片| 亚洲天堂亚洲天堂亚洲色图| 国产精品爽爽ⅴa在线观看| 女人色毛片女人色毛片18| 亚洲欧美日韩在线中文一| 男人天堂亚洲一区二区| 国产做无码视频在线观看| 久久精品中文字幕一区| 国产成人综合日韩精品无| sm免费人成虐漫画网站| 疯狂做受xxxx国产| 国产女精品视频网站免费| 国产av一区二区凹凸精品| 一本色道久在线综合色| 少妇厨房愉情理伦bd在线观看 | 麻豆成人精品国产免费| 樱花AV在线无码| 亚洲国产丝袜美女在线| 亚洲国产av无码精品无广告| 婷婷色中文字幕综合在线| 在线观看一区二区女同| av资源在线免费观看| 国产亚洲精品a片久久久| 中文字幕一区二区三区久久网站| 亚洲精品成人国产av| 国产韩国一区二区三区| 久久久中文久久久无码| 午夜家庭影院| 性视频毛茸茸女性一区二区| 日本精品视频免费观看| 国产va免费精品高清在线| 亚洲AV无码一区二区一二区色戒 | 国产不卡av一区二区三区|