亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于時間戳的新聞推薦模型

        2016-07-19 02:12:39史艷翠戴浩男石和平汪圣潔楊碩珩鐘惠軍
        計算機應(yīng)用與軟件 2016年6期
        關(guān)鍵詞:新聞標題分詞建模

        史艷翠 戴浩男 石和平 汪圣潔 楊碩珩 鐘惠軍

        (天津科技大學(xué)計算機科學(xué)與信息工程學(xué)院 天津 300457)

        ?

        一種基于時間戳的新聞推薦模型

        史艷翠戴浩男石和平汪圣潔楊碩珩鐘惠軍

        (天津科技大學(xué)計算機科學(xué)與信息工程學(xué)院天津 300457)

        摘要互聯(lián)網(wǎng)的高速發(fā)展,使用戶很難在“信息海洋”中找到感興趣的新聞,如何為用戶準確推薦滿足其需求的個性化新聞已成為當前研究的熱點和難點。為了改善新聞推薦系統(tǒng)的準確性,將時間戳信息引入到新聞推薦模型中。首先,利用分詞工具對新聞標題和新聞內(nèi)容進行分詞,并引進時間加權(quán)函數(shù)來計算用戶對單個分詞的偏好;預(yù)測用戶偏好時不僅根據(jù)用戶自身的偏好進行預(yù)測,還使用改進協(xié)同過濾方法來預(yù)測用戶偏好;最后,通過融合得到的偏好值對新聞進行推薦。實驗結(jié)果表明,該模型不僅能提高新聞推薦系統(tǒng)的準確性,還縮短了模型構(gòu)建的響應(yīng)時間。

        關(guān)鍵詞時間戳稀疏性分詞新聞推薦

        0引言

        互聯(lián)網(wǎng)的普及使用戶可以更方便地獲取信息,但互聯(lián)網(wǎng)中信息量爆炸式的增長,造成了嚴重的“信息過載”問題,用戶很難從“信息海洋”中找到需求的信息。推薦系統(tǒng)作為一項重要的信息過濾技術(shù),很早就被廣大學(xué)者視為極具潛力的解決信息過載的有效手段而被廣泛研究[1]。推薦系統(tǒng)根據(jù)用戶以往行為在進行分析后對用戶即將發(fā)生的行為進行預(yù)測。在商務(wù)領(lǐng)域,以亞馬遜為代表的電子商務(wù)網(wǎng)站就是利用推薦系統(tǒng)增加商品銷售的典型案例。推薦系統(tǒng)不僅能夠為用戶提供個性化的服務(wù),而且能夠與用戶建立長期穩(wěn)定的關(guān)系,提高用戶忠誠度,防止用戶流失[2]。

        目前,個性化推薦系統(tǒng)分為基于內(nèi)容的推薦系統(tǒng)、基于協(xié)同過濾的推薦系統(tǒng)、基于知識的推薦系統(tǒng)以及幾種推薦系統(tǒng)的混合模型等[1,3,4]。由于以上幾種算法各有所長,因此,很多推薦系統(tǒng)對上述算法進行組合以得到準確的推薦結(jié)果[5,6]。

        另外,隨時間變化,用戶偏好會發(fā)生變化[7,8]。如果不及時更新用戶偏好,使用已過時的用戶偏好為其推薦信息或服務(wù),將無法滿足其個性化的需求,造成推薦系統(tǒng)性能的下降,客戶的流失。針對該問題,研究人員將時間因素引入到推薦系統(tǒng)中以更新用戶偏好,改善推薦系統(tǒng)的性能。鄭先榮等人[9]為了及時捕捉用戶偏好的變化,借鑒心理學(xué)中人的遺忘理論,引入了線性遺忘函數(shù)對用戶評分進行加權(quán)計算。而鄧娟等人[8]考慮到用戶對項目的評分隨時間遷移對當前用戶偏好的影響會衰減,引進了按指數(shù)衰減的時間加權(quán)函數(shù)。相比于線性遺忘函數(shù),按指數(shù)衰減的遺忘函數(shù)能更好地擬合用戶偏好的衰減,因此印桂生等人[10]和張磊等人[11]分別提出了不同形式的按指數(shù)衰減的遺忘函數(shù)。在上述研究中,用戶評分被看做用戶偏好,因此可以直接進行相應(yīng)計算,但在新聞推薦系統(tǒng)中,收集到的數(shù)據(jù)只有用戶閱讀過的新聞,并沒有直接給出相應(yīng)的評分,所以在新聞推薦系統(tǒng)中首先需要挖掘用戶偏好。

        針對上述問題,本文提出一種基于時間戳信息的新聞推薦模型。首先,使用分詞工具對新聞標題以及新聞內(nèi)容進行分詞;然后,計算分詞的相對詞頻,考慮到時間因素的影響,本文參考已有文獻,引入了按指數(shù)衰減的時間加權(quán)函數(shù);根據(jù)計算得到的相對詞頻,提出計算用戶偏好的公式;根據(jù)計算得到的用戶偏好,結(jié)合基于用戶自身偏好和改進的協(xié)同過濾方法實現(xiàn)推薦;最后,使用真實數(shù)據(jù)驗證本文提出模型的有效性。

        1提出的模型

        本文提出的模型,首先根據(jù)新聞的分詞計算用戶對新聞主題的偏好,然后根據(jù)用戶自身偏好和改進的協(xié)同過濾方法分別預(yù)測用戶可能的偏好,最后對得到的用戶偏好進行融合。在模型中本文引入時間戳信息來改善推薦系統(tǒng)的性能。

        1) 計算相對詞頻

        在新聞推薦系統(tǒng)中,不能直接獲取用戶偏好,因此本文通過新聞分詞來挖掘用戶偏好。首先使用分詞工具對新聞標題和新聞內(nèi)容進行分詞。由于隨時間變化,用戶偏好會發(fā)生遷移,原有偏好對當前用戶偏好的影響比較小。因此,借鑒已有研究,采用按指數(shù)衰減的時間加權(quán)函數(shù)來調(diào)整分詞對用戶偏好的影響。時間加權(quán)函數(shù)[10]如下:

        f(ti)=e-β(ti-t0)

        (1)

        其中,t0表示當前的時間;ti表示用戶閱讀第i條新聞的時間,β為時間衰減參數(shù)。

        用戶閱讀的新聞包括新聞標題和新聞內(nèi)容兩部分,但新聞標題的分詞和新聞內(nèi)容的分詞對用戶偏好的影響是不同的。新聞標題中的分詞影響更大一些。因此,考慮到時間衰減的影響,本文提出了一種計算相對新聞分詞詞頻的方法,其公式如下:

        (2)

        其中,N1表示第i個分詞在用戶閱讀的新聞標題中出現(xiàn)的次數(shù);N2表示第i個分詞在用戶閱讀的新聞內(nèi)容中出現(xiàn)的次數(shù);N表示用戶閱讀的所有新聞標題和新聞內(nèi)容的分詞數(shù)量;tk表示第i個分詞第k次出現(xiàn)的時間,α表示權(quán)重參數(shù)。

        2) 計算用戶偏好

        由于用戶對新聞的偏好與閱讀次數(shù)之間不是線性關(guān)系,而是隨著閱讀次數(shù)的增加,用戶興趣度增長速度逐步變慢,這符合著名的經(jīng)濟學(xué)理論——邊際效應(yīng)遞減理論。即其他條件不變的情況下,如果一種投入要素連續(xù)地等量增加,那么產(chǎn)生的實際效應(yīng)的增加速度會逐步下降。因此,本文根據(jù)邊際效應(yīng)遞減理論使用式(3)來計算用戶對新聞分詞的偏好:

        (3)

        其中,a為對數(shù)的底數(shù)。當a的取值比較大時,得到的用戶偏好的范圍比較小,當a的取值比較小時,得到的用戶偏好的范圍比較大,本文中需要將用戶偏好映射到[0,1]之間的數(shù)值,而fi∈[0,1],所以設(shè)定a=2。

        在獲取了用戶對單個分詞的偏好后,可以計算出用戶對某個新聞標題的偏好,其計算公式如下:

        (4)

        其中,Nnewi表示新聞標題中包含的分詞的數(shù)量。

        3) 基于用戶自身偏好進行推薦

        由于用戶偏好受自身因素的影響,例如用戶的學(xué)歷、興趣等。因此可以根據(jù)用戶的偏好來預(yù)測用戶可能的偏好。預(yù)測步驟如下:

        (1) 根據(jù)目標用戶最后閱讀新聞的時間,選擇近三天發(fā)布的新聞標題。

        (2) 根據(jù)計算得到的分詞的偏好,根據(jù)式(4)計算用戶對已選擇出的新聞標題的偏好。

        (3) 對計算得到的新聞標題排序,選擇出偏好最高的前5個新聞標題。

        但是當給出的新聞標題中不包含用戶已閱讀過的分詞時,根據(jù)式(3)預(yù)測的新聞標題的偏好會是0。因此,基于用戶自身偏好的預(yù)測方法,不能發(fā)現(xiàn)用戶對新的新聞主題的偏好。為了彌補基于用戶自己偏好預(yù)測方法的缺點,本文還結(jié)合使用了改進的協(xié)同過濾方法。

        4) 基于改進的協(xié)同過濾進行推薦

        (1) 根據(jù)其他用戶和目標用戶瀏覽的新聞的共同的分詞數(shù)量選擇近似鄰居。由于本數(shù)據(jù)集中用戶閱讀的新聞數(shù)量比較少,在尋找近似鄰居時,不是以新聞標題作為一個項目,而是將單個分詞作為一個項目。例如用戶A和用戶B,他們分別讀了關(guān)于馬航的5條新聞,但相同的新聞標題沒有。這并不能說明A和B偏好不相似,因此,在尋找近似鄰居時,使用單個的分詞作為項目是合理的。

        (2) 在計算用戶之間的相似度時,為了提高計算的準確性,本文考慮了用戶之間共同分詞數(shù)量對相似度的影響。假設(shè)用戶A和B分詞分別為100和200個,且共同的分詞只有一個,計算得到的偏好相等,那么根據(jù)傳統(tǒng)的相似度計算公式得到的相似度可能比較高,但顯然,這是不合理的。因此本文使用改進的皮爾森相關(guān)系數(shù)來計算用戶之間的相似度,其公式如下:

        (5)

        其中,Sc表示用戶ui和uj閱讀的新聞標題以及新聞內(nèi)容的共同分詞;pui,sk表示用戶ui對分詞Sk的偏好;θ用戶度量共同分詞數(shù)量的影響,其計算公式如下:

        (6)

        (7)

        其中,Sui表示用戶ui閱讀的新聞標題分詞的集合。

        (3) 根據(jù)計算得到的相似度,選擇前K個相似度最高的用戶作為目標用戶的近似鄰居。

        (4) 由于新聞的特點,用戶一般會閱讀最近發(fā)生的新聞。因此,為了減少計算復(fù)雜度,本文根據(jù)目標用戶最后閱讀新聞的時間,從近似鄰居最近閱讀的新聞中選擇出目標用戶沒有閱讀過,且新聞的發(fā)布時間和目標用戶最后閱讀新聞的時間不超過三天的新聞標題進行預(yù)測。

        (5) 根據(jù)近似鄰居的偏好預(yù)測目標用戶的偏好。

        (8)

        其中,Un表示用戶ui的近似鄰居的集合;sk∈Ss,Ss表示選擇出的符合要求的新聞標題的集合。

        (6) 對于新用戶,本文根據(jù)其余用戶的偏好以及新聞的發(fā)布時間,選擇出最新的熱門新聞推薦給新用戶。

        (7) 對于新推出的新聞,一方面通過分詞,來計算用戶對該新聞的偏好,另一方面將該新聞推薦給時尚型用戶。根據(jù)用戶閱讀新聞的時間與新聞發(fā)表的時間平均差來判斷用戶是否為時尚型用戶,其計算公式如下:

        (9)

        其中,Nn表示用戶ui閱讀的新聞標題的數(shù)量,即Nn=|Sr|,Sr表示用戶閱讀的新聞標題的集合;tsk表示新聞sk發(fā)表的時間,sk∈Sr;tui,sk表示用戶ui閱讀新聞sk的時間戳。如果計算得到的平均時間差小于給定的閾值,則判定用戶為時尚型用戶。

        (8) 根據(jù)預(yù)測得到的偏好,選擇偏好最高的前5個進行推薦。

        5) 推薦結(jié)果融合

        由于基于用戶自身偏好的推薦和基于協(xié)同過濾的推薦各有優(yōu)缺點,因此,本文結(jié)合兩種方法進行推薦。將基于用戶自身偏好的推薦結(jié)果和基于協(xié)同過濾的推薦結(jié)果進行融合,選擇出偏好最高的5個新聞標題推薦給目標用戶。

        2實驗驗證和結(jié)果分析

        1) 數(shù)據(jù)集

        使用爬蟲工具從搜狐網(wǎng)站上爬取10 000個用戶在1個星期內(nèi)閱讀新聞的行為信息。并對用戶、新聞進行編號,另外還抓取了新聞發(fā)表的時間,以及用戶閱讀新聞的時間戳信息。經(jīng)統(tǒng)計分析該數(shù)據(jù)集包含7156條新聞,每個用戶閱讀的新聞量如表1所示。

        表1 用戶看新聞總量的統(tǒng)計

        2) 新聞標題及內(nèi)容分詞

        本文使用分詞工具——NLPIR漢語分詞系統(tǒng)對新聞標題和新聞內(nèi)容進行分詞。但該系統(tǒng)不允許一次性對超過四句話的文本進行分詞。為提升效率對該軟件進行了改良。通過對文件編碼進行替換來適配漢語字符特有的寬編碼以及應(yīng)用Windows核心編程API技術(shù)完成兩個進程間的通信需求。制作出了一個全新的文本讀寫軟件,將網(wǎng)上的分詞系統(tǒng)內(nèi)置其中,可以通過循環(huán)控制和進程間通信的手段一次性完成所有的分詞工作。

        3) 評價標準

        本文采用F值作為評價指標,F(xiàn)值不僅考慮了準確率,還考慮了召回率,可以更準確地度量推薦結(jié)果。其計算公式如下:

        (10)

        其中,P表示準確率,R表示召回率,它們的計算公式分別如下:

        (11)

        其中,Na表示推薦的結(jié)果是用戶閱讀的新聞,Nl表示所有推薦的新聞標題的數(shù)量。

        (12)

        其中,NT表示測試集中所有的新聞標題的數(shù)量。

        4) 結(jié)果分析

        (1) 參數(shù)α的影響

        圖1 當參數(shù)α取不同值時的推薦結(jié)果

        從圖1可知,當α=1.3時,推薦結(jié)果最好。這是因為,當α=1時,即分詞沒有區(qū)分是新聞標題中的分詞還是新聞內(nèi)容中的分詞,所以推薦結(jié)果的準確性低;1<α<1.3時,新聞標題中的分詞所占比重逐漸增大,所以準確性提高;當α>1.3時,由于新聞標題中的分詞所占比重過大,所以推薦的準確性開始降低。根據(jù)實驗結(jié)果,在后續(xù)試驗中,設(shè)定α=1.3。

        (2) 參數(shù)β的影響

        圖2 當參數(shù)β取不同值時的推薦結(jié)果

        從圖2可知,當β=0.7時,得到的推薦結(jié)果最好。這是因為,當β取值比較小時,衰減速度比較慢,所以一些過時的偏好對現(xiàn)有偏好影響比較大,導(dǎo)致推薦結(jié)果的準確性降低;當β取值比較大時,用戶偏好衰減速度過快,使一些偏好對現(xiàn)有偏好的影響降低,同樣帶來了推薦結(jié)果準確性的降低。綜上分析,在后續(xù)實驗中,設(shè)定β=0.7。

        (3) 不同推薦方法的比較。選擇傳統(tǒng)的協(xié)同過濾算法作為基準對比方法,即method1,本文提出的建模方法為method2,分別進行建模,對比推薦效果。實驗結(jié)果如圖3和圖4所示。

        圖3 當平均時間差閾值為不同值時,不同建模方法的F值對比

        圖4 當平均時間差閾值為不同值時,不同建模方法的建模時間對比

        根據(jù)圖3和圖4可知,當平均時間差閾值為1天時,獲得結(jié)果最好,這是由新聞的實時性特點決定的。因此一般時尚型用戶會在新聞發(fā)布的第一時間進行瀏覽。根據(jù)圖3可知,與基于傳統(tǒng)的協(xié)同過濾算法的推薦系統(tǒng)相比,本文提出的模型在F值最好的情況上提高了0.0322;根據(jù)圖4可知,本文提出的建模方法,在建模時間上比基于傳統(tǒng)的協(xié)同過濾的推薦系統(tǒng)縮短了23.39分鐘。這是因為本文提出的建模方法不僅考慮了時間因素的影響,在使用協(xié)同過濾時考慮了用戶共同偏好數(shù)量的影響,并且在建模過程中做了一些預(yù)處理操作。改進方法的預(yù)處理因為是一些統(tǒng)計計算,因此其計算復(fù)雜度比較小,而傳統(tǒng)的方法需要計算目標用戶和其他所有用戶的相似度,所以計算的復(fù)雜度比較大。因此雖然改進方法增加了預(yù)處理操作,但總的計算復(fù)雜度卻減小了。

        3結(jié)語

        為了提高新聞推薦的準確性,本文將時間戳信息引入到新聞推薦模型中。首先,在計算用戶對單個分詞的偏好時,使用了時間加權(quán)函數(shù)來度量時間對用戶偏好的影響;在為用戶推薦新聞時,通過融合基于用戶自身的偏好的推薦結(jié)果和利用改進的協(xié)同過濾算法推薦的結(jié)果來實現(xiàn)推薦。實驗結(jié)果表明,本文提出的模型有效地提高了新聞推薦系統(tǒng)的準確性,并縮短了模型構(gòu)建的響應(yīng)時間。

        參考文獻

        [1] 許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,2009,20(2):350-362.

        [2] 劉魯,任曉麗.推薦系統(tǒng)研究進展及展望[J].信息系統(tǒng)學(xué)報,2008(1):82-90.

        [3] 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學(xué)進展,2009,19(1):1-15.

        [4] 王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012,48(7):70-80.

        [5] 喬向杰,張凌云.近十年國外旅游推薦系統(tǒng)的應(yīng)用研究[J].旅游學(xué)刊,2014,29(8):117-127.

        [6] 李忠俊,周啟海,帥青紅.一種基于內(nèi)容和協(xié)同過濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計算機科學(xué),2009,36(12):142-145.

        [7] 柯良文,王靖.基于用戶特征遷移的協(xié)同過濾推薦[J].計算機工程,2015,41(1):37-43.

        [8] 鄧娟,陳西曲.基于用戶興趣變化的協(xié)同過濾推薦算法[J].武漢工業(yè)學(xué)院學(xué)報,2013,32(4):48-51.

        [9] 鄭先榮,曹先彬.線性逐步遺忘協(xié)同過濾算法的研究[J].計算機工程,2007,33(6):72-73.

        [10] 印桂生,崔曉暉,馬志強.遺忘曲線的協(xié)同過濾推薦模型[J].哈爾濱工程大學(xué)學(xué)報,2012,33(1):85-90.

        [11] 張磊.基于遺忘曲線的協(xié)同過濾研究[J].電腦知識與技術(shù),2014(12):67-72.

        A NEWS RECOMMENDER MODEL BASED ON TIMESTAMP

        Shi YancuiDai HaonanShi HepingWang ShengjieYang ShuohengZhong Huijun

        (School of Computer Science and Information Engineering,Tianjin University of Science and Technology,Tianjin 300457,China)

        AbstractRapid development of Internet makes it difficult for users to find the interested news from “information ocean”. It has been the hot issue and challenge in current studies that how to accurately recommend the personalised news to users meeting their requirements. In the paper, we introduced the timestamp into news recommendation model in order to improve the accuracy of the news recommender system. First, we employed the word segmentation tool to segment the news titles and news contents into words, and introduced the time weighting function to compute the preference of users on individual word segmentation. When predicting users preference, we were not just based on the preference of users themselves, the improved collaborative filtering method was also applied in prediction. Finally, the news recommendation was achieved by integrating the derived preference values. Experimental results showed that the proposed model could not only improve the accuracy of news recommender system, it also shortened the responding time of model building as well.

        KeywordsTimestampScarcityWord segmentationNews recommendation

        收稿日期:2015-01-27。國家自然科學(xué)基金項目(61402331)。史艷翠,講師,主研領(lǐng)域:用戶偏好獲取,推薦系統(tǒng),上下文感知,社會網(wǎng)絡(luò)。戴浩男,本科生。石和平,本科生。汪圣潔,本科生。楊碩珩,本科生。鐘惠軍,本科生。

        中圖分類號TP3

        文獻標識碼A

        DOI:10.3969/j.issn.1000-386x.2016.06.010

        猜你喜歡
        新聞標題分詞建模
        聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        談新聞標題的現(xiàn)實性
        活力(2019年22期)2019-03-16 12:49:06
        網(wǎng)絡(luò)新聞標題與報紙新聞標題的對比
        活力(2019年22期)2019-03-16 12:48:00
        基于PSS/E的風(fēng)電場建模與動態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對稱半橋變換器的建模與仿真
        值得重視的分詞的特殊用法
        無意間擊中幽默的新聞標題
        喜劇世界(2016年9期)2016-08-24 06:17:26
        淺談新聞標題的裝扮技巧
        新聞傳播(2015年22期)2015-07-18 11:04:06
        三元組輻射場的建模與仿真
        少妇被猛男粗大的猛进出| 精品精品国产一区二区性色av| 精品国产一区二区三区av免费| 国产a√无码专区亚洲av| 国产亚洲日韩在线三区| 日本加勒比东京热日韩| 品色堂永远的免费论坛| 97超级碰碰碰久久久观看| av一区二区三区有码| 日本丰满老妇bbw| 日韩精品极品视频在线观看免费| 久久久久人妻一区精品色欧美| 色丁香色婷婷| 精品人妻中文字幕一区二区三区| 人妻久久一区二区三区| 久久久久久九九99精品| 男女男在线精品网站免费观看| 久久久久亚洲女同一区二区| 亚洲精品国产综合久久一线| 精品亚洲在线一区二区| 亚洲无av在线中文字幕| 亚洲色无码播放| 亚洲AV无码AV色| 在线中文字幕一区二区| 国产h视频在线观看| 亚洲香蕉视频| 无码伊人久久大蕉中文无码| 国产三级不卡视频在线观看| 久久只精品99品免费久23| 欧产日产国产精品精品| 亚洲 暴爽 AV人人爽日日碰| 国产毛片视频一区二区三区在线| 亚洲av综合av一区| 人妻无码中文专区久久五月婷| 国产高跟丝袜在线诱惑| 高潮精品熟妇一区二区三区| 国产伦人人人人人人性| 无码不卡高清毛片免费| 国产精品成人有码在线观看| 久久精品第九区免费观看| 丰满人妻熟妇乱又伦精品软件 |