亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新聞個性化推薦的模型設計

        2017-12-26 18:44:26劉亞卓劉海燕鄭斯文
        環(huán)球市場信息導報 2017年46期
        關鍵詞:文本用戶模型

        ◎劉亞卓 劉海燕 鄭斯文

        新聞個性化推薦的模型設計

        ◎劉亞卓 劉海燕 鄭斯文

        用戶在面對海量新聞時,個性化的推薦系統(tǒng)可以通過分析用戶行為來預測用戶的閱讀偏好,使其能夠盡快地找到用戶可能感興趣的信息。本文圍繞新聞推薦系統(tǒng)中文本內容挖掘和用戶興趣表達的問題,應用混合模型對新聞個性化推薦的模型設計進行了研究。

        隨著網絡信息化的飛速發(fā)展,信息的數(shù)量和種類均呈爆炸式增長,逐步出現(xiàn)信息過載和泛濫的現(xiàn)象,用戶難以從海量信息中及時找到自己關注的內容。個性化推薦理論和技術的誕生,為解決該問題提出了很好的解決辦法,它是一種嶄新的智能﹑高效的信息服務方式,通過分析用戶的歷史行為數(shù)據(jù),預測用戶可能感興趣的需求,準確為用戶提供個性化的信息推薦服務。

        新聞內容模型

        新聞的文本特征可以通過新聞隱藏的主題﹑關鍵詞﹑標簽來表示,新聞主題聚類通過LDA挖掘得到。通過LDA主題模型訓練出新聞主題分類,以及每篇文本的主題分布和主題的詞分布。實現(xiàn)步驟為先做分詞處理,然后生成向量,根據(jù)向量去做主題聚類。

        數(shù)據(jù)預處理。新聞文本是以網頁html標簽的形式存在的,由于格式﹑規(guī)范等各種不一致,通過文本預處理,轉化為計算機可直接處理的規(guī)范化格式。最關鍵的步驟就是分詞,提取有價值的詞,去除停用詞,降低數(shù)據(jù)維度,為后續(xù)的文本分類工作減輕壓力,提高效率。中文分詞相對英文分詞要復雜,本文通過現(xiàn)有CJK規(guī)范為每個詞之間插入空格,然后通過Mahout自帶英文分詞技術完成該過程。

        LDA主題聚類模型。LDA是一個三層貝葉斯模型,主題的分布和詞的分布不是確定的,是一種對文本進行無監(jiān)督聚類的方法。假設文本是由一系列潛在主題隨機混合而成,主題是由詞匯表中所有的詞混合而成,不同文本的主要區(qū)別在于其主題混合比例不同 。在訓練集合中,通過LDA模型計算每個文本都包含一個主題數(shù)維度的向量,這個向量表示每個主題在該篇文章中的出現(xiàn)概率,概率越高,這個主題在該文章中的權重就越大。并通過對每個詞在主題中的概率計算,完成關鍵詞的概率分布。根據(jù)以上原理計算入庫新聞的主題分布,表示為:z={(主題1,概率1),(主題2,概率2),…,(主題p,概率p)}

        混合模型生成。為了更準確計算新聞的相似性,引入關鍵詞和標簽屬性生成向量。關鍵詞可以通過TF-IDF(詞頻-逆向文檔頻率)的方法,計算特征詞權重,表示為:d={(關鍵詞1,概率1),(關鍵詞2,概率2),…, (關鍵詞n,概率n)} ,n代表所有關鍵詞的個數(shù)。標簽屬性按照欄目類別劃分,欄目的新聞內容具有一定的相似性,標簽向量表示為:t={標簽1,標簽2,…,標簽m} ,m代表所有標簽的個數(shù)。

        結合以上內容設計新聞內容的混合模型如下所示:M=k1zi+ k2dj+ k3tm(1)其中,k1代表主題模型計算得信息主題特征的權值,k2代表關鍵詞特征的權值,k3代表標簽的權值。

        用戶興趣模型

        將用戶的隱含主題偏好與關鍵詞興趣相結合,考慮新聞的時效性,構建完整的個性化興趣偏好的用戶興趣模型,準確﹑完整的用戶興趣模型可以很好的提高推薦準確性。用戶興趣模型表示方式為:F={Z,K,T }(2)其中,Z﹑K﹑T分別表示用戶主題偏好向量﹑關鍵詞權值序列和新聞標簽關注程度,取值范圍為0到1的實數(shù)。下面對模型的主要內容進行介紹:

        (1)用戶主題偏好。用戶主題偏好通過訪問過的新聞主題聚類得出,由一組向量表示:Z={主題1,主題2,…,主題y},其中,y代表所有主題的個數(shù),屬性值代表用戶對各主題的偏好程度。

        (2)關鍵詞權值序列。用戶在瀏覽新聞的過程中,會對含有某些關鍵詞的新聞感興趣,通過向量空間和TF-IDF計算關鍵詞的序列及其權值,表示為:

        K={(關鍵詞1,概率1),( 關鍵詞2,概率2),…,( 關鍵詞j,概率j)}

        其中,j代表用戶感興趣的關鍵詞的個數(shù),并用權值表示用戶對各關鍵詞的感興趣的程度。

        (3)新聞標簽關注程度。用戶對新聞標簽的關注程度由一組向量表示:T={標簽1,標簽2,…標簽q},其中,q代表所有標簽的個數(shù),Tc代表用戶對第c個標簽的關注程度,是一個權值,計算公式表示為:Tc=,So表示用戶對該標簽下新聞的閱讀量,S表示用戶全部的閱讀量。

        (4)用戶興趣度更新。用戶瀏覽網頁的行為和習慣反映了用戶的興趣特征,興趣偏好是一個逐漸變化的過程,當某一個興趣得不到加強,隨著時間的推移興趣會逐漸減弱,而且很難與用戶偶然性的瀏覽相區(qū)分,通過添加衰減因子更新新聞興趣主題特征權重的方法更新用戶對新聞主題的新鮮度,公式如下所示:Zi=λ(t)Z′i其中,Zi表示主題i新的權值;λ(t)為時間衰減因子;Z′i表示其原有權值。定義用戶的興趣衰減系數(shù)如下公式所示:λ(t)=ek(t-t0)(0<k<1)

        k值的大小決定了特征值權重的衰減速度。k值越大,衰減速度越快。t表示現(xiàn)在訪問時間,t0表示上次訪問時間。

        新聞推薦生成

        用戶推薦新聞列表由新聞內容模型與用戶興趣模型計算向量相似性,通過余弦相似度方法實現(xiàn),計算結果在0~1之間,結果越接近1,相似度越大,通過定義一個閾值判斷新聞的推薦結果。本文定義閾值為0.7,通過有效新聞的推薦效果來驗證閾值是否正確,如果對用戶推薦新聞篇數(shù)過少或者推薦用戶范圍過小,將值調整為0.6,以此類推進行判斷。

        另外,在新聞推薦中,為用戶推薦還未產生興趣偏好的新聞(未通過主題模型計算出的新聞),防止推薦主題過分收斂,增加推薦的多樣性和新穎性。基于ItemCF的關鍵是找到與被訪問新聞a“最近鄰”的相似的新聞b。相似度的值越大,則新聞a與新聞b就越相似,那么在預測的新聞推薦的過程中,新聞b的評分的權重值就越大。同樣采用余弦相似度算法來計算新聞之間的相似度。計算結果按權值從高到低排序,推薦其中的前3個插入新聞興趣推薦列表中一同給用戶。如果用戶對這類新聞非常感興趣,會隨著用戶的訪問行為改變用戶的主題偏好。

        文章簡要描述了一個新聞推薦系統(tǒng)的主要架構和模塊,新聞文本特征模型﹑用戶興趣模型和新聞推薦的生成。本文所做的工作十分有限,要進一步完善用戶興趣表達,提高新聞文本主題隱形含義的更精準表達,滿足用戶對新聞推薦服務的差異化需求,提高個性化新聞推薦的準確率及用戶滿意度,還有很多問題有待研究。

        陸軍裝甲兵學院信息管理中心)

        猜你喜歡
        文本用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        欧美日韩电影一区| 中文字幕人妻在线中字| 天天躁日日躁狠狠很躁| 国产在视频线精品视频www666| 精品国产亚洲av成人一区| 国产性感丝袜在线观看| 亚洲人成77777在线播放网站 | 亚洲av综合日韩精品久久久| 日韩精品免费在线视频一区| 亚洲av无码成人精品区狼人影院| 天堂在线www中文| 国产粉嫩嫩00在线正在播放| 久久精品女同亚洲女同 | 日日躁夜夜躁狠狠久久av| 熟妇人妻不卡中文字幕| 自拍偷拍韩国三级视频| 日韩精品无码一区二区| 亚洲 欧美 国产 日韩 精品| 麻豆成年视频在线观看| 久久精品国产亚洲av四叶草| 2021国产精品国产精华| 综合无码综合网站| 亚洲天堂一区二区三区| 中文字幕日韩欧美一区二区三区 | 一本色道久久综合亚洲精品蜜臀 | 欧美疯狂做受xxxxx高潮| 18禁黄无遮挡免费网站| 中文字幕av长濑麻美| 性欧美老人牲交xxxxx视频| 一本久到久久亚洲综合| 男生自撸视频在线观看| 国产综合色在线视频区| 国产精品久久久久久久成人午夜| 久久爱91精品国产一区| 成熟人妻换xxxx| 亚洲av无码精品色午夜蛋壳| 欧美丝袜秘书在线一区 | 国产网友自拍视频在线观看| 天天做天天爱夜夜爽| 抽插丰满内射高潮视频| 啪啪视频免费看一区二区|