亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于內(nèi)容的新聞推薦系統(tǒng)實(shí)例

        2015-12-08 11:51:55代晨旭周熙晨
        電腦知識與技術(shù) 2015年25期
        關(guān)鍵詞:用戶畫像推薦系統(tǒng)詞頻

        代晨旭++周熙晨

        摘要:互聯(lián)網(wǎng)的飛速發(fā)展產(chǎn)生了"信息過載"問題,新聞數(shù)量的爆炸性增長使得讀者受到“信息迷航”問題的困擾。為解決這一問題新聞推薦系統(tǒng)應(yīng)運(yùn)而生。文章針對該系統(tǒng)的關(guān)鍵部分即新聞特征值提取和用戶畫像做了深入的研究。采用了TFIDF進(jìn)行新聞分詞及特征值提取,將新聞?dòng)每臻g向量模型表示并利用PU Learning來解決用戶畫像時(shí)負(fù)反饋數(shù)據(jù)難以得到的問題。最后以實(shí)例證明了該方法的可行性。

        關(guān)鍵詞:推薦系統(tǒng);詞頻-逆文檔概率;用戶畫像;負(fù)反饋數(shù)據(jù);PU學(xué)習(xí)

        中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)25-0036-03

        An Instance of a Content-based News Recommendation System

        DAI Chen-xu, ZHOU Xi-chen

        (School of Information Engineering, North China University of Science and Technology, Tangshan 063009, China)

        Abstract: The development of the Internet is always followed by several issues, such as Information overload and ‘information lost. Those issues bother Internet users among daily lives due to huge numbers of information, as so called ‘information explosion. In order to solve the problem, news recommendation system appeared. It makes a deep research on the key parts, extract of News feature value and User portrait, of the system. TFIDF is used to extract news words and feature extraction, using spatial vector model of news, and Learning PU is used to solve the problem of negative feedback data is difficult to be obtained in user portrait. Finally, the feasibility of the method is demonstrated by an example.

        Key words: recommended system; TF-IDF; user portrait ; negative feedback data ; PU learning

        隨著網(wǎng)絡(luò)信息量的爆炸性增長,推薦系統(tǒng)成為研究熱點(diǎn),個(gè)性化新聞推薦得到了人們的重視,個(gè)性化新聞推薦系統(tǒng)紛紛出現(xiàn)。目前比較主流推薦算法有基于協(xié)同過濾的推薦和基于內(nèi)容的推薦[1]等。由于協(xié)同過濾是根據(jù)用戶對新聞的訪問記錄來進(jìn)行推薦的,只有被閱讀過的新聞才能被推薦,然而新聞的生命周期十分短暫,用戶的訪問矩陣會相當(dāng)稀疏,這對于時(shí)效性要求比較高的新聞推薦系統(tǒng)是相當(dāng)嚴(yán)重缺陷,所以采用基于內(nèi)容的推薦。

        基于內(nèi)容推薦,對分別對新聞和用戶建模,然后把與用戶歷史上閱讀的新聞相似的新聞推薦給用戶。一般來說新聞和用戶建模有兩種方式:向量空間模型和淺層語義模型。向量空間模型有詞袋模型和詞頻-逆文檔概率TFIDF (Term Frequency Invert Document Frequency),淺層語義模型有概率潛在語義索引PLSI (Probabilistic Latent Semantic Indexing)和潛在狄利克雷分布LDA(Latent Dirichlet Allocation)。

        1 關(guān)鍵技術(shù)

        基于內(nèi)容的推薦方法一般包括以下三步:

        1)新聞特征提?。涸谛侣劦膬?nèi)容中抽取一些特征,用于結(jié)構(gòu)化表示新聞;

        2)用戶畫像:即用戶建模,利用一個(gè)用戶過去喜歡(及不喜歡)的新聞的特征數(shù)據(jù),來學(xué)習(xí)出此用戶的喜好特征;

        3)推薦生成:通過計(jì)算前面得到的用戶畫像與候選新聞的特征相似度,為此用戶推薦一組用戶喜好最相近的新聞。

        新聞系統(tǒng)流程如圖1所示:

        1.1 新聞特征提取

        大多數(shù)的基于內(nèi)容的推薦系統(tǒng)在處理文字類item特征時(shí),都會嘗試將一篇文章映射到量空間模型VSM(Vector Space Model),在模型中,每一篇文章都被表示為一個(gè)n維的向量,每一維都對應(yīng)詞典中的一個(gè)詞,這時(shí)文章會被表示成為一個(gè)包含每個(gè)詞的權(quán)重的向量。新聞特征向量生成流程如圖2所示。

        圖2 新聞特征向量生成流程

        為了得到新聞的特征值,首先要對新聞進(jìn)行分詞處理,將其劃分成若干詞條的組合。將新聞表示為向量空間模型帶來了兩個(gè)問題,即每個(gè)詞的權(quán)重和向量之間的相似度計(jì)算,詞頻-逆文檔概率TFIDF[2] 被普遍用在處理各種自然語言的應(yīng)用中來解決這個(gè)問題。

        1.2 用戶畫像學(xué)習(xí)

        學(xué)習(xí)一個(gè)用戶畫像就是為用戶建模,在這里它可以被看作一個(gè)二值分類過程,每一個(gè)文本都被分類為喜歡和不喜歡。因此,我們有了一個(gè)分類記號[C={c+,c-}] ,其中[c+]表示的是正例文本類,[c-]表示的是負(fù)例文本類。我們利用用戶對新聞的歷史數(shù)據(jù)對新聞畫像。

        如果我們擁有用戶的顯式反饋,那傳統(tǒng)的監(jiān)督學(xué)習(xí)方法就能應(yīng)付,但是往往用戶不會提供很多顯示反饋,如何使用隱式反饋來做推薦是基于內(nèi)容的推薦系統(tǒng)的難題,半監(jiān)督學(xué)習(xí)在被Bing Liu等[4]發(fā)明出來用以在僅有隱式反饋時(shí)對數(shù)據(jù)進(jìn)行訓(xùn)練。

        PU Learning是一系列的概率推導(dǎo),首先要生成合理的負(fù)數(shù)據(jù),然后用這些負(fù)數(shù)據(jù)進(jìn)行分類。有很多生成負(fù)數(shù)據(jù)的方法,如從無標(biāo)注數(shù)據(jù)中隨機(jī)的選取一些作為負(fù)數(shù)據(jù),基于此構(gòu)建分類器,如果負(fù)數(shù)據(jù)選擇的足夠隨機(jī),得到的效果往往都不錯(cuò)。其中最有名的方法是SPY間諜算法,該方法將正數(shù)據(jù)中的很小一部分當(dāng)作負(fù)數(shù)據(jù)來做分類,在這樣的數(shù)據(jù)上應(yīng)用一些常見的分類器,將無標(biāo)注的數(shù)據(jù)進(jìn)行分類。最后通過比較設(shè)定閾值來得到負(fù)數(shù)據(jù),本系統(tǒng)采用SPY算法。

        1.3 推薦生成

        推薦是應(yīng)用用戶畫像中得到的分類器應(yīng)用到未知新聞的過程。通過將用戶興趣預(yù)測值高于某一閾值的新聞推薦給用戶就可以達(dá)到很好的效果。

        2 系統(tǒng)設(shè)計(jì)

        2.1 系統(tǒng)架構(gòu)

        為了讓新聞推薦系統(tǒng)處理其復(fù)雜的流程,本系統(tǒng)需要被設(shè)計(jì)成多個(gè)子模塊用于處理不同的事務(wù)。主要分為三個(gè)模塊,訓(xùn)練模塊、推薦模塊和服務(wù)器模塊。系統(tǒng)的模塊化架構(gòu)如圖3所示。

        為了便于實(shí)現(xiàn),首先我們需要獲取訓(xùn)練新聞資源,并將其存放到新聞服務(wù)器端。然后,訓(xùn)練模塊從新聞服務(wù)器端獲取訓(xùn)練指令,開始其訓(xùn)練周期。訓(xùn)練中需要調(diào)用內(nèi)部的新聞?dòng)?xùn)練模塊和用戶訓(xùn)練模塊。

        新聞?dòng)?xùn)練模塊需要將讀取新聞串,構(gòu)建新聞字典,完成對新聞的分詞,轉(zhuǎn)化到詞袋模型,利用TFIDF轉(zhuǎn)化到TagSpace,最后利用SVD 矩陣分解完成特征向量轉(zhuǎn)化。用戶訓(xùn)練模塊需要將用戶的數(shù)據(jù)根據(jù)歷史瀏覽新聞數(shù)據(jù)構(gòu)建出用戶矩陣。根據(jù)用戶矩陣進(jìn)行訓(xùn)練,構(gòu)建出分類器,該分類器被用于推薦模塊給用戶進(jìn)行推薦。

        推薦模塊需要及時(shí)和新聞服務(wù)器進(jìn)行交互,與服務(wù)器的交互模塊利用的是socket編程,為推薦模塊和訓(xùn)練模塊分別創(chuàng)建一個(gè)socket,等待新聞服務(wù)器與其通信。

        新聞服務(wù)器將采集的待推薦新聞交遞給推薦模塊。推薦模塊利用訓(xùn)練模塊準(zhǔn)備好的分類器對用戶進(jìn)行推薦并把推薦結(jié)果存放到Redis數(shù)據(jù)庫,Redis數(shù)據(jù)庫將推薦結(jié)構(gòu)反饋到新聞服務(wù)器端,新聞服務(wù)器端根據(jù)此給客戶端以反饋。

        2.2 推薦結(jié)果

        推薦模塊需要從新聞服務(wù)器那里獲取數(shù)據(jù),訓(xùn)練模塊那里獲取分類器,使用分類器對新聞數(shù)據(jù)進(jìn)行預(yù)測。在該模塊中需要處理的問題是將訓(xùn)練結(jié)果的矩陣數(shù)據(jù)轉(zhuǎn)化成新聞服務(wù)器可用的推薦結(jié)果。

        用系統(tǒng)實(shí)現(xiàn)將用戶興趣度大于閾值0.7的新聞推薦給用戶,推薦結(jié)果如圖4:

        3 結(jié)束語

        本系統(tǒng)以Cent OS 5.5為運(yùn)行平臺,使用Python實(shí)現(xiàn)系統(tǒng)。除此之外,為了提高系統(tǒng)的實(shí)時(shí)性,我們使用的redis內(nèi)存數(shù)據(jù)庫實(shí)現(xiàn)數(shù)據(jù)存儲。

        系統(tǒng)對基于內(nèi)容的新聞推薦系統(tǒng)的關(guān)鍵技術(shù)及系統(tǒng)架構(gòu)進(jìn)行研究,并以Cent OS 5.5為運(yùn)行平臺,使用Python語言實(shí)現(xiàn)了一種新的基于內(nèi)容的新聞推薦系統(tǒng)實(shí)例,證明了該方案的可靠性。為新聞推薦系統(tǒng)的研究工作,提供了一定的幫助。

        參考文獻(xiàn):

        [1] 張宜浩. 基于半監(jiān)督學(xué)習(xí)的個(gè)性化推薦研究[D]. 重慶: 重慶大學(xué), 2014.

        [2] Juan Ramos. Using TF-IDF to Determine Word Relevance in Documents Queries[M]. Industrial Practice and Experience, 2001: 1-16.

        [3] Salton G, McGill M J. Introduction to Modern Information Retrieval[M].NewYork: McGraw Hill, 1983: 147.

        [4] Bing Liu. Web Data Mining, Exploring Hyperlinks, Contents, and Usage Data[M].2nd ed. Springer, 2010: 56-321.

        猜你喜歡
        用戶畫像推薦系統(tǒng)詞頻
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        把聲音的魅力發(fā)揮到極致
        中國廣播(2017年1期)2017-02-21 13:40:10
        基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
        基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
        個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
        移動(dòng)用戶畫像構(gòu)建研究
        淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
        基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷
        移動(dòng)互聯(lián)網(wǎng)下手機(jī)用戶使用行為特征的研究
        詞頻,一部隱秘的歷史
        久久久久久国产福利网站| 人妻激情偷乱视频一区二区三区| 久久亚洲欧美国产精品| 中国熟妇人妻xxxxx| 精品无码久久久久久久久粉色| 久久久9色精品国产一区二区三区| 色偷偷亚洲精品一区二区| 日产一区二区三区免费看| 97精品久久久久中文字幕| 国产成人亚洲精品无码h在线| 亚洲av成人一区二区三区网址| 日韩一区二区,亚洲一区二区视频| 六月婷婷亚洲性色av蜜桃| 久久精品国产亚洲av麻豆长发 | 成人偷拍自拍在线视频| 免费观看人妻av网站| 97精品国产一区二区三区| 无码人妻丰满熟妇片毛片 | 羞羞视频在线观看| 国产免费网站看v片元遮挡| 国产成人亚洲合色婷婷| 加勒比精品视频在线播放| 国产精品9999久久久久仙踪林| 亚洲精品久久国产高清情趣图文| 91精品国产91久久久无码色戒| 蜜桃激情视频一区二区| 国产一区亚洲二区三区| 亚洲国产av精品一区二区蜜芽| 丰满少妇被猛烈进入无码| 玩弄放荡人妻一区二区三区| 久久伊人亚洲精品视频 | 漂亮人妻被中出中文字幕久久| 亚洲国产精品久久久天堂不卡海量| 女同av免费在线播放| 精品露脸熟女区一粉嫩av| 狠狠的干性视频| 抽插丰满内射高潮视频| 亚洲天堂av社区久久| 亚洲综合在线观看一区二区三区| 三年的高清电影免费看| 亚洲尺码电影av久久|