亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)容的新聞推薦系統(tǒng)設(shè)計(jì)研究

        2021-02-14 08:23:54朱若馨李研偉
        信息記錄材料 2021年12期
        關(guān)鍵詞:分類文本用戶

        朱若馨,李研偉

        (陜西國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院 陜西 西安 710300)

        1 引言

        近年來(lái),很多用戶都喜歡使用在線新聞網(wǎng)站和手機(jī)APP來(lái)進(jìn)行新聞閱讀[1]。但是,由于每天都有大量新聞產(chǎn)生和發(fā)布,用戶難以在有限的時(shí)間內(nèi)從大量新聞中找到自己感興趣的內(nèi)容,面臨嚴(yán)重的新聞信息過(guò)載[2]。個(gè)性化新聞推薦可以根據(jù)用戶個(gè)人興趣對(duì)候選新聞進(jìn)行排序展示,是提升用戶在線新聞閱讀體驗(yàn)的一項(xiàng)重要技術(shù)。如何設(shè)計(jì)一個(gè)高效、精準(zhǔn)的個(gè)性化推薦系統(tǒng)是新聞平臺(tái)的關(guān)鍵問(wèn)題[3]。

        2 系統(tǒng)推薦流程及設(shè)計(jì)

        個(gè)性化新聞推薦的簡(jiǎn)化流程見圖1[4-5]:從用戶閱讀歷史中挖掘用戶興趣,再根據(jù)用戶興趣對(duì)候選新聞進(jìn)行個(gè)性化排序,最終將排名靠前的新聞?wù)故窘o用戶。雖然對(duì)推薦系統(tǒng)已開展了廣泛的研究,但現(xiàn)有推薦算法仍然存在局限性:(1)新聞?dòng)袕?qiáng)時(shí)效性。新聞平臺(tái)每天會(huì)產(chǎn)生大量新的新聞,而舊的新聞會(huì)快速消失。這帶來(lái)了嚴(yán)重的冷啟動(dòng)問(wèn)題,導(dǎo)致許多如協(xié)同過(guò)濾等依賴用戶行為的推薦方法無(wú)法使用;(2)新聞文章具有豐富的文本,這些文本包含重要信息未被利用,不能簡(jiǎn)單地使用ID等特征來(lái)表示新聞;(3)準(zhǔn)確地建模用戶對(duì)新聞的興趣存在挑戰(zhàn)。用戶的興趣通常比較多樣并隨時(shí)間動(dòng)態(tài)演化,需要基于大量的用戶反饋行為來(lái)挖掘和建模。然而新聞平臺(tái)上往往不具有顯式的用戶反饋,甚至隱式反饋也十分稀疏。因此,新聞推薦是一個(gè)重要并具有挑戰(zhàn)性的研究課題。

        圖1 個(gè)性化新聞推薦流程

        推薦系統(tǒng)設(shè)計(jì)主要可以分為3個(gè)部分:數(shù)據(jù)信息層、數(shù)據(jù)處理層和用戶交互層。在數(shù)據(jù)信息層,主要將用戶的行為,如在APP上的閱讀新聞、停留時(shí)間等信息存儲(chǔ)到Hadoop集群中,作為離線日志使用;在數(shù)據(jù)處理層,主要使用深度學(xué)習(xí)的方法從離線日志中提取用戶的興趣,同時(shí)在新聞庫(kù)中使用用戶的興趣進(jìn)行匹配,生成候選新聞集;在用戶交互層中,我們將候選新聞集反饋給用戶,當(dāng)用戶產(chǎn)生瀏覽、點(diǎn)擊等行為后,再將日志落地到Hadoop集群中,以此來(lái)優(yōu)化推薦系統(tǒng)。

        在本文中,我們利用新聞豐富的文本信息來(lái)實(shí)現(xiàn)用戶的個(gè)性化新聞推薦。

        3 基于內(nèi)容的新聞推薦

        在基于內(nèi)容的推薦系統(tǒng)中,我們通過(guò)對(duì)新聞標(biāo)題進(jìn)行文本分類,對(duì)已閱讀及未閱讀的新聞打上相應(yīng)標(biāo)簽。基于新聞標(biāo)簽進(jìn)行推薦的核心就是如何對(duì)文本進(jìn)行準(zhǔn)確的自動(dòng)化分類。本文的推薦系統(tǒng)中,我們使用TextCNN模型對(duì)文本進(jìn)行分類。

        3.1 TextCNN模型

        Kim首先提出了TextCNN模型。網(wǎng)絡(luò)結(jié)構(gòu)見圖2。

        圖2 TextCNN網(wǎng)絡(luò)結(jié)構(gòu)

        其中,b是偏置,f是一個(gè)非線性函數(shù)。將卷積核w應(yīng)用在當(dāng)前句子所有的可能位置{x1:h,x2:h+1,…,xn-h+1:n},會(huì)得到一個(gè)特征向量:

        然后我們?cè)诘玫降奶卣飨蛄可?,使用max-pooling操作,在特征向量中取最大值,max-polling操作是獲取對(duì)當(dāng)前卷積核響應(yīng)最大的值,同時(shí)還可以將變長(zhǎng)的向量長(zhǎng)度變?yōu)槎ㄩL(zhǎng)的特征,這樣我們就可以得到卷積核對(duì)應(yīng)的特征值。

        在實(shí)際使用中,我們可以使用多個(gè)卷積核與多層卷積網(wǎng)絡(luò)進(jìn)行深度特征的提取,最后利用全連接網(wǎng)絡(luò)使輸出特征數(shù)與分類類別匹配,來(lái)實(shí)現(xiàn)文本分類。

        3.2 新聞分類模型實(shí)驗(yàn)

        本文實(shí)驗(yàn)環(huán)境的設(shè)置和實(shí)驗(yàn)平臺(tái)的搭建如下:

        (1)硬件方面:Windows10系統(tǒng)、CPU Inter(R) Core(TM) i7-8750H 2.20 GHz、內(nèi)存8 GB。

        (2)軟件和依賴的庫(kù):Python3.7、Tensorflow_gpu-1.13.1等。

        3.2.1 TextCNN模型可調(diào)參數(shù)設(shè)置

        在采用TextCNN模型進(jìn)行文本分類時(shí),需要對(duì)參數(shù)進(jìn)行選擇。對(duì)于模型中的可變參數(shù),我們選擇了表1所示的參數(shù)。

        表1 TextCNN可調(diào)參數(shù)設(shè)置

        3.2.2 實(shí)驗(yàn)設(shè)計(jì)

        在實(shí)驗(yàn)中,我們使用THUCNews數(shù)據(jù)集進(jìn)行測(cè)試。THUCNews數(shù)據(jù)集是根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過(guò)濾生成,包含74萬(wàn)篇新聞文檔(2.19 GB),劃分出14個(gè)候選分類類別:財(cái)經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會(huì)、時(shí)尚、時(shí)政、體育、星座、游戲、娛樂(lè)。

        我們選擇多個(gè)基準(zhǔn)驗(yàn)證TextCNN 模型的分類性能,將TextCNN與傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比。其中,TextCNN采用一層卷積層稱為TextCNN-1,TextCNN-2采用兩層卷積網(wǎng)絡(luò),傳統(tǒng)機(jī)器學(xué)習(xí)方法包括樸素貝葉斯(NB)、最近鄰(KNN)和支持向量機(jī)(SVM)。使用各分類整體平均精確率(precision)、召回率(recall)和 F1值(F-measure)評(píng)價(jià)不同模型的分類效果,作為衡量分類器性能的標(biāo)準(zhǔn)。

        3.2.3 結(jié)果分析

        在訓(xùn)練過(guò)程中,我們隨機(jī)選取90%作為訓(xùn)練集,5%作為測(cè)試集,5%作為驗(yàn)證集,結(jié)果見表2。

        表2 模型分類結(jié)果比較

        通過(guò)表2可以發(fā)現(xiàn):(1)采用預(yù)訓(xùn)練詞向量,作為模型的特征輸入分類模型,在相同的數(shù)據(jù)集上各個(gè)分類模型均取得了80%以上的精確率,說(shuō)明預(yù)訓(xùn)練詞向量表的的文本信息基本可以滿足分類需要。(2)無(wú)論單層卷積神經(jīng)網(wǎng)絡(luò)還是多層卷積神經(jīng)網(wǎng)絡(luò),取得的分類效果都優(yōu)于3種傳統(tǒng)機(jī)器學(xué)習(xí)算法,說(shuō)明CNN模型在文本分類上有巨大的提升,相比于Naive Bayesian、KNN和SVM,TextCNN-2的F1值分別提升了9.97%、6.38%、4.52%。因此,我們可以得出,使用TextCNN能夠提取更加全面的局部文本塊特征信息,在文本分類效果上有很好的提升。

        4 新聞推薦系統(tǒng)實(shí)現(xiàn)

        網(wǎng)頁(yè)前端使用CSS和HTML完成頁(yè)面布局,Java Script實(shí)現(xiàn)新聞的動(dòng)態(tài)效果。根據(jù)預(yù)先設(shè)定的新聞分類標(biāo)簽,我們將相應(yīng)的新聞歸類到不同的欄目。同時(shí),在首頁(yè)根據(jù)用戶興趣實(shí)現(xiàn)個(gè)性化推薦,使網(wǎng)頁(yè)實(shí)現(xiàn)千人千面,不同的用戶看到的是自己感興趣的新聞。

        在網(wǎng)站后端,我們使用Hadoop存儲(chǔ)用戶的瀏覽日志,然后通過(guò)個(gè)性化推薦模塊產(chǎn)生候選新聞后,將其存儲(chǔ)在Redis中,在前端發(fā)送請(qǐng)求給后端后,可以迅速將推薦候選新聞反饋給前端,實(shí)現(xiàn)高并發(fā)條件下的高可用性。此外,我們?cè)诤蠖瞬渴鸹赥ensorflow的深度學(xué)習(xí)模型,使系統(tǒng)獲取的新聞可以實(shí)現(xiàn)實(shí)時(shí)分類打標(biāo)簽。

        5 結(jié)論

        本文針對(duì)現(xiàn)有推薦系統(tǒng)的局限性,提出一種基于內(nèi)容的新聞個(gè)性化推薦算法。該算法利用新聞豐富的文本信息,引入自然語(yǔ)言處理中的文本分類技術(shù),使用TextCNN模型對(duì)新聞自動(dòng)標(biāo)注,實(shí)現(xiàn)新聞的個(gè)性化推薦。相較于傳統(tǒng)的編輯推薦模式,可以省去大量的人工操作,還可以根據(jù)不同的用戶推薦不同的內(nèi)容,做到千人千面。調(diào)查顯示,基于內(nèi)容的個(gè)性化推薦系統(tǒng),受到用戶的廣泛好評(píng)。

        猜你喜歡
        分類文本用戶
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        草草影院国产| 亚瑟国产精品久久| 狼色精品人妻在线视频| 国产精品99精品一区二区三区∴ | 18女下面流水不遮图| 日韩中文字幕不卡网站| 午夜在线观看一区二区三区四区 | 97免费人妻在线视频| 美女黄频视频免费国产大全| 国产日产韩国级片网站| 麻豆网神马久久人鬼片| 丰满女人又爽又紧又丰满| 天天澡天天揉揉AV无码人妻斩 | 国产午夜视频在线观看免费| 天天色影网| 亚洲欧洲日产国码无码AV一| 成人在线视频亚洲国产| 日本少妇爽的大叫高潮了| 日韩精品视频免费在线观看网站| 日韩人妻无码一区二区三区久久| 99精品欧美一区二区三区| 国产精品原创巨作av无遮 | 91一区二区三区在线观看视频| 亚洲欧美日韩另类精品一区 | 黄页免费人成网址大全| 脱了老师内裤猛烈进入| 九月婷婷人人澡人人添人人爽| 亚洲AV无码专区国产H小说| 国产一区,二区,三区免费视频 | 成人精品国产亚洲欧洲| 手机在线观看亚洲av| 亚洲乱码av中文一区二区| 黄瓜视频在线观看| 激情人妻在线视频| 伊人狼人大香线蕉手机视频| 国产成人av一区二区三区在线观看| 精品成人乱色一区二区| 欧美亚洲日韩国产人成在线播放| 国产影片一区二区三区| 国产高清av首播原创麻豆| 亚洲爆乳大丰满无码专区|