亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)和詞匯相似度的個性化新聞推薦系統(tǒng)設(shè)計

        2021-09-10 19:36:38江濤
        無線互聯(lián)科技 2021年7期
        關(guān)鍵詞:深度學(xué)習(xí)

        江濤

        摘 要:對網(wǎng)絡(luò)上龐大的新聞資訊,如何發(fā)展一個個性化的新聞推薦系統(tǒng),自動地推薦使用者感興趣的新聞,是一個備受重視的課題。文章提出一個個性化新聞推薦系統(tǒng),此系統(tǒng)將建立一個新聞本體,并通過深度學(xué)習(xí)計算使用者偏好,以此達到推薦個性化新聞的目的。此新聞本體以分析新聞的詞匯為基礎(chǔ),并參考專家的分類。其中,每個類別包含特定數(shù)量的代表性詞匯,而這些詞匯以時事新聞進行TF-IDF統(tǒng)計而得。對每一則新聞,系統(tǒng)將計算該則新聞所包含的詞匯與新聞本體中代表性詞匯的相似度,定義為新聞的特征向量,并將此特征向量輸入多層次類神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí)計算得出新聞推薦值。實驗結(jié)果顯示,相較于隨機推薦,文章所提出的方法可以較大地提升推薦成功的比率,神經(jīng)網(wǎng)絡(luò)將由推薦值來判斷是否推薦給使用者,若是使用者未點擊閱讀此新聞,判斷為使用者不喜歡此篇新聞,神經(jīng)網(wǎng)絡(luò)將會進行修正,使之越來越接近真實的使用者偏好。

        關(guān)鍵詞:使用者偏好;新聞推薦;深度學(xué)習(xí);TF-IDF

        0 引言

        在網(wǎng)絡(luò)新聞普及的今天,大量的新聞網(wǎng)站如騰訊新聞、網(wǎng)易新聞、中國青年電子報等眾多媒體平臺的普及,配合智能手機、平板與5G網(wǎng)絡(luò)技術(shù)的發(fā)展,人們也越來越依賴智能型設(shè)備在任何時間、地點,通過網(wǎng)絡(luò)來從事各式各樣的活動,例如:可以使用手機瀏覽器閱讀網(wǎng)絡(luò)新聞,部分新聞媒體也推出專屬手機 APP 以供閱讀,新聞的即時性已然與過去的一日一報大不相同。也就是在這新聞資訊爆炸的時代,人們有太多新聞可以瀏覽閱讀,因此一個好的個性化新聞推薦系統(tǒng),對大多數(shù)使用者將是非常有用的。

        本文將以詞匯相似度為基礎(chǔ)結(jié)合深度學(xué)習(xí)推薦個性化新聞:首先,參考專家分類,將新聞分為多個類別,并將其對應(yīng)的時事新聞進行分析,取出其中的代表性詞匯,加入其對應(yīng)的類別,以此作為新聞本體。之后,由網(wǎng)絡(luò)爬蟲獲取新聞,利用中文斷詞系統(tǒng)將該新聞的詞匯取出,然后利用TF-IDF(Term Frequency-Inverse Document Frequency)方法來計算出本文代表性的詞匯,再將這些詞匯與新聞本體中的代表性詞匯進行 NGD(Normalized Google Distance) 相似度計算,其結(jié)果定義為此新聞的特征向量。最后,將新聞的特征向量輸入多層次類神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí)計算,依據(jù)使用者真實的點擊記錄修正各層神經(jīng)元傳導(dǎo)路徑的權(quán)重值以及神經(jīng)元偏權(quán)值,從而由神經(jīng)網(wǎng)絡(luò)判斷是否推薦給使用者。

        1 相關(guān)研究

        1.1? 新聞本體

        “本體”源自于哲學(xué),是一個探討物體存在的哲學(xué)分? ? ? ?支[1]。在信息科學(xué)中,本體論的觀念被應(yīng)用在知識表達上,也就是對特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達,通過描述一項事物與其他詞匯的從屬關(guān)系來代表該事物。在本研究中所建立的新聞本體由數(shù)個類別組成,各類別下又具有特定數(shù)量的代表性詞匯,這些代表性詞匯是通過TF-IDF統(tǒng)計方法計算而得。

        1.2? Term Frequency–Inverse Document Frequency (TF-IDF)TF-IDF是一種用來評價詞匯與文章關(guān)聯(lián)程度的統(tǒng)計方法[2]。詞匯的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

        單一詞匯ti的詞頻(Term Frequency, TF),可由式(1)計算得知,其中ni,j,nk,j分別表示詞匯ti,tk在文件dj出現(xiàn)的次數(shù),分母即為文件dj中所有詞匯出現(xiàn)次數(shù)之總和。

        逆向文件頻率(Inverse Document Frequency,IDF)是一個計算詞匯重要性的方法。某一特定詞匯的IDF,可以由(2)式得到,其中∣D∣是語料庫中的文件總數(shù),表示包含詞匯ti的文件數(shù)目。

        1.3? Normalized Google Distance(NGD)NGD是一種詞匯相似度的計算方式,利用搜索引擎搜尋詞匯后,回報的搜尋結(jié)果數(shù)來計算兩個詞匯之間的相關(guān)度。兩個相似的詞匯會有較小的NGD值,而較不相關(guān)的詞匯會有較大的NGD值。NGD的計算公式如下:

        (4)

        其中x,y是欲計算相似度的兩個詞匯,f(x)是詞匯x的搜索結(jié)果,f(x,y)是合并詞匯“x”“y”搜尋的結(jié)果數(shù),N是Google 搜尋引擎的總索引數(shù)。

        2? ? 關(guān)鍵問題

        2.1? 系統(tǒng)架構(gòu)

        新聞推薦系統(tǒng)架構(gòu)如圖1所示,推薦系統(tǒng)主要分為兩部分:新聞分析系統(tǒng)及深度學(xué)習(xí)。

        2.2? 新聞分析系統(tǒng)

        2.2.1 網(wǎng)絡(luò)爬蟲

        網(wǎng)絡(luò)爬蟲是一種自動瀏覽探索網(wǎng)絡(luò)的程序,被廣泛用于網(wǎng)際網(wǎng)絡(luò)搜尋引擎或其他類似網(wǎng)站,以取得或更新這些網(wǎng)站的內(nèi)容和檢索方式。它們可以自動采集所有其能夠存取到的頁面內(nèi)容,以供搜尋引擎做進一步處理,而使得用戶能更快地檢索到他們需要的信息。本研究利用爬蟲快速地搜集新聞數(shù)據(jù),用以建立新聞本體以及深度學(xué)習(xí)訓(xùn)練。

        2.2.2? 斷詞系統(tǒng)

        斷詞系統(tǒng)是一種將一句話或一段文章分成詞匯以便后續(xù)處理的系統(tǒng)。通過斷詞系統(tǒng)可以將前述網(wǎng)絡(luò)爬蟲所獲得的新聞數(shù)據(jù),使用TF-IDF統(tǒng)計方法取出該篇新聞的代表性詞匯[3]。

        3? ? 深度學(xué)習(xí)

        本研究采用深度神經(jīng)網(wǎng)絡(luò),使用反向傳播算法進行學(xué)習(xí)訓(xùn)練,以新聞的特征向量作為輸入,隱藏層的激活函數(shù)是采用線性整流函數(shù)(Rectified Linear Unit),ReLU相較于其他激活函數(shù)能更快收斂,也可以有效處理梯度消失的問題,并依據(jù)使用者真實的點擊記錄修正各層神經(jīng)元傳導(dǎo)路徑的權(quán)重值以及神經(jīng)元偏權(quán)計算,以得出使用者是否對一篇新聞有興趣。

        4? ? 建立新聞本體

        參照搜索引擎新聞分類的方式,系統(tǒng)先用網(wǎng)絡(luò)爬蟲從固定的幾個中文網(wǎng)絡(luò)新聞平臺擷取相關(guān)類別的新聞。另外,在參考Google新聞平臺的建議詞匯及百度搜尋熱門詞匯后,發(fā)現(xiàn)大部分詞匯都屬于名詞,因此收集完新聞文章,利用斷詞系統(tǒng)斷詞后,將只取名詞詞類來進行下一步計算。利用TF-IDF把該類別中最常出現(xiàn)的多個代表性詞匯記錄下來,與原本的類別連接,建構(gòu)新聞本體。如:假設(shè)旅游類別的新聞中最常出現(xiàn)的詞匯是“故宮”“廬山”“九寨溝”,則將其定為旅游類別下的3個代表性詞匯。

        5? ? 計算新聞特征向量

        在建立了新聞類別與代表性詞匯之間關(guān)系的新聞本體之后,假設(shè)所建立的新聞本體中有n個類別(如旅游、體育等),其分別以C1,C2,…,Cn表示,而每個類別有m個代表性詞匯,并以TCi,j,1≦i≦n,1≦j≦m表示第i個類別的第j個代表性詞匯。對某一新聞N,假設(shè)經(jīng)過斷詞分析后,得到其內(nèi)含有s個代表性詞匯(以TNh,1≦h≦s來表示),目標(biāo)是利用這些詞匯來得出此新聞N與新聞本體每個類別C1,C2,…,Cn的相似度,因為NGD值代表詞匯之間的相似度,所以可以通過新聞N中所有詞匯(TNh,1≦h≦s)與某類別Ci中的所有代表性詞匯(TCi,j,1≦j≦m)任兩者間的NGD值,來計算出新聞N與Ci的相似度,其公式定義如下:

        經(jīng)由(2)的計算可得出一新聞N與本體中所有類別Ci(1≦i≦n)之間的相似度,這些值可以用來定義新聞N的特征向量,亦即假設(shè)U代表新聞N的特征向量,則

        6? ? 進行深度學(xué)習(xí)訓(xùn)練

        由(5)式可以得到一篇新聞的特征向量,以此特征向量代表新聞,并取數(shù)則新聞分批作為深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),然后依每次通過神經(jīng)網(wǎng)絡(luò)所輸出結(jié)果,由反向傳播算法計算其值與真實使用者選擇之間的誤差有多少,來修正神經(jīng)元路徑權(quán)重值以及神經(jīng)元偏權(quán),經(jīng)過不斷訓(xùn)練來學(xué)習(xí)使用者興趣。

        7? ? 試驗以及評估

        表1為實驗初步訓(xùn)練成果,實驗采用3層隱藏層。

        準(zhǔn)確率計算如(7)式,計算結(jié)果為85%,由此可以看出深度學(xué)習(xí)具有較好的推薦效果。

        (7)

        8? ? 結(jié)語

        本文考察了現(xiàn)今新聞平臺多數(shù)區(qū)分類別的特性,并建立新聞本體,新聞本體能夠?qū)⑿侣剝?nèi)容的抽象概念具體化,再通過NGD計算新聞詞匯與新聞本體的相似度,來建立一則新聞的特征向量,讓計算機可通過數(shù)值化的新聞來進行深度學(xué)習(xí)訓(xùn)練,從而計算新聞推薦值,并依照推薦值進行推薦,由于深度神經(jīng)網(wǎng)絡(luò)是可以不斷訓(xùn)練的,本系統(tǒng)可以不斷進行學(xué)習(xí),根據(jù)實驗證明,采用深度學(xué)習(xí),已具備不錯的推薦效果,未來研究也將進一步調(diào)整深度學(xué)習(xí)網(wǎng)絡(luò)的各項參數(shù),使新聞推薦系統(tǒng)推薦出更符合使用者偏好的新聞。

        [參考文獻]

        [1]黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計算機學(xué)報,2018(7):1619-1647.

        [2]彭菲菲,錢旭.基于用戶關(guān)注度的個性化新聞推薦系統(tǒng)[J].計算機應(yīng)用研究,2012(3):1005-1007.

        [3]鄧存彬,虞慧群,范貴生.融合動態(tài)協(xié)同過濾和深度學(xué)習(xí)的推薦算法[J].計算機科學(xué),2019(8):28-34.

        (編輯 王永超)

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學(xué)習(xí)的三級階梯
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        国产日韩一区二区精品| 欧美亚洲尤物久久综合精品| 无码一区二区三区不卡AV| 国产日韩一区二区精品| 一本色道久久88加勒比| 亚洲av成人网| 永久免费无码av在线网站| 91福利精品老师国产自产在线| 96中文字幕一区二区| 上海熟女av黑人在线播放| 欧美私人情侣网站| 欧美一欧美一区二三区性| 黑丝美女喷水在线观看| 在线观看国产成人av天堂野外| 亚洲成av人片天堂网| 欧洲熟妇色xxxx欧美老妇多毛网站| 国产精品久久久久孕妇| 国产亚洲一区二区精品| 国产精品99精品久久免费| 亚洲国产高清在线观看视频| 蜜桃视频色版在线观看| 成人大片免费观看视频| 人妻无码一区二区视频| 欧美日韩亚洲成色二本道三区| 蜜桃成人精品一区二区三区| 少妇被又大又粗又爽毛片久久黑人 | 最新欧美一级视频| 午夜免费观看一区二区三区| 美女高潮黄又色高清视频免费| 特级做a爰片毛片免费看无码| 色一情一乱一伦一区二区三欧美| 亚洲日本VA午夜在线电影| 亚洲天堂久久午夜福利| 亚洲国产av精品一区二区蜜芽| 97超在线视频免费| 日本色偷偷| 国产精品日本中文在线| 丰满人妻熟妇乱又仑精品| 亚洲色大网站www永久网站| 无码精品人妻一区二区三区98| 日本不卡一区二区三区在线观看 |