亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)圖譜的金融新聞個(gè)性化推薦算法

        2021-06-18 07:31:40陶天一王清欽付聿煒
        計(jì)算機(jī)工程 2021年6期
        關(guān)鍵詞:三元組圖譜實(shí)體

        陶天一,王清欽,付聿煒,熊 贇,俞 楓,苑 博

        (1.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 201203;2.國泰君安證券股份有限公司,上海 201201)

        0 概述

        在移動(dòng)互聯(lián)網(wǎng)時(shí)代,人們的閱讀需求呈現(xiàn)出碎片化、多場(chǎng)景的特征,個(gè)性化新聞資訊推薦逐漸成為移動(dòng)資訊行業(yè)的主流。面對(duì)信息爆炸的沖擊,人們?cè)絹碓搅?xí)慣于淺閱讀的閱讀模式,即讀者沒有明確的閱讀目標(biāo),更傾向于被動(dòng)接受資訊推送。這些資訊對(duì)于整個(gè)讀者群體而言是最為熱門的,而對(duì)于讀者個(gè)體而言并不總是能對(duì)應(yīng)到他的興趣,這也使得讀者個(gè)體的閱讀體驗(yàn)碎片化。因此,研究人員提出個(gè)性化新聞推薦算法[1-3],提供“千人千面”的資訊,有效解決用戶碎片化閱讀的問題。

        知識(shí)圖譜是由Google 公司于2012 年提出的一個(gè)具有語義處理能力與開放互聯(lián)能力的知識(shí)庫,以“實(shí)體-關(guān)系-實(shí)體”三元組(h,r,t)的形式表示事物間的關(guān)系,其中h、r和t分別代表一個(gè)三元組的頭實(shí)體、關(guān)系和尾實(shí)體。研究人員發(fā)現(xiàn),結(jié)合實(shí)體間的關(guān)系信息學(xué)習(xí)到的表示特征,在搜索引擎[4]、推薦系統(tǒng)[1]、關(guān)系挖掘[5]等問題中都取得了良好的效果。因此,知識(shí)表示學(xué)習(xí)得到了人們的廣泛關(guān)注[1,4-6],其中,基于翻譯機(jī)制的知識(shí)表示學(xué)習(xí)TransX 系列模型成為具有代表性的模型[7-9]。

        為了將新聞處理為結(jié)合文本信息與金融行業(yè)知識(shí)圖譜實(shí)體信息的向量表示,研究人員引入知識(shí)圖譜與自然語言處理技術(shù)。一方面,在金融知識(shí)圖譜的輔助下,從新聞文本識(shí)別出一系列實(shí)體,可以通過知識(shí)表示學(xué)習(xí)得到低維空間的向量表示。另一方面,將新聞文本本身的嵌入表示、新聞中識(shí)別到的實(shí)體表示、以及新聞中識(shí)別到的實(shí)體的上下文表示進(jìn)行對(duì)齊,并利用基于詞的卷積神經(jīng)網(wǎng)絡(luò)[10]、層次注意力機(jī)制[11-12]等方法,最終處理為目標(biāo)向量表示。復(fù)雜類型的用戶行為序列可以用來建模用戶特征[13],并進(jìn)一步被用于優(yōu)化推薦算法的性能[14]。

        目前已有研究人員提出結(jié)合知識(shí)圖譜的推薦算法。文獻(xiàn)[15]通過搜索數(shù)據(jù)和百科數(shù)據(jù)構(gòu)建一個(gè)求職技能圖譜,并提出一個(gè)基于知識(shí)圖譜的面試問題推薦系統(tǒng)。文獻(xiàn)[16-18]將用戶和物品看作圖中的節(jié)點(diǎn)來進(jìn)行特征的學(xué)習(xí),并最終用于推薦任務(wù)。但是,上述方法不能很好地適應(yīng)資訊推薦場(chǎng)景下常見的冷啟動(dòng)問題等。

        本文提出一種基于知識(shí)圖譜的金融新聞個(gè)性化推薦算法。利用基于知識(shí)圖譜的層次卷積神經(jīng)網(wǎng)絡(luò)提取新聞特征,并通過用戶交易行為描繪用戶特征,最終結(jié)合兩方面特征,實(shí)現(xiàn)個(gè)性化金融新聞推薦。

        1 問題定義

        假設(shè)用戶u的歷史新聞點(diǎn)擊行為記為,其中,是用戶u點(diǎn)擊的第i條新聞,Nu是用戶u點(diǎn)擊過的新聞數(shù)目。對(duì)于一條新聞,通過分詞、去除停用詞等處理轉(zhuǎn)成一個(gè)詞序列t=[w1,w2,…],而每個(gè)詞wj可能對(duì)應(yīng)知識(shí)圖譜中的某一個(gè)實(shí)體e。例如句子“交通銀行2018年第一季度利潤(rùn)增速放緩總體形勢(shì)保持上升趨勢(shì)”中的“交通銀行”對(duì)應(yīng)“中國交通銀行”這一實(shí)體,對(duì)應(yīng)在知識(shí)圖譜中有“交通銀行-所屬行業(yè)-銀行業(yè)”、“交通銀行-股票概念-大藍(lán)籌”和“交通銀行-所屬指數(shù)-滬深300”等關(guān)系。此外,結(jié)合用戶的歷史新聞點(diǎn)擊行為、交易行為(如用戶掛單和成交記錄、用戶自選股票、用戶持倉股票)等數(shù)據(jù),可以為每個(gè)用戶生成一個(gè)特征表示向量。最終通過對(duì)以上信息的層次化建模,預(yù)測(cè)用戶對(duì)于給定的未點(diǎn)擊過的新聞及點(diǎn)擊閱讀的概率大小。

        2 基于知識(shí)圖譜的新聞個(gè)性化推薦

        本節(jié)主要介紹KHA-CNN 算法模型。針對(duì)金融資訊即時(shí)性強(qiáng)、待推薦資訊多為冷啟動(dòng)資訊(即被閱讀次數(shù)較少)的特點(diǎn),在設(shè)計(jì)時(shí)摒棄了采用基于協(xié)同過濾的思路,使用基于內(nèi)容的方法,從物品和用戶兩個(gè)角度分別去設(shè)計(jì)和建模。由于金融資訊中含有大量領(lǐng)域?qū)嶓w,結(jié)合金融領(lǐng)域知識(shí)圖譜的知識(shí)提取能夠使得物品側(cè)的建模更為準(zhǔn)確。此外,金融領(lǐng)域中存在大量用戶和股票間的行為,可以將其用于用戶側(cè)的建模中。

        2.1 KHA-CNN 模型框架

        KHA-CNN模型由左、右兩部分組成,如圖1所示。

        圖1 KHA-CNN 模型整體框架Fig.1 Overall framework of KHA-CNN model

        如圖1左側(cè)所示,對(duì)于一篇新聞,首先通過預(yù)訓(xùn)練的詞向量得到其詞嵌入表示,然后根據(jù)知識(shí)圖譜提取其實(shí)體信息和實(shí)體上下文信息,隨后采用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新聞中不同實(shí)體之間的關(guān)系作為最后新聞特征表示的知識(shí)特征,并且采用注意力模塊關(guān)注重要的單詞。如圖1右側(cè)所示,從歷史新聞點(diǎn)擊行為和交易行為(具體為持倉股票信息和自選股票信息兩類)挖掘用戶潛在的興趣點(diǎn),得到用戶行為特征,最后利用新聞文本特征和用戶行為特征,學(xué)習(xí)并預(yù)測(cè)用戶對(duì)新聞的點(diǎn)擊概率。

        2.2 知識(shí)提取

        對(duì)于每篇新聞首先根據(jù)金融知識(shí)圖譜G 識(shí)別新聞中出現(xiàn)的各類實(shí)體,根據(jù)不同的關(guān)系ri構(gòu)造其相關(guān)的實(shí)體e對(duì)應(yīng)的上下文實(shí)體集合context(e):

        以“格力電器”為例,在知識(shí)圖譜G 中考察與它有關(guān)的節(jié)點(diǎn)和關(guān)系:如“格力電器-所屬概念-大消費(fèi)”、“格力電器-上游供應(yīng)商-信力科技”等關(guān)系,構(gòu)造“格力電器”在G 中對(duì)應(yīng)的上下文實(shí)體集合?!案窳﹄娖鳌痹凇吧嫌喂?yīng)商”關(guān)系下對(duì)應(yīng)的上下文實(shí)體集合就是{“華英包裝”、“信力科技”、“天意有?!保?。對(duì)實(shí)體e在關(guān)系ri下對(duì)應(yīng)的上下文實(shí)體集合context(e)中的所有實(shí)體特征向量取平均,作為其在這種關(guān)系下的特征表示:

        其中,ei是context(e)集合中的成員ei根據(jù)知識(shí)表示學(xué)習(xí)TransX 模型得到的相應(yīng)實(shí)體特征向量。

        TransX 是知識(shí)表示學(xué)習(xí)領(lǐng)域的代表性模型,包括TansR[5]、TransE[6]、TransH[7]和TransD[8]等。在TranX 模型中,對(duì)于每一個(gè)三元組(h,r,t)都有一組與之對(duì)應(yīng)的d維向量表示(h,r,t?Rd),且有近似關(guān)系h+r≈t成立[6]。定義三元組的損失函數(shù)為fr(h,t),正確的三元組關(guān)系對(duì)應(yīng)的損失應(yīng)較?。?]:

        考慮到現(xiàn)實(shí)中頭尾實(shí)體存在差異,在模型中采用TransD[8]模型分別將頭實(shí)體和尾實(shí)體投影到兩個(gè)獨(dú)立的向量空間,然后再考慮三元組的損失函數(shù)。

        為使模型能更準(zhǔn)確地區(qū)分正確的三元組和錯(cuò)誤的三元組,在訓(xùn)練時(shí)都采用帶間距的損失函數(shù)[6-8]:

        其中,γ是設(shè)定的間距參數(shù),Δ、Δ′分別是正確的三元組(即存在于數(shù)據(jù)集中的三元組)的集合和錯(cuò)誤的三元組(即數(shù)據(jù)集中不存在的三元組)的集合。

        2.3 基于知識(shí)的卷積神經(jīng)網(wǎng)絡(luò)

        對(duì)于一個(gè)由n個(gè)詞組成的文本,首先通過預(yù)訓(xùn)練好的d維詞向量,把n個(gè)詞橫向拼接起來得到文本的矩 陣表示x1:n?Rd×n:

        其中,xi?Rn表示第i個(gè)詞xi對(duì)應(yīng)的d維詞向量表示,⊕表示向量的橫向拼接操作。在此基礎(chǔ)上定義一個(gè)窗口大小為h的卷積核w?Rd×h操作,通過學(xué)習(xí)h個(gè)相鄰詞的詞向量得到輸入文本的新特征表示[10]。例如通過卷積核w將xi:i+h-1這h個(gè)詞對(duì)應(yīng)的矩陣表示得到卷積操作后的特征ci:

        其中,b?R 是偏置量,f是一個(gè)非線性激活函數(shù),⊙是逐元素積。一個(gè)卷積核會(huì)作用在所有可能的窗口序列上{x1:h,x2:h+1,…,xn-h+1:n}來產(chǎn)生新的特征[10]:

        其中,[˙]表示由若干標(biāo)量拼接而成的向量,進(jìn)行池化操作[19]得到最大特征=max{c}作為這個(gè)卷積核的輸出。

        如圖1 左側(cè)所示的新聞標(biāo)題“交通銀行2018 年第一季度利潤(rùn)增速放緩總體形勢(shì)保持上升趨勢(shì)”,進(jìn)行分詞后查找預(yù)訓(xùn)練詞向量得到詞嵌入表示矩陣。分別用3 個(gè)窗口為3 的卷積核和4 個(gè)窗口為4 的卷積核在輸入的詞嵌入表示矩陣上進(jìn)行卷積操作,通過池化得到7 維的向量表示,最后根據(jù)全連接層得到輸入句子相應(yīng)的新特征表示。

        用w1:n=[w1,w2,…,wn]表示輸入的原始新聞文本,w1:n?Rd×n=w1⊕w2⊕…⊕wn為相應(yīng)的詞嵌入表示矩陣。經(jīng)過2.2 節(jié)中所描述的知識(shí)提取操作后,在知識(shí)圖譜G 中有對(duì)應(yīng)實(shí)體的詞wi對(duì)應(yīng)著一個(gè)實(shí)體表示ei和一個(gè)實(shí)體上下文表示,而對(duì)于知識(shí)圖譜G 中沒出現(xiàn)的實(shí)體用零向量補(bǔ)全。此時(shí),類似w1:n這一詞嵌入表示矩陣,構(gòu)造兩個(gè)矩陣,即實(shí)體表示矩陣e1:n和實(shí)體上下文表示矩陣

        為利用金融知識(shí)圖譜中實(shí)體的各種關(guān)系信息,首先對(duì)實(shí)體表示、實(shí)體上下文表示做一個(gè)線性變換g:g(e)=Me。如圖1 左側(cè)所示,最終組成的新聞特征表示為一個(gè)具有3 個(gè)維度的張量W?R3×d×n:

        與文獻(xiàn)[10]卷積核直接作用在詞嵌入表示上不同,KHA-CNN 同時(shí)將卷積核作用在實(shí)體表示以及實(shí)體上下文表示上,即卷積核k除了對(duì)應(yīng)的d維寬度、h維長(zhǎng)度外,還具有一個(gè)3 維的深度,即k?R3×d×h。接著在卷積核kj的作用下進(jìn)行卷積操作,得到每次卷積結(jié)果為:

        通過一個(gè)時(shí)間上的最大池化,可以得到該卷積核作用下的最終特征:

        在m個(gè)卷積核的作用下,最終可以得到這條新聞的基于知識(shí)的特征表示:

        2.4 詞級(jí)注意力模塊

        新聞標(biāo)題是對(duì)新聞文本的概括性描述,對(duì)于用戶是否點(diǎn)擊該條新聞至關(guān)重要,為有效地學(xué)習(xí)標(biāo)題的特征,本文采用詞級(jí)注意力機(jī)制[20]對(duì)新聞特征進(jìn)行處理。假設(shè)輸入的新聞t的標(biāo)題w1:n包括n個(gè)單詞:

        首先使用一個(gè)雙向LSTM[21]作為輸入詞的編碼器,然后輸入詞對(duì)應(yīng)的詞向量,得到編碼器輸出的隱狀態(tài)表示:

        其中,‖表示兩個(gè)向量拼接為一個(gè)向量。

        得到每個(gè)詞的隱狀態(tài)后,根據(jù)上文所述的詞級(jí)注意力機(jī)制聚合標(biāo)題中每個(gè)單詞的特征,得到標(biāo)題的整體加權(quán)特征表示st:

        其中,uw是注意力機(jī)制中的權(quán)重向量,Ww是注意力機(jī)制中的線性變換參數(shù)矩陣,bw是該線性變換的偏置量,這3 個(gè)參數(shù)是模型中可學(xué)習(xí)的參數(shù)。

        2.5 基于用戶行為的特征學(xué)習(xí)

        收集用戶的“歷史新聞點(diǎn)擊數(shù)據(jù)”、“股票持倉數(shù)據(jù)”和“用戶自選股票”作為用戶行為數(shù)據(jù)。假設(shè)用戶u擁有N只持倉股票信息,擁有M只自選股票信息,K條歷史新聞點(diǎn)擊數(shù)據(jù),可分別表示成:

        用戶的個(gè)性化特征(F)表示成“股票持倉特征”和“歷史新聞點(diǎn)擊特征”的平均值:

        在用戶持倉股票和用戶自選股票特征中引入金融知識(shí)圖譜:將股票作為每一個(gè)目標(biāo)實(shí)體節(jié)點(diǎn),把金融知識(shí)圖譜中和目標(biāo)節(jié)點(diǎn)相關(guān)的點(diǎn)(K-階鄰居)都作為它的上下文。如上文基于知識(shí)的卷積神經(jīng)網(wǎng)絡(luò)所述,學(xué)習(xí)融合目標(biāo)節(jié)點(diǎn)相關(guān)鄰居的特征信息來豐富目標(biāo)節(jié)點(diǎn)特征:

        3 數(shù)據(jù)與實(shí)驗(yàn)分析

        本節(jié)通過實(shí)驗(yàn)驗(yàn)證KHA-CNN 模型的有效性,分析討論實(shí)驗(yàn)中的場(chǎng)景數(shù)據(jù)、相關(guān)的參數(shù)設(shè)置。

        3.1 數(shù)據(jù)來源

        KHA-CNN 使用的數(shù)據(jù)主要有金融知識(shí)圖譜數(shù)據(jù)和用戶行為相關(guān)的數(shù)據(jù)。金融知識(shí)圖譜數(shù)據(jù)由國泰君安公司提供,而用戶行為相關(guān)的數(shù)據(jù)來自于國泰君安的兼具資訊和投資功能的手機(jī)軟件“君弘APP”,分為新聞數(shù)據(jù)、用戶數(shù)據(jù)和埋點(diǎn)數(shù)據(jù)3 個(gè)方面,時(shí)間區(qū)間為2018年11月6日—2018年12月13日。其中,11 月6 日—12 月6 日數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),12 月7 日—12 月13 日的數(shù)據(jù)作為測(cè)試數(shù)據(jù)?;拘畔⑷绫? 所示。

        表1 測(cè)試數(shù)據(jù)基本信息Table 1 Basic information of test data

        3.2 新聞數(shù)據(jù)分析

        通過新聞數(shù)據(jù)分析獲取到新聞數(shù)據(jù)的ID、標(biāo)題、摘要、文本內(nèi)容及曝光時(shí)間等基本信息,新聞數(shù)據(jù)格式如圖2所示。

        圖2 新聞數(shù)據(jù)格式示意圖Fig.2 Schematic diagram of news data format

        “時(shí)效性”是金融領(lǐng)域新聞的重要特征之一,用戶一般只關(guān)心最新時(shí)刻發(fā)生的事件。如圖3 所示,把新聞第一次與最后一次被點(diǎn)擊的時(shí)間間隔作為新聞的生存周期,統(tǒng)計(jì)所有新聞生存周期。可以看出,多數(shù)新聞生命周期只有1 天,即只在新聞發(fā)布的當(dāng)天被用戶閱讀,少量新聞生存周期為2 天~5 天,而生存周期大于5 天的新聞極少。

        圖3 新聞生存周期統(tǒng)計(jì)Fig.3 Statistics of news life cycle

        3.3 埋點(diǎn)數(shù)據(jù)分析

        用戶新聞閱讀行為來自APP 中新聞資訊頁面埋點(diǎn)數(shù)據(jù)。模型所關(guān)心的主要為資訊曝光和資訊閱讀兩種埋點(diǎn)數(shù)據(jù)。資訊曝光表示資訊被推送到列表中,資訊閱讀表示用戶點(diǎn)擊并閱讀了該資訊。在模型訓(xùn)練時(shí),曝光且閱讀的資訊被認(rèn)為是正樣本,而曝光但未被閱讀的資訊則被用作負(fù)樣本。類似地,測(cè)試集中用于預(yù)測(cè)的正例也是曝光且閱讀的資訊。由于埋點(diǎn)數(shù)據(jù)中90%以上的數(shù)據(jù)都是資訊曝光數(shù)據(jù),遠(yuǎn)超資訊閱讀的數(shù)量,為維持正負(fù)樣本的平衡性,對(duì)于每個(gè)正樣本,隨機(jī)采樣1 個(gè)負(fù)樣本構(gòu)造數(shù)據(jù)集。

        3.4 用戶數(shù)據(jù)分析

        用戶數(shù)據(jù)分析主要存在兩類用戶,即手機(jī)注冊(cè)用戶和資金賬戶用戶,其中資金賬戶用戶除新聞閱讀行為外,還具有自選股票和持倉股票的數(shù)據(jù)。

        訓(xùn)練集存在新聞閱讀行為的有43 608 個(gè)資金賬戶用戶和24 517 個(gè)手機(jī)注冊(cè)用戶,資金賬戶閱讀數(shù)為3 983 447 個(gè),手機(jī)注冊(cè)用戶交互閱讀數(shù)為982 170 個(gè),大部分新聞閱讀交互記錄來自于手機(jī)注冊(cè)用戶。

        3.5 實(shí)驗(yàn)設(shè)置

        本文采用的對(duì)比算法主要有如下4 種:

        1)隨機(jī)森林(Random Forest)[22]算法。該算法是一種基于分類樹的集成方法,被廣泛地應(yīng)用于廣告點(diǎn)擊率(Click-Through Rate,CTR)預(yù)測(cè)及推薦中。在3.2 節(jié)、3.4 節(jié)數(shù)據(jù)分析的基礎(chǔ)上,選擇新聞ID、新聞標(biāo)題、新聞首發(fā)時(shí)間、新聞曝光時(shí)間、新聞近1 天~2 天閱讀數(shù)、用戶ID、用戶類型、用戶近1 天~3 天閱讀數(shù)、用戶自選股特征和用戶持倉股特征等作為模型的輸入。

        2)DKN[1]算法。該算法采用了知識(shí)圖譜和CNN 來建模新聞特征,但沒有用戶行為特征。

        3)ATRank-like 算法。該算法使用了用戶行為特征,但未使用知識(shí)圖譜,是針對(duì)金融新聞對(duì)ATRank 算法[13]的一個(gè)變種版本。因?yàn)樾侣勆嬷芷谳^短,用戶較少重復(fù)點(diǎn)擊同一新聞,所以將點(diǎn)擊行為序列看作集合,不采用原算法中的時(shí)序編碼。針對(duì)被點(diǎn)擊新聞本身的特征,還增加了基于詞嵌入表示的卷積神經(jīng)網(wǎng)絡(luò)以得到點(diǎn)擊的新聞的特征表示。

        4)KHA-CNN 算法。本文提出算法既使用了知識(shí)圖譜,又考慮了用戶的行為特征。

        3.6 實(shí)驗(yàn)結(jié)果

        不同算法的F1 及AUC 值如表2 所示。

        表2 KHA-CNN 及基準(zhǔn)算法實(shí)驗(yàn)結(jié)果Table 2 Experimental results of KHA-CNN and benchmark algorithms

        從表2 可以看出:

        1)與Random Forest 算法相比,KHA-CNN 算法在F1 值和AUC 兩個(gè)評(píng)價(jià)指標(biāo)上都取得了更好的結(jié)果,且各變種算法也均能得到比Random Forest 算法更優(yōu)的結(jié)果。這表明KHA-CNN 算法基于金融知識(shí)圖譜,同時(shí)考慮了新聞的文本特征和用戶行為特征,可以有效提升個(gè)性化推薦的性能。

        2)與DKN 算法相比,KHA-CNN 算法取得了較優(yōu)的結(jié)果,這表明基于用戶行為數(shù)據(jù)用戶畫像能夠提升新聞個(gè)性化推薦的性能。

        3)與ATRank-like 算法相比,KHA-CNN 算法表現(xiàn)更好,進(jìn)一步表明知識(shí)圖譜在個(gè)性化推薦中的重要性。

        3.7 參數(shù)比較

        本文通過對(duì)比不同TransX 算法對(duì)KHA-CNN 性能的影響,具體使用的TranX 算法有TransE、TransH、TransR 與TransD 4 種。本文默認(rèn)采用的TransX 算法為TransD,實(shí)驗(yàn)結(jié)果如表3 所示。

        表3 不同TransX 算法識(shí)別實(shí)體時(shí)的實(shí)驗(yàn)結(jié)果Table 3 Experimental results when different TransX algorithms recognize entities

        從表3 可以看出,算法基于TransD 的嵌入取得了最好的實(shí)驗(yàn)結(jié)果,因?yàn)樵撍惴軌蚋玫夭东@圖譜中實(shí)體與實(shí)體間、實(shí)體與關(guān)系間的非線性關(guān)聯(lián)。

        3.8 消融實(shí)驗(yàn)分析

        本文主要從CNN 維度和注意力機(jī)制兩個(gè)方面進(jìn)行實(shí)驗(yàn)。

        1)CNN 維度的影響分析

        考慮不同CNN 維度時(shí)的影響,主要包括:

        (1)KHA-CNN-w/o-context-emb.,采用詞語嵌入表示和實(shí)體嵌入表示,不采用實(shí)體上下文表示。

        (2)KHA-CNN-w/o-entity-emb.,采用詞語嵌入表示和實(shí)體上下文表示,不采用實(shí)體嵌入表示。在默認(rèn)的KHA-CNN 中,詞語嵌入表示、實(shí)體嵌入表示和實(shí)體上下文表示都被采用,實(shí)驗(yàn)結(jié)果如表4 所示。

        表4 不同CNN 維度識(shí)別實(shí)體時(shí)的實(shí)驗(yàn)結(jié)果Table 4 Experimental results when different CNN dimensions recognize entities

        從表4 可以看出,在不使用實(shí)體上下文表示和不使用實(shí)體嵌入表示時(shí),與KHA-CNN 相比,F(xiàn)1 值分別下降了1.8 個(gè)百分點(diǎn)、3.8 個(gè)百分點(diǎn),這表明了在KHA-CNN 算法中使用基于知識(shí)的卷積神經(jīng)網(wǎng)絡(luò)引入知識(shí)圖譜的有效性。

        2)詞級(jí)注意力機(jī)制的影響分析

        不采用詞級(jí)注意力機(jī)制時(shí)的變種算法為KHA-CNNw/o-attn.,實(shí)驗(yàn)結(jié)果如表5 所示。

        表5 KHA-CNN 與KHA-CNN-w/o-attn.算法的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of KHA-CNN and KHA-CNN-w/o-attn.algorithms

        從表5 可以看出,與KHA-CNN-w/o-attn.算法相比,詞級(jí)注意力機(jī)制的F1 值和AUC 值分別提高1.1 個(gè)百分點(diǎn)和0.9 個(gè)百分點(diǎn)。

        4 結(jié)束語

        本文提出一種基于知識(shí)圖譜的金融新聞推薦算法KHA-CNN,通過知識(shí)表示學(xué)習(xí)得到知識(shí)圖譜中實(shí)體的向量表示,并學(xué)習(xí)新聞上下文中實(shí)體的關(guān)系特征,使用層次注意力模型學(xué)習(xí)新聞標(biāo)題中重要的上下文信息,同時(shí)通過用戶的行為特征實(shí)現(xiàn)個(gè)性化的新聞推薦。實(shí)驗(yàn)結(jié)果表明,KHA-CNN 在F1 和AUC 這兩項(xiàng)指標(biāo)上都有較好的性能表現(xiàn)。

        猜你喜歡
        三元組圖譜實(shí)體
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        關(guān)于余撓三元組的periodic-模
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        中文字幕福利视频| 成人无码av免费网站| 国产精品理论片| 日本大片免费观看完整视频| 无码中文字幕专区一二三| 毛茸茸的女性外淫小视频| 婷婷五月六月激情综合色中文字幕| 青青草视频免费观看| 精品亚洲欧美高清不卡高清| 日韩性感av一区二区三区| 美女露出自己的性感大胸一尤内衣| 朝鲜女人大白屁股ass| 欧美亚洲综合激情在线| 偷柏自拍亚洲综合在线| 亚洲一区二区在线观看网址| 中文字幕被公侵犯的漂亮人妻| 国内免费AV网站在线观看| 魔鬼身材极品女神在线| 国产在线观看91一区二区三区| 亚洲国产午夜精品理论片在线播放 | 国产成人亚洲综合小说区| 日韩在线不卡一区三区av| 免费观看18禁无遮挡真人网站| 亚洲av鲁丝一区二区三区| 日韩人妻系列在线视频| 虎白女粉嫩粉嫩的18在线观看 | 四虎影视永久地址www成人| 欧洲亚洲第一区久久久| 操国产丝袜露脸在线播放| 国产精品福利一区二区| 又硬又粗又大一区二区三区视频| 国产午夜精品美女裸身视频69| 中文av字幕一区二区三区| 久久久无码精品亚洲日韩按摩| 国产精品毛片无码久久| 偷拍熟女露出喷水在线91| 在线观看免费无码专区| 国产日韩欧美亚洲精品中字| 日韩有码中文字幕av| 国产人成视频在线视频| 波多野结衣中文字幕久久|