陶天一,王清欽,付聿煒,熊 贇,俞 楓,苑 博
(1.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 201203;2.國泰君安證券股份有限公司,上海 201201)
在移動(dòng)互聯(lián)網(wǎng)時(shí)代,人們的閱讀需求呈現(xiàn)出碎片化、多場(chǎng)景的特征,個(gè)性化新聞資訊推薦逐漸成為移動(dòng)資訊行業(yè)的主流。面對(duì)信息爆炸的沖擊,人們?cè)絹碓搅?xí)慣于淺閱讀的閱讀模式,即讀者沒有明確的閱讀目標(biāo),更傾向于被動(dòng)接受資訊推送。這些資訊對(duì)于整個(gè)讀者群體而言是最為熱門的,而對(duì)于讀者個(gè)體而言并不總是能對(duì)應(yīng)到他的興趣,這也使得讀者個(gè)體的閱讀體驗(yàn)碎片化。因此,研究人員提出個(gè)性化新聞推薦算法[1-3],提供“千人千面”的資訊,有效解決用戶碎片化閱讀的問題。
知識(shí)圖譜是由Google 公司于2012 年提出的一個(gè)具有語義處理能力與開放互聯(lián)能力的知識(shí)庫,以“實(shí)體-關(guān)系-實(shí)體”三元組(h,r,t)的形式表示事物間的關(guān)系,其中h、r和t分別代表一個(gè)三元組的頭實(shí)體、關(guān)系和尾實(shí)體。研究人員發(fā)現(xiàn),結(jié)合實(shí)體間的關(guān)系信息學(xué)習(xí)到的表示特征,在搜索引擎[4]、推薦系統(tǒng)[1]、關(guān)系挖掘[5]等問題中都取得了良好的效果。因此,知識(shí)表示學(xué)習(xí)得到了人們的廣泛關(guān)注[1,4-6],其中,基于翻譯機(jī)制的知識(shí)表示學(xué)習(xí)TransX 系列模型成為具有代表性的模型[7-9]。
為了將新聞處理為結(jié)合文本信息與金融行業(yè)知識(shí)圖譜實(shí)體信息的向量表示,研究人員引入知識(shí)圖譜與自然語言處理技術(shù)。一方面,在金融知識(shí)圖譜的輔助下,從新聞文本識(shí)別出一系列實(shí)體,可以通過知識(shí)表示學(xué)習(xí)得到低維空間的向量表示。另一方面,將新聞文本本身的嵌入表示、新聞中識(shí)別到的實(shí)體表示、以及新聞中識(shí)別到的實(shí)體的上下文表示進(jìn)行對(duì)齊,并利用基于詞的卷積神經(jīng)網(wǎng)絡(luò)[10]、層次注意力機(jī)制[11-12]等方法,最終處理為目標(biāo)向量表示。復(fù)雜類型的用戶行為序列可以用來建模用戶特征[13],并進(jìn)一步被用于優(yōu)化推薦算法的性能[14]。
目前已有研究人員提出結(jié)合知識(shí)圖譜的推薦算法。文獻(xiàn)[15]通過搜索數(shù)據(jù)和百科數(shù)據(jù)構(gòu)建一個(gè)求職技能圖譜,并提出一個(gè)基于知識(shí)圖譜的面試問題推薦系統(tǒng)。文獻(xiàn)[16-18]將用戶和物品看作圖中的節(jié)點(diǎn)來進(jìn)行特征的學(xué)習(xí),并最終用于推薦任務(wù)。但是,上述方法不能很好地適應(yīng)資訊推薦場(chǎng)景下常見的冷啟動(dòng)問題等。
本文提出一種基于知識(shí)圖譜的金融新聞個(gè)性化推薦算法。利用基于知識(shí)圖譜的層次卷積神經(jīng)網(wǎng)絡(luò)提取新聞特征,并通過用戶交易行為描繪用戶特征,最終結(jié)合兩方面特征,實(shí)現(xiàn)個(gè)性化金融新聞推薦。
假設(shè)用戶u的歷史新聞點(diǎn)擊行為記為,其中,是用戶u點(diǎn)擊的第i條新聞,Nu是用戶u點(diǎn)擊過的新聞數(shù)目。對(duì)于一條新聞,通過分詞、去除停用詞等處理轉(zhuǎn)成一個(gè)詞序列t=[w1,w2,…],而每個(gè)詞wj可能對(duì)應(yīng)知識(shí)圖譜中的某一個(gè)實(shí)體e。例如句子“交通銀行2018年第一季度利潤(rùn)增速放緩總體形勢(shì)保持上升趨勢(shì)”中的“交通銀行”對(duì)應(yīng)“中國交通銀行”這一實(shí)體,對(duì)應(yīng)在知識(shí)圖譜中有“交通銀行-所屬行業(yè)-銀行業(yè)”、“交通銀行-股票概念-大藍(lán)籌”和“交通銀行-所屬指數(shù)-滬深300”等關(guān)系。此外,結(jié)合用戶的歷史新聞點(diǎn)擊行為、交易行為(如用戶掛單和成交記錄、用戶自選股票、用戶持倉股票)等數(shù)據(jù),可以為每個(gè)用戶生成一個(gè)特征表示向量。最終通過對(duì)以上信息的層次化建模,預(yù)測(cè)用戶對(duì)于給定的未點(diǎn)擊過的新聞及點(diǎn)擊閱讀的概率大小。
本節(jié)主要介紹KHA-CNN 算法模型。針對(duì)金融資訊即時(shí)性強(qiáng)、待推薦資訊多為冷啟動(dòng)資訊(即被閱讀次數(shù)較少)的特點(diǎn),在設(shè)計(jì)時(shí)摒棄了采用基于協(xié)同過濾的思路,使用基于內(nèi)容的方法,從物品和用戶兩個(gè)角度分別去設(shè)計(jì)和建模。由于金融資訊中含有大量領(lǐng)域?qū)嶓w,結(jié)合金融領(lǐng)域知識(shí)圖譜的知識(shí)提取能夠使得物品側(cè)的建模更為準(zhǔn)確。此外,金融領(lǐng)域中存在大量用戶和股票間的行為,可以將其用于用戶側(cè)的建模中。
KHA-CNN模型由左、右兩部分組成,如圖1所示。
圖1 KHA-CNN 模型整體框架Fig.1 Overall framework of KHA-CNN model
如圖1左側(cè)所示,對(duì)于一篇新聞,首先通過預(yù)訓(xùn)練的詞向量得到其詞嵌入表示,然后根據(jù)知識(shí)圖譜提取其實(shí)體信息和實(shí)體上下文信息,隨后采用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新聞中不同實(shí)體之間的關(guān)系作為最后新聞特征表示的知識(shí)特征,并且采用注意力模塊關(guān)注重要的單詞。如圖1右側(cè)所示,從歷史新聞點(diǎn)擊行為和交易行為(具體為持倉股票信息和自選股票信息兩類)挖掘用戶潛在的興趣點(diǎn),得到用戶行為特征,最后利用新聞文本特征和用戶行為特征,學(xué)習(xí)并預(yù)測(cè)用戶對(duì)新聞的點(diǎn)擊概率。
對(duì)于每篇新聞首先根據(jù)金融知識(shí)圖譜G 識(shí)別新聞中出現(xiàn)的各類實(shí)體,根據(jù)不同的關(guān)系ri構(gòu)造其相關(guān)的實(shí)體e對(duì)應(yīng)的上下文實(shí)體集合context(e):
以“格力電器”為例,在知識(shí)圖譜G 中考察與它有關(guān)的節(jié)點(diǎn)和關(guān)系:如“格力電器-所屬概念-大消費(fèi)”、“格力電器-上游供應(yīng)商-信力科技”等關(guān)系,構(gòu)造“格力電器”在G 中對(duì)應(yīng)的上下文實(shí)體集合?!案窳﹄娖鳌痹凇吧嫌喂?yīng)商”關(guān)系下對(duì)應(yīng)的上下文實(shí)體集合就是{“華英包裝”、“信力科技”、“天意有?!保?。對(duì)實(shí)體e在關(guān)系ri下對(duì)應(yīng)的上下文實(shí)體集合context(e)中的所有實(shí)體特征向量取平均,作為其在這種關(guān)系下的特征表示:
其中,ei是context(e)集合中的成員ei根據(jù)知識(shí)表示學(xué)習(xí)TransX 模型得到的相應(yīng)實(shí)體特征向量。
TransX 是知識(shí)表示學(xué)習(xí)領(lǐng)域的代表性模型,包括TansR[5]、TransE[6]、TransH[7]和TransD[8]等。在TranX 模型中,對(duì)于每一個(gè)三元組(h,r,t)都有一組與之對(duì)應(yīng)的d維向量表示(h,r,t?Rd),且有近似關(guān)系h+r≈t成立[6]。定義三元組的損失函數(shù)為fr(h,t),正確的三元組關(guān)系對(duì)應(yīng)的損失應(yīng)較?。?]:
考慮到現(xiàn)實(shí)中頭尾實(shí)體存在差異,在模型中采用TransD[8]模型分別將頭實(shí)體和尾實(shí)體投影到兩個(gè)獨(dú)立的向量空間,然后再考慮三元組的損失函數(shù)。
為使模型能更準(zhǔn)確地區(qū)分正確的三元組和錯(cuò)誤的三元組,在訓(xùn)練時(shí)都采用帶間距的損失函數(shù)[6-8]:
其中,γ是設(shè)定的間距參數(shù),Δ、Δ′分別是正確的三元組(即存在于數(shù)據(jù)集中的三元組)的集合和錯(cuò)誤的三元組(即數(shù)據(jù)集中不存在的三元組)的集合。
對(duì)于一個(gè)由n個(gè)詞組成的文本,首先通過預(yù)訓(xùn)練好的d維詞向量,把n個(gè)詞橫向拼接起來得到文本的矩 陣表示x1:n?Rd×n:
其中,xi?Rn表示第i個(gè)詞xi對(duì)應(yīng)的d維詞向量表示,⊕表示向量的橫向拼接操作。在此基礎(chǔ)上定義一個(gè)窗口大小為h的卷積核w?Rd×h操作,通過學(xué)習(xí)h個(gè)相鄰詞的詞向量得到輸入文本的新特征表示[10]。例如通過卷積核w將xi:i+h-1這h個(gè)詞對(duì)應(yīng)的矩陣表示得到卷積操作后的特征ci:
其中,b?R 是偏置量,f是一個(gè)非線性激活函數(shù),⊙是逐元素積。一個(gè)卷積核會(huì)作用在所有可能的窗口序列上{x1:h,x2:h+1,…,xn-h+1:n}來產(chǎn)生新的特征[10]:
其中,[˙]表示由若干標(biāo)量拼接而成的向量,進(jìn)行池化操作[19]得到最大特征=max{c}作為這個(gè)卷積核的輸出。
如圖1 左側(cè)所示的新聞標(biāo)題“交通銀行2018 年第一季度利潤(rùn)增速放緩總體形勢(shì)保持上升趨勢(shì)”,進(jìn)行分詞后查找預(yù)訓(xùn)練詞向量得到詞嵌入表示矩陣。分別用3 個(gè)窗口為3 的卷積核和4 個(gè)窗口為4 的卷積核在輸入的詞嵌入表示矩陣上進(jìn)行卷積操作,通過池化得到7 維的向量表示,最后根據(jù)全連接層得到輸入句子相應(yīng)的新特征表示。
用w1:n=[w1,w2,…,wn]表示輸入的原始新聞文本,w1:n?Rd×n=w1⊕w2⊕…⊕wn為相應(yīng)的詞嵌入表示矩陣。經(jīng)過2.2 節(jié)中所描述的知識(shí)提取操作后,在知識(shí)圖譜G 中有對(duì)應(yīng)實(shí)體的詞wi對(duì)應(yīng)著一個(gè)實(shí)體表示ei和一個(gè)實(shí)體上下文表示,而對(duì)于知識(shí)圖譜G 中沒出現(xiàn)的實(shí)體用零向量補(bǔ)全。此時(shí),類似w1:n這一詞嵌入表示矩陣,構(gòu)造兩個(gè)矩陣,即實(shí)體表示矩陣e1:n和實(shí)體上下文表示矩陣
為利用金融知識(shí)圖譜中實(shí)體的各種關(guān)系信息,首先對(duì)實(shí)體表示、實(shí)體上下文表示做一個(gè)線性變換g:g(e)=Me。如圖1 左側(cè)所示,最終組成的新聞特征表示為一個(gè)具有3 個(gè)維度的張量W?R3×d×n:
與文獻(xiàn)[10]卷積核直接作用在詞嵌入表示上不同,KHA-CNN 同時(shí)將卷積核作用在實(shí)體表示以及實(shí)體上下文表示上,即卷積核k除了對(duì)應(yīng)的d維寬度、h維長(zhǎng)度外,還具有一個(gè)3 維的深度,即k?R3×d×h。接著在卷積核kj的作用下進(jìn)行卷積操作,得到每次卷積結(jié)果為:
通過一個(gè)時(shí)間上的最大池化,可以得到該卷積核作用下的最終特征:
在m個(gè)卷積核的作用下,最終可以得到這條新聞的基于知識(shí)的特征表示:
新聞標(biāo)題是對(duì)新聞文本的概括性描述,對(duì)于用戶是否點(diǎn)擊該條新聞至關(guān)重要,為有效地學(xué)習(xí)標(biāo)題的特征,本文采用詞級(jí)注意力機(jī)制[20]對(duì)新聞特征進(jìn)行處理。假設(shè)輸入的新聞t的標(biāo)題w1:n包括n個(gè)單詞:
首先使用一個(gè)雙向LSTM[21]作為輸入詞的編碼器,然后輸入詞對(duì)應(yīng)的詞向量,得到編碼器輸出的隱狀態(tài)表示:
其中,‖表示兩個(gè)向量拼接為一個(gè)向量。
得到每個(gè)詞的隱狀態(tài)后,根據(jù)上文所述的詞級(jí)注意力機(jī)制聚合標(biāo)題中每個(gè)單詞的特征,得到標(biāo)題的整體加權(quán)特征表示st:
其中,uw是注意力機(jī)制中的權(quán)重向量,Ww是注意力機(jī)制中的線性變換參數(shù)矩陣,bw是該線性變換的偏置量,這3 個(gè)參數(shù)是模型中可學(xué)習(xí)的參數(shù)。
收集用戶的“歷史新聞點(diǎn)擊數(shù)據(jù)”、“股票持倉數(shù)據(jù)”和“用戶自選股票”作為用戶行為數(shù)據(jù)。假設(shè)用戶u擁有N只持倉股票信息,擁有M只自選股票信息,K條歷史新聞點(diǎn)擊數(shù)據(jù),可分別表示成:
用戶的個(gè)性化特征(F)表示成“股票持倉特征”和“歷史新聞點(diǎn)擊特征”的平均值:
在用戶持倉股票和用戶自選股票特征中引入金融知識(shí)圖譜:將股票作為每一個(gè)目標(biāo)實(shí)體節(jié)點(diǎn),把金融知識(shí)圖譜中和目標(biāo)節(jié)點(diǎn)相關(guān)的點(diǎn)(K-階鄰居)都作為它的上下文。如上文基于知識(shí)的卷積神經(jīng)網(wǎng)絡(luò)所述,學(xué)習(xí)融合目標(biāo)節(jié)點(diǎn)相關(guān)鄰居的特征信息來豐富目標(biāo)節(jié)點(diǎn)特征:
本節(jié)通過實(shí)驗(yàn)驗(yàn)證KHA-CNN 模型的有效性,分析討論實(shí)驗(yàn)中的場(chǎng)景數(shù)據(jù)、相關(guān)的參數(shù)設(shè)置。
KHA-CNN 使用的數(shù)據(jù)主要有金融知識(shí)圖譜數(shù)據(jù)和用戶行為相關(guān)的數(shù)據(jù)。金融知識(shí)圖譜數(shù)據(jù)由國泰君安公司提供,而用戶行為相關(guān)的數(shù)據(jù)來自于國泰君安的兼具資訊和投資功能的手機(jī)軟件“君弘APP”,分為新聞數(shù)據(jù)、用戶數(shù)據(jù)和埋點(diǎn)數(shù)據(jù)3 個(gè)方面,時(shí)間區(qū)間為2018年11月6日—2018年12月13日。其中,11 月6 日—12 月6 日數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),12 月7 日—12 月13 日的數(shù)據(jù)作為測(cè)試數(shù)據(jù)?;拘畔⑷绫? 所示。
表1 測(cè)試數(shù)據(jù)基本信息Table 1 Basic information of test data
通過新聞數(shù)據(jù)分析獲取到新聞數(shù)據(jù)的ID、標(biāo)題、摘要、文本內(nèi)容及曝光時(shí)間等基本信息,新聞數(shù)據(jù)格式如圖2所示。
圖2 新聞數(shù)據(jù)格式示意圖Fig.2 Schematic diagram of news data format
“時(shí)效性”是金融領(lǐng)域新聞的重要特征之一,用戶一般只關(guān)心最新時(shí)刻發(fā)生的事件。如圖3 所示,把新聞第一次與最后一次被點(diǎn)擊的時(shí)間間隔作為新聞的生存周期,統(tǒng)計(jì)所有新聞生存周期。可以看出,多數(shù)新聞生命周期只有1 天,即只在新聞發(fā)布的當(dāng)天被用戶閱讀,少量新聞生存周期為2 天~5 天,而生存周期大于5 天的新聞極少。
圖3 新聞生存周期統(tǒng)計(jì)Fig.3 Statistics of news life cycle
用戶新聞閱讀行為來自APP 中新聞資訊頁面埋點(diǎn)數(shù)據(jù)。模型所關(guān)心的主要為資訊曝光和資訊閱讀兩種埋點(diǎn)數(shù)據(jù)。資訊曝光表示資訊被推送到列表中,資訊閱讀表示用戶點(diǎn)擊并閱讀了該資訊。在模型訓(xùn)練時(shí),曝光且閱讀的資訊被認(rèn)為是正樣本,而曝光但未被閱讀的資訊則被用作負(fù)樣本。類似地,測(cè)試集中用于預(yù)測(cè)的正例也是曝光且閱讀的資訊。由于埋點(diǎn)數(shù)據(jù)中90%以上的數(shù)據(jù)都是資訊曝光數(shù)據(jù),遠(yuǎn)超資訊閱讀的數(shù)量,為維持正負(fù)樣本的平衡性,對(duì)于每個(gè)正樣本,隨機(jī)采樣1 個(gè)負(fù)樣本構(gòu)造數(shù)據(jù)集。
用戶數(shù)據(jù)分析主要存在兩類用戶,即手機(jī)注冊(cè)用戶和資金賬戶用戶,其中資金賬戶用戶除新聞閱讀行為外,還具有自選股票和持倉股票的數(shù)據(jù)。
訓(xùn)練集存在新聞閱讀行為的有43 608 個(gè)資金賬戶用戶和24 517 個(gè)手機(jī)注冊(cè)用戶,資金賬戶閱讀數(shù)為3 983 447 個(gè),手機(jī)注冊(cè)用戶交互閱讀數(shù)為982 170 個(gè),大部分新聞閱讀交互記錄來自于手機(jī)注冊(cè)用戶。
本文采用的對(duì)比算法主要有如下4 種:
1)隨機(jī)森林(Random Forest)[22]算法。該算法是一種基于分類樹的集成方法,被廣泛地應(yīng)用于廣告點(diǎn)擊率(Click-Through Rate,CTR)預(yù)測(cè)及推薦中。在3.2 節(jié)、3.4 節(jié)數(shù)據(jù)分析的基礎(chǔ)上,選擇新聞ID、新聞標(biāo)題、新聞首發(fā)時(shí)間、新聞曝光時(shí)間、新聞近1 天~2 天閱讀數(shù)、用戶ID、用戶類型、用戶近1 天~3 天閱讀數(shù)、用戶自選股特征和用戶持倉股特征等作為模型的輸入。
2)DKN[1]算法。該算法采用了知識(shí)圖譜和CNN 來建模新聞特征,但沒有用戶行為特征。
3)ATRank-like 算法。該算法使用了用戶行為特征,但未使用知識(shí)圖譜,是針對(duì)金融新聞對(duì)ATRank 算法[13]的一個(gè)變種版本。因?yàn)樾侣勆嬷芷谳^短,用戶較少重復(fù)點(diǎn)擊同一新聞,所以將點(diǎn)擊行為序列看作集合,不采用原算法中的時(shí)序編碼。針對(duì)被點(diǎn)擊新聞本身的特征,還增加了基于詞嵌入表示的卷積神經(jīng)網(wǎng)絡(luò)以得到點(diǎn)擊的新聞的特征表示。
4)KHA-CNN 算法。本文提出算法既使用了知識(shí)圖譜,又考慮了用戶的行為特征。
不同算法的F1 及AUC 值如表2 所示。
表2 KHA-CNN 及基準(zhǔn)算法實(shí)驗(yàn)結(jié)果Table 2 Experimental results of KHA-CNN and benchmark algorithms
從表2 可以看出:
1)與Random Forest 算法相比,KHA-CNN 算法在F1 值和AUC 兩個(gè)評(píng)價(jià)指標(biāo)上都取得了更好的結(jié)果,且各變種算法也均能得到比Random Forest 算法更優(yōu)的結(jié)果。這表明KHA-CNN 算法基于金融知識(shí)圖譜,同時(shí)考慮了新聞的文本特征和用戶行為特征,可以有效提升個(gè)性化推薦的性能。
2)與DKN 算法相比,KHA-CNN 算法取得了較優(yōu)的結(jié)果,這表明基于用戶行為數(shù)據(jù)用戶畫像能夠提升新聞個(gè)性化推薦的性能。
3)與ATRank-like 算法相比,KHA-CNN 算法表現(xiàn)更好,進(jìn)一步表明知識(shí)圖譜在個(gè)性化推薦中的重要性。
本文通過對(duì)比不同TransX 算法對(duì)KHA-CNN 性能的影響,具體使用的TranX 算法有TransE、TransH、TransR 與TransD 4 種。本文默認(rèn)采用的TransX 算法為TransD,實(shí)驗(yàn)結(jié)果如表3 所示。
表3 不同TransX 算法識(shí)別實(shí)體時(shí)的實(shí)驗(yàn)結(jié)果Table 3 Experimental results when different TransX algorithms recognize entities
從表3 可以看出,算法基于TransD 的嵌入取得了最好的實(shí)驗(yàn)結(jié)果,因?yàn)樵撍惴軌蚋玫夭东@圖譜中實(shí)體與實(shí)體間、實(shí)體與關(guān)系間的非線性關(guān)聯(lián)。
本文主要從CNN 維度和注意力機(jī)制兩個(gè)方面進(jìn)行實(shí)驗(yàn)。
1)CNN 維度的影響分析
考慮不同CNN 維度時(shí)的影響,主要包括:
(1)KHA-CNN-w/o-context-emb.,采用詞語嵌入表示和實(shí)體嵌入表示,不采用實(shí)體上下文表示。
(2)KHA-CNN-w/o-entity-emb.,采用詞語嵌入表示和實(shí)體上下文表示,不采用實(shí)體嵌入表示。在默認(rèn)的KHA-CNN 中,詞語嵌入表示、實(shí)體嵌入表示和實(shí)體上下文表示都被采用,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 不同CNN 維度識(shí)別實(shí)體時(shí)的實(shí)驗(yàn)結(jié)果Table 4 Experimental results when different CNN dimensions recognize entities
從表4 可以看出,在不使用實(shí)體上下文表示和不使用實(shí)體嵌入表示時(shí),與KHA-CNN 相比,F(xiàn)1 值分別下降了1.8 個(gè)百分點(diǎn)、3.8 個(gè)百分點(diǎn),這表明了在KHA-CNN 算法中使用基于知識(shí)的卷積神經(jīng)網(wǎng)絡(luò)引入知識(shí)圖譜的有效性。
2)詞級(jí)注意力機(jī)制的影響分析
不采用詞級(jí)注意力機(jī)制時(shí)的變種算法為KHA-CNNw/o-attn.,實(shí)驗(yàn)結(jié)果如表5 所示。
表5 KHA-CNN 與KHA-CNN-w/o-attn.算法的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of KHA-CNN and KHA-CNN-w/o-attn.algorithms
從表5 可以看出,與KHA-CNN-w/o-attn.算法相比,詞級(jí)注意力機(jī)制的F1 值和AUC 值分別提高1.1 個(gè)百分點(diǎn)和0.9 個(gè)百分點(diǎn)。
本文提出一種基于知識(shí)圖譜的金融新聞推薦算法KHA-CNN,通過知識(shí)表示學(xué)習(xí)得到知識(shí)圖譜中實(shí)體的向量表示,并學(xué)習(xí)新聞上下文中實(shí)體的關(guān)系特征,使用層次注意力模型學(xué)習(xí)新聞標(biāo)題中重要的上下文信息,同時(shí)通過用戶的行為特征實(shí)現(xiàn)個(gè)性化的新聞推薦。實(shí)驗(yàn)結(jié)果表明,KHA-CNN 在F1 和AUC 這兩項(xiàng)指標(biāo)上都有較好的性能表現(xiàn)。