基于作者偏好的學(xué)術(shù)投稿刊物推薦算法

2022-02-26 06:57:56董永峰屈向前李林昊

計(jì)算機(jī)應(yīng)用 2022年1期

董永峰，屈向前，李林昊*，董瑤

（1.河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院，天津 300401；2.河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室（河北工業(yè)大學(xué)），天津 300401；3.河北省數(shù)據(jù)驅(qū)動(dòng)工業(yè)智能工程研究中心（河北工業(yè)大學(xué)），天津 300401）

0 引言

發(fā)表科研論文是學(xué)術(shù)工作者最關(guān)心的事情，找到合適的發(fā)表刊物是論文發(fā)表［1］過(guò)程中極為重要的一步。對(duì)于學(xué)術(shù)工作者而言，選擇一個(gè)合適的出版刊物尤其重要。向合適的刊物提交論文將提高論文的被錄用可能性，反之，如果提交論文的主題不滿足學(xué)術(shù)刊物的錄用要求，論文作者不僅將面臨被拒稿的風(fēng)險(xiǎn)，還會(huì)浪費(fèi)寶貴的時(shí)間［2］。借助推薦系統(tǒng)，如基于聚類(lèi)和矩陣分解的協(xié)同過(guò)濾推薦算法［3］、基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦算法［4］等，根據(jù)不同的影響因素為每一篇文章找到最佳的出版刊物成為許多科研工作者的關(guān)注點(diǎn)。學(xué)術(shù)投稿刊物推薦系統(tǒng)（Academic Journal Contribution Recommendation System，AJCRS）主要應(yīng)用于文章編輯完成后為作者找到合適的發(fā)表刊物。

科研工作者們?yōu)榱私o學(xué)術(shù)文章推薦一個(gè)滿意的學(xué)術(shù)投稿目標(biāo)刊物，探索了各種影響因素。一種是探索文章的內(nèi)在特征，Yang 等［5］結(jié)合文章內(nèi)容和文體特征，建立了一個(gè)文章寫(xiě)作風(fēng)格分析系統(tǒng)，通過(guò)比較不同文章的寫(xiě)作風(fēng)格，得出不同文章的相似性。Medvet 等［6］提出了基于文章摘要的主題匹配程序，并相應(yīng)推薦了刊物。Dehdarirad 等［7］在2020 年基于數(shù)據(jù)來(lái)源、評(píng)價(jià)方法、未來(lái)方向等幾乎所有要素，建立了出版刊物推薦系統(tǒng)。Dai 等［8］結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和分層注意網(wǎng)絡(luò)，在推薦刊物時(shí)從摘要、標(biāo)題、關(guān)鍵詞和研究領(lǐng)域中提取作者關(guān)注點(diǎn)。另一種是探索作者的一些社會(huì)關(guān)系，強(qiáng)調(diào)與其他文章或作者的外部關(guān)系，并嘗試構(gòu)建集成內(nèi)部組件和外部關(guān)系的聯(lián)合模型。Luong 等［9］基于作者網(wǎng)絡(luò)分析建立了一個(gè)框架，通過(guò)參考相關(guān)合著作者信息，為論文作者找到合適的學(xué)術(shù)投稿目標(biāo)刊物，其核心思想是圖論與概率論的結(jié)合。Pham 等［10］提出通過(guò)聚類(lèi)的方法為社會(huì)信息建立模型，并學(xué)術(shù)投稿目標(biāo)刊物推薦領(lǐng)域取得一定的效果。Chen 等［11］將社交網(wǎng)絡(luò)用圖建模，用基于隨機(jī)游走的算法求解。Yu等［12］在合著者網(wǎng)絡(luò)上運(yùn)行了一個(gè)帶重啟的隨機(jī)游走模型，由此產(chǎn)生并利用合作出版頻率、關(guān)系權(quán)重和研究人員學(xué)術(shù)水平三種信息來(lái)完成最終推薦。Xia 等［13］進(jìn)一步探索了研究人員的學(xué)術(shù)背景，將研究人員的研究興趣納入AJCRS 中，也整合了科研工作者的學(xué)術(shù)追求。最近，文章的文本相似性和作者的社交網(wǎng)絡(luò)被整合在一起，形成了一個(gè)個(gè)性化的學(xué)術(shù)投稿目標(biāo)刊物推薦系統(tǒng)［14］，并根據(jù)學(xué)術(shù)投稿目標(biāo)刊物推薦任務(wù)的特點(diǎn)，對(duì)已有的算法進(jìn)行了調(diào)整。Alshareef 等［15］探索引文網(wǎng)絡(luò)中潛在的關(guān)系信息，構(gòu)建有效的學(xué)術(shù)投稿刊物推薦系統(tǒng)。

在過(guò)去的幾年里，學(xué)術(shù)刊物推薦領(lǐng)域多以以下兩個(gè)方面的研究為主：1）探討文章內(nèi)容信息與刊物之間的聯(lián)系；2）分析作者合著者網(wǎng)絡(luò)；但沒(méi)有深度挖掘刊物的熱度和學(xué)術(shù)焦點(diǎn)與時(shí)間的潛在聯(lián)系。本文提出基于作者偏好的學(xué)術(shù)投稿刊物推薦算法（Academic Journal Contribution Recommendation algorithm based on Author Preferences，AP-AJCR），該算法是一種融合作者主題偏好和歷史發(fā)刊記錄的學(xué)術(shù)投稿刊物推薦模型。首先，使用潛在狄利克雷（Latent Dirichlet Allocation，LDA）主題分布模型，從標(biāo)題中提取潛在的主題信息，并將所有文章分類(lèi)成簇；然后，進(jìn)一步探討文章標(biāo)題、日期和學(xué)術(shù)投稿目標(biāo)刊物之間的聯(lián)系，建立主題-刊物、時(shí)間-刊物圖模型，使用大規(guī)模信息網(wǎng)絡(luò)嵌入（Large-scale Information Network Embedding，LINE）概率模型來(lái)學(xué)習(xí)異構(gòu)圖節(jié)點(diǎn)的嵌入；接著，使用了兩個(gè)參數(shù)來(lái)平衡作者主題偏好和歷史發(fā)刊記錄的向量表達(dá)；最后，求得在不同權(quán)重下融合作者主題偏好和歷史記錄的刊物得分，并向作者完成推薦。

1 相關(guān)工作

與本文相關(guān)的工作主要包含以下2 個(gè)方面：1）大規(guī)模信息網(wǎng)絡(luò)嵌入（LINE）模型；2）基于圖嵌入的推薦算法。

1.1 大規(guī)模信息網(wǎng)絡(luò)嵌入模型

Tang 等［16］在2015 年提出了一個(gè)大規(guī)模信息網(wǎng)絡(luò)嵌入（LINE）模型。此模型主要解決低維向量空間中嵌入超大信息網(wǎng)絡(luò)的問(wèn)題，該問(wèn)題在可視化、節(jié)點(diǎn)分類(lèi)、鏈接預(yù)測(cè)等任務(wù)中均有應(yīng)用。

Tang 等［16］將信息網(wǎng)絡(luò)定義為圖的結(jié)構(gòu)G=(V，E)，其中：每個(gè)節(jié)點(diǎn)定義為一個(gè)數(shù)據(jù)對(duì)象，而V表示節(jié)點(diǎn)集合，E表示圖節(jié)點(diǎn)之間的邊信息。每個(gè)e∈E都表示一個(gè)有序?qū)=(a，b)，且都有關(guān)聯(lián)的正權(quán)重wab表示關(guān)聯(lián)強(qiáng)度。給出了如下定義：

1）一階相似度：一階相似度是網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)的局部相似度。若節(jié)點(diǎn)a和b之間有邊(a，b)，則使用邊的權(quán)值wab表示a和b之間的一階相似度；如果a和b之間沒(méi)有可以觀察的邊，則一階相似度設(shè)為0。對(duì)于每條邊(a，b)，其連接可能性的定義如式（1）所示，其中p1=1/(1+exp(-x))是一個(gè)常規(guī)概率函數(shù)，a∈Rd是節(jié)點(diǎn)a的低維向量表示，p(·，·)是|V|*|V|向量空間下的一個(gè)分布，它所驗(yàn)證的概率可以被定義為，其中W=。為了保留一階相似度，可以直接最小化式（2）目標(biāo)函數(shù)，其中d(·，·)表示兩個(gè)分布的距離。

通常d(·，·)選擇使用KL（Kullback-Leibler）距離，KL 距離主要用于衡量?jī)蓚€(gè)隨機(jī)變量的差異程度，計(jì)算方法如下：

其中：x表示一個(gè)隨機(jī)變量，R和S表示兩個(gè)分布，PR(xi)和PS(xi)表示兩個(gè)事件發(fā)生的概率。

通過(guò)尋找使式（4）最小化的節(jié)點(diǎn)的嵌入向量，可以在d維空間里表示相應(yīng)節(jié)點(diǎn)。

2）二階相似度：網(wǎng)絡(luò)中一對(duì)節(jié)點(diǎn)(a，b)之間的二階相似度是它們相鄰網(wǎng)絡(luò)結(jié)構(gòu)的相似度。使用sima=(wa，1，wa，2，…，wa，|V|)描述節(jié)點(diǎn)a與其他節(jié)點(diǎn)的一階相似度，那么a與b的二階相似度取決于sima與simb之間的相似度。如果沒(méi)有從a到b連接（或從b到a）的中間節(jié)點(diǎn)，則a和b之間的二階相似度為0。二階相似度定義如下：

為了保留二階相似度，從而得到目標(biāo)函數(shù)（6），其中λa表示節(jié)點(diǎn)a的度（在有向圖中，一般使用節(jié)點(diǎn)的出度）。

同樣地，使用KL距離來(lái)代替d(·，·)，得到了目標(biāo)函數(shù)：

3）大規(guī)模信息網(wǎng)絡(luò)嵌入：給定一個(gè)大型圖G=(V，E)，大規(guī)模信息網(wǎng)絡(luò)嵌入的目標(biāo)是把每個(gè)節(jié)點(diǎn)a∈V嵌入到低維向量空間Rd中，且節(jié)點(diǎn)間的一階相似度和二階相似度都被保留。

1.2 基于圖嵌入的推薦算法

Xie 等［17］提出了一種基于圖的興趣點(diǎn)（Points of Interest，POI）嵌入學(xué)習(xí)算法，構(gòu)建了三個(gè)二部圖，通過(guò)使用LINE 模型的一階相似性和二階相似性進(jìn)行嵌入學(xué)習(xí)，在推薦時(shí)，作者根據(jù)用戶動(dòng)態(tài)偏好建模，使用了一組直接相加的用戶歷史位置向量來(lái)表示用戶向量，如式（8）所示。通過(guò)直接相加用戶、時(shí)間片段、上下文三方面對(duì)位置的評(píng)分完成推薦，如式（9）所示。

其中：uτ表示用戶在τ時(shí)間段的嵌入向量，p表示興趣點(diǎn)的嵌入向量，r表示位置信息的嵌入向量，t表示時(shí)間片段的嵌入向量，S表示算法計(jì)算的用戶對(duì)興趣點(diǎn)的得分。式（8）主要用于計(jì)算用戶行為偏好，通過(guò)用戶歷史興趣點(diǎn)的表示向量來(lái)計(jì)算用戶的向量表達(dá)；式（9）則將地點(diǎn)因素和時(shí)間因素對(duì)最終評(píng)分的影響納入到推薦模型中。

Hu 等［18］提出了基于圖嵌入的細(xì)粒度POI 推薦算法，在Xie 等［17］的基礎(chǔ)上，建立了5 個(gè)二部圖，完成更細(xì)致的項(xiàng)目推薦，在表示用戶偏好時(shí)，仍然是以簡(jiǎn)單直接相加表示，并未考慮不同向量在表示用戶時(shí)，各個(gè)表示因素所占權(quán)重對(duì)推薦效果的影響。

2 模型算法

2.1 問(wèn)題描述

在一些流行的文獻(xiàn)數(shù)據(jù)系統(tǒng)（例如DBLP）中，只提供作者u、標(biāo)題t、日期y、刊物v這四種信息，因此可以使用四元組(u，t，y，v)表示任意的論文發(fā)表活動(dòng)。U、T、Y和V分別是所有作者、標(biāo)題、日期和學(xué)術(shù)投稿目標(biāo)刊物的集合。本文的研究?jī)?nèi)容為：給定一個(gè)含有論文發(fā)表行為的數(shù)據(jù)集，作者u，一篇該作者新的文章標(biāo)題t，以及預(yù)計(jì)投稿的日期y（即查詢q(u，t，y)），本文的目標(biāo)是返回給該作者一個(gè)由期刊組成的列表，供作者選擇投稿。

2.2 訓(xùn)練前準(zhǔn)備

2.2.1 提取主題

在實(shí)際研究中，直接分析一個(gè)刊物和一個(gè)特定的名稱(chēng)之間的聯(lián)系沒(méi)有太大意義，所以本文從文章標(biāo)題入手，提取文章主題。由于一個(gè)刊物通常與一系列的學(xué)術(shù)領(lǐng)域相關(guān)，本文將提取論文主題，并將其作為一個(gè)給定的標(biāo)題及其所在刊物之間的橋梁。首先本文對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理操作，工作內(nèi)容包含數(shù)據(jù)清洗，因?yàn)橐黄恼碌淖髡呤鹈ǔ８鶕?jù)貢獻(xiàn)進(jìn)行排序，排名靠前的作者往往占據(jù)了文章相當(dāng)大的工作，本文去除作者數(shù)量超過(guò)6 的文章中第6 個(gè)作者以后的作者信息；接著去除停用詞；然后刪除標(biāo)點(diǎn)符號(hào)；最后刪除字母小于2 個(gè)的單詞。需要注意的是，一些論文數(shù)據(jù)庫(kù)中會(huì)收錄一些預(yù)出版的論文，如DBLP 中會(huì)收集arXiv 中計(jì)算機(jī)領(lǐng)域的文章CoRR，本文在數(shù)據(jù)清洗階段也刪除了這類(lèi)數(shù)據(jù)。

為了從這些標(biāo)題中提取主題，本文使用LDA 模型。在本文中，主題用s表示，所有主題的集合為S；于是，構(gòu)造一個(gè)新的四元組，表示為H：(u，s，y，v)。包含所有論文的整個(gè)數(shù)據(jù)集由H表示。

刊物推薦任務(wù)是根據(jù)作者過(guò)去的出版記錄向作者推薦學(xué)術(shù)刊物。因此，對(duì)于每個(gè)作者u，本文創(chuàng)建了一個(gè)用戶配置文件來(lái)記錄該作者所有相關(guān)的四個(gè)元組，并使用Γui：{h|u=ui，h∈H}表示。

學(xué)術(shù)投稿目標(biāo)刊物推薦實(shí)際上是一個(gè)建立用戶（作者）和對(duì)象（學(xué)術(shù)投稿目標(biāo)刊物）之間聯(lián)系模型的任務(wù)，每次提交決定都是由作者做出的。這里的作者指的是第一作者，本文認(rèn)為每一篇文章的主題都是由第一作者的研究興趣決定的。在每一篇文章中，作者、標(biāo)題（主題）以及日期（時(shí)間）的聯(lián)系在出版記錄中都比較明確。因此，以下建立不同主題與投稿目標(biāo)刊物之間、日期與刊物之間的聯(lián)系模型。

2.2.2 構(gòu)建主題-刊物二部圖

主題-刊物二部圖：記為GSV：(S∪V，eSV)，表示不同主題在特定刊物的受歡迎程度。其中，S是提取的所有主題的集合，V是所有學(xué)術(shù)投稿目標(biāo)刊物的集合，eSV是主題和學(xué)術(shù)投稿目標(biāo)刊物之間的一組加權(quán)邊。對(duì)于每個(gè)特定的邊（例如，以節(jié)點(diǎn)si和vj之間的邊為例），其權(quán)重由式（10）決定：

其中：N(·)是一個(gè)數(shù)字計(jì)數(shù)器函數(shù)，表示主題為si、刊物為vj的所有四元組H的數(shù)量與主題為si的所有四元組H的數(shù)量的比值，即刊物vj上發(fā)表的主題為si的論文在所有主題為si的論文中所占的比值。

此外，利用閾值來(lái)消除邊緣的不顯著性（即權(quán)值較?。＿@是因?yàn)?，某一刊物很少接受某一主題的文章，向編寫(xiě)了這個(gè)主題文章的作者推薦該刊物并不是一個(gè)合理的選擇。然后，構(gòu)造相應(yīng)的負(fù)邊，對(duì)于每個(gè)節(jié)點(diǎn)vj，如果沒(méi)有正邊連接到它，本文將不為它安排負(fù)邊；相反，一旦有正邊連接到它，本文在si中隨機(jī)地選擇數(shù)個(gè)沒(méi)有連接到vj的節(jié)點(diǎn)來(lái)構(gòu)造負(fù)邊。

2.2.3 構(gòu)建時(shí)間-刊物二部圖

時(shí)間-刊物二部圖：記為GYV：(Y∪V，eYV)。這張圖主要估計(jì)了研究人員在不同時(shí)段對(duì)特定學(xué)術(shù)投稿目標(biāo)刊物的關(guān)注程度。對(duì)于每條邊，權(quán)值直接由每年發(fā)表論文的數(shù)量比值定義，由式（11）決定：

在學(xué)術(shù)投稿目標(biāo)刊物推薦任務(wù)中，推薦的學(xué)術(shù)投稿目標(biāo)刊物不僅由被查詢的文章來(lái)確定，還由它的相關(guān)信息來(lái)確定。因此，在建立了上述單級(jí)連接之后，另一個(gè)任務(wù)是在這些節(jié)點(diǎn)之間找到更深層次的連接。本文從兩個(gè)二部圖出發(fā)，進(jìn)行嵌入學(xué)習(xí)操作來(lái)尋找更多可能的連接。在嵌入過(guò)程中，通過(guò)保留部分原始連接來(lái)探索更多的潛在連接，每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的相似性和差異性都應(yīng)該反映在本文最終的推薦圖中。

2.2.4 建立模型

最終，在推薦圖中，每個(gè)節(jié)點(diǎn)都由一個(gè)向量表示。使用s、y和v分別表示主題節(jié)點(diǎn)s、時(shí)間節(jié)點(diǎn)y和刊物節(jié)點(diǎn)v的嵌入向量。本文參考Xie 等［17］異構(gòu)圖節(jié)點(diǎn)嵌入學(xué)習(xí)方法估計(jì)了邊存在的概率（例如，在節(jié)點(diǎn)si和vj之間）由式（12）決定：

其中：a和b是任意兩個(gè)分居二部圖左右兩側(cè)的節(jié)點(diǎn)。E是所有潛在節(jié)點(diǎn)的集合，即E=S∪Y∪V，wa，b是式（10）和（11）中所對(duì)應(yīng)的正邊的權(quán)值，是對(duì)應(yīng)負(fù)邊的權(quán)值。至此得到了模型的目標(biāo)函數(shù)（15）。為了求解式（15），本文采用異步隨機(jī)梯度下降（Asynchronous Stochastic Gradient Descent，ASGD）方法。

2.3 刊物推薦

通過(guò)執(zhí)行上述節(jié)點(diǎn)嵌入過(guò)程，本文獲得嵌入的主題s、時(shí)間y、刊物v向量。為了更好地捕捉作者對(duì)學(xué)術(shù)投稿目標(biāo)刊物的偏好，本文結(jié)合了作者最近在選擇目標(biāo)學(xué)術(shù)投稿目標(biāo)刊物時(shí)的行為。本文分別用ur、yr和tr表示新提交文章的作者、時(shí)間和標(biāo)題。AJCRS 會(huì)向提交者（一般是學(xué)術(shù)工作者本人）返回查詢q(ur，tr，yr)所得到的推薦刊物列表。

首先，本文引用作者的歷史出版記錄來(lái)查詢作者在不同時(shí)間的發(fā)刊數(shù)據(jù)。為了自適應(yīng)地表示作者的動(dòng)態(tài)行為，本文進(jìn)一步安排一個(gè)時(shí)間系數(shù)，作者的歷史出版記錄的時(shí)間越接近提交日期，系數(shù)越大，反之，那些日期久遠(yuǎn)的文章將對(duì)本文的推薦產(chǎn)生很小的影響。具體基于作者歷史發(fā)刊記錄向量計(jì)算公式由式（16）給出：

其中：yr是作者預(yù)計(jì)投稿時(shí)間，α是用于平衡嵌入向量的參數(shù)。然后，可以通過(guò)簡(jiǎn)單地將刊物的嵌入的向量與這個(gè)作者偏好向量進(jìn)行比較，即對(duì)不同刊物vi進(jìn)行評(píng)分，如式（17）所示。最接近作者偏好的刊物將被推薦。

其次，作者的研究興趣在于多個(gè)主題，這也可以從用戶配置文件中的記錄中體現(xiàn)出來(lái)。本文使用ur發(fā)表過(guò)的刊物和主題來(lái)構(gòu)建主題偏好向量。為了得到嚴(yán)謹(jǐn)?shù)耐扑]結(jié)果，一篇文章一般涉及幾個(gè)主題。文章與第k個(gè)主題相關(guān)的概率由多項(xiàng)式樸素貝葉斯算法計(jì)算。作者的主題偏好向量由學(xué)術(shù)投稿目標(biāo)刊物向量和歷史主題向量的加權(quán)線性組合表示，如式（18）所示：

其中：ρk表示提交文章與第k個(gè)主題相關(guān)的概率，β是用于平衡嵌入向量的參數(shù)?？梢酝ㄟ^(guò)將刊物的嵌入的向量與這個(gè)作者主題偏好向量進(jìn)行比較，即對(duì)不同刊物vi進(jìn)行評(píng)分，如式（19）所示。最接近作者主題偏好的刊物將被推薦。

最后，本文將作者歷史發(fā)刊記錄評(píng)分和主題偏好評(píng)分結(jié)合，得到一個(gè)綜合評(píng)分作為最終推薦決策的評(píng)分標(biāo)準(zhǔn)。

參數(shù)η平衡了主題偏好和歷史發(fā)刊記錄的影響，其最佳值將在本文的實(shí)驗(yàn)中進(jìn)一步探索?；谑剑?0）。本文可以計(jì)算出所有候選刊物的得分，并據(jù)此做出推薦。

2.4 算法流程

結(jié)合上述操作，基于作者偏好的學(xué)術(shù)投稿刊物推薦算法的流程如下：

輸入數(shù)據(jù)集中所有四元組H：(u，s，y，v)形式的發(fā)刊記錄，標(biāo)題集合T，日期集合Y，學(xué)術(shù)投稿目標(biāo)刊物集合V，和一個(gè)查詢q(ur，tr，yr)。

輸出由N個(gè)學(xué)術(shù)投稿目標(biāo)刊物組成的列表。

步驟1 數(shù)據(jù)預(yù)處理，進(jìn)行數(shù)據(jù)清洗，去停用詞，去除字母少于兩個(gè)的單詞，去標(biāo)點(diǎn)符號(hào)等；

步驟2 使用LDA 主題提取模型算法從標(biāo)題集T中獲得主題集S；

步驟3 建立兩張二部圖：通過(guò)式（10）和式（11）分別建立主題-刊物二部圖GSV：(S∪V，eSV)，時(shí)間-刊物二部圖GYV：(Y∪V，eYV)；

步驟4 使用異步隨機(jī)梯度下降方法訓(xùn)練模型；

步驟5 通過(guò)式（16）和式（17）分別計(jì)算作者的歷史發(fā)刊記錄向量和各個(gè)刊物的得分；

步驟6 通過(guò)式（18）和式（19）分別計(jì)算作者的主題偏好和主題偏好下各個(gè)刊物的得分；

步驟7 通過(guò)式（20）計(jì)算各個(gè)學(xué)術(shù)投稿目標(biāo)刊物對(duì)每個(gè)作者的最終得分，并由高到低排序，將最高的N個(gè)刊物返回給學(xué)術(shù)工作者。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

DBLP 數(shù)據(jù)集 DBLP 是計(jì)算機(jī)領(lǐng)域內(nèi)對(duì)研究的成果以作者為核心的一個(gè)計(jì)算機(jī)類(lèi)英文文獻(xiàn)的集成數(shù)據(jù)庫(kù)系統(tǒng)，按年代列出了作者的科研成果，包括國(guó)際期刊和會(huì)議等公開(kāi)發(fā)表的論文。DBLP 提供計(jì)算機(jī)領(lǐng)域科學(xué)文獻(xiàn)的搜索服務(wù)，但只儲(chǔ)存這些文獻(xiàn)的相關(guān)元數(shù)據(jù)，如標(biāo)題、作者、發(fā)表日期等。

PubMed 數(shù)據(jù)集 PubMed 是一個(gè)提供生物醫(yī)學(xué)方面的論文搜尋以及摘要，并且免費(fèi)搜尋的數(shù)據(jù)庫(kù)，其數(shù)據(jù)主要來(lái)源有：MEDLINE、OLDMEDLINE、Record in process、Record supplied by publisher 等。

在DBLP 數(shù)據(jù)集中，本文的測(cè)試數(shù)據(jù)為DBLP 2019 年的記錄。訓(xùn)練數(shù)據(jù)包括DBLP 中2009—2018 年期間的所有記錄。記錄的詳細(xì)信息見(jiàn)表1。本文的評(píng)估標(biāo)準(zhǔn)是Recall@N。Recall@N會(huì)估計(jì)真實(shí)提交出現(xiàn)在Top-N推薦列表中的情況。DBLP 測(cè)試數(shù)據(jù)由122 739 個(gè)樣本組成，測(cè)試任務(wù)是從1 407名計(jì)算機(jī)科學(xué)領(lǐng)域的投稿刊物中，推薦Top-N學(xué)術(shù)投稿目標(biāo)刊物。此外，PubMed 數(shù)據(jù)集中，大部分文章只有標(biāo)題，這與本文的研究動(dòng)機(jī)一致。由于計(jì)算能力有限，本文使用了PubMed 中的部分記錄。

表1 實(shí)驗(yàn)中使用的數(shù)據(jù)集Tab.1 Datasets used in experiments

3.2 實(shí)驗(yàn)配置

3.2.1 參數(shù)設(shè)置

本文使用手工估算的方法分別在DBLP 和PubMed 數(shù)據(jù)集上測(cè)試了式（16）、（18）和（20）中的參數(shù)α、β和η的取值，結(jié)果如圖1 所示。

其中，圖1（a）是在DBLP 數(shù)據(jù)集上測(cè)試的α、β和η三個(gè)參數(shù)取值，圖1（b）是在PubMed 數(shù)據(jù)集上測(cè)試的α、β和η三個(gè)參數(shù)取值。從中可以發(fā)現(xiàn)，選擇過(guò)大或過(guò)小的參數(shù)值都會(huì)降低算法的性能。本文在調(diào)整參數(shù)α?xí)r，首先將η設(shè)置為1，根據(jù)式（20）可知，此時(shí)僅考慮作者歷史發(fā)刊記錄、各個(gè)刊物學(xué)術(shù)焦點(diǎn)和時(shí)間的潛在聯(lián)系；而在調(diào)整參數(shù)β時(shí)，將η設(shè)置為0，根據(jù)式（20）可知，這時(shí)本文僅考慮主題與刊物之間的聯(lián)系。通過(guò)上述操作分別得到了參數(shù)α和參數(shù)β的最優(yōu)值，通過(guò)調(diào)整η的取值，可以得到本文模型的最好的推薦效果。由圖1 可見(jiàn)，對(duì)于DBLP 數(shù)據(jù)集，在α=0.60、β=0.35 和η=0.45 時(shí)得到最優(yōu)值；對(duì)于PubMed 數(shù)據(jù)集，在α=0.60、β=0.30 和η=0.40 時(shí)得到最優(yōu)值。

圖1 兩個(gè)數(shù)據(jù)集上不同參數(shù)設(shè)置的比較Fig.1 Comparison of different parameter settings on two datasets

3.2.2 主題數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響

本文通過(guò)實(shí)驗(yàn)分析了主題提取數(shù)量對(duì)推薦Recall@10 的影響，結(jié)果如圖2 所示。對(duì)于DBLP 數(shù)據(jù)集，主題提取的數(shù)量在少于40 時(shí)，對(duì)結(jié)果的影響比較大；主題數(shù)量在40～80 時(shí)，結(jié)果相對(duì)穩(wěn)定；而主題數(shù)量多于80 時(shí)，算法結(jié)果略有下降，本文推測(cè)是因?yàn)楫?dāng)LDA 算法提取主題數(shù)量太大時(shí)，會(huì)導(dǎo)致在圖嵌入時(shí)一些刊物和主題間的潛在聯(lián)系消失，同時(shí)也出現(xiàn)了過(guò)擬合等問(wèn)題。對(duì)于PubMed 數(shù)據(jù)集，當(dāng)主題數(shù)量少于60時(shí)，對(duì)最終推薦效果影響較大；主題數(shù)量在60～100 時(shí)，推薦效果比較平穩(wěn)；而當(dāng)主題數(shù)量在100 以上時(shí)，算法推薦效果會(huì)略微下降。綜上，本文設(shè)定主題數(shù)量為60。

圖2 主題數(shù)量對(duì)推薦結(jié)果的影響Fig.2 Influence of topic number on recommendation result

3.3 性能比較及實(shí)驗(yàn)分析

本文選取NMF（Non-negative Matrix Factorization）、DeepWalk、SVD（Singular Value Decomposition）、SVD++、KNN、CF 六種常用推薦方法，在推薦刊物列表長(zhǎng)度為N的召回率（記為：Recall@N）方面進(jìn)行比較，其中N=1，5，10，20，30。結(jié)果如表2所示。

從表2 可以看出，本文提出的AP-AJCR 算法在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他方法。在DBLP 數(shù)據(jù)集上，相較于SVD、SVD++、KNN、CF、DeepWalk 和NMF 方法，AP-AJCR 在Recall@10 上分別提升了0.525 0、0.479 6、0.382 7、0.548 0、0.087 4 和0.445 5；在PubMed數(shù)據(jù)集上，分別提升了0.375 9、0.358 9、0.354 5、0.358 2、0.024 1 和0.299 5。相較于其他方法，本文提出的AP-AJCR 算法總是能把作者“感興趣”的刊物排在推薦列表靠前的位置。次優(yōu)的方法是DeepWalk 方法，在進(jìn)行圖嵌入時(shí)，DeepWalk 方法通過(guò)隨機(jī)游走的方式捕捉圖的結(jié)構(gòu)，適用于無(wú)權(quán)圖，而本文提出的APAJCR 算法可以充分利用網(wǎng)絡(luò)結(jié)構(gòu)中邊的信息，信息利用率高，故AP-AJCR 算法要優(yōu)于DeepWalk 方法。通過(guò)表2 中數(shù)據(jù)可以得出，在僅使用論文內(nèi)容信息中的標(biāo)題數(shù)據(jù)的情況下，AP-AJCR 算法仍然有較高的推薦質(zhì)量，由此證明了所提出的推薦方法的有效性和魯棒性。

表2 不同算法在DBLP數(shù)據(jù)集和PubMed數(shù)據(jù)集上的推薦性能比較單位：%Tab.2 Comparison of recommendation performance of different algorithms on DBLP dataset and PubMed dataset unit：%

然后本文將訓(xùn)練數(shù)據(jù)集的大小由10 年數(shù)據(jù)縮小到7 年和4 年進(jìn)行了實(shí)驗(yàn)分析，即將2009—2018 年的訓(xùn)練集大小分別縮小至2012—2018 年和2015—2018 年，以探究不同時(shí)間跨度對(duì)推薦算法魯棒性的影響，結(jié)果如圖3 所示。在訓(xùn)練數(shù)據(jù)充足的情況下，本文算法會(huì)給出有效的推薦結(jié)果，在DBLP數(shù)據(jù)集上，10 年時(shí)間跨度的Recall@10 達(dá)到0.750 5，7 年時(shí)間跨度的Recall@10 有0.605 5，4 年時(shí)間跨度的Recall@10 僅有0.250 9；在PubMed 數(shù)據(jù)集上，10 年時(shí)間跨度的Recall@10 達(dá)到0.581 0，7 年時(shí)間跨度的Recall@10 有0.501 3，4 年時(shí)間跨度的Recall@10 僅有0.198 5。

圖3 本文算法在不同時(shí)間跨度的訓(xùn)練集上的推薦魯棒性比較Fig.3 Comparison of recommendation robustness of the proposed algorithm on training sets with different time spans

造成這種結(jié)果的原因是當(dāng)數(shù)據(jù)不充足時(shí)，時(shí)間-刊物二部圖GYV會(huì)受到很大的影響，時(shí)間跨度縮小會(huì)出現(xiàn)兩個(gè)問(wèn)題：1）刊物的學(xué)術(shù)焦點(diǎn)在很短的時(shí)間段內(nèi)難以捕捉，作者對(duì)刊物的潛在的動(dòng)態(tài)偏好很難展現(xiàn)出來(lái)；2）對(duì)于科研工作者而言，他們通常需要一定時(shí)間的研究與實(shí)驗(yàn)，才能完成自己的學(xué)術(shù)成果，數(shù)據(jù)集時(shí)間跨度較短時(shí)，數(shù)據(jù)稀疏性問(wèn)題對(duì)推薦效果的影響明顯。但是，在實(shí)際情況下，大部分公共學(xué)術(shù)發(fā)刊活動(dòng)數(shù)據(jù)集都有相當(dāng)長(zhǎng)的歷史，出版記錄豐富且完備，故本文基于圖嵌入的作者偏好推薦算法在實(shí)際情況下是可靠的，在實(shí)際應(yīng)用中具有良好的普適性。

最后，本文測(cè)試了算法的訓(xùn)練階段和推薦階段的時(shí)間消耗，詳細(xì)信息見(jiàn)表3。

表3 不同算法在訓(xùn)練階段和測(cè)試階段的耗時(shí)比較單位：sTab.3 Comparison of time consumption of different algorithms in training stage and testing stage unit：s

通過(guò)對(duì)比表中數(shù)據(jù)發(fā)現(xiàn)，SVD、SVD++、KNN、CF 方法無(wú)論是在訓(xùn)練階段還是測(cè)試階段，耗時(shí)都明顯較低，而DeepWalk、NMF 和AP-AJCR 耗時(shí)相對(duì)較高。對(duì)精度要求不高，但對(duì)測(cè)試階段耗時(shí)要求比較高的情況下，KNN 和SVD++可以勝任工作；對(duì)精度要求不高，對(duì)訓(xùn)練階段耗時(shí)要求較高的情況下，推薦使用KNN 算法；在要求推薦精度的情況下，AP-AJCR、KNN、NMF、DeepWalk 都可以勝任工作，KNN 耗時(shí)小、精度相對(duì)較低；AP-AJCR 和NMF 方法耗時(shí)處于同一量級(jí)，但AP-AJCR 推薦效果明顯優(yōu)于NMF；雖然AP-AJCR 和DeepWalk 推薦質(zhì)量相差不大，但AP-AJCR 相較于DeepWalk，在訓(xùn)練階段可以節(jié)省90%左右的時(shí)間。

4 結(jié)語(yǔ)

本文提出了一種基于作者偏好的學(xué)術(shù)刊物投稿推薦算法。在實(shí)際任務(wù)中，文章的所有信息并不一定是對(duì)所有人可見(jiàn)的，而且這些信息的預(yù)處理操作在各種推薦算法中耗時(shí)較長(zhǎng)，因此本文提出了一個(gè)僅適用作者、標(biāo)題、發(fā)表時(shí)間和發(fā)表刊物的推薦系統(tǒng)。在所提出的系統(tǒng)中，將作者主題偏好分?jǐn)?shù)（即作者對(duì)主題的偏好）和作者歷史發(fā)刊記錄（即作者投稿刊物偏好的變化趨勢(shì)）結(jié)合起來(lái)，并產(chǎn)生最終的推薦。在DBLP和PubMed 上的實(shí)驗(yàn)結(jié)果表明，與其他算法相比，所提出的推薦算法不僅在大多數(shù)情況下足夠有效，而且減少了對(duì)元數(shù)據(jù)和知識(shí)庫(kù)的信息需求，但是對(duì)時(shí)間的需求較高。未來(lái)，本文將探索一種自適應(yīng)的、分層的從標(biāo)題中提取主題的方法，挖掘潛在的自我聯(lián)系（如主題-主題、刊物-刊物），以及作者合著者之間的聯(lián)系，以完善現(xiàn)有的推薦系統(tǒng)。

計(jì)算機(jī)應(yīng)用2022年1期

計(jì)算機(jī)應(yīng)用的其它文章: 致謝審稿專(zhuān)家; 2021年度審稿專(zhuān)家名單; 多視角多注意力融合分子特征的藥物-靶標(biāo)親和力預(yù)測(cè); 基于多影像中心磁共振成像數(shù)據(jù)的半監(jiān)督膝蓋異常分類(lèi); 3DPCANet在阿爾茨海默癥功能磁共振成像圖像分類(lèi)中的應(yīng)用; 基于改進(jìn)VGG網(wǎng)絡(luò)的弱監(jiān)督細(xì)粒度阿爾茲海默癥分類(lèi)方法

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放