亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合動(dòng)態(tài)研究偏好和社交信任的潛在科研合作者推薦研究

        2023-12-26 02:18:18鐘元生高成珍朱文強(qiáng)
        情報(bào)學(xué)報(bào) 2023年11期
        關(guān)鍵詞:模型研究

        鐘元生,高成珍,朱文強(qiáng)

        (1.江西財(cái)經(jīng)大學(xué)信息管理學(xué)院,南昌 330013;2.江西財(cái)經(jīng)大學(xué)財(cái)經(jīng)數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,南昌 330013;3.江西財(cái)經(jīng)大學(xué)軟件與物聯(lián)網(wǎng)工程學(xué)院,南昌 330013)

        0 引言

        科研合作有利于促進(jìn)學(xué)術(shù)交流、激發(fā)創(chuàng)作靈感、提升科研生產(chǎn)力,已成為當(dāng)前科學(xué)研究的常態(tài)[1]。傳統(tǒng)的科研合作通常發(fā)生在熟人之間;隨著網(wǎng)絡(luò)協(xié)作工具的普及,越來(lái)越多的學(xué)者開(kāi)始尋找原本并不認(rèn)識(shí)、跨單位、跨學(xué)科的合作者[2]。學(xué)術(shù)數(shù)據(jù)增長(zhǎng)快,每年都會(huì)涌現(xiàn)大量新的文獻(xiàn)和研究人員,如何從中發(fā)現(xiàn)潛在合作者是學(xué)者要解決的問(wèn)題??蒲泻献髡咄扑]基于學(xué)術(shù)大數(shù)據(jù)挖掘?qū)W者間潛在關(guān)系,進(jìn)行個(gè)性化推薦,能夠有效解決這一問(wèn)題。

        潛在科研合作者推薦是指向用戶推薦之前沒(méi)有合作過(guò)但未來(lái)很有可能合作的學(xué)者,這些學(xué)者可能是小同行,也可能來(lái)自不同領(lǐng)域,適合于想要尋找新的合作伙伴、擴(kuò)大學(xué)術(shù)圈和拓展研究視野的學(xué)者,通常應(yīng)用于學(xué)術(shù)搜索引擎、科研管理軟件、學(xué)術(shù)社交網(wǎng)絡(luò)等平臺(tái)。例如,國(guó)內(nèi)的科研之友、學(xué)者網(wǎng),國(guó)外的ResearchGate、Academia。一方面,推薦系統(tǒng)能吸引更多新用戶,增加用戶使用平臺(tái)的時(shí)間和頻率,提升用戶滿意度和留存率;另一方面,個(gè)性化推薦有助于學(xué)者找到感興趣的潛在合作者,節(jié)省時(shí)間和精力,還可能帶來(lái)意外驚喜[3]。

        已有的科研合作者推薦主要依據(jù)學(xué)者研究興趣建模和合著網(wǎng)絡(luò)分析,較少有研究者考慮學(xué)者研究偏好動(dòng)態(tài)變化特征以及從信任視角研究科研合作者推薦問(wèn)題。學(xué)者的研究興趣可能隨著新技術(shù)、新熱點(diǎn)的出現(xiàn)或已有研究的完結(jié)而轉(zhuǎn)移,用戶更期望系統(tǒng)能夠推薦近期對(duì)某一主題感興趣的學(xué)者而不是多年前對(duì)這一主題感興趣的學(xué)者。科研合作關(guān)系是一種顯式的強(qiáng)信任關(guān)系,優(yōu)秀的合作者可以創(chuàng)造出高質(zhì)量科研成果,不靠譜的合作者可能會(huì)導(dǎo)致無(wú)用功、浪費(fèi)時(shí)間,甚至存在學(xué)術(shù)造假風(fēng)險(xiǎn),推薦潛在合作者時(shí),考慮學(xué)者間信任關(guān)系很有必要。學(xué)者間合作次數(shù)越多,社交信任越強(qiáng),對(duì)于沒(méi)有合作的學(xué)者,可根據(jù)信任的可傳播性和有限傳遞性[4],計(jì)算學(xué)者間的間接社交信任值。由于僅根據(jù)研究興趣推薦可能忽略一些跨領(lǐng)域合作者,僅根據(jù)社交信任推薦可能忽略一些無(wú)社交關(guān)系的小同行,基于此,本文提出一種融合學(xué)者動(dòng)態(tài)研究偏好和學(xué)術(shù)社交信任的科研合作者推薦模型SimTrustRec。

        1 相關(guān)研究

        1.1 基于研究興趣相似的科研合作者推薦

        基于研究興趣相似的科研合作者推薦的基本思想是學(xué)者間研究興趣越相似,越容易形成合作關(guān)系,其關(guān)鍵是如何表示學(xué)者的研究偏好以及如何計(jì)算學(xué)者間研究偏好相似度。此類模型主要借助自然語(yǔ)言處理相關(guān)技術(shù),如VSM(vector space model)、TF-IDF(term frequency-inverse document frequency)、LDA(latent Dirichlet allocation)、word2vec等,對(duì)學(xué)者的學(xué)術(shù)主頁(yè)信息、已發(fā)表論文數(shù)據(jù)等進(jìn)行分析和建模,獲得學(xué)者研究偏好的向量表示,計(jì)算向量間相似度,從而推薦最相似的學(xué)者。學(xué)者研究興趣建模方法主要有以下幾類:①根據(jù)研究領(lǐng)域?qū)φ撐倪M(jìn)行分類,統(tǒng)計(jì)學(xué)者在各個(gè)領(lǐng)域中的論文數(shù)。Lopes 等[5]使用本體法對(duì)論文進(jìn)行分類,統(tǒng)計(jì)學(xué)者各個(gè)類別下的論文數(shù),使用VSM 表示學(xué)者的研究偏好。②根據(jù)學(xué)者已發(fā)表論文的關(guān)鍵詞信息,利用TF-IDF 模型對(duì)學(xué)者的研究領(lǐng)域進(jìn)行建模[6]。③使用主題模型學(xué)習(xí)學(xué)者的主題概率分布。劉萍等[7]構(gòu)建作者-關(guān)鍵詞耦合網(wǎng)絡(luò),對(duì)該網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,利用LDA 模型分析社區(qū)內(nèi)的學(xué)者文獻(xiàn),得到學(xué)者研究偏好,從社區(qū)中推薦最相似的學(xué)者。Du 等[8]對(duì)多個(gè)來(lái)源的學(xué)者數(shù)據(jù)做標(biāo)準(zhǔn)化處理,使用LDA 模型學(xué)習(xí)學(xué)者的隱式主題分布,并將其映射到真實(shí)標(biāo)簽庫(kù),從而識(shí)別學(xué)者興趣愛(ài)好。④使用深度學(xué)習(xí)技術(shù)對(duì)學(xué)者興趣建模。Kong 等[9]使用word2vec 模型對(duì)論文標(biāo)題進(jìn)行學(xué)習(xí)得到詞向量,然后對(duì)詞向量進(jìn)行聚類,從而獲取學(xué)者對(duì)各類別的興趣偏好。

        1.2 基于網(wǎng)絡(luò)的科研合作者推薦

        基于網(wǎng)絡(luò)的科研合作者推薦的基本思想是根據(jù)已有文獻(xiàn)數(shù)據(jù),抽取學(xué)術(shù)相關(guān)實(shí)體,如學(xué)者、論文、學(xué)者所在單位等;以及實(shí)體間的各種關(guān)系,如學(xué)者間的合著關(guān)系、學(xué)者與單位之間的合作關(guān)系、論文間的引用關(guān)系等,從而構(gòu)建學(xué)術(shù)合作網(wǎng)絡(luò)。其中節(jié)點(diǎn)表示學(xué)術(shù)實(shí)體,連邊表示實(shí)體間的關(guān)系,將科研合作者推薦問(wèn)題轉(zhuǎn)換為網(wǎng)絡(luò)中的鏈路預(yù)測(cè)問(wèn)題,采用傳統(tǒng)的網(wǎng)絡(luò)分析方法或當(dāng)前較為流行的網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù),計(jì)算節(jié)點(diǎn)間建立鏈接的可能性。①傳統(tǒng)的網(wǎng)絡(luò)分析方法。Yan 等[10]將鏈接預(yù)測(cè)方法應(yīng)用到科研合作推薦之中,分別從作者、機(jī)構(gòu)和國(guó)家3 個(gè)層次構(gòu)造合作網(wǎng)絡(luò),對(duì)比CN(common neighbors)、AA(Adamic-Adar)、Jaccard、PA(preferential attachment)、Katz 等8 個(gè)預(yù)測(cè)方法的效果。呂偉民等[11]針對(duì)鏈路預(yù)測(cè)方法單一指標(biāo)考慮信息有限、推薦成功率依賴網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、方法適用性較差等缺點(diǎn),提出將鏈路預(yù)測(cè)與機(jī)器學(xué)習(xí)相結(jié)合,學(xué)習(xí)最優(yōu)權(quán)重組合。Xia 等[12]提出一種基于隨機(jī)游走的合作者推薦模型MVCWalker,根據(jù)學(xué)者在論文中的署名順序、學(xué)者間合作次數(shù)以及最近一次合作時(shí)間等因素,計(jì)算節(jié)點(diǎn)間鏈接重要性。Zhou 等[13]定義了序列重要性和新鮮度重要性兩個(gè)指標(biāo)計(jì)算學(xué)術(shù)異質(zhì)網(wǎng)絡(luò)中邊的權(quán)重,從而在異質(zhì)網(wǎng)絡(luò)中執(zhí)行帶有重啟的隨機(jī)游走算法,最終得到學(xué)者間的相關(guān)性。②基于網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)。張金柱等[14]使用LINE(largescale information network embedding)模型學(xué)習(xí)合著網(wǎng)絡(luò),得到學(xué)者的低維稠密向量表示,通過(guò)相似度計(jì)算,實(shí)現(xiàn)科研合作預(yù)測(cè)。余傳明等[15]集成基于節(jié)點(diǎn)位置的網(wǎng)絡(luò)表示學(xué)習(xí)模型和融合網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)表示學(xué)習(xí)模型,從而得到頂點(diǎn)和邊的向量表示,然后將其作為機(jī)器學(xué)習(xí)的輸入,進(jìn)行科研合作預(yù)測(cè)。林原等[16]根據(jù)文獻(xiàn)數(shù)據(jù)構(gòu)建異質(zhì)網(wǎng)絡(luò),利用網(wǎng)絡(luò)表示學(xué)習(xí)將多種實(shí)體表示成同一空間下的低維稠密向量,利用向量距離來(lái)度量實(shí)體間的關(guān)聯(lián),從而實(shí)現(xiàn)潛在合作對(duì)象挖掘。

        1.3 混合推薦方法

        混合推薦方法主要是以不同的策略融合學(xué)者個(gè)人屬性、研究興趣以及學(xué)術(shù)社交網(wǎng)絡(luò)等多種特征進(jìn)行科研合作者推薦。Pradhan 等[17]提出一種基于深度學(xué)習(xí)和有偏隨機(jī)游走的多層次融合模型為科研人員推薦潛在的合作者。Chen 等[18]提出一種內(nèi)容增強(qiáng)的網(wǎng)絡(luò)表示學(xué)習(xí)模型,在原有的合著關(guān)系網(wǎng)絡(luò)之上,在最相似的學(xué)者之間添加連邊,以緩解原有網(wǎng)絡(luò)稀疏問(wèn)題。Du 等[19]提出一種屬性網(wǎng)絡(luò)嵌入的推薦模型,通過(guò)隨機(jī)游走獲取最相關(guān)學(xué)者,通過(guò)屬性相似度獲取最相似學(xué)者,然后將其融合得到新的關(guān)系網(wǎng)絡(luò),利用深度自編碼技術(shù)學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的低維稠密向量表示。熊回香等[20]提出一種基于用戶相似度與信任度的學(xué)者推薦模型,將虛擬學(xué)術(shù)社區(qū)中的博文與好友關(guān)系結(jié)合計(jì)算用戶相似度,同時(shí)引入好友數(shù)量、博文數(shù)量、博文質(zhì)量3 個(gè)指標(biāo)計(jì)算學(xué)者聲譽(yù),最終得到學(xué)者推薦評(píng)分。其中,“信任”是指學(xué)者聲譽(yù)而不是學(xué)者間的社交信任。

        2 模型介紹

        2.1 模型概述

        本文提出一種融合學(xué)者動(dòng)態(tài)研究偏好和學(xué)術(shù)社交信任的潛在科研合作者推薦模型SimTrustRec,該模型借助自然語(yǔ)言處理相關(guān)技術(shù)對(duì)已發(fā)表論文數(shù)據(jù)進(jìn)行建模分析,得到論文的低維稠密向量表示。為了捕捉學(xué)者研究偏好動(dòng)態(tài)變化特征,設(shè)計(jì)時(shí)間衰減函數(shù)對(duì)學(xué)者已發(fā)表論文進(jìn)行聚合,從而得到學(xué)者研究偏好的向量表示,使用余弦相似度計(jì)算學(xué)者間的研究偏好相似度。同時(shí),根據(jù)學(xué)者間的合著關(guān)系以及學(xué)者與單位間的合作關(guān)系構(gòu)建學(xué)術(shù)社交網(wǎng)絡(luò),計(jì)算學(xué)者間的直接學(xué)術(shù)社交信任,然后根據(jù)信任的可傳播性和有限傳遞性,計(jì)算間接學(xué)術(shù)社交信任。最后,融合學(xué)者間研究偏好相似度以及間接學(xué)術(shù)社交信任計(jì)算學(xué)者間將來(lái)合作的可能性,根據(jù)可能性大小為學(xué)者生成推薦列表。SimTrustRec 模型的整體框架流程如圖1 所示。

        圖1 模型整體框架和流程

        2.2 符號(hào)與術(shù)語(yǔ)定義

        為了方便描述,首先定義SimTrustRec 模型使用的關(guān)鍵符號(hào),如表1 所示,下文將對(duì)本文涉及的一些關(guān)鍵術(shù)語(yǔ)進(jìn)行定義。

        表1 關(guān)鍵符號(hào)含義說(shuō)明

        定義1.學(xué)術(shù)社交網(wǎng)絡(luò)。在本文中,學(xué)術(shù)社交網(wǎng)絡(luò)是指從已發(fā)表論文數(shù)據(jù)中抽取出來(lái)的學(xué)者與學(xué)者、學(xué)者與單位之間的合作關(guān)系所構(gòu)成的異質(zhì)網(wǎng)絡(luò),記為G(V,E,W)。其中,V表示網(wǎng)絡(luò)中節(jié)點(diǎn)的集合,包含學(xué)者和單位兩種類型,即V=A∪O;E表示網(wǎng)絡(luò)中邊的集合,對(duì)于網(wǎng)絡(luò)中的任意兩個(gè)節(jié)點(diǎn)vi,vj∈V,若二者之間存在合作關(guān)系,則有eij∈E;W表示網(wǎng)絡(luò)中邊的權(quán)重集合,wij∈W表示節(jié)點(diǎn)vi與vj之間合作的強(qiáng)度,本文用合作次數(shù)表示。

        定義2.學(xué)術(shù)社交信任。學(xué)術(shù)社交信任是指學(xué)者間因存在直接或間接學(xué)術(shù)合作關(guān)系而產(chǎn)生的信任。例如,合作發(fā)表論文的學(xué)者間、同一單位的學(xué)者間、擁有共同合作者的學(xué)者間等。根據(jù)雙方是否存在直接合作可分為直接學(xué)術(shù)社交信任和間接學(xué)術(shù)社交信任。

        定義3.潛在科研合作者推薦。已知學(xué)者集合A,論文集合P,學(xué)者單位集合O,學(xué)術(shù)社交網(wǎng)絡(luò)G,目標(biāo)學(xué)者u,潛在科研合作者推薦的任務(wù)就是為目標(biāo)學(xué)者u生成一個(gè)包含k個(gè)學(xué)者的列表Au={au,1,au,2,…,au,k},該列表中的學(xué)者根據(jù)合作可能性降序排列,并且學(xué)者u和列表中的任何一個(gè)學(xué)者之前均沒(méi)有合作過(guò)。

        2.3 學(xué)術(shù)社交網(wǎng)絡(luò)構(gòu)建

        學(xué)術(shù)社交網(wǎng)絡(luò)是指根據(jù)已發(fā)表的論文中作者、單位之間的合作關(guān)系而形成的復(fù)雜網(wǎng)絡(luò)。學(xué)術(shù)社交網(wǎng)絡(luò)構(gòu)建的過(guò)程如下:

        Step1.獲取一篇論文中的所有作者。論文中任意兩個(gè)作者間形成一次合作關(guān)系,以(學(xué)者1 編號(hào),學(xué)者2 編號(hào))二元組的形式保存。考慮到學(xué)者間合作關(guān)系是相互的,生成合作二元組前先對(duì)論文中的作者根據(jù)編號(hào)大小排序,以避免重復(fù)統(tǒng)計(jì)。

        Step2.獲取一篇論文中的所有單位。首先,獲取該論文中每一位作者的單位信息,一個(gè)學(xué)者可能同時(shí)屬于多個(gè)單位,將論文中每個(gè)學(xué)者的所有單位加入同一個(gè)列表,此時(shí),列表中可能會(huì)存在重復(fù)的單位,刪除多余單位,保證每個(gè)單位在列表中僅出現(xiàn)一次;其次,論文中每個(gè)學(xué)者和列表中每個(gè)單位之間都形成一次合作關(guān)系,以(學(xué)者編號(hào),單位編號(hào))二元組的形式保存。

        Step3.循環(huán)遍歷數(shù)據(jù)集中的所有論文,對(duì)每篇論文執(zhí)行Step1 和Step2,即可得到所有學(xué)者集合A、所有單位集合O、學(xué)者與學(xué)者之間的合作次數(shù)以及學(xué)者與單位之間的合作次數(shù)。

        Step4.以學(xué)者和單位為節(jié)點(diǎn),若兩個(gè)節(jié)點(diǎn)之間存在合作關(guān)系,則在兩個(gè)節(jié)點(diǎn)之間添加一條邊,邊上的數(shù)字表示二者之間的合作次數(shù)。為了區(qū)分不同類型的合作關(guān)系,使用不同樣式的連線。例如,短點(diǎn)線表示學(xué)者與單位間的合作關(guān)系,虛線表示學(xué)者與單位間的隸屬關(guān)系,實(shí)線表示學(xué)者間的合作關(guān)系等。至此,學(xué)術(shù)社交網(wǎng)絡(luò)的構(gòu)建完成。

        圖2 給出了一個(gè)簡(jiǎn)單樣例,左邊是論文作者信息和學(xué)者單位信息,右邊是相應(yīng)的學(xué)術(shù)社交網(wǎng)絡(luò)。

        圖2 學(xué)術(shù)社交網(wǎng)絡(luò)示意圖

        2.4 學(xué)者研究興趣偏好相似度計(jì)算

        學(xué)者的研究興趣可能單一也可能同時(shí)涉及多個(gè)領(lǐng)域,并且處于動(dòng)態(tài)變化之中,一般難以顯式獲取。但學(xué)者所發(fā)表的論文往往隱含了其研究方向和興趣,通過(guò)對(duì)學(xué)者已發(fā)表的論文數(shù)據(jù)進(jìn)行文本分析,即可獲取學(xué)者的研究興趣偏好。常見(jiàn)的文本數(shù)據(jù)分析方法有VSM、TF-IDF 模型、LDA 模型等,其中LDA 模型將文檔表示為低維稠密向量,能有效避免維度災(zāi)難,文檔間的相似度可通過(guò)向量間的距離表示,是當(dāng)前較為主流的方法[21]。由于論文全文內(nèi)容長(zhǎng),不易訓(xùn)練,部分論文全文獲取成本高,而論文的標(biāo)題和摘要往往能夠反映論文的核心思想和主要內(nèi)容且容易獲取,本文運(yùn)用LDA 模型,對(duì)所有論文標(biāo)題和摘要所組成的語(yǔ)料庫(kù)進(jìn)行學(xué)習(xí),從而獲取每一篇論文的主題分布??紤]到學(xué)者的研究興趣隨時(shí)間變化,論文發(fā)表時(shí)間越早,對(duì)當(dāng)前的興趣偏好影響越小,根據(jù)論文發(fā)表年份距離當(dāng)前年份的差值設(shè)計(jì)衰減函數(shù),衰減函數(shù)的取值在0 到1 之間。整合學(xué)者發(fā)表的論文時(shí),首先,獲取每一篇論文的主題分布;其次,根據(jù)論文發(fā)表年份對(duì)論文的權(quán)重進(jìn)行調(diào)整;最后,對(duì)學(xué)者所有論文進(jìn)行加權(quán)求和并進(jìn)行歸一化,使得主題概率分布之和為1,從而得到學(xué)者的研究興趣偏好表示。學(xué)者u的興趣偏好表示計(jì)算公式為

        其中,TF(yearp)表示衰減函數(shù)。常見(jiàn)的衰減函數(shù)有指數(shù)函數(shù)、線性函數(shù)、對(duì)數(shù)函數(shù)等,本文采用指數(shù)衰減函數(shù)。TF(yearp)函數(shù)定義為

        其中,yearc表示當(dāng)前年份,根據(jù)訓(xùn)練集中的數(shù)據(jù)確定,在本文中為2011;yearp表示論文p發(fā)表的年份;λ表示衰減因子,用于控制衰減速率,一般取值為最大差值的一半[22],本文設(shè)置λ=5。

        獲取學(xué)者研究興趣偏好的向量表示后,通過(guò)兩個(gè)向量間的余弦相似度來(lái)計(jì)算學(xué)者間的研究興趣偏好相似度,學(xué)者u和學(xué)者v之間的研究興趣相似度計(jì)算公式為

        其中,dim 表示向量的維度,可通過(guò)實(shí)驗(yàn)確定,詳見(jiàn)3.4.1 節(jié)。

        2.5 學(xué)術(shù)社交信任計(jì)算

        學(xué)術(shù)社交信任是一種基于已有學(xué)術(shù)社交關(guān)系而產(chǎn)生的信任,例如,學(xué)者A 與學(xué)者C 合作多次,學(xué)者A 與學(xué)者B 從未合作過(guò),此時(shí),學(xué)者A 對(duì)學(xué)者C的學(xué)術(shù)社交信任大于學(xué)者A 對(duì)學(xué)者B 的學(xué)術(shù)社交信任。學(xué)術(shù)社交信任主要根據(jù)實(shí)體間合作次數(shù)來(lái)度量。由于學(xué)術(shù)社交網(wǎng)絡(luò)中直接合作關(guān)系非常稀疏,存在直接社交信任關(guān)系的學(xué)者對(duì)非常少,因信任具有可傳播性和有限傳遞性[4],故可借助于一些中間關(guān)系,如合作者的合作者、合作單位中的學(xué)者等,用于計(jì)算學(xué)者間的間接學(xué)術(shù)社交信任。

        2.5.1 直接學(xué)術(shù)社交信任計(jì)算

        學(xué)者間合作次數(shù)越多,學(xué)術(shù)社交信任關(guān)系越強(qiáng)??紤]到不同學(xué)者合作次數(shù)的差異,例如,有些學(xué)者與合作者間合作次數(shù)達(dá)幾十次,而有些學(xué)者與所有合作者之間的合作次數(shù)均不超過(guò)5 次,提出計(jì)算學(xué)術(shù)社交信任值時(shí),采用相對(duì)值。設(shè)定學(xué)者對(duì)與其合作次數(shù)最多的學(xué)者的直接社交信任值為1,該學(xué)者對(duì)其他學(xué)者的直接社交信任值為其相互之間的合作次數(shù)除以該學(xué)者與所有合作者中合作次數(shù)的最大值。學(xué)者u和學(xué)者v之間的直接學(xué)術(shù)社交信任計(jì)算公式為

        從公式(4)可以看出,學(xué)者間的學(xué)術(shù)社交信任是非對(duì)稱的,即學(xué)者u對(duì)學(xué)者v的直接學(xué)術(shù)社交信任值不一定等于學(xué)者v對(duì)學(xué)者u的直接學(xué)術(shù)社交信任值。例如,學(xué)者u直接合作的學(xué)者有v、m、n,合作次數(shù)分別為2、4、6,學(xué)者v直接合作的學(xué)者有u、x、y,合作次數(shù)分別為2、5、8,此時(shí),學(xué)者u對(duì)學(xué)者v的直接社交信任值為1/3,學(xué)者v對(duì)學(xué)者u的直接社交信任值為1/4。

        學(xué)者與合作單位之間的直接社交信任計(jì)算公式與公式(4)類似,用學(xué)者與單位間合作次數(shù)除以該學(xué)者所有合作單位中合作次數(shù)的最大值。由于隸屬關(guān)系是一種特殊的合作關(guān)系,合作次數(shù)最多的單位就是該學(xué)者所在單位,合作次數(shù)最大值為該作者的論文數(shù),因此,學(xué)者u和合作單位o之間的直接信任計(jì)算公式為

        其中,countu,o表示學(xué)者u和單位o之間的合作次數(shù);|Pu|表示學(xué)者u發(fā)表的論文數(shù)。

        2.5.2 間接學(xué)術(shù)社交信任計(jì)算

        間接學(xué)術(shù)社交信任是指沒(méi)有直接合作關(guān)系的學(xué)者之間,因存在一定的間接學(xué)術(shù)社交關(guān)系而產(chǎn)生的學(xué)術(shù)社交信任,這些學(xué)者更有可能成為潛在合作者。根據(jù)社交網(wǎng)絡(luò)理論,信任具有可傳播性和有限傳遞性,隨著傳播路徑延長(zhǎng),存在間接社交關(guān)系的用戶數(shù)呈指數(shù)增長(zhǎng),用戶間社交信任值不斷衰減,為了避免因社交路徑過(guò)長(zhǎng)可能帶來(lái)噪聲的影響,同時(shí)降低計(jì)算量,文中傳播路徑長(zhǎng)度限定為2,只考慮兩種間接學(xué)術(shù)社交關(guān)系,即合作者的合作者以及合作單位里的學(xué)者。學(xué)者間可能存在多個(gè)共同合作者,當(dāng)存在多條間接學(xué)術(shù)社交關(guān)系時(shí),采取累積求和的方式計(jì)算學(xué)者間的學(xué)術(shù)社交信任值。采用ISTu,a,v表示學(xué)者u和學(xué)者v之間通過(guò)合作者的合作者關(guān)系而獲得的間接學(xué)術(shù)社交信任,ISTu,o,v表示學(xué)者u和學(xué)者v之間通過(guò)合作單位里的學(xué)者關(guān)系而獲得的間接學(xué)術(shù)社交信任。最后,通過(guò)一個(gè)參數(shù)α將兩種間接社交信任進(jìn)行融合,從而得到學(xué)者u和學(xué)者v之間最終的間接學(xué)術(shù)社交信任ISTu,v,計(jì)算公式為

        計(jì)算ISTu,a,v時(shí),首先獲取學(xué)者u的所有合作者集合NAu,依次遍歷每一個(gè)合作者w,若學(xué)者w和學(xué)者v之間存在合作關(guān)系,則學(xué)者u和學(xué)者v之間存在一條路徑,通過(guò)該路徑得到的間接社交信任值為DSTu,w× DSTw,v,即學(xué)者u對(duì)學(xué)者w的直接學(xué)術(shù)社交值乘以學(xué)者w對(duì)學(xué)者v的直接學(xué)術(shù)社交信任值。若存在多條路徑,則進(jìn)行累加。

        計(jì)算ISTu,o,v時(shí),首先獲取學(xué)者v所在單位集合BOv,依次遍歷每一個(gè)單位o,若學(xué)者u和單位o之間存在合作關(guān)系,則學(xué)者u和學(xué)者v之間存在一條路徑。通過(guò)該路徑得到的間接社交信任值為DSTu,o×,之所以要乘以系數(shù),主要是考慮到不同單位人數(shù)的差異,單位中學(xué)者數(shù)越多,存在研究興趣無(wú)關(guān)的學(xué)者就越多。為了降低其影響,設(shè)計(jì)了一個(gè)與單位人數(shù)負(fù)相關(guān)的系數(shù),并保證系數(shù)取值在(0,1]區(qū)間。若學(xué)者間存在多條路徑,則進(jìn)行累加。

        當(dāng)α=0 時(shí),表示計(jì)算間接學(xué)術(shù)社交信任時(shí)只考慮合作者的合作者關(guān)系;當(dāng)α=1 時(shí),表示計(jì)算間接學(xué)術(shù)社交信任時(shí)只考慮合作單位里的學(xué)者關(guān)系,通過(guò)調(diào)節(jié)參數(shù)α的取值,可以對(duì)比不同間接學(xué)術(shù)社交關(guān)系對(duì)潛在合作者推薦的影響。參數(shù)α取值通過(guò)實(shí)驗(yàn)確定,詳見(jiàn)3.4.2 節(jié)。

        2.6 潛在科研合作者推薦

        融合學(xué)者間研究偏好相似度及學(xué)者間間接學(xué)術(shù)社交信任兩個(gè)部分的信息,計(jì)算學(xué)者間形成科研合作的可能性。學(xué)者u和學(xué)者v之間形成科研合作的可能性為

        其中,β為權(quán)重參數(shù)。當(dāng)β=0 時(shí),該模型退化為完全依靠間接社交信任關(guān)系做推薦;當(dāng)β=1 時(shí),該模型退化為完全依靠研究偏好相似度進(jìn)行推薦。通過(guò)調(diào)節(jié)參數(shù)β取值,可以對(duì)比研究偏好相似度和間接學(xué)術(shù)社交信任在潛在合作者推薦中的作用,參數(shù)β取值通過(guò)實(shí)驗(yàn)確定,詳見(jiàn)3.4.3 節(jié)。

        為目標(biāo)學(xué)者test 推薦潛在科研合作者的大致流程如下:

        算法1.SimTrustRec 推薦潛在合作者

        輸入:論文集合P、學(xué)者集合A、單位集合O、向量維度dim、推薦列表長(zhǎng)度N、參數(shù)α、參數(shù)β、目標(biāo)學(xué)者test。

        輸出:TopN潛在科研合作者列表。

        算法流程解析具體如下:

        (1)依次抽取每篇論文的標(biāo)題和摘要文本,將其拼接在一起,然后進(jìn)行去除停用詞、詞干化處理,得到語(yǔ)料庫(kù);接著,在語(yǔ)料庫(kù)上執(zhí)行LDA 模型學(xué)習(xí)得到每篇文章的主題概率分布,所有論文的主題概率分布矩陣記為P;

        (2)依次獲取每位學(xué)者發(fā)表的論文列表,根據(jù)論文發(fā)表年份調(diào)整論文的權(quán)重,然后根據(jù)公式(1),對(duì)該學(xué)者發(fā)表的所有論文的主題概率分布進(jìn)行加權(quán)求和并進(jìn)行歸一化處理,得到所有學(xué)者的研究興趣概率分布矩陣A;

        (3)根據(jù)公式(3)計(jì)算任意兩個(gè)學(xué)者的研究偏好相似度,得到研究偏好相似度矩陣SIM;

        (4)根據(jù)已發(fā)表論文數(shù)據(jù),統(tǒng)計(jì)學(xué)者間合作次數(shù)、學(xué)者與單位間合作次數(shù),并構(gòu)建學(xué)術(shù)社交網(wǎng)絡(luò)G(V,E,W),其中節(jié)點(diǎn)包括學(xué)者和單位,權(quán)重為合作次數(shù);

        (5)依次獲取每位學(xué)者的合作者,根據(jù)公式(4)計(jì)算學(xué)者與合作者之間的直接學(xué)術(shù)社交信任,依次獲取每位學(xué)者的合作單位,根據(jù)公式(5)計(jì)算學(xué)者與合作單位之間的直接學(xué)術(shù)社交信任;

        (6)根據(jù)公式(6)計(jì)算每個(gè)學(xué)者與潛在合作者之間的間接學(xué)術(shù)社交信任值,其中潛在合作者為該學(xué)者合作者的合作者或者該學(xué)者合作單位里的學(xué)者;

        (7)根據(jù)相似度矩陣獲取與目標(biāo)學(xué)者test 研究偏好最相似的30 個(gè)學(xué)者構(gòu)成候選集C1;

        (8)根據(jù)學(xué)術(shù)社交網(wǎng)絡(luò),獲取與目標(biāo)學(xué)者test存在間接學(xué)術(shù)社交關(guān)系的學(xué)者構(gòu)成候選集C2;

        (9)對(duì)候選集C1和候選集C2求并集,得到最終的候選集C;

        (10)根據(jù)公式(7)計(jì)算候選集C中的每個(gè)學(xué)者與目標(biāo)學(xué)者test 合作的可能性;

        (11)根據(jù)合作可能性對(duì)候選集C中學(xué)者進(jìn)行降序排序,將前N個(gè)學(xué)者作為推薦結(jié)果。

        3 實(shí)證分析

        3.1 數(shù)據(jù)集介紹與預(yù)處理

        ArnetMiner 數(shù)據(jù)集[23]由清華大學(xué)研發(fā),用于學(xué)術(shù)社會(huì)網(wǎng)絡(luò)分析和挖掘,主要包含文章信息、學(xué)者信息、學(xué)者合作信息以及文章中作者順序信息等。每篇文章記錄包含編號(hào)、標(biāo)題、作者、作者單位、發(fā)表年份、來(lái)源、摘要等,每個(gè)作者記錄包含編號(hào)、姓名、單位等,每條學(xué)者合作信息包含學(xué)者一編號(hào)、學(xué)者二編號(hào)、學(xué)者合作次數(shù)等,每條文章作者署名順序信息包含學(xué)者編號(hào)、文章編號(hào)、學(xué)者署名序號(hào)等。ArnetMiner 數(shù)據(jù)集中每位學(xué)者都有唯一的編號(hào),在數(shù)據(jù)源頭上解決了重名消歧問(wèn)題。

        學(xué)者所在單位信息預(yù)處理。數(shù)據(jù)集中提供了學(xué)者單位信息,但沒(méi)有采用統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行標(biāo)記,導(dǎo)致同一單位可能存在多種表示形式,如部分單位采用縮寫(xiě)、使用不同語(yǔ)言、單位部門(mén)使用不同的順序等。因此,對(duì)學(xué)者單位信息進(jìn)行標(biāo)準(zhǔn)化處理,每個(gè)單位只有一種表示,并將所有的下屬機(jī)構(gòu)統(tǒng)一標(biāo)注為一級(jí)機(jī)構(gòu),如清華大學(xué)信息科學(xué)技術(shù)學(xué)院、清華大學(xué)智能產(chǎn)業(yè)研究院等統(tǒng)一標(biāo)注為清華大學(xué)。

        ArnetMiner 原始數(shù)據(jù)集中論文年份跨度較大,從1936 年到2014 年,早期的論文數(shù)據(jù)非常少,隨著時(shí)間推移,論文數(shù)越來(lái)越多,信息也越來(lái)越完整。本文選取最近的連續(xù)區(qū)間[2000,2013]的數(shù)據(jù)做實(shí)驗(yàn),為了能更好地刻畫(huà)學(xué)者研究興趣的動(dòng)態(tài)變化,僅保留論文數(shù)超過(guò)10 篇的學(xué)者。為了保證數(shù)據(jù)的相關(guān)性,僅保留文章數(shù)超過(guò)1000 篇的期刊或會(huì)議上的文獻(xiàn)??紤]到科研合作出成果需較長(zhǎng)的時(shí)間,實(shí)驗(yàn)中以[2000,2010]年的數(shù)據(jù)作為訓(xùn)練集,[2011,2013]年的數(shù)據(jù)作為測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)信息如表2 所示。

        表2 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)信息表

        3.2 對(duì)比的方法

        為了驗(yàn)證本文模型的推薦效果,選取了一些經(jīng)典的相關(guān)模型進(jìn)行實(shí)驗(yàn)對(duì)比,所選方法介紹如下。

        (1)AA[24]:該模型是較為經(jīng)典的、基于共同鄰居的鏈路預(yù)測(cè)方法,預(yù)測(cè)兩個(gè)節(jié)點(diǎn)間的鏈接關(guān)系時(shí),不僅考慮兩個(gè)節(jié)點(diǎn)的共同鄰居數(shù)量,還考慮共同鄰居的度,共同鄰居的度越小,節(jié)點(diǎn)間相似度越大,越有可能形成鏈接。文獻(xiàn)[13]將其運(yùn)用于科研合作者推薦,效果優(yōu)于基于共同鄰居的CN、Jaccard 方法。

        (2)MVCWalker[12]:該模型是學(xué)術(shù)合作者推薦中經(jīng)典的基于隨機(jī)游走算法的模型,根據(jù)學(xué)者在論文中的署名順序、學(xué)者間的合作次數(shù)以及最近一次合作時(shí)間3 個(gè)學(xué)術(shù)因子計(jì)算學(xué)者間合作權(quán)重,然后基于合作權(quán)重在合著網(wǎng)絡(luò)上執(zhí)行帶有重啟的隨機(jī)游走算法,預(yù)測(cè)學(xué)者間合作的可能性,從而推薦最有可能合作的學(xué)者。

        (3)LINE[25]:該模型是使用較為廣泛的網(wǎng)絡(luò)表示學(xué)習(xí)模型,根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)特征,學(xué)習(xí)節(jié)點(diǎn)的低維稠密向量表示,同時(shí)考慮了節(jié)點(diǎn)間的一階相似度和二階相似度。文獻(xiàn)[14-15]將其運(yùn)用于科研合作預(yù)測(cè),取得了良好的效果。

        (4)SimRec:該模型是本文模型的一部分,在推薦潛在科研合作者時(shí),僅考慮學(xué)者的研究興趣相似度,在計(jì)算學(xué)者的研究興趣時(shí),將所有論文同等對(duì)待,未考慮學(xué)者研究興趣動(dòng)態(tài)變化特征。

        (5)DynSimRec:該模型是本文模型的一部分,在推薦潛在科研合作者時(shí),僅考慮學(xué)者的研究興趣相似度,在計(jì)算學(xué)者的研究興趣時(shí),根據(jù)論文發(fā)表年份對(duì)論文進(jìn)行加權(quán),考慮了學(xué)者研究興趣動(dòng)態(tài)變化特征。

        (6)TrustRec:該模型是本文模型的一部分,在推薦潛在科研合作者時(shí),僅考慮學(xué)者間的間接學(xué)術(shù)社交關(guān)系。

        (7)SimTrustRec:該模型是本文提出的,在推薦潛在科研合作者時(shí),同時(shí)考慮學(xué)者的動(dòng)態(tài)研究偏好以及學(xué)者間的間接信任關(guān)系。

        3.3 評(píng)價(jià)指標(biāo)

        推薦系統(tǒng)的評(píng)價(jià)指標(biāo)有很多,如準(zhǔn)確率、命中率、召回率、F1 值、AUC(area under curve)、NDCG(normalized discounted cumulative gain)等,對(duì)于潛在合作者推薦而言,更關(guān)注能否準(zhǔn)確推薦、準(zhǔn)確推薦的學(xué)者在推薦列表中的位置以及準(zhǔn)確推薦的數(shù)量。因此,本文以命中率、平均倒數(shù)排名以及召回率作為評(píng)價(jià)指標(biāo)。

        (1)命中率(hit rate,HR)反映的是推薦列表中是否包含符合用戶需求的項(xiàng)目,計(jì)算公式為

        其中,|U|表示測(cè)試集中用戶的數(shù)量;hit()函數(shù)表示是否命中,即推薦列表中是否存在真實(shí)合作的學(xué)者,若命中,則取值為1,否則,取值為0。

        (2)平均倒數(shù)排名(mean reciprocal bank,MRR)是用于度量搜索和推薦效果的常見(jiàn)指標(biāo)。該指標(biāo)重點(diǎn)關(guān)注符合需求的項(xiàng)目在結(jié)果列表中的位置。計(jì)算公式為

        其中,|U|表示測(cè)試集中用戶的數(shù)量;Ranku表示學(xué)者u第一個(gè)真實(shí)合作的學(xué)者在推薦列表中的位置,若推薦列表中不存在真實(shí)合作的學(xué)者,則Ranku為無(wú)窮大,。

        (3)召回率(recall)表示推薦列表中真實(shí)合作的學(xué)者數(shù)占所有真實(shí)合作的學(xué)者數(shù)的比例。計(jì)算公式為

        其中,RecCoauthoru表示向?qū)W者u推薦的學(xué)者集合;Coauthoru表示學(xué)者u所有真實(shí)合作的學(xué)者集合;|U|表示測(cè)試集中用戶的數(shù)量。

        3.4 結(jié)果與分析

        為了觀察不同參數(shù)對(duì)推薦結(jié)果的影響,在測(cè)試某一參數(shù)效果時(shí),固定其他參數(shù)值,默認(rèn)情況下,dim=256,α=0.8,β=0.1。

        3.4.1 向量維度dim對(duì)實(shí)驗(yàn)結(jié)果的影響

        為了觀察向量維度對(duì)實(shí)驗(yàn)結(jié)果的影響,利用LDA 模型學(xué)習(xí)論文向量表示時(shí),指定主題數(shù)分別為32、64、128、256、512,實(shí)驗(yàn)結(jié)果如圖3 所示。從圖3 可以觀察到,隨著向量維度的增大,召回率、命中率和MRR 值都是先增大,到達(dá)某一峰值后開(kāi)始減小。這是因?yàn)橹黝}數(shù)較小時(shí),單個(gè)主題涵蓋范圍較大,主題劃分粒度比較粗,難以區(qū)分同一領(lǐng)域下各細(xì)分領(lǐng)域論文的主題差異;主題數(shù)過(guò)大時(shí),單個(gè)主題涵蓋范圍較小,主題劃分粒度非常細(xì),這將導(dǎo)致同一領(lǐng)域的論文因?yàn)楸患?xì)分到不同的子領(lǐng)域而降低了相似度。因此,主題數(shù)不宜過(guò)大或過(guò)小,具體取值與訓(xùn)練的語(yǔ)料庫(kù)有關(guān),當(dāng)前語(yǔ)料庫(kù)下向量維度值取256 時(shí)效果最好。此外,隨著推薦列表長(zhǎng)度的增加,召回率、命中率、MRR 值也隨之增大,這是因?yàn)殡S著推薦列表的增加,推薦成功的合作者數(shù)量可能會(huì)增多,而真實(shí)合作的學(xué)者數(shù)不變??紤]到現(xiàn)實(shí)中用戶所能接受的推薦學(xué)者數(shù)有限,推薦學(xué)者數(shù)過(guò)多反而使用戶難以選擇,降低用戶體驗(yàn);權(quán)衡實(shí)用性和推薦效果,推薦列表長(zhǎng)度取25較為合適。

        圖3 向量維度對(duì)推薦效果的影響

        3.4.2 參數(shù)α對(duì)實(shí)驗(yàn)結(jié)果的影響

        在計(jì)算學(xué)者間的間接學(xué)術(shù)信任時(shí),主要考慮了學(xué)者的合作者的合作者以及學(xué)者合作單位中的學(xué)者兩種間接社交關(guān)系,并通過(guò)參數(shù)α將二者進(jìn)行融合,參數(shù)α取值范圍為[0,1]。為了觀察參數(shù)α對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)時(shí)設(shè)計(jì)α的值從0 到1 逐步變化,每次增加0.1,實(shí)驗(yàn)結(jié)果如圖4 所示。從圖4 可以觀察到,初始時(shí)隨著參數(shù)α的增大,各項(xiàng)指標(biāo)上的效果都越來(lái)越好,當(dāng)α=0.8 時(shí),效果達(dá)到最優(yōu);若繼續(xù)增大α,則各項(xiàng)指標(biāo)都開(kāi)始逐漸降低。對(duì)比α=0 和α=1 時(shí)的效果,顯然α=1 時(shí)效果更好,反映出合作者的合作者關(guān)系比合作單位里的學(xué)者關(guān)系在推薦中作用更大;這也與事實(shí)相吻合,合作者的合作者往往和學(xué)者的研究興趣相關(guān),而合作單位里的學(xué)者數(shù)量往往較多,涉及多個(gè)學(xué)科領(lǐng)域,可能存在很多研究興趣完全無(wú)關(guān)的學(xué)者。此外,合作單位中的學(xué)者又為目標(biāo)學(xué)者提供了更多的選擇可能,因?yàn)榕c單位存在合作關(guān)系,說(shuō)明該單位里存在一些研究相關(guān)的學(xué)者,而這些學(xué)者可能并不是目標(biāo)學(xué)者合作者的合作者。因此,這兩種間接社交關(guān)系相輔相成,僅依靠某一種間接信任關(guān)系都無(wú)法取得最優(yōu)效果。

        圖4 權(quán)重系數(shù)α對(duì)推薦效果的影響

        3.4.3 參數(shù)β對(duì)實(shí)驗(yàn)結(jié)果的影響

        在計(jì)算學(xué)者間潛在合作可能性時(shí),通過(guò)參數(shù)β將研究偏好相似度和學(xué)術(shù)社交信任進(jìn)行融合,參數(shù)β作為研究偏好相似度的權(quán)重,取值范圍為[0,1]。為了觀察參數(shù)β對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)中設(shè)計(jì)β的值從0 到1 逐步變化,每次遞增0.1,結(jié)果如圖5所示。從圖5 可以觀察到,當(dāng)β=0.1 時(shí),各項(xiàng)指標(biāo)效果最優(yōu)。對(duì)比β=0 和β=1 時(shí)的效果,發(fā)現(xiàn)β=0 時(shí)效果更優(yōu),說(shuō)明推薦潛在合作者時(shí),學(xué)術(shù)社交信任比研究興趣偏好相似度的作用更大,這表明相對(duì)于研究偏好相似的陌生人而言,人們更傾向于與具有一定社交信任關(guān)系的學(xué)者合作。但僅僅依靠學(xué)術(shù)社交信任也不能取得最優(yōu)效果,這是因?yàn)榇嬖陂g接社交關(guān)系的學(xué)者中,可能有一些學(xué)者與目標(biāo)學(xué)者的研究完全無(wú)關(guān);同時(shí),可能忽略因研究興趣相似而合作的情況。因此,在存在一定的學(xué)術(shù)社交信任基礎(chǔ)上,進(jìn)一步考慮學(xué)者間的研究興趣偏好相似度有利于提升推薦效果。

        圖5 權(quán)重系數(shù)β對(duì)推薦效果的影響

        3.4.4 不同模型推薦效果對(duì)比

        將本文提出的SimTrustRec 模型與已有模型進(jìn)行比較,結(jié)果如圖6 所示。從圖6 可以觀察到,基于網(wǎng)絡(luò)結(jié)構(gòu)特征的推薦模型(TrustRec、MVCWalker、AA、LINE)效果顯著優(yōu)于基于研究興趣相似度的模型(SimRec、DynSimRec),考慮學(xué)者動(dòng)態(tài)研究偏好和學(xué)術(shù)社交信任的SimTrustRec 模型效果最優(yōu)。

        圖6 不同模型推薦效果對(duì)比

        基于研究興趣相似度推薦模型效果不佳的原因可能在于:①越來(lái)越多的科研合作發(fā)生在跨領(lǐng)域?qū)W者間,合作者之間更多的是知識(shí)結(jié)構(gòu)、資源的互補(bǔ),學(xué)者間的研究興趣偏好相似度較低,若僅依據(jù)研究興趣偏好相似度則無(wú)法推薦這些合作者;②研究興趣非常相似的學(xué)者可能彼此不認(rèn)識(shí),沒(méi)有合適的途徑深入溝通、交流,或者因?yàn)閷W(xué)術(shù)水平差異、合作意愿等因素約束,最終未能達(dá)成合作;③研究興趣最相似的學(xué)者之間除了合作外,往往還存在競(jìng)爭(zhēng)關(guān)系,這使得部分研究興趣非常相似的學(xué)者間未能形成合作。進(jìn)一步觀察SimRec 模型和DynSimRec 模型效果可知,DynSimRec 模型優(yōu)于SimRec 模型,即考慮學(xué)者研究偏好動(dòng)態(tài)變化特征能夠提升推薦效果。

        TrustRec、AA、MVCWalker、LINE 這4 個(gè)模型都是根據(jù)學(xué)術(shù)社交網(wǎng)絡(luò)關(guān)系進(jìn)行推薦的,但采用的方法和考慮的因素不同,整體效果差異不大,TrustRec 模型效果最佳,AA 模型次之,然后是MVCWalker 模型,最后是LINE 模型。LINE 模型學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)特征時(shí),綜合考慮節(jié)點(diǎn)間的一階相似度和二階相似度,常用于大規(guī)模網(wǎng)絡(luò)的學(xué)習(xí),而本文學(xué)術(shù)社交網(wǎng)絡(luò)規(guī)模稍小且較為稀疏,可能影響LINE 模型效果。LINE 模型計(jì)算相似度時(shí)只考慮了學(xué)者間的合作次數(shù),而MVCWalker 模型綜合考慮學(xué)者間的合作次數(shù)、合作時(shí)的署名順序以及最近一次合作的時(shí)間等信息。AA 模型不僅考慮學(xué)者間的共同鄰居而且考慮共同鄰居的度,關(guān)注網(wǎng)絡(luò)局部結(jié)構(gòu)特征,而MVCWalker 模型采用隨機(jī)游走,關(guān)注網(wǎng)絡(luò)全局結(jié)構(gòu)特征,對(duì)于潛在合作者推薦任務(wù)而言,局部結(jié)構(gòu)特征比全局結(jié)構(gòu)特征關(guān)系更緊密。TrustRec模型構(gòu)建學(xué)術(shù)社交網(wǎng)絡(luò)時(shí),不僅考慮了學(xué)者間的合著關(guān)系,還考慮了學(xué)者與單位間的合作關(guān)系,并限定社交信任傳播路徑長(zhǎng)度為2,即關(guān)注網(wǎng)絡(luò)局部結(jié)構(gòu)特征,因此,TrustRec 模型效果優(yōu)于其他3 個(gè)模型。SimTrustRec 模型在TrustRec 模型基礎(chǔ)上,進(jìn)一步融合了學(xué)者間的研究興趣偏好相似度,從而有效過(guò)濾了雖存在間接學(xué)術(shù)社交關(guān)系,但研究興趣完全不相關(guān)的學(xué)者,同時(shí)可推薦出因相似度較高而合作的學(xué)者,進(jìn)一步提升了推薦效果。

        3.4.5 不同模型推薦效果案例分析

        為了更好地說(shuō)明不同模型的推薦效果,本文以編號(hào)為327046 的真實(shí)學(xué)者為例,闡述不同推薦模型為其推薦的前10 位合作者列表的差異,各模型推薦結(jié)果如表3 所示。該學(xué)者在測(cè)試集中真實(shí)合作的學(xué)者有5 個(gè),合作者編號(hào)分別為925896、1364812、1640870、1692703、56889。從表3 可以看出,SimTrustRec 模型推薦效果最好,準(zhǔn)確推薦了3 個(gè)合作者,并且排序相對(duì)靠前;其他模型也能準(zhǔn)確推薦潛在合作者,但準(zhǔn)確推薦的數(shù)量或排序相對(duì)差一些。從研究興趣相似度角度分析,對(duì)學(xué)者與其他未合作過(guò)的學(xué)者的研究興趣相似度進(jìn)行排序,發(fā)現(xiàn)該學(xué)者與真實(shí)合作者的研究相似度排名從高到低分別為3、4、36、357、680,再次驗(yàn)證了前面的結(jié)論:研究興趣最相似的學(xué)者之間不一定會(huì)形成合作,合作的學(xué)者間研究興趣相似度不一定非常高,但相對(duì)近萬(wàn)名候選者而言,這些合作者的研究興趣偏好排名比較靠前。從統(tǒng)計(jì)學(xué)意義上來(lái)說(shuō),研究興趣相似度高的學(xué)者之間更容易形成合作。從合作網(wǎng)絡(luò)角度分析,在數(shù)據(jù)集中查找學(xué)者與合作者之間的共同合作者、學(xué)者與合作者的單位關(guān)系可知,該學(xué)者與學(xué)者1364812、925896、56889、1692703、1640870的共同合作者數(shù)分別為3、2、2、1、0;學(xué)者327046、925896、1364812、56889擁有共同單位IBM Austin Research Center,學(xué)者1640870 和學(xué)者1692703 擁有共同單位University of California,Los Angeles,USA,且學(xué)者327046 與單位University of California,Los Angeles,USA 之前存在合作關(guān)系?;诰W(wǎng)絡(luò)的模型都能推薦出潛在合作者1364812,但不同模型中該學(xué)者在推薦列表中位置有所不同,這體現(xiàn)出不同模型的差異,相對(duì)來(lái)說(shuō),TrustRec 模型和AA 模型效果更好。值得注意的是,本案例中DynSimRec 模型效果優(yōu)于大多數(shù)網(wǎng)絡(luò)模型效果,而3.4.4 節(jié)中各模型效果對(duì)比時(shí),網(wǎng)絡(luò)模型效果均優(yōu)于DynSimRec 模型,這二者并不矛盾,3.4.4節(jié)中是整體效果對(duì)比,是對(duì)所有測(cè)試者取平均值,而本節(jié)是個(gè)體效果對(duì)比,這也說(shuō)明同一模型在不同個(gè)體上的效果會(huì)有所差異。

        表3 不同模型推薦潛在合作者效果案例

        4 總結(jié)與展望

        科研合作預(yù)測(cè)與推薦一直是圖書(shū)情報(bào)領(lǐng)域的研究熱點(diǎn)。已有方法較少考慮學(xué)者研究偏好動(dòng)態(tài)變化以及學(xué)者間的學(xué)術(shù)社交信任關(guān)系。本文提出一種融合學(xué)者動(dòng)態(tài)研究偏好和學(xué)術(shù)社交信任的推薦模型SimTrustRec,利用LDA 模型學(xué)習(xí)論文的主題概率分布,設(shè)計(jì)時(shí)間衰減函數(shù)對(duì)論文向量進(jìn)行加權(quán),整合學(xué)者已發(fā)表論文數(shù)據(jù)得到學(xué)者研究興趣表示,根據(jù)論文中學(xué)者、單位共現(xiàn)關(guān)系構(gòu)建學(xué)術(shù)社交網(wǎng)絡(luò),根據(jù)信任的可傳播性和有限傳遞性計(jì)算學(xué)者間的間接學(xué)術(shù)社交信任,最后融合動(dòng)態(tài)研究偏好相似度和學(xué)術(shù)社交信任推薦潛在合作者,通過(guò)實(shí)驗(yàn)確定相關(guān)參數(shù)取值。真實(shí)數(shù)據(jù)集ArnetMiner 上的研究結(jié)果表明:①論文主題數(shù)會(huì)影響最終推薦效果,主題數(shù)不宜過(guò)大或過(guò)小,最佳值與訓(xùn)練的語(yǔ)料庫(kù)有關(guān);②考慮學(xué)者研究興趣動(dòng)態(tài)變化特征有助于提升推薦效果;③合作者的合作者、合作單位中的學(xué)者兩種間接社交關(guān)系都可用于推薦潛在合作者,合作者的合作者社交關(guān)系作用更大,將二者融合推薦效果更好;④推薦潛在合作者時(shí),學(xué)術(shù)社交信任比研究興趣相似度作用更大,但各有不足,將二者融合能提升推薦效果;⑤本文提出的模型SimTrustRec 相對(duì)于已有方法在召回率、命中率、平均倒數(shù)排序指標(biāo)上均有一定提升。

        本文尚存在不足和需要改進(jìn)的地方。在計(jì)算直接學(xué)術(shù)社交信任時(shí),僅考慮了合作次數(shù),未考慮合作時(shí)間與合作論文質(zhì)量的影響。在計(jì)算間接學(xué)術(shù)社交信任時(shí),僅考慮了合作者的合作者以及合作單位里的學(xué)者兩種關(guān)系,實(shí)際上學(xué)者間還存在很多隱含關(guān)系,如共引關(guān)系、共同參與學(xué)術(shù)會(huì)議等。此外,學(xué)者的學(xué)術(shù)影響力、合作傾向等均有可能影響科研合作,這些是后續(xù)研究的方向。

        猜你喜歡
        模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        3D打印中的模型分割與打包
        免费亚洲一区二区三区av| 国产成人精品日本亚洲专区6| 级毛片无码av| 一区二区午夜视频在线观看| 国产欧美日韩中文久久| 日本少妇被黑人xxxxx| 国产精品99久久久精品免费观看| 免费看男女啪啪的视频网站| 精品熟女少妇免费久久| 国产啪精品视频网站免| 亚洲专区路线一路线二网| 久久99国产精品久久| 98久9在线 | 免费| 精品国产一区二区三区香蕉| 亚洲一区二区三区在线高清中文| 少妇真人直播免费视频| 97夜夜澡人人爽人人喊中国片| av无码精品一区二区乱子| 一区二区激情偷拍老牛视频av| 国产a级毛片久久久精品毛片| 亚洲国产精品久久亚洲精品| a午夜国产一级黄片| av新型国产在线资源| 妺妺窝人体色www看人体| 亚洲首页一区任你躁xxxxx| 特级毛片a级毛片在线播放www| 免费看黄视频亚洲网站| 午夜免费视频| 国内精品一区二区三区| 一本久道久久综合狠狠操| 日韩精品一区二区亚洲观看av| 疯狂做受xxxx高潮视频免费| 亚洲乱妇老熟女爽到高潮的片| 亚洲黄片高清在线观看| 国产av精品麻豆网址| 国产国拍精品av在线观看按摩| 1精品啪国产在线观看免费牛牛| 在线观看二区视频网站二区| 伊人久久大香线蕉av色| 午夜一级韩国欧美日本国产 | 精品国产18久久久久久|