亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于學(xué)術(shù)關(guān)鍵詞與共被引的學(xué)者推薦研究

        2021-08-23 05:24:46熊回香李曉敏
        情報(bào)學(xué)報(bào) 2021年7期
        關(guān)鍵詞:特征詞學(xué)者權(quán)重

        熊回香,李曉敏,杜 瑾

        (華中師范大學(xué)信息管理學(xué)院,武漢 430079)

        1 引 言

        近年來(lái),大數(shù)據(jù)時(shí)代已經(jīng)滲透到學(xué)術(shù)界,使得學(xué)術(shù)界產(chǎn)生了大量的學(xué)術(shù)數(shù)據(jù)[1]。學(xué)術(shù)數(shù)據(jù)如學(xué)術(shù)論文、學(xué)位論文、會(huì)議論文、基金項(xiàng)目、專(zhuān)利以及學(xué)者信息等,均成為相關(guān)研究如學(xué)術(shù)合作[2]、學(xué)者推薦[3]、論文推薦[4]等重要數(shù)據(jù)來(lái)源。學(xué)術(shù)數(shù)據(jù)的實(shí)體主要是學(xué)者和論文,學(xué)者數(shù)據(jù)有學(xué)者的基本屬性,如所屬機(jī)構(gòu)、聯(lián)系方式、研究方向等;論文數(shù)據(jù)有關(guān)鍵詞、摘要、題名、全文等文獻(xiàn)元數(shù)據(jù)以及論文反映出的合作、引用關(guān)系等,通過(guò)對(duì)這些學(xué)術(shù)數(shù)據(jù)進(jìn)行分析挖掘展開(kāi)學(xué)術(shù)研究。而且學(xué)術(shù)數(shù)據(jù)也為科研用戶(hù)查詢(xún)和了解自己感興趣的學(xué)者提供了便利。然而,隨著科研用戶(hù)和科研成果數(shù)量的增加,不可避免地出現(xiàn)了學(xué)術(shù)數(shù)據(jù)信息過(guò)載的現(xiàn)象,這無(wú)疑增加了科研用戶(hù)的負(fù)擔(dān),而科研用戶(hù)由于諸多條件(如時(shí)間、空間等)的限制,難以在有限的條件下方便、快捷地找到與自己興趣相同的科研用戶(hù),以便從中獲取感興趣的資源或?qū)で鬂撛诤献髡?。因此,?duì)挖掘?qū)W者需求、為學(xué)者推薦研究領(lǐng)域相似的學(xué)者的研究越來(lái)越成受到情報(bào)學(xué)領(lǐng)域的關(guān)注。

        2 相關(guān)研究工作概述

        目前,關(guān)于學(xué)者推薦的研究,主要集中在基于研究?jī)?nèi)容的推薦和基于關(guān)系網(wǎng)絡(luò)的推薦。在基于研究?jī)?nèi)容的推薦中,主要是運(yùn)用LDA(latent Dirichlet allocation)主題模型以及其改進(jìn)模型、向量模型、概率模型等對(duì)學(xué)者的學(xué)術(shù)文本進(jìn)行挖掘,找到研究?jī)?nèi)容相似的學(xué)者。文獻(xiàn)[5]對(duì)作者-關(guān)鍵詞耦合網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,在同一個(gè)社區(qū)內(nèi),利用LDA模型計(jì)算作者相似度,完成科研合作推薦;文獻(xiàn)[6]利用在LDA模型基礎(chǔ)上改進(jìn)的AT(author-topic model)模型分析專(zhuān)家知識(shí)結(jié)構(gòu),并與學(xué)術(shù)影響力結(jié)合,實(shí)現(xiàn)專(zhuān)家推薦;文獻(xiàn)[7]提出了LDA模型改進(jìn)后的跨領(lǐng)域主題學(xué)習(xí)模型CTL(cross-domain topic learning)實(shí)現(xiàn)學(xué)者推薦;文獻(xiàn)[8]對(duì)作者論文進(jìn)行稀疏分布式表征,根據(jù)相似性排序進(jìn)行推薦;文獻(xiàn)[9]借助概率模型實(shí)現(xiàn)專(zhuān)家推薦,并且在實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行了有效性驗(yàn)證。在基于關(guān)系網(wǎng)絡(luò)的推薦中,包括基于合著網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、關(guān)鍵詞網(wǎng)絡(luò)或者多種網(wǎng)絡(luò)結(jié)合的推薦。文獻(xiàn)[10]利用網(wǎng)絡(luò)表示學(xué)習(xí)在合著網(wǎng)絡(luò)中對(duì)研究者進(jìn)行向量表示,計(jì)算相似度從而實(shí)現(xiàn)推薦;文獻(xiàn)[11]針對(duì)大規(guī)模的科研合作網(wǎng)絡(luò),提出了一種融合節(jié)點(diǎn)位置信息和網(wǎng)絡(luò)結(jié)構(gòu)信息的科研合作推薦模型;文獻(xiàn)[12]利用論文間的引用與被引用關(guān)系構(gòu)建學(xué)者推薦模型;文獻(xiàn)[13]構(gòu)建共引網(wǎng)絡(luò),基于共引頻次越高的作者研究?jī)?nèi)容越相似的思想生成推薦;文獻(xiàn)[14-15]利用作者與關(guān)鍵詞之間的共現(xiàn)關(guān)系計(jì)算作者的相似度,生成學(xué)者推薦;文獻(xiàn)[16]構(gòu)建了作者-關(guān)鍵詞二分網(wǎng)絡(luò)上,基于路徑組合的合著關(guān)系預(yù)測(cè);文獻(xiàn)[17]利用表示學(xué)習(xí)和歐幾里得距離對(duì)多種共現(xiàn)網(wǎng)絡(luò)進(jìn)行向量表示和關(guān)聯(lián)強(qiáng)度計(jì)算,挖掘潛在合作對(duì)象。目前,相關(guān)研究在利用關(guān)鍵詞進(jìn)行學(xué)者推薦時(shí),主要利用關(guān)鍵詞的關(guān)系網(wǎng)絡(luò)進(jìn)行推薦,單純使用絕對(duì)共現(xiàn)關(guān)系,未考慮關(guān)鍵詞之間的語(yǔ)義關(guān)聯(lián),會(huì)導(dǎo)致使用不同關(guān)鍵詞但研究?jī)?nèi)容相似的學(xué)者計(jì)算出的相似度較低,推薦結(jié)果不夠準(zhǔn)確。在利用共被引或者共引關(guān)系計(jì)算學(xué)者相似度推薦學(xué)者時(shí),未考慮引用或被引用的相對(duì)位置,單純地使用頻次表示引用強(qiáng)度,會(huì)弱化研究方向極其相似的學(xué)者間的相似度,提升研究方向相關(guān)性較弱的學(xué)者間的相似度。因此,本文在利用關(guān)鍵詞進(jìn)行學(xué)者推薦時(shí),考慮了關(guān)鍵詞之間的語(yǔ)義關(guān)聯(lián),并將被引量和署名次序兩個(gè)計(jì)量指標(biāo)引入學(xué)者特征詞的篩選中,將共被引關(guān)系按照共被引的相對(duì)位置劃分不同的層次。兩種方式計(jì)算的相似度進(jìn)行整合,實(shí)現(xiàn)學(xué)者推薦。

        3 基于學(xué)術(shù)關(guān)鍵詞和共被引的學(xué)者推薦模型架構(gòu)

        3.1 學(xué)者推薦模型總架構(gòu)

        本文構(gòu)建的推薦模型包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、基于學(xué)者特征詞的相似度計(jì)算、基于學(xué)者共被引關(guān)系的相似度計(jì)算和學(xué)者推薦共五個(gè)部分。具體的模型框架如圖1所示。

        圖1 學(xué)者推薦模型框架

        本文構(gòu)建的推薦模型核心是學(xué)者相似度的計(jì)算,學(xué)者相似度計(jì)算包括兩部分,分別是基于學(xué)者特征詞的相似度計(jì)算和基于學(xué)者共被引關(guān)系的相似度計(jì)算。在基于學(xué)者特征詞的推薦中,學(xué)者特征詞是通過(guò)對(duì)學(xué)者關(guān)鍵詞篩選得到的,將被引量和署名次序這兩個(gè)計(jì)量指標(biāo)與TF-IDF(term frequency-in‐verse document frequency)算法結(jié)合,對(duì)學(xué)者關(guān)鍵詞進(jìn)行篩選,選擇權(quán)重值靠前的關(guān)鍵詞作為學(xué)者特征詞;利用word2vec詞向量模型將特征詞向量化形成特征詞向量;再利用余弦相似度計(jì)算學(xué)者間基于特征詞的相似度,形成學(xué)者間相似度集合A。在基于共被引關(guān)系的推薦中,考慮學(xué)者共被引的相對(duì)位置關(guān)系,將共被引分為四個(gè)層次,不同層次賦予不同的權(quán)重,構(gòu)建學(xué)者共被引矩陣;再計(jì)算學(xué)者間Spearman相關(guān)系數(shù)作為學(xué)者基于共被引關(guān)系的相似度,形成學(xué)者間相似度集合B。將學(xué)者相似度集合A與學(xué)者相似度集合B按照一定的權(quán)重整合,形成組合相似度,最后選擇組合相似度靠前的n位學(xué)者實(shí)現(xiàn)學(xué)者推薦。

        3.2 基于學(xué)者學(xué)術(shù)成果的相似度計(jì)算

        學(xué)者發(fā)表的論文最能反映其研究興趣和專(zhuān)長(zhǎng),而學(xué)術(shù)論文的關(guān)鍵詞是對(duì)論文內(nèi)容的高度概括,因此,學(xué)者的研究興趣可通過(guò)其發(fā)表論文的關(guān)鍵詞集合進(jìn)行表征。在利用關(guān)鍵詞進(jìn)行學(xué)者興趣表征時(shí),需要對(duì)關(guān)鍵詞進(jìn)行篩選,選擇權(quán)重較大的關(guān)鍵詞。本文在計(jì)算關(guān)鍵詞權(quán)重時(shí),首先,將被引量與署名次序這兩個(gè)計(jì)量特征以及TF-IDF算法識(shí)別的內(nèi)容特征結(jié)合進(jìn)行權(quán)重計(jì)算,得到學(xué)者特征詞;其次,利用word2vec模型向量化表示;最后,利用余弦相似度計(jì)算學(xué)者特征向量的相似度,生成相似度集合A。

        3.2.1 學(xué)者特征詞選擇

        1)基于計(jì)量指標(biāo)的關(guān)鍵詞權(quán)重計(jì)算

        論文被引量和署名次序通常被用來(lái)評(píng)估學(xué)者的影響力,被引量反映的是學(xué)者學(xué)術(shù)成果的質(zhì)量以及被同行認(rèn)可的程度;署名次序反映的是作者對(duì)論文的貢獻(xiàn)程度,一般認(rèn)為作者排名越靠前,貢獻(xiàn)度就越大。論文關(guān)鍵詞側(cè)重于對(duì)論文內(nèi)容的高度凝練,在利用關(guān)鍵詞對(duì)學(xué)者進(jìn)行表征時(shí),融入被引量和署名次序兩個(gè)計(jì)量指標(biāo)。某篇論文被引量越大,作者在該篇論文反映的研究方向上越有影響力。融入被引量能夠更好地識(shí)別學(xué)者擅長(zhǎng)的特征詞。署名次序能夠削弱位置靠后的作者對(duì)論文的貢獻(xiàn)度。同樣地,融入署名次序減弱了“掛名現(xiàn)象”給學(xué)者特征詞識(shí)別帶來(lái)的影響,能夠更準(zhǔn)確地識(shí)別學(xué)者特征詞。計(jì)算方式為

        其中,i表示學(xué)者的論文序號(hào);Wtij表示第i篇論文的第j個(gè)關(guān)鍵詞計(jì)量權(quán)重;n表示學(xué)者的發(fā)文量;fi表示第i篇論文的被引量;ki表示學(xué)者在第i篇論文的署名次序。計(jì)算得到每篇論文的每個(gè)關(guān)鍵詞權(quán)重之后,可能會(huì)出現(xiàn)同一關(guān)鍵詞出現(xiàn)在同一學(xué)者的不同論文中的情況,此時(shí),將相同關(guān)鍵詞權(quán)值進(jìn)行累加求和,得到各個(gè)關(guān)鍵詞的計(jì)量權(quán)值。

        2)基于內(nèi)容的學(xué)者特征詞

        TF-IDF算法是一種較為常見(jiàn)的權(quán)值計(jì)算方法,從學(xué)者關(guān)鍵詞集合的內(nèi)容特征上識(shí)別學(xué)者特征詞。TF表示詞頻,IDF表示逆文檔頻率,TF-IDF用來(lái)計(jì)算學(xué)者關(guān)鍵詞集合中某個(gè)關(guān)鍵詞的權(quán)值。計(jì)算方法為

        其中,i表示學(xué)者關(guān)鍵詞序號(hào);Wt i表示關(guān)鍵詞ti內(nèi)容權(quán)重;tf(ti,d)表示關(guān)鍵詞ti在學(xué)者關(guān)鍵詞集合d中出現(xiàn)的頻次;|D|表示學(xué)者論文數(shù);df(ti)表示學(xué)者論文數(shù)中包含關(guān)鍵詞ti的論文數(shù)。

        3)學(xué)者特征詞篩選

        將基于計(jì)量指標(biāo)計(jì)算得到的關(guān)鍵詞權(quán)重和利用TF-IDF算法計(jì)算得到的關(guān)鍵詞權(quán)重按照

        進(jìn)行整合,得到最終的關(guān)鍵詞權(quán)重。將關(guān)鍵詞按照整合后的權(quán)重值進(jìn)行排序,取排名靠前的20個(gè)關(guān)鍵詞作為學(xué)者特征詞。

        3.2.2 學(xué)者特征詞表征及相似度計(jì)算

        在得到學(xué)者特征詞之后,需要將特征詞轉(zhuǎn)換成向量。傳統(tǒng)的獨(dú)熱表示(one-hot representation)僅僅將詞符號(hào)化,不包含任何語(yǔ)義信息,構(gòu)建的詞向量矩陣比較稀疏;而基于神經(jīng)網(wǎng)絡(luò)的分布式表示可以根據(jù)上下文與目標(biāo)詞之間的關(guān)系進(jìn)行建模,具有代表性的是word2vec模型[18]。word2vec通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型,將每個(gè)詞映射為低維度的實(shí)數(shù)向量。word2vec模型包括skip-gram模型和CBOW(contin‐uous bag-of-words model)模型。skip-gram根據(jù)目標(biāo)詞推斷上下文,適合處理較大規(guī)模的語(yǔ)料;而CBOW則與之相反,已知上下文預(yù)測(cè)當(dāng)前詞,適合處理較小規(guī)模的語(yǔ)料。由于本文語(yǔ)料規(guī)模較小,因此,選擇CBOW模型進(jìn)行訓(xùn)練。模型訓(xùn)練好之后,將學(xué)者特征詞轉(zhuǎn)換成詞向量,對(duì)詞向量相加取平均,即可得到學(xué)者的特征向量。在得到學(xué)者特征向量之后,利用余弦相似度公式計(jì)算學(xué)者間的相似度,得到學(xué)者間基于特征詞的相似度,形成相似度集合A。

        3.3 基于學(xué)者共被引關(guān)系的相似度計(jì)算

        當(dāng)兩位作者的學(xué)術(shù)論文同時(shí)被同一篇論文引用時(shí),稱(chēng)這兩位作者間存在共被引關(guān)系。能夠形成共被引關(guān)系,說(shuō)明兩位作者在某個(gè)研究主題的概念、理論和方法上是相關(guān)的。因此,通過(guò)挖掘作者間的共被引關(guān)系,能夠幫助作者找到研究方向相似的作者,從而形成學(xué)者相似度集合B。

        共被引研究的是兩位學(xué)者共同被引用的情況。傳統(tǒng)的學(xué)者共被引分析構(gòu)建的學(xué)者共被引矩陣是0-1矩陣,即如果兩位學(xué)者同時(shí)被一篇文獻(xiàn)引用,那么共被引矩陣中填寫(xiě)1;反之,則為0。傳統(tǒng)的學(xué)者共被引分析未考慮共被引的相對(duì)位置距離。本文借鑒文獻(xiàn)[19]提出的基于位置的共被引分析,將共被引的位置分為句子層、段落層、章節(jié)層和文章層四個(gè)層次,依次賦值為4、3、2、1。若同一作者的同一篇文獻(xiàn)在同一篇文章中多次出現(xiàn),則取相對(duì)位置最近的賦值;若同一作者的多篇文獻(xiàn)在同一文章中出現(xiàn),則仍取相對(duì)位置最近的賦值;若兩位及兩位以上作者的多篇文獻(xiàn)在同一文章中出現(xiàn),則仍取相對(duì)位置最近的賦值。三種情況下各自的權(quán)值均不進(jìn)行累加。得到學(xué)者共被引矩陣之后,利用Python代碼計(jì)算學(xué)者間的Spearman相關(guān)系數(shù)。

        3.4 相似度整合

        上文中得到學(xué)者間基于特征詞的相似度集合A和基于共被引關(guān)系的相似度集合B,將兩種相似度以一定的比重相加,得到最終的學(xué)者相似度,選擇最終相似度靠前的15位學(xué)者進(jìn)行推薦。整合方式為

        其中,Sim表示整合后的相似度;Simitem表示基于特征詞的相似度;Simcit表示基于共被引關(guān)系的相似度。

        4 基于學(xué)術(shù)關(guān)鍵詞和共被引的學(xué)者推薦實(shí)證研究

        4.1 數(shù)據(jù)收集

        由于本文需要用到的數(shù)據(jù)包括論文篇名、作者、機(jī)構(gòu)、關(guān)鍵詞、摘要以及參考文獻(xiàn),因此,以CSSCI(Chinese Social Sciences Citation Index,中文社會(huì)科學(xué)索引)數(shù)據(jù)庫(kù)和CNKI(China National Knowledge Infrastructure,中國(guó)知網(wǎng))為數(shù)據(jù)源進(jìn)行數(shù)據(jù)收集。對(duì)比CSSCI來(lái)源期刊目錄(2014—2016)、(2017—2018)及(2019—2020)可知,情報(bào)學(xué)領(lǐng)域中的《現(xiàn)代情報(bào)》和《信息資源管理學(xué)報(bào)》在CSSCI來(lái)源期刊目錄(2014—2016)中均不是核心期刊,而本文期刊數(shù)據(jù)來(lái)源的時(shí)間周期為2014—2018年,《現(xiàn)代情報(bào)》和《信息資源管理學(xué)報(bào)》從CSSCI數(shù)據(jù)庫(kù)中導(dǎo)出的數(shù)據(jù)不完整,因此,從CSSCI來(lái)源期刊目錄(2019—2020)情報(bào)學(xué)領(lǐng)域12種核心期刊中,除去《現(xiàn)代情報(bào)》和《信息資源管理學(xué)報(bào)》,選取其余10種核心期刊《中國(guó)圖書(shū)館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》《圖書(shū)情報(bào)工作》《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》(2016年改名)、《情報(bào)理論與實(shí)踐》《情報(bào)資料工作》《情報(bào)科學(xué)》《情報(bào)雜志》《圖書(shū)與情報(bào)》和《圖書(shū)情報(bào)知識(shí)》在2014—2018年5年間刊載的論文,CSSCI數(shù)據(jù)庫(kù)自動(dòng)導(dǎo)出論文篇名、作者、機(jī)構(gòu)、關(guān)鍵詞以及參考文獻(xiàn),CNKI自動(dòng)導(dǎo)出論文的摘要。

        4.2 數(shù)據(jù)預(yù)處理

        從上述數(shù)據(jù)庫(kù)導(dǎo)出的數(shù)據(jù)會(huì)包含一些沒(méi)有參考文獻(xiàn)的文章,如專(zhuān)題引言、專(zhuān)題序、卷首語(yǔ)等,故將其進(jìn)行刪除。對(duì)導(dǎo)出的其余數(shù)據(jù)需要進(jìn)行如下處理:首先,對(duì)導(dǎo)出的摘要利用Python中jieba分詞包進(jìn)行分詞,分詞過(guò)程中,加入哈工大停用詞表,過(guò)濾掉無(wú)實(shí)際意義的詞,且為保證能夠正確切分,將涉及的專(zhuān)有名詞加入用戶(hù)自定義詞典;其次,對(duì)導(dǎo)出的關(guān)鍵詞進(jìn)行規(guī)范化處理,包括錯(cuò)別字糾正、中英文及大小寫(xiě)轉(zhuǎn)換、同義異形詞統(tǒng)一形式,如《知網(wǎng)》轉(zhuǎn)換為Hownet,folksonomy轉(zhuǎn)換為Folksonomy,主成分分析方法、主成分分析法統(tǒng)一為主成分分析。再次,對(duì)同名作者進(jìn)行消歧。主要工作是針對(duì)同名不同機(jī)構(gòu)的作者,根據(jù)作者簡(jiǎn)介中的ORCID、E-mail、出生日期、研究方向等信息來(lái)判斷是否為同一人;最后,將5年間發(fā)表論文數(shù)大于等于15篇的作者確定為核心作者,共確定169名核心作者,對(duì)169名核心作者需要獲取的數(shù)據(jù)有發(fā)表論文數(shù)量、篇名、署名次序、被引量,被引量需要人工手動(dòng)獲取。經(jīng)處理后得到的論文數(shù)據(jù)為:11046篇論文及其關(guān)鍵詞、摘要、參考文獻(xiàn),具體如表1~表3所示。

        表1 核心作者及其論文

        表3 論文及其參考文獻(xiàn)

        4.3 基于學(xué)者學(xué)術(shù)成果的相似度計(jì)算

        4.3.1 學(xué)者特征詞選擇

        1)基于計(jì)量指標(biāo)的關(guān)鍵詞權(quán)重計(jì)算

        融入論文被引量和作者署名次序兩個(gè)計(jì)量指標(biāo)對(duì)學(xué)者關(guān)鍵詞計(jì)算權(quán)重,利用公式(1)進(jìn)行計(jì)算,得到核心作者基于計(jì)量指標(biāo)的關(guān)鍵詞權(quán)重。

        2)基于內(nèi)容的關(guān)鍵詞權(quán)重計(jì)算

        TF-IDF算法從內(nèi)容上對(duì)學(xué)者關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,利用公式(2)進(jìn)行計(jì)算得到核心作者基于內(nèi)容的關(guān)鍵詞權(quán)重。

        3)學(xué)者特征詞篩選

        將利用公式(1)和公式(2)分別計(jì)算得到的關(guān)鍵詞權(quán)重,按照公式(3)進(jìn)行整合,得到最終的關(guān)鍵詞權(quán)重。

        將每位學(xué)者的關(guān)鍵詞按照整合后的權(quán)重值進(jìn)行排序,取排名靠前的20個(gè)關(guān)鍵詞作為學(xué)者特征詞,如表4所示。

        4.3.2 學(xué)者特征詞向量表示

        以表2中得到的經(jīng)過(guò)規(guī)范化處理的關(guān)鍵詞和分詞后的摘要作為語(yǔ)料,詞向量維數(shù)size設(shè)為100,window設(shè)為5,最低頻率min_count設(shè)為1,進(jìn)行模型訓(xùn)練。模型訓(xùn)練好之后,將表4中的學(xué)者特征詞轉(zhuǎn)換成詞向量,對(duì)詞向量相加取平均,則得到學(xué)者的特征向量。

        表2 論文及其關(guān)鍵詞、摘要

        表4 學(xué)者特征詞

        利用余弦相似度公式計(jì)算學(xué)者間的相似度,得到學(xué)者間基于特征詞的相似度,形成相似度集合A,如表5所示。

        表5 學(xué)者間特征詞相似度

        4.4 基于學(xué)者共被引關(guān)系的相似度計(jì)算

        基于第2.3節(jié)中的計(jì)算方法,首先構(gòu)建學(xué)者共被引矩陣,然后計(jì)算學(xué)者間的Spearman相關(guān)系數(shù)作為學(xué)者間共被引相似度,如表6所示。

        表6 學(xué)者間共被引相似度

        4.5 相似度整合

        為確定公式(4)中α和β的值,α取值范圍設(shè)為0~1,β取值范圍設(shè)為1~0。α=0、β=1表示的是僅基于學(xué)者共被引關(guān)系的推薦;α=1、β=0表示僅基于學(xué)者特征詞的推薦。在推薦總數(shù)為15的前提下,設(shè)置精確率、召回率和F值,對(duì)不同取值的結(jié)果進(jìn)行評(píng)價(jià),確定α和β的最佳值。在本文研究的數(shù)據(jù)范圍內(nèi),有42位核心作者的合作者不在本文所確定的169位核心作者中,因此,在計(jì)算精確率、召回率和F值時(shí),僅用剩余127位核心作者對(duì)本文的推薦模型進(jìn)行評(píng)價(jià)。精確率(precision,P)計(jì)算方式為:首先,在推薦的15位學(xué)者中,是否返回學(xué)者曾經(jīng)合作過(guò)的學(xué)者,若返回,則為1;反之,則為0。其次,把返回值為1的學(xué)者個(gè)數(shù)占總學(xué)者個(gè)數(shù)的比值作為精確率。召回率(recall,R)的計(jì)算方式為:在推薦的15位學(xué)者中,學(xué)者曾經(jīng)合作過(guò)的學(xué)者數(shù)量與學(xué)者全部合作過(guò)的學(xué)者數(shù)量的比值作為召回率,將每位學(xué)者的召回率求和取平均作為某個(gè)α和β取值下的召回率。不同α和β的精確率、召回率和F值如表7所示。

        表7 不同α和β取值下的精確率、召回率和F值

        由表7可知,當(dāng)α=0.9、β=0.1時(shí),精確率、召回率和F值均是最高,推薦效果最佳。因此,本文確定α值為0.9,β值為0.1。

        5 模型比較與評(píng)價(jià)

        5.1 基于學(xué)者關(guān)鍵詞的相似度計(jì)算比較

        在基于學(xué)者特征詞計(jì)算相似度時(shí),本文利用被引量、署名次序兩個(gè)計(jì)量指標(biāo)與TF-IDF進(jìn)行特征詞篩選,再利用word2vec得到特征詞向量進(jìn)行學(xué)者間相似度計(jì)算。為了驗(yàn)證該算法的優(yōu)勢(shì),將本文所提算法與基于TF-IDF算法計(jì)算的學(xué)者相似度結(jié)果進(jìn)行對(duì)比。利用TF-IDF算法計(jì)算學(xué)者相似度,選擇相似度靠前的15位學(xué)者,和本文所提算法的計(jì)算結(jié)果進(jìn)行對(duì)比。在不同算法生成的結(jié)果中,若目標(biāo)學(xué)者曾經(jīng)合作過(guò)的學(xué)者數(shù)目占比過(guò)高,則說(shuō)明模型的有用性較低。因此,設(shè)置指標(biāo)C進(jìn)行對(duì)比評(píng)價(jià)。C的計(jì)算方法為

        其中,C表示不同計(jì)算方法下的已合作學(xué)者平均占比;N表示核心作者數(shù);ni'表示第i位學(xué)者曾經(jīng)合作過(guò)的學(xué)者總數(shù);ni表示相似度靠前的15位學(xué)者中第i位學(xué)者曾經(jīng)合作過(guò)的學(xué)者數(shù)。

        利用公式(5)計(jì)算可得,基于本文所提算法計(jì)算出的指標(biāo)C的值為54.10%;只基于TF-IDF算法計(jì)算出的指標(biāo)C的值為91.67%。后者曾經(jīng)合作過(guò)的學(xué)者占比過(guò)高,不利于為目標(biāo)學(xué)者尋找潛在的學(xué)者。單獨(dú)基于TF-IDF計(jì)算學(xué)者間相似度時(shí),曾經(jīng)合作過(guò)的學(xué)者的占比變高,這是因?yàn)楣餐献鬟^(guò)的論文的關(guān)鍵詞沒(méi)有根據(jù)署名次序和被引量分配不同的權(quán)重,論文的關(guān)鍵詞對(duì)每位作者都是等同的,從而造成由于合作而導(dǎo)致合作過(guò)的學(xué)者的相似度排名靠前的現(xiàn)象。因此,融入被引量和署名次序可以較為準(zhǔn)確地表征學(xué)者的研究方向以及削弱合作帶來(lái)的影響,幫助目標(biāo)學(xué)者找到更多研究方向相同或相似的學(xué)者,更好地開(kāi)展科學(xué)研究。

        5.2 模型有用性評(píng)價(jià)

        分別統(tǒng)計(jì)為每位學(xué)者推薦的15位學(xué)者中已產(chǎn)生合作的學(xué)者的比例和未產(chǎn)生合作的學(xué)者的比例,最后計(jì)算平均比例以評(píng)價(jià)模型的有用性。計(jì)算結(jié)果如表8所示。

        表8 已合作和未合作比例

        根據(jù)表8計(jì)算可得,為目標(biāo)學(xué)者推薦的學(xué)者中,已合作的平均比例為8.98%,未合作的平均比例為91.02%。已合作的學(xué)者所占比例遠(yuǎn)遠(yuǎn)低于未合作學(xué)者比例,這說(shuō)明本文所提出模型有用性較高。

        以學(xué)者趙蓉英為例,在α=0.9、β=0.1的條件下,本文提出的推薦模型為學(xué)者趙蓉英推薦的15位學(xué)者如表9所示。

        表9 學(xué)者推薦結(jié)果

        從表9中可以看出,在為學(xué)者趙蓉英推薦的15位學(xué)者中,已產(chǎn)生合作的共有3位,占比20%;其余未產(chǎn)生合作的共有12位,占比80%。這說(shuō)明本文所提出的推薦模型可以實(shí)現(xiàn)為學(xué)者推薦未合作過(guò),且研究方向相似的學(xué)者的目標(biāo)。除去推薦結(jié)果中與目標(biāo)學(xué)者趙蓉英已合作的3位學(xué)者,在其余的12位學(xué)者中,學(xué)者譚宗穎的研究方向涉及文獻(xiàn)計(jì)量、影響力評(píng)價(jià)、共現(xiàn)分析、科研合作等;學(xué)者張志強(qiáng)的研究方向涉及科技評(píng)價(jià)、文獻(xiàn)計(jì)量、學(xué)術(shù)影響力等;學(xué)者魏瑞斌的研究方向涉及共詞分析、文獻(xiàn)計(jì)量、共被引分析、知識(shí)圖譜等;學(xué)者余厚強(qiáng)的研究方向涉及替代計(jì)量學(xué)、引文分析、科學(xué)交流等;學(xué)者劉志輝的研究方向涉及文獻(xiàn)計(jì)量、科學(xué)計(jì)量、競(jìng)爭(zhēng)情報(bào)、知識(shí)圖譜等。這表明推薦模型所推薦的學(xué)者均在計(jì)量學(xué)、共詞分析、引文分析、可視化、知識(shí)圖譜、學(xué)術(shù)評(píng)價(jià)等方向發(fā)表過(guò)高質(zhì)量的論文,與目標(biāo)學(xué)者趙蓉英的研究方向相同或相似,目標(biāo)學(xué)者可以從推薦學(xué)者的研究方向中得到啟發(fā),方便、快捷地找到與自己研究方向相近的研究主題,與自身現(xiàn)有的學(xué)科背景知識(shí)結(jié)合,產(chǎn)生新的科研思路,順利開(kāi)展科學(xué)研究。

        6 結(jié) 語(yǔ)

        本文提出了一種融合學(xué)者研究?jī)?nèi)容和關(guān)系網(wǎng)絡(luò)的學(xué)者推薦模型,研究?jī)?nèi)容是指將被引量和署名次序與TF-IDF算法結(jié)合對(duì)學(xué)者發(fā)表文獻(xiàn)的關(guān)鍵詞進(jìn)行篩選,再進(jìn)行向量化表示,并計(jì)算相似度;關(guān)系網(wǎng)絡(luò)是指學(xué)者間基于相對(duì)位置的共被引關(guān)系,以此構(gòu)建學(xué)者共被引矩陣,并計(jì)算相似度。將兩種相似度以一定的權(quán)重融合,實(shí)現(xiàn)學(xué)者推薦。利用精確率、召回率和F值確定融合權(quán)重,以及對(duì)比單獨(dú)基于學(xué)者特征詞的推薦和單獨(dú)基于共被引關(guān)系的推薦。研究結(jié)果表明,本文提出的融合模型效果較好,可以實(shí)現(xiàn)為學(xué)者推薦研究興趣相似的學(xué)者,幫助學(xué)者更好、更快地找到同方向的學(xué)者,促進(jìn)學(xué)術(shù)溝通和成果發(fā)表,提供科研幫助。本文的不足之處在于未進(jìn)行全文本分析,對(duì)關(guān)鍵詞的處理僅停留在統(tǒng)計(jì)特征,且關(guān)系網(wǎng)絡(luò)僅用到共被引網(wǎng)絡(luò),其余合著網(wǎng)絡(luò)或異質(zhì)網(wǎng)絡(luò)均未涉及,未來(lái)將考慮運(yùn)用全文本深層次挖掘關(guān)鍵詞之間的關(guān)系,對(duì)本方法進(jìn)行改進(jìn),達(dá)到更佳的效果。

        猜你喜歡
        特征詞學(xué)者權(quán)重
        學(xué)者介紹
        學(xué)者簡(jiǎn)介
        學(xué)者介紹
        權(quán)重常思“浮名輕”
        基于改進(jìn)TFIDF算法的郵件分類(lèi)技術(shù)
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        學(xué)者介紹
        面向文本分類(lèi)的特征詞選取方法研究與改進(jìn)
        国产亚洲欧美在线| 激情偷乱人成视频在线观看| 国产午夜免费一区二区三区视频| 亚洲视频免费一区二区 | 激情综合婷婷色五月蜜桃| 九色综合九色综合色鬼| 天天躁日日躁狠狠躁av| 国产精品久久久久免费a∨| 久久九九青青国产精品| 中文字幕亚洲区第一页| 日本老熟女一区二区三区| 开心久久婷婷综合中文字幕| 人妻熟妇乱又伦精品hd| 国产真实强被迫伦姧女在线观看 | 丰满人妻一区二区三区免费| 永久中文字幕av在线免费| 91久久精品国产综合另类专区| 国产亚洲视频在线播放| 国产98在线 | 日韩| 六月婷婷国产精品综合| 亚洲精品中文字幕观看| 手机av在线观看视频| 免费亚洲一区二区三区av| 精品国产av一区二区三区 | 摸丰满大乳奶水www免费| 大桥未久亚洲无av码在线| 亚洲国产精品久久久久久久| 人妻av午夜综合福利视频| 日本频道一区二区三区| 少妇激情av一区二区三区| 国产盗摄xxxx视频xxxx| 黄 色 人 成 网 站 免 费| 中文字幕偷拍亚洲九色| 国产3p一区二区三区精品| 日本丰满少妇xxxx| 又粗又粗又黄又硬又深色的| 91精品全国免费观看青青| 国产av一区二区网站| 99国产精品久久久久久久成人热| 无码人妻丰满熟妇片毛片| 亚洲国产精品嫩草影院久久|