亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web of Science的PageRank人才挖掘算法

        2021-07-02 00:35:52王宇宸杜偉靜何曉濤劉學敏張士波李樹仁
        計算機應用 2021年5期
        關(guān)鍵詞:影響力學者學術(shù)

        李 翀,王宇宸,2*,杜偉靜,2,何曉濤,劉學敏,張士波,李樹仁

        (1.中國科學院計算機網(wǎng)絡(luò)信息中心,北京 100190;2.中國科學院大學,北京 100049)

        (*通信作者電子郵箱wangyuchen@cnic.cn)

        0 引言

        科研論文是科研人員重要成果之一,高水平科研論文既可以反映作者的科研水平,一定程度也能反映出研究熱點變化及國家科研投入變化情況。因此,基于時間序列對科研論文進行熱點學科、科研社區(qū)、合著網(wǎng)絡(luò)、人才發(fā)現(xiàn)研究非常有意義。人才作為重大科技成果、科技發(fā)展和社會進步的主體和源動力,挖掘優(yōu)秀人才、培養(yǎng)和發(fā)現(xiàn)潛在人才尤為重要。

        目前有較多對優(yōu)秀科研人才挖掘的研究,并取得了一定的成效,不論是整體數(shù)據(jù)挖掘范圍、挖掘精度方面,還是對科研人員學術(shù)能力評價方面,都取得了不錯的效果。如馮嶺等[1]從專利數(shù)據(jù)中抽取發(fā)明人的各個特征構(gòu)建多層感知機模型,從而發(fā)現(xiàn)技術(shù)創(chuàng)新人才。江艷萍等[2]基于文獻計量方法對全球潛力華人青年學者進行發(fā)現(xiàn)與評價,通過制定相應的檢索策略獲取數(shù)據(jù)集,從數(shù)據(jù)集中提煉出學者信息,利用篩選指標體系和綜合評價指標體系確定潛力候選人,最后與同學科領(lǐng)域的標桿人物進行比較分析,明確潛力候選人的科研水平和學術(shù)定位。王孟頔等[3]利用Hadoop 計算平臺,通過網(wǎng)頁數(shù)據(jù)提取分析關(guān)鍵詞,根據(jù)關(guān)聯(lián)規(guī)則算法挖掘出關(guān)聯(lián)關(guān)鍵詞,采用基于相似項的策略推薦人才。

        上述人才挖掘分析算法,在人才發(fā)現(xiàn)和學者評價角度都取得了較好的進展,但也存在一定的不足之處。首先在科研成果數(shù)據(jù)的選取上缺乏權(quán)威性,同時數(shù)據(jù)較為雜亂;其次在人才學術(shù)評價上需要與標桿學者進行對比,具有評價的片面性;最后在人才挖掘上多數(shù)算法都屬于廣泛挖掘,缺乏針對性,并且在計算上過于復雜,對計算能力要求較高。除此以外還存在學術(shù)評價上不具有時間序列特性、不能根據(jù)學者自身特點進行公平化評價等。

        本文聚焦全球最大、覆蓋學科最多的綜合性學術(shù)資源WOS(Web Of Science)中收錄的中國科學院學術(shù)論文,在前期工作中,完成對熱點學科的學術(shù)論文語義圖譜構(gòu)建,并采用Louvain 社區(qū)發(fā)現(xiàn)算法(Community Detection)[4]對研究熱點背后相近研究領(lǐng)域的活躍學術(shù)圈進行挖掘,使人才挖掘研究更具有針對性。本文主要工作基于前期研究成果,深入研究了相關(guān)人才挖掘算法,結(jié)合學術(shù)論文語義網(wǎng)絡(luò)屬性和優(yōu)化后的PageRank 人才發(fā)現(xiàn)算法進行了設(shè)計和實現(xiàn)。實驗表明,基于科研社區(qū)使得人才發(fā)現(xiàn)更有針對性,能夠快速定位不同學科方向代表性人才,改進后算法使得在對優(yōu)秀人才挖掘、潛在人才發(fā)現(xiàn)更加精準。

        1 相關(guān)工作

        本章首先介紹關(guān)于人才挖掘領(lǐng)域的一些研究成果,然后介紹基于科研社區(qū)的人才挖掘算法研究并分析比較。

        1.1 人才挖掘算法相關(guān)研究

        在目前的人才發(fā)現(xiàn)算法研究中,大致可以分為兩類:一類為利用學者相關(guān)特征進行模型訓練的監(jiān)督學習方法,另一類為通過合著網(wǎng)絡(luò)形式進行預測的無監(jiān)督學習方法。以馮嶺等[1]研究成果為例,其工作主要是抽取了反映各個發(fā)明人技術(shù)創(chuàng)新實力的專利特征。抽取的發(fā)明人特征包括專利申請量、專利總被引用量、合作發(fā)明人數(shù)量、合作發(fā)明人的平均專利申請量、申請人維持的專利數(shù)量以及所申請專利的文本特征等;然后再通過神經(jīng)網(wǎng)絡(luò)模型進行訓練與預測,并且在其實驗中將神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)機器學習模型進行了對比,結(jié)果表明該實驗取得了不錯的效果。除此之外,隨著近幾年圖神經(jīng)網(wǎng)絡(luò)與知識圖譜領(lǐng)域的發(fā)展,也出現(xiàn)了一些新的思路。比如Park 等[5-6]提出的基于圖神經(jīng)網(wǎng)絡(luò)分析知識圖譜中節(jié)點重要性的方法,利用網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息與節(jié)點間謂詞關(guān)系,結(jié)合每個節(jié)點的自身特征,通過圖神經(jīng)網(wǎng)絡(luò)模型進行節(jié)點重要性的預測。這個思路可以應用到人才挖掘研究當中,但需要合適且權(quán)威的數(shù)據(jù)集用于模型訓練。

        通過合著網(wǎng)絡(luò)方法進行人才發(fā)現(xiàn)的研究也有很多,比如謝瑞霞等[7]的研究是基于合著網(wǎng)絡(luò)構(gòu)建學者影響力評價指標。在其評價指標中,不僅考慮了學者自身論文的影響力,還通過合著網(wǎng)絡(luò)中節(jié)點的介數(shù)中心度計算了學者的網(wǎng)絡(luò)影響力,也就是該學者在網(wǎng)絡(luò)中的重要性體現(xiàn)。在實驗中,通過將兩種影響力結(jié)合計算,也取得了不錯的效果。

        本文充分吸取前面提到的相關(guān)研究的成功經(jīng)驗,在合著網(wǎng)絡(luò)的基礎(chǔ)上,首先通過學者論文相關(guān)特征計算學者的初始評分,再結(jié)合PageRank 在合著網(wǎng)絡(luò)上的傳遞性計算最終的評分,從而綜合考慮學者個人特征與合著網(wǎng)絡(luò)特征的影響,達到人才挖掘的目的。

        1.2 人才挖掘算法比較

        在已挖掘的科研社區(qū)基礎(chǔ)上,后續(xù)工作將利用社區(qū)網(wǎng)絡(luò)中心性對科研社區(qū)中的優(yōu)秀科研人才進行挖掘推薦。本節(jié)將對與此相關(guān)的Degree Centrality、Closeness Centrality、PageRank三個圖算法進行深入研究,其關(guān)系及區(qū)別如圖1所示。

        圖1 基于中心性的人才挖掘算法之間的比較Fig.1 Comparison between centrality-based talent mining algorithms

        1.2.1 Degree Centrality算法

        Degree Centrality 算法可用于在沒有方向的圖譜中,利用度中心性去測量網(wǎng)絡(luò)中節(jié)點間的相互關(guān)聯(lián)關(guān)系程度,類似于關(guān)聯(lián)關(guān)系矩陣,即表示當前節(jié)點與其他所有節(jié)點的直接聯(lián)系總數(shù)[8]。但該種計算方式存在一定的弊端,如果社區(qū)中節(jié)點規(guī)模增大,則測量值均會增大,各節(jié)點的度中心性也會逐步增高。1994年,Stanley Wasserman 和Katherine Faust針對該問題提出一個新的標準化測量公式,如式(1)所示:

        在對節(jié)點的度中心性進行衡量過程中,首先以本身節(jié)點i為初始階段,測量出自身度中心性;其次測量出除本身節(jié)點外,其他g-1 個節(jié)點相連接的可能連接數(shù),從而計算出與本身節(jié)點i相關(guān)聯(lián)的其他節(jié)點的占比。最終比例范圍為0~1,0表示節(jié)點i不與任何節(jié)點相關(guān)聯(lián),1 表示與所有節(jié)點都有關(guān)系。

        Degree Centrality 用于計算來自節(jié)點的傳入和傳出關(guān)系的數(shù)量,并用于在圖中查找流行節(jié)點[9]?;谝陨戏治?,在適用性方面,如果試圖通過查看傳入和傳出關(guān)系的數(shù)量來分析影響力,或者找到各個節(jié)點的“流行度”,可以使用Degree Centrality算法。

        1.2.2 Closeness Centrality 算法

        Closeness Centrality 依靠節(jié)點之間的距離判斷節(jié)點間的近鄰程度。首先計算本身節(jié)點i與網(wǎng)絡(luò)中其他所有節(jié)點之間的距離,并進行相加求和,總值越小說明節(jié)點間可達且路徑越短,即在空間上與其他各節(jié)點越接近,最終發(fā)現(xiàn)處于有利位置的節(jié)點,從而控制和獲取組織內(nèi)的重要信息和資源,具體應用如文獻[10]。

        為更明晰地表達該距離程度,Bavelas于1950年將計算的近鄰程度進行歸一化定義,定義為近鄰距離計算的倒數(shù),最終的計算值取值范圍限定在(0,1),越接近于1 則節(jié)點的中心度越大,每個節(jié)點的具體計算公式如式(2)所示:

        其中:u代表當前節(jié)點;n代表圖中節(jié)點的數(shù)量;d(u,v)代表節(jié)點u到節(jié)點v之間的最短距離。

        Closeness Centrality 適用于篩選以最快速度傳播信息的節(jié)點,其中使用加權(quán)關(guān)系對評估交流和行為分析中的交互速度效果展示較為明顯。該算法適用于連接圖中的節(jié)點中心性計算,但當圖中兩個節(jié)點間沒有路徑時,計算該節(jié)點的所有距離之和會出現(xiàn)偏差,緊密度趨向于無限,最終影響整個圖的中心性計算。

        1.2.3 PageRank算法

        PageRank 算法初始用途是對網(wǎng)站網(wǎng)頁重要性進行排序,以此來評判網(wǎng)頁產(chǎn)生的影響力,具體計算如式(3)所示:

        其中:u為待評估頁面。Bu為頁面u的鏈入集合。對于頁面u來說,每個入鏈頁面自身影響力PR(V)與V頁面的所有出鏈頁面數(shù)量之比,作為頁面V給頁面u帶來的影響力。這樣可以將頁面自身影響力平均分配至其每個出鏈上,再計算所有帶給u頁面的影響之和,便是網(wǎng)頁u的影響力。

        但式(3)存在一些問題,如一個節(jié)點沒有出鏈或者入鏈,會出現(xiàn)等級泄漏或等級沉沒現(xiàn)象,故提出了一種新的優(yōu)化方式,加入阻尼系數(shù)d,如式(4)所示,這個阻尼系數(shù)代表用戶通過跳轉(zhuǎn)鏈接進入的概率,通常取值0.85。

        PageRank 算法通過關(guān)聯(lián)關(guān)系間的緊密程度來量化彼此間的影響力,通過出鏈入鏈的影響程度,最終確定最優(yōu)影響能力的節(jié)點。PageRank 算法更加適用于關(guān)系較多,且彼此影響力不均勻的關(guān)聯(lián)狀況。這與論文之間引用等關(guān)聯(lián)關(guān)系相似,適用于挖掘關(guān)系復雜的圖信息。PageRank 算法還存在一些缺點,PageRank 算法在使用過程中,過于注重當前數(shù)據(jù)特征,周圍關(guān)聯(lián)的節(jié)點會直接影響當前節(jié)點的影響力;除此以外,PageRank 算法考量維度單一,對于出現(xiàn)較早的頁面會因鏈接度較高而提升影響力,沒有時間序列性。

        綜上幾種對人才挖掘算法的分析,可以看出Degree Centrality 主要是度量節(jié)點的出度與入度,說明當前節(jié)點的權(quán)威只受周圍關(guān)聯(lián)節(jié)點影響,應用于優(yōu)秀科研人才挖掘上會具有單一性;另外,出入度計算上也存在大量重復計算,會導致計算效率較低。Closeness Centrality 算法主要利用節(jié)點間的距離來計算中心性,如果存在沒有相互關(guān)聯(lián)的節(jié)點,會導致計算結(jié)果偏離正常值,應用于優(yōu)秀人才挖掘上會導致挖掘結(jié)果不準確。PageRank 算法是計算網(wǎng)頁重要性排名的算法,主要利用鏈接關(guān)聯(lián)性進行分析,在計算上將節(jié)點影響力進行均分,后進行統(tǒng)計分析來確定節(jié)點的重要性,這在一定程度上突出了重要節(jié)點的影響力,達到了較為公平的計算效果,應用于優(yōu)秀人才挖掘上能對優(yōu)秀人才賦予較大的影響力,從而突出其貢獻度。綜合比較分析,本文人才挖掘算法最終選擇為PageRank算法。

        2 PageRank算法優(yōu)化與實現(xiàn)

        PageRank 算法的使用前提是需要有每位學者學術(shù)能力的初始評分,這能在一定程度上突出優(yōu)秀人才的貢獻度,但應用在學術(shù)論文的人才挖掘上也會存在一定的不足。首先不能根據(jù)時間連續(xù)性對人才進行篩選,隨著時間的變化,優(yōu)秀人才的科研方向和成果會發(fā)生變化,但PageRank 算法不能動態(tài)地對科研能力進行調(diào)整;其次,PageRank 算法評價維度單一,只是單一地考慮了關(guān)聯(lián)節(jié)點的影響力,沒有多維度評價因素,如論文被引用量、作者發(fā)文量等維度可以在一定程度上體現(xiàn)作者學術(shù)能力的強弱,提升優(yōu)秀人才挖掘的準確性。為了解決該問題,達到更加準確的人才挖掘效果,有必要對PageRank算法進行了多維度優(yōu)化。

        經(jīng)過調(diào)研,本文在實驗中采用了Prathap于2010年提出的一種綜合性評價學術(shù)成果指標,對學者的學術(shù)能力從學術(shù)論文數(shù)量以及引用次數(shù)進行評價。并通過結(jié)合常雨蕭[11]的研究成果,為學術(shù)指標的計算加入時間因素、作者署名排序因素;在PageRank 算法中加入了作者間余弦相似度作為影響系數(shù)。將優(yōu)化后的算法應用在科研社區(qū)中,進行人才發(fā)現(xiàn)。

        時間因素,作者署名排序因素以及學術(shù)指標P(i)的計算如式(5)~(7)所示。其中作者署名排序是采用了貢獻度等級分配法[12],并參考了科研成果評價研究成果[13]。論文發(fā)表的時間越早,在學術(shù)成果指標中的影響就越??;作者署名次序越靠后,該論文對于作者的影響力也越小。通過計算策略調(diào)整,使得近期活躍的學者可以得到更高的學術(shù)指標值,更有利于活躍人才的挖掘。

        其中:α為尺度系數(shù);Tc為當前時間,Tk為論文發(fā)表時間;ak為論文k的作者總數(shù),ik為作者i在論文k中的位次,ck為論文k的引用次數(shù);C(i)為作者i的論文引用得分,N(i)為作者i的論文數(shù)目得分。

        學者自身學術(shù)指標值的計算,見算法1。

        算法1 Calculate Initial Score。

        輸入 待消歧作者的全部相關(guān)論文數(shù)據(jù)。其中:i表示作者;n表示論文篇數(shù);ak為論文k的作者總數(shù);ck為論文k的引用次數(shù);ik為作者i在論文k中的位次;Tc為當前時間;Tk為論文發(fā)表時間。

        輸出 學者i的自身學術(shù)指標值。

        對于PageRank 影響力傳遞過程,通過余弦相似度的方式計算作者節(jié)點間的關(guān)系。具體計算如式(8)、(9)所示,分別為作者間貢獻影響程度和作者影響力得分。

        其中d為PageRank 中的阻尼系數(shù),一般取值為0.85。最終的學者影響力評分由多輪迭代后的Imp(i)得出。

        PageRank算法的Imp值計算,見算法2。

        算法2 Modified PageRank Algorithm。

        輸入 所有作者的自身學術(shù)指標值為Imp,所有作者間的貢獻影響度為Attr,每個作者的鄰居節(jié)點為neighbors,迭代輪次為n。

        輸出 所有作者的最終評分列表。

        3 實驗驗證與分析

        3.1 基礎(chǔ)環(huán)境

        操作系統(tǒng)為CentOS 7 64 位,Kernel Linux 3.10.0。開發(fā)環(huán)境為python3.7.3+Neo4j 3.5.13;CPU 為Intel Xeon Silver 4114@2.20 GHz 40核心;內(nèi)存為128 GB。

        3.2 實驗數(shù)據(jù)

        實驗數(shù)據(jù)為1949—2019年的WOS核心合集數(shù)據(jù)庫中國科學院發(fā)表的4 199 篇計算機科學學術(shù)論文數(shù)據(jù),通過Neo4j創(chuàng)建論文語義網(wǎng)絡(luò)圖[14],其中有作者19 200 位,機構(gòu)26 232個,生成Workwith 關(guān)系數(shù)15 799 個,其中實體類型為Author(作者)、Paper(論文)、Org(作者所屬機構(gòu));實體間關(guān)系為Belong to、Write、Workwith(Workwith 中包含屬性Weight)。如圖2所示。

        圖2 論文語義實體關(guān)系示意圖Fig.2 Paper entity relationship diagram

        在學術(shù)語義網(wǎng)絡(luò)圖基礎(chǔ)上,應用Louvain社區(qū)發(fā)現(xiàn)算法對活躍科研社區(qū)進行挖掘[15]。通過使用模塊度和模塊度收益進行評價[16],成功挖掘出模塊度收益較高的前10個活躍科研社區(qū),其分布如表1所示。

        3.3 驗證過程

        本實驗是在計算機科學領(lǐng)域挖掘出活躍度前10 個科研社區(qū)基礎(chǔ)上(見表1)對活躍科研人才進行挖掘。

        表1 社區(qū)人數(shù)及社區(qū)中論文數(shù)量表Tab.1 Number of communities and the number of papers in communities

        實驗分為兩個部分:一是根據(jù)式(4)采用優(yōu)化前的PageRank 算法對社區(qū)人才進行挖掘。在優(yōu)化前的算法中,得分值計算只利用了語義圖譜中作者節(jié)點間關(guān)系,而沒有考慮作者節(jié)點自身特征。二是根據(jù)式(9)采用優(yōu)化后的PageRank算法進行計算,綜合考慮了作者自身節(jié)點的多個特征因素,并且作者間的關(guān)系也使用作者間貢獻影響程度值進行了改進,使得不同鄰居節(jié)點對中心節(jié)點的影響程度具有獨特性。

        本文以活躍度排名第一的141 號社區(qū)進行的人才挖掘為例,優(yōu)化前后的挖掘結(jié)果對比如表2和表3所示。

        表2 活躍人才排名表(優(yōu)化前)Tab.2 Excellent talent ranking table(before optimization)

        表3 活躍人才排名表(優(yōu)化后)Tab.3 Excellent talent ranking table(after optimization)

        3.4 結(jié)果分析

        對于優(yōu)化前后的兩張表中的優(yōu)秀人才挖掘結(jié)果,本文利用自然科學基金委項目數(shù)據(jù)以及人才個人信息對挖掘結(jié)果進行了驗證分析,同時也對優(yōu)化的效果進行了分析。

        首先對挖掘結(jié)果的準確性進行分析,使用了較為權(quán)威的國家自然科學基金委員會項目數(shù)據(jù)對結(jié)果進行佐證。八位學者在自然科學基金委中的項目數(shù)據(jù)如圖3 所示。八位學者中有七位都在國家自然科學基金委中都承擔有項目,其中有一位學者博士剛畢業(yè)尚無基金項目。另外,經(jīng)查證八位均為領(lǐng)域內(nèi)國家級或地方優(yōu)秀人才,說明了優(yōu)化改進后的學術(shù)成果指標和PageRank算法可以在人才挖掘方面較為準確。

        圖3 國家自然科學基金委員會項目數(shù)據(jù)統(tǒng)計Fig.3 Statistics of projects ofthe National Natural Science Foundation of China

        其次對算法優(yōu)化有效性進行分析,通過表3 中的分數(shù)變化,可以看到受多個特征因素以及周邊關(guān)聯(lián)作者的得分變化的影響,八位學者的得分變化幅度不均。其中署名位次越靠前,論文發(fā)表時間越晚的學者得分增加幅度越大。以第四位與第五位學者為例,因為加入了署名順序因素,在優(yōu)化后排序發(fā)生了變化。這說明多個特征因素的加入會對學者的得分有著不同幅度的影響,進而能使學者的最終得分更客觀、科學。

        4 結(jié)語

        本文基于WOS 中收錄的中國科學院學術(shù)論文數(shù)據(jù),在構(gòu)建學術(shù)論文語義網(wǎng)絡(luò)圖和Louvain 科研社區(qū)發(fā)現(xiàn)結(jié)果的基礎(chǔ)上,將人才挖掘范圍聚焦于活躍科研學術(shù)圈,對PageRank 人才挖掘算法加入論文發(fā)表時間因子、作者署名排序遞減模型、周圍作者節(jié)點對當前節(jié)點的影響因素、論文被引用量等指標進行算法優(yōu)化,使得人才挖掘更加客觀有效。實驗結(jié)果表明,該算法具有一定的準確性和有效性,對優(yōu)秀人才和潛在人才發(fā)現(xiàn)有一定的參考意義;同時也在一定程度證明了從高水平學術(shù)論文成果發(fā)現(xiàn)人才的可能性。

        猜你喜歡
        影響力學者學術(shù)
        學者介紹
        管子學刊(2022年2期)2022-05-10 04:13:10
        學者簡介
        學者介紹
        管子學刊(2022年1期)2022-02-17 13:29:10
        如何理解“Curator”:一個由翻譯引發(fā)的學術(shù)思考
        中國博物館(2019年2期)2019-12-07 05:40:44
        對學術(shù)造假重拳出擊
        商周刊(2019年2期)2019-02-20 01:14:22
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        黃艷:最深遠的影響力
        學者介紹
        3.15消協(xié)三十年十大影響力事件
        傳媒不可估量的影響力
        人間(2015年21期)2015-03-11 15:24:39
        制服丝袜人妻中文字幕在线| 人妻久久一区二区三区蜜桃| 真实国产乱子伦精品视频| 日本护士吞精囗交gif| 99久久超碰中文字幕伊人| 国产麻豆成人精品av| 女优一区二区三区在线观看| 国产麻传媒精品国产av| 日本a在线看| 亚洲国产精品色婷婷久久| 看女人毛茸茸下面视频| 亚洲国产精品毛片av不卡在线 | 国产成人无码av| 欧美老妇与禽交| 18禁黄无遮挡免费网站| 国产精品性色av麻豆| 久久天天躁狠狠躁夜夜avapp| 成年男女免费视频网站| 亚洲中文字幕黄色小视频| 日韩精品人妻系列中文字幕| 国产喷水1区2区3区咪咪爱av| 国产精品公开免费视频| 日本一区二区精品色超碰| 无码人妻久久久一区二区三区| 精品人妻少妇一区二区三区不卡 | 免费在线国产不卡视频| 亚洲熟妇久久精品| 色吧综合网| 日本在线视频二区一区| 精品高朝久久久久9999| 亚洲乱亚洲乱少妇无码99p| 天啦噜国产精品亚洲精品| 日本人妻97中文字幕| 久久精品国产亚洲av无码娇色| 亚洲精品456| 国产一区二区三区在线观看免费版| 少妇无码太爽了在线播放| 成人性生交片无码免费看| 杨幂国产精品一区二区| 国产日产一区二区三区四区五区| 大桥未久亚洲无av码在线|