宋培彥 馮超慧 龍晨翔 楊治安 宋雨奇
(1.天津師范大學(xué)管理學(xué)院 天津 300382;2 .科技部科技評(píng)估中心 北京 100081)
《國(guó)家中長(zhǎng)期人才發(fā)展規(guī)劃綱要(2010-2020年)》指出,“人才是指具有一定的專業(yè)知識(shí)或?qū)iT技能,進(jìn)行創(chuàng)造性勞動(dòng)并對(duì)社會(huì)作出貢獻(xiàn)的人,是人力資源中能力和素質(zhì)較高的勞動(dòng)者”。2021年9月28日,中央人才工作會(huì)議強(qiáng)調(diào)要完善人才評(píng)價(jià)體系,加快建立以創(chuàng)新價(jià)值、能力、貢獻(xiàn)為導(dǎo)向的人才評(píng)價(jià)體系,形成并實(shí)施有利于科技人才潛心研究和創(chuàng)新的評(píng)價(jià)體系,為新時(shí)代開展人才評(píng)價(jià)指明了方向。優(yōu)秀科技人才是具備更高素質(zhì)與能力、做出更大貢獻(xiàn)與成果、具有較強(qiáng)影響力與創(chuàng)新力的佼佼者,其在科學(xué)研究、項(xiàng)目評(píng)審、成果轉(zhuǎn)化、決策咨詢等方面發(fā)揮著舉足輕重的作用。因此,準(zhǔn)確、快速發(fā)現(xiàn)優(yōu)秀科技人才成為科學(xué)技術(shù)發(fā)展的關(guān)鍵,事關(guān)科技創(chuàng)新全局,意義重大。
在實(shí)踐中,科技人才創(chuàng)新能力評(píng)價(jià)方法主要分為三類,一是基于文獻(xiàn)計(jì)量學(xué)理論,采用h指數(shù)[1]、g指數(shù)[2]、p指數(shù)[3]、NIF指數(shù)[4]等評(píng)價(jià)模型,從論文引用角度對(duì)人才學(xué)術(shù)影響力進(jìn)行總體性評(píng)價(jià);二是基于同行評(píng)議和層次分析[5],由評(píng)估者設(shè)置評(píng)價(jià)指標(biāo)體系、權(quán)重和基線(baseline),進(jìn)行定性與定量相結(jié)合的標(biāo)準(zhǔn)化評(píng)價(jià);三是采用社會(huì)網(wǎng)絡(luò)理論[6],對(duì)限定領(lǐng)域的科技人才學(xué)術(shù)關(guān)系及其影響力進(jìn)行網(wǎng)絡(luò)關(guān)系分析,適于人才專題化評(píng)價(jià)。上述方法特點(diǎn)鮮明、各有所長(zhǎng),同時(shí),由于大多依賴論文和嚴(yán)格的評(píng)價(jià)指標(biāo)體系,評(píng)價(jià)程序剛性有余而彈性不足,導(dǎo)致評(píng)價(jià)結(jié)果的客觀性、準(zhǔn)確性和適用性難免時(shí)有爭(zhēng)議。基于此,本文圍繞“反五唯”背景下“科學(xué)設(shè)立人才評(píng)價(jià)指標(biāo),突出品德、能力、業(yè)績(jī)導(dǎo)向”這一關(guān)鍵問題,以“顛覆性創(chuàng)新”為突破口,形成數(shù)據(jù)驅(qū)動(dòng)和可量化計(jì)算的優(yōu)秀科技人才創(chuàng)新能力發(fā)現(xiàn)方法。
準(zhǔn)確判斷科技人才的研究領(lǐng)域,有利于識(shí)別細(xì)分領(lǐng)域科技人才的研究專長(zhǎng),為進(jìn)行精細(xì)化發(fā)現(xiàn)奠定基礎(chǔ)。通過對(duì)科技人才發(fā)表的論文關(guān)鍵詞聚類,可以發(fā)現(xiàn)其研究領(lǐng)域和專長(zhǎng)。因此,首先基于科技人才的論文數(shù)據(jù)采用LDA主題模型進(jìn)行文本主題發(fā)現(xiàn),識(shí)別科技人才研究領(lǐng)域及專長(zhǎng)。然后,采用顛覆性創(chuàng)新理論,改進(jìn)并優(yōu)化顛覆性指數(shù),計(jì)算人才的創(chuàng)新能力,最后,將反映科技人才創(chuàng)新能力的顛覆性指數(shù)與傳統(tǒng)指標(biāo)進(jìn)行對(duì)比,檢驗(yàn)顛覆性指數(shù)在科技人才創(chuàng)新能力發(fā)現(xiàn)方法中的適用性。如圖1所示。
圖1 總體研究思路
2.1LDA模型識(shí)別“小同行”潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是由Blei于2003年提出的,該模型以潛在語(yǔ)義分析為基礎(chǔ),是一種基于概率分布的聚類算法,能深入語(yǔ)義層面對(duì)文檔進(jìn)行挖掘分析,可用于文本挖掘、文檔相似度計(jì)算、文本聚類等場(chǎng)景[14]。LDA是三層貝葉斯模型,包括文檔、主題和詞項(xiàng)3層結(jié)構(gòu),其核心思想是:假設(shè)文檔中詞與詞之間是沒有順序和先后關(guān)系的,每一個(gè)文檔都是以一定概率選中某個(gè)主題,而每一個(gè)主題又是以一定概率選擇特定的詞項(xiàng)。本文將使用LDA主題模型對(duì)科技人才的成果數(shù)據(jù)進(jìn)行挖掘聚類,具體過程如下[15]:
a.對(duì)科技人才的每一篇文檔,從主題分布中抽取一個(gè)主題; b.每個(gè)主題會(huì)分別對(duì)應(yīng)若干單詞分布,從中抽取一個(gè)單詞;c.對(duì)以上過程進(jìn)行迭代,直到文檔中每個(gè)單詞都被遍歷。
通過以上步驟,能夠從標(biāo)題、摘要等信息中以更細(xì)的顆粒度挖掘出科技人才的研究方向,為實(shí)現(xiàn)“小同行”精準(zhǔn)發(fā)現(xiàn)奠定基礎(chǔ)。
2.2顛覆性指數(shù)改進(jìn)與優(yōu)化顛覆性指數(shù)核心思想是:當(dāng)一篇引用給定文章的論文也引用了該文章的大部分參考文獻(xiàn)時(shí),那么這篇被引文章可以被視為鞏固了原有的研究,相反,如果隨后論文只引用了給定文章而對(duì)被引文章的參考文獻(xiàn)未進(jìn)行引用,即未采納或認(rèn)可其他人的研究,那么這篇被引文章就可以視為對(duì)其研究領(lǐng)域進(jìn)行了顛覆式創(chuàng)新。其計(jì)算方法如公式1所示:
(1)
該方法是以文獻(xiàn)所形成的引文網(wǎng)絡(luò)為基礎(chǔ),研究焦點(diǎn)文獻(xiàn)(被引用或評(píng)價(jià)的論文)發(fā)表后的采納接受狀態(tài)。采納狀態(tài)分為三種情況:第一種是只引用焦點(diǎn)文獻(xiàn),將其記為F類;第二種是既引用了焦點(diǎn)文獻(xiàn)又引用了焦點(diǎn)文獻(xiàn)的參考文獻(xiàn),將其記為B類;第三種是只引用了焦點(diǎn)文獻(xiàn)的參考文獻(xiàn)而未引用焦點(diǎn)文獻(xiàn),將此類記為R類。統(tǒng)計(jì)以上三種狀態(tài)的數(shù)量,并對(duì)F類和B 類相減然后進(jìn)行占比計(jì)算。計(jì)算結(jié)果的取值范圍為[-1,1],若數(shù)值趨近于1,說明創(chuàng)新性比較強(qiáng);相反,若數(shù)值趨近于-1則代表創(chuàng)新性較弱。
對(duì)于傳統(tǒng)顛覆性指數(shù)的單調(diào)性不一致,數(shù)值為負(fù)、對(duì)人才創(chuàng)新能力區(qū)分度不高等問題,相關(guān)學(xué)者已進(jìn)行研究并提出改進(jìn)方案,但該指數(shù)在人才評(píng)價(jià)方面仍需改進(jìn)。因?yàn)?,公?主要計(jì)算只引用焦點(diǎn)文獻(xiàn)的文獻(xiàn)數(shù)量與同時(shí)引用焦點(diǎn)文獻(xiàn)和前溯文獻(xiàn)的文獻(xiàn)數(shù)量的差(NF-NB)占所有引用量的比例,這就導(dǎo)致只要該比例相同,高被引文獻(xiàn)和低被引文獻(xiàn)的D值就會(huì)趨同,從而與事實(shí)可能產(chǎn)生偏離;其次,未充分考慮引用焦點(diǎn)文獻(xiàn)的數(shù)據(jù)集的引用動(dòng)機(jī)、引用質(zhì)量等因素,從而可能產(chǎn)生聚集效應(yīng),如單純根據(jù)文獻(xiàn)的引用量進(jìn)行衡量,焦點(diǎn)文獻(xiàn)引用量越多,將會(huì)有更多人去進(jìn)行引用,從而弱化了文章被引用的真實(shí)情況。
由此,針對(duì)人才創(chuàng)新能力發(fā)現(xiàn)的特點(diǎn),本文進(jìn)行改進(jìn),重點(diǎn)考慮了引用焦點(diǎn)文獻(xiàn)的文獻(xiàn)數(shù)量和質(zhì)量這兩個(gè)要素,并提出如下改進(jìn)公式:
(2)
公式2的含義是:首先,基于質(zhì)量考慮,本文在現(xiàn)有基礎(chǔ)上乘以文獻(xiàn)被引用的權(quán)值,其中文獻(xiàn)i表示引用焦點(diǎn)文獻(xiàn)的數(shù)據(jù)集,citei表示該數(shù)據(jù)集的后續(xù)被引用量,通過該方式來(lái)減小文獻(xiàn)質(zhì)量所帶來(lái)的一些誤差;在引用焦點(diǎn)文獻(xiàn)的文獻(xiàn)數(shù)量方面,本文將每次引用的質(zhì)量指標(biāo)之和作為衡量標(biāo)準(zhǔn),同時(shí)為進(jìn)一步減小或消除文獻(xiàn)引用中的聚集效應(yīng),式中對(duì)兩層引用均做了對(duì)數(shù)化處理(ln)。另外,考慮到citei可能出現(xiàn)值為非正數(shù)的情況,為便于計(jì)算,該式在citei的基礎(chǔ)上加了基礎(chǔ)質(zhì)量權(quán)值2,避免了零或負(fù)值的出現(xiàn),由此計(jì)算出的評(píng)價(jià)結(jié)果更合乎事實(shí),計(jì)算結(jié)果也更便于理解和使用。
3.1數(shù)據(jù)采集與處理本文以干細(xì)胞領(lǐng)域的“杰青““優(yōu)青”人才為例開展實(shí)證研究。干細(xì)胞是當(dāng)前生物醫(yī)學(xué)領(lǐng)域新興熱點(diǎn),也是我國(guó)科技研究的前沿領(lǐng)域和優(yōu)勢(shì)領(lǐng)域,因此,本文以干細(xì)胞領(lǐng)域?yàn)槔?,收?010年到2019年近十年內(nèi)的杰青、優(yōu)青稱號(hào)的科技人才名單,并在Web of Science數(shù)據(jù)庫(kù)中檢索其發(fā)表的英文論文數(shù)據(jù),進(jìn)行作者與論文數(shù)據(jù)的關(guān)聯(lián)。為了解決科技人才姓名縮寫及表示形式不一、重名等問題,在數(shù)據(jù)關(guān)聯(lián)前進(jìn)行了姓名消歧處理,通過Wos數(shù)據(jù)庫(kù)Web of Science ID 或ORCID ID來(lái)識(shí)別科技人才,輔助通過人才的工作單位、合作者以及網(wǎng)站信息進(jìn)行進(jìn)一步的篩選,最終確定人才的論文數(shù)據(jù)集。最終形成的數(shù)據(jù)集包括引用焦點(diǎn)文獻(xiàn)的數(shù)據(jù)集和引用焦點(diǎn)文獻(xiàn)中參考文獻(xiàn)的數(shù)據(jù)集。由于論文發(fā)表后一般需經(jīng)歷一段周期才會(huì)有一定引用量,因此為了避免誤差,本次實(shí)驗(yàn)采集科技人才數(shù)據(jù)排除了近三年發(fā)表的文獻(xiàn)(2019年-2021年)。本文以5位科技人才為例,共采集焦點(diǎn)論文有效數(shù)據(jù)193篇,其發(fā)表年限主要集中在2006年到2018年間,引用焦點(diǎn)文獻(xiàn)的數(shù)據(jù)集8 465篇,引用焦點(diǎn)文獻(xiàn)中參考文獻(xiàn)的數(shù)據(jù)集3 012 930篇,以提高實(shí)驗(yàn)效率。
3.2基于LDA的研究專長(zhǎng)識(shí)別本文采用LDA主題模型進(jìn)行文檔挖掘與聚類,并通過設(shè)定困惑度來(lái)選取主題數(shù)目,以保證模型預(yù)測(cè)結(jié)果的精確性和主題間相似性的最小化。經(jīng)LDA模型運(yùn)行后,共獲得5個(gè)主題數(shù)目,每個(gè)主題下都有以一定概率表示的詞,考慮到有的詞過于泛化,如“cell”等詞匯,同時(shí)為確保能夠準(zhǔn)確地表達(dá)主題內(nèi)容,本文將人工與機(jī)器相結(jié)合,并邀請(qǐng)醫(yī)學(xué)專業(yè)的人員輔助進(jìn)行主題的確定。接著,根據(jù)主題關(guān)聯(lián)度(1/主題數(shù),本文關(guān)聯(lián)度為0.2),利用模型輸出的結(jié)果對(duì)每篇文檔進(jìn)行歸類,若出現(xiàn)某文檔屬于兩個(gè)或多個(gè)主題類時(shí),則將其歸入概率最高的那一類中。歸類成功后,統(tǒng)計(jì)各個(gè)主題的文檔數(shù)量,選取數(shù)量最多的作為科技人才的研究專長(zhǎng)領(lǐng)域。如鄭**研究專長(zhǎng)是造血干細(xì)胞,與之相關(guān)聯(lián)的詞以一定概率分布,其中l(wèi)eukemia、hscs、stem、hematopoietic、igfbp2等詞語(yǔ)權(quán)重較大,能一定程度表達(dá)主題內(nèi)涵,反映科技人才的研究專長(zhǎng)。如表1所示。
表1 部分人員研究專長(zhǎng)
3.3D值結(jié)果與分析
3.3.1 D值檢驗(yàn) 獲得公式1中的NF、NR、NB的數(shù)據(jù),基于3.2節(jié)提出的計(jì)算公式2,利用顛覆性指數(shù)進(jìn)行計(jì)算,計(jì)算結(jié)果部分如表2所示,為保證顛覆性指數(shù)可以更準(zhǔn)確、更全面的評(píng)價(jià)科技人才總體的創(chuàng)新能力,本文選取了顛覆性指數(shù)的總和、均值、最大值及最小值來(lái)進(jìn)行衡量。其中,根據(jù)Sum_D計(jì)算結(jié)果可以發(fā)現(xiàn)杰青人才楊**、鄭**、項(xiàng)*的各項(xiàng)數(shù)值總體大于優(yōu)青程*、劉*,說明前三個(gè)人才相對(duì)于后兩個(gè)科技人才創(chuàng)新能力較強(qiáng),可以初步判斷顛覆性指數(shù)能對(duì)優(yōu)秀科技人才創(chuàng)新能力進(jìn)行發(fā)現(xiàn),如表2所示。
表2 科技人才顛覆性指數(shù)
為了進(jìn)一步檢驗(yàn)顛覆性指數(shù)是否能準(zhǔn)確衡量科技人才的創(chuàng)新能力,本文從論文引用量、合作網(wǎng)絡(luò)、h指數(shù)三個(gè)傳統(tǒng)維度進(jìn)行驗(yàn)證。
a.引用維度:總被引量是指某一科技人才發(fā)表的所有文章的被引用量,該指標(biāo)能夠一定程度上反映科技人才的影響力,篇均被引量則反映科技人才的平均水平。
b.合作網(wǎng)絡(luò)維度:點(diǎn)度中心度是社會(huì)網(wǎng)絡(luò)分析中的衡量指標(biāo),其指與某個(gè)點(diǎn)相連的其它點(diǎn)的個(gè)數(shù),點(diǎn)度中心度越大,該點(diǎn)在網(wǎng)絡(luò)中的位置越重要,代表科技人才的影響力也越大。間度中心度反映點(diǎn)與點(diǎn)之間的最短距離是否都經(jīng)過某一個(gè)點(diǎn),表明某一點(diǎn)在網(wǎng)絡(luò)中的控制能力及重要性,若權(quán)值大,則代表該點(diǎn)在網(wǎng)絡(luò)中處于核心地位,影響力較大。
c.h指數(shù):h指數(shù)是指至多有h篇文獻(xiàn)被引用了至少h次,指數(shù)值越高,一定程度上科技人才的學(xué)術(shù)水平也就越高。
計(jì)算各個(gè)指標(biāo),并進(jìn)行對(duì)比驗(yàn)證。其中論文引用量與h指數(shù)兩個(gè)維度指標(biāo)通過Web of Science數(shù)據(jù)庫(kù)獲取,合作網(wǎng)絡(luò)維度中點(diǎn)度中心度和間度中心度通過Gephi軟件進(jìn)行計(jì)算得出。驗(yàn)證結(jié)果如表3所示,以項(xiàng)*和劉*為例,項(xiàng)*的Sum_D值和Avg_D值分別為2.9618、0.0337,其值均高于劉*,初步判定項(xiàng)*要比劉*在該領(lǐng)域的創(chuàng)新影響力更大。以傳統(tǒng)指標(biāo)進(jìn)行進(jìn)一步驗(yàn)證,發(fā)現(xiàn)項(xiàng)*的點(diǎn)度中心度為135,高于劉*的79,說明在學(xué)術(shù)共同體構(gòu)成的網(wǎng)絡(luò)中,與項(xiàng)*所連接的人員更多,項(xiàng)*在中心位置所發(fā)揮的影響力更大;同時(shí),項(xiàng)*的h值、文章總被引量、篇均被引量等也較高。這可能也與科技人才本身所發(fā)表的研究成果數(shù)量有關(guān)聯(lián),其中,項(xiàng)*在Wos數(shù)據(jù)庫(kù)中的有效論文數(shù)據(jù)達(dá)88篇,而劉*僅22篇。另一方面,杰青獲得者往往比優(yōu)青獲得者對(duì)創(chuàng)新能力的要求更高。經(jīng)上述總被引量、篇均被引量、h指數(shù)、中介中心度等指標(biāo)的驗(yàn)證,總體可以較好反映顛覆性指數(shù)的基本態(tài)勢(shì),作為參考基準(zhǔn)是基本合適的,但因?yàn)闀r(shí)效性和精準(zhǔn)性有所欠缺,因此可以考慮增加引用速度、社會(huì)反響等外部特征驗(yàn)證趨勢(shì)的一致性,以彌補(bǔ)論文引用時(shí)間滯后性和分析精度偏差,增強(qiáng)顛覆性指數(shù)的解釋力。
表3 D指數(shù)與傳統(tǒng)指標(biāo)對(duì)比
3.3.2 細(xì)分領(lǐng)域優(yōu)秀科技人才創(chuàng)新力識(shí)別 從細(xì)分領(lǐng)域出發(fā),有助于按照“小同行”更加精準(zhǔn)識(shí)別科技人才。通過LDA主題模型聚類,并將所屬文檔進(jìn)行歸類,從而確定科技人才的研究領(lǐng)域,進(jìn)一步識(shí)別該領(lǐng)域內(nèi)的科技人才的比較優(yōu)勢(shì)。根據(jù)3.2小節(jié)中所確定的科技人才研究領(lǐng)域,發(fā)現(xiàn)程*和鄭**屬于同一個(gè)細(xì)分領(lǐng)域(造血干細(xì)胞研究),楊**和劉*屬于神經(jīng)細(xì)胞領(lǐng)域?qū)<摇?/p>
在此基礎(chǔ)上,以“造血干細(xì)胞”及“神經(jīng)細(xì)胞”兩個(gè)細(xì)分領(lǐng)域?yàn)槔?,?jì)算相關(guān)人員的顛覆性指數(shù)。鄭**的顛覆性指數(shù)高于程*,說明在造血干細(xì)胞領(lǐng)域,鄭**的研究成果更具創(chuàng)新性,其研究成果被后面追隨者認(rèn)可接受的程度比較高。在神經(jīng)細(xì)胞領(lǐng)域,優(yōu)青人才劉*的顛覆性指數(shù)高于杰青楊**,可以看出雖然楊**的總體D值大于劉*,但在細(xì)分領(lǐng)域神經(jīng)細(xì)胞研究中,后者更具創(chuàng)新影響力。由此可見,進(jìn)行細(xì)分領(lǐng)域科技人才識(shí)別有助于打破常規(guī),挖掘到“小同行”領(lǐng)域的創(chuàng)新人才,為創(chuàng)新科技人才的發(fā)現(xiàn)提供了新的研究視角。如圖2所示。
圖2 細(xì)分領(lǐng)域人才發(fā)現(xiàn)指數(shù)
在科技人才評(píng)價(jià)改革背景下,從細(xì)分領(lǐng)域出發(fā),以優(yōu)化后的顛覆性指數(shù)為依據(jù),通過實(shí)驗(yàn)初步驗(yàn)證了顛覆性指數(shù)能較好應(yīng)用于人才發(fā)現(xiàn)與識(shí)別中,對(duì)細(xì)分領(lǐng)域優(yōu)秀科技人才精準(zhǔn)發(fā)現(xiàn)、評(píng)價(jià)與推薦等具有一定的參考價(jià)值。研究還發(fā)現(xiàn),應(yīng)用顛覆性指數(shù)進(jìn)行人才識(shí)別方法具有以下特點(diǎn):a.顛覆性指數(shù)通過焦點(diǎn)文獻(xiàn)替代參考文獻(xiàn)的程度來(lái)識(shí)別創(chuàng)新性,綜合考慮了焦點(diǎn)文獻(xiàn)與參考文獻(xiàn),用該方法所識(shí)別出的創(chuàng)新性人才更具權(quán)威性與全面性。b.通過LDA主題模型聚類,識(shí)別細(xì)分領(lǐng)域的科技人才,有助于發(fā)現(xiàn)細(xì)分領(lǐng)域的“單項(xiàng)冠軍”,更好滿足抽取“小同行”專家進(jìn)行同行評(píng)議等需求。同時(shí),顛覆性指數(shù)在實(shí)際應(yīng)用過程中也存在著零被引論文、引用時(shí)間窗過長(zhǎng)等問題,可能會(huì)對(duì)計(jì)算精度造成影響,今后可以通過引入科研項(xiàng)目、專利等多源信息,并通過與現(xiàn)有人才評(píng)價(jià)方法適度融合進(jìn)行改進(jìn)。