樊宇航,吳曉昱,朱 悅,陳 苗,徐鵬景
(1.上??萍及l(fā)展有限公司,上海 200062;2.上??萍紕?chuàng)新資源數(shù)據(jù)中心數(shù)據(jù)智能研究院,上海 200062;3.聰明制藥(上海)有限公司,上海 201106)
目前,高等院校的排名評價多是基于學科體系的綜合性指標,較為知名的四個權威世界大學排名(QS世界大學排行榜、泰晤士世界大學排行榜、U.S.News世界大學排行榜以及ARWU世界大學)[1],都是通過設立可量化的硬性指標和主觀評分的軟性指標來進行排名,但是都不能夠直觀地將高等院校的研發(fā)能力及成果納入到產業(yè)體系中進行細分及排名?;诋a業(yè)維度的高等院校排名能夠更直接對接現(xiàn)實產業(yè)體系,不僅能夠依靠多層次的產業(yè)體系將高等院校進行細分產業(yè)的劃分和排名,還能進一步推進高等院校研究成果在產學研體系中的產業(yè)化進程,同時為促進國內科技成果轉化提供決策依據(jù)。
根據(jù)《中華人民共和國國民經濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》[2](下文簡稱“十四五”規(guī)劃)指導意見,國內需要建立以市場為導向的產學研用深度融合的技術創(chuàng)新體系。高等院校作為技術供給方,其功能需從人才培育、科學研究延伸到社會服務,尤其是在知識經濟社會中,高等院校將被推向社會發(fā)展的中心,成為社會經濟發(fā)展的重要動力;企業(yè)作為技術需求方,尋找適配自己業(yè)務方向的技術,進行相關產品的研發(fā),投入到市場中來實現(xiàn)有效的技術轉化;政府則需要在了解雙方需求的前提下,通過制定政策,創(chuàng)立交易市場,加速整個工作過程。所以如何有針對性地統(tǒng)計和了解高等院校的技術研究領域方向,合理布局與之相對接的產業(yè)體系,對于強化高等院校在產學研體系中的位置有重要意義。
在產學研體系中,高校是其中研究的重要一環(huán)。沈佳坤等[3]認為“雙一流”高校是產學研融通創(chuàng)新的重要創(chuàng)新主體,通過知識鏈、創(chuàng)新鏈同產業(yè)鏈對接分析推動產學研融通創(chuàng)新的作用機制。伍娜等[4]以湖北省高校為例,通過構建產業(yè)合作創(chuàng)新耦合評價體系,提出應建立產學研戰(zhàn)略聯(lián)盟,引導創(chuàng)新要素加速向優(yōu)勢產業(yè)集聚。景曉輝等[5]則從高??萍汲晒u價與轉化的角度,認為高校對于科技成果的產業(yè)化應用重視不夠,同時未建立有效的企業(yè)的產業(yè)需求與高??蒲袌F隊及科技成果的匹配機制。沈彬等[6]針對這一困境,提出利用新型研發(fā)機構,促進高校技術交流創(chuàng)新,這就需要明確高校研究的產業(yè)重點。
而在高校排名研究這一方面,國內以往也多以學科類綜合型排名體系為主。例如,秦惠民等[7]基于多輪德爾菲法和層次分析法提出的4維度3層次大學全球影響評價體系;趙江濤等[8]基于ARWU、QS和THE三個世界大學排名對比國內外一流大學,認為國內在人才培養(yǎng)維度上進步較小。評價基礎都是從文獻角度出發(fā),比如論文角度,蔣知義等[9]基于ESI數(shù)據(jù)從科研生產力、科研影響力、科研發(fā)展力、科研創(chuàng)新力構建工程學科研競爭力。王艷等[10]同樣利用ESI數(shù)據(jù),分析中部六省科研產出的差異,找出安徽省在科研競爭力和學科發(fā)展方面的優(yōu)勢與不足;比如專利角度,張慧卿等[11]選取京津地區(qū)部分高校,利用20年的專利數(shù)據(jù),反映其技術創(chuàng)新活躍度和創(chuàng)新能力。張銳等[12]則對25所高校進行了專利競爭力的分析評估,以具體評判高校的科研能力。
在評價高校各要素方面,大數(shù)據(jù)技術讓各個數(shù)據(jù)源之間都能建立聯(lián)系,并且隨著數(shù)據(jù)量的積累,規(guī)律的總結和發(fā)現(xiàn)也更加容易把握。尹天光[13]提出構建教學評價大數(shù)據(jù)綜合體系,整合數(shù)據(jù)接口,及時反饋各類教學評價數(shù)據(jù)。對于高校就業(yè)質量的評價,魏玉曦[14]在建立評價體系后,引入大數(shù)據(jù)挖掘技術,適應高校就業(yè)質量變化特點,使評價結果更加可靠。劉在洲[15]研究得出大數(shù)據(jù)在高??蒲性u價中的應用,具有提高處理速度、實現(xiàn)可視化表達、促進科研評價方法和方法創(chuàng)新發(fā)展等強大功能和應用價值。
本文基于海量文獻和專利數(shù)據(jù)以及產業(yè)體系詞庫,以中國42所雙一流大學為例,進行不同層級產業(yè)體系的高等院校排名,從而有針對性地反映各高校的研究重點,了解同一產業(yè)領域各高校的發(fā)展水平,從而協(xié)助技術轉移參與方確立合作目標和重點。
本文研究對象為國內一流高等院校,所以選擇2017年9月教育部、財政部和國家發(fā)改委聯(lián)合公布的世界一流大學名單,其中A類36所,B類6所,共計42所高校。
本文排名的基礎數(shù)據(jù)主要分為三大部分:國家知識產權局的專利數(shù)據(jù),愛思唯爾的SCI文獻數(shù)據(jù),以及自主構建的產業(yè)詞庫。前兩個數(shù)據(jù)來源均為ElasticSearch數(shù)據(jù)庫,提供按關鍵字查詢的全文搜索功能。產業(yè)詞庫是利用我們團隊之前的NLP相關算法和詞庫構建流程[16],以《戰(zhàn)略性新興產業(yè)重點產品和服務指導目錄》(2016版)的8大產業(yè)體系為基礎,填充相關產業(yè)詞。表1為部分產業(yè)體系結構和中英文的示例產業(yè)詞,ID號的不同長度代表產業(yè)體系的等級,長度為3是1級,為5是2級,為7是3級,為9是4級。
表1 部分產業(yè)體系結構和中英文的示例產業(yè)詞
檢索式的構建方式為專利或者文獻的標題和摘要包含產業(yè)詞庫的目標詞,同時專利申請人和文獻發(fā)表單位包含目標高校名稱,將文獻時間范圍確定為2016—2021年,形成作為高校排名的指標來源數(shù)據(jù)集。其中,由于涉及英文SCI文獻,調用百度翻譯api自動生成英文版本的產業(yè)詞庫;目標高校名稱利用愛思唯爾的機構列表,為42所國內高校生成不同格式的英文名稱和簡寫,以確保查全率;通過爬取SCI文獻涉及期刊的最新影響因子和中科院分區(qū)的信息,作為細節(jié)指標的補充。
基于產業(yè)詞庫的高校排名主要綜合兩個維度:一是專利維度評分,二是SCI論文維度評分。選擇這兩個維度,是因為專利和論文是高校公開的最為主要和重要的研究成果,從數(shù)據(jù)的可獲取性和客觀性上是最優(yōu)選擇。評分策略是以專利/SCI論文的數(shù)量作為基礎,輔以相關反映研究成果質量的比例系數(shù)進行調整,以達到質量和數(shù)量相結合的目的。
專利維度的評分策略如下,首先是式(1)的專利數(shù)量分數(shù),利用數(shù)據(jù)歸一化的方式,將專利數(shù)量分數(shù)控制在50~100分之間,這樣較為符合評分習慣。接著式(2)和式(3)分別計算發(fā)明專利比例系數(shù)和有權專利比例系數(shù),其中發(fā)明專利具有更高的技術價值和研究價值;有權專利是現(xiàn)在能夠產生價值的專利,這兩個系數(shù)都直接反映了專利的質量,最后式(4)將前三個量相乘,獲得專利維度評分。
式中,50為最低分和高低分之差。
同理,SCI論文數(shù)量的評分策略如下,首先是式(5)的經過歸一化的SCI數(shù)量分數(shù),接著式(6)~式(8)分別計算中科院1、2區(qū)論文數(shù)比例系數(shù)、刊均影響因子系數(shù)和篇均被引頻次系數(shù),其中式(6)的系數(shù)代表了高校優(yōu)質論文的占比,式(7)~式(8)則代表了論文的平均水平,這三者都反映了論文的質量,最后式(9)將這前四個指標相乘,獲得SCI論文維度評分。
式中,50為最低分和高低分之差。
最后式(10)將專利維度評分和SCI論文維度評分按7:3的比例進行融合,因為是基于產業(yè)體系的高校排名,專利所包含的信息以及其相較于論文與產業(yè)有更強關聯(lián)性,所以專利維度評分的比例更高。
雙一流高校排名通過詞-產業(yè)體系對應表,形成詞—文獻資源—產業(yè)領域的鏈條,通過上述的評分策略生成各產業(yè)領域的高校排行榜。該高校排名流程方法將傳統(tǒng)寬泛的高校排名,轉變?yōu)榧毞之a業(yè)領域的排名,由資源下載、文本分詞、數(shù)據(jù)處理和結果呈現(xiàn)4個模塊組成,圖1為高校排名的具體實施流程,每個模塊的具體功能如下。
圖1 高校排名的實施流程
資源下載模塊:該模塊依據(jù)檢索策略和評分排名所需的字段信息,通過Python程序,批量構建ES檢索式,完成文獻檢索和結果數(shù)據(jù)保存,形成目標資源數(shù)據(jù)集。
文本分詞模塊:該模塊以產業(yè)詞庫為分詞詞典,利用jieba庫,對標題+摘要+關鍵詞的文本內容進行分詞。同時根據(jù)高校地址信息,形成各目標高校的文本分詞結果。
數(shù)據(jù)處理模塊:該模塊利用產業(yè)詞庫的詞-體系對應關系,通過調節(jié)參數(shù)n和m來確定重合詞和產業(yè)領域數(shù)量,其中,n代表選取詞頻Top-n的詞來表示文獻內容,m代表選取Top-m的產業(yè)領域來表示高校涉及的研究重點。該預處理流程旨在降低數(shù)據(jù)特征維度。
結果呈現(xiàn)模塊:該模塊針對不同層次的產業(yè)體系,計算得出與之相關的產業(yè)詞詞頻、專利數(shù)量和SCI論文數(shù)量等基本數(shù)值,以及發(fā)明專利比例等細化指標,最后根據(jù)各指標融合計算規(guī)則,計算出最終評分,形成高校排行榜。
產業(yè)詞庫的應用在四個模塊中都有所涉及。后期可以通過調整詞庫,復用整個實施流程,實現(xiàn)針對不同領域體系的高校細分排名,此外,可調參數(shù)的設置使得整個排名流程更加靈活。
將1級的8個產業(yè)體系排名取平均數(shù)來反映高校的平均水平,表2反映了排名前列的高校情況,其中清華大學平均排名最高,在6個產業(yè)中排名第1,在所有8個產業(yè)中也都排名前3,優(yōu)勢非常明顯;排名第2的浙江大學,在各個產業(yè)領域的表現(xiàn)非常平衡,都能進前10。此外,由于是產業(yè)相關領域,工科強勢的高校,如哈爾濱工業(yè)大學、上海交通大學等,平均排名都比較靠前;其他的高校則有重點的優(yōu)勢產業(yè)領域,如電子科技大學在新一代信息技術產業(yè)、天津大學在新能源汽車產業(yè)等。
表2 平均排名前列的高校情況
為進一步說明本文構建的高校排名的科學性,本文與軟科學科排名進行對比,選擇較為相似的材料科學與工程和新材料產業(yè),前10排名結果如表3,總共有7所高校同時進入兩個排名前10,說明本文1級的高校排名與較為權威的高校排名差異不大。
表3 本文高校排名和軟科排名的對比
然而正如之前提到,現(xiàn)階段的高校排名無法滿足更加細化的排名,但基于本文的產業(yè)詞庫可以實現(xiàn)上述目標。以新材料產業(yè)為例,3級體系中有稀土功能材料和高性能纖維及復合材料,表4展示了3級產業(yè)體系的高校排名,在稀土領域,排名靠前的中國科學技術大學和北京大學都有稀土相關的學院或重點實驗室;上海交通大學在“稀土之都”內蒙古包頭成立了稀土研究院;在新材料領域排名不高的廈門大學,在細分的稀土領域可以排在第四,可能的原因是其和中國六大稀土集團之一的廈門鎢業(yè)聯(lián)合建立了研究所。在高性能纖維及復合材料領域,排名第4的山東大學參與建設了山東省高性能纖維及其復合材料協(xié)同創(chuàng)新中心,所以細分產業(yè)領域的排名具有一定的合理性。
表4 3級產業(yè)體系的高校排名
本文所構建的基于海量文獻數(shù)據(jù)和產業(yè)詞庫的高校排名方法,不僅能夠以更簡潔、更流程化的方式形成高質量排名高校,還能將高校研發(fā)實力定位到細分產業(yè)領域,為資源有效配置和推進技術成果產業(yè)化進程提供有力依據(jù)。■