王騫敏 鄢春根 閔超
關(guān)鍵詞: 產(chǎn)學(xué)研; 專利合作; R-GCN; 多層異構(gòu)網(wǎng)絡(luò); 技術(shù)相似度
DOI:10.3969 / j.issn.1008-0821.2023.05.006
〔中圖分類號(hào)〕G306 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 05-0054-12
隨著中國社會(huì)經(jīng)濟(jì)發(fā)展, “產(chǎn)學(xué)研深度融合”成為新的發(fā)展趨勢(shì)。十九大報(bào)告中強(qiáng)調(diào), 建立以企業(yè)為主體、市場(chǎng)為導(dǎo)向、產(chǎn)學(xué)研深度融合的技術(shù)創(chuàng)新體系。打造系統(tǒng)創(chuàng)新鏈, 豐富融合形式, 拓展融合范圍, 提升融合層次, 實(shí)現(xiàn)產(chǎn)學(xué)研深度融合, 需要有效發(fā)揮高校、科研院所和企業(yè)的互補(bǔ)作用, 從而真正實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)發(fā)展。目前, 產(chǎn)學(xué)研融合仍存在廣度與深度欠缺, 問題在于各方信息不對(duì)稱等問題導(dǎo)致的高校、院所和企業(yè)之間存在脫節(jié)[1] 。在產(chǎn)學(xué)研的合作研究中, 多從機(jī)構(gòu)合作角度出發(fā), 推薦企業(yè)與頂尖院校合作[2-4] , 忽略了普通院校與研究機(jī)構(gòu)具有發(fā)明實(shí)力的學(xué)者。因此, 本研究分析了企業(yè)與高校及科研單位學(xué)者的特征, 在技術(shù)相似度的基礎(chǔ)上, 引入R-GCN 多層異構(gòu)網(wǎng)絡(luò)算法, 挖掘合作規(guī)律, 并為企業(yè)與學(xué)者提供合作參考, 使企業(yè)與高?;蜓芯繖C(jī)構(gòu)部分杰出學(xué)者建立直接聯(lián)系, 對(duì)普通院校與研究機(jī)構(gòu)有實(shí)力的學(xué)者予以關(guān)注, 有利于提高產(chǎn)學(xué)研合作效率, 深化產(chǎn)學(xué)研合作。
1專利合作研究現(xiàn)狀
1.1產(chǎn)學(xué)研專利合作研究現(xiàn)狀
專利合作是產(chǎn)學(xué)研合作的重要方式之一, 而社會(huì)網(wǎng)絡(luò)分析法是專利合作分析中的重要研究方法。近年與之相關(guān)的研究可分為以下兩類: 一是對(duì)合作網(wǎng)絡(luò)進(jìn)行分析, 指出產(chǎn)學(xué)研合作進(jìn)一步發(fā)展的方向,如Yan H Y 等[5] 基于社會(huì)網(wǎng)絡(luò), 發(fā)現(xiàn)化工領(lǐng)域產(chǎn)學(xué)研合作具有無標(biāo)度和小世界特性, 進(jìn)一步提出促進(jìn)合作者互動(dòng)等建議, Paulo A F 等[6] 通過動(dòng)態(tài)網(wǎng)絡(luò)松弛DEA 模型, 靜態(tài)角度分析產(chǎn)學(xué)研合作的動(dòng)態(tài)變化, 李文靜[7] 通過分析校企專利合作網(wǎng)絡(luò),指出中小企業(yè)自主創(chuàng)新能力不足和高??蒲谐晒D(zhuǎn)化率偏低的問題等; 二是通過復(fù)雜算法, 對(duì)技術(shù)潛在合作對(duì)象的識(shí)別, 如許海云等[3] 通過擴(kuò)展多模數(shù)據(jù), 引入產(chǎn)學(xué)研機(jī)構(gòu)的技術(shù)關(guān)聯(lián)分析、機(jī)構(gòu)間競(jìng)爭(zhēng)地位分析、合作網(wǎng)絡(luò)中機(jī)構(gòu)間核心邊緣分析以及機(jī)構(gòu)類型等變量, 王超等[4] 則引入機(jī)構(gòu)能力差異性, 豐富了社會(huì)網(wǎng)絡(luò)分析方法, 提升了潛在合作對(duì)象識(shí)別準(zhǔn)確性。但目前產(chǎn)學(xué)研專利合作研究集中于企業(yè)與機(jī)構(gòu), 對(duì)企業(yè)與學(xué)者之間合作的研究較少,忽略了普通院校與研究機(jī)構(gòu)具有發(fā)明實(shí)力的學(xué)者。
產(chǎn)學(xué)研的合作, 本質(zhì)是企業(yè)與高?;蜓芯繖C(jī)構(gòu)部分杰出發(fā)明團(tuán)隊(duì)、發(fā)明人的合作。專利合作研究中機(jī)構(gòu)合作較多, 頭部研究機(jī)構(gòu)、雙一流高校關(guān)注度更高, 忽略了部分院校與研究機(jī)構(gòu)杰出的學(xué)者,錯(cuò)失合作機(jī)會(huì)。因此, 在產(chǎn)學(xué)研融合需求下, 企業(yè)真正的合作需求在于尋找合適的學(xué)者。
1.2合作關(guān)系的鏈路預(yù)測(cè)
鏈路預(yù)測(cè)在潛在合作機(jī)會(huì)的研究中已有所應(yīng)用。Chen W 等[8] 、王菲菲等[2] 、汪志兵等[9] 利用專利申請(qǐng)合作網(wǎng)絡(luò), 基于共同鄰居的相似性指標(biāo)對(duì)申請(qǐng)者合作網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測(cè), 證明了網(wǎng)絡(luò)鏈路的可預(yù)測(cè)性, 并對(duì)其進(jìn)行關(guān)系挖掘。在此基礎(chǔ)上進(jìn)行的鏈路預(yù)測(cè), 對(duì)合作對(duì)象自身特征缺乏深入挖掘,導(dǎo)致預(yù)測(cè)效果有限。除了基于傳統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的鏈路預(yù)測(cè)外, 部分學(xué)者進(jìn)行了進(jìn)一步的探索。這些探索共有兩個(gè)方向: 一是提出新的鏈路預(yù)測(cè)算法, 如Li L X 等[10] 提出了基于非平衡協(xié)同效應(yīng)的鏈路預(yù)測(cè)方法, 即異質(zhì)網(wǎng)絡(luò), 李冰等[11] 亦將企業(yè)—專利異質(zhì)性網(wǎng)絡(luò)引入合作關(guān)系預(yù)測(cè), 此類算法經(jīng)數(shù)據(jù)集驗(yàn)證, 預(yù)測(cè)效果有所提升, 但僅包含已有連接、已在網(wǎng)絡(luò)中的對(duì)象, 忽略了未曾連接、但有潛在連接可能的節(jié)點(diǎn); 二是將鏈路預(yù)測(cè)與其他算法相結(jié)合,如丁敬達(dá)等[12] 將作者研究?jī)?nèi)容相似度與合作網(wǎng)絡(luò)結(jié)構(gòu)相似性結(jié)合, 秦紅武等[13] 將K-means 算法與鏈路預(yù)測(cè)算法中的Katz 指標(biāo)相結(jié)合, 綜合考慮多個(gè)維度, 進(jìn)行科研合作推薦, 此類算法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)挖掘有限, 多為單層網(wǎng)絡(luò), 尚未引入其他網(wǎng)絡(luò)特征。隨著R-GCN 等復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測(cè)算法的改進(jìn)與成熟,將合作對(duì)象自身特征與其他網(wǎng)絡(luò)特征納入預(yù)測(cè)影響因素, 提高鏈路預(yù)測(cè)的效果成為可能。
對(duì)于產(chǎn)學(xué)研技術(shù)合作專利的研究, 已有前人將鏈路預(yù)測(cè)應(yīng)用于專利合作中。但鏈路預(yù)測(cè)以研究網(wǎng)絡(luò)結(jié)構(gòu)為主, 忽略了專利合作節(jié)點(diǎn)間的發(fā)明領(lǐng)域的相似性。企業(yè)與學(xué)者技術(shù)主題存在關(guān)聯(lián), 是兩者實(shí)現(xiàn)合作的基礎(chǔ)。技術(shù)相似度測(cè)算為此提供了解決方法。Cassi L 等[14] 、呂源等[15] 已證明技術(shù)接近能夠促進(jìn)專利合作。因此, 本文將RGN 算法與技術(shù)相似度杰卡德相似系數(shù)(Jaccard Similarity)、余弦相似度與歐氏距離(Euclidean Metric)3 個(gè)指標(biāo)相融合, 考慮不同實(shí)體的發(fā)明領(lǐng)域耦合度, 為多層異構(gòu)網(wǎng)絡(luò)鏈路預(yù)測(cè)提供了發(fā)明內(nèi)容的補(bǔ)充。
因此, 本文引入多層異構(gòu)網(wǎng)絡(luò), 包含學(xué)者合作網(wǎng)絡(luò)與企業(yè)—學(xué)者合作網(wǎng)絡(luò), 通過深入挖掘企業(yè)特征與學(xué)者特征, 將節(jié)點(diǎn)屬性特征與網(wǎng)絡(luò)拓?fù)湫畔⑾嘟Y(jié)合, 基于關(guān)系圖卷積網(wǎng)絡(luò)(R-GCN)算法, 發(fā)現(xiàn)合作網(wǎng)絡(luò)規(guī)律, 預(yù)測(cè)與企業(yè)進(jìn)行合作的潛在發(fā)明人, 并篩選具有技術(shù)實(shí)力與合作可能性的學(xué)者, 為企業(yè)合作提供參考。
2研究方法
本研究的主要目的是認(rèn)識(shí)企業(yè)和學(xué)者的合作特征與規(guī)律, 預(yù)測(cè)企業(yè)與學(xué)者合作可能性, 為企業(yè)推薦合適的合作學(xué)者。而許海云等[3] 在研究中采用的假設(shè)為合作方技術(shù)主題關(guān)聯(lián)性越大, 則合作潛力越大。學(xué)者在合作網(wǎng)絡(luò)中, 既可為發(fā)明者, 也可為中介者, 為企業(yè)與其他學(xué)者的合作提供橋梁。另外, 企業(yè)選擇合作的學(xué)者, 必然存在一定特征。因此, 本研究選擇將多層異構(gòu)網(wǎng)絡(luò)鏈接預(yù)測(cè)與技術(shù)相似度相結(jié)合, 選取杰卡德相似系數(shù)(集合相似度)、余弦相似度(相對(duì)距離)與歐氏距離(絕對(duì)距離)3個(gè)指標(biāo)計(jì)算企業(yè)與學(xué)者的IPC 主題的技術(shù)相似度,并構(gòu)建了學(xué)者—學(xué)者、企業(yè)—學(xué)者兩層網(wǎng)絡(luò), 將企業(yè)—學(xué)者作為目標(biāo)網(wǎng)絡(luò), 結(jié)合多層節(jié)點(diǎn)特征與網(wǎng)絡(luò)結(jié)構(gòu)特征, 預(yù)測(cè)兩者鏈接可能性, 最后將鏈接得分與技術(shù)相似度結(jié)合, 得到最終的合作預(yù)測(cè)結(jié)果, 研究框架如圖1所示。
2.1技術(shù)相似度
目前, 技術(shù)相似度測(cè)算有3 種方法, 分別為基于專利引文、專利文本與專利分類組合的相似度測(cè)算。由于IPC 分類號(hào)作為唯一的國際通用的專利文獻(xiàn)分類方法, 由專利審查員根據(jù)專利文本內(nèi)容進(jìn)行標(biāo)注, 具有客觀性與權(quán)威性, 因此, 本文主要采用基于專利IPC 分類組合進(jìn)行技術(shù)相似度的測(cè)算。
通過計(jì)算企業(yè)與各發(fā)明人涉及的專利IPC 領(lǐng)域的杰卡德相似系數(shù)(Jaccard Similarity)、余弦相似度與歐氏距離(Euclidean Metric)3 個(gè)指標(biāo), 綜合考慮集合相似度、相對(duì)距離與絕對(duì)距離, 并將其作為合作預(yù)測(cè)的特征。這3 個(gè)指標(biāo)作為衡量相似度廣泛使用的指標(biāo), 杰卡德相似系數(shù)考慮集合相似性, 僅判斷相互之間的共同特征一致性問題; 余弦相似度反映了兩者的相對(duì)距離, 強(qiáng)調(diào)向量方向關(guān)系; 歐氏距離表達(dá)了兩者的絕對(duì)距離, 受到集合元素出現(xiàn)頻率的影響。3 個(gè)指標(biāo)有各自注重的方面, 又存在一定缺陷, 因此, 本研究將其作為RNG 算法的補(bǔ)充,與RNG 算法相融合的方式, 既從合作網(wǎng)絡(luò), 又通過兩者的相似度, 預(yù)測(cè)企業(yè)和學(xué)者合作可能性。
2.2R -GCN( Relational Graph Convolutional Net?works)
R-GCN 最先由Schlichtkrull M 等[16] 在GCN 的基礎(chǔ)上提出, 通過在關(guān)系圖的多個(gè)推理步驟中使用編碼器模型來積累信息, 改進(jìn)鏈路預(yù)測(cè)的模型。本研究使用R-GCN 模型, 主要由于R-GCN 包容性強(qiáng), 能構(gòu)建不同類型節(jié)點(diǎn)與關(guān)系的多層網(wǎng)絡(luò), 通過整合各層信息, 節(jié)點(diǎn)所積累的信息既包含了自身屬性信息, 也承載了其他層的網(wǎng)絡(luò)結(jié)構(gòu)信息。多層網(wǎng)絡(luò)相對(duì)于單層網(wǎng)絡(luò), 網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)得到了極大的擴(kuò)展。企業(yè)與學(xué)者單層合作網(wǎng)絡(luò)包含節(jié)點(diǎn)為: 事實(shí)存在合作的企業(yè)與學(xué)者, 不包含從未與企業(yè)合作的學(xué)者。而加入了學(xué)者合作網(wǎng)絡(luò)后, 所有相互合作過的學(xué)者都在網(wǎng)絡(luò)中。將未與企業(yè)合作的學(xué)者加入到潛在合作對(duì)象中是本研究的主要目的之一。
本研究構(gòu)建兩層網(wǎng)絡(luò), 第一層為學(xué)者與學(xué)者合作的同構(gòu)無向網(wǎng)絡(luò), 第二層為企業(yè)與學(xué)者合作的異構(gòu)有向網(wǎng)絡(luò), 是目標(biāo)層網(wǎng)絡(luò), 其中企業(yè)為源節(jié)點(diǎn),學(xué)者為目標(biāo)節(jié)點(diǎn)。在本文場(chǎng)景下, 企業(yè)與學(xué)者的合作網(wǎng)絡(luò), 除企業(yè)自身屬性與發(fā)明者屬性外, 模型還整合學(xué)者合作網(wǎng)絡(luò)的結(jié)構(gòu)特征, 如企業(yè)A 與學(xué)者a合作, 學(xué)者a與學(xué)者b合作, 企業(yè)A 雖與學(xué)者b 未直接合作, 但在網(wǎng)絡(luò)中鏈接的概率高于其他節(jié)點(diǎn)。R-GCN 模型對(duì)企業(yè)與學(xué)者鏈路預(yù)測(cè)時(shí), 能將多層網(wǎng)絡(luò)信息與節(jié)點(diǎn)信息整合入模型, 提升模型預(yù)測(cè)效果。
本研究R-GCN 算法節(jié)點(diǎn)更新計(jì)算如圖2所示。節(jié)點(diǎn)表示是R-GCN 算法的主體, R-GCN 中目標(biāo)節(jié)點(diǎn)的表示有3 個(gè)來源: 一是為保留自身的屬性與結(jié)構(gòu)信息, 節(jié)點(diǎn)進(jìn)行SELF LOOP; 二是對(duì)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)特征與自身特征聚合, 得到節(jié)點(diǎn)表示結(jié)果; 三是從其他層鄰居節(jié)點(diǎn)特征和節(jié)點(diǎn)的關(guān)系得到, 聚合為節(jié)點(diǎn)表示結(jié)果。計(jì)算過程如下: ①輸入與節(jié)點(diǎn)實(shí)體相關(guān)的特征, 并映射到隱層空間; ②遍歷每一種關(guān)系下, 疊加每一個(gè)點(diǎn)的鄰居點(diǎn)的特征進(jìn)行聚合; ③加上一層的中心節(jié)點(diǎn)特征, 經(jīng)過一個(gè)激活函數(shù)輸出作為中心節(jié)點(diǎn)的輸出特征。
對(duì)兩個(gè)節(jié)點(diǎn)的特征向量執(zhí)行逐元素點(diǎn)乘來計(jì)算二者距離, 將得到的值作為預(yù)測(cè)分?jǐn)?shù)。本研究選擇Hinge Loss 作為損失函數(shù), 用于計(jì)算二分類問題的損失, 適用于兩個(gè)節(jié)點(diǎn)間鏈接與否。迭代終止條件為兩次迭代之間Loss 值變化小于0 0001。最后使用Sigmoid 函數(shù)對(duì)得到的分?jǐn)?shù)進(jìn)行歸一化, 得到鏈路預(yù)測(cè)結(jié)果。
2.3特征變量選擇
本研究分別從企業(yè)與學(xué)者兩方面構(gòu)建節(jié)點(diǎn)特征, 其中企業(yè)特征主要來源于企業(yè)發(fā)布的年報(bào), 分為經(jīng)營狀況與企業(yè)規(guī)模、技術(shù)吸收能力、研發(fā)投入與專利成果4 個(gè)維度; 學(xué)者(發(fā)明者)特征主要來源于專利數(shù)據(jù), 分為技術(shù)能力和合作傾向2 個(gè)維度。具體指標(biāo)及其解釋如表1 所示。
在以往對(duì)產(chǎn)學(xué)研合作的影響因素的研究中, 企業(yè)的經(jīng)營狀況與規(guī)模對(duì)產(chǎn)學(xué)研合作存在影響已被證明[17-18] 。本研究將企業(yè)的經(jīng)營狀況與規(guī)模維度作為產(chǎn)學(xué)研合作的影響因素加入模型, 由模型進(jìn)行訓(xùn)練, 其指標(biāo)涵蓋企業(yè)營收、成本、利潤(rùn)、資產(chǎn)、成立時(shí)長(zhǎng)等各方面。
技術(shù)吸收能力[18-19] 指企業(yè)對(duì)新技術(shù)認(rèn)識(shí)及吸收并應(yīng)用于商業(yè)的能力。企業(yè)技術(shù)吸收能力越強(qiáng),就越有動(dòng)力與外部研發(fā)能力合作。本研究將企業(yè)的技術(shù)人員、研發(fā)人員、核心技術(shù)人員和高學(xué)歷員工的數(shù)量及其占比作為衡量企業(yè)技術(shù)吸收能力的指標(biāo)。
企業(yè)的研發(fā)投入是產(chǎn)學(xué)研合作的基礎(chǔ), 是企業(yè)對(duì)技術(shù)重視程度的直接體現(xiàn)。企業(yè)的研發(fā)投入與產(chǎn)學(xué)研合作順利進(jìn)行為正向相關(guān)[20] 。本研究選擇研發(fā)費(fèi)用、研發(fā)投入總額與資本化研發(fā)投入作為對(duì)企業(yè)的研發(fā)投入情況的3 個(gè)指標(biāo)。
對(duì)于科技型企業(yè), 專利成果是其研發(fā)能力的直接體現(xiàn), 也能側(cè)面表現(xiàn)企業(yè)對(duì)技術(shù)的重視程度。專利分3 種類型: 一是發(fā)明專利, 指對(duì)產(chǎn)品、方法或者其改進(jìn)所提出的新的技術(shù)方案, 需申請(qǐng)后經(jīng)過實(shí)質(zhì)審查授權(quán)生效, 因此, 發(fā)明專利分為申請(qǐng)的發(fā)明專利與已授權(quán)的發(fā)明專利; 二是實(shí)用新型專利, 對(duì)產(chǎn)品的形狀、構(gòu)造或者其結(jié)合所提出的適于實(shí)用的新的技術(shù)方案, 無需經(jīng)過實(shí)質(zhì)審查; 三是外觀設(shè)計(jì)專利, 指對(duì)產(chǎn)品的形狀與圖案、色彩與形狀等作出的富有美感并適于工業(yè)應(yīng)用的新設(shè)計(jì), 無需實(shí)質(zhì)審查。本研究將專利總量及各類專利數(shù)量作為衡量企業(yè)專利成果的指標(biāo)。
學(xué)者的技術(shù)實(shí)力與合作傾向是產(chǎn)學(xué)研中企業(yè)選擇合作時(shí)考慮的重要因素[21] 。本研究綜合考慮了學(xué)者作為參與者與第一發(fā)明人兩種角色時(shí), 對(duì)發(fā)明做出的不同貢獻(xiàn)。技術(shù)實(shí)力包含學(xué)者發(fā)明數(shù)量、質(zhì)量、覆蓋面, 本研究將發(fā)明涉及IPC 數(shù)、發(fā)明專利數(shù)、發(fā)明權(quán)利要求總量、發(fā)明轉(zhuǎn)讓總次數(shù)、發(fā)明被引證總次數(shù)5 類指標(biāo)衡量學(xué)者技術(shù)實(shí)力。另外, 參考學(xué)者歷史與其他發(fā)明人和其他申請(qǐng)人合作情況,用專利申請(qǐng)人總量、專利發(fā)明人總量和與企業(yè)合作次數(shù)作為衡量合作傾向的指標(biāo)。
2.4模型評(píng)估
本研究使用技術(shù)相似度與鏈路預(yù)測(cè)模型得出最終合作預(yù)測(cè)結(jié)果, 為企業(yè)推薦合適的合作學(xué)者。RGCN模型的企業(yè)—學(xué)者層作為目標(biāo)層, 最終產(chǎn)出全連接層, 即企業(yè)與所有學(xué)者相連接, 并產(chǎn)出鏈接概率??紤]到模型實(shí)際應(yīng)用只需選擇鏈接概率較高的節(jié)點(diǎn)進(jìn)行推薦, 因此, 選擇企業(yè)節(jié)點(diǎn)鏈接概率前150的節(jié)點(diǎn)進(jìn)行模型評(píng)估。本研究采用準(zhǔn)確率(Accura?cy)、召回率(Recall)、AUC(Area Under Curve)、均方誤差(MSE)、F-Score、平均倒數(shù)排名(MRR)6 個(gè)指標(biāo)評(píng)估模型性能。其中F-Score 作為用于精確度(Precision)與召回率(Recall)調(diào)和平均, 綜合反映了預(yù)測(cè)結(jié)果的精確度與召回率, 本研究為企業(yè)推薦合作學(xué)者, 更注重召回率, 因此取β 為2, 計(jì)算公式如式(2):
3實(shí)證分析
3.1數(shù)據(jù)來源與分析工具
本文專利合作數(shù)據(jù)與發(fā)明者特征數(shù)據(jù)來源于INCOPAT 專利數(shù)據(jù)平臺(tái), 樣本選取了江浙滬醫(yī)藥生物領(lǐng)域2017—2021 年的發(fā)明專利, 分別從企業(yè)端與學(xué)者端構(gòu)建了檢索式, 其中學(xué)者端選取了IN?COPAT 專利數(shù)據(jù)中申請(qǐng)人類型為“大專院?!?“科研單位” “機(jī)關(guān)團(tuán)體” 的專利; 企業(yè)端選取了同花順數(shù)據(jù)庫中江浙滬生物醫(yī)藥滬深兩市上市公司, 與INCOPAT 上“工商上市代碼” 相對(duì)應(yīng), 檢索各企業(yè)涉及專利。由于檢索式較為復(fù)雜, 篇幅所限, 暫不展示。對(duì)企業(yè)端與學(xué)者端檢索后, 經(jīng)過進(jìn)一步人工篩選、去重與處理, 最終得到23387條專利數(shù)據(jù)。江浙滬上市企業(yè)數(shù)據(jù)來源于同花順數(shù)據(jù)庫, 共103 家企業(yè)數(shù)據(jù)。
為處理研究發(fā)明人中重名與合作專利發(fā)明人單位歸屬問題, 確認(rèn)發(fā)明人身份, 本研究將發(fā)明人及申請(qǐng)人相對(duì)應(yīng), 即發(fā)明人隸屬于申請(qǐng)單位。對(duì)于多個(gè)單位的同一發(fā)明人, 根據(jù)發(fā)明人與其他發(fā)明人、其他申請(qǐng)單位的關(guān)系, 以及研究主題相關(guān)性等因素, 進(jìn)行修正標(biāo)引。最終無法識(shí)別部分選擇第一申請(qǐng)人作為發(fā)明人的單位。
本研究共構(gòu)建了兩層網(wǎng)絡(luò), 第一層為學(xué)者之間的合作網(wǎng)絡(luò), 第二層為企業(yè)與學(xué)者合作的網(wǎng)絡(luò), 其中第二層為目標(biāo)網(wǎng)絡(luò)。網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)與鏈接數(shù)如表2所示。
3.2產(chǎn)學(xué)研合作網(wǎng)絡(luò)描述
本研究合作網(wǎng)絡(luò)共有兩層, 企業(yè)—學(xué)者合作網(wǎng)絡(luò)為目標(biāo)層。企業(yè)—學(xué)者合作網(wǎng)絡(luò)如圖3 所示, 企業(yè)—學(xué)者合作網(wǎng)絡(luò)整體上較為稀疏, 37 家企業(yè)與222 名學(xué)者實(shí)現(xiàn)了合作。度中心度作為衡量節(jié)點(diǎn)中心度的指標(biāo), 表示節(jié)點(diǎn)與其他節(jié)點(diǎn)的聯(lián)系多少[19] 。學(xué)者多與一家企業(yè)進(jìn)行合作, 平均度中心度僅為1.05, 而企業(yè)的合作學(xué)者較多, 平均度中心度為6.12。
合作上市企業(yè)中新和成、康緣藥業(yè)在網(wǎng)絡(luò)中度中心度最高, 是網(wǎng)絡(luò)中的核心節(jié)點(diǎn)。企業(yè)—學(xué)者網(wǎng)絡(luò)中企業(yè)度中心度如表3所示。節(jié)點(diǎn)度中心度越高, 在網(wǎng)絡(luò)內(nèi)連接的節(jié)點(diǎn)越多, 其影響力越大。
上市企業(yè)選擇合作的學(xué)者多為頂尖大學(xué)或優(yōu)秀醫(yī)院。其中浙江大學(xué)學(xué)者最多, 為60 人, 浙江工業(yè)大學(xué)、中國人民解放軍海軍軍醫(yī)大學(xué)、上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院分列2、3、4 名。
3.3產(chǎn)學(xué)研合作鏈路預(yù)測(cè)
3.3.1模型構(gòu)建
本研究將R-GCN 鏈路預(yù)測(cè)模型與技術(shù)相似度相結(jié)合, 分別計(jì)算企業(yè)與學(xué)者的R-GCN 鏈接概率與杰卡德相似系數(shù)、余弦相似度、歐氏距離, 通過邏輯回歸模型將四者融合, 得到最終合作概率。
企業(yè)—學(xué)者合作的整體樣本是企業(yè)與學(xué)者的全連接層, 即每一個(gè)企業(yè)都與所有學(xué)者相連, 得到其合作的可能性。將企業(yè)與學(xué)者存在合作關(guān)系作為正樣本, 未發(fā)生合作關(guān)系視為負(fù)樣本。在正樣本中根據(jù)企業(yè)節(jié)點(diǎn)劃分2∶1的訓(xùn)練集與測(cè)試集。
在R-GCN 模型實(shí)際建模過程中, 由于R-GCN適用于有向網(wǎng)絡(luò), 為方便賦予節(jié)點(diǎn)特征, 在實(shí)踐階段, 將上述學(xué)者—學(xué)者、企業(yè)—學(xué)者兩層無向網(wǎng)絡(luò)分割3 層, 分別為學(xué)者合作網(wǎng)絡(luò)與企業(yè)—學(xué)者有向合作網(wǎng)絡(luò)、學(xué)者—企業(yè)有向合作網(wǎng)絡(luò), 分別使用GCN 卷積模塊生成單層節(jié)點(diǎn)向量表示。完成后對(duì)三層網(wǎng)絡(luò)堆疊, 進(jìn)行信息傳遞, 構(gòu)建一個(gè)多層的圖神經(jīng)網(wǎng)絡(luò)來生成節(jié)點(diǎn)的向量表示, 生成異構(gòu)圖網(wǎng)絡(luò)中發(fā)生鏈接的節(jié)點(diǎn)與邊的模式, 至此構(gòu)成了模型的輸入層。其中節(jié)點(diǎn)特征經(jīng)過max、min、first、last、av?erage、sum、std 等擴(kuò)展處理后, 輸入層中學(xué)者特征為112 維, 企業(yè)特征為88 維。之后構(gòu)建了兩個(gè)隱藏層, 一個(gè)輸出層。由于本研究為企業(yè)—學(xué)者鏈接與否的二分類問題, 因此輸出層神經(jīng)元設(shè)置為2。
經(jīng)過實(shí)驗(yàn), 隱藏層層數(shù)為2 時(shí), 模型收斂速度較快, 效果較好。結(jié)合實(shí)驗(yàn)與考慮到模型過擬合問題, 將模型隱藏層數(shù)設(shè)置為2。在確定隱藏層層數(shù)為2 層后, 神經(jīng)元個(gè)數(shù)設(shè)置初始節(jié)點(diǎn)為20, 迭代次數(shù)為40 次, 而后逐10 個(gè)增加神經(jīng)元個(gè)數(shù), 確定最佳收斂區(qū)間。本研究進(jìn)行了多遍訓(xùn)練, ?。蹋铮螅缶底鳛榻Y(jié)果。實(shí)驗(yàn)結(jié)果如圖4 所示, 在神經(jīng)元為30個(gè)時(shí), 模型可以經(jīng)過多次迭代收斂, 且神經(jīng)元為最小個(gè)數(shù)。
多次迭代訓(xùn)練結(jié)果如圖4 所示, 可以看出當(dāng)模型迭代37次后, 測(cè)試集與訓(xùn)練集的模型損失變化較小, 直至不變, 完成R-GCN 模型訓(xùn)練。
得到R-GCN 模型預(yù)測(cè)結(jié)果與技術(shù)相似度指標(biāo)后, 將兩者進(jìn)行邏輯回歸擬合。為提高模型穩(wěn)定性, 對(duì)各指標(biāo)進(jìn)行WOE轉(zhuǎn)化, 再進(jìn)行模型訓(xùn)練。選擇使用L2正則約束, 步長(zhǎng)設(shè)置為0.01, 最大迭代次數(shù)設(shè)為100,最終得到邏輯回歸模型如式(4):
Pred = sigmod ( 0.6774 + 0.2171 .Jaccard +0.2170?Cosine +1.3139?Euclidean +0.4683.sig?mod(R-GCN)) (4)
3.3.2模型評(píng)估
采用準(zhǔn)確率(Accuracy)、召回率(Recall)、AUC(Area Under Curve)、均方誤差(MSE)、F-Score、平均倒數(shù)排名(MRR) 6 個(gè)指標(biāo), 將構(gòu)建的R-GCN鏈路預(yù)測(cè)模型與各個(gè)技術(shù)相似度指標(biāo)在訓(xùn)練集與測(cè)試集上的表現(xiàn)進(jìn)行對(duì)比, 結(jié)果如表4 所示。R-GCN鏈路預(yù)測(cè)模型表現(xiàn)如圖5所示。
由圖6 與表4 可知, R-GCN 鏈路預(yù)測(cè)模型整體TOP150 正樣本占比最高, 達(dá)到94.76%, AUC、召回率、F2-score 表現(xiàn)高于杰卡德相似系數(shù)、余弦相似度、歐氏距離3 個(gè)指標(biāo), 但MRR 指標(biāo)低于10%, 說明排序效果不佳。杰卡德相似系數(shù)、余弦相似度、歐氏距離3 個(gè)指標(biāo)的TOP150 正樣本占比、AUC、召回率與F2-score 表現(xiàn)不佳, 但準(zhǔn)確率較高, MRR 指標(biāo)表現(xiàn)較好。因此, 將4 個(gè)指標(biāo)通過邏輯回歸模型進(jìn)行擬合訓(xùn)練后, 形成新的模型, 其表現(xiàn)得到了大幅提升。
模型評(píng)估結(jié)果如表4 所示。R-GCN 與3 個(gè)技術(shù)相似度指標(biāo)的組合模型, 前150 為正樣本的占比仍維持在較高水平, 達(dá)到89.96%, 準(zhǔn)確率、AUC、召回率與R-GCN 鏈路預(yù)測(cè)模型都有小幅提升, 且MRR 指標(biāo)大幅提升, 說明結(jié)合后的模型預(yù)測(cè)準(zhǔn)確性、覆蓋面等性能更好, 排序性更優(yōu)。圖7 為RGCN與3 個(gè)技術(shù)相似度指標(biāo)相結(jié)合的模型表現(xiàn), 亦驗(yàn)證了訓(xùn)練集與測(cè)試集預(yù)測(cè)概率分布、正負(fù)類別概率分布、概率累計(jì)分布基本一致, 模型較為穩(wěn)定。
3.3.3預(yù)測(cè)結(jié)果
根據(jù)各企業(yè)與各學(xué)者合作預(yù)測(cè)結(jié)果進(jìn)行排名,排名結(jié)果如表5 所示, R-GCN 與3 個(gè)技術(shù)相似度指標(biāo)的組合模型排名效果遠(yuǎn)優(yōu)于其他四者。實(shí)際合作的學(xué)者在組合模型中普遍排名靠前, 驗(yàn)證了算法的有效性。
選取參與發(fā)明總專利數(shù)大于2, 第一發(fā)明專利數(shù)大于1, 且具有一定發(fā)明實(shí)力的學(xué)者作為推薦企業(yè)合作學(xué)者。表6 為各企業(yè)與各學(xué)者合作預(yù)測(cè)部分結(jié)果, 結(jié)果去除已合作的學(xué)者。本研究推薦了部分普通院校的杰出學(xué)者, 如杭州師范大學(xué)的章鵬飛、溫州醫(yī)科大學(xué)的張宏宇、浙江中醫(yī)藥大學(xué)的丁興紅等, 實(shí)現(xiàn)了在產(chǎn)學(xué)研中關(guān)注普通院校杰出學(xué)者的研究目標(biāo)。
在預(yù)測(cè)結(jié)果中, 以新和成為例, 本研究推薦了江南大學(xué)東為富(前22名都已與新和成實(shí)現(xiàn)合作), 他于2020—2021年申請(qǐng)了4項(xiàng)由他為第一發(fā)明人的專利, 主要研究方向?yàn)楦叻肿硬牧瞎不旄男?、聚合物納米符合材料等研究, 與新和成企業(yè)高分子復(fù)合新材料的產(chǎn)業(yè)方向相符。且新和成有豐富的產(chǎn)學(xué)研合作經(jīng)驗(yàn), 與浙江大學(xué)、寧波工程學(xué)院等學(xué)校均有合作, 對(duì)學(xué)者發(fā)明具備市場(chǎng)化能力。
4結(jié)論
基于產(chǎn)學(xué)研合作關(guān)系挖掘的實(shí)踐, 本研究在技術(shù)相似度的基礎(chǔ)上, 引入了多層異構(gòu)網(wǎng)絡(luò)鏈路預(yù)測(cè)算法, 融合學(xué)者合作網(wǎng)絡(luò)與企業(yè)—學(xué)者合作網(wǎng)絡(luò),在產(chǎn)學(xué)研合作的鏈路預(yù)測(cè)算法中綜合考慮了合作網(wǎng)絡(luò)結(jié)構(gòu)與合作技術(shù)內(nèi)容。對(duì)不同類型的節(jié)點(diǎn)構(gòu)建了不同的特征變量, 其中企業(yè)分為經(jīng)營狀況與規(guī)模、技術(shù)吸收能力、研發(fā)投入與專利成果4 個(gè)維度15個(gè)指標(biāo), 學(xué)者分為2 個(gè)維度8?jìng)€(gè)指標(biāo)。對(duì)生物醫(yī)藥領(lǐng)域?qū)@麛?shù)據(jù)集中分別評(píng)估了技術(shù)相似度、多層異構(gòu)網(wǎng)絡(luò)鏈路算法與技術(shù)相似度與多層異構(gòu)網(wǎng)絡(luò)鏈路預(yù)測(cè)相結(jié)合算法的精確度、覆蓋率以及排序性多項(xiàng)指標(biāo), 證明了技術(shù)相似度與多層異構(gòu)網(wǎng)絡(luò)鏈路預(yù)測(cè)相結(jié)合算法在各項(xiàng)指標(biāo)中均表現(xiàn)較優(yōu)。因此, 本文構(gòu)建的融合多層異構(gòu)網(wǎng)絡(luò)鏈路預(yù)測(cè)與技術(shù)相似度的算法是有效且具可行性的, 指導(dǎo)企業(yè)尋找合適的合作學(xué)者, 在產(chǎn)學(xué)研合作關(guān)系的預(yù)測(cè)和合作學(xué)者的推薦中具有理論意義與實(shí)踐價(jià)值。后續(xù)研究應(yīng)加入學(xué)者在論文等理論上的研究維度特征, 全方面評(píng)估學(xué)者的發(fā)明潛力, 挖掘?qū)W者研究特征對(duì)產(chǎn)學(xué)研合作的作用機(jī)制; 本研究以靜態(tài)網(wǎng)絡(luò)為主, 后續(xù)可考慮加入動(dòng)態(tài)合作網(wǎng)絡(luò), 結(jié)合企業(yè)關(guān)注領(lǐng)域的變化, 實(shí)現(xiàn)動(dòng)態(tài)推薦。