謝小東 吳 潔 盛永祥 王建剛 周 瀟
(江蘇科技大學經(jīng)濟管理學院 鎮(zhèn)江 212003)
當今科學技術(shù)演化最普遍的趨勢之一是所有領(lǐng)域研究團隊規(guī)模的擴大和跨組織合作的增加,現(xiàn)代科學問題的復(fù)雜性往往需要跨學科、跨領(lǐng)域的解決方案[1]。不同領(lǐng)域之間的交叉融合愈趨頻繁和密集,從個人、團隊、機構(gòu)、地區(qū)到國家等各種層面的科研合作形式不斷涌現(xiàn)[2]??蒲泻献魍ㄟ^知識、經(jīng)驗、資源全方位共享,不僅幫助研究者分擔科研任務(wù)、減少重復(fù)勞動、提高研究效率,還能提高研究的創(chuàng)新性和深度。然而,科學技術(shù)的快速發(fā)展,意味著大量技術(shù)的不斷產(chǎn)生與更替,科研人員尤其是發(fā)明人如何在大的行業(yè)范圍內(nèi)縮小查找范圍,快速定位潛在合作伙伴及跨領(lǐng)域合作伙伴的問題亟待解決。
現(xiàn)階段關(guān)于合作伙伴選擇的研究主要分為兩類:一類是利用網(wǎng)絡(luò)分析方法研究合作網(wǎng)絡(luò)的靜態(tài)特征和動態(tài)特性,在此基礎(chǔ)上主要使用復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測方法研究可能發(fā)生的科研合作關(guān)系;另一類是利用機器學習算法將多指標集成來提高推薦精度。但上述兩類方法均有其局限性,復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測算法主要基于節(jié)點相似性的鏈路預(yù)測指標,且推薦成功率依賴網(wǎng)絡(luò)本身的拓撲結(jié)構(gòu),方法適用性較差,機器學習中的集成算法雖然可以利用節(jié)點屬性特征,但其往往計算復(fù)雜性較高,忽略了圖結(jié)構(gòu)特征的利用。
現(xiàn)有研究在尋找潛在合作伙伴時主要考慮了節(jié)點的局部信息,但沒有充分利用節(jié)點的全局信息和節(jié)點特征,且研究主要集中于合作伙伴選擇研究,鮮有研究針對跨領(lǐng)域合作伙伴展開。因此本文基于發(fā)明人專利數(shù)據(jù)從合作關(guān)系特征、摘要文本特征、領(lǐng)域信息特征三個維度視角下綜合考慮發(fā)明人特征信息,提出基于圖卷積網(wǎng)絡(luò)的發(fā)明人跨領(lǐng)域合作伙伴識別方法,綜合利用發(fā)明人之間合作網(wǎng)絡(luò)結(jié)構(gòu)特征和發(fā)明人自身節(jié)點屬性特征,將現(xiàn)實復(fù)雜的發(fā)明人潛在合作伙伴選擇問題轉(zhuǎn)化為適合圖卷積網(wǎng)絡(luò)工作模式的鏈路預(yù)測任務(wù)。在此基礎(chǔ)上,本文構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準確識別出發(fā)明人跨領(lǐng)域合作伙伴。本文所構(gòu)建方法不僅可以提高潛在合作伙伴尋找的效率和準確性,而且通過挖掘合作網(wǎng)絡(luò)中的節(jié)點特征和拓撲結(jié)構(gòu),可以充分學習發(fā)明人之間的合作模式。最終,通過識別具有跨領(lǐng)域研究方向的合作伙伴,有助于促進不同領(lǐng)域之間的交叉合作和知識轉(zhuǎn)移,創(chuàng)造出更具創(chuàng)新性和前瞻性的成果。
科研合作是科研網(wǎng)絡(luò)中重要的組成部分,被研究者定義為“科研人員之間為完成同一科研任務(wù)而彼此按照計劃協(xié)同合作的勞動形態(tài)”[3]。隨著科學技術(shù)爆炸式發(fā)展,針對科研合作的研究也逐漸成為計量學等領(lǐng)域的研究熱點。Newman等[4]最早利用網(wǎng)絡(luò)分析方法研究合作關(guān)系,結(jié)合靜態(tài)網(wǎng)絡(luò)的特征研究科研合作網(wǎng)絡(luò)的結(jié)構(gòu)特征和合作網(wǎng)絡(luò)中具有影響力的節(jié)點。在此基礎(chǔ)上,部分學者[5-6]通過科研合作網(wǎng)絡(luò)的動態(tài)特性研究科研人員產(chǎn)生合作關(guān)系的原因及演化過程中所呈現(xiàn)的規(guī)律。
現(xiàn)階段學者針對科研合作網(wǎng)絡(luò)的研究偏重于預(yù)測合作網(wǎng)絡(luò)中的潛在合作關(guān)系,其研究大致分為兩類,一類是利用復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測方法分析現(xiàn)有合作網(wǎng)絡(luò)中尚未產(chǎn)生連邊的節(jié)點在未來產(chǎn)生鏈接的可能性,主要研究方法有基于網(wǎng)絡(luò)拓撲結(jié)構(gòu)相似性、基于網(wǎng)絡(luò)結(jié)構(gòu)的最大似然估計和利用概率模型三種[2, 7]。現(xiàn)有的鏈路預(yù)測方法大多是基于節(jié)點相似性的鏈路預(yù)測指標,針對單一指標或者簡單對指標進行線性加權(quán),這類方法往往效果較差,主要原因是單一指標涵蓋的信息并不全面,且鏈路預(yù)測方法推薦成功率依賴網(wǎng)絡(luò)本身的拓撲結(jié)構(gòu),方法適用性較差。另一類方法是利用機器學習算法集成多個指標對問題進行系統(tǒng)研究[8]。Guns等[9]將鏈路預(yù)測和機器學習方法進行組合對城市間科研合作進行研究,相較于單個鏈路預(yù)測指標的方法其推薦精度得到大幅提高。但這一類機器學習算法雖然可以綜合利用多個節(jié)點屬性特征,但其往往計算復(fù)雜性較高,忽略了圖結(jié)構(gòu)特征的利用,其適用范圍也偏窄。
近年,深度學習越來越廣泛地應(yīng)用在各個學術(shù)領(lǐng)域,其與鏈路預(yù)測結(jié)合的思路已經(jīng)開始有人關(guān)注[10]。隨著深度學習模型的發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計算機視覺和自然語言處理等方面的應(yīng)用中取得了可觀成績,越來越多的學者將神經(jīng)網(wǎng)絡(luò)的理論與技術(shù)應(yīng)用到網(wǎng)絡(luò)中,圖神經(jīng)網(wǎng)絡(luò)的研究也隨之興起[11-12]。2017年,圖卷積網(wǎng)絡(luò)模型(GCN)被提出,并且在學習圖表征方面表現(xiàn)出強大的表示能力,在以知識圖譜[13-14]、推薦系統(tǒng)[15-16]、文本分類[17-18]為代表的廣泛的任務(wù)和應(yīng)用中表現(xiàn)出了卓越的性能。在過去的幾年里,許多其他類型的圖神經(jīng)網(wǎng)絡(luò)已經(jīng)被提出,如圖自動編碼器、圖生成模型、圖注意模型,以及圖遞歸神經(jīng)網(wǎng)絡(luò)。除了對節(jié)點的特征表示進行學習外,學者開始使用圖神經(jīng)學習對整個圖結(jié)構(gòu)的表示,將圖表示為一個特征向量,從而分析不同圖結(jié)構(gòu)的異同。
針對現(xiàn)有合作伙伴推薦模型存在的不足,本文將鏈路預(yù)測與深度學習方法相結(jié)合,提出了一種基于圖卷積網(wǎng)絡(luò)的發(fā)明人跨領(lǐng)域合作伙伴識別方法,這種方法的主要思想是利用GCN來綜合學習節(jié)點網(wǎng)絡(luò)之間的互動關(guān)系以及節(jié)點自身的屬性信息,然后基于特征學習來預(yù)測節(jié)點間的鏈接。該方法不僅考慮了節(jié)點的局部信息,還考慮了節(jié)點的全局信息和節(jié)點特征,能夠更好地捕捉到節(jié)點的復(fù)雜關(guān)系,從而提高潛在合作伙伴尋找的效率和準確性。
本文從發(fā)明人專利信息中的合作關(guān)系特征、摘要文本特征、領(lǐng)域信息特征三個維度視角下構(gòu)建發(fā)明人合作網(wǎng)絡(luò),提出基于圖卷積網(wǎng)絡(luò)的發(fā)明人跨領(lǐng)域合作伙伴識別方法,將現(xiàn)實復(fù)雜的發(fā)明人潛在合作伙伴選擇問題轉(zhuǎn)化為適合圖卷積網(wǎng)絡(luò)工作模式的鏈路預(yù)測任務(wù)。如圖1所示,從發(fā)明人專利信息中提取發(fā)明人之間的合作信息,構(gòu)建發(fā)明人合作網(wǎng)絡(luò),提取發(fā)明人專利摘要信息和領(lǐng)域信息構(gòu)造發(fā)明人節(jié)點的節(jié)點特征。接著,將所構(gòu)建的發(fā)明人合作網(wǎng)絡(luò)和發(fā)明人節(jié)點特征輸入圖卷積網(wǎng)絡(luò),訓練圖卷積網(wǎng)絡(luò)之后利用鏈路預(yù)測思想預(yù)測發(fā)明人的潛在合作伙伴。在此基礎(chǔ)上,構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準確識別出發(fā)明人跨領(lǐng)域合作伙伴,為發(fā)明人在現(xiàn)實中展開合作提供參考。
圖1 發(fā)明人跨領(lǐng)域合作伙伴識別方法框架
2.1.1合作維度特征
本文抽取專利信息中的發(fā)明人共現(xiàn)信息作為發(fā)明人之間的現(xiàn)實合作關(guān)系,首先從專利數(shù)據(jù)庫中抽取某一領(lǐng)域的專利信息,剔除其中只存在單一發(fā)明人的專利信息,提取剩余專利的發(fā)明人信息以及他們的合作關(guān)系。在此基礎(chǔ)上構(gòu)建發(fā)明人合作網(wǎng)絡(luò),合作網(wǎng)絡(luò)的節(jié)點為發(fā)明人,邊為發(fā)明人之間的合作關(guān)系。具體來說,如果兩個發(fā)明人在一項專利中有過合作,那么就在他們之間添加一條邊,邊的權(quán)重為發(fā)明人之間的實際合作次數(shù)。為適應(yīng)圖卷積網(wǎng)絡(luò)的輸入形式,將上述發(fā)明人合作網(wǎng)絡(luò)構(gòu)建成一個鄰接矩陣,如公式(1)所示。
(1)
合作網(wǎng)絡(luò)的鄰接矩陣是一個二維矩陣,其大小是n×n,其中n表示發(fā)明人的數(shù)量。鄰接矩陣的元素Aij的取值為發(fā)明人之間的實際合作次數(shù)。
2.1.2摘要文本特征
本文以專利摘要文本數(shù)據(jù)為研究對象,首先將專利的摘要文本信息進行分詞、去除停用詞等預(yù)處理,使用預(yù)訓練的詞嵌入模型Doc2Vec將每篇專利轉(zhuǎn)化為向量表示。Doc2Vec是一種能夠理解文本語義的文檔嵌入方法,它可以將每篇專利摘要映射到一個固定長度的連續(xù)向量,這個向量可以捕捉到專利摘要的語義信息[19]。在處理發(fā)明人摘要文本維度特征時,存在發(fā)明人專利數(shù)量不一致的情況,因此本文在將發(fā)明人的摘要文本維度特征匯總時使用平均匯總方法,即對于每一位發(fā)明人,我們將其所有專利摘要的向量表示進行平均,以此得到發(fā)明人的整體摘要文本特征。具體來說,如果一位發(fā)明人有n篇專利摘要,那么其整體摘要文本特征可以由這n個向量的平均值來表示。
2.1.3領(lǐng)域維度特征
本文以專利IPC數(shù)據(jù)為研究對象,考慮構(gòu)建IPC維度特征矩陣的稀疏度,使用IPC大組信息表征細分技術(shù)領(lǐng)域。由于IPC分類的標簽是字母和數(shù)字的組合,為方便在計算過程中使用IPC分布信息,同時為體現(xiàn)IPC分布的領(lǐng)域特征,本文考慮將IPC分類進行獨熱編碼,即將每個IPC分類都賦予一個獨特的維度。其次,計算每位發(fā)明人在各個IPC類別中的專利數(shù)量,形成每個發(fā)明人的IPC分布向量。為了消除發(fā)明人專利數(shù)量的影響,對IPC分布特征進行標準化。具體來說,即將發(fā)明人的IPC分布向量除以他們的總專利數(shù)量,得到每個IPC分類中的專利占比[20]。最終得到的發(fā)明人IPC分布向量表征發(fā)明人的領(lǐng)域分布特征,這樣圖卷積網(wǎng)絡(luò)可以在學習節(jié)點特征和邊的同時,讓模型在學習過程中充分利用領(lǐng)域分布信息來進行領(lǐng)域特征的學習和傳遞,也學習到發(fā)明人之間合作的模式。
2.1.4發(fā)明人節(jié)點特征
在獲取發(fā)明人摘要文本特征和領(lǐng)域分布特征的基礎(chǔ)上,進一步將其融合為發(fā)明人節(jié)點特征。在圖卷積網(wǎng)絡(luò)訓練過程中將發(fā)明人節(jié)點特征嵌入發(fā)明人節(jié)點,使得圖卷積網(wǎng)絡(luò)可同時學習發(fā)明人節(jié)點在網(wǎng)絡(luò)中的結(jié)構(gòu)化拓撲信息與發(fā)明人節(jié)點特征構(gòu)成的自身屬性信息。
將代表發(fā)明人研究領(lǐng)域分布的專利IPC分布矩陣與代表發(fā)明人研究主題分布的發(fā)明人摘要文本信息節(jié)點嵌入向量融合成發(fā)明人節(jié)點特征矩陣,過程如圖2所示。
圖2 發(fā)明人節(jié)點特征構(gòu)建圖
(2)
其中,n表示發(fā)明人數(shù)量,i、j表示各維度特征向量的維度數(shù)量。
發(fā)明人潛在合作伙伴識別基于上述發(fā)明人合作特征、發(fā)明人摘要文本特征和發(fā)明人領(lǐng)域分布特征,使用圖卷積網(wǎng)絡(luò)算法(Graph Convolutional networks,GCN)[21]完成,具體步驟為:
b.將發(fā)明人節(jié)點信息矩陣Xn×(i+j)作為發(fā)明人合作網(wǎng)絡(luò)的節(jié)點屬性特征。
c.圖卷積網(wǎng)絡(luò)訓練時將一部分邊作為訓練邊,剩余的邊作為測試邊,模型在訓練過程中只使用訓練邊進行參數(shù)更新,并計算重構(gòu)損失(reconstruction loss),即模型重建訓練邊的能力。模型通過優(yōu)化重構(gòu)損失來學習節(jié)點的表示,最后利用學習到的節(jié)點表示計算鏈路預(yù)測結(jié)果。
d.圖卷積網(wǎng)絡(luò)的運算過程如式(3)所示[12, 22]。
(3)
e.經(jīng)過多層卷積網(wǎng)絡(luò)操作,得到經(jīng)過網(wǎng)絡(luò)處理后的節(jié)點特征矩陣X,使用GAE(Graph Autoencoder)作為解碼器進行鏈路預(yù)測,運算過程如式(4)所示[23]。
(4)
f.根據(jù)鏈路預(yù)測結(jié)果,識別發(fā)明人之間的潛在合作關(guān)系,并進行可視化展示。
在現(xiàn)今日益復(fù)雜和多元化的科研環(huán)境下,隨著科學知識的積累和技術(shù)的發(fā)展,單一領(lǐng)域的知識往往無法滿足解決復(fù)雜問題的需求,尋找跨領(lǐng)域合作伙伴可以獲得更廣泛的知識和更深入的專業(yè)理解,從而在問題解決中取得更大的突破。尋找跨領(lǐng)域合作伙伴是推動創(chuàng)新的重要驅(qū)動力,尋找跨領(lǐng)域合作伙伴不僅可以促進科研和技術(shù)的發(fā)展,也可以幫助研發(fā)人員更好地理解和應(yīng)對社會問題。這種合作有助于科研領(lǐng)域與社會的整合,提高科研的社會價值。
因此,結(jié)合發(fā)明人的細分技術(shù)領(lǐng)域的差異性和現(xiàn)實背景中關(guān)于跨領(lǐng)域合作伙伴尋找的迫切需要,本文進一步深化識別潛在合作伙伴與目標發(fā)明人是屬于同領(lǐng)域還是屬于跨領(lǐng)域,從深層次維度上進一步挖掘潛在合作伙伴關(guān)系,期待為合作伙伴之間的合作創(chuàng)新模式與規(guī)律提供借鑒。
在識別潛在合作伙伴與目標發(fā)明人之間的領(lǐng)域歸屬問題時,往往存在發(fā)明人有較多專利或者發(fā)明人的領(lǐng)域分布比較復(fù)雜的情況,這時發(fā)明人之間是否屬于跨領(lǐng)域合作創(chuàng)新往往不能一目了然,借助本文提出的同領(lǐng)域指數(shù)I和跨領(lǐng)域指數(shù)S予以輔助判斷,可較為清晰地判別。
本文以發(fā)明人的專利IPC信息表征發(fā)明人的領(lǐng)域信息,發(fā)明人之間的同領(lǐng)域指數(shù)I,如公式(5)所示[24]。
(5)
式中,N表示專利數(shù)量,N(A∩B)表示發(fā)明人A和發(fā)明人B共同擁有的IPC對應(yīng)的專利數(shù)量,N(A∪B)表示發(fā)明人A和發(fā)明人B的專利總量。當兩個發(fā)明人的同領(lǐng)域指數(shù)I較大時,表明兩個發(fā)明人之間的合作屬于同領(lǐng)域加強型合作,當同領(lǐng)域指標較小時,表明發(fā)明人之間領(lǐng)域差異較大,但是否屬于跨領(lǐng)域仍需進一步界定。
在此基礎(chǔ)上本文提出跨領(lǐng)域指標I判斷兩個發(fā)明人之間是否是屬于跨領(lǐng)域合作關(guān)系,具體公式如公式(6)所示。
(6)
式中,N(A)-N(A∩B|A)表示發(fā)明人A擁有但發(fā)明人B沒有的IPC對應(yīng)的專利數(shù)量,N(A∪B)表示發(fā)明人A與B的專利總量。相對于雙方來說,發(fā)明人A擁有的發(fā)明人B沒有的IPC對應(yīng)的比例越大,相較于發(fā)明人B,發(fā)明人A技術(shù)的跨領(lǐng)域程度越大,則兩人在合作中產(chǎn)生跨領(lǐng)域、顛覆性創(chuàng)新的程度越大。因此,在兩個發(fā)明人同領(lǐng)域指數(shù)較低的情況下,若發(fā)明人A相較于發(fā)明人B的跨領(lǐng)域指數(shù)較大,則說明發(fā)明人B在與發(fā)明人A合作時產(chǎn)生跨領(lǐng)域顛覆性創(chuàng)新的可能性較大,其合作創(chuàng)新相較于同領(lǐng)域增強型創(chuàng)新往往能產(chǎn)生更大的突破。
現(xiàn)階段,隨著全球環(huán)境壓力的日益增加和可持續(xù)能源需求的迅速增長,圍繞氫燃料電池的科研活動成為了焦點。氫燃料電池作為一種能夠轉(zhuǎn)化氫能為電能的清潔技術(shù),具有零碳排放、能量轉(zhuǎn)化效率高、能源存儲容量大等優(yōu)勢,為解決全球能源問題提供了一種可能的解決方案。然而,實現(xiàn)氫燃料電池技術(shù)的突破和廣泛應(yīng)用,依賴于各領(lǐng)域科研人員的深度合作和跨領(lǐng)域知識的整合。從科研合作的角度來看,尋找氫燃料電池領(lǐng)域發(fā)明人的潛在合作伙伴及跨領(lǐng)域合作伙伴顯得尤為重要。
本文實證階段所用專利樣本數(shù)據(jù)來自Incopat全球?qū)@麛?shù)據(jù)庫,選取氫燃料電池作為本文的實證方向。提取發(fā)明人專利的合作信息作為網(wǎng)絡(luò)連邊的特征來源,提取專利的摘要文本信息作為專利摘要文本特征來源,提取專利的IPC分類號作為專利的領(lǐng)域特征來源。檢索條件為:關(guān)鍵詞為“氫燃料電池”AND時間=“截止到2023年5月”AND申請地區(qū)=“中國”AND專利類型=“發(fā)明專利”,合并同族后得到3 024條專利族作為本文的數(shù)據(jù)研究基礎(chǔ)。
3.2.1合作網(wǎng)絡(luò)連邊特征
在獲取專利信息后,提取專利信息中的發(fā)明人信息作為構(gòu)建發(fā)明人合作網(wǎng)絡(luò)的依據(jù),本文在發(fā)明人合作維度特征提取階段對數(shù)據(jù)的處理包括以下幾個方面:
a.將發(fā)明人之間的共現(xiàn)關(guān)系作為發(fā)明人之間的合作信息,即發(fā)明人A和發(fā)明人B共同出現(xiàn)于專利文獻C中,即代表發(fā)明人A和發(fā)明人B之間產(chǎn)生一次合作,則將發(fā)明人A和發(fā)明人B之間構(gòu)建一條連邊,合作的次數(shù)即連邊的權(quán)重。
b.為適應(yīng)圖卷積網(wǎng)絡(luò)的輸入需要,構(gòu)建發(fā)明人合作網(wǎng)絡(luò)的鄰接矩陣,該鄰接矩陣是一個對稱矩陣,矩陣的邊是發(fā)明人,矩陣中的值是發(fā)明人合作的權(quán)重,即發(fā)明人之間合作的次數(shù)。由于本文專利數(shù)據(jù)涉及到的發(fā)明人眾多,為便于展示,部分鄰接矩陣展示如下(見表1):
表1 鄰接矩陣表(部分)
c.由于本文選取數(shù)據(jù)涉及發(fā)明人眾多,鄰接矩陣的展示效果不佳,綜合考慮發(fā)明人合作次數(shù)和可視化效果,本文僅選取合作次數(shù)在5次以上的85位發(fā)明人作為節(jié)點構(gòu)建發(fā)明人合作信息網(wǎng)絡(luò),具體網(wǎng)絡(luò)如圖3所示。
圖3 發(fā)明人合作網(wǎng)絡(luò)
圖3為85個節(jié)點和111條連邊構(gòu)成的發(fā)明人合作網(wǎng)絡(luò),圖中節(jié)點的大小表征了節(jié)點度的大小,即與該節(jié)點相連的邊的數(shù)量,亦可表征該節(jié)點在合作網(wǎng)絡(luò)中的重要性,從圖中可以看出,郝義國、張妍懿、郝冬等發(fā)明人的節(jié)點度較大,說明這幾個發(fā)明人是發(fā)明人合作網(wǎng)絡(luò)的關(guān)鍵節(jié)點,即這幾個發(fā)明人與他人合作次數(shù)較多,合作的可能性較大,是我們在實際合作中需要重點關(guān)注的對象。圖中連邊的粗細代表了發(fā)明人之間的合作次數(shù),郝義國、陳華明、程飛、安元元、余紅霞等人之間的連邊較粗,說明這幾個發(fā)明人在現(xiàn)實中存在較為緊密的合作關(guān)系,但也有部分發(fā)明人,如杜謙和胡玉鳳僅兩人之間產(chǎn)生連邊,未和其他發(fā)明人產(chǎn)生連邊,說明這兩個發(fā)明人在現(xiàn)實中存在緊密的團隊合作關(guān)系,但其與其他發(fā)明人的潛在合作關(guān)系是本文的研究重點。
3.2.2合作網(wǎng)絡(luò)節(jié)點屬性特征
在提取合作網(wǎng)絡(luò)節(jié)點屬性時主要包括三個步驟,即摘要文本特征提取,領(lǐng)域分布特征提取和節(jié)點屬性特征構(gòu)建,具體操作步驟如下所示:
a.摘要文本特征提取。在發(fā)明人摘要文本特征提取階段,我們利用Doc2vec算法從專利摘要文本中提取出高維度的特征信息。首先對專利摘要進行預(yù)處理,在清洗階段,移除摘要中的標點符號、數(shù)字和停用詞,再使用jieba庫將每個摘要分解為單獨的詞語,然后將所有預(yù)處理過的專利摘要作為語料庫,最后使用語料庫來訓練Doc2Vec模型。在訓練過程中,設(shè)置了128維的向量大小來代表每個文檔的高維度特征,同時通過調(diào)整訓練的參數(shù),以優(yōu)化模型的訓練效果。最終使用每個發(fā)明人所有摘要文本向量的平均值表征該發(fā)明人的摘要文本特征。
b.領(lǐng)域分布特征提取。選用專利數(shù)據(jù)中涉及到的IPC大組(共計133個)為細分技術(shù)領(lǐng)域,用涉及到的133個細分技術(shù)領(lǐng)域表征整個氫燃料電池技術(shù)領(lǐng)域,以細分技術(shù)領(lǐng)域為向量空間維度,統(tǒng)計每個發(fā)明人專利的領(lǐng)域分布情況,作為發(fā)明人的領(lǐng)域分布特征。為了消除發(fā)明人專利數(shù)量的影響,對領(lǐng)域分布特征進行標準化。其中,發(fā)明人專利中涉及較多的IPC大組如表2所示。
表2 IPC大組TOP10
c.發(fā)明人數(shù)字特征構(gòu)建階段。將發(fā)明人摘要文本特征和領(lǐng)域分布特征融合成發(fā)明人節(jié)點屬性特征,在圖卷積網(wǎng)絡(luò)訓練前將發(fā)明人節(jié)點屬性特征與合作關(guān)系網(wǎng)絡(luò)一起輸入圖卷積網(wǎng)絡(luò)[25]。構(gòu)建的網(wǎng)絡(luò)基本信息如表3所示。
表3 網(wǎng)絡(luò)基本信息
3.3.1模型性能評估
模型有效性的驗證通常基于預(yù)測的準確性。在鏈路預(yù)測任務(wù)中,常用的評估指標有AUC(Area Under the Curve)和AP(Average Precision)。
(7)
其中,TPR(f)為真正例率,FPR(f)為假正例率。
(8)
其中,P(k)表示在前k個預(yù)測中的精確率,rel(k)表示第k個預(yù)測是否是正樣本,n表示總預(yù)測數(shù),numpos表示正樣本的數(shù)量。
實驗①:使用不同維度特征訓練的圖卷積網(wǎng)絡(luò)的潛在發(fā)明人自動識別性能對比
本文通過對比實驗,采用摘要文本特征和合作關(guān)系特征聯(lián)用的圖卷積網(wǎng)絡(luò)與僅使用合作關(guān)系特征的模型性能對比判別摘要文本特征是否能顯著提高模型性能,同理,采用領(lǐng)域分布特征和合作關(guān)系特征聯(lián)用的圖卷積網(wǎng)絡(luò)與僅使用合作關(guān)系特征的模型性能對比判別領(lǐng)域分布特征是否能顯著提高模型性能,最后采用合作關(guān)系特征、摘要文本特征和領(lǐng)域分布特征聯(lián)用判別三維特征聯(lián)用是否能顯著提高模型準確性,不同維度特征的輸入對圖卷積網(wǎng)絡(luò)潛在發(fā)明人自動識別性能的影響如表4所示。
表4 輸入不同維度特征的圖卷積網(wǎng)絡(luò)性能
從表4可知,僅使用合作信息特征的模型AUC值和AP值分別為0.62和0.61,模型在識別發(fā)明人潛在合作伙伴時的效果并不好;在添加摘要文本特征后,模型的AUC值和AP值分別為0.75和0.69,在添加領(lǐng)域分布特征后,模型的AUC值和AP值分別為0.73和0.72,說明這兩個維度特征加入對模型準確性有顯著的提高;在使用合作信息維度特征、摘要文本特征和領(lǐng)域分布特征之后,模型的AUC值和AP值分別達到0.81和0.80,說明三個維度特征的聯(lián)用相比單個維度特征或者兩個維度特征的使用對模型的性能有顯著的提高。
實驗②:現(xiàn)有研究模型與本文所提模型的潛在發(fā)明人自動識別性能對比
本文在實驗過程中也應(yīng)用支持向量機、隨機森林、神經(jīng)網(wǎng)絡(luò)三種算法完成發(fā)明人潛在合作伙伴自動識別,將發(fā)明人潛在合作伙伴自動識別問題轉(zhuǎn)化為發(fā)明人之間是否會產(chǎn)生合作的二分類問題。鑒于合作信息維度數(shù)據(jù)輸入會對模型準確性造成影響,可能會導(dǎo)致模型的準確性被高估,因此本文在實驗時使用上文所構(gòu)建發(fā)明人節(jié)點屬性特征結(jié)合這三種算法完成發(fā)明人潛在合作伙伴自動識別任務(wù)。上述模型的性能對比結(jié)果如表5所示。
表5 各模型性能對比
從表5可知,支持向量機算法的AUC值和AP值分別為0.75和0.72,隨機森林算法的AUC值和AP值分別為0.71和0.69,神經(jīng)網(wǎng)絡(luò)算法的AUC值和AP值分別為0.76和0.73,本文方法的AUC值和AP值分別為0.81和0.80??傮w來看,本文所構(gòu)建的多維特征視角下的圖卷積網(wǎng)絡(luò)模型的分類預(yù)測效果優(yōu)于傳統(tǒng)機器學習算法,證明了本文所構(gòu)建方法對模型準確性提高有顯著作用。
3.3.2發(fā)明人潛在合作伙伴自動識別
將發(fā)明人合作信息作為圖結(jié)構(gòu),發(fā)明人摘要文本特征和領(lǐng)域分布特征作為發(fā)明人節(jié)點屬性輸入圖卷積網(wǎng)絡(luò),使用圖自編碼器(Graph Auto Encoder,GAE)進行鏈路預(yù)測。
本文在上文構(gòu)建的85位發(fā)明人現(xiàn)實合作網(wǎng)絡(luò)的基礎(chǔ)上增加潛在合作網(wǎng)絡(luò)連邊,具體潛在合作網(wǎng)絡(luò)關(guān)系圖如圖4所示。
圖4 發(fā)明人潛在合作網(wǎng)絡(luò)圖
圖4仍為85個發(fā)明人構(gòu)成的節(jié)點網(wǎng)絡(luò)圖,其中包含111條灰色連邊和56條黑色連邊,其中灰色連邊為發(fā)明人之間已經(jīng)產(chǎn)生的合作關(guān)系,黑色連邊表示發(fā)明人之間的潛在合作關(guān)系,鑒于本文選取鏈路預(yù)測值大于0.5的發(fā)明人節(jié)點對構(gòu)建連邊,故潛在合作關(guān)系的連邊粗細是相同的。圖中可以看出大部分發(fā)明人的合作關(guān)系較為固定,僅在一個小范圍內(nèi)展開合作,如發(fā)明人李彬斌在現(xiàn)實中僅與發(fā)明人張劍和李飛產(chǎn)生合作,但其潛在合作伙伴便有四位,分別為張威、郭帥帥、鄭振和王震坡,其可與這四位發(fā)明人之間展開交流,積極尋找合作機會。圖中可以看出,這85個發(fā)明人在以往合作中形成了數(shù)個合作較為緊密的合作小組,如郝義國、陳華明、程飛、安元元、余紅霞等成員的合作小組和孫偉明、董佳怡、王智慧、王志民、王桂寧、李宗韜等為核心成員的合作小組之間產(chǎn)生了較多的潛在合作關(guān)系連邊,表明這兩個組織之間可積極尋找合作機會,共同研發(fā)創(chuàng)新。從圖中可以看出,85位發(fā)明人在現(xiàn)實中產(chǎn)生合作連邊的數(shù)量較少,通過本文構(gòu)建的發(fā)明人潛在合作伙伴自動識別方法可以有效增加發(fā)明人之間的合作互動頻率,增強合作科研攻關(guān)的能力。
本文將預(yù)測鏈接值排名前20的節(jié)點對展示如表6所示。表6中所有的發(fā)明人之間還沒有產(chǎn)生實際合作關(guān)系,鏈路預(yù)測值是各個主體在未來合作產(chǎn)生鏈接的可能性。
表6 鏈路預(yù)測分數(shù)排名TOP20
從表6可知,預(yù)測結(jié)果中排名第一位的是李慶榮和黎科,李慶榮工作單位為蘇州欣富輝精密機械科技有限公司,其主要專利是一種氫燃料電池熱管理系統(tǒng)、一種氫燃料電池供氫系統(tǒng)、一種氫燃料電池排水系統(tǒng)等,黎科來自湖南凌翔磁浮科技有限責任公司,其主要專利是采用氫燃料電池的高速懸浮控制電路、基于氫燃料電池的懸浮控制供電電路、基于氫燃料電池的懸浮控制方法和系統(tǒng)等,這兩人在現(xiàn)實中并未產(chǎn)生合作,從多維特征視角下考慮這兩人的潛在合作機會較大,雖然研究領(lǐng)域沒有完全重疊,但這兩人可以從不同視角在氫燃料電池領(lǐng)域產(chǎn)生跨領(lǐng)域、突破性的技術(shù)創(chuàng)新。
3.3.3跨領(lǐng)域合作伙伴鑒別
在上文識別出發(fā)明人潛在合作伙伴的基礎(chǔ)上,本文進一步識別目標發(fā)明人與潛在合作伙伴之間的合作創(chuàng)新是否屬于跨領(lǐng)域合作。本文以上文中產(chǎn)生合作鏈接關(guān)系較多的郝義國為例,對其前5位潛在合作伙伴進行判別,具體計算結(jié)果如表7所示。
表7 郝義國潛在合作伙伴判別
根據(jù)圖卷積網(wǎng)絡(luò)計算結(jié)果,郝冬、董佳怡、王智慧、吳健、楊星是目標發(fā)明人郝義國的潛在合作對象的前5位,其鏈路預(yù)測值均遠超0.5,表明這5人與郝義國的潛在合作機會較大。根據(jù)本文提出的同領(lǐng)域指數(shù)S和跨領(lǐng)域指數(shù)I計算得出,郝冬、董佳怡與郝義國的專利技術(shù)領(lǐng)域較為相似,其在合作時偏向于同領(lǐng)域加強型合作。王智慧、吳健、楊星與郝義國的同領(lǐng)域指數(shù)較低,表明其專利技術(shù)領(lǐng)域相似程度較低,結(jié)合跨領(lǐng)域指數(shù)I可以看出,王智慧和吳健的專利技術(shù)領(lǐng)域相較于郝義國差別較大,其在現(xiàn)實中展開合作偏向于跨領(lǐng)域合作,而楊星相較于郝義國雖然技術(shù)領(lǐng)域相似度較低,但其跨領(lǐng)域指數(shù)也較低,主要原因是楊星的專利數(shù)量較少,相較于郝義國的專利技術(shù)領(lǐng)域補充能力較弱。綜上所述,若郝義國偏向于加強現(xiàn)有研發(fā)技術(shù),則其可以尋求與郝冬、董佳怡在同領(lǐng)域展開增強型合作創(chuàng)新;若郝義國偏向于創(chuàng)新性、顛覆性技術(shù)創(chuàng)新,則可以積極謀求與王智慧、楊健進行合作,其在合作中展開跨領(lǐng)域合作,有助于獲得更廣泛的知識和更深入的專業(yè)理解,從而在問題解決中取得更大的突破。
隨著科技創(chuàng)新的爆炸式發(fā)展,單個發(fā)明人往往難以涵蓋創(chuàng)新所必備的知識和技能,發(fā)明人之間展開合作創(chuàng)新不僅可以提高創(chuàng)新的效率和質(zhì)量,還可以促進知識的傳播和技術(shù)的轉(zhuǎn)移,有助于推動科技的進步和社會的發(fā)展。對此,本文融合發(fā)明人多維特征,使用圖卷積網(wǎng)絡(luò)模型,將發(fā)明人潛在合作伙伴尋找任務(wù)轉(zhuǎn)化為適合圖卷積網(wǎng)絡(luò)工作的鏈路預(yù)測任務(wù)。在此基礎(chǔ)上,構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準確識別出發(fā)明人跨領(lǐng)域合作伙伴。主要研究結(jié)論如下:
a.多維度提取發(fā)明人特征,拓寬伙伴選擇維度?,F(xiàn)有研究在提取專利特征進行伙伴識別時考慮維度較少,大多研究僅考慮單方面的特征如引用關(guān)系、合作關(guān)系、文本特征相似度等。本文所提出的發(fā)明人跨領(lǐng)域合作伙伴識別方法從合作關(guān)系特征、摘要文本特征和領(lǐng)域分布特征三個維度提取發(fā)明人信息,從多維度視角利用發(fā)明人特征,且通過對比實驗,證明了合作關(guān)系特征、摘要文本特征、領(lǐng)域分布特征三維特征在進行伙伴識別時能夠有效提升模型準確性。本文所使用的伙伴識別三維特征豐富了伙伴選擇模型特征表示,對現(xiàn)有研究做出補充。
b.綜合利用網(wǎng)絡(luò)關(guān)系和節(jié)點特征,提高伙伴識別準確率?,F(xiàn)有研究大多基于網(wǎng)絡(luò)分析、機器學習等方法完成潛在合作伙伴識別任務(wù),但這幾類方法往往有其局限性,如復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測算法主要基于節(jié)點相似性的鏈路預(yù)測指標,且推薦成功率依賴網(wǎng)絡(luò)本身的拓撲結(jié)構(gòu),方法適用性較差,機器學習中的集成算法往往計算復(fù)雜性較高,忽略了圖結(jié)構(gòu)特征的利用。本文所提出的發(fā)明人跨領(lǐng)域合作伙伴識別方法從合作關(guān)系特征、摘要文本特征、領(lǐng)域分布特征三個維度提取發(fā)明人信息,圖卷積網(wǎng)絡(luò)在工作時能夠捕捉到復(fù)雜的網(wǎng)絡(luò)關(guān)系和節(jié)點特征,對圖結(jié)構(gòu)數(shù)據(jù)進行端到端學習,能夠更好地理解發(fā)明人合作網(wǎng)絡(luò)中的合作模式和信息傳遞,相較于現(xiàn)有研究,有效提高了潛在合作伙伴識別準確率。
c.尋找跨領(lǐng)域合作伙伴,助推科研合作攻關(guān)。在現(xiàn)今日益復(fù)雜和多元化的科研環(huán)境下,單一領(lǐng)域的知識往往無法滿足解決復(fù)雜問題的需求,針對現(xiàn)實背景的迫切需求,本文針對領(lǐng)域信息進行深度挖掘,借助專利的IPC大組指代發(fā)明人技術(shù)細分領(lǐng)域,構(gòu)建同領(lǐng)域指數(shù)和跨領(lǐng)域指數(shù)準確識別發(fā)明人跨領(lǐng)域合作伙伴,通過跨領(lǐng)域合作伙伴的精準識別有助于推動跨領(lǐng)域的科研合作,促進科學研究的創(chuàng)新發(fā)展,有助于促進不同領(lǐng)域之間的交叉合作和知識轉(zhuǎn)移,創(chuàng)造出更具創(chuàng)新性和前瞻性的成果。
d.動態(tài)識別潛在合作伙伴,有效提升伙伴尋找效率。傳統(tǒng)的合作伙伴選擇往往依賴于專家經(jīng)驗和人工篩選,需要耗費大量時間和精力,且針對數(shù)據(jù)變化的動態(tài)感知能力較弱。隨著時間推移,發(fā)明人的合作關(guān)系特征、摘要文本特征和領(lǐng)域分布特征發(fā)生變化,本文構(gòu)建方法能夠敏銳識別發(fā)明人特征變化,根據(jù)實時數(shù)據(jù)快速且準確地評估發(fā)明人之間的合作潛力,這有助于加快合作伙伴選擇的過程,提高選擇的效率和準確性?,F(xiàn)實合作過程中,發(fā)明人可以以月為單位或者以年為單位等進行專利檢索,利用本文提出的方法得到現(xiàn)階段最適合與其合作的潛在合作伙伴及跨領(lǐng)域合作伙伴推薦結(jié)果,利用本文方法動態(tài)地進行簡單、快捷、實時的推薦。
本文的不足之處在于,僅僅考慮發(fā)明人的專利信息,而忽略了發(fā)明人的多源創(chuàng)新成果(如論文信息等),下一步可以考慮構(gòu)建融合多源創(chuàng)新成果信息的潛在合作伙伴預(yù)測方法,從而更精確地預(yù)測發(fā)明人之間的潛在合作關(guān)系。