周志剛 竇路遙 李 毅
(山西財經(jīng)大學(xué)信息學(xué)院 太原 030006)
創(chuàng)新驅(qū)動背景下,企業(yè)間技術(shù)合作將成為突破“技術(shù)枷鎖”束縛的關(guān)鍵內(nèi)驅(qū)力和解決“卡脖子”難題的重要落腳點,精準識別企業(yè)間潛在的技術(shù)合作關(guān)系能夠加快聚合創(chuàng)新要素、逐步組建技術(shù)團體以及建立健全協(xié)作體系,對于優(yōu)化國家創(chuàng)新合作環(huán)境和激發(fā)創(chuàng)新主體研發(fā)活力發(fā)揮著至關(guān)重要的作用。然而,在企業(yè)潛在合作關(guān)系預(yù)測的過程中,仍面臨關(guān)系判別誤差較大和關(guān)系識別依據(jù)單一的阻礙,導(dǎo)致預(yù)測結(jié)果在面向合作實踐領(lǐng)域時表現(xiàn)出較強的不確定性?;谏鲜霰尘?如何融合多維合作關(guān)系影響指標,并借助邏輯走向為主的技術(shù)方法,繼而實現(xiàn)企業(yè)潛在合作關(guān)系的有效預(yù)測已成為當前亟待解決的重要問題。
在文本挖掘?qū)用?專利文獻中包含的技術(shù)文本內(nèi)容與IPC分類號可以作為企業(yè)合作關(guān)系的客觀判斷標準;在合作網(wǎng)絡(luò)層面,企業(yè)間潛在的鏈接可能性關(guān)系能夠為潛在合作關(guān)系預(yù)測提供概率分布。因此,從文本挖掘和合作網(wǎng)絡(luò)的混合視角出發(fā),有助于在全局層面把握企業(yè)潛在合作關(guān)系的外部實踐判別依據(jù)和內(nèi)部隨機游走邏輯,實現(xiàn)預(yù)測結(jié)果準確化、系統(tǒng)化以及規(guī)則化的表達。精準而有效的企業(yè)潛在合作關(guān)系預(yù)測模式能夠為企業(yè)技術(shù)合作提供方法支持和決策支撐,對于落實創(chuàng)新發(fā)展戰(zhàn)略、塑造技術(shù)產(chǎn)業(yè)結(jié)構(gòu)、擴大關(guān)鍵技術(shù)優(yōu)勢具有重要的現(xiàn)實意義。
情報領(lǐng)域所指的潛在合作關(guān)系,一般指研究主體有可能產(chǎn)生合作但未產(chǎn)生實際合作的隱藏關(guān)系。細化到企業(yè)專利概念范疇,企業(yè)潛在合作關(guān)系預(yù)測的相關(guān)研究則集中于專利合作模式分析、專利內(nèi)容相似判別、創(chuàng)新網(wǎng)絡(luò)演化推演等方面。專利合作模式分析方面,周莉等[1]等基于企業(yè)間的專利合作歷史和次數(shù)統(tǒng)計預(yù)測企業(yè)未來可能的合作伙伴;呂源等[2]通過收集企業(yè)、高校、科研機構(gòu)的專利信息實現(xiàn)產(chǎn)學(xué)研關(guān)系的識別,并對企業(yè)未來的合作領(lǐng)域進行了預(yù)測;袁曉東等[3]借助合作專利中既存的引用關(guān)系對企業(yè)間的技術(shù)合作和市場話語權(quán)關(guān)系進行了推演。專利內(nèi)容相似判別多從詞頻分布、語義信息、上下文關(guān)聯(lián)等視角進行探討。周志剛等[4]從技術(shù)生命周期理論入手,結(jié)合專利文本詞頻的概率表達情況判斷企業(yè)競合關(guān)系;胡凱等[5]借助LDA模型識別專利文本中的技術(shù)主題,以此發(fā)現(xiàn)企業(yè)關(guān)鍵應(yīng)用技術(shù)的落腳點;趙展一等[6]融合專利類別與語義信息識別企業(yè)間的匹配關(guān)系;夏冰等[7]聯(lián)合詞位置和語義信息識別企業(yè)間合作關(guān)系的判斷邏輯。張金柱等[8]構(gòu)建基于表示學(xué)習(xí)的無監(jiān)督跨語言專利推薦方法,提升了企業(yè)間合作關(guān)系預(yù)測精度;吳紅等[9]測度專利標引詞在企業(yè)文本的映射程度,明晰了專利與企業(yè)關(guān)聯(lián)規(guī)則的量化規(guī)律。創(chuàng)新網(wǎng)絡(luò)演化推演多關(guān)注于網(wǎng)絡(luò)結(jié)構(gòu)和領(lǐng)域合作,岑杰[10]以373家戰(zhàn)略性新興企業(yè)為研究樣本,通過專利合作網(wǎng)絡(luò)相對中心度分析企業(yè)合作特征。衣春波等[11]以集成電路領(lǐng)域?qū)@麛?shù)據(jù)構(gòu)建企業(yè)、產(chǎn)學(xué)研、關(guān)系特征演化網(wǎng)絡(luò),從整體、網(wǎng)絡(luò)特征等層面分析該領(lǐng)域網(wǎng)絡(luò)演化規(guī)律。傅俊英等[12]通過計算得來的專利權(quán)人間的技術(shù)相似性,構(gòu)建石墨烯專利異構(gòu)網(wǎng)絡(luò)對合作伙伴進行評估與檢驗。
企業(yè)潛在合作關(guān)系的預(yù)測方法聚焦于專利網(wǎng)絡(luò)分析、專利文本挖掘與關(guān)聯(lián)規(guī)則分析、鏈路預(yù)測等。Wang等[13]結(jié)合專利文獻計量和社會網(wǎng)絡(luò)分析,洞察半導(dǎo)體公司合作網(wǎng)絡(luò)結(jié)構(gòu)和知識溢出渠道。Scherngell等[14]統(tǒng)計專利權(quán)人合作頻次與概率分布,以專利網(wǎng)絡(luò)預(yù)測不同專利權(quán)人間再次合作的可能性大小。同時,也有學(xué)者融合專利網(wǎng)絡(luò)演化[15]、專利地域[16],訴訟關(guān)系[17]等,預(yù)測企業(yè)間潛在存在的網(wǎng)絡(luò)關(guān)系。在專利文本挖掘上,李欣等[18]融合分詞思想與向量化表達來刻畫企業(yè)間潛在合作關(guān)系;呂源等[2]利用k-means聚類和特定語義分析識別技術(shù)主題,并根據(jù)主題相似度評估企業(yè)的潛在合作關(guān)系;趙展一等[6]利用向量化后的專利相似度度量中小企業(yè)的潛在合作伙伴;唐煥玲等[19]發(fā)現(xiàn)專利提取精度層面的技術(shù)進步促進了企業(yè)潛在合作關(guān)系的發(fā)展;曹晨等[20]基于LDA模型并結(jié)合文檔詞袋特征表達,探討創(chuàng)新型企業(yè)的合作發(fā)展預(yù)期。李冰等[21]以二部圖理論,構(gòu)建異質(zhì)網(wǎng)絡(luò),利用隨機游走鏈路預(yù)測算法對企業(yè)潛在關(guān)系進行預(yù)測判斷和實證分析。
綜上所述,現(xiàn)有研究雖然在企業(yè)潛在合作關(guān)系預(yù)測領(lǐng)域提供了豐富的理論基礎(chǔ),但是仍存在有待完善之處。其一,當前研究多圍繞專利文本內(nèi)容相似性進行討論,鮮有研究從“專利文本+專利類別+網(wǎng)絡(luò)路徑”的多元視角上探討企業(yè)潛在合作的實踐匹配關(guān)系;其二,現(xiàn)有研究多聚焦以既存合作關(guān)系為基礎(chǔ)的預(yù)判和以科學(xué)計量理念為依據(jù)的推演,忽視了合作網(wǎng)絡(luò)中鏈接權(quán)重與專利文獻中內(nèi)容類別的間接相關(guān)性;其三,分析內(nèi)容多落腳在方法精度與設(shè)計思路上的邏輯閉環(huán),缺乏實踐領(lǐng)域上客觀具體的案例分析和實證檢驗。
基于此,本文做出如下創(chuàng)新:①研究思路上,將基于專利合作網(wǎng)絡(luò)的鏈路預(yù)測思想與基于“企業(yè)-專利”關(guān)系的協(xié)同過濾思想進行融合,結(jié)合IPC號自帶的序列相似特點,形成“連接強度+匹配程度+相似度”的多維復(fù)合體系。②研究方法上,借助SVD奇異值分解實現(xiàn)協(xié)同過濾與鏈路預(yù)測方法的聚合,通過矩陣分解的方式完成多維度性質(zhì)的組合,全面覆蓋企業(yè)潛在合作關(guān)系預(yù)測的關(guān)鍵性權(quán)重節(jié)點。同時,構(gòu)建矩陣格值密度作為測試算法精準度的檢驗方法。③研究內(nèi)容上,選取非晶合金領(lǐng)域作為實證分析案例,與現(xiàn)階段我國創(chuàng)新驅(qū)動的戰(zhàn)略需求相匹配,有助于相關(guān)創(chuàng)新主體的協(xié)同合作和領(lǐng)域技術(shù)進步。
2.1.1 協(xié)同過濾推薦算法
基于“用戶-物品”的協(xié)同過濾推薦算法映射到“企業(yè)-專利”上時,其算法原理解釋為:①基于企業(yè)的協(xié)同過濾:企業(yè)間對類似專利會產(chǎn)生關(guān)注偏好[22];②基于專利的協(xié)同過濾:相近企業(yè)關(guān)注部分專利發(fā)展,則目標企業(yè)同樣關(guān)注這部分專利發(fā)展或者關(guān)注類似專利發(fā)展[23]。其中協(xié)同過濾算法的理解如圖1所示:
注:粗虛線為協(xié)同過濾基礎(chǔ)條件,細虛線為算法邏輯推演。圖1 協(xié)同過濾算法圖解
然而,隨著企業(yè)與專利文本的數(shù)量日趨上漲,企業(yè)關(guān)注的專利數(shù)量在整體專利數(shù)量的占比逐漸下降,導(dǎo)致企業(yè)與專利間關(guān)系矩陣的數(shù)據(jù)極端稀疏,使得推薦算法的推薦質(zhì)量降低。在實際操作中,通常采用SVD奇異值分解來解決稀疏矩陣的問題[22]。對初始特征矩陣進行奇異值分解:
Mm×n=Um×m*(Zm×n)*(Vn×n)T
(1)
U是m×m的酉矩陣,∑是m×n的對角矩陣,V是n×n的酉矩陣。Z對角線上是M的奇異值,將奇異值從大到小進行排列,前r個奇異值滿足式(1)時,Z就可以只保留前r列、前r行,即m×n維變成r×r維,而U選取前r列,選取前r行,因此M就可以分解為:
Mm×n≈Um×r*(Zr×r)*(VT)r×n
(2)
而“企業(yè)-專利”矩陣分解流程為:①構(gòu)建企業(yè)與專利關(guān)聯(lián)關(guān)系矩陣,按照專利關(guān)注度進行權(quán)重分配繼而完成矩陣格值填充,結(jié)合權(quán)重指標對矩陣格值進行歸一化處理并形成觀測舉證。②依據(jù)矩陣分解流程將觀測矩陣進行因子分解,利用低維矩陣相乘無限逼近觀測矩陣,繼而形成預(yù)測矩陣。矩陣分解示例詳見圖2。
圖2 協(xié)同過濾矩陣分解圖例
2.1.2 鏈路預(yù)測
鏈路預(yù)測是一種用于預(yù)測網(wǎng)絡(luò)中節(jié)點之間鏈路存在或不存在的方法[24]。在基于專利的企業(yè)合作關(guān)系研究中,通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)企業(yè)節(jié)點特征的聚合與更新,再使用鏈接預(yù)測層來計算企業(yè)節(jié)點間的合作概率,最后使用Sigmoid函數(shù)來輸出企業(yè)間潛在合作的概率值。公式表達如下:
(3)
(4)
利用Bidirectional Encoder Representation from Transformers(BERT)[25]進行文本向量化處理與表達,得到專利標題與專利摘要的文本向量,預(yù)訓(xùn)練模型采用Google發(fā)布的中文BERT-Base,模型的超參數(shù)設(shè)置如表1所示。
表1 超參數(shù)設(shè)置
結(jié)合Pearson相關(guān)系數(shù)計算專利文本向量相似度,用來表示專利文本內(nèi)容的相似程度。其公式表示如下:
(5)
專利間因共有IPC號而存在技術(shù)類別相似性。整體的IPC分類號有5級,分別為部(Section)、大類(Class)、小類(Subclass)、大組(Maingroup)、小組(Subgroup)。其中部用8種字母表示(A/B/C/D/E/F/G/H),大類用2個數(shù)字表示,小類用1個字母表示(除去A/Z/I/O/U/X),主組為1~3個數(shù)字,分組為除“00”外的2~4個數(shù)字。將IPC分類號的5級表示形式替換為“字母-數(shù)字”的序列形式(A→1,B→2…Z→26),例如將IPC分類號為B22D17/14(一種非晶合金的壓鑄成型方法)替換為2 22 04 017 0014,IPC分類號為C22C1/03(一種非晶合金構(gòu)件及其制備方法)替換為3 22 03 001 0003。
隨后利用Smith-Waterman(SW)雙序列比對算法[26]進行相似度計算,其算法目的在于尋找序列間的高相似部分,實現(xiàn)局部序列匹配,繼而通過專利局部匹配序列與專利全局序列長度的比值進行相似度判斷。
2.4.1 SimRank指標
SimRank指標是指在全局合作網(wǎng)絡(luò)隨機游走的條件下,如果兩個企業(yè)節(jié)點的鄰居節(jié)點集在特征屬性上相似,那么認為這兩個企業(yè)節(jié)點也相似[27]。具體的自洽定義式表達為:
(6)
2.4.2 RA指標
Resource Allocation(RA)指標是指合作網(wǎng)絡(luò)中的企業(yè)節(jié)點擁有一定的自有資源,而沒有直接關(guān)聯(lián)的企業(yè)節(jié)點可以通過中介節(jié)點(即共同鄰居)實現(xiàn)資源傳遞與流通。同時,該指標還假設(shè)所有企業(yè)節(jié)點會均分自身的節(jié)點資源給鄰居節(jié)點,這與企業(yè)通過共享專利進行合作的模式相當接近(即共享專利使用權(quán)實現(xiàn)信息資源流通)[27-28],而此時鄰居節(jié)點所分配到的資源份額則被定義為這兩個企業(yè)節(jié)點的相似度[28]。其公式表達如下:
(7)
(8)
其中Sxy表示節(jié)點x和節(jié)點y之間的相似度大小,即目標節(jié)點y接收到的來自節(jié)點x的資源數(shù),Sz表示節(jié)點Z接收到的來自其所有鄰居節(jié)點的資源總數(shù)。Γ(x)∩Γ(y)表示節(jié)點x和節(jié)點y的共同鄰居節(jié)點集合,WZZ'表示節(jié)點Z和其鄰居節(jié)點Z'之間的權(quán)重或資源數(shù)。
融合內(nèi)容相似性、類別相似性、路徑相似性,構(gòu)建潛在合作關(guān)系的綜合指標矩陣,即:
P=(1-α-β)·M+α·N+β·Q
(9)
其中P為融合指標構(gòu)成的相似度矩陣,M,N,Q分別為內(nèi)容相似性矩陣、類別相似性矩陣,路徑相似性矩陣;1-α-β,α,β分別為矩陣M,N,Q的權(quán)重值,α,β∈[0,1]。當α=0,β=0時,融合矩陣實質(zhì)為內(nèi)容相似性矩陣;當α=1,β=0時,融合矩陣實質(zhì)為類別相似性矩陣;當α=0,β=1時,融合矩陣實質(zhì)為路徑相似性矩陣。需要說明的是,為保證后續(xù)推薦算法的量綱一致性,對矩陣P格值進行標準化處理,處理方式如下:
(10)
其中P(Δ)為矩陣P的格值大小,P*為標準化后的矩陣P格值。
本文綜合專利文本、合作網(wǎng)絡(luò)、IPC號的多方維度,將協(xié)同過濾推薦算法與鏈路預(yù)測進行融合,構(gòu)建“鏈路推薦”算法框架并進行實證檢驗與效果評價,流程圖如圖3所示。
圖3 基于“鏈路推薦”企業(yè)潛在合作關(guān)系研究框架
其核心算法的偽代碼如下:
算法1:“鏈路推薦”算法
輸入:專利數(shù)據(jù)S;企業(yè)合作網(wǎng)絡(luò)矩陣W;IPC分類號分數(shù)矩陣N
輸出:合作企業(yè)推薦表List(E-TOP2)
1:遍歷S中企業(yè)專利數(shù)據(jù)字典,計算文本內(nèi)容相似度矩陣M;
2:通過W構(gòu)建企業(yè)合作網(wǎng)絡(luò)關(guān)系,計算鏈路強度SimRank矩陣;
3:計算RA指標大小,輸入矩陣G進行序列回溯,匹配序列相關(guān)度,制成矩陣Q;
4:輸入矩陣N,M,Q,使用決策樹+支持向量機獲取訓(xùn)練模型1-α-β,α,β;
5:構(gòu)建融合矩陣P=(1-α-β)·M+α·N+β·Q;
6:輸入W和P,構(gòu)建企業(yè)與融合指標映射關(guān)系,形成新的相似度矩陣WP;
7:對于相似度矩陣WP中每個元素小于閾值π的位置,將其設(shè)置為0;
8:選擇相似度值排名前2位的企業(yè)進行推薦結(jié)果展示,匯總成推薦表List(E-TOP2) 。
非晶合金,也稱非晶態(tài)金屬,是一類具有非晶態(tài)(無定形結(jié)構(gòu))特征的金屬材料。與晶體金屬相比,非晶合金在結(jié)構(gòu)上缺乏長程有序性,其原子排列呈現(xiàn)出無規(guī)則、非周期性的特點。非晶合金的應(yīng)用領(lǐng)域相當廣泛,包括電子、航空航天、汽車、能源等領(lǐng)域。被用于制造高性能傳感器、電池、導(dǎo)線、磁性材料、結(jié)構(gòu)件等[29-30]。專利數(shù)據(jù)來源于Incopat專利數(shù)據(jù)庫,截至2022年12月該專利數(shù)據(jù)庫儲存專利文獻170 763 808件,涉及158個國家地區(qū)。從incopat專利數(shù)據(jù)庫中限定時間為2014-2022年,領(lǐng)域為非晶合金,進行數(shù)據(jù)檢索,獲得專利共9 854項,除去重復(fù)專利和個人專利,部分材料輔助專利,篩選企業(yè)間合作專利,獲得有效專利共6 564項。鑒于推薦算法是對未來潛在合作關(guān)系進行預(yù)測,因此對獲得的數(shù)據(jù)集進行劃分,將2014-2020年作為推薦算法的輸入數(shù)據(jù)集(訓(xùn)練集),將2021-2022年作為推薦結(jié)果的對比數(shù)據(jù)集(測試集)。
基于篩選出合作專利構(gòu)建企業(yè)共現(xiàn)矩陣,隨后利用Gephi0.9繪制合作網(wǎng)絡(luò)圖,該網(wǎng)絡(luò)為無向圖,節(jié)點代表專利合作企業(yè)(見圖4),涉及企業(yè)844個,關(guān)系連線條數(shù)為1 056。選取Fruchterman Reingold布局描述非晶合金領(lǐng)域?qū)@献骶W(wǎng)絡(luò)整體架構(gòu),依據(jù)度值大小對企業(yè)節(jié)點大小進行排序,其中度值越大則節(jié)點越大。企業(yè)間合作次數(shù)通過連線密集程度表示,其中密集度越大則合作越緊密。計算整體網(wǎng)絡(luò)密度值為0.002,趨近為0,說明網(wǎng)絡(luò)上的企業(yè)節(jié)點關(guān)系并不密切,絕大部分企業(yè)處于自發(fā)獨立狀態(tài),網(wǎng)絡(luò)中的專利共享資源未得到充分利用,這也從側(cè)面說明進行潛在合作關(guān)系挖掘是有必要的。
圖4 基于專利的企業(yè)合作網(wǎng)絡(luò)
3.3.1 文本相似度
基于合作專利文本信息,利用Pearson系數(shù)計算專利文本內(nèi)容間的相似度,結(jié)果越大說明專利間的相似度越大,即專利研究方向具備越強的關(guān)聯(lián)性,存在的合作機會就會越大。將企業(yè)自身的專利文本相似程度設(shè)置為1,構(gòu)建相似度矩陣,具體情況如表2所示。
表2 文本相似度結(jié)果(示例)
3.3.2 匹配程度
對IPC號進行分類別序列分析,結(jié)合SM算法計算IPC號類別間的相似度大小,來判斷專利間匹配程度的大小。依據(jù)回溯規(guī)則(https://github.com/yohstone)以及概率分布,對專利類別情況進行量化表示,限制值域范圍在[0,1]之間,數(shù)值大小越接近于1,則說明專利類別相似度越高。匹配程度情況見表3。
表3 匹配程度結(jié)果(示例)
3.3.3 連接強度
基于合作網(wǎng)絡(luò),融合SimRank指標與RA指標(SimRank+RA)對企業(yè)間合作的路徑關(guān)系進行評價[28],計算結(jié)果越大說明企業(yè)所處的網(wǎng)絡(luò)節(jié)點相似度越高,所分配到的資源數(shù)量越多,即合作的可能性越大。連接強度情況見表4。
表4 連接強度結(jié)果(示例)
對文本相似度、匹配程度、連接強度結(jié)果的線性相關(guān)性進行分析,來選擇合適的參數(shù)尋優(yōu)方式確定各指標的最佳權(quán)重值。由分析結(jié)果可知,三個計算結(jié)果間的線性表現(xiàn)并不一致,顯著性關(guān)系較為模糊。文本相似度與匹配程度結(jié)果間存在顯著的線性關(guān)系,連接強度與文本相似度、匹配程度間并不存在直接的線性關(guān)聯(lián)。相關(guān)性分析情況見表5。
表5 指標相關(guān)性分析
融合專利文本、鏈路預(yù)測、IPC號相似性指標結(jié)果,結(jié)合式(9)利用權(quán)重預(yù)測算法確定α,β的值大小,其中指標權(quán)重值利用貝葉斯參數(shù)尋優(yōu)[31]進行確定,來解決指標結(jié)果間非線性關(guān)聯(lián)的問題,并借助AUC指標[32]表示預(yù)測準確率,算法的偽碼如下:
算法2:權(quán)重預(yù)測算法
輸入:關(guān)系元組(指標M,指標N,指標Q,組參數(shù)O)
輸出:最佳參數(shù)組合(α,β,1-α-β),最佳AUC值
1:計算綜合指標:score=(1-α-β)·M+α·N+β·Q,計算AUC指標;
2:定義約束條件,將綜合指標閾值設(shè)置為0.2,否則返回null表示違反約束條件;
3:定義搜索空間范圍:α,β,1-α-β∈[0,1],M,N,Q的指標值范圍為[0,1];
4:設(shè)置優(yōu)化迭代次數(shù),epochs=10;
5:根據(jù)高斯過程模型和期望改進策略使用貝葉斯優(yōu)化進行參數(shù)搜索;
6:檢查是否找到更好的解決方案;
7:輸出最佳參數(shù)組合(α,β,1-α-β)和最佳AUC值。
計算出α=0,0.1,0.2,…,1.0時的AUC值,結(jié)合貝葉斯優(yōu)化方法計算相應(yīng)的β值和1-α-β值,最終得到66種權(quán)重組合(權(quán)重值間隔為0.1的全部組合數(shù)目),其中組參數(shù)O為(0.1,0.1,0.8)時AUC值最大為0.950,指標的預(yù)測效果最佳。為此,依據(jù)上述數(shù)據(jù)結(jié)果將權(quán)重設(shè)置為(0.1,0.1,0.8),構(gòu)建以文本相似度為主,連接強度和匹配程度為輔的綜合評價指標,并通過計算得到新的相似度矩陣作為協(xié)同過濾推薦算法的預(yù)測基礎(chǔ)。權(quán)重預(yù)測結(jié)果見圖5。
圖5 綜合指標AUC值變化圖
選擇預(yù)測效果最優(yōu)的權(quán)重組合模式進行合作企業(yè)推薦,并從中選取最具合作可能的前兩名企業(yè)作為推薦結(jié)果進行表示。以東莞臺一盈拓科技股份有限公司(臺一盈拓)為例,截至2022年12月,臺一盈拓擁有員工400余人,生產(chǎn)基地面積超100畝,總資產(chǎn)超14億元,擁有非晶合金領(lǐng)域的專利56件,僅次于比亞迪;同時擁有100余項自主知識產(chǎn)權(quán)(截至2022年12月),并以年均6項以上持續(xù)增長,在非晶合金領(lǐng)域?qū)儆邶堫^企業(yè)。由推薦結(jié)果可知,首推的合作企業(yè)是比亞迪公司,對二者的技術(shù)專利進行分析,發(fā)現(xiàn)在非晶合金的熱壓成型設(shè)備制造,非晶合金用的壓鑄工藝上的研究都較為深入,可以通過加強技術(shù)合作進一步擴大行業(yè)話語權(quán)與市場范圍。次推的企業(yè)是蕪湖君華材料有限公司(君華材料),該公司共有非晶合金領(lǐng)域?qū)@?0件,其研究方向聚焦于非晶合金裝置制造,與臺一盈拓所關(guān)注的熱壓成型設(shè)備制造相關(guān)程度較大,可以互相學(xué)習(xí)技術(shù)優(yōu)勢,實現(xiàn)技術(shù)進步。其余企業(yè)也可通過推薦結(jié)果進行技術(shù)領(lǐng)域細分,提前制定未來技術(shù)發(fā)展方向。推薦結(jié)果見表6。
表6 推薦結(jié)果表示(部分)
隨機挑選20家企業(yè)融合矩陣用熱力圖進行可視化表達,從而更直觀的把握企業(yè)潛在合作關(guān)系的預(yù)測基準。融合矩陣熱力圖見圖6。
圖6 融合矩陣熱力圖
本文將數(shù)據(jù)集按照時間維度劃分為訓(xùn)練集和測試集,利用推薦算法進行預(yù)測未來企業(yè)潛在的合作關(guān)系,通過“連接強度+匹配程度+相似度”的多維體系實現(xiàn)傳統(tǒng)協(xié)同過濾算法的邏輯更新(“鏈路算法”)。為此,本文比較傳統(tǒng)算法與融合算法的精確度來評價算法的實際效用水平。
3.5.1 修改矩陣格值密度
改變觀測矩陣已知格值密度,在原有矩陣基礎(chǔ)上利用Random模塊選取20個企業(yè)進行算法檢驗,對比觀測矩陣既有格值與預(yù)測矩陣檢驗格值,利用Jaccard系數(shù)計算兩矩陣差異率,檢驗方法如圖7所示,檢驗結(jié)果如表7所示。
表7 鏈路推薦算法準確率對比
注:e1-e5代指企業(yè),r1-r5代指融合指標圖7 改變格值密度檢驗方法
隨機選取部分矩陣格值作為檢驗項,同時更改矩陣格值密度并計算觀測矩陣與預(yù)測矩陣相似情況。由檢驗結(jié)果可知,檢驗誤差率在6.55%左右,平均準確率高于傳統(tǒng)推薦算法2.42%。說明“鏈路推薦”算法得出的結(jié)果能夠準確的表達企業(yè)間潛在合作關(guān)系,較之傳統(tǒng)的協(xié)同過濾推薦算法更具準確度。
3.5.2 精準率、召回率、F1值分析
分別計算基于最優(yōu)權(quán)重下融合指標產(chǎn)生的推薦結(jié)果的精準率、召回率、F1值,發(fā)現(xiàn)“鏈路推薦”算法的精準率在95.54%左右,召回率在73.67%左右,F1值在76.78%左右,較之傳統(tǒng)的推薦算法分別提升了7.28%,6.58%,8.98%左右(見圖8),說明“鏈路預(yù)測”算法在實踐應(yīng)用中更具備匹配度。
圖8 鏈路推薦算法精準率、召回率、F1值對比
本研究通過融合協(xié)同過濾和鏈路預(yù)測,分別通過Pearson相關(guān)系數(shù)、SimRank指標和RA指標、SM算法,計算專利文本的內(nèi)容相似性、鏈路預(yù)測的路徑相似度、IPC號的類別相似度,隨后借助權(quán)重預(yù)測算法構(gòu)建以三者為基礎(chǔ)的融合加權(quán)指標,探究“鏈路推薦”算法在預(yù)測企業(yè)潛在合作關(guān)系的有效性。主要研究結(jié)論如下:
a.專利合作網(wǎng)絡(luò)能夠表征企業(yè)間創(chuàng)新合作的實際關(guān)系,鏈路預(yù)測思想與協(xié)同過濾思想通過奇異值分解能夠?qū)崿F(xiàn)系統(tǒng)化結(jié)合,從而有助于構(gòu)建全面的企業(yè)潛在合作關(guān)系預(yù)測的行為邏輯。IPC號所形成的序列化表達與SM算法底層邏輯接近,通過罰分規(guī)則與回溯規(guī)則能夠為IPC號的類別相似程度提供新的表達方式,所形成的矩陣結(jié)果表達也能夠與鏈路預(yù)測、協(xié)同過濾結(jié)果形成逐一對應(yīng),繼而促進運算效率。
b.基于實證檢驗與推薦結(jié)果誤差率測試,專利合作網(wǎng)絡(luò)中的鏈路預(yù)測相關(guān)指標、協(xié)同過濾算法中的相似度、IPC號的序列匹配程度,能夠融合成一個多維矩陣,作為輸入可以提升推薦算法的精準度,“鏈路推薦”算法較之傳統(tǒng)的推薦算法在準確率上能夠取得3%左右的提升。
綜上所述,專利合作網(wǎng)絡(luò)中的鏈路預(yù)測、協(xié)同過濾思想與IPC號序列所形成的“連接強度+匹配程度+相似度”的多維復(fù)合體系能夠有效預(yù)測企業(yè)潛在合作關(guān)系。后續(xù)的研究可以從以下三個方面進行改進:①利用新興文本挖掘技術(shù),精確化專利文本內(nèi)容相似度計算[33]。②采用混合協(xié)同過濾的方法,優(yōu)化協(xié)同過濾中的稀疏矩陣問題[34]。③引入科研機構(gòu)形成合作關(guān)系擴充,健全產(chǎn)學(xué)研一體化建設(shè)。