尚 靜桂 亮
(1..江蘇科技大學(xué)人事處,江蘇鎮(zhèn)江 212100)
(2.江蘇科技大學(xué)經(jīng)管學(xué)院,江蘇鎮(zhèn)江 212003)
中國專利獎(jiǎng)是專門對授予專利權(quán)的發(fā)明創(chuàng)造給予獎(jiǎng)勵(lì)的政府部門獎(jiǎng),得到了聯(lián)合國世界知識(shí)產(chǎn)權(quán)組織(WIPO)的認(rèn)可。中國專利獎(jiǎng)重在強(qiáng)化知識(shí)產(chǎn)權(quán)創(chuàng)造、保護(hù)、運(yùn)用,推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展,鼓勵(lì)和表彰為技術(shù)(設(shè)計(jì))創(chuàng)新及經(jīng)濟(jì)社會(huì)發(fā)展做出突出貢獻(xiàn)的專利權(quán)人和發(fā)明人(設(shè)計(jì)人)。
創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略促進(jìn)了發(fā)明專利申請數(shù)量的激增,但專利“多而不優(yōu)”的現(xiàn)象卻日益嚴(yán)重[1]。我國產(chǎn)業(yè)結(jié)構(gòu)核心技術(shù)受制于人的情況仍然存在,隨著關(guān)鍵技術(shù)“卡脖子”問題的頻繁出現(xiàn),注重產(chǎn)業(yè)技術(shù)自主創(chuàng)新、實(shí)現(xiàn)產(chǎn)業(yè)鏈中上游轉(zhuǎn)型,已成為我國各界產(chǎn)業(yè)發(fā)展的當(dāng)務(wù)之急。相應(yīng)地,為更好地適應(yīng)產(chǎn)業(yè)發(fā)展需要、促進(jìn)產(chǎn)業(yè)高質(zhì)量發(fā)展,未來專利發(fā)展戰(zhàn)略須從觸發(fā)專利數(shù)量激增向促進(jìn)專利質(zhì)量提升轉(zhuǎn)變。
在授權(quán)專利中占比極小的金獎(jiǎng)專利對相關(guān)產(chǎn)業(yè)發(fā)展起到關(guān)鍵促進(jìn)作用,蘊(yùn)含的巨大經(jīng)濟(jì)效益與戰(zhàn)略價(jià)值對技術(shù)追蹤、促進(jìn)專利轉(zhuǎn)化、尋求建立最佳專利戰(zhàn)略布局的各種產(chǎn)業(yè)十分重要[2]。挖掘這部分金獎(jiǎng)專利潛在創(chuàng)作規(guī)律,分析其團(tuán)隊(duì)人員結(jié)構(gòu)、組建規(guī)律,可為加快金獎(jiǎng)專利涌現(xiàn)、為專利創(chuàng)作樹立可借鑒的行業(yè)標(biāo)桿、推動(dòng)專利量質(zhì)并舉起到較好促進(jìn)作用。
分析金獎(jiǎng)專利發(fā)明人團(tuán)隊(duì)組建規(guī)律是促進(jìn)專利質(zhì)量提升工程的重要推動(dòng)力量,但目前關(guān)于發(fā)明者團(tuán)隊(duì)構(gòu)建規(guī)律的研究較少?,F(xiàn)有研究側(cè)重于分析發(fā)明者團(tuán)隊(duì)規(guī)模的變化規(guī)律[3-6],這是由于現(xiàn)有專利數(shù)據(jù)庫僅提供不具備唯一性的發(fā)明者署名信息,發(fā)明人數(shù)量是可直接獲取的唯一量化分析指標(biāo)。發(fā)明人個(gè)體信息的缺失[7-12]給文獻(xiàn)計(jì)量學(xué)下依據(jù)指標(biāo)信息分析團(tuán)隊(duì)組建規(guī)律研究帶來較大挑戰(zhàn),導(dǎo)致較難開展發(fā)明人團(tuán)隊(duì)組建規(guī)律研究。因此,拓展指標(biāo)信息選取維度,利用現(xiàn)有指標(biāo)信息分析發(fā)明人團(tuán)隊(duì)人員專業(yè)領(lǐng)域交叉情況研究值得探索。
文中基于數(shù)據(jù)挖掘理論,選取表征專利涉及技術(shù)領(lǐng)域的IPC分類號(hào)相關(guān)指標(biāo),使用機(jī)器學(xué)習(xí)模型識(shí)別金獎(jiǎng)專利,并分析最優(yōu)識(shí)別性能下各指標(biāo)重要度,以確定金獎(jiǎng)專利形成的關(guān)鍵性因素。具體來說,選取IPC分類號(hào)、IPC個(gè)數(shù)、IPC部個(gè)數(shù)等表征專利技術(shù)領(lǐng)域交叉程度與交叉范圍的多項(xiàng)指標(biāo),用獲獎(jiǎng)情況標(biāo)注專利,使用隨機(jī)森林對是否獲獎(jiǎng)進(jìn)行預(yù)測,并在最優(yōu)預(yù)測性能下分析各指標(biāo)對預(yù)測貢獻(xiàn)度,以確定專利技術(shù)領(lǐng)域交叉程度與交叉范圍是否對金獎(jiǎng)專利的創(chuàng)作產(chǎn)生重要影響,進(jìn)而為專利發(fā)明人團(tuán)隊(duì)組建提供指導(dǎo)性建議。
盡管文中所提方案很容易擴(kuò)展到其他指標(biāo),但基于專利數(shù)據(jù)庫中發(fā)明人信息較少且不易獲取等現(xiàn)實(shí),本研究中使用的具體指標(biāo)包含常用指標(biāo)以及專利所屬技術(shù)領(lǐng)域相關(guān)指標(biāo),并在表1中進(jìn)行了概述。具體而言,這些指標(biāo)分為3個(gè)主要類別:團(tuán)隊(duì)規(guī)模級指標(biāo)、基本信息級指標(biāo)和技術(shù)領(lǐng)域交叉級指標(biāo)(所有這些指標(biāo)都將在下面詳細(xì)描述)。對于每個(gè)類別則構(gòu)建了一個(gè)單獨(dú)的指標(biāo)體系,從不同維度選取指標(biāo),盡可能全面綜合地表征該類別下專利特征,通過計(jì)算所選樣本數(shù)據(jù)的全套指標(biāo)得到樣本特征。
表1 專利指標(biāo)
團(tuán)隊(duì)規(guī)模[13-15]。發(fā)明人數(shù)量是可從專利數(shù)據(jù)庫中獲取的唯一量化指標(biāo),分析團(tuán)隊(duì)規(guī)模是否會(huì)影響專利獲獎(jiǎng)情況具有重大意義。隨著數(shù)據(jù)挖掘技術(shù)進(jìn)步,發(fā)現(xiàn)發(fā)明人實(shí)力、發(fā)明成果價(jià)值等信息可獲得其他團(tuán)隊(duì)規(guī)模級指標(biāo),為進(jìn)一步提供深層次發(fā)明人團(tuán)隊(duì)組建規(guī)律提供可能。
基本信息[16-18]。國民經(jīng)濟(jì)分類個(gè)數(shù)與IPC個(gè)數(shù)代表專利所屬技術(shù)領(lǐng)域范圍,通過分析專利所屬技術(shù)領(lǐng)域范圍可知技術(shù)領(lǐng)域范圍與專利獲獎(jiǎng)情況之間是否相關(guān)。IPC主分類表征專利所屬技術(shù)范圍的主要技術(shù)領(lǐng)域分布情況,分析該指標(biāo)可知技術(shù)領(lǐng)域的不同是否會(huì)影響到專利獲獎(jiǎng)情況。
技術(shù)領(lǐng)域交叉[19-21]。文中通過計(jì)算表征不同技術(shù)領(lǐng)域的IPC分類號(hào)出現(xiàn)情況進(jìn)而確定專利技術(shù)領(lǐng)域交叉情況。IPC分類號(hào)采用分層編碼方法,將專利分類為部、大類、小類、大組、小組5級進(jìn)行編碼。文中計(jì)算不同分類號(hào)層級下技術(shù)領(lǐng)域交叉?zhèn)€數(shù),分析領(lǐng)域交叉程度對專利獲獎(jiǎng)情況的影響,包括部交叉?zhèn)€數(shù)、大類交叉?zhèn)€數(shù)、小類交叉?zhèn)€數(shù)等指標(biāo)。有放回地重復(fù)隨機(jī)抽取n個(gè)樣本生成新的訓(xùn)練樣本集合訓(xùn)練決策樹,然后按以上步驟生成m棵決策樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。其實(shí)質(zhì)是對決策樹算法的一種改進(jìn),將多個(gè)決策樹合并在一起,每棵樹的建立依賴于獨(dú)立抽取的樣本。單棵樹的分類能力可能很小,但在隨機(jī)產(chǎn)生大量的決策樹后,一個(gè)測試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計(jì)后選擇最可能的分類。
決策樹是一種利用樹形結(jié)構(gòu)進(jìn)行決策的算法,對于樣本數(shù)據(jù)根據(jù)特征進(jìn)行分叉并建立一棵樹,樹的葉子結(jié)節(jié)標(biāo)識(shí)最終決策。決策樹選擇基尼指數(shù)增益值最大的特征作為該結(jié)節(jié)分裂條件,基尼指數(shù)增益值通過(式1—3)計(jì)算而得:
隨機(jī)森林是一種基于樹的機(jī)器學(xué)習(xí)算法,利用群體決策思維生成多棵決策樹來完成分類任務(wù)。隨機(jī)森林由bootstrap重采樣從原始訓(xùn)練樣本集N中
由(1)式計(jì)算出樣本數(shù)據(jù)D的信息熵,其中pi表示類別i樣本數(shù)量占所有樣本的比例。
由(2)式計(jì)算對于數(shù)據(jù)集D,選擇特征A作為節(jié)點(diǎn)時(shí),在特征A之后的信息熵。其中,假設(shè)特征A有k個(gè)分裂點(diǎn),即樣本專利D會(huì)被分為k個(gè)部分,Dj表示其中一個(gè)部分。
由(3)式計(jì)算特征A作為分裂節(jié)點(diǎn)前后樣本數(shù)據(jù)的信息增益值。其中信息增益Gain(A)表示數(shù)據(jù)集D在特征A的作用后,其信息熵減少的值。
基于隨機(jī)森林的計(jì)算原理,模型能夠?qū)λ捎玫奶卣髯兞颗c專利是否獲獎(jiǎng)之間的相關(guān)性進(jìn)行具體計(jì)算并排序。選取相關(guān)性排名前3的特征變量,分析其對專利獲獎(jiǎng)的影響,通過特征變量解讀為發(fā)明人團(tuán)隊(duì)組建規(guī)律提供建議。
登錄中國知識(shí)產(chǎn)權(quán)局網(wǎng)站(http://www.sipo.gov.cn/ztzl/zgzlj/index.htm)獲取1—23屆中國金獎(jiǎng)發(fā)明專利名單,共計(jì)372條,其中發(fā)明人2人以上的共300項(xiàng)。在Incopat全球?qū)@麛?shù)據(jù)庫中檢索這300項(xiàng)金獎(jiǎng)專利,從數(shù)據(jù)庫中隨機(jī)檢索等量非獲獎(jiǎng)專利數(shù)據(jù),共獲得專利數(shù)據(jù)集600項(xiàng)作為樣本數(shù)據(jù)。選取檢索表1中的專利指標(biāo)作為樣本特征,將指標(biāo)數(shù)據(jù)從數(shù)據(jù)庫導(dǎo)入excel,除技術(shù)領(lǐng)域交叉指標(biāo)需通過人工統(tǒng)計(jì)獲取外,其他指標(biāo)均可直接獲得數(shù)值。
以發(fā)明人數(shù)量、IPC個(gè)數(shù)、部交叉?zhèn)€數(shù)等7項(xiàng)專利指標(biāo)為專利特征,選取數(shù)據(jù)庫中專利數(shù)據(jù)后進(jìn)行預(yù)處理操作,得到專利特征矩陣,部分專利特征矩陣如表2所示。
表2 專利特征矩陣(部分)
表3為所選樣本專利的特征變量的統(tǒng)計(jì)描述,包括專利總樣本、金獎(jiǎng)專利子樣本和非金獎(jiǎng)專利子樣本的均值、方差及T檢驗(yàn)結(jié)果。
從表3可以看出,大部分專利特征變量都顯示出顯著的差異,充分說明了所選專利特征變量與專利是否獲獎(jiǎng)的高度相關(guān)性。值得注意的是,雖然金獎(jiǎng)專利子樣本顯示出較高的平均值,但對應(yīng)的方差波動(dòng)也較大,顯示出金獎(jiǎng)專利樣本中存在較大的質(zhì)量差異。從T檢驗(yàn)結(jié)果來看,兩組專利樣本的均值基本都呈現(xiàn)出顯著的差異性。
表3 專利特征統(tǒng)計(jì)描述
專利特征矩陣構(gòu)建完成后,以專利是否獲得金獎(jiǎng)為標(biāo)簽,進(jìn)行專利分類。將構(gòu)建的專利特征矩陣輸入隨機(jī)森林模型,隱藏所有專利標(biāo)簽。選取70%樣本數(shù)據(jù)作為訓(xùn)練集,為訓(xùn)練集分配標(biāo)簽,訓(xùn)練隨機(jī)森林模型,得到所有專利樣本的標(biāo)簽類別。將專利節(jié)點(diǎn)的預(yù)測標(biāo)簽類別與其真實(shí)標(biāo)簽類別做對比,得出模型的分類性能。
用精確率P(Precision)、召回率R(Recall)、F1衡量各模型的識(shí)別性能。精確率指識(shí)別為金獎(jiǎng)專利的樣本數(shù)據(jù)中實(shí)際的金獎(jiǎng)專利數(shù)量占所有識(shí)別為金獎(jiǎng)專利樣本數(shù)的比例,召回率指識(shí)別為金獎(jiǎng)專利的樣本數(shù)據(jù)中實(shí)際的金獎(jiǎng)專利數(shù)量占所有金獎(jiǎng)專利樣本數(shù)的比例,F(xiàn)1值是精確率和召回率的調(diào)和值。式中,tp表示識(shí)別為金獎(jiǎng)專利中真實(shí)標(biāo)簽為金獎(jiǎng)專利的專利數(shù)量,tn表示識(shí)別為金獎(jiǎng)專利中真實(shí)標(biāo)簽為非金獎(jiǎng)專利的專利數(shù)量,fp表示識(shí)別為非金獎(jiǎng)專利中真實(shí)標(biāo)簽為非金獎(jiǎng)專利的專利數(shù)量,fn表示識(shí)別為非金獎(jiǎng)專利中真實(shí)標(biāo)簽為金獎(jiǎng)專利的專利數(shù)量。
隨機(jī)森林分類性能如表4所示。文中樣本數(shù)據(jù)訓(xùn)練后隨機(jī)森林的P、R、F1值分別為0.792、0.796、0.794。
表4 模型性能
基于隨機(jī)森林的計(jì)算原理,模型能夠?qū)λ捎玫奶卣髯兞颗c專利質(zhì)量之間的相關(guān)性進(jìn)行具體計(jì)算并排序。如圖1所示,氣泡的位置代表縱坐標(biāo)變量對于專利獲獎(jiǎng)的重要性程度,氣泡位置越靠右,變量越重要。MeanDecreaseAccura表示變量消除后對于隨機(jī)森林模型預(yù)測性能的影響,MeanDecreaseGini表示變量消除后對樣本信息熵減少程度的影響。
圖1 專利特征變量重要度
首先,文中所構(gòu)建的基于基本信息級指標(biāo)的特征變量,如國民經(jīng)濟(jì)分類個(gè)數(shù)、IPC個(gè)數(shù)、IPC主分類對于專利是否獲獎(jiǎng)的預(yù)測顯示出較高的相關(guān)性。國民經(jīng)濟(jì)分類個(gè)數(shù)與IPC個(gè)數(shù)均代表專利所屬技術(shù)領(lǐng)域個(gè)數(shù),這表明成員多技術(shù)領(lǐng)域知識(shí)豐富、交叉領(lǐng)域人才儲(chǔ)備較多的發(fā)明人團(tuán)隊(duì)更具備創(chuàng)作金獎(jiǎng)專利的潛力。其次,發(fā)明人數(shù)量對專利是否獲獎(jiǎng)的預(yù)測顯示出較高相關(guān)性,表明發(fā)明人團(tuán)隊(duì)規(guī)模對高價(jià)值專利的創(chuàng)作具備一定影響。此外,技術(shù)領(lǐng)域交叉特征變量重要度排名中,小類交叉?zhèn)€數(shù)在專利是否為金獎(jiǎng)的預(yù)測任務(wù)中顯示出更高的重要度,這表明相較于大類交叉?zhèn)€數(shù)與部交叉?zhèn)€數(shù),小類交叉?zhèn)€數(shù)在專利團(tuán)隊(duì)發(fā)明人組建過程更加重要。因此,尋找細(xì)分技術(shù)領(lǐng)域中交叉領(lǐng)域研發(fā)人員或細(xì)分技術(shù)領(lǐng)域下不同技術(shù)領(lǐng)域研發(fā)人員組建發(fā)明人團(tuán)隊(duì),更具備創(chuàng)造高價(jià)值專利潛力。
通過分析專利金獎(jiǎng)發(fā)明人團(tuán)隊(duì)組建規(guī)律可以發(fā)現(xiàn),科研團(tuán)隊(duì)建設(shè)應(yīng)特別關(guān)注以下3個(gè)方面:
(1)團(tuán)隊(duì)成員技術(shù)領(lǐng)域應(yīng)差異化。交叉領(lǐng)域研發(fā)人員或不同領(lǐng)域研發(fā)人員是團(tuán)隊(duì)組建的首選人員,由實(shí)證結(jié)果可知,專利涵蓋技術(shù)領(lǐng)域與專利價(jià)值之間存在較強(qiáng)關(guān)聯(lián)關(guān)系,選擇不同領(lǐng)域研發(fā)人員或選擇交叉領(lǐng)域人員研發(fā)專利可提高專利潛在價(jià)值,這也與當(dāng)前技術(shù)間的交叉融合日益緊密背景相符。
(2)團(tuán)隊(duì)規(guī)模應(yīng)適度化。團(tuán)隊(duì)成員數(shù)量指標(biāo)在專利特征變量重要度排名中位列第二,表明團(tuán)隊(duì)規(guī)模對專利價(jià)值影響較大。利用文獻(xiàn)計(jì)量學(xué)中基本統(tǒng)計(jì)指標(biāo)分析金獎(jiǎng)專利中發(fā)明人團(tuán)隊(duì)規(guī)??砂l(fā)現(xiàn),獲獎(jiǎng)專利發(fā)明人團(tuán)隊(duì)規(guī)模在4~6人之間較為常見。
(3)團(tuán)隊(duì)合作領(lǐng)域應(yīng)精細(xì)化。細(xì)分領(lǐng)域下不同技術(shù)領(lǐng)域人員之間的合作更有創(chuàng)造力,從技術(shù)領(lǐng)域交叉程度級指標(biāo)的重要度排名中可知,細(xì)分技術(shù)領(lǐng)域交叉?zhèn)€數(shù)重要度優(yōu)于大類技術(shù)交叉?zhèn)€數(shù)。這表明在保證技術(shù)領(lǐng)域精細(xì)化的同時(shí),保證細(xì)分領(lǐng)域中的領(lǐng)域交叉合作比區(qū)分度較大領(lǐng)域之間的合作更為重要。