李 欣 馮 野 馬曉迪
(北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院 北京 100124)
專利作為科學(xué)技術(shù)信息的重要載體,反映了國家或企業(yè)的研發(fā)投入能力與技術(shù)創(chuàng)新水平。通過專利交易實現(xiàn)專利成果轉(zhuǎn)移轉(zhuǎn)化成為我國促進(jìn)科技創(chuàng)新和產(chǎn)學(xué)研高效協(xié)同的重要方式之一。然而,在專利申請量急劇增長的背景下,由于專利信息傳播不暢、缺乏資金投入和專利產(chǎn)品帶來效益難以預(yù)期等原因,我國的專利轉(zhuǎn)移轉(zhuǎn)化率卻偏低[1]。因此,篩選出適合交易的高價值專利有助于政府早期識別具有轉(zhuǎn)讓潛力的高價值專利,有助于企業(yè)購買具有市場收益潛力的專利來提升自身競爭力,有利于促進(jìn)我國專利成果轉(zhuǎn)移轉(zhuǎn)化率的提升。Ko 等首次提出專利可轉(zhuǎn)讓性的概念,即通過交易實現(xiàn)專利價值潛力的可能性[2]。而構(gòu)建專利可轉(zhuǎn)讓性評估方法,從大規(guī)模的專利數(shù)據(jù)中篩選出具有轉(zhuǎn)讓可能性的專利,將有助于推進(jìn)專利成果轉(zhuǎn)化,提高專利轉(zhuǎn)化率。而如何構(gòu)建專利可轉(zhuǎn)讓性評估方法成為學(xué)術(shù)界研究的熱點(diǎn)之一。
專利的可轉(zhuǎn)讓性與專利價值存在一定的區(qū)別與聯(lián)系。首先,專利可轉(zhuǎn)讓性是指通過交易實現(xiàn)專利價值潛力的可能性[2]。有學(xué)者利用專利是否發(fā)生過轉(zhuǎn)讓衡量其可轉(zhuǎn)讓性。專利價值是專利在經(jīng)營過程中給企業(yè)帶來的經(jīng)濟(jì)收益和專利對企業(yè)發(fā)展戰(zhàn)略的貢獻(xiàn)在現(xiàn)實市場條件下的表現(xiàn)[3]。許多學(xué)者使用專利價值相關(guān)指標(biāo)作為代理或通過指標(biāo)加權(quán)計算得分來衡量專利價值。其次,專利可轉(zhuǎn)讓性評估是評估專利是否會發(fā)生轉(zhuǎn)讓的可能性。具有高價值的專利其轉(zhuǎn)讓的可能性更高,但也有部分高價值專利不會發(fā)生轉(zhuǎn)讓[4]。即轉(zhuǎn)讓的專利是有價值的,但一些高價值的專利也未必轉(zhuǎn)讓。
關(guān)于專利可轉(zhuǎn)讓性評估的研究,目前學(xué)者主要是通過構(gòu)建專利可轉(zhuǎn)讓性評價指標(biāo)體系,并利用機(jī)器學(xué)習(xí)方法進(jìn)行專利可轉(zhuǎn)讓性評估。Ko等人從專利自身特征的內(nèi)部指標(biāo)與專利技術(shù)所屬領(lǐng)域特征的外部指標(biāo)兩個維度,構(gòu)建由23個指標(biāo)組成的專利可轉(zhuǎn)讓性評價體系,然后構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型評估專利的可轉(zhuǎn)讓性,并通過調(diào)節(jié)模型閾值劃分專利可轉(zhuǎn)讓性等級[2]。武玉英等人構(gòu)建基于技術(shù)與法律維度的內(nèi)部指標(biāo)和基于專利權(quán)人的外部指標(biāo),并使用結(jié)合高階神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò)方法進(jìn)行專利可轉(zhuǎn)讓性評價[5]。然而,這些學(xué)者雖然從不同維度構(gòu)建專利可轉(zhuǎn)讓性的評價指標(biāo)體系,并利用機(jī)器學(xué)習(xí)模型進(jìn)行專利可轉(zhuǎn)讓性評估,但評價指標(biāo)之間可能存在冗余,會增大機(jī)器學(xué)習(xí)模型過擬合的風(fēng)險,降低機(jī)器學(xué)習(xí)模型的泛化能力,影響評價結(jié)果的有效性。
關(guān)于去除冗余評價指標(biāo)研究方面,有些學(xué)者利用指標(biāo)約減方法來減少冗余指標(biāo)。在指標(biāo)約減的研究中,Trappey等人利用主成分分析從專利價值評價指標(biāo)體系中提取相互獨(dú)立的主成分[6],但該方法存在提取主成分可解釋性模糊以及存在使用不同數(shù)據(jù)提取主成分會導(dǎo)致結(jié)果不一致的問題。慎金花等人利用粗糙集方法約減專利價值評價的冗余指標(biāo)[1],而粗糙集約減算法沒有直接把機(jī)器學(xué)習(xí)模型性能作為評價標(biāo)準(zhǔn)。邱一卉提出基于CART(Classification and regression tree)的包裹式指標(biāo)約減算法保留評估專利價值重要指標(biāo)[7],但原算法存在部分保留指標(biāo)不會帶來評估模型準(zhǔn)確率提升的問題。
綜上所述,本文將提出一種改進(jìn)的基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估方法。該方法將機(jī)器學(xué)習(xí)方法引入指標(biāo)約減算法中,構(gòu)建基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估指標(biāo)約減算法,去除專利可轉(zhuǎn)讓性評估的冗余指標(biāo),獲取專利可轉(zhuǎn)讓性評估的重要指標(biāo)體系,以提升基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估模型的準(zhǔn)確率,并以人工智能領(lǐng)域?qū)@麨槔M(jìn)行實證研究,驗證該方法的可行性和有效性。
本文提出了一種基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估方法,如圖1所示。具體思路是:首先,從Derwent Innovation(以下簡稱 DI)專利數(shù)據(jù)庫獲取專利數(shù)據(jù),并提取專利指標(biāo),從技術(shù)維度、法律維度、經(jīng)濟(jì)維度和主體維度構(gòu)建適用于基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評價指標(biāo)體系。其次,利用基于機(jī)器學(xué)習(xí)的指標(biāo)約減算法對構(gòu)建的專利可轉(zhuǎn)讓性評價指標(biāo)進(jìn)行約減,去除專利可轉(zhuǎn)讓性評價的冗余指標(biāo)。之后,通過非參數(shù)檢驗方法對比轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在各保留指標(biāo)間的差異,解釋和驗證約減后的評價指標(biāo)體系的合理性。然后,利用約減后的評價指標(biāo)數(shù)據(jù)訓(xùn)練與測試機(jī)器學(xué)習(xí)模型。最后,利用分類評價指標(biāo)對機(jī)器學(xué)習(xí)模型的性能進(jìn)行評價,最終得到專利可轉(zhuǎn)讓性評估的最優(yōu)模型。
具體研究步驟如下:
本文以DI專利數(shù)據(jù)庫為數(shù)據(jù)源收集數(shù)據(jù),使用與研究主題相關(guān)的檢索策略來下載相關(guān)專利數(shù)據(jù),并對其進(jìn)行數(shù)據(jù)清洗。然后在數(shù)據(jù)清洗后的專利數(shù)據(jù)中提取專利指標(biāo)。
1.2.1專利可轉(zhuǎn)讓性評價指標(biāo)體系構(gòu)建
由于具有價值的專利才會發(fā)生轉(zhuǎn)讓,所以本文在學(xué)者們以前關(guān)于專利價值與專利可轉(zhuǎn)讓性影響因素研究的基礎(chǔ)上,構(gòu)建專利可轉(zhuǎn)讓性評估指標(biāo)體系,并遵循以下原則:①為了全面評估專利可轉(zhuǎn)讓性,指標(biāo)體系應(yīng)包括專利可轉(zhuǎn)讓性的技術(shù)、法律、經(jīng)濟(jì)和主體四大維度;②指標(biāo)應(yīng)在專利授權(quán)后即可獲得,以便對專利可轉(zhuǎn)讓性進(jìn)行早期評價與識別;③應(yīng)選取可量化、易獲取的評價指標(biāo),以便使用機(jī)器學(xué)習(xí)模型去評估專利可轉(zhuǎn)讓性。因此,本文選取包含技術(shù)、法律、經(jīng)濟(jì)和主體四大維度的17個指標(biāo),以對專利可轉(zhuǎn)讓性進(jìn)行全面和準(zhǔn)確評價。
圖1 基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估研究框架
a.專利技術(shù)維度反映專利自身的技術(shù)水平。技術(shù)維度指標(biāo)選取如下:
科學(xué)關(guān)聯(lián)度。科學(xué)關(guān)聯(lián)度是指專利引用科技文獻(xiàn)的數(shù)量,反映了專利技術(shù)與科學(xué)研究的聯(lián)系程度[1,8]。在科技導(dǎo)向領(lǐng)域,科學(xué)關(guān)聯(lián)度與專利價值呈現(xiàn)顯著相關(guān)關(guān)系[9]。
引證專利數(shù)。引證專利數(shù)是指專利引用其他專利的數(shù)量,體現(xiàn)技術(shù)之間的知識積累性與連續(xù)性[1]。引證專利數(shù)量越多代表專利越具有堅實的技術(shù)基礎(chǔ),從而說明其價值也越高[8]。
IPC數(shù)量。IPC數(shù)量使用4位IPC數(shù)量進(jìn)行表示,體現(xiàn)了專利的技術(shù)覆蓋范圍[10]。IPC 分類數(shù)量越多說明該專利可應(yīng)用到更多技術(shù)領(lǐng)域發(fā)揮其價值[8,10]。
新穎性。新穎性反映了技術(shù)的創(chuàng)新程度,新穎性的計算公式(1)如下:
(1)
其中NCp是專利p自身在其申請年之前從未出現(xiàn)的8位IPC組合數(shù),Cp是自身8位IPC的組合數(shù)目;指標(biāo)得分越高,專利創(chuàng)新程度越高[11]。
發(fā)明人數(shù)量。發(fā)明人數(shù)量反映了專利的研發(fā)復(fù)雜度。研發(fā)復(fù)雜度越高,專利的技術(shù)價值也越高[10]。
專利權(quán)人數(shù)量。專利權(quán)人數(shù)量反映專利研發(fā)資源投入程度及技術(shù)實用性[12]。專利權(quán)人數(shù)越多,專利質(zhì)量越高[13],其專利價值也越高。
b.專利法律維度反映專利的法律保護(hù)程度。法律維度指標(biāo)選取如下:
權(quán)利要求數(shù)。權(quán)利要求數(shù)反映專利的保護(hù)范圍,越有價值的專利要求保護(hù)的權(quán)項數(shù)越多、范圍越廣[8]。
獨(dú)立權(quán)利要求數(shù)。獨(dú)立權(quán)利要求數(shù)反映了專利解決技術(shù)難題的技術(shù)創(chuàng)新性和實用性[14]。技術(shù)創(chuàng)新性和實用性越高,專利價值越高。
從屬權(quán)利要求數(shù)。從屬權(quán)利要求保護(hù)的發(fā)明與獨(dú)立權(quán)利要求保護(hù)的發(fā)明相同,但反映更加具體[15]。從屬權(quán)利要求和獨(dú)立權(quán)利要求共同組成專利的權(quán)利要求,其數(shù)量反映專利的價值。
優(yōu)先權(quán)數(shù)量。優(yōu)先權(quán)數(shù)量反映了專利在多國組合和布局情況,一項專利獲取多國授權(quán)將帶來更大的維持成本[16],所以具有價值的專利才值得專利權(quán)人申請優(yōu)先權(quán)。
審查時長。審查時長為專利授權(quán)年份與專利申請年份的差值。申請時程越長,表明技術(shù)先進(jìn)性越強(qiáng)[17],其價值越高。
c.經(jīng)濟(jì)維度反映專利的市場潛力。經(jīng)濟(jì)維度指標(biāo)選取如下:
專利家族數(shù)。專利家族數(shù)指一項專利所處的一組優(yōu)先權(quán)完全相同的專利家族中專利的個數(shù)[18]。專利家族規(guī)模越大說明形成專利保護(hù)網(wǎng)絡(luò)越牢固,技術(shù)組合布局越完善,專利家族的價值越高[19]。
同族國家數(shù)。同族國家數(shù)量是同族專利申請國的數(shù)量,反映了專利的國際競爭力。具有高價值的專利才值得專利權(quán)人在多國申請保護(hù)[8]。
d.主體維度反映專利的主體的技術(shù)實力和轉(zhuǎn)讓傾向。主體維度指標(biāo)選取如下:
專利權(quán)人類型。不同類型的機(jī)構(gòu)對實施專利轉(zhuǎn)讓的傾向存在差異,科研院所多承擔(dān)技術(shù)研發(fā)階段的工作,而企業(yè)注重技術(shù)的市場運(yùn)營[20]。本文將專利權(quán)人類型為機(jī)構(gòu)合作、研究機(jī)構(gòu)、企業(yè)、大學(xué)、個人,并進(jìn)行數(shù)字化分別記為5,4,3,2,1。其中,機(jī)構(gòu)合作指專利權(quán)人由研究機(jī)構(gòu)、企業(yè)和大學(xué)中的兩個及以上所組成的情況。
專利權(quán)人專利數(shù)。所有專利權(quán)人在該領(lǐng)域發(fā)布的專利數(shù)量總和,反映專利權(quán)人開發(fā)專利的努力程度[21]。專利權(quán)人在該領(lǐng)域發(fā)布專利越多,說明其在該領(lǐng)域技術(shù)實力越強(qiáng),專利價值可能越高。
第一發(fā)明人專利數(shù)。即第一發(fā)明人在該領(lǐng)域的專利數(shù)量,反映第一發(fā)明人在該領(lǐng)域的發(fā)明能力[22]。發(fā)明能力越強(qiáng),其專利價值可能越高。
發(fā)明人專利數(shù)。即所有發(fā)明人在該領(lǐng)域的專利數(shù)量總和,反映所有發(fā)明人的綜合發(fā)明能力。
1.2.2指標(biāo)約減
在獲取專利可轉(zhuǎn)讓性評價指標(biāo)體系后,為了減少冗余評價指標(biāo),本文將對獲取的評價指標(biāo)進(jìn)行指標(biāo)約減。本文將對基于CART的指標(biāo)選擇方法進(jìn)行改進(jìn)[7],提出一種基于機(jī)器學(xué)習(xí)模型預(yù)測準(zhǔn)確率的指標(biāo)選擇方法。
首先,設(shè)計計算不同指標(biāo)組合下基于機(jī)器學(xué)習(xí)的評估模型預(yù)測準(zhǔn)確率的計算模塊。建立一個10層的循環(huán),然后在每個循環(huán)中設(shè)置5折交叉驗證來劃分?jǐn)?shù)據(jù)集。每次交叉驗證都會根據(jù)相應(yīng)的循環(huán)設(shè)置隨機(jī)數(shù),保證每次數(shù)據(jù)集劃分結(jié)果不一樣。
在每次交叉驗證中,原始數(shù)據(jù)被劃分為訓(xùn)練集與驗證集。我們使用SMOTE(Synthetic minority oversampling technique)過采樣算法平衡訓(xùn)練集數(shù)據(jù)。利用平衡后的訓(xùn)練集去訓(xùn)練機(jī)器學(xué)習(xí)模型,再利用驗證集去評估機(jī)器學(xué)習(xí)模型,這樣就得到某一次數(shù)據(jù)下模型對于驗證集預(yù)測的準(zhǔn)確率均值及其方差。
其次,選擇合適的機(jī)器學(xué)習(xí)模型作為指標(biāo)約減算法中進(jìn)行專利可轉(zhuǎn)讓性預(yù)測的模型。選取不同的機(jī)器學(xué)習(xí)模型,并利用所有指標(biāo)下的數(shù)據(jù)訓(xùn)練模型,得到不同機(jī)器學(xué)習(xí)模型的預(yù)測準(zhǔn)確率均值及其方差。根據(jù)預(yù)測準(zhǔn)確率均值及其方差選取最優(yōu)機(jī)器學(xué)習(xí)模型。
然后,計算指標(biāo)的影響系數(shù)。定義“影響系數(shù)數(shù)值”如式(2)所示,
(2)
利用迭代的方式,采取從指標(biāo)集中有放回地去除指標(biāo)的方法逐一計算每個指標(biāo)的影響系數(shù)。根據(jù)影響系數(shù)值對指標(biāo)進(jìn)行升序排序,排名靠前的對模型預(yù)測準(zhǔn)確率影響較大。
上述過程得到各指標(biāo)按照重要程度排序列表。然后我們建立保留指標(biāo)列表,采取遞歸的方式每次從重要程度列表取出一個指標(biāo)添加到保留指標(biāo)列表,然后計算相應(yīng)保留指標(biāo)列表下的模型預(yù)測準(zhǔn)確率均值,當(dāng)模型預(yù)測準(zhǔn)確率均值得到提升時,確認(rèn)將此指標(biāo)添加到保留指標(biāo)列表,并將其從重要程度列表移除。否則,繼續(xù)嘗試添加重要程度列表中下一個指標(biāo)。在每次確認(rèn)向保留指標(biāo)列表添加指標(biāo)時,下一次嘗試添加重要程度列表中指標(biāo)時都是從頭開始嘗試。當(dāng)嘗試添加到重要程度列表中最后一個指標(biāo)到保留指標(biāo)列表也沒有給模型帶來提升時算法結(jié)束?;蛘咧笜?biāo)重要程度列表為空時,即所有的指標(biāo)都被添加到保留指標(biāo)列表,算法停止。最后我們就得到了保留指標(biāo)列表。
相比于原指標(biāo)約減算法,本算法的改進(jìn)體現(xiàn)在兩個方面。一是,在計算模型準(zhǔn)確率均值方面:使用所選數(shù)據(jù)下性能最優(yōu)的機(jī)器學(xué)習(xí)模型來計算預(yù)測準(zhǔn)確率。同時加入過采樣來平衡數(shù)據(jù)。二是,在確定保留指標(biāo)的算法方面:采取添加指標(biāo)使得模型預(yù)測準(zhǔn)確率均值提升,才將此指標(biāo)保留的方式。避免了原算法可能出現(xiàn)的添加某指標(biāo)使得準(zhǔn)確率提升,是由于添加的前一個指標(biāo)使得模型的準(zhǔn)確率下降的情況,導(dǎo)致我們保留了冗余指標(biāo)。
本文利用非參數(shù)檢驗U檢驗去檢驗轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在某一個評價指標(biāo)下分布是否存在差異。被檢驗存在差異說明有充分理由認(rèn)為二者來自不同的分布,進(jìn)而認(rèn)為機(jī)器學(xué)習(xí)模型可以通過這個指標(biāo)對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利進(jìn)行劃分。并對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利指標(biāo)分布進(jìn)行可視化對比,查看兩個分布在統(tǒng)計量上的特點(diǎn),進(jìn)一步從分布統(tǒng)計量角度解釋兩個分布存在哪些差異。最后根據(jù)轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利指標(biāo)差異性檢驗的結(jié)果,解釋指標(biāo)約減的結(jié)果。
以往研究使用預(yù)測模型準(zhǔn)確率的提升來證明保留指標(biāo)的合理性。本研究在此基礎(chǔ)上,通過檢驗指標(biāo)在轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利之間分布上的差異,進(jìn)一步驗證了保留指標(biāo)的合理性。同時,通過指標(biāo)分布可視化比查看具體差異特點(diǎn),增強(qiáng)了指標(biāo)約減結(jié)果的可解釋性。
為提高專利可轉(zhuǎn)讓性評估的效率,本文選擇機(jī)器學(xué)習(xí)中應(yīng)用較為廣泛的全連接神經(jīng)網(wǎng)絡(luò)、XGBoost(eXtreme Gradient Boosting)和SVM(Support Vector Machine),并進(jìn)行性能對比,選擇性能最優(yōu)的模型作為專利可轉(zhuǎn)讓性評價的評估模型。
全連接神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層和輸出層組成。每層神經(jīng)元之間設(shè)置權(quán)重與偏置,并通過反向傳播算法對其進(jìn)行更新。同時每個神經(jīng)元設(shè)置激活函數(shù),這種結(jié)構(gòu)使得全連接神經(jīng)網(wǎng)絡(luò)具有良好的非線性擬合能力[23]。
XGBoost是通常以樹模型為基模型的加法模型。其核心思想是不斷添加樹模型,并且不斷通過特征分裂來生成一棵樹。通過對得到k顆樹進(jìn)行集成,得到具有良好性能的預(yù)測模型[24]。
SVM的基本思路是尋找一個最優(yōu)分類超平面,使兩類間相鄰最近樣本點(diǎn)間的邊緣最大化。SVM可以通過核函數(shù)進(jìn)行非線性分類[23]。
通過對比3個機(jī)器學(xué)習(xí)模型在數(shù)據(jù)集上的性能表現(xiàn),選擇出評估專利可轉(zhuǎn)讓性的最優(yōu)模型?;跈C(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓評估模型構(gòu)建過程如下:
首先,構(gòu)建機(jī)器學(xué)習(xí)模型所需數(shù)據(jù)集。將約減后的評價指標(biāo)數(shù)據(jù)作為機(jī)器學(xué)習(xí)模型的輸入,并從預(yù)處理后的專利數(shù)據(jù)中提取專利轉(zhuǎn)讓信息來評估專利可轉(zhuǎn)讓性。將專利至少存在一次機(jī)構(gòu)間轉(zhuǎn)讓視為轉(zhuǎn)讓專利[20],將其標(biāo)簽設(shè)置為1;其余專利標(biāo)簽設(shè)置為0。0和1作為機(jī)器學(xué)習(xí)模型對應(yīng)的輸出。
其次,并按照時間先后順序,將數(shù)據(jù)劃分為訓(xùn)練集與測試集。其中訓(xùn)練集用于訓(xùn)練模型,測試集用于評估模型的泛化能力。
然后,使用訓(xùn)練集訓(xùn)練全連接神經(jīng)網(wǎng)絡(luò)、XGBoost和SVM模型,并利用測試集評估3種機(jī)器學(xué)習(xí)模型的性能。
最后,對比3種機(jī)器學(xué)習(xí)模型在準(zhǔn)確度、精確度、召回率與F1分?jǐn)?shù)這四個評估指標(biāo)上的表現(xiàn),選擇泛化能力最優(yōu)的模型作為評估專利可轉(zhuǎn)讓性的最優(yōu)模型。
本文以檢索式TAB=(“AI” OR “artificial intelligence*” OR “computer vision*” OR “machine learning*” OR “deep learning*” OR “reinforcement learning*” OR “NLP” OR “natural language processing*” OR “smart robot*” OR “intelligent robot*” OR “speech recognition*” OR “voice recognition*” OR “big data*” OR “cloud computing*”) AND PY>=(2007) AND PY<=(2017)在DI中選擇USPTO專利數(shù)據(jù)庫檢索人工智能技術(shù)相關(guān)授權(quán)專利,共檢索到15 844條專利數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗得到13 764條專利數(shù)據(jù)。提取評估專利可轉(zhuǎn)讓性相關(guān)指標(biāo)后,得到專利指標(biāo)數(shù)據(jù)集,記為數(shù)據(jù)集1。
按照年份對數(shù)據(jù)集1劃分,得到2007—2016年的專利(數(shù)據(jù)集2)與2017年專利(數(shù)據(jù)集3)。然后將數(shù)據(jù)集2按照專利是否轉(zhuǎn)讓,劃分為未轉(zhuǎn)讓專利(數(shù)據(jù)集4)與轉(zhuǎn)讓專利(數(shù)據(jù)集5)。數(shù)據(jù)獲取情況如表1所示。
表1 數(shù)據(jù)獲取情況
首先根據(jù)我們構(gòu)建的專利可轉(zhuǎn)讓性評價指標(biāo)體系,從專利數(shù)據(jù)集2中提取并計算相應(yīng)數(shù)據(jù)構(gòu)建符合機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集。
然后利用基于機(jī)器學(xué)習(xí)的指標(biāo)約減算法對17個指標(biāo)進(jìn)行約減,步驟如下。
步驟1:確定最佳機(jī)器學(xué)習(xí)模型
利用全部17個指標(biāo)數(shù)據(jù)分別對全連接神經(jīng)網(wǎng)絡(luò)、XGBoost和SVM模型進(jìn)行訓(xùn)練,通過嘗試的方式得到3個機(jī)器學(xué)習(xí)模型最佳的參數(shù)。
全連接神經(jīng)網(wǎng)絡(luò)的超參數(shù)為:設(shè)置4個神經(jīng)元個數(shù)為32的隱藏層,每個隱藏層的隨機(jī)失活率設(shè)置為0.2。優(yōu)化器為SGD,損失函數(shù)為交叉熵?fù)p失函數(shù),迭代次數(shù)設(shè)置為200;XGBoost模型的最佳參數(shù)為:基模型設(shè)置為gbtree,學(xué)習(xí)率設(shè)置為0.1,樹的最大深度為6,n_estimators設(shè)置為100;SVM的超參數(shù)為:懲罰系數(shù)設(shè)置為1,核函數(shù)為rbf,gamma值設(shè)置為0.2。
在交叉驗證中,4個機(jī)器學(xué)習(xí)模型在驗證集上的預(yù)測準(zhǔn)確率均值與方差如表2所示。
表2 驗證集的預(yù)測準(zhǔn)確率均值與方差
由表2可以看出,XGBoost的預(yù)測準(zhǔn)確率均值最高,比排名第2的全連接神經(jīng)網(wǎng)絡(luò)高出5.58%。SVM的預(yù)測準(zhǔn)確率方差最小。預(yù)測準(zhǔn)確率均值代表模型的性能,方差代表預(yù)測的穩(wěn)定性,綜合這兩個因素,選擇XGBoost作為指標(biāo)約減算法中的機(jī)器學(xué)習(xí)模型。
步驟2:計算影響系數(shù)
表3 指標(biāo)重要程度排序
步驟3:根據(jù)指標(biāo)對模型準(zhǔn)確率的提升效果確認(rèn)保留指標(biāo)
通過上一步我們得到各指標(biāo)按照影響系數(shù)值升序排序的指標(biāo)重要程度列表。然后建立保留指標(biāo)列表H,用于存放保留指標(biāo)。
首先,從指標(biāo)重要程度列表指標(biāo)中,按照其重要程度逐個添加至保留指標(biāo)列表。當(dāng)指標(biāo)Ci添加至保留指標(biāo)列表H中,H與標(biāo)簽構(gòu)建的XGBoost模型預(yù)測準(zhǔn)確率均值得到提升,則確認(rèn)將此指標(biāo)添加到保留指標(biāo)列表。然后,繼續(xù)從指標(biāo)重要程度列表的開始繼續(xù)嘗試向保留指標(biāo)列表添加指標(biāo)。當(dāng)添加指標(biāo)Ci后的H與標(biāo)簽L構(gòu)建的XGBoost模型的預(yù)測準(zhǔn)確率均值沒有得到提升時,則繼續(xù)嘗試向保留指標(biāo)列表H中添加指標(biāo)Ci的下一個指標(biāo)。直至嘗試將指標(biāo)重要程度列表的最后一個指標(biāo)添加至保留指標(biāo)列表時,也沒有使模型的預(yù)測準(zhǔn)確率均值帶來提升時,算法結(jié)束。最后,我們得到了保留指標(biāo)結(jié)果如表4所示,為專利權(quán)人專利數(shù)、專利權(quán)人類型、引證專利數(shù)、審查時長、同族國家數(shù)、專利權(quán)人數(shù)量、第一發(fā)明人專利數(shù)、優(yōu)先權(quán)數(shù)量、發(fā)明人專利數(shù)和科學(xué)關(guān)聯(lián)度。根據(jù)每次添加保留指標(biāo)的預(yù)測準(zhǔn)確率均值,繪制準(zhǔn)確率提升曲線圖如圖2所示。
從表4可以看出,約減后的10個指標(biāo)中4個來自主體維度,3個來自技術(shù)維度,2個來自法律維度,1個來自經(jīng)濟(jì)維度。在對保留指標(biāo)的遞歸過程中,模型的預(yù)測準(zhǔn)確率均值由67.19%上升到73.72%,相比于所有指標(biāo)下預(yù)測準(zhǔn)確率均值73.16%,提升了0.56%。通過指標(biāo)約減去除掉評估專利可轉(zhuǎn)讓性的冗余指標(biāo),模型的預(yù)測準(zhǔn)確率得到提升。
圖2 根據(jù)保留指標(biāo)遞歸添加的預(yù)測準(zhǔn)確率提升曲線
表4 根據(jù)保留指標(biāo)遞歸添加的預(yù)測準(zhǔn)確率
原指標(biāo)約減算法按照重要程度列表中指標(biāo)順序逐個添加指標(biāo),當(dāng)添加指標(biāo)后準(zhǔn)確率大于上一次,則保留此指標(biāo)。按照原算法得到的準(zhǔn)確率提升曲線如圖3所示。
圖3 原算法根據(jù)保留指標(biāo)遞歸添加的預(yù)測準(zhǔn)確率提升曲線
從圖3可以看出,按照原算法保留指標(biāo)除了本文使用改進(jìn)后約減算法得到的10個指標(biāo)外,還包括了IPC數(shù)量和獨(dú)立權(quán)利要求數(shù)。而這兩個指標(biāo)的保留是由于添加上一個指標(biāo)使得準(zhǔn)確率下降導(dǎo)致的。使用原算法得到的保留指標(biāo),計算其預(yù)測準(zhǔn)確率均值為73.56%,低于改進(jìn)后算法得到保留指標(biāo)下的預(yù)測準(zhǔn)確率均值73.72%。所以這兩個指標(biāo)是冗余的,進(jìn)而表明改進(jìn)后的指標(biāo)約減算法效果更好。
為了從指標(biāo)統(tǒng)計分布的角度探究這些指標(biāo)被保留的原因。選取保留指標(biāo)在數(shù)據(jù)集4與數(shù)據(jù)集5中的數(shù)據(jù),然后利用差異檢驗檢驗二者分布是否存在差異。
由于各約減后指標(biāo)的分布不全符合正態(tài)分布,所以本文選用非參數(shù)檢驗U檢驗來檢驗不同指標(biāo)下轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利的數(shù)據(jù)分布是否存在差異。檢驗結(jié)果如表5所示。檢驗p值小于0.05時,被認(rèn)為存在差異。
表5 指標(biāo)差異性檢驗結(jié)果
由表5可知,保留指標(biāo)均被U檢驗檢驗為存在分布差異。這些指標(biāo)被檢驗存在差異,說明有充分理由認(rèn)為這些指標(biāo)數(shù)據(jù)集中轉(zhuǎn)讓專利數(shù)據(jù)與未轉(zhuǎn)讓專利數(shù)據(jù)來自不同的分布,進(jìn)而表明這些指標(biāo)有助于機(jī)器學(xué)習(xí)模型對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利進(jìn)行劃分。
為了進(jìn)一步分析保留指標(biāo)數(shù)據(jù)集下轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利兩個分布存在哪些差異,本文計算分布統(tǒng)計量并進(jìn)行分布可視化,分析同一指標(biāo)下兩個分布存在哪些特點(diǎn)。轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在各個指標(biāo)下的統(tǒng)計量,結(jié)果如表6所示。
為對比轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在同一指標(biāo)下的分布情況,我們進(jìn)行了指標(biāo)分布對比分析,部分指標(biāo)分布對比結(jié)果如圖4和表7所示。
圖4 專利權(quán)人專利數(shù)對比圖
對專利權(quán)人專利數(shù)進(jìn)行分布可視化后得到圖4。圖4中箱線圖中上面為轉(zhuǎn)讓專利指標(biāo)箱線圖,下面為未轉(zhuǎn)讓專利指標(biāo)箱線圖。其中三角點(diǎn)代表均值,圓點(diǎn)為算法檢測的異常點(diǎn)。右邊相對應(yīng)的為轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利指標(biāo)分布直方圖。
表6 轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利各指標(biāo)統(tǒng)計量對比
由圖4可知,未轉(zhuǎn)讓專利的中位數(shù)比轉(zhuǎn)讓專利高19,均值高159.57。而轉(zhuǎn)讓專利的上四分位比未轉(zhuǎn)讓專利高208。
對專利權(quán)人類型中各類型專利權(quán)人的數(shù)量與占比進(jìn)行統(tǒng)計得到表7。
表7 專利權(quán)人類型對比
由表7可知, 轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利中專利權(quán)人為企業(yè)的占比均超過85%。在轉(zhuǎn)讓專利中機(jī)構(gòu)合作的占比高于未轉(zhuǎn)讓專利,所占比例超過未轉(zhuǎn)讓專利的2倍。轉(zhuǎn)讓專利中高校和科研機(jī)構(gòu)的占比均低于未轉(zhuǎn)讓專利。
綜上可知,專利權(quán)人專利數(shù)、專利權(quán)人類型、引證專利數(shù)、審查時長、同族國家數(shù)、專利權(quán)人數(shù)量、第一發(fā)明人專利數(shù)、優(yōu)先權(quán)數(shù)量、發(fā)明人專利數(shù)和科學(xué)關(guān)聯(lián)度在轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利直接存在差異。被檢測存在差異的指標(biāo)說明該指標(biāo)更有助于機(jī)器學(xué)習(xí)模型對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利進(jìn)行分類。這些結(jié)果表明,通過指標(biāo)約減算法,我們?nèi)コ嗽u估專利可轉(zhuǎn)讓性的冗余指標(biāo),并從數(shù)據(jù)分布角度驗證了保留指標(biāo)的合理性。
已有研究表明,不同類型專利權(quán)人由于其在研發(fā)與經(jīng)營策略上存在不同,使得其專利轉(zhuǎn)讓行為存在差異[20]。本文根據(jù)專利權(quán)人特征與發(fā)明人特征構(gòu)建的專利主體維度指標(biāo)反映專利主體的技術(shù)實力與轉(zhuǎn)讓傾向。主體維度四個指標(biāo)均被保留,說明主體維度指標(biāo)對于評估專利可轉(zhuǎn)讓性是非常重要的,這也與已有研究結(jié)果相一致。已有研究也表明,高價值專利更容易發(fā)生轉(zhuǎn)讓[4],評估專利轉(zhuǎn)移潛力的核心因素之一是對其專利價值的識別[25]。在技術(shù)維度中,已有研究認(rèn)為引證專利數(shù)與專利價值有顯著正相關(guān)[26],科學(xué)關(guān)聯(lián)度被認(rèn)為是評估專利價值的核心指標(biāo)[8],專利權(quán)人數(shù)量也多次被用于專利質(zhì)量和價值的評估[27]。在法律維度中,優(yōu)先權(quán)數(shù)量反映了專利組合與布局情況,研究表明實施合理的專利組合與布局策略有利于促進(jìn)技術(shù)專利轉(zhuǎn)化過程中的價值增值[28]。企業(yè)專利的審查時長被認(rèn)為與專利價值呈現(xiàn)正相關(guān)關(guān)系[29]。在經(jīng)濟(jì)維度中,由于高價值專利才值得在不同地域申請保護(hù)[30-31],所以同族國家數(shù)量能夠很好反映專利的經(jīng)濟(jì)價值。
綜上所述,本文約減后得到的專利可轉(zhuǎn)讓性評估指標(biāo)是有效的,這些指標(biāo)是專利可轉(zhuǎn)讓性評估的重要指標(biāo)。
首先,以約減后專利可轉(zhuǎn)讓性評價指標(biāo)體系為依據(jù),從數(shù)據(jù)集2與數(shù)據(jù)集3中提取并計算相應(yīng)指標(biāo)數(shù)據(jù),獲得與約減后專利可轉(zhuǎn)讓性評價指標(biāo)體系相對應(yīng)的符合機(jī)器學(xué)習(xí)模型的專利數(shù)據(jù)來構(gòu)建訓(xùn)練集、驗證集和測試集。其中,數(shù)據(jù)集2為2007—2016年專利數(shù)據(jù),將其按照4∶1的比例隨機(jī)劃分為訓(xùn)練集與驗證集。訓(xùn)練集用于訓(xùn)練機(jī)器學(xué)習(xí)模型,驗證集用于調(diào)整模型參數(shù)。數(shù)據(jù)集3為2017年專利數(shù)據(jù),作為測試集來評估模型的泛化能力。
然后,分別構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)、XGBoost和SVM模型評估專利可轉(zhuǎn)讓性。根據(jù)驗證集評估結(jié)果調(diào)整機(jī)器學(xué)習(xí)模型的參數(shù),全連接神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)變更為240,XGBoost參數(shù)保持不變,SVM的gamma值變更為0.8,3個模型的其余參數(shù)與指標(biāo)約減算法中對應(yīng)模型的參數(shù)保持一致。約減后指標(biāo)對應(yīng)數(shù)據(jù)集下各機(jī)器學(xué)習(xí)模型的性能評估結(jié)果如表8所示。
由表8可知,XGBoost模型在測試集上各評估指標(biāo)的表現(xiàn)均優(yōu)于全連接神經(jīng)網(wǎng)絡(luò)與SVM。使用約減后指標(biāo)數(shù)據(jù)訓(xùn)練的XGBoost模型對于測試集的預(yù)測準(zhǔn)確率為72.36%,總體預(yù)測精確度、召回率和F1分?jǐn)?shù)為72.80%、72.50%和72.29%。綜上,XGBoost為評估專利可轉(zhuǎn)讓性的最優(yōu)模型,具有良好的泛化能力。
表8 約減后指標(biāo)對應(yīng)3種機(jī)器學(xué)習(xí)模型的性能評估結(jié)果
人工智能領(lǐng)域?qū)@赊D(zhuǎn)讓性評估案例表明,本文構(gòu)建的基于機(jī)器學(xué)習(xí)的指標(biāo)約減算法能夠去除掉冗余指標(biāo),使得模型預(yù)測準(zhǔn)確率得到提升;基于約減后的指標(biāo)所構(gòu)建的基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估模型也是可行和有效的,能夠獲得具有良好泛化能力的最優(yōu)評估模型。
面對日益增加的專利數(shù)據(jù),如何快速、準(zhǔn)確地識別出具有可轉(zhuǎn)讓性的專利對于政府部門、大學(xué)、科研機(jī)構(gòu)和企業(yè)的專利管理決策至關(guān)重要。針對目前專利可轉(zhuǎn)讓性評價研究存在的不足,本文提出了一種基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評價方法,并以人工智能技術(shù)領(lǐng)域?qū)@麨檠芯繉ο?,驗證了該方法的可行性和有效性。案例研究發(fā)現(xiàn):a.專利權(quán)人專利數(shù)、專利權(quán)人類型、引證專利數(shù)、審查時長、同族國家數(shù)、專利權(quán)人數(shù)量、第一發(fā)明人專利數(shù)、優(yōu)先權(quán)數(shù)量、發(fā)明人專利數(shù)和科學(xué)關(guān)聯(lián)度對于轉(zhuǎn)讓專利和非轉(zhuǎn)讓專利具有明顯的區(qū)分度。其中,主體維度的指標(biāo)均被保留,說明主體維度指標(biāo)對于評估專利可轉(zhuǎn)讓性是非常重要的。b.基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估模型,使用約減后的評價指標(biāo),模型具有較好的泛化能力,模型分類準(zhǔn)確率達(dá)到72.36%,可以較好地對專利的可轉(zhuǎn)讓性進(jìn)行評估。
本文的主要貢獻(xiàn)是提出了一種基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估方法。首先,將機(jī)器學(xué)習(xí)方法引入指標(biāo)約減算法中,構(gòu)建基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估指標(biāo)約減算法,對專利可轉(zhuǎn)讓性評價指標(biāo)體系進(jìn)行指標(biāo)約減,剔除冗余指標(biāo)來提升機(jī)器學(xué)習(xí)模型的泛化能力。同時利用非參數(shù)檢驗方法來解釋指標(biāo)約減結(jié)果的合理性,進(jìn)而得到一套專利可轉(zhuǎn)讓性評估指標(biāo)體系。其次,雖然本文是以人工智能領(lǐng)域2007-2017年的歷史專利數(shù)據(jù),驗證了基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估模型的可行性和有效性,但該模型的輸入指標(biāo)一經(jīng)專利授權(quán)即可獲取,因此當(dāng)新專利(2022年授權(quán)的專利)數(shù)據(jù)輸入模型時,模型可對輸入專利的可轉(zhuǎn)讓性進(jìn)行評估。因此,該模型不僅為人工智能領(lǐng)域?qū)@赊D(zhuǎn)讓性評估提供了可行和有效的方法,也為其它領(lǐng)域的專利可轉(zhuǎn)讓性評估提供方法支持。此外,本文所提出的機(jī)器學(xué)習(xí)模型框架是開放的,可以利用不同的機(jī)器學(xué)習(xí)算法來對某領(lǐng)域歷史的轉(zhuǎn)讓專利和未轉(zhuǎn)讓專利進(jìn)行分析,并獲取專利特征與專利轉(zhuǎn)讓之間的關(guān)系模式。當(dāng)該領(lǐng)域新的授權(quán)專利一經(jīng)公開,就可以獲取專利的特征數(shù)據(jù),并可以利用機(jī)器學(xué)習(xí)模型來對其轉(zhuǎn)讓的可能性進(jìn)行評估,從而為早期識別專利可轉(zhuǎn)讓性提供了可能。因此,基于機(jī)器學(xué)習(xí)的專利可轉(zhuǎn)讓性評估方法為專利可轉(zhuǎn)讓性評估提供了新的研究方法。