孫 冉 安 璐,2* 李 綱,2
(1.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072;2.武漢大學(xué)信息資源研究中心,湖北 武漢 430072)
科技創(chuàng)新是衡量企業(yè)和國家(地區(qū))實力的重要指標(biāo),專利數(shù)據(jù)中包含大量的前沿技術(shù)信息,企業(yè)所擁有的專利可以用來衡量企業(yè)的技術(shù)創(chuàng)新能力?!笆奈濉币?guī)劃和2035年遠(yuǎn)景目標(biāo)綱要明確提出:優(yōu)化專利資助獎勵政策和考核評價機(jī)制,更好保護(hù)和激勵高價值專利,培育專利密集型產(chǎn)業(yè)[1]。近來,國家知識產(chǎn)權(quán)局明確將戰(zhàn)略性新興產(chǎn)業(yè)、在海外有同族專利權(quán)、維持年限超過10年、實現(xiàn)較高質(zhì)押融資金額、獲得國家科學(xué)技術(shù)獎或中國專利獎的有效發(fā)明專利看成高價值發(fā)明專利。
在以往的研究中,有關(guān)專利價值的界定較為模糊,多將其劃分為經(jīng)濟(jì)價值、技術(shù)價值、市場價值、法律價值、使用價值、戰(zhàn)略價值等,基于價值分類的基礎(chǔ)上,不同學(xué)者在自身學(xué)科背景視角下,結(jié)合不同的理論和方法構(gòu)建專利價值評價指標(biāo)體系,探討不同的影響因素和專利價值之間的相關(guān)性,而缺少對專利價值進(jìn)行前瞻性的預(yù)測,現(xiàn)有的專利價值預(yù)測研究多以已經(jīng)獲獎的國內(nèi)專利為研究對象,預(yù)測模型不適用于對大規(guī)模專利數(shù)據(jù)進(jìn)行價值預(yù)測,并且不同領(lǐng)域中指標(biāo)的適用性并不一致。本文擬解決以下幾個研究問題:①如何抽取海量專利信息中的特征,構(gòu)建多特征融合的專利價值預(yù)測模型,快速有效地進(jìn)行專利價值預(yù)測;②不同指標(biāo)在專利價值預(yù)測中的重要性。
根據(jù)IPlystics發(fā)布的報告《Who is Leading the 5G Patent Race?》顯示,各國(地區(qū))向歐洲電信標(biāo)準(zhǔn)協(xié)會(ETSI)申報的5G專利達(dá)到95 526項,其中,中國企業(yè)聲明的5G專利占比32.97%,擁有5G同族專利數(shù)最高的公司分別為華為(中國)、高通(美國)、中興(中國)、三星(韓國)、諾基亞(芬蘭),屬于5G技術(shù)的重要支柱[2]。隨著我國移動通信技術(shù)從2G發(fā)展到第五代移動通信技術(shù)(5G),準(zhǔn)確識別國內(nèi)外5G專利價值的需求與日俱增。
以5G專利為例,深入研究專利價值預(yù)測對企業(yè)、國家(地區(qū))實施專利戰(zhàn)略布局具有重要意義。因此,本文取國內(nèi)外的5G專利作為數(shù)據(jù)樣本,利用Logistic模型來分析國內(nèi)外5G技術(shù)的生命周期,基于BERT模型對專利標(biāo)題的文本語義信息進(jìn)行特征提取,構(gòu)建基于技術(shù)特征、法律特征、市場特征、專利權(quán)人特征、專利標(biāo)題的文本語義特征的專利價值預(yù)測特征體系,采用傳統(tǒng)機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、決策樹、XGBoost等)和深度學(xué)習(xí)模型(如CNN、RNN等)構(gòu)建專利價值預(yù)測模型,并探究技術(shù)特征、法律特征、市場特征、專利權(quán)人特征、專利標(biāo)題的文本語義特征在專利價值預(yù)測上的表現(xiàn)。
目前,有關(guān)專利價值前瞻性預(yù)測的研究較少,不同學(xué)者多從各自的學(xué)科視角出發(fā),圍繞專利價值指標(biāo)體系、方法對專利價值展開研究。由于專利價值具有模糊性、多維性、未知性,不同學(xué)者基于不同的背景對專利價值進(jìn)行界定,比如從市場應(yīng)用情況、專利申請規(guī)模、專利占有率、政策實用性等評價專利創(chuàng)造的經(jīng)濟(jì)價值[3];從專利技術(shù)本身的特點出發(fā),可將其劃分為內(nèi)在價值和外在價值[4-5];現(xiàn)多從專利需求出發(fā),將其劃分為技術(shù)價值、法律價值和經(jīng)濟(jì)價值[6-7]。有學(xué)者提出可用專利引文信息來衡量專利技術(shù)的價值[8],由于可能會存在專利“睡美人”現(xiàn)象,不能通過引文信息全面準(zhǔn)確地判斷專利價值。
隨后,學(xué)者不斷從市場價值、經(jīng)濟(jì)價值、法律價值、商業(yè)價值等方面對專利價值指標(biāo)體系進(jìn)行補(bǔ)充完善,Reitzig M[9]基于價值決定理論提出專利價值的影響因素包括專利生命周期、新穎性和創(chuàng)造性、技術(shù)寬度、專利功能性、排他權(quán)利、討價還價等。除此之外,專利價值的影響因素還包括專利的長度、技術(shù)生命周期、專利訴訟、專利族、權(quán)利要求數(shù)、專利權(quán)人特征[10-11],不同行業(yè)領(lǐng)域的專利價值指標(biāo)也有所不同[6]。專利權(quán)人可以通過轉(zhuǎn)讓、質(zhì)押、許可等方式,實現(xiàn)顯性知識轉(zhuǎn)移,而知識水平的提升則是促進(jìn)經(jīng)濟(jì)發(fā)展的主要因素,即擁有更多知識的公司在企業(yè)競爭優(yōu)勢上勝過其他公司,能有效開發(fā)利用其知識資產(chǎn)的地區(qū)表現(xiàn)更好[12]。有關(guān)專利轉(zhuǎn)讓的研究多圍繞專利轉(zhuǎn)讓模式、專利轉(zhuǎn)讓網(wǎng)絡(luò)結(jié)構(gòu)分析、專利技術(shù)轉(zhuǎn)移等視角進(jìn)行展開。國內(nèi)多將專利轉(zhuǎn)讓作為專利價值指標(biāo)體系中的一部分,劉勤等[10]基于“四位一體”的高價值專利分析理念,將專利轉(zhuǎn)讓作為一個指標(biāo)來構(gòu)建專利價值預(yù)測模型。
有關(guān)專利價值評估方法主要可分為3類:①市場基準(zhǔn)方法,Wu M C[13]基于實物期權(quán)框架探索專利價值的影響因素,發(fā)現(xiàn)降低成本、提高專利數(shù)量和提高創(chuàng)新效率能為公司增加專利價值;②綜合評價法,以往學(xué)者多利用專家法對專利技術(shù)覆蓋范圍、產(chǎn)品市場價值、專利運營等方面進(jìn)行基于主觀經(jīng)驗的發(fā)展評估[14],現(xiàn)在多結(jié)合層次分析法、模糊評價法等進(jìn)行綜合評價[15]。Hsieh C H[16]提出一種基于因子分析來評估專利價值和確定商業(yè)化初期戰(zhàn)略的混合方法。但不論是市場基準(zhǔn)法還是綜合評價法,都具有一定的主觀性,沒有統(tǒng)一的評判標(biāo)準(zhǔn);③機(jī)器學(xué)習(xí)技術(shù),為了更好地理解不同指標(biāo)對專利價值的影響,可用機(jī)器學(xué)習(xí)技術(shù)篩選出專利價值預(yù)測的關(guān)鍵指標(biāo)[17]。楊冠燦等[18]基于矩陣轉(zhuǎn)化方法,提出一種專利綜合引用網(wǎng)絡(luò)構(gòu)建方法來進(jìn)行專利價值評價。張杰等[19]采用AdaBoost算法構(gòu)建基于法律、技術(shù)和市場質(zhì)量的專利質(zhì)量評價模型,能識別出大部分轉(zhuǎn)讓專利為高質(zhì)量專利。Trappey A J C等[20]利用主成分分析方法從專利數(shù)據(jù)集中識別重要的專利價值指標(biāo),再構(gòu)建基于PCA預(yù)處理的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行專利價值的智能估算。結(jié)合貨幣價值和專利價值的隨機(jī)森林方法來預(yù)測技術(shù)價值,比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法具有更高的性能[21]。
綜上所述,學(xué)界對專利價值預(yù)測還處于探索階段,大部分學(xué)者提出的專利價值預(yù)測指標(biāo)體系中的指標(biāo)較為零散,同時,不同領(lǐng)域下的價值指標(biāo)體系應(yīng)該有所不同,尤其是針對5G這樣的高新技術(shù),標(biāo)準(zhǔn)必要專利更強(qiáng)調(diào)專利的技術(shù)屬性。本研究擬將專利生命周期相關(guān)理論和方法應(yīng)用到價值預(yù)測中,分別從外部因素和內(nèi)部因素將專利價值劃分為市場價值和法律價值、技術(shù)價值、專利權(quán)人價值和專利文本語義特征,構(gòu)建包含技術(shù)特征、法律特征、市場特征、專利權(quán)人特征和專利文本語義特征的專利價值預(yù)測模型,有助于高新企業(yè)、科研機(jī)構(gòu)和知識產(chǎn)權(quán)管理部門識別價值較高的專利。
2.1.1 技術(shù)特征
專利的引證次數(shù)、專利被引證次數(shù)、專利對科技文獻(xiàn)的引證與專利價值顯著相關(guān)[22],但也有研究表明專利被引頻次與專利價值基本無關(guān)[23]。最早Lerner J[24]研究發(fā)現(xiàn)了公司的市場價值與公司所擁有專利的IPC分類號數(shù)量之間的相關(guān)性,但后續(xù)有研究表明,IPC分類號的數(shù)量對專利的價值沒有顯著影響[25]。本文將繼續(xù)評估IPC分類號的數(shù)量在預(yù)測5G專利價值中的重要性,并將專利技術(shù)寬度定義為專利所包含的IPC分類號的數(shù)量。在高新技術(shù)領(lǐng)域內(nèi),專利權(quán)人為了通過標(biāo)準(zhǔn)的實施獲取更多的許可利潤以及占據(jù)市場競爭優(yōu)勢,往往會將關(guān)鍵專利納入標(biāo)準(zhǔn)中,因此形成了標(biāo)準(zhǔn)必要專利(SEP),可用其來衡量國家(地區(qū))或企業(yè)在5G專利中的競爭力。5G標(biāo)準(zhǔn)是由標(biāo)準(zhǔn)化組織3GPP統(tǒng)一制定。本研究將專利是否符合5G標(biāo)準(zhǔn)和專利符合的ETSI標(biāo)準(zhǔn)數(shù)作為指標(biāo)考慮在內(nèi),其中,ETSI認(rèn)定的5G標(biāo)準(zhǔn)主要包括5G、3GPP 5G NR、3GPP-Release-15等,對于不符合5G標(biāo)準(zhǔn)的專利,若其符合3G或者4G標(biāo)準(zhǔn),則表明該項專利也具有較高的價值,因此將專利符合的ETSI標(biāo)準(zhǔn)數(shù)也考慮在內(nèi)。在不同的技術(shù)領(lǐng)域內(nèi),專利處在不同技術(shù)生命周期發(fā)展階段會對專利價值造成不同程度的影響[26]。同時有學(xué)者研究發(fā)現(xiàn),發(fā)明人特征也能顯著影響到專利生產(chǎn)力[27]。
2.1.2 法律特征
本文從專利權(quán)利保護(hù)范圍、地域保護(hù)范圍、時間保護(hù)范圍等角度來衡量專利價值。其中,專利的權(quán)利要求數(shù)能確定專利的保護(hù)范圍,而保護(hù)范圍越大,專利價值越大[28]。權(quán)利要求數(shù)、專利的壽命、同族專利數(shù)對專利價值評估具有顯著影響力[21-22]。專利壽命也是評估專利價值的維度之一[29]。在專利生命周期的各個階段中,專利代理人會為委托人撰寫高質(zhì)量的申請文件,從而更好地保護(hù)專利權(quán)人的法律權(quán)益,因此,本文將專利是否委托代理機(jī)構(gòu)納入特征體系中。專利權(quán)人通過在不同國家(地區(qū))申請專利權(quán)來獲得更大地域范圍的法律保護(hù),專利同族國家(地區(qū))范圍越大,專利的法律價值越高[19]。
2.1.3 市場特征
以往的研究多從專利同族成員數(shù)量、同族總被引數(shù)量、同族國家(地區(qū))數(shù)、國民經(jīng)濟(jì)分類方面考察專利的市場價值。專利族的規(guī)模越大,表示其應(yīng)用范圍越寬,市場占有能力越強(qiáng)。與專利被引證數(shù)類似,同族專利的總被引數(shù)越多,則表明專利價值越高。同時,專利合作條約(PCT)是為了方便申請人同時在國際上對其發(fā)明尋求國際專利保護(hù),本文將專利是否申請PCT作為評估專利價值的市場特征之一。國民經(jīng)濟(jì)分類號可以體現(xiàn)專利技術(shù)在國民經(jīng)濟(jì)的分布情況,從而在一定程度上反映專利質(zhì)量的高低。
2.1.4 專利權(quán)人特征
專利等知識產(chǎn)權(quán)的狀況可以衡量企業(yè)競爭力[30],相比高校、研究所等科研機(jī)構(gòu),企業(yè)專利權(quán)人有快速實現(xiàn)專利轉(zhuǎn)化的條件,并且收益快、回報高,而國內(nèi)私營企業(yè)和外國企業(yè)、大企業(yè)和小企業(yè)的專利發(fā)明價值之間也存在較大的差異[31]。同時,專利價值在一定程度上具有內(nèi)生性,專利權(quán)人在專利研發(fā)、起草和實施階段投入不同的精力會影響專利權(quán)的強(qiáng)度,進(jìn)而增加專利的總價值,而且與大公司相比,專利為個人賺取的回報較少[32]。對于高校專利而言,專利價值可以通過被許可或出售給企事業(yè)單位來實現(xiàn)。因此,本文將專利權(quán)人分為個人、企業(yè)、科研單位、大專院校、機(jī)關(guān)團(tuán)體、合作團(tuán)體(由兩種不同的專利權(quán)人組成),并將專利權(quán)人的地域位置按照國家(地區(qū))進(jìn)行劃分。
2.1.5 專利標(biāo)題的文本語義特征
本文應(yīng)用BERT模型[33]來提取專利標(biāo)題的文本語義特征,如圖1所示。采用預(yù)訓(xùn)練BERT模型中的漢語版本“bert-base-chinese”,其網(wǎng)絡(luò)結(jié)構(gòu)為12層、隱藏層中有768個神經(jīng)單元、12個頭模式和110M參數(shù)。BERT模型的輸入為每條專利的標(biāo)題,進(jìn)行向量化表示并用于BERT模型的訓(xùn)練,最終得到每條專利的特征向量與分類標(biāo)簽共同組成分類器的輸入進(jìn)行最終的分類。
圖1 基于BERT模型的文本語義特征向量提取
基于此,本文構(gòu)建的專利價值預(yù)測指標(biāo)體系包含專利技術(shù)特征、法律特征、市場特征、專利權(quán)人特征、文本語義特征,如表1所示。
表1 專利價值預(yù)測的指標(biāo)體系
本研究中使用的專利數(shù)據(jù)來源于Incopat專利數(shù)據(jù)庫(https://www.incopat.com)。該數(shù)據(jù)庫收錄了全球120個國家/組織/地區(qū)1億余件專利信息,專利數(shù)據(jù)字段全面,更新及時。本文在選擇樣本數(shù)據(jù)時,參考中國信通院權(quán)威發(fā)布的5G概念白皮書[34],設(shè)置檢索式為TIABC=(5G OR the fifth generation OR the 5th generation OR Missive Mimo OR Ultra Dense Network OR PDMA OR Pattern Division Multiple Access OR NOMA OR Non Orthogonal Multiple Access OR SCMA OR Sparse Code Multiple Access PR MUSA OR Multi-User Shared Access OR Full Spectrum Access OR Software Defined Network OR SDN OR Network Function Virtualization OR NFV OR Device-to-Device OR D2D OR Filtered-OFDM OR F-OFDM OR FBMC OR Millimeter Wave OR Q-ary LDPC OR Cloud Computing)AND IPC=H04*,設(shè)置專利檢索時間范圍為1997—2019年,分別獲得國內(nèi)、國外專利數(shù)13 288件、25 539件,獲取的數(shù)據(jù)包括專利基本信息、專利家族信息、專利引文信息、專利權(quán)人信息等。
通過實施、許可、質(zhì)押、轉(zhuǎn)讓方式獲取經(jīng)濟(jì)利益是專利價值實現(xiàn)的主要途徑,是否為轉(zhuǎn)讓專利可作為專利價值的代理變量[19]。其中,專利轉(zhuǎn)讓、許可或質(zhì)押狀態(tài)是指專利權(quán)人是否將專利轉(zhuǎn)讓、許可或質(zhì)押給他人使用。本文將至少滿足以下3個要求的有效專利標(biāo)記為高價值專利:①在海外有同族專利權(quán);②曾經(jīng)發(fā)生轉(zhuǎn)讓(個人或者科研機(jī)構(gòu)轉(zhuǎn)讓給企業(yè))/許可/質(zhì)押;③符合戰(zhàn)略性新興產(chǎn)業(yè)分類;④維持年限超過10年。其余的專利標(biāo)記為非高價值專利。標(biāo)記后數(shù)據(jù)集中包含高價值的有效專利樣本2 664個,非高價值的有效專利樣本14 921個。本文采用SMOTE算法[35]均衡正負(fù)樣本數(shù)量。
Foster R N[36]提出,用S曲線模型來表征技術(shù)發(fā)展階段,并且將其分為萌芽期、成長期、成熟期以及衰退期,國內(nèi)外學(xué)者廣泛采用Logistic模型來呈現(xiàn)技術(shù)的生命周期[37],預(yù)測技術(shù)發(fā)展趨勢和技術(shù)成熟度。模型的計算公式如式(1)所示:
(1)
(2)
其中,m代表模型生成的CART樹棵數(shù)。F表示所有可能的CART樹,fm(xi)表示CART樹m的分類結(jié)果。
特征重要性是一種為預(yù)測模型的輸入特征進(jìn)行評分的方法,可以揭示進(jìn)行預(yù)測時每個特征的相對重要性。SHapley Additive exPlanation(SHAP)[39]解釋方法的基本原理是計算每個特征對模型的邊際貢獻(xiàn),然后計算該特征在所有特征序列中不同的邊界貢獻(xiàn),最后該特征所有邊際貢獻(xiàn)的均值即為SHAP值。SHAP解釋方法可以反映出專利樣本的特征的正負(fù)影響力。
假設(shè)模型基準(zhǔn)分(所有樣本的目標(biāo)變量的均值)為ybase,第i個樣本為xi,第i個樣本的第j個特征為xij,特征的邊際共現(xiàn)為msij,邊的權(quán)重為wk,模型對該樣本的預(yù)測值為yi,則第i個樣本的第1個特征的SHAP值f(xi1)如式(3)所示,同時SHAP值要服從式(4)。
(3)
(4)
本文使用Loglet Lab 4軟件對5G技術(shù)的國內(nèi)外專利增長數(shù)據(jù)按照S型曲線進(jìn)行擬合,得到模型參數(shù)的擬合統(tǒng)計結(jié)果如表2所示。各國(地區(qū))5G技術(shù)S曲線擬合優(yōu)度R2值分均大于0.92,表示5個模型的擬合效果均較好。
表2 5G技術(shù)擬合結(jié)果統(tǒng)計表
S曲線擬合如圖2(a)所示。從表2和圖2可以看出,各國5G技術(shù)的萌芽期為2006—2013年,隨后在2013年逐漸步入成長期,到2025年開始步入成熟期,預(yù)計在2032年進(jìn)入衰退期。模型預(yù)測中國、美國、韓國、日本的5G技術(shù)的最大累計申請量分別為32 652件、20 121件、18 411件、5 250件。5G專利申請量增長速度如圖2(b)所示,中國和其他國家(地區(qū))申請5G專利的增長速度分別在2016年和2015年達(dá)到峰值,隨后增長速度逐漸下降。
注:(a)圖中的橫坐標(biāo)為年份,縱坐標(biāo)為累計申請專利數(shù)量;(b)圖中的橫坐標(biāo)為年份,縱坐標(biāo)為技術(shù)成熟度,其計算來源于k值。
本文基于BERT模型對專利標(biāo)題的文本信息進(jìn)行特征提取,將輸出的特征向量分別輸入到深度學(xué)習(xí)(CNN、RNN、DPCNN、RCNN)模型。同時,將專利文本語義特征向量融合技術(shù)特征、專利權(quán)人特征、法律特征、市場特征,分別訓(xùn)練并構(gòu)建隨機(jī)森林、決策樹、SVM、XGBoost預(yù)測模型,采用精確率(precision)、召回率(recall)、F1值和準(zhǔn)確度(accuracy)來評估模型的分類效果,如式(5)~(8)所示。
(5)
(6)
(7)
(8)
其中,TP表示高價值專利樣本被預(yù)測為高價值的個數(shù),F(xiàn)P表示低價值專利樣本被預(yù)測為高價值的個數(shù),F(xiàn)N表示高價值專利樣本被預(yù)測為低價值的個數(shù),TN表示低價值專利樣本被預(yù)測為低價值的個數(shù)。
實驗數(shù)據(jù)中訓(xùn)練集、測試集和驗證集的比例為6∶2∶2。深度學(xué)習(xí)模型設(shè)置參數(shù)學(xué)習(xí)率為5e-5、隨機(jī)失活率為0.1、最大文本長度為32、批大小為64。采取Adam優(yōu)化器,通過設(shè)置早停法來避免模型過擬合的問題。實驗環(huán)境為2*Intel(R)Xeon(R)E5-2640 v4 x86_64,2.4GHz,20核心,Nvidia Tesla V100,內(nèi)存16G。采用十折交叉驗證和GridSearchCV(網(wǎng)格搜索)算法進(jìn)行分類器的參數(shù)優(yōu)化。各模型分類結(jié)果如表3所示,基于多特征融合的XGBoost模型在精確率、F1值和準(zhǔn)確度上效果最佳。
表3 模型的評估結(jié)果
為了分析特征對數(shù)據(jù)樣本的影響范圍,本文基于SHAP解釋方法對專利價值預(yù)測結(jié)果進(jìn)行解釋性分析,如圖3所示。其中,紅色和藍(lán)色的樣本點分別代表該樣本在該特征上取值的高和低,SHAP值為負(fù)的樣本點代表特征對該樣本點取對應(yīng)顏色值時的高價值專利概率有負(fù)向貢獻(xiàn)。SHAP值為正的樣本點代表特征對該樣本點取對應(yīng)顏色值時的高價值專利概率有正向貢獻(xiàn)。同族國家(地區(qū))數(shù)、公開國別、被引證次數(shù)、簡單同族個數(shù)、是否委托代理、技術(shù)生命周期、同族被引證次數(shù)、優(yōu)先權(quán)國家(地區(qū))、引證專利數(shù)等特征對模型影響效果較為顯著,被引證次數(shù)、引證專利數(shù)、同族被引證次數(shù)、權(quán)利要求數(shù)量越高,會增加樣本為高價值專利的概率。同族國家(地區(qū))數(shù)較高時,樣本為高價值專利的概率較高,大部分同族國家(地區(qū))數(shù)較低的專利樣本為高價值專利的概率較低。V442、V328、V182等表征專利標(biāo)題文本語義特征的向量維度,文本語義特征的重要性因向量的多維性而較高。
圖3 基于SHAP解釋方法的特征重要性排序(左圖)和特征分析(右圖)
隨后,本文分別選取同族國家(地區(qū))數(shù)、簡單同族個數(shù)、技術(shù)生命周期、同族被引證次數(shù)、IPC分類號數(shù)和國名經(jīng)濟(jì)分類這6個特征繪制SHAP特征依賴圖,如圖4所示。從圖4中可以發(fā)現(xiàn),同族國家(地區(qū))數(shù)和簡單同族個數(shù)較低時,專利為高價值專利的概率越低。簡單同族個數(shù)低于20或者同族國家(地區(qū))數(shù)大于2時,沒有委托代理的樣本為高價值專利的概率越高。處于成熟期的樣本經(jīng)過委托代理為高價值專利的概率較高。隨著同族被引證次數(shù)的增加,樣本為高價值專利的概率增加,當(dāng)同族被引證次數(shù)增加到一定值后,經(jīng)過委托代理為高價值專利的概率比沒有經(jīng)過委托代理的概率高。當(dāng)IPC分類號的個數(shù)為不大于2時,樣本更傾向于為高價值專利,IPC分類號的個數(shù)大于2時,沒有經(jīng)過委托代理的樣本更傾向于為非高價值專利。國民經(jīng)濟(jì)分類為C39(計算機(jī)、通信和其他電子設(shè)備制造業(yè))的樣本經(jīng)過委托代理為高價值專利的概率比沒有經(jīng)過委托代理的高。
圖4 SHAP特征依賴圖
本文針對專利價值預(yù)測問題,以高新技術(shù)5G專利為數(shù)據(jù)樣本,采用S曲線模型方法分析各國5G技術(shù)生命周期。本研究的主要貢獻(xiàn)在于從影響專利價值的內(nèi)部因素和外部因素著手,結(jié)合5G專利的技術(shù)領(lǐng)域特點,基于多種機(jī)器學(xué)習(xí)算法構(gòu)建和評估多特征融合的專利價值預(yù)測模型。隨后,采用SHAP方法評估市場特征、技術(shù)特征、法律特征、專利權(quán)人特征和文本語義特征在專利價值預(yù)測問題中的重要性。
研究發(fā)現(xiàn),各國5G技術(shù)萌芽于2006年,在2013年步入成長期,到2025年開始步入成熟期,預(yù)計在2032年進(jìn)入衰退期?;赬GBoost算法的多特征融合專利價值預(yù)測模型的F1值達(dá)到了0.894,高于其他基線模型,能較為準(zhǔn)確的預(yù)測專利價值,為專利價值預(yù)測領(lǐng)域中指標(biāo)設(shè)計和模型構(gòu)建提供了嘗試。從二級指標(biāo)來看,本文所構(gòu)建的基于同族國家(地區(qū))數(shù)、公開國別、被引證次數(shù)、簡單同族個數(shù)、是否委托代理、技術(shù)生命周期等特征對專利價值預(yù)測顯示出了較強(qiáng)的解釋能力。本文所構(gòu)建的多特征融合的專利價值預(yù)測模型可幫助投資者較為準(zhǔn)確地選擇被預(yù)測為高價值的專利進(jìn)行投資,有效規(guī)避專利價值預(yù)測不準(zhǔn)確所產(chǎn)生的損失。未來可探索該專利價值預(yù)測方法在其他技術(shù)領(lǐng)域的有效性。
致謝:感謝圖書情報國家級實驗教學(xué)示范中心為本研究提供的實驗支持!