張 彪,吳 紅,高道斌
高校是國家創(chuàng)新系統中的重要行為主體,截至2020年12月,其發(fā)明專利有效量達442,523項[1],但產業(yè)化率僅3%[2]。為促進高??萍汲晒D化,2020年教育部、國家知識產權局和科技部聯合發(fā)布的《關于提升高等學校專利質量 促進轉化運用的若干意見》指出樹立高校專利等科技成果只有轉化才能實現創(chuàng)新價值、不轉化是最大損失的理念;2021年“每萬人口高價值發(fā)明專利擁有量(件)”寫入“十四五”時期經濟社會發(fā)展主要指標。此外,隨著新興技術復雜度的提高,企業(yè)在僅憑自身研發(fā)體系和資源構成愈加難以取得或保持創(chuàng)新優(yōu)勢時[3],逐漸通過專利轉讓、許可等形式吸收高校的技術成果、實現技術升級[4]。面對海量專利,校企雙方都希望能夠通過技術轉移將高校專利的技術價值轉變?yōu)楫a業(yè)價值。然而,并非所有高校專利都具有高價值,也并非所有高校專利都能發(fā)生技術轉移。因此,如何全面客觀評估高校專利價值、準確測算高校專利的技術轉移潛力成為推動高校技術成果與市場對接、促進成果變現以及協助企業(yè)定位高價值專利迫切需要解決的問題。本文擬就該問題進行探索。
專利價值是衡量人類知識產權水平的主要測度標準[5],學者就如何客觀準確評估專利價值展開了探索。早期的專利價值評估主要基于經濟學方法,包括成本法、市場法、收益法[6],近期也有學者提出實物期權法[7]、潛在維權成本評估法[8]。經濟學方法多用于評估企業(yè)專利的資產價值,計算公式的參數估計主觀性強,現實中較少使用。當前對專利價值評估方法的研究,更多是從兩方面展開討論。
(1)指標評價方法。部分學者通過對指標賦權評估專利價值。Zhang等[9]使用信息熵對審查時長、權力要求數量、同族專利數等指標進行加權,并使用協同過濾技術排除創(chuàng)造性低的專利,進而確定高價值專利。伊惠芳等[10]提出一種柔性的動態(tài)確權專利價值評價框架,采用熵權法對指標賦權,并利用多屬性決策方法識別高價值專利。部分學者借助機器學習構建評估模型。Kim等[11]將被引次數作為專利價值的代理變量,選取相似專利數、權利人歷史被引數等指標,使用隨機森林、邏輯回歸等方法構建專利價值評估模型。冉從敬等[12]以有無技術轉移為依據劃分專利價值,從指標易獲取性角度選取發(fā)明人數量、3年內被引用次數等指標,并采用主成分分析方法對指標進行篩選,最后基于人工神經網絡構建高校專利價值評估模型。
(2)文本分析方法。Park等[13]提出采用專利文本中的SAO結構代表技術方案,通過預測TRIZ演化趨勢判斷專利價值。詹文青等[14]基于語義標注專利文獻和技術需求的技術問題、技術功能、技術效果等技術特征詞組,計算專利文獻和技術需求的相似性,根據相似度排序識別潛在高價值專利。郭燁等[15]認為專利價值的核心是技術水平的高低,據此提出一種基于功能分析的專利價值評估方法,在專利功能句抽取的基礎上從重要性、性能、成本、有害性等角度分析專利價值。
綜上,指標評價方法多是從專利自身屬性特征出發(fā),從技術、經濟、法律等層面選取評估指標,采取主、客方法對指標賦權或構建機器學習模型評估專利價值。文本分析方法強調專利文本信息包含的技術方案是專利價值的重要來源,主要基于TRIZ理論對專利的技術方案進行表征,通過對技術方案進行定量分析評價專利價值。上述方法對專利價值評估均有一定作用,但少有研究能夠將指標評價和文本分析進行有效結合,從專利自身屬性特征和專利文本語義信息的角度全面判斷專利價值,而且當前研究多是將專利籠統分為高價值專利、低價值專利,未能細化專利價值的層級結構?;诖?,本研究在借鑒已有研究成果的基礎上,提出一種融合專利自身屬性、文本信息等多維特征的高校專利價值分級方法,旨在為高校準確評估專利價值、適時對外提供實踐路徑,也為企業(yè)尋求高校高價值專利提供決策參考。
專利價值來源于多個方面,主要受技術本身的創(chuàng)新水平、專利撰寫質量以及發(fā)明人知識積累影響[16-17]。對應以上3個影響因素,本研究將融合以下3個維度的特征實現對高校專利價值更準確的評估:專利文本語義特征,專利文本語義信息包含的技術方案能夠反映技術的創(chuàng)新水平[15];專利自身屬性特征,技術、法律、經濟3個層面的專利自身屬性特征是現有研究中通過專利撰寫質量評估專利價值的重要可量化指標[10];發(fā)明人特征,發(fā)明人能力越強則其創(chuàng)造的專利具有的價值越高[18],據此設計能夠直接體現發(fā)明人能力與專利價值關聯的指標。以上述特征為基礎,采用機器學習算法構建高校專利價值評估模型,預測專利發(fā)生技術轉移的概率,并劃定閾值將專利價值分級細化,以期更準確、更細粒度地對高校專利價值進行評估與分級。本研究框架如圖1所示。
圖1 研究框架
專利價值通常使用被引頻次[11]、專利強度[19]、交易價格[20]、有無技術轉移[12]等作為代理變量,而高校專利價值最直接的體現就是通過轉讓或許可等方式轉移至企業(yè)??紤]到交易價格的私密性和獲取難度,本研究以有無技術轉移作為專利價值的分類準則。主要獲取3類數據:類別一,已發(fā)生技術轉移的專利,其技術轉移概率為1;類別二,直至失效也未發(fā)生技術轉移的專利,其技術轉移概率為0;類別三,當前有效但未發(fā)生技術轉移的專利。類別一、類別二數據主要用于模型構建,類別三數據用于展現模型預測的效果。
(1)專利文本語義特征。專利價值核心在于其技術水平的高低[15],而技術水平的高低則取決于專利文本中技術方案的描述。從專利技術自身擁有的技術方案出發(fā)進行價值分析,關鍵在于如何對專利文本語義特征進行有效表征?,F有研究多借助TRIZ,通過對功能語句分析實現價值評估[21]。這種方法通常需要人工解讀,效率較為低下。隨著人工智能技術的發(fā)展,自然語言處理中的詞向量方法實現了對各類文本語義特征的自動編碼。Word2Vec[22]是常用的詞向量模型,相比于one-hot等高維、稀疏的表示法,Word2Vec訓練出的詞向量是低維、稠密的,而且利用了詞的上下文信息,語義信息更加豐富,解決了向量稀疏和語義聯系兩個問題。但是,Word2Vec忽略了詞語與整個句子之間的聯系,對于局部與主體之間的特征表達得不夠準確。直到2018年,Bert[23]通過海量語料預訓練,結合不同語境動態(tài)獲取詞語在上下文中不同的語義特征,有效克服了Word2Vec的缺陷,可以將語義特征從詞級別深化到句子級別[24],能夠更好地對專利文本語義特征進行表征。
本研究擬采用12層Encoder的Bert模型,模型輸入是專利文本,輸出是768維的句向量。由于句向量維度過于龐大,可能會增加冗余信息對模型性能的干擾,而且不同的特征之間可能會存在某種相關性,導致后續(xù)構建的模型消耗時間過長且難以獲得最優(yōu)的參數,進而使模型性能降低,因此本研究采用主成分分析方法(PCA)對句向量進行降維處理,將句向量的前d個主成分作為專利文本語義特征,以特征向量形式進行存儲。
(2)專利自身屬性特征。本研究的專利自身屬性特征即各大專利數據庫規(guī)范化的字段信息及專利著錄項目中常被用以評估專利價值的指標[6]。結合已有研究,依據《專利價值分析指標體系操作手冊》從技術、法律、經濟3個層面選取廣泛使用的指標,如表1所示。
表1 專利自身屬性特征
(3)發(fā)明人特征。發(fā)明人是專利的直接關聯者,雖有部分學者注意到發(fā)明人對專利價值的重要影響,并采用第一發(fā)明人職稱、第一發(fā)明人職務、第一發(fā)明人所在單位等指標表征發(fā)明人的能力,但職稱、職務等多是從側面體現發(fā)明人的綜合能力[34],難以與專利價值產生直接聯系。因此,本研究設計了能夠更直接體現發(fā)明人能力與專利價值關聯的指標。專利發(fā)明人通常有多個,為了便于計算,使用第一發(fā)明人作為發(fā)明人的代表,具體指標如下:
Y1:第一發(fā)明人授權專利參與數目。正向指標,參與數目越多,則第一發(fā)明人的專利被授權能力越強,以有效專利數與失效專利數的和表征,不包含未授權專利。
Y2:第一發(fā)明人技術轉移率。正向指標,技術轉移率越高,則第一發(fā)明人的科技成果轉化能力越強,計算方法如公式(1)所示。其中,a代表第一發(fā)明人參與授權的專利中發(fā)生轉移的數量。
Y3:第一發(fā)明人資源浪費率。負向指標,資源浪費率越大,則第一發(fā)明人的科技成果轉化能力越弱,計算方法如公式(2)所示。其中,b代表第一發(fā)明人參與授權的專利中直至失效也未發(fā)生轉移的專利數。
Y4:第一發(fā)明人的技術覆蓋面。正向指標,技術覆蓋面越廣,則第一發(fā)明人的技術掌握越全面,以第一發(fā)明人參與專利的IPC分類號前4位總類數進行表征。
本研究采用機器學習的二分類算法構建專利價值評估模型,在進行模型構建之前,需要對專利文本語義特征、專利自身屬性特征、發(fā)明人特征3個維度的特征進行融合處理。采用d維特征向量表示專利文本語義特征,將14個指標轉化為14維的特征向量表示專利自身屬性特征,使用4維特征向量表示發(fā)明人特征,然后將以上3個特征向量進行橫向拼接,最后生成d+18維特征向量,并進行歸一化處理。模型輸入為d+18維的特征向量,模型輸出為技術轉移概率。為驗證本研究方法的有效性,采用邏輯回歸(LR)、隨機森林(RF)、高斯貝葉斯(GaussianNB)、K近鄰(KNN)、梯度提升算法(GBDT)、支持向量機(SVM)、極端梯度提升算法(XGBoost)、BP神經網絡(BP)、自適應增強(Adaboost)9種常用的機器學習算法進行對比,并從中挑選性能最好的模型用以預測未知數據集的技術轉移概率。
采用準確率Accuracy、查準率Precision、查全率Recall和調和平均值F1共4個指標對模型的性能進行評估,計算方法如公式(3)-(6)所示。式中M表示測試集中預測正確的數目,N表示測試集總數目,TP表示測試集中實際發(fā)生技術轉移且被預測正確的數目,PN表示測試集中預測可能發(fā)生技術轉移的數目,TN表示測試集中實際發(fā)生技術轉移的數目。通過繪制ROC曲線、計算AUC值展示最優(yōu)模型的性能。
在驗證模型有效性的基礎上,使用高校專利價值評估模型預測每項專利發(fā)生技術轉移的概率P,P∈[0,1],步長為0.1,總共分為10級。專利發(fā)生技術轉移的概率P越大,價值越高。具體級別與概率分布如表2所示。
表2 專利級別與概率分布
本研究對云計算領域專利進行實證分析,數據來源于智慧芽專利數據庫(以下簡稱“智慧芽”)。智慧芽對專利引文、發(fā)明人、專利權人、權力轉移、專利許可等字段信息進行了收錄與規(guī)范化處理,而且可以將各字段信息以csv格式導出,是本研究較為理想的專利數據庫。文章根據專家意見并參照已有研究[35-36]制定如下檢索式:TA:(“云計算”O(jiān)R“云安全”O(jiān)R“云服務”O(jiān)R“分布式存儲”O(jiān)R“云存儲”O(jiān)R“云平臺”)。經初步檢索發(fā)現,云計算領域高校專利數據中,類別一僅有315件,而類別二有1,065件,采用以上數據不僅容易導致模型陷入對小數據集的過擬合,而且模型的普適性也不夠強。為解決此問題,本研究借鑒學者以中國專利數據代替純高校專利數據的思路[12],在保留高校專利特征的前提下,增加模型訓練的數據量,豐富數據特征,以有利于提高模型的普適性,減小過擬合的風險。具體檢索方式如下:
以智慧芽中的中國發(fā)明專利和實用新型專利為數據源,使用上述檢索式,篩選條件“法律事件→權利轉移OR許可”,檢索到2,588件專利作為正樣本,標簽為1;篩選條件“簡單法律狀態(tài)→失效&法律事件→未發(fā)生權力轉移或許可”,檢索到3,319件專利作為負樣本,標簽為0;篩選條件“簡單法律狀態(tài)→有效&法律事件→未發(fā)生權力轉移或許可&當前專利權人→大學”,檢索到3,242件專利,作為高校專利待分級的數據(預測集)。檢索時間為2021年11月11日。
(1)數據集劃分。剔除信息不完整的專利,得到正樣本2,427個、負樣本3,249個、預測集3,122個。為避免數據類別分布不平衡降低模型效果,對負樣本進行欠采樣,隨機去掉部分樣本,得到2,427個負樣本。將正負樣本合并,隨機劃分80%為訓練集(3,883個樣本),20%為測試集(971個樣本)。
(2)多維特征獲取。對于專利文本語義特征,使用Python編程調用肖涵在github上公開的bert句向量生成接口①,將每項專利的摘要轉化為768維的句向量,調用scikit-learn機器學習庫的PCA算法計算累計方差貢獻率與特征數的關系(見圖2)。當累計方差貢獻率為0.7時,特征數為40,即句向量的前40個主成分可以保留原始數據70%的信息。因此,將句向量維度降至40,最終每項專利的文本語義特征使用40維的特征向量表示。對于專利自身屬性特征,可根據智慧芽下載的專利著錄項目結合專利文獻計算得到。對于發(fā)明人特征,首先獲取云計算領域授權專利的第一發(fā)明人姓名,然后根據2.2中的發(fā)明人特征計算方法得到每個第一發(fā)明人的Y1、Y2、Y3、Y44個指標,最后根據第一發(fā)明人的姓名與各項專利對應。將40維的專利文本語義特征向量、14維的專利自身屬性特征向量、4維的發(fā)明人特征向量進行橫向拼接,得到58維的特征向量,最終訓練集、測試集、預測集的結構分別為3,883×58、971×58、3,122×58的矩陣。
圖2 累計方法貢獻率—特征數關系
本研究訓練集數據樣本較少,采用五折交叉驗證進行模型參數調優(yōu),即將訓練集分成5份,輪流將其中4份作為訓練數據,1份作為驗證數據,最后求5次實驗的平均準確率評估模型的性能。借助scikit-learn機器學習庫采用2.3所述的9種機器學習算法進行模型構建,模型的參數調優(yōu)見表3。
表3 機器學習算法相關參數設置
測試集評估結果如表4所示。使用9種機器學習算法構建的專利價值評估模型acc值最低為90.216%,最高為97.631%,p值最低為91.071%,最高為97.131%,r值最低為89.027%,最高為98.137,f1值最低為90.052%,最高為97.631%。從各項指標的評估結果來看,模型性能較為優(yōu)異,能夠證明本研究所提方法的有效性。
表4 模型測試集評估結果
選用4項評估指標均最高的RF模型繪制ROC曲線(見圖3),AUC值為0.99699,與已有研究[12]相比,在同一領域的數據集上AUC值提升22個百分點,能夠充分證明本研究所提方法的優(yōu)異性能。因此,將構建的RF模型應用到未知數據集上,預測專利發(fā)生技術轉移的概率。
圖3 RF模型的ROC曲線
使用RF模型對預測集的技術轉移概率進行預測,并將預測結果按照2.4所述規(guī)則進行專利價值分級,結果見圖4。云計算領域不同等級的高校專利價值呈現出明顯右偏態(tài)分布,F、G兩個級別的專利數量最多,其余等級的專利數量較少,這與現有學者提出的少數專利產生多數價值[37]、專利價值呈現右偏分布[38]的觀點一致,能夠證明本研究預測分級的結果可信性。A-E(5個)級別的技術轉移概率大于等于0.5,具備較高的價值,總計占比14.87%;F-J(5個)級別的技術轉移概率小于0.5,價值較低,總計占比85.13%,說明云計算領域的高校高價值專利僅占少數,多數專利價值偏低[12]。價值最高的A級別專利僅占3.24%,而F、G兩個級別的專利分別占35.65%、37.7%,說明大多數高校專利的技術轉移概率介于0.3~0.5?;谝陨辖Y果,建議擁有高等級專利的高校可以謀求技術合作,構建專利組合打包出售,推進科技成果轉化;企業(yè)也可根據自身需求與相關高校對接,促進技術升級。同時,對于級別較低的專利,高校也應及時止損,減少資源浪費。
圖4 專利價值分級
客觀、準確地對高校專利價值進行評估,是促進高校專利合理運營、實現成果變現,進而推動企業(yè)實現技術升級的重要環(huán)節(jié),對構建產學研深度融合的技術創(chuàng)新體系具有積極意義。針對現有研究未能結合指標、文本等多維特征,專利價值劃分粒度粗糙的問題,本研究提出了融合多維特征的高校專利價值分級方法:首先,從高校專利價值的3個重要來源出發(fā),使用時下流行的Bert預訓練模型表示專利文本語義特征,設計與專利價值直接關聯的發(fā)明人特征,并與專利自身屬性特征相融合;其次,采用機器學習算法構建高校專利價值評估模型,預測專利發(fā)生技術轉移的概率;最后,對技術轉移概率劃定閾值,將專利價值的粒度細化為10個等級。對云計算領域進行的實證研究表明,本研究所提方法能夠有效將專利文本語義特征、專利自身屬性特征、發(fā)明人特征進行融合,構建的模型與現有研究相比AUC值提升22個百分點,提高了高校專利價值評估結果的準確性和科學性,為高校專利價值評估提供了新的研究思路。該方法未來可應用于高校專利運營、專利推送、企業(yè)專利成果引進、產學研合作等場景。比如,高??山柚痉椒▽π雀黝I域專利進行分級評價,將等級高的專利打包出售實現成果變現,促進科技成果轉化;企業(yè)可對領域內高校專利進行分級評價,精準引進高價值專利,還可篩選擁有高等級專利的高校作為備選合作伙伴,促進技術升級。不足之處在于:本研究的多維特征僅限于文本、數值型信息,而專利文獻中存在的大量圖片信息并沒有得到有效利用。因此,在后續(xù)研究中,將探索融合更多類型的特征,以期對高校專利價值實現更為準確、客觀的評價。
注釋
①bert句向量生成接口開源網址:https://github.com/hanxiao/bert-as-service。