余本功 陳楊楠 楊穎
摘要:[目的/意義]專利是企業(yè)技術(shù)創(chuàng)新活動的重要成果,對專利數(shù)據(jù)進(jìn)行分析,有利于客觀評價企業(yè)技術(shù)創(chuàng)新能力。[方法/過程]從計量的角度對企業(yè)專利數(shù)據(jù)進(jìn)行分析的同時,結(jié)合機(jī)器學(xué)習(xí)的方法,通過LDA模型對專利摘要文本進(jìn)行內(nèi)容挖掘,構(gòu)建基于專利文本內(nèi)容的評價指標(biāo),建立由專利數(shù)量、專利趨勢和專利內(nèi)容三方面指標(biāo)組成的技術(shù)創(chuàng)新評價體系。[結(jié)果/結(jié)論]采用熵值法確定各項指標(biāo)對企業(yè)技術(shù)創(chuàng)新的影響權(quán)重,并通過實驗對國內(nèi)自主品牌制造企業(yè)進(jìn)行技術(shù)創(chuàng)新評價,說明了評價方法的現(xiàn)實意義。
關(guān)鍵詞:主題模型;專利數(shù)據(jù);LDA;內(nèi)容挖掘;熵值法;技術(shù)創(chuàng)新評價
DOI:10.3969/j.issn.1008-0821.2019.01.014
[中圖分類號]G306 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-0821(2019)01-0111-07
創(chuàng)新是驅(qū)動企業(yè)發(fā)展的原動力,對于一家制造企業(yè)來說,技術(shù)能力是公司內(nèi)部進(jìn)行資源調(diào)度與配置,提高生產(chǎn)力并實現(xiàn)戰(zhàn)略目標(biāo)的重要技能和素質(zhì),而只有擁有特定資源和特殊特征能力的公司才能獲得競爭優(yōu)勢。
企業(yè)的技術(shù)創(chuàng)新能力是其在制造領(lǐng)域的影響力的重要體現(xiàn),企業(yè)的技術(shù)創(chuàng)新又會受到諸多因素影響,從企業(yè)進(jìn)行技術(shù)創(chuàng)新活動時所需支持要素考慮,會受到企業(yè)的科研經(jīng)費投入、研發(fā)人員比例、研究機(jī)構(gòu)的數(shù)量等因素影響;從企業(yè)創(chuàng)新活動過程中的各個環(huán)節(jié)出發(fā),會受到市場機(jī)會反應(yīng)速度、主要產(chǎn)品更新周期等因素影響;從企業(yè)的技術(shù)創(chuàng)新產(chǎn)出成果方面分析,新產(chǎn)品銷售收入、企業(yè)專利數(shù)量等也都是技術(shù)創(chuàng)新的重要影響因素。對企業(yè)技術(shù)創(chuàng)新能力進(jìn)行系統(tǒng)分析和綜合評價,有利于企業(yè)科學(xué)認(rèn)識自身的技術(shù)創(chuàng)新狀態(tài),采取有效的技術(shù)創(chuàng)新戰(zhàn)略,增強(qiáng)企業(yè)競爭力,從而獲得最佳的經(jīng)濟(jì)效益和社會效益。
專利數(shù)據(jù)作為反映企業(yè)技術(shù)創(chuàng)新能力的綜合性指標(biāo),是科技創(chuàng)新活動的最主要和最直接的產(chǎn)出重要成果之一,和企業(yè)的創(chuàng)新活動密切相關(guān),是全面評價企業(yè)技術(shù)創(chuàng)新的一個關(guān)鍵因素,而企業(yè)的專利數(shù)據(jù)所包含的信息是大規(guī)模的、多維度的,僅從數(shù)量層面去評價企業(yè)技術(shù)創(chuàng)新能力是不全面的。為此,應(yīng)從多視角對企業(yè)技術(shù)創(chuàng)新開展評價,以計量的角度分析專利數(shù)據(jù)的同時,也需要對專利內(nèi)容加以分析。主題模型是一類用來發(fā)現(xiàn)文本抽象主題的無監(jiān)督模型,能夠從主題層面對專利文本進(jìn)行挖掘,將主題模型方法和統(tǒng)計方法相結(jié)合對專利數(shù)據(jù)進(jìn)行分析,能夠更加全面反映企業(yè)的創(chuàng)新活動,更好地對企業(yè)技術(shù)創(chuàng)新做出評價。
1相關(guān)研究
多年來,企業(yè)技術(shù)創(chuàng)新評價的研究日漸豐富,如利用層次分析法將影響技術(shù)創(chuàng)新的因素間的相互關(guān)聯(lián)及隸屬關(guān)系按不同層次聚合,形成目標(biāo)層、準(zhǔn)則層、指標(biāo)層3個層次的評價體系,考慮到不同層次的元素和元素組內(nèi)部的關(guān)聯(lián)關(guān)系,提出的指標(biāo)層具有網(wǎng)絡(luò)結(jié)構(gòu)的基于網(wǎng)絡(luò)層次分析法的評價體系;使用因子分析法將眾多評價指標(biāo)濃縮成幾個關(guān)鍵的影響因素并計算它們的影響程度來評價企業(yè)的技術(shù)創(chuàng)新能力,以及使用數(shù)據(jù)包絡(luò)分析和兩階段DEA的方法,從技術(shù)創(chuàng)新投入和產(chǎn)出兩方面構(gòu)建評價體系,還有TRIZ理論、模糊評價、BP神經(jīng)網(wǎng)絡(luò)以及密切值法等理論方法的應(yīng)用,使得評價結(jié)果更加客觀公正。
專利數(shù)量是反映企業(yè)技術(shù)創(chuàng)新產(chǎn)出的一項重要指標(biāo),但數(shù)量只是企業(yè)創(chuàng)新活動產(chǎn)出的一個方面。因此,孫斌等基于生產(chǎn)視角分解科技創(chuàng)新各環(huán)節(jié),構(gòu)建了包含專利創(chuàng)造能力、專利運用能力和專利支持環(huán)境的區(qū)域科技創(chuàng)新評價指標(biāo)體系;鄭佳從專利的數(shù)量與質(zhì)量、絕對與相對、自主研發(fā)與國際合作3個層次建立了基于專利指標(biāo)的技術(shù)創(chuàng)新能力評價體系;曹明等在已有的基于專利的評價指標(biāo)體系基礎(chǔ)上,引入?yún)f(xié)同創(chuàng)新能力等指標(biāo),綜合宏觀(地區(qū))、中觀(行業(yè))和微觀(企業(yè))3個層面構(gòu)建多維度、立體的技術(shù)競爭力評價體系;梁曉捷等從創(chuàng)新方向、創(chuàng)新效率、創(chuàng)新質(zhì)量3方面選取指標(biāo)評價企業(yè)技術(shù)創(chuàng)新能力。這些文獻(xiàn)都沒有深入到專利文本內(nèi)容,而專利文本中相當(dāng)一部分信息是某個技術(shù)領(lǐng)域的相對較新的內(nèi)容,所以專利文本的內(nèi)容挖掘是了解企業(yè)乃至整個領(lǐng)域技術(shù)創(chuàng)新的發(fā)展趨勢和核心要素的一種重要方式。
LDA模型是主題模型中的典型代表,假設(shè)每個文檔由多個抽象主題組成,基于文檔中詞語的共現(xiàn)關(guān)系將詞聚合在一個主題下,生成主題一詞概率分布,詞概率的大小反映了該詞與這個抽象主題之間的關(guān)聯(lián)關(guān)系的強(qiáng)弱。根據(jù)文檔中詞的主題分布情況可以獲得文本一主題概率分布。借助LDA模型可以發(fā)現(xiàn)熱門話題,對不同時間段的文檔集進(jìn)行建模,還可以獲得主題的演化關(guān)系。
本文提出一種結(jié)合LDA模型和專利數(shù)據(jù)的技術(shù)創(chuàng)新評價方法,從計量和內(nèi)容兩個維度展開,一方面,對制造企業(yè)的專利數(shù)量、專利趨勢等指標(biāo)進(jìn)行分析;另一方面,利用LDA模型發(fā)現(xiàn)企業(yè)專利中的領(lǐng)域核心關(guān)鍵詞并計算企業(yè)創(chuàng)新核心值,構(gòu)建起基于專利內(nèi)容的評價指標(biāo),再利用熵值法確定各指標(biāo)對技術(shù)創(chuàng)新能力的影響權(quán)重,進(jìn)而對企業(yè)技術(shù)創(chuàng)新能力進(jìn)行評價。
2基于專利數(shù)據(jù)的技術(shù)創(chuàng)新能力評價框架
文章從專利數(shù)量、專利趨勢和專利內(nèi)容3方面選取下述7項指標(biāo)構(gòu)建技術(shù)創(chuàng)新能力評價框架,由淺入深,具有很好的泛化性。
2.1主要指標(biāo)及說明
2.1.1專利數(shù)量指標(biāo)
數(shù)量指標(biāo)是反映企業(yè)技術(shù)創(chuàng)新產(chǎn)出成果的一個直接指標(biāo),本文選取的數(shù)量指標(biāo)主要包括發(fā)明專利數(shù)量X1、實用新型專利數(shù)量墨和授權(quán)發(fā)明專利數(shù)量X3。
1)發(fā)明專利數(shù)量:發(fā)明分為產(chǎn)品發(fā)明和方法發(fā)明兩大類型,對于企業(yè)來說,新產(chǎn)品的問世、新生產(chǎn)方法的上線以及實驗方案的改進(jìn)等都是企業(yè)技術(shù)創(chuàng)新活動的重要成果。
2)實用新型數(shù)量:相比于發(fā)明專利,實用新型專利更多體現(xiàn)出實用性,且必須為具體的、有一定形狀的產(chǎn)品,而不能是抽象的理論。例如,汽車的真空助力器帶制動主缸裝置、放氣可控式輪胎裝置等都是幫助企業(yè)在行業(yè)內(nèi)獲得領(lǐng)先的技術(shù)創(chuàng)新產(chǎn)出。
3)發(fā)明授權(quán)專利數(shù):為保護(hù)企業(yè)的自主知識產(chǎn)權(quán),國家知識產(chǎn)權(quán)局會對符合專利要求的專利技術(shù)方案嚴(yán)格審查,并對其中一部分發(fā)明專利和實用新型專利進(jìn)行授權(quán),而這部分專利必須具備新穎性、創(chuàng)造性和實用性。
2.1.2專利趨勢指標(biāo)
趨勢指標(biāo)反映出了企業(yè)技術(shù)創(chuàng)新產(chǎn)出的變化態(tài)勢及發(fā)展方向,本文選取的趨勢指標(biāo)包括專利年申請量X4和技術(shù)分布趨勢X5。
1)年申請量變化率:每一條專利都是企業(yè)長時間技術(shù)投入和技術(shù)創(chuàng)新的成果,每年的專利申請數(shù)量從一定角度上反映了企業(yè)的研發(fā)效率以及創(chuàng)新成果轉(zhuǎn)化率,年申請量的變化則說明了企業(yè)研發(fā)效率及創(chuàng)新成果轉(zhuǎn)化率的起伏。
2)技術(shù)分布變化率:根據(jù)《國際專利分類表》(IPC分類)發(fā)明專利和實用新型專利被分入8部,而每個制造領(lǐng)域都會有與該領(lǐng)域相關(guān)度很高的專利類型。企業(yè)在相應(yīng)分部里的專利占比在一定程度上反映了企業(yè)技術(shù)創(chuàng)新的集中程度,技術(shù)分布的變化則反應(yīng)了企業(yè)創(chuàng)新集成狀況的變化。
2.1.3專利內(nèi)容指標(biāo)
專利的內(nèi)容關(guān)系到制造領(lǐng)域技術(shù)創(chuàng)新的關(guān)鍵和核心要素,本文選取的內(nèi)容指標(biāo)是核心關(guān)鍵詞數(shù)X6和創(chuàng)新核心值X7。
1)核心關(guān)鍵詞數(shù):專利內(nèi)容涉及領(lǐng)域內(nèi)方方面面,但其中熱門詞匯一定是領(lǐng)域中關(guān)注的重點,涉及到技術(shù)創(chuàng)新活動的對象或者過程。因此,企業(yè)專利中包含領(lǐng)域核心關(guān)鍵詞的數(shù)量反映出了該企業(yè)與行業(yè)發(fā)展方向的一致性。
2)創(chuàng)新核心值:創(chuàng)新要素在領(lǐng)域內(nèi)有重要性的差異,核心關(guān)鍵詞也會有熱度的區(qū)別。關(guān)鍵詞熱度越高,則該關(guān)鍵詞所涉及的內(nèi)容越是受到行業(yè)重視。創(chuàng)新核心值是核心關(guān)鍵詞在企業(yè)專利內(nèi)容中受重視程度的數(shù)值表現(xiàn),也說明了企業(yè)在制造領(lǐng)域?qū)诵囊氐陌盐涨闆r。
綜上所述,可得企業(yè)技術(shù)創(chuàng)新能力評價指標(biāo)體系,如圖1所示。
2.2基于LDA模型的專利內(nèi)容指標(biāo)說明
企業(yè)的領(lǐng)域核心關(guān)鍵詞數(shù)和創(chuàng)新核心值指標(biāo)不同于其他5項指標(biāo),不能直接通過企業(yè)的專利數(shù)據(jù)統(tǒng)計獲得,需要通過LDA模型對企業(yè)專利摘要文本進(jìn)行關(guān)鍵詞的提取,統(tǒng)計各家企業(yè)所包含的領(lǐng)域核心關(guān)鍵詞數(shù)并計算各企業(yè)的創(chuàng)新核心值。本節(jié)將對LDA模型進(jìn)行簡單介紹,并詳細(xì)說明核心關(guān)鍵詞數(shù)和創(chuàng)新核心值的獲取過程。
2.2.1 LDA主題模型
LDA主題模型是一個3層貝葉斯概率模型,主要包括文檔、主題和詞3層結(jié)構(gòu),認(rèn)為每個文檔是由多個主題的混合,每個主題是由一系列詞組成。其模型如圖2所示:
3實證分析
3.1實驗對象及數(shù)據(jù)統(tǒng)計
以國內(nèi)自主品牌汽車企業(yè)為例,選擇的實驗對象為北京汽車股份有限公司(北汽集團(tuán))、重慶長安汽車股份有限公司(長安汽車)、長城汽車股份有限公司(長城汽車)、奇瑞汽車股份有限公司(奇瑞汽車)、安徽江淮汽車股份有限公司(江淮汽車)、浙江吉利控股集團(tuán)有限公司(吉利汽車)6家國產(chǎn)自主品牌汽車專利數(shù)據(jù)。根據(jù)中國汽車工業(yè)協(xié)會公布的《2017年1~10月中國品牌汽車分車型前10家生產(chǎn)企業(yè)銷量排名》,這些公司占據(jù)榜單中的6席,并且擁有很大數(shù)量的中國汽車專利。因此,這6家自主品牌汽車公司是具有代表性的自主品牌汽車公司。
專利數(shù)量指標(biāo)選擇的是公開日期為2012年1月1日-2016年12月31日的6家企業(yè)的中國發(fā)明專利數(shù)、實用新型專利數(shù)和授權(quán)發(fā)明專利數(shù);專利趨勢指標(biāo)選擇的是申請日期為2012年1月1日-2016年12月31日的6家企業(yè)的中國專利年申請量變化量平均值,B部、F部和G部專利所占比例的平均值;專利內(nèi)容指標(biāo)選取公開日期為2012年1月1日-2016年12月31日的6家企業(yè)的實用新型和發(fā)明專利摘要文本。數(shù)據(jù)來源于中國知網(wǎng)專利數(shù)據(jù)庫及佰騰專利網(wǎng),專利情況統(tǒng)計如表1所示。
3.2專利內(nèi)容指標(biāo)獲取
獲得6家企業(yè)和領(lǐng)域核心關(guān)鍵詞數(shù)及創(chuàng)新核心值,首先要對所有的專利摘要文本進(jìn)行下述預(yù)處理過程:
1)每條專利摘要看作是一個文檔,去除文檔長度低于100字的數(shù)據(jù);
2)將文檔里所有大寫英文字母轉(zhuǎn)化成小寫字母:
3)使用jieba模塊對數(shù)據(jù)進(jìn)行分詞,使用停用詞詞典去除標(biāo)點和停用詞,并進(jìn)行詞性標(biāo)注,引入百度百科汽車術(shù)語建立用戶詞典。
經(jīng)過預(yù)處理獲得29916個專利文檔,建立起包括318個汽車術(shù)語的用戶詞典,選擇文檔集困惑度較小的主題數(shù)30,即K=30。經(jīng)過LDA建模和進(jìn)一步的TF-IDF計算,每個主題保留權(quán)重最高的10個主題詞,即h=10,并從這些主題詞中選取汽車領(lǐng)域核心關(guān)鍵詞。限于篇幅,圖3僅展示了主題11~主題13和主題20~主題22的主題詞及其概率分布。
我們從這些主題詞中選取汽車領(lǐng)域核心關(guān)鍵詞時將服從以下原則:
選取汽車領(lǐng)域核心關(guān)鍵詞時將遵守以下幾條原則:
1)去除名詞中,例如“板”、“螺桿”、“齒輪”、“芯片”、“蓋”、“軟管”、“硬管”等無法確定具體所指對象的通用詞;
2)去除“方法”、“功能”、“接口”和“導(dǎo)向”等單獨出現(xiàn)時無意義的名詞;
3)合并例如“座椅”和“汽車座椅”,“減震器”、“避震器”和“減振器”等表征相同意義的名詞。
通過上述原則篩選,我們最終獲得90個領(lǐng)域核心關(guān)鍵詞,其中包括和發(fā)動機(jī)系統(tǒng)相關(guān)的“溫度傳感器”、“水泵”、“油管”、“進(jìn)氣歧管”、“氣缸”等關(guān)鍵詞;和底盤系統(tǒng)相關(guān)的“轉(zhuǎn)向器”、“轉(zhuǎn)向管柱”、“剎車”、“減震器”等關(guān)鍵詞;和車身系統(tǒng)相關(guān)的“保險杠”、“儀表盤”、“遮陽板”、“后視鏡”等關(guān)鍵詞;和空調(diào)系統(tǒng)相關(guān)的“濾清器”、“空氣壓縮機(jī)”等關(guān)鍵詞;和電子系統(tǒng)及電器設(shè)備系統(tǒng)相關(guān)的“蓄電池”、“尾燈”、“傳感器”等關(guān)鍵詞。統(tǒng)計每個主題下的關(guān)鍵詞數(shù),并根據(jù)公式(1)計算每個關(guān)鍵詞的重要值。
在獲得汽車領(lǐng)域的核心關(guān)鍵詞后,我們單獨對各家企業(yè)的發(fā)明和實用新型專利文本進(jìn)行LDA建模,主題數(shù)設(shè)置為20,即k=20,獲得每家企業(yè)的主題一主題詞分布,統(tǒng)計每家企業(yè)包含的領(lǐng)域核心關(guān)鍵詞數(shù),并通過公式(2)計算每家企業(yè)的領(lǐng)域創(chuàng)新核心值。結(jié)果如表2所示:
3.3技術(shù)創(chuàng)新評價
將表1及表2中數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)0~1變換處理,如表3,再運用熵值法計算各項指標(biāo)的熵值ej進(jìn)而確定各項指標(biāo)的權(quán)重,如表4所示。
由表4可得汽車企業(yè)的專利數(shù)量指標(biāo)權(quán)重為0.57,專利趨勢指標(biāo)權(quán)重為0.17,專利內(nèi)容指標(biāo)權(quán)重為0.26。
根據(jù)公式(6)可獲得各企業(yè)技術(shù)創(chuàng)新能力評價值,并進(jìn)行排名,如表5。
觀察表5的結(jié)果,我們發(fā)現(xiàn)江淮公司雖然專利總數(shù)不是最多的,卻獲得了最高的技術(shù)創(chuàng)新評價值,吉利汽車公司雖然專利數(shù)最多,但因為近5年內(nèi)申請專利數(shù)量下降較快,排列第2位,奇瑞位列第3位,北汽集團(tuán)排列最后一位,并與其他公司差距較為明顯??偨Y(jié)來說,2012年1月1日-2016年
12月31日期間,江淮、吉利公司技術(shù)創(chuàng)新能力屬于第1梯隊,奇瑞、長城公司屬于第2梯隊,長安和北汽公司屬于第3梯隊。
對比實驗結(jié)果和2017年12月汽車評價研究院發(fā)布的《汽車行業(yè)安亭指數(shù)排行榜》和《乘用車發(fā)明專利排行榜》,我們發(fā)現(xiàn)實驗結(jié)果雖存在微小偏差,但結(jié)論基本一致,出現(xiàn)偏差的原因是本文提出的技術(shù)創(chuàng)新評價體系是從專利數(shù)據(jù)的3個維度出發(fā),選取的專利指標(biāo)跨越的時間范圍更長,涉及專利數(shù)據(jù)的維度更寬泛,和汽車研究院發(fā)布的車型排行榜產(chǎn)生一點偏差.而文中提出的方法是面向企業(yè)進(jìn)行的技術(shù)創(chuàng)新評價。因此,文中提出的基于主題模型和專利文本的技術(shù)創(chuàng)新評價方法具有一定的實際意義。
4結(jié)論
文章通過對企業(yè)專利數(shù)據(jù)的統(tǒng)計和內(nèi)容挖掘,構(gòu)建了基于專利數(shù)量指標(biāo)、專利趨勢指標(biāo)和專利內(nèi)容指標(biāo)的技術(shù)創(chuàng)新評價方法。經(jīng)過實驗證明,LDA在對數(shù)量較多、文本長度較長、領(lǐng)域性較強(qiáng)的汽車專利文本進(jìn)行建模時,提取領(lǐng)域關(guān)鍵詞效果良好,利用此框架不僅可以從專利的數(shù)量、趨勢以及內(nèi)容3個角度評價汽車企業(yè)的技術(shù)創(chuàng)新能力強(qiáng)弱,同時也可以發(fā)掘出汽車領(lǐng)域的一些創(chuàng)新熱點。