宋 超 陳 悅 王 康 王玉奇 孫???/p>
(1.大連理工大學 科學學與科技管理研究所暨WISE實驗室 大連 116024;2.濰柴動力股份有限公司 濰坊 261061)
專利引文已被廣泛應用于技術分析,如利用專利引用專利研究技術融合、技術演進、技術軌道問題,或利用專利引用科學論文探索科學與技術之間的關聯(lián),但未引用任何參考文獻的專利,即“零引文專利”[1]的相關研究很少。加菲爾德[2]認為“發(fā)明不可能來源于魔術或真空,它是發(fā)明人對若干已有概念進行重新組合的知識成果”,因此“零引文專利”所表征的技術也不是憑空捏造出來的。專利既是技術文獻,也是保護技術獨占性的法律文書,雖然專利發(fā)明人存在故意遺漏或隱藏[3]的引文動機,但關聯(lián)性高的引文[4]通常也會被專利審查員補充進申請書,因此無論專利發(fā)明人還是專利審查員,都會按照實際需要,對專利進行必要的引文標注。而這種實際需要,主要遵循披露性原則和關聯(lián)性原則[5]。那么一項經(jīng)過審查后公開且不包含任何引文的“零引文專利”,其所表征的技術應具備怎樣的特征呢?由于論文更多地承載著科學發(fā)現(xiàn)知識,專利更多地承載著技術發(fā)明知識,因而從知識傳承的角度,我們可以將引用專利的專利視為“基于技術”的技術,引用論文的專利視為“基于科學”的技術。那么“零引文專利”技術與“基于科學”“基于技術”的技術之間存在顯著的差異性嗎?“零引文專利”技術會因為沒有引文而更具新穎性嗎?此類疑問,構成了本研究的科學問題和邏輯起點。
專利文本中的標題和摘要承載著豐富的信息,蘊含著大量的知識單元,適合進行深度挖掘。本文首先基于科學論文關鍵詞構建起主題詞表,即科學知識單元,進而利用自然語言處理中的N-gram模型對專利文本的標題和摘要進行分詞,獲得技術知識單元,并構建知識單元多維測量指標,運用知識單元游離和重組的觀點,借助多項Logit模型定量分析其與技術類型形成的關系,并重點研究“零引文專利”這類特殊現(xiàn)象的技術新穎性特征等問題。
科學學視野下的“知識單元”一詞,最早由趙紅州[6]于1984年提出,將其定義為“定量化的科學概念”,開創(chuàng)了知識單元的研究起點。劉則淵[7]在此基礎上提出可以用于計量的“知識單元”概念。知識單元是知識進化過程中發(fā)生遺傳和變異的基本單元,可以用表達知識內(nèi)容的主題詞或關鍵詞集合進行表征[8]。趙紅州等[9]認為,任何一種知識創(chuàng)造過程,都是首先把已結(jié)晶的舊知識單元游離出來,然后再在全新的思維勢場上進行重新結(jié)晶的過程,這一過程并不是簡單地重復,而是在重組過程中產(chǎn)生出一種全新的知識系統(tǒng)和單元。因此新知識創(chuàng)造的過程就是知識單元的重組過程,在這個過程中,舊的知識單元會變革即創(chuàng)生為新的知識單元,完成了知識單元的游離與重組。這也就為使用舊知識單元來解釋新知識的形成提供了理論邏輯和實踐可能[10]。
通常來說,一項新技術的形成是對已有技術的直接組合或改進,或者是在引入新的技術原理之后再進行組合或改進,這就是常說的“新技術來源于舊技術”或稱“基于技術的技術”,以過去舊技術為基礎的新技術,主要表現(xiàn)為專利對專利文獻的引用,借用庫恩的“范式”理論來解釋,即存在著技術范式以及由范式所規(guī)定的常規(guī)技術改進,這些改進具備積累性的特征,并朝著特定的方向形成技術軌道。20世紀末以來,另一種技術演化方式也被廣泛關注,即“源于科學發(fā)現(xiàn)的技術”或稱“基于科學的技術”,位于“技術科學象限”[11]之中,此時,科學與技術之間走向了快速和深度融合,科學構成了技術發(fā)展的基石[12],特別是生物醫(yī)藥等前沿領域的興起,彰顯出其以科學知識突破為基礎的特征[13],主要以專利引用的學術論文為表現(xiàn)形式。無論是“基于科學的技術”,還是“基于技術的技術”,被引用的論文或?qū)@鳛椤芭f知識”,舊知識單元經(jīng)過游離和重組形成了新技術。那么“零引文專利”在技術演化過程中是如何進行知識單元游離和重組的呢?一項經(jīng)過審查公開且沒有標注任何參考文獻的專利,便可以被認為是具有價值的有用技術,同時也不是專利發(fā)明人憑空想象出來的,這種類型的專利技術則是顯著區(qū)別于前述兩種技術類型之外的第三種類型,因此,“零引文專利”的知識單元游離和重組過程不容忽視。
專利的科學引文和專利引文,構成了顯性維度的科學知識[14]和技術知識[15]向新技術流動的過程。但是,這一觀點無法解釋“零引文專利”這種特殊情形,既然其不存在引文這種顯性知識流動,可以認為其包含著某種隱性知識流動。而知識單元的游離與重組過程,可以為分析“零引文專利”的形成機理提供新視角。知識創(chuàng)造理論認為,個體是知識創(chuàng)造過程的原動力,盡管后來產(chǎn)生了一些被編碼的新知識,但是這些知識或許已經(jīng)作為已知但未編碼的知識存在,即“隱性知識”,或者是“未編碼的知識碎片”,而這類知識被某些個體所掌握著。進而在全新的“思維勢場”上進行游離和重組之后,生成全新的知識單元,并被應用于技術發(fā)明的過程中時,便會產(chǎn)生出新技術,這也就明晰了知識單元與零引文專利間的邏輯關系,并為利用知識單元解釋“零引文專利”的形成,提供了理論的可行性。因此,利用知識單元去探索“不包含任何參考文獻”這類新技術的特征,可以被認為是破譯新技術生成之前碎片化、隱性的知識單元的方式。
總結(jié)來看,以專利為載體,分析技術演化過程中知識所產(chǎn)生的影響,普遍是借助專利引文的分析手段。顯然,專利引文分析必須建立在“專利有引用”的基礎上,但存在一類“未引用任何參考文獻”的專利技術,過去的研究一般將此作為“噪音”從研究樣本中刪除[16],可見“零引文專利”長期未得到及時關注?!跋闰?qū)型技術”是“不以任何技術為基礎的技術”[17],具有重要的探索精神,毫無疑問,“零引文專利”則是典型的“先驅(qū)型技術”,需要明確的是,這里的“先驅(qū)”僅僅是從其產(chǎn)生方式上而言,并不等同于專利價值上的“先進”。因此,本研究利用知識單元作為專利技術知識特征的刻畫形式,進而測度其對不同技術類型形成的影響,可以有效地規(guī)避專利引文分析手段面對“零引文專利”時的缺陷,并且可以比較“基于科學”“基于技術”兩類技術與“零引文專利”所表征的“先驅(qū)型技術”在新穎性等特征上所呈現(xiàn)出的差異性。
本文以“固體氧化物燃料電池”技術為例,來說明零引文專利的特征。SOFC是一項清潔電池技術,近年來在美國、德國、日本、中國等國家發(fā)展勢頭迅猛,主要與化學、材料學等學科有密切關系,屬于典型的具有重大應用前景的前沿技術領域,因此選為案例進行研究。由于專利文本自身并不標注關鍵詞,而對專利文本標題和摘要進行分詞方式獲得的單詞,不足以準確刻畫專利的技術知識特征。因此本文對獲取專利文本技術知識單元的步驟進行了改進:a.首先,在Web of Science核心合集數(shù)據(jù)庫下載該領域的28 869篇科學論文的題錄信息,獲取作者關鍵詞(DE字段)和拓展關鍵詞(ID字段),并對二者進行清洗、合并和去重,由此構建起科學知識單元主題詞表;b.其次,在Derwent專利數(shù)據(jù)庫檢索獲得該領域13 173件同族專利文獻的題錄信息(檢索共得到13 218件,剔除標題和摘要缺失的45件同族專利數(shù)據(jù)),利用Python編程和自然語言處理技術中的N-gram模型將科學知識單元主題詞表“映射”到專利文本的標題和摘要中,抽取其中的技術詞匯,因詞組的含義比單詞的含義更加豐富,因此只保留提取出來的詞組作為技術知識單元(處理步驟見圖1);c.最后,分別從詞組的豐富性、差異性、新穎性三個角度,構建起關于技術知識單元的三個主要測量指標。
圖1 專利文本知識單元獲取步驟
本研究結(jié)合變量特征,選取多項Logit模型(Multinomial Logit Model)作為研究方法。當因變量表現(xiàn)為多個互相排斥的選擇時,可以運用該模型方法。多項選擇模型的核心思想是各個選擇方案以其中一項方案為參照方案,得到各個方案的選擇概率,且各項概率之和為1。
由此,個體i選擇方案j的概率公式為:
P(yi=j|xi)=
(1)
其中,選擇方案為j(j=1, 2, …,J,J為正整數(shù)),“j=1”即所對應的方案為參照方案。解釋變量只隨個體i而變,不隨著方案j而變。
由此可以得到以J方案為參照方案時其余各方案的效用函數(shù)(公式2),其中P1、P2、…、PJ-1、PJ分別為各個方案的選擇概率,且和為1。
(2)
此外,多項Logit模型在實際使用時,存在與多項Probit模型選擇的問題,二者并無太大差異(見3.2節(jié)兩種模型預測概率相關分析結(jié)論),由于后者無法從“幾率比”角度對模型系數(shù)進行解釋,因此實踐中多使用前者。
2.3.1因變量
按照專利引文的情形,將技術類型定義為三類,第一類為“基于科學的技術”,即專利引文中引用了“非專利文獻”(包含只引用非專利文獻、同時引用非專利和專利文獻兩種情況);第二類為“基于技術的技術”,即專利引文中只引用了“專利文獻”;第三類為“先驅(qū)型技術”,即未引用任何參考文獻。
2.3.2控制變量
技術年齡:一項技術自從首次專利優(yōu)先權申請之日起,便在事實上標志其核心技術思想已經(jīng)誕生,因此選擇當前年份與首次專利優(yōu)先權年份之差,衡量一項專利技術被提出的時間長度,作為技術年齡的指標。
專利布局范圍:專利布局活動并不單純體現(xiàn)為技術獨占性,更多是要繼續(xù)開發(fā)和保護當?shù)氐募夹g市場,屬于專利權人的戰(zhàn)略行為。因此將專利申請的國家或地區(qū)去重后的數(shù)量,作為專利布局范圍的衡量指標。
技術多樣程度:布里淵多樣性指數(shù)(Brillouin Diversity Index),是用于測度傳播過程中信息熵或不確定性的重要指標(公式3),其具有兼顧差異性和均衡性的優(yōu)點,受到學術界的認可,該指標最初主要用于生物多樣性的分析,后被引入科學計量學領域。因此選取IPC四位分類號(小類)的布里淵多樣性指數(shù)作為衡量技術多樣程度指標。
布里淵多樣性指數(shù)計算公式為:
(3)
其中,n是所有IPC小類的總頻次,ni是IPC小類i的頻次,該指數(shù)的取值范圍介入[0,+∞)之間。并且,IPC小類類別i越多、ni分布越均勻,該指數(shù)就越大,表明被觀測對象的多樣性程度就越高。
技術改進次數(shù):同族專利在不同的國家或地區(qū)進行申請,更多是進行一種跨國或地區(qū)的技術保護行為,而同族專利在同一國家或地區(qū)的后續(xù)專利申請,則代表著關聯(lián)技術的技術改進行為。因此,在同一國家或地區(qū),同族專利在原始專利之后進行的專利申請次數(shù),可以較好地衡量技術改進。
研發(fā)人員數(shù)量:專利發(fā)明人的規(guī)模不僅可以表明一項專利技術的研發(fā)力量是否雄厚,同時還可以表明該項專利技術所具備的研發(fā)人員規(guī)模特征,本研究選擇專利去重后的研發(fā)人員數(shù)量作為一項控制因素進行觀察。
創(chuàng)新主體數(shù)量:專利權人的規(guī)模往往蘊涵著跨組織間知識流動的情況,可能同時包含顯性知識和隱性知識的流動,不同技術創(chuàng)新類型的創(chuàng)新主體數(shù)量應該具備了不同的特征,因此納入控制因素進行觀察。
2.3.3自變量
知識單元豐富度:利用檢索到的科學文獻作者關鍵詞和拓展關鍵詞合并去重后的詞匯構建起科學知識單元主題詞表,然后在專利文本的標題和摘要中進行抽取,將抽取到的詞組視為技術知識單元,技術詞組的數(shù)量則為知識單元的豐富度指標值,可以有效度量專利文本中的技術知識。
知識單元差異度:將前述抽取得到的每件專利標題和摘要的技術詞匯視為該專利的技術知識單元,然后利用tf-idf算法,得到每件專利和其他專利數(shù)據(jù)相比在該專利標題和摘要中出現(xiàn)次數(shù)較多、但是在其他數(shù)據(jù)中出現(xiàn)次數(shù)較少的技術詞匯,將這類詞匯視為具有差異化的技術詞匯,并用每件專利具有差異化的技術詞匯數(shù)量,作為衡量其知識單元差異度的指標值。
知識單元新穎度:將前述抽取得到的每件專利標題和摘要的技術詞匯視為該專利的技術知識單元,然后利用burst算法,得到每件專利標題和摘要中突現(xiàn)出來的技術詞匯,將這類詞匯視為具有新穎性的技術詞匯,并用每件專利具有新穎性的技術詞匯數(shù)量,作為衡量其知識單元新穎度的指標值。
各變量名稱、定義與符號匯總情況如表1所示。
表1 變量名稱、定義與符號
由各個變量的描述性統(tǒng)計結(jié)果(表2)可知,3種技術類型分布數(shù)量較為均勻;知識單元豐富度介于1~36之間,均值為7.84個詞組;知識單元差異度介于0~28之間,均值為8.23個詞組;知識單元新穎度介于0~29之間,均值為8.03個詞組。從整體上看,一個技術領域的三種知識單元指標平均值具有相似性,但是每件專利自身所蘊涵的知識單元豐富度、知識單元差異度和知識單元新穎度是迥異的。此外,還報告了其他控制變量的描述性統(tǒng)計結(jié)果。
表2 變量描述性統(tǒng)計
“基于科學的技術”“基于技術的技術”“先驅(qū)型技術”各有3 469、4 537、5 167個觀測樣本,整體上看,知識單元豐富度、知識單元差異度、知識單元新穎度在三種模式上是依次減少的,但是差異并不大(表3)。
表3 各技術類型中知識單元指標均值分布
經(jīng)過對模型精度進行驗證,發(fā)現(xiàn)本研究樣本中的8 690件專利所屬的技術類型被準確驗證,可以認為模型精度較高。此外,在選擇多項Logit模型和多項Probit模型時,經(jīng)過對兩個模型所預測的選擇概率進行相關分析,得到兩類模型的相關性系數(shù)均在99.29%以上,表明兩個模型高度一致,并無實際差異,因此遵從研究慣例,本研究依然使用多項Logit模型。為了重點觀察“基于科學的技術”和“先驅(qū)型技術”的特征,本研究以“基于技術的技術”作為參照方案(表4)。此外,針對參照方案的選擇偏誤可能存在的未知影響,文章還使用“先驅(qū)型技術”作為參照方案,主要變量的符號和顯著性水平并沒有發(fā)生明顯變化,表明模型不會因參照方案造成偏差。模型(1)和(2)報告了變量系數(shù)及其顯著性水平,系數(shù)的正負反映其影響的方向,不能用于刻畫解釋變量對因變量類型的影響大小,因此還報告了模型對應的相對風險比(1)和(2)。
在模型(1)中,以“基于技術的技術”為參照方案,在0.1的顯著性水平上,技術年齡越長、專利布局范圍越廣、技術改進次數(shù)越多、研發(fā)人員數(shù)量越多、創(chuàng)新主體數(shù)量越多的專利更有可能是“基于科學的技術”,更不可能是“先驅(qū)型技術”,而技術多樣程度越高的專利更有可能是“基于科學的技術”,但是對于“先驅(qū)型技術”來說,則無顯著影響。相對風險比(1)中,相對于“基于技術的技術”而言,技術年齡、技術布局范圍、技術多樣程度、技術改進次數(shù)、研發(fā)人員數(shù)量、創(chuàng)新主體數(shù)量分別增加1個單位,其技術類型是“基于科學的技術”的概率分別增加了1.018、1.010、5.167、1.586、1.118和1.021倍;相對于“基于技術的技術”而言,技術年齡、技術布局范圍、技術改進次數(shù)、研發(fā)人員數(shù)量、創(chuàng)新主體數(shù)量分別增加1個單位,其技術類型是“先驅(qū)型技術”的概率分別增加了0.945、0.961、0.175、0.755和0.929倍(注:該值低于1時,表明概率降低了),技術多樣程度影響不顯著。
在模型(2)中,以“基于技術的技術”為參照方案,在0.1的顯著性水平上,知識單元豐富度越高,更有可能是“基于科學的技術”,更不可能是“先驅(qū)型技術”;知識單元差異度越高,更有可能不是“基于科學的技術”,而對于“先驅(qū)型技術”則不顯著;知識單元新穎度越高,對于“基于科學的技術”不顯著,但是更有可能是“先驅(qū)型技術”。在相對風險比(2)中,相對于“基于技術的技術”而言,知識單元豐富度增加1個單位、知識單元差異度增加1個單位,技術類型屬于“基于科學的技術”的概率分別增加了1.135倍和0.901倍;知識單元豐富度增加1個單位、知識單元新穎度增加1個單位,技術類型為“先驅(qū)型技術”的概率分別增加了0.873倍、1.094倍。
據(jù)此,可以依據(jù)模型(2)寫出以“基于技術的技術”為參照方案時,“基于科學的技術”和“先驅(qū)型技術”的效用函數(shù)方程(公式4),其中,P1、P2、P3之和為1。
(4)
表4 模型回歸與相對風險比匯總結(jié)果
進一步,計算模型各個解釋變量在0.1的顯著性水平上對不同技術類型的邊際效應(表5)。技術年齡增加一年,技術類型為“基于科學的技術”“基于技術的技術”和“先驅(qū)型技術”的概率分別增加了0.006、0.003和-0.009,這表明“先驅(qū)型技術”特別容易在更短技術年齡的專利中出現(xiàn)。專利布局范圍增加一個國家/地區(qū),其屬于三類技術的概率依次增加了0.004、0.002和-0.006,表明擴大布局范圍的專利更有可能屬于“基于科學的技術”,其次是“基于技術的技術”,更不可能屬于“先驅(qū)型技術”。技術多樣程度增加一個單位,其屬于“基于科學的技術”和“基于技術的技術”的概率依次增加了0.239和-0.245,表明“基于科學的技術”往往具有更高的技術多樣性,而“基于技術的技術”則相反,此類技術多數(shù)是對過去技術的改進,“先驅(qū)型技術”未通過顯著性檢驗。技術改進次數(shù)增加一次,其屬于三類技術的概率依次增加了0.190、0.102和-0.292,表明一項經(jīng)過改進的同族專利技術,會更有可能屬于“基于科學的技術”或“基于技術的技術”,更不可能屬于“先驅(qū)型技術”,這一結(jié)論很容易被理解,因為一旦經(jīng)過改進,必定會是以先前技術為基礎,先前技術則構成了當前技術的參考文獻。研發(fā)人員數(shù)量多一人,其屬于三類技術的概率依次增加了0.032、0.011和-0.043,表明大規(guī)模的研發(fā)隊伍會更有利于產(chǎn)生出“基于科學的技術”,其次是“基于技術的技術”,而“先驅(qū)型技術”則完全相反,更容易誕生于小規(guī)模的研發(fā)隊伍之中,即他們所掌握的默會知識或未編碼的碎片化知識,有利于產(chǎn)生出“先驅(qū)型技術”。創(chuàng)新主體數(shù)量增加一個,其屬于三類技術的概率依次增加了0.008、0.004和-0.011,這與研發(fā)人員規(guī)模的邊際效應類似,可見,“基于科學的技術”通常需要更多的研發(fā)組織參與,其次是“基于技術的技術”,而“先驅(qū)型技術”則經(jīng)常被小型化的研發(fā)人員和組織所孕育,這類專利的發(fā)明人和專利權人往往更擅長“單打獨斗”。知識單元豐富度增加一個單位,其屬于三類技術的概率依次增加了0.032、-0.006和-0.026,表明包含更多、更豐富技術知識的專利更有可能是“基于科學的技術”,相比之下,“基于技術的技術”,特別是“先驅(qū)型技術”則不以創(chuàng)造更豐富的技術知識為目標。知識單元差異度增加一個單位,其屬于三類技術的概率依次增加了-0.022、0.014和0.007,表明雖然“基于科學的技術”可以帶來更豐富的技術知識,但是這類技術知識卻不是差異性的技術知識,而“基于技術的技術”和“先驅(qū)型技術”則能夠帶來更多差異性的技術知識。知識單元新穎度增加一個單位,其屬于“先驅(qū)型技術”的概率增加了0.013,屬于“基于科學的技術”或“基于技術的技術”不顯著,這進一步表明,相比較而言,“先驅(qū)型技術”則可以帶來更多具有新穎性的技術知識。
表5 邊際效應匯總結(jié)果
a.論證了利用知識單元多維度指標判斷技術類型的可行性。本研究以知識單元為研究視角,利用論文的科學知識單元主題詞表和N-gram模型映射得到技術知識單元,該思路有效規(guī)避了使用專利引文方法分析技術演化過程中忽視“零引文專利”所存在的固有缺陷,成為專利計量學視角下利用專利文本研究知識載體特征問題的一種有益探索和必要補充。
b.界定了以“零引文專利”所表征的“先驅(qū)型技術”。先驅(qū)型技術的內(nèi)涵特征是不以任何編碼化的顯性知識為基礎的新技術,體現(xiàn)出隱性知識顯性化的發(fā)明過程,具有很強的技術新穎性。雖然其未引用任何參考文獻,但并不意味著“先驅(qū)型技術”是憑空想象的結(jié)果,其往往包含更少量的技術知識和較多的差異性技術知識,并且其包含的技術知識新穎性較強,通常具有更短的技術年齡,更小的專利布局規(guī)模,更少的技術改進次數(shù)、發(fā)明人和專利權人規(guī)模,因此其可能是針對某一特定問題,由少數(shù)掌握隱性知識或未公開、碎片化、未編碼知識的專利發(fā)明人或?qū)@麢嗳怂a(chǎn)生的技術方案。
c.發(fā)現(xiàn)了“基于科學的技術”具有更加豐富的知識單元,但是并沒有擁有更多差異性的知識單元,其技術知識單元的新穎性則不明顯,此外,技術年齡越長、專利布局規(guī)模越大、技術多樣程度越高、技術改進次數(shù)越多、研發(fā)人員數(shù)量越多、創(chuàng)新主體數(shù)量越多,越有可能屬于“基于科學的技術”。由此可見,融合了更廣泛知識的技術類型,往往是因為更多研發(fā)人員和組織的參與,從而包含了眾多顯性知識而形成較高的技術多樣程度和較多的技術改進次數(shù),這類專利或許更加具備“原理型”技術的特征。
本文關注到了“零引文專利”這一現(xiàn)象,認為其是將少數(shù)發(fā)明者或?qū)@麢嗳怂莆盏碾[性知識顯性化的過程,印證了著名哲學家波蘭尼做出的“人們所知道的東西遠比能夠表達出來的要多”的經(jīng)典論述?!傲阋膶@彼碚鞯摹跋闰?qū)型技術”之中蘊涵了大量的技術訣竅,或許可以構成顛覆性技術創(chuàng)新的起點。新概念和新單元的長期積累,有可能導致整個硬核的結(jié)構變化,從而引發(fā)科學革命,科學革命分為“漸變式”和“突變式”兩種,科學革命決不意味著知識單元的毀滅,舊知識單元會改變外形,同新的知識單元一起構成新理論體系的基石[6]。由此來看,“零引文專利”所表征的“先驅(qū)型技術”會導致“漸變式”或是“突變式”技術革命嗎?會成為重大科學發(fā)現(xiàn)的新技術手段嗎?會成為技術代際更替的基礎嗎?此外,本研究重點選取了SOFC技術領域作為分析案例,后對生物芯片技術領域做了補充對比分析(限于版面,未列出相關表格),得出了大致相似的研究結(jié)論,但對其他技術領域的零引文專利規(guī)模以及普適性等問題未進行比較,即本文研究結(jié)論的泛化能力尚待進一步檢驗。諸如此類疑問,留待后續(xù)進行深入研究。