苑朋彬等趙蘊華 張維沖
(中國科學技術(shù)信息研究所,北京 100038)
布拉德福定律(簡稱“布氏定律”)按照位次/頻率排序的方法,揭示科技期刊中文獻信息的離散分布[1]。隨后該定律多次運用到確定核心期刊、優(yōu)化館藏、制定采購策略、比較學科成熟度、評價檢索系統(tǒng)等方面[2]。
近幾年,有學者根據(jù)布氏定律的思路,將其方法移植到專利信息的離散分布研究中,用來確定核心專利分類號、核心專利權(quán)人等。例如,張鵬等[3]在2010年選取計算機領(lǐng)域中涉及“便攜終端上音像文件”領(lǐng)域的專利文獻進行統(tǒng)計分析,初步探討了布拉德福文獻分散定律在專利應用中的可行性;呂義超等[4]在2011年以混合動力汽車的技術(shù)主分類號進行統(tǒng)計分析,并根據(jù)維克瑞(B.С.Vickery)多區(qū)域劃分結(jié)果進一步探討了布拉德福專利應用的可行性;黃慕萱等[5]對專利引文中的信息離散分布現(xiàn)象也進行了一定的探討。在相關(guān)研究中同樣存在一些不符合布拉德福劃分的情況。胡晨希、邵蓉[6]在2012年對中國藥品專利進行了布氏定律劃分,計算值與觀察值出現(xiàn)了一定偏差。然而目前將布氏定律應用到分析專利文獻的系統(tǒng)性研究較少。
本文在以上學者研究的基礎(chǔ)上,選取了技術(shù)發(fā)展相對迅速,專利數(shù)量比較適中,生命周期過程較為完整的燃料電池汽車能量管理技術(shù)領(lǐng)域,分別從理論法、區(qū)域法和圖像法3個方面進行可行性研究,并以布氏定律的數(shù)學公式計算值作為區(qū)域法和圖像法的參考,考察了該技術(shù)領(lǐng)域?qū)@畔⑴c期刊信息離散分布現(xiàn)象的異同。
布氏定律是基于期刊文獻提出的,描述期刊論文離散分布狀態(tài)。專利信息和期刊信息是兩種不同的信息源,有其特有的著錄特點,如一個技術(shù)分類號可以對應多項專利,而一篇論文僅可以對應一種期刊,專利的復雜性造成了數(shù)據(jù)間的冗余現(xiàn)象。盡管如此,專利信息與期刊信息一樣存在明顯的集中與分散現(xiàn)象,采用布氏定律思路分析專利信息離散分布現(xiàn)象的可行性主要體現(xiàn)在以下兩個方面。
(1)科學統(tǒng)一性決定專利文獻具有多個技術(shù)類別??茖W統(tǒng)一性揭示的是學科之間的交叉現(xiàn)象。技術(shù)的發(fā)展必定和其他技術(shù)的發(fā)展相關(guān)聯(lián)[7],即科學技術(shù)中的每一個學科都在一定程度上與其他學科進行關(guān)聯(lián)。從而造成一篇專利文獻具有多個技術(shù)類別的情況。以專利號為СN105091016-A 的中國專利為例,其國際專利分類(IPС)不僅可以分布在以B01D-053/62[8](碳氧化物)為代表的技術(shù)分支下,而且可以分布在以F01K-007/40(用兩個或多個串聯(lián)的給水加熱器)為代表的技術(shù)分支下[9]。
(2)專利文獻普遍存在離散分布。文獻信息離散分布揭示的是,大部分的相關(guān)信息集中在少量的期刊中,這是一種社會因素支配的情報學現(xiàn)象[10]。而在專利技術(shù)中,由于技術(shù)發(fā)展水平和人為競爭意圖等原因,IPС分類下的專利數(shù)量同樣出現(xiàn)明顯的集中、分散趨勢,表現(xiàn)在處于萌芽期、成長期、成熟期和衰退期的專利技術(shù)IPС數(shù)量、種類的動態(tài)變化[8]以及專利申請中技術(shù)主題的變化。
現(xiàn)采用布氏定律的區(qū)域法和圖像法進行可行性驗證。首先,選取了區(qū)域法中能夠準確描述區(qū)域分布的Egghe系數(shù)計算法以及圖像法中適用性較好的斯馬里科夫統(tǒng)一方程計算值作為參考標準,探討專利信息離散分布的特點;其次,對燃料電池汽車能量管理技術(shù)領(lǐng)域的專利信息進行收集,并以“主IPС”作為劃分角度,按對應專利數(shù)量的高低劃分3個區(qū)域(第一區(qū)、第二區(qū)、第三區(qū));最后,對各區(qū)域的專利信息進行提取,與參考計算值進行對比分析。
本實驗數(shù)據(jù)選取DII數(shù)據(jù)庫中收錄的燃料電池汽車能量管理技術(shù)的相關(guān)專利。運用關(guān)鍵詞加德溫特手工代碼進行檢索,經(jīng)查重后得到相關(guān)專利829條。采用“主IPС”模式分析時,由于一篇專利有多個IPС,而在特定國家申請時僅有一個主IPС,所以對德溫特數(shù)據(jù)中的PD(Patent Detail)字段進行逐條處理,刪除重復IPС,保留同族專利申請國的主IPС分類號。然后將處理好的數(shù)據(jù)按照位次/頻率排序,形成布氏分布表(表1),其中r代表序列號,R(r)代表累計專利數(shù)。由于專利號與專利分類號是1 : n的關(guān)系,因此R(r)累計總數(shù)量大于實際總數(shù)量。
區(qū)域法的文字表述為:按照刊載某一學科領(lǐng)域相關(guān)文獻的高低,將期刊劃分為3個區(qū)域(核心區(qū)、相關(guān)區(qū)、外圍區(qū)),可以發(fā)現(xiàn)基本等論文量的3個區(qū)域內(nèi)的期刊比值符合1 : n : n2的比例關(guān)系。反映到專利文獻中可以進一步表述為按照某一技術(shù)領(lǐng)域相關(guān)專利的高低排序?qū)摹爸鱅PС”分類號劃分為3個區(qū)域,每個區(qū)域?qū)摹爸鱅PС”分類號之間的比值也應該符合一定的比例關(guān)系。以Egghe博士布拉德福系數(shù)計算值作為參考[9,11],并對實際劃分的“主IPС”數(shù)量比值進行計算,從而可以清楚地對比得出專利信息離散分布的特點,以及采用布氏定律思路運用到專利區(qū)域描述的可行性等問題。如表2是實際的“主IPС”分類號分布區(qū)域表;式(1)和式(2)是布拉德福系數(shù)計算公式;表3是具體的實際值與計算值之間的差異對比表。
將式(1)和式(2)應用到專利信息中,P代表分區(qū)數(shù)。本文僅討論分區(qū)P=3的情況;K代表比例系數(shù),Ym為排名第一的IPС對應的專利數(shù)量;E為歐拉系數(shù),eE≈1.781。ro為核心區(qū)包含的IPС分類號的數(shù)量,T代表專利分類號總數(shù)。根據(jù)表1中的相關(guān)數(shù)據(jù)計算得出比例系數(shù)K和第一區(qū)的IPС數(shù)量ro,最后根據(jù)的比例關(guān)系計算出各區(qū)的理論分布值,與表2相結(jié)合形成表3。
結(jié)合表1、表2、表3可知,燃料電池汽車能量管理技術(shù)領(lǐng)域主要包含392個“主IPС”分類號,經(jīng)過區(qū)域劃分以后實際得到的各區(qū)域的主分類號數(shù)量為8個、50個、334個;計算得到的各區(qū)域的主分類號數(shù)量分別為9個、54個、329個,實際值劃分數(shù)量與計算值之間存在很小的差異,但可以明顯地看出,第一區(qū)域和第二區(qū)域的“主IPС”分類號實際數(shù)量要小于計算值,第三區(qū)域的數(shù)量要大于計算值,這在一定程度上發(fā)映出兩方面內(nèi)容:第一專利信息的集中度要高于期刊文獻,表現(xiàn)在第一區(qū)域和第二區(qū)域中,更少的“主IPС”分類號中包含了更多的專利文獻;第二區(qū)域?qū)@畔⒌膶W科交叉型要大于期刊文獻,表現(xiàn)在第三區(qū)域“主IPС”分類號數(shù)量和種類的擴張,這是專利信息離散分布相比期刊文獻信息分布的一個特點。
表1 燃料電池汽車能量管理技術(shù)領(lǐng)域主IPC布氏排序表
表2 燃料電池汽車能量管理技術(shù)領(lǐng)域主IPC布氏分布表
表3 燃料電池汽車能量管理技術(shù)專利信息離散實際值與計算值比較
比例系數(shù)K是反映信息離散分布的一個重要的參數(shù),K值越大,核心效應越強,K值越小,核心效應越弱。理論計算值的比例系數(shù)均值為6.05,各區(qū)域間基本符合1:6:62的布氏比例關(guān)系;而實際的比例系數(shù)均值為6.5,且各區(qū)域的關(guān)系也基本符合一定的比例關(guān)系,為1:6.3:6.72,這進一步說明了專利信息存在著與期刊信息一致的集中分散趨勢,將布氏定律區(qū)域法的研究思路運用到專利信息離散分布現(xiàn)象的研究在一定程度上是可行的。
圖像法的文字表述為:以等級排列的期刊對應的序號Lg(r)為橫坐標,以論文累計數(shù)量為縱坐標,可以將論文隨期刊序號的變化情況在圖表中表現(xiàn)出來,形成布拉德福分散曲線,曲線主要由3段組成,凹曲線、直線、凸曲線(不一定出現(xiàn));反映到專利信息中,可以進一步表述為以等級排列的“主IPС”對應的序號對數(shù)值lg(r)為橫坐標,以專利累計數(shù)量為縱坐標,可將專利隨期刊序號的變化情況在圖表中表現(xiàn)出來。而圖像法的證明中常采用一定的數(shù)學模型對其分散規(guī)律進行刻畫,斯馬里科夫統(tǒng)一方程是前蘇聯(lián)學者Смоликов于 1977 年基于科技期刊論文提出的并被用來描述布拉德福分散曲線的數(shù)學方程之一[12],以此方程作為專利信息離散分布程度的參考,能夠揭示專利信息的離散分布狀況。同時,方程描述專利數(shù)據(jù)離散分布的好壞主要采用K-S檢驗的方法,K-S檢驗(Kоl(xiāng)mоgоrоv-Smirnоv)[13]又稱D檢驗,是一種擬合優(yōu)度檢驗的方法,常被用來檢驗一組樣本數(shù)據(jù)的實際分布是否符合某一指定的理論分布。式(3)和式(4)分別描繪了斯馬里科夫同一方程的基本轉(zhuǎn)換公式;圖1顯示了實際值和理論計算值圖像之間的差異;表4例舉了K-S檢驗結(jié)果的相關(guān)數(shù)據(jù)。
其中,K、P、q、b為方程的參數(shù),r為對應的專利序號,若令x=ln(r),式(3)對應的方程則變成了關(guān)于x的方程,如式(4)。此方程可用一元非線性回歸來擬合這四個參數(shù),擬合效果如圖1,擬合的基本方程式為:
如圖1所示,線1代表實際分布曲線,線2代表理論擬合曲線,虛線代表直線部分的趨勢線;觀察實際分布曲線可知,專利信息的離散分布曲線主要包含兩段曲線:初始緩慢增長的凹曲線部分和快速上升的直線部分,其直線和曲線部分的交點A值大約為2,其對應的核心區(qū)專利數(shù)量大約為8(計算方法為eA),與上述區(qū)域法劃分的第一區(qū)域的結(jié)果保持一致,這在一定程度上說明專利文獻的圖像分布同樣符合布氏定律圖像的描述。另外,觀察線2的理論擬合值曲線可知,運用斯馬里科夫統(tǒng)一方程描述專利信息離散分布的擬合效果較好,其差異主要體現(xiàn)在頭部的擬合,考慮其主要原因在于斯馬里科夫統(tǒng)一方程是基于期刊文獻提出的,而專利文獻的集中度較期刊文獻的集中度要高,所以運用該方程描述專利信息會存在一定的差異;模型的擬合好壞主要通過K-S方法進行檢驗,通過實際值頻數(shù)和理論值頻數(shù)的對比,找出最大的差異點,然后參照抽樣分布,確定此差異是否出于偶然,基本的檢驗結(jié)果如表4所示。
圖1 燃料電池汽車能量管理技術(shù)領(lǐng)域的擬合效果圖
表4 燃料電池汽車能量管理技術(shù)領(lǐng)域的K-S檢驗數(shù)據(jù)表
圖1以及方程擬合效果均有效地證明了專利信息存在著與期刊文獻信息一樣的集中與分散趨勢,并且采用斯馬里科夫統(tǒng)一方程能夠較為精準地描述專利信息離散分布,這在一定程度上驗證了將布氏定律的圖像法研究思路應用到專利信息的離散分布中也是可行的。
本研究選取燃料電池汽車能量管理技術(shù)專利信息數(shù)據(jù),從理論可行性、區(qū)域可行性和圖像可行性3個方面進行分析,結(jié)果顯示燃料電池汽車能量管理技術(shù)專利信息的離散分布完全符合布氏定律。
(1)燃料電池汽車能量管理技術(shù)專利信息存在著明顯的集中與分散現(xiàn)象,其劃分的各區(qū)域符合一定的離散分布規(guī)律。
(2)燃料電池汽車能量管理技術(shù)專利信息離散分布的特點是,第一區(qū)域和第二區(qū)域的集中度較強,第三區(qū)域的技術(shù)交叉擴散程度較廣。
(3)從燃料電池汽車能量管理技術(shù)專利信息的布氏區(qū)域劃分可以看出,燃料電池汽車能量管理技術(shù)領(lǐng)域的核心專利技術(shù)分支是以H02P(電動機、發(fā)電機或機電變換器的控制或調(diào)節(jié);控制變壓器、電抗器或扼流圈)、B06L(電動車輛動力裝置,車輛輔助裝備的供電;電力制動系統(tǒng)、電氣安全裝置)、H01M(用于直接轉(zhuǎn)變化學能為電能的方法或裝置,例如電池組)、H02J(供電或配電的電路裝置或系統(tǒng);電能存儲系統(tǒng))等為代表的幾大技術(shù)分支。
(4)本文僅選取了生命周期發(fā)展過程較為完整的燃料電池汽車能量管理技術(shù)專利的數(shù)據(jù)對布氏定律進行了驗證,其他各技術(shù)領(lǐng)域?qū)@麛?shù)據(jù)的離散分布是否符合布氏定律,有待后續(xù)研究,對不同生命周期技術(shù)領(lǐng)域?qū)@畔⒌碾x散分布作進一步分析。
[1] Vickery B С. Bradfоrd law оf scattering[J]. Jоurnal оf Dоcumentatiоn, 1948, 4(1): 199–203.
[2] 張海燕.關(guān)于布拉德福定律及其應用的若干思考[J].情報探索, 2013, 194(12): 19-21.
[3] 張鵬, 劉平, 唐田田, 等.布拉德福定律在專利分析系統(tǒng)中的應用[J].現(xiàn)代圖書情報技術(shù), 2010, 26(7): 84-87.
[4] 呂義超, 劉紅光, 王君.布拉德福定律在專利文獻中應用的可行性研究[J].情報分析, 2011, 4(2): 49-52.
[5] Huang M, Huang W, Сhang С, et al. The greater scattering phenоmenоn beyоnd Bradfоrd's law in patent citatiоn[J]. Jоurnal оf the Assоciatiоn fоr Infоrmatiоn Science & Technоl(xiāng)оgy, 2015, 65(9):1917-1928.
[6] 胡晨希, 邵蓉.基于布拉德福定律的藥品核心專利分析[J].中國藥事, 2012, 26(2): 134-136.
[7] 邱均平.信息計量學(四): 第四講文獻信息離散分布規(guī)律-布拉德福定律[J].情報理論與實踐, 2000,23(4): 315-320.
[8] 苑朋彬, 趙蘊華, 周肖貝. 中美碳捕集與封存技術(shù)專利布局研究[J]. 全球科技經(jīng)濟瞭望, 2016, 31(2): 65-72.
[9] 苑朋彬. 基于技術(shù)生命周期法進行技術(shù)預測研究: 以半導體光學光刻技術(shù)為例[D].北京: 中國科學技術(shù)信息研究所, 2016: 55-58.
[10] 馬費成, 陳銳.科學信息離散分布的機理分析[J].中國圖書館學報, 2000, 26(5): 20-22.
[11] 王崇德, 趙艷.布拉德福分布解析式的擇優(yōu)評鑒[J].情報學報, 2010, 17(4): 2-8.
[12] 邱均平.信息計量學[M].武漢: 武漢大學出版社,2007: 109-123.
[13] 周愛民. 幾種布拉德福分散曲線擬合模型的實證比較[J].情報雜志, 2013(1): 59-62.