黎子輝,劉亞娟
(1.華南理工大學(xué)知識(shí)產(chǎn)權(quán)信息服務(wù)中心,廣東 廣州 510640;2.北京棧橋知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙),北京 100090)
自黨的十九大以來(lái),明確提出了“倡導(dǎo)創(chuàng)新文化,強(qiáng)化知識(shí)產(chǎn)權(quán)創(chuàng)造、保護(hù)、運(yùn)用”的新時(shí)代知識(shí)產(chǎn)權(quán)工作歷史使命,國(guó)家的知識(shí)產(chǎn)權(quán)事業(yè)進(jìn)入高質(zhì)量發(fā)展新征程[1]。在此背景下,情報(bào)界對(duì)知識(shí)產(chǎn)權(quán)信息服務(wù)的探討研究更加廣泛[2-3]。無(wú)論是傳統(tǒng)的科技查新和專利檢索,還是新興的專利技術(shù)分析、專利導(dǎo)航和知識(shí)產(chǎn)權(quán)分析評(píng)議等,都要求檢索人員配備適用的檢索工具,以提升專利檢索與分析的工作效率[4-6]。據(jù)筆者了解,目前國(guó)內(nèi)公司開(kāi)發(fā)的專利相關(guān)數(shù)據(jù)庫(kù)就超過(guò)20個(gè),實(shí)際工作證明,各個(gè)專利數(shù)據(jù)庫(kù)的可檢索能力各有不同。有研究者曾對(duì)國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站(SIPO)、中國(guó)知識(shí)產(chǎn)權(quán)網(wǎng)(CNIPR)等9個(gè)中國(guó)專利檢索網(wǎng)站進(jìn)行了比較[7]。但該研究只是憑借檢索結(jié)果數(shù)量衡量各庫(kù)的優(yōu)劣,并未結(jié)合檢索結(jié)果的細(xì)致比對(duì)和文本分析,未能挖掘檢索結(jié)果差異的原因。事實(shí)上,進(jìn)行資源數(shù)據(jù)庫(kù)檢索能力的對(duì)比,需要做更豐富的樣本測(cè)試和更精細(xì)的結(jié)果差異對(duì)照。較早前也要學(xué)者對(duì)中國(guó)專利三個(gè)檢索系統(tǒng)進(jìn)行比較分析,但檢索案例單一且未能實(shí)現(xiàn)精細(xì)對(duì)比和深層次的信息挖掘[8]。而且,時(shí)至今天,各常用專利庫(kù)的可供檢索字段已大同小異,用戶普遍關(guān)心的是數(shù)據(jù)庫(kù)的資源情況。據(jù)用戶采訪顯示,對(duì)于中國(guó)專利文獻(xiàn)檢索,普通檢索用戶認(rèn)可的是國(guó)家知識(shí)產(chǎn)權(quán)局官方網(wǎng)站,圖書館員經(jīng)常使用CNIPR、中國(guó)知網(wǎng)和萬(wàn)方數(shù)據(jù),而專業(yè)專利分析人員較多使用合享IncoPat和智慧芽Patsnap。由于廣大用戶迫切關(guān)心各個(gè)常用中國(guó)專利庫(kù)的使用感受,不少的網(wǎng)絡(luò)測(cè)評(píng)提供了用戶真實(shí)體驗(yàn)對(duì)比,但都是從定性層面進(jìn)行簡(jiǎn)要陳述,未能進(jìn)行系統(tǒng)研究[9,10]。
本文以CNIPR、萬(wàn)方專利數(shù)據(jù)庫(kù)、中國(guó)知網(wǎng)(CNKI)專利數(shù)據(jù)庫(kù)、合享IncoPat以及智慧芽Patsnap五個(gè)常用的中國(guó)專利數(shù)據(jù)庫(kù)為研究對(duì)象,通過(guò)檢索結(jié)果記錄的精細(xì)比對(duì)和文本分析,探尋各庫(kù)檢索結(jié)果的差異是由數(shù)據(jù)源因素還是檢索系統(tǒng)因素造成的,從數(shù)據(jù)完整性和準(zhǔn)確性、數(shù)據(jù)更新情況以及檢索精確度等方面對(duì)以上常用專利庫(kù)做出評(píng)價(jià),為專利檢索用戶及情報(bào)分析人員提供重要參考和使用建議。
以CNIPR、萬(wàn)方專利庫(kù)、CNKI專利庫(kù)、IncoPat以及Patsnap這5個(gè)常用的中國(guó)專利數(shù)據(jù)庫(kù)為研究對(duì)象,并以國(guó)家知識(shí)產(chǎn)權(quán)局免費(fèi)官網(wǎng)(http://psssystem.cnipa.gov.cn/,以下簡(jiǎn)稱“官網(wǎng)”)數(shù)據(jù)作為比對(duì)標(biāo)尺,隨機(jī)選取了5個(gè)具有代表性的不同領(lǐng)域技術(shù)(見(jiàn)表1),分別使用基礎(chǔ)檢索、專利名稱檢索、綜合檢索以及針對(duì)新專利的檢索等,考察相同的檢索策略下檢索結(jié)果數(shù)量差值,并以此出發(fā)挖掘結(jié)果記錄差異的原因,從數(shù)據(jù)源上比較上述5個(gè)常用中國(guó)專利數(shù)據(jù)庫(kù)的數(shù)據(jù)準(zhǔn)確性和檢索完整性,從而評(píng)價(jià)各庫(kù)的檢索能力及各自的優(yōu)勢(shì)。檢索結(jié)果涵蓋中國(guó)發(fā)明專利申請(qǐng)(以下簡(jiǎn)稱“發(fā)明”)、中國(guó)實(shí)用新型專利(以下簡(jiǎn)稱“新型”)和中國(guó)外觀設(shè)計(jì)專利(以下簡(jiǎn)稱“外觀”)。為了更好地進(jìn)行橫向?qū)Ρ?,檢索過(guò)程中均不啟用“主題詞擴(kuò)展/同義詞擴(kuò)展”,且檢索詞限定為“精確檢索”。全部測(cè)試數(shù)據(jù)采集時(shí)間為2019年2月19日晚。
在專利檢索過(guò)程中,一般先將檢索字段限制在“專利名稱或摘要”,再根據(jù)該初步檢索結(jié)果調(diào)整檢索策略[11]。對(duì)此,本環(huán)節(jié)測(cè)試將檢索字段限制為“專利名稱或摘要”,比較在基礎(chǔ)檢索中5個(gè)研究對(duì)象的檢索結(jié)果(見(jiàn)表2)。
從表2可以看出,本環(huán)節(jié)測(cè)試中CNIPR的檢索結(jié)果基本上略多于官網(wǎng),但差異微小;IncoPat和Patsnap的檢索結(jié)果非常相近,且往往獲得比CNIPR稍多的檢索結(jié)果(具體原因?qū)⒃谝韵聹y(cè)試中繼續(xù)分析),未見(jiàn)出現(xiàn)檢索結(jié)果少于官網(wǎng)的“漏檢”情況;而萬(wàn)方和CNKI的檢索結(jié)果相對(duì)官網(wǎng)則略有偏差,大多表現(xiàn)為明顯少于官網(wǎng),“漏檢”情況較為突出。為了探尋CNIPR的檢索結(jié)果略多于官網(wǎng)的原因,進(jìn)行人工比對(duì)發(fā)現(xiàn),官網(wǎng)的檢索在“查全”方面確實(shí)存在缺陷。
如樣本3的外觀設(shè)計(jì),在官網(wǎng)的檢索結(jié)果為0,但在CNIPR、IncoPat和Patsnap都能檢索出“數(shù)據(jù)采集傳輸儀CN201830575133.0”和“電積槽CN201530411136.7”兩件外觀設(shè)計(jì)專利,而且說(shuō)明書摘要中的確出現(xiàn)了“重金屬”“廢水”“處理”3個(gè)檢索詞,證實(shí)該2件外觀設(shè)計(jì)專利出現(xiàn)在檢索結(jié)果中是正確的。通過(guò)專利號(hào)或?qū)@Q反查,均能在官網(wǎng)上檢索到所述2件專利的數(shù)據(jù)記錄,說(shuō)明在官網(wǎng)上是有相應(yīng)專利記錄,但檢索過(guò)程中系統(tǒng)未能檢全,反映出官網(wǎng)系統(tǒng)的檢索不一定能在自身數(shù)據(jù)中確保100%檢全。
表2 基礎(chǔ)檢索的結(jié)果數(shù)量
在技術(shù)調(diào)研的過(guò)程中,如果檢索結(jié)果過(guò)多,往往會(huì)把關(guān)鍵詞限制在“專利名稱”以獲取密切相關(guān)的專利文獻(xiàn)[12]。本環(huán)節(jié)測(cè)試將檢索字段限制為“專利名稱”,比較在定位檢索中5個(gè)研究對(duì)象的檢索結(jié)果情況(見(jiàn)表3)。
表3 定位檢索的結(jié)果數(shù)量
從表3可以看出,本環(huán)節(jié)測(cè)試中CNIPR、Inco-Pat和Patsnap的檢索結(jié)果與官網(wǎng)基本相同;相比之下,萬(wàn)方和CNKI的大部分檢索結(jié)果數(shù)量仍明顯少于官網(wǎng),反映出該兩個(gè)常用中文數(shù)據(jù)庫(kù)在專利檢索“查全”方面仍顯劣勢(shì)。另外,官網(wǎng)的檢索結(jié)果仍然全部出現(xiàn)略少于CNIPR的情況,如樣本3在官網(wǎng)的發(fā)明記錄為553條,而CNIPR為557條。
通過(guò)人工比對(duì),發(fā)現(xiàn)缺少的記錄是“一種待處理廢水重金屬成分檢測(cè)工藝CN201811402768”、“一種重金屬絡(luò)合廢水處理電Fenton氧化裝置CN109354128A”等4件最新公開(kāi)的專利,該4件專利公開(kāi)/公告日都是2019-02-19,即本文測(cè)試組數(shù)據(jù)采集當(dāng)天。通過(guò)專利號(hào)或?qū)@Q在官網(wǎng)上反查,未能檢索到上述4件專利,證實(shí)官網(wǎng)的確缺少相應(yīng)數(shù)據(jù),而并非系統(tǒng)的原因未能檢出。本環(huán)節(jié)測(cè)試顯示,CNIPR在數(shù)據(jù)完整性方面最具優(yōu)勢(shì),其新公開(kāi)專利上線速度甚至比官網(wǎng)更快。
專利檢索中,最普遍的檢索方式是“專利名稱/摘要+IPC分類號(hào)+申請(qǐng)年份”,以此精準(zhǔn)獲得相關(guān)專利技術(shù)信息[13]。本環(huán)節(jié)測(cè)試將檢索字段限制為“專利名稱或摘要”,并添加IPC分類號(hào)(表1)和申請(qǐng)年份(2013.01.01—2018.12.31)兩項(xiàng)限制條件,進(jìn)一步比較5個(gè)研究對(duì)象在綜合檢索中的結(jié)果情況。因外觀設(shè)計(jì)不使用IPC分類號(hào),本環(huán)節(jié)測(cè)試不考慮外觀設(shè)計(jì)的檢索結(jié)果(見(jiàn)表4)。
表4 綜合檢索的結(jié)果數(shù)量
從表4看出,和前面的測(cè)試類似,CNIPR的檢索結(jié)果比官網(wǎng)略多,人工比對(duì)后發(fā)現(xiàn)多出來(lái)的記錄同樣是測(cè)試組數(shù)據(jù)采集當(dāng)天公開(kāi)的最新專利。IncoPat和Patsnap的檢索結(jié)果依然基本相同的,但與表2部分?jǐn)?shù)據(jù)類似,也是普遍出現(xiàn)檢索結(jié)果數(shù)量比CNIPR和官網(wǎng)都稍多的情況。經(jīng)人工比對(duì)、專家咨詢及官方確認(rèn),證實(shí)多出來(lái)的專利記錄主要是由于異常申請(qǐng)的原因(重復(fù)申請(qǐng)等),部分已被公開(kāi)的專利申請(qǐng)文本(特別是2018年前后申請(qǐng)的)被撤回且在官網(wǎng)系統(tǒng)中被刪除了數(shù)據(jù)記錄,但在IncoPat、Patsnap、CNKI和萬(wàn)方等商業(yè)數(shù)據(jù)庫(kù)中仍保留了該部分?jǐn)?shù)據(jù),形成了類似“百度快照”的記錄效果。如此,反而讓商業(yè)數(shù)據(jù)庫(kù)可實(shí)現(xiàn)對(duì)已刪除記錄的另類“檢全”作用。
此外,萬(wàn)方和CNKI則仍舊在“查全”上表現(xiàn)不佳,但在樣本4中發(fā)生異常,其在萬(wàn)方檢出的實(shí)用新型數(shù)量是21件,比CNIPR還多3件。經(jīng)過(guò)文本比對(duì),樣本4中萬(wàn)方的檢索結(jié)果更多的原因,是即便使用了“精確”檢索,該庫(kù)在檢索中仍會(huì)自動(dòng)拆分檢索詞,例如萬(wàn)方檢出的專利“一種指紋真?zhèn)巫R(shí)別裝置CN201621460937.8”的文本中,實(shí)際并未出現(xiàn)“指紋識(shí)別”的詞組,而是分別出現(xiàn)了“指紋”和“識(shí)別”兩個(gè)被拆分開(kāi)來(lái)的關(guān)鍵詞,因此該記錄僅出現(xiàn)在萬(wàn)方的檢索結(jié)果中,而并未出現(xiàn)在其他幾個(gè)平臺(tái)的檢索結(jié)果中。以此看出,萬(wàn)方的自動(dòng)拆詞使該庫(kù)在詞組精確檢索中未能嚴(yán)格獲得精準(zhǔn)的結(jié)果,但另一角度而言,又一定程度保證了用戶在其資源庫(kù)上“查全”。
從前面的測(cè)試結(jié)果看出,導(dǎo)致5個(gè)測(cè)試對(duì)象以及官網(wǎng)各自數(shù)據(jù)源的差異重要原因之一是有否最新公開(kāi)的專利,即數(shù)據(jù)庫(kù)的新增記錄更新速度。為了更好地反映實(shí)驗(yàn)數(shù)據(jù)庫(kù)對(duì)新專利的檢索情況,本環(huán)節(jié)測(cè)試將專利申請(qǐng)時(shí)間設(shè)置為“2018.01.01—2019.02.19”,檢索字段限制為“專利名稱或摘要”,比較研究對(duì)象的檢索結(jié)果情況。
從表5看出,CNIPR在各次檢索中結(jié)果數(shù)量最多,通過(guò)人工比對(duì),再次發(fā)現(xiàn)CNIPR比其余庫(kù)多出的記錄確實(shí)就是與本文測(cè)試組數(shù)據(jù)采集同一天公開(kāi)的新專利,反映出CNIPR的新記錄上線速度最快。IncoPat和Patsnap數(shù)據(jù)上線速度稍遜于CNIPR,但接近與官網(wǎng)同步。而CNKI的新專利數(shù)據(jù)量上則明顯遜色,萬(wàn)方更是在數(shù)據(jù)更新方面明顯不佳,各個(gè)測(cè)試樣本在其上的新專利檢索結(jié)果數(shù)據(jù)量均為最低值。
為了進(jìn)一步測(cè)試實(shí)驗(yàn)數(shù)據(jù)庫(kù)對(duì)新專利的收錄情況,隨機(jī)選取10件3個(gè)月以內(nèi)的新公開(kāi)專利,考察實(shí)驗(yàn)數(shù)據(jù)庫(kù)是否可檢索出所述測(cè)試組新專利。
表5 新專利檢索結(jié)果數(shù)量
表6 新專利檢索情況
從表6看出,CNIPR數(shù)據(jù)最完整,最適合做專利數(shù)量標(biāo)尺;IncoPat和Patsnap基本與官網(wǎng)同步,都可保證一周以內(nèi)的更新速度;CNKI在測(cè)試組中近2個(gè)月的新公開(kāi)專利數(shù)據(jù)尚未見(jiàn)收錄,公開(kāi)時(shí)間2個(gè)月以上的測(cè)試組專利則均可檢索;而萬(wàn)方在測(cè)試組中的全部新公開(kāi)專利均未見(jiàn)收錄。
專利統(tǒng)計(jì)與分析往往需要進(jìn)行專利申請(qǐng)人/專利權(quán)人統(tǒng)計(jì)。本環(huán)節(jié)測(cè)試選取清華大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、哈爾濱工業(yè)大學(xué)、南京理工大學(xué)和華南理工大學(xué)5所具有代表性的不同區(qū)域的理工類高校,用以測(cè)評(píng)幾個(gè)實(shí)驗(yàn)數(shù)據(jù)的數(shù)據(jù)準(zhǔn)確性與檢索精確度。為了排除數(shù)據(jù)上線速度的影響,專利公開(kāi)時(shí)間選擇為2013年1月1日—2017年12月31日。由于萬(wàn)方專利檢索只能限制發(fā)表時(shí)間(即申請(qǐng)時(shí)間)區(qū)間,不可限制專利公開(kāi)時(shí)間區(qū)間,因此暫未不列入對(duì)比。
表7 機(jī)構(gòu)檢索結(jié)果數(shù)量
通過(guò)對(duì)表7結(jié)果的數(shù)據(jù)分析及相應(yīng)文本比對(duì),發(fā)現(xiàn)一些情況。
(1)數(shù)據(jù)準(zhǔn)確性方面:①官網(wǎng)在機(jī)構(gòu)2上只檢出1件外觀設(shè)計(jì)專利,但CNIPR等其余數(shù)據(jù)均可檢出2件,經(jīng)比對(duì),該專利“上轉(zhuǎn)換單光子探測(cè)器CN201530041934.5”的文本在官網(wǎng)的申請(qǐng)人(專利權(quán)人)著錄項(xiàng)是“山東量子科學(xué)技術(shù)研究院有限公司”,而在CNIPR等其余的數(shù)據(jù)庫(kù)相應(yīng)著錄項(xiàng)是“山東量子科學(xué)技術(shù)研究院有限公司;中國(guó)科學(xué)技術(shù)大學(xué)先進(jìn)技術(shù)研究院”,即同一專利的申請(qǐng)人(專利權(quán)人)著錄項(xiàng)在官網(wǎng)和CNIPR等數(shù)據(jù)庫(kù)不一致,經(jīng)專家咨詢和官方確認(rèn),該情況屬于官網(wǎng)修正了數(shù)據(jù)記錄,但其余商業(yè)數(shù)據(jù)庫(kù)未能實(shí)現(xiàn)相應(yīng)修改,即商業(yè)數(shù)據(jù)庫(kù)對(duì)已錄入數(shù)據(jù)的修改更新不能保證。②Patsnap在機(jī)構(gòu)3的數(shù)據(jù)發(fā)生異常,明顯多于官網(wǎng)及其余商業(yè)數(shù)據(jù)庫(kù)。經(jīng)人工比對(duì),發(fā)現(xiàn)Patsnap在該次檢索中將“黑龍江大學(xué)”的相關(guān)數(shù)據(jù)也列入其內(nèi),屬于系統(tǒng)錯(cuò)檢的情況,但在其他測(cè)試組中并未出現(xiàn)類似問(wèn)題。③在排除更新速度的影響后,CNKI的檢索結(jié)果與官網(wǎng)高度相符,反映出CNKI對(duì)已公開(kāi)1年以上的專利檢索準(zhǔn)確度很高。
(2)檢索精確度方面:①官網(wǎng)在機(jī)構(gòu)1的外觀設(shè)計(jì)出現(xiàn)較多漏檢專利,如“液體工作站(Labkeeper)CN201330221507.6”出現(xiàn)在除官網(wǎng)以外其余數(shù)據(jù)庫(kù)的檢索結(jié)果中。經(jīng)過(guò)專利號(hào)或?qū)@Q反查,發(fā)現(xiàn)該專利在官網(wǎng)中的申請(qǐng)人(專利權(quán)人)著錄項(xiàng)是“博奧生物有限公司”,而在CNIPR等則是“博奧生物有限公司;清華大學(xué)”,出現(xiàn)了兩種不同的著錄信息。事實(shí)上,該專利發(fā)生了專利權(quán)人變更,變更后為清華大學(xué),應(yīng)該被作為有效數(shù)據(jù)統(tǒng)計(jì)入內(nèi),屬于因著錄項(xiàng)未及時(shí)更新導(dǎo)致的漏檢,即官網(wǎng)也會(huì)因部分信息更新不及時(shí)導(dǎo)致漏檢。
根據(jù)上述針對(duì)檢索結(jié)果數(shù)據(jù)完整性、準(zhǔn)確性以及檢索精確度的系列測(cè)試結(jié)果,對(duì)國(guó)家知識(shí)產(chǎn)權(quán)局官方網(wǎng)站、CNIPR專利檢索平臺(tái)、萬(wàn)方專利庫(kù)、中國(guó)知網(wǎng)專利庫(kù)、合享IncoPat專利數(shù)據(jù)庫(kù)以及智慧芽Patsnap專利數(shù)據(jù)庫(kù)幾個(gè)常用的中文專利數(shù)據(jù)庫(kù)作出以下評(píng)價(jià)和使用建議:(1)作為數(shù)據(jù)源標(biāo)準(zhǔn),國(guó)知局官網(wǎng)仍可能會(huì)發(fā)生因著錄項(xiàng)變更(如專利權(quán)人轉(zhuǎn)移)更新不及時(shí)導(dǎo)致漏檢的情況,也可能會(huì)發(fā)生因系統(tǒng)原因未能在其數(shù)據(jù)源中100%檢全的問(wèn)題,而且檢索速度較慢、檢索功能相對(duì)單一,因此在科技查新、專利信息分析等需要兼顧查全率及工作效率時(shí),建議使用商業(yè)數(shù)據(jù)庫(kù)進(jìn)行輔助檢索;(2)CNIPR的數(shù)據(jù)更新速度基本可實(shí)現(xiàn)每日更新,其新公開(kāi)專利數(shù)據(jù)上線最快,也未見(jiàn)發(fā)生明顯的“漏檢”情況,適宜用作專利的常規(guī)檢索與統(tǒng)計(jì)工具;(3)IncoPat和Patsnap的檢索功能齊全且具有一定的專利分析功能,有較多可以直接輸出的可視化數(shù)據(jù)圖表,便于專利分析人員完成專利分析報(bào)告,而且新記錄更新速度基本能與官網(wǎng)同步,但其對(duì)已錄入數(shù)據(jù)的部分修改與更新仍望跟進(jìn),以實(shí)現(xiàn)該部分?jǐn)?shù)據(jù)與官網(wǎng)的一致性;(4)作為常用中文文獻(xiàn)綜合檢索平臺(tái),CNKI和萬(wàn)方能為跨庫(kù)的一站式檢索提供很大的便利,適用于技術(shù)調(diào)研、成果評(píng)價(jià)等文獻(xiàn)綜合分析的場(chǎng)景,但僅針對(duì)其專利庫(kù)而言,兩者的數(shù)據(jù)更新速度還需提升,尤其是對(duì)近2~3月內(nèi)的新公開(kāi)專利數(shù)據(jù)缺失嚴(yán)重;(5)對(duì)新專利的檢全率及數(shù)據(jù)更新速度排序是:CNIPR>官網(wǎng)≈IncoPat≈Patsnap>CNKI>萬(wàn)方;(6)單個(gè)數(shù)據(jù)庫(kù)(包括官網(wǎng))容易出現(xiàn)錯(cuò)檢漏檢情況,做精準(zhǔn)統(tǒng)計(jì)時(shí)建議聯(lián)合使用不少于兩個(gè)專利檢索平臺(tái);(7)萬(wàn)方、CNKI、IncoPat和Patsnap等商業(yè)數(shù)據(jù)庫(kù)保留了官網(wǎng)和CNIPR中被刪除了的數(shù)據(jù)記錄,形成了類似“百度快照”的記錄效果,其數(shù)據(jù)的不同步反而使所述商業(yè)數(shù)據(jù)庫(kù)可實(shí)現(xiàn)對(duì)已刪除記錄的另類“檢全”作用,有可能用于研究專利不良申請(qǐng)行為等。