〔摘 要〕專利信息資源的建設(shè),對(duì)進(jìn)行創(chuàng)新型國家的建設(shè)起著重要的作用。專利數(shù)據(jù)庫的標(biāo)引工作,對(duì)專利信息的情報(bào)挖掘起著基礎(chǔ)性的作用。通過對(duì)檢索的相關(guān)主題數(shù)據(jù)進(jìn)行分析,對(duì)專利標(biāo)引的深度、非題名關(guān)鍵詞、先組度、一致性、相對(duì)等同率進(jìn)行探討,對(duì)專利數(shù)據(jù)庫標(biāo)引現(xiàn)狀進(jìn)行測評(píng),為我國專利數(shù)據(jù)庫建設(shè)提供了依據(jù)。
〔關(guān)鍵詞〕專利數(shù)據(jù)庫;標(biāo)引;檢索;質(zhì)量
DOI:10.3969/j.issn.1008-0821.2010.12.016
〔中圖分類號(hào)〕G250.74 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2010)12-0058-04
Evaluation on China Patent Databases Indexing QualityLi Hongfang Zou Xiaozhu
(Institute of Scientific Technology Information,Nanjing University of Aeronautics and Astronautics,
Nanjing 210016,China)
〔Abstract〕Patent information resources construction plays an important role on the construction of innovative country.The indexing of patent database plays a fundamental role on the intelligence mining of patent information.Though analysing the related subject retrieval of data,discussing the depth of the patent indexing,keywords,average word long,consistency and relatively equal ratio,assessing patent databases indexing status,providing standard for China patent databases construction.
〔Keywords〕patent database;indexing;retrieval;quality
隨著現(xiàn)代信息技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)信息的日益膨脹,專利對(duì)保護(hù)自主知識(shí)產(chǎn)權(quán)方面起著重要的作用,專利信息也是首選的競爭情報(bào)源,是取之不盡、用之不竭的寶庫。對(duì)專利信息進(jìn)行分析,是科研機(jī)構(gòu)進(jìn)行科學(xué)研究,企業(yè)進(jìn)行發(fā)展決策、國家進(jìn)行戰(zhàn)略決策的重要參考依據(jù)。當(dāng)各種專利數(shù)據(jù)庫不斷涌現(xiàn)時(shí),其中出現(xiàn)的問題也不斷暴露,如專利數(shù)據(jù)庫的標(biāo)引問題。專利標(biāo)引是建立專利數(shù)據(jù)庫系統(tǒng),進(jìn)行專利檢索的重要環(huán)節(jié),是進(jìn)行專利信息分析獲取競爭情報(bào)的基礎(chǔ)和關(guān)鍵,專利數(shù)據(jù)庫的標(biāo)引質(zhì)量日益成為值得研究的課題。
1 我國專利數(shù)據(jù)庫標(biāo)引概況
1.1 我國專利數(shù)據(jù)庫簡介
我國專利數(shù)據(jù)庫眾多,為了對(duì)專利標(biāo)引問題進(jìn)行研究,主要選取其中較權(quán)威的3個(gè)專利數(shù)據(jù)庫:國家知識(shí)產(chǎn)權(quán)局專利檢索系統(tǒng)、中國專利信息中心、中國知識(shí)產(chǎn)權(quán)網(wǎng)進(jìn)行比較[6]。
國家知識(shí)產(chǎn)權(quán)局專利檢索系統(tǒng),收錄了1985年9月10日以來公布的全部中國專利信息,包括發(fā)明、實(shí)用新型和外觀設(shè)計(jì)3種專利公開時(shí)的著錄項(xiàng)目、摘要和主權(quán)項(xiàng),并可瀏覽到各種說明書全文及外觀設(shè)計(jì)圖形,全部信息免費(fèi)向公眾提供,當(dāng)日瀏覽或下載專利說明書的量不能超過300頁。
中國專利信息中心,建于1988年5月,可檢索國內(nèi)外專利數(shù)據(jù)庫,使用該系統(tǒng)前應(yīng)先行注冊(cè),分為免費(fèi)和交會(huì)員費(fèi)用戶。收錄了我國自1985年出版專利文獻(xiàn)以來的發(fā)明專利信息和實(shí)用新型專利信息??蔀g覽或保存專利的主附圖、公開說明書以及授權(quán)說明書的信息圖片(tif文件),需下載瀏覽器插件。
中國知識(shí)產(chǎn)權(quán)網(wǎng)是中外專利數(shù)據(jù)庫服務(wù)平臺(tái),主要提供對(duì)中國專利和國外(美國、日本、英國、德國、法國、歐洲專利局、WIPO、瑞士)專利檢索。收錄1985年以來的全部發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利。
可以看出,在3個(gè)數(shù)據(jù)庫中,國家知識(shí)產(chǎn)權(quán)局和中國知識(shí)產(chǎn)權(quán)網(wǎng)均不需注冊(cè),即可免費(fèi)查找和檢索全部專利信息,而中國專利信息中心則需進(jìn)行注冊(cè),會(huì)員還需交費(fèi)。此外,中國專利信息中心并不涉及外觀設(shè)計(jì)專利。
1.2 我國專利數(shù)據(jù)庫標(biāo)引加工現(xiàn)狀
情報(bào)檢索語言的全面性和專指性對(duì)情報(bào)檢索效率有著重要影響,同樣,專利檢索語言對(duì)專利數(shù)據(jù)庫的檢索效率也有著重要影響。情報(bào)檢索語言按其結(jié)構(gòu)原理,可分為分類檢索語言、主題檢索語言、代碼檢索語言三大類型[3]。其中常用的主要是分類和主題檢索語言,分析3個(gè)數(shù)據(jù)的檢索字段可得到其標(biāo)引現(xiàn)狀如表1所示:
表1 3個(gè)專利數(shù)據(jù)庫標(biāo)引現(xiàn)狀
專利數(shù)據(jù)庫名稱分類標(biāo)引主題標(biāo)引國家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫主分類號(hào)、分類號(hào)名稱、摘要中國專利信息中心國際分類號(hào)、范疇分類號(hào)發(fā)明名稱、文摘、主題詞、關(guān)鍵詞中國知識(shí)產(chǎn)權(quán)網(wǎng)主分類號(hào)、分類號(hào)、范疇分類名稱、摘要、簡要說明
2010年12月第30卷第12期中國專利數(shù)據(jù)庫標(biāo)引質(zhì)量測評(píng)Dec.,2010Vol.30 No.12由表1可見:首先,國家知識(shí)產(chǎn)權(quán)局專利數(shù)據(jù)庫和中國知識(shí)產(chǎn)權(quán)網(wǎng)沒有提供“關(guān)鍵詞”檢索字段,但是在專利信息中心提供了“關(guān)鍵詞、主題詞”檢索字段,說明專利信息中心進(jìn)行了主題標(biāo)引的深度加工。其次,知識(shí)產(chǎn)權(quán)網(wǎng)提供了“簡要說明”標(biāo)引,說明知識(shí)產(chǎn)權(quán)網(wǎng)對(duì)專利進(jìn)行了除外部特征之外的進(jìn)一步主題標(biāo)引。再次,3個(gè)專利數(shù)據(jù)庫中的標(biāo)引項(xiàng)雖有很多相同之處,但并沒有統(tǒng)一的規(guī)范,而且“主題詞”“關(guān)鍵詞”“簡要說明”只是簡單主題標(biāo)引,標(biāo)引深度稍顯不足。
我國專利數(shù)據(jù)庫的專利標(biāo)引中均存在分類標(biāo)引,這種分類法主要是揭示專利中所描述的問題,是從專利內(nèi)容的角度,將研究對(duì)象置于一定的學(xué)科體系下,類目之間是隸屬、平衡和派生的關(guān)系,有嚴(yán)格的秩序,但是分類法的體系過于龐大,不容易掌握,對(duì)細(xì)小專深的主題難于揭示和檢索。而關(guān)鍵詞是指出現(xiàn)在文獻(xiàn)標(biāo)題、文摘、正文中,對(duì)表達(dá)文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的詞語,對(duì)揭示和描述文獻(xiàn)主題內(nèi)容是重要的、關(guān)鍵性的語句。主題詞直接用名詞術(shù)語作為檢索詞,表達(dá)概念較為準(zhǔn)確和靈活,具有直接性、專指性、易用性的特征。因此,在專利數(shù)據(jù)庫的標(biāo)引中,將三者結(jié)合,在保證專利信息真實(shí)、可靠的同時(shí),更好地提高專利信息的查全率和查準(zhǔn)率。
2 標(biāo)引數(shù)據(jù)獲取與分析
2.1 標(biāo)引數(shù)據(jù)獲取方法
筆者采用定量與定性相結(jié)合的方法對(duì)專利數(shù)據(jù)庫的標(biāo)引工作進(jìn)行了研究,文中采用的63個(gè)以“傳動(dòng)”為主題的專利數(shù)據(jù)是通過對(duì)中國知識(shí)產(chǎn)權(quán)局、專利信息中心和知識(shí)產(chǎn)權(quán)網(wǎng)3個(gè)專利數(shù)據(jù)庫進(jìn)行多字段綜合檢索,與行業(yè)專家溝通,按“傳動(dòng)特點(diǎn)”篩選出63個(gè)密切相關(guān)的專利。同時(shí),采用的其他專利數(shù)據(jù),也是對(duì)專利數(shù)據(jù)庫進(jìn)行綜合檢索的結(jié)果。
標(biāo)引就是把文獻(xiàn)主題的自然語言轉(zhuǎn)化為檢索語言的過程,也就是對(duì)文獻(xiàn)進(jìn)行主題分析的結(jié)果,賦予某種檢索標(biāo)識(shí)的過程。主要涉及的兩種標(biāo)引方法:自由標(biāo)引和受控標(biāo)引。自由標(biāo)引是直接使用自然語言中未經(jīng)規(guī)范的自由詞、關(guān)鍵詞作為表達(dá)文獻(xiàn)主題的檢索標(biāo)識(shí)的標(biāo)引。受控標(biāo)引是用規(guī)范化的檢索語言,作為描述和表達(dá)文獻(xiàn)主題的檢索標(biāo)識(shí)和標(biāo)引。為了進(jìn)行專利標(biāo)引質(zhì)量的測評(píng)對(duì)63個(gè)專利數(shù)據(jù)進(jìn)行了手工標(biāo)引。具體流程如圖1。
2.2 專利標(biāo)引質(zhì)量分析
從專利數(shù)據(jù)庫檢索和標(biāo)引兩個(gè)角度對(duì)我國專利標(biāo)引質(zhì)量的若干問題進(jìn)行測評(píng)。
2.2.1 標(biāo)引深度
專利標(biāo)引深度是指一個(gè)專利中所論述的主題概念被確認(rèn)并轉(zhuǎn)化為檢索標(biāo)識(shí)的完備程度,是根據(jù)專利主題概念內(nèi)容揭示的廣度衡量標(biāo)引質(zhì)量的一個(gè)因素。專利標(biāo)引深度的選取對(duì)用戶檢索的查全率和查準(zhǔn)率有著重要的影響。
國家知識(shí)產(chǎn)權(quán)局專利檢索系統(tǒng)、中國專利信息中心和中國知識(shí)產(chǎn)權(quán)網(wǎng)都對(duì)專利數(shù)據(jù)進(jìn)行了不同的標(biāo)引,但仍存在標(biāo)引深度不夠的問題。
如:專利名稱為“行星齒輪箱”的4個(gè)不同專利,均是發(fā)明專利,專利號(hào)分別為“03119913.5”、“200480031236.6”、“200480030916.6”、“200580004698.3”,但是簡單地從其標(biāo)引項(xiàng)中并不能對(duì)其專利進(jìn)行區(qū)分,必須對(duì)這4個(gè)專利說明書進(jìn)行主題分析、深度挖掘才能區(qū)分。如通過對(duì)專利內(nèi)容進(jìn)行分析:“03119913.5”專利實(shí)現(xiàn)了傳動(dòng)大速比,應(yīng)用了圓柱齒輪,而且主要應(yīng)用于印刷機(jī)方面;“200480031236.6”專利在潤滑發(fā)明進(jìn)行了改進(jìn);“200480030916.6”專利采用了滑動(dòng)套筒、定心束,實(shí)現(xiàn)了微振動(dòng);“200580004698.3”使用了間隙調(diào)整件,實(shí)現(xiàn)了4個(gè)專利的區(qū)分。
筆者結(jié)合《漢語主題詞表》和《航天科學(xué)技術(shù)敘詞表》,分別對(duì)主題為“傳動(dòng)”的專利進(jìn)行深度標(biāo)引,每個(gè)專圖1 手工標(biāo)引流程
利選取5~10個(gè)主題詞。設(shè)第i個(gè)專利的主題詞個(gè)數(shù)為ai,n個(gè)專利的平均標(biāo)引深度為∑ai/n,則本主題平均標(biāo)引深度為6.1,無疑如果進(jìn)行這樣的標(biāo)引將大大提高標(biāo)引深度。
2.2.2 非題名關(guān)鍵詞的標(biāo)引
題名關(guān)鍵詞與非題名關(guān)鍵詞是相對(duì)的,題名關(guān)鍵詞是指文獻(xiàn)題名中明顯表達(dá)出來的主題,屬顯性主題;非題名關(guān)鍵詞則是在文獻(xiàn)題名中未顯現(xiàn)出來,必須通過深入分析才能揭示的一些主題概念或因素,屬隱性主題。非題名關(guān)鍵詞往往是題名關(guān)鍵詞的細(xì)分主題、相關(guān)主題或衍生主題,往往更能表達(dá)專利所傳達(dá)的情報(bào)信息。
筆者通過對(duì)主題為“傳動(dòng)”的關(guān)鍵詞標(biāo)引進(jìn)行統(tǒng)計(jì),結(jié)果如表2所示:表2 關(guān)鍵詞統(tǒng)計(jì)
統(tǒng)計(jì)項(xiàng)類型個(gè) 數(shù)比例(%)題名關(guān)鍵詞14938.7非題名關(guān)鍵詞23661.3求和385100
由上可知,“非題名關(guān)鍵詞”所占比例為“61.3%”,加強(qiáng)了非題名關(guān)鍵詞的標(biāo)引。說明按標(biāo)引流程對(duì)專利進(jìn)行關(guān)鍵詞標(biāo)引,可以更好地提取非題名關(guān)鍵詞,有利于對(duì)隱含信息的挖掘,從而為專利信息的定量分析提供科學(xué)的依據(jù),也間接地說明了我國專利數(shù)據(jù)庫所提供的非題名關(guān)鍵詞標(biāo)引的不足。因此應(yīng)該加強(qiáng)和規(guī)范非題名關(guān)鍵詞的標(biāo)引。
2.2.3 相對(duì)先組度
復(fù)合概念可以由一個(gè)或多個(gè)單元詞進(jìn)行組配,也可以用一個(gè)先組詞(復(fù)合詞)進(jìn)行組配。先組度是指先組詞在主題表中所占比例。因?yàn)闈h語中分詞很困難,所以采用“相對(duì)先組度”進(jìn)行計(jì)算。即相對(duì)先組度=主題詞所包含單元詞的個(gè)數(shù)/主題詞總數(shù)。
筆者對(duì)有關(guān)“傳動(dòng)”的63個(gè)專利的主題詞進(jìn)行先組度計(jì)算,結(jié)果見表3:表3 相對(duì)先組度
詞 長個(gè) 數(shù)詞 長個(gè) 數(shù)11539255683159714125平均詞長3.19
由表3可知,主題詞主要集中在詞長為3和4的詞中,通過先組度,可以測量專利標(biāo)引的質(zhì)量。在標(biāo)引工作中,先組度越高,專利的專指度越高,從而提供的檢索入口越多,檢準(zhǔn)率越高。
2.2.4 標(biāo)引的一致性
專利標(biāo)引的一致性是指對(duì)相同主題的專利賦予檢索標(biāo)識(shí)的一致性程度。既可以指不同標(biāo)引人員標(biāo)引同一主題專利的一致性,也可以指相同標(biāo)引人員先后標(biāo)引同一主題的一致性。專利數(shù)據(jù)庫標(biāo)引的一致性程度越高,檢索出的專利集中程度越高。
筆者對(duì)“傳動(dòng)”為主題的63個(gè)專利的分類標(biāo)引數(shù)據(jù)進(jìn)行統(tǒng)計(jì),其中分類號(hào)統(tǒng)計(jì)見表4,范疇分類號(hào)統(tǒng)計(jì)見表5,通過兩個(gè)表看我國專利數(shù)據(jù)庫的相同主題的專利集中程度,以此來判斷專利標(biāo)引質(zhì)量的一致性程度。表4 分類號(hào)統(tǒng)計(jì)
分類號(hào)統(tǒng) 計(jì)分類號(hào)統(tǒng) 計(jì)B24B4F02N2B41F1F03D12B63H4F16C3B64C1F16D2E02F1F16H85E21D1H02K2
表5 范疇分類號(hào)統(tǒng)計(jì)
范疇分類號(hào)統(tǒng) 計(jì)范疇分類號(hào)統(tǒng) 計(jì)27D5117J126E132E132G137A136A129B126F228C428B237B122A138B126D127B1
從上面兩個(gè)表可以看出,專利的分類號(hào)標(biāo)引和范疇標(biāo)引一致性較好,集中程度較高,分別集中在“F16H”和“27D”,即主要集中在傳動(dòng)裝置方面。
下面對(duì)“傳動(dòng)”主題的主要主題標(biāo)引詞進(jìn)行統(tǒng)計(jì),結(jié)果見表6:表6 主題詞統(tǒng)計(jì)
主題詞個(gè) 數(shù)主題詞個(gè) 數(shù)傳動(dòng)60變速16行星齒輪58風(fēng)力發(fā)電14功率33承載力8減速器28扭矩6太陽輪18
由表6可以看出,通過主題標(biāo)引,可以明顯的揭示專利的主題,以“傳動(dòng)”為中心,集中度較高,一致性較好。同時(shí)可以得到專利所使用的技術(shù),實(shí)現(xiàn)的功能等方面的信息,為專利信息的采集與利用打下了基礎(chǔ),也為專利數(shù)據(jù)分析節(jié)省了人力和時(shí)間。
在專利信息分析中,進(jìn)行分類號(hào)和主題詞的分析,可以研究專利的技術(shù)領(lǐng)域、核心技術(shù),分析出某個(gè)國家或地區(qū)的技術(shù)競爭優(yōu)勢等,取得學(xué)習(xí)和借鑒,進(jìn)行技術(shù)創(chuàng)新。從表4、5、6三個(gè)統(tǒng)計(jì)結(jié)果可以看出,我國專利數(shù)據(jù)庫的分類號(hào)、范疇分類號(hào)的標(biāo)引一致性較好,但是對(duì)于主題標(biāo)引工作有所欠缺,由于分類標(biāo)引與主題標(biāo)引作用的不同,應(yīng)該加強(qiáng)主題標(biāo)引。
2.2.5 相對(duì)等同率
相對(duì)等同率是指相同主題的專利標(biāo)引詞中,非標(biāo)準(zhǔn)主題詞與標(biāo)準(zhǔn)主題詞的比例。較高的相對(duì)等同率,可以增加檢索入口,方便用戶進(jìn)行檢索,增加檢索的全面性。
通過“傳動(dòng)”主題的主題詞在詞表中未存在的主題詞與存在的主題詞的統(tǒng)計(jì),計(jì)算出相對(duì)等同率。其中未存在的主題詞為137個(gè),存在的主題詞數(shù)為251個(gè),全部主題詞數(shù)為388個(gè),相對(duì)等同率為54.5%。相對(duì)等同率較高,說明加強(qiáng)標(biāo)準(zhǔn)主題標(biāo)引,增加非標(biāo)準(zhǔn)主題詞標(biāo)引,可增加檢索入口,提高專利數(shù)據(jù)庫建設(shè)質(zhì)量。
3 結(jié) 語
通過國家知識(shí)產(chǎn)權(quán)局、專利信息中心,知識(shí)產(chǎn)權(quán)網(wǎng)3個(gè)中國專利數(shù)據(jù)庫標(biāo)引質(zhì)量的評(píng)價(jià),得出中國專利數(shù)據(jù)庫專利標(biāo)引深度有待加強(qiáng);在非題名關(guān)鍵詞的標(biāo)引中,應(yīng)提高非題名關(guān)鍵詞的比例,深入挖掘?qū)@碾[含信息;增大主題詞的相對(duì)先組度,以提高檢準(zhǔn)率;加強(qiáng)專利分類標(biāo)引和主題標(biāo)引的一致性,促進(jìn)主題檢索結(jié)果的集中度;進(jìn)行非標(biāo)準(zhǔn)主題詞的標(biāo)引,提高相對(duì)等同率,促進(jìn)專利數(shù)據(jù)庫檢索的全面性。
參考文獻(xiàn)
[1]周曉磊,侯漢清.書目數(shù)據(jù)庫與引文數(shù)據(jù)庫標(biāo)引質(zhì)量的測評(píng)[J].圖書館理論與實(shí)踐,2003,1:41-43,80.
[2]邵誠敏.兩大中國專利檢索系統(tǒng)的比較分析[J].現(xiàn)代圖書情報(bào)技術(shù),2005,4:86-87.
[3]張琪玉,侯漢清.情報(bào)檢索語言使用教程[M].武漢:武漢大學(xué)出版社,2004:9-30.
[4]孫艷玲,等.深度標(biāo)引的中國藥物專利數(shù)據(jù)庫[J].Chinese Journal of Medical Guide,2008,10(1):22-26.
[5]蔡莉靜,等.互聯(lián)網(wǎng)上5個(gè)免費(fèi)中國專利數(shù)據(jù)庫的比較研究[J].情報(bào)科學(xué),2003,21(7):773-775,784.
[6]http:∥lib.nuaa.edu.cn/find/patent.asp?mouseover=d1#2[EB/OL].2010-06-07.