〔摘要〕總結(jié)了目前國內(nèi)知識產(chǎn)權(quán)文獻數(shù)據(jù)庫的不足,提出了國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫系統(tǒng)設(shè)計的目標、數(shù)據(jù)庫構(gòu)成及概念結(jié)構(gòu)。為了實現(xiàn)“快速、全面、準確”的檢索目標,需要建立元數(shù)據(jù)實現(xiàn)數(shù)據(jù)庫的標準化,采用科學的分類體系實現(xiàn)族性檢索,開發(fā)知識產(chǎn)權(quán)領(lǐng)域本體擴展用戶檢索入口詞匯,通過搜索引擎實現(xiàn)全文檢索。最后提出了系統(tǒng)的實現(xiàn)方式。
〔關(guān)鍵詞〕知識產(chǎn)權(quán);文獻數(shù)據(jù)庫;本體;分類體系;眾包
〔中圖分類號〕G250.74〔文獻標識碼〕A〔文章編號〕1008-0821(2013)02-0052-04
知識產(chǎn)權(quán)文獻數(shù)據(jù)庫的建設(shè)已經(jīng)影響到企業(yè)、國家的發(fā)展戰(zhàn)略。以專利文獻為例,歐洲專利局(EPO)每年要駁回50%的專利申請;美國專利商標局(USPTO)每年要駁回54%的申請;日本專利局(JPO)每年要駁回62.5%的專利申請;工業(yè)領(lǐng)域每年約有60億美元浪費在專利法律和申請費用上[1]。專利被駁回說明相關(guān)的技術(shù)已經(jīng)發(fā)明出來了,由于在研究之前未能檢索出相關(guān)文獻,導致重復研究開發(fā),造成大量的資源浪費。要全面、準確地檢索相關(guān)知識產(chǎn)權(quán)文獻,需要建立高質(zhì)量的國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫系統(tǒng)。這既是強化政府在科技、商業(yè)等領(lǐng)域的公共管理與服務(wù)職能的重要體現(xiàn),也是企事業(yè)單位、公民個人進行科技、商業(yè)領(lǐng)域的創(chuàng)新與發(fā)展的重要保障。
1國內(nèi)現(xiàn)有知識產(chǎn)權(quán)文獻數(shù)據(jù)庫的不足
1.1數(shù)據(jù)庫內(nèi)容建設(shè)的不足
國內(nèi)現(xiàn)有知識產(chǎn)權(quán)文獻數(shù)據(jù)庫內(nèi)容的不足之處體現(xiàn)在以下兩個方面:第一,數(shù)據(jù)收錄不全。以專利文獻為例,國內(nèi)大多數(shù)的專利數(shù)據(jù)庫的回溯年限都是1985年。知識產(chǎn)權(quán)法律法規(guī)文獻的信息也不完整,例如全國人大法律法規(guī)數(shù)據(jù)庫、國務(wù)院法制辦公室數(shù)據(jù)庫等專門的法律數(shù)據(jù)庫以及知識產(chǎn)權(quán)相關(guān)行政機關(guān)的政策信息只公布法律或者政策文本,對知識產(chǎn)權(quán)相關(guān)法律的釋義和法律問答,以及所涵蓋的法律條文解讀非常有限,導致對執(zhí)法過程準確解釋或者適用法律指導意義不強。第二,數(shù)據(jù)內(nèi)容分散。知識產(chǎn)權(quán)文獻信息分散在不同主管部門所建立的數(shù)據(jù)庫中。其中國家知識產(chǎn)權(quán)局與國家工商行政管理總局分別建立了專利與商標文獻數(shù)據(jù)庫,信息相對豐富的國家立法與政策文獻及信息資料庫則由第三方構(gòu)建。這些分散的數(shù)據(jù),給用戶的集中檢索帶來了不便。
1.2檢索方法的不足
國內(nèi)很多知識產(chǎn)權(quán)文獻檢索系統(tǒng),往往是從數(shù)據(jù)庫本身的特點出發(fā),將數(shù)據(jù)庫中的主題詞、發(fā)明名稱、公開號、主分類號、代理人等作為檢索入口。這種基于關(guān)鍵詞或者分類號的檢索方式有很大的局限。以專利為例,專利文獻是技術(shù)文件和法律文件的結(jié)合物,需要按照專利法的有關(guān)規(guī)定撰寫,內(nèi)容會顯得重復、繁瑣。而且申請人為了獲得盡可能大的保護范圍,往往會采用概括性很大的術(shù)語,如把鋼筆概括為書寫工具,把梯子概括為攀登工具,把篩子叫做分離裝置[2];除此以外,漢語本身一詞多義,多詞同義的特點,進一步影響了關(guān)鍵詞檢索的效率。從分類號檢索來看,雖然國際專利分類法(IPC)在各個國家都有使用,但是同一專利、相近的技術(shù)主題在不同的國家的專利分類體系下存在一定的差異。而且不同體系的專利分類詳略不同,IPC有631個子類,7 392個主組,62 493個分組。美國專利分類體系已(US-IPC)發(fā)展到450多個大類,15萬多個小類。有人做過調(diào)查,18.7%以上的美國專利分類號和歐洲專利分類號在部的分類上就存在差異。而且專利分類體系在不斷修訂,每一次分類都會導致分類技術(shù)主題詞與分類號的變化,例如修訂后12%的US-IPC號發(fā)生了變化,4%的EP-IPC分類號變化[3]。
現(xiàn)有知識產(chǎn)權(quán)文獻數(shù)據(jù)庫大多缺乏深度標引和加工,信息挖掘程度偏低,質(zhì)量有待提高。例如現(xiàn)有的專題專利數(shù)據(jù)庫對同族專利、法律狀態(tài)和引證專利等特定信息的揭示遠遠不夠,只有69%的包含有法律狀態(tài)信息,49%的包含有同族專利信息,僅有18%的包含有引證專利信息,還有28%的沒有提供以上任何一種信息[4]。目前國內(nèi)只有中國藥物專利數(shù)據(jù)庫進行了深度加工標引,加工內(nèi)容包括:專利發(fā)明主題標引、醫(yī)療應(yīng)用標引、范疇分類、文摘重新撰寫、化學物質(zhì)信息標引、中藥方劑信息標引,并同時建成了中藥材名稱數(shù)據(jù)庫,化學物質(zhì)登記文檔數(shù)據(jù)庫等兩個輔助數(shù)據(jù)庫系統(tǒng)[5]。以專利文摘為例,201110060757號專利申請書中的摘要只有150字左右,在網(wǎng)站檢索到的摘要內(nèi)容擴大了1倍,達到300多字(見表1)。通過重寫摘要,加入專利中使用的每一種藥材、化學成分等具有檢索意義的內(nèi)容,大大提高了檢全率和檢準率。
表1中國藥物專利數(shù)據(jù)庫的數(shù)據(jù)加工實例
原始摘要1111改寫后的摘要本發(fā)明屬于醫(yī)藥或保健食品領(lǐng)域,本發(fā)明公開了一種具有提高免疫力的藥物組合物,其特征在于藥物組合物包括發(fā)酵蟲草菌粉、維生素和礦物質(zhì)或藥物組合物包括蟲草多糖、維生素和礦物質(zhì),其中發(fā)酵蟲草菌粉或蟲草多糖0.1~1重量份,維生素0.005~3重量份,礦物質(zhì)0.05~3重量份。藥理實驗表明,本發(fā)明藥物組合物具有很好的提高免疫力的作用。11〖〗一種藥物或保健食品組合物。它是由中藥發(fā)酵蟲草菌粉或蟲草多糖、維生素、礦物質(zhì),及其番茄紅素、低聚果糖組成,并按常規(guī)方法制得的飲料、奶粉或乳粉;其中維生素是由維生素A、維生素B1、維生素B2、維生素B6、維生素C、維生素E、葉酸、維生素B12、維生素D、維生素K、維生素H、維生素P、維生素PP、維生素M、維生素T、維生素U、生物素、水溶性維生素、煙酰胺、泛酸中的一種或幾種組成;礦物質(zhì)是由鈣、鐵、鋅、硒、磷、鉀、氯、鎂、銅、錳、碘、鉻、鉬、鎳、錫、硅、釩、鈷、硫、鈉、氟、鍶中的一種或幾種組成;中藥還包括杜仲、枸杞(枸杞子)、麥冬、川貝母、枇杷葉、西洋參、雪蓮花、靈芝和花粉中的一種或幾種。該組合物具有提高免疫力的作用。
1.4數(shù)據(jù)庫共建共享的不足
知識產(chǎn)權(quán)管理機構(gòu)和信息服務(wù)機構(gòu)之間缺乏有效合作機制,不能優(yōu)勢互補。沒有把資源優(yōu)勢、人才優(yōu)勢、技術(shù)優(yōu)勢結(jié)合起來,造成國內(nèi)已建的知識產(chǎn)權(quán)文獻數(shù)據(jù)庫有的收錄數(shù)據(jù)不全面,有的服務(wù)內(nèi)容與功能單一,缺乏既具有權(quán)威數(shù)據(jù)、又具有強大功能的實用性知識產(chǎn)權(quán)文獻數(shù)據(jù)庫,難以滿足用戶的創(chuàng)新需求。反觀國外的經(jīng)驗,一般由專業(yè)領(lǐng)域的數(shù)據(jù)提供商、科技信息服務(wù)提供商和知識產(chǎn)權(quán)信息服務(wù)機構(gòu)進行互補性合作,采用多元化的運作模式,提供專利信息、商標信息、科技信息、市場信息等綜合服務(wù),服務(wù)內(nèi)容涉及數(shù)據(jù)加工、數(shù)據(jù)提供、專利分析、軟件開發(fā)、咨詢服務(wù)等方面,例如國際三大聯(lián)機檢索系統(tǒng)都集專利與科技信息、行業(yè)信息、法律法規(guī)、市場商情信息服務(wù)于一體,提供全方位、一站式的綜合服務(wù)[4]。
2國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫系統(tǒng)設(shè)計
2.1系統(tǒng)目標
企事業(yè)單位、公民個人利用知識產(chǎn)權(quán)文獻進行研究開發(fā)、專利分析、加強知識產(chǎn)權(quán)的管理,都要以快速、全面、準確的數(shù)據(jù)庫訪問為基礎(chǔ),這也是本系統(tǒng)設(shè)計的目標。
“快速”有兩個方面的要求:一是最新的信息能檢索出來,這需要及時更新數(shù)據(jù)庫來實現(xiàn),即數(shù)據(jù)庫系統(tǒng)應(yīng)該提供方便的數(shù)據(jù)更新機制。二是查詢信息的響應(yīng)時間比較短,這與系統(tǒng)的檢索性能、ISP的服務(wù)能力等因素有關(guān)系。
“全面”一方面要求搜集的信息要全。根據(jù)項目計劃,數(shù)據(jù)庫會收錄知識產(chǎn)權(quán)政策文獻資料、專利文獻信息資料、知識產(chǎn)權(quán)行政確權(quán)和執(zhí)法文獻資料、知識產(chǎn)權(quán)司法判決文獻、相關(guān)網(wǎng)絡(luò)資源、知識產(chǎn)權(quán)名人與大事等資料。與現(xiàn)有的知識產(chǎn)權(quán)數(shù)據(jù)庫相比,本項目的內(nèi)容是最全的。另一方面要求系統(tǒng)的“檢全率”達到要求,能把跟檢索需求相關(guān)的所有信息檢索出來。檢全率除了要有收錄齊全的原始數(shù)據(jù)支持之外,然后還要求系統(tǒng)提供合理的檢索策略和手段,例如提供全文檢索功能等。
“準確”主要是指檢準率。即從數(shù)據(jù)庫中檢索出來的文獻,應(yīng)該與檢索要求密切相關(guān)。這主要取決于數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量不高,會導致檢索結(jié)果不準,從而造成重復研究與開發(fā)。根據(jù)歐洲專利局的信息,2008年僅在歐洲就有200億歐元浪費在已授權(quán)專利的產(chǎn)品研究與開發(fā)中,由此引發(fā)的專利訴訟也會浪費大量的時間和金錢。其中Eolas起訴微軟的瀏覽器侵權(quán),花了8年時間才結(jié)束,賠償5.21億美元[6]。
2.2數(shù)據(jù)庫設(shè)計
根據(jù)項目研究內(nèi)容結(jié)合用戶需求分析,從內(nèi)容上來看,本系統(tǒng)共包括知識產(chǎn)權(quán)研究資料庫、知識產(chǎn)權(quán)網(wǎng)絡(luò)資源庫、知識產(chǎn)權(quán)法律法規(guī)文獻庫、知識產(chǎn)權(quán)確權(quán)與登記資料庫、知識產(chǎn)權(quán)司法與執(zhí)法資料庫、知識產(chǎn)權(quán)機構(gòu)與人物、知識產(chǎn)權(quán)大事記等七大數(shù)據(jù)庫。為了實現(xiàn)“快速、全面、準確”的檢索要求,提供專利分析、引文分析等增值服務(wù),每個資料庫需要有目錄數(shù)據(jù)庫、全文數(shù)據(jù)庫、引文數(shù)據(jù)庫、分類表、主題詞表、關(guān)聯(lián)詞表的支持。其結(jié)構(gòu)如圖1所示:
11圖1國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫結(jié)構(gòu)11
2.3系統(tǒng)的概念結(jié)構(gòu)
國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫系統(tǒng)需要提供元數(shù)據(jù)管理、分類體系維護、知識產(chǎn)權(quán)本體管理以及全文搜索等功能,其概念結(jié)構(gòu)如圖2所示。
其中,元數(shù)據(jù)用于指導數(shù)據(jù)庫的標準化建設(shè),元數(shù)據(jù)
11圖2國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫系統(tǒng)的概念結(jié)構(gòu)11
標準的建立,可以保證整個項目七大數(shù)據(jù)庫的統(tǒng)一、規(guī)范。分類體系用于實現(xiàn)知識產(chǎn)權(quán)文獻的族性檢索。領(lǐng)域?qū)<以诒倔w開發(fā)工具的支持下構(gòu)建的知識產(chǎn)權(quán)領(lǐng)域本體,可以用于構(gòu)建關(guān)聯(lián)詞表,擴展用戶提出的檢索入口詞匯,最終實現(xiàn)基于語義的檢索功能。搜索引擎實現(xiàn)知識產(chǎn)權(quán)文獻的全文檢索。
3國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫系統(tǒng)的實現(xiàn)思路
3.1開發(fā)方式
系統(tǒng)開發(fā)的方式一般有4種:自主開發(fā),合作開發(fā)、外包和眾包。自主開發(fā)是指由項目組自行開發(fā)所有的數(shù)據(jù)庫和相關(guān)軟件。合作開發(fā)是指由項目組、相關(guān)的主管部門、企事業(yè)單位合作開發(fā)。外包是指將項目中部分功能模塊的開發(fā)委托給相關(guān)專業(yè)機構(gòu),例如國外很多軟件公司就把很多需要大量人力的開發(fā)任務(wù)外包給人力成本低廉的中國和印度。眾包是美國《連線》雜志記者杰夫·豪在2006年提出來的概念,指企事業(yè)單位、機構(gòu)乃至個人把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的社會大眾群體解決或承擔的做法[7]。網(wǎng)上很多項目都采用眾包的開發(fā)形式,例如維基百科、百度百科,把一個項目分成很多小任務(wù),通過志愿者的努力實現(xiàn)。
鑒于本項目需要整合大量的數(shù)據(jù)資源,因此,可以采用自主開發(fā)、合作開發(fā)與眾包相結(jié)合的方式。項目組的大部分成員是知識產(chǎn)權(quán)領(lǐng)域的核心專家,可以承擔知識產(chǎn)權(quán)領(lǐng)域本體開發(fā)和分類體系的維護工作;對于商標、專利等知識產(chǎn)權(quán)數(shù)據(jù)庫的建設(shè),可以與相關(guān)的主管部門和知識產(chǎn)權(quán)信息服務(wù)機構(gòu)合作開發(fā);全文搜索引擎的開發(fā),可以借鑒百度與中國專利信息中心合作的經(jīng)驗,將其外包給專業(yè)的搜索服務(wù)機構(gòu),減少開發(fā)成本,提高開發(fā)效率;對于法律信息以及判決案例、知識產(chǎn)權(quán)名人與大事、知識產(chǎn)權(quán)網(wǎng)絡(luò)信息等數(shù)據(jù),則可以采用面向信息內(nèi)容的眾包模式,由用戶在使用過程中不斷補充。
3.2開發(fā)步驟
系統(tǒng)開發(fā)能不能一次實現(xiàn)“快速、全面、準確”檢索的目標呢?筆者認為系統(tǒng)開發(fā)需要分步驟、分階段實現(xiàn)這些目標。國外很多數(shù)據(jù)庫系統(tǒng)的開發(fā)也是分階段逐步完善的。如德溫特世界專利索引數(shù)據(jù)庫(WPI),截止到2010年10月,已經(jīng)收錄了1 975萬條記錄。德溫特公司對所收集的數(shù)據(jù)進行了嚴格的規(guī)范整理和深度的綜合加工,這些加工過程分為5個階段:1966-1970年的標題字段只包括主標題,1971-1984年錄入了副標題,1985-1995年在文摘中加入了用途/優(yōu)點(USE/ADVANTAGE)部分,1996-1998年對摘要中的用途(USE)和優(yōu)點(ADVANTAGE)進行了分開撰寫,1999-2010年在摘要中分別列出新穎性(NOVELTY)、用途(USE)和優(yōu)點(ADVANTAGE)等部分,增加了單獨的附圖部件和標號之間的關(guān)系說明[8]。
通過借鑒國外的成功經(jīng)驗,中國國家知識產(chǎn)權(quán)文獻數(shù)據(jù)庫的開發(fā),可以先實現(xiàn)收集齊全的目標,將知識產(chǎn)權(quán)文獻的覆蓋范圍擴大到新中國成立后所有的知識產(chǎn)權(quán)文獻,同時對文獻內(nèi)容進行全面標引。例如專利文獻要對申請?zhí)枴⒐_號、申請人、發(fā)明人、專利分類號、發(fā)明名稱、文摘、申請日、公開日等所有的特征項目進行標引,商標文獻要對分類號、申請者、注冊日期、權(quán)利人、形式(文字、顏色、字母、形狀等)等進行全面揭示。然后實現(xiàn)檢索準確的目標。主要任務(wù)是建立著錄標引的規(guī)范,開發(fā)知識產(chǎn)權(quán)領(lǐng)域的本體,建立同義詞表、關(guān)聯(lián)詞表等等。最后實現(xiàn)快速檢索的目標。主要任務(wù)是優(yōu)化搜索引擎,提高檢索的響應(yīng)速度。每一個分目標,也可以分階段實現(xiàn)。例如數(shù)據(jù)收錄全面的目標,由于本項目的目標非常宏大,在短短的幾年時間采集齊全所有的數(shù)據(jù)有很大的難度,可以根據(jù)用戶的信息需求,先重點收集、再全面收集,最終實現(xiàn)收錄范圍的全面覆蓋。
參考文獻
[1]Pantros IP Patent Analytics and Strategic Patent Portfolio Management Solutions for Enterprise[EB/OL].http:∥www.pantrosip.com,2012-05-01.
[2]江鎮(zhèn)華.怎樣檢索中外專利信息[M].北京:知識產(chǎn)權(quán)出版社,2007:333.
[3]左晶.IPC和USC分類體系下專利檢索的對比分析[J].現(xiàn)代情報,130-132.
[4]孫旭華,揭玉斌,王武,等.關(guān)于我國專題專利數(shù)據(jù)庫的思考[J].創(chuàng)新科技,2010,(11):26-27.
[5]魯程.三大中文專利全文數(shù)據(jù)庫的比較研究[J].農(nóng)業(yè)圖書情報學刊,2006,(11):109-111.
[6]Brünger-Weilandt S,Gei D,Herlan G,et al.Quality-Key factor for high value in professional patent,technical and scientific information[J].World Patent Information,2011,33(3):230-234.
[7]魏拴成,鄔適融.眾包的產(chǎn)生、發(fā)展以及構(gòu)建眾包商業(yè)模式應(yīng)遵循的路徑[J].上海管理科學,2010,(1):55-58.
[8]許敏,黃非,王銳.利用WPI數(shù)據(jù)庫提高專利文獻檢索效率[J].中國發(fā)明與專利,2011,(6):72-75.
(本文責任編輯:王涓)