李 楠 張 慧 趙 陽 汪 波
(華東理工大學(xué)科技信息研究所,上海 200237)
知識(shí)產(chǎn)權(quán)公共服務(wù)是圍繞知識(shí)產(chǎn)權(quán)的創(chuàng)造、運(yùn)用、保護(hù)和管理為社會(huì)公眾和創(chuàng)新主體提供信息共享、數(shù)據(jù)開放、政務(wù)服務(wù)、分析咨詢等基礎(chǔ)性服務(wù)[1],目前以專利、商標(biāo)、地理標(biāo)志、集成電路布圖設(shè)計(jì)等為核心的知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)以及相關(guān)的政策文件、法律法規(guī)、技術(shù)文獻(xiàn)等數(shù)據(jù)源,共同構(gòu)成了開展服務(wù)的保障性數(shù)據(jù)資源,成為公共服務(wù)體系的數(shù)據(jù)基礎(chǔ)和服務(wù)支撐。近年來,積極推進(jìn)的信息服務(wù)平臺(tái)建設(shè)匯集了越來越多的優(yōu)質(zhì)數(shù)據(jù)資源[2],極大地提升了公共服務(wù)的供給能力。然而,數(shù)據(jù)資源的豐富并不意味著信息獲取的可保障性和知識(shí)服務(wù)的有效性,公共服務(wù)過程中暴露出的數(shù)據(jù)可用性不強(qiáng)、內(nèi)容揭示不充分、服務(wù)支撐能力不足等問題成為導(dǎo)致數(shù)據(jù)建設(shè)和服務(wù)功能開發(fā)面臨挑戰(zhàn)的重要因素。
歸根結(jié)底,實(shí)現(xiàn)數(shù)據(jù)資源的有序組織、深度開發(fā),才能在數(shù)據(jù)有效管理和合理增值的基礎(chǔ)上保障公共服務(wù)的有效性和服務(wù)水平的提升。當(dāng)前科技文獻(xiàn)資源的深度開發(fā)與利用已有許多有益的實(shí)踐與探索,諸如通過引入語義計(jì)算、人工智能等新技術(shù)手段,實(shí)現(xiàn)文獻(xiàn)資源的元數(shù)據(jù)抽取、內(nèi)容識(shí)別與結(jié)構(gòu)化、語義關(guān)聯(lián)構(gòu)建等,提供了可參考的實(shí)現(xiàn)方法與技術(shù)路徑。本文從當(dāng)前知識(shí)產(chǎn)權(quán)公共服務(wù)平臺(tái)建設(shè)現(xiàn)狀調(diào)研入手,梳理歸納公共服務(wù)數(shù)據(jù)的特點(diǎn)以及現(xiàn)有組織管理模式的局限,在此基礎(chǔ)上進(jìn)一步明確公共服務(wù)數(shù)據(jù)的語義范疇及其在服務(wù)場(chǎng)景下的具體內(nèi)涵,建立公共服務(wù)數(shù)據(jù)的語義組織實(shí)踐路徑,以期為優(yōu)化公共服務(wù)數(shù)據(jù)資源的組織呈現(xiàn)模式、提升數(shù)據(jù)驅(qū)動(dòng)的公共服務(wù)效能提供可行的解決方案。
服務(wù)平臺(tái)是開展知識(shí)產(chǎn)權(quán)公共服務(wù)的重要載體,直接反映公共服務(wù)發(fā)展現(xiàn)狀,因此國內(nèi)學(xué)者對(duì)相關(guān)平臺(tái)建設(shè)現(xiàn)狀和服務(wù)水平一直較為關(guān)注。劉進(jìn)軍等[3]主要以高校國家知識(shí)產(chǎn)權(quán)中心為對(duì)象,調(diào)研其服務(wù)平臺(tái)建設(shè)情況,并針對(duì)高校服務(wù)特點(diǎn)提出策略建議;張發(fā)亮等[4]分析了我國區(qū)域知識(shí)產(chǎn)權(quán)信息服務(wù)平臺(tái)建設(shè)和服務(wù)存在的問題,重點(diǎn)關(guān)注了用戶的主要信息需求,并提出了適應(yīng)需求的平臺(tái)框架及三級(jí)四維運(yùn)行機(jī)制;林建[5]、韋景竹等[6]均關(guān)注粵港澳大灣區(qū)的公共信息服務(wù)平臺(tái)建設(shè);冉從敬等[7]則是從知識(shí)產(chǎn)權(quán)生態(tài)鏈視角分析并提出建立覆蓋全流程服務(wù)的平臺(tái)模型。然而已有成果大多圍繞平臺(tái)框架、功能設(shè)計(jì)或服務(wù)模式開展研究,較少關(guān)注相關(guān)服務(wù)的數(shù)據(jù)賦能因素,對(duì)于平臺(tái)數(shù)據(jù)資源開發(fā)與利用的現(xiàn)狀也缺乏專門全面的分析。因此,本文聚焦數(shù)據(jù)資源的組織、開發(fā)與利用,以平臺(tái)數(shù)據(jù)資源為切入點(diǎn)開展調(diào)研,為后續(xù)研究提供參考依據(jù)。
考慮到以單一類型的服務(wù)平臺(tái)為調(diào)研對(duì)象無法全面反映數(shù)據(jù)資源建設(shè)現(xiàn)狀,筆者選擇截至目前由國家知識(shí)產(chǎn)權(quán)公共服務(wù)網(wǎng)所公開的158個(gè)省級(jí)公共服務(wù)平臺(tái)資源為調(diào)研對(duì)象(參照省市知識(shí)產(chǎn)權(quán)公共服務(wù)平臺(tái)及主要知識(shí)產(chǎn)權(quán)公共服務(wù)資源目錄)[8],旨在覆蓋更加多元化的平臺(tái)類型,以便得出更加全面的調(diào)研結(jié)論。調(diào)研對(duì)象主要包括如下4種平臺(tái)類型:已完成地方站點(diǎn)部署的新一代地方專利檢索及分析系統(tǒng)平臺(tái)29個(gè),主要面向社會(huì)用戶開放提供專利數(shù)據(jù)的檢索、瀏覽、分析及全文單篇下載、著錄項(xiàng)目信息批量下載等功能;省市級(jí)綜合性知識(shí)產(chǎn)權(quán)信息服務(wù)平臺(tái)34個(gè),匯聚各類知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)及線上業(yè)務(wù)提供綜合信息服務(wù),包括但不限于線上事務(wù)辦理、檢索分析服務(wù)、提供相關(guān)工具、特色數(shù)據(jù)庫資源等;國家認(rèn)定的高校知識(shí)產(chǎn)權(quán)信息服務(wù)中心或技術(shù)與創(chuàng)新支持(TISC)中心等專業(yè)服務(wù)機(jī)構(gòu)平臺(tái)45個(gè),依托科技查新、教育培訓(xùn)等開展專業(yè)信息服務(wù);另外還有50個(gè)由其他知識(shí)產(chǎn)權(quán)企業(yè)或機(jī)構(gòu)提供的服務(wù)平臺(tái)或信息服務(wù)發(fā)布主頁。
根據(jù)功能定位差異,各平臺(tái)所收錄的數(shù)據(jù)資源類型、加工狀況以及提供服務(wù)的形式也呈現(xiàn)出不同的特點(diǎn),將支撐知識(shí)產(chǎn)權(quán)公共服務(wù)的常見數(shù)據(jù)資源根據(jù)內(nèi)容劃分為以下類型:基礎(chǔ)數(shù)據(jù)、文件資料數(shù)據(jù)、科技文獻(xiàn)數(shù)據(jù)以及經(jīng)濟(jì)數(shù)據(jù)。
1)基礎(chǔ)數(shù)據(jù):知識(shí)產(chǎn)權(quán)公共服務(wù)圍繞知識(shí)產(chǎn)權(quán)創(chuàng)造、保護(hù)和運(yùn)用的全流程開展。因此,以專利、商標(biāo)、地理標(biāo)志、集成電路布圖設(shè)計(jì)等為代表的知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)是公共服務(wù)的核心數(shù)據(jù)資源?,F(xiàn)有平臺(tái)對(duì)基礎(chǔ)數(shù)據(jù)的覆蓋度很高,但目前以原生數(shù)據(jù)形態(tài)提供檢索查詢、數(shù)據(jù)下載等服務(wù)的平臺(tái)仍然占據(jù)大多數(shù)。另外,對(duì)基礎(chǔ)數(shù)據(jù)的統(tǒng)計(jì)分析成為衍生數(shù)據(jù)服務(wù)的主要形式,例如省市級(jí)知識(shí)產(chǎn)權(quán)信息服務(wù)平臺(tái)(典型實(shí)例如圖1所示)大多提供基礎(chǔ)數(shù)據(jù)的訪問獲取服務(wù),實(shí)現(xiàn)相關(guān)數(shù)據(jù)的匯總統(tǒng)計(jì)形成增值的衍生數(shù)據(jù),并通過多種可視化手段展示區(qū)域知識(shí)產(chǎn)權(quán)發(fā)展現(xiàn)狀。對(duì)基礎(chǔ)數(shù)據(jù)的加工主要是對(duì)著錄信息和主題分類的標(biāo)引,為數(shù)據(jù)訪問獲取提供檢索和瀏覽入口。也有部分平臺(tái)開始探索對(duì)基礎(chǔ)數(shù)據(jù)的深度加工,比如新一代地方專利檢索及分析系統(tǒng),不僅提供了專利數(shù)據(jù)豐富的傳統(tǒng)檢索入口,還結(jié)合化學(xué)知識(shí)提供結(jié)構(gòu)式檢索進(jìn)一步豐富檢索途徑,建立了專利數(shù)據(jù)與IPC、CPC分類以及國民經(jīng)濟(jì)分類的映射關(guān)系,同時(shí)在語義標(biāo)引的基礎(chǔ)上提供了常用藥材等領(lǐng)域詞表,支持藥物檢索等增值功能,實(shí)現(xiàn)對(duì)新治療用途、治療作用、分析方法、方劑組成等知識(shí)單元的檢索。部分平臺(tái)基于對(duì)基礎(chǔ)數(shù)據(jù)的深度標(biāo)引和開發(fā)建設(shè),形成了特色專題數(shù)據(jù)庫、信息研報(bào)等知識(shí)服務(wù)產(chǎn)品,如國家知識(shí)產(chǎn)權(quán)局推出的新冠肺炎專利情報(bào)專題庫、中藥專利情報(bào)等。
(左:長三角知識(shí)產(chǎn)權(quán)信息公共服務(wù)平臺(tái)https://csjipfw.com; 中:上海市知識(shí)產(chǎn)權(quán)信息服務(wù)平臺(tái)https://www.shanghaiip.cn;右:新冠疫情防控情報(bào)專題及信息共享平臺(tái)http://ggfw.cnipa.gov.cn/)圖1 基礎(chǔ)數(shù)據(jù)組織與呈現(xiàn)——以省市級(jí)綜合知識(shí)產(chǎn)權(quán)信息公共服務(wù)平臺(tái)及專題庫建設(shè)為例
2)文件資料數(shù)據(jù):政策公文、戰(zhàn)略規(guī)劃、法律法規(guī)等指導(dǎo)性或規(guī)范性文件資料也是知識(shí)產(chǎn)權(quán)公共服務(wù)不可或缺的信息內(nèi)容,提供相關(guān)數(shù)據(jù)的查詢服務(wù),是用戶了解國家戰(zhàn)略方針、發(fā)展方向以及相關(guān)權(quán)威資訊的重要渠道。目前,大多數(shù)平臺(tái)對(duì)于此類數(shù)據(jù)服務(wù)以原始文件清單展示及關(guān)鍵詞檢索為基本服務(wù)形式,少量平臺(tái)對(duì)文件進(jìn)行了分類標(biāo)引,例如國家知識(shí)產(chǎn)權(quán)局對(duì)政策進(jìn)行了公告、通知、白皮書等子類細(xì)分,對(duì)法律法規(guī)則是按照知識(shí)產(chǎn)權(quán)類型進(jìn)行專利法律、專利行政法規(guī)、專利部門規(guī)章、商標(biāo)法律、商標(biāo)行政法規(guī)等子類細(xì)分;中國科技情報(bào)網(wǎng)則是提供了創(chuàng)新政策等數(shù)據(jù)資源的關(guān)鍵詞、摘要、產(chǎn)出機(jī)構(gòu)等字段檢索,同時(shí)針對(duì)創(chuàng)新政策建立更為細(xì)致的兩級(jí)主題類目,包含科技戰(zhàn)略與規(guī)劃、科技政策、國民經(jīng)濟(jì)與社會(huì)發(fā)展規(guī)劃,以及單獨(dú)設(shè)置的新能源、科技人才、戰(zhàn)略性新興產(chǎn)業(yè)等熱點(diǎn)專題分類。
(左:中國科技情報(bào)網(wǎng)https://www.chinainfo.org.cn/; 右:國家知識(shí)產(chǎn)權(quán)局官方主頁https://www.cnipa.gov.cn/)圖2 文件資料類數(shù)據(jù)的組織與呈現(xiàn)——以政府部門官網(wǎng)及情報(bào)服務(wù)平臺(tái)為例
3)科技文獻(xiàn)數(shù)據(jù):科技文獻(xiàn)以記錄科學(xué)技術(shù)知識(shí)為主要功能,除了已列入知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)的專利文獻(xiàn)以外,科技論文、學(xué)術(shù)專著、技術(shù)標(biāo)準(zhǔn)等各種形式的文獻(xiàn)都成為體現(xiàn)科技創(chuàng)新進(jìn)展、指導(dǎo)研發(fā)方向、規(guī)范科研路徑的重要載體。以科技創(chuàng)新服務(wù)為功能定位公共服務(wù)平臺(tái)大多將科技文獻(xiàn)數(shù)據(jù)納入基礎(chǔ)服務(wù)資源建設(shè)范圍,但目前主要的服務(wù)形式以提供數(shù)據(jù)查詢接口為主,大多鏈接到獨(dú)立的外部文獻(xiàn)數(shù)據(jù)庫,如萬方數(shù)據(jù)資源、中國知網(wǎng)CNKI等,并未將相關(guān)資源納入平臺(tái)管理范圍,僅有少數(shù)綜合性信息服務(wù)平臺(tái)提供專利相關(guān)的科技文獻(xiàn)檢索和咨詢服務(wù)。另外,公共服務(wù)過程中技術(shù)標(biāo)準(zhǔn)服務(wù)普遍性遠(yuǎn)高于其他類型的科技文獻(xiàn)。
4)經(jīng)濟(jì)數(shù)據(jù):知識(shí)產(chǎn)權(quán)數(shù)據(jù)本身具有技術(shù)、法律和經(jīng)濟(jì)多重屬性,而在公共服務(wù)中產(chǎn)業(yè)或行業(yè)宏觀數(shù)據(jù)、以企業(yè)為主體的市場(chǎng)數(shù)據(jù)和商業(yè)信息等一手資料對(duì)于知識(shí)產(chǎn)權(quán)分析評(píng)議等深層服務(wù)具有重要的支撐作用,因此也有平臺(tái)關(guān)注相關(guān)數(shù)據(jù)的收集組織和利用,比如安徽省知識(shí)產(chǎn)權(quán)數(shù)據(jù)管理系統(tǒng)將企業(yè)信息與其他知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)進(jìn)行關(guān)聯(lián)呈現(xiàn),有助于通過創(chuàng)新主體分布情況等把握區(qū)域知識(shí)產(chǎn)權(quán)發(fā)展的整體態(tài)勢(shì)。但由于相關(guān)數(shù)據(jù)服務(wù)的受眾較少且僅適用于特定目標(biāo)的深層次服務(wù),目前少有平臺(tái)將此類經(jīng)濟(jì)市場(chǎng)數(shù)據(jù)納入管理范圍,平臺(tái)覆蓋度較低。
表1 知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)組織與利用現(xiàn)狀
綜上所述,服務(wù)平臺(tái)對(duì)各種數(shù)據(jù)資源的覆蓋度各有側(cè)重,具體分析不同類型平臺(tái)的實(shí)際情況可以發(fā)現(xiàn)受其服務(wù)定位的影響差異化明顯。總體而言,大多數(shù)平臺(tái)仍以基礎(chǔ)數(shù)據(jù)服務(wù)為重心,兼顧政策文件、法律法規(guī)、戰(zhàn)略規(guī)劃等文件資料的參考咨詢服務(wù),綜合科技文獻(xiàn)、經(jīng)濟(jì)數(shù)據(jù)等多元化信息的深度分析服務(wù)仍局限于少數(shù)服務(wù)主體,線上平臺(tái)顯示度較低。
從知識(shí)產(chǎn)權(quán)公共服務(wù)平臺(tái)的數(shù)據(jù)組織與管理狀況來看,在公認(rèn)的數(shù)據(jù)組織規(guī)范和標(biāo)準(zhǔn)體系框架尚未形成之前,公共服務(wù)數(shù)據(jù)資源建設(shè)除了將服務(wù)所需的多源數(shù)據(jù)納入治理范圍以外,亟待解決的仍然是如何推動(dòng)數(shù)據(jù)深加工、提升數(shù)據(jù)集成效能。歸根結(jié)底,公共服務(wù)數(shù)據(jù)的有效組織和呈現(xiàn)是有效支撐公共服務(wù)開展的關(guān)鍵核心。本研究以當(dāng)前開展的典型服務(wù)為切入點(diǎn)梳理公共服務(wù)數(shù)據(jù)的基本構(gòu)成,并從中挖掘服務(wù)應(yīng)用場(chǎng)景下的核心數(shù)據(jù)元素、組織維度及其關(guān)聯(lián)路徑,希望通過公共服務(wù)數(shù)據(jù)的語義組織模型構(gòu)建為數(shù)據(jù)資源建設(shè)提供可行的解決方案。
結(jié)合當(dāng)前公共服務(wù)數(shù)據(jù)資源的建設(shè)實(shí)際,知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)的基本構(gòu)成根據(jù)其來源和功能可進(jìn)一步劃分為原生數(shù)據(jù)和增值數(shù)據(jù)兩類,如表2所示。原生數(shù)據(jù)是目前數(shù)據(jù)賦能服務(wù)的原始數(shù)據(jù)形態(tài),以知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)為主,一方面,原生數(shù)據(jù)作為開放共享的原始數(shù)據(jù)源直接成為公共服務(wù)數(shù)據(jù),用戶可通過檢索查詢直接獲得所需數(shù)據(jù)集,了解相關(guān)信息;另一方面,則可以經(jīng)過適當(dāng)?shù)募庸ぬ幚硇纬稍鲋禂?shù)據(jù),成為公共服務(wù)數(shù)據(jù)的間接來源。數(shù)據(jù)增值一般有兩種途徑,一是建立與相關(guān)數(shù)據(jù)的語義連接,形成信息量更為豐富的關(guān)聯(lián)數(shù)據(jù),例如:專利數(shù)據(jù)與科技論文、學(xué)術(shù)專著等科技文獻(xiàn)關(guān)聯(lián)提供技術(shù)創(chuàng)新所需背景信息,與企業(yè)、產(chǎn)品等行業(yè)信息關(guān)聯(lián)提供市場(chǎng)布局所需環(huán)境信息;二是經(jīng)過統(tǒng)計(jì)分析、本體建模與實(shí)例化等深度加工挖掘,以統(tǒng)計(jì)數(shù)據(jù)集、知識(shí)圖譜等適當(dāng)形式呈現(xiàn)的衍生數(shù)據(jù),實(shí)現(xiàn)專家人才、技術(shù)成果、企業(yè)、產(chǎn)品等關(guān)鍵實(shí)體要素的提取、關(guān)聯(lián)和有效呈現(xiàn)。
表2 知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)的基本構(gòu)成
在當(dāng)前的知識(shí)產(chǎn)權(quán)公共服務(wù)架構(gòu)下,按照服務(wù)的內(nèi)容性質(zhì)可劃分為基礎(chǔ)性公共服務(wù)、行政性公共服務(wù)、專業(yè)性公共服務(wù)及深層次應(yīng)用服務(wù)4種場(chǎng)景。其中,基礎(chǔ)性公共服務(wù)面向社會(huì)公眾及一般性用戶提供無差別的內(nèi)容服務(wù)、檢索服務(wù)及基礎(chǔ)咨詢服務(wù),包括知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)查詢下載、國家/區(qū)域相關(guān)政策法規(guī)等文件資料檢索瀏覽、基礎(chǔ)業(yè)務(wù)知識(shí)咨詢等,優(yōu)先保證數(shù)據(jù)的可獲得性、全面性、準(zhǔn)確性和時(shí)效性,力求平臺(tái)數(shù)據(jù)入口簡潔、無訪問障礙;行政性公共服務(wù)主要面向企業(yè)、知識(shí)產(chǎn)權(quán)從業(yè)人員等具有在線辦理知識(shí)產(chǎn)權(quán)申請(qǐng)、交易、保護(hù)等相關(guān)行政管理業(yè)務(wù)需求的用戶,優(yōu)先保證平臺(tái)功能對(duì)在線業(yè)務(wù)處理流程的支持以及操作規(guī)范化、便捷性;專業(yè)性公共服務(wù)則是面向知識(shí)產(chǎn)權(quán)研發(fā)、創(chuàng)造、保護(hù)與利用過程中的專業(yè)分析服務(wù),包括:研發(fā)創(chuàng)新過程中開展的技術(shù)與產(chǎn)品分析服務(wù),專利預(yù)警、專利導(dǎo)航、知識(shí)產(chǎn)權(quán)布局等特定場(chǎng)景的情報(bào)分析服務(wù),重點(diǎn)關(guān)注對(duì)基礎(chǔ)數(shù)據(jù)及技術(shù)性較強(qiáng)科技文獻(xiàn)數(shù)據(jù)等的深度挖掘與分析利用;深層次應(yīng)用服務(wù)則是在專業(yè)服務(wù)基礎(chǔ)上面向知識(shí)產(chǎn)權(quán)孵化、交易轉(zhuǎn)讓、策略制定、合作研發(fā)、成果轉(zhuǎn)化等的深度分析評(píng)議服務(wù),依賴于對(duì)基礎(chǔ)數(shù)據(jù)及相關(guān)數(shù)據(jù)等更廣泛數(shù)據(jù)范圍的綜合研判。如圖3所示,原生數(shù)據(jù)和增值數(shù)據(jù)共同支撐不同場(chǎng)景的服務(wù)。
圖3 知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)的場(chǎng)景支撐
高質(zhì)量的數(shù)據(jù)賦能服務(wù)并不止于簡單的數(shù)據(jù)原始形態(tài)呈現(xiàn),而是需要經(jīng)過加工處理和有序組織才能實(shí)現(xiàn)應(yīng)用增值,參考科學(xué)文獻(xiàn)與檔案數(shù)據(jù)化過程中的語義組織內(nèi)涵[9-10],本文將公共服務(wù)數(shù)據(jù)的語義組織定義為將相關(guān)數(shù)據(jù)的內(nèi)容結(jié)構(gòu)化、編碼形式化、關(guān)聯(lián)顯性化的過程,包括識(shí)別、理解、分析和充分表達(dá)公共服務(wù)場(chǎng)景下的數(shù)據(jù)語義及其關(guān)聯(lián)。根據(jù)公共服務(wù)的數(shù)據(jù)需求,可以將語義組織分為核心語義組織和拓展語義組織兩種。核心語義組織主要是指實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)所包含語義實(shí)體的多維度集成,關(guān)鍵的語義實(shí)體包含技術(shù)、人物、機(jī)構(gòu)、企業(yè)、成果等,涉及時(shí)間、主題、地域、行業(yè)、產(chǎn)業(yè)、領(lǐng)域等語義維度,主要為基礎(chǔ)性公共服務(wù)提供細(xì)粒度的語義組織網(wǎng)絡(luò),優(yōu)化檢索訪問途徑,提升數(shù)據(jù)獲取效率,同時(shí)為專業(yè)性公共服務(wù)和深層應(yīng)用服務(wù)提供語義增強(qiáng)的數(shù)據(jù)基礎(chǔ)。拓展語義組織是指基礎(chǔ)數(shù)據(jù)與其他外部數(shù)據(jù)源之間關(guān)聯(lián)語義的構(gòu)建,強(qiáng)調(diào)關(guān)聯(lián)數(shù)據(jù)與基礎(chǔ)數(shù)據(jù)的語義集成與互補(bǔ),通過與科技文獻(xiàn)、政策文件、經(jīng)濟(jì)數(shù)據(jù)等包含的語義實(shí)體建立關(guān)聯(lián)映射,滿足為知識(shí)產(chǎn)權(quán)創(chuàng)造、保護(hù)和運(yùn)用過程提供深度服務(wù)的數(shù)據(jù)需求,是專業(yè)性公共服務(wù)和深層應(yīng)用服務(wù)的關(guān)鍵數(shù)據(jù)支撐。
基于公共服務(wù)數(shù)據(jù)的基本構(gòu)成以及語義組織內(nèi)涵分析,可以建立如圖4所示的語義組織實(shí)現(xiàn)路徑,自左向右的數(shù)據(jù)組織呈現(xiàn)過程反映了數(shù)據(jù)從原始形態(tài)到可利用形態(tài)的轉(zhuǎn)化過程,從原生數(shù)據(jù)到最終服務(wù)數(shù)據(jù)的加工過程包括元數(shù)據(jù)標(biāo)引、主題抽取、語義實(shí)體及關(guān)系識(shí)別、可視化等不同層次和粒度的實(shí)體要素挖掘和組織,而這一過程往往需要對(duì)接檢索查詢、創(chuàng)新分析、競(jìng)爭(zhēng)調(diào)查、人才評(píng)價(jià)、布局分析、環(huán)境監(jiān)測(cè)等不同的具體服務(wù)需求。
圖4 知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)的組織呈現(xiàn)過程
基礎(chǔ)數(shù)據(jù)及關(guān)聯(lián)數(shù)據(jù)的元數(shù)據(jù)用于描述應(yīng)用于公共服務(wù)的各種多源異構(gòu)數(shù)據(jù)的屬性信息,主要涉及:知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)(如專利、商標(biāo)、地理標(biāo)志以及集成電路布圖設(shè)計(jì))的題錄及全文信息;知識(shí)產(chǎn)權(quán)相關(guān)文件資料數(shù)據(jù)的題錄及全文信息,如指導(dǎo)知識(shí)產(chǎn)權(quán)工作的政策、法律法規(guī)等文件,相關(guān)技術(shù)領(lǐng)域的論文、標(biāo)準(zhǔn)、專著等科技文獻(xiàn)等;反映產(chǎn)業(yè)、行業(yè)經(jīng)濟(jì)活動(dòng)及發(fā)展?fàn)顩r的市場(chǎng)數(shù)據(jù),如企業(yè)信息、產(chǎn)品信息、經(jīng)營數(shù)據(jù)、渠道策略等。上述信息的識(shí)別與抽取過程即為公共服務(wù)數(shù)據(jù)的元數(shù)據(jù)標(biāo)引過程,這一過程為公共服務(wù)數(shù)據(jù)的分面檢索提供了主要的查詢字段和檢索入口,成為進(jìn)行計(jì)量分析的主要數(shù)據(jù)來源,同時(shí)也為數(shù)據(jù)的語義增值奠定了基礎(chǔ)。
公共服務(wù)數(shù)據(jù)源具有豐富的技術(shù)、法律和經(jīng)濟(jì)屬性,其中,技術(shù)主題大多以專有名詞、領(lǐng)域術(shù)語等形式反映研發(fā)過程所涉及的技術(shù)、方法、理論等,其他內(nèi)容主題則以關(guān)鍵詞、數(shù)值型數(shù)據(jù)等形式反映政策導(dǎo)向、規(guī)范依據(jù)、市場(chǎng)現(xiàn)狀等。主題抽取的關(guān)鍵在于識(shí)別并抽取相關(guān)數(shù)據(jù)中的核心概念,常借助自然語言處理、深度學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù)輔助人工開展主題標(biāo)引,標(biāo)引的結(jié)果可作為主題詞表的重要來源和技術(shù)、政策、市場(chǎng)演變的分析對(duì)象,同時(shí)也可以提升知識(shí)產(chǎn)權(quán)信息檢索與數(shù)據(jù)管理的效率,能夠有效地支撐分面檢索、趨勢(shì)分析以及專題知識(shí)庫建設(shè)等應(yīng)用場(chǎng)景。
在知識(shí)產(chǎn)權(quán)公共服務(wù)情境下,除了詞匯表征的技術(shù)或其他內(nèi)容主題外,還涉及多種不同類型的語義實(shí)體,如:產(chǎn)品、技術(shù)成果等業(yè)務(wù)對(duì)象,專家人才或企業(yè)、研發(fā)機(jī)構(gòu)等創(chuàng)新主體,代理相關(guān)業(yè)務(wù)或提供法律、信息咨詢的服務(wù)機(jī)構(gòu)等服務(wù)主體,這些實(shí)體具有鮮明的屬性特征,在公共服務(wù)中作為相對(duì)獨(dú)立的對(duì)象存在,同時(shí)又通過相互的作用和關(guān)系具有更為廣泛的用途和價(jià)值。例如:在知識(shí)產(chǎn)權(quán)成果轉(zhuǎn)化過程中涉及技術(shù)成果在研發(fā)機(jī)構(gòu)和企業(yè)之間的轉(zhuǎn)移,同時(shí)可能涉及在服務(wù)過程中技術(shù)合作對(duì)象、代理機(jī)構(gòu)、服務(wù)機(jī)構(gòu)等多種角色的實(shí)體信息關(guān)聯(lián)推介,因此,語義標(biāo)引過程還涉及對(duì)這些實(shí)體、屬性及其潛在關(guān)系的識(shí)別和挖掘。
數(shù)據(jù)的語義組織是語義技術(shù)與數(shù)據(jù)管理的結(jié)合,在不同的數(shù)據(jù)應(yīng)用場(chǎng)景下從數(shù)據(jù)中抽取具有不同含義的數(shù)據(jù)要素,經(jīng)過關(guān)聯(lián)組織后形成高質(zhì)量的數(shù)據(jù)網(wǎng)絡(luò)支撐多元化的服務(wù)需求。因此,知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)的語義組織過程包括從數(shù)據(jù)的題錄或全文中明確其元數(shù)據(jù)描述,識(shí)別專業(yè)詞匯、格式元素以及命名實(shí)體等代表核心知識(shí)或主題內(nèi)容的細(xì)粒度數(shù)據(jù)元素,并通過信息抽取、知識(shí)組織、分析推理、可視化技術(shù)等實(shí)現(xiàn)原始數(shù)據(jù)的語義增值,最終實(shí)現(xiàn)包括各類實(shí)體、屬性維度及其關(guān)聯(lián)等在內(nèi)的數(shù)據(jù)語義標(biāo)注、組織和形式化。本文依據(jù)現(xiàn)有針對(duì)科技文獻(xiàn)資源語義組織實(shí)踐經(jīng)驗(yàn),設(shè)計(jì)知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)從原始數(shù)據(jù)集到語義增強(qiáng)數(shù)據(jù)集的語義組織過程整體框架,如圖5所示。
圖5 公共服務(wù)數(shù)據(jù)的語義組織框架
1)信息抽取技術(shù)。從不同類型公共服務(wù)數(shù)據(jù)中識(shí)別抽取不同粒度的數(shù)據(jù)元素,如元數(shù)據(jù)[11]、專業(yè)詞匯、格式元素、實(shí)體名稱等具有獨(dú)立語義的基本信息單元及其組合,可以借助數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)的語義增強(qiáng)[12]。
其中,元數(shù)據(jù)抽取以建立公共服務(wù)數(shù)據(jù)的基礎(chǔ)元數(shù)據(jù)集為目標(biāo),實(shí)現(xiàn)題錄信息的統(tǒng)一組織與互操作,實(shí)現(xiàn)過程要遵循多源異構(gòu)數(shù)據(jù)的不同元數(shù)據(jù)標(biāo)準(zhǔn)制定相應(yīng)的抽取規(guī)則,對(duì)于在不同類型數(shù)據(jù)中命名的多義性和不一致性需要進(jìn)行必要的語義消歧和關(guān)聯(lián)映射,以實(shí)現(xiàn)不同數(shù)據(jù)之間的語義連通;專業(yè)詞匯是反映知識(shí)產(chǎn)權(quán)所涉及技術(shù)主題或相關(guān)信息的細(xì)粒度知識(shí)單元,可以借助分詞、詞性標(biāo)注等語法分析結(jié)合上下文特征識(shí)別并篩選所需的技術(shù)關(guān)鍵詞、科學(xué)術(shù)語、主題詞等。近年來已有較為成熟的機(jī)器學(xué)習(xí)算法,如CNN、RNN或Transformer等深度學(xué)習(xí)模型在文本處理中取得理想實(shí)驗(yàn)效果[13-14],均可應(yīng)用于全文文本的專業(yè)詞匯抽取,進(jìn)而服務(wù)于技術(shù)主題發(fā)現(xiàn)與專業(yè)分析等服務(wù)場(chǎng)景;實(shí)體及其關(guān)系抽取是實(shí)現(xiàn)數(shù)據(jù)語義增強(qiáng)的重要環(huán)節(jié),傳統(tǒng)的命名實(shí)體識(shí)別是基于自然語言處理等技術(shù)進(jìn)行文本處理的基礎(chǔ)上,對(duì)識(shí)別實(shí)體進(jìn)行分類和關(guān)系構(gòu)建的過程,因而實(shí)體與關(guān)系抽取往往與特定的語境相關(guān),在特定服務(wù)場(chǎng)景下需要明確知識(shí)產(chǎn)權(quán)公共服務(wù)實(shí)體類別及其屬性,明確服務(wù)過程中數(shù)據(jù)組織維度,梳理實(shí)體間的關(guān)聯(lián)類型,本文初步梳理了公共服務(wù)數(shù)據(jù)的5大類實(shí)體(成果、技術(shù)、人物、機(jī)構(gòu)、企業(yè))以及4種常見組織維度(時(shí)間、地域、行業(yè)/產(chǎn)業(yè)、領(lǐng)域),在實(shí)際服務(wù)中可以發(fā)展出實(shí)體之間、不同維度的多種關(guān)聯(lián)關(guān)系;其他格式要素的抽取實(shí)際是其他數(shù)據(jù)語義的拓展[15],例如文內(nèi)圖片表格信息的抽取,反映經(jīng)濟(jì)數(shù)據(jù)等的數(shù)值性信息的抽取,反映技術(shù)模型的公式類信息的抽取等,同樣需要基于規(guī)則判定、序列標(biāo)注以及深度學(xué)習(xí)等技術(shù),針對(duì)文內(nèi)相應(yīng)內(nèi)容結(jié)構(gòu)設(shè)計(jì)并實(shí)現(xiàn)有效的分析處理算法。
2)知識(shí)組織技術(shù)。在科技文獻(xiàn)資源組織領(lǐng)域,包括元數(shù)據(jù)、本體、知識(shí)圖譜等在內(nèi)的知識(shí)表征和語義組織技術(shù)[16]主要用于設(shè)計(jì)面向科學(xué)知識(shí)的數(shù)據(jù)模型,將其擴(kuò)展至公共服務(wù)領(lǐng)域,則可應(yīng)用于滿足多源異構(gòu)、多粒度的服務(wù)數(shù)據(jù)的組織與融合。例如,知識(shí)產(chǎn)權(quán)公共服務(wù)的全景圖譜,通過公共服務(wù)本體的構(gòu)建,真正提升公共服務(wù)數(shù)據(jù)的有效組織和關(guān)聯(lián)應(yīng)用,實(shí)現(xiàn)更多數(shù)據(jù)集的可發(fā)現(xiàn)、可關(guān)聯(lián)、可利用。
3)分析推理技術(shù)。公共服務(wù)數(shù)據(jù)組織與呈現(xiàn)最終是為了實(shí)現(xiàn)有效利用,其中以參考咨詢支持為主要形式的知識(shí)服務(wù)需要通過對(duì)數(shù)據(jù)進(jìn)行分析整理并結(jié)合知識(shí)背景和服務(wù)需求進(jìn)行推演,才能得出有價(jià)值的決策咨詢支持或分析研判結(jié)論。數(shù)據(jù)語義組織基礎(chǔ)上的分析推理[17-18]可以是常規(guī)的多層次多維度的數(shù)據(jù)統(tǒng)計(jì)、文獻(xiàn)計(jì)量、文本挖掘和網(wǎng)絡(luò)分析,用于技術(shù)趨勢(shì)預(yù)測(cè)、行業(yè)發(fā)展布局等宏觀層次的專業(yè)服務(wù)支撐;也可以利用本體推理、語義查詢等技術(shù),實(shí)現(xiàn)精準(zhǔn)高效的語義檢索和服務(wù)資源推薦,優(yōu)化傳統(tǒng)服務(wù)效能。此外,還可以搭建自動(dòng)監(jiān)測(cè)分析環(huán)境實(shí)現(xiàn)對(duì)區(qū)域范圍的可持續(xù)服務(wù)支持。
4)可視化技術(shù)。借助圖形學(xué)和圖像處理技術(shù)為數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等提供功能輔助的重要技術(shù)手段,應(yīng)用于開放檢索、資源推薦、服務(wù)產(chǎn)品展示等公共服務(wù)場(chǎng)景能夠?yàn)橛脩籼峁└又庇^的數(shù)字信息呈現(xiàn),有利于科學(xué)全面地展示既有數(shù)據(jù)的語義組織網(wǎng)絡(luò),增強(qiáng)對(duì)數(shù)據(jù)要素的深刻理解,實(shí)現(xiàn)服務(wù)效用最大化。主要應(yīng)用包括:信息圖等形式的數(shù)據(jù)可視化[19],實(shí)現(xiàn)統(tǒng)計(jì)分析的直觀展示;知識(shí)圖譜形式的科學(xué)可視化[20],面向技術(shù)領(lǐng)域和科研活動(dòng)的數(shù)據(jù)建模展示創(chuàng)新模式與特點(diǎn)規(guī)律;綜合圖形學(xué)、數(shù)據(jù)挖掘和人機(jī)交互的可視化分析[21],以可視交互界面為通道,將可視化融入數(shù)據(jù)處理過程,實(shí)現(xiàn)更有效的分析推理和決策。
面向不同的應(yīng)用場(chǎng)景數(shù)據(jù)的語義組織可能會(huì)有不同的實(shí)踐路徑,但都應(yīng)當(dāng)遵循數(shù)據(jù)語義組織的基本原則,這些原則既在方法上繼承其他信息資源語義組織的共性方法,但同時(shí)也要融入知識(shí)產(chǎn)權(quán)公共服務(wù)的獨(dú)特屬性。
1)多源融合的語義完整原則。公共服務(wù)數(shù)據(jù)的語義增值過程是獲取數(shù)據(jù)語義及其關(guān)聯(lián)關(guān)系的過程,在此過程中應(yīng)首先遵循語義完整原則,包括:完整著錄所有公共服務(wù)數(shù)據(jù)的元數(shù)據(jù);充分挖掘數(shù)據(jù)內(nèi)容,實(shí)現(xiàn)重要數(shù)據(jù)元素的結(jié)構(gòu)化提??;充分結(jié)合服務(wù)場(chǎng)景特征和需求特點(diǎn)考慮相關(guān)實(shí)體及其關(guān)聯(lián)關(guān)系。
2)需求牽引的鏈?zhǔn)疥P(guān)聯(lián)原則。不同于傳統(tǒng)科技文獻(xiàn)資源以學(xué)科知識(shí)體系為主要依據(jù)進(jìn)行語義組織,公共服務(wù)數(shù)據(jù)的組織與管理必定與服務(wù)密切相關(guān),因此必須在需求牽引下搭建支撐服務(wù)的數(shù)據(jù)語義組織框架,尊重且遵循服務(wù)需求建立其各實(shí)體間語義關(guān)聯(lián)的鏈條。這一原則中的“鏈”,不僅包含依據(jù)技術(shù)領(lǐng)域及創(chuàng)新體系形成的內(nèi)容語義鏈,如技術(shù)演進(jìn)分析需要建立時(shí)間維度的技術(shù)主題關(guān)聯(lián),行業(yè)布局分析需要建立地域、行業(yè)維度的技術(shù)、產(chǎn)品、企業(yè)等的實(shí)體共現(xiàn)關(guān)聯(lián);也包含服務(wù)及創(chuàng)新主體角色形成的機(jī)構(gòu)職能鏈,在公共服務(wù)體系中,服務(wù)機(jī)構(gòu)、企業(yè)、科研機(jī)構(gòu)、代理機(jī)構(gòu)等主體存在由職能決定的依存關(guān)系,如代理機(jī)構(gòu)協(xié)助企業(yè)等創(chuàng)新主體實(shí)現(xiàn)業(yè)務(wù)申辦,科研機(jī)構(gòu)向企業(yè)輸出技術(shù)轉(zhuǎn)移成果,服務(wù)機(jī)構(gòu)為企業(yè)提供決策支撐信息等;還包含業(yè)務(wù)流程中所涉及數(shù)據(jù)之間的語義關(guān)聯(lián),如研發(fā)技術(shù)從創(chuàng)造到保護(hù)再到運(yùn)用過程可能涉及專利申請(qǐng)、專利許可或轉(zhuǎn)讓等不同業(yè)務(wù),關(guān)聯(lián)了專利基礎(chǔ)數(shù)據(jù)、法律狀態(tài)數(shù)據(jù)等形成業(yè)務(wù)流程鏈。公共服務(wù)數(shù)據(jù)的語義組織需要確保各鏈條的有效連通。
本章節(jié)通過具體案例展示公共服務(wù)數(shù)據(jù)語義組織在咨詢服務(wù)中所發(fā)揮的價(jià)值和作用。如圖6所示,以氫能產(chǎn)業(yè)導(dǎo)航為例,服務(wù)內(nèi)容主要包括產(chǎn)業(yè)發(fā)展概況及專利技術(shù)分析兩大部分,分別從宏觀層面總體概括氫能產(chǎn)業(yè)鏈構(gòu)成、全球典型的發(fā)展模式以及國內(nèi)重點(diǎn)對(duì)標(biāo)省市的發(fā)展政策及規(guī)劃,從技術(shù)層面微觀視角分析氫能上、中、下游所涉及主要技術(shù)領(lǐng)域發(fā)展現(xiàn)狀。表3顯示了不同內(nèi)容的數(shù)據(jù)需求,包括其主要數(shù)據(jù)來源、數(shù)據(jù)分析所涉及關(guān)鍵要素等,其中,前文所述語義增值過程獲得的專業(yè)詞匯(如關(guān)鍵技術(shù)、材料、工藝方法等)、格式元素(如技術(shù)路線圖、技術(shù)性能、經(jīng)濟(jì)指標(biāo)、產(chǎn)能數(shù)據(jù)等)、實(shí)體名稱(如企業(yè)、研發(fā)機(jī)構(gòu)等創(chuàng)新主體,或規(guī)劃項(xiàng)目、產(chǎn)品等科技成果)都成為支撐服務(wù)的基本數(shù)據(jù)內(nèi)容。
表3 氫能產(chǎn)業(yè)導(dǎo)航服務(wù)數(shù)據(jù)需求
基于語義增值的相關(guān)數(shù)據(jù),可以直觀地繪制氫能產(chǎn)業(yè)技術(shù)圖譜并極大地優(yōu)化分析結(jié)果的呈現(xiàn)效果,本文僅以技術(shù)、機(jī)構(gòu)、人物、企業(yè)、地域等實(shí)體為例,根據(jù)導(dǎo)航分析對(duì)產(chǎn)業(yè)鏈上游的制氫技術(shù)領(lǐng)域發(fā)展現(xiàn)狀進(jìn)行簡單的梳理歸納。
知識(shí)產(chǎn)權(quán)領(lǐng)域是多元化數(shù)據(jù)開放匯聚的典型應(yīng)用場(chǎng)景,快速發(fā)展的數(shù)據(jù)化進(jìn)程給知識(shí)產(chǎn)權(quán)領(lǐng)域的治理結(jié)構(gòu)和治理模式都帶來了巨大的變化和挑戰(zhàn)。本文關(guān)注知識(shí)產(chǎn)權(quán)公共服務(wù)領(lǐng)域,梳理相關(guān)數(shù)據(jù)資源建設(shè)管理現(xiàn)狀,明確了公共服務(wù)數(shù)據(jù)的基本構(gòu)成及語義組織內(nèi)涵,并從中提煉加強(qiáng)知識(shí)產(chǎn)權(quán)數(shù)據(jù)治理的關(guān)鍵數(shù)據(jù)元素,構(gòu)建有效支撐服務(wù)的數(shù)據(jù)語義組織框架,希望能為數(shù)據(jù)治理實(shí)踐提供方法參考。后續(xù)研究將著力在語義框架指導(dǎo)下,結(jié)合自身業(yè)務(wù)實(shí)踐,完成以高校知識(shí)資源為基礎(chǔ)的區(qū)域知識(shí)產(chǎn)權(quán)公共服務(wù)數(shù)據(jù)平臺(tái)建設(shè),在實(shí)踐中進(jìn)一步細(xì)化數(shù)據(jù)治理實(shí)施方案,以期發(fā)揮更大的應(yīng)用價(jià)值。