朱艷華
(中國科學院計算機網(wǎng)絡信息中心,北京 100190)
中國科技成果數(shù)據(jù)庫的功能與增值服務
朱艷華
(中國科學院計算機網(wǎng)絡信息中心,北京 100190)
中國科技項目創(chuàng)新成果鑒定意見數(shù)據(jù)庫(知網(wǎng)版)收錄了1978年以來所有正式登記的中國科技成果數(shù)據(jù),共計56萬余項,集成了科技成果著述信息、知網(wǎng)學術文獻總庫中的期刊文章、碩博論文、會議論文、標準規(guī)范和專利文獻等在內(nèi)的各類資源,最終形成科技成果知識網(wǎng)絡,并提供了導航功能、檢索功能、知網(wǎng)節(jié)功能、評價功能和用戶管理等各項服務。其中,知網(wǎng)節(jié)功能是對檢索結果進行挖掘分析的資源整合模式,將所有具有密切聯(lián)系的知識集成在一個匯編頁面上。此外,文章基于語義分類導航理念,探索了數(shù)據(jù)庫增值服務的新模式。
科技成果數(shù)據(jù)庫;增值服務;知網(wǎng)節(jié);知識關聯(lián);集成服務
中國科技項目創(chuàng)新成果鑒定意見數(shù)據(jù)庫(知網(wǎng)版),以下簡稱科技成果數(shù)據(jù)庫(知網(wǎng)版),是同方知網(wǎng)(CNKI)與國家科技成果管理項目組(中國化工信息中心)聯(lián)合建設的國家級大型權威性科技數(shù)據(jù)庫,內(nèi)容涉及醫(yī)藥衛(wèi)生、農(nóng)業(yè)、化工、工業(yè)、環(huán)境、自動化、電工、機械、建筑、交通、無線電、冶金和社會經(jīng)濟等方面??萍汲晒麛?shù)據(jù)庫收錄了1978年以來所有正式登記的中國科技成果,部分成果回溯至1920年,并按行業(yè)、成果級別和學科領域進行分類。每條成果信息包含成果概括、立項情況、評價情況、知識產(chǎn)權狀況及成果應用情況、成果完成單位信息和成果完成人信息等基本描述數(shù)據(jù)。截止到2013年,科技成果數(shù)據(jù)庫(知網(wǎng)版)共收錄科技成果56萬余項,科技成果每月更新,相關科技文獻每周更新。產(chǎn)品服務形式包括WEB版(網(wǎng)上包庫)、鏡像站版和流量計費[1]。
科技成果數(shù)據(jù)庫收錄正式登記的國家科技成果與相關科技文獻,收錄范圍共涉及31個省、自治區(qū)、直轄市。相比于同類數(shù)據(jù)庫的簡單描述,該數(shù)據(jù)庫的內(nèi)容信息達50余項,具體字段詳見表1。其中,成果編號作為成果數(shù)據(jù)庫的唯一標識,保證庫中數(shù)據(jù)沒有重復和冗余。眾所周知,數(shù)據(jù)質(zhì)量問題及其研究由來已久,特別是伴隨著計算機為主的信息技術發(fā)展而逐漸成為被廣泛關注的研究熱點,在大數(shù)據(jù)時代來臨的當下,其重要性已經(jīng)比肩數(shù)據(jù)資源本身。對科學數(shù)據(jù)資源而言,數(shù)據(jù)質(zhì)量對科研活動的重要作用比之產(chǎn)品有過之而無不及,科學數(shù)據(jù)質(zhì)量將直接影響到我國科技發(fā)展整體水平的提高與獨創(chuàng)性成果的產(chǎn)出[2]??萍汲晒麛?shù)據(jù)庫作為科學數(shù)據(jù)的重要類型之一,其數(shù)據(jù)質(zhì)量的重要性不言而喻。成果數(shù)據(jù)庫的關鍵字段都由人工進行審查和校對,其中,成果名稱、成果編號、成果類別、成果入庫時間、關鍵詞、學科分類、中圖分類、成果摘要、成果主要應用行業(yè)代碼、第一完成單位、第一完成單位代碼和所在省市等字段完整率達100%,準確率達到95%以上。
與通常的科技成果庫相比,科技成果數(shù)據(jù)庫(知網(wǎng)版)每條成果檢索結果界面集成了與該成果相關的最新文獻、專利和標準等信息,可以完整地展現(xiàn)該成果產(chǎn)生的背景、最新發(fā)展動態(tài)、相關領域的發(fā)展趨勢,還可以瀏覽成果完成人與完成單位在各種出版物上發(fā)表的論文等更多信息。可以說,科技成果數(shù)據(jù)庫通過增值服務功能充分展示了基礎研究-成果產(chǎn)出-專利產(chǎn)出-標準應用-產(chǎn)業(yè)化的過程及內(nèi)在的必然聯(lián)系,每條成果都囊括了該成果及其相關領域的所有科技發(fā)展信息。
本文將對科技成果數(shù)據(jù)庫(知網(wǎng)版)的內(nèi)容、功能及服務作進一步論述。
表1 科技成果數(shù)據(jù)庫內(nèi)容
知網(wǎng)版科技成果數(shù)據(jù)庫首先對成果數(shù)據(jù)庫原有字段內(nèi)容進行梳理,檢查字段名稱是否規(guī)范,數(shù)據(jù)內(nèi)容是否完整;確定豐富的檢索詞;將整理后的成果數(shù)據(jù)庫相關字段和CNKI數(shù)據(jù)庫中元數(shù)據(jù)字段進行映射,以實現(xiàn)跨庫檢索和增值服務等功能。表2列出了詳細的字段對應關系。
表2 科技成果數(shù)據(jù)庫與CNKI元數(shù)據(jù)檢索字段對應關系
基于原有成果數(shù)據(jù)庫的功能特點和檢索模式,科技成果數(shù)據(jù)庫(知網(wǎng)版)重新設計了5種主要的服務功能,即導航功能、檢索功能、知網(wǎng)節(jié)功能、評價功能和用戶管理等(圖1)。
圖1 科技成果數(shù)據(jù)庫功能設計圖
2.1 導航與檢索功能
原有成果數(shù)據(jù)庫按照《中國圖書資料分類法》(第四版)對成果數(shù)據(jù)進行中圖分類;按照GB/T13745《學科分類與代碼》進行學科分類。所有CNKI數(shù)據(jù)庫均采用統(tǒng)一的168專題分類體系。該分類體系按中國圖書分類法對每個出版物及其每篇文獻分類,匯編為8個專業(yè)總庫、168個專題數(shù)據(jù)庫產(chǎn)品。按規(guī)定的學科范圍,每個專題數(shù)據(jù)庫均可完整收錄在同方知網(wǎng)學術文獻總庫中,收錄所有出版物上發(fā)表的該學科專業(yè)文獻,并在“知網(wǎng)節(jié)”整合模式和標準化檢索平臺支撐下,構成學術文獻的權威性檢索工具,形成全國學術文獻的增值性集成整合傳播媒體[3]。
科技成果數(shù)據(jù)庫(知網(wǎng)版)對成果庫原有的分類進行清理,保留原有中圖分類體系和學科分類系統(tǒng),并由同方知網(wǎng)總編室將中圖分類號與CNKI的168專題號進行逐一對應,形成映射關系表,確定每條記錄的168分類號。因此,整合后的成果數(shù)據(jù)庫共采用3種導航方式,即中圖分類導航、學科分類導航和168專題導航。
科技成果數(shù)據(jù)庫(知網(wǎng)版)實現(xiàn)了初級檢索、高級檢索、專業(yè)檢索、在結果中檢索和智能擴展功能等多種檢索功能,力求做到讓用戶的操作輕松容易。科技成果數(shù)據(jù)庫檢索功能詳見表3。
(1)所屬年份:年份以下拉表的形式列出,范圍是1978-2013,可選擇。(2)邏輯運算:可增加或減少邏輯行,邏輯關系為“并且/或者/不包含”。(3)檢索詞擴展:以檢索詞為中心的相關詞,可顯示與輸入的檢索詞在意義上相關的詞。相關詞以3種方式自動添加到檢索框中:單詞自動增加、多詞自動增加或相關詞取代原輸入詞。在相關詞前面的方框中以“√”的形式選擇相關詞,則該詞自動以“邏輯與”的關系增加到檢索框中;或點擊所需要相關詞,則該詞自動進入檢索框并取代原先所輸入的檢索詞。(4)匹配方式:模糊或精確,以下拉表的形式列出,可選擇。(5)排序:時間、排序碼、無、相關度,以下拉表的形式列出,可選擇。(6)每頁:以下拉表的形式列出每頁保存的記錄數(shù):10/20/30/40/50,可選擇。(7)中英文擴展:當匹配方式為精確時,可以“√”形式在方框中選擇,當匹配方式為模糊時,則方框變灰為不可選擇。(8)檢索導航:單庫檢索導航為學科分類和CNKI-168專輯導航兩種可選導航,導航以樹型方式列出,可以層層展開,可在導航的各欄目名稱前以“√”形式選擇,以控制檢索的范圍。(9)二次檢索:在第一次檢索結果的基礎上再次檢索,以縮小檢索范圍。(10)智能擴展功能:檢索智能擴展基于概念關系詞典相關語義運算技術,實現(xiàn)不同字段間的智能擴展,以提高查全率,發(fā)現(xiàn)新知識,實現(xiàn)知識漫游服務。
2.2 知網(wǎng)節(jié)功能
以每一篇文獻為知識網(wǎng)絡中的一個傳播節(jié)點,簡稱“知網(wǎng)節(jié)”。知網(wǎng)節(jié)將一篇文獻的參考文獻、引證文獻、相似文獻、讀者推薦文獻、同類文獻、相關文獻以及文獻作者與機構有關信息、知識概念等內(nèi)容鏈接整合到一起,通過知識網(wǎng)絡有序性地集成文獻的個性內(nèi)容與整體性知識。它以知識整合傳播為設計理念,基于知識網(wǎng)絡、知識挖掘、知識發(fā)現(xiàn)和互動傳播等網(wǎng)絡傳播模式與技術,使文獻檢索、文獻傳播的基本概念與價值觀產(chǎn)生質(zhì)的飛躍[4]。
基于知網(wǎng)節(jié)理念,科技成果數(shù)據(jù)庫(知網(wǎng)版)以每條成果為基本單元,在整合原有成果庫描述信息基礎上,集成了包括CNKI期刊文章、碩博論文、會議論文、標準規(guī)范和專利文獻等在內(nèi)的各類資源,最終形成科技成果的知識網(wǎng)絡,見表4。
概況地說,知網(wǎng)節(jié)功能內(nèi)容主要包括成果3個方面,知網(wǎng)節(jié)功能模塊和詳細說明見表4。
2.2.1 成果完成人節(jié)點功能
(1)第一成果完成人其他成果:展示第一成果完成人的其他科技成果,并對完成周期進行分析。
(2)完成單位其他完成人成果:同一機構/合作機構的其他成果完成人的成果,利用第一完成單位和合作完成單位等字段加以分析。
(3)成果完成人申請的專利:成果完成人申請到的專利信息,主要統(tǒng)計成果完成人在專利庫中發(fā)表的專利信息[5]。
(4)成果完成人完成的標準:成果完成人研發(fā)的標準規(guī)范;統(tǒng)計成果完成人在標準庫中的標準信息[6]。
(5)成果完成人發(fā)表的文獻:成果完成人在期刊數(shù)據(jù)庫、學位論文數(shù)據(jù)庫、會議論文數(shù)據(jù)庫、報紙數(shù)據(jù)庫中發(fā)表過的各類文獻信息,評價成果完成人的科研能力。
2.2.2 成果完成單位節(jié)點功能
(1)完成單位其他成果:利用成果完成單位字段統(tǒng)計其在成果庫中登記的其他成果,了解成果完成單位的科研能力。對企業(yè)來說,可以了解競爭對手的情況。
(2)各省市在學科領域的成果數(shù)量:統(tǒng)計成果完成單位所在省市某一學科領域成果完成情況。
(3)本領域成果地域分布:統(tǒng)計出各省市在某一學科領域完成的成果數(shù)量,內(nèi)各省市成果數(shù)量對比,可推知某領域的高科技研發(fā)力量集中的區(qū)域。
表3 科技成果數(shù)據(jù)庫檢索功能
(4)完成單位申請的相關專利:成果完成單位申請的專利,統(tǒng)計成果完成單位在專利數(shù)據(jù)庫中的專利。
(5)完成單位研發(fā)的相關標準:成果完成單位研發(fā)的標準;統(tǒng)計成果完成單位在標準數(shù)據(jù)庫中的標準。
2.2.3 成果相關內(nèi)容節(jié)點功能
(1)相似成果:本領域中與該成果內(nèi)容相似的成果;利用關鍵詞和中圖分類號等字段在成果庫中查找相似的數(shù)據(jù)記錄。
(2)相關標準:與本成果內(nèi)容相關的標準規(guī)范;利用關鍵詞等字段在標準數(shù)據(jù)庫查找相關標準規(guī)范。
(3)相關專利:與本成果內(nèi)容相關的專利信息;利用關鍵詞和專題子欄目代碼等字段在專利數(shù)據(jù)庫查找相關專利信息。
(4)成果研制動態(tài):本成果研究過程中產(chǎn)生的各類研究文獻,如期刊論文、學位論文和會議論文等;利用關鍵詞、課題來源等字段在期刊數(shù)據(jù)庫、學位論文數(shù)據(jù)庫、會議論文數(shù)據(jù)庫中查找相關文獻。這些信息顯示本成果所涉及或參考的研究文獻。
(5)成果應用動態(tài):本成果有關應用轉化動態(tài)新聞,利用關鍵詞等字段在報紙數(shù)據(jù)庫中檢索相關信息。
2.3 其他功能
評價功能主要對成果完成人或完成單位所產(chǎn)生的成果、專利、文獻信息進行統(tǒng)計分析。用戶管理包括用戶日志統(tǒng)計和用戶日志查詢,其中,用戶日志統(tǒng)計按照IP地址、專輯、專題分庫統(tǒng)計日志;超級用戶可以按操作類型、時間范圍等進行日志查詢。
表4 科技成果數(shù)據(jù)庫知網(wǎng)節(jié)
科技成果數(shù)據(jù)庫利用知網(wǎng)節(jié)技術將成果數(shù)據(jù)與標準、專利、期刊、報紙、博士論文、碩士論文、會議論文、圖書、工具書、知識元等資源進行整合,深入挖掘科技研究信息與科技產(chǎn)出之間的內(nèi)在關聯(lián)關系,形成完善的科技研究與科技成果產(chǎn)出綜合信息服務平臺。充分反映基礎研究-成果產(chǎn)出-專利產(chǎn)出-標準應用-產(chǎn)業(yè)化的過程及內(nèi)在的必然聯(lián)系,并綜合分析和評價機構(個人)的科研與科技產(chǎn)出績效。
除了利用知網(wǎng)節(jié)技術提升成果數(shù)據(jù)庫增值服務能力之外,為推進未來科技成果的轉化,響應中共中央、國務院提出的《關于深化科技體制改革加快國家創(chuàng)新體系建設的意見》,充分發(fā)揮企業(yè)在技術創(chuàng)新決策、研發(fā)投入、科研組織和成果轉化中的主體作用,我們還要進一步探索成果數(shù)據(jù)服務的新模式,加強數(shù)據(jù)內(nèi)容挖掘力度,強化產(chǎn)學研用緊密結合;開發(fā)針對技術開發(fā)、科技創(chuàng)新活動和企業(yè)創(chuàng)新活動的特色服務產(chǎn)品;擴展成果數(shù)據(jù)庫開放共享范圍,增強支撐產(chǎn)業(yè)創(chuàng)新能力,吸引各類創(chuàng)新主體協(xié)同合作,加快研發(fā)成果的轉化工作。
基于成果數(shù)據(jù)庫已有內(nèi)容,以增加多種語義分類導航為切入點,探索數(shù)據(jù)庫增值服務的新模式。語義導航作為知識組織的方式之一,比傳統(tǒng)的學科分類導航或主題詞分類導航具有更強的邏輯性和內(nèi)容分析挖掘能力,能夠針對特定服務對象,有效引導企業(yè)用戶進行快速檢索和需求定位。舉例如下。
(1)增加“成果高新技術領域分布”導航,方便用戶迅速查找到其感興趣的領域成果。成果所屬高新技術領域可以劃分為:電子信息;軟件;航空航天;光機電一體化;生物、醫(yī)藥和醫(yī)療器械;新材料;新能源與高效節(jié)能;環(huán)境保護;地球、空間與海洋;核應用技術;農(nóng)業(yè)等。
(2)增加“成果體現(xiàn)形式”導航,準確定位成果類型。成果形式主要包括:新技術;新工藝;新產(chǎn)品;新材料;新裝備;農(nóng)業(yè)、生物新品種;礦產(chǎn)新品種;其他應用技術等。
(3)增加“成果推廣形式”導航,明確成果知識產(chǎn)權狀況和成果應用情況。具體推廣形式主要包括:產(chǎn)權轉讓;資金入股;技術入股;合作開發(fā);技術服務等。增加“成果水平評價”導航,使用戶對成果水平有一個整體的認識和評估。成果評價等級具體可分為國際領先、國際先進、國內(nèi)領先、國內(nèi)先進、國內(nèi)一般等。一般來講,成果得到的評價越高,未來轉化的潛在價值就越大。
全面收集和整理科技計劃項目產(chǎn)生的科技成果具有重要意義,科技成果數(shù)據(jù)庫不僅用于成果查新和技術轉讓,還可以為技術咨詢和服務提供重要信息來源,是技術改造、新產(chǎn)品開發(fā)以及革新工藝的重要依據(jù)。我國經(jīng)濟高速發(fā)展很大程度上來自科技成果的有效轉化,因此,加強科技成果數(shù)據(jù)庫建設,推動成果產(chǎn)業(yè)化,特別是將具有自主知識產(chǎn)權的科技成果轉化成真正的產(chǎn)能具有現(xiàn)實意義。
科技成果數(shù)據(jù)庫收集整理正式登記和上報的中國科技成果信息,提供查新服務和技術咨詢信息,對于推動成果轉化具有重要意義??萍汲晒麛?shù)據(jù)庫(知網(wǎng)版)旨在打造產(chǎn)學研綜合信息平臺,揭示科技發(fā)展與創(chuàng)新奧秘。成果數(shù)據(jù)庫提供了導航功能、檢索功能、知網(wǎng)節(jié)功能、評價功能和用戶管理等多種服務模式,同時還將成果數(shù)據(jù)與標準、專利、CNKI期刊、報紙、博士論文、碩士論文、會議論文和知識元等資源進行整合,深入挖掘科技研究信息與科技產(chǎn)出之間的內(nèi)在關聯(lián),形成完善的科技研究與科技成果產(chǎn)出綜合信息服務平臺。
[1]中國科技項目創(chuàng)新成果鑒定意見數(shù)據(jù)庫(知網(wǎng)版)[EB/OL].[2013-07-01]. http://epub.cnki.net/KNS/ brief/result.aspx?dbpre fi x=SNAD.
[2]胡良霖,黎建輝,劉寧,等.科學數(shù)據(jù)質(zhì)量實踐與若干思考[J].科研信息化技術與應用,2012,3(2):10-11.
[3]同方知網(wǎng)學術文獻總庫平臺[EB/OL].[2013-06-10]. http://www.cnki.net/.
[4]王明亮.整合傳播——網(wǎng)絡時代科技文獻檢索工具的本質(zhì)特征[C]//第二屆國際科學編輯研討會論文集, 2005.
[5]中國專利數(shù)據(jù)庫[EB/OL].[2013-06-18]. http://dbpub.cnki. net/Grid2008/Dbpub/Brief.aspx? ID= SCPD& subBase=all.
[6]中國標準數(shù)據(jù)庫[EB/OL].[2013-06-18].http://epub. cnki.net/kns/brief/result.aspx?dbPre fi x=CISD.
Construction and Value-added Service of National Database of Scienti fi c and Technological Achievements
Zhu Yanhua
(Computer Network Information Center of CAS, Beijing 100190)
The database of scientific and technological achievements has great significance to promote the transformation of scienti fi c and technological achievements and knowledge innovation. Nation Achievement of Science and Technology Database (CNKI Version) collected more than 560,000 achievements from 1978 till now. It mainly provided fi ve kinds of function: Navigation function, search function, knowledge network node function, evaluating function and user management function. Knowledge Network Node is a special search-result display page created by CNKI. It is similar to citation links but much more powerful. The purpose is to improve research efficiency and make all closely related articles in contents available on a single page. Compared with usual achievement databases, every node of achievement in Nation Achievement of Science and Technology Database (CNKI Version) collects its bibliographic information and related journal articles, doctoral dissertations, masters' theses, proceedings papers, newspaper articles, standards, patents and so on,which fi nally formed the knowledge hierarchy of the achievement. In addition, this paper explored the new mode of database value-added services based on semantic navigation.
Nation Science and Technology Achievement Database, value-added service, Knowledge Network Node, knowledge connection, integrated service
TP392
A
10.3772/j.issn.1674-1544.2014.02.011
朱艷華(1982- ),女,中國科學院計算機網(wǎng)絡信息中心工程師,碩士,主要研究方向:數(shù)據(jù)庫技術與標準規(guī)范、數(shù)據(jù)應用服務。
2013年11月12日。