全志薇 陳曉玲
摘 要:異構(gòu)數(shù)據(jù)異構(gòu)性主要表現(xiàn)在不同的數(shù)據(jù)庫(kù)類型和數(shù)據(jù)結(jié)構(gòu)。為解決異構(gòu)數(shù)據(jù)整合中的統(tǒng)一檢索問(wèn)題,以科技資訊庫(kù)、政策庫(kù)、統(tǒng)計(jì)庫(kù)、項(xiàng)目庫(kù)、機(jī)構(gòu)庫(kù)和人才庫(kù)為例,建立不同類型文獻(xiàn)資源元數(shù)據(jù)結(jié)構(gòu)和規(guī)范,構(gòu)建吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)系統(tǒng),解決不同種類數(shù)據(jù)庫(kù)之間的數(shù)據(jù)整合問(wèn)題。實(shí)踐證明,基于該方式構(gòu)建的區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)可為后續(xù)學(xué)科個(gè)性化服務(wù)提供有效的檢索支撐,在系統(tǒng)利用和服務(wù)方面具有一定實(shí)用價(jià)值。
關(guān)鍵詞:異構(gòu)數(shù)據(jù);區(qū)域創(chuàng)新;數(shù)據(jù)整合;元數(shù)據(jù);統(tǒng)一檢索
DOI:10. 11907/rjdk. 201004
中圖分類號(hào):TP392文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)010-0214-04
Abstract: This research mainly solves the problem of unified retrieval of heterogeneous data integration which is mainly manifested in different database types and data structures. Taking science and technology information database, policy database, statistics database, project database, institution database and talent database as examples, this paper designs the metadata structure of different types of literature resources and establishes the metadata of literature resources. According to the standard, the regional innovation database system of Jilin Province is constructed to solve the problem of data conversion between different kinds of databases. The practice proves that the unified retrieval platform of regional innovation database based on this method provides effective retrieval support for the personalized service of the follow-up disciplines and has a certain practical value for the utilization and service of the system.
Key Words: heterogeneous data; regional innovation; data integration; metadata; unified retrieval
0 引言
國(guó)家科技部2018年2月頒布了《國(guó)家科技資源共享服務(wù)平臺(tái)管理辦法》,科技資源共享有利于促進(jìn)科技信息資源為社會(huì)、經(jīng)濟(jì)、科研等提供更有效的服務(wù)。目前國(guó)內(nèi)有多個(gè)商業(yè)化數(shù)字資源提供商,如中國(guó)知網(wǎng)、維普、讀秀等,但缺乏區(qū)域性特色科技資源共享平臺(tái)。吉林省科學(xué)技術(shù)信息研究所經(jīng)過(guò)多年科研項(xiàng)目積累,形成了眾多分散式、區(qū)域性的科技資訊類、政策類、統(tǒng)計(jì)數(shù)據(jù)、項(xiàng)目、人才、機(jī)構(gòu)等不同主體、不同種類、不同形態(tài)的資源,至今未對(duì)其進(jìn)行有效的匯集、整合、存儲(chǔ)與表述,急需建立資訊、政策、數(shù)據(jù)、成果、人才、機(jī)構(gòu)等科技信息共享平臺(tái)。本文充分利用模塊化構(gòu)造方法,重點(diǎn)研究資訊類、政策類、統(tǒng)計(jì)數(shù)據(jù)類、科研項(xiàng)目類、人才類、機(jī)構(gòu)類等分散式異構(gòu)數(shù)據(jù)集成技術(shù),以數(shù)據(jù)類型為例,統(tǒng)一協(xié)調(diào)不同數(shù)據(jù)庫(kù)管理軟件,對(duì)數(shù)據(jù)進(jìn)行整合,構(gòu)建吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)。
1 文獻(xiàn)回顧
眾多學(xué)者對(duì)異構(gòu)數(shù)據(jù)整合、創(chuàng)新數(shù)據(jù)庫(kù)進(jìn)行了研究。張宏偉等[1]建立了基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的一站式檢索系統(tǒng)架構(gòu)模型;徐愛(ài)萍等[2]構(gòu)建了水文及水環(huán)境數(shù)據(jù)共享平臺(tái);顧瑋[3]闡述了異構(gòu)數(shù)據(jù)源特點(diǎn)和集成技術(shù);邵桐等[4]實(shí)現(xiàn)了數(shù)據(jù)交換系統(tǒng);張洋[5]設(shè)計(jì)了異構(gòu)數(shù)據(jù)庫(kù)實(shí)現(xiàn)方案;王宏起等[6]構(gòu)建了各區(qū)域政府科技管理部門及區(qū)域共享平臺(tái),為發(fā)展管理提供科學(xué)依據(jù)和參考;周瑩[7]對(duì)異構(gòu)分布式數(shù)據(jù)庫(kù)系統(tǒng)具體設(shè)計(jì)思路進(jìn)行了研究;道仁·哈尼開(kāi)[8]提出采用XML技術(shù)針對(duì)異構(gòu)數(shù)據(jù)的轉(zhuǎn)換模式。但是,針對(duì)區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)共享平臺(tái)異構(gòu)數(shù)據(jù)整合的研究鮮有涉及。因此本文針對(duì)不同類型數(shù)據(jù)庫(kù),建立相應(yīng)元數(shù)據(jù)結(jié)構(gòu)和規(guī)范,構(gòu)建吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)系統(tǒng),解決不同種類數(shù)據(jù)庫(kù)之間的數(shù)據(jù)整合問(wèn)題。本文研究對(duì)提升區(qū)域創(chuàng)新和共享集成服務(wù)能力、豐富平臺(tái)管理方法具有重要的現(xiàn)實(shí)意義。
2 異構(gòu)數(shù)據(jù)特點(diǎn)與整合
2.1 異構(gòu)數(shù)據(jù)特點(diǎn)
數(shù)據(jù)庫(kù)系統(tǒng)模型有層次、網(wǎng)狀和關(guān)系,各種類型數(shù)據(jù)庫(kù)用戶群體、特征、數(shù)據(jù)結(jié)構(gòu)均存在明顯區(qū)別[9]。異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)是相關(guān)多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的集成,以實(shí)現(xiàn)數(shù)據(jù)共享和透明訪問(wèn)。異構(gòu)性主要體現(xiàn)在數(shù)據(jù)源異構(gòu)、數(shù)據(jù)結(jié)構(gòu)異構(gòu),因此對(duì)多個(gè)數(shù)據(jù)源集成非常重要,而異構(gòu)數(shù)據(jù)庫(kù)集成可屏蔽數(shù)據(jù)來(lái)源和結(jié)構(gòu)異構(gòu)性,將分散的、異構(gòu)的多個(gè)數(shù)據(jù)源相關(guān)數(shù)據(jù)進(jìn)行有效集成[10-11]。
2.2 異構(gòu)數(shù)據(jù)整合
吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)整合了7類數(shù)據(jù)科技,如圖1所示。
(1)科技資訊、科技政策和科技統(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)在SQL Server數(shù)據(jù)庫(kù),包括國(guó)內(nèi)外科技資訊和科技政策、吉林省歷年科技統(tǒng)計(jì)數(shù)據(jù)等。
(2)科技項(xiàng)目和軟科學(xué)項(xiàng)目數(shù)據(jù)存儲(chǔ)在Access數(shù)據(jù)庫(kù),包括項(xiàng)目類別、年限、地區(qū)、來(lái)源、經(jīng)費(fèi)、承擔(dān)人、承擔(dān)單位等基本信息,以及項(xiàng)目鑒定時(shí)間、摘要、關(guān)鍵詞、研究成果等項(xiàng)目詳細(xì)信息。
(3)科技人才和科技機(jī)構(gòu)存儲(chǔ)為Excel文件,沒(méi)有形成數(shù)據(jù)庫(kù)。科技人才信息包括姓名、性別、年齡、學(xué)歷、工作單位、職稱、職務(wù)、研究方向等信息;科技機(jī)構(gòu)信息包括名稱、簡(jiǎn)介、地址、聯(lián)系人、類型等。
綜上所述,現(xiàn)有7類數(shù)據(jù)采用不同的數(shù)據(jù)源和數(shù)據(jù)結(jié)構(gòu),將其分散的異構(gòu)數(shù)據(jù)庫(kù)集中存儲(chǔ)到共享信息數(shù)據(jù)庫(kù)中,用戶可通過(guò)整合之后的吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)進(jìn)行全面了解科技類信息,實(shí)現(xiàn)統(tǒng)一檢索、聚類分析、分類導(dǎo)航等功能[12-13]。對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行封裝,對(duì)外提供統(tǒng)一的數(shù)據(jù)訪問(wèn)方式,同時(shí)對(duì)各種類型的數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)識(shí),實(shí)現(xiàn)信息統(tǒng)一和透明訪問(wèn)[14]。
3 吉林省區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)
3.1 系統(tǒng)功能設(shè)計(jì)
首先采用元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)對(duì)異構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)一描述和創(chuàng)建,其次系統(tǒng)提供統(tǒng)一跨庫(kù)檢索,可整合多個(gè)類型的資源并提供一站式檢索與服務(wù),實(shí)現(xiàn)檢索結(jié)果統(tǒng)一展現(xiàn)。向用戶提供統(tǒng)一的檢索接口,將用戶檢索要求轉(zhuǎn)化為不同的數(shù)據(jù)源檢索表達(dá)式,提供基于元數(shù)據(jù)倉(cāng)儲(chǔ)服務(wù)的集成功能,實(shí)現(xiàn)檢索結(jié)果整合[6]。系統(tǒng)主要功能需求如表1所示。
系統(tǒng)后臺(tái)功能模塊設(shè)計(jì)如圖2所示。
3.2 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)
不同類型和結(jié)構(gòu)的科技文獻(xiàn)元數(shù)據(jù)描述各不相同,但在使用、傳輸、共享過(guò)程中,可形成相對(duì)全面且固定的描述信息[15]。本文主要采用將DC元數(shù)據(jù)與區(qū)域創(chuàng)新數(shù)據(jù)實(shí)際需求相結(jié)合的數(shù)據(jù)結(jié)構(gòu)。系統(tǒng)主要DC元數(shù)據(jù)包括標(biāo)題、創(chuàng)建者、主題、出版者、發(fā)布日期、類型、格式、標(biāo)識(shí)符等,元數(shù)據(jù)規(guī)范如表2所示。
3.3 系統(tǒng)體系架構(gòu)
系統(tǒng)采用B/S模式結(jié)構(gòu),具體系統(tǒng)架構(gòu)如圖3所示。
對(duì)不同類型的數(shù)據(jù)源數(shù)據(jù)進(jìn)行采集、傳輸與交換,通過(guò)數(shù)據(jù)導(dǎo)入、自動(dòng)入庫(kù)、下載入庫(kù)和整理入庫(kù)等多種方式,將數(shù)據(jù)統(tǒng)一遷移和存儲(chǔ)到區(qū)域創(chuàng)新數(shù)據(jù)庫(kù)中,管理員在系統(tǒng)后臺(tái)進(jìn)行用戶管理與權(quán)限認(rèn)證。系統(tǒng)采用模塊化構(gòu)造,具有良好的開(kāi)放性和擴(kuò)展性,根據(jù)需求拓展需求不斷進(jìn)行調(diào)整組合,開(kāi)拓新功能[16]。
3.4 系統(tǒng)功能實(shí)現(xiàn)
該系統(tǒng)以促進(jìn)區(qū)域經(jīng)濟(jì)發(fā)展和科技創(chuàng)新的服務(wù)需求為目標(biāo),成為區(qū)域產(chǎn)業(yè)升級(jí)、戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展、政府管理部門科技咨詢和科技決策的載體[17]。以用戶為核心,以門戶網(wǎng)站為媒介,其服務(wù)功能如下:
(1)集成功能。根據(jù)自身優(yōu)勢(shì)將區(qū)域科技資訊、政策、項(xiàng)目、機(jī)構(gòu)、人才等分布散亂的資源進(jìn)行集成并優(yōu)化重組,確定科技資源存儲(chǔ)形式,以實(shí)現(xiàn)供需高效對(duì)接。
(2)整合功能。根據(jù)用戶創(chuàng)新數(shù)據(jù)需求將資源進(jìn)行有效整合、分割和重組,不同資源轉(zhuǎn)變?yōu)閷?shí)際服務(wù),包括科技文獻(xiàn)、專業(yè)技術(shù)、專家咨詢等服務(wù),增強(qiáng)中小企業(yè)創(chuàng)新實(shí)力,提高區(qū)域資源利用率[14]。
(3)共享功能。以用戶科技需求為前提,匯集、整合、存儲(chǔ)科技資源,通過(guò)共享為戰(zhàn)略性新興企業(yè)、中小企業(yè)、科研院所、高等院校等創(chuàng)新創(chuàng)業(yè)主體提供服務(wù)。如系統(tǒng)為需求方提供文獻(xiàn)資源和專家技術(shù)等,加快企業(yè)創(chuàng)新進(jìn)程,解決實(shí)質(zhì)性科技問(wèn)題,提高企業(yè)對(duì)當(dāng)下科技資源的利用率,降低企業(yè)創(chuàng)新成本[18-19]。
3.4.1 統(tǒng)一跨庫(kù)檢索
系統(tǒng)首頁(yè)為統(tǒng)一跨庫(kù)檢索入口,按標(biāo)題、關(guān)鍵詞、來(lái)源等字段在全部數(shù)據(jù)庫(kù)中進(jìn)行檢索:①全部數(shù)據(jù)庫(kù)按標(biāo)題、作者、來(lái)源字段進(jìn)行檢索;②資訊和政策數(shù)據(jù)庫(kù)按標(biāo)題、作者、簡(jiǎn)介(正文)字段進(jìn)行檢索;③統(tǒng)計(jì)數(shù)據(jù)庫(kù)按標(biāo)題、年份字段進(jìn)行檢索;④項(xiàng)目數(shù)據(jù)庫(kù)按項(xiàng)目名稱、項(xiàng)目簡(jiǎn)介、項(xiàng)目負(fù)責(zé)人、承擔(dān)單位、立項(xiàng)年字段進(jìn)行檢索;⑤機(jī)構(gòu)數(shù)據(jù)庫(kù)按機(jī)構(gòu)名稱、機(jī)構(gòu)簡(jiǎn)介、機(jī)構(gòu)類型字段進(jìn)行檢索;⑥人才數(shù)據(jù)庫(kù)按姓名、個(gè)人簡(jiǎn)介字段進(jìn)行檢索。
在首頁(yè)提供所有數(shù)據(jù)庫(kù)圖片和文字鏈接入口,點(diǎn)擊圖片進(jìn)入相應(yīng)單庫(kù)界面,在單庫(kù)中也可進(jìn)行高級(jí)檢索,選擇主要字段(全文、年份、標(biāo)題、作者、摘要等)進(jìn)行多條件組合檢索。
3.4.2 元數(shù)據(jù)管理
(1)元數(shù)據(jù)類型管理。其主要設(shè)置的系統(tǒng)元數(shù)據(jù)類型有多種,同時(shí)對(duì)每一種元數(shù)據(jù)類型進(jìn)行配置。
(2)元數(shù)據(jù)字段管理。其主要設(shè)置系統(tǒng)對(duì)每一類元數(shù)據(jù)類型的字段配置,包括所有元數(shù)據(jù)類型的字段,如標(biāo)題、主題、作者、來(lái)源、單位、年份、所屬行業(yè)等,同時(shí)針對(duì)每一個(gè)字段的中文名稱、要素、控件類型、數(shù)據(jù)類型、檢索名稱等進(jìn)行詳細(xì)配置。
3.4.3 索引創(chuàng)建
由于系統(tǒng)提供統(tǒng)一跨庫(kù)檢索功能,對(duì)于后臺(tái)首次新創(chuàng)建的文獻(xiàn)信息,需重新創(chuàng)建索引,便于前臺(tái)統(tǒng)一跨庫(kù)檢索的數(shù)據(jù)集是最新全集。
4 結(jié)語(yǔ)
本文結(jié)合異構(gòu)數(shù)據(jù)庫(kù)特點(diǎn),解決了7類異構(gòu)資源庫(kù)數(shù)據(jù)集成與共享問(wèn)題。平臺(tái)通過(guò)測(cè)試和實(shí)際使用,實(shí)現(xiàn)了數(shù)據(jù)共享功能,證明了該系統(tǒng)可靠性和穩(wěn)定性。本文對(duì)數(shù)據(jù)資源檢索特點(diǎn)及檢索需求進(jìn)行分析,采取構(gòu)建不同文獻(xiàn)資源類型的元數(shù)據(jù)整合方式,實(shí)現(xiàn)了整個(gè)平臺(tái)統(tǒng)一檢索,提供了可有效滿足用戶需求的檢索服務(wù)方式和功能。
通過(guò)前期基礎(chǔ)元數(shù)據(jù)倉(cāng)儲(chǔ)構(gòu)建與檢索平臺(tái)建設(shè),以海量文獻(xiàn)資源元數(shù)據(jù)倉(cāng)儲(chǔ)為基礎(chǔ),通過(guò)信息資源不斷積累,圍繞吉林省區(qū)域創(chuàng)新科技資源建設(shè),后續(xù)可按學(xué)科、服務(wù)對(duì)象對(duì)整合平臺(tái)進(jìn)行升級(jí)改造。下一步將引用知識(shí)庫(kù)概念,在文本內(nèi)容挖掘與價(jià)值發(fā)現(xiàn)方面,展現(xiàn)學(xué)科知識(shí)點(diǎn)關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)資源多維分類導(dǎo)航,圍繞各種類型最終用戶,打造更具個(gè)性化特色的科技資源服務(wù)平臺(tái);還可將基礎(chǔ)文獻(xiàn)資源統(tǒng)一檢索服務(wù)功能嵌入至各應(yīng)用系統(tǒng),充分利用統(tǒng)一檢索的作用,更好地為廣大用戶提供文獻(xiàn)資源服務(wù)。
參考文獻(xiàn):
[1] 張宏偉,許慧. 基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字存儲(chǔ)資源整合研究[J].圖書館學(xué)刊,2014,36(6):32-34.
[2] 徐愛(ài)萍,宋先明,徐武平. 分布式異構(gòu)數(shù)據(jù)庫(kù)集成系統(tǒng)研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與科學(xué),2015,37(10):1909-1916.
[3] 顧瑋. 異構(gòu)數(shù)據(jù)庫(kù)集成技術(shù)研究[J]. 辦公自動(dòng)化,2016(19):44-45.
[4] 李秉鍵. 基于XML的高校異構(gòu)數(shù)據(jù)交換平臺(tái)設(shè)計(jì)[J]. 軟件導(dǎo)刊,2014,13(2):100-102.
[5] 張洋. 云計(jì)算中異構(gòu)數(shù)據(jù)庫(kù)方案的研究與設(shè)計(jì)[J]. 電腦編程技巧與維護(hù),2017(12):63-65.
[6] 王宏起,程淑娥,李玥. 大數(shù)據(jù)環(huán)境下區(qū)域科技資源共享平臺(tái)云服務(wù)模式研究[J]. 情報(bào)理論與實(shí)踐,2017,30(3):42-47.
[7] 周瑩. 分布式異構(gòu)數(shù)據(jù)集成系統(tǒng)的研究與分析[J]. 數(shù)字技術(shù)與應(yīng)用,2018,36(7):220,222.
[8] 道仁·哈尼開(kāi). 基于XML的異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)的轉(zhuǎn)換[J]. 電子世界,2018(11):64,66.
[9] 柳原. 多源異構(gòu)數(shù)據(jù)整合系統(tǒng)在醫(yī)療大數(shù)據(jù)中的研究[J]. 電子制作,2019(14):64-65.
[10] 陳正思.? 基于TRS信息檢索技術(shù)的文獻(xiàn)資源統(tǒng)一檢索平臺(tái)的構(gòu)建[D]. 長(zhǎng)沙:中南大學(xué),2011.
[11] 黃鏑. 異構(gòu)數(shù)據(jù)庫(kù)的跨庫(kù)檢索技術(shù)綜述[J]. 圖書情報(bào)工作,2003。47(6):94-97, 109.
[12] 邵桐,朱明東. 基于元數(shù)據(jù)的數(shù)據(jù)交換系統(tǒng)研究[J]. 軟件導(dǎo)刊,2016,15(7):158-160.
[13] 王亮,蘇云. 基于Lucene的異構(gòu)數(shù)據(jù)庫(kù)全文檢索技術(shù)[J]. 指揮控制與仿真,2017,39(2):141-144,148.
[14] 陳鳳巖,唐振宇,步兆軍. 基于Java和XML的異構(gòu)數(shù)據(jù)庫(kù)集成研究[J]. 情報(bào)雜志,2006,25(7):16-17,21.
[15] 何卓桁,劉志勇,李璐,等. 異構(gòu)文本數(shù)據(jù)轉(zhuǎn)換中XML解析方法對(duì)比研究[J]. 計(jì)算機(jī)工程,2020,46(7):286-293,299.
[16] 趙瑜,李曉東,張新建. 基于元數(shù)據(jù)的分布式數(shù)據(jù)統(tǒng)一訪問(wèn)技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2019,10(4):33-37,60.
[17] 李璋琪.? 基于異構(gòu)數(shù)據(jù)庫(kù)的歷史數(shù)據(jù)中心建設(shè)[J]. 電子技術(shù)與軟件工程,2019(18):154-158.
[18] 肖剛. 異構(gòu)數(shù)據(jù)庫(kù)更新同步研究與實(shí)現(xiàn)[J]. 軟件導(dǎo)刊,2019,18(10):182-185.
[19] 劉順利,李銀生,吳峰,等. 我國(guó)科技報(bào)告建設(shè)面臨的發(fā)展瓶頸及其對(duì)策建議[J]. 科技管理研究,2019,39(12):252-256.
(責(zé)任編輯:江 艷)