彭秀媛 ,王 楓 ,周?chē)?guó)民
(1.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京100081;2.遼寧省農(nóng)業(yè)科學(xué)院信息所,遼寧沈陽(yáng),110161;3.中共遼寧省委黨校信息中心,遼寧沈陽(yáng)110004)
農(nóng)業(yè)科學(xué)數(shù)據(jù)既是一種特殊形式的科研成果,也是最為活躍、最為基礎(chǔ)的科研要素,推動(dòng)著農(nóng)業(yè)科研工作不斷向深度和廣度發(fā)展。目前我國(guó)在農(nóng)業(yè)科學(xué)數(shù)據(jù)資源管理方面開(kāi)展了大量工作,取得了一定的成績(jī),但仍未實(shí)現(xiàn)有效共享和重用(即再次利用),數(shù)據(jù)重用形式主要為數(shù)據(jù)檢索和查詢(xún),少見(jiàn)對(duì)農(nóng)業(yè)共享數(shù)據(jù)再分析等數(shù)據(jù)重用及其支撐相關(guān)研究,同時(shí)缺少面向問(wèn)題的、系統(tǒng)的技術(shù)解決方案。因此基于農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn),針對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)共享過(guò)程中存在的技術(shù)問(wèn)題,開(kāi)展農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)研究具有重要意義。
該研究對(duì)象為農(nóng)業(yè)科學(xué)數(shù)據(jù),對(duì)其內(nèi)涵與特點(diǎn)進(jìn)行分析是該研究開(kāi)展的前提和基礎(chǔ)。
以政府?dāng)?shù)據(jù)為參照對(duì)象,從數(shù)據(jù)產(chǎn)生途徑、數(shù)據(jù)內(nèi)容、數(shù)據(jù)來(lái)源及特點(diǎn)方面對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)與政府?dāng)?shù)據(jù)進(jìn)行了比較分析(表1),探索農(nóng)業(yè)科學(xué)數(shù)據(jù)內(nèi)涵。
采用文獻(xiàn)調(diào)研、問(wèn)卷調(diào)查等方法開(kāi)展研究,總結(jié)分析了農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn)、數(shù)據(jù)共享特點(diǎn)和數(shù)據(jù)重用特點(diǎn)[1](表2)。
表1 農(nóng)業(yè)科學(xué)數(shù)據(jù)與政府?dāng)?shù)據(jù)區(qū)別
表2 農(nóng)業(yè)科學(xué)數(shù)據(jù)相關(guān)特點(diǎn)
以支撐農(nóng)業(yè)科學(xué)數(shù)據(jù)重用為目的,對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)分類(lèi)進(jìn)行研究,將農(nóng)業(yè)科學(xué)數(shù)據(jù)分為以下四類(lèi)[2]:①間證數(shù)據(jù),指支撐科技論文的科學(xué)數(shù)據(jù),也是形成論文結(jié)論和驗(yàn)證論文結(jié)果的必要數(shù)據(jù)[3]。其主要作用是作為同行評(píng)審的參考依據(jù),以及論文發(fā)表后的研究再現(xiàn),目前主要有論文附件、論文補(bǔ)充數(shù)據(jù)和數(shù)據(jù)論文3種形式。②基準(zhǔn)數(shù)據(jù),指農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)、農(nóng)業(yè)常用參數(shù)和現(xiàn)代農(nóng)業(yè)基準(zhǔn)數(shù)據(jù)等[4]。③一次數(shù)據(jù),指科研活動(dòng)中直接產(chǎn)生的觀察、調(diào)查、監(jiān)測(cè)、檢測(cè)和實(shí)驗(yàn)科學(xué)數(shù)據(jù)。④二次數(shù)據(jù),指按照需求系統(tǒng)加工、整理和分析獲得的科學(xué)數(shù)據(jù)產(chǎn)品和相關(guān)信息。
從技術(shù)角度來(lái)看,農(nóng)業(yè)科學(xué)數(shù)據(jù)共享主要存在以下問(wèn)題。
2.1.1 科學(xué)數(shù)據(jù)增強(qiáng)問(wèn)題??茖W(xué)數(shù)據(jù)增強(qiáng)是指將原來(lái)缺少上下文背景信息的農(nóng)業(yè)科學(xué)數(shù)據(jù)進(jìn)行整體或局部的信息豐富和標(biāo)準(zhǔn)化,加強(qiáng)科學(xué)數(shù)據(jù)的判讀和識(shí)別效果,增強(qiáng)對(duì)科學(xué)數(shù)據(jù)對(duì)象的整體理解,以滿(mǎn)足科學(xué)數(shù)據(jù)共享和重用的需要?,F(xiàn)有大量農(nóng)業(yè)科學(xué)數(shù)據(jù)沒(méi)有進(jìn)行增強(qiáng),存在數(shù)據(jù)可理解性、數(shù)據(jù)不匹配、數(shù)據(jù)語(yǔ)義一致和數(shù)據(jù)可發(fā)現(xiàn)障礙,因此不能進(jìn)行共享,更不能進(jìn)行重用。
2.1.2 科學(xué)數(shù)據(jù)互操作問(wèn)題??茖W(xué)數(shù)據(jù)互操作是2個(gè)或多個(gè)學(xué)科系統(tǒng)之間交換數(shù)據(jù)集信息并且使用所交換數(shù)據(jù)集的能力[5]。存在數(shù)據(jù)表示、數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)查詢(xún)障礙,進(jìn)一步阻礙了農(nóng)業(yè)科學(xué)數(shù)據(jù)的共享與重用。
為了更好的共享和重用農(nóng)業(yè)科學(xué)數(shù)據(jù),保證數(shù)據(jù)共享和重用效果,基于農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn),以及數(shù)據(jù)共享存在的問(wèn)題,提出了農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)。包括科學(xué)數(shù)據(jù)增強(qiáng)、科學(xué)數(shù)據(jù)互操作和科學(xué)數(shù)據(jù)重用效果評(píng)估技術(shù)(圖1)。其中科學(xué)數(shù)據(jù)增強(qiáng)是基礎(chǔ),科學(xué)數(shù)據(jù)互操作是手段,科學(xué)數(shù)據(jù)重用是目的。通過(guò)科學(xué)數(shù)據(jù)重用效果的評(píng)估結(jié)果體現(xiàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)互操作技術(shù)的實(shí)施效果,通過(guò)調(diào)整數(shù)據(jù)增強(qiáng)和數(shù)據(jù)互操作的技術(shù)方案能夠更好地提升數(shù)據(jù)重用效果,進(jìn)而形成了一個(gè)良性循環(huán)的技術(shù)系統(tǒng)。上述技術(shù)集合而成的農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)能夠較好地解決農(nóng)業(yè)科學(xué)數(shù)據(jù)共享過(guò)程中存在的技術(shù)問(wèn)題。
圖1 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)模型
農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)的運(yùn)行原理:首先對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)實(shí)施數(shù)據(jù)增強(qiáng)技術(shù)方案,進(jìn)行數(shù)據(jù)增強(qiáng),之后對(duì)大量分布于科研人員手中的一次數(shù)據(jù)和二次數(shù)據(jù)實(shí)施數(shù)據(jù)互操作技術(shù)方案,支撐數(shù)據(jù)交互,從而形成數(shù)據(jù)共享環(huán)境,進(jìn)而支撐數(shù)據(jù)重用。
2.3.1 明確科學(xué)數(shù)據(jù)增強(qiáng)的“數(shù)據(jù)項(xiàng)—數(shù)據(jù)元—元數(shù)據(jù)—本體”四級(jí)技術(shù)結(jié)構(gòu)(圖2),區(qū)分農(nóng)業(yè)科學(xué)數(shù)據(jù)的數(shù)據(jù)元素和數(shù)據(jù)項(xiàng),并在數(shù)據(jù)外圍增加元數(shù)據(jù)和本體信息,對(duì)數(shù)據(jù)進(jìn)行逐級(jí)標(biāo)準(zhǔn)化,自下而上逐漸增強(qiáng)數(shù)據(jù)的可理解能力,各層共同支撐農(nóng)業(yè)科學(xué)數(shù)據(jù)的共享和重用。其中,數(shù)據(jù)元素是對(duì)科學(xué)數(shù)據(jù)內(nèi)部組織結(jié)構(gòu)的描述、定義和規(guī)范,元數(shù)據(jù)是描述科學(xué)數(shù)據(jù)的外在特征,本體是描述科學(xué)數(shù)據(jù)的內(nèi)容特征。
圖2 科學(xué)數(shù)據(jù)增強(qiáng)技術(shù)結(jié)構(gòu)
2.3.2 制定科學(xué)數(shù)據(jù)增強(qiáng)的技術(shù)方案(圖3)。隨著相關(guān)技術(shù)的發(fā)展和需求的變化,數(shù)據(jù)增強(qiáng)的技術(shù)結(jié)構(gòu)也將不斷發(fā)展演變。
圖3 農(nóng)業(yè)科學(xué)數(shù)據(jù)增強(qiáng)技術(shù)方案
2.3.3 農(nóng)業(yè)科學(xué)數(shù)據(jù)數(shù)據(jù)元標(biāo)準(zhǔn)制定。制定科學(xué)數(shù)據(jù)實(shí)體的數(shù)據(jù)元素和數(shù)據(jù)項(xiàng)的屬性;基于面向數(shù)據(jù)重用的科研活動(dòng)來(lái)構(gòu)建數(shù)據(jù)元標(biāo)準(zhǔn),一方面指導(dǎo)農(nóng)業(yè)科學(xué)數(shù)據(jù)收集工作,另一方面從數(shù)據(jù)重用角度規(guī)范數(shù)據(jù)收集內(nèi)容。
2.3.4 農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)制定。在元數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容和元數(shù)據(jù)標(biāo)準(zhǔn)支撐的應(yīng)用方面,對(duì)比分析了生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)[6]、農(nóng)業(yè)科學(xué)數(shù)據(jù)共享元數(shù)據(jù)標(biāo)準(zhǔn)[7]、農(nóng)業(yè)科技信息核心元數(shù)據(jù)標(biāo)準(zhǔn)[8],確定以生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)作為農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的主要內(nèi)容,并在應(yīng)用過(guò)程中,依據(jù)制定的元數(shù)據(jù)標(biāo)準(zhǔn)擴(kuò)展機(jī)制適度修正標(biāo)準(zhǔn),從而形成農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)。確定核心元數(shù)據(jù)標(biāo)準(zhǔn)。在元數(shù)據(jù)標(biāo)準(zhǔn)基礎(chǔ)上,遵循擴(kuò)展機(jī)制,提出需制定的農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)應(yīng)用方案框架結(jié)構(gòu),確定元數(shù)據(jù)應(yīng)用方案構(gòu)建流程。
2.3.5 農(nóng)業(yè)科學(xué)數(shù)據(jù)本體構(gòu)建。采用基于敘詞表的領(lǐng)域本體構(gòu)建方法構(gòu)建農(nóng)業(yè)科學(xué)數(shù)據(jù)本體。對(duì)上述元數(shù)據(jù)應(yīng)用方案采用本體描述語(yǔ)言分別進(jìn)行本體化描述,采用RDF格式進(jìn)行表達(dá),逐一構(gòu)建元數(shù)據(jù)應(yīng)用方案本體,并在不同元數(shù)據(jù)應(yīng)用方案本體之間建立映射關(guān)系,構(gòu)建元數(shù)據(jù)本體。
目前涉農(nóng)研究的機(jī)構(gòu)和個(gè)人之間沒(méi)有形成明確、統(tǒng)一的科學(xué)數(shù)據(jù)互操作結(jié)構(gòu)體系,阻礙了科學(xué)數(shù)據(jù)互操作[9]。因此該研究從技術(shù)角度,提出了農(nóng)業(yè)科學(xué)數(shù)據(jù)互操作技術(shù)方案,由低到高涵蓋技術(shù)、語(yǔ)義、組織、法律互操作(圖4)。
圖4 農(nóng)業(yè)科學(xué)數(shù)據(jù)互操作技術(shù)方案
2.4.1 技術(shù)互操作。技術(shù)互操作是數(shù)據(jù)互操作有效開(kāi)展的必要條件,目的是實(shí)現(xiàn)科學(xué)數(shù)據(jù)的有效交換和利用。技術(shù)互操作形式包括結(jié)構(gòu)化互操作和非結(jié)構(gòu)化互操作兩類(lèi)。結(jié)構(gòu)化互操作對(duì)象為結(jié)構(gòu)化科學(xué)數(shù)據(jù),主要指科學(xué)數(shù)據(jù)庫(kù),采用Web服務(wù)、Web API接口等開(kāi)放標(biāo)準(zhǔn)協(xié)議,對(duì)數(shù)據(jù)格式、軟件接口、通信協(xié)議、互操作的方法和工具等進(jìn)行結(jié)構(gòu)化統(tǒng)一,實(shí)現(xiàn)科學(xué)數(shù)據(jù)的技術(shù)互操作。針對(duì)數(shù)據(jù)文件等非結(jié)構(gòu)化科學(xué)數(shù)據(jù)互操作,應(yīng)對(duì)文檔、圖片、音頻、視頻等數(shù)據(jù)設(shè)定常用的文件格式,采用FTP、WebDAV等普通Web數(shù)據(jù)共享方法,基于數(shù)據(jù)集的松散耦合簡(jiǎn)單服務(wù)和內(nèi)容訪問(wèn)權(quán)限管理實(shí)現(xiàn)科學(xué)數(shù)據(jù)互操作,不對(duì)其進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化,適用于針對(duì)特定問(wèn)題、特定應(yīng)用頻率和目標(biāo)多變的技術(shù)方案,以支持農(nóng)業(yè)科學(xué)數(shù)據(jù)重用多樣性。與結(jié)構(gòu)化數(shù)據(jù)不同,非結(jié)構(gòu)化數(shù)據(jù)不能直接進(jìn)行比較、聚合等操作,因此需根據(jù)不同格式的科學(xué)數(shù)據(jù)規(guī)定明確的結(jié)構(gòu)化信息提取流程,進(jìn)一步支撐科學(xué)數(shù)據(jù)分析等重用[10-12]。
2.4.2 語(yǔ)義互操作。語(yǔ)義互操作主要解決科學(xué)數(shù)據(jù)整合和一致性問(wèn)題,以支持合作與協(xié)作。農(nóng)業(yè)科學(xué)數(shù)據(jù)語(yǔ)義互操作,在元數(shù)據(jù)互操作方面,采用基于核心元數(shù)據(jù)的互操作方法,實(shí)現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)體系內(nèi)互操作;采用元數(shù)據(jù)靜態(tài)映射方法實(shí)現(xiàn)不同元數(shù)據(jù)標(biāo)準(zhǔn)間互操作[13]。在本體互操作方面,采用本體映射方法來(lái)確定科學(xué)數(shù)據(jù)本體間對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)科學(xué)數(shù)據(jù)本體互操作;采用關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)本體化的元數(shù)據(jù)進(jìn)行再組織,并基于關(guān)聯(lián)數(shù)據(jù)原則在網(wǎng)絡(luò)上進(jìn)行發(fā)布,構(gòu)建農(nóng)業(yè)科學(xué)數(shù)據(jù)關(guān)聯(lián)元數(shù)據(jù)本體,將富含語(yǔ)義關(guān)系的農(nóng)業(yè)科學(xué)數(shù)據(jù)元、數(shù)據(jù)本體與關(guān)聯(lián)數(shù)據(jù)有機(jī)結(jié)合。
2.4.3 組織互操作?,F(xiàn)有研究更多關(guān)注數(shù)據(jù)交互層面的互操作研究,而對(duì)于體系架構(gòu)層面的頂層設(shè)計(jì)研究不足。但底層支撐技術(shù)的改進(jìn)無(wú)法彌補(bǔ)頂層設(shè)計(jì)的不足。因此農(nóng)業(yè)科學(xué)數(shù)據(jù)的互操作須關(guān)注組織層面的設(shè)計(jì),涉及組織策略、協(xié)作目標(biāo)、組織架構(gòu)、業(yè)務(wù)流程等,從組織層面分析互操作性問(wèn)題,確定組織間的協(xié)作業(yè)務(wù)流程,指導(dǎo)協(xié)作關(guān)系的建立與維護(hù),使組織間具有協(xié)作交換數(shù)據(jù)的能力。
2.4.4 法律互操作。法律互操作性確保在不同法律框架下的組織、政策和戰(zhàn)略協(xié)同工作。農(nóng)業(yè)科學(xué)數(shù)據(jù)法律互操作需考慮組織間交換數(shù)據(jù)時(shí),通過(guò)明確協(xié)議消除實(shí)施中存在的法律差異;向公眾提供服務(wù)時(shí),通過(guò)明確協(xié)議解決法律層面的數(shù)據(jù)安全和數(shù)據(jù)保護(hù)等問(wèn)題[14]。
借鑒已有研究提出的重要的數(shù)據(jù)質(zhì)量維度,及其在評(píng)估和選擇重用數(shù)據(jù)方面的作用,采用經(jīng)驗(yàn)法,提出了農(nóng)業(yè)科學(xué)數(shù)據(jù)重用效果評(píng)估框架(圖5)??蚣芸赏ㄟ^(guò)數(shù)據(jù)增強(qiáng)關(guān)鍵技術(shù)和數(shù)據(jù)互操作關(guān)鍵技術(shù)進(jìn)行體現(xiàn)和支撐。其中數(shù)據(jù)可理解性、數(shù)據(jù)相關(guān)性、數(shù)據(jù)語(yǔ)義一致性、數(shù)據(jù)完整性、數(shù)據(jù)可信性、數(shù)據(jù)可發(fā)現(xiàn)性對(duì)應(yīng)于數(shù)據(jù)增強(qiáng)關(guān)鍵技術(shù),數(shù)據(jù)可發(fā)現(xiàn)性、數(shù)據(jù)可訪問(wèn)性、數(shù)據(jù)易用性對(duì)應(yīng)于數(shù)據(jù)互操作關(guān)鍵技術(shù)。該框架一方面可以通過(guò)數(shù)據(jù)重用效果評(píng)估檢驗(yàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)互操作技術(shù)方案的實(shí)施效果,另一方面可以通過(guò)升級(jí)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)互操作技術(shù)方案,作用于數(shù)據(jù)質(zhì)量維度,提高數(shù)據(jù)重用效果。
圖5 農(nóng)業(yè)科學(xué)數(shù)據(jù)重用效果評(píng)估框架
該研究以農(nóng)業(yè)科學(xué)數(shù)據(jù)為對(duì)象,綜合應(yīng)用元數(shù)據(jù)、本體、語(yǔ)義網(wǎng)、互操作、關(guān)聯(lián)數(shù)據(jù)等技術(shù),采用文獻(xiàn)調(diào)研法、案例研究法、系統(tǒng)分析法等方法,開(kāi)展了農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng)研究工作。提出了“三位一體”的農(nóng)業(yè)科學(xué)數(shù)據(jù)共享技術(shù)系統(tǒng),有機(jī)結(jié)合數(shù)據(jù)增強(qiáng)、數(shù)據(jù)互操作、數(shù)據(jù)重用效果評(píng)估三部分內(nèi)容,制定了數(shù)據(jù)增強(qiáng)和數(shù)據(jù)互操作關(guān)鍵技術(shù)方案,初步解決了農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中存在的技術(shù)問(wèn)題;提出了數(shù)據(jù)重用效果評(píng)估框架,對(duì)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)互操作技術(shù)效果進(jìn)行評(píng)估,建立了數(shù)據(jù)共享與數(shù)據(jù)重用的良性循環(huán)。上述研究為農(nóng)業(yè)科學(xué)數(shù)據(jù)共享與重用實(shí)踐奠定了基礎(chǔ),也為相關(guān)研究提供了可參考的實(shí)例。