摘 要:文章提出了一種跨域場(chǎng)景下的科研試驗(yàn)數(shù)據(jù)在線歸檔方法,從數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)管理和數(shù)據(jù)安全四個(gè)方面優(yōu)化歸檔流程,在克服傳統(tǒng)方法弊端的同時(shí),顯著提升了科研試驗(yàn)數(shù)據(jù)的歸檔質(zhì)量和歸檔效率。此外,在“工控網(wǎng)-辦公網(wǎng)”典型跨域入庫(kù)場(chǎng)景下的方法實(shí)踐驗(yàn)證了研究所提出方法的高效性,為跨域場(chǎng)景下的科研試驗(yàn)數(shù)據(jù)歸檔提供了良好參考案例。
關(guān)鍵詞:試驗(yàn)數(shù)據(jù); 跨域場(chǎng)景;數(shù)據(jù)歸檔
分類(lèi)號(hào):G270
Research on Cross-domain Archiving of Scientific Research Experimental Data
Fang Guo, Li qianyu, Yang Jing, Huang Ke
( Nuclear Power Institute of China, Chengdu, Sichuan 610213 )
Abstract: This study proposes an online archiving method for scientific research experimental data in a cross-domain scenario, which optimizes the archiving process from four aspects: data processing, data transmission, data management, and data security. While overcoming the drawbacks of traditional methods, it significantly improves the quality and efficiency of scientific research experimental data archiving. The practical application of the method proposed in this study in typical crossdomain storage scenarios from industrial control network to office network has also verified the efficiency of the method, providing a good reference case for archiving scientific research experimental data in cross-domain scenarios.
Keywords: Experimental Data; Cross-domain Scenario; Data Archiving
科研試驗(yàn)數(shù)據(jù)(以下簡(jiǎn)稱(chēng)“試驗(yàn)數(shù)據(jù)”)歸檔是將試驗(yàn)數(shù)據(jù)完整保存到存儲(chǔ)介質(zhì),并進(jìn)行長(zhǎng)期管理的過(guò)程,是試驗(yàn)數(shù)據(jù)全生命周期管理中的必要環(huán)節(jié)。[1]跨域歸檔是在歸檔過(guò)程中將試驗(yàn)數(shù)據(jù)從產(chǎn)生域傳輸?shù)綒w檔域的場(chǎng)景。隨著試驗(yàn)數(shù)據(jù)規(guī)模和多樣性的日益增長(zhǎng),傳統(tǒng)線下數(shù)據(jù)歸檔方法逐漸無(wú)法滿(mǎn)足跨域場(chǎng)景下的數(shù)據(jù)歸檔需求,暴露出數(shù)據(jù)歸檔效率低、歸檔數(shù)據(jù)質(zhì)量差、可用性差、安全性差等問(wèn)題,成為試驗(yàn)數(shù)據(jù)全生命周期中制約數(shù)據(jù)應(yīng)用、限制數(shù)據(jù)價(jià)值有效釋放的主要瓶頸。[2-4]隨著信息化技術(shù)普及以及數(shù)據(jù)治理技術(shù)的發(fā)展,以數(shù)據(jù)治理技術(shù)為核心的在線歸檔方式逐漸興起[5],其通過(guò)數(shù)據(jù)在線傳輸技術(shù)保障試驗(yàn)數(shù)據(jù)的歸檔效率,通過(guò)數(shù)據(jù)規(guī)范化技術(shù)保障歸檔試驗(yàn)數(shù)據(jù)質(zhì)量,通過(guò)數(shù)據(jù)庫(kù)管理技術(shù)保障歸檔試驗(yàn)數(shù)據(jù)的可獲取性和可用性,通過(guò)數(shù)據(jù)安全加密技術(shù)保障歸檔數(shù)據(jù)安全,在有效解決傳統(tǒng)線下歸檔弊端的同時(shí),極大促進(jìn)了歸檔試驗(yàn)數(shù)據(jù)的價(jià)值釋放,成為目前主流的數(shù)據(jù)歸檔方法。[6-8]
為此,本研究詳細(xì)分析了傳統(tǒng)線下歸檔方法存在的問(wèn)題,并以數(shù)據(jù)治理思想和在線歸檔技術(shù)為指導(dǎo),提出了一套試驗(yàn)數(shù)據(jù)跨域在線歸檔方法,以顯著提升跨域場(chǎng)景下的科研試驗(yàn)數(shù)據(jù)歸檔效率和質(zhì)量,保障數(shù)據(jù)可用性和數(shù)據(jù)安全。在典型跨域歸檔場(chǎng)景下的實(shí)踐驗(yàn)證了本研究所提出方法的高效性。
1 傳統(tǒng)歸檔方法問(wèn)題分析
線下數(shù)據(jù)歸檔是傳統(tǒng)的數(shù)據(jù)歸檔方法(模式),特點(diǎn)是數(shù)據(jù)的存儲(chǔ)和傳輸依賴(lài)移動(dòng)存儲(chǔ)介質(zhì),其主要流程見(jiàn)圖1:首先將存儲(chǔ)在試驗(yàn)現(xiàn)場(chǎng)的試驗(yàn)數(shù)據(jù)拷貝到移動(dòng)存儲(chǔ)介質(zhì)中(光盤(pán)、U盤(pán)、移動(dòng)硬盤(pán)等),然后由專(zhuān)人將介質(zhì)攜帶至數(shù)據(jù)歸檔域,最后在歸檔域完成試驗(yàn)數(shù)據(jù)存儲(chǔ)和線下歸檔,當(dāng)數(shù)據(jù)需求方需要使用數(shù)據(jù)時(shí),再通過(guò)實(shí)體介質(zhì)傳輸?shù)姆绞綄?shù)據(jù)提供給需求方。為了系統(tǒng)分析線下數(shù)據(jù)歸檔的弊端,本研究以數(shù)據(jù)治理技術(shù)為指導(dǎo),從數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)管理和安全控制四個(gè)方面對(duì)線下歸檔的數(shù)據(jù)質(zhì)量、歸檔效率、數(shù)據(jù)可用性和數(shù)據(jù)安全進(jìn)行評(píng)估,并對(duì)存在的問(wèn)題進(jìn)行總結(jié)。
1.1 數(shù)據(jù)處理:數(shù)據(jù)格式不規(guī)范,內(nèi)容不完整
數(shù)據(jù)格式方面,本研究收集了線下歸檔方法所得到的存儲(chǔ)試驗(yàn)數(shù)據(jù)共5TB,統(tǒng)計(jì)其中數(shù)據(jù)占比大于3%的文件格式,見(jiàn)表1。
其中,二進(jìn)制文件格式的解析方式與其編碼方式有關(guān),包括存儲(chǔ)編碼(大端、小端)、字符編碼(ASCII、utf-8、unicode等)、二進(jìn)制數(shù)據(jù)編碼(hex、base32、base64)等,只有采用與編碼方式對(duì)應(yīng)的解碼方法,才能正確解析文件。而線下歸檔僅記錄文件后綴名,缺乏對(duì)數(shù)據(jù)文件編碼和解析方式的描述,這導(dǎo)致數(shù)據(jù)在存入數(shù)據(jù)庫(kù)時(shí)無(wú)法對(duì)數(shù)據(jù)內(nèi)容進(jìn)行有效地解析和檢查,難以確保歸檔數(shù)據(jù)內(nèi)容和組織結(jié)構(gòu)的完整性,無(wú)法保障數(shù)據(jù)可用性。此外,線下歸檔對(duì)數(shù)據(jù)文件的命名也非?;靵y,容易出現(xiàn)不同試驗(yàn)的數(shù)據(jù)文件混淆的情況。因此,線下歸檔無(wú)法確保數(shù)據(jù)文件的格式規(guī)范性。
數(shù)據(jù)內(nèi)容方面,試驗(yàn)數(shù)據(jù)由數(shù)值信息、元數(shù)據(jù)信息以及數(shù)據(jù)背景信息等組成,其中試驗(yàn)工況、測(cè)量對(duì)象、測(cè)點(diǎn)信息、計(jì)量器具等數(shù)據(jù)背景信息以及元數(shù)據(jù)信息是確保試驗(yàn)過(guò)程可還原,以及數(shù)據(jù)能得到正確分析的關(guān)鍵。在線下歸檔中,數(shù)據(jù)背景信息的記錄方式缺乏信息核對(duì),且在離開(kāi)產(chǎn)生域后便難以再補(bǔ)充修正,這導(dǎo)致數(shù)據(jù)背景信息的準(zhǔn)確性、完整性和規(guī)范性都無(wú)法保障,直接影響試驗(yàn)數(shù)據(jù)的可用性以及數(shù)據(jù)分析和挖掘的結(jié)論準(zhǔn)確性,嚴(yán)重時(shí)可導(dǎo)致試驗(yàn)數(shù)據(jù)完全不可用。因此,線下歸檔也無(wú)法保障數(shù)據(jù)文件的內(nèi)容規(guī)范性。
1.2 數(shù)據(jù)傳輸:數(shù)據(jù)傳輸速度慢
線下歸檔方法具有極慢的試驗(yàn)數(shù)據(jù)跨域、跨介質(zhì)以及跨節(jié)點(diǎn)傳輸速度:一方面,移動(dòng)存儲(chǔ)介質(zhì)容量有限導(dǎo)致大規(guī)模試驗(yàn)數(shù)據(jù)往往需要多次轉(zhuǎn)移;另一方面,跨區(qū)域轉(zhuǎn)移存儲(chǔ)介質(zhì)受交通情況、載具、路程等各種因素的影響,所消耗的時(shí)間往往很難控制??缃橘|(zhì)傳輸速度則受介質(zhì)性能、硬盤(pán)性能以及傳輸協(xié)議類(lèi)型的影響,由于產(chǎn)生域通常不具備高性能硬盤(pán),其跨介質(zhì)傳輸速度較慢。跨節(jié)點(diǎn)傳輸速度則受網(wǎng)絡(luò)帶寬、數(shù)據(jù)庫(kù)服務(wù)器承載力以及節(jié)點(diǎn)硬盤(pán)性能的影響,通常速度也較慢。因此,線下歸檔無(wú)法保障數(shù)據(jù)跨域傳輸效率,即無(wú)法保障數(shù)據(jù)歸檔效率。
1.3 數(shù)據(jù)管理:數(shù)據(jù)獲取困難
在線下歸檔模式中,試驗(yàn)數(shù)據(jù)的存儲(chǔ)、查詢(xún)和提取方式較為落后,導(dǎo)致試驗(yàn)數(shù)據(jù)獲取困難:數(shù)據(jù)存儲(chǔ)方面,歸檔后的試驗(yàn)數(shù)據(jù)通常以實(shí)體介質(zhì)(光盤(pán)、紙質(zhì)文件等)形式存儲(chǔ)在檔案庫(kù)房中,獲取時(shí)需要由專(zhuān)人從庫(kù)房調(diào)檔,人力成本和時(shí)間成本較高;數(shù)據(jù)查詢(xún)方面,用戶(hù)在獲取試驗(yàn)數(shù)據(jù)前往往只能通過(guò)計(jì)算機(jī)來(lái)查詢(xún)數(shù)據(jù)所屬實(shí)驗(yàn)的名稱(chēng)、時(shí)間等基本信息,而無(wú)法對(duì)數(shù)據(jù)本身進(jìn)行查詢(xún),這導(dǎo)致用戶(hù)獲取到的試驗(yàn)數(shù)據(jù)可能不準(zhǔn)確;在提取方式上,由于采用實(shí)體存儲(chǔ)方式,不同類(lèi)型檔案的存儲(chǔ)位置并不相同,需要預(yù)先建立檔案位置索引,然后根據(jù)位置索引來(lái)查詢(xún)數(shù)據(jù)檔案的實(shí)體位置,最后根據(jù)實(shí)體位置來(lái)獲取所需數(shù)據(jù)檔案,這進(jìn)一步增加了數(shù)據(jù)獲取的時(shí)間成本。因此,線下歸檔不能保障歸檔試驗(yàn)數(shù)據(jù)的易獲取性,限制了歸檔試驗(yàn)數(shù)據(jù)的高效利用和價(jià)值釋放。
1.4 數(shù)據(jù)安全:數(shù)據(jù)安全不可控
在線下歸檔中,試驗(yàn)數(shù)據(jù)的存儲(chǔ)、使用和共享方式依賴(lài)于實(shí)體介質(zhì)的線下傳遞,數(shù)據(jù)一旦移交給需求方,便再也無(wú)法控制數(shù)據(jù)的傳播和使用范圍,這導(dǎo)致數(shù)據(jù)安全不可控,容易出現(xiàn)數(shù)據(jù)濫用和數(shù)據(jù)泄露。因此,線下歸檔無(wú)法保障數(shù)據(jù)安全。
通過(guò)上述分析可知:缺乏有效的數(shù)據(jù)處理和數(shù)據(jù)安全控制手段,是傳統(tǒng)歸檔方法存在數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全問(wèn)題的主要原因,而依賴(lài)于實(shí)體介質(zhì)的線下數(shù)據(jù)傳輸、存儲(chǔ)和獲取,則是傳統(tǒng)方法無(wú)法保障數(shù)據(jù)歸檔效率和數(shù)據(jù)可用性的主要原因。因此,在使用高效的數(shù)據(jù)處理和數(shù)據(jù)安全控制的同時(shí),采用更加高效的數(shù)據(jù)傳輸、存儲(chǔ)和獲取方式,是解決上述問(wèn)題的主要對(duì)策思路。
2 跨域在線歸檔方法介紹
綜合上述問(wèn)題分析,以在線歸檔和數(shù)據(jù)治理技術(shù)為參考,本研究提出了一套跨域試驗(yàn)數(shù)據(jù)在線歸檔方法,由數(shù)據(jù)標(biāo)準(zhǔn)化處理、數(shù)據(jù)在線傳輸、數(shù)據(jù)在線管理、數(shù)據(jù)訪問(wèn)控制四個(gè)部分組成,見(jiàn)表2。下面詳細(xì)介紹每種方法的措施和要求。
2.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理
數(shù)據(jù)標(biāo)準(zhǔn)化是數(shù)據(jù)治理中的一個(gè)重要步驟[9-10],是指對(duì)試驗(yàn)數(shù)據(jù)的文件格式和數(shù)據(jù)內(nèi)容進(jìn)行統(tǒng)計(jì),以確保試驗(yàn)數(shù)據(jù)的一致性和規(guī)范性,保障數(shù)據(jù)質(zhì)量和可用性,使其能更好地服務(wù)于各類(lèi)數(shù)據(jù)應(yīng)用。數(shù)據(jù)標(biāo)準(zhǔn)化處理包括數(shù)據(jù)格式標(biāo)準(zhǔn)化和數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)化。[11-12]
數(shù)據(jù)格式標(biāo)準(zhǔn)化是指對(duì)試驗(yàn)數(shù)據(jù)的文件格式、編碼方式、命名方式進(jìn)行處理轉(zhuǎn)換,確保試驗(yàn)數(shù)據(jù)采用統(tǒng)一的文件命名方式、編解碼方式和存儲(chǔ)格式。試驗(yàn)數(shù)據(jù)和數(shù)據(jù)背景信息可采用不同的標(biāo)準(zhǔn)化格式,如在文件格式方面,數(shù)據(jù)文件可選擇表格格式作為標(biāo)準(zhǔn)格式(xls,xlsx,csv等),而數(shù)據(jù)背景信息則可選擇文本文件格式(txt)或鍵值對(duì)格式(json)。
不管是試驗(yàn)數(shù)據(jù)本身,還是數(shù)據(jù)背景信息,都可以抽象為“參數(shù)名:參數(shù)值”的形式,數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)化即是對(duì)參數(shù)名和參數(shù)值的標(biāo)準(zhǔn)化。參數(shù)名方面,首先確保所有參數(shù)名均為標(biāo)準(zhǔn)參數(shù)名,這樣可以在數(shù)據(jù)分析時(shí)自動(dòng)匹配參數(shù)名,降低因參數(shù)名對(duì)齊問(wèn)題帶來(lái)的額外時(shí)間開(kāi)銷(xiāo),然后需要確保數(shù)據(jù)包含了必要參數(shù)信息,以確保數(shù)據(jù)內(nèi)容完整性;參數(shù)值方面,需要將數(shù)值類(lèi)型參數(shù)值轉(zhuǎn)換為統(tǒng)一尺度,以消除不同特征量綱帶來(lái)的數(shù)值差異,使得不同參數(shù)能在同一尺度上進(jìn)行比較和分析。
在開(kāi)展試驗(yàn)數(shù)據(jù)標(biāo)準(zhǔn)化工作時(shí),應(yīng)首先對(duì)數(shù)據(jù)現(xiàn)狀進(jìn)行調(diào)研,分析試驗(yàn)數(shù)據(jù)在格式和內(nèi)容方面的多樣性,研究對(duì)應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)化方法,編寫(xiě)為標(biāo)準(zhǔn)文件,并在此基礎(chǔ)上,研發(fā)數(shù)據(jù)標(biāo)準(zhǔn)化處理工具。每次試驗(yàn)開(kāi)始前,需要明確試驗(yàn)數(shù)據(jù)的標(biāo)準(zhǔn)化要求,包括歸檔數(shù)據(jù)的內(nèi)容、需要采用的數(shù)據(jù)格式等。試驗(yàn)完成后,在標(biāo)準(zhǔn)文件指導(dǎo)下,按照數(shù)據(jù)標(biāo)準(zhǔn)化要求,使用標(biāo)準(zhǔn)化處理工具對(duì)歸檔數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
2.2 數(shù)據(jù)在線傳輸
數(shù)據(jù)在線傳輸是指通過(guò)線上傳輸鏈路實(shí)現(xiàn)數(shù)據(jù)的跨域傳輸,在顯著提升數(shù)據(jù)傳輸速度,滿(mǎn)足大規(guī)模試驗(yàn)數(shù)據(jù)跨域傳輸需求的同時(shí),保障傳輸過(guò)程中的數(shù)據(jù)安全。
跨域在線傳輸應(yīng)滿(mǎn)足大規(guī)模試驗(yàn)數(shù)據(jù)的傳輸速度要求,因此需要確保傳輸鏈路具有足夠的物理帶寬和傳輸比特率,并采用專(zhuān)用的數(shù)據(jù)傳輸協(xié)議,提高有效內(nèi)容占比。傳輸前可對(duì)傳輸內(nèi)容進(jìn)行壓縮,以提高傳輸效率。此外,跨域傳輸?shù)陌l(fā)送端和接收端應(yīng)直接與線上數(shù)據(jù)庫(kù)對(duì)接,實(shí)現(xiàn)試驗(yàn)數(shù)據(jù)的端到端傳輸,避免額外環(huán)節(jié)帶來(lái)的時(shí)間成本。
跨域傳輸必須保證傳輸過(guò)程中試驗(yàn)數(shù)據(jù)的安全,因此跨域傳輸務(wù)必使用有線傳輸,并使用專(zhuān)用的傳輸鏈路,避免因無(wú)線路由器或服務(wù)器被惡意攻擊導(dǎo)致數(shù)據(jù)泄露??缬騻鬏斶^(guò)程應(yīng)由專(zhuān)門(mén)的傳輸管理服務(wù)器進(jìn)行管理,數(shù)據(jù)在傳輸過(guò)程中不能經(jīng)過(guò)傳輸管理服務(wù)器以外的其他節(jié)點(diǎn),以確保數(shù)據(jù)不發(fā)生泄露。此外,任何待發(fā)送和接收的數(shù)據(jù)都應(yīng)經(jīng)過(guò)安全防火墻檢查,以避免出現(xiàn)跨域病毒傳播。
2.3 在線歸檔管理
在線歸檔管理是指通過(guò)在線流程完成試驗(yàn)數(shù)據(jù)的歸檔審核,并以線上數(shù)據(jù)庫(kù)為基礎(chǔ),實(shí)現(xiàn)試驗(yàn)數(shù)據(jù)的在線存儲(chǔ)和管理。[13]
為了保障試驗(yàn)數(shù)據(jù)歸檔效率,首先應(yīng)使用在線歸檔流程替代線下流程實(shí)現(xiàn)試驗(yàn)數(shù)據(jù)的在線歸檔審核,數(shù)據(jù)歸檔應(yīng)與數(shù)據(jù)跨域傳輸對(duì)接,并在歸檔完成后直接存入線上數(shù)據(jù)庫(kù),為了保障歸檔數(shù)據(jù)質(zhì)量,在歸檔時(shí),除了完成常規(guī)審查外,還應(yīng)對(duì)數(shù)據(jù)內(nèi)容和格式進(jìn)行檢查,確保數(shù)據(jù)符合標(biāo)準(zhǔn)規(guī)范。
數(shù)據(jù)管理系統(tǒng)應(yīng)提供數(shù)據(jù)索引、數(shù)據(jù)申請(qǐng)、數(shù)據(jù)下載、數(shù)據(jù)在線推送、數(shù)據(jù)庫(kù)訪問(wèn)接口等數(shù)據(jù)獲取功能,確保不同類(lèi)型的數(shù)據(jù)需求方(個(gè)人用戶(hù)、應(yīng)用系統(tǒng)等)都能快速、準(zhǔn)確地獲取所需數(shù)據(jù)資源,提高歸檔數(shù)據(jù)的可用性和易用性。
2.4 數(shù)據(jù)訪問(wèn)控制
數(shù)據(jù)訪問(wèn)控制是指通過(guò)技術(shù)手段全面控制歸檔試驗(yàn)數(shù)據(jù)的訪問(wèn)、傳播和共享范圍,保障數(shù)據(jù)安全,避免試驗(yàn)數(shù)據(jù)出現(xiàn)不受控制的傳播和泄露。
首先應(yīng)對(duì)數(shù)據(jù)的訪問(wèn)權(quán)限和訪問(wèn)范圍進(jìn)行控制。在歸檔時(shí),應(yīng)對(duì)試驗(yàn)數(shù)據(jù)資源設(shè)置對(duì)應(yīng)的管理者,由管理者控制數(shù)據(jù)訪問(wèn)權(quán)限的分配。完成歸檔后,建立數(shù)據(jù)訪問(wèn)日志,記錄數(shù)據(jù)的每一次使用和操作,并由管理者定期進(jìn)行審核,以確保數(shù)據(jù)沒(méi)有被非法濫用。由于試驗(yàn)數(shù)據(jù)存儲(chǔ)于在線數(shù)據(jù)庫(kù),數(shù)據(jù)的訪問(wèn)權(quán)限和范圍控制可依托數(shù)據(jù)管理系統(tǒng)完成。
試驗(yàn)數(shù)據(jù)在共享過(guò)程中可能會(huì)完全脫離數(shù)據(jù)管理系統(tǒng)的控制,因此在將數(shù)據(jù)共享給不受數(shù)據(jù)管理系統(tǒng)所控制的訪問(wèn)者時(shí),應(yīng)對(duì)數(shù)據(jù)進(jìn)行加密處理,并通過(guò)專(zhuān)用渠道進(jìn)行共享,同時(shí)設(shè)置共享期限,以嚴(yán)格控制數(shù)據(jù)的拷貝和傳播,實(shí)現(xiàn)數(shù)據(jù)共享的完全控制。
3 “工控網(wǎng)-辦公網(wǎng)”在線歸檔實(shí)踐
“工控網(wǎng)-辦公網(wǎng)”是科研試驗(yàn)中最常見(jiàn)的跨域歸檔場(chǎng)景,本研究選擇這一典型場(chǎng)景開(kāi)展實(shí)踐,基于已有信息化系統(tǒng)來(lái)構(gòu)建線上歸檔體系,形成完整跨域在線歸檔流程,見(jiàn)圖2。
試驗(yàn)數(shù)據(jù)的在線歸檔由邊緣數(shù)據(jù)中心、跨域傳輸平臺(tái)以及試驗(yàn)數(shù)據(jù)管理平臺(tái)協(xié)同完成,主要流程為:數(shù)據(jù)在工控網(wǎng)產(chǎn)生后,由工控機(jī)上傳到邊緣數(shù)據(jù)中心,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理;通過(guò)跨域傳輸平臺(tái),將數(shù)據(jù)從邊緣數(shù)據(jù)中心傳輸?shù)睫k公網(wǎng)試驗(yàn)數(shù)據(jù)管理平臺(tái);在辦公網(wǎng)完成數(shù)據(jù)歸檔,將歸檔數(shù)據(jù)存入數(shù)據(jù)庫(kù),由試驗(yàn)數(shù)據(jù)管理平臺(tái)進(jìn)行統(tǒng)一管理。作為方法實(shí)踐,本研究在實(shí)踐中對(duì)上述三個(gè)系統(tǒng)進(jìn)行了升級(jí)改造,以確保其能保證在線歸檔效率、歸檔數(shù)據(jù)質(zhì)量和可用性。
3.1 邊緣數(shù)據(jù)中心
邊緣數(shù)據(jù)中心是部署在工控網(wǎng)的一套試驗(yàn)數(shù)據(jù)管理系統(tǒng),可接收工控機(jī)本地上傳的試驗(yàn)數(shù)據(jù)并進(jìn)行存儲(chǔ)管理。本研究選擇邊緣數(shù)據(jù)中心作為數(shù)據(jù)標(biāo)準(zhǔn)化對(duì)策的實(shí)踐對(duì)象,并為其添加了數(shù)據(jù)格式和內(nèi)容標(biāo)準(zhǔn)化處理功能。[14-15]通過(guò)編寫(xiě)相關(guān)標(biāo)準(zhǔn)規(guī)范、研發(fā)標(biāo)準(zhǔn)化處理工具,實(shí)現(xiàn)了歸檔試驗(yàn)數(shù)據(jù)在工控網(wǎng)的標(biāo)準(zhǔn)化處理:研究首先分析了試驗(yàn)數(shù)據(jù)的格式多樣性和內(nèi)容多樣性,并編寫(xiě)了《科研試驗(yàn)數(shù)據(jù)格式規(guī)范》《科研試驗(yàn)元數(shù)據(jù)規(guī)范》《科研試驗(yàn)主數(shù)據(jù)規(guī)范》等企業(yè)標(biāo)準(zhǔn)。其中《科研試驗(yàn)數(shù)據(jù)格式規(guī)范》規(guī)定了試驗(yàn)數(shù)據(jù)必須采用dat格式,數(shù)據(jù)背景信息則必須采用xlsx格式,同時(shí)規(guī)定了相應(yīng)的編解碼方式和數(shù)據(jù)文件命名規(guī)則。此外,還給出了非標(biāo)準(zhǔn)格式到標(biāo)準(zhǔn)格式的轉(zhuǎn)換方法?!犊蒲性囼?yàn)元數(shù)據(jù)規(guī)范》和《科研試驗(yàn)主數(shù)據(jù)規(guī)范》則詳細(xì)規(guī)定了元數(shù)據(jù)和主數(shù)據(jù)的構(gòu)建、使用、擴(kuò)展方法,以及非標(biāo)準(zhǔn)參數(shù)名到標(biāo)準(zhǔn)元數(shù)據(jù)參數(shù)名的轉(zhuǎn)換方法。在此基礎(chǔ)上,本研究開(kāi)發(fā)了基于字符串匹配和數(shù)據(jù)字典的試驗(yàn)數(shù)據(jù)標(biāo)準(zhǔn)化處理腳本,并以服務(wù)形式嵌入邊緣數(shù)據(jù)中心,用戶(hù)可通過(guò)訪問(wèn)該服務(wù)來(lái)實(shí)現(xiàn)歸檔試驗(yàn)數(shù)據(jù)的標(biāo)準(zhǔn)化處理,從而確保歸檔試驗(yàn)數(shù)據(jù)內(nèi)容和格式的一致性。
3.2 跨域傳輸平臺(tái)
跨域傳輸平臺(tái)是部署在工控網(wǎng)和辦公網(wǎng)之間的一套應(yīng)用系統(tǒng),提供試驗(yàn)數(shù)據(jù)跨域在線傳輸服務(wù),在確保試驗(yàn)數(shù)據(jù)跨域高效傳輸?shù)耐瑫r(shí),還能有效隔離跨域傳輸安全風(fēng)險(xiǎn)、保障傳輸數(shù)據(jù)安全??缬騻鬏斊脚_(tái)主要由防火墻、導(dǎo)入導(dǎo)出服務(wù)器、交換審查系統(tǒng)構(gòu)成,見(jiàn)圖3。
本研究選擇跨域傳輸平臺(tái)作為數(shù)據(jù)在線傳輸?shù)膶?shí)踐對(duì)象,在現(xiàn)有傳輸鏈路基礎(chǔ)上進(jìn)行改造:首先將數(shù)據(jù)上行和下行鏈路分離,確保二者相互獨(dú)立,同時(shí)為上行鏈路(即工控網(wǎng)到辦公網(wǎng))分配更多帶寬,以確保試驗(yàn)數(shù)據(jù)的傳輸效率,從而提升數(shù)據(jù)歸檔效率;在此基礎(chǔ)上,額外設(shè)置了交換審查系統(tǒng)和病毒防火墻,前者可對(duì)跨域交換數(shù)據(jù)進(jìn)行審查,確保傳輸數(shù)據(jù)合法合規(guī),后者則可以防止惡意程序?qū)?dǎo)入導(dǎo)出服務(wù)器的非法訪問(wèn),以及跨域病毒傳播。
3.3 試驗(yàn)數(shù)據(jù)管理平臺(tái)
試驗(yàn)數(shù)據(jù)管理平臺(tái)是部署在辦公網(wǎng)的一套在線數(shù)據(jù)管理系統(tǒng),通過(guò)數(shù)據(jù)接口直接接收來(lái)自跨域傳輸平臺(tái)數(shù)據(jù)并存入數(shù)據(jù)庫(kù),以實(shí)現(xiàn)試驗(yàn)數(shù)據(jù)跨域的端到端傳輸和入庫(kù),進(jìn)一步提升數(shù)據(jù)歸檔效率。在此基礎(chǔ)上,平臺(tái)提供試驗(yàn)數(shù)據(jù)在線歸檔、數(shù)據(jù)文件在線預(yù)覽、數(shù)據(jù)背景信息管理、元數(shù)據(jù)信息管理、數(shù)據(jù)在線共享等功能[16],全面支持試驗(yàn)數(shù)據(jù)的在線歸檔和管理。
本研究選擇實(shí)驗(yàn)數(shù)據(jù)管理平臺(tái)作為數(shù)據(jù)在線管理的實(shí)踐對(duì)象,通過(guò)平臺(tái)功能的二次開(kāi)發(fā)來(lái)進(jìn)一步提升數(shù)據(jù)的入庫(kù)質(zhì)量、歸檔質(zhì)量、存儲(chǔ)效率和共享效率。數(shù)據(jù)質(zhì)量方面,本研究為平臺(tái)的數(shù)據(jù)入庫(kù)接口添加了數(shù)據(jù)文件校驗(yàn)規(guī)則,確保通過(guò)跨域數(shù)據(jù)接口入庫(kù)的數(shù)據(jù)都具有完整的數(shù)據(jù)背景信息和元數(shù)據(jù)信息模板,以提升入庫(kù)數(shù)據(jù)的可用性;歸檔質(zhì)量方面,本研究為每一類(lèi)試驗(yàn)設(shè)計(jì)了對(duì)應(yīng)的歸檔信息模板,試驗(yàn)數(shù)據(jù)在歸檔時(shí)必須填寫(xiě)對(duì)應(yīng)的信息,確保歸檔數(shù)據(jù)信息完整;數(shù)據(jù)存儲(chǔ)方面,針對(duì)dat、csv、xlsx等可解析的結(jié)構(gòu)化數(shù)據(jù)格式,開(kāi)發(fā)了結(jié)構(gòu)化數(shù)據(jù)解析功能,結(jié)構(gòu)化數(shù)據(jù)格式在以文件形式存儲(chǔ)的同時(shí),也被解析為二維表格形式存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)中,以支持?jǐn)?shù)據(jù)的在線預(yù)覽和可視化查看;數(shù)據(jù)共享方面,本研究為平臺(tái)新開(kāi)發(fā)了數(shù)據(jù)共享功能[17],數(shù)據(jù)需求方可申請(qǐng)數(shù)據(jù)訪問(wèn)接口,并通過(guò)調(diào)用接口獲取,以確保用戶(hù)能快速獲取所需數(shù)據(jù),也添加了數(shù)據(jù)加密處理功能,可對(duì)數(shù)據(jù)中的關(guān)鍵內(nèi)容進(jìn)行編碼處理,避免數(shù)據(jù)在共享時(shí)泄露關(guān)鍵信息,同時(shí)開(kāi)發(fā)了面向特定格式(xlsx、csv、word)的文件加殼功能,在訪問(wèn)文件內(nèi)容前會(huì)驗(yàn)證使用者是否獲得合法授權(quán),同時(shí)記錄數(shù)據(jù)的所有操作,確保數(shù)據(jù)得到合法使用,以保障數(shù)據(jù)的共享安全。
3.4 實(shí)踐效果總結(jié)
本研究設(shè)計(jì)了一套試驗(yàn)數(shù)據(jù)在線歸檔方法,并依托現(xiàn)有應(yīng)用系統(tǒng)開(kāi)展方法實(shí)踐,通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)在線傳輸、在線歸檔管理和數(shù)據(jù)訪問(wèn)控制,有效提升了科研試驗(yàn)數(shù)據(jù)的規(guī)范性、一致性、完整性、易用性和安全性,保障了科研試驗(yàn)數(shù)據(jù)的歸檔效率和歸檔質(zhì)量。實(shí)踐前后的歸檔質(zhì)量評(píng)估指標(biāo)對(duì)比見(jiàn)表3。
4 總結(jié)與展望
本研究針對(duì)傳統(tǒng)科研試驗(yàn)數(shù)據(jù)跨域歸檔存在的問(wèn)題和弊端,提出了一套科研試驗(yàn)數(shù)據(jù)跨域在線歸檔方法,通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)在線傳輸、在線歸檔管理、數(shù)據(jù)訪問(wèn)控制等方法,實(shí)現(xiàn)數(shù)據(jù)處理、數(shù)據(jù)傳輸、歸檔管理和安全控制環(huán)節(jié)的優(yōu)化,實(shí)現(xiàn)數(shù)據(jù)傳輸速度、數(shù)據(jù)規(guī)范性、數(shù)據(jù)歸檔效率、數(shù)據(jù)易用性以及數(shù)據(jù)安全性的顯著提升,有效提高了試驗(yàn)數(shù)據(jù)歸檔質(zhì)量和效率。在典型跨域場(chǎng)景下的實(shí)踐驗(yàn)證了本研究所提出方法的有效性。本研究主要面向由單個(gè)數(shù)據(jù)產(chǎn)生域和數(shù)據(jù)歸檔域構(gòu)成的歸檔場(chǎng)景,對(duì)于包含多個(gè)數(shù)據(jù)產(chǎn)生域和歸檔域的復(fù)雜場(chǎng)景,還需要在數(shù)據(jù)傳輸、數(shù)據(jù)管理以及數(shù)據(jù)安全控制方面作出更多優(yōu)化。
作者貢獻(xiàn)說(shuō)明
房果:提出選題,確定論文框架,論文撰寫(xiě)與定稿;李淺語(yǔ):參與論文框架設(shè)計(jì),論文修改;楊靜:論文修改,提出重要觀點(diǎn);黃科:論文撰寫(xiě)和修改。
注釋與參考文獻(xiàn)
[1]李慧.科研單位文件歸檔工作的幾個(gè)關(guān)鍵環(huán)節(jié)[J].蘭臺(tái)內(nèi)外,2015(3):74.
[2]孔祥盛.匯交政策視角下科學(xué)數(shù)據(jù)與科研檔案協(xié)同管理困境與反思[J].檔案與建設(shè),2023(1):62-66.
[3]劉越男,何思源.科學(xué)數(shù)據(jù)與科研檔案的管理協(xié)同:調(diào)查與思考[J].圖書(shū)情報(bào)工作,2022(1):96-105.
[4]何思源.科學(xué)數(shù)據(jù)價(jià)值鑒定策略研究[J].檔案與建設(shè),2024(1):64-70.
[5]侯俊.關(guān)于試驗(yàn)數(shù)據(jù)管理的研究[J].安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2017(4):48-52.
[6]滕詠梅.pDM和tDM環(huán)境下強(qiáng)度試驗(yàn)數(shù)據(jù)檔案管理模式創(chuàng)新[J].科技視界,2019(13):223-224.
[7]楊茜茜,吳碩娜.面向數(shù)據(jù)化的電子文件單套歸檔實(shí)施路徑研究[J].山西檔案,2022(2):114-124.
[8]李伯超.數(shù)字化浪潮下強(qiáng)度試驗(yàn)數(shù)據(jù)管理模式研究[J].蘭臺(tái)世界,2020(7):79-81.
[9]朱艷華,高瑜蔚,胡良霖,等. 我國(guó)科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范實(shí)踐與思考[J].中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版),2023(1):158-167.
[10]陳麗,王啟現(xiàn),劉娟,等.農(nóng)業(yè)科研試驗(yàn)基地?cái)?shù)據(jù)管理標(biāo)準(zhǔn)體系構(gòu)建[J].農(nóng)業(yè)工程學(xué)報(bào),2020(4):193-201.
[11]龔昕,龐亮.基于多維度的裝備試驗(yàn)數(shù)據(jù)工程標(biāo)準(zhǔn)體系構(gòu)建研究[J].標(biāo)準(zhǔn)科學(xué),2020(3):109-114.
[12]韋俊宜.論現(xiàn)代試驗(yàn)室試驗(yàn)數(shù)據(jù)標(biāo)準(zhǔn)化[J].建材發(fā)展導(dǎo)向(上),2020(3):4-5.
[13]趙躍,孫晶瓊,段先娥.檔案化:檔案科學(xué)介入數(shù)據(jù)資源管理的理性思考[J].檔案學(xué)研究,2020(5):83-91.
[14]葉海明,李豪,馮茜,等.航空武器裝備作戰(zhàn)試驗(yàn)數(shù)據(jù)追溯標(biāo)準(zhǔn)化實(shí)踐[J].標(biāo)準(zhǔn)科學(xué),2022(2):87-93.
[15]霍倩,梁宵萌,潘亞男.科學(xué)數(shù)據(jù)管理政策對(duì)檔案部門(mén)科學(xué)數(shù)據(jù)管理的啟示——基于政策工具的文本量化分析[J].圖書(shū)情報(bào)工作,2021(20):23-30.
[16]虞晨琳.科研檔案視角下的科學(xué)數(shù)據(jù)管理研究——以地球系統(tǒng)科學(xué)為例[D].北京:中國(guó)科學(xué)院大學(xué),2018.
[17]邱金水,莊會(huì)富,王朋.科學(xué)試驗(yàn)數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].試驗(yàn)室研究與探索,2022(11):277-281.
(責(zé)任編輯:邵澍赟)