徐小俊
摘 要 以國家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心熱帶作物科學(xué)數(shù)據(jù)分中心所建數(shù)據(jù)庫為例,從實踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗和方法,同時對目前數(shù)據(jù)審核存在的問題進行分析,并提出建議。
關(guān)鍵詞 熱帶作物 ;數(shù)據(jù)庫 ;數(shù)據(jù)審核
中圖分類號 S162
Discussion on Data Audit of Tropical Crops Database
XU Xiaojun
(Institute of Scientific and Technical Information / Tropical Crops Science Data Sub-center of the National Agricultural Scientific Data Sharing Center, CATAS,Danzhou,Hainan 571737)
Abstract Data auditing is an important part of the construction of database resources, is the construction of high quality assurance of database. In this article, Tropical Crops Science Data Sub-center of the National Agricultural Scientific Data Sharing Center was taken as an example to discuss the experience and method of data auditing from the angle of practice,at the same time to analyze the problems of data audit and puts forward some suggestions.
Key words tropical crops ; database ; data audit
“數(shù)據(jù)”在信息社會的價值充分體現(xiàn)在眾多領(lǐng)域中,可以說擁有高質(zhì)量的數(shù)據(jù)資源已成為當今各競爭主體的迫切需要。農(nóng)業(yè)科研單位對高質(zhì)量數(shù)據(jù)的需求則更為凸顯。高質(zhì)量的數(shù)據(jù)資源是農(nóng)業(yè)科研的基礎(chǔ)資源,但面對海量、復(fù)雜的數(shù)據(jù)信息怎么去分析鑒別其真?zhèn)?,挖掘其核心價值,數(shù)據(jù)審核就顯得尤為重要。通過審核數(shù)據(jù)可以最大程度地檢查數(shù)據(jù)的錯誤和失真,便于對數(shù)據(jù)進行修正,確保數(shù)據(jù)的質(zhì)量,為支撐農(nóng)業(yè)科研打下良好的基礎(chǔ)。目前,農(nóng)業(yè)科研單位自上而下都建立了各類數(shù)據(jù)庫,熱帶作物科學(xué)數(shù)據(jù)分中心(以下簡稱“分中心”)承擔著熱區(qū)作物科學(xué)數(shù)據(jù)庫的資源建設(shè),對于提高入庫數(shù)據(jù)資源的質(zhì)量,把好數(shù)據(jù)入庫關(guān),實現(xiàn)為熱帶農(nóng)業(yè)科技創(chuàng)新和發(fā)展提供信息支撐,為國家科技整體水平的提高提供可靠的農(nóng)業(yè)科學(xué)數(shù)據(jù)資源保障等至關(guān)重要[1]。
1 分中心簡介
分中心(http://trop.agridata.cn/index.asp)是國家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心(以下簡稱“主中心”,http://www.agridata.cn/,主中心于2006年正式上線運行,由科技部“國家科技基礎(chǔ)條件平臺建設(shè)”支持建設(shè)的數(shù)據(jù)中心試點之一)下屬的6個分中心之一,分中心建設(shè)由中國熱帶農(nóng)業(yè)科學(xué)院科技信息研究所負責,主要是承擔在子任務(wù)合同書的規(guī)范下,對熱作數(shù)據(jù)資源的整合,參與標準規(guī)范制定與修訂,數(shù)據(jù)庫(集)提交以及數(shù)據(jù)共享服務(wù)(公益性)等。目前,分中心已建成五大主題數(shù)據(jù)庫,包括熱帶作物遺傳資源數(shù)據(jù)庫、熱帶作物栽培數(shù)據(jù)庫、熱帶作物生物學(xué)數(shù)據(jù)庫、熱帶作物育種數(shù)據(jù)庫、熱帶作物基礎(chǔ)數(shù)據(jù)庫。第六大主題數(shù)據(jù)庫——熱區(qū)作物栽培數(shù)據(jù)庫則正在建設(shè)中。分中心在數(shù)據(jù)分級分類和用戶分級的基礎(chǔ)上,將所有已建成的數(shù)據(jù)庫通過農(nóng)業(yè)科學(xué)數(shù)據(jù)中心共享網(wǎng)絡(luò)系統(tǒng)面向全社會免費開放,主要服務(wù)于科研人員。服務(wù)形式包括:在線服務(wù)(數(shù)據(jù)瀏覽、檢索、下載、提問等多種形式)和離線服務(wù)(電子郵件、光盤、電話、印刷物等)。通過多種方式和手段,使整合的數(shù)據(jù)資源實現(xiàn)全部共享,讓更多的農(nóng)業(yè)科技人員通過共享平臺獲得益處[2]。
2 數(shù)據(jù)審核
2.1 數(shù)據(jù)審核的環(huán)境
目前,數(shù)據(jù)的審核更多是以人工審核為主,原因有以下幾點:一是農(nóng)業(yè)系統(tǒng)的各類數(shù)據(jù)庫還處于起步和發(fā)展階段,數(shù)據(jù)庫的處理軟件還在不斷完善中,只能完成部分邏輯審核,還不能實現(xiàn)數(shù)據(jù)的智能批量審核;二是各個主題庫的結(jié)構(gòu)和采集標準都不太一樣,難以用數(shù)據(jù)軟件統(tǒng)一進行審核;三是有些數(shù)據(jù)信息存在的問題具有隱蔽性和復(fù)雜性,單靠數(shù)據(jù)軟件的審核也難以發(fā)現(xiàn)問題。
2.2 數(shù)據(jù)審核的原則和方法
2.2.1 制定一套科學(xué)完善的數(shù)據(jù)采集標準
農(nóng)業(yè)方面的數(shù)據(jù)庫專業(yè)性較強,根據(jù)生產(chǎn)、科研等方面的需要數(shù)據(jù)分類繁多,各主題數(shù)據(jù)庫包含大量的數(shù)據(jù)集,有的數(shù)據(jù)集復(fù)雜,有的數(shù)據(jù)集相對簡單,往往同一主題庫下面的數(shù)據(jù)集的特征和結(jié)構(gòu)都各不相同。要審核這些特征各異的數(shù)據(jù)庫必須制定一套科學(xué)完善的數(shù)據(jù)采集標準,再對照這些標準逐一進行審核。數(shù)據(jù)庫標準的設(shè)計要體現(xiàn)描述規(guī)范和數(shù)據(jù)價值的充分挖掘。表1是分中心第6大主題庫——熱區(qū)主要栽培作物數(shù)據(jù)庫結(jié)構(gòu)說明和采集標準(部分)。
2.2.2 數(shù)據(jù)審核的原則
(1)可靠性原則:收集的信息必須是真實對象或環(huán)境所產(chǎn)生的,必須保證信息來源可靠,確保收集的信息能反映真實的狀況。數(shù)據(jù)來源要體現(xiàn)原始性和基礎(chǔ)性,包括觀測、地面監(jiān)測站(點)、檢測、調(diào)查、試驗、實驗以及研究等科學(xué)技術(shù)活動過程中產(chǎn)生的原始性數(shù)據(jù),以及按照不同科技活動需求進行系統(tǒng)加工整理的各類數(shù)據(jù)[3]。
(2)規(guī)范性原則:包括數(shù)據(jù)的描述規(guī)范,計量單位、符號和學(xué)名規(guī)范,字體、字段長度、圖片、參考文獻等要符合規(guī)范。
(3)完整性原則:收集的數(shù)據(jù)信息各字段的描述須完整,能反映事物全貌。
(4)實時性原則:能及時收集近期的數(shù)據(jù)信息。
(5)準確性原則:收集的數(shù)據(jù)信息與應(yīng)用需求密切相關(guān)且表達無誤,能體現(xiàn)數(shù)據(jù)信息的核心價值。
(6)易用性原則:收集到的信息要按照一定的標準進行整理保存,以適當?shù)男问奖磉_出來,以便于使用。
(7)寧缺毋濫原則:對無應(yīng)用價值的數(shù)據(jù)退回提交單位,對于有應(yīng)用價值但描述不規(guī)范數(shù)據(jù)給出修改建議后反饋提交單位,待修改后再重新提交。
2.2.3 數(shù)據(jù)審核的方法
目前,農(nóng)業(yè)數(shù)據(jù)審核還沒有現(xiàn)成的方法可以參照,以下是從實踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗和方法:
(1)數(shù)據(jù)質(zhì)量分析 數(shù)據(jù)審核首先要對數(shù)據(jù)質(zhì)量進行分析。簡而言之,數(shù)據(jù)質(zhì)量就是反映出數(shù)據(jù)對特定應(yīng)用的滿足程度[4]。數(shù)據(jù)質(zhì)量的高低歸根結(jié)底表現(xiàn)為對應(yīng)用的滿足程度,卓有成效的數(shù)據(jù)分析應(yīng)該和具體應(yīng)用緊密結(jié)合[5]。數(shù)據(jù)作為特殊產(chǎn)品,到目前為止,還沒有統(tǒng)一的標準來衡量數(shù)據(jù)的質(zhì)量[6]。熱作數(shù)據(jù)從實踐的角度進行數(shù)據(jù)質(zhì)量分析,主要包括以下2點:
一是審查數(shù)據(jù)來源是否真實可靠。數(shù)據(jù)的來源很大程度上反映了數(shù)據(jù)的真實程度,越是原始采集的數(shù)據(jù)真實程度越高,例如觀測、監(jiān)測、調(diào)查、試驗、實驗等科學(xué)活動中產(chǎn)生的原始數(shù)據(jù)。還有來自權(quán)威期刊、網(wǎng)站等媒介的數(shù)據(jù)真實可靠性也較高。一些數(shù)據(jù)經(jīng)過加工整理因為人為的因素容易產(chǎn)生誤差,例如自下而上的統(tǒng)計等。而一些來自缺乏專業(yè)審核的大眾媒介的數(shù)據(jù)值得注意,將提交的數(shù)據(jù)通過網(wǎng)絡(luò)搜索進行對比,可以發(fā)現(xiàn)該數(shù)據(jù)信息是否來自互聯(lián)網(wǎng)或來自互聯(lián)網(wǎng)的比例,通過這種方法有時會發(fā)現(xiàn)有些數(shù)據(jù)來源與標注的來源途徑、研究機構(gòu)和參考文獻不相符的情況。
二是審查數(shù)據(jù)本身是否體現(xiàn)了核心價值。數(shù)據(jù)的價值在于運用,每種作物的特性和價值各異,數(shù)據(jù)的價值通過某個字段或某些字段表達出來,數(shù)據(jù)在各字段的描述過程中要有所側(cè)重,以表1熱區(qū)主要栽培作物數(shù)據(jù)庫為例,有的作物的數(shù)據(jù)價值體現(xiàn)在“栽培技術(shù)”字段,有的作物的數(shù)據(jù)價值體現(xiàn)在“病蟲害防治”,有的作物的數(shù)據(jù)價值體現(xiàn)在“主要用途”,有的則體現(xiàn)在“開發(fā)利用前景”等。在某個領(lǐng)域越新的研究,有所突破的研究越能體現(xiàn)數(shù)據(jù)的核心價值;相反,陳舊的、大眾化的數(shù)據(jù)價值越低。
通過數(shù)據(jù)質(zhì)量分析可以對提交的數(shù)據(jù)進行篩選,對數(shù)據(jù)質(zhì)量低的數(shù)據(jù)退回提交單位,通過質(zhì)量分析的數(shù)據(jù)再進行下一輪審核,可以大大減少不必要的時間耗費。
(2)對照法規(guī)、標準等逐一進行全面審核 對照主中心頒布的《數(shù)據(jù)檢查和質(zhì)量控制管理辦法》等數(shù)據(jù)法規(guī)和標準、數(shù)據(jù)庫的結(jié)構(gòu)說明和采集標準以及作物描述規(guī)范對通過質(zhì)量分析的數(shù)據(jù)信息進行全面審核,指出不符合的地方,給出修改建議。
(3)邏輯審核 因為軟件設(shè)計滯后的原因,目前邏輯審核還難以通過數(shù)據(jù)庫管理軟件的審核功能來實現(xiàn),主要通過人工檢查字段的描述是否一致,有無相矛盾的地方;數(shù)值是否過大或過小,是否在合理范圍之內(nèi),有無可疑數(shù)據(jù)等。
(4)經(jīng)驗判斷 依靠相關(guān)知識和經(jīng)驗來判斷數(shù)據(jù)的描述是否有誤,相關(guān)的數(shù)值是否可疑。如,復(fù)核《海南島桑樹種質(zhì)資源》數(shù)據(jù)信息時發(fā)現(xiàn)有段描述中桑樹的高度為100多米,根據(jù)常識,桑樹最高也就在10多米,顯然100多米大大超出了合理的范圍。
3 數(shù)據(jù)審核存在的問題和建議
3.1 存在問題
3.1.1 重量不重質(zhì)
數(shù)據(jù)的審核在很長的時間內(nèi)沒有引起足夠的重視。很多數(shù)據(jù)庫建設(shè)之初更注重的是“量”,就是不斷向數(shù)據(jù)庫里面添加數(shù)據(jù),隨著數(shù)據(jù)庫的數(shù)據(jù)達到一定量之后,反過來再看數(shù)據(jù)庫里面的數(shù)據(jù)才發(fā)現(xiàn)存在不少“問題數(shù)據(jù)”和毫無價值的“垃圾數(shù)據(jù)”,例如,一些數(shù)據(jù)信息的描述存在錯字、錯詞、亂碼等表達有誤的情況,有的則是摘自互聯(lián)網(wǎng)的大眾化數(shù)據(jù)信息。此外,由于基礎(chǔ)數(shù)據(jù)的收集存在“信息壁壘”,工作難度極高,一些科研人員為了完成任務(wù)對數(shù)據(jù)信息進行“造假”,從期刊、網(wǎng)絡(luò)等途徑東拼西湊一些沒有太多應(yīng)用價值的數(shù)據(jù)信息卻標注上某科研機構(gòu)的研究等。
3.1.2 缺乏相關(guān)專業(yè)的培訓(xùn)指導(dǎo)
數(shù)據(jù)的行業(yè)性特征比較明顯,農(nóng)業(yè)數(shù)據(jù)的審核除了涉及統(tǒng)計、計算機等方面的知識外,還要有較好的農(nóng)學(xué)方面的知識背景,可以說是一項跨學(xué)科、復(fù)雜、難度較高的工作。但由于許多客觀原因(技術(shù)力量、人才等),長久以來關(guān)于這方面的培訓(xùn)幾乎沒有。
3.1.3 缺乏一套專門的農(nóng)業(yè)數(shù)據(jù)審核手冊
農(nóng)業(yè)系統(tǒng)的數(shù)據(jù)庫還處于發(fā)展完善階段,雖然也制訂了一些管理辦法和規(guī)范,但過于分散,對于數(shù)據(jù)審核還沒有形成一套科學(xué)的數(shù)據(jù)審核規(guī)則,所以數(shù)據(jù)審核沒有現(xiàn)成的規(guī)則可以參照,主要依靠審核人員的知識水平、經(jīng)驗積累及借鑒和探索來進行。
3.1.4 數(shù)據(jù)管理軟件的更新升級跟不上發(fā)展的需要
目前的數(shù)據(jù)軟件從2006年上線后一直運行到現(xiàn)在,在軟件的設(shè)計上還存在不完善的地方,比如還不能實現(xiàn)一般的數(shù)據(jù)質(zhì)量分析和審核。
3.2 建議
鑒于熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核現(xiàn)狀,為了促使熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核更加科學(xué)、更加真實可靠,建議農(nóng)業(yè)科研機構(gòu)自上而下都充分重視數(shù)據(jù)審核工作,定期對科研機構(gòu)和人員開展宣傳教育,并及時開展相關(guān)的數(shù)據(jù)審核培訓(xùn),必要時可以借鑒別的行業(yè)好的經(jīng)驗和做法,對審核人員進行培訓(xùn)指導(dǎo),不斷提高審核人員的業(yè)務(wù)水平。同時,及時編寫一套權(quán)威的農(nóng)業(yè)方面的數(shù)據(jù)審核手冊,對數(shù)據(jù)審核進行專業(yè)指導(dǎo),對現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)進行更新升級,并大力研發(fā)自動化的數(shù)據(jù)分析工具和審核軟件應(yīng)用到數(shù)據(jù)庫數(shù)據(jù)審核。
參考文獻
[1] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心簡介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享管理辦法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交管理辦法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龍,徐宏炳. 數(shù)據(jù)質(zhì)量分析及應(yīng)用[J]. 計算機技術(shù)與發(fā)展,2007(3):236-238.
(3)完整性原則:收集的數(shù)據(jù)信息各字段的描述須完整,能反映事物全貌。
(4)實時性原則:能及時收集近期的數(shù)據(jù)信息。
(5)準確性原則:收集的數(shù)據(jù)信息與應(yīng)用需求密切相關(guān)且表達無誤,能體現(xiàn)數(shù)據(jù)信息的核心價值。
(6)易用性原則:收集到的信息要按照一定的標準進行整理保存,以適當?shù)男问奖磉_出來,以便于使用。
(7)寧缺毋濫原則:對無應(yīng)用價值的數(shù)據(jù)退回提交單位,對于有應(yīng)用價值但描述不規(guī)范數(shù)據(jù)給出修改建議后反饋提交單位,待修改后再重新提交。
2.2.3 數(shù)據(jù)審核的方法
目前,農(nóng)業(yè)數(shù)據(jù)審核還沒有現(xiàn)成的方法可以參照,以下是從實踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗和方法:
(1)數(shù)據(jù)質(zhì)量分析 數(shù)據(jù)審核首先要對數(shù)據(jù)質(zhì)量進行分析。簡而言之,數(shù)據(jù)質(zhì)量就是反映出數(shù)據(jù)對特定應(yīng)用的滿足程度[4]。數(shù)據(jù)質(zhì)量的高低歸根結(jié)底表現(xiàn)為對應(yīng)用的滿足程度,卓有成效的數(shù)據(jù)分析應(yīng)該和具體應(yīng)用緊密結(jié)合[5]。數(shù)據(jù)作為特殊產(chǎn)品,到目前為止,還沒有統(tǒng)一的標準來衡量數(shù)據(jù)的質(zhì)量[6]。熱作數(shù)據(jù)從實踐的角度進行數(shù)據(jù)質(zhì)量分析,主要包括以下2點:
一是審查數(shù)據(jù)來源是否真實可靠。數(shù)據(jù)的來源很大程度上反映了數(shù)據(jù)的真實程度,越是原始采集的數(shù)據(jù)真實程度越高,例如觀測、監(jiān)測、調(diào)查、試驗、實驗等科學(xué)活動中產(chǎn)生的原始數(shù)據(jù)。還有來自權(quán)威期刊、網(wǎng)站等媒介的數(shù)據(jù)真實可靠性也較高。一些數(shù)據(jù)經(jīng)過加工整理因為人為的因素容易產(chǎn)生誤差,例如自下而上的統(tǒng)計等。而一些來自缺乏專業(yè)審核的大眾媒介的數(shù)據(jù)值得注意,將提交的數(shù)據(jù)通過網(wǎng)絡(luò)搜索進行對比,可以發(fā)現(xiàn)該數(shù)據(jù)信息是否來自互聯(lián)網(wǎng)或來自互聯(lián)網(wǎng)的比例,通過這種方法有時會發(fā)現(xiàn)有些數(shù)據(jù)來源與標注的來源途徑、研究機構(gòu)和參考文獻不相符的情況。
二是審查數(shù)據(jù)本身是否體現(xiàn)了核心價值。數(shù)據(jù)的價值在于運用,每種作物的特性和價值各異,數(shù)據(jù)的價值通過某個字段或某些字段表達出來,數(shù)據(jù)在各字段的描述過程中要有所側(cè)重,以表1熱區(qū)主要栽培作物數(shù)據(jù)庫為例,有的作物的數(shù)據(jù)價值體現(xiàn)在“栽培技術(shù)”字段,有的作物的數(shù)據(jù)價值體現(xiàn)在“病蟲害防治”,有的作物的數(shù)據(jù)價值體現(xiàn)在“主要用途”,有的則體現(xiàn)在“開發(fā)利用前景”等。在某個領(lǐng)域越新的研究,有所突破的研究越能體現(xiàn)數(shù)據(jù)的核心價值;相反,陳舊的、大眾化的數(shù)據(jù)價值越低。
通過數(shù)據(jù)質(zhì)量分析可以對提交的數(shù)據(jù)進行篩選,對數(shù)據(jù)質(zhì)量低的數(shù)據(jù)退回提交單位,通過質(zhì)量分析的數(shù)據(jù)再進行下一輪審核,可以大大減少不必要的時間耗費。
(2)對照法規(guī)、標準等逐一進行全面審核 對照主中心頒布的《數(shù)據(jù)檢查和質(zhì)量控制管理辦法》等數(shù)據(jù)法規(guī)和標準、數(shù)據(jù)庫的結(jié)構(gòu)說明和采集標準以及作物描述規(guī)范對通過質(zhì)量分析的數(shù)據(jù)信息進行全面審核,指出不符合的地方,給出修改建議。
(3)邏輯審核 因為軟件設(shè)計滯后的原因,目前邏輯審核還難以通過數(shù)據(jù)庫管理軟件的審核功能來實現(xiàn),主要通過人工檢查字段的描述是否一致,有無相矛盾的地方;數(shù)值是否過大或過小,是否在合理范圍之內(nèi),有無可疑數(shù)據(jù)等。
(4)經(jīng)驗判斷 依靠相關(guān)知識和經(jīng)驗來判斷數(shù)據(jù)的描述是否有誤,相關(guān)的數(shù)值是否可疑。如,復(fù)核《海南島桑樹種質(zhì)資源》數(shù)據(jù)信息時發(fā)現(xiàn)有段描述中桑樹的高度為100多米,根據(jù)常識,桑樹最高也就在10多米,顯然100多米大大超出了合理的范圍。
3 數(shù)據(jù)審核存在的問題和建議
3.1 存在問題
3.1.1 重量不重質(zhì)
數(shù)據(jù)的審核在很長的時間內(nèi)沒有引起足夠的重視。很多數(shù)據(jù)庫建設(shè)之初更注重的是“量”,就是不斷向數(shù)據(jù)庫里面添加數(shù)據(jù),隨著數(shù)據(jù)庫的數(shù)據(jù)達到一定量之后,反過來再看數(shù)據(jù)庫里面的數(shù)據(jù)才發(fā)現(xiàn)存在不少“問題數(shù)據(jù)”和毫無價值的“垃圾數(shù)據(jù)”,例如,一些數(shù)據(jù)信息的描述存在錯字、錯詞、亂碼等表達有誤的情況,有的則是摘自互聯(lián)網(wǎng)的大眾化數(shù)據(jù)信息。此外,由于基礎(chǔ)數(shù)據(jù)的收集存在“信息壁壘”,工作難度極高,一些科研人員為了完成任務(wù)對數(shù)據(jù)信息進行“造假”,從期刊、網(wǎng)絡(luò)等途徑東拼西湊一些沒有太多應(yīng)用價值的數(shù)據(jù)信息卻標注上某科研機構(gòu)的研究等。
3.1.2 缺乏相關(guān)專業(yè)的培訓(xùn)指導(dǎo)
數(shù)據(jù)的行業(yè)性特征比較明顯,農(nóng)業(yè)數(shù)據(jù)的審核除了涉及統(tǒng)計、計算機等方面的知識外,還要有較好的農(nóng)學(xué)方面的知識背景,可以說是一項跨學(xué)科、復(fù)雜、難度較高的工作。但由于許多客觀原因(技術(shù)力量、人才等),長久以來關(guān)于這方面的培訓(xùn)幾乎沒有。
3.1.3 缺乏一套專門的農(nóng)業(yè)數(shù)據(jù)審核手冊
農(nóng)業(yè)系統(tǒng)的數(shù)據(jù)庫還處于發(fā)展完善階段,雖然也制訂了一些管理辦法和規(guī)范,但過于分散,對于數(shù)據(jù)審核還沒有形成一套科學(xué)的數(shù)據(jù)審核規(guī)則,所以數(shù)據(jù)審核沒有現(xiàn)成的規(guī)則可以參照,主要依靠審核人員的知識水平、經(jīng)驗積累及借鑒和探索來進行。
3.1.4 數(shù)據(jù)管理軟件的更新升級跟不上發(fā)展的需要
目前的數(shù)據(jù)軟件從2006年上線后一直運行到現(xiàn)在,在軟件的設(shè)計上還存在不完善的地方,比如還不能實現(xiàn)一般的數(shù)據(jù)質(zhì)量分析和審核。
3.2 建議
鑒于熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核現(xiàn)狀,為了促使熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核更加科學(xué)、更加真實可靠,建議農(nóng)業(yè)科研機構(gòu)自上而下都充分重視數(shù)據(jù)審核工作,定期對科研機構(gòu)和人員開展宣傳教育,并及時開展相關(guān)的數(shù)據(jù)審核培訓(xùn),必要時可以借鑒別的行業(yè)好的經(jīng)驗和做法,對審核人員進行培訓(xùn)指導(dǎo),不斷提高審核人員的業(yè)務(wù)水平。同時,及時編寫一套權(quán)威的農(nóng)業(yè)方面的數(shù)據(jù)審核手冊,對數(shù)據(jù)審核進行專業(yè)指導(dǎo),對現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)進行更新升級,并大力研發(fā)自動化的數(shù)據(jù)分析工具和審核軟件應(yīng)用到數(shù)據(jù)庫數(shù)據(jù)審核。
參考文獻
[1] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心簡介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享管理辦法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交管理辦法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龍,徐宏炳. 數(shù)據(jù)質(zhì)量分析及應(yīng)用[J]. 計算機技術(shù)與發(fā)展,2007(3):236-238.
(3)完整性原則:收集的數(shù)據(jù)信息各字段的描述須完整,能反映事物全貌。
(4)實時性原則:能及時收集近期的數(shù)據(jù)信息。
(5)準確性原則:收集的數(shù)據(jù)信息與應(yīng)用需求密切相關(guān)且表達無誤,能體現(xiàn)數(shù)據(jù)信息的核心價值。
(6)易用性原則:收集到的信息要按照一定的標準進行整理保存,以適當?shù)男问奖磉_出來,以便于使用。
(7)寧缺毋濫原則:對無應(yīng)用價值的數(shù)據(jù)退回提交單位,對于有應(yīng)用價值但描述不規(guī)范數(shù)據(jù)給出修改建議后反饋提交單位,待修改后再重新提交。
2.2.3 數(shù)據(jù)審核的方法
目前,農(nóng)業(yè)數(shù)據(jù)審核還沒有現(xiàn)成的方法可以參照,以下是從實踐的角度探討熱作數(shù)據(jù)庫數(shù)據(jù)審核的經(jīng)驗和方法:
(1)數(shù)據(jù)質(zhì)量分析 數(shù)據(jù)審核首先要對數(shù)據(jù)質(zhì)量進行分析。簡而言之,數(shù)據(jù)質(zhì)量就是反映出數(shù)據(jù)對特定應(yīng)用的滿足程度[4]。數(shù)據(jù)質(zhì)量的高低歸根結(jié)底表現(xiàn)為對應(yīng)用的滿足程度,卓有成效的數(shù)據(jù)分析應(yīng)該和具體應(yīng)用緊密結(jié)合[5]。數(shù)據(jù)作為特殊產(chǎn)品,到目前為止,還沒有統(tǒng)一的標準來衡量數(shù)據(jù)的質(zhì)量[6]。熱作數(shù)據(jù)從實踐的角度進行數(shù)據(jù)質(zhì)量分析,主要包括以下2點:
一是審查數(shù)據(jù)來源是否真實可靠。數(shù)據(jù)的來源很大程度上反映了數(shù)據(jù)的真實程度,越是原始采集的數(shù)據(jù)真實程度越高,例如觀測、監(jiān)測、調(diào)查、試驗、實驗等科學(xué)活動中產(chǎn)生的原始數(shù)據(jù)。還有來自權(quán)威期刊、網(wǎng)站等媒介的數(shù)據(jù)真實可靠性也較高。一些數(shù)據(jù)經(jīng)過加工整理因為人為的因素容易產(chǎn)生誤差,例如自下而上的統(tǒng)計等。而一些來自缺乏專業(yè)審核的大眾媒介的數(shù)據(jù)值得注意,將提交的數(shù)據(jù)通過網(wǎng)絡(luò)搜索進行對比,可以發(fā)現(xiàn)該數(shù)據(jù)信息是否來自互聯(lián)網(wǎng)或來自互聯(lián)網(wǎng)的比例,通過這種方法有時會發(fā)現(xiàn)有些數(shù)據(jù)來源與標注的來源途徑、研究機構(gòu)和參考文獻不相符的情況。
二是審查數(shù)據(jù)本身是否體現(xiàn)了核心價值。數(shù)據(jù)的價值在于運用,每種作物的特性和價值各異,數(shù)據(jù)的價值通過某個字段或某些字段表達出來,數(shù)據(jù)在各字段的描述過程中要有所側(cè)重,以表1熱區(qū)主要栽培作物數(shù)據(jù)庫為例,有的作物的數(shù)據(jù)價值體現(xiàn)在“栽培技術(shù)”字段,有的作物的數(shù)據(jù)價值體現(xiàn)在“病蟲害防治”,有的作物的數(shù)據(jù)價值體現(xiàn)在“主要用途”,有的則體現(xiàn)在“開發(fā)利用前景”等。在某個領(lǐng)域越新的研究,有所突破的研究越能體現(xiàn)數(shù)據(jù)的核心價值;相反,陳舊的、大眾化的數(shù)據(jù)價值越低。
通過數(shù)據(jù)質(zhì)量分析可以對提交的數(shù)據(jù)進行篩選,對數(shù)據(jù)質(zhì)量低的數(shù)據(jù)退回提交單位,通過質(zhì)量分析的數(shù)據(jù)再進行下一輪審核,可以大大減少不必要的時間耗費。
(2)對照法規(guī)、標準等逐一進行全面審核 對照主中心頒布的《數(shù)據(jù)檢查和質(zhì)量控制管理辦法》等數(shù)據(jù)法規(guī)和標準、數(shù)據(jù)庫的結(jié)構(gòu)說明和采集標準以及作物描述規(guī)范對通過質(zhì)量分析的數(shù)據(jù)信息進行全面審核,指出不符合的地方,給出修改建議。
(3)邏輯審核 因為軟件設(shè)計滯后的原因,目前邏輯審核還難以通過數(shù)據(jù)庫管理軟件的審核功能來實現(xiàn),主要通過人工檢查字段的描述是否一致,有無相矛盾的地方;數(shù)值是否過大或過小,是否在合理范圍之內(nèi),有無可疑數(shù)據(jù)等。
(4)經(jīng)驗判斷 依靠相關(guān)知識和經(jīng)驗來判斷數(shù)據(jù)的描述是否有誤,相關(guān)的數(shù)值是否可疑。如,復(fù)核《海南島桑樹種質(zhì)資源》數(shù)據(jù)信息時發(fā)現(xiàn)有段描述中桑樹的高度為100多米,根據(jù)常識,桑樹最高也就在10多米,顯然100多米大大超出了合理的范圍。
3 數(shù)據(jù)審核存在的問題和建議
3.1 存在問題
3.1.1 重量不重質(zhì)
數(shù)據(jù)的審核在很長的時間內(nèi)沒有引起足夠的重視。很多數(shù)據(jù)庫建設(shè)之初更注重的是“量”,就是不斷向數(shù)據(jù)庫里面添加數(shù)據(jù),隨著數(shù)據(jù)庫的數(shù)據(jù)達到一定量之后,反過來再看數(shù)據(jù)庫里面的數(shù)據(jù)才發(fā)現(xiàn)存在不少“問題數(shù)據(jù)”和毫無價值的“垃圾數(shù)據(jù)”,例如,一些數(shù)據(jù)信息的描述存在錯字、錯詞、亂碼等表達有誤的情況,有的則是摘自互聯(lián)網(wǎng)的大眾化數(shù)據(jù)信息。此外,由于基礎(chǔ)數(shù)據(jù)的收集存在“信息壁壘”,工作難度極高,一些科研人員為了完成任務(wù)對數(shù)據(jù)信息進行“造假”,從期刊、網(wǎng)絡(luò)等途徑東拼西湊一些沒有太多應(yīng)用價值的數(shù)據(jù)信息卻標注上某科研機構(gòu)的研究等。
3.1.2 缺乏相關(guān)專業(yè)的培訓(xùn)指導(dǎo)
數(shù)據(jù)的行業(yè)性特征比較明顯,農(nóng)業(yè)數(shù)據(jù)的審核除了涉及統(tǒng)計、計算機等方面的知識外,還要有較好的農(nóng)學(xué)方面的知識背景,可以說是一項跨學(xué)科、復(fù)雜、難度較高的工作。但由于許多客觀原因(技術(shù)力量、人才等),長久以來關(guān)于這方面的培訓(xùn)幾乎沒有。
3.1.3 缺乏一套專門的農(nóng)業(yè)數(shù)據(jù)審核手冊
農(nóng)業(yè)系統(tǒng)的數(shù)據(jù)庫還處于發(fā)展完善階段,雖然也制訂了一些管理辦法和規(guī)范,但過于分散,對于數(shù)據(jù)審核還沒有形成一套科學(xué)的數(shù)據(jù)審核規(guī)則,所以數(shù)據(jù)審核沒有現(xiàn)成的規(guī)則可以參照,主要依靠審核人員的知識水平、經(jīng)驗積累及借鑒和探索來進行。
3.1.4 數(shù)據(jù)管理軟件的更新升級跟不上發(fā)展的需要
目前的數(shù)據(jù)軟件從2006年上線后一直運行到現(xiàn)在,在軟件的設(shè)計上還存在不完善的地方,比如還不能實現(xiàn)一般的數(shù)據(jù)質(zhì)量分析和審核。
3.2 建議
鑒于熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核現(xiàn)狀,為了促使熱帶作物數(shù)據(jù)庫數(shù)據(jù)審核更加科學(xué)、更加真實可靠,建議農(nóng)業(yè)科研機構(gòu)自上而下都充分重視數(shù)據(jù)審核工作,定期對科研機構(gòu)和人員開展宣傳教育,并及時開展相關(guān)的數(shù)據(jù)審核培訓(xùn),必要時可以借鑒別的行業(yè)好的經(jīng)驗和做法,對審核人員進行培訓(xùn)指導(dǎo),不斷提高審核人員的業(yè)務(wù)水平。同時,及時編寫一套權(quán)威的農(nóng)業(yè)方面的數(shù)據(jù)審核手冊,對數(shù)據(jù)審核進行專業(yè)指導(dǎo),對現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)進行更新升級,并大力研發(fā)自動化的數(shù)據(jù)分析工具和審核軟件應(yīng)用到數(shù)據(jù)庫數(shù)據(jù)審核。
參考文獻
[1] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心簡介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享管理辦法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 農(nóng)業(yè)科學(xué)數(shù)據(jù)匯交管理辦法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龍,徐宏炳. 數(shù)據(jù)質(zhì)量分析及應(yīng)用[J]. 計算機技術(shù)與發(fā)展,2007(3):236-238.