亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        農(nóng)業(yè)數(shù)據(jù)質(zhì)量及評估方法探討

        2017-05-30 10:42:37李斐斐張建華朱孟帥
        安徽農(nóng)業(yè)科學(xué) 2017年36期
        關(guān)鍵詞:農(nóng)業(yè)現(xiàn)代化

        李斐斐 張建華 朱孟帥

        摘要在闡述農(nóng)業(yè)數(shù)據(jù)質(zhì)量內(nèi)涵的基礎(chǔ)上,對我國農(nóng)業(yè)數(shù)據(jù)應(yīng)用現(xiàn)狀進(jìn)行了分析,從數(shù)據(jù)流程角度選取了數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)管理4個(gè)影響因素,總結(jié)了單一準(zhǔn)確性和多維綜合性質(zhì)量評估方法,并對數(shù)據(jù)質(zhì)量檢驗(yàn)的發(fā)展方向進(jìn)行了展望,以期為提高我國農(nóng)業(yè)數(shù)據(jù)質(zhì)量提供參考。

        關(guān)鍵詞農(nóng)業(yè)現(xiàn)代化;農(nóng)業(yè)數(shù)據(jù);農(nóng)業(yè)數(shù)據(jù)質(zhì)量;質(zhì)量評估方法

        中圖分類號(hào)S-058文獻(xiàn)標(biāo)識(shí)碼A文章編號(hào)0517-6611(2017)36-0221-03

        AbstractBased on expounding the connotation of agricultural data quality, we analyzed the application status of agricultural data in China. Four influencing factors of data collection, data storage, data processing and data management were selected from the point of view of data flow, we summarized the single accuracy and multidimensional comprehensive quality evaluation methods. And we forecast the development directions of data quality inspection methods, in order to provide references for improving the quality of agricultural data in China.

        Key wordsAgricultural modernization;Agricultural data;Agricultural data quality;Quality evaluation methods

        近年來,信息技術(shù)與經(jīng)濟(jì)社會(huì)、科學(xué)研究的交匯融合激發(fā)了數(shù)據(jù)量爆炸性增長,數(shù)據(jù)因其發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的特點(diǎn)而成為國家基礎(chǔ)性戰(zhàn)略資源。我國是農(nóng)業(yè)大國,傳統(tǒng)農(nóng)業(yè)農(nóng)村數(shù)據(jù)積累量較大,而將傳感器、移動(dòng)通訊、數(shù)據(jù)庫等現(xiàn)代信息技術(shù)引入農(nóng)業(yè)生產(chǎn)、流通、消費(fèi)等環(huán)節(jié)加速了數(shù)據(jù)量的跨級數(shù)增長。農(nóng)業(yè)大數(shù)據(jù)是大數(shù)據(jù)理念、技術(shù)和方法在農(nóng)業(yè)領(lǐng)域的實(shí)踐[1],利用大數(shù)據(jù)驅(qū)動(dòng)農(nóng)業(yè)發(fā)展,有助于加快我國農(nóng)業(yè)轉(zhuǎn)型升級,提升國際競爭力和影響力。

        數(shù)據(jù)包含數(shù)量和質(zhì)量,二者相輔相成,沒有質(zhì)量的數(shù)量毫無意義,而數(shù)量又是質(zhì)量的基礎(chǔ),質(zhì)量的提升源于數(shù)量的積累。但是,隨著農(nóng)業(yè)數(shù)據(jù)資源開放性和多源性的增加,數(shù)據(jù)質(zhì)量更加參差不齊,垃圾數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、虛假數(shù)據(jù)等問題層出不窮,是我國農(nóng)業(yè)面臨“數(shù)據(jù)豐富、信息貧乏”困境的重要原因,不利于制定科學(xué)的決策。此外,與工商業(yè)不同,農(nóng)業(yè)具有與時(shí)空密切相關(guān)、生產(chǎn)周期長、生產(chǎn)災(zāi)害難以彌補(bǔ)等特點(diǎn),對數(shù)據(jù)質(zhì)量具有更高的要求。

        目前,數(shù)據(jù)用戶著重于通過數(shù)據(jù)預(yù)處理等方式來提高數(shù)據(jù)質(zhì)量,缺少對數(shù)據(jù)整體質(zhì)量的評估,事實(shí)上,評估數(shù)據(jù)質(zhì)量便于發(fā)現(xiàn)問題,合理控制影響因素,縮小誤差。這不僅對于提高農(nóng)業(yè)數(shù)據(jù)質(zhì)量具有重要意義,而且有助于加強(qiáng)信息處理和知識(shí)發(fā)現(xiàn),指導(dǎo)農(nóng)業(yè)生產(chǎn),滿足農(nóng)業(yè)農(nóng)村發(fā)展的需要。因此,從數(shù)據(jù)科學(xué)的思想出發(fā),明晰數(shù)據(jù)質(zhì)量含義,把握我國農(nóng)業(yè)數(shù)據(jù)應(yīng)用現(xiàn)狀,多角度揭示影響數(shù)據(jù)質(zhì)量的因素,總結(jié)適用于農(nóng)業(yè)數(shù)據(jù)的質(zhì)量評估方法具有重要意義。

        1數(shù)據(jù)質(zhì)量內(nèi)涵

        質(zhì)量是一個(gè)多義詞,它在質(zhì)量管理學(xué)的定義為“一組固有特性滿足要求的程度”,質(zhì)量的概念不是固定不變的,而是處于動(dòng)態(tài)發(fā)展變化之中,與使用對象息息相關(guān)。在數(shù)據(jù)成為產(chǎn)品、可以提供服務(wù)功能后,數(shù)據(jù)領(lǐng)域引入了“質(zhì)量”概念。數(shù)據(jù)質(zhì)量最初是指數(shù)據(jù)的準(zhǔn)確性,以誤差大小作為衡量標(biāo)準(zhǔn)[2],這是一個(gè)相對狹義的定義。隨著社會(huì)的發(fā)展和信息技術(shù)的進(jìn)步,數(shù)據(jù)質(zhì)量內(nèi)涵不斷擴(kuò)展,準(zhǔn)確性不再是評估其優(yōu)劣的唯一指標(biāo),特別是從20世紀(jì)90年代起數(shù)據(jù)研究領(lǐng)域廣泛采用多種質(zhì)量維度,綜合衡量數(shù)據(jù)情況。常用的質(zhì)量維度有20多種[3],數(shù)據(jù)用戶可根據(jù)需求靈活選取,在實(shí)際應(yīng)用中,各質(zhì)量維度重要性不一,始終沒有統(tǒng)一的認(rèn)識(shí)和標(biāo)準(zhǔn)[4-5],但它們并非完全孤立,而是相互關(guān)聯(lián)的,其中數(shù)據(jù)準(zhǔn)確性、一致性、完整性、可解釋性等是基礎(chǔ)性維度,其他維度可由這些維度推導(dǎo)得出,所以這些維度的高水平是其他可選維度質(zhì)量的保障,也是數(shù)據(jù)質(zhì)量的重要研究對象。

        2我國農(nóng)業(yè)數(shù)據(jù)應(yīng)用現(xiàn)狀

        數(shù)據(jù)是驅(qū)動(dòng)農(nóng)業(yè)現(xiàn)代化發(fā)展的重要力量,是連接農(nóng)業(yè)生產(chǎn)、經(jīng)營、消費(fèi)、市場、貿(mào)易等環(huán)節(jié)的關(guān)鍵。數(shù)據(jù)的有效應(yīng)用,一方面可以全息立體反映農(nóng)業(yè)全過程,促進(jìn)相關(guān)要素之間的聯(lián)系,另一方面還可以通過數(shù)據(jù)間關(guān)聯(lián)特征,預(yù)測未來,提前做好準(zhǔn)備,應(yīng)對行業(yè)變化。然而,現(xiàn)階段我國農(nóng)業(yè)數(shù)據(jù)發(fā)展水平并不均衡,主要側(cè)重于農(nóng)業(yè)生產(chǎn)、安全監(jiān)管、市場調(diào)配等方面的應(yīng)用。

        在農(nóng)業(yè)生產(chǎn)方面,農(nóng)業(yè)數(shù)據(jù)的應(yīng)用主要體現(xiàn)在精準(zhǔn)生產(chǎn)、作物育種、災(zāi)害防御方面。①在精準(zhǔn)生產(chǎn)中,利用農(nóng)業(yè)物聯(lián)網(wǎng)、通訊技術(shù),實(shí)時(shí)獲取環(huán)境中的溫濕度、風(fēng)速、二氧化碳以及土壤水分、電導(dǎo)率、礦物質(zhì)含量等指標(biāo),并與農(nóng)作物各階段生長規(guī)律相結(jié)合,完成精準(zhǔn)施肥、澆水等農(nóng)耕活動(dòng),以實(shí)現(xiàn)資源最節(jié)約、效益最大化。②在作物育種中,通過大數(shù)據(jù)技術(shù)和生物技術(shù)獲取更完整、準(zhǔn)確的生物基因組數(shù)據(jù),挑選出具有特定形狀的基因組(如高鈣、抗氧化、抗敏等),提高育種效率,彌補(bǔ)傳統(tǒng)雜交育種工作中偶然性大、成功率低的缺點(diǎn)[6]。③在災(zāi)害預(yù)防中,利用歷史氣象數(shù)據(jù)建立相關(guān)自然災(zāi)害、病蟲災(zāi)害模型,預(yù)測未來某時(shí)間點(diǎn)可能出現(xiàn)的意外。一方面,指導(dǎo)農(nóng)戶合理避開減產(chǎn)作物種植,或做好預(yù)防措施;另一方面,輔助制定農(nóng)業(yè)保險(xiǎn)政策,降低農(nóng)戶損失[7-8]。劉祖建等[9]對1991—2010年的2代稻飛虱發(fā)生情況和氣象資料進(jìn)行相關(guān)分析,已建立了成蟲始盛期、若蟲高峰期、發(fā)生程度及發(fā)生面積的預(yù)測模型,效果良好。

        在安全監(jiān)管方面,農(nóng)業(yè)數(shù)據(jù)能有效促進(jìn)農(nóng)產(chǎn)品安全監(jiān)管。傳統(tǒng)農(nóng)產(chǎn)品生產(chǎn)、流通、消費(fèi)、存儲(chǔ)過程中存在渠道復(fù)雜、信息紊亂、監(jiān)管不透明等問題,安全控制難度極大?;赗FID射頻、二維碼等技術(shù)的農(nóng)產(chǎn)品溯源體系,能將農(nóng)產(chǎn)品生長、流通過程中的環(huán)境指標(biāo)、地理信息、倉儲(chǔ)信息等其他數(shù)據(jù)實(shí)時(shí)收集、存儲(chǔ)、處理并用可視化方式展示,方便終端消費(fèi)者全面獲取“從田間到餐桌”過程中有關(guān)的產(chǎn)地、種植人、施肥量、農(nóng)藥用量、病害蟲災(zāi)、采摘時(shí)間等,提高食品安全監(jiān)管效率。

        在市場調(diào)配方面,農(nóng)業(yè)數(shù)據(jù)能驅(qū)動(dòng)商業(yè)模式創(chuàng)新,完善市場調(diào)配。傳統(tǒng)農(nóng)產(chǎn)品市場信息不對稱現(xiàn)象明顯,供需不平衡情況也十分廣泛,“田頭賤、攤頭不賤”“蒜你狠、姜你軍”等問題層出不窮。在大數(shù)據(jù)技術(shù)支持下,農(nóng)產(chǎn)品電商平臺(tái)可以將生產(chǎn)者與消費(fèi)者快速、精準(zhǔn)地銜接、匹配。一方面,通過連續(xù)分析消費(fèi)者在不同節(jié)氣和溫度下的購買習(xí)慣,實(shí)現(xiàn)精準(zhǔn)訂貨、存儲(chǔ)和配貨,統(tǒng)籌不同區(qū)域農(nóng)產(chǎn)品生產(chǎn);另一方面,利用農(nóng)業(yè)監(jiān)測預(yù)警技術(shù),分析各種農(nóng)產(chǎn)品的交易情況、價(jià)格波動(dòng),提前發(fā)布市場信號(hào),有效通過信息引導(dǎo)市場,應(yīng)對市場變化。

        3農(nóng)業(yè)數(shù)據(jù)質(zhì)量的影響因素

        農(nóng)業(yè)數(shù)據(jù)在為農(nóng)業(yè)發(fā)展創(chuàng)造重大機(jī)遇的同時(shí),也帶來了巨大的挑戰(zhàn),主要體現(xiàn)在對數(shù)據(jù)質(zhì)量有更高要求。從數(shù)據(jù)流程,即數(shù)據(jù)生命周期角度來探討影響數(shù)據(jù)質(zhì)量的因素,大致可以分為數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)管理4個(gè)階段。

        3.1數(shù)據(jù)收集

        數(shù)據(jù)收集是數(shù)據(jù)生命周期的開始,對數(shù)據(jù)質(zhì)量起決定性作用,若收集到的數(shù)據(jù)錯(cuò)誤、不一致、滯后甚至無效,數(shù)據(jù)質(zhì)量就無從談起。農(nóng)業(yè)數(shù)據(jù)來源廣、種類多[10],選擇合適的收集方式至關(guān)重要,傳統(tǒng)農(nóng)業(yè)統(tǒng)計(jì)以普查、抽樣調(diào)查、重點(diǎn)調(diào)查或行政記錄獲取數(shù)據(jù),易出現(xiàn)數(shù)據(jù)模糊、精度損失、記錄不完備等問題,而現(xiàn)代農(nóng)業(yè)已經(jīng)將物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、遙感技術(shù)[11-12]引入,極大改變了傳統(tǒng)數(shù)據(jù)的采集模式,在系統(tǒng)交互過程中能獲取更加具體細(xì)化的數(shù)據(jù),但成本相對較高,目前主要應(yīng)用在規(guī)?;?、標(biāo)準(zhǔn)化的科研基地以及農(nóng)業(yè)企業(yè)等單位中,普通用戶短時(shí)間內(nèi)難以普及。

        3.2數(shù)據(jù)存儲(chǔ)

        數(shù)據(jù)存儲(chǔ)是保障數(shù)據(jù)質(zhì)量水平的重要環(huán)節(jié),數(shù)據(jù)存儲(chǔ)紊亂會(huì)影響數(shù)據(jù)的使用效率,從而降低數(shù)據(jù)質(zhì)量。目前,農(nóng)業(yè)各業(yè)務(wù)數(shù)據(jù)以結(jié)構(gòu)化為主,存儲(chǔ)在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,而半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)則需先轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)才能得到有效存儲(chǔ)。在異質(zhì)數(shù)據(jù)轉(zhuǎn)化的過程中,若轉(zhuǎn)化不當(dāng)對各質(zhì)量維度的影響很大,特別是農(nóng)業(yè)數(shù)據(jù)數(shù)量更龐大、結(jié)構(gòu)更復(fù)雜、變化更快,出錯(cuò)率更高,所以突破異質(zhì)數(shù)據(jù)轉(zhuǎn)換、集成與調(diào)度技術(shù)[13],盡可能消除數(shù)據(jù)整合過程中出現(xiàn)的不兼容、精度損失等問題,完善大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫建設(shè)十分必要。

        3.3數(shù)據(jù)處理

        數(shù)據(jù)處理是提高數(shù)據(jù)質(zhì)量的有效手段,包括數(shù)據(jù)更新、預(yù)處理、提取、分析等。①要滿足數(shù)據(jù)質(zhì)量維度自身要求,就數(shù)據(jù)時(shí)效性和價(jià)值性而言,溫室控制中對溫濕度、二氧化碳含量數(shù)據(jù)若更新不及時(shí)將導(dǎo)致環(huán)境調(diào)節(jié)滯后,影響農(nóng)作物產(chǎn)量,數(shù)據(jù)價(jià)值性驟降;②加強(qiáng)數(shù)據(jù)預(yù)處理、提取、分析,盡管在數(shù)據(jù)采集、存儲(chǔ)中都規(guī)范了流程,但仍會(huì)存在不準(zhǔn)確、不一致、不完整的數(shù)據(jù),降低數(shù)據(jù)挖掘效率和精確率,所以對數(shù)據(jù)進(jìn)行分類或分組前的優(yōu)化、排序是十分必要的。

        3.4數(shù)據(jù)管理

        數(shù)據(jù)管理是干擾數(shù)據(jù)質(zhì)量的外界因素,這里特指各種人為操作。數(shù)據(jù)收集、存儲(chǔ)和處理側(cè)重于從技術(shù)上規(guī)避問題,而數(shù)據(jù)管理旨在從人為角度分析影響準(zhǔn)確性、一致性、完整性等質(zhì)量維度的因素。一方面,數(shù)據(jù)收集時(shí)基層統(tǒng)計(jì)人員統(tǒng)計(jì)過于隨意,上級領(lǐng)導(dǎo)為追求政績會(huì)偽造數(shù)據(jù),數(shù)據(jù)匯總時(shí)橫向或縱向溝通不暢更會(huì)造成數(shù)據(jù)重復(fù)統(tǒng)計(jì),增加冗余;另一方面,數(shù)據(jù)基本存儲(chǔ)在數(shù)據(jù)庫中,數(shù)據(jù)生命周期中數(shù)據(jù)庫管理員都擔(dān)負(fù)著重要職責(zé),在設(shè)計(jì)存儲(chǔ)架構(gòu)時(shí)要充分考慮數(shù)據(jù)不兼容、不一致等問題。

        4農(nóng)業(yè)數(shù)據(jù)質(zhì)量評估方法

        數(shù)據(jù)質(zhì)量評估能夠預(yù)先發(fā)現(xiàn)數(shù)據(jù)問題,為改善數(shù)據(jù)質(zhì)量提供指導(dǎo),是數(shù)據(jù)質(zhì)量研究過程中的重要環(huán)節(jié)?,F(xiàn)有研究多為框架理論,評估方法相對統(tǒng)一,主要圍繞每個(gè)質(zhì)量維度下數(shù)據(jù)指標(biāo)的結(jié)構(gòu)或內(nèi)容展開。筆者總結(jié)了農(nóng)業(yè)領(lǐng)域易出現(xiàn)的生產(chǎn)數(shù)據(jù)紊亂、價(jià)格數(shù)據(jù)不平衡等問題,結(jié)合國內(nèi)外提出的模型方法,大致歸納為定性分析、定量分析2種。

        4.1定性評估

        定性分析是以用戶需求為中心的主觀評價(jià)法,基于一定的評價(jià)準(zhǔn)則,綜合評判農(nóng)業(yè)數(shù)據(jù)集的“好”與“壞”,評價(jià)結(jié)果可用等級制、百分制或其他方法表示,應(yīng)用范圍較廣。傳統(tǒng)的定性分析方法包括用戶反饋法、專家評議法、第三方評測法,分別以數(shù)據(jù)用戶需求、專家經(jīng)驗(yàn)知識(shí)、特定信息需求為核心進(jìn)行評估,這些方法適用于小樣本數(shù)據(jù),難以滿足大數(shù)據(jù)在評估效率和準(zhǔn)確率等方面的要求。當(dāng)數(shù)據(jù)樣本較大時(shí),可以將目標(biāo)質(zhì)量維度簡單歸納,根據(jù)需求進(jìn)一步分解為更小的單位,直接或間接地評估其內(nèi)在質(zhì)量,如分析數(shù)據(jù)現(xiàn)實(shí)世界、信息世界的對應(yīng)關(guān)系[14],分析數(shù)據(jù)更新頻度等來判斷數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、及時(shí)性等[15],還可以將研究視角拓寬至相關(guān)環(huán)境數(shù)據(jù)。此外,也可利用主觀數(shù)據(jù)質(zhì)量參數(shù)和客觀數(shù)據(jù)質(zhì)量指示器等其他合理的方法[16]進(jìn)行研究。定性分析的方法簡單易用,但評價(jià)結(jié)果比較模糊,缺乏客觀、量化的分析。

        4.2定量分析

        定量分析是以數(shù)據(jù)為中心的客觀評價(jià)法,根據(jù)需求制定合理規(guī)則集[17],將目標(biāo)質(zhì)量維度進(jìn)行量化和重現(xiàn),評價(jià)結(jié)果直接用數(shù)字表示。根據(jù)評估的維度數(shù)量,可分為單維度準(zhǔn)確性評估、多維度綜合性評估。

        4.2.1單一準(zhǔn)確性評估方法。

        早期有關(guān)數(shù)據(jù)質(zhì)量的研究主要針對數(shù)據(jù)準(zhǔn)確性,一般采用統(tǒng)計(jì)學(xué)模型分析,比較經(jīng)典的方法包括邏輯關(guān)系檢驗(yàn)法、核算數(shù)據(jù)重估法、計(jì)量模型分析法、統(tǒng)計(jì)分布檢驗(yàn)法、調(diào)查誤差評估法等。

        邏輯關(guān)系檢驗(yàn)法分為比較邏輯檢驗(yàn)法和相關(guān)邏輯檢查法,主要從橫向或縱向角度粗略地檢查統(tǒng)計(jì)指標(biāo)之間存在的恒等、包含和相關(guān)關(guān)系,如各省農(nóng)業(yè)產(chǎn)值之和與全國農(nóng)業(yè)產(chǎn)值之和不一致。核算數(shù)據(jù)重估法是對邏輯關(guān)系檢驗(yàn)法的拓展,主要從統(tǒng)計(jì)核算的角度出發(fā)評估農(nóng)業(yè)生產(chǎn)數(shù)據(jù)、農(nóng)產(chǎn)品價(jià)格數(shù)據(jù)或者行業(yè)增加值。計(jì)量模型分析法能通過建立計(jì)量經(jīng)濟(jì)模型,量化更復(fù)雜的相關(guān)關(guān)系,對相關(guān)指標(biāo)的數(shù)據(jù)質(zhì)量進(jìn)行評估,但它一般是基于數(shù)據(jù)完全真實(shí)的假設(shè)上。統(tǒng)計(jì)分布檢驗(yàn)法是根據(jù)統(tǒng)計(jì)總體的個(gè)體都服從特定的函數(shù)分布的性質(zhì),如正太分布等,若待評估數(shù)據(jù)集符合特定分布,則初步認(rèn)為數(shù)據(jù)準(zhǔn)確率高。調(diào)查誤差評估法主要分析數(shù)據(jù)中所包含的誤差進(jìn)行評估,包括抽樣誤差和非抽樣誤差,對于非抽樣誤差可以用其他指標(biāo)間接分析,也能用對統(tǒng)計(jì)數(shù)據(jù)執(zhí)行二次抽樣調(diào)查,并與前者進(jìn)行對比核查。

        4.2.2多維綜合性評估方法。

        多維綜合性評估是對單一準(zhǔn)確性評估的進(jìn)一步拓展,評估對象包括數(shù)據(jù)基礎(chǔ)維度和其他可選維度,評估方法是建立合理的評價(jià)模型,而模型的核心是如何有效度量數(shù)據(jù)的不精確、不完整、不一致等程度。

        目前,農(nóng)業(yè)數(shù)據(jù)大多以結(jié)構(gòu)化方式存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,數(shù)據(jù)各質(zhì)量維度的度量大多采用數(shù)據(jù)庫技術(shù)或數(shù)據(jù)挖掘技術(shù)。在基于數(shù)據(jù)庫技術(shù)的方法中,學(xué)者廣泛應(yīng)用函數(shù)依賴關(guān)系分析數(shù)據(jù)集,函數(shù)依賴是指在關(guān)系數(shù)據(jù)庫R中2個(gè)屬性集合X、Y屬性值之間的約束關(guān)系,如實(shí)體完整性、參照完整性、用戶定義完整性等,用戶依據(jù)既定的函數(shù)依賴,利用SQL命令批量篩選目標(biāo)數(shù)據(jù),如根據(jù)語法上相同或相似的不同記錄可能代表現(xiàn)實(shí)世界同一實(shí)體的原理,用排序—合并、建立索引的方法檢測違反完整性的重復(fù)記錄,還可以統(tǒng)計(jì)屬性字段缺失的記錄,得到數(shù)據(jù)集的完整率、一致率等,有效量化數(shù)據(jù)集各維度質(zhì)量;在基于數(shù)據(jù)挖掘技術(shù)的方法中,各質(zhì)量維度的量化方法不同,用戶可根據(jù)數(shù)據(jù)特點(diǎn),采用聚類、分類、關(guān)聯(lián)規(guī)則或自定義算法進(jìn)行有限次迭代循環(huán),篩選并統(tǒng)計(jì)符合用戶需求的記錄數(shù),如基于距離的相似度計(jì)算、基于信息內(nèi)容的語義相似度測度等。與數(shù)據(jù)庫分析數(shù)據(jù)相比,它能動(dòng)態(tài)計(jì)算屬性相應(yīng)的權(quán)重,客觀性更強(qiáng)、處理效率快、精度更高。此外,還可以用信息熵、逆文獻(xiàn)頻率加權(quán)法等進(jìn)行計(jì)算。

        根據(jù)各質(zhì)量維度的度量結(jié)果對數(shù)據(jù)集進(jìn)行評估時(shí),大致可分為以下3個(gè)層次。①根據(jù)度量結(jié)果直接對數(shù)據(jù)集進(jìn)行評價(jià),如農(nóng)作物基因組數(shù)據(jù)的準(zhǔn)確率、一致率、完整率分別為78%、90%和95%,數(shù)據(jù)完整率較高,但若準(zhǔn)確率更重要時(shí),就難以突出重要質(zhì)量維度,有時(shí)無法滿足用戶需求。②將目標(biāo)質(zhì)量維度進(jìn)行分類,如分為核心維度和一般維度,黃鶯等[18]在研究元數(shù)據(jù)質(zhì)量時(shí)建立了一個(gè)四維核心模型,該模型由2層組成,一層是與數(shù)據(jù)內(nèi)在質(zhì)量密切相關(guān)的固定維度,另一層與數(shù)據(jù)外部環(huán)境聯(lián)系較強(qiáng)的可選維度,其中第一層重要性更高。這種方法使研究對象主次有別,客觀性更高。③構(gòu)建綜合數(shù)據(jù)評估模型,模型可以是簡單的線性關(guān)系,也可以是復(fù)雜的多項(xiàng)式等關(guān)系[19],主要采用加權(quán)法(約束加權(quán)法、屬性加權(quán)法、維度加權(quán)法等)給不同的質(zhì)量維度賦予相應(yīng)權(quán)重。針對農(nóng)業(yè)數(shù)據(jù)非平衡問題,王曉華等[20]提出一個(gè)數(shù)據(jù)質(zhì)量評估體系,用基于屬性加權(quán)的缺失評估算法、非平衡離群評估算法進(jìn)行數(shù)據(jù)缺失、離群評估,缺失評估算法的權(quán)重由基于類分布的屬性加權(quán)求得,可靠性更高,該評估體系已經(jīng)在馬鈴薯銷售量和銷售額中表現(xiàn)出良好的適用性。

        實(shí)際應(yīng)用中,為了使評估更加合理,充分發(fā)揮二者優(yōu)勢,可以將定性和定量分析結(jié)合使用,常用的方法包括層次分析法、模糊綜合評價(jià)、灰色聚類法等。

        45卷36期李斐斐等農(nóng)業(yè)數(shù)據(jù)質(zhì)量及評估方法探討

        5數(shù)據(jù)質(zhì)量評估方法發(fā)展

        農(nóng)業(yè)現(xiàn)代化進(jìn)程中,農(nóng)業(yè)也進(jìn)入了大數(shù)據(jù)時(shí)代,各種監(jiān)測網(wǎng)點(diǎn)及網(wǎng)絡(luò)信息平臺(tái)相繼建立,數(shù)據(jù)環(huán)境愈加復(fù)雜,數(shù)據(jù)多源異構(gòu)特點(diǎn)明顯,同時(shí)錯(cuò)誤、無效及過時(shí)數(shù)據(jù)也更多。為了提高大數(shù)據(jù)的應(yīng)用價(jià)值,質(zhì)量評估方法需要具有更高的效率和精確率,今后主要從適應(yīng)分布式數(shù)據(jù)環(huán)境、加強(qiáng)知識(shí)發(fā)現(xiàn)、降低響應(yīng)時(shí)間度等方面進(jìn)行發(fā)展。

        大數(shù)據(jù)質(zhì)量評估方法要適應(yīng)分布式數(shù)據(jù)存儲(chǔ)環(huán)境。多源異構(gòu)的農(nóng)業(yè)數(shù)據(jù)主要存儲(chǔ)在分布式數(shù)據(jù)庫中,但分布式數(shù)據(jù)庫的不同節(jié)點(diǎn)間多通過Web等方式連接,每個(gè)節(jié)點(diǎn)僅包含部分?jǐn)?shù)據(jù),數(shù)據(jù)類型、結(jié)構(gòu)往往存在差異,傳統(tǒng)函數(shù)依賴通用性差,為提高數(shù)據(jù)可遷移性,應(yīng)明晰數(shù)據(jù)本質(zhì),挖掘數(shù)據(jù)間存在的異同,重新建立約束機(jī)制,以數(shù)據(jù)不一致性為例,京東和淘寶平臺(tái)上相同的農(nóng)產(chǎn)品在數(shù)據(jù)庫存儲(chǔ)中可能存在欄目、主題、約束、類型、結(jié)構(gòu)、指代不一致等問題,可以建立基于層次概率判定的Web不一致數(shù)據(jù)自動(dòng)發(fā)現(xiàn)算法。

        大數(shù)據(jù)質(zhì)量評估方法要加強(qiáng)知識(shí)發(fā)現(xiàn)能力。由于農(nóng)業(yè)行業(yè)的特殊性,將傳統(tǒng)數(shù)據(jù)庫和基于專家知識(shí)的知識(shí)規(guī)則庫融合使用,能深入洞悉數(shù)據(jù)特征,描述更加復(fù)雜和多樣化的約束算法規(guī)則,全面判斷數(shù)據(jù)質(zhì)量。施建平等[21]據(jù)此建立了農(nóng)田土壤自動(dòng)識(shí)別和動(dòng)態(tài)勘察的規(guī)則庫,完成數(shù)據(jù)質(zhì)量相關(guān)的背景和方法信息檢驗(yàn)(檢驗(yàn)樣地代碼一致性、長期采樣地管理數(shù)據(jù)、標(biāo)準(zhǔn)物質(zhì)測定準(zhǔn)確度等檢驗(yàn))和數(shù)據(jù)檢驗(yàn)(土壤微量元素等指標(biāo)的閾值檢驗(yàn)、統(tǒng)計(jì)檢驗(yàn)、關(guān)聯(lián)檢驗(yàn)等)。

        大數(shù)據(jù)質(zhì)量評估方法要減少系統(tǒng)響應(yīng)時(shí)間。數(shù)據(jù)規(guī)模的增大降低數(shù)據(jù)處理效率、增加系統(tǒng)響應(yīng)時(shí)間是現(xiàn)階段存在的重要問題,為減少數(shù)據(jù)處理過程中的時(shí)間消耗,一方面可以選擇MapReduce分布式計(jì)算框架、分布式內(nèi)存計(jì)算系統(tǒng)、分布式流計(jì)算系統(tǒng)等性能較好的模型或系統(tǒng);另一方面,要化繁為簡,降低算法復(fù)雜度,如在滿足復(fù)雜多樣的約束規(guī)則的同時(shí),利用并行函數(shù)依賴和剪枝等方式。

        6結(jié)論

        農(nóng)業(yè)大數(shù)據(jù)時(shí)代已經(jīng)來臨,農(nóng)業(yè)數(shù)據(jù)能全面揭示我國農(nóng)業(yè)現(xiàn)狀、突出問題和主要矛盾,是反映我國農(nóng)業(yè)基本狀況、生產(chǎn)方式、動(dòng)力源泉的重要依據(jù)。對數(shù)據(jù)質(zhì)量進(jìn)行評估能宏觀把握數(shù)據(jù)可用性,制定科學(xué)決策,更好地服務(wù)政府部門,幫助農(nóng)民合理規(guī)避農(nóng)業(yè)風(fēng)險(xiǎn),平衡市場和生產(chǎn)者的供應(yīng)關(guān)系等。傳統(tǒng)的數(shù)據(jù)質(zhì)量評估方法相對成熟,在處理小樣本數(shù)據(jù)集時(shí)表現(xiàn)出較高的處理效率和精準(zhǔn)率,但是,在面對海量多源多模態(tài)農(nóng)業(yè)數(shù)據(jù)時(shí),現(xiàn)有評估方法還是難以滿足對計(jì)算速率、數(shù)據(jù)種類等方面的要求,針對未來更加復(fù)雜,也更加開放的農(nóng)業(yè)環(huán)境,今后應(yīng)做好以下方面工作:加強(qiáng)算法在數(shù)據(jù)適用性、可擴(kuò)展性,特別是共享性方面的研究,提高數(shù)據(jù)處理能力;建立農(nóng)業(yè)大數(shù)據(jù)環(huán)境下更全面的評估標(biāo)準(zhǔn)、量化方式;完善在評估數(shù)據(jù)之后提高數(shù)據(jù)質(zhì)量的策略。

        參考文獻(xiàn)

        [1] 孫忠富,杜克明,鄭飛翔,等.大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應(yīng)用展望[J].中國農(nóng)業(yè)科技導(dǎo)報(bào),2013,16(6):63-71.

        [2] WINKLER W E.Methods for evaluating and creating data quality[J].Information system,2004,29(7):531-550.

        [3] HUANG K T,LEE Y W,WANG R Y.Quality information and knowledge management[M].New Jersey:Prentice Hall,1998.

        [4] 黃剛,袁滿,吳秀英,等.元數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量評估體系架構(gòu)研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(8):114-119.

        [5] BRUCE T R,HILLMAN D I.The Continuum of Metadata Quality:Defining,Expressing,Exploiting [C]//HILLMANN D I,WEATBROOKS E L.Metadata in Practice.Chicago:American Library Association,2004:238-256.

        [6] RADAUER C,BREITENEDER H.Pollen allergens are restricted to few protein families and show distinct patterns of species distribution[J].J Allergy Clin Immunol,2006,117(1):141-147.

        [7] TAO F L,ZHANG S,ZHANG Z. Changes in rice disasters across China in recent decades and the meteorological and agronomic causes[J].Regional Environ Change,2013,13(4):743-759.

        [8] LIU X W,F(xiàn)EIKE T,SHAO L W,et al.Effects of different irrigation regimes on soil compaction in a winter wheatsummer maize cropping system in the North China Plain[J].Catena,2016,137:70-76.

        [9] 劉祖建,陳冰,陳蔚燁,等.廣東省西南部稻飛虱發(fā)生期和發(fā)生程度的氣象預(yù)測模型[J].中國農(nóng)業(yè)氣象,2013,34(2):204-209.

        [10] BROWN J C,KASTENS J H,COUTINHO A C,et al.Classifying multiyear agricultural land use data from Mato Grosso using time-series MODIS vegetation index data[J].Remote sensing of environment,2013,130(4):39-50.

        [11] 戈錦文,肖璐.農(nóng)業(yè)統(tǒng)計(jì)存在的問題及變革趨向[J].統(tǒng)計(jì)與決策,2016(18):188-189.

        [12] JIAO L Z,DONG D M,ZHENG W G,et al.Research on fiberoptic etching method for evanescent wave sensors[J].Optikinternational journal for light and electron optics,2013,124(8):740-743.

        [13]馬茜,谷峪,張?zhí)斐桑?一種基于數(shù)據(jù)質(zhì)量的異構(gòu)多源多模態(tài)感知數(shù)據(jù)獲取方法[J].計(jì)算機(jī)學(xué)報(bào),2013,36(10):2120-2131.

        [14] WAND Y,WANG R Y.Anchoring data quality dimensions in ontological foundations[J].Communication of the ACM,1996,39(11):86-95.

        [15] WANG R Y,KON H B,MADNICK S E.Data quality requirements analysis and modeling[C]//Proc of Ninth ICDE.[s.l.]:[s.n.],1993.

        [16] AEBI D,PERROCHON L.Towards improving data quality[C]//Proceedings of the International Conference on Information Systems and Management of Data.[s.l.]:[s.n.],1993:273-281.

        [17] 楊青云,趙培英,楊冬青,等.數(shù)據(jù)質(zhì)量評估方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(9):3-4,15.

        [18] 黃鶯,李建陽.元數(shù)據(jù)質(zhì)量評估方法及模型研究[J].圖書館學(xué)研究,2013(12):52-56,51.

        [19] 楊青云,趙培英,楊冬青,等.數(shù)據(jù)質(zhì)量評估方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(9):3-4,15.

        [20] 王曉華,蘇宏業(yè),渠瑜,等.面向電信欠費(fèi)挖掘的數(shù)據(jù)質(zhì)量評估策略研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(12):220-224,233.

        [21] 施建平,沈志宏,蘇賢明,等.基于知識(shí)規(guī)則的數(shù)據(jù)質(zhì)量檢驗(yàn)方法在農(nóng)田土壤監(jiān)測中的應(yīng)用[J].科研信息化技術(shù)與應(yīng)用,2012,3(2):53-61.

        猜你喜歡
        農(nóng)業(yè)現(xiàn)代化
        黑龍江墾區(qū)農(nóng)技推廣體系建設(shè)發(fā)展研究
        黑龍江省農(nóng)業(yè)現(xiàn)代化的幾點(diǎn)思考和建議
        夯實(shí)農(nóng)業(yè)發(fā)展基礎(chǔ) 加快農(nóng)業(yè)現(xiàn)代化進(jìn)程
        關(guān)于我國發(fā)展農(nóng)業(yè)現(xiàn)代化的思考
        四平農(nóng)業(yè)現(xiàn)代化進(jìn)程中新型職業(yè)農(nóng)民培育問題研究
        咸寧市農(nóng)業(yè)現(xiàn)代化現(xiàn)狀及發(fā)展對策
        現(xiàn)代農(nóng)業(yè)示范區(qū):中國特色農(nóng)業(yè)現(xiàn)代化建設(shè)的重大舉措
        人民論壇(2016年31期)2016-12-06 11:03:11
        金融對農(nóng)業(yè)現(xiàn)代化發(fā)展的影響及對策實(shí)證分析
        人間(2016年24期)2016-11-23 15:40:08
        新型城鎮(zhèn)化背景下新型職業(yè)農(nóng)民培育機(jī)制研究
        貫徹新的發(fā)展理念 促進(jìn)農(nóng)業(yè)現(xiàn)代化
        新一代(2016年15期)2016-11-16 15:40:53
        在线观看在线观看一区二区三区| 大香视频伊人精品75| 久久亚洲日本免费高清一区 | 日本一区二区三区爆乳| 亚洲处破女av日韩精品| 国产91吞精一区二区三区| 人妻精品人妻一区二区三区四五| 国产在线视频91九色| 国产成人一区二区三区| 自拍欧美日韩| 亚洲天堂av大片暖暖| 青青草精品视频在线播放| 大桥未久亚洲无av码在线| 任你躁国产自任一区二区三区| 亚洲国产一区二区精品| 精品高朝久久久久9999| 亚洲精品无码成人a片| 亚洲精品6久久久久中文字幕| 久久青青草原一区网站| 日韩国产人妻一区二区三区| 亚洲 自拍 另类 欧美 综合| 国产一区二区三区国产精品| 国产亚洲av综合人人澡精品| 日本阿v片在线播放免费| 日本高清一区二区三区水蜜桃| 激情人妻中出中文字幕一区| 国产天堂av在线一二三四| 男人激烈吮乳吃奶视频免费| 精选麻豆国产AV| 国产影院一区二区在线| 亚洲精品天天影视综合网| 亚洲精品成人网久久久久久| 久久激情人妻中文字幕| 女优一区二区三区在线观看| 国产熟妇人妻精品一区二区动漫 | 成人免费无码视频在线网站| 一道之本加勒比热东京| 中文人妻熟妇乱又伦精品| 色999欧美日韩| 久久亚洲综合亚洲综合| 国产欧美一区二区精品久久久|