亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討

        2015-11-23 06:23:24胡為群祝利莉葉少挺彭一輝鄭可鋒
        浙江農(nóng)業(yè)科學(xué) 2015年3期
        關(guān)鍵詞:屬性數(shù)據(jù)代碼信息系統(tǒng)

        胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒

        (浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)

        省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討

        胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒*

        (浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)

        農(nóng)業(yè)資源屬性數(shù)據(jù)來(lái)源于諸多部門,在將其輸入存儲(chǔ)到計(jì)算機(jī)系統(tǒng)之前,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。根據(jù)浙江省和廣西壯族自治區(qū)農(nóng)業(yè)資源信息系統(tǒng)建設(shè)中遇到的問(wèn)題,對(duì)屬性數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程及數(shù)據(jù)標(biāo)準(zhǔn)化處理中數(shù)據(jù)編碼,行政代碼添加,缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理,數(shù)據(jù)轉(zhuǎn)換和驗(yàn)證等關(guān)鍵技術(shù)進(jìn)行探討。

        信息系統(tǒng);農(nóng)業(yè)資源;屬性數(shù)據(jù);標(biāo)準(zhǔn)化

        農(nóng)業(yè)資源是農(nóng)業(yè)生產(chǎn)的物質(zhì)基礎(chǔ)。農(nóng)業(yè)資源信息系統(tǒng)的開發(fā)與應(yīng)用是實(shí)現(xiàn)資源高效利用、科學(xué)規(guī)劃和可持續(xù)發(fā)展的有效途徑。利用先進(jìn)的信息技術(shù)和科學(xué)方法,可以為農(nóng)業(yè)資源的合理配置、高效利用和宏觀決策提供依據(jù)[1]。農(nóng)業(yè)資源信息系統(tǒng)通常涉及的屬性數(shù)據(jù)主要包括土地資源、水資源、氣候資源、農(nóng)業(yè)經(jīng)濟(jì)資源、人口與勞動(dòng)力資源等5個(gè)方面的數(shù)據(jù)。這些數(shù)據(jù)可能因調(diào)查過(guò)程中的工作失誤、地區(qū)間或年度間統(tǒng)計(jì)口徑不一致、抽樣方法或者測(cè)量方法不同等因素存在誤差或量綱不一致;也可能會(huì)在數(shù)據(jù)收集、錄入、轉(zhuǎn)換過(guò)程中出現(xiàn)錯(cuò)誤導(dǎo)致缺失、重復(fù)甚至錯(cuò)誤。因此,在將采集到的農(nóng)業(yè)資源信息屬性數(shù)據(jù)輸入存儲(chǔ)到計(jì)算機(jī)系統(tǒng)之前,必須對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,本文擬對(duì)此進(jìn)行方案探討。

        1 屬性數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程

        概括來(lái)講,屬性數(shù)據(jù)標(biāo)準(zhǔn)化處理的過(guò)程包括:數(shù)據(jù)生成、數(shù)據(jù)審查、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗(yàn)證等5大步驟[2-3]。

        1.1 數(shù)據(jù)生成

        將采集的數(shù)據(jù)統(tǒng)一采用格式化文本的數(shù)據(jù)存儲(chǔ)方法,統(tǒng)一數(shù)據(jù)字段,將所有相同意義字段的字段名稱、數(shù)據(jù)格式(包括數(shù)據(jù)類型,字段長(zhǎng)度)統(tǒng)一處理。使用統(tǒng)一的數(shù)據(jù)字典將數(shù)據(jù)表字段意義進(jìn)行統(tǒng)一定義。

        1.2 數(shù)據(jù)審查

        檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,字段值的內(nèi)容與調(diào)查要求是否一致,是否全面。此外,利用描述性統(tǒng)計(jì)分析,檢查各個(gè)字段的字段類型、字段值的最大值、最小值、平均數(shù)、中位數(shù)等,記錄個(gè)數(shù)、缺失值或空值個(gè)數(shù)等。

        1.3 數(shù)據(jù)清理

        針對(duì)數(shù)據(jù)審查過(guò)程中發(fā)現(xiàn)的明顯錯(cuò)誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)?shù)姆椒ㄟM(jìn)行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),以便后續(xù)的統(tǒng)計(jì)分析及預(yù)測(cè)分析能夠得出可靠的結(jié)果。當(dāng)然,數(shù)據(jù)清理還包括對(duì)重復(fù)記錄進(jìn)行的鑒別與刪除。

        1.4 數(shù)據(jù)轉(zhuǎn)換

        數(shù)據(jù)分析強(qiáng)調(diào)分析對(duì)象的可比性,但不同字段值由于統(tǒng)計(jì)口徑、計(jì)量單位等不同,往往會(huì)造成數(shù)據(jù)不可比。對(duì)一些統(tǒng)計(jì)指標(biāo)進(jìn)行綜合評(píng)價(jià)時(shí),如果統(tǒng)計(jì)指標(biāo)的性質(zhì)、計(jì)量單位不同,也容易引起評(píng)價(jià)結(jié)果出現(xiàn)較大誤差,再加上分析過(guò)程中的其他一些要求,因此需要在分析前對(duì)數(shù)據(jù)進(jìn)行相應(yīng)轉(zhuǎn)換。

        1.5 數(shù)據(jù)驗(yàn)證

        該步驟的目的是初步評(píng)估和判斷數(shù)據(jù)是否能夠滿足統(tǒng)計(jì)分析的需要,決定是否需要增加或減少數(shù)據(jù)量。一般可利用簡(jiǎn)單的線性模型,以及散點(diǎn)圖、直方圖、折線圖等圖形進(jìn)行探索性分析,或利用相關(guān)分析、一致性檢驗(yàn)等方法對(duì)數(shù)據(jù)的準(zhǔn)確性進(jìn)行驗(yàn)證,確保不把錯(cuò)誤和偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析中去。

        上述5個(gè)步驟是一個(gè)逐步深入、由表及里的過(guò)程。先是將采集的數(shù)據(jù)統(tǒng)一生成格式化的文本,然后從表面上查找容易發(fā)現(xiàn)的問(wèn)題(如數(shù)據(jù)記錄個(gè)數(shù)、最大值、最小值、缺失值或空值個(gè)數(shù)等),接著對(duì)發(fā)現(xiàn)的問(wèn)題進(jìn)行處理,即數(shù)據(jù)清理,再就是提高數(shù)據(jù)的可比性,對(duì)數(shù)據(jù)進(jìn)行一些變換,使數(shù)據(jù)在形式上滿足分析的需要,最后則是進(jìn)一步檢測(cè)數(shù)據(jù)內(nèi)容是否能夠滿足分析需要,診斷數(shù)據(jù)的真實(shí)性及數(shù)據(jù)之間的協(xié)調(diào)性等,確保優(yōu)質(zhì)的數(shù)據(jù)進(jìn)入信息系統(tǒng)。

        2 數(shù)據(jù)標(biāo)準(zhǔn)化處理的關(guān)鍵技術(shù)

        2.1 數(shù)據(jù)編碼

        數(shù)據(jù)的分類編碼是對(duì)數(shù)據(jù)資料進(jìn)行有效管理的重要依據(jù)。數(shù)據(jù)輸入計(jì)算機(jī)前,必須先按使用要求進(jìn)行分類。數(shù)據(jù)分類應(yīng)遵循唯一性、可擴(kuò)充性、易識(shí)別性、簡(jiǎn)單性、完整性的原則。通常省域農(nóng)業(yè)資源信息數(shù)據(jù)可分為5大類、8個(gè)一級(jí)庫(kù),見(jiàn)表1。大分類代碼多采用1~2位字母編碼,小分類采用1位數(shù)字編碼,一級(jí)代碼和二級(jí)代碼均采用2位數(shù)字編碼。標(biāo)識(shí)碼一般為空,如果出現(xiàn)歷年統(tǒng)計(jì)口徑不一致的情況,為了區(qū)分也可以采用。以對(duì)某地開展的人口調(diào)查為例,其數(shù)據(jù)編碼如表2所示,其中,P代表大分類“人口資源”,1為小類“人口”,后面為分級(jí)代碼。表中字段名由“表名-首字中文拼音全拼+其余拼音首字母”構(gòu)成,數(shù)字保持不變。

        表1 農(nóng)業(yè)資源信息數(shù)據(jù)分類

        表2 某地人口調(diào)查數(shù)據(jù)的編碼

        2.2 行政代碼添加

        由于數(shù)據(jù)服務(wù)層的數(shù)據(jù)表較多,多個(gè)數(shù)據(jù)表之前常具有主從關(guān)系,為了避免出錯(cuò),使它們保持關(guān)聯(lián)的一致性,在省域系統(tǒng)的所有數(shù)據(jù)表中都增加“行政代碼”字段,作為關(guān)聯(lián)的主鍵,當(dāng)數(shù)據(jù)在錄入和修改時(shí),使各表數(shù)據(jù)始終保持一致性。行政代碼分類采用現(xiàn)有的行政體系劃分方法,用6位數(shù)字表示,例如330122表示桐廬縣。

        作為數(shù)據(jù)表的主鍵,不同表中的行政單位名稱常會(huì)存在排列順序不一致,行政單位名稱叫法不一致,如“杭州市”“杭州地區(qū)”“杭州”,或者隨著行政地區(qū)區(qū)域的變化,不同年份的行政代碼可能不一樣的問(wèn)題。為了解決這些問(wèn)題,建議在多個(gè)表之間共享一套代碼地區(qū)對(duì)照表。在本研究中,我們采用了Excel中“宏”的方法來(lái)實(shí)現(xiàn)。下面以W 20101水產(chǎn)品產(chǎn)量為例來(lái)說(shuō)明整個(gè)過(guò)程。

        打開表W 20101,選擇工具→宏→Visual Basic編輯器。選擇文件→導(dǎo)入文件,選擇編寫好的代碼,如圖1所示,選擇2000年的數(shù)據(jù),代碼如下:

        Attribute VB-Name=“模塊1”

        Public Function code2000(ByVal str As String)

        Select Case str

        Case“浙江省”

        code2000=“330000”

        Case“杭州”

        code2000=“330100”

        Case“杭州地區(qū)”

        code2000=“330100”

        Case“杭州市”

        code2000=“330100”

        Case“余杭”

        code2000=“330184”

        Case“余杭縣”

        code2000=“330184”

        Case“余杭市”

        code2000=“330184”

        ……

        Case Else

        code2000=“”

        End Select

        End Function

        圖1 代碼選擇界面

        選中導(dǎo)入的模塊,工具→宏,輸入宏名字,如a2000,點(diǎn)擊創(chuàng)建,再選擇工具→宏→選擇a2000,運(yùn)行,點(diǎn)擊保存,退出。

        返回到表W 20101,使用trim函數(shù)把行政單位名稱前后空格刪除,插入一空列,找到2000年的數(shù)據(jù),從第一個(gè)行政單位“浙江省”開始,在空白單元格中輸入“=code2000(C898)”,其中“C898”為第一個(gè)行政單位所在的位置,下拉,直到2000年的數(shù)據(jù)結(jié)束。選中生成的行政地區(qū)代碼,選擇性粘貼為數(shù)值型,其他年份做法相同。

        2.3 缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理

        2.3.1 缺失數(shù)據(jù)處理

        對(duì)于缺失數(shù)據(jù),通常由人工填寫,采用默認(rèn)值、平均值或者同類別平均值填補(bǔ)的方法完成。另有些數(shù)據(jù)可以通過(guò)數(shù)據(jù)轉(zhuǎn)換獲得,例如總?cè)丝跀?shù)可以通過(guò)農(nóng)業(yè)人口與非農(nóng)人口求和來(lái)完成。對(duì)于一些要求更精確的數(shù)據(jù),則可通過(guò)回歸分析、貝葉斯方法或決策樹推斷該記錄特定屬性的最可能取值,這類方法可以最大限度地利用現(xiàn)有的數(shù)據(jù)信息來(lái)推測(cè)遺漏數(shù)據(jù)值,因而效果最好。

        2.3.2 噪聲數(shù)據(jù)處理

        噪聲是指被測(cè)變量的隨機(jī)錯(cuò)誤或偏差,包括錯(cuò)誤的值或偏離期望的孤立點(diǎn)??梢杂靡韵录夹g(shù)來(lái)平滑噪聲數(shù)據(jù),識(shí)別和刪除孤立點(diǎn)。

        分箱方法:將存儲(chǔ)的值分布到一些箱中,通過(guò)考查“鄰居”來(lái)局部平滑存儲(chǔ)數(shù)據(jù)的值。如可以采用暗箱的平均值、中值或箱邊界值進(jìn)行平滑。

        聚類:將類似的值組織成群或“聚類”,落在聚類集合之外的值視為異常數(shù)據(jù)。對(duì)于異常數(shù)據(jù),如果是垃圾數(shù)據(jù),則予以清除,否則保留作為重要數(shù)據(jù)進(jìn)行孤立點(diǎn)分析。

        回歸方法:利用擬合函數(shù),如線性回歸、多元回歸等來(lái)平滑數(shù)據(jù)、幫助除去噪聲。

        人機(jī)結(jié)合檢查方法:首先由計(jì)算機(jī)識(shí)別并輸出那些差異程度大于某個(gè)閾值的數(shù)據(jù),然后人工審核這些數(shù)據(jù),確定孤立點(diǎn)。這種方法比單純的人工檢查要快。

        2.3.3 重復(fù)數(shù)據(jù)的處理

        通過(guò)對(duì)行政地區(qū)代碼+年份進(jìn)行篩選,能夠發(fā)現(xiàn)重復(fù)的記錄,然后進(jìn)行刪除。

        2.4 數(shù)據(jù)轉(zhuǎn)換和驗(yàn)證

        數(shù)據(jù)轉(zhuǎn)換主要是為了實(shí)現(xiàn)數(shù)據(jù)分析的可比性,而對(duì)數(shù)據(jù)進(jìn)行的規(guī)格化處理,主要針對(duì)計(jì)量單位的差異,采用歸一化處理,例如農(nóng)作物播種面積單位用“公頃”,總產(chǎn)量單位用“噸”,單位面積產(chǎn)量單位用“千克”,日照時(shí)數(shù)用“小時(shí)”等。針對(duì)數(shù)據(jù)層級(jí)不同可采用數(shù)據(jù)匯總、泛化等方法實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換,例如通過(guò)各月降水量可以匯總得到年降水量,通過(guò)各月日照時(shí)數(shù)可以匯總得到全年日照時(shí)數(shù)等。

        數(shù)據(jù)驗(yàn)證階段的任務(wù)是確認(rèn)數(shù)據(jù)的正確性與有效性,檢查數(shù)據(jù)的邏輯轉(zhuǎn)換是否對(duì)數(shù)據(jù)造成扭曲或偏差。根據(jù)不同的需要可供選擇的方法較多,比如可以通過(guò)極值來(lái)檢查數(shù)據(jù)是否超出范圍,通過(guò)求和來(lái)檢查合計(jì)值是否為各分項(xiàng)之和,還可以利用時(shí)間序列的預(yù)測(cè)值與實(shí)際值的比較來(lái)進(jìn)行檢驗(yàn)。即以現(xiàn)有數(shù)據(jù)為基礎(chǔ),利用各個(gè)變量自身發(fā)展情況的走勢(shì)進(jìn)行最優(yōu)化模擬,建立相應(yīng)的時(shí)間序列模型,對(duì)相應(yīng)指標(biāo)進(jìn)行預(yù)測(cè),得到該指標(biāo)在理論上應(yīng)該達(dá)到的數(shù)值,然后與實(shí)際數(shù)據(jù)相對(duì)比,以此評(píng)價(jià)實(shí)際數(shù)據(jù)與理論值的接近程度。

        3 小結(jié)

        屬性數(shù)據(jù)的標(biāo)準(zhǔn)化處理能有效地提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。標(biāo)準(zhǔn)化處理的方法多種多樣,筆者從實(shí)踐經(jīng)驗(yàn)出發(fā),形成了上述的省級(jí)農(nóng)業(yè)資源信息系統(tǒng)資源屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案,并在多個(gè)項(xiàng)目中得到了驗(yàn)證和應(yīng)用。由于屬性數(shù)據(jù)的準(zhǔn)確性、完整性直接影響著農(nóng)業(yè)資源信息系統(tǒng)的可靠性和可用性,而當(dāng)前統(tǒng)計(jì)工作中又存在諸多新的不確定因素和問(wèn)題,都可能影響屬性數(shù)據(jù)的質(zhì)量,因此,本文涉及的標(biāo)準(zhǔn)化處理方法也應(yīng)隨著實(shí)踐的發(fā)展不斷充實(shí)、完善。

        [1] 陳旭,畢軍芳,仇天月,等.基于共享服務(wù)模式的農(nóng)業(yè)資源管理W ebGIS系統(tǒng)構(gòu)建[J].中國(guó)農(nóng)學(xué)通報(bào),2013,29(11):115-120.

        [2] 王勝.關(guān)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量存在的問(wèn)題及其對(duì)策研究[J].現(xiàn)代經(jīng)濟(jì)信息,2010(24):206-208.

        [3] 張新茹.論統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量問(wèn)題[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2005,15(17):124-125.

        (責(zé)任編輯:高 峻)

        S 126

        A

        0528-9017(2015)03-0425-03

        10.16178/j.issn.0528-9017.20150344

        2014-12-04

        浙江省其他廳局項(xiàng)目(2011R28A60C01)

        胡為群(1977-),女,助理研究員,碩士,從事農(nóng)業(yè)信息化工作。E-mail:hwq6629@sina.com。

        鄭可鋒(1963-),男,研究員,碩士,主要從事農(nóng)業(yè)信息化工作。

        文獻(xiàn)著錄格式:胡為群,祝利莉,葉少挺,等.省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討[J].浙江農(nóng)業(yè)科學(xué),2015,56(3): 425-428.

        猜你喜歡
        屬性數(shù)據(jù)代碼信息系統(tǒng)
        企業(yè)信息系統(tǒng)安全防護(hù)
        哈爾濱軸承(2022年1期)2022-05-23 13:13:18
        基于GIS的房產(chǎn)測(cè)繪管理信息系統(tǒng)架構(gòu)研究
        科技資訊(2019年18期)2019-09-17 11:03:28
        無(wú)源多傳感器綜合數(shù)據(jù)關(guān)聯(lián)算法研究
        屬性數(shù)據(jù)分析教學(xué)改革初探
        創(chuàng)世代碼
        創(chuàng)世代碼
        創(chuàng)世代碼
        創(chuàng)世代碼
        基于區(qū)塊鏈的通航維護(hù)信息系統(tǒng)研究
        電子制作(2018年11期)2018-08-04 03:25:54
        信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
        白白色福利视频在线观看| 99久久综合狠狠综合久久| 国产亚洲女在线线精品| av网站在线观看二区| 一本大道道久久综合av| 久久精品国产视频在热| 国产成人精品三级91在线影院 | 看日本全黄色免费a级| 精品无码人妻一区二区三区不卡| 亚洲一级毛片免费在线观看| 日韩av不卡一二三区| 久久精品女人av一区二区| 亚洲综合激情五月丁香六月| 日韩久久一级毛片| 日韩一区二区,亚洲一区二区视频| 人妻免费一区二区三区免费| 国产成人亚洲综合色婷婷| 欧美一级视频精品观看 | 在线中文字幕一区二区| 成午夜精品一区二区三区| 亚洲国际无码中文字幕| 黑人一区二区三区啪啪网站| 中文字幕亚洲一区二区不下| 国产精品久久久久久亚洲av| 国产自产c区| 一区二区三区观看视频在线| 成年女人a级毛片免费观看| 精品久久久久久久久久久aⅴ| 亚洲一区二区三区99区| 97cp在线视频免费观看| 麻豆精品久久久久久久99蜜桃| 欧美xxxx新一区二区三区| 麻豆成人久久精品二区三区免费| 女人高潮内射99精品| 暖暖免费 高清 日本社区在线观看 | 制服无码在线第一页| 漂亮人妻出轨中文字幕| 国产三区在线成人av| jjzz日本护士| 国产洗浴会所三级av| 三年的高清电影免费看|