楊磊
摘 要:統(tǒng)計數(shù)據(jù)處理是提升數(shù)據(jù)質(zhì)量的一個重要的手段。主要包括數(shù)據(jù)的審查、數(shù)據(jù)的清理以及數(shù)據(jù)的轉(zhuǎn)換等等。根據(jù)數(shù)據(jù)處理的對象以及不同的目標,統(tǒng)計數(shù)據(jù)可以使用的處理問題的方法有很多,最主要的方式就是進行探索性的分析以及非正常狀態(tài)的處理等,還需要選用比較恰當?shù)姆椒ㄟM行數(shù)據(jù)統(tǒng)計的處理,有利于保證數(shù)據(jù)的真實性和有效性等等。
關(guān)鍵詞:統(tǒng)計數(shù)據(jù);處理理論;方法探究
1 統(tǒng)計數(shù)據(jù)處理理論
數(shù)據(jù)的處理屬于數(shù)據(jù)挖掘中的一個主要的概念,主要指的是在對數(shù)據(jù)進行挖掘的之前,能夠針對海量的數(shù)據(jù)進行噪聲數(shù)據(jù)以及其他的一些不和諧的數(shù)據(jù)采取一些措施,目的就是為了保證數(shù)據(jù)的真實性以及可靠性。對數(shù)據(jù)處理的概念進行相應(yīng)的拓展以及處理,最主要的對象就是包括數(shù)據(jù)以及調(diào)查的對象,能夠形成數(shù)據(jù)的處理,他的范圍也更加的廣闊、內(nèi)容也是更加的豐富,使用的主要的方法也是最多的[1]。
2 統(tǒng)計數(shù)據(jù)處理的意義
統(tǒng)計數(shù)據(jù)主要用于調(diào)查的過程中,能夠與不同的調(diào)查者進行分析,所選取的抽樣的方式是否合理與結(jié)果有著非常緊密的聯(lián)系。利用信息的收回系統(tǒng)就能夠主觀的去記錄相應(yīng)的數(shù)據(jù),因為數(shù)據(jù)的錄入的功能過程中出現(xiàn)失誤,能夠出現(xiàn)錯誤性的字段,進而能夠記錄丟失的數(shù)據(jù)。在進行正式的數(shù)據(jù)分析以前,必須要對統(tǒng)計數(shù)據(jù)進行處理,為了對數(shù)據(jù)的質(zhì)量進行診斷以及提升。
數(shù)據(jù)處理的公布系統(tǒng)不斷的加入,就要求我們國家的統(tǒng)計數(shù)據(jù)的程序進一步加強,對數(shù)據(jù)的可信程度進行加強,在市場體制的不斷改革之下,政府對于數(shù)據(jù)的可信程度提出了更高的要求[2],能夠不斷的反應(yīng)經(jīng)濟的整體運行的趨勢以及統(tǒng)計數(shù)據(jù),數(shù)據(jù)也一定要及時和準確,能夠及時的反應(yīng)經(jīng)濟的運行的統(tǒng)計。
社會各界對于統(tǒng)計數(shù)據(jù)的需求也在逐漸的增加,對于數(shù)據(jù)的質(zhì)量要求也在逐漸的提高,數(shù)據(jù)質(zhì)量確不能夠滿足現(xiàn)狀,為了解決這個矛盾,人們經(jīng)常在各個角度去完善統(tǒng)計制度,構(gòu)建各個方面的合理化的指標,適當?shù)氖褂煤侠淼恼{(diào)查分析額方法,不能夠忽略統(tǒng)計數(shù)據(jù)的處理這個步驟,缺少對于檢測以及數(shù)據(jù)質(zhì)量關(guān)鍵性的步驟的研究的手段。
3 數(shù)據(jù)處理的過程
整體概括來說,統(tǒng)計數(shù)據(jù)的處理主要包括幾個大的步驟。首先就是數(shù)據(jù)的審查,數(shù)據(jù)的審查就是為了保證滿足數(shù)據(jù)的最低的要求,內(nèi)容就是包括能否能夠?qū)嶋H的調(diào)查一致,利用整體的統(tǒng)計觀點進行分析,檢查各個字段的數(shù)據(jù)類型進行檢查,字段的大小可以根據(jù)實際所測的數(shù)據(jù)來確定,可以將其分為大小、平均數(shù)據(jù)等等幾個類型。其次,就是數(shù)據(jù)的清理工作,在審查的過程中如果能夠發(fā)現(xiàn)比較明顯的錯誤的話,就需要選取適當?shù)姆椒ㄟM行數(shù)據(jù)的清理工作,將數(shù)據(jù)變?yōu)橛杏玫男畔ⅲ瑪?shù)據(jù)的清理還包括對重復(fù)性數(shù)據(jù)進行刪除的工作。第三,就是數(shù)據(jù)的轉(zhuǎn)換。數(shù)據(jù)的轉(zhuǎn)換最主要強調(diào)的就是分析的對象的可比性能,不同的字段因為計量的單位有很大的差距[3],很容易就引起結(jié)果出現(xiàn)一定的誤差,分析上述過程的其他的一些要求,也需要在分析之前進行數(shù)據(jù)的變換,其中最主要的就是隨數(shù)據(jù)進行沒有量綱進行處理。最后,就需要數(shù)據(jù)的驗證工作,這個步驟目的就是為了初步去評估數(shù)據(jù)是否滿足統(tǒng)計分析的一些具體的要求,決定是否需要進一步去加強或者減少數(shù)據(jù)的數(shù)量。還需要利用整體的數(shù)據(jù)構(gòu)建模型,使用線性的模型進行相關(guān)性的分析,以此來確保能夠把不錯誤的信息傳輸給數(shù)據(jù)庫。
以上的幾個主要的步驟就是一個由淺及深的一個過程,能夠進行整體化的分析需要,進一步檢測數(shù)據(jù)是否能夠進行協(xié)調(diào),以此來確保數(shù)據(jù)的優(yōu)質(zhì)分析階段。對已經(jīng)發(fā)現(xiàn)的問題進行及時的處理[4],以及正確的診斷性的工作。
4 統(tǒng)計數(shù)據(jù)處理的方法體系
首先,就是進行探索式的分析。描述性的統(tǒng)計技術(shù)主要就是針對數(shù)據(jù)進行的一項統(tǒng)計,頻數(shù)的分析就是為了利用非連續(xù)性的頻數(shù)表,報告出整體的變量的個數(shù),進而能夠確定整體的統(tǒng)計分量的數(shù)值。在進行探索式的分析的時候,需要使用圖形對數(shù)據(jù)進行直觀的考察,使得我們能夠認識到數(shù)據(jù)接近的程度是否有其他的數(shù)據(jù)摻入其中,數(shù)據(jù)是否出現(xiàn)了間隙[5]。
其次,就是缺失值的處理,缺失的數(shù)據(jù)的產(chǎn)生通過探討缺失的數(shù)據(jù)是否根據(jù)有關(guān)數(shù)據(jù)進行界定,缺失的數(shù)據(jù)就會隨機出現(xiàn),就能夠缺失的數(shù)據(jù)進行研究,對于變量進行研究,這是不能夠忽略的。對于缺失的數(shù)據(jù)的處理方法也是需要進一步磨滅的。
最后,就是需要異常值處理。異常值又稱為孤立的一點,異常處理的首要的任務(wù)就是檢測孤立的點[6],異常值就是數(shù)據(jù)處理的質(zhì)量的問題,也是客觀事物的真實性的反映,檢測出異常值以后必須要確定檢測值的異常,進行統(tǒng)一的幾輛以及距離的確定,這都屬于偏離的方法。
5 結(jié)語
統(tǒng)計數(shù)據(jù)的處理是在數(shù)據(jù)的采集以后,進行數(shù)據(jù)的處理,再進行使用。從統(tǒng)計數(shù)據(jù)處理的過程來看,無論是數(shù)據(jù)還是整體的數(shù)據(jù),能夠進行描述以及探索性的分析。隨著數(shù)據(jù)的本身的質(zhì)量的好壞以及要求的高低,對于方法的使用各有側(cè)重。
參考文獻
[1]吳忠良;;統(tǒng)計數(shù)據(jù)對農(nóng)業(yè)生產(chǎn)的理論指導(dǎo)與實踐[J];甘肅農(nóng)業(yè);2006年03期
[2]陳震;陳維默;;淺談數(shù)據(jù)挖掘技術(shù)[A];福建省科協(xié)第五屆學(xué)術(shù)年會數(shù)字化制造及其它先進制造技術(shù)專題學(xué)術(shù)年會論文集[C];2005年
[3]謝文;翟均平;胡娟;;玉米數(shù)據(jù)庫管理信息系統(tǒng)的設(shè)計與實現(xiàn)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年12期
[4]章鐘基;提高統(tǒng)計數(shù)據(jù)質(zhì)量的探討[J];統(tǒng)計研究;1989年03期
[5]余芳東;國外統(tǒng)計數(shù)據(jù)質(zhì)量的涵義及評價和管理[N];中國信息報;2002年
[6]黃樹顏;回歸方法的數(shù)據(jù)預(yù)處理及其應(yīng)用[J];統(tǒng)計研究;1986年02期