董靜
摘 要:隨著我國經濟的發(fā)展,經濟統(tǒng)計過程中會出現(xiàn)大量的、雜亂的、來源廣泛的數(shù)據(jù)。作為下一經濟活動的基礎,數(shù)據(jù)的利用非常重要,因此為經濟發(fā)展制定針對性的決策是社會各界關注的重點,統(tǒng)計部門也越來越重視經濟統(tǒng)計信息的真實性與可靠性。面對這樣復雜的經濟關系整體,傳統(tǒng)的數(shù)據(jù)統(tǒng)計與處理方法顯得異常薄弱,難以對深層次的數(shù)據(jù)進行智能分析,導致存在于數(shù)據(jù)中的聯(lián)系和價值被忽視,且對于虛假數(shù)據(jù)不具有較好的鑒別能力。因此,借助現(xiàn)代化的技術實施經濟分析成為社會發(fā)展的必然趨勢,數(shù)據(jù)挖掘顯示出其巨大的優(yōu)勢,本文從實際應用的角度出發(fā),分析數(shù)據(jù)挖掘技術的特點及其在實際經濟統(tǒng)計中的應用。
關鍵詞:經濟統(tǒng)計;海量數(shù)據(jù);數(shù)據(jù)挖掘;應用
跟隨著改革開放的步伐,我國社會經濟得到空前的發(fā)展,在幾十年的建設活動中也積累了海量的統(tǒng)計數(shù)據(jù)。由于這些經濟數(shù)據(jù)具有復雜性的特征,傳統(tǒng)的統(tǒng)計數(shù)據(jù)分析只能夠對其進行單純的數(shù)理知識分析,難以深入挖掘到數(shù)據(jù)的深層價值。開發(fā)利用的形式非常單一,遠遠不能夠滿足當今社會對于數(shù)據(jù)分析利用的要求。數(shù)據(jù)挖掘技術作為科技發(fā)展衍生的新型統(tǒng)計方法,其優(yōu)越性在于能夠實現(xiàn)對數(shù)據(jù)的橫向與縱向開發(fā),極大的延伸拓展經濟數(shù)據(jù)開發(fā)的范圍,從而獲取更多的具有深層價值的信息,為社會經濟發(fā)展與制定決策提供真實有效的依據(jù)。
1.數(shù)據(jù)挖掘技術的概述
數(shù)據(jù)挖掘技術一般指通過深層次開發(fā),從海量數(shù)據(jù)中挖掘出有價值信息并加以分析與整理,實現(xiàn)對凌亂復雜的信息數(shù)據(jù)的整合。這里的海量數(shù)據(jù)具有不完全性、模糊性、隨機性以及噪音性的特征,通過數(shù)據(jù)挖掘可以變成潛在有價值的、新穎的信息。數(shù)據(jù)挖掘不僅是經濟信息的轉換過程,更是一門具有學科交叉特征的技術,涉及到機器學習、數(shù)據(jù)統(tǒng)計、神經網絡以及數(shù)據(jù)庫等,在統(tǒng)計行業(yè)中得到非常廣泛的應用。應用數(shù)據(jù)挖掘技術所形成的數(shù)據(jù)形態(tài),能夠為數(shù)據(jù)使用者對數(shù)據(jù)信息的提取和應用提供很大的便利,基于技術層面可以說數(shù)據(jù)挖掘技術實現(xiàn)了對原始數(shù)據(jù)的深加工與精加工,具有高度的數(shù)據(jù)分析自主性。
2.數(shù)據(jù)挖掘技術在經濟統(tǒng)計工作中的應用優(yōu)勢
2.1綜合應用能力強
數(shù)據(jù)挖掘是一個完整的工作系統(tǒng)而非實現(xiàn)某一過程的工具,具有實現(xiàn)主體信息需求的特征。隨著經濟的穩(wěn)步增長,各個部門的發(fā)展都與經濟統(tǒng)計信息息息相關,應用經濟統(tǒng)計信息成為管理與決策的基礎。但是實際上不同的管理部門擁有的權限、管理的方式以及領域千差萬別,對經濟統(tǒng)計數(shù)據(jù)形式的需求也不同,因此對于經濟統(tǒng)計系統(tǒng)提出的要求更高。不但需要符合管理部門的數(shù)據(jù)要求,還應能夠將統(tǒng)計數(shù)據(jù)轉化為不同表現(xiàn)形式。得到的數(shù)據(jù)格式能夠在管理部門中錄入、統(tǒng)計和應用。數(shù)據(jù)挖掘技術的綜合性特征不斷促進系統(tǒng)應用深度和范圍的擴展。
2.2實際有效性強
數(shù)據(jù)挖掘技術是一種具有明確目的性的深加工技術。在經濟統(tǒng)計與應用過程中,可以基于使用者的需求實現(xiàn)對長時間累積的海量數(shù)據(jù)進行深加工,主要有兩種加工形式:其一是對海量數(shù)據(jù)管理實施高效化處理,基于經濟數(shù)據(jù)管理角度,在實際應用中通過信息的統(tǒng)計和分類,將雜亂無章的數(shù)據(jù)庫信息進行科學系統(tǒng)化的處理,以實現(xiàn)數(shù)據(jù)管理的高效性和有效性;其二是分析現(xiàn)有數(shù)據(jù)的目的性,以數(shù)據(jù)統(tǒng)計分析的目標作為指引,對原有的信息進行內容、關系以及形式上的加工處理,從而保證得到的經濟統(tǒng)計數(shù)據(jù)能夠更好的與管理者需求進行匹配。
2.3技術適用性強
我國的經濟管理部門職權相對來說較為分散,不同經濟管理部門中對于統(tǒng)計數(shù)據(jù)的需求也是不一樣的。在很多地區(qū)、很多經濟管理部門中的統(tǒng)計活動沿用傳統(tǒng)的方法,具有較大的局限性,難以為經濟管理活動的整體提供服務。在實際工作中經常存在數(shù)據(jù)統(tǒng)計工作重復或者缺失的現(xiàn)象,進而影響到經濟數(shù)據(jù)統(tǒng)計工作的效率和質量。盡快建設具有整合功能的統(tǒng)計系統(tǒng),實現(xiàn)數(shù)據(jù)信息融合是我國經濟管理部門的內在需求。而宏觀經濟統(tǒng)計數(shù)據(jù)庫的建設為數(shù)據(jù)挖掘技術的發(fā)展提供溫床,只要保證經濟統(tǒng)計信息的準確性,然后通過數(shù)據(jù)挖掘技術予以整合處理就能夠得到更精準、更豐富的數(shù)據(jù)資源。
3.數(shù)據(jù)挖掘技術在經濟統(tǒng)計中的應用
3.1集成化處理方法應用
數(shù)據(jù)集成所指的是對不同的數(shù)據(jù)進行整合,由雜亂變?yōu)檎w。隨著經濟的發(fā)展,收集到的數(shù)據(jù)信息量越來越龐大,信息的來源越來越廣,對信息集成造成一定的困難。由于社會經濟活動中數(shù)據(jù)的來源并不僅僅是官方統(tǒng)計局,多來源的數(shù)據(jù)呈現(xiàn)為不同的模式,進而導致經濟數(shù)據(jù)信息實體的識別問題。例如,實施數(shù)據(jù)挖掘過程中確定數(shù)據(jù)庫中的“std-id”和另一數(shù)據(jù)庫中“std-no”是否表示相同的實體,通過兩個數(shù)據(jù)庫之間含元數(shù)據(jù)的分析對比能夠保證實體數(shù)據(jù)識別的質量。對原始數(shù)據(jù)中呈現(xiàn)正相關關系的數(shù)據(jù)予以精簡處理,從而保證數(shù)據(jù)庫中的量維持在相對較低的水平上,才能夠為相關單位的管理和應用提供方便。在實際進行數(shù)據(jù)挖掘過程中無疑應當將數(shù)據(jù)精簡,減少數(shù)據(jù)量。
3.2預處理方法應用
原始數(shù)據(jù)大都是殘缺的、某些數(shù)據(jù)不一致,進行數(shù)據(jù)預處理是必要的環(huán)節(jié)。數(shù)據(jù)預處理是最基礎的處理方式,由于數(shù)據(jù)挖掘只有在提供基礎信息之上進行智能分析,其本身具有基礎信息限制的特點,無法代替數(shù)據(jù)收集的功能,只有通過預處理對不正確、不真實的數(shù)據(jù)進行清理,才能夠減少統(tǒng)計數(shù)據(jù)信息之間的差距。數(shù)據(jù)清理所指的是將原始數(shù)據(jù)信息中殘缺、空值以及存在噪聲的數(shù)據(jù)去除,一般采取均值法、預測法、平滑法或是頻率統(tǒng)計予以處理,針對具體數(shù)據(jù)信息進行選擇。如噪聲和存在空值的數(shù)據(jù)選擇均值法或平滑法進行清理,兩種方法之間的差異在于均值法中使用平均數(shù)、而平滑法中使用加權平均數(shù),平滑法更加注重每一個數(shù)據(jù)對于整體結果產生的權重影響,因此得到的統(tǒng)計分析數(shù)據(jù)結果更加精確。
3.3轉換方法應用
數(shù)據(jù)轉換所指的是應用某種方式將數(shù)據(jù)變換成滿足數(shù)據(jù)挖掘要求的形式,轉換的方法主要有數(shù)據(jù)規(guī)范化與數(shù)據(jù)泛化。前者又包含著最大規(guī)范化、最小規(guī)范化以及零均值規(guī)范化;而數(shù)據(jù)的泛化指的是使用高層次的數(shù)據(jù)信息對低層次的數(shù)據(jù)予以替代,其中包含對數(shù)據(jù)采取連續(xù)性處理,但是由于當前的手段要實現(xiàn)數(shù)據(jù)的連續(xù)性非常困難,因此通常選擇離散化,也就是對數(shù)據(jù)實施區(qū)間劃分,將某些數(shù)據(jù)直接使用標號表示,盡可能減少數(shù)據(jù)的收集量,也被稱為概念分層。
3.4決策樹方法應用
決策樹是一個預測模型,是對象屬性與對象值之間的一種映射關系。每個葉節(jié)點則對應從根節(jié)點到該葉節(jié)點所經歷的路徑所表示的對象的值。數(shù)據(jù)挖掘中決策樹是一種經常要用到的技術,可以用于分析數(shù)據(jù),也可以作預測。經過這一環(huán)節(jié)就能夠實現(xiàn)數(shù)據(jù)的輸出,數(shù)據(jù)的輸出形式會影響經濟管理部分決策人員對數(shù)據(jù)的使用。這一方法的關鍵在于構建決策樹:首先,通過訓練集建立決策樹并用測試集進行模型測試,進而實施精簡處理,隨后輸出模型;第二是通過構建完善的決策樹進行數(shù)據(jù)分類,這一過程又被稱為“遞歸”,從決策樹的根部開始輸入,到每個分支和葉節(jié)點,直到數(shù)據(jù)映射到限定屬性。停止分割的條件一般有兩種,一種是某一節(jié)點上的數(shù)據(jù)完全屬于相同類別,而另一種則是當前節(jié)點中的記錄數(shù)低于一個最小的閥值。在完成整個決策樹的構建之后,之所以對決策樹進行修剪,主要目的在于減少由于訓練集的使用對測試數(shù)據(jù)輸出的過度影響,就是所謂的過擬合問題。例如訓練樣本中的錯誤數(shù)據(jù)會被決策樹學習,成為決策樹的一部分,但是對于測試數(shù)據(jù)的表現(xiàn)就沒有想象的那么好,或者極差,這就是所謂的過擬合問題。在數(shù)據(jù)集中,過擬合的決策樹的錯誤率比經過簡化的決策樹的錯誤率要高。以某地區(qū)中歷年上報的企業(yè)數(shù)據(jù)為例,應用決策樹結合其他序列模式能夠得到差別率,然后通過決策樹可以實現(xiàn)對企業(yè)的分類:差別率超過20%的企業(yè)為I類、差別率在10%-20%之間的為II類、而差別率在10%以下的為III類。根據(jù)規(guī)模變化率及重大經營事件設定決策樹的規(guī)則,具體如下。
根據(jù)分析結果可以知道:A類企業(yè)省報的經營數(shù)據(jù)和預測值之間的差異非常大,與數(shù)據(jù)規(guī)律明顯不符,所以推測可能為虛假數(shù)據(jù),要提高數(shù)據(jù)真實性則需要對A類企業(yè)進行重點調查。當企業(yè)變化率小的情況下,需要了解重大經營事件,如果發(fā)生則應當重點調查,反之則不用。
圖1 企業(yè)分類決策樹示意圖
3.5回歸分析方法應用
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。應用回歸分析能夠建立變量之間的回歸方程,通過因素分析判別主要變量和次要變量及其之間的關系,并且只有通過各種檢驗,且預測誤差較小、才能將回歸方程作為預測模型進行預測。在數(shù)據(jù)挖掘過程中,回歸分析通常被應用于對市場占有率、品牌偏好以及銷售額等進行解釋,將其中兩個或以上的數(shù)量關系通過函數(shù)表達,從而便于進一步解決問題。數(shù)據(jù)挖掘過程中可以很好的解釋因變量之間的變化關系、強度,對自變量值進行預測。(1)簡單線性回歸分析,如自變量X和因變量Y之間具有正相關關系,可以得到直線方程,讓所有的數(shù)據(jù)點與該條直線接近,可以使用Y=a+bX表示,其中a為截距、b則是相關系數(shù);
(2)Logistic回歸分析,該回歸分析法的應用條件是:(1)要求各個觀測對象間是相互獨立的;(2)Logit P與自變量之間呈現(xiàn)線性關系;(3)當研究設計為隊列研究,橫斷面對照研究,在應用logistic回歸分析時,應具有相同的觀察時間;(4)隨著統(tǒng)計學技術以及相關軟件的發(fā)展,樣本量較小的情況下也可以采用精確logistic回歸分析,但是要求分析變量控制在一定的數(shù)值范圍內,且變量的分類不能多。判別分析群體中不符合正態(tài)分布的情況下,應用Logistic分析能夠得到更好的結果。通過預測事件發(fā)生的幾率,將自變量X與因變量Y之間的關系假定成為S狀,在自變量很小的情況下幾率值也接近于0;隨著自變量的增加、幾率值也會沿著曲線增加,達到一定程度之后,斜率逐漸減小,介于0-1之間。
結束語
總而言之,經濟統(tǒng)計活動是當代經濟管理中非常關鍵的環(huán)節(jié),也是經濟決策與管理的基礎,其對于市場經濟的建設和發(fā)展產生深遠的影響。社會主義市場經濟體制下需要根據(jù)經濟動態(tài)實時對決策進行調整,提高經濟統(tǒng)計活動的運行質量和效率非常重要。數(shù)據(jù)挖掘能夠對管理活動中海量數(shù)據(jù)、數(shù)據(jù)缺失、雜亂等現(xiàn)象進行整合和深度加工,使數(shù)據(jù)信息在經濟統(tǒng)計活動中得到更加廣泛的應用,滿足相關部門的統(tǒng)計需要,為政府的管理提供高質量的基礎數(shù)據(jù),產生巨大的社會和經濟效益。
參考文獻:
[1] 肖超峰.基于海量金融交易數(shù)據(jù)的客戶交易行為挖掘與應用[D].中國科學技術大學,2013.
[2] 黃兵,曹建國.基于數(shù)據(jù)倉庫和挖掘技術的政府決策設計與應用[J].淮海工學院學報(自然科學版),2014,(2):48-51.
[3] 習勤,米帥軍.指標篩選技術在神經網絡數(shù)據(jù)挖掘模型中的應用[J].統(tǒng)計與決策,2011,(10):163-165.
[4] 董春,胡晶,劉紀平等.基于空間統(tǒng)計學的空間關聯(lián)挖掘研究——在中國廣電產業(yè)分析中的應用[C].2005:453-466.
[5] 張倩.數(shù)據(jù)挖掘中的聚類算法在工業(yè)園區(qū)經濟發(fā)展中的比較應用——基于統(tǒng)計視角[D].云南財經大學,2013.