崔丹
摘要:如今,經(jīng)濟統(tǒng)計尚且普遍存在數(shù)據(jù)庫龐大、復(fù)雜且數(shù)據(jù)質(zhì)量低下等亟待解決的問題。究其根本,對于數(shù)據(jù)的統(tǒng)計、處理方法仍然停留于報表分析統(tǒng)計的層面,深層次的智能性處理分析十分缺乏,使得潛在于數(shù)據(jù)間的聯(lián)系及價值易被忽略,同時虛假數(shù)據(jù)鑒別水平較低。針對這些問題,我們探討了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的相關(guān)應(yīng)用,旨在為相關(guān)引用提供一定借鑒。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 經(jīng)濟統(tǒng)計 應(yīng)用探索
傳統(tǒng)數(shù)據(jù)處理利用的主要是數(shù)理統(tǒng)計學(xué)知識及軟件,對經(jīng)濟統(tǒng)計數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)利用形式相對單一、深度有限,遠不能滿足如今經(jīng)濟數(shù)據(jù)的分析利用要求。而相比之下,數(shù)據(jù)挖掘技術(shù)一方面能夠在已有統(tǒng)計水平的基礎(chǔ)上剔除虛假數(shù)據(jù)、改善數(shù)據(jù)質(zhì)量,另一方面能夠深層次挖掘數(shù)據(jù)之間聯(lián)系、充分利用數(shù)據(jù)。因此,對于相關(guān)方面的探索十分具有必要性。
一、數(shù)據(jù)的預(yù)處理
沒有高質(zhì)量數(shù)據(jù),必然沒有高質(zhì)量數(shù)據(jù)挖掘的結(jié)果,而在實際數(shù)據(jù)挖掘的過程中,由于收集到的數(shù)據(jù)難免會存在有缺漏、重要數(shù)據(jù)不全、不一致及含有噪聲等問題,因此對于數(shù)據(jù)的預(yù)處理是首要而關(guān)鍵的步驟。對于數(shù)據(jù)的預(yù)處理主要包括以下四個部分。
(一)數(shù)據(jù)清理
顧名思義,數(shù)據(jù)清理的目的即通過適當(dāng)?shù)姆椒▽⑵渲腥睋p、不一致及噪聲清除掉,以此提升數(shù)據(jù)的整體質(zhì)量。通常采用的方法包括均值法、平滑法、預(yù)測法及頻率統(tǒng)計法。不同的方法所對應(yīng)的實際情況不同,若數(shù)據(jù)為噪聲數(shù)據(jù)或是空值,所要采用的方法為均值法或平滑法,相比于均值法,平滑法講求將k個不為空的數(shù)據(jù)取加權(quán)平均值作為替換(均值法以k個不為空的數(shù)據(jù)的平均值作為替換);預(yù)測法用于推斷噪聲數(shù)據(jù)或空值得最可能取值;預(yù)測法主要用于數(shù)據(jù)的缺損處理。
(二)數(shù)據(jù)集成
通常情況下,數(shù)據(jù)是自不同數(shù)據(jù)源挖掘的,而我們在實際處理、分析及應(yīng)用過程中,便要將它們集合成為一個整體,這便是數(shù)據(jù)集成的過程。在實際中,統(tǒng)計部門先由各地方統(tǒng)計局進行經(jīng)濟數(shù)據(jù)的廣泛收集,其次要做的便是數(shù)據(jù)集成,不可避免的會帶來若干問題,如模式集成問題,即怎樣確定來自不同數(shù)據(jù)源的數(shù)據(jù)能夠互相匹配;冗余問題,即假使一個數(shù)據(jù)的屬性能夠由另外數(shù)據(jù)庫中數(shù)據(jù)的屬性推論得出,則出現(xiàn)冗余問題;另外,還有數(shù)據(jù)沖突甚至消除,這一問題指的是來自于不同數(shù)據(jù)源的數(shù)據(jù)可能出現(xiàn)因差異導(dǎo)致的相互排斥。
(三)數(shù)據(jù)變換
通過一定方式將數(shù)據(jù)變換成與之相當(dāng),且適合信息挖掘的形式,即數(shù)據(jù)變換,主要包括數(shù)據(jù)的規(guī)范化和泛化。數(shù)據(jù)的規(guī)范化,主要包括零均值規(guī)范化、最大最小規(guī)范化等;而數(shù)據(jù)的泛化則是將低數(shù)據(jù)層或?qū)哟蔚臄?shù)據(jù)用高層次概念取而代之。
(四)數(shù)據(jù)的離散化及概念分層
現(xiàn)實中的數(shù)據(jù)具有連續(xù)性,而在已發(fā)現(xiàn)的處理算法中能處理連續(xù)性數(shù)據(jù)的還較少。數(shù)據(jù)的離散化即通過區(qū)間的劃分來用標(biāo)號代替某一實際數(shù)據(jù),達到數(shù)據(jù)的解連續(xù)。概念分層是通過提高數(shù)據(jù)層次概念來減少數(shù)據(jù)的收集量。
二、關(guān)聯(lián)規(guī)則及決策樹
(一)關(guān)聯(lián)規(guī)則
在數(shù)據(jù)挖掘領(lǐng)域中,關(guān)聯(lián)規(guī)則挖掘具有高度的靈活性和重要性,主要是對數(shù)據(jù)集合中數(shù)據(jù)屬性的相關(guān)性聯(lián)系進行反映,整個過程通過對集合中的關(guān)聯(lián)、頻繁模式及因果結(jié)構(gòu)進行查找,以查找容易被忽略或與人們熟知相背離的事件。經(jīng)濟統(tǒng)計中數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘,能夠分析出大范圍(如整個地區(qū)、甚至國家)內(nèi)關(guān)系密切聯(lián)系的行業(yè)。能夠借助于不同屬性的數(shù)據(jù),來找尋具有相關(guān)聯(lián)系的屬性。在實際運用當(dāng)中,很多屬性之間所存在的關(guān)系為人們所知曉,被稱為平凡規(guī)則,如提升工業(yè)總產(chǎn)值能夠帶來生產(chǎn)總值的增加。通過平凡規(guī)則,我們能夠?qū)?shù)據(jù)質(zhì)量的高低進行判斷,這一過程便是我們經(jīng)常說的通過熟知的關(guān)聯(lián)關(guān)系來確定數(shù)據(jù)是否與集合具有一致性,以此達到消除虛假數(shù)據(jù)的目的。
(二)決策樹
決策樹算法十分直觀、常用,這一過程的關(guān)鍵是決策樹的有效構(gòu)建,主要分為建樹及剪枝階段。通過決策樹對數(shù)據(jù)分類主要由兩個步驟組成:其一,決策樹模型的構(gòu)建,即通過訓(xùn)練集實現(xiàn)一顆決策樹的構(gòu)建及精化;其二,將輸入的數(shù)據(jù)通過決策樹進行分類處理。當(dāng)將數(shù)據(jù)輸入決策樹時,會由根節(jié)點對屬性值依次進行測試并記錄,然后到達葉子節(jié)點,來實現(xiàn)尋找記錄所在類。從整體來看,決策樹算法屬于遞歸過程,一直進行到滿足終止條件為止。分割停止要滿足兩個條件:其一為某一個節(jié)點上數(shù)據(jù)都同屬一類;其二是能夠進行數(shù)據(jù)分割的點已經(jīng)耗盡。這一過程主要用于解決數(shù)據(jù)挖掘的預(yù)測及分類方面問題。
三、結(jié)束語
數(shù)據(jù)挖掘在未來的經(jīng)濟統(tǒng)計中具有十分可觀的應(yīng)用前景,能夠深層次分析處理數(shù)據(jù),使數(shù)據(jù)質(zhì)量提高,幫助政府及企事業(yè)單位有效進行政策制定、計劃擬制及行政事務(wù)的管理,創(chuàng)造更大經(jīng)濟效益和社會價值。本文主要從數(shù)據(jù)的預(yù)處理和關(guān)聯(lián)規(guī)則和決策樹兩個方面對數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中應(yīng)用進行淺析和探索,旨在為行業(yè)提供一定的借鑒。
參考文獻:
[1]行智國,呂斌.數(shù)據(jù)挖掘及其在官方統(tǒng)計中的應(yīng)用前景[J].江蘇統(tǒng)計;2010年02期:11-12
[2]王斌會,曲穎.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用現(xiàn)狀[J].統(tǒng)計與決策;2010年10期:22-23
[3]韓江,鄒建民.數(shù)據(jù)挖掘——極具發(fā)展?jié)摿Φ男骂I(lǐng)域[N].蘇州市職業(yè)大學(xué)學(xué)報;2010年01期:27-28endprint