亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用探索

2014-03-20 20:10:53崔丹

財經(jīng)界·學(xué)術(shù)版 2014年3期

關(guān)鍵詞：經(jīng)濟統(tǒng)計數(shù)據(jù)挖掘技術(shù)應(yīng)用探索

崔丹

摘要：如今，經(jīng)濟統(tǒng)計尚且普遍存在數(shù)據(jù)庫龐大、復(fù)雜且數(shù)據(jù)質(zhì)量低下等亟待解決的問題。究其根本，對于數(shù)據(jù)的統(tǒng)計、處理方法仍然停留于報表分析統(tǒng)計的層面，深層次的智能性處理分析十分缺乏，使得潛在于數(shù)據(jù)間的聯(lián)系及價值易被忽略，同時虛假數(shù)據(jù)鑒別水平較低。針對這些問題，我們探討了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的相關(guān)應(yīng)用，旨在為相關(guān)引用提供一定借鑒。

關(guān)鍵詞：數(shù)據(jù)挖掘技術(shù) 經(jīng)濟統(tǒng)計應(yīng)用探索

傳統(tǒng)數(shù)據(jù)處理利用的主要是數(shù)理統(tǒng)計學(xué)知識及軟件，對經(jīng)濟統(tǒng)計數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)利用形式相對單一、深度有限，遠不能滿足如今經(jīng)濟數(shù)據(jù)的分析利用要求。而相比之下，數(shù)據(jù)挖掘技術(shù)一方面能夠在已有統(tǒng)計水平的基礎(chǔ)上剔除虛假數(shù)據(jù)、改善數(shù)據(jù)質(zhì)量，另一方面能夠深層次挖掘數(shù)據(jù)之間聯(lián)系、充分利用數(shù)據(jù)。因此，對于相關(guān)方面的探索十分具有必要性。

一、數(shù)據(jù)的預(yù)處理

沒有高質(zhì)量數(shù)據(jù)，必然沒有高質(zhì)量數(shù)據(jù)挖掘的結(jié)果，而在實際數(shù)據(jù)挖掘的過程中，由于收集到的數(shù)據(jù)難免會存在有缺漏、重要數(shù)據(jù)不全、不一致及含有噪聲等問題，因此對于數(shù)據(jù)的預(yù)處理是首要而關(guān)鍵的步驟。對于數(shù)據(jù)的預(yù)處理主要包括以下四個部分。

（一）數(shù)據(jù)清理

顧名思義，數(shù)據(jù)清理的目的即通過適當(dāng)?shù)姆椒▽⑵渲腥睋p、不一致及噪聲清除掉，以此提升數(shù)據(jù)的整體質(zhì)量。通常采用的方法包括均值法、平滑法、預(yù)測法及頻率統(tǒng)計法。不同的方法所對應(yīng)的實際情況不同，若數(shù)據(jù)為噪聲數(shù)據(jù)或是空值，所要采用的方法為均值法或平滑法，相比于均值法，平滑法講求將k個不為空的數(shù)據(jù)取加權(quán)平均值作為替換（均值法以k個不為空的數(shù)據(jù)的平均值作為替換）；預(yù)測法用于推斷噪聲數(shù)據(jù)或空值得最可能取值；預(yù)測法主要用于數(shù)據(jù)的缺損處理。

（二）數(shù)據(jù)集成

通常情況下，數(shù)據(jù)是自不同數(shù)據(jù)源挖掘的，而我們在實際處理、分析及應(yīng)用過程中，便要將它們集合成為一個整體，這便是數(shù)據(jù)集成的過程。在實際中，統(tǒng)計部門先由各地方統(tǒng)計局進行經(jīng)濟數(shù)據(jù)的廣泛收集，其次要做的便是數(shù)據(jù)集成，不可避免的會帶來若干問題，如模式集成問題，即怎樣確定來自不同數(shù)據(jù)源的數(shù)據(jù)能夠互相匹配；冗余問題，即假使一個數(shù)據(jù)的屬性能夠由另外數(shù)據(jù)庫中數(shù)據(jù)的屬性推論得出，則出現(xiàn)冗余問題；另外，還有數(shù)據(jù)沖突甚至消除，這一問題指的是來自于不同數(shù)據(jù)源的數(shù)據(jù)可能出現(xiàn)因差異導(dǎo)致的相互排斥。

（三）數(shù)據(jù)變換

通過一定方式將數(shù)據(jù)變換成與之相當(dāng)，且適合信息挖掘的形式，即數(shù)據(jù)變換，主要包括數(shù)據(jù)的規(guī)范化和泛化。數(shù)據(jù)的規(guī)范化，主要包括零均值規(guī)范化、最大最小規(guī)范化等；而數(shù)據(jù)的泛化則是將低數(shù)據(jù)層或?qū)哟蔚臄?shù)據(jù)用高層次概念取而代之。

（四）數(shù)據(jù)的離散化及概念分層

現(xiàn)實中的數(shù)據(jù)具有連續(xù)性，而在已發(fā)現(xiàn)的處理算法中能處理連續(xù)性數(shù)據(jù)的還較少。數(shù)據(jù)的離散化即通過區(qū)間的劃分來用標(biāo)號代替某一實際數(shù)據(jù)，達到數(shù)據(jù)的解連續(xù)。概念分層是通過提高數(shù)據(jù)層次概念來減少數(shù)據(jù)的收集量。

二、關(guān)聯(lián)規(guī)則及決策樹

（一）關(guān)聯(lián)規(guī)則

在數(shù)據(jù)挖掘領(lǐng)域中，關(guān)聯(lián)規(guī)則挖掘具有高度的靈活性和重要性，主要是對數(shù)據(jù)集合中數(shù)據(jù)屬性的相關(guān)性聯(lián)系進行反映，整個過程通過對集合中的關(guān)聯(lián)、頻繁模式及因果結(jié)構(gòu)進行查找，以查找容易被忽略或與人們熟知相背離的事件。經(jīng)濟統(tǒng)計中數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘，能夠分析出大范圍（如整個地區(qū)、甚至國家）內(nèi)關(guān)系密切聯(lián)系的行業(yè)。能夠借助于不同屬性的數(shù)據(jù)，來找尋具有相關(guān)聯(lián)系的屬性。在實際運用當(dāng)中，很多屬性之間所存在的關(guān)系為人們所知曉，被稱為平凡規(guī)則，如提升工業(yè)總產(chǎn)值能夠帶來生產(chǎn)總值的增加。通過平凡規(guī)則，我們能夠?qū)?shù)據(jù)質(zhì)量的高低進行判斷，這一過程便是我們經(jīng)常說的通過熟知的關(guān)聯(lián)關(guān)系來確定數(shù)據(jù)是否與集合具有一致性，以此達到消除虛假數(shù)據(jù)的目的。

（二）決策樹

決策樹算法十分直觀、常用，這一過程的關(guān)鍵是決策樹的有效構(gòu)建，主要分為建樹及剪枝階段。通過決策樹對數(shù)據(jù)分類主要由兩個步驟組成：其一，決策樹模型的構(gòu)建，即通過訓(xùn)練集實現(xiàn)一顆決策樹的構(gòu)建及精化；其二，將輸入的數(shù)據(jù)通過決策樹進行分類處理。當(dāng)將數(shù)據(jù)輸入決策樹時，會由根節(jié)點對屬性值依次進行測試并記錄，然后到達葉子節(jié)點，來實現(xiàn)尋找記錄所在類。從整體來看，決策樹算法屬于遞歸過程，一直進行到滿足終止條件為止。分割停止要滿足兩個條件：其一為某一個節(jié)點上數(shù)據(jù)都同屬一類；其二是能夠進行數(shù)據(jù)分割的點已經(jīng)耗盡。這一過程主要用于解決數(shù)據(jù)挖掘的預(yù)測及分類方面問題。

三、結(jié)束語

數(shù)據(jù)挖掘在未來的經(jīng)濟統(tǒng)計中具有十分可觀的應(yīng)用前景，能夠深層次分析處理數(shù)據(jù)，使數(shù)據(jù)質(zhì)量提高，幫助政府及企事業(yè)單位有效進行政策制定、計劃擬制及行政事務(wù)的管理，創(chuàng)造更大經(jīng)濟效益和社會價值。本文主要從數(shù)據(jù)的預(yù)處理和關(guān)聯(lián)規(guī)則和決策樹兩個方面對數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中應(yīng)用進行淺析和探索，旨在為行業(yè)提供一定的借鑒。

參考文獻：

[1]行智國，呂斌.數(shù)據(jù)挖掘及其在官方統(tǒng)計中的應(yīng)用前景[J].江蘇統(tǒng)計；2010年02期：11-12

[2]王斌會，曲穎.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用現(xiàn)狀[J].統(tǒng)計與決策；2010年10期：22-23

[3]韓江，鄒建民.數(shù)據(jù)挖掘——極具發(fā)展?jié)摿Φ男骂I(lǐng)域[N].蘇州市職業(yè)大學(xué)學(xué)報；2010年01期：27-28endprint