田長磊
(山東省濟寧市汶上縣統(tǒng)計局,山東 濟寧 272500)
對經(jīng)濟統(tǒng)計工作來講,需要對數(shù)據(jù)信息進行有效的收集和整合,但由于數(shù)據(jù)存在一定的不完整性和模糊性,使得經(jīng)濟統(tǒng)計工作的質(zhì)量受到嚴重影響。為了對其進行有效的改變,需要將數(shù)據(jù)挖掘技術(shù)引入其中。本文從以下方面對其進行詳細的闡述。此次研究對豐富數(shù)據(jù)挖掘技術(shù)方面的知識具有理論性意義。
數(shù)據(jù)挖掘指的是數(shù)據(jù)的深加工,即數(shù)據(jù)信息精細化處理的過程。數(shù)據(jù)挖掘技術(shù)的作用體現(xiàn)在,對大量的數(shù)據(jù)進行深層次的開發(fā),并在數(shù)據(jù)庫中整理自身需要的數(shù)據(jù),同時,將零散數(shù)據(jù)進行完整化處理。由于數(shù)據(jù)的隨機性和噪聲性相對突出,因此,使模糊數(shù)據(jù)出現(xiàn)概率明顯增加。在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,能夠?qū)?shù)據(jù)中的可用信息進行深度挖掘,并進行有效的提取和整理,從而使數(shù)據(jù)的清晰度和實用性得到顯著的提升。為了使數(shù)據(jù)挖掘技術(shù)能夠?qū)π畔⑦M行有效處理,需在經(jīng)濟數(shù)據(jù)轉(zhuǎn)換的基礎(chǔ)上進行,并利用統(tǒng)計學、神經(jīng)網(wǎng)絡(luò)學等技術(shù)進行有效的輔助,因此,數(shù)據(jù)挖掘技術(shù)是學科交叉技術(shù)的一種。在統(tǒng)計學科中應用數(shù)據(jù)挖掘技術(shù),可以對數(shù)據(jù)進行有效的統(tǒng)計分析,這樣不僅可以使數(shù)據(jù)分析效率得到顯著的提升,而且能夠使數(shù)據(jù)分析過程得到明顯的簡化。
數(shù)據(jù)挖掘技術(shù)的特點主要體現(xiàn)在以下方面:第一,有效信息包含在數(shù)據(jù)本身之中,但是會被其他數(shù)據(jù)信息所隱藏。因此,在對數(shù)據(jù)挖掘技術(shù)進行使用時,其需要對海量信息進行處理,一般情況下,利用TB或GB對大數(shù)據(jù)進行表示;第二,當數(shù)據(jù)庫構(gòu)建完成之后,利用關(guān)聯(lián)詞的方式來對有用數(shù)據(jù)進行搜索,這樣不僅可以使自身所需信息被有效找到,而且可以使搜索范圍被有效縮小,從而使數(shù)據(jù)收集的效率顯著提升;第三,隨著經(jīng)濟社會信息的不斷擴充,信息庫中儲存的信息量也隨之增加。因此,信息庫需要對容量進行不斷的擴大,這樣可以使生產(chǎn)信息的需求得到滿足。除此之外,為了讓使用者對所需信息進行快速找尋,需要對信息搜索的精準性進行有效的提升。
數(shù)據(jù)挖掘技術(shù)的優(yōu)勢主要體現(xiàn)在以下方面:第一,其能夠?qū)A啃畔⑦M行有效處理,從而使工作效率得到明顯提升。數(shù)據(jù)挖掘技術(shù)能夠?qū)Υ罅繑?shù)據(jù)信息進行快速處理,在經(jīng)濟統(tǒng)計工作中應用數(shù)據(jù)挖掘技術(shù),可以使其工作效率得到明顯的提高。另外,面對復雜程度較高的海量數(shù)據(jù)信息時,數(shù)據(jù)挖掘技術(shù)能夠?qū)ζ溥M行有效的整合,工作人員在數(shù)據(jù)規(guī)律的基礎(chǔ)之上,對其進行有效的深度分析;第二,對搜索和實時預測進行有效支持,為市場決策提供一定的協(xié)助作用。在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,使用者可以通過關(guān)鍵詞輸入的方式來完成聯(lián)想搜索,這樣可以使搜索信息的速度明顯提升,以此來使工作效率得到大幅度的提高。與此同時,相關(guān)統(tǒng)計人員可以對信息進行有效的分析和整合,并對其存在的關(guān)聯(lián)性進行有效構(gòu)建,從而來合理預測未來經(jīng)濟的發(fā)展趨勢;第三,綜合性相對較強,能夠?qū)Χ喾浇?jīng)濟工作進行有效的協(xié)調(diào)。數(shù)據(jù)挖掘技術(shù)能夠?qū)碗s、亂序的信息進行有效整合,使其能夠轉(zhuǎn)換成有效信息,這樣可以為部門工作提供重要的數(shù)據(jù)支撐,從而使不同部門數(shù)據(jù)信息的需求得到有效滿足;第四,有效性相對突出,安全性相對較高。在經(jīng)濟統(tǒng)計中應用數(shù)據(jù)挖掘技術(shù),相關(guān)工作人員不僅可以對數(shù)據(jù)進行系統(tǒng)的了解和掌握,而且能夠?qū)?shù)據(jù)進行深度分析和整合,這樣可以使其工作效率得到大幅度的提升。除此之外,對數(shù)據(jù)庫技術(shù)進行合理化的應用,使其能夠長期儲存海量經(jīng)濟信息,從而為后續(xù)工作的開展提供有效保障。
對經(jīng)濟統(tǒng)計來講,由于數(shù)據(jù)本身存在一定的特殊屬性,如復雜多樣性、不完整性等,在利用數(shù)據(jù)之前,需要對其進行必要的預處理策略。對數(shù)據(jù)預處理來講,其為處理方式的一種,主要由以下方面構(gòu)成:第一,數(shù)據(jù)清理,數(shù)據(jù)清理指的是對無效信息進行清除,常用的方法為預測法、平滑法等。對原始數(shù)據(jù)來講,其通常存在不完整性、模糊以及隨機等特點,這使得原始數(shù)據(jù)存在明顯的局限,從而使其無法直接的進行應用,需要對其進行處理,將其中包含的無效信息進行清除,如空值、含有噪聲的數(shù)據(jù)等,這樣可以使數(shù)據(jù)的準確性和有效性得到保障;第二,數(shù)據(jù)集成,數(shù)據(jù)集成指的是有效整合原始數(shù)據(jù)中的不同數(shù)據(jù),使其能夠以整體的形式存在。在對數(shù)據(jù)進行整合的過程中,不僅要使數(shù)據(jù)集合的可操作性得到保障,而且需要使數(shù)據(jù)集合的準確性得到保障;第三,數(shù)據(jù)變換,數(shù)據(jù)變換也稱之為數(shù)據(jù)轉(zhuǎn)化,其主要對不同的方法進行使用,使其能夠?qū)?shù)據(jù)進行轉(zhuǎn)化,從而為數(shù)據(jù)規(guī)?;蛿?shù)據(jù)泛化的有效實現(xiàn)提供基礎(chǔ)保障。
決策樹方法是快速分類法的一種,在經(jīng)濟數(shù)據(jù)統(tǒng)計中運用決策樹方法,能夠以直觀的方式對數(shù)據(jù)進行呈現(xiàn)。對收集的經(jīng)濟數(shù)據(jù)來講,需要對其有用價值進行深入挖掘,因此,需要對系統(tǒng)分析進行有效應用。利用決策樹方式對經(jīng)濟數(shù)據(jù)進行分析時,需要對決策樹結(jié)構(gòu)進行合理化的構(gòu)建,主要從以下兩方面入手:一方面,對分析輸出的基本模型進行有效構(gòu)建,并在訓練集的基礎(chǔ)上,對決策樹進行有效構(gòu)建;另一方面,對已構(gòu)建完成的決策樹來講,需要對其進行數(shù)據(jù)分類,分類工作是由下及上,即由根部向樹枝方向發(fā)展,當數(shù)據(jù)輸入符合相關(guān)設(shè)置時,才會停止。該種方式是遞歸的過程,需要和樹枝開展同步進行。在對決策樹進行使用的過程中,想要使決策樹有效停止,需要滿足以下條件:第一,節(jié)點上數(shù)據(jù)全都屬于同一類別,使得數(shù)據(jù)會出現(xiàn)停止現(xiàn)象;第二,并沒有分類屬性,但對數(shù)據(jù)依舊進行二次分割。
在學術(shù)領(lǐng)域中,遺傳算法指的是生物自然和遺傳機理進行有效結(jié)合,在數(shù)據(jù)處理過程中,對算法進行隨機選擇。對經(jīng)濟統(tǒng)計工作來講,相關(guān)統(tǒng)計人員需要將社會現(xiàn)狀考慮其中,對特定人群數(shù)據(jù)進行收集,并對數(shù)據(jù)中含有的信息進行全面分析,以此來對最終分析結(jié)果進行有效獲得。遺傳算法的隱含特征得到突出表現(xiàn),在該特征的基礎(chǔ)上,相關(guān)統(tǒng)計人員將遺傳算法和數(shù)學模型進行結(jié)合,對其中隱含的數(shù)據(jù)進行全面采集,并對數(shù)據(jù)挖掘技術(shù)進行有效應用,使其能夠?qū)﹄[藏的價值信息進行全面挖掘。
綜上所述,在經(jīng)濟統(tǒng)計中應用數(shù)據(jù)挖掘技術(shù)具有重要的意義,其不僅能夠使數(shù)據(jù)的完整性和真實性得到保障,而且能夠使數(shù)據(jù)潛在價值被有效挖掘,因此,需要對其進行不斷深入探討,從而使其作用得到有效凸顯,進而使統(tǒng)計經(jīng)濟數(shù)據(jù)的價值得到充分發(fā)揮。