李愛民
數(shù)據(jù)挖掘技術作為現(xiàn)代統(tǒng)計分析技術之一,在經(jīng)歷統(tǒng)計中的應用具有很大的優(yōu)勢,同時由于其自身特點,可以一定程度上提升數(shù)據(jù)深加工的效率。時代在發(fā)展,面對當前這個龐雜繁瑣的經(jīng)濟統(tǒng)計體系,高效率的先進現(xiàn)代化處理手段的應用已經(jīng)成為了一種趨勢,這些技術的應用會改善我國當前數(shù)據(jù)龐雜繁瑣難以“深加工”的現(xiàn)狀。筆者擬將對數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中的應用進行分析。
數(shù)學挖掘技術的相關介紹
數(shù)據(jù)挖掘技術的主要內容。所謂數(shù)據(jù)挖掘(Datammmg),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘技術的發(fā)展歷程。從20世紀70年代開始,平均的通訊量以每年幾倍的速度增長。一直到1995年,以Web技術為代表的信息發(fā)布系統(tǒng),爆炸式地成長起來,成為目前Internet的主要應用。數(shù)據(jù)挖掘技術發(fā)展的第三個階段是EC(Electronic Commerce),即電子商務階段,IBM、HP和Sun等國際著名的信息技術廠商已經(jīng)宣布1998年為電子商務年。隨著SaaS(Software as a servlce)軟件服務模式的出現(xiàn),軟件紛紛登陸互聯(lián)網(wǎng),延長了電子商務鏈條,形成了當下最新的“全程電子商務”概念模式。也因此形成了一門獨立的學科——數(shù)據(jù)挖掘與客戶關系管理碩士。
數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中應用的優(yōu)勢
工作效率較高。數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中的應用是存在很大優(yōu)勢的,由于其自身操作特點,工作效率會較其他技術來說會高出很多。數(shù)據(jù)挖掘技術作為一種數(shù)據(jù)深加工技術,其本身是具有很強的目的性的,在實踐活動的應用中,一般會有兩種表現(xiàn)形式,即對積累的經(jīng)濟統(tǒng)計數(shù)據(jù)進行高效化處理以及對現(xiàn)有的經(jīng)濟統(tǒng)計數(shù)據(jù)進行高效化分析,不論是哪一種,都深深地體現(xiàn)了數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計應用中的高效性。
綜合應用性強。數(shù)據(jù)挖掘技術不同于其他現(xiàn)代數(shù)據(jù)處理手段,其并不是單一的數(shù)據(jù)處理技術,而是一個數(shù)據(jù)處理系統(tǒng),所以在系統(tǒng)中可以完成操作者對數(shù)據(jù)的多種分析需求,具有很強的綜合應用性。隨著社會的發(fā)展,經(jīng)濟管理部門對數(shù)據(jù)的需求量日漸龐大,但由于其所在部門中分工不同,對數(shù)據(jù)的處理需求也不盡相同。而數(shù)據(jù)挖掘技術則很好地適應了這一現(xiàn)狀,作為一個數(shù)據(jù)處理系統(tǒng),數(shù)據(jù)挖掘技術剛好可以滿足不同部門的不同數(shù)據(jù)處理需求,具有很強的綜合應用性。
宏觀數(shù)據(jù)庫可作為數(shù)據(jù)挖掘技術應用的支持。數(shù)據(jù)挖掘技術的實現(xiàn)不同于其他的現(xiàn)代化數(shù)據(jù)處理技術,因為數(shù)據(jù)挖掘技術有宏觀數(shù)據(jù)庫作為支持,在實際應用中與其他現(xiàn)代數(shù)據(jù)處理技術相比具有很大的優(yōu)勢。當前經(jīng)濟管理體系的運轉對數(shù)據(jù)有著不同的需求,但是當前的數(shù)據(jù)采集手段仍然具有很大的局限性,這一問題嚴重影響著經(jīng)濟管理部門做出的決策。而數(shù)據(jù)挖掘技術有宏觀數(shù)據(jù)庫作為支持,就能在很大程度上改善當前的數(shù)據(jù)收集現(xiàn)狀。
數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中的應用方法分析
預處理方法。雖然數(shù)據(jù)挖掘技術有宏觀數(shù)據(jù)庫作為支持,卻并不能完全代替數(shù)據(jù)收集系統(tǒng)的作用,數(shù)據(jù)挖掘技術仍然是基于數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)深加工手段,數(shù)據(jù)預處理是主要應用方法之一。數(shù)據(jù)預處理的主要內容包括——數(shù)據(jù)的不真實、不準確、不正確、不同經(jīng)濟體系間數(shù)據(jù)差別較大等問題。只有將數(shù)據(jù)挖掘技術應用到預處理后的數(shù)據(jù)中,才能得到實際應用中所期望的處理結果,滿足不同經(jīng)濟管理部門間的數(shù)據(jù)處理需求。
決策樹方法。在通過數(shù)據(jù)挖掘技術獲得所需的數(shù)據(jù)處理結果后,對數(shù)據(jù)的整合和分析就顯得尤為重要。分析數(shù)據(jù)的輸出作為數(shù)據(jù)處理的關鍵環(huán)節(jié)之一,對經(jīng)濟管理部門做出的決策有著直接的影響。決策樹是常見的分析方法之一,首先需要利用訓練集建立并精簡出一棵決策樹,進而利用構建完畢的決策樹進行數(shù)據(jù)輸出的分類,同時還需要注意后續(xù)的“剪枝”環(huán)節(jié)。
集成化處理方法。集成化處理方法主要分為模式集成和冗余問題兩方面。由于當前的信息采集主要源于民間或者一線數(shù)據(jù)處理部門,在后期的數(shù)據(jù)應用過程中需要對數(shù)據(jù)和相應模式進行集成化處理,便于后期應用。同時對于處理好的數(shù)據(jù)也要進行冗余清除,以保證數(shù)據(jù)庫中的數(shù)據(jù)量保持在一個相對較低的水平。
本文首先對數(shù)據(jù)挖掘技術的主要內容和發(fā)展歷程進行了介紹,并分析了數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中應用的優(yōu)勢,主要包括——工作效率較高、綜合應用性強、有宏觀數(shù)據(jù)庫作為數(shù)據(jù)挖掘技術應用的支持,并就幾種應用方法(預處理方法、決策樹方法、集成化處理方法)進行了分析。希望可以起到拋磚引玉的作用,在大數(shù)據(jù)時代中,為我國經(jīng)濟統(tǒng)計方面的發(fā)展做出貢獻。
(作者單位:駐馬店農(nóng)業(yè)學校)endprint