田田 山東省慶云縣常家鎮(zhèn)人民政府
眾所周知,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)屬于郁悶綜合性學(xué)科,與數(shù)學(xué)、統(tǒng)計(jì)及經(jīng)濟(jì)學(xué)等聯(lián)系緊密,是圍繞大量數(shù)據(jù)采用整理、分析與建模等方法,發(fā)掘經(jīng)濟(jì)領(lǐng)域數(shù)據(jù)規(guī)律。當(dāng)前,數(shù)據(jù)挖掘領(lǐng)域,現(xiàn)代統(tǒng)計(jì)學(xué)還處于探索中,經(jīng)濟(jì)學(xué)理論探究沒有數(shù)學(xué)成就大。然而實(shí)際上,統(tǒng)計(jì)與分析應(yīng)用方面,對企業(yè)甚至整個(gè)社會大環(huán)境而言是非常重要的。因而,深入探究經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用具有非常重要的意義。
社會經(jīng)濟(jì)快速發(fā)展的同時(shí),海量數(shù)據(jù)信息不斷涌現(xiàn),而在經(jīng)濟(jì)統(tǒng)計(jì)工作中,面對龐雜的數(shù)據(jù)信息如何有效處理是面臨的重要問題。當(dāng)前,傳統(tǒng)數(shù)據(jù)處理方法明顯無法滿足數(shù)據(jù)用戶使用需求,為數(shù)據(jù)挖掘技術(shù)創(chuàng)造了條件。其不同于傳統(tǒng)數(shù)據(jù)數(shù)量方法,傳統(tǒng)數(shù)據(jù)處理方法是從數(shù)據(jù)分析表面入手簡單分析各項(xiàng)數(shù)據(jù),數(shù)據(jù)分析與處理的深度與廣度不足。在龐大數(shù)據(jù)信息庫中,應(yīng)用數(shù)據(jù)挖掘技術(shù)科學(xué)搜索到價(jià)值與品質(zhì)高的數(shù)據(jù)信息,再分析并處理這些信息滿足用戶使用需求。社會經(jīng)濟(jì)發(fā)展中,數(shù)據(jù)挖掘技術(shù)也可解決經(jīng)濟(jì)統(tǒng)計(jì)難題,便于數(shù)據(jù)使用用戶充分應(yīng)用此類數(shù)據(jù)。另外,應(yīng)用數(shù)據(jù)挖掘技術(shù)還可有效改善數(shù)據(jù)質(zhì)量,使得數(shù)據(jù)使用效率不斷提高,進(jìn)一步增強(qiáng)了數(shù)據(jù)間的聯(lián)系。
(1)該技術(shù)有很強(qiáng)的綜合能力。眾所周知,經(jīng)濟(jì)發(fā)展與數(shù)據(jù)統(tǒng)計(jì)之間聯(lián)系緊密,兩者之間相輔相成且相互影響。因而社會經(jīng)濟(jì)發(fā)展中必須要重視數(shù)據(jù)統(tǒng)計(jì)的應(yīng)用。參考數(shù)據(jù)統(tǒng)計(jì)結(jié)果,企業(yè)管理部門有效制定決策制度。因各部門細(xì)化與管理方式不同,使得各類數(shù)據(jù)有不同的統(tǒng)計(jì)需求、類型與數(shù)據(jù)形式,導(dǎo)致企業(yè)無法順利進(jìn)行各項(xiàng)運(yùn)營管理活動(dòng)。因而,經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,自由轉(zhuǎn)換數(shù)據(jù)形式,滿足各部門實(shí)際工作需求,為經(jīng)濟(jì)發(fā)展提供推動(dòng)力。(2)數(shù)據(jù)統(tǒng)計(jì)效果強(qiáng)。經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用是非常重要的,其可從龐大數(shù)據(jù)庫中統(tǒng)計(jì)分析經(jīng)濟(jì)數(shù)據(jù),使得數(shù)據(jù)從無序變?yōu)橛行颍瑪?shù)據(jù)科學(xué)性與有效性得到了保障。應(yīng)用數(shù)據(jù)挖掘技術(shù),一定程度上還可深入發(fā)掘數(shù)據(jù)庫中價(jià)值高的信息,充分發(fā)揮經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)作用,使得數(shù)據(jù)信息管理效率明顯提高,獲得更加真實(shí)而有效的經(jīng)濟(jì)統(tǒng)計(jì)信息,為順利進(jìn)行經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)奠定了良好的基礎(chǔ)。(3)數(shù)據(jù)挖掘技術(shù)有明顯的適用性且范圍廣。經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)中,數(shù)據(jù)挖掘技術(shù)可應(yīng)用于各部門以此有效整合相關(guān)數(shù)據(jù)信息,符合統(tǒng)計(jì)需求,為企業(yè)提供有效的參考數(shù)據(jù)順利開展各項(xiàng)經(jīng)濟(jì)活動(dòng)。所以,積極推廣數(shù)據(jù)挖掘技術(shù)充分發(fā)揮其作用顯得尤為重要。
經(jīng)濟(jì)調(diào)查分析中數(shù)據(jù)挖掘技術(shù)的作用主要表現(xiàn)為描述與預(yù)測作用。其中前者主要是劃分?jǐn)?shù)據(jù)以及應(yīng)用相關(guān)公式分析對比數(shù)據(jù),類聚是分類處理相關(guān)數(shù)據(jù),數(shù)據(jù)分類分析法則包含典型的數(shù)據(jù)分析方法,其是通過發(fā)現(xiàn)數(shù)據(jù)典型特點(diǎn)再對比分析。分類與回歸是兩種主要預(yù)測方法,其中分類是將數(shù)據(jù)化分成不同類型再處理,可選用貼標(biāo)簽與各種算法。而回歸法不同于分類,其是分析連續(xù)數(shù)據(jù),其包含線性與多項(xiàng)回歸等分析方法。聚類則屬于一種分類管理,數(shù)據(jù)統(tǒng)計(jì)前為了提高統(tǒng)計(jì)效率,分類處理所收集的數(shù)據(jù),通過分類有機(jī)劃分?jǐn)?shù)據(jù)信息,部分?jǐn)?shù)據(jù)對經(jīng)濟(jì)統(tǒng)計(jì)沒有作用分類過程中就會被淘汰;而有的數(shù)據(jù)則被分到一類繼續(xù)用于分析研究。例如,群眾消費(fèi)情況研究脫出中,可分類管理收入不同的群體,參考經(jīng)濟(jì)收入及消費(fèi)水平進(jìn)行合理分類,做好各層次群體實(shí)際消費(fèi)水平的統(tǒng)計(jì)。此外,經(jīng)濟(jì)統(tǒng)計(jì)中,降維方法的效果也是非常明顯的,經(jīng)濟(jì)統(tǒng)計(jì)所需的時(shí)間、人力與物力成本比較高,且包含很多統(tǒng)計(jì)數(shù)據(jù)與指標(biāo),應(yīng)用降維技術(shù)檢索處理。降維方法比較多,比如主成分降維以及因子分析等方法。經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)應(yīng)用日益廣泛,尤其是銀行信貸風(fēng)險(xiǎn)調(diào)查中取得了很好的應(yīng)用效果。
經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中,經(jīng)濟(jì)數(shù)據(jù)預(yù)處理是比較常用的處理方法。數(shù)據(jù)預(yù)處理根本原因在于挖掘技術(shù)自身受很多經(jīng)濟(jì)條件影響,無法完全代替經(jīng)濟(jì)系統(tǒng)收集作用,只是智能化分析基礎(chǔ)信息并在統(tǒng)計(jì)調(diào)查工作中獲得復(fù)雜數(shù)據(jù)。處理內(nèi)容涉及很多種類,比如處理不規(guī)范、處理錯(cuò)誤以及處理差距大的數(shù)據(jù)信息。本質(zhì)上來講其都屬于“數(shù)據(jù)清洗”,具體方法包含插值法與均值法等,如果數(shù)據(jù)存在明顯異常且數(shù)量比較少就可直接刪除。
(1)搜集到的數(shù)據(jù)并非是完整的,有的數(shù)據(jù)不統(tǒng)一,有的由噪音,甚至還有的數(shù)據(jù)出現(xiàn)空值。作為一種基礎(chǔ)處理方法,數(shù)據(jù)預(yù)處理手段可體前對經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息進(jìn)行處理。實(shí)際工作中,其主要由數(shù)據(jù)清理、集成及變換等內(nèi)容構(gòu)成。
數(shù)據(jù)清理。其主要指經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息中,采取有效方法去掉不完整的、有噪音與空值的信息。通常,主要方法為均值、平滑、預(yù)測與頻率統(tǒng)計(jì)等四種方法。實(shí)際工作中要根據(jù)實(shí)際情況合理選用數(shù)據(jù)信息統(tǒng)計(jì)分析方法。經(jīng)濟(jì)統(tǒng)計(jì)工作中,數(shù)據(jù)存在噪音抑或是數(shù)據(jù)點(diǎn)是空值,可選用均值法清理數(shù)據(jù)。數(shù)據(jù)中噪音與空值,也可選用平滑法處理。其不同于均值法,平滑法是通過加權(quán)平均數(shù)代替均值法平均數(shù),其充分考慮數(shù)據(jù)對結(jié)果權(quán)重造成的影響。該統(tǒng)計(jì)方法的應(yīng)用利于獲得更加真實(shí)的計(jì)算結(jié)果。均值法是利用均值完善數(shù)據(jù),以此獲得更加準(zhǔn)確的統(tǒng)計(jì)數(shù)據(jù)分析結(jié)果。兩種方法有不同的特點(diǎn),具體要結(jié)合實(shí)際情況合理選用數(shù)據(jù)處理方法。
(2)數(shù)據(jù)集成。其簡單來講就是數(shù)據(jù)搜集,分類整理地區(qū)內(nèi)所有經(jīng)濟(jì)生產(chǎn)總值并集中討論,這就是應(yīng)用數(shù)據(jù)集成思想的過程。比如,應(yīng)用該思想計(jì)算省級單位國民生產(chǎn)總值與區(qū)級國民生產(chǎn)總值。實(shí)際工作中,對于常見問題與處理方法主要為:首先模式集成。當(dāng)前,互聯(lián)網(wǎng)技術(shù)水平不斷提高,應(yīng)用計(jì)算機(jī)發(fā)掘數(shù)據(jù)是比較常見的模式。因數(shù)據(jù)庫間涉及并列與包含等復(fù)雜關(guān)系,怎樣判斷同名文件夾內(nèi)容是否相同,集成模式是十分必要的,以此創(chuàng)造便利條件。另一方面,冗余問題。其是根據(jù)相關(guān)關(guān)系判定的,具有一定關(guān)系的具體對象,公式中代入方差等決定性因素,判斷r值與1、0之間的關(guān)系,越接近于1絕對值,相關(guān)性就越大。反之密切度就越小,比如我國房價(jià)與人民工資水平間的關(guān)系,就可采用這一方法進(jìn)行研究。
(3)數(shù)據(jù)變換。其主要指采取相應(yīng)的方式方法將數(shù)據(jù)變換為滿足信息挖掘要求的數(shù)據(jù)。其主要包含數(shù)據(jù)規(guī)范化與泛化兩種。其中泛化主要指應(yīng)用高層次數(shù)據(jù)代替低層次數(shù)據(jù)。其包含數(shù)據(jù)連續(xù)性。當(dāng)前處理方法無法對數(shù)據(jù)進(jìn)行連續(xù)處理,使得數(shù)據(jù)離散。其具體是利用區(qū)間劃分,以標(biāo)號代替部分?jǐn)?shù)據(jù)保持?jǐn)?shù)據(jù)連續(xù)性。實(shí)際計(jì)算過程中應(yīng)盡可能縮減數(shù)據(jù)搜集梁,此過程也是概念分層。
統(tǒng)計(jì)工作中應(yīng)用數(shù)據(jù)挖掘技術(shù),首先應(yīng)系統(tǒng)化分析相關(guān)數(shù)據(jù),數(shù)據(jù)完成分析后進(jìn)行輸出。采用該方法劃分?jǐn)?shù)據(jù)類型,構(gòu)建決策樹結(jié)構(gòu)具有非常重要的意義。首先,分析數(shù)據(jù)基本模型,再選用訓(xùn)練集構(gòu)建決策樹,精簡處理數(shù)據(jù)決策樹。其次,合理劃分決策樹,從根部開始劃分?jǐn)?shù)據(jù),然后是樹干與樹丫等部分的數(shù)據(jù)分類,直到所有輸入的數(shù)據(jù)符合要求。
應(yīng)用決策樹進(jìn)行數(shù)據(jù)分類時(shí),首先要構(gòu)建完整的決策樹結(jié)構(gòu)。(1)構(gòu)建分析輸出基本模型,借助訓(xùn)練集構(gòu)建一顆決策樹并做好精簡。(2)對完成構(gòu)建的決策樹做好數(shù)據(jù)分類,從其根本開始想樹干、樹丫延伸逐步分類,所輸入的數(shù)據(jù)與條件設(shè)置相符合后才能停止,此過程也屬于遞歸過程,逐步輸入數(shù)據(jù)。實(shí)際工作中應(yīng)用決策樹方法時(shí)其停止條件主要有:即一個(gè)節(jié)點(diǎn)所有數(shù)據(jù)都屬于同一類別,此時(shí)數(shù)據(jù)停止;另一方面,沒有分類屬性可繼續(xù)再次分割數(shù)據(jù)。數(shù)據(jù)挖掘預(yù)測與分類中,可應(yīng)用決策樹分類方法解決實(shí)際遇到的問題。構(gòu)建結(jié)束后,根據(jù)用戶使用需求,用戶適當(dāng)?shù)卣{(diào)整構(gòu)建完成的決策樹,確保決策樹分類數(shù)據(jù)信息符合用戶使用需求,減小決策樹數(shù)據(jù)輸出變化,增強(qiáng)其穩(wěn)定性,保障信息質(zhì)量。
比如某地企業(yè)每年上報(bào)數(shù)據(jù)構(gòu)建序列模式,獲得企業(yè)當(dāng)年預(yù)測值。對比企業(yè)上報(bào)數(shù)據(jù)與預(yù)測值得到差別率。假若該差比率高于20%,則企業(yè)為A類;差別率在10%-20%之間,就是B累;低于10%屬于C類。結(jié)合企業(yè)規(guī)模變化率與可能出現(xiàn)的經(jīng)營事件構(gòu)建決策樹。假若企業(yè)上報(bào)數(shù)據(jù)與預(yù)測值間差距比較大,就要將其做好主要調(diào)查對象。
其是根據(jù)生物自然及遺傳機(jī)理,隨意抽取的一種算法。實(shí)際應(yīng)用過程中要綜合考慮各類問題,加強(qiáng)被指定群體信息數(shù)據(jù)采集,整合分析隱含信息前提下獲得最終結(jié)果。因該算法具有明顯的隱含性,因而可與其他模型結(jié)合起來使用采集隱含數(shù)據(jù)。然后對現(xiàn)有挖掘的數(shù)據(jù)信息進(jìn)行深入分析,并應(yīng)用于實(shí)踐中。此過程中,因經(jīng)濟(jì)問題并非停止不變的,其內(nèi)部聯(lián)系復(fù)雜,參考遺傳算法,從源頭向下延伸獲得有效的數(shù)據(jù),對數(shù)據(jù)信息從整體上進(jìn)行分析,保障經(jīng)濟(jì)問題更加而具體,確保相關(guān)人員直觀地處理問題,有效解決各類隱性問題。在此基礎(chǔ)上,確保順利進(jìn)行統(tǒng)計(jì)工作。
未來社會發(fā)展中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用將更具有效、綜合與適用性特點(diǎn)。為了系統(tǒng)化認(rèn)識數(shù)據(jù)挖掘技術(shù)價(jià)值,本文將從以下幾方面發(fā)展趨勢進(jìn)行探究研究,希望未來發(fā)展中數(shù)據(jù)挖掘技術(shù)能夠充分發(fā)揮其作用,為統(tǒng)計(jì)工作可持續(xù)發(fā)展目標(biāo)的實(shí)現(xiàn)提供推動(dòng)力。
對于數(shù)據(jù)信息應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行深層次加工,有效開展統(tǒng)計(jì)工作。其有明顯的目的性,且實(shí)際應(yīng)用中,統(tǒng)計(jì)數(shù)據(jù)長期積累過程中深處理加工基礎(chǔ)數(shù)據(jù)。實(shí)際應(yīng)用時(shí)要結(jié)合用戶數(shù)據(jù)使用需求,從不同角度對所用數(shù)據(jù)信息進(jìn)行分析,分類統(tǒng)計(jì)數(shù)據(jù)信息,對原有數(shù)據(jù)庫進(jìn)行科學(xué)整理。利用該形式,還可提高數(shù)據(jù)信息管理效率。
從本質(zhì)上來講,作為一項(xiàng)系統(tǒng)化數(shù)據(jù)統(tǒng)計(jì)工具,數(shù)據(jù)挖掘技術(shù)并非單一化的數(shù)據(jù)分析,可滿足不同使用者的不同信息需求。近些年,我國社會經(jīng)濟(jì)保持快速發(fā)展勢頭,此種情況下經(jīng)濟(jì)管理中統(tǒng)計(jì)分析社會內(nèi)部經(jīng)濟(jì)相關(guān)發(fā)展數(shù)據(jù)。此過程中要注意,不同數(shù)據(jù)信息有不同的管理權(quán)限及處理權(quán)限,所以面對多元化需求,相關(guān)經(jīng)濟(jì)管理部門要合理低統(tǒng)計(jì)分析經(jīng)濟(jì)管理內(nèi)容,促使數(shù)據(jù)信息順利轉(zhuǎn)換為不同數(shù)據(jù)形式,根據(jù)信息來源與統(tǒng)計(jì)計(jì)算方法,對其可靠性做出科學(xué)評估,從而獲得更加準(zhǔn)確的數(shù)據(jù)統(tǒng)計(jì)信息。
國內(nèi)經(jīng)濟(jì)管理部門,職權(quán)管理工作表現(xiàn)的不夠集中,各類經(jīng)濟(jì)管理部門對數(shù)據(jù)信息需求量及類型也有明顯的不同。很多地區(qū),對于統(tǒng)計(jì)活動(dòng),各經(jīng)濟(jì)管理管理實(shí)施的傳統(tǒng)方法有明顯的局限性,難以利用經(jīng)濟(jì)管理活動(dòng)為其提供高品質(zhì)的服務(wù)。實(shí)踐工作中,重復(fù)性統(tǒng)計(jì)或統(tǒng)計(jì)不完全的問題也是比較常見,直接影響到經(jīng)濟(jì)數(shù)據(jù)分析的有效性。數(shù)據(jù)挖掘技術(shù)的應(yīng)用可有效避免該問題,確保獲得的數(shù)據(jù)信息更加準(zhǔn)確,整合處理數(shù)據(jù)挖掘技術(shù),保障數(shù)據(jù)資源的豐富與多樣性是十分必要的。
綜上所述,現(xiàn)代社會發(fā)展中,經(jīng)濟(jì)發(fā)展速度健康,行業(yè)內(nèi)部數(shù)據(jù)挖掘有了更多的要求。同時(shí)互聯(lián)網(wǎng)技術(shù)的發(fā)展,為數(shù)據(jù)處理提供了新的渠道,更是對統(tǒng)計(jì)行業(yè)帶來的一次挑戰(zhàn),有效應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠?yàn)樾袠I(yè)順利開展各項(xiàng)工作創(chuàng)造便利條件,從根本上推動(dòng)社會經(jīng)濟(jì)穩(wěn)定發(fā)展。