劉 艷 新泰市統(tǒng)計(jì)局
隨著改革開(kāi)放的不斷深入,我們國(guó)家的社會(huì)和經(jīng)濟(jì)都有了前所未有的發(fā)展。因?yàn)楦鞣N經(jīng)濟(jì)資料的復(fù)雜特性,常規(guī)的統(tǒng)計(jì)資料只能對(duì)其作簡(jiǎn)單的數(shù)學(xué)上的解析,很難將其深度的價(jià)值發(fā)掘出來(lái)。目前,人們對(duì)其進(jìn)行的開(kāi)發(fā)和使用的方式比較簡(jiǎn)單,已經(jīng)無(wú)法適應(yīng)現(xiàn)代社會(huì)對(duì)其使用的需求。數(shù)據(jù)挖掘技術(shù)是一種由科學(xué)技術(shù)發(fā)展所產(chǎn)生的一種新的統(tǒng)計(jì)手段,它的優(yōu)勢(shì)是可以將數(shù)據(jù)的水平和垂直兩方面進(jìn)行利用,大大地?cái)U(kuò)展對(duì)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行利用的領(lǐng)域,因此可以獲得更多的、有深度的、有意義的信息,為社會(huì)經(jīng)濟(jì)發(fā)展和政策的制訂提供更加真實(shí)、更加有效的基礎(chǔ)。
一般而言,數(shù)據(jù)挖掘技術(shù)指的是對(duì)大量的數(shù)據(jù)信息展開(kāi)細(xì)致的建模,進(jìn)而發(fā)掘出具有實(shí)用意義的信息的一個(gè)過(guò)程。所以數(shù)據(jù)挖掘技術(shù)歸根結(jié)底就是一個(gè)由神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)機(jī)數(shù)據(jù)統(tǒng)計(jì)等組成的,可以隨社會(huì)的發(fā)展而持續(xù)改變的學(xué)科。面對(duì)海量的數(shù)據(jù),用常規(guī)的統(tǒng)計(jì)學(xué)方法進(jìn)行處理不僅不能有效地處理這些海量的信息,而且還可能導(dǎo)致一些統(tǒng)計(jì)學(xué)上的錯(cuò)誤。而數(shù)據(jù)挖掘技術(shù)就是將所獲得的信息,從其中發(fā)掘出一些具有實(shí)際應(yīng)用前景的信息。而對(duì)于數(shù)據(jù)的高度解析性,更能體現(xiàn)出它的實(shí)用價(jià)值。
數(shù)據(jù)發(fā)掘技術(shù)是一個(gè)將數(shù)據(jù)進(jìn)行高效轉(zhuǎn)化的方法,它的具體步驟可以歸納為:從數(shù)據(jù)的收集到數(shù)據(jù)的發(fā)掘到數(shù)據(jù)的分析。其中,數(shù)據(jù)挖掘技術(shù)發(fā)揮著重要的作用,其具有多種的功能,包括對(duì)模型的預(yù)測(cè)、數(shù)據(jù)的類聚或者分類等,以及聚焦檢測(cè)、銜接分析、關(guān)聯(lián)規(guī)則等技術(shù)手段。所以它具有許多特性和功能,首先,它可以對(duì)海量的數(shù)據(jù)進(jìn)行高效的分析;二是它可以從大量的數(shù)據(jù)中找到有用的信息;三是能夠?qū)Y料中的有用資訊加以剖析與判斷;四是能夠即時(shí)、迅速地反映某些功效及功能的資訊。
資料開(kāi)采的一般程序?yàn)椋嘿Y料準(zhǔn)備、資料挖掘、資料分析。在這種全流程中,對(duì)資料的發(fā)掘是最重要的。其主要的作用是聚類、預(yù)測(cè)、分析等。從其功能和特征上分析,該方法的優(yōu)勢(shì)在于:可以實(shí)現(xiàn)對(duì)重要數(shù)據(jù)的自動(dòng)化發(fā)現(xiàn);具有對(duì)海量數(shù)據(jù)的能力;其反應(yīng)速度快,效率高;可以高效地對(duì)資料資料進(jìn)行解析判斷,勾畫出過(guò)往與將來(lái)。
資料探勘不是一種具體執(zhí)行程序,而是一種整體作業(yè)體系,以滿足使用者的資訊需要為特點(diǎn)。在我國(guó),經(jīng)濟(jì)持續(xù)快速發(fā)展的今天,各行業(yè)的發(fā)展離不開(kāi)經(jīng)濟(jì)的發(fā)展,因此,在我國(guó)的發(fā)展中起到至關(guān)重要的作用。然而,在現(xiàn)實(shí)生活中,各種管理部門所擁有的權(quán)限、管理的方式和領(lǐng)域都存在著很大的差異,所以他們對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的需求也存在著很大的差異,所以這就對(duì)經(jīng)濟(jì)統(tǒng)計(jì)系統(tǒng)的要求更高。不僅必須滿足管理層對(duì)資料的需求,而且必須有能力把統(tǒng)計(jì)資料轉(zhuǎn)換成各種表達(dá)方式。由于其具有的廣泛性,使得數(shù)據(jù)挖掘技術(shù)在廣泛、廣度上得到進(jìn)一步的提升。
數(shù)據(jù)采掘技術(shù)是一項(xiàng)深度處理技術(shù),它在一定程度上具有目標(biāo)清晰的特點(diǎn)。在經(jīng)濟(jì)統(tǒng)計(jì)與運(yùn)用的進(jìn)程中,數(shù)據(jù)挖掘技術(shù)能夠根據(jù)用戶的需要,對(duì)長(zhǎng)期積累起來(lái)的大量數(shù)據(jù)展開(kāi)深度的加工,它的加工方式有兩種:一種是對(duì)大量的數(shù)據(jù)進(jìn)行高效的管理,從經(jīng)濟(jì)數(shù)據(jù)的管理視角出發(fā),在具體的應(yīng)用中,利用對(duì)數(shù)據(jù)進(jìn)行的統(tǒng)計(jì)與歸類,對(duì)大量混亂的數(shù)據(jù)庫(kù)中的信息進(jìn)行科學(xué)性、系統(tǒng)性的處理,從而達(dá)到提高數(shù)據(jù)的效率的目的。另一種是對(duì)已有數(shù)據(jù)的針對(duì)性進(jìn)行研究,在數(shù)據(jù)統(tǒng)計(jì)分析的目的指導(dǎo)下,對(duì)原來(lái)的信息進(jìn)行內(nèi)容、關(guān)系和形式上的加工,以確保所得的經(jīng)濟(jì)統(tǒng)計(jì)信息可以更好地滿足相關(guān)部門的需要。
在我國(guó),各經(jīng)濟(jì)管理機(jī)構(gòu)的職能比較分散,各經(jīng)濟(jì)管理機(jī)構(gòu)之間的要求也不盡相同。在我國(guó)許多地區(qū)和許多經(jīng)濟(jì)管理部門,其經(jīng)濟(jì)管理工作仍然采用的是一種比較常規(guī)的統(tǒng)計(jì)方式,存在著一定的缺陷,不能有效地為經(jīng)濟(jì)管理工作的全局服務(wù)。在現(xiàn)實(shí)工作中,往往會(huì)出現(xiàn)數(shù)據(jù)統(tǒng)計(jì)工作的重復(fù)和丟失的情況,從而對(duì)經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)工作的效率和品質(zhì)產(chǎn)生一定的影響。建立一個(gè)集中性、綜合性的統(tǒng)計(jì)體系,是國(guó)家經(jīng)濟(jì)行政機(jī)關(guān)迫切需要解決的問(wèn)題。如果要確保經(jīng)濟(jì)統(tǒng)計(jì)信息的準(zhǔn)確性,再利用數(shù)據(jù)挖掘技術(shù)加以集成處理,就可以得到更精準(zhǔn)、更豐富的數(shù)據(jù)來(lái)源。
根據(jù)相關(guān)數(shù)據(jù)報(bào)告調(diào)查結(jié)果顯示,盡管數(shù)據(jù)開(kāi)采技術(shù)發(fā)展的歷史并不久遠(yuǎn),但其在國(guó)內(nèi)外的研究和運(yùn)用已經(jīng)處于一個(gè)比較成熟的階段。在當(dāng)今世界,尤其是在經(jīng)濟(jì)統(tǒng)計(jì)學(xué)中,人們對(duì)數(shù)據(jù)的利用也越來(lái)越重視。而數(shù)據(jù)挖掘技術(shù)之所以如此快速地發(fā)展,就是因?yàn)槠錇榻?jīng)濟(jì)統(tǒng)計(jì)提供高效的服務(wù)。而在數(shù)據(jù)挖掘中,數(shù)據(jù)預(yù)處理的作用也不可忽視。數(shù)據(jù)預(yù)處理是指在經(jīng)濟(jì)統(tǒng)計(jì)工作中,需要將一些不太重要的數(shù)據(jù)去掉,對(duì)其中有用的部分進(jìn)行標(biāo)準(zhǔn)化清理和篩選,以便為數(shù)據(jù)挖掘的工作做準(zhǔn)備。
當(dāng)前,最常用的數(shù)據(jù)采集工具有合成型、通用型特點(diǎn),以及特殊用途的數(shù)據(jù)采集工具。通過(guò)這種整合的手段,既可以為企業(yè)中的經(jīng)濟(jì)體提供高效的管理報(bào)表,也可以對(duì)一般經(jīng)濟(jì)組織中的數(shù)據(jù)信息進(jìn)行深度挖掘。
從當(dāng)前形勢(shì)來(lái)看,我國(guó)絕大多數(shù)的經(jīng)濟(jì)統(tǒng)計(jì)工作仍以應(yīng)用性為主。大多數(shù)的經(jīng)濟(jì)統(tǒng)計(jì)資料都是以一種不集中和不分散的方式存在,沒(méi)有一個(gè)很好的管理體系。在經(jīng)濟(jì)統(tǒng)計(jì)工作中,如果在處理問(wèn)題時(shí)產(chǎn)生錯(cuò)誤,將會(huì)直接影響到資料的正確性和精確性。但是只有在構(gòu)建一個(gè)國(guó)家的宏觀經(jīng)濟(jì)學(xué)數(shù)據(jù)庫(kù)之后,才能找到這些問(wèn)題的有效途徑。只有將數(shù)據(jù)挖掘技術(shù)與宏觀經(jīng)濟(jì)學(xué)數(shù)據(jù)庫(kù)相結(jié)合,才能確保所發(fā)掘的信息的正確性和可靠性。在此背景下,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟(jì)統(tǒng)計(jì),既符合實(shí)際的需求,又為經(jīng)濟(jì)政策的制訂提供準(zhǔn)確而重要的依據(jù)。
在經(jīng)濟(jì)資料的統(tǒng)計(jì)工作中,對(duì)資料進(jìn)行前處理是最基本的手段之一。由于數(shù)據(jù)挖掘是一種在提供基本信息的基礎(chǔ)上進(jìn)行的智慧分析技術(shù),它自身受到基本的經(jīng)濟(jì)信息的制約,不能在一定程度上來(lái)取代經(jīng)濟(jì)數(shù)據(jù)收集系統(tǒng)的作用,因此,作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息都應(yīng)當(dāng)經(jīng)過(guò)預(yù)處理。目前,常用的數(shù)據(jù)清除技術(shù)有:平均法、平滑法,以及預(yù)報(bào)法。在這些方法當(dāng)中,平均法屬于一種運(yùn)用到現(xiàn)代分析技術(shù)中的模糊概念,在基礎(chǔ)數(shù)據(jù)中的一個(gè)數(shù)據(jù)點(diǎn)是空值,或是噪音數(shù)據(jù)的情況下,可以使用平均方法來(lái)進(jìn)行處理,也就是,使用數(shù)據(jù)庫(kù)中的所有這個(gè)性質(zhì)的已經(jīng)知道的屬性的平均來(lái)彌補(bǔ)這個(gè)空白,從而確保數(shù)據(jù)挖掘系統(tǒng)可以在正常的情況下進(jìn)行對(duì)基本數(shù)據(jù)的分析和整理,從而得到一個(gè)相對(duì)來(lái)說(shuō)精度比較高的統(tǒng)計(jì)分析數(shù)據(jù)。
從當(dāng)前的實(shí)際狀況來(lái)看,由于能夠快速直觀地反映出當(dāng)前的狀況,所以在實(shí)際運(yùn)用中,采用的最多的就是決策樹(shù)。采用這種方式,最重要的是要將決策樹(shù)構(gòu)造好,一般情況下,它可以被分成兩部分:首先,使用培訓(xùn)集,對(duì)一棵決策樹(shù)進(jìn)行并縮減,并在此基礎(chǔ)上,建立一個(gè)可以進(jìn)行輸出分析的模型。其次,對(duì)生成的決策樹(shù)進(jìn)行有效地使用,并進(jìn)行有效的分類,該方法是從樹(shù)根到樹(shù)干,再到枝干,直至達(dá)到一定的要求為止。在特定的情況下,終止分裂需要兩種情況:一種情況是某一結(jié)點(diǎn)上的全部資料都?xì)w入相同的類型;另外一種情況是不存在用于重新劃分輸入資料的類別屬性。在建立一棵決策樹(shù)之后,需要按照用戶的需求來(lái)“剪枝”,以減少由于使用大量的訓(xùn)練樣本而導(dǎo)致的結(jié)果波動(dòng)。
這是一種以生物的遺傳學(xué)機(jī)制和自然選擇為基礎(chǔ)的一種隨機(jī)的搜尋方法,其基本思想是以具體的社會(huì)性問(wèn)題為基礎(chǔ),再?gòu)木唧w的目標(biāo)中收集有關(guān)的資料,最終將這些資料中所包含的資料進(jìn)行整理、分析,從而得出結(jié)論。經(jīng)濟(jì)問(wèn)題并不是一成不變的,而是一個(gè)發(fā)展和變化的問(wèn)題,有著密切的關(guān)系,任何一種情況發(fā)生變化,其他的情況也就隨之發(fā)生變化。遵循基因算法的程序,從根源出發(fā),我們就一步一步地往下進(jìn)行探究,從中抽取出一些有用的信息,從而對(duì)整個(gè)過(guò)程展開(kāi)深入的分析。這種方式就可以將經(jīng)濟(jì)問(wèn)題具體化、直接化,讓我們?cè)谶M(jìn)行問(wèn)題的時(shí)候,能夠更加直接,能夠?qū)㈦[藏的東西展現(xiàn)在我們的面前,讓我們的經(jīng)濟(jì)統(tǒng)計(jì)工作變得更加直白、簡(jiǎn)單。
人工神經(jīng)網(wǎng)絡(luò)方法是一種高度仿真人類大腦對(duì)信號(hào)進(jìn)行處理的智能化先進(jìn)技術(shù)。就像人類的大腦活動(dòng),先將信息錄入,再進(jìn)行精確的解析,再將結(jié)果呈現(xiàn)出來(lái)。并將其運(yùn)用于經(jīng)濟(jì)統(tǒng)計(jì)學(xué)中。神經(jīng)元法為我們提供一種準(zhǔn)確的、完整的處理經(jīng)濟(jì)統(tǒng)計(jì)的方法,它讓我們的經(jīng)濟(jì)運(yùn)作模式和人在處理信息的過(guò)程很相似,都是實(shí)用化、形象化、具體化。這樣就可以在不同的工作流程中建立起不同的工作流程,以達(dá)到解決經(jīng)濟(jì)數(shù)據(jù)問(wèn)題的目的。
沒(méi)有高質(zhì)量數(shù)據(jù),就必定沒(méi)有高質(zhì)量數(shù)據(jù)挖掘的結(jié)果。而在現(xiàn)實(shí)數(shù)據(jù)的挖掘過(guò)程中,因?yàn)樗杉降臄?shù)據(jù)不可避免地會(huì)有缺漏、重要數(shù)據(jù)不全、不一致及包含噪音等問(wèn)題,所以對(duì)數(shù)據(jù)的預(yù)處理是最重要也是最重要的一步。關(guān)于資料的預(yù)處理,具體如下所示:
1.數(shù)據(jù)清除
所謂的數(shù)據(jù)凈化,就是用合適的方式,去除其中的缺陷、不一致和噪音,提高整個(gè)數(shù)據(jù)的品質(zhì)。常用的幾種分析法有平均法、平滑法、預(yù)測(cè)法和頻度統(tǒng)計(jì)法。每一種方法所相應(yīng)的現(xiàn)實(shí)狀況都有差異,如果數(shù)據(jù)屬于噪音數(shù)據(jù)或者是一個(gè)空值,那么所要采取的方式就是均值法或者是光滑法。與均值法相比,光滑法強(qiáng)調(diào)的是將 k 個(gè)不為空的數(shù)據(jù)取權(quán)重平均值來(lái)代替(均值法以 k 個(gè)不為空的數(shù)據(jù)的平均值來(lái)代替)。利用預(yù)報(bào)方法對(duì)有噪音的資料或空值進(jìn)行最大概率的估計(jì);預(yù)報(bào)方法是對(duì)資料缺陷進(jìn)行分析的方法。
2.資料整合
一般來(lái)說(shuō),這些資料都來(lái)自于來(lái)自于各種資料來(lái)源,而在實(shí)際處理、分析及應(yīng)用的時(shí)候,就需要將這些資料整合成一個(gè)完整的資料,這就是資料整合的過(guò)程。在現(xiàn)實(shí)生活中,統(tǒng)計(jì)部門首先要通過(guò)各個(gè)地方統(tǒng)計(jì)局,對(duì)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行大量的采集,接下來(lái)要進(jìn)行的就是數(shù)據(jù)整合,這就必然會(huì)產(chǎn)生一些問(wèn)題,比如,如何確定來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)可以相互匹配。如果一個(gè)資料的特性可以從其他資料庫(kù)中的資料的特性推斷出來(lái),那么就會(huì)產(chǎn)生一個(gè)資料的特性;此外,也就是資料的碰撞乃至排除,這個(gè)問(wèn)題是由于資料來(lái)源的資料會(huì)因?yàn)楸舜碎g的差異而產(chǎn)生互相排斥。
3.數(shù)據(jù)轉(zhuǎn)換
用某種方法把資料轉(zhuǎn)換為等價(jià)的、適用于資訊發(fā)掘的資料,這就是資料轉(zhuǎn)換,它的內(nèi)容主要包含資料的正?;c一般化兩個(gè)方面。對(duì)資料進(jìn)行歸一化處理,主要有零均值歸一化、極大極小歸一化等;而資料概括,就是以較高層面的觀念代替較低層面的資料。
4.資料與觀念的分散與分類
實(shí)際中的資料是連續(xù)的,目前所知的方法中,能夠?qū)B續(xù)資料進(jìn)行有效分析的并不多。資料的離散性就是用一個(gè)有標(biāo)記的資料取代一個(gè)真實(shí)資料,實(shí)現(xiàn)資料的解連續(xù)性。在概念層面上,提出一種基于信息層級(jí)的概念來(lái)降低信息采集規(guī)模的方法。
隨著互聯(lián)網(wǎng)的普及,人類活動(dòng)的范圍得到了前所未有的拓展,海量信息充斥在我們生活之中,如何挖掘其中的潛在價(jià)值,已成為每個(gè)人都面臨的難題。在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)量爆炸式增長(zhǎng),海量數(shù)據(jù)中蘊(yùn)藏著巨大價(jià)值。通過(guò)對(duì)大數(shù)據(jù)進(jìn)行分析和挖掘,能夠讓企業(yè)對(duì)市場(chǎng)和用戶有更好的理解和把握。在互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境下,每個(gè)人都是大數(shù)據(jù)的一部分,無(wú)論是企業(yè)、用戶、政府甚至是普通大眾,都能在海量信息中發(fā)現(xiàn)一些自己不知道的東西。面對(duì)大數(shù)據(jù)時(shí)代帶來(lái)的巨大機(jī)遇和挑戰(zhàn),如何有效地利用大數(shù)據(jù)來(lái)解決企業(yè)發(fā)展中存在的問(wèn)題成為了眾多企業(yè)需要面對(duì)的現(xiàn)實(shí)問(wèn)題。
數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中發(fā)現(xiàn)新知識(shí)、新規(guī)律并將其轉(zhuǎn)化為有用信息或決策經(jīng)驗(yàn)的一種技術(shù)。通過(guò)挖掘互聯(lián)網(wǎng)大數(shù)據(jù),不僅能夠讓人們獲取到更多有價(jià)值的數(shù)據(jù)信息,還能為企業(yè)提供更多決策輔助。對(duì)此就可以從網(wǎng)站訪問(wèn)痕跡入手,網(wǎng)站訪問(wèn)是互聯(lián)網(wǎng)數(shù)據(jù)采集過(guò)程中最為常見(jiàn)的數(shù)據(jù)采集方式,通過(guò)對(duì)網(wǎng)站訪問(wèn)記錄進(jìn)行分析,就可以從中發(fā)現(xiàn)用戶可能存在的規(guī)律。例如,用戶通過(guò)搜索引擎在互聯(lián)網(wǎng)上搜索過(guò)產(chǎn)品、服務(wù)、品牌等信息。從訪問(wèn)痕跡中可以分析出用戶訪問(wèn)網(wǎng)站時(shí)可能出現(xiàn)過(guò)哪些關(guān)鍵詞或使用哪些關(guān)鍵詞進(jìn)行搜索等行為,從而可以判斷出用戶是否對(duì)產(chǎn)品感興趣、對(duì)服務(wù)是否滿意等信息。這些數(shù)據(jù)會(huì)被應(yīng)用于營(yíng)銷分析中,通過(guò)對(duì)用戶行為進(jìn)行分析,就可以找到企業(yè)產(chǎn)品服務(wù)的優(yōu)勢(shì)及不足之處,從而不斷完善自身產(chǎn)品以及服務(wù)質(zhì)量。
雖然數(shù)據(jù)挖掘技術(shù)從誕生到今天,發(fā)展的歷史并不悠久,但其在社會(huì)的經(jīng)濟(jì)統(tǒng)計(jì)中起到重要的影響,為我們的統(tǒng)計(jì)工作提供方便。因此,對(duì)我國(guó)的國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展具有重要意義的宏觀和微觀兩個(gè)方面的影響。所以在當(dāng)前的經(jīng)濟(jì)統(tǒng)計(jì)工作中,將數(shù)據(jù)挖掘技術(shù)進(jìn)行高效的運(yùn)用,可以適應(yīng)數(shù)據(jù)分析的需求,從而推動(dòng)社會(huì)和經(jīng)濟(jì)的發(fā)展。