張景晨 中國人民大學(xué)
統(tǒng)計(jì)學(xué)作為一門綜合性比較強(qiáng)的學(xué)科,擁有極大的應(yīng)用價(jià)值,在經(jīng)濟(jì)生產(chǎn)生活中得到廣泛的應(yīng)用。統(tǒng)計(jì)學(xué)的發(fā)展還給實(shí)際的生活提供了便利,具體表現(xiàn)為對(duì)生活數(shù)據(jù)的處理,統(tǒng)計(jì)學(xué)隨著歷史的發(fā)展而不斷更新,在生活中的具體應(yīng)用也在不斷地優(yōu)化和升級(jí)。目前隨著互聯(lián)網(wǎng)時(shí)代的到來,每天都會(huì)有大量的數(shù)據(jù)產(chǎn)生被存儲(chǔ)下來,開始全面進(jìn)入到海量數(shù)據(jù)的信息化時(shí)代,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法無法應(yīng)對(duì)大數(shù)據(jù)的要求,因此需要根據(jù)時(shí)代進(jìn)行更新,才能進(jìn)一步促進(jìn)統(tǒng)計(jì)學(xué)理論與實(shí)踐的創(chuàng)新,傳統(tǒng)統(tǒng)計(jì)學(xué)的變革成為目前社會(huì)關(guān)注的熱點(diǎn)也是當(dāng)前迫切需要解決的問題。
21世紀(jì)網(wǎng)絡(luò)技術(shù)不斷的發(fā)展,現(xiàn)代社會(huì)逐漸步入網(wǎng)絡(luò)信息化的社會(huì),大數(shù)據(jù)的時(shí)代也隨之到來。大數(shù)據(jù)具有四個(gè)主要的維度,即數(shù)量大,速度快,數(shù)據(jù)多樣性大,數(shù)據(jù)價(jià)值高。具體來說,網(wǎng)絡(luò)信息技術(shù)得到了飛速的發(fā)展,導(dǎo)致過程中產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)增長的趨勢(shì),數(shù)據(jù)信息數(shù)據(jù)庫存儲(chǔ)容量的增加以及數(shù)據(jù)信息的內(nèi)容也不斷地豐富起來,預(yù)計(jì)在近期,全球所產(chǎn)生的數(shù)據(jù)量將超過50萬億GB。大數(shù)據(jù)的高速化意味著數(shù)據(jù)的生成速度很快,因此是對(duì)于數(shù)據(jù)分析能力的考驗(yàn)以及數(shù)據(jù)存儲(chǔ)技術(shù)具體速度的考驗(yàn),從而提高了困難和復(fù)雜大數(shù)據(jù)的處理質(zhì)量。目前數(shù)據(jù)可以產(chǎn)生于多種不同的環(huán)境當(dāng)中,也可以產(chǎn)生于不同的設(shè)備,具有復(fù)雜和多樣性,數(shù)據(jù)中攜帶者鮮明的特征,數(shù)據(jù)的產(chǎn)生可以源于文本,圖片,音頻,視頻,地理信息以及其他材料,例如微信,計(jì)算機(jī)平臺(tái)和移動(dòng)客戶端;數(shù)據(jù)信息在當(dāng)今時(shí)代所攜帶的應(yīng)用價(jià)值非常大,存在著較高的信息量,當(dāng)前網(wǎng)絡(luò)信息技術(shù)正在不斷地發(fā)展來應(yīng)對(duì)這一點(diǎn),網(wǎng)絡(luò)信息技術(shù)得到了深層次的發(fā)展,對(duì)于業(yè)務(wù)發(fā)展等方面都有者比較大的應(yīng)用價(jià)值。但是,當(dāng)前對(duì)于數(shù)據(jù)挖掘工作的開展還存在著問題,挖掘的密度較低,并且隨著大數(shù)據(jù)時(shí)代的激增,會(huì)產(chǎn)生大量的數(shù)據(jù),進(jìn)一步加大了數(shù)據(jù)挖掘的難度。
在大數(shù)據(jù)時(shí)代的背景帶來的機(jī)遇和挑戰(zhàn)之下,統(tǒng)計(jì)獲得了新的發(fā)展空間和發(fā)展方向,統(tǒng)計(jì)學(xué)的重要性和應(yīng)用價(jià)值越來越突出。我國教育部將統(tǒng)計(jì)學(xué)定為大學(xué)教學(xué)的一級(jí)學(xué)科后,開設(shè)了經(jīng)濟(jì)統(tǒng)計(jì)學(xué),應(yīng)用統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)學(xué)三個(gè)二級(jí)學(xué)科。鑒于大數(shù)據(jù)時(shí)代的發(fā)展特點(diǎn),西方國家已經(jīng)建立了統(tǒng)計(jì)指導(dǎo)教學(xué)和教育綱要,并從統(tǒng)計(jì)軟件編程,統(tǒng)計(jì)基礎(chǔ)理論知識(shí),實(shí)際應(yīng)用和數(shù)值挖掘等方面提出了統(tǒng)計(jì)人才培養(yǎng)標(biāo)準(zhǔn)。我國國務(wù)院于2015年指出,教育部門需要將工作重點(diǎn)放在大數(shù)據(jù)方面,對(duì)數(shù)據(jù)應(yīng)用技術(shù)和數(shù)據(jù)等高端技術(shù)人才進(jìn)行培訓(xùn)和教育。對(duì)此應(yīng)該加強(qiáng)數(shù)據(jù)分析和挖掘,以從大數(shù)據(jù)時(shí)代的發(fā)展浪潮中獲得知識(shí)并且進(jìn)行廣泛的創(chuàng)新應(yīng)用。
大數(shù)據(jù)既是機(jī)遇又是挑戰(zhàn),對(duì)社會(huì)發(fā)展和進(jìn)步具有推動(dòng)作用。大數(shù)據(jù)可以帶動(dòng)目前關(guān)于統(tǒng)計(jì)學(xué)的教育與培訓(xùn)的改革,使得統(tǒng)計(jì)學(xué)的教育能夠適合當(dāng)前大數(shù)據(jù)時(shí)代背景之下的要求,為社會(huì)培養(yǎng)具有綜合應(yīng)用能力的人才,也為具體理論知識(shí)的應(yīng)用具有明顯的幫助。此外大數(shù)據(jù)還可以推動(dòng)相關(guān)理論知識(shí)和技術(shù)手段的創(chuàng)新,海量數(shù)據(jù)的處理模式相比于傳統(tǒng)的處理模式而言有很大的不同,因此會(huì)帶動(dòng)包括復(fù)雜數(shù)據(jù)建模方法在內(nèi)的諸多方面的變革與創(chuàng)新。
目前伴隨著大數(shù)據(jù)時(shí)代的到來,統(tǒng)計(jì)學(xué)的進(jìn)一步發(fā)展面臨著機(jī)遇和挑戰(zhàn)。傳統(tǒng)的統(tǒng)計(jì)學(xué)方法在進(jìn)行數(shù)理統(tǒng)計(jì)方面的應(yīng)用時(shí),通常是用隨機(jī)抽樣的方式進(jìn)行,從而得到簡(jiǎn)單隨機(jī)樣本,在對(duì)樣本進(jìn)行簡(jiǎn)化的模型基礎(chǔ)上展開統(tǒng)計(jì)量分布繪圖以及統(tǒng)計(jì)量的分析計(jì)算,來得出不同統(tǒng)計(jì)量之間的關(guān)系以及相關(guān)性分析等等。傳統(tǒng)的統(tǒng)計(jì)學(xué)是根據(jù)抽樣分析來展開的,建立在樣本分析的基礎(chǔ)上的,從而在小容量的樣本上,對(duì)總體數(shù)據(jù)的特點(diǎn)和分布進(jìn)行估計(jì)。大數(shù)據(jù)時(shí)代的背景之下,數(shù)據(jù)的獲取渠道合方式逐漸增多了,因此數(shù)據(jù)分析的模式應(yīng)當(dāng)發(fā)生一定程度的轉(zhuǎn)變,對(duì)于數(shù)據(jù)整體中發(fā)現(xiàn)重點(diǎn)并分析的方式可以逐漸過渡到對(duì)于整體的分析。隨著數(shù)據(jù)范圍的增加,統(tǒng)計(jì)難度也變得越來越大,所以需要從統(tǒng)計(jì)思維方式上進(jìn)行改變來應(yīng)對(duì)。傳統(tǒng)統(tǒng)計(jì)學(xué)中常常采用的技術(shù)手段和相應(yīng)的理論方法,海量數(shù)據(jù)的到來帶來了不小的挑戰(zhàn),已經(jīng)很難將傳統(tǒng)統(tǒng)計(jì)學(xué)思維和相應(yīng)的方法應(yīng)用其中,因此對(duì)于數(shù)據(jù)整體來講,應(yīng)當(dāng)對(duì)總體數(shù)據(jù)進(jìn)行拆分和清晰化處理,對(duì)于不同難度的數(shù)據(jù)進(jìn)行分別處理,也可以針對(duì)不同分類下的問題進(jìn)行分別處理和分析研究。
傳統(tǒng)統(tǒng)計(jì)學(xué)中的研究重點(diǎn)通常是放在數(shù)據(jù)之間因果關(guān)系的推理,例如在傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)研究中,通常是采用回歸模型進(jìn)行分析,其中研究的重點(diǎn)是自變量和因變量的關(guān)系遞進(jìn)分析。統(tǒng)計(jì)的分析中常常帶有驗(yàn)證的成分,運(yùn)用了很多的數(shù)學(xué)前提,包括正態(tài)分布前提等等,首先需要提出假設(shè),并根據(jù)假設(shè)和數(shù)據(jù)的分布來得到最終結(jié)果是否符合假設(shè)。大數(shù)據(jù)時(shí)代之下,數(shù)據(jù)之間的關(guān)聯(lián)性不斷加大,并且數(shù)據(jù)之間的因果關(guān)系變得更加模糊化,在網(wǎng)絡(luò)層面的研究當(dāng)中,相關(guān)性的分析變得更加重要。
傳統(tǒng)統(tǒng)計(jì)學(xué)在實(shí)際應(yīng)用的過程當(dāng)中僅僅是對(duì)少量信息進(jìn)行分析的,這些信息由于量比較小,所以常常是作為標(biāo)準(zhǔn)化的存儲(chǔ)方式保存的,具有少量的文本信息和數(shù)字信息,常見的方式便是通過電子表格的形式進(jìn)行保存。目前隨著網(wǎng)絡(luò)層面的科學(xué)技術(shù)不斷地發(fā)展,傳統(tǒng)小規(guī)模的數(shù)據(jù)形式得到了進(jìn)一步的變化,出現(xiàn)了越來越多的非結(jié)構(gòu)化的儲(chǔ)存方式,包括圖片、音頻視頻、地理位置等等方式,數(shù)據(jù)形式越來越豐富。因此利用傳統(tǒng)的處理軟件很難對(duì)海量數(shù)據(jù)進(jìn)行相應(yīng)的處理,并且處理速度也是比較緩慢。對(duì)此統(tǒng)計(jì)軟件需要對(duì)新的數(shù)據(jù)形式進(jìn)行相應(yīng)的改革和創(chuàng)新,出現(xiàn)對(duì)于不同形式數(shù)據(jù)進(jìn)行分析的功能,快速識(shí)別非結(jié)構(gòu)化的數(shù)據(jù)形式,將非格式化的數(shù)據(jù)形式進(jìn)行轉(zhuǎn)化,實(shí)現(xiàn)此類統(tǒng)計(jì)學(xué)的軟件對(duì)于提升數(shù)據(jù)分析的效率提升具有很大幫助。
在大數(shù)據(jù)的時(shí)代背景和要求之下,數(shù)據(jù)處理的多種方式和環(huán)節(jié)都將會(huì)發(fā)生改變,具體體現(xiàn)在數(shù)據(jù)的挖掘和數(shù)據(jù)建模的方面,因此對(duì)于傳統(tǒng)統(tǒng)計(jì)學(xué)的方法不能夠完全的拋棄,應(yīng)當(dāng)針對(duì)原有的統(tǒng)計(jì)學(xué)理論和處理方法進(jìn)行升級(jí)和拓展,針對(duì)現(xiàn)有的海量數(shù)據(jù)特征來進(jìn)行復(fù)雜數(shù)據(jù)模型的建模和分析方法實(shí)現(xiàn),進(jìn)一步擴(kuò)充統(tǒng)計(jì)學(xué)的知識(shí)體系和應(yīng)用方法。此外還應(yīng)當(dāng)針對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,數(shù)據(jù)隨著規(guī)模的不斷提高,對(duì)于數(shù)據(jù)質(zhì)量的判斷也越來越困難,數(shù)據(jù)中通常攜帶著大量的噪音,因此需要對(duì)數(shù)據(jù)中存在的噪聲信息進(jìn)行剔除,這也是統(tǒng)計(jì)學(xué)變革和創(chuàng)新發(fā)展的著力點(diǎn)。
對(duì)于目前教育和培訓(xùn)而言,應(yīng)當(dāng)大力推進(jìn)教育教學(xué)的改革,嘗試將統(tǒng)計(jì)學(xué)和其他學(xué)科的相關(guān)技術(shù)和知識(shí)進(jìn)行融合,形成交叉學(xué)科的培養(yǎng)教育模式,統(tǒng)計(jì)學(xué)中涉及理論和實(shí)踐方面的能力,在具體的應(yīng)用中也具有其工具方法,因此本身就具有一定的交叉屬性。目前無論是科研還是企業(yè)應(yīng)用方面都需要大數(shù)據(jù)人才,同時(shí)也需要大量的數(shù)據(jù)分析方面的專家,因此教育教學(xué)當(dāng)中需要針對(duì)社會(huì)中對(duì)于人才的需要進(jìn)行相應(yīng)的培養(yǎng),跟進(jìn)時(shí)代潮流,例如將統(tǒng)計(jì)學(xué)和管理經(jīng)濟(jì)類的學(xué)科進(jìn)行交叉培養(yǎng),來滿足目前大數(shù)據(jù)行業(yè)對(duì)于人才背景的要求。企業(yè)可以組織培訓(xùn)內(nèi)容,聘請(qǐng)行業(yè)內(nèi)專家對(duì)員工數(shù)據(jù)分析理論和當(dāng)前先進(jìn)的統(tǒng)計(jì)工具進(jìn)行教授。
傳統(tǒng)統(tǒng)計(jì)學(xué)中對(duì)于數(shù)據(jù)的處理方式通常是按照一定的方法流程,進(jìn)而進(jìn)行數(shù)據(jù)的統(tǒng)一匯總,基本上過程中數(shù)據(jù)都是具有結(jié)構(gòu)化的特點(diǎn),諸如保存在電子表格中的數(shù)據(jù)。對(duì)于數(shù)據(jù)的分類和預(yù)處理是數(shù)據(jù)處理過程應(yīng)當(dāng)最先進(jìn)行的事情,也是統(tǒng)計(jì)分析中最重要的一個(gè)步驟,預(yù)處理的質(zhì)量直接影響統(tǒng)計(jì)分析的最終質(zhì)量。大數(shù)據(jù)的來源通常都比較的廣泛,具有多種的形式,因此不能夠簡(jiǎn)單的按照傳統(tǒng)統(tǒng)計(jì)學(xué)的處理辦法對(duì)數(shù)據(jù)進(jìn)行處理,否則將無法發(fā)揮出大數(shù)據(jù)多樣性帶來的優(yōu)勢(shì),數(shù)據(jù)的完整性也會(huì)受到損害。因此對(duì)于數(shù)據(jù)信息的完善,就需要研究和創(chuàng)新數(shù)據(jù)處理分析方法,從而對(duì)數(shù)據(jù)進(jìn)行有效地預(yù)處理。
大數(shù)據(jù)的背景之下,數(shù)據(jù)可以是非結(jié)構(gòu)化的數(shù)據(jù)類型,運(yùn)用運(yùn)用某些特定的技術(shù)手段就可以實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的相互轉(zhuǎn)化,對(duì)于兩種數(shù)據(jù)形式的轉(zhuǎn)化問題也是目前關(guān)注度較高的問題。目前現(xiàn)代社會(huì)中,每天都會(huì)有各種形式的數(shù)據(jù)產(chǎn)生,不同的數(shù)據(jù)加起來便構(gòu)成了海量數(shù)據(jù),因此需要提高海量數(shù)據(jù)的表達(dá)方式和水平。在傳統(tǒng)統(tǒng)計(jì)學(xué)當(dāng)中,數(shù)據(jù)的推斷更加重要,但是大數(shù)據(jù)的處理框架中,更加偏向數(shù)據(jù)的描述,這一主要特征由大數(shù)據(jù)的多樣性決定。大數(shù)據(jù)通常對(duì)于數(shù)據(jù)整體和部分具有比較完整的描述,應(yīng)當(dāng)加強(qiáng)對(duì)于結(jié)構(gòu)化數(shù)據(jù)的收集,而對(duì)于非結(jié)構(gòu)化數(shù)據(jù)將著重放在對(duì)于其中有效信息的挖掘上面。通常非結(jié)構(gòu)數(shù)據(jù)具有一定的抽象性,后期對(duì)數(shù)據(jù)進(jìn)行分析的過程當(dāng)中,需要將非結(jié)構(gòu)化的數(shù)據(jù)根據(jù)某種形式轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),在后續(xù)分析的過程中便可以簡(jiǎn)潔。
根據(jù)以上的討論,可以得出大數(shù)據(jù)時(shí)代背景下給予了統(tǒng)計(jì)學(xué)機(jī)遇和挑戰(zhàn),大數(shù)據(jù)相對(duì)于以往的數(shù)據(jù)特點(diǎn),除了數(shù)據(jù)量大之外還有多樣性的特點(diǎn)。統(tǒng)計(jì)學(xué)對(duì)于大數(shù)據(jù)時(shí)代下的挑戰(zhàn),應(yīng)該從多個(gè)角度尋求創(chuàng)新和變革,來適應(yīng)大數(shù)據(jù)時(shí)代背景下各個(gè)產(chǎn)業(yè)的要求和整體的發(fā)展,使得大數(shù)據(jù)可以和統(tǒng)計(jì)學(xué)產(chǎn)生有機(jī)的融合,促進(jìn)兩門學(xué)科的發(fā)展。需要在大數(shù)據(jù)時(shí)代背景下充分把握機(jī)遇,促進(jìn)統(tǒng)計(jì)學(xué)的改革,適應(yīng)當(dāng)前形勢(shì)下海量數(shù)據(jù)的處理要求,才能全面推進(jìn)理論和科學(xué)手段的雙方面共同發(fā)展。