張璧麟
(英國拉夫堡大學(xué) LE11 3TU)
近年來,由于物聯(lián)網(wǎng)、云技術(shù)等前沿技術(shù)的出現(xiàn),網(wǎng)絡(luò)信息技術(shù)得到了一定的發(fā)展。當(dāng)今時代,很多都是根據(jù)大量的數(shù)據(jù)來進行發(fā)展,專業(yè)對信息處理工作提出了非常高的要求。從以往的統(tǒng)計分析工作來講,它已經(jīng)無法適應(yīng)新時代的需要,需要通過新的技術(shù)手段,才能夠更好地滿足當(dāng)今時代的需求。在大數(shù)據(jù)的背景之下,很多單位已經(jīng)進行信息技術(shù)的應(yīng)用,大批量地進行統(tǒng)計分析工作。
麥肯錫表示,現(xiàn)在是人工智能的時代,通過大數(shù)據(jù)技術(shù)能夠更好地對海量數(shù)據(jù)進行收集,并且能夠利用智能技術(shù)進行分析和管理。這樣能夠在很大程度上提高信息的規(guī)模,還能夠進行多種數(shù)據(jù)的分析。通過大數(shù)據(jù)技術(shù)能夠改變?nèi)藗兊纳罘绞?,也能夠為人們帶來非常大的便利,促進社會的快速發(fā)展。統(tǒng)計學(xué)同樣也深受信息時代的影響。由于大數(shù)據(jù)分析的出現(xiàn),統(tǒng)計學(xué)逐漸成為研究信息處理過程與大數(shù)據(jù)分析關(guān)系的重要學(xué)科,需要進行一些改革以適應(yīng)時代的發(fā)展和進步。
大數(shù)據(jù)指的是能夠通過大量的樣本進行一定的數(shù)據(jù)集合,利用統(tǒng)計學(xué)能夠通過采樣的形式來進行數(shù)據(jù)分析,從而能夠有效保證數(shù)據(jù)的精準度。在進行數(shù)據(jù)分析時,可以進行變量的選擇,并且壓縮和分解,從而能夠更好地進行相關(guān)問題的研究。大數(shù)據(jù)所涵蓋的領(lǐng)域非常廣,包括自然科學(xué)、社會學(xué)、經(jīng)濟學(xué)等諸多方面,從而能夠形成知識的海洋。大數(shù)據(jù)的類型也非常多,可以是文本的形式進行存儲,也可以通過該圖片、視頻的形式來進行儲存,從而實現(xiàn)大數(shù)據(jù)的集合。一般大數(shù)據(jù)的環(huán)境主要包括數(shù)據(jù)流環(huán)境、磁盤存儲環(huán)境、分布存儲環(huán)境以及多線條環(huán)境,利用大數(shù)據(jù)能夠更好地進行數(shù)據(jù)知識的轉(zhuǎn)化。通過大數(shù)據(jù)分析,統(tǒng)計專業(yè)人士能及時掌握所需資訊。通過此種信息的收集和處理方式會進行時間成本的節(jié)約,也會節(jié)約很多人力、物力,實現(xiàn)社會生產(chǎn)效率的提升。
統(tǒng)計學(xué)科具有漫長的發(fā)展歷程。雖然統(tǒng)計學(xué)形成于人類社會進行大量生產(chǎn)勞動活動的時代,但后來發(fā)展很緩慢,應(yīng)用到了各種實際中。對于統(tǒng)計的起源時間,西方通常認為是希臘阿里斯托德時代。我國在秦朝以后,統(tǒng)計學(xué)出現(xiàn)了進一步的發(fā)展,但是還沒有形成一定的規(guī)模。此后,人口統(tǒng)計又經(jīng)過了三次主要發(fā)展階段。
在新中國正式成立之后,主要引進了蘇聯(lián)的發(fā)展模式。然而,統(tǒng)計的發(fā)展依賴于經(jīng)濟體系。在計劃經(jīng)濟下,統(tǒng)計的發(fā)展受到了阻礙。因此,這一時代中國統(tǒng)計的發(fā)展跟不上西方統(tǒng)計的發(fā)展。
在改革開放之后各種新鮮事物大量進入我國,我國的內(nèi)部工作環(huán)境與蘇聯(lián)所具有的制度之間存在著一定的不同,但是受到我國當(dāng)時的發(fā)展特點所影響,計劃經(jīng)濟讓統(tǒng)計學(xué)變得缺乏活力。與此同時,歐美統(tǒng)計方法已經(jīng)在我國市場上引起了非常大的轟動,引起了國際學(xué)界對我國統(tǒng)計學(xué)科建設(shè)的廣泛討論。
我國的改革開放政策讓統(tǒng)計學(xué)得到了非常大的發(fā)展,特別是社會經(jīng)濟統(tǒng)計和數(shù)理統(tǒng)計。慢慢地,統(tǒng)計學(xué)的思想已經(jīng)開始涌現(xiàn),統(tǒng)計文獻和資料也開始逐漸變多,這樣能夠更好地促進我國統(tǒng)計學(xué)發(fā)展,從而能夠更好地進行統(tǒng)計專業(yè)資料的整合。通過大數(shù)據(jù)統(tǒng)計思想的出現(xiàn),讓我國的統(tǒng)計行業(yè)能夠更好地發(fā)展,并為后期的發(fā)展提供了非常強大的理論基礎(chǔ)。統(tǒng)計學(xué)已經(jīng)遇到了良好的發(fā)展機會,統(tǒng)計學(xué)的發(fā)展與歷史背景具有非常大的關(guān)聯(lián),在新世紀的背景之下,統(tǒng)計學(xué)在專業(yè)課程的建設(shè)中發(fā)生了非常大的改變,能夠進行信息化的轉(zhuǎn)變,跟上時代的發(fā)展步伐。
過去在電腦應(yīng)用分析流程中,分析處理工作通常由電腦進行,數(shù)據(jù)工作與計算機的硬盤存儲量具有非常大的關(guān)聯(lián)。當(dāng)下,為了能夠更好地進行大數(shù)據(jù)處理,傳統(tǒng)的統(tǒng)計學(xué)模式和存儲工作已經(jīng)完全被顛覆,而分析存放方式變得更為簡單,信息量存儲也大大提高。因此分析工作不再局限于電腦,而且還能夠運用如云存儲技術(shù)、大數(shù)據(jù)處理信息技術(shù)等更為前沿的現(xiàn)代信息技術(shù),使海量數(shù)據(jù)在大數(shù)據(jù)處理中心完成分析工作。在進行數(shù)據(jù)存儲的過程中,還能夠進行多臺計算機的連接,實現(xiàn)不同計算機來共同進行大數(shù)據(jù)的存儲。而使用同一臺電腦,能夠?qū)Χ鄠€存儲器中的數(shù)據(jù)進行分類處理,因此多個存儲器都能夠為一個計算機系統(tǒng)提供功能。
1.數(shù)據(jù)的預(yù)處理
大數(shù)據(jù)科技早已悄悄顛覆人類的日常生活,深刻影響了人類生活與工作的方方面面。在科學(xué)研究領(lǐng)域,利用大數(shù)據(jù)處理技術(shù)能夠更便捷地獲取各種有關(guān)資源、數(shù)據(jù)和書籍,并提供給有關(guān)技術(shù)人員借鑒和應(yīng)用。在今天,由于大數(shù)據(jù)處理技術(shù)的廣泛應(yīng)用,使人類可以利用更廣泛的數(shù)據(jù)類型,更方便地獲取數(shù)據(jù),更快捷地查找數(shù)據(jù),大數(shù)據(jù)初級技術(shù)也逐漸得到發(fā)展,能夠更好地進行預(yù)處理技術(shù)的發(fā)展,通過此種技術(shù)的使用,能夠提升大數(shù)據(jù)分析技術(shù)的應(yīng)用價值。大數(shù)據(jù)技術(shù)的使用,一般需要經(jīng)過大數(shù)據(jù)清洗、數(shù)據(jù)不完整填充、數(shù)據(jù)修正三個階段。至于統(tǒng)計學(xué),在這三個階段,統(tǒng)計學(xué)中的隨機抽樣調(diào)查方法,主要用于數(shù)據(jù)的修正。利用統(tǒng)計技術(shù)能夠更好地提升大數(shù)據(jù)時代信息處理的時效性,還能夠進行數(shù)據(jù)庫的實時更新,這樣能夠更好地進行數(shù)據(jù)庫的連接,為數(shù)據(jù)預(yù)處理提供支持。
2.大數(shù)據(jù)環(huán)境抽樣
在進行數(shù)據(jù)的統(tǒng)計過程中,需要所有的樣本都能夠進行數(shù)據(jù)的存儲。不過,在大數(shù)據(jù)分析技術(shù)的實際運用中,在進行抽樣的過程中,需要將所有的數(shù)據(jù)都進行一定的統(tǒng)計工作。而在大數(shù)據(jù)技術(shù)的使用過程中,能夠更好地進行隨機抽樣,這樣更加具有代表性。該技術(shù)的進行主要借助大統(tǒng)計的有關(guān)理論知識,從而能夠更好地提升大數(shù)據(jù)處理的科學(xué)性,還能夠在此過程中對其進行嚴格控制。此外,在大數(shù)據(jù)收集處理過程中,人們往往遇到時間周期較長的問題,但是通過這種方法無法進行統(tǒng)一處理。而利用大數(shù)據(jù)技術(shù)能夠更好地進行數(shù)據(jù)的收集,節(jié)約時間成本,成倍提高效率,從而確保在短時間內(nèi)統(tǒng)一簡單地處理數(shù)據(jù)。
3.大數(shù)據(jù)的分析與整合
在過去的統(tǒng)計應(yīng)用流程中,由于信息技術(shù)發(fā)展比較滯后,無法完成復(fù)雜的操作步驟,因此出現(xiàn)了不少錯誤。與此同時,大數(shù)據(jù)技術(shù)也出現(xiàn)了非常快速的發(fā)展。因為計算機網(wǎng)絡(luò)的快速發(fā)展,計算工作質(zhì)量有了很大的提高,通過信息技術(shù)處理能夠更好地讓其工作變得更加多樣化。人們能夠更好地利用壓縮技術(shù)、變換技術(shù)、傳輸技術(shù),來提升一定的信息處理效率,也使得信息處理結(jié)論更為準確。同樣,在大數(shù)據(jù)處理時代,我們能夠通過數(shù)據(jù)動態(tài)的方法來進行一定的模型構(gòu)建,這樣能夠有助于數(shù)據(jù)庫系統(tǒng)進行一定的改變。大型數(shù)據(jù)庫系統(tǒng)也可分成幾組,通過使用這些技術(shù)能更方便地查詢與它們有關(guān)的數(shù)據(jù)和技術(shù)。而且,網(wǎng)絡(luò)時代也讓統(tǒng)計工作出現(xiàn)巨大改變。數(shù)據(jù)搜索工作不僅僅可以通過關(guān)鍵字來進行一定的數(shù)據(jù)獲取,更加能夠進行海量數(shù)據(jù)的收集。
傳統(tǒng)的統(tǒng)計工作主要是進行相關(guān)的資料進行收集,并且有工作人員進行一定的分析,最后得出結(jié)論。但是,在以往的統(tǒng)計應(yīng)用中,統(tǒng)計資料來源往往局限,無法鑒別其真實性。因此大統(tǒng)計時代的來臨,給統(tǒng)計分析工作帶來了許多方便。因此,能夠更好地對數(shù)據(jù)內(nèi)容進行豐富,還能夠讓數(shù)據(jù)源變得更加多樣化,人們能夠在所搜集到的數(shù)據(jù)中產(chǎn)生出許多新的數(shù)據(jù)。在過去,數(shù)據(jù)往往僅限于單個領(lǐng)域,在大數(shù)據(jù)技術(shù)應(yīng)用的背景下,很多行業(yè)都可以通過大數(shù)據(jù)分析而實現(xiàn)相應(yīng)的目標(biāo),從而能夠?qū)崿F(xiàn)更多數(shù)據(jù)的收集和處理,進而獲取經(jīng)濟利益。
根據(jù)國際數(shù)據(jù)統(tǒng)計標(biāo)準中能夠發(fā)現(xiàn),通過合適、并且準確的方法能夠進行高質(zhì)量的統(tǒng)計。而適應(yīng)性是統(tǒng)計工作中的重點內(nèi)容,需要統(tǒng)計信息符合要求,才能夠更好地滿足客戶的需求。通過大數(shù)據(jù)技術(shù)能夠更好地進行統(tǒng)計功能提升,從而可以用更少的時間去進行相關(guān)統(tǒng)計工作,有效提供統(tǒng)計工作效率,讓企業(yè)客戶能夠在第一時間對統(tǒng)計信息進行全方位了解。大數(shù)據(jù)技術(shù)通過網(wǎng)絡(luò)能夠更好地實現(xiàn)快速傳遞,能夠應(yīng)用大數(shù)據(jù)技術(shù)去進行估值,并且能夠縮小估值與真值之間所具有的誤差,能夠讓誤差控制在一定的范圍內(nèi),這樣才能夠?qū)崿F(xiàn)統(tǒng)計數(shù)據(jù)的真實性。同時,還能夠通過大數(shù)據(jù)技術(shù)進行統(tǒng)計結(jié)果的核算工作,從而可以更好地保證工作質(zhì)量,有效實現(xiàn)數(shù)據(jù)的平衡。傳統(tǒng)的統(tǒng)計學(xué)處理工作在大數(shù)據(jù)的分析和處理中具有一定的劣勢及滯后性,比如在進行CPI報表的制作時,中間的數(shù)據(jù)會存在著一定的滯后性,不能夠根據(jù)實際的情況作出必要的調(diào)整。而通過大數(shù)據(jù)技術(shù)就能夠根據(jù)當(dāng)前的“價格指數(shù)”來進行市場數(shù)據(jù)監(jiān)測工作,從而能夠更好地對每天的價格進行數(shù)據(jù)獲取,也可以根據(jù)市場的情況來進行一定的調(diào)節(jié)。通過此種方式,能夠在很大程度上彌補傳統(tǒng)統(tǒng)計學(xué)的缺點,有效避免出現(xiàn)通貨膨脹的發(fā)生。
通過大數(shù)據(jù)技術(shù)能夠讓現(xiàn)代的統(tǒng)計工作成本降低,這樣能夠不再需要通過人力來進行數(shù)據(jù)調(diào)查和收集工作。傳統(tǒng)的統(tǒng)計工作會動用大量的人力、物力去進行統(tǒng)計工作,從而造成非常大的成本浪費。而在大數(shù)據(jù)時代下,可以利用互聯(lián)網(wǎng)來進行相關(guān)的信息統(tǒng)計,能夠自動進行大數(shù)據(jù)的收集,在一定程度上實現(xiàn)了數(shù)據(jù)收集成本的降低。利用大數(shù)據(jù)來進行相應(yīng)的信息收集也會比較客觀和準確,有利于促進現(xiàn)代統(tǒng)計學(xué)的發(fā)展。通過大數(shù)據(jù)技術(shù)能夠有效轉(zhuǎn)變傳統(tǒng)的統(tǒng)計學(xué)思想,不僅僅是對個別樣本的重視,而且需要對整體的數(shù)據(jù)進行處理和分析,這樣的統(tǒng)計工作具有更高的工作質(zhì)量。
樣本數(shù)據(jù)是統(tǒng)計工作中的重要工作內(nèi)容,能夠更好地進行數(shù)據(jù)對象的連接。而大數(shù)據(jù)技術(shù)能夠更好地進行關(guān)聯(lián),總的來說,樣本集的定義很大地改變了和樣本數(shù)量有關(guān)的研究主題范疇。在大數(shù)據(jù)時代,數(shù)據(jù)來源已經(jīng)不再簡單,而且還能夠從多種視角加以檢驗,這讓統(tǒng)計資料更有說服力、更接近實際情況,但同時也對數(shù)據(jù)學(xué)術(shù)研究提出了更高的要求。當(dāng)樣本總量成指數(shù)上升時,會出現(xiàn)一定的數(shù)據(jù)分散的情況。在傳統(tǒng)的統(tǒng)計學(xué)知識中,數(shù)據(jù)是具有一定的結(jié)構(gòu)化特點的。統(tǒng)計學(xué)并不能夠?qū)ζ溥M行高效的管理工作,利用大數(shù)據(jù)技術(shù)很難進行非常有用的數(shù)據(jù)。通過以上的問題能夠反映非結(jié)構(gòu)化數(shù)據(jù),在日常的工作中無法進行系統(tǒng)理論指導(dǎo)。而大數(shù)據(jù)技術(shù)卻具有自身的優(yōu)點,這也要求大數(shù)據(jù)技術(shù)本身必須加快變革速度,以滿足大數(shù)據(jù)分析時代的新需求。如果大數(shù)據(jù)技術(shù)無法適應(yīng)新時代的發(fā)展趨勢,將很難滿足大數(shù)據(jù)分析技術(shù)的需求,無法實現(xiàn)相關(guān)工作的需求。
在大數(shù)據(jù)的背景下,信息技術(shù)能夠更好地進行信息和計算機硬件的依靠。在計算機操作流程中,大量數(shù)據(jù)與知識的運用都需要統(tǒng)計分析軟件的載體發(fā)揮作用。通過統(tǒng)計分析軟件能夠提高統(tǒng)計分析與信息處理的能力,同時減少了統(tǒng)計分析工作困難,也大大降低了應(yīng)用數(shù)據(jù)操作的技術(shù)門檻,使大數(shù)據(jù)的運用更為深入。當(dāng)下,已經(jīng)實現(xiàn)了各種統(tǒng)計分析軟件的應(yīng)用,但是這種應(yīng)用軟件還具有較大的技術(shù)缺陷。在大數(shù)據(jù)時代,由于信息在各種媒介中高速傳輸,各領(lǐng)域的應(yīng)用軟件也正逐步適應(yīng)著這個新的技術(shù)變革。計算機科學(xué)的飛速進展,也要求有關(guān)計算領(lǐng)域的各類相關(guān)應(yīng)用軟件的深入研究,但是很多公司非常缺乏相關(guān)的資源支撐,還有一些比較大的公司對此技術(shù)缺乏興趣。
在進行大數(shù)據(jù)統(tǒng)計學(xué)理論研究的過程中,其主要研究目標(biāo)是能夠在統(tǒng)計學(xué)方面進行有效工具的研究。傳統(tǒng)的統(tǒng)計學(xué)研究工作主要是進行概率分布的研究,而隨著相關(guān)研究工作技術(shù)的逐漸成熟,其研究工作也逐漸朝著指數(shù)族、頻率計算等一些比較復(fù)雜應(yīng)用的方面進行研究和發(fā)展。通過對該方面的研究,能夠具有非常廣泛的應(yīng)用,可以更好地進行典型理論的研究,有效體現(xiàn)概率論的重要性。還需要對龐大的數(shù)據(jù)進行分析,有效使用Bootstrap的方法來進行統(tǒng)計應(yīng)用。
大數(shù)據(jù)吝嗇建模主要是對大數(shù)據(jù)的開發(fā)方法進行一定的研究,這樣能夠更好地去除榮譽信息。在大數(shù)據(jù)技術(shù)快速發(fā)展的今天,更多的線上快速計算技術(shù)也應(yīng)運而生。大數(shù)據(jù)存在的形式十分豐富,因為受到大數(shù)據(jù)龐大體量的影響,通過大數(shù)據(jù)分析需要進行進一步的優(yōu)化,比如優(yōu)化器的制作、高效率的算法研究等,從而能夠更好地進行實際應(yīng)用。
現(xiàn)在的大數(shù)據(jù)能夠通過千萬兆臺來進行模擬工作,從而能夠更好地進行大數(shù)據(jù)信息的收集和存儲。當(dāng)大數(shù)據(jù)能夠更好地分布在系統(tǒng)的內(nèi)存節(jié)點之上,那么在進行少量數(shù)據(jù)的存儲也會付出非常大的成本。因此,為了能夠更加科學(xué)地進行數(shù)據(jù)的收集,需要進行一定的改革,從而能夠更好地進行千萬億兆級別的系統(tǒng)研究,這樣才能夠更好地進行大數(shù)據(jù)建模,有效利用空間降維技術(shù)來進行編碼的嵌入工作。并且能夠利用分布式的模式來進行分類,從而能夠更好地進行新算法的研究,有效進行數(shù)據(jù)統(tǒng)計工作。
張量在數(shù)學(xué)上主要是進行矩陣式多維推廣,是一種非數(shù)值的元素,在相關(guān)的應(yīng)用中會存在比較大的耦合張量。為了能夠更好地進行耦合張量的分析,可以通過一些新的算法來進行處理,這樣才能夠更好地進行大數(shù)據(jù)的分析。對此進行研究的主要方向需要進行可擴展的工具包,這樣才能夠更好地進行統(tǒng)計研究工作。主要的研究內(nèi)容是張量因子理論分析,進行多向研究降維處理,并且能夠進行相關(guān)數(shù)據(jù)的處理,從而能夠在很大程度上實現(xiàn)對耦合張量的評估。
在大數(shù)據(jù)的背景下,不斷摸索與革新,才能在時代發(fā)展的過程中不被遺忘。大數(shù)據(jù)技術(shù)是一種新興的技術(shù),在統(tǒng)計學(xué)的研究中具有非常重要的作用,在很多國內(nèi)外的文獻中都具有一定的理論支持。在大數(shù)據(jù)時代,其為統(tǒng)計學(xué)的發(fā)展帶來了一定的機遇和挑戰(zhàn),在未來的發(fā)展中,更加需要對大數(shù)據(jù)理論進行深入研究,還需要根據(jù)存在的情況來進行一定的硬件升級和軟件的研發(fā),從而能夠在很大程度上來進行統(tǒng)計工作的創(chuàng)新和改進,進而實現(xiàn)統(tǒng)計工作的質(zhì)量提升。大數(shù)據(jù)時代對統(tǒng)計學(xué)所需要的數(shù)據(jù)具有非常高的要求,為了更好地進行大數(shù)據(jù)的應(yīng)用,需要正確認識大數(shù)據(jù)技術(shù),同時要進一步進行研究工作,實現(xiàn)大數(shù)據(jù)時代下統(tǒng)計學(xué)的研究框架構(gòu)建,促進統(tǒng)計工作質(zhì)量的提升。