摘 要:繼云計(jì)算、云平臺(tái)之后,大數(shù)據(jù)又悄悄成為時(shí)下熱詞,“今天你云了嗎?”的問(wèn)候語(yǔ),也變成了“今天你大數(shù)據(jù)了嗎?”什么是大數(shù)據(jù)?大數(shù)據(jù)就是數(shù)據(jù)多、數(shù)據(jù)大?大數(shù)據(jù)與以往的數(shù)據(jù)(我們不妨先稱之為“小數(shù)據(jù)”)有什么區(qū)別?以上問(wèn)題值得我們深思與探究。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)應(yīng)用;結(jié)合教育
“大數(shù)據(jù)”一詞早在20世紀(jì)40年代就已出現(xiàn),百度、互聯(lián)網(wǎng)周刊、IBM,許多機(jī)構(gòu)都為大數(shù)據(jù)給出了定義,在《大數(shù)據(jù)時(shí)代》一書中,作者將數(shù)據(jù)、技術(shù)與思維并列為三大角色,我認(rèn)為大數(shù)據(jù)正是這三者的統(tǒng)一,即數(shù)據(jù)本身,數(shù)據(jù)處理技術(shù),數(shù)據(jù)應(yīng)用思維。下面我們就從數(shù)據(jù)、技術(shù)、思維三個(gè)方面看看大數(shù)據(jù)與小數(shù)據(jù)有什么不同,來(lái)幫助大家更好地理解大數(shù)據(jù)。
一、 大數(shù)據(jù)時(shí)代來(lái)了
數(shù)據(jù)本身我們并不陌生,日常生活中充滿了數(shù)據(jù),人類對(duì)數(shù)據(jù)的使用早在上古時(shí)代就已開(kāi)始,人們通過(guò)對(duì)日、月位置及四季的變化來(lái)制訂歷法,就是一個(gè)完整的數(shù)據(jù)采集、分析與應(yīng)用的過(guò)程。小數(shù)據(jù)時(shí)代我們對(duì)數(shù)據(jù)分析更多是定性也定量的,大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)的定義與之相比還有差異,一是數(shù)據(jù)量的加大。大數(shù)據(jù)是利用所有數(shù)據(jù),而不依賴于隨機(jī)樣本,這種全數(shù)據(jù)的模式,成功地避開(kāi)了樣本數(shù)量與樣本選擇對(duì)結(jié)果的不良影響;二是數(shù)據(jù)的生命周期更長(zhǎng)了。當(dāng)我們處理一條信息時(shí),一定會(huì)關(guān)注信息的時(shí)效性,比如當(dāng)飛機(jī)成功降落后,在一個(gè)較短的時(shí)間內(nèi),對(duì)于我們來(lái)說(shuō)相關(guān)的信息被認(rèn)為已經(jīng)失去意義。然而在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的生命周期更長(zhǎng)了,我們可以通過(guò)對(duì)一名乘客以往的飛行記錄來(lái)分析預(yù)測(cè)他下次飛行的時(shí)間及目的,從而制定相應(yīng)的推銷計(jì)劃;三是非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了更多的位置。小數(shù)據(jù)時(shí)代數(shù)據(jù)分析的對(duì)象更多是線性的,結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)時(shí)代非結(jié)構(gòu)化數(shù)據(jù)日益增加,數(shù)據(jù)格式更是紛繁蕪雜,文字的、圖片的、各類報(bào)表、音頻的、視頻的,數(shù)據(jù)的數(shù)量、種類、結(jié)構(gòu)都發(fā)生了巨大的變化。
這里的技術(shù)是指數(shù)據(jù)分析技術(shù),小數(shù)據(jù)時(shí)代我們分析更多的是結(jié)構(gòu)化數(shù)據(jù),追求數(shù)據(jù)的準(zhǔn)確性。在大數(shù)據(jù)時(shí)代,結(jié)構(gòu)化的數(shù)據(jù)只能占到5%甚至更少,我們需要面對(duì)分析的更多是非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)量的增大,非結(jié)構(gòu)化數(shù)據(jù)的增加,數(shù)據(jù)格式的不統(tǒng)一,讓我們不得不接受數(shù)據(jù)的混雜和不精確。比如我們?cè)谒阉饕嬷休斎搿叭ā?,我們得到的結(jié)果可能是海峽兩岸三通,可能是教育“三通兩平臺(tái)”,還有可能是水暖產(chǎn)品。當(dāng)然實(shí)際情況要復(fù)雜的多,越是非結(jié)構(gòu)化的數(shù)據(jù),其分析處理難度就越大,對(duì)技術(shù)的要求就越高,我們盡可能地為文章加注關(guān)鍵詞也是降低處理難度的一種方式。這種數(shù)據(jù)的不準(zhǔn)確性并不影響我們對(duì)大數(shù)據(jù)的使用,大數(shù)據(jù)的核心是預(yù)測(cè),這種預(yù)測(cè)是用概率來(lái)說(shuō)話的,有時(shí)我們不得不接受一個(gè)問(wèn)題不是只有唯一答案的結(jié)果。
大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)的分析更多是相關(guān)關(guān)系,而不是因果關(guān)系。在小數(shù)據(jù)時(shí)代我們對(duì)數(shù)據(jù)的分析,是希望通過(guò)對(duì)數(shù)據(jù)的分析找出不同變量間的因果關(guān)系,從而達(dá)到對(duì)生產(chǎn)、生活的指導(dǎo)。而大數(shù)據(jù)時(shí)代并不糾結(jié)于數(shù)據(jù)的因果,而更多的關(guān)注“是什么”,至于“為什么”的問(wèn)題放在了次要的位置,比如通過(guò)對(duì)數(shù)據(jù)的分析,我們看到每天上網(wǎng)時(shí)長(zhǎng)在半小時(shí)到1小時(shí)之間的學(xué)生,平均成績(jī)要更高,那我們要做的首先就是創(chuàng)造相應(yīng)的條件,其次才會(huì)去深入研究其中的因果關(guān)系。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)量及數(shù)據(jù)的來(lái)源不斷增加,數(shù)據(jù)分析技術(shù)日益更新,然而擁抱大數(shù)據(jù)時(shí)代還要從思想認(rèn)識(shí)上更準(zhǔn)確的理解大數(shù)據(jù),IT(Information Technology)既要有信息,也要有技術(shù),沒(méi)有信息,技術(shù)就是無(wú)源之水;沒(méi)有技術(shù),信息只是毫無(wú)意義的“0、1”堆積。在大數(shù)據(jù)時(shí)代,同樣重要的還有思維,首先要認(rèn)識(shí)數(shù)據(jù)的價(jià)值,然后采用合理的分析方法得出結(jié)論,最終將其轉(zhuǎn)化為價(jià)值。數(shù)據(jù)不應(yīng)只是擺在政府官員桌上的報(bào)告,也不應(yīng)只是年終總結(jié)的種種圖表,數(shù)據(jù)應(yīng)成為可利用,可創(chuàng)造價(jià)值的資源,數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用三者應(yīng)形成一個(gè)良好的閉環(huán),形成政府支持、服務(wù)社會(huì)、產(chǎn)業(yè)反哺的數(shù)據(jù)產(chǎn)業(yè)良性發(fā)展。
大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,大數(shù)據(jù)帶給我們的是全新的數(shù)據(jù)分析與使用方式,是全新的思維與觀念,是巨大的機(jī)遇與挑戰(zhàn),面對(duì)大數(shù)據(jù)帶來(lái)的變革,有清晰的認(rèn)識(shí)與明確的規(guī)劃是我們的當(dāng)務(wù)之急。
二、 中國(guó)的數(shù)據(jù)建設(shè)現(xiàn)狀
在中國(guó),早在2002年,國(guó)家“四大基礎(chǔ)數(shù)據(jù)庫(kù)”的概念就被提出,即人口基礎(chǔ)信息庫(kù)、法人單位基礎(chǔ)信息庫(kù)、自然資源和空間地理基礎(chǔ)信息庫(kù)、宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù)(見(jiàn)《國(guó)家信息化領(lǐng)導(dǎo)小組關(guān)于我國(guó)電子政務(wù)建設(shè)指導(dǎo)意見(jiàn)》)。雖然《意見(jiàn)》中將“四大基礎(chǔ)數(shù)據(jù)庫(kù)”作為國(guó)家電子政務(wù)建設(shè)的重要組成部分提出,但其具體的技術(shù)規(guī)范和實(shí)現(xiàn)方法未能明確,“四大基礎(chǔ)數(shù)據(jù)庫(kù)”的建設(shè)現(xiàn)狀并不令人樂(lè)觀。
中國(guó)數(shù)據(jù)產(chǎn)業(yè)大都還停留在數(shù)據(jù)采集與交易的初級(jí)形態(tài),與國(guó)外相比還存在數(shù)據(jù)量小,尤其是公共數(shù)據(jù)量小;數(shù)據(jù)分析、使用手段簡(jiǎn)單,數(shù)據(jù)增值不足;立法與規(guī)范不足,數(shù)據(jù)濫用等問(wèn)題。
十二屆全國(guó)人大三次會(huì)議上,李克強(qiáng)總理在政府工作報(bào)告中首次提出“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃。十八屆五中全會(huì)公報(bào)提出要實(shí)施“國(guó)家大數(shù)據(jù)戰(zhàn)略”,第一次將大數(shù)據(jù)寫入黨的全會(huì)決議,標(biāo)志著大數(shù)據(jù)戰(zhàn)略正式上升為國(guó)家戰(zhàn)略。
三、 教育大數(shù)據(jù)
在教育方面,2012年劉延?xùn)|副總理(時(shí)任國(guó)務(wù)委員)提出:“要以建設(shè)好‘三通兩平臺(tái)為抓手,也就是‘寬帶網(wǎng)絡(luò)校校通、優(yōu)質(zhì)資源班班通、網(wǎng)絡(luò)學(xué)習(xí)空間人人通,建設(shè)教育資源公共服務(wù)平臺(tái)和教育管理公共服務(wù)平臺(tái)?!毕破鹆私逃畔⒒ㄔO(shè)又一次高潮,其中“兩平臺(tái)”建設(shè)正是我們迎接大數(shù)據(jù)時(shí)代的良好契機(jī)。
“兩平臺(tái)”建設(shè)是指教育管理公共服務(wù)平臺(tái)和教育資源公共服務(wù)平臺(tái)(以下簡(jiǎn)稱管理平臺(tái)和資源平臺(tái)),目前全國(guó)各省均在如火如荼的進(jìn)行這項(xiàng)建設(shè)工作。其中教育管理公共服務(wù)平臺(tái)。采用“兩級(jí)建設(shè),五級(jí)應(yīng)用”的建設(shè)模式,即圍繞國(guó)家教育改革發(fā)展的中心任務(wù),按照國(guó)家和省兩級(jí)數(shù)據(jù)中心建設(shè),中央、省、市(地)、縣和學(xué)校五級(jí)應(yīng)用的基本思路、建設(shè)覆蓋全國(guó),各級(jí)各類教育的學(xué)校、教師、學(xué)生的信息管理系統(tǒng)。同時(shí)教育管理公共服務(wù)平臺(tái)在資金解決和數(shù)據(jù)中心建設(shè)方面均有指導(dǎo)性意見(jiàn)。國(guó)家級(jí)教育資源公共服務(wù)平臺(tái)已經(jīng)建成,各省如何建設(shè)沒(méi)有明確的意見(jiàn)。endprint
我認(rèn)為兩平臺(tái)并非兩個(gè)孤立的平臺(tái),在建設(shè)、應(yīng)用等層面兩平臺(tái)都有密不可分的聯(lián)系,兩平臺(tái)應(yīng)做到數(shù)據(jù)互通,相互融合,這樣有利于大數(shù)據(jù)的分析。
“大數(shù)據(jù)的挖掘主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘”,“在非結(jié)構(gòu)化數(shù)據(jù)挖掘中,會(huì)自然進(jìn)行數(shù)據(jù)清洗和和逐步強(qiáng)形式化,自然形成半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),以提高數(shù)據(jù)使用效率”。對(duì)大數(shù)據(jù)的分析與利用很大程度上要轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),以便我們找出其中的規(guī)律。同樣,結(jié)構(gòu)化的數(shù)據(jù)也是我們做大數(shù)據(jù)分析的重要依據(jù),通過(guò)結(jié)構(gòu)化的數(shù)據(jù)我們可以更精確地分析教師與學(xué)生的不同,不同學(xué)生之間的個(gè)體差異。
如果說(shuō)管理平臺(tái)是實(shí)現(xiàn)管理現(xiàn)代化的重要基礎(chǔ),資源平臺(tái)就是教學(xué)應(yīng)用最主要的系統(tǒng),在教師和學(xué)生的應(yīng)用過(guò)程將產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù)絕大多數(shù)是非結(jié)構(gòu)化數(shù)據(jù),如果僅僅是將這些數(shù)據(jù)作為資源存儲(chǔ)起來(lái),這是對(duì)數(shù)據(jù)資源的一種浪費(fèi),千百萬(wàn)教師、學(xué)生應(yīng)用的過(guò)程、軌跡,這些有價(jià)值的數(shù)據(jù)被忽略了。對(duì)這些數(shù)據(jù)的分析,可以告訴我們教師、學(xué)生喜歡用什么樣的資源,哪些系統(tǒng)對(duì)提高學(xué)生成績(jī)有幫助,他們的使用習(xí)慣是什么,這些是可用于再創(chuàng)造價(jià)值的信息,我們要做的絕不僅是將資源簡(jiǎn)單的堆積。
管理平臺(tái)可以為資源平臺(tái)實(shí)現(xiàn)實(shí)名認(rèn)證提供支持,通過(guò)實(shí)名認(rèn)證將兩平臺(tái)有機(jī)聯(lián)系起來(lái),為日后實(shí)現(xiàn)大數(shù)據(jù)分析與應(yīng)用打基礎(chǔ)。大數(shù)據(jù)發(fā)展的障礙,在于數(shù)據(jù)的“流動(dòng)性”和“可獲取性”,美國(guó)、英國(guó)、印度均有數(shù)據(jù)公開(kāi)的措施、舉動(dòng)。數(shù)據(jù)資源不同于任何一種自然資源,它不會(huì)越用越少,甚至枯竭,而是隨著數(shù)據(jù)的應(yīng)用、匯聚,它會(huì)愈發(fā)壯大、再生。我們建設(shè)的管理公共服務(wù)平臺(tái)從字面上看,它應(yīng)該提供公共服務(wù),而不應(yīng)成為上報(bào)統(tǒng)計(jì)系統(tǒng)或者簡(jiǎn)單的查詢系統(tǒng),它應(yīng)提供豐富的數(shù)據(jù)接口,充分發(fā)揮數(shù)據(jù)的價(jià)值。
前面提過(guò)管理平臺(tái)的建設(shè)模式是“兩級(jí)建設(shè),五級(jí)應(yīng)用”,市以下的教育部門不再部署。學(xué)校在信息化建設(shè)過(guò)程中,有很多系統(tǒng)都需要教師、學(xué)生信息,需要信息管理系統(tǒng)的支持,這種需求如何解決?自行再部署一套學(xué)籍管理系統(tǒng)和人事管理系統(tǒng),加大了工作量不說(shuō),如何保證兩套系統(tǒng)數(shù)據(jù)的一致性?如何利用學(xué)生在資源服務(wù)平臺(tái)的學(xué)習(xí)軌跡把握學(xué)生學(xué)習(xí)的特點(diǎn),從而制訂更有針對(duì)性的學(xué)習(xí)方法?對(duì)學(xué)生各類數(shù)據(jù)的應(yīng)用如何保證其合法性,有效的維護(hù)個(gè)人隱私?以上的種種問(wèn)題都需要我們進(jìn)行認(rèn)真的考慮。
“兩平臺(tái)”建設(shè)應(yīng)開(kāi)放接口,統(tǒng)一標(biāo)準(zhǔn),為基礎(chǔ)應(yīng)用提供數(shù)據(jù)支持。教育部2012年發(fā)布了《教育管理信息 教育管理基礎(chǔ)代碼》等七個(gè)教育信息化行業(yè)標(biāo)準(zhǔn),而實(shí)際情況是,各地,尤其是縣、校兩級(jí)信息化建設(shè)中很少或根本不考慮這些行業(yè)標(biāo)準(zhǔn),究其原因一個(gè)是基層信息化建設(shè)缺乏指導(dǎo),對(duì)標(biāo)準(zhǔn)、規(guī)范認(rèn)識(shí)不足,這似乎不是聘請(qǐng)幾個(gè)專家參與方案制訂或招標(biāo)能夠解決的;另一個(gè)更重要的原因是不考慮這些行業(yè)標(biāo)準(zhǔn)似乎沒(méi)有什么影響,工程一樣進(jìn)行,成績(jī)一樣斐然。如果統(tǒng)一建設(shè)的管理平臺(tái)提供數(shù)據(jù)共享接口,其他后續(xù)平臺(tái)能且只能由此獲得基礎(chǔ)數(shù)據(jù),那么這些行業(yè)標(biāo)準(zhǔn)就不是可有可無(wú)了。
“兩平臺(tái)”建設(shè)更應(yīng)考慮數(shù)據(jù)運(yùn)營(yíng)的模式與規(guī)范,保證數(shù)據(jù)應(yīng)用的合法與健康。大數(shù)據(jù)要流通、要分享,數(shù)據(jù)開(kāi)放需要信任,要獲取信任就要有隱私保護(hù)措施做基礎(chǔ)。我們不僅要共享數(shù)據(jù),更應(yīng)在一個(gè)可執(zhí)行性強(qiáng)的數(shù)據(jù)應(yīng)用規(guī)則下共享,讓人們感到數(shù)據(jù)是安全的,隱私是有保障的。這是一個(gè)體系的建設(shè),而不是簡(jiǎn)單的一紙文件,既要保證數(shù)據(jù)的應(yīng)用符合國(guó)家法律規(guī)定,也要保證其符合全社會(huì)的一般道德規(guī)范,避免對(duì)個(gè)人行為的量化與評(píng)估。
“兩平臺(tái)”是教育領(lǐng)域的基礎(chǔ)應(yīng)用平臺(tái),其重要性不言而喻,為加快“兩平臺(tái)”建設(shè),提升“兩平臺(tái)”應(yīng)用效果,達(dá)到建、用的和詣統(tǒng)一,我認(rèn)為應(yīng)建立基于我省“兩平臺(tái)”數(shù)據(jù)使用的教育數(shù)據(jù)應(yīng)用規(guī)范。
最后,大數(shù)據(jù)不是什么神秘的法寶,它是一種資源、一種工具,我們既不能畏懼它,也不能被它的神圣光環(huán)所迷惑。我國(guó)基礎(chǔ)數(shù)據(jù)庫(kù)建設(shè)存在缺乏頂層設(shè)計(jì)、各自為政、重復(fù)建設(shè)等弊端,為應(yīng)對(duì)大數(shù)據(jù)時(shí)代的來(lái)臨,更好地實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,在頂層設(shè)計(jì),運(yùn)行機(jī)制、立法規(guī)范、人才培養(yǎng)方面還有大量工作要做,讓我們善用大數(shù)據(jù)。
參考文獻(xiàn):
[1]國(guó)家信息化領(lǐng)導(dǎo)小組關(guān)于我國(guó)電子政務(wù)建設(shè)指導(dǎo)意見(jiàn)(中辦發(fā)〔2002〕17號(hào))[S].
[2]劉延?xùn)|.國(guó)務(wù)委員在全國(guó)教育信息化工作電視電話會(huì)議上的講話[R].
[3]教育部等九部門關(guān)于加快推進(jìn)教育信息化當(dāng)前幾項(xiàng)重點(diǎn)工作的通知[R].
[4]李德毅.大數(shù)據(jù)挖掘帶動(dòng)的變遷[N].中國(guó)信息化周報(bào),2014年6月9日.
[5]田溯寧.擁抱“大數(shù)據(jù)時(shí)代”——《大數(shù)據(jù)時(shí)代》推薦序一[J].
[6][英]維克·托邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代[J].
作者簡(jiǎn)介:
劉晉東,山西省太原市,山西省電化教育館。endprint