孔令敏
今天,人們稱數(shù)據(jù)科學(xué)是研究的第四范式,是未來具有潛力的科學(xué)領(lǐng)域,但什么是數(shù)據(jù)科學(xué)?數(shù)據(jù)科學(xué)在教育領(lǐng)域應(yīng)用的特點(diǎn)是什么?公眾仍然缺乏詳細(xì)的了解。澳大利亞悉尼科技大學(xué)工程與信息技術(shù)學(xué)院高級(jí)分析研究所所長操龍兵教授對(duì)此提出了獨(dú)特而富有啟發(fā)的觀點(diǎn)。他帶領(lǐng)的研究所主要研究大數(shù)據(jù)科學(xué)基礎(chǔ)理論以及大數(shù)據(jù)分析應(yīng)用,在大數(shù)據(jù)分析技術(shù)、異常檢測技術(shù)方面有最新的研究成果以及相應(yīng)的應(yīng)用前景。操龍兵教授很早就在國際上致力于數(shù)據(jù)科學(xué)與分析學(xué)的產(chǎn)學(xué)研工作,注重從涉及重大民生與經(jīng)濟(jì)、社會(huì)問題中提煉具有前瞻性的研究課題。他提出了一系列數(shù)據(jù)科學(xué)中新的研究問題與創(chuàng)新思想,包括行為信息學(xué)(Behavior Informatics)、非獨(dú)立同分布學(xué)習(xí)(Non-IID Learning)、決策知識(shí)發(fā)現(xiàn)(Actionable Knowledge Discovery)。本文對(duì)他的觀點(diǎn)加以介紹,從而啟迪我們思考:我們?yōu)槭裁葱枰獢?shù)據(jù)科學(xué),什么使數(shù)據(jù)科學(xué)成為一門科學(xué),以及數(shù)據(jù)科學(xué)在教育領(lǐng)域應(yīng)用的挑戰(zhàn)和方向。
數(shù)據(jù)科學(xué)是一個(gè)跨學(xué)科領(lǐng)域
數(shù)據(jù)科學(xué)的大多數(shù)(可能超過95%)文獻(xiàn)與統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和廣泛數(shù)據(jù)分析等有關(guān),這表明數(shù)據(jù)科學(xué)是從現(xiàn)有的統(tǒng)計(jì)學(xué)、計(jì)算科學(xué)和信息學(xué)中產(chǎn)生的。今天的數(shù)據(jù)科學(xué)已經(jīng)超越了數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等特殊領(lǐng)域,形成一個(gè)新的跨學(xué)科領(lǐng)域,它綜合了一些相關(guān)的學(xué)科知識(shí)體系,包括統(tǒng)計(jì)、信息學(xué)、計(jì)算、通信、管理和社會(huì)學(xué)(如圖1),我們可以用一個(gè)公式來表達(dá)數(shù)據(jù)科學(xué)的領(lǐng)域和范疇:數(shù)據(jù)科學(xué)=統(tǒng)計(jì)+信息學(xué)+計(jì)算+通信+社會(huì)學(xué)+管理|數(shù)據(jù)+領(lǐng)域+思考(“|”的意思是“有條件的”)。
數(shù)據(jù)科學(xué)的復(fù)雜性及其七個(gè)維度
數(shù)據(jù)科學(xué)的重點(diǎn)是系統(tǒng)了解復(fù)雜的數(shù)據(jù)和相關(guān)的業(yè)務(wù)問題,將數(shù)據(jù)轉(zhuǎn)化為洞察和智能以進(jìn)行決策。因此,數(shù)據(jù)科學(xué)具有兩大特點(diǎn):復(fù)雜性和智能性。
數(shù)據(jù)科學(xué)的復(fù)雜性可以從七個(gè)維度來理解。
(1)數(shù)據(jù)復(fù)雜性:數(shù)據(jù)復(fù)雜性反映在復(fù)雜的數(shù)據(jù)環(huán)境和特征上,包括大規(guī)模、跨媒體應(yīng)用、混合源、強(qiáng)動(dòng)態(tài)性、高頻率、不確定度等特征。除此之外還包括噪聲混合導(dǎo)致的層次不清、分布不均勻、稀疏性強(qiáng)的數(shù)據(jù)以及關(guān)鍵數(shù)據(jù)的可用性不清楚。數(shù)據(jù)科學(xué)家面臨的一個(gè)重要問題是隱藏?cái)?shù)據(jù)的復(fù)雜關(guān)系。復(fù)雜關(guān)聯(lián)可以由綜合耦合組成,但通過現(xiàn)有的關(guān)聯(lián)、依賴、因果關(guān)系等理論和系統(tǒng)是無法描述的。這類耦合包括顯式和隱式、結(jié)構(gòu)和非結(jié)構(gòu)、語義和句法、等級(jí)和垂直、局部和全局、傳統(tǒng)和非傳統(tǒng)關(guān)系以及進(jìn)化和效果。數(shù)據(jù)的復(fù)雜性激發(fā)了新的觀點(diǎn),而這些視角以前是沒有做好或者是可以做到更好。
例如,傳統(tǒng)的大規(guī)模傳感器數(shù)據(jù)調(diào)查,包括統(tǒng)計(jì)人員的問題和調(diào)查參與者,已被證明不那么有效,如相關(guān)的問題可見(如目標(biāo)參與者不滿意、總體答復(fù)率低和問題更難回答)。但是,數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)可以幫助確定誰將接受調(diào)查、哪些問題需要回答、調(diào)查操作模型以及調(diào)查的成本效益。
(2)行為復(fù)雜性:由于數(shù)據(jù)采集和管理系統(tǒng)中由物理活動(dòng)到數(shù)據(jù)的轉(zhuǎn)換而產(chǎn)生的數(shù)據(jù)常常被忽略或簡化,行為復(fù)雜性體現(xiàn)在個(gè)人和群體的耦合行為、網(wǎng)絡(luò)行為、集體行為、分歧行為、隱藏行為、網(wǎng)絡(luò)演變行為、推理群體行為等在物理世界中實(shí)際發(fā)生或?qū)⒁l(fā)生的事情的還原。
(3)領(lǐng)域復(fù)雜性:領(lǐng)域復(fù)雜性是數(shù)據(jù)科學(xué)中發(fā)現(xiàn)內(nèi)在數(shù)據(jù)特征、價(jià)值和洞察力的一個(gè)關(guān)鍵方面。領(lǐng)域復(fù)雜性反映在一個(gè)問題領(lǐng)域的復(fù)雜上,如領(lǐng)域因素、領(lǐng)域過程、規(guī)范、政策、領(lǐng)域知識(shí)、專家知識(shí)、假設(shè)、元知識(shí)、領(lǐng)域?qū)<业膮⑴c和與領(lǐng)域?qū)<一?dòng)的專業(yè)人員。
(4)社會(huì)復(fù)雜性:社會(huì)復(fù)雜性嵌入到業(yè)務(wù)活動(dòng)及其相關(guān)數(shù)據(jù)中,是數(shù)據(jù)和業(yè)務(wù)理解的關(guān)鍵部分。它可能體現(xiàn)在商業(yè)問題的一些方面,如社會(huì)網(wǎng)絡(luò)、社區(qū)出現(xiàn)、社會(huì)動(dòng)態(tài)、社會(huì)習(xí)俗、社會(huì)背景、社會(huì)認(rèn)知、社會(huì)智慧、社會(huì)媒體、群體形成和演變,群體互動(dòng)和協(xié)作、經(jīng)濟(jì)和文化因素、社會(huì)規(guī)范、情感和輿論影響過程以及社會(huì)問題,社會(huì)問題包括社會(huì)背景下的安全、隱私、信任、風(fēng)險(xiǎn)和問責(zé)制。當(dāng)社會(huì)科學(xué)與數(shù)據(jù)科學(xué)相遇時(shí),就會(huì)出現(xiàn)跨學(xué)科現(xiàn)象。
(5)環(huán)境復(fù)雜性:環(huán)境復(fù)雜性是理解復(fù)雜數(shù)據(jù)和業(yè)務(wù)問題的另一個(gè)重要因素,這反映在環(huán)境(上下文)因素、問題和數(shù)據(jù)的背景、語境的動(dòng)態(tài)、環(huán)境的自適應(yīng)性、復(fù)雜的業(yè)務(wù)環(huán)境和數(shù)據(jù)系統(tǒng)之間的交互關(guān)系、業(yè)務(wù)環(huán)境的重大變化及其變化對(duì)數(shù)據(jù)系統(tǒng)的影響。這些方面的系統(tǒng)環(huán)境具有連續(xù)性、開放性、復(fù)雜性,但還沒有數(shù)據(jù)科學(xué)。如果忽略,就會(huì)出現(xiàn)適用于一個(gè)領(lǐng)域的模型可能會(huì)在另一個(gè)域中產(chǎn)生誤導(dǎo)性結(jié)果的現(xiàn)象。
(6)學(xué)習(xí)復(fù)雜性:為了實(shí)現(xiàn)數(shù)據(jù)分析,必須解決學(xué)習(xí)過程和系統(tǒng)的復(fù)雜性問題。分析數(shù)據(jù)的挑戰(zhàn)包括開發(fā)方法、通用任務(wù)框架和學(xué)習(xí)模式。數(shù)據(jù)科學(xué)家必須能支持實(shí)時(shí)在無限動(dòng)態(tài)中學(xué)習(xí);支持在計(jì)算資源貧乏的環(huán)境(如嵌入式傳感器) 中自適應(yīng)地學(xué)習(xí),以及多源學(xué)習(xí),同時(shí)考慮傳感器之間的關(guān)系和相互作用;支持跨多個(gè)學(xué)習(xí)目標(biāo)、來源、功能集、分析方法、框架和結(jié)果的組合學(xué)習(xí);支持學(xué)習(xí)具有的異質(zhì)性的非數(shù)據(jù)混合耦合關(guān)系,并確保學(xué)習(xí)模型和結(jié)果的透明度和確定性。
(7)可交付成果:一般來說,業(yè)務(wù)用戶的數(shù)據(jù)交付成果必須易于理解和解釋,揭示直接為決策提供信息和實(shí)現(xiàn)決策的見解,并對(duì)業(yè)務(wù)流程和問題產(chǎn)生變革性解決。當(dāng)可操作的數(shù)據(jù)產(chǎn)品成為數(shù)據(jù)應(yīng)用程序的焦點(diǎn)時(shí),數(shù)據(jù)產(chǎn)品的復(fù)雜性,或者說“更高的復(fù)雜性”就成為了一個(gè)障礙。這種復(fù)雜性要求從客觀和主觀兩個(gè)角度確定和評(píng)價(jià)滿足技術(shù)意義和具有較高商業(yè)價(jià)值的成果。數(shù)據(jù)科學(xué)家面臨的相關(guān)挑戰(zhàn)還包括設(shè)計(jì)合適的輔助、演示、可視化、重新評(píng)估以及學(xué)習(xí)結(jié)果的處方,滿足不同的業(yè)務(wù)需求。
數(shù)據(jù)科學(xué)的智能性及其八個(gè)維度
數(shù)據(jù)科學(xué)具有智能性,是一種旨在將數(shù)據(jù)轉(zhuǎn)化為知識(shí)、智能和智慧的“智能科學(xué)”。在從數(shù)據(jù)到智慧的轉(zhuǎn)變中,“X-智能”被用來解決一個(gè)復(fù)雜的數(shù)據(jù)科學(xué)問題,可以幫助更深入、更有組織地理解和解決潛在的復(fù)雜性和挑戰(zhàn)的問題。如在教育領(lǐng)域,我們可以使用“教育智能”這樣的提法。
數(shù)據(jù)科學(xué)的智能性可以從八個(gè)維度來理解。
(1)數(shù)據(jù)智能:突出了最有價(jià)值的信息。隱藏在數(shù)據(jù)中的智能是由數(shù)據(jù)科學(xué)通過其理解數(shù)據(jù)特征和復(fù)雜性而發(fā)現(xiàn)的。除了通常關(guān)注數(shù)據(jù)結(jié)構(gòu)、分布、數(shù)量、速度和質(zhì)量的復(fù)雜性外,數(shù)據(jù)科學(xué)的重點(diǎn)還在于圖2中隱藏在未知的“空間D”中的智能。數(shù)據(jù)智能的水平取決于數(shù)據(jù)科學(xué)家能夠在多大程度上深入了解數(shù)據(jù)特征和復(fù)雜性。
(2)行為智能:數(shù)據(jù)科學(xué)家通過查看個(gè)人和團(tuán)體參與者的活動(dòng)來發(fā)現(xiàn)行為智能,這樣的發(fā)現(xiàn)要求他們通過行為信息學(xué)將問題中發(fā)生的事情和將要發(fā)生的事情聯(lián)系起來并發(fā)現(xiàn)行為洞察力來縮小數(shù)據(jù)世界和物理世界之間的差距。構(gòu)造序列行為向量空間,并在給定時(shí)間內(nèi)與其他賬戶建立交互模型,然后再與其他異常行為進(jìn)行建模,可能有助于理解異常行為。
(3)領(lǐng)域智能:產(chǎn)生于相關(guān)的領(lǐng)域因素、知識(shí)、元知識(shí)以及與問題及其目標(biāo)數(shù)據(jù)相關(guān)的其他特定領(lǐng)域資源。定性與定量的領(lǐng)域智能可以幫助數(shù)據(jù)科學(xué)家更深入地理解領(lǐng)域的復(fù)雜性及其在發(fā)現(xiàn)未知知識(shí)和可操作洞察力方面的作用。例如,學(xué)習(xí)用于股票數(shù)據(jù)的高頻交易策略,一種戰(zhàn)略必須把“訂單”和相關(guān)的“限制市場”聯(lián)系起來。
(4)人的智能:在復(fù)雜的數(shù)據(jù)科學(xué)系統(tǒng)中,人的智能通過明確的涉及到人類的直覺、想象、先驗(yàn)的知識(shí)、信念、意圖、期望,再加上專門知識(shí)發(fā)揮著核心作用。它還涉及到人類智力以想象、情緒化、靈感、頭腦風(fēng)暴、推理、具體化認(rèn)知的形式的隱性或間接的參與,類似通過與人類的互動(dòng)來思考。就像“數(shù)據(jù)科學(xué)思維”對(duì)于解決復(fù)雜的數(shù)據(jù)問題至關(guān)重要,數(shù)據(jù)科學(xué)家必須能夠運(yùn)用主觀因素、定性推理和批判性思維來解決問題。
(5)網(wǎng)絡(luò)智能:基于Web智能和廣泛的網(wǎng)絡(luò)連接的活動(dòng)和資源,特別是通過物聯(lián)網(wǎng)、社交媒體和移動(dòng)網(wǎng)絡(luò)獲取的資源。從涉及目標(biāo)問題的網(wǎng)絡(luò)中獲取的信息,可以為復(fù)雜的數(shù)據(jù)科學(xué)問題的解決提供有用的建議,一個(gè)相關(guān)的例子就是基于開放源碼的開發(fā)與算法設(shè)計(jì)。
(6)組織智能:數(shù)據(jù)科學(xué)系統(tǒng)要對(duì)目標(biāo)、行為者、組織結(jié)構(gòu)和動(dòng)態(tài)管理、預(yù)防、過程和工作流程產(chǎn)生正確理解并建模。例如,企業(yè)的成本效益和數(shù)據(jù)科學(xué)團(tuán)隊(duì)的運(yùn)作都要依靠組織智能。
(7)社會(huì)智能:是從前面討論的社會(huì)復(fù)雜性中產(chǎn)生的。人類的社會(huì)智能包括社會(huì)互動(dòng)、群體目標(biāo)與意向、社會(huì)認(rèn)知、情感智力、共識(shí)建構(gòu)、群體決策等。社會(huì)智能也與社會(huì)網(wǎng)絡(luò)智能和社會(huì)系統(tǒng)以及商業(yè)規(guī)則、法律、信任和管理社會(huì)智慧的聲譽(yù)之間的集體互動(dòng)有關(guān)。典型的人工社會(huì)制度在社交網(wǎng)絡(luò)和社交媒體中,數(shù)據(jù)驅(qū)動(dòng)的社會(huì)復(fù)雜性可以通過社會(huì)影響建模、潛在關(guān)系建模以及在線社區(qū)的形成和演變來理解。
(8)環(huán)境智能:隱藏在數(shù)據(jù)科學(xué)問題中,具體表現(xiàn)為底層領(lǐng)域和相關(guān)的組織、社會(huì)、人類和網(wǎng)絡(luò)智能。數(shù)據(jù)科學(xué)系統(tǒng)是開放的,轉(zhuǎn)換后的數(shù)據(jù)世界與物理世界之間的相互作用作為整體數(shù)據(jù)環(huán)境發(fā)揮作用。例子包括上下文感知的、涉及因素的、不斷發(fā)展的交互和數(shù)據(jù)與上下文之間的變化,如社交網(wǎng)絡(luò)中的無限動(dòng)態(tài)關(guān)系建模。
走向教育數(shù)據(jù)科學(xué)的探索路徑
數(shù)據(jù)科學(xué)家進(jìn)行的復(fù)雜數(shù)據(jù)科學(xué)之旅代表了從已知到未知復(fù)雜性的認(rèn)知過程,以便將數(shù)據(jù)轉(zhuǎn)化為知識(shí)、智能以及通過應(yīng)用數(shù)據(jù)智能進(jìn)行決策。上頁圖2概述了旨在減少能力(y軸)的數(shù)據(jù)科學(xué)進(jìn)展,以更好地理解數(shù)據(jù)(x軸)從100%已知狀態(tài)到100%未知狀態(tài)的復(fù)雜性知識(shí)和智能?;跀?shù)據(jù)/物理世界的可見性和能力/容量成熟度,數(shù)據(jù)科學(xué)可分為四個(gè)數(shù)據(jù)挑戰(zhàn):
(1)“空間A”代表已知的空間,也就是說,“我(我的成熟能力/能力)知道我所知道的(關(guān)于可見世界)”。這就像視力正常的人能認(rèn)出大象的能力一樣,而無視力的人可能只能通過觸摸來識(shí)別動(dòng)物的一部分。具備成熟能力的人都知道有關(guān)可見數(shù)據(jù)的知識(shí),也就是說,他們的能力成熟度足以理解數(shù)據(jù)/物理世界的不可見性。
(2)“空間B”代表隱藏的空間,也就是說,“我知道我不知道什么(關(guān)于看不見的世界)”。對(duì)某些人或?qū)W科來說,即使他們的能力的某些方面已經(jīng)成熟,但隱藏的復(fù)雜性數(shù)據(jù)在當(dāng)前的數(shù)據(jù)科學(xué)中無法被解決,因此需要更先進(jìn)的能力。
(3)“空間C”代表的是盲區(qū),也就是說,“我(我的不成熟能力)不知道我知道什么(關(guān)于這個(gè)世界)”。雖然對(duì)某些人或?qū)W科是可見的,他們的能力也是成熟的,但是與能力并不匹配;不成熟使他們對(duì)世界視而不見。一個(gè)例子可能是,即使是成熟的社會(huì)科學(xué)家也試圖解決數(shù)據(jù)科學(xué)問題。
(4)“空間D”代表未知,也就是說,“我不知道什么,所以隱藏世界中復(fù)雜數(shù)據(jù)由于不成熟的能力而不為人所知”。這是今天數(shù)據(jù)科學(xué)關(guān)注的領(lǐng)域。隨著生產(chǎn)能力的增加,缺乏能力成熟度也隨之增加。在快速發(fā)展的大數(shù)據(jù)的世界里,不合格的數(shù)據(jù)越來越多,導(dǎo)致了一個(gè)越來越大的未知空間。
基于上述探索的路徑,我們可以知道,數(shù)據(jù)科學(xué)的發(fā)展,要提升數(shù)據(jù)能力和素養(yǎng),數(shù)據(jù)能力意味著增強(qiáng)數(shù)據(jù)的能力和容量成熟度,數(shù)據(jù)素養(yǎng)意味著增強(qiáng)數(shù)據(jù)的可視性。這啟示我們,走向教育數(shù)據(jù)科學(xué)有兩條關(guān)鍵路徑:第一,建設(shè)完備強(qiáng)大的教育數(shù)據(jù)云平臺(tái),增強(qiáng)數(shù)據(jù)能力;第二,加強(qiáng)教師和學(xué)生的教育數(shù)據(jù)素養(yǎng)發(fā)展,增強(qiáng)數(shù)據(jù)素養(yǎng)。由此,教育數(shù)據(jù)科學(xué)方能越來越成熟,繼續(xù)成長發(fā)展。