李 艷 劉淑君
(浙江大學 教育學院,浙江杭州 310028)
隨著人工智能和大數(shù)據(jù)技術教育應用的日益普及,一線教師可獲得的教育數(shù)據(jù)呈幾何指數(shù)增長,這些數(shù)據(jù)只有被科學地處理和分析后才能對教育教學產生積極影響 (Means et al.,2010;何克抗,2014)。教育部門和相關專家倡導教師要從基于經驗的決策轉向數(shù)據(jù)驅動的決策,并堅信這種轉變會提高教育教學質量(Ingram et al.,2004)。在這一背景下,教師數(shù)據(jù)素養(yǎng)的議題受到教育界的廣泛關注。
教育研究關注的“數(shù)據(jù)”指“系統(tǒng)地收集起來的有關學校某方面的信息”,既包括教學測評定量數(shù)據(jù),也包括課堂觀察、訪談、人口統(tǒng)計學等類型的定性或定量數(shù)據(jù)(Mandinach & Gummer,2016a;Schildkamp et al.,2017)。管理者、學生、家長和教師等角色不同,數(shù)據(jù)素養(yǎng)的內涵也不同。本研究關注的是教師群體的數(shù)據(jù)素養(yǎng)。從廣義上講,“數(shù)據(jù)素養(yǎng)”指“使用數(shù)據(jù)指導決策的能力”(Data Quality Campaign,2014;Kippers et al.,2018;Mandinach & Gummer,2013)。不過,在很長時間內,學術界對教師數(shù)據(jù)素養(yǎng)的概念并沒有達成共識,也沒有形成明確的定義。2016年,美國學者曼迪那契(Mandinach)提出了教師數(shù)據(jù)素養(yǎng)(Data Literacy for Teachers/Teaching,簡稱DLFT)的概念,并將其界定為“教師通過收集、分析和解釋所有類型的數(shù)據(jù)(包括測評、學校環(huán)境、行為、縱向等數(shù)據(jù)類型)幫助確定教學步驟,從而將信息轉化為可操作的教學知識及實踐的能力”(Mandinach & Gummer,2016a)。
隨著智能教學系統(tǒng)在各級各類學校的廣泛應用,我國一線教師已日漸熟悉教學場景出現(xiàn)的不同來源、不同類型的教育數(shù)據(jù)。不過,如何有效挖掘和利用教學場景出現(xiàn)的教育數(shù)據(jù)對大多數(shù)中國教師而言還是巨大的挑戰(zhàn)(祝智庭等,2017)。教師數(shù)據(jù)素養(yǎng)亟待提升,否則將無法充分挖掘教育數(shù)據(jù)的價值并應用于教育教學決策。地區(qū)和學校亟需借助科學測評工具了解教師的數(shù)據(jù)素養(yǎng)狀況,探索多樣化的培養(yǎng)路徑,這也對該領域的學術研究提出了新要求。
國內文獻調研顯示,截至2019年11月,中國知網(wǎng)上以“教師數(shù)據(jù)素養(yǎng)”為主題的論文有五十余篇,研究內容集中在以下三方面:1)對教師數(shù)據(jù)素養(yǎng)內涵和能力結構的理論探討(劉雅馨等,2018;阮士桂等,2016;張進良等,2015)。這類研究既是我國在該領域研究的起點,也是引用率較高的熱點。2)對國外相關研究成果的引介。我國研究者近年比較重視借鑒國外教師數(shù)據(jù)素養(yǎng)的研究成果,但相關介紹比較籠統(tǒng),缺乏對具體的測評形式與內容的細致梳理(李青等,2016;王萍等,2016;王正青等,2018;李新等,2019)。3)對師生數(shù)據(jù)素養(yǎng)的調研。有研究者設計了數(shù)據(jù)素養(yǎng)問卷調查,還在高校范圍內開展調研并對結果進行統(tǒng)計分析(郝媛玲等,2016;李青等,2018;隆茜,2015)。然而,此類問卷多是師生通用的,沒有強調“教師”的數(shù)據(jù)使用特點,問卷對象的模糊化必然影響調研結果的可靠性。
迄今為止,我國還沒有研發(fā)出被廣泛認可、信效度較高的測評教師數(shù)據(jù)素養(yǎng)的工具。國內教師數(shù)據(jù)素養(yǎng)研究剛剛興起,測評方面的研究還不夠成熟。在此背景下,本研究擬系統(tǒng)介紹國外教師數(shù)據(jù)素養(yǎng)測評的研究成果與實踐案例,以期對國內該領域的研究和實踐提供借鑒和啟示。
本研究以Web of Science核心合集為樣本數(shù)據(jù)庫,以“teacher data literacy”“data literacy + teacher education”“data based decision making + teacher professional development”“teacher data use + survey”等為主題詞搜索,截至2019年11月,通過瀏覽文獻標題、摘要和正文內容篩選到相關度高的 49篇文獻,然后采用滾雪球方法追蹤所選文獻的參考文獻,獲得期刊論文41篇,調研報告8篇,專著2本??傆嫬@取的外文文獻的100篇。
圖1 “教師數(shù)據(jù)素養(yǎng)”文獻國別分布
從國別分布看,教師數(shù)據(jù)素養(yǎng)的研究者集中在歐美發(fā)達國家,其中美國超過百分之六十,占比最高,荷蘭緊隨其后,超過百分之二十。相對而言,比利時、加拿大、新西蘭等國家在該領域的研究還剛起步,研究成果比較分散;亞洲、非洲國家在該領域的研究還有待突破(見圖1)。通過深入分析文獻,我們發(fā)現(xiàn)國外教師數(shù)據(jù)素養(yǎng)研究聚焦在以下三方面:
經過十余年發(fā)展,美國曼迪那契等人將教師、數(shù)據(jù)、教學等關鍵點結合起來,建立了教師數(shù)據(jù)素養(yǎng)能力評價體系,其中包含了確定問題、使用數(shù)據(jù)、將數(shù)據(jù)轉換為信息、將信息轉換為決策和評估結果等五個維度,每個維度都可分解為具體技能,共53種。比如,“確定問題”維度包含闡明教育的某個問題、理解學生隱私等五項技能;“使用數(shù)據(jù)”維度囊括了使用多種數(shù)據(jù)來源、了解如何生成數(shù)據(jù)、使用形成性和終結性評估等27種技能,是該能力框架的主體部分。從“確定問題”到“評估結果”,五個維度之間有邏輯關系,構成一個數(shù)據(jù)探究程序(Gummer & Mandinach,2015;Mandinach & Gummer,2016a)。這一能力評價框架是該領域的研究成果,得到廣泛認可。另外,研究者還深入研討教師數(shù)據(jù)素養(yǎng)教育的路徑,充分肯定了崗前教育和在職培訓對提升教師數(shù)據(jù)素養(yǎng)的意義(Mandinach & Gummer,2016b;Mandinach et al.,2011;Mandinach & Jimerson,2016)。
有學者通過問卷、訪談、測試等方式評估教師數(shù)據(jù)使用能力、態(tài)度、信念等;也有學者關注影響教師數(shù)據(jù)使用的因素,調查教師數(shù)據(jù)探究行為,歸納影響教師數(shù)據(jù)使用的因子模型(Schildkamp & Poortman,2015;Schildkamp et al.,2017);還有學者關注教師數(shù)據(jù)決策實踐與學生成績之間的關系,通過實驗研究數(shù)據(jù)驅動的教學決策與學生數(shù)學、閱讀成績之間的關系(Van der Scheer & Visscher,2018;Van Geel et al.,2016)。
國外學者圍繞師范生和在職教師數(shù)據(jù)素養(yǎng)培養(yǎng)策略開展了多項實證研究。荷蘭學者研發(fā)的教師數(shù)據(jù)探究小組(Bolhuis et al.,2019;Ebbeler et al.2017)、美國里夫斯(Reeves)等人提出的數(shù)據(jù)素養(yǎng)教育與師范課程整合、實施在線課程等策略都呈現(xiàn)了較好的效果,也為之后的研究奠定了基礎(Reeves & Chiang,2018,2019;Reeves & Honig,2015)。
概括而言,篩選出的100種文獻中有30篇涉及測評工具,其中探討教師數(shù)據(jù)素養(yǎng)測評工具的文獻2篇,分別是美國韋曼(Wayman)等學者編撰的教師數(shù)據(jù)使用問卷調查和美國“西部教育”(WestEd)公司編纂的情境訪談工具(Wayman et al.,2016;WestEd,2018);其余28篇文獻屬于教師數(shù)據(jù)素養(yǎng)測評及培養(yǎng)實證研究。教師數(shù)據(jù)素養(yǎng)測評工具的開發(fā)和應用是為了滿足研究實踐的需要,是研究課題的有機組成部分(Ebbeler et al.,2016;Ebbeler et al.,2017;McNaughton et al.,2012)。本文接下來將詳細介紹有代表性的教師數(shù)據(jù)素養(yǎng)測評工具及研究案例,以期對我國該領域研究及實踐有所啟示。
國外教師數(shù)據(jù)素養(yǎng)測評工具主要有問卷調查、知識測試、情境訪談三種類型。
借助問卷調查開展的相關研究中,大多數(shù)研究者沿用或修訂已有問卷以保證足夠的信效度,只有少數(shù)研究者獨立開發(fā)問卷工具(O’Brien et al.,2019;Piro et al.,2014;Van Geel et al.,2017)。盡管學術界還沒有在調查工具上達成共識,但通過文獻追蹤可以發(fā)現(xiàn),一些引用率較高的調查問卷,如多項研究的調查工具都建立在美國學者韋曼(Wayman)等人開發(fā)的教師數(shù)據(jù)使用調查基礎上(Reeves & Honig,2015;Wayman et al.,2012;Wayman et al.,2017;Wayman et al.,2009;Wayman et al.,2016)。另外,美國學者杜恩(Dunn)等針對教師數(shù)據(jù)決策觀念、知識和效能等設計了三位一體的調查工具,被廣泛地應用在相關研究中(Dunn et al.,2013;Reeves & Chiang,2018;Reeves et al.,2016)。
最早的知識測試工具由荷蘭學者艾波拉(Ebbeler)等人開發(fā),主要由開放式問題組成,目前只在荷蘭應用(Bolhuis et al.,2019;Ebbeler et al.,2017;Kippers et al.,2018)。
情境訪談的測評形式起源于美國,最早由米恩斯(Means)等人開發(fā),并將其應用到教師數(shù)據(jù)素養(yǎng)的調研中(Means et al.,2009;Means et al.,2011)。曼迪那契團隊也曾致力于情境訪談的工具研發(fā)(WestEd,2018)。下文將介紹這三種類型的測評工具及相關研究案例。
在已有研究中,問卷調查是較常見的數(shù)據(jù)素養(yǎng)測評方式。值得注意的是,教師數(shù)據(jù)素養(yǎng)評估的內容往往作為教師數(shù)據(jù)使用調查的子量表出現(xiàn)。研究者常借此對教師數(shù)據(jù)使用的行為、信念或技能進行一般性了解(Ebbeler et al.,2017;Moore & Shaw,2017;Wayman et al.,2017;Wayman et al.,2016)。
韋曼等人于2009年開發(fā)的教師數(shù)據(jù)使用調查問卷被應用在多項研究中,信效度已得到較好的驗證(Moore & Shaw,2017;Wayman et al.,2012;Wayman et al.,2009)。該調查問卷沒有公開發(fā)表,最初主要用在韋曼及其同事的研究中。為了支持學校向數(shù)據(jù)決策文化轉型,美國教育部、教育科學委員會等機構2016年組織專家研發(fā)教師數(shù)據(jù)使用問卷調查工具。韋曼等學者在2009版調查問卷的基礎上,借鑒最新研究成果,開發(fā)了教師數(shù)據(jù)使用量表并公開發(fā)表,美國區(qū)域教育實驗室網(wǎng)站可免費下載該問卷及其使用手冊(Wayman et al.,2016)。教師數(shù)據(jù)使用行為模型是該量表研發(fā)的理論基礎。在這一模型中,教師數(shù)據(jù)使用行為處于中心地位,既反映教師個體知識和實踐的發(fā)展變化,又可以促進學生學習。數(shù)據(jù)使用能力、數(shù)據(jù)態(tài)度、合作狀況以及組織支持等都能影響教師的數(shù)據(jù)使用行為(見圖2)。
圖2 教師數(shù)據(jù)使用行為模型(Wayman et al.,2016)
與這一理論模型相照應,該調查問卷包括五份子量表,分別調查教師數(shù)據(jù)使用行為和其他四種影響因素。其中,“數(shù)據(jù)使用能力”和“數(shù)據(jù)態(tài)度”子量表可反映教師數(shù)據(jù)素養(yǎng)狀況(見表一)。該問卷依據(jù)李克特四點量表設計,教師從“非常反對”“反對”“同意”“非常同意”中選擇。該問卷設計了針對教師、管理者、教輔人員等角色版本。不過,除題干的稱呼和問法略有差異,各版本調查內容基本相同。
表一 數(shù)據(jù)使用調查量表中的子量表樣例 (Wayman et al.,2016)
研究者曾用該量表調研了美國納什維爾市五所公立中學, 70名教師、5名管理者和12名教學輔助人員完成了三個版本的調查表。調查結果顯示,在教師數(shù)據(jù)能力自我評價上,教師平均得分稍高于管理者和教輔人員。同時,在數(shù)據(jù)態(tài)度上,教師的平均得分略低于管理人員和教輔人員。這表明,盡管教師對自身數(shù)據(jù)技能自信,但管理者和教輔人員態(tài)度更積極。該研究的目的是利用調查結果支持學校發(fā)展,因此學校代表和地區(qū)教育管理者根據(jù)調查結果,提出了后續(xù)的行動計劃(Wayman et al.,2017)。
為方便統(tǒng)計,每個選項被賦予1到4的分值。子量表平均得分可以用來評估教師群體數(shù)據(jù)使用的表現(xiàn);研究者還可以比較調研結果,既能比較各子量表均值,也可以比較教師、管理者和教輔人員的量表均值,還可以依據(jù)人口統(tǒng)計學變量進行比較(Wayman et al.,2016)。
另外,美國學者杜恩等人為了調查教師的數(shù)據(jù)素養(yǎng),針對數(shù)據(jù)決策關注度、知識和效能感維度設計了調查工具(Dunn et al.,2013)。數(shù)據(jù)決策關注度反映教師對數(shù)據(jù)決策的態(tài)度和滿意度等,數(shù)據(jù)決策知識反映教師的數(shù)據(jù)技能,數(shù)據(jù)決策效能指教師對自己成功參與數(shù)據(jù)決策的信念。三個維度互相影響、互相作用,三位一體,能綜合反映教師數(shù)據(jù)素養(yǎng)狀況。以杜恩教師數(shù)據(jù)素養(yǎng)問卷“知識”維度測試題為例,它包括“數(shù)據(jù)解釋和評價能力”和“教學決策能力”兩部分(見表二),三位專家檢驗問卷并對內容效度達成共識。研究者用這套調查問卷評估美國西北部某州1500多名教師的數(shù)據(jù)素養(yǎng)。結果表明,教師數(shù)據(jù)知識在兩個維度上分別達到25%和30%的得分率,處于較低水平;從關注度上看,教師對數(shù)據(jù)決策有抵觸心理,興趣不高,但在實踐中從事有關數(shù)據(jù)決策的具體工作,也關心數(shù)據(jù)決策對學生產生的影響(Dunn et al.,2013)。
值得注意的是,問卷調查評測也存在局限,比如,問卷調查收集的多是教師的感知類數(shù)據(jù),被調查者能否實事求是地回答問題、是否會揣測調查者的意圖從而違心地回答問題等都會影響調查結果的有效性。這些問題或許會通過溝通和管理程序最小化,但不能徹底消除。
表二 “知識”維度測試題樣例(Dunn et al.,2013)
研究表明,要深入調查教師數(shù)據(jù)素養(yǎng),只收集教師的感知或態(tài)度數(shù)據(jù)是不夠的(Marsh,2012)。為了增強調查結果的科學性,荷蘭學者開發(fā)了針對教師數(shù)據(jù)素養(yǎng)的知識測試,且被應用在多項教師數(shù)據(jù)素養(yǎng)研究中。
艾波拉等(2017)開展了旨在提升中學教師數(shù)據(jù)素養(yǎng)的準實驗研究,實驗組是9所中學的教師,對照組是另外42所中學的教師。課題組指導教師小組遵循數(shù)據(jù)決策八步驟模型對教育問題進行合作探究。為了檢驗實驗效果,艾波拉及同事以數(shù)據(jù)決策八步驟模型(見圖3)為參照框架設計了知識測試。該測試為紙筆測試,包括12道開放題,每道題都與教師數(shù)據(jù)素養(yǎng)的能力結構、數(shù)據(jù)決策的八個步驟對應,作答時間限30分鐘(Ebbeler et al.,2017)。
在數(shù)據(jù)決策模型中,學校的數(shù)據(jù)決策過程被歸納為由八個步驟構成的探究循環(huán),從“界定問題”開始到“評價”結束,然后繼續(xù)下一輪探究。不過,這不是單線循環(huán)(見圖3),如果教育者在第6步的“解釋和結論”發(fā)現(xiàn)最初的假設不正確,就需要返回第2步重新“形成假設”。另外,如果第8步“評價”發(fā)現(xiàn)問題沒有得到解決,還需返回到第7步,再次“實施改進措施”。
圖3 數(shù)據(jù)決策的八步驟模型(Schildkamp & Ehren,2013)
該模型是數(shù)據(jù)使用的探究循環(huán),與該團隊界定的教師數(shù)據(jù)素養(yǎng)的能力結構相對應。該課題組認為,教師數(shù)據(jù)素養(yǎng)由設定目標、收集數(shù)據(jù)、分析數(shù)據(jù)、解釋數(shù)據(jù)和采取教學行動等五個維度的能力組成,數(shù)據(jù)決策模型的每個步驟都可以體現(xiàn)某一維度的能力。比如,“界定問題”和“形成假設”兩個步驟體現(xiàn)的是“設定目標”維度的能力,“界定問題”“收集數(shù)據(jù)”和“評價”體現(xiàn)的是“收集數(shù)據(jù)”維度的能力。值得注意的是,數(shù)據(jù)決策步驟和數(shù)據(jù)素養(yǎng)之間屬于多點對應關系。如“界定問題”步驟既能體現(xiàn)“設定目標”能力,也可體現(xiàn)“收集數(shù)據(jù)”能力;“評價”步驟既可以體現(xiàn)“收集數(shù)據(jù)”能力,也可體現(xiàn)“分析數(shù)據(jù)”和“解釋”數(shù)據(jù)能力(見表三)。也就是說,完成數(shù)據(jù)決策的八個步驟,需要綜合運用五個維度的數(shù)據(jù)能力。表三列舉了這套知識測試的綱要,每一行都標明了題項與數(shù)據(jù)決策步驟及能力維度間的對應關系。為了檢驗這套知識測試的可靠性,兩位研究人員對相同的測試卷進行編碼評分,二者的一致性系數(shù)達到92%。前后測數(shù)據(jù)分析顯示,教師數(shù)據(jù)素養(yǎng)培訓實驗項目效果一般(Ebbeler et al.,2017)。
表三 數(shù)據(jù)素養(yǎng)、數(shù)據(jù)決策步驟和知識測試題的關系 (Ebbeler et al.,2017)
荷蘭庫伊伯斯(Kippers)等人對由教師、校領導、數(shù)據(jù)教練組成的數(shù)據(jù)探究小組進行了長達一年的培訓,并使用這套知識測試對參與教師數(shù)據(jù)素養(yǎng)進行前后測。數(shù)據(jù)分析結果呈現(xiàn)中到大的效應值,但是后測均值11.2分,還沒有達到滿分25分的一半,提升空間還很大。該研究進一步分析了教師數(shù)據(jù)素養(yǎng)的各項能力(設定目的、收集數(shù)據(jù)、分析數(shù)據(jù)、解釋數(shù)據(jù)和采取教學行動)分別發(fā)展到何種程度,并總結參與者的收獲和困惑(Kippers et al.,2018)。
該工具不僅可以用于教師數(shù)據(jù)素養(yǎng)集體測試,還可以用于個案研究。荷蘭博爾赫斯(Bolhuis)等學者在某師范學院實施一項案例研究。該學院的五名教師組成數(shù)據(jù)探究小組,合作研究學生輟學問題。課題組成員對數(shù)據(jù)小組參與者進行跟蹤,著力研究參加數(shù)據(jù)探究小組活動如何影響教師的數(shù)據(jù)素養(yǎng)。考慮到研究對象是大學老師,研究者對這套知識測試進行了必要修訂后才將其應用于測評。在參加數(shù)據(jù)探究小組活動后,教師數(shù)據(jù)素養(yǎng)成績均值從8.7上升到14.3,提高較明顯。然而,五名教師數(shù)據(jù)素養(yǎng)發(fā)展不平衡。結合調查、訪談數(shù)據(jù)分析發(fā)現(xiàn),教師在“解釋數(shù)據(jù)”“將結論轉化為改進措施”和“評價”方面收獲最大,在“界定問題”和“收集數(shù)據(jù)”方面收獲較少。另外,參與者數(shù)據(jù)素養(yǎng)的提升狀況和他們的起始水平密切相關(Bolhuis et al.,2019)。
知識測試類工具的優(yōu)勢在于,研究者可以對教師的數(shù)據(jù)素養(yǎng)進行量化測評,便于比較和等級評定。相對于問卷調查,此類工具的評測結果更客觀和可靠。然而,就該套知識測試而言,盡管研究者在題目中努力設置情境,讓題目內容和學科、年段緊密結合,但沒有一個整體情境統(tǒng)帥所有題項,問題與問題之間相互獨立,缺乏關聯(lián)。其測試任務離真實工作情境還有一定距離,能否準確反映教師真實的數(shù)據(jù)素養(yǎng)有待商榷。
除了問卷調查和知識測試外,國外研究者還開發(fā)了針對教師數(shù)據(jù)素養(yǎng)的另一種測評工具——情境訪談(Means et al.,2011;WestEd,2018)。情境訪談工具包括模擬情境、一套數(shù)據(jù)文件和一組問題。訪談人員依據(jù)情境訪談內容展開調查。通過對訪談結果進行數(shù)據(jù)分析,研究者綜合評估教師數(shù)據(jù)素養(yǎng)。為全方位調查教師的數(shù)據(jù)素養(yǎng),研究者通常會設計多個情境,以便覆蓋足夠多的數(shù)據(jù)知識和技能。就對評估結果分析方法而言,有的情境訪談工具支持對訪談結果進行編碼評分和量化分析;有的沒有評分量表,研究者只能大致評估和了解教師的數(shù)據(jù)素養(yǎng)。下面我們對兩種情境訪談工具分別舉例說明。
米恩斯等人曾開發(fā)了一套情境訪談工具,并將其應用在教師數(shù)據(jù)素養(yǎng)調查中。該課題組邀請了包括曼迪那契在內的專家組參與研發(fā)。專家組首先確定了使用數(shù)據(jù)決策的基本程序:問題提出、數(shù)據(jù)定位、數(shù)據(jù)理解、數(shù)據(jù)解釋和數(shù)據(jù)使用;接著明確了教師執(zhí)行這些程序所需要的技能;最后對涉及這些技能的工作情景和問題設計進行頭腦風暴。在此基礎上,課題組開發(fā)了一套包括7種情境在內的訪談工具(見表四),每種情境訪談都包括模擬情境、一套數(shù)據(jù)文件和一組問題。相關評估專家和數(shù)學教育專家審查了該工具的可信度、準確性以及與數(shù)據(jù)素養(yǎng)能力指標的一致性(Means et al.,2009;Means et al.,2011)。
分析訪談數(shù)據(jù)時,研究者要對客觀題和訪談文本分別進行量化評分和質性編碼,以便全面呈現(xiàn)教師與學生數(shù)據(jù)交互方式,進而評估教師數(shù)據(jù)素養(yǎng)。
課題組用該情境訪談工具對美國10個地區(qū)30所中小學教師實施數(shù)據(jù)素養(yǎng)調查,共52名教師和72個小組(每個小組包括2名教師和1名校領導)參與訪談,230余人參與了這項探索性研究。為了控制訪談時間,7種訪談情境被組合成兩種訪談方案,第一種方案由前4種情境組成,第二種方案由后3種情境組成,兩個方案涉及的數(shù)據(jù)技能和概念基本平衡。研究結果顯示,大多數(shù)教師在數(shù)據(jù)定位、數(shù)據(jù)使用等任務中表現(xiàn)較好,但在數(shù)據(jù)理解、數(shù)據(jù)解釋等挑戰(zhàn)性任務中表現(xiàn)欠佳。與個人訪談相比,小組訪談的平均成績更高,受訪者更容易對數(shù)據(jù)作出合理解釋,并呈現(xiàn)出多元數(shù)據(jù)技能(Means et al.,2011)。
美國“西部教育”(WestEd)公司2018年依托數(shù)據(jù)素養(yǎng)評估項目也開發(fā)了一套情境訪談工具?!拔鞑拷逃笔桥f金山的一家非盈利性組織,它將“促進卓越、實現(xiàn)公平和改善兒童、青少年和成人的學習”作為自身使命,在學術界影響較大。作為數(shù)據(jù)決策領域的先鋒,曼迪那契教授在西部教育擔任數(shù)據(jù)決策倡議主任。她的團隊界定了教師數(shù)據(jù)素養(yǎng)涵蓋的53項具體技能及5種情感傾向特征,這些具體技能分別歸屬于五個技能維度,即確定問題、使用數(shù)據(jù)、將數(shù)據(jù)轉換為信息、將信息轉換為決策以及評估結果等,這五個技能維度又構成數(shù)據(jù)探究循環(huán)(Mandinach & Gummer,2016a)。
曼迪那契教授以這些理論研究成果為基礎,帶領課題組成員開發(fā)了形成性評估、終結性評估、早期預警指標和工作場所決策等四種情境。形成性評估情境關注日常短期數(shù)據(jù);終結性評估圍繞期末測評數(shù)據(jù)構建;早期預警情境針對學生畢業(yè)風險指標建立數(shù)據(jù)文件和問題,以便對畢業(yè)困難生及早定位并采取措施;工作場所決策則要求教師借助各種教育數(shù)據(jù)選擇未來的任職場所(見表五)。
表四 美國教育部組織研發(fā)的情境訪談工具及其考查的技能和概念(Means et al.,2011)
表五 美國“西部教育”開發(fā)的情境訪談工具(WestEd,2018)
表五呈現(xiàn)了四個情境的內容概要及所包含的考察目標。當然,每種情境都考查數(shù)據(jù)素養(yǎng)的部分技能(見表六),比如,表六的第2行列舉了各種情境對“確定問題”維度技能的考查情況。根據(jù)曼迪那契的能力評價體系,“確定問題”維度包括5項技能。四種數(shù)據(jù)情境分別考查了其中的2項、5項、4項、2項技能,這一維度的技能在四種情境中共考查了13次。
該情境訪談工具提供了每個問題的最佳反應范式,但是沒有提供量規(guī),也沒有將題目和具體技能精準對應起來,因而研究者不能對訪談結果進行量化評分,只能依據(jù)情境訪談工具中的技能列表和參考答案,粗略評估教師的數(shù)據(jù)技能和態(tài)度表現(xiàn)。與2011版的情境訪談工具相比,這套工具不僅覆蓋學生的各種測評數(shù)據(jù),還包括人口統(tǒng)計學、教育政策等數(shù)據(jù),數(shù)據(jù)類型更廣泛。該套情境訪談工具也反映了教師數(shù)據(jù)素養(yǎng)的最新研究成果。遺憾的是,在可獲取的文獻中還沒有見到這套工具的應用情況。
情境訪談可以提供一個模擬工作情境,讓教師呈現(xiàn)比較真實的數(shù)據(jù)使用能力和態(tài)度。相對于問卷調查和知識測試,這種測評方式需花費較多的人力和時間,調研成本較高。
表六 美國“西部教育”情境訪談工具對數(shù)據(jù)素養(yǎng)技能的考查(WestEd,2018)
綜上所述,問卷調查、知識測試與情景訪談等測評工具盡管形式各異,但都在著力尋求教師具備數(shù)據(jù)素養(yǎng)的表現(xiàn)證據(jù),以此推斷和評估教師的數(shù)據(jù)素養(yǎng)水平,基本上遵循了證據(jù)中心的測評設計模式。證據(jù)中心設計模式將評估視為基于證據(jù)的推理,即通過觀察被試在特定情境中所說、所做等表現(xiàn),來推斷他們的認知和能力層次(Mislevy et al.,2003)。該測試設計模式不僅被廣泛應用在測評設計中,還常用來檢驗測評工具的有效性。證據(jù)中心測試的設計框架包括學生、證據(jù)、任務、組合和呈現(xiàn)等五個模型,也可以理解為測試設計的五個要素。學生模型,指測評設計者希望測量的知識、技能和態(tài)度;證據(jù)模型包括證據(jù)規(guī)則和測量模型,前者指導評分過程,后者指導對分數(shù)的解讀;任務模型規(guī)定了學生的表現(xiàn)形式,比如選擇題、論文寫作等;組合模型是解釋學生、證據(jù)和任務三個要素如何有機組合形成測試的;呈現(xiàn)模型主要用來描述任務的呈現(xiàn)方式,比如紙筆測試、計算機輔助測試等(Mislevy & Haertel,2006)。圖4呈現(xiàn)了五個要素之間的相互作用及關系。可以看到,這一設計框架的核心是學生、證據(jù)和任務,它們之間相互影響,共同組成測試的主體部分。為了更深入地理解教師素養(yǎng)測評工具的特點,下文借助證據(jù)中心設計框架,從開發(fā)過程、測評效度、應用程度等方面對不同種類的測評工具進行總結和比較。
圖4 證據(jù)中心測試模式的設計框架 (Mislevy & Haertel,2006)
從證據(jù)中心測試設計框架的視角看,測評工具的客觀選擇題、開放問答題、情境分析題都屬于任務設計,筆試、訪談、網(wǎng)絡調查等是呈現(xiàn)模式規(guī)定的內容,它們的形式和內容取決于學生模型和證據(jù)模型,即可測量的教師數(shù)據(jù)素養(yǎng)包括哪些知識、能力和態(tài)度以及如何擬定評分和解釋規(guī)則,這都與教師數(shù)據(jù)素養(yǎng)能力評價體系的建構有關。我們可以理解為,建構教師數(shù)據(jù)素養(yǎng)能力評價體系是測評的中心環(huán)節(jié),直接決定測試的有效性。
文獻調研發(fā)現(xiàn),現(xiàn)有的各種測評工具沒有遵循統(tǒng)一的教師數(shù)據(jù)素養(yǎng)評價指標。比如,艾波拉等人編制的知識測試以設定目標、收集數(shù)據(jù)、分析數(shù)據(jù)、解釋數(shù)據(jù)、采取教學行動等五個維度的數(shù)據(jù)能力為基礎(Ebbeler et al.,2017);曼迪那契等人則依托該課題組的教師數(shù)據(jù)素養(yǎng)的能力評價體系編制訪談問題(WestEd,2018);韋曼等人(2016)編制的調查問卷宣稱以教師數(shù)據(jù)使用行為模型為理論基礎,但沒有為教師數(shù)據(jù)知識、技能部分確定評價指標、解釋規(guī)則。這反映出,學術界在教師數(shù)據(jù)素養(yǎng)的概念和能力結構方面還沒有完全達成共識,各種測評工具依據(jù)的學生模型和證據(jù)模型各不相同,這就導致不同的測評結果很難進行比較和對話。因此,確定教師數(shù)據(jù)素養(yǎng)的能力評價體系是開發(fā)測評工具的前提和關鍵環(huán)節(jié),能力評價體系的成熟度也影響著測評工具和調查研究的有效性。
測評效度指測評工具可測得教師數(shù)據(jù)素養(yǎng)的程度。證據(jù)中心的測評設計模式重在收集關于學生能力的證據(jù)(表現(xiàn)或作品),借此推斷和評估學生能力。從這一角度看,測評過程可收集和使用的學生證據(jù)是否可靠和豐富,直接影響測評工具的效度(Mislevy & Haertel,2006)。
問卷調查需要被調查者對數(shù)據(jù)素養(yǎng)技能或態(tài)度進行自我評價,比如美國韋曼等(2016)開發(fā)的問卷需要教師評價自己“利用數(shù)據(jù)診斷學生學習需求”“根據(jù)數(shù)據(jù)調整教學”“利用數(shù)據(jù)設定學習目標”等的能力。然而,脫離工作情境的自我評價很多時候是模糊的、帶有主觀色彩的,很難觀察或收集到被調查者的知識、能力或態(tài)度的證據(jù)。問卷調查的統(tǒng)計結果可以體現(xiàn)教師數(shù)據(jù)使用傾向、能力概況,但很難準確測評教師在真實工作情境中的數(shù)據(jù)決策能力。
荷蘭學者艾波拉開發(fā)的知識測試題目都是開放題,且與設定目標、收集數(shù)據(jù)、解釋數(shù)據(jù)、分析數(shù)據(jù)、采取教學行動等數(shù)據(jù)素養(yǎng)的能力維度精準對應,研究者還嘗試設置簡單的工作情境,比如讓教師分析某校近三年各學科不合格率的圖表,借此測評教師的數(shù)據(jù)解釋能力(Ebbeler et al.,2017)。教師必須分析、判斷數(shù)據(jù),并以書面回應的形式展現(xiàn)自己的數(shù)據(jù)素養(yǎng)。曼迪那契等人開發(fā)的情境訪談工具覆蓋了教師數(shù)據(jù)素養(yǎng)的53項具體技能及5種情感傾向,還列出每種情境所測評的具體技能及最佳反應范式。與知識測試不同,研究者設置了整體的工作場景,比如在形成性評估場景中(見表五),研究者設置了“教師拿到閱讀成績報告后如何分析成績并調整教學”的工作場景,在其中嵌入成績分析、目標制定、教學調整等問題。教師需要將數(shù)據(jù)使用能力與教學法、學科內容知識結合起來,才能完成這些題目。另外,面對面訪談也讓研究者觀察到教師的思考過程、技能熟練程度及態(tài)度價值觀,從而更科學地測評教師的技能水平。綜上所述,知識測試和情境訪談能提供被試知識技能更可靠和豐富的證據(jù),在測評效度上優(yōu)于問卷調查。
在以往研究中,問卷調查的使用頻率和范圍都占絕對優(yōu)勢。圖5表明,幾乎每個國家的研究都會采用問卷調查,只有特定國家的個別研究會應用知識測試和情境訪談。美國“西部教育”公司開發(fā)的情境訪談工具,目前在學術界沒有發(fā)現(xiàn)其應用證據(jù),還有待更多的研究驗證其信效度(WestEd,2018)。問卷調查的應用程度占優(yōu)勢,原因有二:首先,從研究積累看,已有調查問卷種類繁多,可以給研究者提供較多的借鑒。研究者沿用或修訂已有問卷工具,能在與前人研究結果的對比中進行自我評價和反思。相對來說,知識測試和情境訪談工具還處于萌芽階段,可供借鑒的成果不多。其次,從任務設計和呈現(xiàn)方面看,問卷調查基本以選擇題出現(xiàn),且多是單一任務,便于測評管理和統(tǒng)計分析。問卷調查還可以借助計算機和互聯(lián)網(wǎng)技術,實施大規(guī)模的數(shù)據(jù)采集。比如,加拿大學者安德森等(Anderson et al.,2010)為了研究教育者的數(shù)據(jù)使用情況及其影響因素,通過電子郵件對某地區(qū)4491名教師與280名校長開展問卷調查。知識測試往往面向特定教師群體,并安排在特定時間和空間;情境訪談不管采用面對面,還是語音、視頻的形式,一次只能訪談一位教師或一組教師。這兩種測評工具很難完成大樣本的數(shù)據(jù)采集任務。
圖5 測評工具的國別使用分布
三種測評工具各有千秋,研究者應根據(jù)研究需要選擇合適。有研究者將問卷調查、訪談法和知識測試等工具結合使用,以增強教師數(shù)據(jù)素養(yǎng)調查的客觀性和可靠性(Bolhuis et al.,2019;Ebbeler et al.,2017)。同時,國外教師數(shù)據(jù)素養(yǎng)測評的研究和實踐也處在動態(tài)發(fā)展中。測評工具不是固定不變的,會隨該領域理論研究的深入而不斷迭代更新。
智能時代的標志是人工智能、大數(shù)據(jù)等新興技術的廣泛應用,教育也不例外。隨著各種智能教學系統(tǒng)和APP進入課堂,后臺生成的海量數(shù)據(jù)如果得到合理的收集、清洗和利用,可以幫助教師開展更精準和科學的教育教學決策。因此,教師數(shù)據(jù)素養(yǎng)話題日益受到國內研究者和實踐者的關注。中國知網(wǎng)中以“教師數(shù)據(jù)素養(yǎng)”為主題的文獻2016年后迅速增長,然而,截至2019年10月,涉及教師數(shù)據(jù)素養(yǎng)調研工具的文獻不多,已有研究雖然有涉及調研工具開發(fā),但其評價指標的科學性還有待驗證(盧詩華,2018;郝媛玲等,2016;李青等,2018;隆茜,2015)。我國教師數(shù)據(jù)素養(yǎng)測評的研究和實踐尚處起步階段。如前文所言,證據(jù)中心的測評設計框架可以為我們提供操作藍圖,其中,學生模型、證據(jù)模型、任務模型和呈現(xiàn)模型等構成了教師數(shù)據(jù)素養(yǎng)測評研究的基本環(huán)節(jié),每個環(huán)節(jié)的推進都是一項系統(tǒng)工程,需要各個利益相關者的配合和努力。該框架以及國外教師數(shù)據(jù)素養(yǎng)測評的研究成果可以給我國該領域研究和實踐提供啟示。下文從評價體系建構、測評任務設計和測評實施等三方面闡釋。
評價體系的建構是測評工具開發(fā)的前提和基礎,也是證據(jù)中心測評設計模式的中心環(huán)節(jié),建議國內研究從以下兩方面入手,推動教師數(shù)據(jù)素養(yǎng)評價體系的建構。
首先,將數(shù)據(jù)素養(yǎng)要求納入《教師專業(yè)標準》?!督處煂I(yè)標準》是教師隊伍建設的基本依據(jù),具有引領和導向作用。美國利用教師資格認證標準促進數(shù)據(jù)素養(yǎng)發(fā)展的工作已進入實踐層面(王萍等,2016)。國內2012年頒布的中小幼等階段的《教師專業(yè)標準》盡管提到了評估素養(yǎng)的內容,但都沒有明確對數(shù)據(jù)素養(yǎng)的要求(中華人民共和國教育部,2012)。將教師數(shù)據(jù)素養(yǎng)納入《教師專業(yè)標準》,可以推動教師招聘考試、職稱評定考核對教師數(shù)據(jù)素養(yǎng)的關注,引發(fā)教師數(shù)據(jù)素養(yǎng)評價指標及測評工具研究。這一倡議也將研究領域的挑戰(zhàn)推向政策層面,期待借助社會力量共同建構教師數(shù)據(jù)素養(yǎng)的能力結構和評價指標,促進教師數(shù)據(jù)素養(yǎng)測評設計中的“學生模型”逐漸形成穩(wěn)定的結構,盡快在學術界達成共識。
其次,發(fā)揮研究課題引領作用。目前國內已有學者嘗試建構本土教師數(shù)據(jù)素養(yǎng)能力結構及評價指標(李青,趙歡歡,2018;劉雅馨等,2018;阮士桂,鄭燕林,2016),但這些評價指標體系的建構基本上依賴于個別學者的思考和推斷,能否囊括教師在真實教學場景中所需要的數(shù)據(jù)知識、技能乃至情感態(tài)度有待驗證,因此很難被學術界廣泛認可并應用于實踐。國外教師數(shù)據(jù)素養(yǎng)測評研究往往依托國家和區(qū)域層面的重要課題,因此研究的系統(tǒng)性和權威性得到保證。我們建議,相關科研管理部門應啟動教師數(shù)據(jù)素養(yǎng)重大課題研究,鼓勵更多的科研單位和研究者投入該領域的研究工作。我們可以借鑒美國曼迪納契課題組建構教師數(shù)據(jù)素養(yǎng)能力評價體系的過程,組織國內數(shù)據(jù)素養(yǎng)與教學評價專家協(xié)作研討,在回顧已有文獻、國家政策文件、標準中對教師數(shù)據(jù)素養(yǎng)的能力描述或要求的基礎上,擬定能力指標,最后邀請一線教育者審閱修訂(Mandinach & Gummer,2016a)。這樣的建構過程將超越個體思維,吸納集體智慧,更容易在業(yè)內達成共識,得到認可。
證據(jù)中心的測試設計理論認為,任務設計應“引發(fā)能形成各種證據(jù)的學生行為”(Mislevy & Haertel,2006;Mislevy et al.,2003)。從國外教師數(shù)據(jù)素養(yǎng)測評工具發(fā)展歷程看,任務設計經歷了從良構到劣構、從單一任務到綜合任務的演進過程,并越來越強調任務的真實性。我國在測評任務設計方面可以得到兩點啟發(fā)。
首先,關注真實性任務的設計。教師數(shù)據(jù)素養(yǎng)是在真實的教育實踐中形成、發(fā)展起來的,因此只有在真實的任務中,教師才能呈現(xiàn)出自己的數(shù)據(jù)知識、技能和態(tài)度。舉個反例,杜恩的知識測試要考查“測驗效度”概念,讓教師從四個選項中選擇最符合的一項(見表二)。這道題缺少具體情境,不能算真實的任務,只能測得教師的識記或理解力,離真實情境中的技能還有距離。真實性任務的設計可以采用兩種形式:一,從真實的生活中提取情境和任務,對測試進行仿真情境創(chuàng)設和任務設計;二,讓教師或教師團隊在真實情境中完成相關任務,解決真實問題。這兩種設計形式都要求研究人員走出象牙塔,在對學校教育的觀察、與教師的交流及共同生活中去提取、設計和更新測評的真實性任務。
其次,注重測評任務的多樣性。單一任務的測評很難有效測評教師數(shù)據(jù)素養(yǎng),未來研究可以采用選擇題、問答、綜合情境任務等多樣化測評任務,以適應不同環(huán)境和群體的教師數(shù)據(jù)素養(yǎng)測評,或者對不同的數(shù)據(jù)源進行互相驗證。值得注意的是,我們也可以設置計算機支持的復雜性協(xié)作任務,以便對教師數(shù)據(jù)素養(yǎng)提供綜合性評估。另外,在借鑒國外評測研究成果時,要考慮我國教師數(shù)據(jù)使用的工作情境、可用數(shù)據(jù)庫、可獲得的數(shù)據(jù)類型等,進而研發(fā)具有本土適應性的多元化測評工具。
在教師數(shù)據(jù)素養(yǎng)測評工作中,測評實施是聯(lián)系理論和實踐的重要一環(huán),涉及任務呈現(xiàn)、測評管理等內容,我們要努力尋求測評對象、測評目的和測評工具的最佳匹配,實現(xiàn)測評效果和效率的最大化。
首先,針對不同的測評對象和目的,我們要選擇最匹配的測評工具。調查問卷、知識測試、情境訪談等測評形式各有特點,評估者需要根據(jù)人力、物力等客觀條件及測評目的靈活選用。比如,在師范教育中,與數(shù)據(jù)素養(yǎng)相關的課程考核更適合使用知識測試的形式;如果要了解教師工作坊成員的數(shù)據(jù)素養(yǎng)狀況,可以采用情境訪談式測評。如果要調研多個地區(qū)若干所學校的教師數(shù)據(jù)素養(yǎng)狀況,問卷調查比較合適。當然,在多數(shù)情形下,不同種類的測評任務也可以綜合運用,不僅增加測評結果的可靠性,還可以從不同角度了解教師數(shù)據(jù)使用的知識、技能、態(tài)度、情感傾向等。測評工具的選擇取決于測評目的、課題計劃等,需要我們慎重決定。
其次,測評實施者也需要接受專業(yè)培訓。教師數(shù)據(jù)素養(yǎng)測評實施的某些環(huán)節(jié)需要較高的專業(yè)素養(yǎng),比如知識測試的評分、開展情境訪談等。如果測評實施者不是課題組成員或相關專家,那么測試員最好接受專業(yè)訓練,以保證調研結果的可靠性。為了促進測評工具從實驗室向實踐推廣,我們建議,相關部門在完成測評工具的研發(fā)和信效度驗證后,還要以工作坊或在線課程的形式培訓一批測評管理員,以便測評工具和結果得到科學的應用及分析。
最后,教師數(shù)據(jù)素養(yǎng)的測評應與教師專業(yè)發(fā)展緊密結合。國外教師數(shù)據(jù)素養(yǎng)測評工具的開發(fā)大多是教師素養(yǎng)培養(yǎng)項目的一部分,其目的往往是驗證教師數(shù)據(jù)素養(yǎng)培養(yǎng)項目的有效性(Ebbeler et al.,2016;Ebbeler et al.,2017;McNaughton et al.,2012),有的情境訪談工具本身就可以作為教師專業(yè)培訓的資源加以使用(Means et al.,2011;WestEd,2018)。我國的教師數(shù)據(jù)素養(yǎng)測評研究與實踐也不應是終極目的,其測評結果應服務于教師數(shù)據(jù)素養(yǎng)教育方案和培訓課程開發(fā),是達成教師數(shù)據(jù)素養(yǎng)提升的必要手段。
21世紀的教學挑戰(zhàn)之一就是不斷變化的數(shù)據(jù)環(huán)境。作為數(shù)據(jù)決策的重要實施者,教師的數(shù)據(jù)素養(yǎng)測評與培養(yǎng)工作迫在眉睫(Dunlap & Piro,2016)。學校的海量教育數(shù)據(jù)只有得到有效的處理和分析才能發(fā)揮其獨特的教育價值,促進科學決策的形成。教師數(shù)據(jù)素養(yǎng)測評應積極借鑒國外研究成果,立足本國國情,選擇適合自己的研究和實踐道路,才能研發(fā)出具有本土特色的教師數(shù)據(jù)素養(yǎng)測評工具,探索符合教師成長規(guī)律的培養(yǎng)路徑,讓本領域的理論研究和實踐探索真正地服務于教和學,促進師生共同成長。