王玉 首新 林長春
摘要: 與一般的創(chuàng)造性思維測評量表相比,PISA2021創(chuàng)造性思維有其獨特的評分方式。該評分方式具有標準的評分規(guī)定體系,從“產(chǎn)生多樣性想法”“產(chǎn)生創(chuàng)造性想法”“評價和改進想法”三個維度進行評分,涉及“文字表達”“視覺表達”“科學問題解決”“社會問題解決”等四個領域的任務分配,具有評分規(guī)定標準化、重視評分者信度、開放性任務和靈活的評分方式等特點。PISA2021創(chuàng)造性思維評分邏輯對于我國義務教育科學教育質量監(jiān)測如何融入創(chuàng)造性思維具有啟發(fā)意義。
關鍵詞: 創(chuàng)造性思維; PISA2021; 評分方式; 評分邏輯
文章編號: 10056629(2020)12007207
中圖分類號: G6338
文獻標識碼: B
1引言
PISA是由經(jīng)濟合作與發(fā)展組織(OECD)開發(fā)的三年一次的國際學生評估項目,包含閱讀、數(shù)學和科學三大核心測試領域。該項目于2000年第一次實施,測試對象為15周歲的青少年,其目的是衡量學生在閱讀、數(shù)學和科學素養(yǎng)、調節(jié)學習的能力、對不同科目的興趣、自我效能、自我概念、自尊以及社會經(jīng)濟背景等領域的成績[1]。同時,PISA也會對家長、教師和學校領導進行相關的問卷調查,以確保從多個方面多個層次來分析其影響因素。PISA一直著重于學生對所學知識的運用和各方面素養(yǎng)的發(fā)展,而不是簡單地復制課堂所學知識。在原有的基礎上,PISA陸續(xù)加入了問題解決能力測評(2003)、數(shù)字化測評(2009)、財經(jīng)素養(yǎng)測評(2012)、合作問題測評(2015)、全球勝任力測評(2018),在全世界引起了廣泛關注和強烈反響,并在即將到來的PISA2021中增加了創(chuàng)造性思維測評。國際上對PISA數(shù)據(jù)的信息價值達成了普遍共識,經(jīng)合組織通過PISA已影響到國家一級的教育決策[2]。
創(chuàng)造性思維是建立在想象力、遺傳與天賦、智商、思維聯(lián)結的基礎上,進而發(fā)展為強調獨創(chuàng)性、發(fā)散性和適切性的一種原生性思維[3]。20世紀中期,吉爾福特發(fā)表了關于“創(chuàng)造力”的報告,創(chuàng)造性思維作為創(chuàng)造力的主要因素被大量研究和探討。2010年經(jīng)合組織在頒布的《OECD創(chuàng)新戰(zhàn)略: 從明日起搶占先機》中,也強調了創(chuàng)造性思維的重要性。創(chuàng)新的核心是創(chuàng)造性人才,而創(chuàng)造性人才的核心是人的創(chuàng)造性思維[4]。創(chuàng)造性思維可以促進個人能力,如元認知能力、問題解決能力、人際關系能力等,也能在科學、技術、哲學、藝術等多個領域中產(chǎn)生推動社會發(fā)展的創(chuàng)新想法和見解。創(chuàng)造性思維是一種具體的能力,是人們均可擁有的,這一點為創(chuàng)造性思維的測評奠定了基礎。
PISA2021關注創(chuàng)造性思維測評,這將為大規(guī)模的創(chuàng)造性思維理論與實踐研究提供范例。本文在介紹PISA2021創(chuàng)造性思維測評框架的基礎上,著重介紹其評分方式,進一步分析其評分邏輯,為我國義務教育階段科學教育質量監(jiān)測提供參考。
2PISA2021創(chuàng)造性思維測評框架
OECD教育研究與創(chuàng)新中心(Centre for Educational Research and Innovation, CERI)發(fā)布的《PISA2021創(chuàng)造性思維框架草案(第三版)》中對創(chuàng)造性思維定義為“能夠有效地參與創(chuàng)意的產(chǎn)生、評估和改進,能夠生成新穎的方案,并能夠促進知識進步和想象力表達的一種能力”[5]。這個定義強調了所有學生都需要有效地參與產(chǎn)生想法的實踐,重視想法的相關性和新穎性,并且能夠通過反復思考得到有效且滿意的結果。傳統(tǒng)的二分法將創(chuàng)造力的研究分為日常創(chuàng)造性(LittleC)和創(chuàng)造性成就(BigC)。LittleC幾乎人人都具有,包含的是普通人平常生活的各個方面,如人們把易拉罐做成洗澡的噴頭就屬于這種創(chuàng)造力;BigC只有偉人才具備,一般解決特別難的問題,或者創(chuàng)造出天才的作品,如愛因斯坦提出相對論、達·芬奇的藝術創(chuàng)作等都能體現(xiàn)出該創(chuàng)造力[6]。文獻一致認為,LittleC創(chuàng)造力可以通過實踐來發(fā)展,通過教育來磨煉。因此,PISA2021創(chuàng)造性思維測試將側重于與LittleC創(chuàng)造力相關的任務,盡可能地降低先天才能對其表現(xiàn)的影響,更加重視個人參與創(chuàng)造性思維的可塑性。
PISA2021創(chuàng)造性思維測評框架包含“課堂上創(chuàng)造性思維的影響因素和表現(xiàn)形式關系模型”以及“創(chuàng)造性思維測試的能力模型”這兩大模型?!罢n堂上創(chuàng)造性思維的影響因素和表現(xiàn)形式關系模型”建立在2017年經(jīng)合組織提出的創(chuàng)造性思維五維模型的基礎上,由個人因素、社會因素、成就與進展這3個方面所組成[7]?!吧鐣蛩亍睍α硗鈨蓚€方面產(chǎn)生影響,而“個人因素”同“成就與進展”兩者之間會相互影響。其中,個人因素包含6個要素: 認知技能、領域準備、開放性、協(xié)作、目標導向和自我信念、任務動機;社會因素包含3個要素: 文化規(guī)范和期望、教育方法、學校和課堂氣氛;表現(xiàn)形式(成就與進展)包含3個方面: 創(chuàng)造性表達、知識創(chuàng)造、創(chuàng)造性地解決問題?!皠?chuàng)造性思維測試的能力模型”涉及四領域三維度:“四領域”包括文字表達、視覺表達、科學問題解決和社會問題解決;“三維度”分別是: 產(chǎn)生多樣性想法、產(chǎn)生創(chuàng)造性想法、評價和改進想法。PISA2021創(chuàng)造性思維測評框架具有較強的可實施性和指向性,為測評高階思維能力提供了新的模式。
3PISA2021創(chuàng)造性思維測評評分方式
3.1評分規(guī)定體系
PISA2021創(chuàng)造性思維測評基于測評指標和任務,構建了具備可實施性的評分規(guī)定體系。該體系圍繞“四領域三維度”進行任務分配,并以三維度作為評分切入點。在三維度中,第一個維度是“產(chǎn)生多樣性想法”,側重于學生跨領域靈活思考的能力,注重所產(chǎn)生想法的多樣性和靈活性;第二個維度是“產(chǎn)生創(chuàng)造性想法”,該維度的評估建立在同一測試中其他學生的反應基礎上,更側重于學生尋找合適且原創(chuàng)方法的能力;第三個維度是“評價和改進想法”,側重于學生對想法進行評估和改進的能力,達到對想法中的缺陷進行改進的目的。PISA2021根據(jù)三個維度之間不同的考查要求,制定了不同的評分方式,具有較強的實際操作性。例如“產(chǎn)生創(chuàng)造性想法”這一維度主要考查學生的回答是否“原創(chuàng)”,要求評分者對其進行判斷和評分,在這一過程中編碼指南也為其提供了足夠多的示例,而不是單一的標準答案,這使得評分過程更加靈活。同時,該評分體系能很好地指導評分者依據(jù)編碼指南對學生的回答進行判斷,重視評分者之間的信度來確保評分的合理性。
3.2任務分配
PISA測評的一個重要目的是在國家間進行標準化的比較,但人與人對話互動中的不確定性以及多國語言的自然語言處理,給測試的標準化結果帶來很大挑戰(zhàn)[8]?;谄淇尚行缘目紤],PISA2021創(chuàng)造性思維測評將基于計算機交互模式,測試時常為1個小時,題型分為選擇題、建構題和交互式仿真任務。PISA2021創(chuàng)造性思維測評圍繞“四領域三維度”來進行任務分配,四領域所包含的任務均屬于“LittleC”范疇。其中“文字表達”“視覺表達”這兩個領域側重于“創(chuàng)造性的表達”,強調創(chuàng)造性思維參與個人內心世界與他人進行交流的過程。而“科學問題解決”和“社會問題解決”這兩個領域則側重于知識創(chuàng)造與創(chuàng)造性問題解決。為了維持領域之間的平衡,雖然每個領域內包含多重任務,但四個領域所分配的任務比例均為25%,而三個維度之間任務的分配有些許差異,其中“產(chǎn)生多樣性想法”測試占比40%,剩下的兩個維度則均占比30%(見圖1)。
3.3評分方式
本次創(chuàng)造性思維測評由于其自身的獨特性,尤其是開放式任務,必須使用適合所有參與國文化、語言以及人工評分的方法,使得測評評分存在很大的挑戰(zhàn)。PISA2021創(chuàng)造性思維測評構建的題型與能力模型的四領域相對應,但不是每個領域都完全包含3種題型,并
且在題型的分布上也有一定差異,不過相同的題型都遵循相同的格式和編碼過程?;卮鸬拇_切形式(如標題、解決方案、設計)因領域和任務而有差異,導致學生的回答在形式上也有所不同,評估回答的多樣性和創(chuàng)造性的具體標準也將不同(見圖2)。
在“產(chǎn)生多樣性想法”這一維度,學生的回答不能是單一的,通常需要兩個或三個回答。這些項目的編碼過程有兩個步驟: 一是確定學生的回答是否“適當”。對于特定的任務,“適當”可以理解為與特定任務內容相關。這意味著需要排除“不適當”的回答: 刪除沒有意義的文本條目(例如隨機打字)、不尊重任務形式的文本條目(例如要求設計一個標題,學生卻給出的是故事創(chuàng)意)、與任務完全無關的條目(如任務要求學生提出節(jié)約用水的創(chuàng)新建議,卻輸入“多吃櫻桃派”等毫無關聯(lián)的內容);二是確定回答之間是否“足夠不同”。編碼指南為四領域的任務提供了可以被判斷為不同答案的樣例,并且提供了界定兩個回答是否足夠不同的客觀標準: (1)在“文字表達”領域中要求學生設計不同標題,可以用是否使用同義詞來進行判斷,若兩個標題僅僅是進行了同義詞的替換,則不符合要求;(2)在“視覺表達”領域中要求學生創(chuàng)建節(jié)日標志,判斷標準是兩個節(jié)日標志是否使用不同的形狀組合起來以生成不同的圖像;(3)對于“社會和科學問題解決”這兩個領域的任務,編碼指南中將會列出預先定義的“不同類別”的回答,來幫助評分人員進行判斷: 如在要求學生提出節(jié)約用水方法的任務中,“短時間淋浴”和“對生活用水進行二次利用”則屬于不同類別。
在“產(chǎn)生創(chuàng)造性想法”這一維度,通常只要求學生提供一個回答。根據(jù)具體的領域和任務,這些回答在形式上有所不同,可能是一個短篇故事的想法,一個社會問題或一個科學研究問題的解決方案。這個項目的編碼過程有三個步驟,第一個步驟同“產(chǎn)生多樣性想法”這一維度相同,均是確定學生的回答是否“適當”。之后的環(huán)節(jié)要求編碼器必須確定回答是否為“原創(chuàng)”,確定“原創(chuàng)”有兩個步驟: (1)確定主題是否原創(chuàng)。編碼指南中包含了每項任務最常規(guī)的主題列表,如果一個適當?shù)幕卮鸩环狭谐龅某R?guī)主題之一,則被編碼為原創(chuàng)的;(2)判斷方法是否原創(chuàng)。編碼指南為每個任務提供了原創(chuàng)方法的例子,如果回答包含在編碼指南最常規(guī)的方法列表中,但是它包含原創(chuàng)方法,則在編碼過程的下一步中它仍然可以被認為是“原創(chuàng)”的。原創(chuàng)方法可以是通過一些創(chuàng)新方式增強問題解決方案的可實施性,或者在設計中使用普通圖像但以新的方式呈現(xiàn)等。在確定一個回答是否為“原創(chuàng)”時,建立雙重標準也是為了確保同時考慮到創(chuàng)意概念(主題)和創(chuàng)意實現(xiàn)(方法)的原創(chuàng)性。編碼指南提供的常規(guī)主題列表和原始方法示例都來源于實證研究中對學生真實回答的分析,這些列表將在進行現(xiàn)場試驗后進一步更新,以確保能夠反映不同參與國或地區(qū)學生的常規(guī)回答。雖然這種給原創(chuàng)性打分的方法可能無法讓最有創(chuàng)造性的回答脫穎而出,但它有一個明顯的優(yōu)勢,就是不會受到偏愛中間點或極端點的評分方式的影響。
同樣地,在“評估與改進想法”這一維度,通常也只要求學生提供一個回答。任務通常要求學生以一種新穎的方式改變一個給定的想法。任務的形式也可能有所不同: 一個創(chuàng)意的故事結尾,一個改進的設計,一個讓社交活動更有趣的創(chuàng)意,或者讓技術發(fā)明更有用或更具創(chuàng)新性的方法。首先是確定學生的回答是否“適當”,這里的“適當”不僅僅要求與任務形式是相關的,還得是一種改進。編碼指南針對任務的具體情境,提供了不同類型的改進回答作為解釋和示例,之后編碼器將會根據(jù)編碼指南確定回答是否為“原創(chuàng)的改進”。如果改進的回答與列出的常規(guī)改進不一致,那么它將被判斷為是原創(chuàng)的;如果改進的類型是常規(guī)的,但是實施的方法或對創(chuàng)意的描述包含原創(chuàng)元素,那么評分者仍可以將回答編碼為原創(chuàng)。
然后評分員根據(jù)每個維度的評分標準對學生的回答進行判斷,并給予分數(shù)。任務屬于“產(chǎn)生多樣性想法”這一維度,若學生所有回答均“適當”且“足夠不同”,則為滿分;若只有兩個或三個答案是合適的,且只有兩個“足夠不同”,則部分給分;其他情況,則為零分。另外兩個維度的任務評分類似,若回答既“適當”又符合“原創(chuàng)”,則為滿分;若僅僅只是符合“適當”這一個條件,則部分給分;其余情況,則為零分。
4案例分析
PISA2021提供了測試樣題,四個領域分別設置不同類型、不同主題的認知測試單元,每個單元的樣題基本涉及三個維度的考查。
“文字表達”領域示例單元的主題是“根據(jù)圖片創(chuàng)造故事”,這個單元不需要高水平的先驗知識,但是學生的表達能力會影響學習成績。三個任務分別是: 要求學生根據(jù)圖片創(chuàng)造出2個不同的故事、要求學生根據(jù)6張圖片寫一個創(chuàng)造性的故事、要求學生根據(jù)朋友寫的故事對其進行創(chuàng)意續(xù)寫,這三個任務與三個維度一一對應。
“社會問題解決”領域的示例單元主題為“節(jié)約用水的社會問題”,其任務包括: 描述3種不同的節(jié)約用水途徑、想出1個創(chuàng)造性的方法向潛在用戶宣傳該應用程序、對應用程序想出1個改進方法,這三個任務與三個維度一一對應。
“科學問題解決”領域的主題為“對標準自行車進行改造”,本單元避免了形成封閉式問題的單一解決方案,需要學生進行開放式回答,找到有創(chuàng)意的解決方案。首先要求學生想出3種標準自行車改進方案;其次要求學生對自行車防盜裝置進行改進;最后要求學生想出一個重新使用自行車踏板的新穎方案,這三個任務同樣與三個維度一一對應。
“視覺表達”領域示例單元的主題為“利用虛擬畫圖工具設計美食節(jié)標志”,前兩個任務要求學生分別設計2個不同的節(jié)日標志,屬于“產(chǎn)生多樣性想法”維度。最后一個任務要求學生根據(jù)美食節(jié)主題改進之前設計的標志,屬于“評估與改進想法”維度。
以“社會問題解決”領域樣題為例,圖3展示了“社會問題解決”領域中的一個示例單元(節(jié)約用水)。
在這個例子中,學生通過三項任務來解決節(jié)約用水的社會問題。節(jié)約用水以及減少對水資源的浪費是全世界許多學生都熟悉的話題,也是學校經(jīng)常提到的話題,學生對其具有一定的先驗知識。雖然對問題的先驗知識可能會影響學生在本單元生成多樣化和創(chuàng)造性解決方案的能力,但先驗知識和創(chuàng)造性思維能力之間的關系并不明顯。先驗知識可能會促進反應的生成,但反過來也可能會降低反應的獨創(chuàng)性。具體評分方式分析如下(見圖4)。
第一個任務要求學生想出三種節(jié)約用水的不同方法,屬于“產(chǎn)生多樣性想法”這一維度。按照這一維度的評分方式,第一步是判斷學生的回答是否“適當”,如果這個方法是實際可行且能達到節(jié)約用水的目的,那么可以判斷為是“適當”的。值得強調的是一個解決方案只要在某種程度上能夠達到節(jié)省家庭用水的目的,不管是不是最佳方案都可以被認為是“適當”的;第二步是判斷回答是否“足夠不同”,想要體現(xiàn)想法的“不同”,答題者必須在所提出的方案中使用不同的方法、工具或執(zhí)行者。同一類別的響應視為“相同”,編碼指南將包含一份盡可能詳細的常規(guī)解決方案分類表作為判斷依據(jù)。
第二個任務涉及三個維度中的“產(chǎn)生創(chuàng)造性想法”,在該任務中提到了用來獎勵用戶節(jié)約用水行為的智能手機應用程序,要求學生提出一種創(chuàng)造性的方法向潛在用戶宣傳該應用程序。按照“產(chǎn)生創(chuàng)造性想法”這一維度的評分方式,首先判斷回答是否“適當”,這項任務中的“適當”想法類似于廣告策略,其目的是可以為應用程序做推廣,若回答能達到這一目的,則可編碼為“適當”;接著是確定是否“原創(chuàng)”,評分者將參考特定任務的編碼指南,以確定學生的回答在主題或方法上是否是常規(guī)的,若屬于常規(guī)主題或常規(guī)方法,則不符合要求。這個任務的常規(guī)主題例子可以是: (1)張貼海報或廣告牌來宣傳這個應用程序;(2)播放一個電視廣告,展示干旱的負面影響及其應用。如果學生的反應可以歸類到這些常規(guī)的主題中,但采用了非常規(guī)的方法,它仍然可以被認為是原創(chuàng)的,編碼指南中提供了非常規(guī)方法的示例。
第三個任務是要求學生對應用程序提出一個原創(chuàng)的改進建議,以解決用戶保留率低的問題,這一任務涉及“評估和改進想法”這一維度。第一步仍然是判斷回答是否是“適當”的,該項目的“適當”想法需要達到能夠通過提供額外激勵來改進應用程序,讓人們長期使用此應用軟件的目的;第二步則是判斷是否為“原創(chuàng)的改進”,依據(jù)所提建議在主題或方法上的改進是否是非常規(guī)進行確定,若主題和方法都是常規(guī)的,則不符合要求,若屬于主題常規(guī),但方法原創(chuàng),仍可以被認作是“原創(chuàng)的改進”。在每一個任務中,如果回答既適當又新穎,則為滿分;回答僅僅符合適當,則部分給分;其他情況則為零分。5PISA2021創(chuàng)造性思維評分方式特點
5.1評分規(guī)定標準化
PISA2021根據(jù)創(chuàng)造性思維的表征特點,提出影響因素和表現(xiàn)形式關系模型以及能力模型,給出四領域能力測試的可行方法,基于測試重點和目標給出評價標準,共同構成操作性強的評價指標體系[10]。從三個維度切入,根據(jù)不同的領域和單元給出具體的評分方式(見圖2),并利用計算機交互式測驗來遞送測試系統(tǒng),捕捉行為數(shù)據(jù),搜集響應數(shù)據(jù)信息,進行編碼從而評分。這種方式保證了技術應用的可行性,為收集個體的反應、分析個體的表現(xiàn)提供了更便利的途徑[11]。該評價指標體系實施性強,對評分者進行適當?shù)呐嘤?,即可進行編碼響應評分操作,極大地提升了大型測評的有效性。
5.2重視評分者信度
PISA2021創(chuàng)造性思維測評主要是開放式任務,就其本質而言會對評分的信度產(chǎn)生風險。好的評分信度和可比性是PISA測評的一個主要目標,驗證編碼方法是否切實可行非常重要,這就需要在投入大規(guī)模測評之前經(jīng)過多個驗證步驟和多次經(jīng)驗檢查,來降低這一風險。評分方式是否可行顯然取決于所產(chǎn)生的編碼標準的質量,特別是要有嚴格的驗證過程,以確保評分過程中不會出現(xiàn)文化偏見。鑒于這一點,PISA將要求參與國或地區(qū)的評分者就編碼指南和標準中的內容以及語言提供反饋,并要求所有參與現(xiàn)場試驗的評分者,而不僅僅是說英語的評分者,對大量翻譯后的回答進行評分。這將揭示各國或地區(qū)在評分的寬松度方面是否存在系統(tǒng)性差異,并評估這些差異對最終得分的影響。
為了確定評分的準確性,PISA根據(jù)已有的實踐經(jīng)驗,在現(xiàn)場試驗和主調查期間,通過讓多名評分者對每個人工編碼的項目隨機選擇100個答案進行編碼,來測量“評分者間的信度”,以檢查編碼的一致性。這項研究還將跨國進行,以檢查各國或地區(qū)的系統(tǒng)評分偏差?!翱鐕u分者間的信度”是PISA2021創(chuàng)造性思維測評的一個重要設計標準,通過要求不同國家或地區(qū)的評分者對一組任務的10個回答(來自于在不同參與國或地區(qū)中真實的學生的項目回答)進行編碼,來評估“跨國或地區(qū)評分者間的信度”。編碼的可靠性不僅需要通過對一部分響應進行多重編碼,還要通過仔細監(jiān)控編碼結果來建立。在形成評分標準之前,PISA2021創(chuàng)造性思維測評項目組將組織多場現(xiàn)場測評,對評分者之間的可靠性進行驗證,以進一步確保評分的合理性。