武荷嵐 丁瑞君
(同濟大學物理科學與工程學院,上海 200092)
隨著國內(nèi)外教育的不斷發(fā)展,學習評價方式也越來越趨于多元化。尤其是在以協(xié)作學習為主的教學模式中,之前的由教師全權(quán)負責對學生進行評價的方式便不能全面快速地反映學生在整個學習過程中的具體表現(xiàn),由此,可引入同伴互評的評價方法。
同伴互評(peer assess ment)的概念,是由Topping(1998)提出,又叫同儕互評、同伴反饋等,是由學習者扮演評分者的角色,針對同伴作品給予評分與建議[1]。國內(nèi)外有不少研究者曾論述了同伴互評的優(yōu)點:(1)同伴互評可以鼓勵學習者的學習動機[2];(2)同伴互評可以提升學習者的思考能力[3];(3)同伴互評能促進學習者的自我反思并提升其交流能力[4];(4)絕大多數(shù)學生喜歡獲得同伴反饋,認為對自己是有幫助的[5];(5)學習者可以從同伴互評的結(jié)果中獲得很多靈感[6];(6)同伴互評可以提高學習者的學習成績、學習動機及解決問題能力[7]。
雖說同伴互評有上述諸多優(yōu)勢,但是任何事物都是有兩面性的。同伴互評存在的問題主要表現(xiàn)在以下幾個方面:(1)反饋的多變性;(2)缺少對同伴互評的反饋;(3)匿名同伴互評時,對反饋結(jié)果無法要求明確或澄清;(4)缺乏學習社區(qū)意識或歸屬感[8];(5)學生動機的缺乏[9]。
為了解決同伴互評在實施過程中出現(xiàn)的一系列問題,國內(nèi)外有不少研究者基于不同算法或角度設計了一系列同伴互評模型,以期能提升同伴互評的信度與效度。在國內(nèi)研究中,孫力等(2014)構(gòu)建了3種關聯(lián)復雜度不同的同伴互評過程模型。最終結(jié)果認為評分者偏差對模型實際效果的提高非常有效,而評分者可靠度對模型的實際效果影響甚微[10]。許云紅(2014)等建立了基于推薦機制的同伴互評模型,以期為學生作業(yè)匹配較為合適的評閱人,從而達到優(yōu)化互評過程并提高學習者滿意度的目的[11]。許濤(2015)從教學法和教育技術(shù)應用的角度提出了慕課學習環(huán)境下5種不同的同伴互評模型,并指出慕課環(huán)境下進行同伴互評模型設計應關注的設計原則、標準和未來研究方向[8]。何升等(2016)為了達到為作業(yè)推薦合適評閱人的目的,構(gòu)建了作業(yè)評閱人推薦模型。結(jié)果表明,算法在評閱人的工作量均衡和作業(yè)評閱人的準確推薦等方面均取得較好的效果,優(yōu)化提高了同伴互評系統(tǒng)的準確性和可靠性[12]。在國外研究中,Tenório等(2016)使用游戲元素提出游戲化的同伴互評模型,并將其運用于教學實踐,結(jié)果證實學生給出的平均成績與專家給出的大致相同,且大大降低了完成評價所需的時間與成本。在此基礎之上,使用游戲化模型后,學生提交論文的數(shù)量及評價的質(zhì)量與數(shù)量皆得到了一定程度的提升[9]。除此之外,還有不少研究者提出了基于貝葉斯網(wǎng)絡的同伴互評優(yōu)化模型[13]。
曾有研究指出,歐洲學生比亞裔學生更容易接受同伴互評,他們在互評中表現(xiàn)得比亞裔學生更自信[14]。呂林海等(2015)認為,因為教育形式的不同,中國學生的批判性思維發(fā)展顯著地滯后于西方學生[15]。且同伴互評的概念起源于國外,在國內(nèi)相當于是“舶來之品”,因為受到傳統(tǒng)文化、價值觀及教學方式等因素的影響,在國內(nèi)的應用效果亦有可能異于國外的應用效果。基于這樣的猜想,本文收集了中美兩所高校中學習大學物理課程的班的同伴互評數(shù)據(jù)(為保證數(shù)據(jù)的可比性,二者分別使用的是同一同伴互評系統(tǒng)的中文版和英文版),并對其進行比較分析,以期能對兩國學生互評效果的異同點有一個清晰明確的認識。最后,根據(jù)數(shù)據(jù)分析結(jié)果,對我國同伴互評系統(tǒng)的設計提供了一些參考建議。
本文用來研究的數(shù)據(jù)來自中美兩所高校中學生的一次同伴互評,為了體現(xiàn)對比的合理性,二者分別使用的是同一同伴互評系統(tǒng)的中文版和英文版,且皆是參與學習大學物理課程的學生。
本文使用同伴互評系統(tǒng)中的評價主要分為兩部分,一是評價量表,二是相對貢獻。評價量表包含6個等級評價題和兩個開放題,具體評價內(nèi)容如表1所示。
表1 同伴互評評價量表
續(xù)表
相對貢獻主要是對各個小組成員在協(xié)作過程中的整體表現(xiàn)進行評價,從-3至+3,共分為7個等級。各組員可對其他成員及自己的行為表現(xiàn)做出整體評價,且相對貢獻的得分會影響學生最終的互評得分。但需要說明的是,每個成員的評分之和都必須為零,且需盡量保證不出現(xiàn)全為零的情況。即有人得高分的同時,就必須有人得低分,以此來減少一些“情感分”“面子分”的情況出現(xiàn)。
Schunn等(2006)曾指出,如果每份作業(yè)讓至少4人評價,同伴互評的成績與教師的評價則具有非常高的一致性,是可靠的[16]。劉玲(2014)也認為,設定每個學生評4~5份作業(yè)比較合適[17]。所以本研究中將學生學習小組的人數(shù)定為4~5人,學生自愿組成學習小組,進行討論或完成任務。一次學習活動結(jié)束之后,各小組成員需要對組內(nèi)成員及自己進行公平合理的評價。在具體的評價過程中,各成員需先根據(jù)評價量表對各個組員的具體表現(xiàn)進行評價,只有完成這一步之后,才能對他人及自己的相對貢獻進行打分。且對于同一組的成員來說,只有所有人都完成評價且保證評價有效之后,各成員才能在系統(tǒng)中查看自己最終的評價報告。評價結(jié)束之后,研究人員通過同伴互評系統(tǒng)的后臺數(shù)據(jù)庫,對可用數(shù)據(jù)進行提取。
在收集的數(shù)據(jù)中,參與評價的中國學生為116人,分為25組,獲得的可用評價為548條,美國學生為87人,分為18組,獲得的可用評價為420條。數(shù)據(jù)的統(tǒng)計分析軟件為SPSS 12.0和Excel 2003。
首先,根據(jù)后臺數(shù)據(jù)庫所得數(shù)據(jù),筆者對兩國學生各等級評價題得分的有效率進行統(tǒng)計。有效性界定:若一條評價中所有等級評價題的得分皆相同,則視為無效。具體統(tǒng)計情況如圖1所示。
圖1 等級評價題得分有效率統(tǒng)計
由圖1可以看出,在等級評價題得分有效率的統(tǒng)計中,中國學生的有效得分只占所有評價的34.5%,而美國學生的有效得分則占86.4%。相比之下,中國學生評分的有效率還不到美國學生評分有效率的50%,可以說是非常低的。究其原因,筆者認為很有可能是因為兩國學生對待評價的態(tài)度不同,從而產(chǎn)生了不同的結(jié)果。
為進一步了解兩國學生的評價態(tài)度,筆者對后面兩個開放題中的評價數(shù)據(jù)進行了統(tǒng)計分析。統(tǒng)計的數(shù)據(jù)主要包括3個層級,即有內(nèi)容的評價、有效的評價及有針對性的評價。有內(nèi)容的評價是最低要求,即評價內(nèi)容不為空;有效的評價則有進一步的要求,即學生的評價內(nèi)容是與小組協(xié)作有關,且能表達明確的觀點,而不是其他無關內(nèi)容;有針對性的評價則是能夠達到互評要求的評價,即在保證該評價有效的基礎上,有針對性的評價各個小組成員,而不是對整體小組成員做出統(tǒng)一的評價?;谶@樣的界定,筆者分別對開放題1和開放題2的評價數(shù)據(jù)進行統(tǒng)計分析,具體結(jié)果如圖2、圖3所示。
圖2 開放題1(表現(xiàn)好的地方)
圖3 開放題2(需改進的地方)
由圖2和圖3可以看出,不管是開放題1(表現(xiàn)好的地方)還是開放題2(需改進的地方)中的評價,3個層級的評價所占總評價的比例皆是美國學生高于中國學生。在開放題1的評價中,兩國學生有內(nèi)容或有效評價的占比之差都在20%以上,且有針對性評價的占比之差超過了45%,即中國學生有針對性評價的占比只比美國學生有針對性評價占比的一半多一點。在開放題2的統(tǒng)計數(shù)據(jù)中,除中國學生有效評價的占比降低15%左右之外,其他情況與開放題1中的相差不大。
且在上面兩圖中可以發(fā)現(xiàn),美國學生的評價中,3個層級評價的占比相差并不是很大,基本在2%以內(nèi),且都在94%以上,即總體占比較高。反觀中國學生的評價,則差距較大,有內(nèi)容評價的占比與有針對性評價的占比之差皆高于20%,且總體占比皆在80%以下,有針對性評價的占比只有50%左右。
由此可見,不管是等級評價題,還是開放題,中國學生的評價質(zhì)量皆是低于美國學生的評價質(zhì)量。究其原因,一方面可能是因為兩國傳統(tǒng)文化及教學方式等因素的不同,中國學生暫時還沒有完全適應這樣的評價方式;另一方面,也有可能是因為兩國學生對同伴評價所持的態(tài)度有所不同,即中國學生需轉(zhuǎn)變現(xiàn)有的評價態(tài)度。
為使學生的最終得分(與相對貢獻得分有關)有所差異,本研究中所使用的同伴互評系統(tǒng)中,將同小組內(nèi)相對貢獻的得分之和設置為零,即零分為所有成員得分的平均分。且為保證評價的公平合理性,原則上不能使各成員的得分都為零,即相對貢獻得分全為零或得分之和不為零的評價視為無效,鑒于此,筆者首先對評價數(shù)據(jù)中相對貢獻的有效率進行統(tǒng)計,具體情況如圖4所示:
圖4 相對貢獻有效率統(tǒng)計
由圖4可以看出,就相對貢獻的有效率來說,中國學生有效評價的占比要高于美國學生,二者之差為8%左右。由此可見,在評價分數(shù)影響最終得分的情況下,中國學生的評價態(tài)度相對較好。
因為二者的有效率皆在80%以上,因此可進行進一步的對比分析。首先,筆者對兩國學生相對貢獻各分數(shù)段的得分情況進行統(tǒng)計,具體情況如圖5所示。
由圖5可以看出,在相對貢獻得分之和有明確限制的情況下,無論是中國學生還是美國學生,互評時都更傾向于給出接近平均分0的得分。但有所不同的是,美國學生的得分中,得分為平均分0的人數(shù)占比較多,緊接著則是得分為1的人數(shù)較多,而得分為3的人數(shù)則為零;而中國學生的得分中,則是得分為-1分的人數(shù)占比較多,接下來人數(shù)較多的得分為0分和1分,亦有個別人得分為3分。若按得分人數(shù)最多的一項進行比較,則美國學生的為0分,中國學生的為-1分,除這兩項之外,其他各項的得分比例相差不是很大。
接著,筆者又對相對貢獻的自評得分進行了統(tǒng)計與分析,具體情況如圖6所示。
由圖6可以看出,在自評得分中,兩國學生仍是傾向于給出接近于平均分的分數(shù),且都是0分和1分的占比較多,但可以明確的是,0分以上的占比明顯多于0分以下的占比。進一步比較可發(fā)現(xiàn),美國學生的自評得分中,仍然是得分為0的人數(shù)占比最多,而中國學生的則是得分為1分的占比最多,稍微多于得分為0的人數(shù),且有接近于20%的人給自己的分數(shù)是2分或3分,相較而言,美國學生自評時的高得分則較少。
為了進一步了解兩國學生的自他評得分情況,筆者分別統(tǒng)計了兩國學生自他評中各分數(shù)的得分率,具體情況如圖7、圖8所示。
由圖7和圖8可以看出,在兩國學生的自評與他評得分中,除美國學生得分為2分的是他評占比多于自評外,皆是得分為0分及以上的,自評占比多于他評占比,而0分以下的,則都是他評占比較多。由此可發(fā)現(xiàn),不論是美國學生還是中國學生,在參與互評時,皆傾向于給出較高的自評分數(shù)。羅恒等(2017)也指出,學生傾向給自己的作業(yè)更高分數(shù)[18]。即學生很容易高估自己對小組的相對貢獻,故很難對自己的作業(yè)或表現(xiàn)給出一個相對公正合理的評價。
圖5 相對貢獻整體得分情況對比
圖6 相對貢獻自評得分情況對比
圖7 美國學生相對貢獻自他評得分情況對比
圖8 中國學生相對貢獻自他評得分情況對比
最后,為了進一步明確兩國學生自他評得分之間的差異,筆者在SPSS中對兩國學生的自他評分數(shù)進行了配對樣本T檢驗,具體分析結(jié)果如表2所示。
表2 自他評分數(shù)配對樣本t檢驗結(jié)果
由表2可以看出,兩組數(shù)據(jù)的分析結(jié)果皆是sig<0.05,即可再次證明,兩國學生的自他評分數(shù)之間皆是存在顯著性差異的。
從理論上來說,同伴互評有較多優(yōu)勢,但是在實施的過程中,總會因為各種人為因素的影響,使其優(yōu)勢無法得到很好的體現(xiàn)??傮w來說,本文在一定程度上明確分析了同一同伴互評系統(tǒng)在中美兩國學生中應用的異同點,具體表現(xiàn)在以下幾個方面:首先,在得分沒有明確限制且不影響最終成績的情況下,中國學生評價的有效性相對較低,即評價量表的作用沒有得到很好的體現(xiàn);其次,在明確告知相對貢獻影響最終成績的情況下,中國學生評價的有效性要高于美國學生;最后,在相對貢獻得分的統(tǒng)計中,不論是中國學生還是美國學生,皆是自評得分要明顯高于他評得分,從這一點來說,兩國學生的表現(xiàn)是較為相似的。
鑒于此,筆者認為在設計適用于我國學生的同伴互評系統(tǒng)時,應注意以下幾個方面:首先,評價量表中的得分應該納入到最終成績的計算體系中,可在一定程度上提升評價的有效性;其次,若有設置開放題,可將其設置為必填,以此來提升定性評價的完成率;再次,可適當考慮對評價的評價,因為在我國學生的評價中,即使是有內(nèi)容的評價,其有效性和針對性仍需進一步提高,所以有必要對其進行合理的反饋;最后,可設計一定的算法,來降低自評成績過高所帶來的影響,即自評過高時,可以在系統(tǒng)中設置減分這樣的懲戒措施,自評與他評吻合時,設置加分獎勵措施,以此來提升學生自評與同伴互評的一致性。