亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用游戲log-file預測學生推理能力和數(shù)學成績
        ——機器學習的應用*

        2018-07-07 07:24:12符植煜
        心理學報 2018年7期
        關鍵詞:受測者步數(shù)測驗

        孫 鑫 黎 堅,2 符植煜

        (1北京師范大學心理學部; 2應用實驗心理北京市重點實驗室, 北京 100875)

        1 引言

        心理測驗(Psychological Testing)發(fā)展百余年來,已經(jīng)被廣泛應用于教育(Di Giunta et al., 2013)、企業(yè)管理(Schmidt, 2002)、臨床醫(yī)療(Judd, Schettler, &Rush, 2016)等各個領域, 并發(fā)揮重要作用。但傳統(tǒng)心理測驗具有的一些不足之處使其在應用上面臨挑戰(zhàn)。首先, 傳統(tǒng)心理測驗由于采取明顯的測驗形式, 容易令個體產(chǎn)生測驗焦慮, 而焦慮會顯著降低受測者的外在表現(xiàn), 使個體真實的能力水平被低估(Cassady & Johnson, 2002)。已有研究表明, 對測驗成績的焦慮會影響個體的注意(Keogh & French,2001)、降低工作記憶表現(xiàn)(Ikeda, Iwanaga, & Seiwa,1996)、降低智力測驗表現(xiàn)并使得問題解決更加艱難(Cassady & Johnson, 2002)。更為嚴重的是, 這種由焦慮引起的不良測驗成績會反過來作用于個體自尊, 并直接導致恐懼、防御性與逃避性行為(Hembree, 1988), 對個體的長期發(fā)展十分不利。其次, 某些經(jīng)典的心理測驗已經(jīng)被使用了很多年, 可能會導致測驗的曝光效應, 從而無法評估個體的真實水平(Bors & Vigneau, 2003)。研究表明, 測驗的頻繁使用容易被人們破解所謂的“解題秘訣”, 個體可能事先獲得題目和答案信息而使分數(shù)提高(Neisser,1997), 或通過不斷的備考和練習來提高測評結果(Bors & Vigneau, 2003), 但這并不能反映出受測者的真實水平, 反而會干擾真實的測量結果, 對測評的信效度造成污染(Neisser, 1997; Hausknecht, Halpert,Di Paolo, & Moriarty Gerrard, 2007)。

        鑒于傳統(tǒng)心理測驗存在的問題, 研究者開始考慮采用其他形式和工具對個體能力和人格特質進行評估。近年來, 隨著計算機網(wǎng)絡的發(fā)展和電子游戲的普及, 基于游戲的評估方式漸漸流行起來。

        基于游戲的評估(game-based assessment, GBA)是指:通過游戲(game)或者游戲化的活動(game-like activities), 來對某一對象進行評估(Heinzen, Landrum,Gurung, & Dunn, 2015)。從心理學的角度來說, 即采用游戲的方式, 對一個人的能力、人格等心理特性和行為進行量化評估。這里所說的游戲是指所有一般意義上的游戲, 既包括生活中諸如下棋、捉迷藏等真實游戲, 也包括模擬經(jīng)營、倫敦塔、連連看等各類平臺上的電子游戲(video game)。基于游戲的評估方法與傳統(tǒng)的心理測驗相比具有諸多優(yōu)點。首先, 將心理評估游戲化意味著我們可以跳出傳統(tǒng)紙筆測驗及其變式, 創(chuàng)造出豐富而多樣化的測驗形式和內容, 例如:視覺運動技能(visuomotor skill)的測量已經(jīng)可以通過手指與觸屏的游戲式互動來實現(xiàn)(Tenorio Delgado, Arango Uribe, Aparicio Alonso,& Rosas Díaz, 2016)。其次, 游戲的可玩性、隱蔽性和仿真性等特點使得基于游戲的評估更易被人們接受, 其測驗情境更接近于真實生活, 具有挑戰(zhàn)性和交互式的特點, 能夠極大程度地提高受測者的動機和投入程度, 并且還能通過降低社會稱許性的影響(Heinzen et al., 2015), 在一定程度上避免傳統(tǒng)心理測驗中的測驗焦慮和測驗曝光問題。此外, 全新的測驗形式意味著可以用不同以往的方式來收集數(shù)據(jù)。例如以電子游戲作為心理測評的載體, 可以通過計算機后臺記錄玩家的游戲任務操作過程(DiCerbo & Behrens, 2012)。對這些過程信息加以正確利用, 能夠讓研究者對個體的能力和特質有一個更為全面的了解, 也更有利于測驗效度的提升, 使得心理學研究的重點從“結果是什么”轉變?yōu)榉治觥霸鯓赢a(chǎn)生結果” (Greiff, Wüstenberg, & Avvisati,2015)。目前, 基于游戲的評估得到了研究者的重視,如Sonnleitner和K?stering等人分別利用基因實驗室和倫敦塔游戲任務對個體的復雜問題解決和計劃性等認知能力進行了評估(Sonnleitner et al., 2012;K?stering et al., 2015); Ventura和Baumert等人分別利用沙盒游戲和獨裁者博弈游戲任務來評估個體的堅持性、公平性和利他性等人格特質(Ventura &Shute, 2013; Baumert, Schl?sser, & Schmitt, 2014)。

        然而, 目前基于游戲的評估在應用中也存在一些問題, 還沒有在數(shù)據(jù)分析和計分邏輯中充分利用游戲的過程信息, 僅使用少數(shù)指標對某變量進行評估。例如Li, Zhang, Du, Zhu和Li (2015)通過推箱子游戲測量被試的元認知計劃, 但僅記錄并使用了第一步時間與總時間的比值, 以此作為評估指標;Berg和 Byrd (2002)在使用倫敦塔游戲測量計劃性時, 僅使用第一步移動前的時間作為評估指標。在上述研究中, 大量過程性信息被浪費, 而這些信息很可能隱藏著可以衡量個體特質或能力的指標, 如每一步思考的時間、動作的回溯等(Greiff et al.,2015), 因而無法對個體特質或能力進行全面完備的評估。

        鑒于基于游戲的評估在應用中所存在的問題,心理測評領域亟需一種有效的數(shù)據(jù)分析方法來處理這些問題, 以實現(xiàn)對個體能力和特質更為準確的評估。隨著人工智能研究的興起和發(fā)展, 機器學習已經(jīng)成為一門集挑戰(zhàn)性、實用性、價值性于一體的熱門學科, 尤其是谷歌AlphaGo在人機大戰(zhàn)中獲勝的奇跡使得機器學習成為備受矚目和極富發(fā)展前景的領域。目前, 已經(jīng)有研究者將機器學習引入心理學領域, 并應用于人格預測(Wu, Kosinski, &Stillwell, 2015)。此外, Zhang, Song, Cui, Liu和Zhu(2016)根據(jù)人類步態(tài)可作為情緒識別的依據(jù)這一原理, 設計了內置加速度傳感器的智能手環(huán), 用于測量被試的情緒狀態(tài)。研究首先對123名被試進行了情緒操縱和原始數(shù)據(jù)收集, 之后進行數(shù)據(jù)預處理和特征提取, 然后通過機器學習的方法對數(shù)據(jù)進行處理和建模, 結果發(fā)現(xiàn)機器學習的不同算法均能夠較為準確地識別情緒(快樂、中性、憤怒), 尤其是LibSVM算法在區(qū)分中性和憤怒情緒上的準確率高達 91.3%; 在進行三種情緒狀態(tài)的區(qū)分上, 也達到了81.2%的準確率。

        需要指出的是, 機器學習算法通常需要使用到大體量的數(shù)據(jù), 計算機過程數(shù)據(jù)追蹤技術——log-file為此提供了實現(xiàn)可能。所謂log-file是指包含受測者所有活動足跡的日志文件, 其優(yōu)點是能夠全面、實時地記錄全部數(shù)據(jù), 信息量豐富, 有利于后期的數(shù)據(jù)挖掘和分析(Moharil et al., 2014)。這一技術不僅實現(xiàn)了對研究變量的在線測量, 而且避免了傳統(tǒng)方法中數(shù)據(jù)收集工作耗時費力的缺陷, 可在大規(guī)模施測的同時無干擾地記錄被試的真實行為。近年來, 采用基于計算機網(wǎng)絡平臺的游戲 log-file方式對變量進行研究已經(jīng)成為心理學領域的新趨勢, 如 Sonnleitner等人(2012)開發(fā)的游戲任務, 會在計算機后臺生成 log-file文件, 但遺憾的是他們并沒有充分利用 log-file信息, 只是選取了少數(shù)幾個指標用于評估受測者的復雜問題解決能力。這其中的主要原因在于數(shù)據(jù)挖掘本身的困難。log-file數(shù)據(jù)通常變量眾多、數(shù)量巨大, 從這些數(shù)據(jù)中找出有意義的信息和關系是比較困難的(Csapó, Ainley,Bennett, Latour, & Law, 2012)。也正因為如此, 機器學習技術可以在這類研究中體現(xiàn)出獨特的優(yōu)勢, 能夠通過充分利用 log-file的信息, 建立較為復雜的模型, 實現(xiàn)更為準確的預測。

        基于上述分析, 本研究擬采用游戲任務, 并結合 log-file技術和機器學習技術, 嘗試對個體的能力傾向(aptitude)和學業(yè)成就(achievement)兩類能力進行預測, 在操作層面將以抽象推理能力和數(shù)學學習成績作為研究變量。之所以選擇這兩類能力, 是因為能力傾向和學業(yè)成績均是學生求學生涯中的重要變量, 前者能夠反映出個體在廣泛的信息加工任務中的潛能, 后者則是學習結果的主要表現(xiàn), 對學生自我概念的建構、思維能力的發(fā)展以及社會適應的培養(yǎng)等方面都具有顯著的影響(Duncan et al.,2007)。研究擬選取“推箱子”作為游戲任務。在該游戲中, 受測者需要調用其認知和元認知加工, 持續(xù)對箱子的位置和小人的移動路線進行思考, 涉及到大量的抽象推理、空間想象與操作, 以及數(shù)字運算工作, 因此, 受測者在游戲過程中的表現(xiàn)很有可能能夠反映其推理能力和數(shù)學學業(yè)成就的水平。由于從游戲 log-file中收集到的原始數(shù)據(jù)并不規(guī)范, 不能直接作為特征加入模型中, 因此需要研究者進行特征提取, 從而生成有可能反映受測者能力的特征。以往關于推箱子的研究涉及到認知能力、元認知能力、認知效率三種指標(張博, 黎堅, 徐楚, 李一茗, 2014)。本研究在選取特征時雖然也將從這三個方面進行考慮, 但會選取更多特征, 通過增加特征數(shù)量使模型的預測率更高。例如在認知能力方面,擬選取完成箱子比例、關卡是否成功等特征; 在元認知能力方面, 擬選取第一步計劃時間與總時間的比值、第一步計劃時間與平均執(zhí)行時間的比值, 以及二者的對數(shù)等特征; 在認知效率方面, 擬選取思考步數(shù)、與最優(yōu)步數(shù)之差等特征。此外, 考慮到受測者在“成功”的關卡與“失敗”的關卡中可能存在不同的表現(xiàn), 因此在特征選取時對兩種通關情況也進行了區(qū)分。

        2 方法

        研究包含4個步驟:數(shù)據(jù)采集、特征提取、數(shù)據(jù)預處理和模型訓練。

        2.1 數(shù)據(jù)采集

        2.1.1 被試

        首都師范大學第一附屬中學的395名初一和初二學生參加了研究, 有效被試為 360名, 其中女生172名, 男生188名。初一學生平均年齡為13.2歲,最小為11.9歲, 最大為15.1歲; 初二學生平均年齡為14.6歲, 最小為14.1歲, 最大為16.3歲。

        2.1.2 推箱子游戲

        推箱子(Sokoban)是一款經(jīng)典益智游戲, 由一個小人和至少1個箱子組成, 玩家需要操縱小人上下左右移動, 將箱子推入目標位置。經(jīng)過研究者對程序的改編, 計算機后臺可以自動生成 log-file文件, 記錄受測者每一步的潛伏期與按鍵動作, 例如時間節(jié)點、小人移動的方向、推動的箱子、完成步數(shù)等。游戲一共23題, 所有題目都不允許悔棋。前3題為練習題, 用于幫助受測者熟悉鍵盤操作及游戲規(guī)則。在練習題階段, 答錯可重來, 直到全部通過方可進入正式游戲。第 4~23題為正式題目, 每題限時 2 min。與練習階段不同, 正式題目只有一次機會, 若一次未通過, 則只能放棄該題。正式題目中的箱子個數(shù)在 1~3之間, 每題均有唯一最優(yōu)解。游戲界面如圖1所示。

        圖1 推箱子游戲界面截圖

        2.1.3 測量工具

        瑞文標準推理測驗(Standard Progressive Matrices,SPM; Raven, 1989):用于測量一般智力中的抽象推理能力, 共計60個條目, 每答對一題計一分, 滿分60分, 總分即為推理能力得分。在本研究的受測者中, 平均分為46.2, 標準差為8.5。

        數(shù)學成績:研究者獲得了學生的三次數(shù)學測驗的成績(期中、月考、期末), 每次數(shù)學測驗均為年級內統(tǒng)一施測, 因此在年級內具有可比性。將三次數(shù)學成績取平均值以獲得對學生數(shù)學能力較為準確的估計。本研究中, 數(shù)學成績的平均分為64.9分,標準差為19.9。

        本研究屬于機器學習中的監(jiān)督學習(supervised learning)類別, 而監(jiān)督學習分為兩種, 一是利用分類算法預測標稱型數(shù)據(jù), 二是利用回歸算法預測連續(xù)型數(shù)據(jù)。對于本研究而言, 推理能力和數(shù)學成績是連續(xù)型數(shù)據(jù), 理論上應使用回歸算法進行預測,但是回歸算法對特征數(shù)量和樣本量的要求較高, 其創(chuàng)建的模型需要擬合所有的樣本點, 當數(shù)據(jù)擁有眾多特征且特征之間的關系十分復雜時, 構建全局模型難以實現(xiàn)(Harrington, 2013)。囿于現(xiàn)實因素, 研究無法獲取更多受測者, 且眾多特征間的關系較為復雜, 堅持使用回歸算法將無法達到良好的預測效果。因此, 作為一項嘗試性研究, 本研究在數(shù)據(jù)分析中將兩個結果變量轉化為標稱型數(shù)據(jù), 具體做法是:將瑞文推理測驗得分在前 25%的學生記為 1,后 25%得分的學生記為 0, 構造瑞文得分的二分變量作為最終結果變量(即機器學習算法的標簽), 其他學生的數(shù)據(jù)不予使用, 最終有效的受測者是 180名; 將數(shù)學成績按照年級分層, 將每個年級數(shù)學成績排名前25%的學生標記為1, 后25%的學生標記為0, 構造數(shù)學成績的二分變量作為最終結果變量,其余學生的數(shù)據(jù)不予使用, 最終有效受測者也為180名。

        2.1.4 測試流程

        所有學生均以班級為單位在計算機教室參加測試。受測者首先在計算機上完成推箱子游戲任務,然后填寫紙質版的瑞文推理測驗。施測過程都由任課教師、班主任和主試一同監(jiān)督, 保證安靜、獨立作答。

        2.2 特征提取

        程序記錄的受測者順利通過某一關的典型數(shù)據(jù)形式如圖2所示。通常, 在第一步之前會有較長時間的思考, 在思考完成后則有較快的按鍵反應,在操作過程中, 偶爾會出現(xiàn)潛伏期。除了過程數(shù)據(jù)外, 程序同樣記錄了受測者在本關是否通過、有幾個箱子被移到了指定位置、受測者是否主動放棄本關、任務超時等信息。下面將對特征提取的具體方法進行說明。

        2.2.1 第一步所用時間

        由圖2可知, 受測者通常會分配較長時間在第一步之前的思考中。參照文獻, 我們計算出受測者在每一關中第一步所用時間占總時間的比重。此外,用第一步時間除以平均執(zhí)行時間(定義方法見 2.2.3)以及對上述變量取其對數(shù)形式, 構造出多個特征以進行較為全面的衡量。

        2.2.2 執(zhí)行間思考

        受測者在執(zhí)行過程中可能會停下來思考, 反映在數(shù)據(jù)中即是:在執(zhí)行過程中某一步用時較其他時間異常變高。為了反映這種波動性, 計算受測者除了第一步之后各步用時的標準差, 即執(zhí)行間波動,同時, 記錄時間超過平均值一個標準差以上的步數(shù)占總步數(shù)的比例作為受測者在執(zhí)行過程中的思考次數(shù)的指標。

        2.2.3 平均執(zhí)行時間

        剔除掉包含思考的行動后(包括第一步), 將余下的行動時間求平均。這部分時間反映了受測者在無需思考的情況下執(zhí)行操作的時間。

        2.2.4 冗余步數(shù)

        根據(jù)受測者的行動路線可以求出受測者每一步行動后的整體狀態(tài)。計算出其路徑中重復的狀態(tài)(即在兩個狀態(tài)中, 小人和所有箱子的位置完全相同)占最優(yōu)路徑中總狀態(tài)數(shù)的比例。其中, 對于一個狀態(tài)重復多次的情況只記為 1, 以避免玩家在兩個狀態(tài)間“來回踱步”產(chǎn)生誤差。

        2.2.5 與最優(yōu)路徑重合比例

        通過廣度優(yōu)先搜索算法, 可以求出每一關的最優(yōu)路徑, 并計算受測者的路徑與最優(yōu)路徑重合的比例。具體而言, 計算受測者路徑的狀態(tài)集合與最優(yōu)路徑狀態(tài)集合的交集, 計算交集占最優(yōu)路徑狀態(tài)集的比例, 同樣排除掉“來回踱步”的情況。

        2.2.6 與最優(yōu)路徑相差步數(shù)

        受測者步數(shù)與最優(yōu)步數(shù)的差異, 也作為一個指標加入模型中。

        圖2 一個典型的行動過程

        2.2.7 完成箱子的比例

        所有關卡中, 程序都會報告受測者完成的箱子數(shù)量占總箱子數(shù)量的比例, 把它作為一個特征加入到模型中。

        2.2.8 每題是否成功、放棄

        每道題有三種狀態(tài), 成功通過、放棄、超時, 用兩個二分變量來刻畫這三種情況, 并作為特征加入模型中, 即對于“是否成功”這一特征來說, 成功記為 1, 放棄記為 0, 超時記為 0; 對于“是否放棄”這一特征來說, 成功記為0, 放棄記為1, 超時記為0。

        2.3 數(shù)據(jù)預處理

        原始數(shù)據(jù)以每一關為一個觀測值, 但在訓練模型時需要以受測者為單位的觀測值。直接將長型數(shù)據(jù)轉換為寬型數(shù)據(jù), 即對于每個受測者每一關都提取出上述特征, 總共特征數(shù)是單關特征數(shù)的 20倍,這會存在以下問題:一, 由于樣本規(guī)模不大, 特征過多不利于模型訓練, 容易過擬合; 二, 同一個指標在成功和失敗兩種狀態(tài)下可能有不同的意義, 以“與最優(yōu)路徑相差步數(shù)”這一特征為例, 失敗的狀態(tài)下, 受測者的步數(shù)通常會低于最優(yōu)路徑步數(shù), 數(shù)字越大表明受測者越堅持, 而在成功的狀態(tài)下, 數(shù)字越大則反應受測者的步數(shù)偏離最優(yōu)路徑越遠。為了克服以上問題, 將上述特征均以成功與否劃分為兩組, 即對于以上每個特征, 都構造出兩類:一類用于描述該特征在成功的關卡中對推理能力和數(shù)學成績的預測能力, 另一類描述在失敗的關卡中對二者的預測能力。對于是否成功、是否放棄兩個二分變量, 直接在各組間求平均容易忽略掉每道題的難度信息, 故使用因子分析從其中提取出兩個因子作為特征用以訓練模型。因此, 模型中共放入23個特征用于訓練, 特征的描述統(tǒng)計結果見表1。

        研究者計算了上述特征與瑞文測驗成績和數(shù)學成績的相關, 結果發(fā)現(xiàn)成功組和失敗組的第一步用時/總時間、ln (第一步用時/總時間)、第一步用時/平均執(zhí)行時間、ln (第一步用時/平均執(zhí)行時間)等特征均與瑞文測驗成績和數(shù)學成績有顯著相關, 相關系數(shù)在 0.19~0.46之間。此外, 數(shù)學成績還與失敗組思考步數(shù)占比、失敗組完成箱子的比例顯著相關,相關系數(shù)分別是0.16和0.17。這些結果初步表明了本研究特征選取的有效性。

        2.4 模型訓練

        推理能力與數(shù)學成績的模型訓練策略一致, 使用基于Python 3的scikit-learning包(Pedregosa et al.,2011)提供的隨機森林模型進行訓練, 該算法是分類學習的常用算法。隨機森林(Random Forests, RF)是決策樹的集合, 利用多棵樹對樣本進行訓練和評估。該算法會重復選擇隨機樣本, 在訓練集中生成多個樣本集, 每個樣本集都會形成一棵樹, 最后根據(jù)生成的這些樹在測試集中進行評估, 投票最多的作為最終類標簽(Breiman, 2001)。

        表1 特征的描述統(tǒng)計結果

        研究中, 首先隨機劃出30%的樣本作為評估集,70%的樣本用于交叉驗證以及超參數(shù)搜索。在70%的樣本中, 使用4折交叉驗證策略將樣本再次隨機分成 4組, 依次選擇其中一組作為驗證集, 其他三組作為訓練集。在訓練集上訓練特定參數(shù)的模型,將獲得的模型在驗證集中測試, 計算模型得分。4個輪次后, 每組樣本均有3次作為訓練集, 1次作為驗證集, 將 4組中獲得的得分求平均, 為對應超參數(shù)的模型在交叉驗證組中的得分。

        隨機森林模型具有多個參數(shù)可供調整, 不同的參數(shù)設置會影響模型的擬合效果。本研究關注的主要參數(shù)為:最大特征數(shù)、最大深度、最小分裂樣本量、擬合器數(shù)量。最大特征數(shù)表示在尋找一個最優(yōu)的分裂過程中需要考慮的特征數(shù); 最大深度表示一個決策樹最大的深度, 達到該深度后即停止分裂;當一個節(jié)點上的樣本量低于最小分裂樣本量時該節(jié)點即停止分裂; 擬合器數(shù)量是指在隨機森林中的樹的數(shù)量。采用網(wǎng)格搜索的策略尋找出最優(yōu)的參數(shù),對每一種超參數(shù)組合都進行一次交叉驗證, 選擇出交叉驗證中平均得分最高的超參數(shù)組合。搜索的范圍為:最大特征數(shù)由5至16, 最小分裂樣本量由2至10, 最大深度由2至8, 擬合器數(shù)量包括5、10、50、160四種, 因此總共需要進行3024次交叉驗證。經(jīng)過 3024次交叉驗證后, 在驗證集上得分最高的超參數(shù)組合即為最優(yōu)參數(shù)組合。但是通過交叉驗證獲得的得分并不能準確評估該模型的有效性, 這是因為超參數(shù)搜索本身也相當于擬合的過程, 容易出現(xiàn)過擬合。因此對于該模型的評估需要在評估集上測試。首先, 使用獲得的最優(yōu)參數(shù), 用交叉驗證中涉及的所有 70%的樣本對隨機森林模型進行擬合,再用擬合后的模型以及評估集中的特征對推理能力分類和數(shù)學成績分類進行預測, 用預測得到的分類與真實分類作比較, 計算得分。由此得到的得分是對模型預測能力比較準確的評估。

        分類模型建立后, 可以用多種評估方式考察模型的預測效果, 主要可以分為4類:真實陽性(True Positive), 即預測為陽性且實際上也為陽性; 虛假陽性(Fake Positive), 即預測為陽性但實際上為陰性; 真實陰性(True Negative), 即預測為陰性實際上也為陰性; 虛假陰性(Fake Negative), 即預測為陰性但實際上是陽性。每種類別的表示方式如表2所示。

        表2 分類表現(xiàn)評估表

        根據(jù)上述分類可以得到最常用的指標:

        (1) 精確率(Accuracy):精確率是最為簡單、直接的一個指標, 為正確預測的觀測值數(shù)量除以總觀測值數(shù)量, 即(TP+TN)/(TP+TN+FP+FN);

        (2) 查準率(Precision, P):查準率描述在預測為陽性的樣本中, 真實陽性的比例, 即TP/(FP+TP);

        (3) 查全率(Recall, R): 查全率描述在所有實際陽性樣本中, 預測為陽性的比例, 即TP/(TP+FN);

        (4) F1:查準率與查全率兩者顯然是存在一些矛盾:追求查準率則會犧牲一些查全率, 反之亦然。F1則是查準率與查全率兩者之間較為平衡的一個指標, 公式為F1 = 2RP/(R+P)。

        在超參數(shù)搜索中, 分別以4種計分方式為目標,即對應每個計分方式均找到一個能使其最大化的超參數(shù)組合, 以滿足不同的預測需要。

        3 結果

        通過對模型的調整可以發(fā)現(xiàn)一個模型中所有特征的平均重要性, 特征重要性定義為:標準化后的特征減少的基尼不純度(Tan, Steinbach, & Kumar,2006)。圖 3顯示的是數(shù)學成績預測模型中排列前十的特征(推理能力預測模型與此類似), 可見, 第一步時間與平均執(zhí)行時間的比值取對數(shù)(成功組)在數(shù)學成績預測模型中的平均重要性最高; 第二重要的特征是從成功與否指標中通過因子分析提取出來的第一個因素; 與最優(yōu)解相差的步數(shù)、思考時間占比、執(zhí)行間波動、重復步數(shù)占比等因素均對模型有一定貢獻, 證實了研究所提取的特征的有效性。

        通過對上文所述的特征進行訓練, 所得模型在評估集上的表現(xiàn)如表3所示。第一列表示在超參數(shù)搜索時評估模型使用的標準, 即最優(yōu)化目標, 其他四列表示相應的模型在評估集上相應指標的得分。結果表明, 在超參數(shù)搜索階段采用不同的最優(yōu)化目標對結果的影響不大。用該模型預測數(shù)學成績, 能夠達到80%左右的查準率, 而F1、查全率、精確率都在70%左右; 對于推理能力的預測結果稍弱于對數(shù)學成績的預測, 平均能達到65%左右的F1, 75%左右的查準率, 60%左右的查全率, 以及 65%左右的精確率。該結果表明機器學習建立的區(qū)分模型結果尚可接受。

        4 討論

        本研究嘗試從推箱子的 log-file數(shù)據(jù)中挖掘信息, 并使用隨機森林模型預測學生的推理能力分類以及數(shù)學成績分類, 模型預測的推理能力達到了約75%的查準率以及 65%左右的精確率; 預測數(shù)學成績達到了約 80%的查準率以及 70%左右的精確率,結果說明模型預測效果尚可, 表明游戲 log-file結合機器學習能夠訓練出較好的區(qū)分模型用以預測個體的抽象推理能力和學業(yè)成就。

        4.1 過程性數(shù)據(jù)的利用

        圖3 數(shù)學成績預測模型中平均重要性排列前十位的特征

        表3 模型預測結果

        研究通過從 log-file的過程性數(shù)據(jù)中提取多個特征, 一方面部分支持了以往研究的結果, 另一方面也完善了前人研究中特征利用不充分的不足。

        首先, 本研究發(fā)現(xiàn), 計劃性指標(即第一步所用時間占全部時間的比值)在推理能力和數(shù)學成績的區(qū)分模型中均占有重要地位, 且成功組的比值大于失敗組, 說明事先計劃對于開展邏輯推理類任務至關重要。無論是在完成圖形推理題目, 還是在回答數(shù)學試題方面, 對題目或任務的計劃會在一定程度上決定最終的結果, 這與以往研究相一致(Li et al., 2015)。

        其次, 以往使用推箱子的研究沒有區(qū)分受測者在題目上成功和失敗兩種情況, 而同一特征在兩種情況下可能代表不同的含義, 這樣做會浪費特征本身具有的價值。本研究在獲取大量過程性數(shù)據(jù)的基礎上, 對特征在成功或失敗情況下進行了分解, 以便充分利用每個特征。結果發(fā)現(xiàn), 同一特征在不同情況下的貢獻確實存在差異。例如, 在數(shù)學成績預測模型中, ln (第一步用時/平均執(zhí)行時間)這個特征在成功和失敗情況下均對模型有貢獻, 但前者的貢獻要大于后者; 在模型貢獻排名前十的特征中, 失敗情況下有較強預測效果的是“與最優(yōu)步數(shù)差”、“執(zhí)行間波動”、“重復步數(shù)占比”、“與最優(yōu)路徑重合比例”等特征; 而成功情況下有較強預測效果的是“思考步數(shù)占比”、“與最優(yōu)步數(shù)差”、“l(fā)n (第一步時間/總時間)”等特征。

        4.2 機器學習算法的預測效果

        對于推理能力和數(shù)學成績這兩個結果變量來說, 使用隨機森林所建立的區(qū)分模型在預測效果上存在一定差異。具體而言, 數(shù)學成績的區(qū)分模型能夠達到 83.07%的查準率, 而對于推理能力的區(qū)分模型, 最高能達到76.11%的查準率。該結果一方面說明本研究中的隨機森林模型在查準率指標上達到了較為一致的最優(yōu)預測效果, 另一方面說明從推箱子任務中提取的現(xiàn)有特征更適用于預測數(shù)學成績。這可能是因為, 瑞文推理測驗以測量抽象推理能力為主, 相對來說對能力的要求比較單一; 但數(shù)學考題涉及的認知和元認知能力更加廣泛, 包括對數(shù)量關系的梳理、空間圖形的表征、使用策略的選擇等, 這與推箱子游戲的問題解決過程更為相似。

        在模型訓練中, 使用不同的最優(yōu)化目標會對模型預測結果產(chǎn)生一定影響。對于推理能力, 采用精確率優(yōu)先條件時會得到最高的預測查準率; 對于數(shù)學成績, 采用查準率優(yōu)先條件時會得到最高的預測查準率。說明對于不同的結果變量, 不同的最優(yōu)化指標會產(chǎn)生不同的結果, 基本不存在可以同時適用于多個變量的模型。在不同的模型中, 參數(shù)、最優(yōu)化指標會有所不同, 最后的結果也會呈現(xiàn)一定的差異。機器學習的好處就是可以通過不斷的調配參數(shù)來獲取對結果變量最為有效的預測性, 選擇具有最優(yōu)預測效果的模型。

        4.3 游戲log-file和計算機技術在心理測量中的應用

        隨著信息技術的發(fā)展, 計算機過程數(shù)據(jù)分析技術(computer logfiles analysis)在心理測量領域的地位不斷提升。計算機過程數(shù)據(jù)分析技術是指通過追蹤、分析受測者在計算機上完成任務過程中的操作行為、操作時間等信息來提取測量指標(Veenman,Bavelaar, De Wolf, & van Haaren, 2014)。該技術相較于傳統(tǒng)的技術有諸多顯而易見的優(yōu)點。首先, 傳統(tǒng)的測量方法基于被試的自我報告, 或者基于主試對于被試行為的編碼, 而過程數(shù)據(jù)的分析依賴于客觀指標, 能夠更好地實現(xiàn)標準化(Veenman, Wilhelm, &Beishuizen, 2004); 其次, 傳統(tǒng)的測量方法, 尤其是在測量認知能力時, 會有較強的侵入性, 如觀察、出聲思考技術(Pressley & Afflerbach, 1995)等, 在這些條件下受測者完成任務的能力一定程度上會受到影響; 而過程數(shù)據(jù)分析則不具有侵入性, 受測者完成任務的過程中不會受到打擾, 能夠在最自然地狀態(tài)下表現(xiàn)(Veenman et al., 2014); 最后, 過程分析技術成本較低, 可以對多個受測者同時施測, 數(shù)據(jù)分析通過計算機自動化完成, 因此相較于傳統(tǒng)的測量技術如出聲思考法以及眼動追蹤技術(Kinnunen& Vauras, 1995)等更加省時。由于大量的過程數(shù)據(jù)無法用傳統(tǒng)統(tǒng)計方法進行分析, 因而需要機器學習算法的引入和使用。這些優(yōu)點使得游戲log-file、計算機過程數(shù)據(jù)分析技術、機器學習將在未來得到更多的發(fā)揮空間。

        4.4 研究意義與局限性

        研究利用推箱子游戲獲取的 log-file信息, 并使用機器學習算法, 建立了較為有效的區(qū)分模型, 初步實現(xiàn)了對學生的能力傾向和學業(yè)成就的預測, 結果可以為其他心理學和教育學的測評工作提供借鑒。

        同時, 本研究也存在一定局限性。首先, 特征提取和模型建立過程的樣本僅包含測驗得分排在前25%與后25%的受測者, 兩個群體間能力差異較大, 在這種情況下, 80%的查準度并不完美, 并且如果未來的研究目標轉化為對連續(xù)變量進行預測時, 預測的難度會進一步提高; 其次, 雖然目前基于推箱子游戲的過程數(shù)據(jù)建立的模型可以較好地預測個體在瑞文推理測驗和數(shù)學測驗上是否成功,但實際上我們對推箱子這一游戲任務本身到底涉及到哪些認知加工過程并不完全清楚, 因此并不能直接用模型預測的分數(shù)代替瑞文推理測驗成績或數(shù)學測驗成績。在之后的研究中, 可以考慮從以下幾個方面進行改進。第一, 增大樣本量。由于本研究在模型訓練中使用的樣本量低于 200, 為了避免過擬合, 必須減少特征數(shù)量, 因而限制了模型的擬合能力。未來研究如果能夠收集到足夠大的樣本量,則可以使用更多的特征, 從而提高模型的預測能力。第二, 增大受測者在所預測能力上的異質性。本研究采用的樣本均來自于同一所中學, 受測者的抽象推理能力相對來說具有較強的同質性, 這將增大模型預測的難度。未來研究如果能在不同的地區(qū)(城市、農村)、不同水平的學校(重點、普通)取樣, 也可能會提高模型的預測能力。第三, 提取更多的特征并嘗試其他算法。相對于以往研究, 本研究從推箱子游戲的過程數(shù)據(jù)中提取了更多樣化的指標, 包括重復狀態(tài)比例、思考次數(shù)等, 但log-file中仍有很多信息可以被挖掘。未來的研究可以嘗試提取和檢驗更多的特征, 并可考慮采用機器學習中的回歸算法對能力傾向和學業(yè)成就進行預測。第四, 相對于瑞文推理測驗任務, 推箱子游戲任務所包含的認知加工過程更加多樣化, 更具動態(tài)性, 未來研究可以考慮結合眼動或者fMRI技術對這一游戲任務所涉及的心理加工過程進行更深入的考察, 從而指導研究者構造出更多有實質意義的特征, 為能力的個體差異的預測提供更有價值的預測源, 甚至通過機器學習建模來替代某些傳統(tǒng)能力測量工具。

        5 結論

        (1) 可以利用游戲 log-file收集受測者在任務中的過程性數(shù)據(jù), 并利用機器學習算法進行分析。

        (2) 機器學習建立的區(qū)分模型對數(shù)學成績和推理能力具有較好的預測效果, 利用電腦所記錄的游戲過程數(shù)據(jù)可以對個體的能力進行較為有效的預測。

        參 考 文 獻

        Baumert, A., Schl?sser, T., & Schmitt, M. (2014). Economic games: A performance-based assessment of fairness and altruism.European Journal of Psychological Assessment,30(3), 178–192.

        Berg, W. K., & Byrd, D. L. (2002). The Tower of London spatial problem-solving task: Enhancing clinical and research implementation.Journal of Clinical and Experimental Neuropsychology, 24(5), 586–604.

        Bors, D. A., & Vigneau, F. (2003). The effect of practice on Raven's Advanced Progressive Matrices.Learning and Individual Differences, 13(4), 291–312.

        Breiman, L. (2001). Random forests.Machine Learning, 45(1),5–32.

        Cassady, J. C., & Johnson, R. E. (2002). Cognitive test anxiety and academic performance.Contemporary Educational Psychology, 27(2), 270–295.

        Csapó, B., Ainley, J., Bennett, R. E., Latour, T., & Law, N.(2012). Technological issues for computer-based assessment.In P. Griffin, B. McGaw, & E. Care (Eds.),Assessment and teaching of 21st century skills(pp. 143–230). Dordrecht:Springer.

        DiCerbo, K. E., & Behrens, J. T. (2012). Implications of the digital ocean on current and future assessment. In R. W.Lissitz & H. Jiao (Eds.),Computers and their impact on state assessments: Recent history and predictions for the future(pp. 273–306). Charlotte, NC: Information Age Publishing.

        Di Giunta, L., Alessandri, G., Gerbino, M., Kanacri, P. L.,Zuffiano, A., & Caprara, G. V. (2013). The determinants of scholastic achievement: The contribution of personality traits, self-esteem, and academic self-efficacy.Learning and Individual Differences, 27, 102–108.

        Duncan, G. J., Dowsett, C. J., Claessens, A., Magnuson, K.,Huston, A. C., Klebanov, P., ... Japel, C. (2007). School readiness and later achievement.Developmental Psychology,43(6), 1428–1446.

        Greiff, S., Wüstenberg, S., & Avvisati, F. (2015).Computer-generated log-file analyses as a window into students' minds? A showcase study based on the PISA 2012 assessment of problem solving.Computers & Education,91, 92–105.

        Harrington, P. (2013).Machine learning in action(R. Li, P. Li,Y. D. Qu, & B. Wang, Trans.). Beijing, China: Posts &Telecom Press.

        [Harrington, P. (2013). 機器學習實戰(zhàn) (李銳, 李鵬, 曲亞東,王斌 譯). 北京: 人民郵電出版社.]

        Hausknecht, J. P., Halpert, J. A., Di Paolo, N. T., & Moriarty Gerrard, M. O. (2007). Retesting in selection: A metaanalysis of coaching and practice effects for tests of cognitive ability.Journal of Applied Psychology, 92(2), 373–385.

        Heinzen, T. E., Landrum, R. E., Gurung, R. A. R., & Dunn, D.S. (2015). Game-based assessment: The mash-up we've been waiting for. In T. Reiners & L. C. Wood (Eds.),Gamification in education and business(pp. 201–217).Switzerland: Springer International Publishing.

        Hembree, R. (1988). Correlates, causes, effects, and treatment of test anxiety.Review of Educational Research, 58(1),47–77.

        Ikeda, M., Iwanaga, M., & Seiwa, H. (1996). Test anxiety and working memory system.Perceptual and Motor Skills,82(3), 1223–1231.

        Judd, L. L., Schettler, P. J., & Rush, A. J. (2016). A brief clinical tool to estimate individual patients’ risk of depressive relapse following remission: Proof of concept.American Journal of Psychiatry, 173(11), 1140–1146.

        Keogh, E., & French, C. C. (2001). Test anxiety, evaluative stress, and susceptibility to distraction from threat.European Journal of Personality, 15(2), 123–141.

        Kinnunen, R., & Vauras, M. (1995). Comprehension monitoring and the level of comprehension in high-and low-achieving primary school children's reading.Learning and Instruction,5(2), 143–165.

        K?stering, L., Schmidt, C. S. M., Egger, K., Amtage, F., Peter,J., Kl?ppel, S., ... Kaller, C. P. (2015). Assessment of planning performance in clinical samples: Reliability and validity of the Tower of London task (TOL-F).Neuropsychologia, 75,646–655.

        Li, J., Zhang, B., Du, H., Zhu, Z., & Li, Y. M. (2015).Metacognitive planning: Development and validation of an online measure.Psychological Assessment, 27(1), 260–271.

        Moharil, B., Gokhale, C., Ghadge, V., Tambvekar, P., Pundlik, S.,& Rai, G. (2014). Real time generalized log file management and analysis using pattern matching and dynamic clustering.International Journal of Computer Applications, 91(16),1–6.

        Neisser, U. (1997). Rising scores on intelligence tests: Test scores are certainly going up all over the world, but whether intelligence itself has risen remains controversial.American Scientist, 85(5), 440–447.

        Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V.,Thirion, B., Grisel, O., ... Duchesnay, é. (2011).Scikit-learn: Machine learning in python.Journal of Machine Learning Research, 12, 2825–2830.

        Pressley, M., & Afflerbach, P. (1995).Verbal protocols of reading: The nature of constructively responsive reading.Hillsdale, N.J.: Erlbaum.

        Raven, J. (1989). The raven progressive matrices: A review of national norming studies and ethnic and socioeconomic variation within the united-states.Journal of Educational Measurement, 26(1), 1–16.

        Schmidt, F. L. (2002). The role of general cognitive ability and job performance: Why there cannot be a debate.Human Performance, 15(1–2), 187–210.

        Sonnleitner, P., Brunner, M., Greiff, S., Funke, J., Keller, U.,Martin, R., ... Latour, T. (2012). TheGenetics Lab:Acceptance and psychometric characteristics of a computerbased microworld assessing complex problem solving.Psychological Test and Assessment Modeling, 54(1), 54–72.

        Tan, P. N., Steinbach, M., & Kumar, V. (2006).Introduction to data mining. India: Pearson Education.

        Tenorio Delgado, M., Arango Uribe, P., Aparicio Alonso, A.,& Rosas Díaz, R. (2016). TENI: A comprehensive battery for cognitive assessment based on games and technology.Child Neuropsychology, 22(3), 276–291.

        Veenman, M. V. J., Wilhelm, P., & Beishuizen, J. J. (2004).The relation between intellectual and metacognitive skills from a developmental perspective.Learning and Instruction,14(1), 89–109.

        Veenman, M. V. J., Bavelaar, L., De Wolf, L., & van Haaren,M. G. P. (2014). The on-line assessment of metacognitive skills in a computerized learning environment.Learning and Individual Differences, 29, 123–130.

        Ventura, M., & Shute, V. (2013). The validity of a game-based assessment of persistence.Computers in Human Behavior,29(6), 2568–2572.

        Wu, Y. Y., Kosinski, M., & Stillwell, D. (2015). Computerbased personality judgments are more accurate than those made by humans.Proceedings of the National Academy of Sciences of the United States of America, 112(4), 1036–1040.

        Zhang, B., Li, J., Xu, C., & Li, Y. M. (2014). The developmental differences of problem solving ability between intellectuallygifted and intellectually-average children aged from 11-14 years old.Acta Psychologica Sinica, 46, 1823–1834.

        [張博, 黎堅, 徐楚, 李一茗. (2014). 11~14歲超常兒童與普通兒童問題解決能力的發(fā)展比較.心理學報, 46, 1823–1834.]

        Zhang, Z., Song, Y. F., Cui, L. Q., Liu, X. Q., & Zhu, T. S.(2016). Emotion recognition based on customized smart bracelet with built-in accelerometer.PeerJ, 4, e2258.

        猜你喜歡
        受測者步數(shù)測驗
        速度和步數(shù),哪個更重要
        怒氣沖沖 或因睡不好
        楚國的探索之旅
        奇妙博物館(2021年4期)2021-05-04 08:59:48
        新媒體科研環(huán)境下自發(fā)式科研協(xié)同行為機制研究
        微信運動步數(shù)識人指南
        小演奏家(2018年9期)2018-12-06 08:42:02
        《新年大測驗》大揭榜
        趣味(語文)(2018年7期)2018-06-26 08:13:48
        兩個處理t測驗與F測驗的數(shù)學關系
        考試周刊(2016年88期)2016-11-24 13:30:50
        你知道嗎?
        少年科學(2014年10期)2014-11-14 07:38:17
        淘寶排行榜
        你知道嗎
        少年科學(2009年12期)2009-07-07 07:05:10
        综合成人亚洲网友偷自拍| 精品久久久久久国产| 人妻无码在线免费| 亚洲国产成人精品91久久久| 日本久久一级二级三级| 亚洲综合中文日韩字幕| 老鸭窝视频在线观看| 欧美bbw极品另类| 亚洲欧洲日产国码无码AV一| 日韩色久悠悠婷婷综合| 国产一区二区三区仙踪林| 亚洲欧洲成人a∨在线观看| 天天鲁在视频在线观看| 国产v视频| 一区二区亚洲 av免费| 少妇被粗大猛进进出出男女片| 国产精品久久久爽爽爽麻豆色哟哟| 久久精品国产亚洲av电影网| 亚洲永久无码动态图| 人妻无码在线免费| 九九久久精品一区二区三区av | 尤物成av人片在线观看| 中文字幕乱码亚洲一区二区三区| 国产午夜激无码av毛片不卡| 亚洲日韩精品无码专区网站| 国产成人美女AV| 精品国产日产av在线| 一区二区三区最新中文字幕| 欧美性猛交xxxx富婆| 久久久久亚洲AV无码专| 中文字幕人妻在线少妇完整版| 国产av一级黄一区二区三区| 国产成人精品无码一区二区老年人| 精品国产高清一区二区广区| 中文字幕亚洲视频三区| 亚洲日韩小电影在线观看| 国产无人区码一码二码三mba| 一区二区精品| 一区二区三区人妻在线| 亚洲日本国产精品久久| 亚洲国产精品va在线播放|