亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)化項(xiàng)目生成及其在教育與心理測評中的應(yīng)用

        2022-03-29 12:41:02孫婷婷
        考試研究 2022年2期
        關(guān)鍵詞:語義深度模型

        孫婷婷 楊 濤

        項(xiàng)目質(zhì)量是測評分?jǐn)?shù)效度解釋的有力證據(jù),任何考試評價(jià)的實(shí)現(xiàn)都需要研發(fā)高質(zhì)量的測評項(xiàng)目,以求能對考生某一領(lǐng)域知識(shí)能力的真實(shí)情況有較為精準(zhǔn)的測量和解釋[1]。傳統(tǒng)的項(xiàng)目開發(fā)一直由人工編寫,耗時(shí)耗力成本高,且容易受到項(xiàng)目編寫者的主觀影響[2-3]。高效、客觀地開發(fā)和維護(hù)高質(zhì)量的項(xiàng)目或題庫,一直是教育與心理測評研究的重要領(lǐng)域[4]。

        自動(dòng)化項(xiàng)目生成(Automatic Item Generation,AIG)是隨著計(jì)算機(jī)技術(shù)發(fā)展而逐漸興起的,指計(jì)算機(jī)根據(jù)項(xiàng)目開發(fā)者或者自適應(yīng)施測程序的要求,在項(xiàng)目生成算法的指導(dǎo)下,即時(shí)自動(dòng)地生成符合指定項(xiàng)目參數(shù)的項(xiàng)目[5-7]。計(jì)算機(jī)技術(shù)在AIG 的算法實(shí)現(xiàn)上十分重要,它能夠幫助測驗(yàn)開發(fā)者省時(shí)省力地開發(fā)出大量高質(zhì)量項(xiàng)目,并在組卷階段實(shí)現(xiàn)智能化組卷[8]。

        AIG能有效提升項(xiàng)目編寫的客觀性,并在應(yīng)對項(xiàng)目曝光問題上非常具有前景[9],符合計(jì)算機(jī)化自適應(yīng)測評以及大規(guī)模測評對題庫建設(shè)和優(yōu)化的需求[10]。近年來人工智能技術(shù)的廣泛應(yīng)用,使AIG 在項(xiàng)目生成的技術(shù)算法上有了新進(jìn)展。本文將梳理AIG 的主要方法及其在教育與心理測評中的相關(guān)應(yīng)用,并在此基礎(chǔ)上總結(jié)AIG的發(fā)展現(xiàn)狀和未來研究挑戰(zhàn)。

        一、自動(dòng)化項(xiàng)目生成的方法類型

        AIG 的發(fā)展已有六十多年,傳統(tǒng)的測評項(xiàng)目開發(fā)理論為AIG 的快速發(fā)展奠定了基礎(chǔ)。2006 年,Haladyna 和Downing[11]在《測試開發(fā)手冊》(Handbook of Test Development)中總結(jié)了測試開發(fā)(Test Development)的12 步驟流程,依次是:總體計(jì)劃、內(nèi)容定義、測試形式、項(xiàng)目開發(fā)、測試設(shè)計(jì)和組織、組卷、測試實(shí)施、作答評分、標(biāo)準(zhǔn)劃定、測試結(jié)果報(bào)告、題庫建設(shè)、技術(shù)報(bào)告。Irvine 和Kyllonen 也提出項(xiàng)目生成主要包括測評設(shè)計(jì)、項(xiàng)目設(shè)計(jì)及編寫、試題的測量學(xué)參數(shù)估計(jì)、測評分?jǐn)?shù)的評價(jià)標(biāo)準(zhǔn)設(shè)定、試題組裝五個(gè)主要方面[12]。在AIG 過程中,測驗(yàn)開發(fā)者和學(xué)科專家需要在確定測評內(nèi)容和形式、項(xiàng)目設(shè)計(jì)和項(xiàng)目開發(fā)上兼顧構(gòu)念效度和認(rèn)知需求,即內(nèi)容方面的知識(shí)、技能、策略和認(rèn)知能力方面的認(rèn)知任務(wù)等。

        項(xiàng)目編寫首先根據(jù)測評的測量構(gòu)念(construct)確定考查的知識(shí)能力,進(jìn)而根據(jù)考查的特定內(nèi)容生成具體的項(xiàng)目描述。最早的項(xiàng)目設(shè)計(jì)與編寫被認(rèn)為是部分科學(xué)部分藝術(shù)的主觀行為,而AIG基于計(jì)算機(jī)技術(shù)自動(dòng)化地生成項(xiàng)目,為項(xiàng)目編寫的客觀性提供了一定支持[13],在項(xiàng)目設(shè)計(jì)和生成方法上體現(xiàn)出其跨學(xué)科的特性。AIG 主要方法包括:(1)內(nèi)容優(yōu)先的AIG,以項(xiàng)目內(nèi)容和測量構(gòu)念驅(qū)動(dòng)項(xiàng)目設(shè)計(jì)和生成,如項(xiàng)目模型法(Item Model)和認(rèn)知設(shè)計(jì)系統(tǒng)法(Cognitive Design System Approach,CDS);(2)技術(shù)優(yōu)先的AIG,以技術(shù)的算法化和自動(dòng)化程度驅(qū)動(dòng)項(xiàng)目設(shè)計(jì)和生成,如語義分析法和深度學(xué)習(xí)法(Deep Learning,DL)。

        (一)內(nèi)容優(yōu)先的項(xiàng)目設(shè)計(jì)方法

        1.項(xiàng)目模型法

        1968 年Osburn 首次提出了項(xiàng)目形式法(Item Forms)[14],用來生成有固定句法結(jié)構(gòu)的項(xiàng)目。項(xiàng)目形式法認(rèn)為一個(gè)句子中有很多可變化的元素,通過對這些元素進(jìn)行分類,并且限定與之相對應(yīng)的替代元素,便可生成很多類似的項(xiàng)目[15]。

        在項(xiàng)目形式法基礎(chǔ)上,項(xiàng)目模型法逐漸發(fā)展起來,又稱項(xiàng)目模板法(Template),是指將經(jīng)過心理測量學(xué)檢驗(yàn)且指標(biāo)良好的項(xiàng)目作為項(xiàng)目模板(也稱項(xiàng)目原型或框架,Item Model,Template,Item Shell),通過改變和替換與問題解決難度無關(guān)的描述,組合形成多個(gè)新項(xiàng)目的過程[16-18]。項(xiàng)目模型法實(shí)際上也可看作是生成多個(gè)同構(gòu)異形項(xiàng)目的過程,生成的所有項(xiàng)目稱為項(xiàng)目集(Item Family),項(xiàng)目集中的項(xiàng)目在實(shí)質(zhì)內(nèi)容和心理測量學(xué)屬性上趨于一致[2,19-20]。

        圖1 是一個(gè)用于自動(dòng)化生成選擇題的項(xiàng)目模型示例:在項(xiàng)目模型中,選擇題可分為題干、選項(xiàng)和輔助信息,對題干中可替換的元素進(jìn)行編碼,并對元素的取值范圍做出限定,與之相對應(yīng)的選項(xiàng)也可替換成編碼。Gierl、Lai 和Turner[16]進(jìn)一步提出項(xiàng)目模型的分類(Item Model Taxonomy),對題干和選項(xiàng)進(jìn)行分類,使選擇題的自動(dòng)化生成更加豐富多樣,如表1所示。根據(jù)題干與選項(xiàng)之間的關(guān)聯(lián)程度,題干可分為:(1)獨(dú)立元素——編碼的元素是任意獨(dú)立的,可變化的;(2)相關(guān)元素——受到其他元素的約束和影響;(3)混合元素——獨(dú)立元素與相關(guān)元素同時(shí)存在;(4)固定元素——元素內(nèi)容是固定不變的。選項(xiàng)可分為:(1)隨機(jī)選擇的選項(xiàng)——任意的選項(xiàng);(2)受約束的選項(xiàng)——受到題干內(nèi)容影響的選項(xiàng);(3)固定選項(xiàng)——固定不變的選項(xiàng)。

        表1 項(xiàng)目模型分類法②轉(zhuǎn)譯自Gierl M J,Lai H,Turner S R.Using Automatic Item Generation to Create Multiple-choice Test Items [J].Medical Education,2012,46(8):757-765.

        圖1 項(xiàng)目模型示例①轉(zhuǎn)譯自Gierl M J,Zhou J,Alves C.Developing a Taxonomy of Item Model Types to Promote Assessment Engineering[J].Journal of Technology,Learning,and Assessment,2008,7(2):51.該項(xiàng)目模型示例無圖、表等輔助信息說明。

        根據(jù)項(xiàng)目設(shè)計(jì)生成具體項(xiàng)目的過程叫做項(xiàng)目克?。↖tem Cloning)[20-21],實(shí)現(xiàn)項(xiàng)目克隆的軟件或程序載體稱為項(xiàng)目生成器(Item Generator)。IGOR 是項(xiàng)目模型法AIG 中較為系統(tǒng)的項(xiàng)目生成器[22],其他多為自編算法程序[23]。由于項(xiàng)目模型法的適用性更強(qiáng),一直在AIG 研究和應(yīng)用中占據(jù)主導(dǎo)地位,大多數(shù)的項(xiàng)目生成方法都可以被納入項(xiàng)目模型法的范疇。

        2.認(rèn)知設(shè)計(jì)系統(tǒng)法

        早期的項(xiàng)目模型法主要考慮項(xiàng)目的形式結(jié)構(gòu)特征,缺乏對項(xiàng)目的測量內(nèi)容建構(gòu)。1994年,Embretson提出認(rèn)知設(shè)計(jì)系統(tǒng)法[24-25],較好地彌補(bǔ)了這一缺陷,提升了AIG的系統(tǒng)性。

        CDS 是理論驅(qū)動(dòng)的項(xiàng)目生成,基本思想是通過認(rèn)知實(shí)驗(yàn)研究,確定某一認(rèn)知領(lǐng)域的核心能力和任務(wù)解決的關(guān)鍵特征,建立認(rèn)知模型并且檢驗(yàn)?zāi)P偷男睦頊y量學(xué)特征,區(qū)別影響任務(wù)解決的基本成分和隨機(jī)成分?;境煞质侵笇θ蝿?wù)解決有顯著影響的項(xiàng)目刺激特征,隨機(jī)成分則是指可以替換的、對任務(wù)解決沒有顯著影響的項(xiàng)目刺激特征[2,6,18,25]。

        表2 呈現(xiàn)了CDS 項(xiàng)目生成的基本流程[25]。可以看出,Embretson在20世紀(jì)末對CDS的理論建構(gòu)十分體系化,在項(xiàng)目生成器的開發(fā)方面,提出未來或許能夠與人工智能方向相結(jié)合,借助人工智能技術(shù)大規(guī)模生成符合測評設(shè)計(jì)的項(xiàng)目。

        表2 認(rèn)知設(shè)計(jì)系統(tǒng)的項(xiàng)目生成流程③摘譯自Embretson S E.A Cognitive Design System Approach to Generating Valid Tests:Application to Abstract Reasoning[J].Psychological methods,1998,3(3):380.

        (二)技術(shù)優(yōu)先的項(xiàng)目設(shè)計(jì)方法

        項(xiàng)目生成的算法化和自動(dòng)化程度是AIG 客觀性和效率性體現(xiàn)的關(guān)鍵,而人類自然語言又是通過字、詞、短語和句的銜接關(guān)系表達(dá)完整的意義,是具有序列關(guān)系的數(shù)據(jù)。實(shí)現(xiàn)自動(dòng)化的項(xiàng)目生成,即是理解自然語言、構(gòu)造語言模型和生成自然語言的過程[26]。

        當(dāng)前AIG 有兩種自然語言處理(Natural Language Processing,NLP)方式:一是基于語言規(guī)則的語義分析,即邏輯規(guī)則的語言建模,考慮字或詞的形態(tài)、語法和語義;二是基于大量語料的統(tǒng)計(jì)建模,目標(biāo)是在給定的文本數(shù)據(jù)上下文中預(yù)測下一個(gè)出現(xiàn)的字或詞,即深度學(xué)習(xí),現(xiàn)實(shí)世界中語音識(shí)別或機(jī)器翻譯系統(tǒng)的語言建模都是建立在大數(shù)據(jù)的基礎(chǔ)上[26]。

        1.語義分析法

        語義分析法在理解和分析原有項(xiàng)目的語法、詞匯、句子結(jié)構(gòu)和功能的基礎(chǔ)上,提煉和設(shè)計(jì)規(guī)則來生成項(xiàng)目。已有研究包括采用框架語義學(xué)、詞匯功能語法和關(guān)鍵概念提取等技術(shù)自動(dòng)化生成項(xiàng)目。

        2003 年Deane 和Sheehan[27]首次提出將自然語言生成(Natural Language Generation,NLG)技術(shù)應(yīng)用到AIG 中,以框架語義學(xué)(Frame Semantics)為指導(dǎo),自動(dòng)化生成數(shù)學(xué)代數(shù)應(yīng)用題,探討了結(jié)合NLG 的自動(dòng)化項(xiàng)目生成過程。如圖2所示,將空格缺失部分按照固定的語義功能定義為“交通工具”和“整數(shù)”,便可在“交通工具”處使用各種各樣的交通工具作為替換內(nèi)容,在“整數(shù)”處填入不同的整數(shù)作為替換。如此,便可自動(dòng)化生成大量同類型的項(xiàng)目。

        圖2 框架語義分析示例①轉(zhuǎn)譯自Deane P,Sheehan K.Automatic Item Generation Via Frame Semantics:Natural Language Generation of Math Word Problems[J].2003.

        2016年Huang和He[28]采用詞匯功能語法,實(shí)現(xiàn)了中國大學(xué)英語四級(jí)測試(CET-4)閱讀理解填空題的自動(dòng)生成。其實(shí)證研究結(jié)果表明,自然語言處理技術(shù)能夠有效提高AIG生成項(xiàng)目的信效度和多樣化,并建議后續(xù)研究可采用更好的項(xiàng)目生成框架設(shè)計(jì)。

        Wesiak等人[29]開發(fā)的EAQC項(xiàng)目生成器(Enhanced Automatic Question Creator,EAQC)則是基于文本篇章的關(guān)鍵概念提?。–oncept Extraction)。即設(shè)計(jì)算法從文本材料中提取最重要的概念以及概念之間的關(guān)系,根據(jù)關(guān)鍵概念生成項(xiàng)目的題干和參考答案,如單選題、判斷正誤題、填空題和開放性回答題,測驗(yàn)開發(fā)者可選擇使用哪個(gè)概念來生成項(xiàng)目,并且選擇生成什么類型的項(xiàng)目。2016 年Smadi、Hoefler 和Guetl[30]進(jìn)一步對EAQC 概念提取的精確度和生成項(xiàng)目的真實(shí)性進(jìn)行研究,并與人工提取的概念和生成的項(xiàng)目進(jìn)行對比,實(shí)證研究結(jié)果表明,EAQC提取的概念和生成的項(xiàng)目與人工提取和生成相差無異,在概念提取層面,EAQC的結(jié)果要好于人工提?。辉陧?xiàng)目生成層面,EAQC的項(xiàng)目沒有人工編寫的項(xiàng)目變化多樣。

        2.深度學(xué)習(xí)法

        深度學(xué)習(xí)是多種深度神經(jīng)網(wǎng)絡(luò)模型的總稱,起源于大數(shù)據(jù)和人工神經(jīng)網(wǎng)絡(luò)的研究[26],人工神經(jīng)網(wǎng)絡(luò)的提出是基于機(jī)器對大數(shù)據(jù)的篩選過濾和分類。深度學(xué)習(xí)基于分布式表征學(xué)習(xí)的假設(shè),即允許機(jī)器從原始數(shù)據(jù)中自動(dòng)化地學(xué)習(xí)和表征數(shù)據(jù)的特征,這種學(xué)習(xí)和表征是由低到高多層次的、逐漸抽象的和非線性的[31]。這些特征不是由人類的思維方式和工程設(shè)計(jì)的,而是從數(shù)據(jù)中學(xué)習(xí),尤其是對多維數(shù)據(jù)的復(fù)雜結(jié)構(gòu)學(xué)習(xí),這一優(yōu)勢特點(diǎn)使得深度學(xué)習(xí)在計(jì)算機(jī)視覺和自然語言處理等諸多領(lǐng)域取得很好成果[26]。

        遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是深度學(xué)習(xí)語言建模應(yīng)用最廣泛的模型[26,32]。RNN通過一步一步地處理真實(shí)的(時(shí)間)序列數(shù)據(jù)并預(yù)測接下來會(huì)發(fā)生什么來訓(xùn)練序列生成,體現(xiàn)了序列中接近的數(shù)據(jù)點(diǎn)之間的相關(guān)性[26]。預(yù)測的假設(shè)是概率性的,通過從神經(jīng)網(wǎng)絡(luò)的輸出分布中迭代采樣,然后將樣本作為下一步的輸入,從訓(xùn)練好的網(wǎng)絡(luò)中生成新的序列,即讓神經(jīng)網(wǎng)絡(luò)把它的訓(xùn)練發(fā)現(xiàn)當(dāng)作是真實(shí)的,根據(jù)訓(xùn)練的模式生成新的文本[33]。RNN 本身是確定性的,抽樣注入的隨機(jī)性使輸出結(jié)果產(chǎn)生了序列上的分布,這種分布又因神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)依賴于以前的輸入,因而是有條件的分布。

        圖3 給出了一個(gè)基本的帶有延遲線的RNN 結(jié)構(gòu),并在時(shí)間上展開了兩個(gè)時(shí)間點(diǎn)的步長[26]。在這種結(jié)構(gòu)中,輸入向量被一次一個(gè)地輸入到RNN 中,且RNN 利用當(dāng)前時(shí)間點(diǎn)的訓(xùn)練結(jié)構(gòu)預(yù)測。一個(gè)特定的RNN 能捕獲多少信息取決于它的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練算法[33]。

        圖3 RNN展開圖①轉(zhuǎn)譯自LeCun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015,521(7553):436-444.

        RNN 多用于文本生成[33]、機(jī)器翻譯[34-35]、語音識(shí)別[36-37]、時(shí)序預(yù)測[38-39]等領(lǐng)域的研究和應(yīng)用。中文自然語言處理相關(guān)研究有陳謙[40]基于神經(jīng)網(wǎng)絡(luò)對自然語言的語義表征方法進(jìn)行研究;王哲[41]提出了基于規(guī)劃的詩歌生成模型PPG(Planning-based Poetry Generation Approach,PPG),從詩歌規(guī)劃和詩歌生成兩部分來生成中國傳統(tǒng)詩歌,并取得良好的效果。

        2018 年von Davier[42]首次提出基于深度學(xué)習(xí)的AIG 方法,并以國際人格測試題庫(International Personality Item Pool,IPIP[43])為例,采用RNN-LSTM自動(dòng)化地生成人格測試新項(xiàng)目,并使用主成分分析法驗(yàn)證新生成的項(xiàng)目具有與原有項(xiàng)目相一致的信效度。與此同時(shí),von Davier指出,盡管基于深度學(xué)習(xí)的全自動(dòng)AIG相較于以往半自動(dòng)化的AIG更有效率,后續(xù)研究還需要進(jìn)一步驗(yàn)證深度學(xué)習(xí)AIG 方法的可靠性。除此之外,2018年陳志剛[44]也從英語考試自動(dòng)答題的技術(shù)研究入手,圍繞多維度語義分析、深度語義建模、基于句法的深度語義建模以及深度語義信息融合等多方面開展英語考試自動(dòng)答題技術(shù)研究。

        二、自動(dòng)化項(xiàng)目生成的項(xiàng)目質(zhì)量

        不同的AIG 方法直接影響新生成的項(xiàng)目質(zhì)量。此外,與傳統(tǒng)的項(xiàng)目開發(fā)一致,項(xiàng)目的參數(shù)估計(jì)方法、人工編寫偏好等也會(huì)影響AIG 的項(xiàng)目質(zhì)量。相關(guān)研究從AIG 方法的優(yōu)化和其他影響因素兩方面研究進(jìn)一步改進(jìn)和提升AIG的項(xiàng)目質(zhì)量。

        (一)生成方法的優(yōu)化

        1.項(xiàng)目模板法與認(rèn)知設(shè)計(jì)系統(tǒng)的結(jié)合

        隨著項(xiàng)目模型法的成熟應(yīng)用,只注重項(xiàng)目生成數(shù)量的功能性逐漸減弱,項(xiàng)目生成的理論性逐漸增強(qiáng)。Gierl 和Lai 等人[45-46]將項(xiàng)目模型法與測評的知識(shí)內(nèi)容結(jié)構(gòu)和認(rèn)知模型相結(jié)合,應(yīng)用于形成性測評項(xiàng)目生成和作答反饋生成中,重視建構(gòu)項(xiàng)目自動(dòng)化生成的測量構(gòu)念,用于AIG 的測量構(gòu)念明確了特定學(xué)科領(lǐng)域的問題解決所包含的內(nèi)容知識(shí)、技能和能力水平等。

        Arendasy和Sommer[47]為確保新生成的項(xiàng)目的效度,結(jié)合項(xiàng)目模型法和認(rèn)知設(shè)計(jì)系統(tǒng)法的優(yōu)勢,提出自動(dòng)化最小-最大法(Automatic Min-Max Approach)。以認(rèn)知模型藍(lán)圖為項(xiàng)目內(nèi)容生成的基體(Radicals),項(xiàng)目材料的表面特征作為約束條件來控制生成項(xiàng)目的質(zhì)量,減少低效度項(xiàng)目的生成。自動(dòng)化最小-最大法可看作是CDS 的延伸,它在認(rèn)知設(shè)計(jì)系統(tǒng)方法的框架基礎(chǔ)上,認(rèn)為項(xiàng)目刺激材料的特征只是項(xiàng)目的主成分,是每個(gè)項(xiàng)目中都需要生成和測量的內(nèi)容;其他特征則是用來控制項(xiàng)目生成質(zhì)量使項(xiàng)目功能差異最小化的約束條件。

        2.深度學(xué)習(xí)模型的優(yōu)化

        原則上,網(wǎng)絡(luò)結(jié)構(gòu)足夠大的RNN 可以生成任意復(fù)雜程度的序列[33]。而在實(shí)踐中,標(biāo)準(zhǔn)RNN 無法長時(shí)間存儲(chǔ)有關(guān)過去輸入的信息[38]。1997 年,Hochreiter 和Schmidhuber[48]提出長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),解決了RNN 訓(xùn)練不穩(wěn)定的問題。LSTM 是基于標(biāo)準(zhǔn)RNN 的改進(jìn)結(jié)構(gòu),比標(biāo)準(zhǔn)的RNN 更適合于存儲(chǔ)和訪問信息,可以更輕松地獲得良好的訓(xùn)練效果,在工業(yè)界和學(xué)術(shù)界一系列序列處理任務(wù)中獲得了廣泛而成功的應(yīng)用[26],如語音和手寫識(shí)別[49-50]。

        Graves 和Schmidhuber[49]比較了RNN、雙向RNN(BRNN)、LSTM、雙向LSTM(BLSTM)和多層感知器(Multi-Layer Perceptron,MLP)等幾種常用的語言模型,發(fā)現(xiàn)在具有上下文聯(lián)系的語音識(shí)別數(shù)據(jù)中,LSTM 表現(xiàn)出更好的訓(xùn)練速度和精度,并且雙向結(jié)構(gòu)比單向結(jié)構(gòu)更有效。Greff 等人[51]在語音、手寫識(shí)別和復(fù)調(diào)音樂數(shù)據(jù)集上的大量重復(fù)實(shí)驗(yàn)發(fā)現(xiàn),標(biāo)準(zhǔn)的LSTM(vanilla LSTM)在大規(guī)模數(shù)據(jù)中的適用性更強(qiáng)。黃賢英等人[52]的研究進(jìn)一步表明,LSTM 由于加入時(shí)間序列的建模,能夠更加準(zhǔn)確地表征上下文語義信息并提升分類準(zhǔn)確性。

        (二)影響因素的約束

        1.參數(shù)估計(jì)精度

        已有AIG 研究中,大多采用項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)對項(xiàng)目參數(shù)進(jìn)行估計(jì),評估模型的擬合度和新生成項(xiàng)目的質(zhì)量。應(yīng)用最廣泛的IRT 模型有線性邏輯斯蒂模型(Linear Logistic Test Model,LLTM)、約束兩參數(shù)邏輯斯蒂克模型(2PLConstrained Model)、層級(jí)IRT 模型(Hierarchical IRT Model)等。

        Holling等人[53]使用LLTM和RE-LLTM(Random-Effects LLTM)對項(xiàng)目進(jìn)行參數(shù)估計(jì)。Glas和van der Linden[20]在CAT 中運(yùn)用3-PLM(三參數(shù)邏輯斯蒂克模型),采用邊際極大似然估計(jì)(Maximum Marginal Likelihood Estimation,MMLE)和 貝 葉 斯(Bayesian)方法估計(jì)AIG 新生成的項(xiàng)目參數(shù)。之后Glas[54-55]又比較了兩種提高項(xiàng)目參數(shù)標(biāo)定精度的方法:ICM(Item Clone Model,項(xiàng)目克隆模型)和近似模型(Approximate Model),其研究結(jié)果表明,ICM 方法的參數(shù)估計(jì)精度略有提高。Embretson和Yang[1]以及Geerlings、Glas 和van der Linden[56]先后都采用了層級(jí)IRT模型進(jìn)行參數(shù)估計(jì)。

        Ferreyra 和Backhoff Escudero[57]從經(jīng)典測量理論(Classical Item Theory,CTT)、IRT、驗(yàn)證性因素分析和內(nèi)容覆蓋率等方面對AIG 的新生成項(xiàng)目進(jìn)行質(zhì)量檢驗(yàn)。2017年,Harrison 等人[58]將IRT、CAT 和AIG 融合在音樂能力測驗(yàn)中,采用4-PLM(四參數(shù)邏輯斯蒂克模型)模型,開展了4 個(gè)子研究檢驗(yàn)AIG 在音樂主旋律區(qū)分(Melodic Discrimination Test)CAT測評中的項(xiàng)目質(zhì)量,其實(shí)證研究結(jié)果表明,采用項(xiàng)目模型法自動(dòng)化生成的CAT測評項(xiàng)目具有良好的信效度。這些研究為AIG的項(xiàng)目質(zhì)量優(yōu)化和在不同學(xué)科的廣泛應(yīng)用打開了大門,十分利于AIG的信效度和效率的提升。

        2.原始項(xiàng)目編寫偏好

        Lai、Alves 和Gierl[5]采用項(xiàng)目模型法自動(dòng)化生成數(shù)學(xué)、科學(xué)、社會(huì)和語文四個(gè)學(xué)科的選擇題,檢驗(yàn)項(xiàng)目編寫者在編寫原始模型項(xiàng)目時(shí)是否存在偏好。結(jié)果表明,項(xiàng)目編寫者更喜歡編寫題干內(nèi)容獨(dú)立、選項(xiàng)受約束的項(xiàng)目作為項(xiàng)目模型;并且更傾向于將AIG方法應(yīng)用于數(shù)學(xué)、科學(xué)等偏計(jì)算語言的學(xué)科,而非語文、社會(huì)等偏語言學(xué)科。

        3.潛特質(zhì)對項(xiàng)目難度的影響

        李中權(quán)等人[59]研究了在圖形推理測驗(yàn)中不同認(rèn)知成分對項(xiàng)目難度的預(yù)測作用。他們總結(jié)出影響圖形推理測驗(yàn)項(xiàng)目難度的四個(gè)因素:構(gòu)圖元素熟悉性、屬性的抽象性、知覺組織的和諧性、規(guī)則類型與數(shù)目。其回歸分析結(jié)果發(fā)現(xiàn),這四個(gè)不同認(rèn)知成分均對項(xiàng)目難度有顯著預(yù)測作用??梢姡?xiàng)目質(zhì)量也受到項(xiàng)目本身所考查潛特質(zhì)的類型、結(jié)構(gòu)和水平的影響。

        三、自動(dòng)化項(xiàng)目生成的應(yīng)用領(lǐng)域

        (一)學(xué)業(yè)成就測評

        項(xiàng)目模型法在學(xué)業(yè)成就測評開發(fā)中的應(yīng)用,主要有語文、社會(huì)、科學(xué)、數(shù)學(xué)、生物、音樂、計(jì)算機(jī)、英語語言學(xué)習(xí)等項(xiàng)目生成[5,16,22,45,60,61]。涂冬波[62]將項(xiàng)目模型法應(yīng)用于認(rèn)知診斷計(jì)算機(jī)測評系統(tǒng)的開發(fā),經(jīng)檢驗(yàn),新生成項(xiàng)目的測量信效度較好。Gierl 和Lai[46]在數(shù)學(xué)測評中采用項(xiàng)目模型分類法,替換模型項(xiàng)目中的題干和選項(xiàng)元素,自動(dòng)化生成大量項(xiàng)目及其對應(yīng)選項(xiàng),為其形成性反饋提供支持。

        認(rèn)知設(shè)計(jì)系統(tǒng)法在學(xué)業(yè)成就測評方面的應(yīng)用尚在起步階段,楊向東[63]總結(jié)了基于認(rèn)知設(shè)計(jì)系統(tǒng)法的代數(shù)應(yīng)用題生成的四種結(jié)構(gòu)分析法:命題分析、網(wǎng)絡(luò)語言分析、關(guān)系-函數(shù)分析和任務(wù)分析地圖,實(shí)現(xiàn)對代數(shù)應(yīng)用題的項(xiàng)目認(rèn)知特征進(jìn)行表征。

        (二)心理測評

        認(rèn)知設(shè)計(jì)系統(tǒng)法在心理測評項(xiàng)目開發(fā)中的應(yīng)用最多,如矩陣推理項(xiàng)目[64]、抽象推理測驗(yàn)項(xiàng)目[25,65]、空間折疊以及空間物品排列[66]、圖形推理[59]、定量推理[67]、視覺短時(shí)記憶[68]和心理旋轉(zhuǎn)[69]等。周駿等人[70]根據(jù)認(rèn)知設(shè)計(jì)系統(tǒng)法,編制了矩陣完成問題的項(xiàng)目生成系統(tǒng),自動(dòng)化生成矩陣完成問題的測驗(yàn)項(xiàng)目,其研究結(jié)果表明,認(rèn)知模型的設(shè)計(jì)對新生成項(xiàng)目的參數(shù)估計(jì)產(chǎn)生影響,測量相同任務(wù)技能的項(xiàng)目其參數(shù)較為一致。楊向東[65]的實(shí)證研究結(jié)果也表明,在計(jì)算機(jī)適應(yīng)性測驗(yàn)條件下,采用認(rèn)知設(shè)計(jì)系統(tǒng)法生成抽象推理測驗(yàn)項(xiàng)目的預(yù)測參數(shù)比相應(yīng)標(biāo)定參數(shù)分布更為趨中。

        深度學(xué)習(xí)法在心理測評中的應(yīng)用,主要是von Davier[42]采用RNN-LSTM 對IPIP 人格測試項(xiàng)目的自動(dòng)化生成。

        (三)職業(yè)資格考試

        在職業(yè)證書資格考試項(xiàng)目的自動(dòng)化生成方面,主要采用項(xiàng)目模型法,應(yīng)用于醫(yī)師執(zhí)照考試[16]、醫(yī)學(xué)項(xiàng)目考試[71,72]等。如Lai 等人[73]以牙科測評項(xiàng)目為例,在結(jié)合認(rèn)知模型的基礎(chǔ)上,采用項(xiàng)目模型法自動(dòng)化生成牙科測評項(xiàng)目。

        此外,語義分析法也應(yīng)用在資格考試中,如前文提及的在英語自動(dòng)答題[44]和大學(xué)英語四級(jí)考試閱讀理解項(xiàng)目生成[28]中的應(yīng)用。

        四、總結(jié)與展望

        AIG 是人工智能技術(shù)在教育中的深度融合的體現(xiàn),是結(jié)合計(jì)算機(jī)測評(Computer-Based Testing,CBT)、測評設(shè)計(jì)(Test Design)和認(rèn)知能力測評(Cognitive Assessment)的跨學(xué)科研究方向[13,74-75],在教育與心理測評實(shí)踐中的應(yīng)用和發(fā)展前景廣闊。而與此同時(shí),AIG 在真實(shí)測評項(xiàng)目應(yīng)用中的準(zhǔn)確性、有效性和穩(wěn)定性需要在實(shí)踐應(yīng)用中進(jìn)一步檢驗(yàn)和提高。深度學(xué)習(xí)AIG 隨著人工智能技術(shù)的發(fā)展逐漸而產(chǎn)生,即使沒有理論模型仍可以保持較準(zhǔn)確的分類、訓(xùn)練和即時(shí)生成,更節(jié)省項(xiàng)目開發(fā)成本。但項(xiàng)目質(zhì)量同樣不可忽視,項(xiàng)目的質(zhì)量關(guān)乎測評的可解釋性,如何從深度學(xué)習(xí)AIG 的非線性關(guān)系中找到特定的解釋依據(jù),是未來相關(guān)研究面臨的挑戰(zhàn)。

        當(dāng)前的測評項(xiàng)目開發(fā)仍以人工編寫為主,如何將人工編寫與AIG 相結(jié)合,兼顧測試開發(fā)的成本效益和公平客觀性,是未來AIG 研究應(yīng)考慮的方向。在已有AIG 方法中,項(xiàng)目模型法、認(rèn)知設(shè)計(jì)系統(tǒng)法、語義分析法是基于邏輯規(guī)則、由少到多的半自動(dòng)化項(xiàng)目生成(Semi-Automatic Item Generation),認(rèn)知設(shè)計(jì)系統(tǒng)與語義分析法對語言結(jié)構(gòu)和問題解決的任務(wù)過程定義復(fù)雜,項(xiàng)目模型法和認(rèn)知設(shè)計(jì)系統(tǒng)法互相融合借鑒,目前仍是項(xiàng)目模型法適用性更強(qiáng)、應(yīng)用更廣泛,但項(xiàng)目模型法生成的項(xiàng)目同質(zhì)化相對明顯。深度學(xué)習(xí)AIG實(shí)現(xiàn)了基于大數(shù)據(jù)深度建模、由多到多的全自動(dòng)化項(xiàng)目生成(Total-Automatic Item Generation),顛覆了基于邏輯規(guī)則的AIG,減少了前期的人工標(biāo)注和投入,算法化更強(qiáng),但深度學(xué)習(xí)AIG 的應(yīng)用廣泛性和項(xiàng)目質(zhì)量還需要獲得進(jìn)一步的評價(jià)與驗(yàn)證。

        隨著人工智能技術(shù)賦能教育的教育變革新形勢逐步深入,AIG 與計(jì)算機(jī)自適應(yīng)測評、大規(guī)模在線測評和題庫建設(shè)等相結(jié)合更適應(yīng)智能化教育測評的發(fā)展方向,因而,AIG 的自動(dòng)化和智能化程度有望在后續(xù)的研究中獲得進(jìn)一步探索與實(shí)踐,AIG的相關(guān)研究也需要更多的實(shí)證研究和教育與心理真實(shí)測評場景的實(shí)踐提供支持。在人工智能環(huán)境下,基于教育與心理測評特點(diǎn),獲取真實(shí)教育和學(xué)習(xí)場景中的大數(shù)據(jù),結(jié)合測量所考查的知識(shí)內(nèi)容和認(rèn)知能力等目標(biāo),綜合不同AIG 方法的優(yōu)勢,以求最大程度地自動(dòng)化生成符合真實(shí)教育與心理測評情境的高質(zhì)量項(xiàng)目。

        猜你喜歡
        語義深度模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言與語義
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        亚洲精品天堂在线观看| 国内精品久久久久影院一蜜桃| 无码夜色一区二区三区| 无码国产日韩精品一区二区| 开心五月激情五月天天五月五月天| 伊人久久大香线蕉午夜av| 日韩高清在线观看永久| 亚洲AV综合A∨一区二区 | 亚洲成a人v欧美综合天堂| 女人扒开下面无遮挡| 中国精品视频一区二区三区| 白浆高潮国产免费一区二区三区| 国产av无码专区亚洲av男同| 中文人妻无码一区二区三区在线| 久久精品国产亚洲综合色| 国产影院一区二区在线| 99无码精品二区在线视频| 男女野外做爰电影免费| 国产精品国产三级国产AvkTV| 日本不卡一区二区三区久久精品 | 日产精品一区二区三区免费| 国产三级黄色大片在线免费看| 欧美色欧美亚洲另类二区| 在线中文字幕有码中文| 日本精品国产1区2区3区| 亚洲一区二区三区中文字幕网| 果冻传媒2021精品一区| 国产成人美女AV| 亚洲综合伊人久久综合| 亚洲av永久无码天堂网| 国产精品麻豆aⅴ人妻| 国产熟女av一区二区三区四季| 亚洲一区二区三区偷拍女| av无码精品一区二区三区宅噜噜| 久久精品国产99精品国偷| 自拍av免费在线观看| 国产私人尤物无码不卡| 成人片黄网站色大片免费观看app| 一区二区三区免费观看在线视频 | 亚洲激情一区二区三区视频| 午夜dy888国产精品影院|