高桂平
摘 要:文本分類是數(shù)據(jù)挖掘方法,在話語分析上的應(yīng)用較少見。本文提出用機(jī)器學(xué)習(xí)方法將課堂話語分類,從功能上分為:課堂組織話語、教學(xué)內(nèi)容呈現(xiàn)話語、交互類型話語、評價(jià)反饋話語等,通過分類,構(gòu)建課堂話語語料庫。為提高其分類準(zhǔn)確率,本文先提取教學(xué)內(nèi)容主題詞,再用貝葉斯分類器對課堂話語進(jìn)行自動分類。
關(guān)鍵詞:數(shù)字化課堂 話語行為 主題詞提取 文本分類
中圖分類號:G642 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-2117(2014)08-0066-02
1 話語行為分類理論
美國教育家弗蘭德斯(Ned. Flanders)對不同年級、不同學(xué)科課堂教學(xué)的大量現(xiàn)場觀察,提出傳統(tǒng)課堂教學(xué)師生言語行為互動分析系統(tǒng)FIAS。將課堂師生言語行為總結(jié)為教師行為、學(xué)生行為、寂靜三大類,細(xì)分為10小類。[1]數(shù)字化課堂引進(jìn)了數(shù)字化教學(xué)設(shè)備。顧小清等在弗蘭德斯課堂話語行為三大類的基礎(chǔ)上增加了技術(shù)這一類,[2]如下表第三列所示的13種課堂言語行為。通過對這13種課堂言語行為產(chǎn)生的話語分析,建立分類集表項(xiàng),如表所示,課堂話語行為分為四類,課堂組織話語、教學(xué)內(nèi)容呈現(xiàn)話語、交互類型話語、評價(jià)反饋類型話語[3-4],由于作用功能的不同,每種類型話語表述在語義方面呈現(xiàn)不同的特點(diǎn)。下表中的特征詞匯舉例展示了各類型話語常見特征詞匯。由于話語功能不同,每種類型話語的表述在語義上具有其獨(dú)有的特點(diǎn)。
目前對課堂話語分類是人工進(jìn)行的,自動分類方法尚未應(yīng)用于課堂話語行為分類。文本分類技術(shù)是在預(yù)先給定的類別標(biāo)記集合下,根據(jù)文本內(nèi)容用機(jī)器學(xué)習(xí)方法為文本指派預(yù)先定義的類別標(biāo)記。[5]結(jié)合課堂話語特點(diǎn),本文提出數(shù)字化課堂話語自動分類方法。
2 建立分類模型
課堂話語分類過程包括訓(xùn)練和分類。處理訓(xùn)練文本,首先基于初始語料庫(即課堂實(shí)錄視頻轉(zhuǎn)化過來的文本文檔)過濾教學(xué)內(nèi)容主題詞,將剩余部分作為教學(xué)內(nèi)容呈現(xiàn)話語,其他話語按其功能分類,建立訓(xùn)練語料庫。再通過特征提取、權(quán)重計(jì)算完成訓(xùn)練過程,得到分類模型。對測試文本的處理,首先進(jìn)行文本預(yù)處理,如分詞、去停用詞,再提取課堂主題詞,分類。如右圖所示:
2.1 教學(xué)內(nèi)容主題詞提取
課堂教學(xué)內(nèi)容主題詞表示為完成教學(xué)目標(biāo)實(shí)施教學(xué)的授課內(nèi)容。為提高分類準(zhǔn)確率,本文采用(1)式TF×IDF算法[6]過濾課堂內(nèi)容主題詞,預(yù)處理后計(jì)算教學(xué)實(shí)錄文檔中各詞的文檔查詢詞頻(TF)和倒排文檔頻率(IDF)。
公式(1)中,P表示字?jǐn)?shù),D表示文檔,F(xiàn)(P,D)中的P表示在D中出現(xiàn)次數(shù),S(D)中的D表示字?jǐn)?shù);D(P)中的P表示出現(xiàn)文檔數(shù)量;N表示文檔總數(shù)。例如,計(jì)算《雷雨》這篇課文的主題詞,將特征詞權(quán)重降序排列,分別是:雨、天空、彩虹、蜘蛛、樹、閃電、蟬、大風(fēng)、垂、雷聲、太陽、景色、天空、悶熱、烏云等。過濾主題詞人工判斷句子類別,構(gòu)建話語類型語料庫。
2.2 分類過程
特征提取采用信息增益方法,分類采用樸素貝葉斯分類算法[7],該方法簡單高效,通過先驗(yàn)條件概率去估計(jì)后驗(yàn)條件概率,前提是滿足特征間獨(dú)立性假設(shè)。已知某個(gè)課堂話語文本集D={d1,d2,…,dn},文本構(gòu)成特征集是W={W1,W2,…,Wm}。計(jì)算權(quán)值后,用VSM表示課堂的每一句話語V(di)=(val(Wi1),val(Wi2),…,val(Wim)),類別C={C1,C2,…,C4},C1:課堂組織話語、C2:教學(xué)內(nèi)容呈現(xiàn)話語、C3:交互類型話語、C4:評價(jià)反饋話語。根據(jù)貝葉斯公式(2)、(3):
P(ci):類先驗(yàn)概率,有訓(xùn)練集估計(jì),P(wi|ci)用最大似然法估計(jì),ni表示ci類所有文本中特征向量wi的出現(xiàn)次數(shù),|W|表示ci類所有文本出現(xiàn)的特征總數(shù)。依次代入d1,d2,…,dn可計(jì)算其的最大P(ci|dk)值,將該話語歸為相應(yīng)Ci類。
3 實(shí)驗(yàn)過程與分析
課堂語料庫來自中小學(xué)課堂90個(gè)優(yōu)秀教學(xué)錄像。訓(xùn)練集制作過程為選取優(yōu)秀教學(xué)視頻;將課堂教學(xué)視頻轉(zhuǎn)化為TXT文件,提取出教學(xué)內(nèi)容主題詞;過濾教學(xué)內(nèi)容主題詞,將txt文件轉(zhuǎn)化成XML文檔;解析xml文件,將每個(gè)訓(xùn)練樣本每種課堂話語種類解析出來并寫入到相應(yīng)訓(xùn)練集語料庫中,形成分類訓(xùn)練集。
測試課堂共206句話語。實(shí)驗(yàn)性能數(shù)據(jù)為:課堂組織、內(nèi)容呈現(xiàn)、交互類型、評價(jià)反饋的準(zhǔn)確率分別為84.8%、95.0%、51.0%、74.0%;召回率分別為52.0%、61.4%、100%、89.5%;F1測試值分別為64.5%、74.6%、67.5%、81.0%。整體分類各項(xiàng)性能指標(biāo)還不是很高,有待改進(jìn);課堂組織話語查全率較低;交互類型話語查準(zhǔn)率較低。導(dǎo)致此類問題原因:①教學(xué)內(nèi)容呈現(xiàn)話語涉及的內(nèi)容面很廣,內(nèi)容主題詞過濾不夠精確;②訓(xùn)練庫中語料不能滿足樸素貝葉斯分類器各類之間完全獨(dú)立性的假設(shè),而只可能讓其間獨(dú)立性最大;③語料庫規(guī)模不夠大。
4 結(jié)語
本文通過對90個(gè)上課實(shí)錄的分析和處理,構(gòu)建了一個(gè)課堂話語類型語料庫。用樸素貝葉斯分類方法,實(shí)現(xiàn)了將課堂話語自動分類。實(shí)現(xiàn)課堂話語自動分類給課堂話語分析帶來了便利。該方法與人工分類方法相比有明顯優(yōu)勢。人工分類方法費(fèi)時(shí)費(fèi)力、難以保證一致性和準(zhǔn)確性(40%左右的準(zhǔn)確率),難以避免專家差異。自動方法快速、準(zhǔn)確率相對高,樣本源于真實(shí)文本,可信度高。語料庫構(gòu)建是一個(gè)很重要的問題,貝葉斯分類原理重要假設(shè)是組成文本的字詞在確定文本類別作用上相互獨(dú)立。因此在建構(gòu)語料庫時(shí)應(yīng)盡量保證不同類型話語的語義正交。進(jìn)一步要做的工作是:擴(kuò)展語料庫,根據(jù)課堂話語的特殊性和規(guī)律性,在分類過程中加入一些統(tǒng)計(jì)規(guī)則,使分類效果更佳。
(華中師范大學(xué)教育信息技術(shù)學(xué)院,湖北 武漢 430079)
參考文獻(xiàn):
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顧小清,王煒.支持教師專業(yè)發(fā)展的課堂分析技術(shù)新探索[J].中國電化教育,2004(7):18-21.
[3]王成菲.中學(xué)英語課堂中教師話語重復(fù)的研究[C].廣西師范大學(xué),2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]蘇金樹,張博峰.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[C].軟件學(xué)報(bào),2006,9,(17):1848-1859.
[6]王園,龔尚福.基于二次TF× IDF的互信息文本特征選擇算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011(04).
[7]李祥,周波.一種基于樸素貝葉斯分類的性能預(yù)測方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011(01).endprint
摘 要:文本分類是數(shù)據(jù)挖掘方法,在話語分析上的應(yīng)用較少見。本文提出用機(jī)器學(xué)習(xí)方法將課堂話語分類,從功能上分為:課堂組織話語、教學(xué)內(nèi)容呈現(xiàn)話語、交互類型話語、評價(jià)反饋話語等,通過分類,構(gòu)建課堂話語語料庫。為提高其分類準(zhǔn)確率,本文先提取教學(xué)內(nèi)容主題詞,再用貝葉斯分類器對課堂話語進(jìn)行自動分類。
關(guān)鍵詞:數(shù)字化課堂 話語行為 主題詞提取 文本分類
中圖分類號:G642 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-2117(2014)08-0066-02
1 話語行為分類理論
美國教育家弗蘭德斯(Ned. Flanders)對不同年級、不同學(xué)科課堂教學(xué)的大量現(xiàn)場觀察,提出傳統(tǒng)課堂教學(xué)師生言語行為互動分析系統(tǒng)FIAS。將課堂師生言語行為總結(jié)為教師行為、學(xué)生行為、寂靜三大類,細(xì)分為10小類。[1]數(shù)字化課堂引進(jìn)了數(shù)字化教學(xué)設(shè)備。顧小清等在弗蘭德斯課堂話語行為三大類的基礎(chǔ)上增加了技術(shù)這一類,[2]如下表第三列所示的13種課堂言語行為。通過對這13種課堂言語行為產(chǎn)生的話語分析,建立分類集表項(xiàng),如表所示,課堂話語行為分為四類,課堂組織話語、教學(xué)內(nèi)容呈現(xiàn)話語、交互類型話語、評價(jià)反饋類型話語[3-4],由于作用功能的不同,每種類型話語表述在語義方面呈現(xiàn)不同的特點(diǎn)。下表中的特征詞匯舉例展示了各類型話語常見特征詞匯。由于話語功能不同,每種類型話語的表述在語義上具有其獨(dú)有的特點(diǎn)。
目前對課堂話語分類是人工進(jìn)行的,自動分類方法尚未應(yīng)用于課堂話語行為分類。文本分類技術(shù)是在預(yù)先給定的類別標(biāo)記集合下,根據(jù)文本內(nèi)容用機(jī)器學(xué)習(xí)方法為文本指派預(yù)先定義的類別標(biāo)記。[5]結(jié)合課堂話語特點(diǎn),本文提出數(shù)字化課堂話語自動分類方法。
2 建立分類模型
課堂話語分類過程包括訓(xùn)練和分類。處理訓(xùn)練文本,首先基于初始語料庫(即課堂實(shí)錄視頻轉(zhuǎn)化過來的文本文檔)過濾教學(xué)內(nèi)容主題詞,將剩余部分作為教學(xué)內(nèi)容呈現(xiàn)話語,其他話語按其功能分類,建立訓(xùn)練語料庫。再通過特征提取、權(quán)重計(jì)算完成訓(xùn)練過程,得到分類模型。對測試文本的處理,首先進(jìn)行文本預(yù)處理,如分詞、去停用詞,再提取課堂主題詞,分類。如右圖所示:
2.1 教學(xué)內(nèi)容主題詞提取
課堂教學(xué)內(nèi)容主題詞表示為完成教學(xué)目標(biāo)實(shí)施教學(xué)的授課內(nèi)容。為提高分類準(zhǔn)確率,本文采用(1)式TF×IDF算法[6]過濾課堂內(nèi)容主題詞,預(yù)處理后計(jì)算教學(xué)實(shí)錄文檔中各詞的文檔查詢詞頻(TF)和倒排文檔頻率(IDF)。
公式(1)中,P表示字?jǐn)?shù),D表示文檔,F(xiàn)(P,D)中的P表示在D中出現(xiàn)次數(shù),S(D)中的D表示字?jǐn)?shù);D(P)中的P表示出現(xiàn)文檔數(shù)量;N表示文檔總數(shù)。例如,計(jì)算《雷雨》這篇課文的主題詞,將特征詞權(quán)重降序排列,分別是:雨、天空、彩虹、蜘蛛、樹、閃電、蟬、大風(fēng)、垂、雷聲、太陽、景色、天空、悶熱、烏云等。過濾主題詞人工判斷句子類別,構(gòu)建話語類型語料庫。
2.2 分類過程
特征提取采用信息增益方法,分類采用樸素貝葉斯分類算法[7],該方法簡單高效,通過先驗(yàn)條件概率去估計(jì)后驗(yàn)條件概率,前提是滿足特征間獨(dú)立性假設(shè)。已知某個(gè)課堂話語文本集D={d1,d2,…,dn},文本構(gòu)成特征集是W={W1,W2,…,Wm}。計(jì)算權(quán)值后,用VSM表示課堂的每一句話語V(di)=(val(Wi1),val(Wi2),…,val(Wim)),類別C={C1,C2,…,C4},C1:課堂組織話語、C2:教學(xué)內(nèi)容呈現(xiàn)話語、C3:交互類型話語、C4:評價(jià)反饋話語。根據(jù)貝葉斯公式(2)、(3):
P(ci):類先驗(yàn)概率,有訓(xùn)練集估計(jì),P(wi|ci)用最大似然法估計(jì),ni表示ci類所有文本中特征向量wi的出現(xiàn)次數(shù),|W|表示ci類所有文本出現(xiàn)的特征總數(shù)。依次代入d1,d2,…,dn可計(jì)算其的最大P(ci|dk)值,將該話語歸為相應(yīng)Ci類。
3 實(shí)驗(yàn)過程與分析
課堂語料庫來自中小學(xué)課堂90個(gè)優(yōu)秀教學(xué)錄像。訓(xùn)練集制作過程為選取優(yōu)秀教學(xué)視頻;將課堂教學(xué)視頻轉(zhuǎn)化為TXT文件,提取出教學(xué)內(nèi)容主題詞;過濾教學(xué)內(nèi)容主題詞,將txt文件轉(zhuǎn)化成XML文檔;解析xml文件,將每個(gè)訓(xùn)練樣本每種課堂話語種類解析出來并寫入到相應(yīng)訓(xùn)練集語料庫中,形成分類訓(xùn)練集。
測試課堂共206句話語。實(shí)驗(yàn)性能數(shù)據(jù)為:課堂組織、內(nèi)容呈現(xiàn)、交互類型、評價(jià)反饋的準(zhǔn)確率分別為84.8%、95.0%、51.0%、74.0%;召回率分別為52.0%、61.4%、100%、89.5%;F1測試值分別為64.5%、74.6%、67.5%、81.0%。整體分類各項(xiàng)性能指標(biāo)還不是很高,有待改進(jìn);課堂組織話語查全率較低;交互類型話語查準(zhǔn)率較低。導(dǎo)致此類問題原因:①教學(xué)內(nèi)容呈現(xiàn)話語涉及的內(nèi)容面很廣,內(nèi)容主題詞過濾不夠精確;②訓(xùn)練庫中語料不能滿足樸素貝葉斯分類器各類之間完全獨(dú)立性的假設(shè),而只可能讓其間獨(dú)立性最大;③語料庫規(guī)模不夠大。
4 結(jié)語
本文通過對90個(gè)上課實(shí)錄的分析和處理,構(gòu)建了一個(gè)課堂話語類型語料庫。用樸素貝葉斯分類方法,實(shí)現(xiàn)了將課堂話語自動分類。實(shí)現(xiàn)課堂話語自動分類給課堂話語分析帶來了便利。該方法與人工分類方法相比有明顯優(yōu)勢。人工分類方法費(fèi)時(shí)費(fèi)力、難以保證一致性和準(zhǔn)確性(40%左右的準(zhǔn)確率),難以避免專家差異。自動方法快速、準(zhǔn)確率相對高,樣本源于真實(shí)文本,可信度高。語料庫構(gòu)建是一個(gè)很重要的問題,貝葉斯分類原理重要假設(shè)是組成文本的字詞在確定文本類別作用上相互獨(dú)立。因此在建構(gòu)語料庫時(shí)應(yīng)盡量保證不同類型話語的語義正交。進(jìn)一步要做的工作是:擴(kuò)展語料庫,根據(jù)課堂話語的特殊性和規(guī)律性,在分類過程中加入一些統(tǒng)計(jì)規(guī)則,使分類效果更佳。
(華中師范大學(xué)教育信息技術(shù)學(xué)院,湖北 武漢 430079)
參考文獻(xiàn):
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顧小清,王煒.支持教師專業(yè)發(fā)展的課堂分析技術(shù)新探索[J].中國電化教育,2004(7):18-21.
[3]王成菲.中學(xué)英語課堂中教師話語重復(fù)的研究[C].廣西師范大學(xué),2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]蘇金樹,張博峰.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[C].軟件學(xué)報(bào),2006,9,(17):1848-1859.
[6]王園,龔尚福.基于二次TF× IDF的互信息文本特征選擇算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011(04).
[7]李祥,周波.一種基于樸素貝葉斯分類的性能預(yù)測方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011(01).endprint
摘 要:文本分類是數(shù)據(jù)挖掘方法,在話語分析上的應(yīng)用較少見。本文提出用機(jī)器學(xué)習(xí)方法將課堂話語分類,從功能上分為:課堂組織話語、教學(xué)內(nèi)容呈現(xiàn)話語、交互類型話語、評價(jià)反饋話語等,通過分類,構(gòu)建課堂話語語料庫。為提高其分類準(zhǔn)確率,本文先提取教學(xué)內(nèi)容主題詞,再用貝葉斯分類器對課堂話語進(jìn)行自動分類。
關(guān)鍵詞:數(shù)字化課堂 話語行為 主題詞提取 文本分類
中圖分類號:G642 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-2117(2014)08-0066-02
1 話語行為分類理論
美國教育家弗蘭德斯(Ned. Flanders)對不同年級、不同學(xué)科課堂教學(xué)的大量現(xiàn)場觀察,提出傳統(tǒng)課堂教學(xué)師生言語行為互動分析系統(tǒng)FIAS。將課堂師生言語行為總結(jié)為教師行為、學(xué)生行為、寂靜三大類,細(xì)分為10小類。[1]數(shù)字化課堂引進(jìn)了數(shù)字化教學(xué)設(shè)備。顧小清等在弗蘭德斯課堂話語行為三大類的基礎(chǔ)上增加了技術(shù)這一類,[2]如下表第三列所示的13種課堂言語行為。通過對這13種課堂言語行為產(chǎn)生的話語分析,建立分類集表項(xiàng),如表所示,課堂話語行為分為四類,課堂組織話語、教學(xué)內(nèi)容呈現(xiàn)話語、交互類型話語、評價(jià)反饋類型話語[3-4],由于作用功能的不同,每種類型話語表述在語義方面呈現(xiàn)不同的特點(diǎn)。下表中的特征詞匯舉例展示了各類型話語常見特征詞匯。由于話語功能不同,每種類型話語的表述在語義上具有其獨(dú)有的特點(diǎn)。
目前對課堂話語分類是人工進(jìn)行的,自動分類方法尚未應(yīng)用于課堂話語行為分類。文本分類技術(shù)是在預(yù)先給定的類別標(biāo)記集合下,根據(jù)文本內(nèi)容用機(jī)器學(xué)習(xí)方法為文本指派預(yù)先定義的類別標(biāo)記。[5]結(jié)合課堂話語特點(diǎn),本文提出數(shù)字化課堂話語自動分類方法。
2 建立分類模型
課堂話語分類過程包括訓(xùn)練和分類。處理訓(xùn)練文本,首先基于初始語料庫(即課堂實(shí)錄視頻轉(zhuǎn)化過來的文本文檔)過濾教學(xué)內(nèi)容主題詞,將剩余部分作為教學(xué)內(nèi)容呈現(xiàn)話語,其他話語按其功能分類,建立訓(xùn)練語料庫。再通過特征提取、權(quán)重計(jì)算完成訓(xùn)練過程,得到分類模型。對測試文本的處理,首先進(jìn)行文本預(yù)處理,如分詞、去停用詞,再提取課堂主題詞,分類。如右圖所示:
2.1 教學(xué)內(nèi)容主題詞提取
課堂教學(xué)內(nèi)容主題詞表示為完成教學(xué)目標(biāo)實(shí)施教學(xué)的授課內(nèi)容。為提高分類準(zhǔn)確率,本文采用(1)式TF×IDF算法[6]過濾課堂內(nèi)容主題詞,預(yù)處理后計(jì)算教學(xué)實(shí)錄文檔中各詞的文檔查詢詞頻(TF)和倒排文檔頻率(IDF)。
公式(1)中,P表示字?jǐn)?shù),D表示文檔,F(xiàn)(P,D)中的P表示在D中出現(xiàn)次數(shù),S(D)中的D表示字?jǐn)?shù);D(P)中的P表示出現(xiàn)文檔數(shù)量;N表示文檔總數(shù)。例如,計(jì)算《雷雨》這篇課文的主題詞,將特征詞權(quán)重降序排列,分別是:雨、天空、彩虹、蜘蛛、樹、閃電、蟬、大風(fēng)、垂、雷聲、太陽、景色、天空、悶熱、烏云等。過濾主題詞人工判斷句子類別,構(gòu)建話語類型語料庫。
2.2 分類過程
特征提取采用信息增益方法,分類采用樸素貝葉斯分類算法[7],該方法簡單高效,通過先驗(yàn)條件概率去估計(jì)后驗(yàn)條件概率,前提是滿足特征間獨(dú)立性假設(shè)。已知某個(gè)課堂話語文本集D={d1,d2,…,dn},文本構(gòu)成特征集是W={W1,W2,…,Wm}。計(jì)算權(quán)值后,用VSM表示課堂的每一句話語V(di)=(val(Wi1),val(Wi2),…,val(Wim)),類別C={C1,C2,…,C4},C1:課堂組織話語、C2:教學(xué)內(nèi)容呈現(xiàn)話語、C3:交互類型話語、C4:評價(jià)反饋話語。根據(jù)貝葉斯公式(2)、(3):
P(ci):類先驗(yàn)概率,有訓(xùn)練集估計(jì),P(wi|ci)用最大似然法估計(jì),ni表示ci類所有文本中特征向量wi的出現(xiàn)次數(shù),|W|表示ci類所有文本出現(xiàn)的特征總數(shù)。依次代入d1,d2,…,dn可計(jì)算其的最大P(ci|dk)值,將該話語歸為相應(yīng)Ci類。
3 實(shí)驗(yàn)過程與分析
課堂語料庫來自中小學(xué)課堂90個(gè)優(yōu)秀教學(xué)錄像。訓(xùn)練集制作過程為選取優(yōu)秀教學(xué)視頻;將課堂教學(xué)視頻轉(zhuǎn)化為TXT文件,提取出教學(xué)內(nèi)容主題詞;過濾教學(xué)內(nèi)容主題詞,將txt文件轉(zhuǎn)化成XML文檔;解析xml文件,將每個(gè)訓(xùn)練樣本每種課堂話語種類解析出來并寫入到相應(yīng)訓(xùn)練集語料庫中,形成分類訓(xùn)練集。
測試課堂共206句話語。實(shí)驗(yàn)性能數(shù)據(jù)為:課堂組織、內(nèi)容呈現(xiàn)、交互類型、評價(jià)反饋的準(zhǔn)確率分別為84.8%、95.0%、51.0%、74.0%;召回率分別為52.0%、61.4%、100%、89.5%;F1測試值分別為64.5%、74.6%、67.5%、81.0%。整體分類各項(xiàng)性能指標(biāo)還不是很高,有待改進(jìn);課堂組織話語查全率較低;交互類型話語查準(zhǔn)率較低。導(dǎo)致此類問題原因:①教學(xué)內(nèi)容呈現(xiàn)話語涉及的內(nèi)容面很廣,內(nèi)容主題詞過濾不夠精確;②訓(xùn)練庫中語料不能滿足樸素貝葉斯分類器各類之間完全獨(dú)立性的假設(shè),而只可能讓其間獨(dú)立性最大;③語料庫規(guī)模不夠大。
4 結(jié)語
本文通過對90個(gè)上課實(shí)錄的分析和處理,構(gòu)建了一個(gè)課堂話語類型語料庫。用樸素貝葉斯分類方法,實(shí)現(xiàn)了將課堂話語自動分類。實(shí)現(xiàn)課堂話語自動分類給課堂話語分析帶來了便利。該方法與人工分類方法相比有明顯優(yōu)勢。人工分類方法費(fèi)時(shí)費(fèi)力、難以保證一致性和準(zhǔn)確性(40%左右的準(zhǔn)確率),難以避免專家差異。自動方法快速、準(zhǔn)確率相對高,樣本源于真實(shí)文本,可信度高。語料庫構(gòu)建是一個(gè)很重要的問題,貝葉斯分類原理重要假設(shè)是組成文本的字詞在確定文本類別作用上相互獨(dú)立。因此在建構(gòu)語料庫時(shí)應(yīng)盡量保證不同類型話語的語義正交。進(jìn)一步要做的工作是:擴(kuò)展語料庫,根據(jù)課堂話語的特殊性和規(guī)律性,在分類過程中加入一些統(tǒng)計(jì)規(guī)則,使分類效果更佳。
(華中師范大學(xué)教育信息技術(shù)學(xué)院,湖北 武漢 430079)
參考文獻(xiàn):
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顧小清,王煒.支持教師專業(yè)發(fā)展的課堂分析技術(shù)新探索[J].中國電化教育,2004(7):18-21.
[3]王成菲.中學(xué)英語課堂中教師話語重復(fù)的研究[C].廣西師范大學(xué),2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]蘇金樹,張博峰.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[C].軟件學(xué)報(bào),2006,9,(17):1848-1859.
[6]王園,龔尚福.基于二次TF× IDF的互信息文本特征選擇算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011(04).
[7]李祥,周波.一種基于樸素貝葉斯分類的性能預(yù)測方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011(01).endprint