基于判別分析的漢語二語口語能力評(píng)價(jià)研究

2025-07-30 00:00:00張漫莉于佳慧柴省三

考試研究 2025年4期

[中圖分類號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)] 1673—1654（2025）04—011—011

一、引言

命題、施測(cè)和評(píng)分是口語測(cè)試的主要環(huán)節(jié)，其中“評(píng)分方法和評(píng)分員決定了口語測(cè)試的信度，從而對(duì)測(cè)試的效度具有重要影響\"。隨著人工智能（AI）語言信息加工技術(shù)的日益成熟和大數(shù)據(jù)思維的發(fā)展，二語口語客觀性評(píng)價(jià)研究成為學(xué)界研究的熱點(diǎn)[2。選擇合適的指標(biāo)及指標(biāo)組合，并借助恰當(dāng)?shù)亩嘣治瞿Ｐ吞剿骺谡Z評(píng)價(jià)的準(zhǔn)確性問題一直是二語者口語水平（OralProficiency）測(cè)評(píng)研究的核心問題之一。

復(fù)雜度、準(zhǔn)確度與流利度（Complexity，AccuracyandFluency，簡(jiǎn)稱CAF）作為測(cè)量學(xué)習(xí)者口語表現(xiàn)的三個(gè)重要維度，在第二語言習(xí)得與測(cè)試研究中已有相當(dāng)長(zhǎng)的歷史，但由于研究樣本規(guī)模、指標(biāo)量化標(biāo)準(zhǔn)等方面的分歧，現(xiàn)有研究在指標(biāo)的選擇、界定與量化指標(biāo)體系的構(gòu)建等方面均未達(dá)成共識(shí)[4-5]。在研究方法上，國(guó)內(nèi)外的學(xué)者們主要采用多元線性回歸（MultipleLinearRegression）方法構(gòu)建評(píng)價(jià)模型[6-7]，此方法雖然相對(duì)穩(wěn)定，但考慮到口語評(píng)價(jià)存在主觀性且測(cè)驗(yàn)數(shù)據(jù)規(guī)模大、價(jià)值密度低，與多元線性回歸方法的數(shù)據(jù)要求仍存在適配性問題，嘗試基于大數(shù)據(jù)挖掘的口語評(píng)價(jià)方法現(xiàn)已成為研究熱點(diǎn)。作為一種高效的統(tǒng)計(jì)判別和分組技術(shù)，判別分析（DiscriminantAnalysis）在數(shù)據(jù)挖掘領(lǐng)域發(fā)揮著重要作用，在教育評(píng)價(jià)、作文評(píng)分等領(lǐng)域具有重要的價(jià)值8，同時(shí)在二語口語評(píng)價(jià)研究中也具有較高的實(shí)踐意義。

鑒于此，本研究基于中國(guó)漢語水平考試（HSK[高等]）實(shí)測(cè)大數(shù)據(jù)，分別采用復(fù)雜度指標(biāo)（C）、準(zhǔn)確度指標(biāo)（A）、流利度指標(biāo)（F）及上述三類指標(biāo)的二維和三維組合（CA、CF、AF、CAF）等7組指標(biāo)對(duì)3個(gè)不同容量的樣本進(jìn)行判別分析，依據(jù)判別分析結(jié)果與專家評(píng)分的一致性程度篩選指標(biāo)，構(gòu)建出具有較高效度和信度的評(píng)價(jià)體系，為漢語二語口語能力評(píng)價(jià)模型的構(gòu)建提供新的方法，為漢語口語自動(dòng)評(píng)分系統(tǒng)的開發(fā)提供參考。

二、研究設(shè)計(jì)

（一）研究問題

本研究重點(diǎn)關(guān)注以下三個(gè)問題：

1.驗(yàn)證判別分析方法在漢語作為第二語言的口語能力評(píng)價(jià)研究中具備可行性

2.在方法可行的基礎(chǔ)上，通過對(duì)比C、A、F指標(biāo)

及指標(biāo)間的二維和三維組合在3個(gè)不同容量樣本的等級(jí)判別結(jié)果與專家評(píng)分的一致性，考察各項(xiàng)口語能力評(píng)價(jià)指標(biāo)的效度。

3.篩選有效指標(biāo)構(gòu)建口語能力評(píng)價(jià)模型，并以HSK（高等）口語考試實(shí)測(cè)數(shù)據(jù)對(duì)模型的效度進(jìn)行檢驗(yàn)。

（二）研究被試

從參加2010年4月HSK（高等）口語考試的2404名韓國(guó)考生中隨機(jī)抽取了300名考生的口語測(cè)試錄音作為研究對(duì)象，其中男生語料為129份，女生語料為171份。根據(jù)口語考試成績(jī)和獲得的口語等級(jí)，將考生的口語水平由高到低劃分為A、B、C三個(gè)等級(jí)，每個(gè)等級(jí)間隔5分，各等級(jí)的考生分布情況如表1所示。

（三）研究材料

中國(guó)漢語水平考試（HSK）是為測(cè)試母語非漢語者漢語水平而設(shè)計(jì)的大規(guī)模國(guó)家級(jí)標(biāo)準(zhǔn)化考試[9-10]，考試題目及測(cè)驗(yàn)分?jǐn)?shù)均具有較高的信度和效度；HSK口語考試作為大型考試中限時(shí)獨(dú)立完成的表達(dá)任務(wù)，能夠有效反映出學(xué)習(xí)者的語言水平，保證了研究的客觀性；口語表達(dá)部分的兩道題目體裁不同（第一題為說明文，第二題為議論文），為了排除體裁變量的影響，保證研究材料的連貫性和主題的一致性，僅采用第一題“請(qǐng)你給中老年人介紹一個(gè)保養(yǎng)身體、延年益壽的養(yǎng)生方法”的口語錄音作為研究材料。

（四）研究指標(biāo)

為了使研究結(jié)果更具代表性，基于以往研究對(duì)復(fù)雜度、準(zhǔn)確度、流利度的操作性定義及本研究語料的特點(diǎn)，最終確定了11個(gè)測(cè)量指標(biāo)。

1.口語復(fù)雜度指標(biāo)

復(fù)雜度是“進(jìn)行言語任務(wù)時(shí)語言產(chǎn)出的復(fù)雜和多樣化程度\"]，關(guān)于口語復(fù)雜度的評(píng)價(jià)主要集中在詞匯復(fù)雜度和句法復(fù)雜度，選取4個(gè)典型特征作為初始指標(biāo)體系進(jìn)行相關(guān)研究，具體指標(biāo)及計(jì)算方法見表2。

在詞匯維度上，考慮文本篇幅長(zhǎng)短不一，采用Guiraud指標(biāo)來量化詞匯表達(dá)的多樣性，并依照《漢語水平詞匯與漢字等級(jí)大綱》以下簡(jiǎn)稱“大綱”）將“復(fù)雜詞比例”操作性定義為乙級(jí)詞、內(nèi)級(jí)詞、丁級(jí)詞和超綱詞的使用比例。在句法維度上，遵循Foster（2000）[]提出的劃分原則，AS-unit（AnalysisofSpeechunit，簡(jiǎn)稱“AS單位\"）可以清楚地區(qū)分不成功的開始、重復(fù)和自我糾正，在以往研究中使用頻率較高且更適用于口語研究。因此，選取AS單位作為言語劃分單元。因不同水平學(xué)習(xí)者的口語表達(dá)篇幅長(zhǎng)短不一，將句法復(fù)雜度指標(biāo)定為每50詞內(nèi)的AS單位數(shù)量，并計(jì)算每個(gè)AS單位內(nèi)的詞語數(shù)量①。

2.口語準(zhǔn)確度指標(biāo)

語言準(zhǔn)確度是CAF研究體系中最穩(wěn)定的考察指標(biāo)，其信度、效度得到了研究者們的一致認(rèn)可。依據(jù)語言的構(gòu)成要素，準(zhǔn)確度具體包括語音準(zhǔn)確度、詞匯準(zhǔn)確度和句法準(zhǔn)確度。本研究中對(duì)各指標(biāo)的操作性定義如表3所示。

參考陳默[13-14]的研究方法，語音準(zhǔn)確度可以進(jìn)一步細(xì)化為聲母準(zhǔn)確度、韻母準(zhǔn)確度和聲調(diào)準(zhǔn)確度，但因本研究所選取語料數(shù)量較多，標(biāo)注難度較大，最終將其定義為廣義上的語音準(zhǔn)確度，即只要聲母、韻母、聲調(diào)其中之一出現(xiàn)錯(cuò)誤即標(biāo)注為語音錯(cuò)誤。詞匯準(zhǔn)確度主要通過詞匯錯(cuò)誤來測(cè)量，包括詞匯搭配錯(cuò)誤、詞性誤用、詞匯遺漏、詞匯多余、生造詞等，不計(jì)算語料轉(zhuǎn)錄造成的字形錯(cuò)誤。句法錯(cuò)誤的類型主要借鑒了漢語中介語語料庫中對(duì)句法錯(cuò)誤的分類方式，口語中不影響文章語義表達(dá)的字詞類的錯(cuò)誤不再重新計(jì)人句法錯(cuò)誤。

3.口語流利度指標(biāo)

流利度是衡量第二語言學(xué)習(xí)者口語水平高低的重要維度之一。與復(fù)雜度、準(zhǔn)確度維度不同，學(xué)習(xí)者口語表達(dá)中的停頓、重復(fù)、自我糾正等是口語流利度的重點(diǎn)考察指標(biāo)。通過對(duì)口語語料的預(yù)處理，發(fā)現(xiàn)時(shí)長(zhǎng)約為300毫秒的停頓分布范圍最廣，總次數(shù)相對(duì)較多，且在許多漢語口語研究中均采用了這一停頓標(biāo)準(zhǔn)。因此，本研究將停頓界定為時(shí)長(zhǎng)大于等于300毫秒的無聲停頓及填充停頓，并對(duì)相應(yīng)的口語流利度評(píng)價(jià)指標(biāo)進(jìn)行了操作性定義，具體內(nèi)容如表4所示。

為便于各項(xiàng)指標(biāo)的標(biāo)注與統(tǒng)計(jì)，對(duì)語料進(jìn)行預(yù)處理。首先，借助科大訊飛股份有限公司研發(fā)的“訊飛聽見\"軟件對(duì)300份語料進(jìn)行語碼轉(zhuǎn)錄，并人工校對(duì)轉(zhuǎn)錄結(jié)果。在此基礎(chǔ)上，根據(jù)各項(xiàng)指標(biāo)的操作性定義，對(duì)轉(zhuǎn)錄文本進(jìn)行復(fù)雜度、準(zhǔn)確度指標(biāo)的標(biāo)注和數(shù)據(jù)統(tǒng)計(jì)。利用AdobeAudition音頻編輯軟件標(biāo)注、收集流利度指標(biāo)的數(shù)據(jù)信息。通過上述標(biāo)注方式，共采集了300名被試的11項(xiàng)口語能力評(píng)價(jià)指標(biāo)的描

述性統(tǒng)計(jì)數(shù)據(jù)，詳見表5。

表5被試口語復(fù)雜度、準(zhǔn)確度、流利度指標(biāo)的描述性統(tǒng)計(jì)結(jié)果

（五）數(shù)據(jù)預(yù)處理

通過對(duì)11項(xiàng)口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)的界定與采集，初步掌握了不同水平的漢語學(xué)習(xí)者在口語能力上的特征表現(xiàn)。但因研究選取的樣本量有限，數(shù)據(jù)量大小和區(qū)別特征的有效性等因素均會(huì)導(dǎo)致判別模型的評(píng)價(jià)或預(yù)測(cè)效果存在差異。為了驗(yàn)證CAF指標(biāo)的口語能力評(píng)價(jià)效度及判別分析方法的可行性，需要對(duì)數(shù)據(jù)制定不同規(guī)模樣本的抽樣方案，并進(jìn)行判別分析的適用性檢驗(yàn)

1.制定抽樣方案

為了確保研究樣本的代表性，采用分層隨機(jī)抽樣的方法。首先，以HSK（高等）口語考試成績(jī)和獲得的口語等級(jí)作為專家參照，將300名被試的口語水平由高到低劃分為A、B、C三個(gè)等級(jí);接著，為了減少因樣本量分配不均衡對(duì)分析結(jié)果的影響，采取等數(shù)分配法確定從各等級(jí)中抽取樣本單位的數(shù)量，即每一類都分配同樣的個(gè)體數(shù)；最后，采用簡(jiǎn)單隨機(jī)抽樣的方法從各等級(jí)中抽取樣本。

依據(jù)上述方法，利用SPSS25.0完成了分層隨機(jī)抽樣，共抽取了容量為50、100、150的三個(gè)訓(xùn)練樣本，各等級(jí)的被試樣本抽樣情況如表6所示。

分析不同樣本量下的判別正確率有助于驗(yàn)證11項(xiàng)口語復(fù)雜度、準(zhǔn)確度、流利度指標(biāo)對(duì)口語等級(jí)的區(qū)分及預(yù)測(cè)效度，完善口語能力評(píng)價(jià)體系。

2.判別分析的適用性檢驗(yàn)

在分析11項(xiàng)口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)對(duì)口語等級(jí)的區(qū)分及預(yù)測(cè)效度之前，需要驗(yàn)證判別分析方法對(duì)所選取樣本具備可行性，以確?？谡Z能力評(píng)價(jià)結(jié)果的可靠性。本研究根據(jù)被試的口語成績(jī)與等級(jí)將樣本分為A、B、C三個(gè)類別，在進(jìn)行判別分析之前首先對(duì)11項(xiàng)口語能力判別指標(biāo)在A、B、C三組中的均值是否存在差異進(jìn)行檢驗(yàn)，若某兩個(gè)總體的均值檢驗(yàn)結(jié)果不存在顯著差異，則由此建立的判別函數(shù)也是不可靠的。組均值的同等檢驗(yàn)結(jié)果如表7所示。

由表7可知，所選取的11項(xiàng)口語能力評(píng)價(jià)指標(biāo)在不同等級(jí)的被試樣本間均存在顯著差異（ Δplt;Δ 0.05）。因此，這11項(xiàng)量化指標(biāo)對(duì)口語能力等級(jí)的判斷均具有一定作用，滿足鑒別變量在各組間存在顯著差異這一前提。

在300份被試語料中隨機(jī)抽取容量為50、100、150的三個(gè)樣本，所選樣本均來自同一總體，此時(shí)各組樣本的協(xié)方差矩陣應(yīng)具有同質(zhì)性，這時(shí)檢驗(yàn)的原假設(shè) （H₀）為：各組因變量的協(xié)方差矩陣不存在顯著差異。對(duì)三組樣本總體方差是否具有同質(zhì)性分別進(jìn)行 Box^′M 檢驗(yàn)，樣本容量為50 1=50 時(shí)， Box^′M 檢驗(yàn)結(jié)果如表8所示。

樣本容量為100（ N=100 時(shí)， Box^′M 檢驗(yàn)結(jié)果如表9所示。

樣本容量為150（ _N=150 ）時(shí)， Box^′M 檢驗(yàn)結(jié)果如表10所示。

由檢驗(yàn)結(jié)果可知，三個(gè)研究樣本均無法拒絕原假設(shè)（），滿足組間協(xié)方差矩陣相等這一前提。基于此，認(rèn)為樣本數(shù)據(jù)滿足判別分析的適用條件，通過SPSS25.0得到的判別分析結(jié)果是有意義的。

三、研究結(jié)果與分析

驗(yàn)證了判別分析在口語能力評(píng)價(jià)研究中具備可行性后，進(jìn)一步對(duì)不同判別變量及不同樣本容量下的等級(jí)判別結(jié)果與專家評(píng)分的一致性進(jìn)行比較和分析，以考察各項(xiàng)口語能力評(píng)價(jià)指標(biāo)的效度。

（一）不同樣本容量下的判別分析結(jié)果

1.以單一維度指標(biāo)作為判別變量的判別結(jié)果

以復(fù)雜度（復(fù)雜詞比例、Guiraud指標(biāo)、每50詞AS單位數(shù)量和單元詞語數(shù)量）、準(zhǔn)確度（語音準(zhǔn)確度、詞匯準(zhǔn)確度和句法準(zhǔn)確度）和流利度（語速、發(fā)音時(shí)間比、平均語流長(zhǎng)度和百音節(jié)更改次數(shù)）指標(biāo)作為判別變量，分別對(duì)容量為50、100、150的三組樣本進(jìn)行判別分析，共得到9個(gè)分類結(jié)果。為了更加直觀地考察口語復(fù)雜度指標(biāo)在不同樣本量下完成判別分析的效度，將判別結(jié)果進(jìn)行匯總，具體結(jié)果如表11所示。

表11以單一維度指標(biāo)作為判別變量時(shí)不同樣本容量的判別正確率

由表11可知，當(dāng)僅以口語復(fù)雜度指標(biāo)作為判別變量時(shí)，判別的總正確率隨著樣本容量的增加呈現(xiàn)出了上升的趨勢(shì)，其中A等級(jí)和B等級(jí)樣本的判別正確率隨著樣本容量的增加而增加，而C等級(jí)樣本則完全相反，判別正確率呈現(xiàn)出下降趨勢(shì)。在50、100、150三個(gè)樣本容量下，只有C等級(jí)樣本的判別正確率均達(dá)到了 70% 及以上，判別效果較為理想。當(dāng)僅以口語準(zhǔn)確度指標(biāo)作為判別變量時(shí)，判別分析的總正確率及A ?，B，C 三個(gè)等級(jí)樣本的正確率均隨著樣本容量的增加呈現(xiàn)出先上升后下降的趨勢(shì)，在樣本容量為100時(shí)正確率最高。只有樣本容量為50、100和150時(shí)的C等級(jí)樣本，以及樣本容量為100時(shí)的A等級(jí)樣本的判別正確率達(dá)到了 70% 及以上，其余條件下樣本的判別結(jié)果均不理想。當(dāng)僅以口語流利度指標(biāo)作為判別變量時(shí)，判別分析總正確率大多隨著樣本容量的增加呈現(xiàn)出了上升的趨勢(shì)，其中A等級(jí)和C等級(jí)樣本隨著樣本容量的增加其正確率先下降后上升，相較而言，C等級(jí)樣本的正確率最高且波動(dòng)較小，B等級(jí)樣本的判別正確率隨著樣本量增加而上升，但其判別效果始終不理想。

可見，以單一維度指標(biāo)作為判別變量時(shí)，增加樣本容量并不能有效提升判別分析的正確率。這表明單一維度指標(biāo)對(duì)于口語等級(jí)的判別雖有一定貢獻(xiàn)，但僅由單一維度指標(biāo)提供的信息無法有效地建立穩(wěn)定的評(píng)分（分類）模型。

2.以多維度指標(biāo)作為判別變量的判別結(jié)果

以復(fù)雜度與準(zhǔn)確度（CA），復(fù)雜度與流利度（CF），準(zhǔn)確度與流利度（AF），以及復(fù)雜度、準(zhǔn)確度與流利度（CAF四組指標(biāo)作為判別變量，分別對(duì)容量為50、100、150的三組樣本進(jìn)行判別分析，其結(jié)果如表12所示。

可以看出，以CA、CF、AF作為判別變量時(shí)，判別的總正確率隨著樣本容量的增加呈現(xiàn)上升的趨勢(shì)，在樣本容量為150時(shí)判別效果最好。當(dāng)同時(shí)以復(fù)雜度和準(zhǔn)確度指標(biāo)作為判別變量時(shí)，總正確率最高達(dá)到 76% ，A等級(jí)樣本的判別正確率隨著樣本容量的增加呈現(xiàn)出先上升后下降的趨勢(shì)，B等級(jí)樣本的判別正確率隨著樣本容量的增加而提高，C等級(jí)樣本的判別正確率變化則與A等級(jí)相反，隨著樣本容量的增加其正確率先下降而后上升?？偟膩砜?，C等級(jí)和A等級(jí)樣本的判別結(jié)果較為理想，而B等級(jí)樣本的判別效果仍有提升空間。

當(dāng)同時(shí)以口語復(fù)雜度和流利度指標(biāo)作為判別變量時(shí)，A等級(jí)樣本的判別準(zhǔn)確率隨著樣本容量的增加呈現(xiàn)出下降趨勢(shì)，B等級(jí)和C等級(jí)樣本則隨著樣本容量的增加正確率先上升后下降。相對(duì)而言，C等級(jí)樣本的判別結(jié)果較為理想，而A等級(jí)和B等級(jí)樣本的判別正確率仍有待提升。

當(dāng)同時(shí)以準(zhǔn)確度和流利度指標(biāo)作為判別變量時(shí)，判別的總正確率和各等級(jí)樣本的正確率均隨著樣本容量的增加呈現(xiàn)了上升的趨勢(shì)，在樣本容量為150時(shí)判別效果最好。總的來看，各等級(jí)樣本的判別總正確率均高于 50% ，較上述各維度的判別正確率的表現(xiàn)更加穩(wěn)定。

當(dāng)同時(shí)以口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)作為判別變量時(shí)，判別效果整體較好，三個(gè)樣本容量下的總正確率均在 70% 以上，且隨著樣本容量的增加呈現(xiàn)出上升的趨勢(shì)，在樣本容量為150時(shí)總正確率最高達(dá)到 81.3% 。其中，A等級(jí)樣本的判別正確率隨著樣本容量的增加呈現(xiàn)出先下降后上升的趨勢(shì)，B等級(jí)樣本的判別正確率隨著樣本容量的增加而提高，C等級(jí)樣本的判別正確率變化則與A等級(jí)相反，隨著樣本容量的增加其正確率先上升而后下降。總體而言，以口語復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)共同作為判別變量時(shí)，判別分析的總正確率和各等級(jí)判別正確率表現(xiàn)均比較理想，可以由此構(gòu)建穩(wěn)定的評(píng)分（分類）模型。

（二）判別模型的構(gòu)建

根據(jù)上述分析可知，當(dāng)樣本容量為150時(shí)由CAF多維度指標(biāo)共同作為判別變量的判別模型效果最好。據(jù)此，可以得到相應(yīng)的判別函數(shù)，用以預(yù)測(cè)考生的口語等級(jí)。Fisher線性判別分類函數(shù)系數(shù)表如下所示。

依據(jù)此表，由口語準(zhǔn)確度（A1、A2、A3）復(fù)雜度（C1、C2、C3、C4）及流利度（F1、F2、F3、F4）對(duì)應(yīng)指標(biāo)，在A、B、C三個(gè)口語等級(jí)的判別上，分別建立如下三個(gè)判別函數(shù)式：

基于上述判別函數(shù)，以每名考生的11項(xiàng)口語復(fù)雜度、準(zhǔn)確度及流利度指標(biāo)的量化數(shù)據(jù)為基礎(chǔ)可獲得相應(yīng)的判別值，其中分值最大的等級(jí)即可作為每名考生的口語能力預(yù)測(cè)級(jí)別。

（三）判別模型的效度檢驗(yàn)

為了驗(yàn)證所獲得的判別模型的預(yù)測(cè)效度，在各等級(jí)未參與分層隨機(jī)抽樣的語料中分別隨機(jī)抽取了5份語料，以15份語料作為待判樣本組，通過檢驗(yàn)其判別結(jié)果與專家評(píng)分之間的一致性，考察以口語復(fù)雜度、準(zhǔn)確度和流利度作為判別變量時(shí)對(duì)學(xué)生口語成績(jī)的預(yù)測(cè)表現(xiàn)。在SPSS25.0中運(yùn)行判別分析后得到的判別結(jié)果如表14所示。

表14中第一列為判別分析的預(yù)測(cè)結(jié)果，第二列為專家評(píng)分結(jié)果，Dis1_1和Dis2_1為Fisher判別（典則判別）函數(shù)值（綜合指標(biāo)），Dis1_2、Dis2_2、Dis3_2為Bayes判別（分類函數(shù)）中屬于各類的后驗(yàn)概率?？梢园l(fā)現(xiàn)，C等級(jí)中有2個(gè)樣本被誤判為B等級(jí)，B等級(jí)樣本中有1個(gè)被誤判為A等級(jí)，A等級(jí)的判別結(jié)果與專家評(píng)分一致性均達(dá)到了 100% ，總正確率達(dá)到80% ，判別效果較為理想。這些數(shù)據(jù)說明以口語復(fù)雜度、準(zhǔn)確度和流利度框架下的11項(xiàng)指標(biāo)作為判別變量的判別模型能夠有效區(qū)分被試樣本。

四、綜合討論

選取有效指標(biāo)及最佳組合是實(shí)現(xiàn)口語評(píng)分自動(dòng)化的關(guān)鍵。本研究界定和采集了11項(xiàng)口語復(fù)雜度、準(zhǔn)確度和流利度評(píng)價(jià)指標(biāo)，在參加HSK（高等）口語考試的2404名韓國(guó)考生中隨機(jī)抽樣得到了50、100、150三個(gè)被試樣本，采用判別分析方法，分別在不同樣本量下依次探討了口語復(fù)雜度、準(zhǔn)確度、流利度指標(biāo)及多維度指標(biāo)，對(duì)韓國(guó)漢語學(xué)習(xí)者口語等級(jí)的區(qū)分及預(yù)測(cè)效度，在此基礎(chǔ)上建立了韓國(guó)學(xué)生口語水平評(píng)價(jià)模型，并對(duì)模型的效度進(jìn)行了驗(yàn)證。

（一）不同維度判別變量與口語評(píng)分的關(guān)系

總的來看，在口語復(fù)雜度、準(zhǔn)確度、流利度和多維度指標(biāo)等4個(gè)維度、7組判別變量的判別結(jié)果中，多維度指標(biāo)的判別效果較單一維度指標(biāo)更為理想，判別的總正確率大多在 70% 以上。相比之下，以單一維度作為判別變量時(shí)預(yù)測(cè)效果均不理想，其中口語流利度指標(biāo)的判別總正確率僅在 46%-58% 。相關(guān)研究表明，評(píng)分員在完成口語評(píng)價(jià)時(shí)更加注重口語交際任務(wù)的完成情況及交際結(jié)果，即注重交際的整體有效性，良好的內(nèi)容質(zhì)量可以在一定程度上彌補(bǔ)語言上的不足[15-16]，這可能是影響流利度判別效果的原因之一。此外，作為口語能力評(píng)價(jià)的直觀性指標(biāo)，本研究在初步篩選流利度指標(biāo)時(shí)也曾選取了發(fā)音速度、重復(fù)表達(dá)比例、修正表達(dá)比例、正確發(fā)音占比、平均C單位（剔除后）長(zhǎng)度等指標(biāo)，但均未通過Box'M檢驗(yàn)，不滿足判別分析的適用條件。推斷在HSK考試評(píng)分過程中，評(píng)分員基于二語口語能力測(cè)驗(yàn)這一主題考慮，可能會(huì)在主觀上降低對(duì)于語音物理屬性（如語速、語音正確性）的規(guī)范性要求，進(jìn)而對(duì)部分指標(biāo)的信度和效度產(chǎn)生了一定影響。

（二）不同樣本容量對(duì)判別效果的影響

在構(gòu)建口語能力評(píng)價(jià)模型的過程中，隨著樣本量增加，考生的區(qū)別性特征能夠被更加完整地提取，對(duì)考生樣本的預(yù)測(cè)正確率也能隨之提升，增加訓(xùn)練集的樣本量能夠在一定程度上提高模型的性能。本研究中在同一組判別變量下，隨著樣本容量的不斷增加，判別分析的總正確率總體呈現(xiàn)出上升趨勢(shì)，當(dāng)樣本容量為150時(shí)總體判別正確率最高。對(duì)于各等級(jí)樣本而言，樣本容量的增加并未能使得同一組判別變量下各等級(jí)樣本的判別正確率逐漸提高，但A、B等級(jí)樣本的正確率大體上呈現(xiàn)出波動(dòng)上升的趨勢(shì)，而C等級(jí)樣本在不同條件下判別結(jié)果均較為理想，樣本量增加對(duì)其判別正確率的影響并不十分明確。原因可能包括兩個(gè)方面。一方面可能是由于本研究的樣本量有限，僅選取了50、100和150三個(gè)樣本容量，未能詳盡地反映出樣本量增加時(shí)不同等級(jí)樣本的變化趨勢(shì)。另一方面可能與學(xué)習(xí)者本身有關(guān)，由于參加HSK（高等）考試的考生口語平均水平較高，A等級(jí)考生與B等級(jí)考生之間的差距相較于C等級(jí)考生與A、B等級(jí)考生之間的差距要小很多，因此C等級(jí)樣本的判別正確率相對(duì)較好，而本研究選取的C等級(jí)被試數(shù)目較少僅有60人，在抽樣中不可避免地重復(fù)出現(xiàn)在不同樣本組中，這就使得增加樣本量對(duì)于C等級(jí)樣本的作用十分有限，在一定程度上影響了不同樣本容量下C等級(jí)樣本的判別正確率變化趨勢(shì)。

（三）判別分析在口語評(píng)價(jià)研究中的應(yīng)用

根據(jù)7組判別變量的判別情況，同時(shí)以口語復(fù)雜度、準(zhǔn)確度及流利度這3個(gè)維度的11項(xiàng)指標(biāo)作為判別變量，當(dāng)樣本容量為150時(shí)判別函數(shù)的正確率最高達(dá)到 81.3% ，此時(shí)A、B、C三個(gè)等級(jí)樣本的判別正確率均在 70% 以上，判別效果較為理想。相應(yīng)地，由該條件下的分類函數(shù)系數(shù)可以構(gòu)建出韓國(guó)學(xué)生口語能力評(píng)價(jià)判別模型，經(jīng)HSK（高等）口語考試實(shí)測(cè)口語樣本檢驗(yàn)，判別模型的正確率達(dá)到了 80% 。這一結(jié)果表明，復(fù)雜詞比例、Guiraud指標(biāo)、每50詞AS單位數(shù)量、單元詞語數(shù)量、語音準(zhǔn)確度、詞匯準(zhǔn)確度、句法準(zhǔn)確度、語速、發(fā)音時(shí)間比、平均語流長(zhǎng)度和百音節(jié)更改次數(shù)等11項(xiàng)口語CAF指標(biāo)，對(duì)口語等級(jí)具有較好的區(qū)分及預(yù)測(cè)效度，有助于口語能力評(píng)價(jià)體系的建設(shè)與完善。

五、結(jié)語

本研究以韓國(guó)漢語學(xué)習(xí)者的HSK（高等）口語考試語料為研究材料，在語料轉(zhuǎn)寫、校對(duì)和采集指標(biāo)形成自建數(shù)據(jù)庫的基礎(chǔ)上，進(jìn)行了判別分析。實(shí)證研究得到如下結(jié)論：

（一）在判別分析的過程中，隨著樣本容量的增加，判別的總正確率呈上升趨勢(shì)，且以多維度指標(biāo)作為判別變量時(shí)的判別效果較單一維度更為理想。這說明判別分析方法在口語能力評(píng)價(jià)研究中具備較高的可行性，可以較好地預(yù)測(cè)考生的口語水平。

（二）在復(fù)雜度、準(zhǔn)確度和流利度三個(gè)維度中，復(fù)雜詞比例、Guiraud指標(biāo)、每50詞AS單位數(shù)量、單元詞語數(shù)量、語音準(zhǔn)確度、詞匯準(zhǔn)確度、句法準(zhǔn)確度、語速、發(fā)音時(shí)間比、平均語流長(zhǎng)度和百音節(jié)更改次數(shù)等11項(xiàng)指標(biāo)，對(duì)考生的口語水平具有較好的區(qū)分及預(yù)測(cè)效度。當(dāng)樣本容量為150時(shí)，以11項(xiàng)指標(biāo)作為判別變量的判別正確率最高達(dá)到 81.3% ，說明在對(duì)韓國(guó)高級(jí)漢語水平考生的二語口語水平進(jìn)行評(píng)價(jià)時(shí)，有必要多維度提取特征。

（三）根據(jù)判別結(jié)果，以11項(xiàng)評(píng)價(jià)指標(biāo)作為判別變量構(gòu)建了口語能力評(píng)價(jià)模型，經(jīng)HSK（高等）實(shí)測(cè)數(shù)據(jù)驗(yàn)證，判別模型的預(yù)測(cè)準(zhǔn)確率達(dá)到了 80% ，具有良好的預(yù)測(cè)效度。

采用判別分析法來擬合口語復(fù)雜度、準(zhǔn)確度及流利度評(píng)價(jià)指標(biāo)和專家評(píng)分的關(guān)系，從而構(gòu)建的評(píng)價(jià)模型，預(yù)測(cè)準(zhǔn)確性相對(duì)較高，能夠較好地實(shí)現(xiàn)對(duì)考生口語等級(jí)的分類，在大規(guī)?？谡Z能力評(píng)價(jià)中具有較好的應(yīng)用潛力。由于指標(biāo)處理難度較大，本研究選取的樣本量和評(píng)價(jià)維度有限，在今后的研究中如果能夠豐富被試的母語背景、擴(kuò)大樣本量、增加指標(biāo)維度及數(shù)量，并嘗試使用更加復(fù)雜精準(zhǔn)的判別分析方法，研究結(jié)果將具有更高的價(jià)值，有助于推進(jìn)口語能力評(píng)價(jià)體系的建設(shè)及口語自動(dòng)評(píng)分系統(tǒng)的完善。

參考文獻(xiàn)：

[1]王佶旻.第二語言口語考試評(píng)分方法述評(píng)[J].華文教學(xué)與研

究，2007，（1）：24-31.

[2]熊敦禮，陳玉紅，劉澤華，等.大學(xué)英語大規(guī)模錄音口語測(cè)試

研究[J].外語教學(xué)與研究，2002，（34）：283-287.

[3]Norris JM，Ortega L.Towards an Organic Approach to

Investigating CAF in Instructed SLA：The Case of Complexity [J].

[6]黃志娥，謝佳莉，荀恩東.HSK自動(dòng)作文評(píng)分的特征選取研究[J].計(jì)算機(jī)工程與應(yīng)用，2014，（6）：118-122+126.

[7]湯國(guó)春.對(duì)外漢語看圖說話題自動(dòng)評(píng)分模型的構(gòu)建研究[D].南京師范大學(xué)碩士學(xué)位論文，2019.

[8]陳偉，夏清泉.判別分析法及其在教育評(píng)估中的應(yīng)用[J].研究生教育研究，2010，（5）：65-67+76.

[9]柴省三.漢語水平口試信度的理論與實(shí)證研究[J].語言教學(xué)與研究，2003，（4）：69-77.

[10]柴省三.漢語作為第二語言習(xí)得的關(guān)鍵期假設(shè)研究[J].外語教學(xué)與研究，2013，（5）：692-706+799-800.

[11]Elis，R.Task-based LanguageLearningand Teaching[M].Oxforduniversity press，2003：5-16.

[12]FosterP，Tonkyn A，Wigglesworth G.Measuring SpokenLanguage：A Unit for All Reasons[J].Applied linguistics，20oO，21（3）：354-375.

[13]陳默.漢語作為第二語言的朗讀流利度和準(zhǔn)確度的實(shí)驗(yàn)研究[J].漢語應(yīng)用語言學(xué)研究，2015，（00）：123-138.

[14]陳默.漢語作為第二語言自然口語產(chǎn)出的復(fù)雜度、準(zhǔn)確度和流利度研究[J].語言教學(xué)與研究，2015，（3）：1-10.

[15]吳繼峰，趙曉娜.初中級(jí)漢語水平二語者口語產(chǎn)出質(zhì)量評(píng)估研究[J].語言文字應(yīng)用，2020，（1）：76-86.

[16]SatoT，McNamara T.WhatCountsin Second Language OralCommunication Ability？ The Perspective of Linguistic Laypersons [J].AppliedLinguistics，2019，40（6）：894-916.

A Study on the Assessment of Second Language Oral Proficiency in Chinese Based on Discriminant Analysis

Zhang Manli' Yu Jiahui2 Chai Xingsan2 1 Party School of Shenyang Municipal Committee，Shenyang，Liaoning，110167 2 Beijing Language and Culture University，Beijing，100083

Abstract：Taking HSK（higher）speaking test recordingsas the object of this study，using the consistency of thegradediscrimination results of seven sets of discriminant variables，including complexity，accuracy，fluency， and two dimensional and three-dimensional combinations of the above three types of indexes，three samples of differentcapacities compared with theratings of theexpertsare examined tosee how thevalidityof each of the speaking proficiency evaluationindicators.The results show that 11indicators，including theproportion of complex words，Guiraud's index，the number of AS units per 5O words，the number of unit words，phonological accuracy，lexical accuracy，syntacticaccuracy，speed of speech，articulation timeratio，average stream length，and the number of hundred-syllable changes，have good discriminating and predictive validity for the candidates‘oral proficiency.Itis necessary to extract features in multiple dimensions and increase the sample size when evaluating the oral proficiency of candidates learning Chinese as second language.

Key Words：Chinese Speaking Assessment，Complexity，Accuracy，F(xiàn)luency，Discriminant Analysis

（責(zé)任編輯：吳茫）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于判別分析的漢語二語口語能力評(píng)價(jià)研究