亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

HSK[高級]客觀卷的構(gòu)想效度初探

2012-01-03 09:21:00龔君冉

中國考試 2012年8期

龔君冉

龔君冉

本文通過因素分析的方法來檢驗HSK[高級]客觀卷的構(gòu)想效度，同時比較了用相關(guān)矩陣和協(xié)方差矩陣進行主成分分析，以及用Promax方法和Direct Oblimin方法進行斜交旋轉(zhuǎn)的結(jié)果。從5份試卷共1 343名被試所得的數(shù)據(jù)顯示，HSK[高級]客觀卷可能測到了“綜合的語言能力”和“長閱讀能力”。

HSK[高級]；構(gòu)想效度；因素分析

HSK是為測試母語為非漢語者的漢語水平而設(shè)立的一種標準化考試。HSK（改進版）是在原版HSK的基礎(chǔ)上進行的改進，包括初級、中級和高級三個等級。一個語言測驗的構(gòu)想效度如何，是否測出了它假設(shè)要測的語言能力，是測驗編制者非常關(guān)心的問題。關(guān)于原版HSK的構(gòu)想效度，已經(jīng)有了大量的研究，如張凱（1995）、郭樹軍（1995）、陳宏（1999）、李慧、朱軍梅（2004）和王小玲（2006）等，大部分研究認為原版HSK（初、中等）主要考了“聽”“讀”兩種能力。[1]-[5]HSK（改進版）問世之后，對其構(gòu)想效度的研究也逐步展開。李桂梅（2009）認為HSK[中級]客觀卷未能考查“聽”和“讀”的能力，而是考查了“聽、讀的綜合能力”。[6]趙琪鳳（2010）考查了HSK[高級]客觀卷的聽力理解分測驗，認為該分測驗考查出了“聽力能力”。[7]

本文希望通過因素分析的方法來全面考查HSK[高級]客觀卷的構(gòu)想效度，檢驗其是否達到了設(shè)計目標。

1 HSK[高級]的理論模型和試卷構(gòu)成

《漢語水平考試（HSK）改進方案》中明確指出，HSK（改進版）每個等級的客觀卷，均只有“聽力理解”和“綜合閱讀”兩種分測驗，目的是要讓被試分別從“聽”和“讀”兩個通道來接受刺激，并對刺激做出反應(yīng)。[8]HSK[高級]客觀卷的試卷構(gòu)成如表1所示。

表1 HSK[高級]客觀卷的試卷構(gòu)成

與改進版HSK[初級]和HSK[中級]不同的是，HSK[高級]客觀卷分成了卷一和卷二兩部分，卷二在卷一收回后再發(fā)，目的是確保被試只能用10分鐘來答題。因此本文首先假設(shè)HSK[高級]客觀卷希望考查被試在“聽力理解”、“綜合閱讀”和“速度”三個方面的潛在能力，并將這一構(gòu)想操作性地定義為：

聽力理解能力——在L1、L2、L3三種題型上的表現(xiàn)。

綜合閱讀能力——在R1、R2、R3三種題型上的表現(xiàn)。

速度——在R4一種題型上的表現(xiàn)。

2 統(tǒng)計分析

因素分析是一種統(tǒng)計技術(shù)，它的目的是從為數(shù)眾多的可觀測的“變量”中概括和推論出少數(shù)的“因素”，用最少的“因素”來概括和解釋最大量的觀測事實，從而建立起最簡潔、最基本的概念系統(tǒng)，揭示出事物之間最本質(zhì)的聯(lián)系。[9]

本文采用因素分析方法來檢驗HSK[高級]的構(gòu)想效度，所有數(shù)據(jù)均由SPSS11.0統(tǒng)計軟件產(chǎn)生。

2.1 觀測變量

對HSK[高級]客觀卷的觀測變量為L1至R4共7個題型。

2.2 材料

截至2011年6月，HSK[高級]正式考試一共使用了5份試卷，如表2所示。

表2 5份試卷的主要技術(shù)指標

由表2可見，5份試卷的樣本量差距較大，也不太接近正態(tài)分布，但α系數(shù)都在0.8以上，有較高的信度。

2.3 因素分析操作過程

2.3.1 因素分析適合性檢驗

首先應(yīng)進行KMO和Bartlett球形檢驗，以確定是否適合進行因素分析。

結(jié)果顯示只有A82的KMO值是0.891，其他4份試卷都在0.9以上，Bartlett球形檢驗結(jié)果也都顯著。說明采樣充足，且變量間的相關(guān)素數(shù)矩陣適合進行因素分析。

2.3.2 用主成分分析法提取公共因素

由于樣本不太接近正態(tài)分布，所以本文采用主成分分析法來提取公共因素。

2.3.2.1 用相關(guān)矩陣還是用協(xié)方差矩陣之辯

對于應(yīng)該使用相關(guān)矩陣還是用協(xié)方差矩陣來提取公共因素，存在一些不同的看法。一種觀點是應(yīng)從變量的性質(zhì)角度來看，也許最好的方法是只使用原始分數(shù)，就是說，把協(xié)方差矩陣作為分析的基礎(chǔ)，除非有很好的理由支持標準化……如果變量均屬于同一類型，例如不同語言測試的一組分數(shù)，分析的對象就應(yīng)該是原來的形式。[10]（筆者按：“原來的形式”指用“協(xié)方差矩陣”）

而很多人從變量的數(shù)值角度考慮，認為在利用協(xié)方差矩陣進行主成分分析時，一種心照不宣的假定是：變量的方差不應(yīng)相差太大。否則前幾個主成分將朝著那幾個有較大方差的變量的方向被抽取……一般對于這種方差相差很大的情況，為了防止主成分分解趨向方差大的變量，應(yīng)該先將數(shù)據(jù)標準化，然后從相關(guān)矩陣出發(fā)來進行主成分分析。[11]

那么對于本文所使用的材料來說，其變量從性質(zhì)看是屬于同一類型，應(yīng)該用協(xié)方差矩陣；但是從數(shù)值上看，各變量的方差又有很大差距，如5套卷子R3的方差在38.20到64.19，而R4的方差在3.77到4.95，則應(yīng)該用相關(guān)矩陣。鑒于這種情況，本文兩種矩陣都用，以便進行綜合分析。

2.3.2.2 第一次提取公共因素

通過用兩種矩陣對5份試卷分別提取3個公共因素發(fā)現(xiàn)，不論用哪種矩陣，5份試卷按照Kaiser原則都只能抽一個特征值＞1的因素，之后第二個因素基本在0.7左右，第三個因素基本在0.5左右。按照Jolife原則，特征值＞0.7也是可以接受的公共因素，那么只能接受前兩個因素，而排除第三個因素。

出現(xiàn)這種情況，或者理論假設(shè)不對，或者測驗不是對理論的好的操作性定義，或者理論假設(shè)和測驗都有問題。[12]那么問題究竟在哪兒呢？我們初步認為問題可能出在理論假設(shè)和操作性定義上。

再次分析HSK[高級]客觀卷的試卷構(gòu)成（見表1）可以發(fā)現(xiàn)，R4只有10道題目，占全部試題的6.7%；而L1、L2、L3共有60道題目，占40%；R1、R2、R3共有80道題目，占53%。這種試題比例上的不均衡，很可能造成即使有“速度”因素，也會由于主成分分析法是計算所有變量共同解釋的變異量，而使變量在“速度”上的負荷不顯著。

因此我們重新按照試卷構(gòu)成假設(shè)HSK[高級]客觀卷的理論模型，認為HSK[高級]客觀卷主要考查被試在“聽力理解”、“綜合閱讀”兩個方面的潛在能力，并重新操作性地定義為：

聽力理解能力——在L1、L2、L3三種題型上的表現(xiàn)。

綜合閱讀能力——在R1、R2、R3、R4四種題型上的表現(xiàn)。

2.3.2.3 第二次提取公共因素

按照新的操作性定義，我們再次用兩種矩陣對5份試卷分別提取2個公共因素，得到了各自的初始負荷矩陣（Component Matrix），見表3和表4。為了方便進行比較，本文用協(xié)方差矩陣算出的負荷值都顯示標準化后的，并將絕對值大于0.4視為有較大負荷，以*號表示。

通過比較表3和表4可以發(fā)現(xiàn)：

（1）不論使用哪種矩陣，總的看來，2個因素在5份試卷上的特征值、方差貢獻率和累計方差貢獻率差別不大。

表3 用相關(guān)矩陣進行主成分提取后的初始負荷矩陣

表4 用協(xié)方差矩陣進行主成分提取后的初始負荷矩陣

（2）不論使用哪種矩陣，5份試卷的7個變量在F1上都有較高的負荷，但在F2的負荷上有一些不同。用相關(guān)矩陣只有R4在F2上有高負荷，用協(xié)方差矩陣L1、R1、R2、R3都有至少1份試卷在F2上有高負荷，R4在F2上卻沒有高負荷。

2.3.3 旋轉(zhuǎn)初始負荷矩陣

由于語言測驗的因素之間可能相互有關(guān)聯(lián)，所以多采用斜交方法進行旋轉(zhuǎn)。前人的研究多用Pro?max方法或Direct Oblimin方法，因此我們這兩種旋轉(zhuǎn)方法都使用，以便分析比較，具體結(jié)果見表5～表8：

下面我們用三個標準對表5～表8進行分析比較：

（1）超平面數(shù)

旋轉(zhuǎn)的目的在于使經(jīng)過旋轉(zhuǎn)的因素負荷矩陣中的每一個變量都只負荷于少數(shù)的因素上，而矩陣中0或接近于0的負荷量則越多越好。這樣，就會使對各因素的解釋工作變得簡單易行。[13]超平面數(shù)是指一個因素或一組因素中接近于0（-.10＜W＜+.10）的負荷數(shù)目，這是評價不同旋轉(zhuǎn)方法的客觀指標。[14]超平面數(shù)在負荷矩陣所有元素中所占的比例可以作為一種評價因素分析結(jié)果的標準。[15]該比例越高越好。

（2）正負荷數(shù)

旋轉(zhuǎn)后的負荷矩陣應(yīng)呈現(xiàn)盡可能多的正負荷。這一點在關(guān)于能力的測量中尤為有用。因為能力變量與能力因素的負荷一般應(yīng)是正的。[16]我們用整個矩陣中正負荷數(shù)與全部負荷的數(shù)目的比例來衡量這一標準，比例越高越好。

（3）非顯著負荷數(shù)

我們認為非顯著負荷數(shù)可以近似地看成超平面數(shù)的擴大化。

表5 用相關(guān)矩陣提取后用Direct Oblimin方法旋轉(zhuǎn)后的負荷矩陣

表6 用相關(guān)矩陣提取后用Promax方法旋轉(zhuǎn)后的負荷矩陣

表7 用協(xié)方差矩陣提取后用Direct Oblimin方法旋轉(zhuǎn)后的負荷矩陣

由于因素負荷就是變量與因素間的相關(guān)系數(shù)，那么矩陣中的一些負荷雖然不接近0，但是小于相關(guān)系數(shù)顯著性水平的臨界值，那么也不能說明變量與因素之間的相關(guān)有統(tǒng)計上的顯著性，在分析時就可以忽略掉，符合因素分析的簡單原則。可以用矩陣中非顯著負荷數(shù)和與全部負荷數(shù)的比例來衡量這一指標，比例越高越好。

由于5份試卷的樣本量不同，在雙尾α=.01的檢驗水平下，因素負荷在統(tǒng)計上顯著的值也不同，通過查顯著性水平相關(guān)系數(shù)表，得到5份試卷各自的臨界值見表9：

表9 雙尾α=.01的檢驗水平下5份試卷各自的臨界值

使用上面3個標準對使用兩種矩陣和兩種旋轉(zhuǎn)方法進行比較，見表10：

總的看來，用協(xié)方差矩陣提取公共因素后用Promax方法進行旋轉(zhuǎn)是最優(yōu)的選擇。

但是使用哪種矩陣和哪種旋轉(zhuǎn)方法不僅有量上的區(qū)別，更有質(zhì)上的差異。把表5～表8綜合成表11，可以看得更清楚：

表10 用3個標準比較兩種矩陣和兩種旋轉(zhuǎn)方法

通過表11可以發(fā)現(xiàn)：

（1）總的看來，5份試卷不論用哪種矩陣和哪種旋轉(zhuǎn)方法，從L1到R2都基本負荷在F1上，R3基本負荷在F2上。

（2）不論用哪種矩陣，兩種旋轉(zhuǎn)方法間的差異不大，在顯著程度上不一致的只占5.7%，（在表11中用黑框標出）。

（3）R4比較特殊，用相關(guān)矩陣時比較顯著地負荷在F2上，而用協(xié)方差矩陣時并沒有顯著地負荷在F2上。

（4）A71卷也有一些特殊，用相關(guān)矩陣時與其他4份試卷相比，在因素負荷上有較大差別。

因此可以說，如果一次檢驗只用A71卷的相關(guān)矩陣，另一次檢驗只用A01的協(xié)方差矩陣，來檢驗HSK[高級]客觀卷的構(gòu)想效度，會得出很不同的結(jié)論。

2.3.4 結(jié)果對理論模型的擬合程度及因素的命名

總的來看，因素分析的結(jié)果與理論模型擬合得并不十分理想。

由于從L1到R2都基本負荷在F1上，所以不能認為F1就是理論假設(shè)的“聽力理解能力”或“綜合閱讀能力”。由于整套試卷都用多項選擇作為答題方式，所以聽力理解分測驗也會不可避免地有閱讀因素，尤其是L3，被試在答題時需要閱讀一段一二百字的摘要。這在A82卷上有明顯的體現(xiàn)，其L3部分在F2上也有較高負荷。由于F1可能涉及聽力理解、語法和短閱讀等能力，因此我們暫且將其命名為“綜合的語言能力”。

綜合5份試卷使用兩種矩陣和兩種旋轉(zhuǎn)方法的結(jié)果來看，可以近似地認為R3、R4負荷在F2上，那么這兩種題型可能單獨考查了一種能力。這種能力當然不是理論假設(shè)的“聽力理解能力”，而且也不能認為是“綜合閱讀能力”，因為R1、R2在這個因素上的負荷都不高。研究R3、R4這兩種題型可以發(fā)現(xiàn)，它們都是通過長段閱讀的刺激來進行反應(yīng)。那么我們暫且將F2命名為“長閱讀能力”。

3 討論

3.1 關(guān)于因素分析方法

首先，從本次研究的數(shù)據(jù)來看，用相關(guān)矩陣和用協(xié)方差矩陣的差異并不主要體現(xiàn)在提取主成分時，而是在旋轉(zhuǎn)之后有了更明顯的不同。如果使用同一種矩陣提取主成分，兩種旋轉(zhuǎn)方法的差異僅在用協(xié)方差矩陣提取時R3、R4負荷的正負上有表現(xiàn)。

總的看來，提取主成分時矩陣的選擇，會影響到旋轉(zhuǎn)后的結(jié)果，而且其影響可能要大于選擇不同的旋轉(zhuǎn)方法。這也可以說是從一個側(cè)面支持了“只有主成分提取是可靠的，因素的旋轉(zhuǎn)不是很可靠，變數(shù)較大”[17]的觀點。

其次，本文的研究過程顯示，因素分析方法需要用不同的樣本多次進行檢驗，如果只進行一次分析不一定能得出可靠的結(jié)論。

3.2 關(guān)于HSK[高級]客觀卷的構(gòu)想效度

僅就本文的研究數(shù)據(jù)而言，我們只能謹慎地認為HSK[高級]客觀卷可能測到了一個至少包含了聽力理解、語法和短閱讀等的“綜合的語言能力”，并或許測到了一種“長閱讀能力”。這一結(jié)果與前人對原版HSK和改進版HSK所進行的研究都有一定區(qū)別。HSK[高級]客觀卷的構(gòu)想效度究竟如何，還有待于用其他方法、用更多的樣本進行進一步的檢驗。

表11 5份試卷用兩種矩陣和兩種旋轉(zhuǎn)方法結(jié)果對比（只顯示顯著負荷）

[1]張凱.漢語水平考試結(jié)構(gòu)效度初探.首屆漢語考試國際學(xué)術(shù)研討會論文選.北京：北京語言學(xué)院出版社.1995.

[2]郭樹軍.漢語水平考試（HSK）項目內(nèi)部結(jié)構(gòu)效度檢驗.漢語水平考試研究論文選.北京：現(xiàn)代出版社.1995.

[3]陳宏.語言能力測驗的結(jié)構(gòu)效度檢驗及其意義.世界漢語教學(xué)，1999（1）.

[4]李慧，朱軍梅.漢語水平考試J324卷構(gòu)想效度的驗證研究.考試研究文集(第2輯).北京：經(jīng)濟科學(xué)出版社.2004.

[5]王小玲.HSK初中等效度研究報告.語言教學(xué)與研究，2006（6）.

[6]李桂梅.HSK[中級]主觀卷構(gòu)想效度研究.考試研究，2009（1）.

[7]趙琪鳳.HSK[高級]聽力理解分測驗新題型檢驗.中國漢語水平考試HSK（改進版）研究.北京：北京語言大學(xué)出版社.2010.

[8]北京語言大學(xué)漢語水平考試中心“HSK改進工作”項目組.漢語水平考試（HSK）改進方案.世界漢語教學(xué)，2007（2）.

[9][14][15][16]謝小慶，王麗.因素分析.北京:中國社會科學(xué)出版社.1989：2，146，114，115.

[10][17]Anthony Woods，等.陳小荷，等，譯.語言研究中的統(tǒng)計方法.北京：北京語言文化大學(xué)出版社.2000：298，298.

[11]柯惠新，沈浩.調(diào)查研究中的統(tǒng)計分析法（第2版）.北京：中國傳媒大學(xué)出版社.2005：433.

[12]張凱.語言測驗理論與實踐.北京：北京語言文化大學(xué)出版社.2002：154.

[13]袁方，王漢生.社會研究方法教程.北京：北京大學(xué)出版社.1997：604.

A Constructive Validity Research in Chinese Proficiency Test HSK(Advanced)

GONG Junran

This paper uses the factor analysis to test the constructive validity of HSK(Advanced)subjective test papers,and also makes comparison between using correlation matrix and covariance matrix for extraction,and makes comparison between using promax and direct oblimin for rotation.According to the result from all together 1343 test takes on five sets of HSK(Advanced)subjective test papers,the paper indicates that“general language competence”and“l(fā)ong paragraph reading comprehension competence”probably are tested in the test.

HSK(Advanced)；Constructive Validity;Factor Analysis

G405

1005-8427(2012)08-0003-8

本文為北京語言大學(xué)青年自主科研支持計劃資助項目（中央高校基本科研業(yè)務(wù)費專項資金資助）（項目批準號09JBG01）階段性成果，同時受到北京語言大學(xué)校級項目（中央高校基本科研業(yè)務(wù)費專項資金資助）（項目批準號：12YBG039）資助，謹致謝忱！

北京語言大學(xué)