亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

《中國(guó)家庭追蹤調(diào)查》中字詞測(cè)試的信度和效度分析

2016-06-05 14:19:55李佩華

中國(guó)考試 2016年11期

吳瓊李佩華

吳瓊李佩華

大型綜合性調(diào)查經(jīng)常包含認(rèn)知測(cè)試部分?；诳刂普{(diào)查成本以及降低數(shù)據(jù)缺失率的要求，大型調(diào)查中的認(rèn)知測(cè)試設(shè)計(jì)一般較為簡(jiǎn)潔，在這種情況下，其信度和效度可能受到影響。本文運(yùn)用經(jīng)典測(cè)試?yán)碚摵晚?xiàng)目反應(yīng)理論兩種方式來分析“中國(guó)家庭追蹤調(diào)查”中字詞測(cè)試的信度和效度。我們還同時(shí)比較了3種計(jì)分方法，它們分別是原始分計(jì)分法、最難題計(jì)分法以及基于項(xiàng)目反應(yīng)理論的計(jì)分法。分析結(jié)果顯示，“中國(guó)家庭追蹤調(diào)查”中字詞測(cè)試信度較高，其結(jié)構(gòu)效度和效標(biāo)效度良好。3種計(jì)分方法結(jié)果的相關(guān)度很高，在分析截面數(shù)據(jù)時(shí)沒有實(shí)質(zhì)性的差別。

中國(guó)家庭追蹤調(diào)查；字詞測(cè)試；認(rèn)知測(cè)試；信度；效度；經(jīng)典測(cè)試?yán)碚?；?xiàng)目反應(yīng)理論

認(rèn)知測(cè)試在國(guó)內(nèi)外大型調(diào)查中經(jīng)常出現(xiàn)，如美國(guó)的《健康與退休調(diào)查》（Health and Retirement Study）、《兒童早期發(fā)展追蹤調(diào)查》（Early Childhood Longitudinal Study）以及國(guó)內(nèi)的《中國(guó)健康與養(yǎng)老追蹤調(diào)查》（China Health and Retirement Longitudinal Study）、《中國(guó)家庭追蹤調(diào)查》（China Family Panel Studies,以下簡(jiǎn)稱CFPS）等。大型調(diào)查中的認(rèn)知測(cè)試與獨(dú)立的認(rèn)知測(cè)試有所不同。前者對(duì)控制調(diào)查成本以及減少受訪者負(fù)擔(dān)以降低數(shù)據(jù)缺失率更為關(guān)注，于是認(rèn)知測(cè)試的設(shè)計(jì)會(huì)盡量簡(jiǎn)潔。本研究旨在分析全國(guó)性大型調(diào)查CFPS中字詞測(cè)試部分在簡(jiǎn)潔的設(shè)計(jì)思路下的信度和效度。

CFPS從2010年正式啟動(dòng)，在全國(guó)25個(gè)省、市和自治區(qū)（不含新疆、西藏、青海、內(nèi)蒙古、寧夏、海南）采用分層抽樣的方法，訪問樣本家庭中的每個(gè)人，收集社區(qū)、家庭、個(gè)人層面的數(shù)據(jù)，內(nèi)容涉及經(jīng)濟(jì)、人口、健康、教育等各方面；計(jì)劃每?jī)赡陮?duì)家庭中的核心人員進(jìn)行追蹤。其基線調(diào)查已經(jīng)收集到來自634個(gè)社區(qū)中14 960個(gè)家庭中共57 155個(gè)成員的數(shù)據(jù)。

本文運(yùn)用經(jīng)典測(cè)試?yán)碚摲椒ê晚?xiàng)目反應(yīng)理論方法，分析此調(diào)查中字詞測(cè)試部分的信度和效度，針對(duì)CFPS的設(shè)計(jì)，對(duì)字詞測(cè)試采用3種不同的計(jì)分方法，并對(duì)其進(jìn)行比較。

1 CFPS中字詞測(cè)試

字詞測(cè)試是CFPS中認(rèn)知測(cè)試的一部分，它適用于調(diào)查中年齡在10周歲及以上的人群。訪員向受訪者出示的圖片中的文字，受訪者將所示文字朗讀出來。由于CFPS是追蹤性調(diào)查，因此，為了受訪者在追蹤訪問中不受以前測(cè)試的影響，字詞測(cè)試共設(shè)計(jì)了8套難度相當(dāng)?shù)脑嚲?，受訪者在首次調(diào)查中隨機(jī)接受其中的一套試卷，在下次訪問中同樣的受訪者會(huì)接受另外一套試卷。每一套字詞試卷共包含34個(gè)文字，它們按難度由低到高的順序排列，受訪者從最容易的試題開始，按順序逐字回答，直到他們連續(xù)答錯(cuò)3道試題或全部完成試題為止。為了盡量縮減訪問時(shí)間，提高訪問效率，不同學(xué)歷的受訪者從不同的試題開始回答。具體來說，具有小學(xué)及以下學(xué)歷的受訪者從第1道試題開始，具有初中學(xué)歷的受訪者從第9道題開始，具有高中及以上學(xué)歷的受訪者從第21道題開始。這樣的設(shè)計(jì)雖然縮短了調(diào)查用時(shí)，降低了受訪者負(fù)擔(dān)，但它帶來了試題層面數(shù)據(jù)的兩種系統(tǒng)性缺失，一是試卷一開始那些被認(rèn)為對(duì)某些受訪者太容易的試題（即未呈現(xiàn)的試題），另一種是試卷結(jié)尾部分那些被認(rèn)為對(duì)某些受訪者太難的試題（即未觸及的試題）。

2 心理測(cè)量學(xué)模型

信度和效度是心理測(cè)量學(xué)中的基本概念，它們是衡量試卷質(zhì)量的重要指標(biāo)。信度是指測(cè)量結(jié)果的一致性或穩(wěn)定性，效度是指測(cè)量結(jié)果能準(zhǔn)確反映所要測(cè)量的特質(zhì)的程度。我們運(yùn)用以下兩種心理測(cè)量學(xué)的模型來分析CFPS字詞測(cè)試分?jǐn)?shù)的信度和效度。

2.1 經(jīng)典測(cè)試模型

經(jīng)典測(cè)試?yán)碚摚–lassical Test Theory，CTT）認(rèn)為，我們所觀測(cè)到的分?jǐn)?shù)（O）由兩部分組成：受訪者的真實(shí)分?jǐn)?shù)（T）以及誤差分?jǐn)?shù)（E）;誤差是隨機(jī)的（即O=T+E），并且與真實(shí)分?jǐn)?shù)沒有相關(guān)性。這種定義是完全理論性的，因?yàn)樵诂F(xiàn)實(shí)中，真實(shí)分?jǐn)?shù)總是不可知的。信度概念建立在平行測(cè)試（Parallel Forms）的概念之上，其值定義為兩個(gè)平等測(cè)試分?jǐn)?shù)的相關(guān)系數(shù)值；這個(gè)定義同樣也是理論性的，因?yàn)橥耆叫械臏y(cè)試很難實(shí)現(xiàn)。在現(xiàn)實(shí)中，信度的計(jì)算方法會(huì)采用其他方式，而Cronbach’s alpha便是其中運(yùn)用最為廣泛的方法。我們將在下文闡述這種方法。所有基于CTT理論的分析都存在一個(gè)的根本局限性，那就是結(jié)果受樣本的影響很大。

2.2 項(xiàng)目反應(yīng)理論模型

項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）認(rèn)為，受訪者有一定的概率答對(duì)每一道題，這個(gè)概率是受訪者能力（通常用θ表示）以及試題性質(zhì)（如難度、區(qū)分度）的綜合函數(shù)。在IRT理論中，信度的概念主要被測(cè)試信息函數(shù)（Test Information Function，TIF）取代，與CTT中提供單一的總體信度值不同，TIF能反映出在不同的受訪者能力區(qū)間該測(cè)試所測(cè)量的信息量，這個(gè)信息量與信度呈正相關(guān)。雖然TIF在IRT中運(yùn)用廣泛，但為了便于跟CTT中的信度估計(jì)值保持一致，IRT框架也提供了一個(gè)綜合性信度指數(shù)：邊際信度值（Marginal Reliability Estimate）。

3 計(jì)分方法

由于CFPS字詞測(cè)試設(shè)計(jì)的特殊性，其計(jì)分方法至少有原始分計(jì)分法、最難題計(jì)分法、IRT計(jì)分法3種，其中前兩種基于CTT，后一種基于IRT。

3.1 原始分計(jì)分法

原始分計(jì)分法根據(jù)受訪者答對(duì)試題的數(shù)量來計(jì)分，這是CTT框架下最直接和最常用的計(jì)分法。在CFPS中，由于不同學(xué)歷的人群從不同的試題開始，其原始分需要在最基本的計(jì)算上稍做調(diào)整。具體來說，對(duì)于小學(xué)及以下學(xué)歷的受訪者，其原始分等于其答對(duì)試題的數(shù)目；對(duì)于初中學(xué)歷的受訪者，其原始分等于其答對(duì)試題的數(shù)目加上8；對(duì)于高中及以上學(xué)歷的受訪者，其原始分等于其答對(duì)試題的數(shù)目加上20。

3.2 最難題計(jì)分法

最難題計(jì)分法根據(jù)受訪者答對(duì)的最難一道試題的序號(hào)來打分。這種計(jì)分法基于一種假設(shè)：即試題有絕對(duì)的難度順序，答對(duì)難題的受訪者具備答對(duì)難度較低的所有試題的能力（但由于誤差的存在，其實(shí)際答案也許不一定總是正確的）。CFPS字詞測(cè)試的設(shè)計(jì)思路建立在這個(gè)假設(shè)之上。

需要提到的是，以上兩種基于CTT的計(jì)分方法，在計(jì)分時(shí)均忽略了8套試卷之間難度上可能存在的細(xì)微差別，并沒有通過統(tǒng)計(jì)的方法來進(jìn)行分?jǐn)?shù)等值計(jì)算（Equating）。這種做法出于兩方面的考慮：第一，計(jì)算出各試卷的平均分相差很小，不同試卷平均分的效應(yīng)差均不超過0.10（由實(shí)際組間差除以整個(gè)樣本的標(biāo)準(zhǔn)方差得出），而且在大部分情況下不具有統(tǒng)計(jì)顯著性。在試卷幾乎沒有實(shí)質(zhì)性差別的情況下，不進(jìn)行統(tǒng)計(jì)性的等值計(jì)算效果可能更好，因?yàn)榻y(tǒng)計(jì)性等值計(jì)算本身也會(huì)引進(jìn)誤差。第二，原始分計(jì)分法和最難題計(jì)分法的相對(duì)優(yōu)勢(shì)（即其在計(jì)算及分?jǐn)?shù)詮釋上的便利）在進(jìn)行分?jǐn)?shù)等值計(jì)算后會(huì)相對(duì)削弱。

3.3 IRT計(jì)分法

這種計(jì)分方法是建立在由IRT中的雙參數(shù)lo?gistic（以下簡(jiǎn)稱2PL）模型建模的基礎(chǔ)上，采用貝氏估計(jì)的期望后驗(yàn)法（Expected a Posteriori,EAP）所得的分?jǐn)?shù)。對(duì)于每一套試題，IRT模型將答題人分成3組（即按學(xué)歷而從不同試題開始回答的3組人群），并考慮到這3組人所答試題的不同。相比于CTT來說，IRT的一個(gè)特點(diǎn)是即使受訪者答的題不一樣，IRT也能提供可以直接比較的分?jǐn)?shù)。未呈現(xiàn)給受訪者的試題不在計(jì)分模型中，而未觸及的試題算做錯(cuò)題。為了統(tǒng)計(jì)估算的需要，第一組受訪者能力的平均值預(yù)設(shè)為0，其標(biāo)準(zhǔn)方差預(yù)設(shè)為1，IRT的分析由統(tǒng)計(jì)軟件BILOG-MG實(shí)施。

4 信度

4.1 CTT信度

在CTT下，我們采用最常用的信度估計(jì)方法Cronbach’s alpha，對(duì)參與同一套試卷的3個(gè)教育組分別計(jì)算。Cronbach’s alpha將每道試題都視為一個(gè)小測(cè)試，然后將同一套試卷中的每道試題相互視為平行測(cè)試。從數(shù)學(xué)意義上來說，Cronbach’s alpha是信度值的一個(gè)低估值，其值在0～1之間，越接近1，指示信度值越高。Cronbach’s alpha的局限性在于受試卷試題數(shù)量的影響很大，試題數(shù)量越多，Cronbach’s alpha值越接近1。前面已經(jīng)提到過，字詞測(cè)試的設(shè)計(jì)使其存在兩種系統(tǒng)性缺失，在計(jì)算Cronbach’s alpha時(shí)，我們將未呈現(xiàn)的試題去除，而將未觸及的試題視為錯(cuò)題。因此，對(duì)于3個(gè)教育組來說，每套試卷的實(shí)際長(zhǎng)度分別為34道題、26道題和14道題。

4.2 IRT信度

我們采用EAP估計(jì)中所計(jì)算的經(jīng)驗(yàn)信度值（Empirical Reliability）作為IRT中信度的估計(jì)。經(jīng)驗(yàn)信度是由真實(shí)分?jǐn)?shù)方差除以真實(shí)分?jǐn)?shù)方差與誤差分?jǐn)?shù)方差的和而得出。在EAP估計(jì)中，誤差分?jǐn)?shù)方差是樣本中所有個(gè)體能力后估值的方差的平均數(shù)，而真實(shí)分?jǐn)?shù)方差直接由樣本計(jì)算出的EAP得分的方差得出。這個(gè)值由BILOG-MG直接計(jì)算得出。

5 效度

5.1 結(jié)構(gòu)效度

結(jié)構(gòu)效度（Construct Validity）是指測(cè)量結(jié)果符合理論設(shè)想的科學(xué)意義的程度。我們利用Mplus軟件將數(shù)據(jù)與單因子驗(yàn)證性因子分析模型進(jìn)行擬合。擬合優(yōu)度由以下3個(gè)指數(shù)綜合判斷：RMSEA, CFI和TLI。如果RMSEA不大于0.08，且CFI和TLI都不小于0.90，則模型擬合得較好。除驗(yàn)證性因子分析以外，我們也使用探索性因子分析模型來分析數(shù)據(jù)。

5.2 效標(biāo)效度

效標(biāo)效度（Criterion Validity）是指測(cè)量結(jié)果與能表示被測(cè)概念的標(biāo)準(zhǔn)變量之間的相關(guān)性。我們通過分析字詞測(cè)試分?jǐn)?shù)與兩個(gè)效標(biāo)變量的相關(guān)性來收集相關(guān)效度證據(jù)。這兩個(gè)效標(biāo)變量分別是CFPS的數(shù)學(xué)測(cè)試以及受訪者的教育年限。數(shù)學(xué)測(cè)試是CFPS認(rèn)知測(cè)試的另外一部分，共有4套試卷，每套24道題，這24道題分別來自12個(gè)年級(jí)，每個(gè)年級(jí)水平有2道試題。試題也是按其難度排序，具有小學(xué)學(xué)歷及以下的從最容易的第1道題開始測(cè)試，初中學(xué)歷的從第13道題開始測(cè)試，高中及以上學(xué)歷的從第19道題開始測(cè)試。CFPS的數(shù)學(xué)測(cè)試采用最難題計(jì)分法。受訪者教育年限來自受訪者自己的陳述，如果其缺失，則從家庭成員的代答中嘗試尋找。無論是CFPS數(shù)學(xué)測(cè)試，還是受訪者教育年限，并非都是字詞測(cè)試的黃金效標(biāo)變量，但受訪者的數(shù)學(xué)能力及其教育年限應(yīng)該與其識(shí)字能力呈現(xiàn)顯著的正相關(guān)性。

6 結(jié)果

本研究的分析共涉及23 980個(gè)樣本，樣本量在8套試卷中大致呈均衡分配，每套試題答題者在2 907～3 072人。樣本人群的平均年齡在42歲，約49%為男性。不同套試卷答題者在年齡和性別的平均分布上沒有差別。每套試卷中，約有52%的人具有小學(xué)及以下文化程度（教育分組1），約30%的人具有初中學(xué)歷（教育分組2），剩下的18%具有高中及以上學(xué)歷（教育分組3）。

6.1 信度

表1展示了分試卷和分組得出的Cronbach’s alpha的值和經(jīng)驗(yàn)信度值。總體來說，信度值處在高區(qū)間，最低值為0.85。跟預(yù)計(jì)相符，基于CTT的信度值Cronbach’s alpha受題量多少（即實(shí)際試卷長(zhǎng)度）的影響，其值總是在第一組中最大（試卷長(zhǎng)度為34道題），第二組其次（試卷長(zhǎng)度為26道題），在第三組中最小（試卷長(zhǎng)度為14道題）；而基于IRT的信度值并沒有這樣的模式。但不論是CTT，還是IRT，都同樣反映出第三組的信度值最小。

6.2 分?jǐn)?shù)分布

表2列出了基于3種計(jì)分方法得出的分?jǐn)?shù)分布。原始分計(jì)分法和最難題計(jì)分法屬于同一度量衡，它們具有直接可比性，最難題計(jì)分法的平均分稍高于原始分計(jì)分法。3種得分都呈負(fù)偏態(tài)分布，說明處在高分區(qū)間的人多于處在低分區(qū)間的人。在3種得分中，IRT計(jì)分法的偏度（-0.46）相對(duì)其他兩種計(jì)分較高。與正態(tài)分布相比，3種得分的分布都相對(duì)扁平（峰度為負(fù)值），而IRT計(jì)分法的峰度（-0.80）比其他兩種得分更接近零。

表1 基于CTT和IRT方法的信度值

表2 不同計(jì)分法的分?jǐn)?shù)分布和描述性統(tǒng)計(jì)結(jié)果

表2中同時(shí)列出了各教育分組的平均分?jǐn)?shù)和標(biāo)準(zhǔn)方差。教育程度高的小組的平均得分明顯高于教育程度低的小組，這樣的模式雖然跟原始分計(jì)分法和最難題計(jì)分法的規(guī)則有很大關(guān)系，但I(xiàn)RT計(jì)分法并沒有強(qiáng)制這樣的模式。由于3種計(jì)分法并不都處于同樣的度量衡，為了方便比較，我們計(jì)算了效應(yīng)差。我們注意到最難題計(jì)分法和IRT計(jì)分法得出的教育組間效應(yīng)差非常類似，但原始分計(jì)分法得出的組1和組3之間的差別要大于基于其他兩種計(jì)分法得出的差別。

我們也計(jì)算了3組分?jǐn)?shù)之間的相關(guān)系數(shù)（見表3），3組分?jǐn)?shù)之間的相關(guān)性非常高，相關(guān)系數(shù)的值不低于0.95。

表3 3種計(jì)分法的相關(guān)系數(shù)值

6.3 結(jié)構(gòu)效度

表4所顯示的各擬合優(yōu)度指數(shù)反映出數(shù)據(jù)和單因子驗(yàn)證性因子模型擬合得比較充分。對(duì)于8套試卷所產(chǎn)生的數(shù)據(jù)來說，RMSEA處在0.05到0.08之間，CFI和TLI高達(dá)0.99。探索性因子模型的結(jié)果也支持一個(gè)因子的假設(shè)，最大的特征值（約在28左右）遠(yuǎn)大于第二大特征值（約在2左右），我們不贅述詳細(xì)的探索性因子模型分析結(jié)果。

6.4 效標(biāo)效度

總體來說，3種計(jì)分法的得分與兩個(gè)效標(biāo)變量（CFPS數(shù)學(xué)測(cè)試得分、教育年限）有很高的相關(guān)性（如圖1和圖2所示）。具體來說，原始分計(jì)分法（NR）在3類得分中與兩個(gè)效標(biāo)變量的相關(guān)度在每套試題中都最高；IRT計(jì)分法的得分與兩個(gè)效標(biāo)變量的相關(guān)度在大部分情況下都高于最難題計(jì)分法，因此總體上最難題計(jì)分法（HSN）與效標(biāo)變量的相關(guān)度最低。我們認(rèn)為最難題計(jì)分法與效標(biāo)變量相關(guān)度最低的這一發(fā)現(xiàn)是相對(duì)穩(wěn)健的，因?yàn)閿?shù)學(xué)測(cè)試得分的計(jì)分法也是最難題計(jì)分法。

圖1 三種計(jì)分法結(jié)果與數(shù)學(xué)測(cè)試分?jǐn)?shù)的相關(guān)系數(shù)

表4 單因子驗(yàn)證性因子模型擬合優(yōu)度結(jié)果

圖2 三種計(jì)分法結(jié)果與教育年限的相關(guān)系數(shù)

7 結(jié)論與討論

本研究運(yùn)用CTT和IRT方法對(duì)CFPS中的字詞測(cè)試進(jìn)行了信度和效度的檢驗(yàn)。信度由Cronbach’s alpha以及IRT經(jīng)驗(yàn)信度系數(shù)得出，效度通過因子分析以及相關(guān)性分析得出。無論是CTT還是IRT方法得出的初步結(jié)論都一致，CFPS的字詞測(cè)試具有較高的信度，其結(jié)構(gòu)效度較好，與現(xiàn)有的效標(biāo)變量相關(guān)度很高。

本研究特別比較了3種計(jì)分法（原始分計(jì)分法，最難題計(jì)分法和IRT計(jì)分法），基本結(jié)論是這三者之間高度一致，運(yùn)用任何一種計(jì)分法得出的結(jié)論都不會(huì)對(duì)研究結(jié)果產(chǎn)生實(shí)質(zhì)性區(qū)別。盡管如此，我們還是發(fā)現(xiàn)了小的差別。首先，IRT計(jì)分法得分的分布在三者當(dāng)中偏度最高（-0.46），峰度最接近正態(tài)分布（-0.80）；其次，原始分計(jì)分法得出的教育分組1到組3之間的組間差大于由其他兩種計(jì)分法得出的組間差；再次，原始分計(jì)分法與兩個(gè)效標(biāo)變量（CFPS數(shù)學(xué)測(cè)試分?jǐn)?shù)、教育年限）的相關(guān)度最高，最難題計(jì)分法最低。如果一定要在三者之間推薦一個(gè)分?jǐn)?shù)，原始分計(jì)分法也許有微弱優(yōu)勢(shì)，這主要是因?yàn)槠湓谟?jì)算方法上和分?jǐn)?shù)詮釋方面都比IRT更加便捷。但要注意的是，這種推薦只適用于截面數(shù)據(jù)的分析。如果要做追蹤分析的話，也許其他的計(jì)分法（如IRT）更加適用。

本研究的一個(gè)主要局限性是缺乏最佳的效標(biāo)變量。在理想的狀態(tài)下，我們希望擁有受訪者在另一個(gè)字詞測(cè)試方面的分?jǐn)?shù)，將這個(gè)分?jǐn)?shù)作為效標(biāo)變量。但這種黃金的效標(biāo)變量不存在，我們只能借助于與識(shí)字水平高度相關(guān)的其他變量。另一個(gè)局限性是我們只有該試題測(cè)試的基線數(shù)據(jù)，無法分析測(cè)試對(duì)時(shí)間的敏感性。但我們的樣本人群中有很廣的年齡層，相關(guān)的分析已經(jīng)發(fā)現(xiàn)測(cè)試分?jǐn)?shù)和年齡有很強(qiáng)的相關(guān)性，具體來說，對(duì)于16歲以下的青少年來說，其分?jǐn)?shù)隨年齡增長(zhǎng)，而對(duì)于成人來說，其分?jǐn)?shù)隨年齡降低。

當(dāng)大型調(diào)查中包含認(rèn)知測(cè)試時(shí)，其設(shè)計(jì)通常要在很大程度上考慮調(diào)查成本控制以及受訪者負(fù)擔(dān)。在這種情況下，信度和效度也許要受影響。本研究的初步分析發(fā)現(xiàn)CFPS字詞測(cè)試的信度和效度均比較理想。

[1]謝宇.中國(guó)家庭追蹤調(diào)查（2010）用戶手冊(cè)[C/OL].[2016-10-12]. http://www.haihongyuan.com/zhexuelishi/160948.html.

[2]李燦,辛玲.調(diào)查問卷的信度與效度的評(píng)價(jià)方法研究[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25（5）.

[3]NOVICK M.The axioms and principal results of classical test theory [J].Journal of mathematical psychology,1966（3）,1-18.

[4]韓耀風(fēng),郝元濤,方積乾.項(xiàng)目反應(yīng)理論及其在生存質(zhì)量研究中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2006（6）.

[5]HAMBELTON R.Emergence of item response modeling in instru?ment development and data analysis[J].Medical Care,2000（38）: 60-65.

[6]HAMBELTON R.SWAMINATHAN H.Item Response Theory: Principals and Applications[M].Boston:Kluwer Academic Publish?ers,1985.

[7]KOLEN M J,BRENNAN R L.Test equating,scaling,and linking [M].New York,NY:Springer,2004.

[8]BIRNBAUM A.Some latent trait models and their use in inferring an examinee’s ability[M]//LORD F M,NOVICK,M R（Eds.）.Statis?tical theories of mental test scores.MA:Addison-Wesley,1968.

[9]SIJTTSMA K.On the use,the misuse,and the very limited useful?ness of Cronbach’s Alpha[J].Psychometrika,2009（74）:107-120.

[10]MUTHEN L K,MUTHEN B O.Mplus User’s Guide[M].7th ed. Los Angeles,CA:Muthén&Muthén,2013.

[11]HU L,BENTLER P.Fit indices in covariance structure modeling: sensitivity to underparameterized model misspecification[J].Psy?chological Methods,1998（3）:424-453.

[12]徐宏偉，駱為祥.中國(guó)家庭追蹤調(diào)查2010年綜合變量（1）:字詞與數(shù)學(xué)測(cè)試,中國(guó)家庭追蹤調(diào)查技術(shù)報(bào)告系列（CFPS-11）[C/ OL].[2016-10-12].http://www.docin.com/p-1729243739.html.

Psychometric Properties of the Literacy Test from China Family Panel Studies

WU Qiong&LI Peihua

Many large scale surveys contain cognitive assessment modules.The design of those cognitive tests is often brief in order to minimize test administration cost and maintain acceptable response rates.This paper evaluated the psychometric properties of the literacy test from China Family Panel Studies（CFPS）using both Classical Test Theory（CTT）and Item Response Theory（IRT）approaches.We also compared three different scoring methods:number-right,highest sequence number,and IRT scaled scores.Both CTT and IRT approaches provided positive evidence for reliability and validity of test scores from the CFPS literacy test.Three scoring methods yielded results that were highly consistent with one another.

Reliability;Validity;Cognitive Assessment;Literacy Test;Classical Test Theory;Item Response Theory;China Family Panel Studies

G405

1005-8427（2016）11-0044-7

（責(zé)任編輯：周黎明）

吳瓊，女，北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心，副研究員（北京 100871）

李佩華，女，美國(guó)賓夕法尼亞州州立大學(xué)，副教授（美國(guó)賓夕法尼亞州 16802）

中國(guó)考試2016年11期

中國(guó)考試的其它文章: 云計(jì)算技術(shù)在教育考試中的應(yīng)用; 效度論證范式下的ECD測(cè)試設(shè)計(jì)框架
——我國(guó)教育考試國(guó)家題庫(kù)的升級(jí)路徑之一; 英國(guó)高校招生考試制度探析; 高校學(xué)生學(xué)習(xí)成果測(cè)評(píng)的歷史、現(xiàn)狀以及前瞻; GMAT綜合推理試題的研發(fā)及效度驗(yàn)證; 江西教育考試在深入改革中的發(fā)展
——《江西省教育考試志》（1977—2010）內(nèi)容概要