張士偉
(萊蕪職業(yè)技術學院體育教研室,山東萊蕪271100)
電子表格軟件在體育問卷調查數據統(tǒng)計處理中的應用研究
張士偉
(萊蕪職業(yè)技術學院體育教研室,山東萊蕪271100)
論文根據電子表格軟件的特點和統(tǒng)計功能,在電子表格中創(chuàng)建了問卷調查原始數據統(tǒng)計表;結合問卷調查問題的類型特點,介紹了描述性標題和問卷原始數據內容的輸入方法以及數據輸入的注意事項;從利用"粘貼函數"、"數據分析"和"數據透視表和透視圖"等三種方法對調查問卷原始數據的進行統(tǒng)計處理做了詳細說明。
電子表格軟件;問卷調查;數據統(tǒng)計
問卷調查是體育社會科學常用的研究方法之一,是獲得體育科研資料和信息的重要手段,已被廣泛運用到體育的各個領域之中,發(fā)揮著重要的作用。由于問卷調查所搜集的原始數據通常是雜亂無章的,想要把這些龐雜的數據加工成更多有價值的統(tǒng)計信息,充分挖掘信息所反映的問題,就需要對這些原始問卷內容進行科學的整理和有效的匯總,計算出相關的統(tǒng)計量,并進行估計和檢驗,從而為進一步的理論分析、解釋提供依據,達到對總體屬性特征的準確預測和推斷。在問卷調查數據的統(tǒng)計處理方法中,SPSS和SAS等專業(yè)軟件的統(tǒng)計功能比較完善,但這些專業(yè)統(tǒng)計軟件對使用者的要求較高,需要具有較強的數理統(tǒng)計知識。Excel雖然沒有被歸納為統(tǒng)計軟件,其統(tǒng)計功能無法與SPSS和SAS等專業(yè)統(tǒng)計軟件相比,但它是一個集數據表、工作函數、VAB應用程序和強大的報表處理于一身的數據統(tǒng)計工具,不僅限于數字處理,還能處理圖表、文字等,能夠鏈接任何數據庫系統(tǒng),數據可以與WORD、SPSS等軟件實現共享和轉換,因此在某些初級問卷調查數據的統(tǒng)計處理方面應用較廣,本文重點對Excel電子表格軟件在體育問卷調查數據統(tǒng)計處理中的應用進行探討。
在科研實踐中發(fā)現,許多碩士研究生和體育教師對于問卷調查原始數據的統(tǒng)計大都采用手工方法,他們首先將問卷各題的原始數據手工分別統(tǒng)計,然后將統(tǒng)計結果輸入到計算機中,再對數據進行處理和分析,做出各種圖表和和進行檢驗。這種方法不僅問卷統(tǒng)計的工作量大,而且不同的問題單獨進行統(tǒng)計,難以相互兼顧,不能把相關聯的問題有機地綜合考慮,致使許多有用信息在手工統(tǒng)計的過程中被遺漏掉。我們知道一個Excel工作薄包含255個工作表(Sheet),每個工作表都是由256列和65536行構成的二維表格,也稱作電子表格,每個行列的交叉部分稱為單元格,用于存儲、組織和分析數據。根據Excel二維表格的特點,我們考慮在工作表中按照調查問卷中題目的順序,將題號及內容提要放在了第一行,把每個問題需要回答的內容進行概括作為各列的描述性標題(即列標簽)放在第二行,第一列作為問卷編號欄,按照編號順序將調查問卷的內容輸入到工作表中(見圖1:問卷調查原始數據統(tǒng)計表),這樣問卷的調查內容便以"數據清單"的形式表現出來,可以將它作為一個有機整體,利用Excel軟件的排序、篩選、分類匯總、交叉分析和分析工具庫來完成數據的匯總和統(tǒng)計處理。
2.1 描述性標題的輸入
語言是人類最重要的交際工具,交際也是語言的重要功能。從中級階段起,培養(yǎng)學生運用英語進行交際的能力應占據英語口語教學的較大比重。
在問卷原始數據統(tǒng)計表中,作為描述性標題所在的第二行才是真正意義的原始數據統(tǒng)計區(qū)域的首行。由于Excel允許使用漢字或英文字母作為列名,并且對字數也幾乎沒有限制,但考慮這些數據將來可能會轉到SPSS或SAS軟件中進行分析,因此描述性標題一般控制在4個漢字以內,將對每個問題回答內容的概括作為其列標題名稱輸入到相應位置(見圖1)。
圖1 問卷調查原始數據統(tǒng)計表
2.2 問卷調查原始數據的輸入
一般說來,問卷調查常見的題目類型主要包括填空題、單項選擇題、等級/順序選擇題、多項選擇題、子題等。根據每個題目答案個數的多少,可分為單一答案和多個答案兩種情況,填空題、單項選擇題、等級/順序選擇題等屬于單一答案的問題,多項選擇題屬于多個答案的問題。為了便于數據的統(tǒng)計處理,需要根據數據統(tǒng)計處理的要求對原始問卷的內容進行編碼,將問卷的回答結果轉化為適當的數字,并按一定要求輸入到計算機中,以便進行后續(xù)的統(tǒng)計分析。
2.2.1 單一答案題目數據的輸入
對于填空題、單項選擇題和等級/順序選擇題等,它的答案是唯一的,只需要將答案的數字或選擇項編號直接輸入到對應的列位內即可。
2.2.2 多個答案問題數據的輸入
對于多選題,由于其答案為多個,需要根據該題限制的答案數保留列數。多選題可分為兩種情況:第一種為限選題,通常在題目上標明最多可選擇的選項數,一般是三項或五項,列標題名稱根據該題目的要求而定,如排序多選題常將列標題名稱設置為第一位、第二位、…等;在數據輸入時,按照位次將所選答案的編號輸入到相應列的單元格內即可,若回答者選擇的答案少于該題限制的答案數,未選擇的部分可輸入“0”來代替。第二種為任意多選題,由于各選擇項之間沒有重要程度的區(qū)分,也沒有規(guī)定最多選項數,通常將所有答案內容各自作為列標題名稱,按照答案順序在標題行依次排列;數據輸入時,我們在相應選擇項的列位內錄入數字“1”代替原來選擇項代碼,未選擇的部分可不輸入或輸入“0”來代替。
2.2.3 子題的輸入
子題是附屬在某一題目之下,必須回答了某一特定答案后,再對第一問的回答內容作追蹤回答,需要對后續(xù)問題的回答方式作特殊排列或說明。這類問題在統(tǒng)計表上的列標題設置要根據后續(xù)回答的問題類型而定。數據輸入方式可參照“單一答案”或“多個答案”問題的有關要求進行。
2.3 數據輸入的注意事項
2.3.1 問卷一定要先加上編號
編號可在開始訪問前或訪問回收以后加入,最好在問卷回收后,按調查單位順序進行編號,以便日后分析時,若發(fā)現數據可能有錯誤時,可利用編號找出原來的問卷進行修改。
2.3.2 輸入數據時,應注意其數據的正確性
除鍵入數據要格外小心外,還可以利用程序或指令來控制其正確性,如事前的數據驗證預防和事后的范圍檢查。事前的預防主要是在開始輸入數據之前,對每一列設定必要的驗證規(guī)則,以控制所輸入數據的正確性;事后的范圍檢查是在完成數據輸入后對工作表中的數據進行審核。利用Excel的有關功能查找錯誤數據或異常數據,主要方法包括:①執(zhí)行“數據>有效性”進行數據驗證及圈選錯誤數據;②選擇“數據>篩選”的自動篩選和高級篩選功能找出錯誤數據;③利用“格式>條件格式”對選定區(qū)域內的數據進行檢查。
2.3.3 利用凍結窗口功能
由于調查問卷的列標題行數較多,問卷份數也不少,輸入數據時可執(zhí)行“窗口>凍結窗口”,將列標題和問卷編號等內容永遠保留在屏幕上,當光標移往下面的屏幕時,仍可以看到這些標題和問卷編號,便于數據輸入、查閱、編輯和修改等。
一般情況下,問卷調查得到的既有連續(xù)型變量性質的數值數據,也有離散型變量性質的代碼數據,對于這些原始數據的統(tǒng)計處理,需要根據研究目的、變量類型、樣本的分布來選擇適宜的統(tǒng)計量和處理方法。
3.1 數值性數據的統(tǒng)計處理
圖2 數據透視表求統(tǒng)計量
圖3 描述統(tǒng)計求相關統(tǒng)計量
在問卷調查中,通過填空方式得到的一般是具有連續(xù)變量性質的數值性數據,對于這類數據,一是直接計算各種統(tǒng)計量,即描述統(tǒng)計:通常會求其各類平均值、方差、標準差、極值、中位數等統(tǒng)計量。二是求頻數分布,有時需要將連續(xù)數據轉化成簡單的間斷數字,當成數組來統(tǒng)計頻數。三是進行各種檢驗、相關和回歸等。
3.1.1 計算各種統(tǒng)計量
在Excel電子表格軟件中,計算統(tǒng)計量的方法主要有:①函數方法。對于均值、標準差、方差、最大值、最小值、中位數等統(tǒng)計量,可以直接用Excel內建函數AVERAGE()、STDEV()、VAR()、MAX()、M I N()、MED I AN()來計算。在Excel中使用函數時通常采用兩種輸入方式,一是從鍵盤上直接輸入該函數公式的有關內容;二是使用"粘貼函數"對話框,根據提示完成函數的計算。利用函數時要注意該函數的意義、適用范圍和使用條件等,以便快速準確的利用函數進行數據統(tǒng)計處理。②利用數據透視表獲得統(tǒng)計量。數據透視表是一種對大量數據快速匯總和建立交叉列表的交互式表格,可以通過旋轉其行或列以查看對源數據的不同匯總,還可以通過顯示不同的行標簽來篩選數據,它是Excel強大數據處理能力的具體表現。我們可以將問卷原始數據統(tǒng)計表中的數據作為數據源,選擇從標題行開始的全部數據區(qū)域,按照數據透視表功能向導的提示,根據研究需要設置字段布局來產生交叉分析表,通過調整行、列字段名稱和改變字段設置中源字段的"數據項"匯總方式,對不同問題選擇合適的計算選項。如本研究中對不同學歷教師發(fā)表論文的情況進行匯總,在使用數據透視表時,將"學歷"作為行字段,把"論文"作為匯總"數據項"拖拉兩次,通過調整"數據項"的匯總方式,可以同時得到不同學歷教師發(fā)表論文的平均值和方差(見圖2),同樣的方式可以獲得總和、最大值、最小值、標準偏差等其他統(tǒng)計量。③利用"數據分析"中的"描述統(tǒng)計"可以同時快速獲取各種統(tǒng)計量。通過加載宏的方式添加"分析工具庫",便可以在"工具"菜單下得到"數據分析"選項。"數據分析"的"描述統(tǒng)計"提供了選擇區(qū)域數據的算術平均值、標準誤差、中位數、眾數、標準差、方差、峰度、偏度、區(qū)域、極值(包含最大值和第幾最大值、最小值和第幾最小值)、求和、觀測數、置信度等統(tǒng)計量,它不僅能夠從集中趨勢、離散趨勢和分布趨勢三個方面對原始數據進行充分描述,而且還能據此對總體進行均值的區(qū)間估計和假設檢驗。圖3是通過"描述統(tǒng)計"獲得的教師發(fā)表論文情況的各種統(tǒng)計量。
3.1.2 求頻數分布
對于數值性的數據,有時不僅需要求平均數、標準差等統(tǒng)計量,而且還需要研究其頻數分布,計算百分比。如果這些連續(xù)性的數值數據比較分散,可以用IF函數或VLOOKUP函數進行分組,將其轉化成非連續(xù)的區(qū)間數據,并以代碼表示相應區(qū)間數據,這樣數據的性質就非常接近離散型變量。如果本研究中要了解教師發(fā)表論文的數量分布情況,由于數值比較分散,我們將論文數量分成了0-5、6-10、11-15、16-20、20以上五個區(qū)間,分別用1、2、3、4、5作為其代碼,利用函數IF(G3<=5,1,IF(G3<=10,2,IF(G3<= 15,3,IF(G3<=20,4,IF(G3>=20,5)))))在H列中得到代碼值,就可以利用有關函數(如COUNTIF或FREQUENCY)、數據透視表進行頻數分布統(tǒng)計,并計算相應的百分比。
圖4 本科學歷教師和研究生學歷教師的雙樣本平均差檢驗
3.1.3 進行各種檢驗、相關和回歸等
這類問題若用手工進行計算,過程比較復雜和繁瑣。Excel提供了有著強大統(tǒng)計功能的一組數據分析工具,稱為"分析工具庫",也就是工具菜單中的"數據分析"選項。利用"數據分析"選項,我們可以進行方差分析(包括單因素、可重復雙因素、無重復雙因素)、F-檢驗(雙樣本方差分析)和t-檢驗(平均值的成對二樣本分析、雙樣本等方差假設、雙樣本異方差假設)等,也可以求相關系數和回歸方程。進行數據處理時只需為每一個分析工具提供必要的數據和參數,該工具就會自動使用適宜的統(tǒng)計或工程函數,在輸出的表格中顯示相應的結果,有些還能在生成輸出表格的同時生成圖表。如本研究要對本科學歷和研究生學歷教師發(fā)表論文的平均數進行檢驗,前面已通過數據透視表求出了不同學歷教師發(fā)表論文的平均數和方差,可以利用"數據分析"的"Z-檢驗:雙樣本平均差檢驗"。首先,將數據按學歷進行排序,將本科學歷教師發(fā)表論文作為變量1,研究生學歷教師發(fā)表論文作為變量2;然后輸入變量1和變量2的數據區(qū)域和它們的方差,假設平均差設置為0,選擇數據輸出區(qū)域,就可以得到檢驗的相關數據(見圖4),P> 0.05,說明兩者的平均數沒有差異。
3.2 離散型變量數據的統(tǒng)計處理
選擇題獲得的是關于被調查者的基本情況、看法、態(tài)度、傾向、愛好等離散變量性質的數據,這類數據通常只求個數分配表(即頻數分布),以其出現個數多少進行比較,一般不求其平均數、標準差等統(tǒng)計量,有時進行卡方檢驗。
3.2.1 單項選擇題的統(tǒng)計處理
頻數分布是問卷調查中使用最廣泛的分析技巧之一,對于單選題的頻數分布表,可以利用COUNTIF或FREQUENCY函數求得,但這兩個函數一次只能對一個變量求頻數分布,而且還要在原始數據列以外的位置增加列位來存放有關代碼選項和計算數據,改變了“問卷調查原始數據統(tǒng)計表”的原來結構,數據處理起來不太方便。在體育科研中,只對單一變量求頻數分布有時不能滿足研究的需要,并且意義不大,通常要研究兩個或以上變量的相互關聯性,對于兩個變量的不同選項內容進行比較,并通過卡方檢驗分析它們之間是否存在顯著性差異。若同時求兩個變量的頻數分布并進行卡方檢驗,最便捷的處理方式是利用數據透視表和數據透視圖來建立交叉表。由于同時對兩個變量求頻數分布,需要增加作為求和“數據項”內容的字段列,為此我們在數據統(tǒng)計表添加了一列全部為“1”數據,將此列名稱命名為“標記數”,用于數據匯總。在本課題中為了解不同職稱教師之間的科研合作態(tài)度,并研究他們之間是否存在差異,首先我們可以利用“數據透視表和數據透視圖向導”,建立職稱與科研合作態(tài)度的交叉分析表,得到不同職稱教師的科研合作態(tài)度的頻數分布表(見圖5(一));將圖5(一)的數據進行復制,把代碼轉換為原文字內容,便得到卡方檢驗所用觀察值范圍(B11:E14)(見圖5(二));根據卡方檢驗的有關計算知識,首先計算表格中第一個單元格的期望值,即第一行合計數*第一列合計數/總數(=B$15*$F11/$F$15),通過運用單元格的引用和復制,獲得卡方檢驗所用的期望值范圍(I11:L14)(見圖5(三)),然后用卡方檢測函數CH ITEST(B11:E14,I11:L14)計算出P值為0. 000000455,說明不同職稱教師間的科研合作態(tài)度存在明顯差異。
圖5 數據透視表對單選題求頻數分布并進行卡方檢驗
3.2.2 多項選擇題的統(tǒng)計處理
對于多項選擇題的統(tǒng)計處理,即使利用SPSS、SAS等統(tǒng)計套裝軟件,此類題目也只能進行次數分配與交叉分析而已。多項選擇題求頻數分布,同單項選擇題一樣,利用數據透視表要比COUNTIF或FREQUENCY函數要簡捷、快速和方便。由于多選題的答案一般在兩個以上,處理過程相對單項選擇題要復雜些,需要加上許多額外的步驟,甚至重復多次操作才能完成,而且不方便對兩個變量同時求頻數,不能進行卡方檢驗。根據多項選擇題的分類,求頻數分布可分為兩種情況:第一種為限選題,以本課題對不同職稱教師科研目的調查數據的處理為例,按照數據透視表向導,以“職稱”為行字段,“第一位”為列字段,以“標識數”為數據項,計算出不同職稱老師在“第一位”的各選擇項頻數(見A4:F10),將有關數據進行復制粘貼,再把職稱代碼和選擇項代碼轉換成相關文字,便得到各職稱教師第一位科研目的不同選擇項頻數。通過更換列字段名稱,以同樣的方式可以計算出“第二位”和“第三位”各選擇項的頻數分布,將不同職稱教師的科研目的整理為下表的數據格式,便可以根據研究需要再對這些數據進行統(tǒng)計處理。
第二種情況是除對每個選擇項來求頻數分布外,還要對答案選項計算頻數,如本課題中任選題“教師在科研中常用的方法”,我們既要研究教師每種方法的頻數,還要研究教師使用方法的個數。對于這類問題,我們一般是將所有答案選項作為列標題,按照順序全部排列在數據統(tǒng)計表上。由于在數據輸入時,我們將相應選擇項代碼用數字“1”代替,我們可以多選定數據范圍外的一行和一列的單元格,在這個區(qū)域內利用自動求和功能同時對行和列來計算頻數。
圖6 數據透視表對多選題求頻數分布
以上僅從利用工具欄的“粘貼函數”和菜單欄“工具”的“數據分析”和菜單欄“數據”的“數據透視表和透視圖”等三個方面對體育問卷調查原始數據的統(tǒng)計處理進行了簡要說明,對于Excel的其它統(tǒng)計功能應用沒有闡述,在體育科研中只要我們結合實際,充分挖掘Excel的強大統(tǒng)計功能,就能起到事半功倍的作用。
[1]張士偉.山東省普通高校體育科研現狀及其影響因素研究[D].北京:北京體育大學碩士學位論文,2003.
[2]周登嵩.體育科研概論[M].北京:北京體育大學出版社,2001.
[3]陳小蓉.體育科學研究原理與方法[M].北京:北京體育大學出版社,2001.
[4]祁國鷹,徐明,張明立.實用體育統(tǒng)計[M].北京:北京體育大學出版社,1997.
[5]祁國鷹.體育用多元分析[M].北京:北京體育大學出版社,1998.
[6]劉學貞體育用數據處理方法[M].北京:北京體育大學出版社,2001.
[7]楊世瑩.Excel數據統(tǒng)計與分析范例應用[M].北京:中國青年出版社,2004.
[8]唐世雄.EXCEL統(tǒng)計功能的應用研究[J].成都信息工程學院學報,2002,17(4).
[9]王作燦,張士偉.學生體質健康測試數據的Excel統(tǒng)計處理研究[J].紅河學院學報,2009(4).
[10]潘璐,姚瑤,張建春等.在Excel中實現統(tǒng)計功能擴展[J].中國衛(wèi)生統(tǒng)計,2007(5).
[11]閆安.巧用EXCEL處理統(tǒng)計數據表[J].中國統(tǒng)計,2007 (9).
[責任編輯 自正發(fā)]
On the Statistics of Questionna ire Data in Sport Scientific Processing with Excel
ZHANG Shi-wei
(Dept of Physical Education,Laiwu Vocational&Technology College,Laiwu 271100,China)
Based on the features and statistical functionsof the Excel,the author had established statistical graph for the questionnaire data in sport scientific in Excel.According to the type of questionnaire problem,this article had introduced the inputmethods of descriptive title and the contents of the questionnaire original data and data input attention.Complywith three kindsmethod the treatment being in progress counting has composed detailed description for inquiring into the questionnaire basic data such as for m and perspective view making use of“paste function”,“data analysis”and“data perspective and perspective drawing”
Excel;questionnaire;data statistics
book=8,ebook=200
TP31
A
1008-9128(2010)04-0067-06
2010-06-10
萊蕪職業(yè)技術學院科研基金資助項目
張士偉(1970-),男,山東省寧陽縣人,碩士,副教授。研究方向:體育教學與訓練。