陳壽雨
【摘要】DCOVA框架是用于學(xué)習(xí)和應(yīng)用統(tǒng)計(jì)學(xué)的一種重要方法。DCOVA框架包括定義數(shù)據(jù)(D)、收集數(shù)據(jù)(C)、整理數(shù)據(jù)(O)、可視化數(shù)據(jù)(V)和分析數(shù)據(jù)(A)等5個(gè)階段。DCOVA框架為學(xué)習(xí)和應(yīng)用統(tǒng)計(jì)學(xué)的相關(guān)人員提供了一條有效的途徑,用于幫助學(xué)生或相關(guān)從業(yè)者解決如何有效學(xué)習(xí)和使用統(tǒng)計(jì)學(xué)的問題。
【關(guān)鍵詞】統(tǒng)計(jì)學(xué)? DCOVA框架? 統(tǒng)計(jì)方法? 教學(xué)
一、引言
數(shù)據(jù)對(duì)于當(dāng)今天的商務(wù)活動(dòng)具有重大的意義。數(shù)據(jù)是關(guān)于這個(gè)世界的事實(shí),它能夠說明問題、提示事實(shí)、隱含規(guī)律。一些商業(yè)機(jī)構(gòu)正是通過“挖掘”數(shù)據(jù)來發(fā)現(xiàn)事物之間的關(guān)聯(lián)性,并從中獲取利潤(rùn)。如果人們躲避數(shù)據(jù),就可能由于盲目接受他人對(duì)數(shù)據(jù)的概括總結(jié)而上當(dāng)受騙,也可能完全依賴“感覺”來做決策,從而不利于做出正確的決策。因此,作為一門研究如何處理和分析數(shù)據(jù)的課程——統(tǒng)計(jì)學(xué)越來越受到各方重視。在高校中,絕大部分商科專業(yè)把統(tǒng)計(jì)學(xué)或商務(wù)統(tǒng)計(jì)作為專業(yè)必修課列入到人才培養(yǎng)方案中。如何學(xué)好、用好統(tǒng)計(jì)學(xué)成為當(dāng)前許多人需要迫切解決的一個(gè)問題。美國(guó)著名的統(tǒng)計(jì)學(xué)家萊文(Levine)等在其撰寫的統(tǒng)計(jì)學(xué)教科書中首次提出了DCOVA框架,用于指導(dǎo)學(xué)生或相關(guān)從業(yè)者如何有效學(xué)習(xí)和使用統(tǒng)計(jì)學(xué)。
二、基本術(shù)語
統(tǒng)計(jì)學(xué)是把數(shù)據(jù)轉(zhuǎn)化為信息用于決策的方法或工具。例如,為了研究青年人喜歡網(wǎng)上購(gòu)物的主要原因,可以通過調(diào)查來收集原始數(shù)據(jù),再制作總結(jié)表來整理數(shù)據(jù)從中獲得數(shù)據(jù)中隱藏的有用信息(最主要的原因是網(wǎng)上購(gòu)物價(jià)格便宜),最后根據(jù)所獲得的信息進(jìn)行決策,即網(wǎng)店價(jià)格要比實(shí)體店便宜才能吸引青年消費(fèi)者。從調(diào)查數(shù)據(jù)到總表結(jié),就是把數(shù)據(jù)轉(zhuǎn)化為信息的方法。統(tǒng)計(jì)方法是把數(shù)據(jù)轉(zhuǎn)化信息的方法,包括統(tǒng)計(jì)描述方法和統(tǒng)計(jì)推斷方法。統(tǒng)計(jì)描述方法主要包括收集、整理、可視化和概括數(shù)據(jù);統(tǒng)計(jì)推斷方法是指用樣本數(shù)據(jù)得出總體結(jié)論,包括對(duì)總體參數(shù)的置信區(qū)間估計(jì)和假設(shè)檢驗(yàn)。為了學(xué)習(xí)和使用統(tǒng)計(jì)學(xué)的方法,可以應(yīng)用DCOVA框架。DCOVA框架包括定義數(shù)據(jù)(D)、收集數(shù)據(jù)(C)、整理數(shù)據(jù)(O)、可視化數(shù)據(jù)(V)和分析數(shù)據(jù)(A)等5個(gè)階段(圖1)。例如,為了研究一所高校學(xué)生的努力學(xué)習(xí)程度,根據(jù)DCOVA框架,首要定義數(shù)據(jù),即找什么樣的數(shù)據(jù)能夠代表學(xué)生的努力學(xué)習(xí)程度,為此需要對(duì)努力學(xué)習(xí)程度開發(fā)一個(gè)可操作定義,比如用每天平均學(xué)習(xí)時(shí)長(zhǎng)(小時(shí))來代表一個(gè)學(xué)生的努力學(xué)習(xí)程度。其次要收集數(shù)據(jù),可以通過問卷調(diào)查的形式收集數(shù)據(jù)。再次是整理和可視化數(shù)據(jù),比如制作頻數(shù)分布表來整理數(shù)據(jù),從而可以查看學(xué)習(xí)時(shí)長(zhǎng)的分布情況,制作直方圖來可視化學(xué)習(xí)時(shí)長(zhǎng)數(shù)據(jù),從而直觀形象地顯現(xiàn)數(shù)據(jù)的分布特征,從中判斷學(xué)習(xí)時(shí)長(zhǎng)是否服從正態(tài)分布等。最后是分析數(shù)據(jù),比如可以分析不同專業(yè)、不同性別、不同年級(jí)的學(xué)生每天學(xué)習(xí)時(shí)長(zhǎng)均值的差異,或者估計(jì)全校學(xué)生每天平均學(xué)習(xí)時(shí)長(zhǎng)等。DCOVA框架較好地囊括了統(tǒng)計(jì)學(xué)教學(xué)中主要的知識(shí)體系。
三、定義數(shù)據(jù)(D)
定義數(shù)據(jù)主要是解釋收集什么數(shù)據(jù)的問題,它與一項(xiàng)研究的目的及其所涉及的變量相關(guān)。研究目標(biāo)決定研究中所涉及的變量,相關(guān)變量決定需要收集的數(shù)據(jù)(圖2)。在上述的例子中,研究目標(biāo)是“研究一所高校學(xué)生的努力學(xué)習(xí)程度”,其中“努力學(xué)習(xí)程度”就是研究中需要涉及的變量。由于該變量沒有直接的數(shù)據(jù)對(duì)應(yīng),需要開發(fā)一個(gè)相應(yīng)的可操作定義——如每天平均學(xué)習(xí)時(shí)長(zhǎng),最后去收集學(xué)生每天平均學(xué)習(xí)時(shí)長(zhǎng)的數(shù)據(jù)。
可操作定義指對(duì)所有與該分析相關(guān)的人而言很顯明是普遍接受的定義,是對(duì)某個(gè)抽象變量的一種清晰、精確的表述,是對(duì)該變量意義的共同理解。努力學(xué)習(xí)程度是一個(gè)抽象變量,在收集數(shù)據(jù)時(shí)會(huì)遇到麻煩,因此需要一個(gè)可操作定義。每天平均學(xué)習(xí)時(shí)長(zhǎng)可以作為努力學(xué)習(xí)程度的一個(gè)可操作定義,因?yàn)榇蠹移毡檎J(rèn)為一名學(xué)生在學(xué)習(xí)上花費(fèi)的時(shí)間越多,說明該生學(xué)生越努力,并有每天平均學(xué)習(xí)時(shí)長(zhǎng)是一種清晰、精確的表述,從而方便研究者收集相關(guān)的數(shù)據(jù)。
定義數(shù)據(jù)還包括確定所需數(shù)據(jù)的類型。數(shù)據(jù)是變量的取值,變量類型與其所對(duì)的數(shù)據(jù)類型一致。變量可以分為屬性變量(如性別)和數(shù)值變量,數(shù)值變量又進(jìn)一步區(qū)分為離散數(shù)值變量(如家庭人數(shù))和連續(xù)數(shù)值變量(如身高)。相應(yīng)的,數(shù)據(jù)可以分為屬性數(shù)據(jù)(如男、女)和數(shù)值數(shù)據(jù),數(shù)值數(shù)據(jù)又進(jìn)一步區(qū)分為離散數(shù)值數(shù)據(jù)(如2人、3人)和連續(xù)數(shù)值數(shù)據(jù)(如1.75m、1.68m)。在SPSS中,變量的測(cè)量尺度(類型)分為名義(圖標(biāo)為三個(gè)小圈)和有序(圖標(biāo)為階梯),這兩類都屬于屬性數(shù)據(jù);還有一類為標(biāo)度(圖標(biāo)為尺子),這類屬于數(shù)值數(shù)據(jù)。
四、收集數(shù)據(jù)(C)
在明確了需要什么數(shù)據(jù)的前提下,就需要進(jìn)入收集數(shù)據(jù)階段。收集數(shù)據(jù)(C)主要是解決數(shù)據(jù)的來源問題。數(shù)據(jù)的來源有原始數(shù)據(jù)來源和二手?jǐn)?shù)據(jù)來源。原始數(shù)據(jù)來源主要通過調(diào)查、觀察和實(shí)驗(yàn)獲得數(shù)據(jù);二手?jǐn)?shù)據(jù)來源主要是指其他組織或個(gè)人已公布的數(shù)據(jù)。由于獲得原始數(shù)據(jù)比較麻煩,所以二手?jǐn)?shù)據(jù)是首選的數(shù)據(jù)來源。
在經(jīng)濟(jì)管理研究領(lǐng)域,原始數(shù)據(jù)來源主要依靠調(diào)查。由普查涉及面廣、成本高、耗時(shí)長(zhǎng)和難度大,所以一般不常用,對(duì)許多研究者來說,主要通過抽樣調(diào)查來獲得原始數(shù)據(jù)。因此,如何抽樣就成了一個(gè)無法逃避的問題。調(diào)查數(shù)據(jù)的質(zhì)量直接影響研究的價(jià)值,如果數(shù)據(jù)本身嚴(yán)重存在錯(cuò)誤、偏見,不管采用什么數(shù)據(jù)分析方法,都很難得出可信的分析結(jié)果。為了從一種總體中找到一個(gè)樣本,并對(duì)樣本采集數(shù)據(jù),首先要做的工作是抽樣。不同的抽樣方法生成不同的樣本類型,如簡(jiǎn)單隨機(jī)抽樣方法生產(chǎn)簡(jiǎn)單隨機(jī)樣本,抽樣方法與形成的樣本類型一致。抽樣方法分為非概率抽樣和概率抽樣兩大類。非概率抽樣包括便利抽樣和判斷抽樣,其優(yōu)點(diǎn)是便利、快速、低成本,可以用于前期或試探性分析,其缺點(diǎn)是樣本的代表性一般較差,不能用于統(tǒng)計(jì)推斷。概率抽樣包括簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣、分層抽樣和群抽樣,其中簡(jiǎn)單隨機(jī)抽樣和系統(tǒng)抽樣的優(yōu)點(diǎn)是簡(jiǎn)單易行,但無法保證樣本的代表性;分層抽樣過程比較繁瑣,但能夠確保樣本的代表性,并能對(duì)每個(gè)層進(jìn)行分析,得出每層的結(jié)果;群抽樣的優(yōu)點(diǎn)是調(diào)查成本低,但有效性相對(duì)較差,需要增加樣本容量才能達(dá)到其他抽樣方法的效果。
五、整理數(shù)據(jù)(O)和可視化數(shù)據(jù)(V)
有了數(shù)據(jù)之后,就可以進(jìn)入數(shù)據(jù)的整理和可視化階段了。不同的數(shù)據(jù)類型分別有不同的整理和可視化方法。整理數(shù)據(jù)主要用到表格,可視化數(shù)據(jù)主要是用圖形。對(duì)于屬性數(shù)據(jù),可以用總結(jié)表、交叉表進(jìn)行整理,用條形圖、餅圖、帕累托圖、對(duì)比條形圖等工具進(jìn)行可視化。對(duì)于數(shù)值數(shù)據(jù),可以用頻數(shù)分布表進(jìn)行整理,用莖葉圖、直方圖、折線圖、箱線圖、散點(diǎn)圖等工具進(jìn)行可視化。從對(duì)數(shù)據(jù)的整理和可視化的工作中,可以獲得數(shù)據(jù)的描述性信息。
六、分析數(shù)據(jù)(D)
在許多研究中,只有用到表格和圖形等描述性方法是不夠的,還需要使用度量方法來概括數(shù)據(jù)的特征,使用統(tǒng)計(jì)推斷方法從樣本數(shù)據(jù)中得出有關(guān)總體的結(jié)論。計(jì)算數(shù)值度量和進(jìn)行統(tǒng)計(jì)推斷都是屬于分析數(shù)據(jù)的階段。在數(shù)值度量方面,可以從集中趨勢(shì)、變異程度和分布形狀等三個(gè)維度進(jìn)行。集中趨勢(shì)的主要度量指標(biāo)有平均數(shù)、中位數(shù)和眾數(shù),變異程度的主要度量指標(biāo)有全距、方差、標(biāo)準(zhǔn)差和變異系數(shù);分布形狀的主要度量指標(biāo)有偏度和峰度。在統(tǒng)計(jì)推斷方面,主要包括參數(shù)估計(jì)和假設(shè)檢驗(yàn),其中參數(shù)估計(jì)包含點(diǎn)估計(jì)和區(qū)間估計(jì),假設(shè)檢驗(yàn)包括單樣本檢驗(yàn)、雙樣本檢驗(yàn)和多樣本檢驗(yàn)(包括方差分析、卡方檢驗(yàn)等)。
參考文獻(xiàn):
[1]Levine, d., and d. Stephan. “teaching Introductory Business Statistics Using the DCOVA Framework.” Decision Sciences Journal of Innovative Education 9 (Sept. 2011): 393–398.
[2]萊文.商務(wù)統(tǒng)計(jì)學(xué)[M].中國(guó)人民大學(xué)出版社,2017.