在上一期我們主要從數(shù)據(jù)構(gòu)成要素、數(shù)據(jù)類型、數(shù)據(jù)表要求三方面闡述了什么是數(shù)據(jù),并且說(shuō)到后期的數(shù)據(jù)處理工作都是圍繞如何得到符合數(shù)據(jù)分析的數(shù)據(jù)要求樣式(一維表)所開展。本期就和大家共同探討數(shù)據(jù)處理的那些事兒。
經(jīng)常有朋友分不清楚數(shù)據(jù)分析與數(shù)據(jù)處理這兩個(gè)概念,常?;煜褂?。那到底什么是數(shù)據(jù)處理?它跟數(shù)據(jù)分析有什么區(qū)別呢?為何要進(jìn)行數(shù)據(jù)處理?包含哪些處理方法?在Excel中如何進(jìn)行數(shù)據(jù)處理?
數(shù)據(jù)處理是根據(jù)數(shù)據(jù)分析目的,將收集到的數(shù)據(jù)用適當(dāng)?shù)奶幚矸椒ㄟM(jìn)行整理加工,形成適合數(shù)據(jù)分析的要求樣式,也就是一維表。數(shù)據(jù)處理是數(shù)據(jù)分析流程中必不可少的階段,并且需要花費(fèi)整個(gè)數(shù)據(jù)分析流程70%~80%的時(shí)間。
數(shù)據(jù)處理的目的包括以下三點(diǎn):
1. 抽取、推導(dǎo)出有價(jià)值、有意義的數(shù)據(jù);
2. 將采集到的原始數(shù)據(jù)轉(zhuǎn)化為可以分析的形式;
3. 保證數(shù)據(jù)的一致性和有效性。
數(shù)據(jù)處理主要包含五大方法:數(shù)據(jù)清洗、數(shù)據(jù)抽取、數(shù)據(jù)合并、數(shù)據(jù)計(jì)算、數(shù)據(jù)轉(zhuǎn)化。
數(shù)據(jù)清洗,顧名思義,就是將多余重復(fù)的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補(bǔ)充完整,將錯(cuò)誤的數(shù)據(jù)糾正或剔除,最后的數(shù)據(jù)應(yīng)該達(dá)到“多一分則肥,少一分則瘦”的狀態(tài)。
清除重復(fù)數(shù)據(jù)
在Excel中,查找或刪除重復(fù)數(shù)據(jù)的常用方法主要有:
* 條件格式標(biāo)識(shí)法
* 高級(jí)篩選法
* 函數(shù)法(Countif)
* 菜單刪除法
* 數(shù)據(jù)透視表法
每種方法各有優(yōu)缺點(diǎn),需要根據(jù)實(shí)際情況選擇使用。
條件格式標(biāo)識(shí)法只能告訴你哪些數(shù)據(jù)存在重復(fù),而不會(huì)告訴你各個(gè)數(shù)據(jù)各重復(fù)多少次,共有多少個(gè)重復(fù)數(shù)據(jù)。
Countif函數(shù)對(duì)思維邏輯要求高且編寫麻煩,不適合用于大量數(shù)據(jù)的去重。
高級(jí)篩選法與菜單刪除法則無(wú)法告訴你哪些數(shù)據(jù)存在重復(fù)。也不會(huì)告訴你各個(gè)數(shù)據(jù)各重復(fù)多少次,共有多少個(gè)重復(fù)數(shù)據(jù)。只會(huì)告訴你去重后的結(jié)果。
處理重復(fù)數(shù)據(jù),推薦使用數(shù)據(jù)透視表法。它不僅能告訴你去重后的結(jié)果,還能告訴你各個(gè)項(xiàng)重復(fù)的次數(shù)。而且,只要用鼠標(biāo)輕松拖動(dòng)字段,即可得到我們所要的結(jié)果。
現(xiàn)在我們就以上期的通話清單為例,來(lái)分別得到去重的結(jié)果及各個(gè)號(hào)碼重復(fù)的次數(shù)。具體操作步驟如下:
步驟1:用Excel2010打開通話清單,點(diǎn)擊“插入”選項(xiàng)卡,在“表格”功能組中,單擊“數(shù)據(jù)透視表”按鈕,選擇“數(shù)據(jù)透視表(T)”項(xiàng)(見(jiàn)圖1)。
步驟2:在彈出的“創(chuàng)建數(shù)據(jù)透視表”對(duì)話框“選擇一個(gè)表或區(qū)域”中選擇數(shù)據(jù)源單元格范圍,本例為“Sheet1!$A$1:$H$157”,在“選擇放置數(shù)據(jù)透視表的位置”中選擇放置數(shù)據(jù)透視表的位置,本例為“現(xiàn)有工作表”,位置為“Sheet1!$J$1”,并單擊“確定”按鈕(見(jiàn)圖2)。
步驟3:在彈出的“數(shù)據(jù)透視表字段列表”對(duì)話框中,將“對(duì)方號(hào)碼”字段拖至行標(biāo)簽,這個(gè)時(shí)候就得到了去重后的號(hào)碼,這是在上一期數(shù)據(jù)理解部分介紹數(shù)值型數(shù)據(jù)時(shí)提到的一種特殊的分類數(shù)據(jù)。這里就是利用該原理,把號(hào)碼當(dāng)做分類數(shù)據(jù)拖至行標(biāo)簽處,得到每類數(shù)據(jù)即可實(shí)現(xiàn)數(shù)據(jù)去重(見(jiàn)圖3)。
步驟4:在第三步的基礎(chǔ)上,再次將“對(duì)方號(hào)碼”字段拖至數(shù)值匯總區(qū)域,即可得到各個(gè)數(shù)據(jù)項(xiàng)重復(fù)的次數(shù),簡(jiǎn)單、方便、快捷(見(jiàn)圖4)。
缺失數(shù)據(jù)處理
缺失值是指數(shù)據(jù)表中某個(gè)或某些屬性的值是不完全的,這在數(shù)據(jù)分析中很常見(jiàn)。缺失值是因人為、機(jī)械等各種原因而導(dǎo)致數(shù)據(jù)的不完整。機(jī)械原因指由于數(shù)據(jù)收集或保存失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲(chǔ)的失敗,存儲(chǔ)器損壞,機(jī)械故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集;人為原因指由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,比如在市場(chǎng)調(diào)查中被訪人拒絕透露相關(guān)問(wèn)題的答案,或者對(duì)問(wèn)題的回答是無(wú)效的,又或數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)。
處理缺失值的方法有四種:
(1)用一個(gè)樣本統(tǒng)計(jì)量的值代替缺失值,如使用平均值;
(2)用一個(gè)統(tǒng)計(jì)模型計(jì)算出來(lái)的值去代替缺失值,常使用的模型有回歸模型等;
(3)將有缺失值的記錄刪除,不過(guò)可能會(huì)導(dǎo)致樣本量的減少;
(4)將有缺失值的個(gè)案保留,僅在相應(yīng)的分析中做必要的排除。
上述這些操作不需要人工進(jìn)行處理,SAS、SPSS等專業(yè)的統(tǒng)計(jì)軟件都有現(xiàn)成的功能菜單可一步實(shí)現(xiàn),故對(duì)此部分不再進(jìn)行Excel相應(yīng)操作的介紹。
檢查數(shù)據(jù)邏輯
錯(cuò)誤數(shù)據(jù)一般有兩種形式:
(1)數(shù)據(jù)超出正常范圍:例如某項(xiàng)數(shù)據(jù)的正常范圍為0~10,結(jié)果出現(xiàn)了0~10之外的數(shù)據(jù)。在Excel中檢查數(shù)據(jù)是否超出正常范圍,可以使用條件格式對(duì)異常數(shù)據(jù)進(jìn)行標(biāo)示。
(2)數(shù)據(jù)選項(xiàng)超出規(guī)定項(xiàng)數(shù):市場(chǎng)調(diào)查中常見(jiàn)這樣的錯(cuò)誤,例如“最多選擇3個(gè)選項(xiàng)”的多選題,答題者選擇了4個(gè)選項(xiàng)。在Excel中檢查數(shù)據(jù)選項(xiàng)是否超出規(guī)定項(xiàng)數(shù),可以使用If+Countif函數(shù)組合嵌套的方式進(jìn)行判斷識(shí)別,如圖5所示,第二條記錄就是選了A、B、D、F四項(xiàng),不符合選三項(xiàng)的要求,所以Countif函數(shù)用于統(tǒng)計(jì)“不等于0”的選項(xiàng)個(gè)數(shù),并用If函數(shù)進(jìn)行判斷“不等于0”的選項(xiàng)個(gè)數(shù)是否大于3個(gè),是的話就賦值“錯(cuò)誤”,否則就賦值“正確”。
本期數(shù)據(jù)處理技巧就介紹到這里,下期將介紹數(shù)據(jù)抽取與數(shù)據(jù)合并兩方面的數(shù)據(jù)處理技巧。
編輯:?jiǎn)沃?/ 郵箱:szh@bjstats.gov.cn