亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)處理非常道(上)

        2013-12-31 00:00:00張文霖
        數(shù)據(jù) 2013年9期

        在上一期我們主要從數(shù)據(jù)構(gòu)成要素、數(shù)據(jù)類型、數(shù)據(jù)表要求三方面闡述了什么是數(shù)據(jù),并且說(shuō)到后期的數(shù)據(jù)處理工作都是圍繞如何得到符合數(shù)據(jù)分析的數(shù)據(jù)要求樣式(一維表)所開展。本期就和大家共同探討數(shù)據(jù)處理的那些事兒。

        經(jīng)常有朋友分不清楚數(shù)據(jù)分析與數(shù)據(jù)處理這兩個(gè)概念,常?;煜褂?。那到底什么是數(shù)據(jù)處理?它跟數(shù)據(jù)分析有什么區(qū)別呢?為何要進(jìn)行數(shù)據(jù)處理?包含哪些處理方法?在Excel中如何進(jìn)行數(shù)據(jù)處理?

        數(shù)據(jù)處理是根據(jù)數(shù)據(jù)分析目的,將收集到的數(shù)據(jù)用適當(dāng)?shù)奶幚矸椒ㄟM(jìn)行整理加工,形成適合數(shù)據(jù)分析的要求樣式,也就是一維表。數(shù)據(jù)處理是數(shù)據(jù)分析流程中必不可少的階段,并且需要花費(fèi)整個(gè)數(shù)據(jù)分析流程70%~80%的時(shí)間。

        數(shù)據(jù)處理的目的包括以下三點(diǎn):

        1. 抽取、推導(dǎo)出有價(jià)值、有意義的數(shù)據(jù);

        2. 將采集到的原始數(shù)據(jù)轉(zhuǎn)化為可以分析的形式;

        3. 保證數(shù)據(jù)的一致性和有效性。

        數(shù)據(jù)處理主要包含五大方法:數(shù)據(jù)清洗、數(shù)據(jù)抽取、數(shù)據(jù)合并、數(shù)據(jù)計(jì)算、數(shù)據(jù)轉(zhuǎn)化。

        數(shù)據(jù)清洗,顧名思義,就是將多余重復(fù)的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補(bǔ)充完整,將錯(cuò)誤的數(shù)據(jù)糾正或剔除,最后的數(shù)據(jù)應(yīng)該達(dá)到“多一分則肥,少一分則瘦”的狀態(tài)。

        清除重復(fù)數(shù)據(jù)

        在Excel中,查找或刪除重復(fù)數(shù)據(jù)的常用方法主要有:

        * 條件格式標(biāo)識(shí)法

        * 高級(jí)篩選法

        * 函數(shù)法(Countif)

        * 菜單刪除法

        * 數(shù)據(jù)透視表法

        每種方法各有優(yōu)缺點(diǎn),需要根據(jù)實(shí)際情況選擇使用。

        條件格式標(biāo)識(shí)法只能告訴你哪些數(shù)據(jù)存在重復(fù),而不會(huì)告訴你各個(gè)數(shù)據(jù)各重復(fù)多少次,共有多少個(gè)重復(fù)數(shù)據(jù)。

        Countif函數(shù)對(duì)思維邏輯要求高且編寫麻煩,不適合用于大量數(shù)據(jù)的去重。

        高級(jí)篩選法與菜單刪除法則無(wú)法告訴你哪些數(shù)據(jù)存在重復(fù)。也不會(huì)告訴你各個(gè)數(shù)據(jù)各重復(fù)多少次,共有多少個(gè)重復(fù)數(shù)據(jù)。只會(huì)告訴你去重后的結(jié)果。

        處理重復(fù)數(shù)據(jù),推薦使用數(shù)據(jù)透視表法。它不僅能告訴你去重后的結(jié)果,還能告訴你各個(gè)項(xiàng)重復(fù)的次數(shù)。而且,只要用鼠標(biāo)輕松拖動(dòng)字段,即可得到我們所要的結(jié)果。

        現(xiàn)在我們就以上期的通話清單為例,來(lái)分別得到去重的結(jié)果及各個(gè)號(hào)碼重復(fù)的次數(shù)。具體操作步驟如下:

        步驟1:用Excel2010打開通話清單,點(diǎn)擊“插入”選項(xiàng)卡,在“表格”功能組中,單擊“數(shù)據(jù)透視表”按鈕,選擇“數(shù)據(jù)透視表(T)”項(xiàng)(見(jiàn)圖1)。

        步驟2:在彈出的“創(chuàng)建數(shù)據(jù)透視表”對(duì)話框“選擇一個(gè)表或區(qū)域”中選擇數(shù)據(jù)源單元格范圍,本例為“Sheet1!$A$1:$H$157”,在“選擇放置數(shù)據(jù)透視表的位置”中選擇放置數(shù)據(jù)透視表的位置,本例為“現(xiàn)有工作表”,位置為“Sheet1!$J$1”,并單擊“確定”按鈕(見(jiàn)圖2)。

        步驟3:在彈出的“數(shù)據(jù)透視表字段列表”對(duì)話框中,將“對(duì)方號(hào)碼”字段拖至行標(biāo)簽,這個(gè)時(shí)候就得到了去重后的號(hào)碼,這是在上一期數(shù)據(jù)理解部分介紹數(shù)值型數(shù)據(jù)時(shí)提到的一種特殊的分類數(shù)據(jù)。這里就是利用該原理,把號(hào)碼當(dāng)做分類數(shù)據(jù)拖至行標(biāo)簽處,得到每類數(shù)據(jù)即可實(shí)現(xiàn)數(shù)據(jù)去重(見(jiàn)圖3)。

        步驟4:在第三步的基礎(chǔ)上,再次將“對(duì)方號(hào)碼”字段拖至數(shù)值匯總區(qū)域,即可得到各個(gè)數(shù)據(jù)項(xiàng)重復(fù)的次數(shù),簡(jiǎn)單、方便、快捷(見(jiàn)圖4)。

        缺失數(shù)據(jù)處理

        缺失值是指數(shù)據(jù)表中某個(gè)或某些屬性的值是不完全的,這在數(shù)據(jù)分析中很常見(jiàn)。缺失值是因人為、機(jī)械等各種原因而導(dǎo)致數(shù)據(jù)的不完整。機(jī)械原因指由于數(shù)據(jù)收集或保存失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲(chǔ)的失敗,存儲(chǔ)器損壞,機(jī)械故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集;人為原因指由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,比如在市場(chǎng)調(diào)查中被訪人拒絕透露相關(guān)問(wèn)題的答案,或者對(duì)問(wèn)題的回答是無(wú)效的,又或數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)。

        處理缺失值的方法有四種:

        (1)用一個(gè)樣本統(tǒng)計(jì)量的值代替缺失值,如使用平均值;

        (2)用一個(gè)統(tǒng)計(jì)模型計(jì)算出來(lái)的值去代替缺失值,常使用的模型有回歸模型等;

        (3)將有缺失值的記錄刪除,不過(guò)可能會(huì)導(dǎo)致樣本量的減少;

        (4)將有缺失值的個(gè)案保留,僅在相應(yīng)的分析中做必要的排除。

        上述這些操作不需要人工進(jìn)行處理,SAS、SPSS等專業(yè)的統(tǒng)計(jì)軟件都有現(xiàn)成的功能菜單可一步實(shí)現(xiàn),故對(duì)此部分不再進(jìn)行Excel相應(yīng)操作的介紹。

        檢查數(shù)據(jù)邏輯

        錯(cuò)誤數(shù)據(jù)一般有兩種形式:

        (1)數(shù)據(jù)超出正常范圍:例如某項(xiàng)數(shù)據(jù)的正常范圍為0~10,結(jié)果出現(xiàn)了0~10之外的數(shù)據(jù)。在Excel中檢查數(shù)據(jù)是否超出正常范圍,可以使用條件格式對(duì)異常數(shù)據(jù)進(jìn)行標(biāo)示。

        (2)數(shù)據(jù)選項(xiàng)超出規(guī)定項(xiàng)數(shù):市場(chǎng)調(diào)查中常見(jiàn)這樣的錯(cuò)誤,例如“最多選擇3個(gè)選項(xiàng)”的多選題,答題者選擇了4個(gè)選項(xiàng)。在Excel中檢查數(shù)據(jù)選項(xiàng)是否超出規(guī)定項(xiàng)數(shù),可以使用If+Countif函數(shù)組合嵌套的方式進(jìn)行判斷識(shí)別,如圖5所示,第二條記錄就是選了A、B、D、F四項(xiàng),不符合選三項(xiàng)的要求,所以Countif函數(shù)用于統(tǒng)計(jì)“不等于0”的選項(xiàng)個(gè)數(shù),并用If函數(shù)進(jìn)行判斷“不等于0”的選項(xiàng)個(gè)數(shù)是否大于3個(gè),是的話就賦值“錯(cuò)誤”,否則就賦值“正確”。

        本期數(shù)據(jù)處理技巧就介紹到這里,下期將介紹數(shù)據(jù)抽取與數(shù)據(jù)合并兩方面的數(shù)據(jù)處理技巧。

        編輯:?jiǎn)沃?/ 郵箱:szh@bjstats.gov.cn

        日本免费一区二区久久久| 中文字幕乱码免费视频| A午夜精品福利在线| 亚洲熟妇av日韩熟妇av| 日本女同性恋一区二区三区网站| 久久午夜福利电影| 三级特黄60分钟在线观看| 人妻无码第一区二区三区| 国产办公室沙发系列高清| 国产美女免费国产| 亚洲美女性生活一级片| 免费一区二区三区女优视频| 国产精品爽爽久久久久久竹菊| 亚洲精品无码mv在线观看| 娇柔白嫩呻吟人妻尤物| 成人影院羞羞的视频免费观看| 亚洲人成网站色7799| 欧美人与动人物姣配xxxx| 无码欧亚熟妇人妻AV在线外遇 | 亚洲专区一区二区在线观看| 在线免费观看毛视频亚洲精品| 蜜桃视频第一区免费观看| 国产精品泄火熟女| 亚洲一区日韩无码| 一本久久综合亚洲鲁鲁五月夫| av在线免费观看网站免费| 又大又粗欧美黑人aaaaa片| 国产亚洲av手机在线观看| 无码91 亚洲| 六月婷婷亚洲性色av蜜桃| 免费无码毛片一区二区app| 亚洲av无码乱观看明星换脸va| 老熟女一区二区免费| 国产白色视频在线观看| 最新系列国产专区|亚洲国产| 国产一级片毛片| 成人av一区二区亚洲精| 国产欧美va欧美va香蕉在| 五月天激情小说| 91青青草免费在线视频| 日本亚洲中文字幕一区|