經(jīng)過(guò)前幾期的介紹,相信讀者對(duì)數(shù)據(jù)分析的基本面貌已經(jīng)有所了解。從本期開始,我們將一一對(duì)數(shù)據(jù)分析的各個(gè)步驟進(jìn)行詳細(xì)講解。任何分析都是從數(shù)據(jù)準(zhǔn)備開始的,大家知道,數(shù)據(jù)是數(shù)據(jù)分析的必備條件,沒(méi)有數(shù)據(jù)就無(wú)法進(jìn)行數(shù)據(jù)分析,這同“巧婦難為無(wú)米之炊”是一個(gè)道理。
當(dāng)準(zhǔn)備進(jìn)行數(shù)據(jù)分析時(shí),大家是否曾經(jīng)有過(guò)這樣的疑問(wèn):做數(shù)據(jù)分析的數(shù)據(jù)有什么要求?我要準(zhǔn)備什么樣的數(shù)據(jù)呢?因此光有數(shù)據(jù)是不夠的,還需要達(dá)到適合數(shù)據(jù)分析的數(shù)據(jù)要求。那我們對(duì)進(jìn)行數(shù)據(jù)分析的數(shù)據(jù)到底有何要求呢?它都是從哪里來(lái)?現(xiàn)在我們就來(lái)說(shuō)說(shuō)。
理解數(shù)據(jù)
我們主要從數(shù)據(jù)構(gòu)成要素、數(shù)據(jù)類型、數(shù)據(jù)表要求三方面展開對(duì)數(shù)據(jù)的探討。
1. 數(shù)據(jù)構(gòu)成要素
適合數(shù)據(jù)分析的數(shù)據(jù)要求樣式為一維表,后期的數(shù)據(jù)處理工作都是圍繞如何得到這個(gè)要求展開的,所以認(rèn)清一維表非常重要,它主要由字段與記錄構(gòu)成:
(1)字段是事物或現(xiàn)象的某種特征。如“姓名”、“性別”等都是字段,在統(tǒng)計(jì)學(xué)中稱為變量。
(2)記錄是事物或現(xiàn)象某種特征的具體表現(xiàn)。如“姓名”有張三、李四、王五等,“性別”可以是男或女,記錄也稱為數(shù)據(jù)或變量值。
一維表也稱為流水線表格,判斷標(biāo)準(zhǔn)就是看其列的內(nèi)容:每一列是否是一個(gè)獨(dú)立的變量,如果是,即為一維表,否則為二維表或多維表。二維表也就是我們常見(jiàn)的交叉表。
我們?cè)賮?lái)看一個(gè)熟悉的數(shù)據(jù)表例子——每月手機(jī)通話清單,這是我們?nèi)粘I钪锌梢越佑|到的數(shù)據(jù),它就是非常標(biāo)準(zhǔn)的一維表,如下表所示。
在這份手機(jī)通話清單里,從橫向看,從第二行開始,每一行都是一條詳細(xì)的通話信息;從縱向看,每一列都描述了一類數(shù)據(jù),主要有“通話地”、“通話類型”、“對(duì)方號(hào)碼”、“開始時(shí)間”、“通話時(shí)長(zhǎng)”、“移動(dòng)話費(fèi)”、“長(zhǎng)途話費(fèi)”七類數(shù)據(jù)。
這樣的手機(jī)通話清單從數(shù)據(jù)分析的角度來(lái)看,就是一個(gè)標(biāo)準(zhǔn)典型的數(shù)據(jù)庫(kù)表。手機(jī)通話清單第一行的“通話地”、“通話類型”、“對(duì)方號(hào)碼”、“開始時(shí)間”、“通話時(shí)長(zhǎng)”、“移動(dòng)話費(fèi)”、“長(zhǎng)途話費(fèi)”等被稱為字段,字段為數(shù)據(jù)庫(kù)中的說(shuō)法,而每條詳細(xì)的通話信息就構(gòu)成了一條一條的數(shù)據(jù)記錄。
2. 數(shù)據(jù)類型
在日常工作、學(xué)習(xí)中,常見(jiàn)的數(shù)據(jù)類型有文本、數(shù)值、日期等類型的數(shù)據(jù),這些數(shù)據(jù)類型,最終都可以歸結(jié)為兩大類數(shù)據(jù)類型。
(1)字符型數(shù)據(jù)
字符型數(shù)據(jù)是不具有計(jì)算能力的文字?jǐn)?shù)據(jù)類型。它包括中文字符、英文字符、數(shù)字字符(非數(shù)值型)等字符,屬于分類數(shù)據(jù)。例如手機(jī)通話清單中的“通話地”、“通話類型”兩個(gè)字段均為字符型數(shù)據(jù)。
(2)數(shù)值型數(shù)據(jù)
數(shù)值型數(shù)據(jù)是直接使用自然數(shù)或度量單位進(jìn)行計(jì)量的數(shù)值數(shù)據(jù),數(shù)值型數(shù)據(jù)是一種特殊的分類數(shù)據(jù)。例如手機(jī)通話清單中的“對(duì)方號(hào)碼”、“開始時(shí)間”、“通話時(shí)長(zhǎng)”、“移動(dòng)話費(fèi)”、“長(zhǎng)途話費(fèi)”五個(gè)字段數(shù)據(jù)均為數(shù)值型數(shù)據(jù),其中日期型是一種特殊的數(shù)值型數(shù)據(jù)。是否可直接進(jìn)行計(jì)量,是區(qū)分?jǐn)?shù)據(jù)是否屬于數(shù)值型數(shù)據(jù)的判斷標(biāo)準(zhǔn)之一。
3. 數(shù)據(jù)表要求
根據(jù)剛才介紹的字段、記錄、數(shù)據(jù)類型,以及所舉的手機(jī)通話清單案例,我們可以總結(jié)一下數(shù)據(jù)分析所需要的數(shù)據(jù)表具體要求。
一張數(shù)據(jù)表的制作,可以側(cè)面反映出制作者的數(shù)據(jù)沉淀及應(yīng)用水平。如果數(shù)據(jù)表里的合并單元格較多,數(shù)據(jù)表設(shè)計(jì)不合理,說(shuō)明其基本屬于是為了滿足一時(shí)之需,沒(méi)有為后續(xù)數(shù)據(jù)分析做長(zhǎng)遠(yuǎn)考慮與規(guī)劃。
所以千萬(wàn)別忽視基礎(chǔ)數(shù)據(jù)表格的設(shè)計(jì),數(shù)據(jù)表設(shè)計(jì)得是否合理,關(guān)系著后期數(shù)據(jù)分析的效率及深度。
數(shù)據(jù)準(zhǔn)備
在理解了數(shù)據(jù)構(gòu)成后,我們就可以進(jìn)行數(shù)據(jù)準(zhǔn)備了。數(shù)據(jù)準(zhǔn)備是按照確定的數(shù)據(jù)分析框架,收集相關(guān)數(shù)據(jù)的過(guò)程,它為數(shù)據(jù)分析提供了素材和依據(jù)。這里所說(shuō)的數(shù)據(jù)包括第一手?jǐn)?shù)據(jù)與第二手?jǐn)?shù)據(jù)。
第一手?jǐn)?shù)據(jù)主要指可直接獲取的數(shù)據(jù),如公司內(nèi)部的數(shù)據(jù)庫(kù)、市場(chǎng)調(diào)查取得的數(shù)據(jù)等;
第二手?jǐn)?shù)據(jù)主要指經(jīng)過(guò)加工整理后得到的數(shù)據(jù),如統(tǒng)計(jì)局在互聯(lián)網(wǎng)上發(fā)布的數(shù)據(jù)、公開出版物中的數(shù)據(jù)等。
1. 數(shù)據(jù)庫(kù)
隨著現(xiàn)代社會(huì)進(jìn)入信息時(shí)代,我們每天的工作和生活都離不開各種信息。面對(duì)這樣的海量數(shù)據(jù),如何儲(chǔ)存、管理、處理、分析呢?這時(shí)就需要采用數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行有效存儲(chǔ)與管理,并運(yùn)用數(shù)據(jù)庫(kù)對(duì)各種數(shù)據(jù)進(jìn)行合理地處理并分析,使其轉(zhuǎn)化為有價(jià)值的數(shù)據(jù)信息。如今,數(shù)據(jù)庫(kù)已成為數(shù)據(jù)管理最有效的方式之一。
每個(gè)公司基本上都會(huì)有自己的業(yè)務(wù)數(shù)據(jù)庫(kù),甚至包含從公司成立以來(lái)產(chǎn)生的相關(guān)業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)庫(kù)就是一個(gè)龐大的數(shù)據(jù)資源。尤其是金融、通信、互聯(lián)網(wǎng)、游戲設(shè)計(jì)等公司,都擁有龐大的數(shù)據(jù)庫(kù),每天產(chǎn)生上百GB甚至TB、PB級(jí)的日志數(shù)據(jù),記錄著原始的用戶背景信息數(shù)據(jù)、詳細(xì)的用戶行為信息數(shù)據(jù)以及各種交易信息數(shù)據(jù)。公司內(nèi)部的大部分?jǐn)?shù)據(jù)分析工作主要是依靠數(shù)據(jù)庫(kù)中的數(shù)據(jù)來(lái)進(jìn)行的,這些龐大的數(shù)據(jù)資源,需要有效地加以利用起來(lái),對(duì)其進(jìn)行分析、挖掘,才能為運(yùn)營(yíng)、管理者提供有效的決策依據(jù)。
2. 公開出版物
公開出版物包括《中國(guó)統(tǒng)計(jì)年鑒》、《中國(guó)社會(huì)統(tǒng)計(jì)年鑒》、《中國(guó)人口和就業(yè)統(tǒng)計(jì)年鑒》、《世界經(jīng)濟(jì)年鑒》、《世界發(fā)展報(bào)告》等相關(guān)領(lǐng)域的權(quán)威機(jī)構(gòu)發(fā)布的統(tǒng)計(jì)年鑒或報(bào)告。這些公開的出版物為我們了解某一領(lǐng)域的整體情況提供了豐富的數(shù)據(jù)資源,有助于我們從事行業(yè)分析、市場(chǎng)潛力分析、競(jìng)爭(zhēng)對(duì)手分析。
3. 互聯(lián)網(wǎng)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上發(fā)布的數(shù)據(jù)越來(lái)越多,特別是搜索引擎可以幫助我們快速找到所需要的數(shù)據(jù),例如國(guó)家及地方統(tǒng)計(jì)局網(wǎng)站、行業(yè)組織網(wǎng)站、政府機(jī)構(gòu)網(wǎng)站、傳播媒體網(wǎng)站、大型綜合門戶網(wǎng)站等上面都可能有我們需要的數(shù)據(jù)。有時(shí)候數(shù)據(jù)并非直接給出,而是通過(guò)推算等方式獲取,它需要我們自己用心發(fā)掘。
4. 市場(chǎng)調(diào)查
進(jìn)行數(shù)據(jù)分析時(shí),需要了解用戶的想法與需求,而數(shù)據(jù)庫(kù)里的數(shù)據(jù)只會(huì)告訴你用戶做了這件事,它不會(huì)告訴你用戶為什么要這樣做?這時(shí)候就可以嘗試使用市場(chǎng)調(diào)查的方法收集用戶的想法和需求數(shù)據(jù)。市場(chǎng)調(diào)查就是指運(yùn)用科學(xué)的方法,有目的、有系統(tǒng)地收集、記錄、整理有關(guān)市場(chǎng)營(yíng)銷的信息和資料,分析市場(chǎng)情況,了解市場(chǎng)現(xiàn)狀及其發(fā)展趨勢(shì),為市場(chǎng)預(yù)測(cè)和營(yíng)銷決策提供客觀、正確的數(shù)據(jù)資料。市場(chǎng)調(diào)查可以彌補(bǔ)其他數(shù)據(jù)收集方式的不足,但進(jìn)行市場(chǎng)調(diào)查所需的費(fèi)用較高,而且會(huì)存在一定的誤差,故僅作參考之用。
總之,如今獲得數(shù)據(jù)的渠道和方法多種多樣,盡可能掌握全面而有效的數(shù)據(jù),會(huì)為我們的分析工作開個(gè)好頭。
編輯:?jiǎn)沃?/ 郵箱:szh@bjstats.gov.cn