題目中的這個(gè)問(wèn)題,我理解是個(gè)本質(zhì)。在數(shù)據(jù)時(shí)代,數(shù)據(jù)不管從哪里獲取、用什么工具獲取,也不管數(shù)據(jù)規(guī)模是否夠得上是“大數(shù)據(jù)”,也不管你用來(lái)分析和利用這些數(shù)據(jù)的是BI軟件(商業(yè)智能軟件)還是數(shù)字化營(yíng)銷軟件如AOS系統(tǒng)(注:美國(guó)安客誠(chéng)公司推出的“受眾運(yùn)營(yíng)系統(tǒng)”),你總得回答一個(gè)關(guān)鍵問(wèn)題:面對(duì)一堆數(shù)據(jù),你能去做什么,而且這個(gè)“做什么”是能有效變成真金白銀的收益的。
所以,當(dāng)我看到Mike Rozlog最新于2014/2/3發(fā)布的一篇文章中用到這個(gè)標(biāo)題時(shí),引起了我的興趣。把文中一些主要觀點(diǎn)編譯概述如下,供朋友們參考,其中也穿插了我的一些理解、注解、舉例。
作者首先指出:“數(shù)據(jù)”在空前增長(zhǎng),人們?cè)谔峁┲畔?,情愿地或無(wú)心地,通過(guò)社交媒體或者其他終端。作者描述了自己在FACEBOOK的情況,他居然不知不覺(jué)地、日積月累地在FACEBOOK那里列舉出了他自己喜歡的160張音樂(lè)專輯,這就是“無(wú)心”中在提供數(shù)據(jù),不想不知道,一想自己也嚇一跳。
其實(shí)中國(guó)國(guó)內(nèi)的朋友應(yīng)該也有這個(gè)體會(huì),當(dāng)你在淘寶天貓購(gòu)物時(shí),有沒(méi)有注意到在購(gòu)物車結(jié)算價(jià)格時(shí),有一個(gè)“是否匿名購(gòu)買(mǎi)”的選項(xiàng),很多人沒(méi)有費(fèi)力去勾選一下,那么也就是愿意實(shí)名購(gòu)買(mǎi)了,那么你便“無(wú)心”也是“情愿”地提供了一條關(guān)于“何時(shí)、您、多少價(jià)格、網(wǎng)購(gòu)了什么物品、怎么支付的、選擇的哪種物流方式、聯(lián)系電話和物流地址”的非常詳細(xì)的信息。淘寶和天貓這個(gè)小細(xì)節(jié)在于把什么作為“缺省項(xiàng)”,如果把“是否實(shí)名購(gòu)買(mǎi)”作為一個(gè)勾選項(xiàng),把“匿名購(gòu)買(mǎi)”作為缺省選擇,估計(jì)也是大多數(shù)人“不作為”、不會(huì)去勾選,而這種“匿名購(gòu)買(mǎi)”對(duì)淘寶的大數(shù)據(jù)戰(zhàn)略無(wú)益,因此,對(duì)“是否匿名購(gòu)買(mǎi)”的勾選項(xiàng)的“不作為”,就日積月累地“作為”了很多事情了。
但這只是日益增長(zhǎng)的“數(shù)據(jù)”。作者認(rèn)為,“數(shù)據(jù)”和“信息”是不同的,不同的關(guān)鍵在于“數(shù)據(jù)之間的連接(links)”。(注:我們這里不翻譯為“鏈接”,以避免讀者一下子就想到是網(wǎng)絡(luò)閱讀時(shí)去點(diǎn)一下鏈接的那個(gè)“超文本鏈接”)。這個(gè)“連接”強(qiáng)調(diào)的是數(shù)據(jù)之間的“關(guān)系”。數(shù)據(jù)本身是一堆原材料,類似數(shù)字、單詞、計(jì)數(shù)、字串、圖片、視頻、音樂(lè),哪怕他們被存儲(chǔ)在“關(guān)系數(shù)據(jù)庫(kù)”中,他們也天然地彼此之間沒(méi)有關(guān)系,除非人去賦予他們關(guān)系。
而這種人為去賦予數(shù)據(jù)之間的“關(guān)系”,就是在建立數(shù)據(jù)之間的“連接”。如果一組或一連串的“連接”是正確的,那么數(shù)據(jù)就生成了“信息”,那么就可以基于“信息”做出一些假設(shè)/判斷,從而去開(kāi)展行動(dòng)。如果“連接”錯(cuò)了呢,那么就可能相應(yīng)地引發(fā)錯(cuò)誤的行動(dòng)。
比如下面這個(gè)例子,關(guān)于美國(guó)上個(gè)世紀(jì)40年代早期對(duì)脊髓灰質(zhì)炎(我們俗稱的“小兒麻痹癥”)的病因的研究?!霸紨?shù)據(jù)”顯示是入夏日天氣漸暖時(shí),病例增加。戲謔的是,“原始數(shù)據(jù)”還顯示,當(dāng)脊髓灰質(zhì)炎的病例增加時(shí),冰激凌銷量也以同比例在增長(zhǎng)。1952年美國(guó)有將近58000人(很多是孩子)被診斷得上了脊髓灰質(zhì)炎,一場(chǎng)全國(guó)性的大流行病。公共衛(wèi)生部門(mén)的專家于是建議要避免食用冰激凌、糖水和其他高塘食物。今天回頭看歷史,認(rèn)為冰激凌是病因的想法當(dāng)然很可笑,但那時(shí)候的確是“病急亂投醫(yī)”了。
結(jié)合我們今天的情況來(lái)看,我們?cè)趺窗押A康男畔⑥D(zhuǎn)變成能帶來(lái)行動(dòng)的有用的信息、做出更好的決策而不是上例呢?我們已經(jīng)有了一些數(shù)據(jù)采集的技術(shù),也有了指數(shù)級(jí)增長(zhǎng)的比以前多得多的數(shù)據(jù),但我們還是沒(méi)有生成好信息的那個(gè)神秘醬料。例如,當(dāng)你看到以下常見(jiàn)的兩列數(shù)據(jù),見(jiàn)圖1:
讀到本文的朋友對(duì)上面的數(shù)據(jù)列都是非常熟悉的,也許還有更多列更豐富的信息。而關(guān)鍵的問(wèn)題是,你面對(duì)這些數(shù)據(jù)列,你能問(wèn)出什么問(wèn)題呢?肯定讀者們能列舉出一串經(jīng)典的問(wèn)題,但很有可能,漏掉了問(wèn)那個(gè)有關(guān)鍵意義的一個(gè)問(wèn)題。
Mike Rozlog指出說(shuō),實(shí)際上,應(yīng)該再問(wèn)一個(gè)“目前的數(shù)據(jù)尚不能支持的問(wèn)題”,即“為了回答我真正關(guān)心的問(wèn)題,我還缺哪些數(shù)據(jù)呢”?這就是“數(shù)據(jù)增補(bǔ)”的概念(Data Augmentation)。想一想,你可能關(guān)心的問(wèn)題是“什么樣的人是我生意的典型客戶?”“我的下一個(gè)店鋪應(yīng)該選址在哪里?”“應(yīng)該增加一種新產(chǎn)品系列的銷售嗎?”我們發(fā)現(xiàn),目前的“客戶數(shù)據(jù)”和“銷售數(shù)據(jù)”無(wú)法回答這些,只有當(dāng)增補(bǔ)了“MAP GIS”(地圖地理信息系統(tǒng))和“Census Data”(人口統(tǒng)計(jì)數(shù)據(jù))”之后,才能做的更好,見(jiàn)圖2。前者包括位置地點(diǎn)、路線、實(shí)際位移折線圖等,或者包括郵編、平均收入、孩子的個(gè)數(shù)、種群種族等信息。這時(shí),當(dāng)你再問(wèn)“什么樣的人是我生意的典型客戶?”這個(gè)問(wèn)題時(shí),客戶數(shù)據(jù)、銷售數(shù)據(jù)和人口統(tǒng)計(jì)數(shù)據(jù)建立連接,才能產(chǎn)生有效的“信息”作為答案。當(dāng)你再問(wèn)“我的下一個(gè)店鋪應(yīng)該選址在哪里?”,客戶數(shù)據(jù)、銷售數(shù)據(jù)和GIS數(shù)據(jù)建立連接,才能產(chǎn)生有效的“信息”作為答案。當(dāng)你再問(wèn)“應(yīng)該增加一種新產(chǎn)品系列的銷售嗎?”,目前的數(shù)據(jù)可能又不夠了,但是通過(guò)“數(shù)據(jù)增補(bǔ)”,現(xiàn)在我們找到了一個(gè)回答問(wèn)題的辦法,即找到“回答這個(gè)問(wèn)題還需要去連接什么數(shù)據(jù)”,這又與生意主對(duì)“典型客戶”的認(rèn)知有關(guān),你作為生意主,你有關(guān)于你“典型客戶”的數(shù)據(jù)嗎,如果是,那么就可以把新產(chǎn)品的試銷量與典型客戶相關(guān)數(shù)據(jù)進(jìn)行匹配,看是否該新產(chǎn)品會(huì)進(jìn)入典型客戶的購(gòu)物籃子。而在過(guò)去,對(duì)“什么樣的人是我生意的典型客戶?”“我的下一個(gè)店鋪應(yīng)該選址在哪里?”“應(yīng)該增加一種新產(chǎn)品系列的銷售嗎?”所有這些問(wèn)題的回答,往往靠直覺(jué)的猜想。
客戶數(shù)據(jù)
數(shù)據(jù)就在那兒,正在被采集、正在被分析、正在被匯總。但是,在數(shù)據(jù)被真正應(yīng)用之前,最關(guān)鍵的一個(gè)事情,是問(wèn)出你的現(xiàn)有數(shù)據(jù)無(wú)法回答的問(wèn)題,即“缺失哪些數(shù)據(jù)”以及“缺失哪些數(shù)據(jù)之間的有效連接”。這里無(wú)法依靠魔法棒或者一個(gè)標(biāo)準(zhǔn)的問(wèn)題列表,每一組數(shù)據(jù)當(dāng)它被采集和呈現(xiàn)時(shí),也就有了他特有的局限,即“還缺少什么”那個(gè)需要探索的世界。
回到作者篇頭曾列舉的問(wèn)題,他的FACEBOOK上已經(jīng)有了大量數(shù)據(jù),關(guān)于他聽(tīng)什么音樂(lè)、他去什么音樂(lè)會(huì),連他支付的平均票價(jià)都可以知道。但他是否會(huì)在音樂(lè)會(huì)上再開(kāi)銷一筆錢(qián)買(mǎi)相應(yīng)音樂(lè)主題的T恤衫和帽子呢?不知道,GOOGLE也許知道,這時(shí)就需要增補(bǔ)來(lái)自GOOGLE的信息,一個(gè)人大量無(wú)心的在GOOGLE上的關(guān)鍵詞檢索,已經(jīng)讓GOOGLE可能比這個(gè)人自己還了解他自己。GOOGLE的前CEO, Eric Schmidt說(shuō),“我們知道你在哪里,我們知道你曾去過(guò)哪里,我們多多少少知道你在想什么”。
作者最后拋出幾個(gè)問(wèn)題,很耐人思考。如果某個(gè)信息來(lái)源有著關(guān)于你自己的而你自己還不洞察的信息,你會(huì)愿意付費(fèi)嗎?這些由數(shù)據(jù)而生成的信息會(huì)產(chǎn)生生意上的產(chǎn)出嗎,還是這些信息會(huì)導(dǎo)致那個(gè)經(jīng)典的小兒麻痹癥案例中“相關(guān)關(guān)系”與“因果關(guān)系”的錯(cuò)判?這些都是我們從“數(shù)據(jù)”到“信息”到“行動(dòng)”路上要探索的問(wèn)題。
我自己編譯并穿插注解舉例到了這里,也更理解了AMT的伙伴美國(guó)安客誠(chéng)公司AOS系統(tǒng)的關(guān)鍵,不僅僅在于數(shù)據(jù)本身,而是數(shù)據(jù)與數(shù)據(jù)之間的“連接”,以及他們長(zhǎng)時(shí)間服務(wù)于各行業(yè)做精準(zhǔn)營(yíng)銷的洞察與經(jīng)驗(yàn)。這些經(jīng)驗(yàn)沉淀為一個(gè)個(gè)模型,比如“誰(shuí)是我的典型客戶”,還可以轉(zhuǎn)變?yōu)橐粋€(gè)個(gè)專門(mén)的營(yíng)銷行動(dòng)(campaign),比如“如何打通線上數(shù)據(jù)庫(kù)和線下數(shù)據(jù)庫(kù)的整合,找到我的高潛力客戶(look-like)并有效促使他們下單”,還可以轉(zhuǎn)變?yōu)橐粋€(gè)個(gè)長(zhǎng)期例行的職能工作(operation),比如“對(duì)于已經(jīng)成為會(huì)員的客戶,我們本年度應(yīng)該如何開(kāi)展會(huì)員營(yíng)銷和個(gè)性化服務(wù)”,最后,到一個(gè)個(gè)量化的績(jī)效,“我對(duì)這批會(huì)員樣本開(kāi)展的營(yíng)銷活動(dòng),是否取得了和對(duì)比組相比,超出5-8倍的效果(客單價(jià)、人均收入、人均帶來(lái)利潤(rùn)等)”
“數(shù)據(jù)”、“信息”、“行動(dòng)”、“效果”,然后再反饋,這樣一個(gè)動(dòng)態(tài)的過(guò)程,看來(lái)對(duì)于中國(guó)企業(yè)的大數(shù)據(jù)管理、營(yíng)銷精準(zhǔn)化,正有很多的事情可以去做。