□ 文 郭曉韞
挖掘數(shù)據(jù)價值的四個基本步驟
□ 文 郭曉韞
紛繁復(fù)雜的數(shù)據(jù)在為決策者帶來便利的同時,也對數(shù)據(jù)解讀能力提出了更高的要求。許多企業(yè)已開始重新定義數(shù)據(jù),在大數(shù)據(jù)的浪潮下開始把運營數(shù)據(jù)提升到一個前所未有的高度。
全球第一家信息技術(shù)研究和分析公司Gartner對大數(shù)據(jù)給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的意義不僅僅在于掌握龐大的數(shù)據(jù)信息,更在于對這些有意義的數(shù)據(jù)進行專業(yè)化處理之后產(chǎn)生的價值[1]。
先從一個具體的案例入手。維斯塔斯風力系統(tǒng),依靠BigInsights軟件和IBM超級計算機,對氣象數(shù)據(jù)進行分析,然后找出安裝風力渦輪機和整個風電場最佳的地點。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時便可完成,大數(shù)據(jù)的落地大大縮短了決策時間。從上面這個簡單的例子,我們可以抽象出數(shù)據(jù)落地的幾個基本步驟:1、確定需要解決的問題;如上所述,找出安裝風力渦輪機和整個風電場最佳的地點就是需要解決的眼下問題;2、判別關(guān)系,確定分析邏輯;對氣象數(shù)據(jù)進行分析,氣象數(shù)據(jù)能與安裝地點優(yōu)劣進行關(guān)聯(lián);3、清洗數(shù)據(jù),深入判別關(guān)系,尋找數(shù)據(jù)的規(guī)律;對氣象數(shù)據(jù)進一步挖掘分析;4、數(shù)據(jù)應(yīng)用,驗證效果,并不斷循環(huán)改進。
如例子所述,現(xiàn)在僅需要不足1小時便可完成數(shù)據(jù)分析的工作,大大提升了效率,縮短了決策時間。而且此應(yīng)用還是一個周而復(fù)始的過程,可以不斷地進行驗證、改進、提升。
現(xiàn)實中運用數(shù)據(jù)的地方很多,需要解決的問題繁簡不一,都具備特定的場景。特定場景的應(yīng)用方案,就是需要知道要解決什么問題,再根據(jù)這個問題展開,逐個擊破,最后匯集到問題的原點,找到解決的辦法,這樣以問題為導(dǎo)向的數(shù)據(jù)應(yīng)用才有意義,才可以做到在茫茫的數(shù)據(jù)海洋中不迷失方向。
在確定了需要解決的問題后,就可以著手把問題逐層分解,這時最常用的分析邏輯就是“邏輯樹”的分析方法。所謂邏輯樹,指的是一種思考的框架,將包含前提事件在內(nèi)的問題,按照該問題相關(guān)的因素,細致拆分成小的問題。[2]
例如在分析業(yè)績不佳時,通常都會對這個問題進行原因拆解。是無法提高每位顧客的銷售額?還是無法增加新的顧客?還是宏觀的市場大環(huán)境影響?在每一個問號的背后又可以繼續(xù)分解,比如“無法提高每位顧客的銷售額?”這個節(jié)點,我們可以思考是沒有提高每件商品的價格?還是沒有增加每位顧客的購買量等?然后先進行定性的假設(shè)判斷,形成解決問題的基本邏輯思路。
當然,在復(fù)雜的市場環(huán)境里每個問題都存在著很多影響因素,有宏觀因素、價格因素、銷量因素、廣告因素等,這些因素中有真的關(guān)系也有假的關(guān)系,有強的關(guān)系也有弱的關(guān)系,關(guān)系之間需要一張網(wǎng)把它們貫穿起來,這個就是分析的邏輯推導(dǎo),但許多時候數(shù)據(jù)分析人員往往陷入只看數(shù)據(jù),缺乏整體思維邏輯,所以分析邏輯是一個周密地解決問題的模擬過程,是講一個好故事的基礎(chǔ)所在。
明確了需要解決的問題,理順了分析的邏輯,那么就應(yīng)該按需清洗數(shù)據(jù),通過數(shù)據(jù)深入挖掘再次分析因素間的關(guān)系,并進行變形尋找數(shù)據(jù)規(guī)律。我們也知道,絕大部分的數(shù)據(jù)單從表面上看,是很難看出關(guān)系的,必須要經(jīng)過數(shù)據(jù)清洗才能更好地還原數(shù)據(jù)的本貌。數(shù)據(jù)清洗是一個過程,需要對缺失值、噪聲和不一致性進行處理。而處理的關(guān)鍵,有一點往往被忽略了,那就是對市場的認知和數(shù)據(jù)邏輯上的理解,這個也是數(shù)據(jù)挖掘能力分水嶺的關(guān)鍵之一。
一般來說,各種因素之間只要有關(guān)系,均會存在著最基本的兩種形態(tài),可以建立這兩類模型來分析,一種是因果關(guān)系類模型(causal model),另一種是相關(guān)關(guān)系類模型(correlation model),這兩者的區(qū)別很重要,不同的關(guān)系模型,在實際運用中解決的問題也存在著根本性的差異。因果關(guān)系模型告訴我們改變結(jié)果的辦法和量級。相關(guān)關(guān)系模型雖沒有直接告訴導(dǎo)致結(jié)果的原因,但對于結(jié)果本身是存在著關(guān)聯(lián)性的,這種關(guān)聯(lián)性也為實際的數(shù)據(jù)發(fā)掘提供了理論基礎(chǔ)。相關(guān)關(guān)系模型最典型的例子就是購物籃分析[3]。購物籃分析就是運用了相關(guān)關(guān)系,讓決策者知道哪些商品頻繁地被顧客同時購買,從而在商品擺放時把關(guān)聯(lián)的商品就近擺放,這已經(jīng)有效地被運用于營銷規(guī)劃、廣告策略或者分類設(shè)計等當中。以零售業(yè)為例,在零售領(lǐng)域監(jiān)控客戶的店內(nèi)走動情況以及與商品的互動,將這些數(shù)據(jù)與交易記錄相結(jié)合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調(diào)整售價上給出意見,此類方法已經(jīng)幫助零售企業(yè)減少了存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。現(xiàn)今電商如淘寶、京東等,都會根據(jù)用戶的瀏覽行為推薦不同的產(chǎn)品,這也是相關(guān)關(guān)系的一個很好的應(yīng)用。
在深入判別了關(guān)系后,就需要順藤摸瓜,尋找數(shù)據(jù)的規(guī)律,在這個過程中,也許就需要一些數(shù)據(jù)的變形,使得尋找規(guī)律更得心應(yīng)手一些。舉一個直觀的例子,汽車數(shù)據(jù)研究公司威爾森曾對汽車價格數(shù)據(jù)與汽車的庫存數(shù)據(jù)做過這樣一個研究。在清洗分析完數(shù)據(jù)之后,他們發(fā)現(xiàn)對于汽車的成交價數(shù)據(jù),由于受型號權(quán)重變化影響,加權(quán)成交價并不是一個很好的反映價格變化趨勢的指標。這時就需要先設(shè)立一個定性的假設(shè),假設(shè)他們之間是有關(guān)系的,但成交價格跟庫存之間究竟存在著什么樣的關(guān)系呢?威爾森在需求研發(fā)階段便設(shè)計出6種不同的算法,最后經(jīng)過反復(fù)討論驗證,設(shè)計出MMI(MoM Market Value Index)——以市值為基礎(chǔ)的環(huán)比算法。該算法既能準確反映價格環(huán)比變化,又包含當前不同型號的權(quán)重信息,威爾森采用以下方式計算汽車庫存深度:
這里有一個細節(jié),就是基于對市場的認知,使用了上月末的庫存,而不是本月末的庫存,因為經(jīng)銷商往往會根據(jù)上月末的庫存狀況來制定本月的銷售策略,因此采用上月末庫存來計算庫存深度更能反映經(jīng)銷商的庫存壓力。這一數(shù)據(jù)變形后可以清晰地展現(xiàn)出庫存深度與價格環(huán)比變化存在顯著的負相關(guān)關(guān)系,這也證明了之前的定性假設(shè)是正確的。那么接下來,就是量化這個定性的關(guān)系。如上所述,在尋找到合適的算法之后,通過正確合理的數(shù)學建模,可以把因素的變化量化出來,從而指導(dǎo)實際的決策,如上面這個例子,最終可以量化出庫存深度變動,成交價格相應(yīng)變化得出一個量化的值,這樣就會非常直觀地指導(dǎo)決策了。尋找因素間規(guī)律的方法很多,常見的建模分析多為統(tǒng)計學上運用的方法,如聚類分析、離群點分析等。
運用機器學習方法研究市場問題,現(xiàn)今已形成了新的學科方向,把數(shù)據(jù)應(yīng)用于現(xiàn)實,需要做到理論、編程、統(tǒng)計建模、可計算思維四位一體。在應(yīng)用層面,最廣泛的方向就是為預(yù)測服務(wù)的例子。例如在德國,通過電網(wǎng)每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網(wǎng)大概需要多少電。有了這個預(yù)測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因為用電量如果提前買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預(yù)測后,可以降低采購成本,這種預(yù)測性的發(fā)掘也就是基于相關(guān)性模型。而在數(shù)據(jù)應(yīng)用中,也是對模型和分析理解的一次驗證,因此,數(shù)據(jù)的應(yīng)用是一個不斷循環(huán)迭代的過程,在大數(shù)據(jù)的分析中不斷應(yīng)用、驗證、優(yōu)化、再應(yīng)用、再驗證、再優(yōu)化,如此往復(fù)。■
(作者單位:廣州威爾森信息科技有限公司)
[1]段云峰,秦曉飛,大數(shù)據(jù)的互聯(lián)網(wǎng)思維,中國工信出版集團,2015.10
[2]大島祥譽,麥肯錫工作法,中信出版社,2014.12
[3]JiaweiHan,Mieheline,Kamber,JianPei.數(shù)據(jù)挖掘概念與技術(shù),機械工業(yè)出版社,2012.8