陳禹安專欄
大數(shù)據(jù)污染與用戶畫像
互聯(lián)網(wǎng)技術(shù)與大數(shù)據(jù)應(yīng)用無疑是大勢所趨,但高樓萬丈平地起,如果從一開始就無法提供高純凈度的數(shù)據(jù)基礎(chǔ),任何美好設(shè)想都將是無本之木、無源之水。
自“大數(shù)據(jù)”成為熱詞以來,幾乎一夜之間,很多公司就開始標榜自己“具備強大的數(shù)據(jù)挖掘能力”。但實際上,大數(shù)據(jù)時代剛剛萌芽,所謂的大數(shù)據(jù)應(yīng)用遠遠沒有達到“神乎其神”的程度。
2016年4月21日,亞馬遜中國聯(lián)合新華網(wǎng)開展了“2016全民閱讀調(diào)查”,通過覆蓋全國500多個城市、11800多位受訪用戶的數(shù)據(jù)調(diào)查,并結(jié)合多年來對中國市場的深入研究以及讀者在線消費行為的分析,發(fā)布了一份調(diào)查報告。
這份報告的一些結(jié)論頗令人奇怪。比如,“70后”愛讀生活和少兒類圖書,“80后”對經(jīng)管以及孕產(chǎn)育兒類書籍情有獨鐘。不同年齡段的讀者在題材選擇上確實會有所不同,但“70后”中年紀最大的已經(jīng)46歲,最小的也已37歲,這一頭一尾的差別顯然不能用“愛讀生活和少兒類圖書”來統(tǒng)一,而且“70后”確實可能買少兒類圖書,但未必就是“愛讀”。亞馬
遜對于數(shù)據(jù)的解讀實在是太過粗疏了,而且也經(jīng)不起推敲。導致這一結(jié)果的原因可能是調(diào)查樣本偏差,也可能是數(shù)據(jù)在采集時就已經(jīng)被污染。前者是調(diào)查方式的問題,如是后者,則與“數(shù)據(jù)身份歸屬”密切相關(guān),因為無論是通過亞馬遜網(wǎng)站還是Kindle采集的信息,都可能無法精準認證。在當
下的互聯(lián)網(wǎng)技術(shù)支撐下,數(shù)據(jù)采集已經(jīng)不是什么難題,但針對任何數(shù)據(jù)的分析、評估、研判乃至具體的應(yīng)用,首先就要明確數(shù)據(jù)的身份歸屬。也就是說,某一組數(shù)據(jù)到底是由哪一個具體的鮮活個體產(chǎn)生的。如果數(shù)據(jù)不是由某個確定的單一個體產(chǎn)生的,顯然就無法依據(jù)這種被污染了的數(shù)據(jù)來做出正確的分析和合理的判斷。這個
問題看似簡單,但在現(xiàn)實場景中卻存在著至少兩類數(shù)據(jù)身份歸屬不明的情形。第一
類是數(shù)據(jù)身份錯位?;?/p>
互聯(lián)網(wǎng)技術(shù)的商業(yè)應(yīng)用,往往需要用戶
陳禹安
心理管理學家,杭州出版集團副總經(jīng)理,微信
公眾號:wanjusiwei在使用之前進行注冊。比如,使用Uber、滴滴打車這樣的APP,用戶必須將自己的一些身份信息填寫上傳,才能正常使用。而Uber、滴滴的后臺則根據(jù)這些身份信息,來做對應(yīng)身份的數(shù)據(jù)分析與挖掘。但是因為互聯(lián)網(wǎng)新技術(shù)存在著學習門檻,并不是所有有意成為用戶的人都能輕松克服學習阻抗的,只能請求他人幫助或代勞。
有一次,我打Uber的時候,從手機端看到的信息是一位年輕的女司機,但隨后的電話溝通卻表明是一位年長的男性。等上了車做了一些了解后,才知道這是女兒為了讓退休在家的父親有事可做而注冊了Uber司機賬號,但她是用自己的身份而不是父親的身份注冊的。這就造成了數(shù)據(jù)身份錯位。如果Uber以此賬號來認證這一數(shù)據(jù)身份的行為,就可能出現(xiàn)偏差。舉一個極端的例子,當這位女士作為乘客享用Uber服務(wù)的同時,她(實際上是她的父親,但后臺系統(tǒng)卻無法自動識別)又作為司機在為別的乘客提供Uber服務(wù)。這雖然只是我的個人經(jīng)歷,但類似的情形卻絕非罕見。據(jù)報道,北京的一個司機,從網(wǎng)上搜索出一輛他人的白色別克車信息,利用這輛車的相關(guān)信息和自己本人的駕駛證信息及手機號,注冊成為一名滴滴專車司機,并開始接單。這個司機后來因為強奸女乘客而被判刑。這是車輛信息失真導致數(shù)據(jù)污染的情形。還有廣東番禺的一個司機,也是利用岳父的身份信息注冊的滴滴司機賬號。這個司機也因為強奸女乘客而被判刑。舉這幾個例子,不是要強化數(shù)據(jù)污染、信息失真的用戶與犯罪之間的必然聯(lián)系,但是從心理學的角度來看,信息失真帶來的某種程度的“匿名效應(yīng)”確實使得相關(guān)人員更有可能抱有僥幸心理而逾越道德或法律的約束。
此外,還有一種是“合理幫助”導致的數(shù)據(jù)污染。施以援手者盡管也是以被幫助者本人的身份信息注冊的,但還是有可能夾雜部分自己的信息。比如,2015年“雙12”時,支付寶為了增加用戶,與線下3萬家超市便利店合作,凡使用支付寶支付的,全線五折,50元封頂。這一優(yōu)惠力度對那些高度價格敏感者(大伯大媽們)的誘惑力不言而喻,但他們大多從來沒有使用過支付寶。于是,在活動現(xiàn)場,就出現(xiàn)了超市或便利店的收銀員幫助他們下載、安裝、注冊支付寶APP而排長隊的場景。為了盡快完成,收銀員們并不會完全按照大伯大媽的真實身份信息注冊,而是潦草完成,能略則略,或是直接將某個默認的選擇用之于所有人。這樣的數(shù)據(jù)身份顯然是有瑕疵的。
第二類是數(shù)據(jù)身份共享。
浙江義烏一位經(jīng)商的趙先生,為了方便女兒玩手機,把12歲女兒樂樂的指紋也加入了手機開鎖密碼。不料,樂樂在父親手機里的一款社交K 歌APP上聽歌時,竟然在3天內(nèi)打賞出去16萬元。對于這款A(yù)PP來說,如果開展后臺數(shù)據(jù)統(tǒng)計分析,一定會將打賞行為視為趙先生本人所為,卻不知道這是她年幼的女兒共享了趙先生的數(shù)據(jù)身份所致。
再以我自己的經(jīng)歷為例。我的孩子有段時間在一個培訓機構(gòu)補課,中午需要自行解決午餐。于是,用我的身份信息資料以及信用卡注冊的支付寶就成了孩子的支付工具。孩子除了支付中午的外賣之外,也會用支付寶在淘寶上購買一些她所喜歡的小東西。如果將一個小女孩的購物行為歸結(jié)到一個大男人的身上,豈不是張冠李戴?
中國人的個人邊界意識較之于西方人是十分淡漠的。在各種親密關(guān)系中,這類數(shù)據(jù)身份共享是一種常態(tài)。諸如丈夫請妻子用自己的淘寶賬號購物,員工用自己的私人賬號為公家采購都是符合中國國情的。但數(shù)據(jù)身份的共享卻為后續(xù)的大數(shù)據(jù)處理帶來了極大的麻煩。這是另一類型的大數(shù)據(jù)污染。
大數(shù)據(jù)的應(yīng)用顯然是向著精準預(yù)測的方向演進的。
據(jù)說電商巨頭亞馬遜已經(jīng)申請了預(yù)測式發(fā)貨的新專利。亞馬遜會根據(jù)某個用戶之前的訂單、商品搜索記錄、愿望清單、購物車,甚至包括用戶的鼠標在某件商品上懸停的時間等數(shù)據(jù),預(yù)測用戶的購物習慣,從而在他實際下單前便將包裹發(fā)出。
顯然,亞馬遜的這一大數(shù)據(jù)應(yīng)用是建立在歷史數(shù)據(jù)的高純凈度的前提之下的,基于這些高純凈度數(shù)據(jù)來給用戶畫像。如果因為數(shù)據(jù)身份錯位或共享而導致大數(shù)據(jù)污染,所謂的用戶畫像就是失真的,也就不可能成為數(shù)據(jù)分析與預(yù)測決策的依據(jù)。
一句俗話能夠特別形象地表明大數(shù)據(jù)污染與大數(shù)據(jù)應(yīng)用之間的關(guān)系,這就是“一顆老鼠屎,壞了一鍋粥”。在當下互聯(lián)網(wǎng)創(chuàng)業(yè)大干快上的大環(huán)境下,創(chuàng)業(yè)公司為了盡快地跑馬圈地搶地盤,往往是蘿卜快了不洗泥,很少有意識或有精力來顧及數(shù)據(jù)純凈度的問題。甚至有些創(chuàng)業(yè)公司為了拿出過得去的數(shù)據(jù),主動造假。但這樣做,勢必會為未來埋下重大隱患,所積存的歷史數(shù)據(jù)很有可能因為污染嚴重而失去基本效用。
互聯(lián)網(wǎng)技術(shù)與大數(shù)據(jù)應(yīng)用無疑是大勢所趨,未來的商業(yè)必然是向著極度精準化的方向演進的。但高樓萬丈平地起,如果從一開始就無法提供高純凈度的數(shù)據(jù)基礎(chǔ),任何美好設(shè)想都將是無本之木,無源之水。
所以,我們必須重視杜絕大數(shù)據(jù)污染以及用戶畫像的真實度,這就要求我們必須把好“數(shù)據(jù)身份認證關(guān)”,這才是大數(shù)據(jù)應(yīng)用之基。做不好這項基礎(chǔ)工作的互聯(lián)網(wǎng)公司,就不要急著奢談“強大的數(shù)據(jù)挖掘能力”了,而消費者們也要保持足夠的清醒,不要盲目相信那些神乎其神的“大數(shù)據(jù)奇跡”。
編輯:
上 尉(微信號:swei-226)