freelee
約莫一兩個世紀(jì)前,數(shù)據(jù)相當(dāng)于弄虛作假的代名詞。當(dāng)時西方流行一句諺語:“謊言有三種:謊言、該死的謊言,以及數(shù)據(jù)?!?/p>
過去人們不信任數(shù)據(jù),一方面是不信任數(shù)據(jù)源—數(shù)據(jù)收集者未必能足夠可靠地收集到充足數(shù)據(jù);另一方面是不信任數(shù)據(jù)處理—數(shù)據(jù)分析者未必能毫無瑕疵地秉公處理數(shù)據(jù)。數(shù)學(xué)家嘗試解決這個問題,他們提出樣本量、標(biāo)準(zhǔn)差、置信空間等一系列概念,指出怎樣的數(shù)據(jù)值得借鑒、怎樣的數(shù)據(jù)純屬胡扯。
如今到了“大數(shù)據(jù)”時代,數(shù)據(jù)不但洗脫污名,甚至被追捧為一種洞察真相的方式。消費者用各樣生成數(shù)據(jù)的數(shù)碼產(chǎn)品記錄自己的生活,自認(rèn)為更好地掌握了自己的狀態(tài)。企業(yè)則每時每刻都在儲存業(yè)務(wù)數(shù)據(jù),并通過數(shù)據(jù)分析尋找更有利于經(jīng)營的方案。
久而久之,越來越多的人步入“量化人生”:他們定期獲取數(shù)碼產(chǎn)品推送的數(shù)據(jù)匯總結(jié)果,并為下一階段的數(shù)據(jù)表現(xiàn)設(shè)立目標(biāo),從而提升生活質(zhì)量。而數(shù)碼產(chǎn)品開發(fā)者利用從數(shù)據(jù)中獲取的信息,將他們塑造成“更理想”的用戶。
這種被量化的人生,真的讓大家都過得更好了嗎?
“大數(shù)據(jù)”之所以可靠,要基于兩種假設(shè)。第一,有程序、攝像頭、監(jiān)視器等“不帶感情”的工具收集原始數(shù)據(jù),避免原始數(shù)據(jù)被數(shù)據(jù)收集者的主觀操作污染。這解決了“不信任數(shù)據(jù)源”的問題。第二,數(shù)據(jù)量越大,越能反映出真實的趨勢,這解決了小量樣本準(zhǔn)確還原事實的概率偏低的問題。
可是,各類數(shù)據(jù)研究機(jī)構(gòu)都會開宗明義:大數(shù)據(jù)的數(shù)據(jù)源,天然存在失真可能。
即使收集數(shù)據(jù)的工具沒有缺陷,依然有各種各樣的麻煩影響數(shù)據(jù)源的準(zhǔn)確度。比較典型的問題是“數(shù)據(jù)同步”。工具收集到數(shù)據(jù)后,還需要將數(shù)據(jù)傳送到一個特定的空間匯總,將其整合成原始的大數(shù)據(jù)源。然而受網(wǎng)絡(luò)質(zhì)量等因素影響,數(shù)據(jù)往往未必能第一時間傳送到匯總空間,甚至不能全部傳送到匯總空間。
對于個人用戶來說,這種問題比較常見。例如喜歡跑步的人使用跑步軟件,記錄個人的跑步時間、距離、速度。這類軟件往往依賴GPS持續(xù)準(zhǔn)確定位,來完整記錄跑者的運動過程。假如這期間出現(xiàn)網(wǎng)絡(luò)問題,跑者可能會發(fā)現(xiàn)自己只跑了10公里,軟件卻提示跑了15公里。然后軟件計算出來的跑者配速自然也是錯誤的,速度比平日快了一半。
“自動化”恰恰是數(shù)據(jù)處理行業(yè)希望解決數(shù)據(jù)源不可靠問題的主要思路。
車況監(jiān)控軟件記錄行車數(shù)據(jù)
又如,一位車主喜歡通過車況監(jiān)控軟件定時查閱自己的駕駛油耗。而一旦出現(xiàn)數(shù)據(jù)同步滯后,車主可能會發(fā)現(xiàn)自己周一駕駛的里程被算到周二。這樣無論周一周二的油耗結(jié)果都不準(zhǔn)確。
大數(shù)據(jù)的支持者會指出,只要數(shù)據(jù)記錄的次數(shù)足夠多,偶爾幾次的數(shù)據(jù)源失真并不會影響數(shù)據(jù)分析結(jié)果的可靠性。譬如,對于發(fā)現(xiàn)油耗記錄故障的車主來說,盡管周一周二的單日油耗錯了,但是他整周的平均油耗仍然可能是正確的。
而一個與企業(yè)相關(guān)的例子說明,數(shù)據(jù)源失真未必只是“偶然”情況。
2021年10月,游戲公司藝電體育公布旗下足球游戲《FIFA 22》的玩家大數(shù)據(jù),指出游戲上架的22天內(nèi)玩家總共踢了21億場、46萬億分鐘比賽。然而幾天后,藝電體育將數(shù)據(jù)修改為11億場、123億分鐘比賽。前后兩組數(shù)據(jù)的比賽場數(shù)相差接近一倍,顯然說明藝電體育最早使用的數(shù)據(jù)極不可靠。
數(shù)據(jù)源不準(zhǔn)確,數(shù)據(jù)分析的準(zhǔn)確度也無從談起。這對于量化人生的追逐者來說,是個大問題。
每逢年底,國內(nèi)消費者都會用支付軟件來查查自己的年度賬單。當(dāng)消費者感嘆“我怎么一年花了那么多錢”時,他們未必是在反思自己的消費習(xí)慣,而是真的疑惑究竟自己為什么有能力花這么多錢。
比較典型的場景是,某消費者經(jīng)常需要用自己的賬戶幫公司墊支。這位消費者的年度賬單,實際上就不是個人賬單,而是包括公家支出。在公家支出的干擾下,消費者并不能通過年度賬單準(zhǔn)確地了解自己的消費習(xí)慣,甚至可能因為年收入不夠覆蓋年度賬單所顯示的支出數(shù)字,而懷疑年度賬單的準(zhǔn)確度。
假如這位消費者日常使用多款支付軟件,其個人的完整消費匯總就更難成型。微信支付的數(shù)據(jù)不能合并到支付寶的數(shù)據(jù),各大銀行的APP數(shù)據(jù)也不互通。唯一讓其掌握真實的理財情況的手段,是使用專門的記賬軟件,但這意味著消費者要自己執(zhí)行一系列繁瑣的數(shù)據(jù)錄入。
上述問題說到底還是數(shù)據(jù)源問題。用數(shù)據(jù)管理來研究自己的消費習(xí)慣,需要完整的消費記錄數(shù)據(jù)。然而這些數(shù)據(jù)分散在各類軟件中,有時消費者采用現(xiàn)金支付,更連數(shù)據(jù)記錄都沒有。消費者需要一個能匯總各類支付手段的工具,組建起可靠的原始數(shù)據(jù)庫,再進(jìn)行有意義的數(shù)據(jù)分析。
消費者使用記賬軟件記錄每一筆收入和支出,在數(shù)據(jù)處理領(lǐng)域,這就是一個人工確保數(shù)據(jù)源可靠性的過程。而假如有一款記賬軟件能讀取其他支付軟件的數(shù)據(jù),消費者就能省下不少工夫,這在數(shù)據(jù)處理領(lǐng)域?qū)儆凇白詣踊瘓?zhí)行數(shù)據(jù)準(zhǔn)備”。
沉迷機(jī)制令用戶要么變成“數(shù)據(jù)的奴隸”,要么被困于數(shù)據(jù)制造的局限空間。
“自動化”恰恰是數(shù)據(jù)處理行業(yè)希望解決數(shù)據(jù)源不可靠問題的主要思路。在大數(shù)據(jù)環(huán)境下,手動檢視原始數(shù)據(jù)的問題屬于“不可能任務(wù)”,因為數(shù)據(jù)量太過龐大。即使100萬條數(shù)據(jù)中無效率是5%,也要處理多達(dá)5萬條數(shù)據(jù),如果靠人手操作需時幾十小時起。
幾乎所有的數(shù)據(jù)處理公司都主張,用自動化工具解放人力。一家叫作“數(shù)據(jù)梯子”(Data Ladder)的公司這樣建議客戶,不要讓你的數(shù)據(jù)專家親自清洗數(shù)據(jù),而要讓他們使用正確的工具和方法幫你完成數(shù)據(jù)準(zhǔn)備。這些“正確的工具”,主要指數(shù)據(jù)清洗軟件。數(shù)據(jù)清洗軟件通過編程、算法乃至人工智能等方法,對無效數(shù)據(jù)可能呈現(xiàn)的形式有一定理解,從而能更快地將具有無效特征的數(shù)據(jù)抓取出來,乃至自動處理。
數(shù)據(jù)處理公司煞費苦心地研究自動化數(shù)據(jù)準(zhǔn)備的方案,歸根結(jié)底還是相信大數(shù)據(jù)的洞察意義??墒沁^度洞察的問題,令量化人生還存在倫理道德風(fēng)險。
終端用戶常常在日常使用的軟件中,看到“你的運動量比上個月增加了200%”“你的消費金額排名全國的前1%”之類的評價。這些評價是軟件“沉迷機(jī)制”的一部分:通過為用戶提供橫向或縱向比較排名,吸引用戶花更多時間爭取更好成績、更高排名,從而增加軟件使用時間。極端的用戶會跌入過度運動、過度消費等陷阱,真正變成“為數(shù)據(jù)而生存”的人。
另一種軟件沉迷機(jī)制,影響的不僅僅是極端用戶,而是大部分用戶—算法推薦。各種社交網(wǎng)絡(luò)、娛樂應(yīng)用,將這種機(jī)制玩得出神入化。一旦算法認(rèn)為用戶對某主題“感興趣”,就不斷推薦相關(guān)主題的內(nèi)容。最終用戶看到的都是類似主題的內(nèi)容,而失去接觸其他類型內(nèi)容的渠道,最終被封鎖在所謂的“信息繭房”中。
信息繭房造成信息交流不暢,其危害輕則導(dǎo)致不同繭房的群體互相無謂爭執(zhí),重則成為謠言傳播的溫床。令人無奈的是,信息繭房極難打破。甚至有像優(yōu)兔(YouTube)那樣比較極端的機(jī)制:假如用戶是從推薦頁面、推薦欄點進(jìn)一個新視頻,平臺會積極推薦相關(guān)主題的視頻;但假如用戶從搜索結(jié)果點進(jìn)新視頻,平臺推送相關(guān)主題的視頻的概率低很多。這意味著用戶連通過搜索來無意中打破信息繭房的機(jī)會,都被剝奪。
沉迷機(jī)制令用戶要么變成“數(shù)據(jù)的奴隸”,要么被困于數(shù)據(jù)制造的局限空間。用數(shù)據(jù)制造虛假的、片面的信息來控制用戶,已非聳人聽聞。
早前國內(nèi)有關(guān)外賣平臺算法機(jī)制的爭議,將量化人生的潛在風(fēng)險表達(dá)得更加清晰:企業(yè)貌似通過數(shù)據(jù)洞察了減少送外賣時間的機(jī)遇,但實際上外賣員正為此付出健康乃至生命代價,而消費者被提高的期待卻沒有得到滿足,企業(yè)也最終陷入風(fēng)口浪尖。
一個多世紀(jì)前,一個叫泰勒的美國人發(fā)明了“科學(xué)管理”。他大概可以被視為最早的量化人生實踐者,通過記錄每個工作的步驟及所需時間,設(shè)計出盡量提高效率的標(biāo)準(zhǔn)化流程。這本質(zhì)上還是一個抓取數(shù)據(jù)源再分析數(shù)據(jù)的過程。如今“科學(xué)管理”被稱為“機(jī)械管理”,成為“非人性化”的代名詞,已被現(xiàn)代管理學(xué)拋棄。
大數(shù)據(jù)設(shè)計的量化人生,也會被視為反人性、也會最終被拋棄嗎?