[美]拉斐爾·阿爾瓦拉多 [美]保羅·漢弗萊斯/文薛永紅/譯
“大數(shù)據(jù)”一詞大約于1995年開始使用,其含義在2008年發(fā)生了根本性的變化:從運用大規(guī)模數(shù)據(jù)集發(fā)現(xiàn)并解決問題的一種方法,一躍成為建構(gòu)新興經(jīng)濟和文化秩序的“法寶”。它對人類所產(chǎn)生的深刻、普遍的影響,在讓人歡欣鼓舞的同時,也讓人憂心忡忡。從經(jīng)濟的角度來看,目前“大數(shù)據(jù)”指代一種以數(shù)據(jù)為媒介的商業(yè)形式(以谷歌為代表),它把從大規(guī)模網(wǎng)絡(luò)中生成、收集的數(shù)據(jù)用于機器學(xué)習(xí),從而使其成為互聯(lián)網(wǎng)的實際中心。從文化的角度來看,該詞則代表一種新的知識和知識生產(chǎn)的形式,《連線》 (Wired)雜志的主編克里斯·安德森(Chris Anderson)在《科學(xué)理論的終結(jié)》一文中對此就有所闡述。①C. Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired, Vol.16,No.7, 2008, p.17.本文中,我們將從實際社會和科學(xué)變革的可觀察屬性的維度探討這兩種含義以及它們之間的聯(lián)系。為此,我們將引入三個核心概念:數(shù)據(jù)域(datasphere)、深調(diào)制(thick mediation)以及不透明表征(representational opacity)。這三個概念作為一個理論框架,可以幫助我們理解大數(shù)據(jù)在經(jīng)濟和文化維度上——一個是地方性和生成性的,另一個是全球性的和涌現(xiàn)性的——如何交互以及在交互過程中產(chǎn)生的一系列的后果、問題和機遇。
雖然很難為“大數(shù)據(jù)”給出一個抽象的定義,但這個詞的概念源起具有清晰的歷史脈絡(luò)?!按髷?shù)據(jù)”這個詞最早出現(xiàn)在20世紀(jì)90年代,當(dāng)時各行業(yè)和各門科學(xué)廣泛地使用數(shù)據(jù)采集和數(shù)據(jù)存儲設(shè)備——從計算機科學(xué)儀器和收銀機到關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫——使得難以控制的數(shù)據(jù)流匯集成了海量數(shù)據(jù)。為了實現(xiàn)大數(shù)據(jù)集中挖掘并發(fā)掘其中潛在的認(rèn)知模式和商業(yè)價值,對于這些數(shù)據(jù)的組織與處理就變得十分迫切,數(shù)據(jù)挖掘應(yīng)運而生。此后,這種知識挖掘的有效模式被迅速崛起的谷歌演繹得淋漓盡致。1991年通過的《高性能計算法案》解除了對互聯(lián)網(wǎng)的監(jiān)管,之后,谷歌采用了數(shù)據(jù)挖掘技術(shù)來應(yīng)對互聯(lián)網(wǎng)爆炸式增長所帶來的問題,取得了矚目的成果。②我們將“互聯(lián)網(wǎng)”視為一個專有名詞,它的前身是阿帕網(wǎng)(APPANET)。2008年,《自然》和《連線》雜志均圍繞“大數(shù)據(jù)”這一主題組織了關(guān)于谷歌的討論,然而主題并不是討論它在管理和開發(fā)大數(shù)據(jù)方面所取得的成功經(jīng)驗,而是將谷歌作為一個科學(xué)研究的典范,討論人類能從它身上學(xué)到什么。此后,大數(shù)據(jù)的概念不僅涵蓋了一套完整而又行之有效的數(shù)據(jù)處理方法(大致對應(yīng)數(shù)據(jù)科學(xué)和機器學(xué)習(xí)領(lǐng)域),而且作為一種發(fā)現(xiàn)科學(xué)知識的新工具為人們所理解。
沿著這條發(fā)展線索,大數(shù)據(jù)逐漸派生出了兩種廣泛的含義,我們稱之為小寫的大數(shù)據(jù)(big data)和大寫的大數(shù)據(jù)(Big Data)。小寫的“大數(shù)據(jù)”指的是擁有海量數(shù)據(jù)的組織機構(gòu)所面臨的技術(shù)問題。盡管在這個意義上它通常指的就是數(shù)據(jù)集本身,并強調(diào)其復(fù)雜性以及龐大的體量,但該術(shù)語更多地被用作一種代表,即代表在諸如天體物理學(xué)、生物信息學(xué)和其他領(lǐng)域成功應(yīng)用相關(guān)方法獲取數(shù)據(jù)流的科學(xué)學(xué)科以及在商業(yè)領(lǐng)域的消費分析等。準(zhǔn)確地說,我們將小寫的“大數(shù)據(jù)”一詞視為與數(shù)據(jù)科學(xué)相關(guān)的活動和方法,因為這些數(shù)據(jù)集太大以至于不能用傳統(tǒng)方法進行分析。
當(dāng)這些活動和方法向社會各領(lǐng)域滲透并迅速發(fā)展——尤其是在經(jīng)濟和文化領(lǐng)域,便產(chǎn)生了大寫的大數(shù)據(jù)。在經(jīng)濟上,這個術(shù)語表示以數(shù)據(jù)為中介的商業(yè)形式,包括大量的基于數(shù)據(jù)建立的公司與業(yè)務(wù),谷歌就是其典型代表。在文化上,這個術(shù)語代表了一種由數(shù)據(jù)科學(xué)研究者所倡導(dǎo)的新的知識和知識生產(chǎn)方式。這兩個方面無疑是相互聯(lián)系的:大數(shù)據(jù)在經(jīng)濟領(lǐng)域產(chǎn)生的數(shù)據(jù)在內(nèi)容上具有社會性和文化性。大數(shù)據(jù)組織和收集到的人類行為數(shù)據(jù)——從整個圖書館的數(shù)字化和通過交易得到的公共機構(gòu)的數(shù)據(jù)(如使用信用卡或谷歌搜索)到從社交媒體抓取到的數(shù)據(jù)——在數(shù)量上大大超過了通過傳統(tǒng)的方法如調(diào)查研究、參與觀察、檔案記錄等所獲取的數(shù)據(jù)。這些數(shù)據(jù)不僅規(guī)模龐大,而且涉及范圍廣,包括精確且詳盡的行為痕跡(比如通過掃描卡或社交媒體而追蹤到的關(guān)于消費者的數(shù)據(jù))。顯然,如果沒有相關(guān)的技術(shù)設(shè)備的存在,就無法捕捉這些數(shù)據(jù)。這種社會性的數(shù)據(jù)在量和質(zhì)的方面發(fā)生了根本性變化,這就對技術(shù)和文化提出了巨大的挑戰(zhàn)。因此,大寫的大數(shù)據(jù)是人文主義者和社會科學(xué)家所關(guān)注的領(lǐng)域。
大寫的大數(shù)據(jù)可以被認(rèn)為是小寫的大數(shù)據(jù)的經(jīng)濟和文化轉(zhuǎn)向,因此會使社會組織的知識結(jié)構(gòu)產(chǎn)生歷史性的變革。這種轉(zhuǎn)向是基于近幾十年來發(fā)展、滲透在全球各領(lǐng)域和組織的巨大的電子網(wǎng)絡(luò)所生產(chǎn)的數(shù)據(jù)之上的,包括政府、醫(yī)藥、金融、教育和商業(yè)。這個網(wǎng)絡(luò)既不是抽象的,也不是虛擬的,它是在人類生物圈內(nèi)發(fā)展起來的、具備技術(shù)和社會因素的具體結(jié)構(gòu),并且具有與卡爾·波蘭尼(Karl Polanyi)在《大轉(zhuǎn)型》 (The Great Transformation)中所描述的自由市場相似的空間結(jié)構(gòu),只是規(guī)模更大一些。①K. Polanyi, The Great Transformation: The Political and Economic Origins of our Time, Boston: Beacon, 1957.這個網(wǎng)絡(luò)結(jié)構(gòu)有許多其他的名稱,例如,文學(xué)作品中吉布森(William Gibson)的“網(wǎng)絡(luò)空間”概念,社會科學(xué)中卡斯特(Manuel Casetells)的“流動空間”概念以及祖博夫(Shoshana Zuboff)的“監(jiān)督資本主義”概念等。①W. Gibson, “Burning Chrome”, Omni,Vol.4, No.10, 1982, pp.72—77; M. Castells, “The Space of Flows”, The Information Age: Economy,Society, and Culture(Vol.1),Cambridge, MA: Wiley-Blackwell, 1996, pp. 376—423; S.Zuboff, “Big Other: Surveillance Capitalism and the Prospects of an Information Civilization”, in Journal of Information Technology,Vol.30, No. 1, 2015, pp.75—89.所有這些含義都是有價值的,它們就像一個個透鏡,透視著人類社會的眾多維度,我們將其稱之為數(shù)據(jù)域——一個由洛西克夫(Rushkoff)提出并被加芬克爾(Garfinkel)清晰地下過定義的術(shù)語,它指的是“對機器可讀數(shù)據(jù)的收集、聚合和使用的基礎(chǔ)設(shè)施”②D.Rushkoff, Media Virus!: Hidden Agendas in Popular Culture, New York: Ballantine Books, 1994; S.Garfinkel,Database Nation: The Death of Privacy in the 21st Century, Beijing: O’Reilly Media, 2000.。
數(shù)據(jù)域作為一種社會建制,從許多相互獨立的領(lǐng)域及其相互聯(lián)合的進程中涌現(xiàn)并嵌入其中,如計算思維的發(fā)展、自然科學(xué)和社會科學(xué)中的統(tǒng)計方法及各種世界假說的興起、對用于組織和管理人口的各種記錄的使用(包括紙質(zhì)記錄和電子記錄)以及以計算設(shè)備為基礎(chǔ)的用于數(shù)據(jù)共享的通信網(wǎng)絡(luò)的建構(gòu)等。數(shù)據(jù)域的許多文化效應(yīng)并不是新事物,例如對信息超載的焦慮和對海量數(shù)據(jù)所帶來的變革的樂觀信念。數(shù)據(jù)域的獨特之處在于,它將之前的信息實踐結(jié)合到目前最新的、具備前所未有的規(guī)模和力量的計算機基礎(chǔ)設(shè)施之中。為了滿足生產(chǎn)和控制信息的需求,這些基礎(chǔ)設(shè)施被合并到組織內(nèi)部,由此首先產(chǎn)生了小寫的大數(shù)據(jù),繼而為大寫大數(shù)據(jù)的許多獨特屬性做了鋪墊和規(guī)定。如果沒有這些基礎(chǔ)設(shè)施,就不可能有這種形式的數(shù)據(jù)積累,也無法使數(shù)據(jù)的挖掘和使用成為一種新的知識形式。正是因為數(shù)據(jù)域的存在,才使大數(shù)據(jù)能夠以兩種形式存在。最后,數(shù)據(jù)域通過全球網(wǎng)絡(luò)化的商業(yè)和協(xié)作模式得到擴展,這些模式可以通過網(wǎng)絡(luò)實現(xiàn)(如商業(yè)網(wǎng)站),還可以通過開放源代碼軟件等進行協(xié)作實踐。在Web 2.0階段,用戶生成內(nèi)容(UGC)的交互式網(wǎng)站變得很普遍,數(shù)據(jù)域在社交互動層面有了一系列的創(chuàng)新和發(fā)展,其中包括Facebook和Twitter等社交媒體平臺、零售平臺、博客圈、書簽網(wǎng)站和移動計算設(shè)備,這些設(shè)備可以隨時隨地將用戶連接到這些平臺上。近來,數(shù)據(jù)域已經(jīng)包含了新的參與平臺,這就使得以Uber、Airbnb、維基解密、物聯(lián)網(wǎng)、云計算、開源數(shù)據(jù)為代表的“零工經(jīng)濟” (gig economy)成為可能。
總之,數(shù)據(jù)域是歷史建構(gòu)的、分布在不同地理位置上的、社交性的網(wǎng)絡(luò),人與機器在此網(wǎng)絡(luò)中進行數(shù)據(jù)交換。我們將這個網(wǎng)絡(luò)視為一種拉圖爾(Bruno Latour)意義上的行動者網(wǎng)絡(luò):它作為共同參與者,包括了人與機器之間的一系列交流,并產(chǎn)生了我們與特定社會、文化以及體系相聯(lián)結(jié)的獨特的互動模式。③B. Latour, Reassembling the Social: An Introduction to Actor-Network-Theory, Oxford: Oxford University Press,2005.與本質(zhì)上的社交網(wǎng)絡(luò)的異常特征不同,技術(shù)要素作為中介建構(gòu)了人與人之間的關(guān)系。正如人類學(xué)家邁克爾·韋斯(Michael Wesch)所言,按照語言人類學(xué)的概念,每個新的數(shù)字平臺(如Facebook,Snapchat或Uber)都會創(chuàng)建自己獨有的參與者結(jié)構(gòu),將人們整合于包含具體社會關(guān)系和角色的特定序列之中。①N. L. Whitehead and M.Wesch, Human No More: Digital Subjectivities, Unhuman Subjects, and the End of Anthropology, Boulder: Univ. Press of Colorado, 2012; H.A. Innis, Empire and Communications,Oxford:Clarendon, 1950.在這個網(wǎng)絡(luò)中,計算機的作用與多年前哈羅德·伊尼斯(Harold Innis)提出的原則一致,即媒體形式和交流方式塑造了社會關(guān)系,甚至如本尼迪克特·安德森(Benedict Anderson)在《想象的共同體》中所言,它在一定程度上形成了一個國家的民族特性。
表征數(shù)據(jù)域的參與結(jié)構(gòu)通過在軟件中執(zhí)行編碼并在硬件約束下運行規(guī)則得以生成。譬如像Facebook之類的社交媒體平臺,是通過硬件和軟件建立人類參與者(“朋友”)之間的對稱關(guān)系網(wǎng)絡(luò)來實現(xiàn)個人之間的溝通的。由此產(chǎn)生的社交網(wǎng)絡(luò),從用戶的角度來看,具有或多或少的扁平化和非等級屬性。與此相反,Twitter通過非對稱“跟隨”的邏輯建立關(guān)系,進而形成網(wǎng)絡(luò),用戶可以通過將關(guān)注者的比例最大化來構(gòu)建層級結(jié)構(gòu)。
除結(jié)構(gòu)性結(jié)果外,還有與使用媒體形式有關(guān)的特定的社會進程。在數(shù)據(jù)域中,典型的社會進程開始于對一些基本人類行為模式的表征和捕捉,這類行為一般是一些基本交易事件(例如打一次電話或進行一次購買),這類事件可以轉(zhuǎn)化為數(shù)據(jù),我們就稱之為數(shù)據(jù)捕獲事件。②需要強調(diào)的是,盡管我們把注意力放在人類這一因素上,但是數(shù)據(jù)域不僅僅局限于人與人、人與機器之間的交互。自動出租車的運行、軍用無人機對信息的收集、熊入侵的視頻圖像等,所有這些內(nèi)容都是數(shù)據(jù)域的組成部分。在每個數(shù)據(jù)捕獲事件中,行為被轉(zhuǎn)換并打包成具有元數(shù)據(jù)內(nèi)容的自包含信息。通常情況下,可用的元數(shù)據(jù)包括事件的具體時間(秒)、地理位置(米)以及電話號碼或電子郵件地址等形式的個人標(biāo)識符。一旦這些數(shù)據(jù)被捕獲和打包成功,捕獲設(shè)備就會通過一系列通道(如WiFi集線器,光纖電纜和蜂窩塔)將這些數(shù)據(jù)發(fā)送到云端的服務(wù)器。數(shù)據(jù)包作為離散記錄或“觀察結(jié)果” (從數(shù)據(jù)中獲取相應(yīng)模式的分析員如此稱呼此類數(shù)據(jù))進入并儲存在云端數(shù)據(jù)庫中。在數(shù)據(jù)庫中,單個數(shù)據(jù)包將與以相同方式捕獲的其他數(shù)據(jù)包聚合。在這一過程中,數(shù)據(jù)將會到達(dá)一個臨時的終端。數(shù)據(jù)庫通常由首先創(chuàng)建數(shù)據(jù)捕獲事件的組織擁有,如應(yīng)用程序的所有者、信用卡公司或二者的組合。捕獲的數(shù)據(jù)包將成為在此類組織內(nèi)部使用的大量數(shù)據(jù)中的一部分——它將成為該組織歷史記錄的一部分,或者可能成為季度報告中聚合數(shù)據(jù)點的一部分。
在大數(shù)據(jù)時代,這些數(shù)據(jù)并不會長期停留在數(shù)據(jù)倉庫中。它們將與組織的數(shù)據(jù)倉庫或“湖”中的其他數(shù)據(jù)集相結(jié)合,或者出售給另一個組織。然后,數(shù)據(jù)工程師對數(shù)據(jù)進行清理并將其轉(zhuǎn)化為數(shù)據(jù)分析人員可分析的形式。數(shù)據(jù)分析人員通過先進的分析方法對數(shù)據(jù)進行挖掘,以發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)。他們將挖掘到的結(jié)果或轉(zhuǎn)交給執(zhí)行官做出決定,或推送給其他算法以用于其他分析目的,或?qū)⑵浞答伒綌?shù)據(jù)產(chǎn)品中并重新傳輸回數(shù)據(jù)捕獲站點。例如,他們將個人的社交媒體帖子與他或她的朋友組群信息結(jié)合在一起進行分析,分析結(jié)果將用于構(gòu)建該人能看到的推送,這反過來又會刺激另一個消息的發(fā)生,即另一個數(shù)據(jù)捕獲事件。
這一過程具備一種敘事性的特質(zhì),反映為布朗和杜古德(John Seely Brown and Paul Duguid)所述的“信息社會生活”:數(shù)據(jù)在移動——從數(shù)據(jù)捕獲階段到數(shù)據(jù)聚合階段,之后是數(shù)據(jù)分析階段以及其他的數(shù)據(jù)運用階段。①J. S. Brown and P. Duguid, “Mysteries of the Region: Knowledge Dynamics in Silicon Valley”, in The Silicon Valley Edge: Habitat for Innovation and Entrepreneurship, edited by Chong-Moon Lee, W. F. Miller, M. G. Hancock and H. S. Rowen, Stanford, CA: Stanford University Press, 2000, pp.16—45.這個過程說明了大寫大數(shù)據(jù)與小寫大數(shù)據(jù)二者間的重要區(qū)別。在自然科學(xué)領(lǐng)域中收集和處理極大的數(shù)據(jù)集時,只存在從世界到數(shù)據(jù)收集器的單向通道。當(dāng)我們使用科學(xué)研究的結(jié)果來改變自然世界時,雖然工程學(xué)上可能會有一些例外,但在某些自然科學(xué)領(lǐng)域如天體物理學(xué)中,數(shù)據(jù)收集行為并不會影響星系本身。而在大寫大數(shù)據(jù)的許多領(lǐng)域,存在信息和影響間的雙向流動。例如,社交媒體公司可能會收集青少年的數(shù)據(jù),然后利用(并出售)這些數(shù)據(jù)來重塑他們的購買習(xí)慣和娛樂偏好。同樣,政黨和政府收集有關(guān)選民的數(shù)據(jù),并使用這些數(shù)據(jù)分析產(chǎn)品來影響個人的投票決定。這也就意味著,大寫的大數(shù)據(jù)涉及觀察者與觀察者之間的反饋關(guān)系,而小寫的大數(shù)據(jù)通常不會。
這些結(jié)構(gòu)和過程中的細(xì)節(jié)與生成它們的媒體平臺一樣多變,但是若將之視為同一類別進行分析,則存在一個共同模式,其特征可能如圖1所示:
圖1 數(shù)據(jù)域的基本參與結(jié)構(gòu)
該圖描繪了包含三類代理方(agent)及相互關(guān)系在內(nèi)的基本參與結(jié)構(gòu):其中M為參與過程的機器,它介于P1和P2之間,P1和P2代表任意數(shù)量的與服務(wù)有關(guān)的人員,組織O負(fù)責(zé)托管由M支持的服務(wù)。有些讀者會注意到,這種結(jié)構(gòu)似乎描述了以計算機為媒介交流(CMC)的典型情況。CMC是20世紀(jì)60年代人機交互領(lǐng)域中的一個關(guān)鍵概念,在該領(lǐng)域中,計算機建構(gòu)和改變了組織和社區(qū)中人與人之間的關(guān)系。然而,該圖中的結(jié)構(gòu)超出了該過程本身所創(chuàng)建的任何一個組織單位的界限。事實上,其所涉及的參與者(P1,P2)之間可能、也往往不認(rèn)識,更不用說發(fā)生面對面的交流。該圖說明了自社交媒體革命和Web 2.0時代以來,我們已經(jīng)意識到了這樣一種情況,即人與人之間的通信——從簡單的發(fā)短信到關(guān)注Facebook上的好友以及數(shù)字平臺提供的其他參與模式——絕不是私密的。即使在我們的想象中,這種人與人之間的通信方式應(yīng)該移除任何的“中間人”,然而由于第三方(即圖中的組織O)的存在,就使得這種非私密通信的狀況成為了可能。此外,通信行為以及因這種行為產(chǎn)生的信息存在于這個組織的利益鏈條之中,就像電話公司為每次通話收費一樣,但該組織絕不僅限于在通信服務(wù)中獲利。所以說,眾多社交媒體平臺免費的理由與廣播網(wǎng)絡(luò)電視免費的原因相同,這是因為無論是作為此類服務(wù)的參與者還是觀眾,這些人本身就是產(chǎn)品。機器主要促成的是參與者——尤其是參與者的數(shù)據(jù)——與組織之間的關(guān)系,而不是參與者之間的關(guān)系。
除此之外,人們很容易得出一種極端的結(jié)論:社會媒體以及在數(shù)據(jù)域內(nèi)的所有其他的以計算機為媒介的通信手段,其存在的目的都是為了賦予并擴大它們背后的組織的權(quán)力,如谷歌和亞馬遜,而對用戶利益的考量都是次要的或虛妄的。有一種推論認(rèn)為:大數(shù)據(jù)是一種新自由主義和全球主義的陰謀,機器扮演著數(shù)字雙重間諜的角色。此外,還有另一種說法,即大數(shù)據(jù)和數(shù)據(jù)科學(xué)的支持者們想要說明的是,并非所有的組織都與選民的利益相沖突,或與其他有利益沖突和監(jiān)管任務(wù)的組織毫無往來。事實上,這里所描述的數(shù)據(jù)流可被用來改善成員與組織之間以及不同組織之間的關(guān)系,尤其在醫(yī)學(xué)和教育領(lǐng)域中,大數(shù)據(jù)都發(fā)揮了明顯的積極作用。我們面臨的挑戰(zhàn)是,如何從物料和可操作性兩個角度調(diào)整系統(tǒng),以使其適應(yīng)我們共同的需求。
在數(shù)據(jù)域的基本參與結(jié)構(gòu)中,有一個關(guān)鍵元素非常值得我們關(guān)注。從圖1可以看出,無論數(shù)據(jù)如何在使用者之間傳遞,數(shù)據(jù)始終停留在中間地帶,即某一數(shù)據(jù)庫中。在數(shù)據(jù)庫中,數(shù)據(jù)不但被存儲、聚合,還可被用于他途,而作為參與者通常對此毫不知情。因此,盡管基本參與結(jié)構(gòu)的每個元素都被認(rèn)為是必不可少的,但我們觀察到數(shù)據(jù)庫占據(jù)著所有數(shù)據(jù)最終必然流經(jīng)的中心和關(guān)鍵路徑,其作用就像“曼陀羅” (mandala),將用戶的周邊關(guān)系整合到組織的中心樞紐。產(chǎn)生這種向心性的本質(zhì)原因是數(shù)據(jù)庫為系統(tǒng)提供了長久記錄的空間。如果沒有數(shù)據(jù)庫的存在,所有的通信都是短暫的,即使我們想要如上文所述,將個體行為所產(chǎn)生的數(shù)據(jù)聚合轉(zhuǎn)換成數(shù)據(jù)包,都是不可能實現(xiàn)的。我們很難估計這個元素的重要性。作為流動在數(shù)據(jù)域中的數(shù)據(jù)的中心存儲庫,數(shù)據(jù)庫的功能與以讀寫能力為基礎(chǔ)的社會和組織中的編寫系統(tǒng)的功能相同。自舊石器時代以來,這種事情就一直在人類社會中上演。這是自計算機被引入公司以來,各組織投入的基本記錄技術(shù),它是在編程語言、算法和應(yīng)用軟件等更為多變的潮流基礎(chǔ)上形成的信息管理的基石。基于此,我們認(rèn)為數(shù)據(jù)庫是真正的書寫和印刷技術(shù)的繼承者。①祖博夫認(rèn)為,數(shù)據(jù)庫在組織中起著一種文本的功能,在 In the Age of the Smart Machine: The Future of Work and Power (New York: Basic Books, 1988)一書中,他將數(shù)據(jù)庫描述為一種電子文本,發(fā)揮著“信息化”的功能,與工業(yè)機器的“自動化”過程類似。在該書中,祖博夫還根據(jù)口述與讀寫的相關(guān)理論詳細(xì)地闡述了數(shù)據(jù)庫的功能與作用。
如果數(shù)據(jù)庫在人們的網(wǎng)絡(luò)中扮演“文本”的作用,那么我們可以將數(shù)據(jù)庫在媒介傳播中所做的工作描述為語言人類學(xué)家使用的另一個術(shù)語——文本化(entextualization)。所謂的“文本化”指的是將短暫的話語轉(zhuǎn)化為持續(xù)的媒介形式(如寫作、歌曲)的過程,其影響社會生活的能力超越了話語的原始語境。因此,數(shù)據(jù)庫介入通信的一個關(guān)鍵作用是它會將人類的互動行為文本化,而在傳統(tǒng)媒體渠道(如電話)中這是不可能實現(xiàn)的,除非線路被監(jiān)聽或竊聽。這種持續(xù)的、實時的、無處不在的文本化的工作,使數(shù)據(jù)庫介入的通信方式與其他的通信方式明顯不同。因此,基于這種通信方式的數(shù)據(jù)域在歷史上也是獨一無二的。
從參與消息傳遞的兩個人(P1和P2)的角度來看,通過諸如移動電話等設(shè)備進行的通信或多或少是透明(transparent conversation)的。機器提供了用以發(fā)送和接收消息的清晰通道,如電話和電報。由于這些技術(shù)的目標(biāo)是忠實地將消息從發(fā)送方復(fù)制到接收方,因此我們可以說,這些技術(shù)對信息所做的是一種淺調(diào)制(thin mediation),意味著在某種程度上,信息雙方成功地擺脫了通信方式本身。香農(nóng)(Claude Shannon)的通信模型正體現(xiàn)了這種特征:通信工程師的最高目標(biāo)是消除信號通過信道時所產(chǎn)生的噪聲。②C. E. Shannon, “A Mathematical Theory of Communication”, ACM SIGMOBILE Mobile Computing and Communications Review, Vol.5,No. 1, 2001, pp. 3—55.然而,由于數(shù)據(jù)域中的信息被文本化并存儲在數(shù)據(jù)庫中,在數(shù)據(jù)庫中又被塑造、處理和重定向到與原始會話無關(guān)的第三方,交流行為因此發(fā)生了根本性的改變。我們把這種通信方式稱為深調(diào)制(thick mediation)。在這種通信方式下,啟用信號通道的目的不是為了擺脫這種方式,恰恰相反,是要從根本上重塑信息,因此其對信息本身做的是一種深度的調(diào)制行為,這一事實為馬歇爾·麥克盧漢(Marshall McLuhan)的著名論斷賦予了新的含義。③指加拿大著名傳播學(xué)家馬歇爾·麥克盧漢(Marshall Mcluhan,1911—1980年)對媒介的論斷,最著名的有:“媒介就是信息”“媒介是人體的延伸”等。——譯者我們不能簡單地認(rèn)為媒介自身就帶有信息,而是媒介塑造和放大了信息。
如果數(shù)據(jù)庫介入的通信是深調(diào)制,那么信道的寬度以及參與者結(jié)構(gòu)是數(shù)據(jù)庫文本性質(zhì)的函數(shù),人類學(xué)家伊蘭娜·格爾森(Ilana Gershon)也認(rèn)為,新媒體形式的參與者結(jié)構(gòu)是媒體形式固有屬性的函數(shù),但是受用戶感知與執(zhí)行方式的約束。①I. Gershon, “Language and the Newness of Media”, Annual Review of Anthropology, Vol.46, No.1, 2017,pp.15—31.因此,要了解深調(diào)制的影響,我們應(yīng)該探索數(shù)據(jù)庫作為媒體形式的屬性以及基本參與者結(jié)構(gòu)如何感知和利用這些屬性。
在數(shù)據(jù)庫內(nèi)在屬性的研究方面,列夫·曼諾維奇(Lev Manovich)將數(shù)據(jù)庫看作是“一種象征形式”,我們認(rèn)為他的這一開創(chuàng)性工作非常有價值。②L. Manovich, “Database as Symbolic Form”, Convergence, Vol.5, No. 2, 1999, pp.80—99.“數(shù)據(jù)庫邏輯”與歷史和文學(xué)文本的敘事邏輯相反,曼諾維奇描述了“數(shù)據(jù)庫邏輯”的通用屬性:在數(shù)據(jù)庫中,內(nèi)容的順序并不重要(其順序是“隨機存取”);工作本身并沒有任何開端或結(jié)局,而且其信息在結(jié)構(gòu)上是聚合的(而不是組合關(guān)系的)。有趣的是,曼諾維奇的觀點具體地體現(xiàn)了幾年前利奧塔(Jean-Fran?ois Lyotard)在《后現(xiàn)代狀態(tài)》中所預(yù)期的計算機知識的反敘事特質(zhì)。③J. F. Lyotard, The Postmodern Condition: A Report on Knowledge, translated by G. Bennington and B. Massumi,Minneapolis: University of Minnesota Press, 1984.在此基礎(chǔ)上,我們可以再增加以下幾點:數(shù)據(jù)庫的文本是一個個單獨提供的信息的聚合;原始數(shù)據(jù)生成行為的唯一性將丟失,因為與該行為相關(guān)聯(lián)的轉(zhuǎn)發(fā)和打包行為使數(shù)據(jù)變成一組相似的數(shù)據(jù)[以瓦爾特·本杰明(Walter Benjamin)在《機械復(fù)制時代的藝術(shù)作品》中所描述的“韻味的消散”的方式];該行為使數(shù)據(jù)的語境減少從而成為元數(shù)據(jù);數(shù)據(jù)庫的內(nèi)容可以是數(shù)字的、分類的或語言上碎片化的;每一個數(shù)據(jù)的實例都必須遵循一個固定架構(gòu)所定義的結(jié)構(gòu);這些數(shù)據(jù)能被機器讀取,并能被人類用特殊的語言查詢等。
鑒于這些屬性,數(shù)據(jù)庫所介入的信息交互關(guān)系中的參與者根據(jù)他們?nèi)绾谓忉尯托袨閬沓袚?dān)某些角色。因此,對參與結(jié)構(gòu)所產(chǎn)生的結(jié)果需要作實證研究。在這里,我們還注意到,數(shù)據(jù)庫文本的受眾從來不是對話的參與者,他們只貢獻和接收數(shù)據(jù)庫整體文本的一小部分——作為參與結(jié)構(gòu)的各方即組織或準(zhǔn)組織,構(gòu)成了所謂的“B2B” (企業(yè)對企業(yè))的關(guān)系。對數(shù)據(jù)域中的組織及其共同參與者來說,數(shù)據(jù)庫文本就是大寫的大數(shù)據(jù)。
除了上文所述的參與結(jié)構(gòu)外,我們還必須注意到另外一個事實,即數(shù)據(jù)庫作為社交紐帶處于另一類比社交媒體更為普遍(或至少存在這種可能)的參與結(jié)構(gòu)的核心位置,而這兩件事實共同放大了大數(shù)據(jù)作為人類行為文本化積累的意義。以上,我們描述了及物性(transitive structure)的參與結(jié)構(gòu)——在這種結(jié)構(gòu)中一個參與者和一個直接對象(另一個參與者)進行交互;除此之外,還有我們可以稱之為非及物性(intransitive structure)的參與結(jié)構(gòu)。從用戶的角度來看,這種非及物性交互形式的發(fā)生不涉及直接對象。人們通過與傳感器和監(jiān)視設(shè)備交互,從而產(chǎn)生此類參與結(jié)構(gòu)中的數(shù)據(jù)捕獲事件。如今,這些傳感器和監(jiān)視設(shè)備已經(jīng)變得越來越普遍,并嵌入到日常生活和工作當(dāng)中——從汽車到咖啡機、垃圾桶到血糖儀,這些嵌入式設(shè)備在物聯(lián)網(wǎng)上的增長標(biāo)志著數(shù)據(jù)域在社會生活中的延伸,以至于我們的生活被這種媒介包圍,就像細(xì)胞外基質(zhì)中的生物細(xì)胞一樣。此外,這種“基質(zhì)”還包括以前的內(nèi)容:由于Google Books和Hathi Trust等項目以及數(shù)不清的數(shù)字人文主義者——他們至少在過去的30年里一直在創(chuàng)造數(shù)字檔案——的工作,大量前數(shù)字媒體形式(如書籍和繪畫)的歷史資料被整理為數(shù)據(jù)庫的形式。
在深調(diào)制所產(chǎn)生的眾多認(rèn)知論后果中,我們特別感興趣的是它對利奧塔曾經(jīng)稱之為“信息化社會中的知識”的影響。①Lyotard, The Postmodern Condition: A Report on knowledge, p.xiii.自大數(shù)據(jù)崛起以來,這些影響并沒有被忽視。我們已經(jīng)注意到克里斯·安德森(Chris Anderson)那極端的觀點——谷歌改變了科學(xué)研究方法;如尼古拉斯·卡爾(Nicholas Carr)的黑色幽默所言,谷歌改變了我們的想法,并且可能“使我們變得愚蠢”。安德森在《科學(xué)理論的終結(jié)》一文中的觀點與卡爾的觀察結(jié)果非常接近,即在文學(xué)中,網(wǎng)絡(luò)提供的碎片化的和淺層的閱讀材料,使人們已經(jīng)放棄了長篇、持續(xù)的閱讀方式。②N. Carr,“ Is Google Making Us Stupid? ” in The Atlantic Monthly, Jul/Aug 2008. https://www.theatlantic.com/magazine/archive/2008/07/is-google-making-us-stupid/306868/.所有這些結(jié)果與對這一現(xiàn)象——數(shù)據(jù)庫介入的通信方式改變了我們生產(chǎn)和消費知識的方式——的評價都截然不同。
此外,在對曼諾維奇的數(shù)據(jù)庫邏輯概念的平行思考中,克雷·舍基(Clay Shirky)盛贊了由大數(shù)據(jù)導(dǎo)致的本體論的衰落,他認(rèn)為與專家的封閉開發(fā)、研究相比,會有更有機的組織數(shù)據(jù)的模式和更加開放的社交媒體平臺進行研究。③C.Shirky,“ Ontology Is Overrated: Categories, Links, and Tags”, in Clay Shirky’s Writings About the Internet(blog), 2005, shirky.com/writings/herecomeseverybody/ontology_overrated.html.在數(shù)字人文學(xué)科中,佛朗科·莫雷蒂(Franco Moretti)宣稱“文學(xué)批評已經(jīng)終結(jié)”,因為傳統(tǒng)上被認(rèn)為是“精讀” (close reading)的文學(xué)批評被一種“遠(yuǎn)距離閱讀” (distant reading)實踐所取代,這種實踐本質(zhì)上是將統(tǒng)計方法和數(shù)據(jù)挖掘應(yīng)用于被視為人造物的小說之中。④F. Moretti, Distant Reading, London: Verso Books, 2013.與此相似,在文學(xué)批評領(lǐng)域,泰德·安德伍德(Ted Underwood)也提出了關(guān)于“文學(xué)時代劃分的終結(jié)”的觀點,而時代劃分是文學(xué)批評的支柱,是一種對文學(xué)進行分類的有用方法。⑤T. Underwood, Why Literary Periods Mattered: Historical Contrast and the Prestige of English Studies, Stanford,CA: Stanford University Press, 2013.可見,在大數(shù)據(jù)背景下,無論所處領(lǐng)域或評價立場如何,都會描述一種常見的認(rèn)識論效應(yīng),即我們將數(shù)據(jù)庫的調(diào)制作為代替文字書寫的一種代表性模式。而對機器數(shù)據(jù)庫中所包含的知識的訪問需要特殊的技術(shù)和表征方式,這些方法與非計算規(guī)程中使用的方法和表征方式在本質(zhì)上有極大的不同。
以下我們將從認(rèn)識的不可及性(Epistemic inaccessibility)的概念展開論述。人類獲取知識的途徑隨著時間的推移發(fā)生了根本性的變化。當(dāng)大多數(shù)人還目不識丁的時候,只有少數(shù)人可以使用知識,但是隨著教育的普及,幾乎所有人都能接觸到知識。而現(xiàn)今,我們正在走向另一種狀態(tài),即一個不具備必要的計算能力的人將無法訪問數(shù)據(jù)庫中所包含的知識。這不是傳統(tǒng)上為人們所熟悉的由經(jīng)濟和教育機會的鴻溝所導(dǎo)致的獲取知識的障礙,而是由于技術(shù)能力程度所導(dǎo)致的認(rèn)識論劃分。這種認(rèn)識的不可及性的程度將一直存在,比如對于大多數(shù)知識分子來說,他們了解當(dāng)代分子生物學(xué)知識的程度非常有限。但這種認(rèn)知限制并不是到達(dá)認(rèn)識可及性的唯一障礙。因為專有算法和知識產(chǎn)權(quán)法也會阻止人們對數(shù)據(jù)庫的自由訪問。當(dāng)然,互聯(lián)網(wǎng)所產(chǎn)生的(偶然)信息的開放性在一定程度上消除了這些障礙,但是多數(shù)證據(jù)業(yè)已表明,我們現(xiàn)在正在經(jīng)歷類似于英格蘭在18世紀(jì)到19世紀(jì)初的農(nóng)業(yè)封閉的時期,當(dāng)時新貴族和地主圈占大量公共用地作為自己的私人土地,從而導(dǎo)致“數(shù)據(jù)霸權(quán)”“數(shù)據(jù)孤島”等現(xiàn)象普遍存在。
這些特征使得那些缺乏穿透社會和技術(shù)表面的手段的人難以訪問大數(shù)據(jù)。當(dāng)然,這里還有一個更為深層次的問題:“這些關(guān)于數(shù)據(jù)域的不可及性對于運行它的人來說是否亦是不可知的?”一方面,數(shù)據(jù)庫的規(guī)模和復(fù)雜性以及處理數(shù)據(jù)庫所需的計算量,可能會對此產(chǎn)生直接的障礙;另一方面,缺乏合適的算法來處理數(shù)據(jù)也會造成障礙。除此以外,在數(shù)據(jù)域中有一種不同的認(rèn)知障礙,那就是表征能力。
有許多不同類型的表征形式,但在這里我們將集中討論透明和不透明的表征(transparent and opaque representations)。在透明的表征中,我們以一種能被人類進行明確審查、分析、解釋和理解的方式來表示系統(tǒng)的狀態(tài),并且這些狀態(tài)之間的轉(zhuǎn)換由具有類似屬性的規(guī)則來表示;相反則為不透明表征。①我們可以將這些類型細(xì)分為語法透明(不透明)和語義透明(不透明)兩種,在本文中將不再闡述。就本文而言,如果一個表征在語法上或語義上具有不透明性,那么該表征就被看作是不透明的。我們所熟悉的人文科學(xué)的語言表征和自然科學(xué)的形式化表征通常是透明的。因為公理化理論方法的主要優(yōu)點之一是它明確規(guī)定了基本原則,并將一個領(lǐng)域的所有知識都?xì)w結(jié)為這些基本原則,歐幾里得的幾何理論就是一個典型例子。除了理論之外,科學(xué)模型也常常是透明的,就像一個硬幣拋擲的序列是可以由伯努利分布來建模一樣。模型的每個部分——獨立投擲、投擲概率的恒定性等——都被明確地表征。相反,存在一些使用不透明的表征的計算過程,或者其中可能沒有使用任何類型的表征。而從人類的角度來看,我們目前不能、甚至永遠(yuǎn)不能詳細(xì)了解這些過程是如何表征世界的。
就其性質(zhì)而言,想要舉出不透明表征的例子并不容易,但我們可以給出一個可能具有部分不透明表征的例子(其中只有一部分不透明的表征,并非所有的表征都是不透明的),該表征可能是說明性的。典型的例子如大數(shù)據(jù)文本分析所使用的主題建模。大數(shù)據(jù)主題建模是通過機器學(xué)習(xí)來建構(gòu)與文本或文本集合相關(guān)的統(tǒng)計模型的。統(tǒng)計模型則可以生成一組在文本中出現(xiàn)的單詞的概率分布。這些概率分布,不管是好是壞,都被稱為“主題”。①關(guān)于文本的“主題”是否適應(yīng)用于統(tǒng)計模型,存在很大爭議。我們僅僅在藝術(shù)層面使用它,不支持其他用途。假設(shè)我們分析的文本是哲學(xué)家約翰·斯圖亞特·密爾(John Stuart Mill)的作品。一個標(biāo)準(zhǔn)的主題建模程序給出了最有可能的主題詞,如人類、男人、道德、生活、女人、存在、社會,鑒于密爾對社會和政治哲學(xué)的興趣,這一主題建模則是一個可以被理解的結(jié)果。在另一個主題中,主題詞可能是資本、勞動力、工資、生產(chǎn)、土地、增加、成本等,由于密爾經(jīng)常研究政治經(jīng)濟學(xué),這些主題詞很容易被理解為他對這個領(lǐng)域的興趣。但是如果主題詞是方法、實例、效果、差異、原因、協(xié)議和案例呢?這些主題詞所代表的含義似乎對一般人并不明顯,但如果對一個非常精通密爾工作的人而言,這個主題代表了密爾在歸納和因果推理的方法上的研究。此外,還有一些主題詞也很重要,如最多、必要、案例、知識、地點、部分、方法等,對于這些主題詞,人們可以推測(可能是不確定的)它們反映了什么,也可以通過改變主題的建模方法來生成一個更為“相干”的列表,或者人們可以忽略這個“主題”,比如將其作為統(tǒng)計噪音來處理。②對統(tǒng)計模型所輸出的“主題”如何評估,可參見 J. Chang, J. Boyd-Graber, C. Wang, S. Gerrish and D. M.Blei,“ Reading Tea Leaves: How Humans Interpret Topic Models”, Advances in Neural Information Processing Systems, Vol.32, 2009, pp.288—296。
但有趣的是,其中有一種概率分布捕捉到了密爾工作中潛在或隱藏的主題,而這些主題并不是以任何現(xiàn)有的英語單詞或短語來表征的。數(shù)據(jù)處理方法在文本中發(fā)現(xiàn)了這些隱藏的統(tǒng)計結(jié)構(gòu),這種結(jié)構(gòu)對我們?nèi)祟悂碚f不明顯,但在算法方面是很明顯的。這種主題結(jié)構(gòu)與其他被捕獲的我們所熟悉的主題一樣真實,如果我們?nèi)祟惒荒芙忉屧撝黝}結(jié)構(gòu),那么該部分的表征就是不透明的。這正是大數(shù)據(jù)的核心特征:我們把語言結(jié)構(gòu)換成了統(tǒng)計結(jié)構(gòu),把透明表征換成了不透明表征。我們申明,這個例子很好地說明了表征的不透明性,但它并不是一個關(guān)于深調(diào)制的很有說服力的例子。當(dāng)這種調(diào)制確實發(fā)生在大數(shù)據(jù)的語境中時,即使輸入和輸出具有可預(yù)測的強大功能,也可以大大增加由媒介帶來的表征的不透明度。豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)已經(jīng)給我們展示了一個對什么樣的任務(wù)看起來是一個具有最低限度的表征透明的或表征自由的解釋。他的著名小說《博聞強記的富內(nèi)斯》中的主人公富內(nèi)斯(Funes)被描述為一個能記住他所經(jīng)歷的一切的超強記憶力的人,但“我們不要忘記,富內(nèi)斯幾乎不會進行一般的、純理論的柏拉圖式的思維”①J. L. Borges, Labyrinths: Selected Stories and Other Writings, New York: New Directions, 1964, p. 65.。富內(nèi)斯的情況類似于一個非結(jié)構(gòu)化數(shù)據(jù)庫,我們可以使數(shù)據(jù)庫中的元素之間進行任意關(guān)聯(lián),但是要從更為一般的概念中推導(dǎo)出這種關(guān)聯(lián)則不可能。我們必須從外部對這些信息強加概念結(jié)構(gòu)從而達(dá)到理解。
我們理解的概念與我們不理解的概念之間的差異反映在機器學(xué)習(xí)中的有監(jiān)督與無監(jiān)督學(xué)習(xí)這兩種算法之間。在前者中,數(shù)據(jù)的分類類別由用戶決定,而在后者中則不是,必須要通過溯因。在無監(jiān)督學(xué)習(xí)中,任何分組都只由數(shù)據(jù)點的集合組成——哲學(xué)家們稱之為謂詞的擴展,而在許多情況下,人類并沒有熟悉的解釋。這種不透明度是小寫的大數(shù)據(jù)及大寫的大數(shù)據(jù)的主要特征,因為數(shù)據(jù)庫的規(guī)模迫使人們用計算機處理而不是人為分析。對人類來說,什么是機器的有效表征并不需要對人類透明。在大數(shù)據(jù)和機器學(xué)習(xí)的語境下,我們認(rèn)為透明和不透明(或表征自由)方法之間的差異至少與基于規(guī)則和統(tǒng)計學(xué)的方法與人工智能的方法之間的差別一樣重 要。
因為一些現(xiàn)代的機器學(xué)習(xí)方法,比如卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)使用了不透明的表征,并且具有與熟悉的語言概念不相對應(yīng)的特征,所以,我們所面臨的是這些表征是否會永遠(yuǎn)不被人類所知,以及某些方法是否表征自由。在缺乏不可證明的證據(jù)的情況下,預(yù)測一件事情不可能完成是不明智的,而且大數(shù)據(jù)的發(fā)展太迅速以至于它無法做出明確的判斷。盡管如此,我們堅持認(rèn)為,深調(diào)制的性質(zhì)會增加不透明表征的發(fā)生率。一種常見的情況是P1傳遞的數(shù)據(jù)被O加密。如果O不對P2提供適當(dāng)?shù)慕饷苘浖?,那么,M中包含的表征將對P2是不透明的。另一個熟悉但不太明顯的例子是醫(yī)學(xué)成像,機器的表征對于人類來說很難理解。在CAT(計算機輔助斷層掃描)掃描中,P1是作為患者的潛在腫瘤,P2作為放射技師,O則是將成像設(shè)備收集的數(shù)據(jù)轉(zhuǎn)換為正弦圖以便更快計算的軟件。正弦圖是對來自P1的數(shù)據(jù)的表征,但它們是人類無法解釋的,必須進行逆變換才能被P2理解。②關(guān)于CAT掃描的詳細(xì)解釋可參見Humphreys, “X-ray Data and Empirical Content”, in Logic, Methodology and Philosophy of Science XIV: Logic and Science Facing the New Technologies, edited by P. Schroeder-Heister, G.Heinzmann, W. Hodges, P. E.Bour, London: College Publications, 2014。第三個例子是社交媒體行為,它在一定程度上也反映了數(shù)據(jù)域的某些特征。P1和P2代表參與社交媒體的不同群體的個體,O是一個聚合數(shù)據(jù)的公司,M使用不透明表征的機器學(xué)習(xí)來生成對O有用的預(yù)測。對于人文學(xué)科來說,表征和解釋顯得非常重要。大數(shù)據(jù)表征的不透明度所帶來的挑戰(zhàn)成為某些抵抗機器學(xué)習(xí)進入人文和社會科學(xué)領(lǐng)域的人的一個主要依據(jù)。不需要任何表征的立場是有爭議的,關(guān)于這一點我們在討論“大數(shù)據(jù)不需要模型就能取得成功”時已經(jīng)作了說明。①具有代表性的討論可參見S. Leonelli, “What Difference Does Quantity Make? On the Epistemology of Big Data in Biology”, Big Data and Society, Vol.1, No.1, 2014, pp.1—11; F. Mazzocchi, “Could Big Data Be the End of Theory in Science?” EMBO Reports, Vol.16, No.10, 2015, pp. 1250—1255。但是,即使在機器學(xué)習(xí)中使用了模型,由于它們的演化,也往往不能被人類精確地追蹤,而且它們只能部分地被人類解釋。盡管我們可能對內(nèi)部模型有部分的理解,但是算法的輸出或者內(nèi)部過程可能在現(xiàn)有的語言中不能構(gòu)建可識別的描述,就像我們的主題詞建模中給出的示例一樣。正是在機器內(nèi)部進行的處理過程是實現(xiàn)轉(zhuǎn)變的重要來源。當(dāng)深調(diào)制的范圍是一個懸而未決的問題時,我們猜想:在大多數(shù)情況下,應(yīng)當(dāng)存在深調(diào)制的認(rèn)識論,并且不透明表征或表征自由的方法將會占據(jù)主導(dǎo)地位。
大數(shù)據(jù)的出現(xiàn)標(biāo)志著我們認(rèn)識和表征世界的方式發(fā)生了重大轉(zhuǎn)變。和所有新方法的出現(xiàn)一樣,比如在17世紀(jì)引入的微積分以及在19世紀(jì)末發(fā)展的統(tǒng)計方法,這些方法的出現(xiàn)使得之前無法處理的極其困難的事情變得易于處理。如微積分的發(fā)明使物理學(xué)和其他大多數(shù)科學(xué)都發(fā)生了徹底的改變。在微積分發(fā)明之前,物理學(xué)家和天文學(xué)家在很大程度上都依賴幾何方法。微積分的發(fā)現(xiàn)帶動了梯度和拐點等概念的發(fā)明,而350年后許多機器學(xué)習(xí)方法仍然在使用這些數(shù)學(xué)概念。但發(fā)展和應(yīng)用這些概念需要考慮如何理解關(guān)于微積分的新表征。這些表征對人類來說是非常容易接受的,許多解釋早已進入了我們的日常用語,如速度、參照系、中位數(shù)、異常值等。然而,這些舊用途與今天出現(xiàn)的新用途之間存在著重要的區(qū)別,因為現(xiàn)代機器學(xué)習(xí)方法是針對計算機的需求而不是針對人類量身定制的。
這種變化在19世紀(jì)中葉就已經(jīng)出現(xiàn),當(dāng)時非歐幾何首先被發(fā)展了起來,并且導(dǎo)致了從心理表征到正式數(shù)學(xué)理論的轉(zhuǎn)變。我們已經(jīng)逐漸習(xí)慣于這種抽象的表征方式,并將其內(nèi)容融入我們的概念體系之中。盡管這種幾何學(xué)僅適用于在該領(lǐng)域工作的數(shù)學(xué)家和物理學(xué)家,但其中關(guān)于彎曲時空的概念對于我們中的許多人來說都非常熟悉,并且可以通過適當(dāng)?shù)膱D形表征和專業(yè)教師的講解而理解。②參見R. P. Feynman, R. B. Leighton and M. L. Sands, The Feynman Lectures on Physics (Vol.2), MA: Addison-Wesley, chapter 42, 1963。因此,現(xiàn)在關(guān)鍵的問題是我們是否可以為機器學(xué)習(xí)做同樣的事情。相關(guān)的努力已經(jīng)在諸如“可解釋的人工智能”等方向上展開,雖然并不是所有方法都成問題。③有關(guān)這些方法的概述,參見Y. LeCun, Y. Bengio, and G. Hinton, “Deep Learning”, Nature, Vol. 521,No.7553, 2015, pp.436—444。但問題是,如果大數(shù)據(jù)的方法和結(jié)果不能被人類所能理解和解釋,那么我們將會創(chuàng)造一個人類不可知的神秘世界。這對于使用大數(shù)據(jù)進行的科學(xué)研究來說是一個巨大的挑戰(zhàn),因為它對大數(shù)據(jù)領(lǐng)域的影響是巨大的,并且可能標(biāo)志著科學(xué)研究方式的永久性改變。
為了理解認(rèn)識論轉(zhuǎn)變產(chǎn)生的影響,我們可以回想17世紀(jì)有關(guān)科學(xué)儀器如光學(xué)望遠(yuǎn)鏡和顯微鏡的發(fā)展如何使科學(xué)實在論得以確立的歷史過程。經(jīng)驗主義者只接受基于感知數(shù)據(jù)的證據(jù),拒絕或不承認(rèn)那些感知系統(tǒng)不可感知的實體如病毒。因此,以洛克、伯克利、休謨和20世紀(jì)邏輯經(jīng)驗主義者主張的經(jīng)驗主義作為現(xiàn)代科學(xué)的認(rèn)識論基礎(chǔ)是不可能的。①詳 細(xì) 原 因 參 見 Humphreys, Extending Ourselves: Computational Science, Empiricism,and Scientific Method,Oxford: Oxford Univ. Press, 2004, and J.Bogen, “Empiricism and After”, in Oxford Handbook of Philosophy of Science, edited by Humphreys, Oxford: Oxford University Press, 2016。我們試探性的推測和建議是,需要為大寫的大數(shù)據(jù)和小寫的大數(shù)據(jù)發(fā)展出一種認(rèn)識論,這種認(rèn)識論可以令人滿意地處理不透明表征,就像現(xiàn)代科學(xué)儀器的發(fā)展將藥物分子和馬鈴薯基因組等人們的感知系統(tǒng)不可及的世界轉(zhuǎn)化為我們能理解的數(shù)據(jù)結(jié)構(gòu)一樣。
我們認(rèn)為,大數(shù)據(jù)中所使用的表征或模型的類型,是其重要性和顯著特征的核心。基于此,我們將提供一些建議,以便探索何種認(rèn)識模式適合于深調(diào)制。當(dāng)然,可靠性是這些模式的核心。
由于大數(shù)據(jù)中所使用的機器學(xué)習(xí)能真正地基于事實進行學(xué)習(xí),因此,大數(shù)據(jù)將會帶給人類關(guān)于未知世界的知識。然而,不透明表征的存在是大數(shù)據(jù)所遇到的最關(guān)鍵的挑戰(zhàn)。哲學(xué)中長期存在的傳統(tǒng)是把知識當(dāng)作確證的真信念(Justified True Belief),而這種對知識的認(rèn)識已經(jīng)不占主導(dǎo)地位,其替代理論是可靠性(Reliability)觀點。一種常見的可靠性的形式是,一個人S知道p成立的條件是——當(dāng)且僅當(dāng):
(1) p是一個句子;
(2) p為真;
(3) S認(rèn)為存在一個可靠的過程從而形成對p的信 念。
這意味著,一個可靠的信念形成過程是產(chǎn)生高比例的真實信念的過程。譬如,我知道我的鄰居是個醫(yī)生,雖然我從未見過他以專業(yè)的身份工作,我相信是因為:我相信他是一個醫(yī)生;事實上他是一個醫(yī)生;他告訴我他是一個醫(yī)生,并且過去他告訴我的幾乎所有的事情都是真實的。以上的每一個條件對我來說都是必要的。如果我的鄰居實際上是一個律師,或者我不相信他是醫(yī)生,或者我從不可靠的來源收到信息,例如我從我的另一個患有癡呆癥的鄰居處得到信息,那么“我不知道他是一名醫(yī)生”。
由于數(shù)據(jù)域中的許多知識都是為機器或機器網(wǎng)絡(luò)所擁有,傳統(tǒng)的知識觀和可靠性的觀點都使用了“信念”,但是計算機并沒有信念,因此,我們所描述的兩個關(guān)于知識的陳述都不適合在機器學(xué)習(xí)的背景下進行知識的歸因。然而,傳統(tǒng)或可靠性的知識觀通常涉及表征,因為無論是信念條件還是可靠性條件都需要它。如果你知道p,p是代表某種狀態(tài)的命題,當(dāng)p為真時,它即是對世界的正確表征。雖然目前我們不能為機器學(xué)習(xí)提供一個基于統(tǒng)計學(xué)的可靠性解釋,但是我們可以描述表征的不透明度和修改后的可靠性論證之間的聯(lián)系。在基于信念的方法中,如果你的信念是明確的,那么知識就是透明地表征的,因為你有意識地進入了該表征。對機器來說,在論文第五節(jié)意義上的透明表征相對來說也沒有問題。但是,一旦我們有一個對人類不透明的表征,可靠性方法只需要有一個過程——能可靠地產(chǎn)生內(nèi)部表征以準(zhǔn)確地表征相關(guān)系統(tǒng),即使這樣的內(nèi)部表征是人類無法解釋的。由此,一種信念自由的可靠性的要求使我們可以斷言,計算機所處理的大數(shù)據(jù)問題,允許我們不理解它是如何將這些知識呈現(xiàn)給自身的。這樣一來,我們可以在唐納德·拉姆斯菲爾德(Donald Rumsfeld)關(guān)于“已知的已知、已知的未知、未知的未知”的這一知識分類中,加上第四類——未知的已知,意味著計算機已知的一些事情對人類來說可以是未知的。
在一些沒有任何表征的極端情況下,我們必須訴諸知識的權(quán)威,在這種情況下,信息來源作為權(quán)威,無可置疑。①T. Burge, “Computer Proof, A Priori Knowledge, and Other Minds: The Sixth Philosophical Perspectives Lecture”, No?s,Vol.32, No.12, 1998, pp.1—37.因為我們越來越多地將認(rèn)知權(quán)威委托給計算機,我們在許多領(lǐng)域遵從它的判斷,就像我們在日常生活中遵從我們自己的知覺判斷一樣,不需要對來源進行進一步的論證或理解。
由于數(shù)據(jù)域捕獲了描述系統(tǒng)狀態(tài)的海量的多變量(或高維度)的數(shù)據(jù),加上從傳感器、社交媒體、健康記錄和其他源頭收集數(shù)據(jù)的行為變得越來越容易,而且雖然很多數(shù)據(jù)看上去都是匿名的,但是技術(shù)上卻很容易實現(xiàn)對數(shù)據(jù)的去匿名化。特別是在位置追蹤元數(shù)據(jù)的使用等背景下,數(shù)據(jù)挖掘者不僅了解我們所有人,還知道我們每個人的許多事情:他們知道你住的地方,你聯(lián)系過的人,你購物的地方,你買過什么,你何時在何地,你在互聯(lián)網(wǎng)上的搜索細(xì)節(jié),你喜歡什么樣的照片等。這種數(shù)據(jù)的泛濫產(chǎn)生了一個被稱為維度的詛咒的問題。②這一術(shù)語是由貝爾曼(R. Bellman)創(chuàng)造的,參見 Adaptive Control Processes: A Guided Tour, Princeton, NJ:Princeton University Press, 1961。最后需要說明的是,隨著收集數(shù)據(jù)的變量數(shù)的增加,有效使用某些機器學(xué)習(xí)方法和統(tǒng)計估算技術(shù)所需的數(shù)據(jù)量也將呈指數(shù)增長。例如,假設(shè)我們?yōu)槊總€變量收集10個數(shù)據(jù)點并檢查這10個點以查看是否發(fā)生了數(shù)據(jù)點聚類。這樣一來,當(dāng)我們需要定位兩個變量的相似聚類時就需要102個數(shù)據(jù)點;當(dāng)需要定位三個變量時就需要103個數(shù)據(jù)點;如果用相對適中的100個變量,那就需要10100個數(shù)據(jù)點。很顯然,這個數(shù)字比宇宙中存在的可見的粒子的數(shù)目還大。所以在實際的工作中有兩種相反的傾向:第一,直到最近人類才具備收集海量數(shù)據(jù)的能力;第二,即使是適度復(fù)雜的模型也超出了我們收集足夠數(shù)據(jù)的能力。這兩種自相矛盾的情況表明,那種“只要擁有足夠數(shù)據(jù),我們就可以知道一切”的觀點顯得過于樂觀,因為現(xiàn)實是我們的大數(shù)據(jù)還不夠大。
大數(shù)據(jù)能將社會作為一個整體并給出全景的描述,并且能夠詳細(xì)地審視其中的每一個成員,即其能作為天文望遠(yuǎn)鏡和生物顯微鏡的雙重角色而發(fā)揮作用。這種雙重作用一方面增大了自然科學(xué)與人文科學(xué)之間的分界,另一方面又使二者之間的界限縮小。首先,作為生物顯微鏡的存在,大數(shù)據(jù)形成了對人類個體層面行為數(shù)據(jù)的事無巨細(xì)的記錄,豐富了人文科學(xué)在個性化維度上的資料儲備,增進了人文科學(xué)對人類個體差異的深度理解。因此大數(shù)據(jù)將關(guān)注個性化的人文科學(xué)和關(guān)注一般性的自然科學(xué)之間的差距進一步擴大。其次,作為天文望遠(yuǎn)鏡的存在,引入在形式上數(shù)理化、科學(xué)化(數(shù)理統(tǒng)計)的人文科學(xué)的方法,從整體(全樣本)上獲得一般性的規(guī)律,從而使二者的界限縮小。
我們需要追問的是,人類不理解數(shù)據(jù)域中所使用的表征這件事,會為人類帶來多大的風(fēng)險?人工智能所可能造成的危險也許已經(jīng)被放大了很多。畢竟人類在塞勒斯·麥科米克(Cyrus McCormick)的收割機、福特(Ford)的裝配線、蒸汽挖掘機和慕課(大型公開在線課程)的技術(shù)革命的歷史浪潮中都幸存了下來,因此,我們也許不應(yīng)該對自動化生產(chǎn)所造成的大規(guī)模失業(yè)過分擔(dān)憂,我們應(yīng)關(guān)注更緊迫的問題,而不是對滿懷惡意的機器人將要統(tǒng)治世界這類的事情惴惴不安。實踐和理論知識的自動化以及它們產(chǎn)生的不可預(yù)測性這類新事物,才是真正需要人類警惕的。如果我們?nèi)祟惒荒芾斫鈾C器學(xué)習(xí)所使用的表征,那么此類程序未來產(chǎn)生不可預(yù)料后果的可能性就會大大增加。人們破解恩尼格瑪密碼機,恰恰是因為它對人類的表征進行了加密處理。在數(shù)據(jù)域的神秘世界中,充斥著各類機器、數(shù)據(jù)庫和算法,正是因為它們?nèi)绱松衩兀艦槿祟悗砹烁蟮奶魬?zhàn)。