■ 郭小平 秦藝軒
基于算法與大數(shù)據(jù)變革的信息生產(chǎn)傳播機制,顛覆了傳統(tǒng)新聞生產(chǎn)與分發(fā)模式,拓展了新聞傳播領(lǐng)域的邊界與想象。算法技術(shù)主要應(yīng)用于新聞制作與傳播的兩個環(huán)節(jié):一是算法介入新聞生產(chǎn)環(huán)節(jié)。算法程序挖掘與采集數(shù)據(jù)庫信息,并利用數(shù)據(jù)的集合與分析自動生成機器新聞。二是算法介入新聞分發(fā)環(huán)節(jié),如新聞的個性化推薦。算法程序通過對用戶數(shù)據(jù)的挖掘與分析呈現(xiàn)用戶畫像,實現(xiàn)信息個性化推薦。
智能傳播以大數(shù)據(jù)為依托,將機器算法、數(shù)據(jù)挖掘、傳感器等人工智能技術(shù)應(yīng)用于信息的生產(chǎn)與傳播,實現(xiàn)新聞生產(chǎn)的智能化與用戶體驗的個性化。算法技術(shù)介入新聞信息生產(chǎn)具有天然的優(yōu)越性。傳統(tǒng)的新聞生產(chǎn)機制中,記者與編輯的新聞判斷因人類的“主觀性”遭到質(zhì)疑①,引發(fā)受眾對傳統(tǒng)新聞業(yè)的“信任危機”。同時,傳統(tǒng)的點對面的新聞傳播模式,信息覆蓋面較廣但精準(zhǔn)度卻不高。算法的新聞判斷遵循的是數(shù)學(xué)公式與機器程序,而不是人類編輯即時的主觀判斷,算法的新聞價值判斷更加客觀中立②(見表1)。此外,在信息過載的大數(shù)據(jù)時代,算法推薦能夠使用戶的信息個性化體驗成為可能,甚至能夠脫離人工記者和編輯,利用數(shù)據(jù)自動化生成可發(fā)布的新聞故事。
算法實踐使新聞傳播領(lǐng)域產(chǎn)生了新的潛力,拓展了新聞的可想象性,以“技術(shù)中立”的姿態(tài)昭示著新聞客觀性的“回歸”與“在場”③。這使人們普遍認(rèn)為,基于大數(shù)據(jù)運行的算法技術(shù)提供了一種更高形式的智慧和知識,能夠產(chǎn)生以前不可能有的洞見,帶有真理、客觀性和準(zhǔn)確性的光環(huán)。大量的數(shù)據(jù)取代了所有其他可能被使用的工具,帶來前所未有的客觀與真實,數(shù)字本身就說明了一切④。大數(shù)據(jù)意味著一種認(rèn)知意義上的革命和理論的終結(jié)⑤。然而,這無疑是一種烏托邦式的修辭,是將數(shù)據(jù)與技術(shù)“神話”的一種美好幻想。
表1 傳統(tǒng)新聞與算法新聞生產(chǎn)機制的比較
從數(shù)字到數(shù)據(jù),從數(shù)據(jù)到意義,需要選擇和闡釋。然而,數(shù)據(jù)解釋卻面臨倫理爭論。首先,數(shù)據(jù)是否代表一個“客觀事實”;其次,如何呈現(xiàn)這些數(shù)據(jù)以及對它們的解釋是否會被某種偏見所影響;最后,是否存在一個“數(shù)據(jù)清理”的過程:即決定哪些屬性和變量會被計算,哪些會被忽略,數(shù)據(jù)清理的過程本質(zhì)上是主觀的。然而,由于人們懷著對技術(shù)“客觀中立”的想象,總是忽略數(shù)據(jù)闡釋過程的主觀性。芒福德認(rèn)為,在巨型機器制造的不幸中,首要的就是當(dāng)今人們對科學(xué)技術(shù)界無條件的崇拜⑥。機器神話模糊了人們的視線,使人們無法看清技術(shù)的本質(zhì)。現(xiàn)代技術(shù)是一種展現(xiàn)(revealing),一種將世界遮蔽起來的具有“挑釁逼迫”性的、預(yù)置式的展現(xiàn)⑦。技術(shù)的統(tǒng)治將一切存在者都帶入計算行為中,遮蔽了人之人性和物之物性⑧,這就使得技術(shù)在展現(xiàn)的同時也遮蔽了部分客觀世界。因此,在算法技術(shù)應(yīng)用中堅守唯數(shù)據(jù)論,極易因忽視人的主體性和事物的多面性而使算法產(chǎn)生具有偏見的結(jié)果。
Hazlitt認(rèn)為,偏見是未經(jīng)詳細(xì)的調(diào)查研究就對某一事物過早判斷。同樣,道格拉斯·W·貝斯黑萊姆認(rèn)為,“偏見”是人們對事物所持的觀點或信念缺乏實踐的檢驗,或者與檢驗的結(jié)果相悖,或者與邏輯推理得到的結(jié)果相悖,或者不符合客觀實際⑨。他們都反對簡單的將偏見定義為“消極的種族態(tài)度”。不少研究者都認(rèn)為,算法偏見是由算法程序帶來的消極的種族、性別和職業(yè)態(tài)度,這種理解稍顯狹隘。事實上,“算法偏見”是算法程序在信息生產(chǎn)與分發(fā)過程中失去客觀中立的立場,造成片面或者與客觀實際不符的信息、觀念的生產(chǎn)與傳播,影響公眾對信息的客觀全面認(rèn)知。
社交網(wǎng)站、新聞客戶端宣稱,算法技術(shù)能夠獨立于人工編輯,客觀中立的為用戶呈現(xiàn)個性化的新聞,卻在算法實踐中被揭露隱含偏見。2016年,Facebook前員工揭露:其“Trending Topic”并非完全根據(jù)智能算法的結(jié)果排列,而是要通過人工編輯的取舍呈現(xiàn),并且有意打壓保守派的新聞。雖然Facebook在這一披露之后馬上將“Trending Topic”版塊的人工編輯撤掉,但這場風(fēng)波還是撕開了算法技術(shù)神話的外衣,使人們對算法技術(shù)宣稱的獨立、客觀和中立程度產(chǎn)生懷疑。除了社交網(wǎng)站,Google也運用算法捕獲與分析用戶的信息行為特征,推斷用戶的搜索意圖,為用戶高效地提供個性化信息查詢結(jié)果。然而,有用戶在Google輸入關(guān)鍵詞“三個黑人少年”,Google搜索結(jié)果自動呈現(xiàn)的照片中大都是消極晦暗、甚至與犯罪新聞相關(guān)的黑人,而輸入“三個白人少年”之后的搜索結(jié)果呈現(xiàn)的照片大都是青春活力、積極陽光的白人少年。來自于現(xiàn)實社會的結(jié)構(gòu)性偏見在網(wǎng)絡(luò)世界重現(xiàn),Google搜索引擎因算法自動呈現(xiàn)的結(jié)果而陷入種族歧視的危機。
作為人工產(chǎn)物,算法被人類支配使用,無法完全規(guī)避來自人類社會的偏見?!吧鐣F(xiàn)代化的程度越高,我們越要具有反思性的批判?!雹庖晃兜恼J(rèn)為算法關(guān)乎數(shù)學(xué)和方程,而非“膚色”,算法決策是公平的,這不過是對算法的一種誤解,對數(shù)據(jù)和技術(shù)的烏托邦想象?,F(xiàn)代技術(shù)作為一種展現(xiàn),一方面使人被技術(shù)座架所促逼而不自知,另一方面,它成為唯一的尺度,偽裝著真理的閃現(xiàn)和運作,這是人類命運“最高的危險”。要對抗算法偏見,將人類從數(shù)字技術(shù)風(fēng)險中解脫出來,就亟需打開算法的黑箱并追溯算法偏見產(chǎn)生的根源。
算法的運行機制具有不可見性與不可解釋性。它被神話為一種強大的規(guī)則,通過分類、治理、塑造等控制我們的生活。但同時,算法晦澀難懂,很難讓人理解到底什么才是真正的危險。技術(shù)的復(fù)雜性使算法偏見的發(fā)生十分隱蔽,“程序設(shè)計、數(shù)據(jù)挖掘、數(shù)據(jù)分析”,每一個步驟都可能會使偏見悄然嵌入機器代碼。
新技術(shù)的發(fā)明與使用本質(zhì)上是要反映人的意志,要為人類的社會生活與政治理想服務(wù)。摩根(Morgan,2018)認(rèn)為,雖然算法可以呈現(xiàn)多種不同的文化內(nèi)涵,但它們最終仍然與定義和部署它們的人、機構(gòu)以及它們所嵌入的權(quán)力關(guān)系緊密聯(lián)系在一起??萍冀缱鳛樾录瘷?quán)制度成員之一,取得赫赫成就的同時也構(gòu)成一種威脅。智能技術(shù)賦予權(quán)力復(fù)合體更加先進(jìn)的統(tǒng)治方式,傳播技術(shù)手段越復(fù)雜,就越有能力和效率過濾掉那些對抗權(quán)力復(fù)合體的不良信息,從而鞏固自身的權(quán)力。為了實現(xiàn)某種利益追求,利益集團人為操縱算法程序及其結(jié)果,有意識地制造具有偏見態(tài)度的信息,繼而操控輿論以及公眾對事實真相的客觀認(rèn)知。
技術(shù)的政治內(nèi)嵌是利益集團操控輿論、維護權(quán)力統(tǒng)治的一種必然手段。算法具有社會性和技術(shù)性,其設(shè)計與使用的過程也必然會嵌入某種政治屬性與權(quán)力關(guān)系。蘭登·溫納(Winner,1988)認(rèn)為技術(shù)在雙重維度上具有政治性:一是新的技術(shù)或設(shè)計內(nèi)嵌了某種政治屬性,為“給定政治體系”提供確立或鞏固權(quán)力、威望的技術(shù)手段;二是政治對技術(shù)的需求與生俱來,而技術(shù)也在某種意義上回應(yīng)著它們的需求。2011年9月,美國民眾因強烈不滿美國錢權(quán)交易、黨派斗爭、貧富懸殊的社會生活與政治制度現(xiàn)狀,發(fā)起了“占領(lǐng)華爾街”的游行示威。面對這場聲勢浩大的示威事件,美國媒體集體噤聲。以Twitter為例,盡管網(wǎng)民已在#occupy wallstreet#的標(biāo)簽下對這一公共事件進(jìn)行了激烈討論,Twitter的“趨勢發(fā)現(xiàn)”中仍舊無法看到這一事件的熱搜。Twitter算法引擎的失靈說明所謂中立客觀的智能技術(shù),在某些時刻只是對政治與資本操控的一種掩飾。
利益集團通常利用人們對技術(shù)客觀性的信任創(chuàng)造“偽公平”的神話,這種隱蔽的操控使人們無法察覺也無力反抗。互聯(lián)網(wǎng)時代的商業(yè)資本遵循流量邏輯,利用智能技術(shù)與熱點事件創(chuàng)造流量、增加用戶,是商業(yè)資本與媒體平臺的共謀。2018年,為慶祝IG戰(zhàn)隊在英雄聯(lián)盟全球總決賽中首次奪冠,王思聰在新浪微博設(shè)立113萬獎金進(jìn)行抽獎。參與抽獎活動的男女比例為1∶1.2,然而,在最終獲獎的113人中,只有1名男性用戶,獲獎男女比例為1∶112。獲獎用戶多為擁有較強的購買力和消費潛力的80后與90后女性。微博算法歧視男性用戶,重視女性用戶,根本原因在于青年女性是微博平臺的黏性用戶,擁有較高的市場價值,符合新浪微博及其背后廣告主的利益期待。因此,新浪微博不惜修改算法規(guī)則來回饋核心用戶,提升用戶黏度與平臺流量,實現(xiàn)資本利益的最大化。智能技術(shù)是人類的工具,使用者的價值立場直接決定了技術(shù)的立場。
政治內(nèi)嵌與資本操縱是算法背后強大的操控力量,共同完成了對算法技術(shù)的塑造。持有偏見的決策者利用算法技術(shù)掩蓋他們的真實意圖,為傳統(tǒng)形式的偏見注入新的活力。在智能算法“客觀、中立、準(zhǔn)確”的光環(huán)下,意識形態(tài)內(nèi)嵌成為技術(shù)政治的工具。
新技術(shù)的誕生必然會攜帶人類社會的基因,它嵌入了也被嵌入在社會形態(tài)、規(guī)范標(biāo)準(zhǔn)、言論主張等所有我們稱之為構(gòu)建了人類社會的元素中。在這些元素中,人類社會的結(jié)構(gòu)性偏見可能嵌入算法實踐:一是原始數(shù)據(jù)的采集與數(shù)據(jù)庫的建立受到人類偏見的干擾,二是算法程序設(shè)計中人類偏見的滲透,三是算法與用戶互動時習(xí)得人類偏見。原始數(shù)據(jù)、算法編程與人機互動繼承并強化人類社會的原始偏見,最終導(dǎo)致社會偏見經(jīng)過算法程序無限循環(huán)。
1.原始數(shù)據(jù)庫的偏見復(fù)制
用于訓(xùn)練、學(xué)習(xí)和數(shù)據(jù)挖掘的原始數(shù)據(jù)是算法程序中的基石,其客觀與中立程度直接影響算法的決策結(jié)果。在算法程序中,數(shù)據(jù)樣本邊緣化某些群體或者隱含社會偏見,導(dǎo)致樣本不全或數(shù)據(jù)庫污染,將會無限循環(huán)與強化社會的結(jié)構(gòu)性偏見。
首先,數(shù)據(jù)對某些群體的邊緣化導(dǎo)致智能算法的“選擇性失明”。數(shù)據(jù)對社會公共生活的塑造是顯著的,然而并不是所有的人都有機會成為數(shù)據(jù)的主體。由于貧困,生活方式或者地理位置,生活在大數(shù)據(jù)邊緣的人總會被非隨機的、系統(tǒng)性的遺漏,他們的生活比一般人群更少“數(shù)據(jù)化”。谷歌的圖像識別訓(xùn)練數(shù)據(jù)庫ImageNet中,有近四分之三的圖像來自歐美國家,而占世界人口三分之一的中國和印度,在ImageNet里的數(shù)據(jù)量加起來只有百分之三。這就導(dǎo)致ImageNet訓(xùn)練的智能算法在識別第三世界圖像時,總會“選擇性失明”。數(shù)據(jù)邊緣的群體常常在社會公共生活中已經(jīng)處于劣勢,無法分享技術(shù)革新的紅利,當(dāng)社會的政治、經(jīng)濟和文化決策越來越依賴數(shù)據(jù)和算法的分析,這些“被遺忘的數(shù)據(jù)主體”就會因此而失去社會流動、經(jīng)濟機會甚至政治平等的權(quán)利。大數(shù)據(jù)和智能算法通過看似公平的計算程序加劇了現(xiàn)代生活的不平等,某些數(shù)據(jù)的被遺忘,必然扭曲樣本數(shù)據(jù)和算法分析的結(jié)果,加劇了智能算法的偏見循環(huán)。
其次,原始數(shù)據(jù)庫中的結(jié)構(gòu)性偏見會導(dǎo)致智能算法的偏見復(fù)制。算法的原始數(shù)據(jù)來自人類社會,必然會隱含人類社會的意識形態(tài)。研究者通過AI程序識別一組照片,發(fā)現(xiàn)凡是照片中系著圍裙在廚房做飯的人物,不論男女都被識別為女性。而造成AI失誤的原因在于,訓(xùn)練AI進(jìn)行圖像識別的數(shù)據(jù)庫中有百分之九十的圖片都把女性和廚房聯(lián)系在一起,AI通過這樣的數(shù)據(jù)庫學(xué)習(xí)、訓(xùn)練,自然會在圖像識別中重現(xiàn)這樣的偏見。由此可見,要從現(xiàn)實世界中挖掘、分析數(shù)據(jù)與信息,算法技術(shù)不可避免地會復(fù)制現(xiàn)實世界原始數(shù)據(jù)庫中的結(jié)構(gòu)性偏見,繼而影響算法的運行及結(jié)果。
2.程序設(shè)計中的偏見循環(huán)
算法程序無法“有意識”地抵制社會偏見,根本原因在于算法模型設(shè)計的每一步都很難獨立于程序員的控制。算法進(jìn)行數(shù)據(jù)挖掘的步驟包括:定義“目標(biāo)變量”和“類標(biāo)簽”、標(biāo)記和收集訓(xùn)練數(shù)據(jù)、使用特征選擇,并根據(jù)結(jié)果模型做出決策。目標(biāo)變量的定義和數(shù)據(jù)標(biāo)簽的分類決定了什么數(shù)據(jù)會被計算機挖掘,標(biāo)記和收集訓(xùn)練數(shù)據(jù)能夠讓機器學(xué)習(xí)要抓取的數(shù)據(jù)特征,而這些標(biāo)準(zhǔn)的預(yù)設(shè)與模型的建構(gòu),都取決于操作者。
首先,在算法進(jìn)行數(shù)據(jù)挖掘之前,人類程序員需要理解數(shù)據(jù)挖掘的目標(biāo),并將目標(biāo)任務(wù)轉(zhuǎn)換為能夠被計算機識別的話語體系,話語轉(zhuǎn)換具有較強的主觀性,人類程序員可能在無意識中將個人主觀偏見代入程序;其次,算法要根據(jù)程序員預(yù)設(shè)的目標(biāo)變量和分類標(biāo)簽進(jìn)行數(shù)據(jù)挖掘,目標(biāo)變量及其權(quán)重的設(shè)定對算法模型的科學(xué)程度具有影響。例如,要判斷用戶對信息的興趣程度,算法就要依據(jù)程序設(shè)計者預(yù)設(shè)的類別標(biāo)簽(用戶性別、點擊頻度、頁面停留時長等)及其權(quán)重抓取數(shù)據(jù),變量與標(biāo)簽的設(shè)定具有較強的主觀性,不同的規(guī)則和權(quán)重會使算法得出不同的結(jié)果。在新浪微博的王思聰抽獎活動中,平臺人為降低了“不發(fā)原創(chuàng)微博” “不發(fā)圖片”等特征的用戶的權(quán)重,對算法的變量與權(quán)重的主觀調(diào)整就導(dǎo)致了具有偏見的結(jié)果產(chǎn)生。
3.人機互動的偏見習(xí)得
人工道德智能體(Artificial Moral Agents,簡稱AMAs)的研究發(fā)現(xiàn),機器學(xué)習(xí)人類語言能力的過程,也是深度吸取隱含其中的種種偏見的過程。完備的機器道德智能體仍未誕生,現(xiàn)有的機器也無法做到對偏見的“有意識的抵制”。Twitter的微軟聊天機器人Tay在上線與用戶交流不到一天后就被緊急下線,因為在與人類聊天的過程中,Tay被教成了一個口吐臟話、集性別歧視、種族歧視于一身的極端分子?,F(xiàn)有的人工智能機器尚不具備自動識別并抵制人類偏見的能力,因此,在人機互動的過程中,機器會無意識且不加選擇地習(xí)得人類的一切倫理與喜好。搜索引擎利用算法開發(fā)“自動完成”(Auto-Complete)的功能,即用戶在搜索框輸入關(guān)鍵詞后,根據(jù)詞條的歷史搜索量為用戶自動顯示或補全相關(guān)文本,其初衷是為用戶縮減在線搜索的時間成本。但是,歷史搜索中的關(guān)鍵詞文本所隱含的偏見極易影響算法的客觀判斷和用戶的認(rèn)知。2012年9月,德國前第一夫人貝蒂娜·沃爾夫起訴Google,因為Google搜索引擎“自動完成”的搜索結(jié)果把她的名字跟“妓女”“伴游女郎”放在一起。Google被勒令修改其搜索引擎的“自動完成”結(jié)果。搜索引擎之所以會自動呈現(xiàn)這一具有嚴(yán)重偏見的結(jié)果,與Craigslist和亞馬遜土耳其機器人招募的水軍所制造的搜索量有很大關(guān)系。因此,算法與社會的互動在無形中增加了其繼承人類偏見的風(fēng)險,而當(dāng)人類惡意的利用算法制造偏見時,算法更是毫無抵抗能力。原始數(shù)據(jù)庫的“污染”、人機互動及程序設(shè)計中人類主觀因素影響,導(dǎo)致社會偏見在算法實踐中重現(xiàn)。與算法干預(yù)不同的是,由社會偏見衍生的算法偏見難以察覺且不易避免。
數(shù)據(jù)表征并粉飾生活世界,使日常生活具有普遍的可量化性。然而,數(shù)學(xué)邏輯忽視了現(xiàn)實世界及生活在其中的主體無法加以計算的不確定性和特殊性,計算機指令無法對有機世界的永恒變化作出定性反應(yīng)。因此,在對經(jīng)驗世界的理想化建構(gòu)中,必然會有部分事實和真相被遮蔽。算法依靠數(shù)據(jù)形成對用戶偏好和信息價值的預(yù)判,在一定程度上能夠使信息的傳播更加精準(zhǔn)高效。但是,數(shù)據(jù)建構(gòu)的觀念世界與經(jīng)驗世界的差距,會導(dǎo)致推薦算法對信息和用戶的片面認(rèn)知,繼而在個性化推薦過程中出現(xiàn)偏見與失誤。
算法利用系統(tǒng)收集的數(shù)據(jù)對用戶興趣和信息價值進(jìn)行量化,在個性化推薦環(huán)節(jié)中根據(jù)量化計算形成的認(rèn)知為用戶推薦信息。算法推薦一般遵循三種規(guī)則:“基于內(nèi)容的過濾”“協(xié)同過濾”、基于“單因子”的推薦。算法個性化推薦的實踐中,數(shù)據(jù)測量的不科學(xué),會影響算法全面客觀的認(rèn)知用戶和信息推薦的精準(zhǔn)度。
1.“社交手勢”對用戶行為與情感的簡化
算法利用“社交手勢”(social gestures)推斷用戶情感傾向與價值立場,會對用戶信息偏好產(chǎn)生認(rèn)知偏見?;凇皟?nèi)容過濾”推薦的算法機制,通過捕獲用戶的“社交手勢”(查詢歷史、搜索內(nèi)容、點贊、收藏、轉(zhuǎn)發(fā)、評論等)來判斷用戶的信息偏好(Bozdag E.,2013)。然而,用戶的社交手勢充滿隨機性與偶然性,其背后的真實情感與價值立場無法被算法捕獲。用戶搜索或轉(zhuǎn)發(fā)某部電影信息可能是出于好奇,可能是希望進(jìn)一步接受這類電影信息的推薦,但也可能是為了表達(dá)批判的觀點,或者僅僅是一場社交展演。用戶在新媒體中的信息行為和動機往往是豐富且復(fù)雜的,這些社交手勢將復(fù)雜的人類行為和情感簡化為單一的維度,過高地估計了機器與數(shù)字對人類感情的量化能力。因此,算法通過跟蹤用戶的社交手勢來繪制用戶畫像,判斷用戶對某類信息的興趣程度,是片面和武斷的,必然會造成對用戶的認(rèn)知偏見以及信息個性化推薦的偏差。
2.信息熱度的測量對“偽數(shù)據(jù)”的遮蔽
算法忽略信息熱度中的偽數(shù)據(jù),會對信息推薦價值的評估產(chǎn)生偏見。在同一監(jiān)測時段內(nèi),點擊率、轉(zhuǎn)發(fā)量高的信息,一般會被算法列為話題趨勢榜首或優(yōu)先推送給用戶。而以點擊率、點贊量和轉(zhuǎn)發(fā)量等作為測量信息熱度的指標(biāo)是不科學(xué)的。數(shù)字營銷公司能夠通過購買“粉絲”“贊”等人為操縱信息的熱度和流量。在YouTube上要捧紅一個視頻,公關(guān)公司只需花錢在短時間內(nèi)維持視頻的人氣,YouTube就會自動向用戶推薦這個視頻,造成彌母(meme)自主傳播的印象。更嚴(yán)重的是,算法被虛假流量欺騙,在信息推薦機制中為用戶設(shè)置議程,再次提升“熱門信息”的人氣,而“冷門信息”無人問津,導(dǎo)致信息的偏見無限循環(huán)。
智能算法對客觀世界的量化計算,看似使人類掌握了籌劃現(xiàn)實生活的預(yù)期規(guī)律,實則遮蔽了復(fù)雜的人性與物性。智能技術(shù)為人類帶來的數(shù)字風(fēng)險是巨大且未知的,人們亟需對智能算法的數(shù)字實踐進(jìn)行反思。
算法主導(dǎo)的信息傳播機制逐漸嵌入人們的日常生活,控制著媒介的內(nèi)容生產(chǎn)與用戶的信息消費行為。斯科特·拉什(Scott Lash,2007)指出:“在一個媒體和代碼無處不在的社會,權(quán)力越來越存在于算法之中?!彼惴ㄆ姷闹卫硪呀?jīng)成為數(shù)字化社會中無法回避的顯性議題。南?!じダ诐烧J(rèn)為正義即參與平等,算法正義意味著從數(shù)據(jù)輸入到結(jié)果輸出,算法程序的每個環(huán)節(jié)都要體現(xiàn)參與平等,為“最大多數(shù)人”提供“最多的善”,才能最大程度地避免偏見的結(jié)果產(chǎn)生。歐盟的規(guī)制秉持“以人為本”的歐洲傳統(tǒng),警惕人工智能技術(shù)應(yīng)用的風(fēng)險后果,強調(diào)人工智能發(fā)展的“向善”導(dǎo)向以造福個人和社會。與此同時,人們應(yīng)意識到算法偏見的成因是多樣的,缺乏單一的來源或解決方案。因此,要充分考慮到算法技術(shù)作為一種社會化信息技術(shù)的本質(zhì),遵循去技術(shù)中心化的理念,從多維度出發(fā),嘗試建構(gòu)對人類負(fù)責(zé)的正義的算法機制。
數(shù)據(jù)是算法運行的基礎(chǔ),非正義的原始數(shù)據(jù)會導(dǎo)致算法偏見的無限循環(huán),因此,數(shù)據(jù)公正是保障算法正義的基本原則。數(shù)據(jù)公正指人們因數(shù)字?jǐn)?shù)據(jù)的生成而變得可見、被表現(xiàn)和被對待的方式的公平性。
算法的“選擇性失明”會導(dǎo)致數(shù)據(jù)邊緣群體喪失社會流動、經(jīng)濟機會甚至政治平等的權(quán)利。理查德·赫克斯(Heeks,2016)等研究者依據(jù)《世界人權(quán)宣言》的準(zhǔn)則,提出數(shù)據(jù)所有權(quán)、獲取權(quán)和代表權(quán)是公平和正義的根本。因此,他們關(guān)注如何利用數(shù)據(jù)技術(shù),提升邊緣群體可見度,從而實現(xiàn)社會分配的正義。
不過,數(shù)據(jù)公正不僅要考慮數(shù)據(jù)主體的可見性,還要考慮數(shù)據(jù)主體具有不被看到的自由。林內(nèi)特·泰勒將積極的權(quán)利與消極的自由結(jié)合,提出數(shù)據(jù)公正的三原則(見圖1):(不)可見,意味著人們應(yīng)同時擁有平等的數(shù)據(jù)代表權(quán)和信息隱私權(quán),數(shù)據(jù)主體有權(quán)決定是否允許個人數(shù)據(jù)被算法采納;(不)參與,在推動平等的數(shù)字技術(shù)接觸權(quán)利的同時,要保證人們拒絕使用數(shù)字技術(shù)的自由;反歧視,指識別和挑戰(zhàn)數(shù)據(jù)驅(qū)動的技術(shù)偏見的能力,以及不受數(shù)據(jù)歧視的自由。因此,數(shù)據(jù)公正的核心問題是平衡和整合人們被看見和被代表的需求,以及對自主性和完整性的需求之間的關(guān)系。
圖1 數(shù)據(jù)公正原則框架
從根本上講,只有徹底消除了人類社會的結(jié)構(gòu)性偏見,才能真正實現(xiàn)數(shù)據(jù)平等。因此,數(shù)據(jù)公正看似是一個理想化的矛盾概念,其實不然。數(shù)據(jù)公正作為技術(shù)偏見的實質(zhì)性治理路徑,它促使人們認(rèn)真審視數(shù)據(jù)化社會中復(fù)雜的權(quán)力關(guān)系,思考數(shù)據(jù)驅(qū)動技術(shù)的安全性、自主性、公平性和可持續(xù)性等概念的問題。在信息技術(shù)采納與數(shù)據(jù)分析全球化的環(huán)境中,將數(shù)據(jù)公正的框架納入算法偏見治理的討論,審視并修正不公正的數(shù)據(jù)采納可能引發(fā)的社會技術(shù)風(fēng)險,是構(gòu)建公平負(fù)責(zé)的算法機制、推動人類社會技術(shù)正義的起點。
2.算法透明:建構(gòu)平臺與用戶的平衡關(guān)系
納塔利·赫爾伯格(Natali Helberger,2016)倡導(dǎo)一種“公平媒體實踐”(Fair Media Practices),主張建構(gòu)媒體和用戶之間的平衡關(guān)系。提升算法透明度能夠有效減少媒體和用戶之間的信息不對稱,構(gòu)建媒體與用戶的平衡關(guān)系。
透明度是新聞倫理學(xué)的核心價值,被稱為“新的客觀性”,是發(fā)現(xiàn)社會真理的重要途徑。提升透明度意味著媒體要向公眾開放信息生產(chǎn)制作的過程。將透明度應(yīng)用于算法新聞,就是公開智能算法程序設(shè)計以及如何與數(shù)據(jù)進(jìn)行交互的背景信息并使之具有可解釋性,減少媒體與用戶之間的信息不對稱,在自我與公眾的雙重監(jiān)督下保證算法決策的客觀中立。
算法不僅關(guān)涉商業(yè)機密,還具有極強的專業(yè)性。這些特性必然會影響算法透明度。對于許多互聯(lián)網(wǎng)公司來說,算法的運行機制涉及企業(yè)機密,算法透明就意味著要在一定程度上公開其技術(shù)系統(tǒng)中的運作細(xì)節(jié),損害企業(yè)的競爭優(yōu)勢和商業(yè)利益。此外,算法技術(shù)專業(yè)性較強,普通用戶難以理解算法決策機制的技術(shù)細(xì)節(jié)。平衡公眾認(rèn)知能力、平臺的商業(yè)隱私與公共利益的關(guān)系,是制定算法透明度準(zhǔn)則的關(guān)鍵。涵蓋“優(yōu)先級、分類、關(guān)聯(lián)、過濾”(Diakopoulos N.,2015)的算法能力框架,為算法透明和信息公開提供了參照:
1.公開信息優(yōu)先級的準(zhǔn)則
公開信息優(yōu)先級排序的標(biāo)準(zhǔn)或價值要素,以及每種價值要素所占的比重,充分說明算法排序的結(jié)果的合理性。公眾要檢驗這些準(zhǔn)則或價值要素是否天然具有偏見,是否與公共利益相悖,以及平臺在具體的新聞實踐中是否嚴(yán)格遵循這些準(zhǔn)則與價值要素。
2.公開用戶生成畫像的要素及標(biāo)簽
首先,在收集用戶信息前應(yīng)獲得數(shù)據(jù)主體的許可;其次,要向用戶公開生成畫像的要素及標(biāo)簽,使用戶知曉自己的興趣屬性和身份標(biāo)簽;最后,當(dāng)算法對用戶的認(rèn)知產(chǎn)生偏見,要給予用戶及時修正偏見的權(quán)利。
3.公開關(guān)聯(lián)的閾值
關(guān)聯(lián)用戶與用戶、用戶與信息時,要設(shè)立并公開一個閾值。當(dāng)用戶之間的相似度、用戶對某類信息的興趣度達(dá)到規(guī)定閾值后,算法才能為二者建立聯(lián)系。此外,閾值的公開能夠使用戶自己掌控與其他用戶、信息的關(guān)聯(lián)程度。
平臺算法透明度的提升,能夠使用戶監(jiān)督和檢驗算法新聞的運作過程,建構(gòu)用戶與智能媒體之間的平衡關(guān)系。算法透明的維度和效果,仍需在實踐中不斷的檢驗與修正。
算法的運行機制非常復(fù)雜且具有較強的技術(shù)性。僅僅依靠平臺自律性地公開數(shù)據(jù)與信息,仍無法避免算法偏見以更隱蔽的方式出現(xiàn)。因此,對平臺和算法的法律監(jiān)督、調(diào)查和問責(zé),是規(guī)避風(fēng)險的重要措施。
在世界范圍內(nèi),不少國家已逐漸開始意識到算法技術(shù)安全與數(shù)據(jù)安全保護的重要性與緊迫性,并展開一系列立法實踐。2018年正式生效的《歐洲聯(lián)盟通用數(shù)據(jù)條例》(GDPR)明確規(guī)定,算法的功能須具有可理解性。算法對個人數(shù)據(jù)的收集與使用,尤其是使用技術(shù)形成畫像必須要獲得數(shù)據(jù)主體的同意。GDPR將數(shù)據(jù)隱私作為一項基本人權(quán),并已成為其他國家的典范。2017年美國計算機協(xié)會公共政策委員會(USACM)制定了一套算法透明的七大責(zé)任原則:意識原則、準(zhǔn)入和補救原則、問責(zé)原則、透明原則、數(shù)據(jù)來源原則、可審計原則、驗證和測試原則(Donghee Shin,2019)。我國《電子商務(wù)法》雖然規(guī)定消費者具有算法的選擇權(quán),但沒有強制規(guī)定算法透明與信息公開。
在具體的立法實踐中,首先,要明確提出平臺數(shù)據(jù)主體的信息安全問題。平臺算法要同時兼顧數(shù)據(jù)主體的可見性與主體性,并促進(jìn)平臺“去身份識別”技術(shù)的發(fā)展,平衡身份再識別風(fēng)險與社會效益之間的關(guān)系。其次,要對算法透明度的提升維度和標(biāo)準(zhǔn)作出明確的規(guī)定并建立相應(yīng)的問責(zé)機制。再次,要明確規(guī)定平臺算法排序的價值要素不能與公共利益相悖,嚴(yán)格限制人為的算法操縱。最后,平臺需要優(yōu)先顯示贊助商的信息時,應(yīng)主動公開標(biāo)注廣告,避免誤導(dǎo)用戶的認(rèn)知。
智能媒體的算法實踐深刻影響著現(xiàn)代社會的信息流動。算法正義原則旨在塑造公平、透明、負(fù)責(zé)的算法系統(tǒng),倡導(dǎo)媒體利用算法技術(shù)生產(chǎn)優(yōu)質(zhì)多元的信息,客觀真實地呈現(xiàn)事實真相,激發(fā)人們的理性思辨,最終導(dǎo)向人類的美好生活。算法偏見的揭示與治理是解構(gòu)智能傳播的算法神話、強化技術(shù)社會中用戶的主體性與信息產(chǎn)品的公共性、規(guī)避技術(shù)倫理風(fēng)險的有效路徑。
注釋:
① DeVito,Michael A.(2017)FromEditorstoAlgorithms.Digital Journalism.5(6):p.756.
② Matt Carlson.(2017)AutomatingJudgment?AlgorithmicJudgment,NewsKnowledge,andJournalisticProfessionalism.New Media & Society,20(5),p.1757.
③ 張超:《作為中介的算法:新聞生產(chǎn)中的算法偏見與應(yīng)對》,《中國出版》,2018年第1期。
④ Matt Carlson.(2019)NewsAlgorithms,PhotojournalismandtheAssumptionofMechanicalObjectivityinJournalism.Digital Journalism.Published online:https://doi.org/10.1080/21670811.2019.1601577.
⑤ [加]文森特·莫斯可:《云端:動蕩世界中的大數(shù)據(jù)》,楊睿、陳如歌譯,中國人民大學(xué)出版社2017年版,第200頁。
⑦ 吳飛:《媒介技術(shù)演進(jìn)脈絡(luò)的哲學(xué)考察》,《新聞記者》,2018年第12期。
⑧ [德]海德格爾:《林中路》,孫周興譯,上海譯文出版社2014年版,第281-293頁。
⑨ [英]貝斯黑萊姆:《偏見心理學(xué)》,鄒海燕、鄭佳明譯,湖南人民出版社1989年版,第7頁。
⑩ 郭小平、李曉:《流動社會的智能新媒介、移動連接與個人隱私》,《現(xiàn)代傳播》,2018年第10期。