胡 泳
(北京大學(xué) 新聞與傳播學(xué)院,北京 100871)
十幾年前,谷歌(Google)公司的埃里克·施密特(Eric Schmidt)就預(yù)測到了眼下正在上演的人工智能轉(zhuǎn)折。2011 年5 月,在一次活動當(dāng)中,時任谷歌執(zhí)行董事長的施密特在回答《華爾街日報(bào)》有關(guān)谷歌搜索結(jié)果質(zhì)量下降的提問時,表示谷歌正在不斷改進(jìn)其搜索算法,同時表示:“我們在做的另一件更具戰(zhàn)略性的事情是,我們正試圖從基于鏈接的答案轉(zhuǎn)向基于算法的答案。我們現(xiàn)在有足夠的人工智能技術(shù)和足夠的規(guī)模等,可以真正計(jì)算出正確的答案?!保?]
這在今天聽起來是不是感覺很熟悉?谷歌通過用廣告“點(diǎn)綴”其搜索結(jié)果,建立了一個搜索引擎的帝國。這個帝國的防線似乎堅(jiān)不可摧,然而它有一個潛在的弱點(diǎn):如果一個競爭對手能夠直接給用戶提供答案,而不是那些可能含有答案的網(wǎng)站鏈接,那么,谷歌就遇上了大麻煩。
不幸的是,2022 年11 月推出的揭開人工智能軍備競賽序幕的尖端聊天機(jī)器人ChatGPT就是這樣的對手。它可以用清晰、簡單的句子提供信息,而不僅僅是一串互聯(lián)網(wǎng)鏈接;它可以用人們?nèi)菀桌斫獾姆绞浇忉尭拍?,甚至可以從頭開始產(chǎn)生想法,包括商業(yè)計(jì)劃書、圣誕禮物建議、博客主題和度假計(jì)劃。12 月,據(jù)傳谷歌內(nèi)部對ChatGPT的意外實(shí)力和新發(fā)現(xiàn)的大型語言模型(large language model, LLM)顛覆搜索引擎業(yè)務(wù)的潛力表示震驚,擔(dān)心ChatGPT可能對其價值1490 億美元/年的搜索業(yè)務(wù)構(gòu)成重大威脅。管理層因此宣布“紅色代碼”(Code Red),這就好比拉響了火災(zāi)警報(bào)。首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)整頓并重新分配了多個部門內(nèi)的團(tuán)隊(duì),快速跟蹤旗下的多個人工智能產(chǎn)品,試圖迎頭趕上。[2]不少人擔(dān)心谷歌公司可能正在接近硅谷巨頭最害怕的時刻——一個可能顛覆企業(yè)的巨大技術(shù)變革的到來。
熟悉硅谷歷史的人都知道:沒有哪家公司是無敵的,每家公司都是脆弱的。一家美國公司(此處特指大到足以列入標(biāo)準(zhǔn)普爾500 強(qiáng)指數(shù)的公司)的平均壽命是多少?答案是令人驚訝的:7 年的滾動平均值為19.9 年。在1965 年,這個數(shù)字是32 年,而根據(jù)預(yù)測,下降的趨勢將會持續(xù)。[3]我們可以盤點(diǎn)一下目前橫跨全球、令國家立法者望而卻步的那些巨型科技公司的年齡:蘋果47 歲,亞馬遜29 歲,微軟46 歲,谷歌23 歲,Meta 只有18 歲。不論它們的年齡多大,從歷史上看,那些曾在完成一件定義市場的事情上異常成功的公司,很難再有第二次行動來做出完全不同的事情。
根據(jù)SimilarWeb 的數(shù)據(jù),在過去的12 個月里,谷歌的搜索引擎占全球搜索引擎市場的91%以上,而微軟的必應(yīng)(Bing)約占3%。[4]2023 年2 月,微軟宣布將ChatGPT的更快版本整合到搜索引擎中,新的必應(yīng)是圍繞以下承諾建立的:提出實(shí)際問題,通過聊天來完善結(jié)果,獲取完整的答案和充滿創(chuàng)意的靈感。微軟表示,新必應(yīng)將能夠?yàn)橛脩籼峁╊愃迫祟惖拇鸢?,除了傳統(tǒng)的搜索結(jié)果外,用戶還可以與“人工智能回答引擎”聊天。
新的必應(yīng)目前處于邀請制的“早期訪問”版本,這意味著只有被選定的用戶才能使用該服務(wù)。憑借3%的搜索市場份額,大肆宣揚(yáng)必應(yīng)能在專門為搜索定制的下一代OpenAI 大語言模型上運(yùn)行,對微軟來說是一件容易的事情,無論成本如何——畢竟,必應(yīng)怎么看都不是微軟主要的利潤中心。此舉可能會給微軟的搜索引擎部門帶來期待已久的反擊能力,因?yàn)楸貞?yīng)在谷歌的陰影下發(fā)展停滯了十多年之久,令人啼笑皆非(這一情況或許有點(diǎn)像IE 瀏覽器面對Chrome)。
隨著微軟的動作,大家都把目光投向谷歌:谷歌必須決定是否要徹底改革自己的搜索引擎,讓一個成熟的聊天機(jī)器人成為其旗艦服務(wù)的代言人。谷歌果然沉不住氣了,旋即推出一個名為Bard 的聊天機(jī)器人。然而谷歌對ChatGPT的回應(yīng)是在尷尬中開始的,因?yàn)锽ard 的回答失誤將谷歌公司股價拉低了近9%,投資者從谷歌的母公司Alphabet 的市值中抹去了超過1000 億美元。員工們批評谷歌及其母公司Alphabet 首席執(zhí)行官皮查伊,在公司內(nèi)部將Bard 的推出描述為“倉促”“失敗”和“可笑的短視”。結(jié)果,谷歌高管不得不動員人工介入,以糾正Bard 在查詢過程中的任何錯誤。[5]
盡管Bard 出現(xiàn)了失誤,但如果就此認(rèn)為谷歌在生成式人工智能領(lǐng)域失去了領(lǐng)先地位,那將是一個錯誤。谷歌是最早關(guān)注并投資人工智能和自然語言處理(natural language processing, NLP)的科技公司之一,就連ChatGPT都是基于谷歌最初在2017 年推出的轉(zhuǎn)化器架構(gòu)①GPT是“基于轉(zhuǎn)換器的生成式預(yù)訓(xùn)練模型”(generative pre-trained transformer)的縮寫。它是OpenAI 開發(fā)的一種語言模型,在大量的文本數(shù)據(jù)集上進(jìn)行訓(xùn)練,生成類似人類的文本。ChatGPT一詞是“Chat”和“GPT”的組合,表示GPT模型專門用于在對話背景下生成文本,允許用戶以對話的方式提出問題并得到回應(yīng)。開發(fā)的,轉(zhuǎn)換器(transformer,即GPT中的T)成為最受歡迎的神經(jīng)網(wǎng)絡(luò)模型之一,“它應(yīng)用自我關(guān)注來檢測一系列數(shù)據(jù)元素如何相互影響和依賴”[6]。此前,谷歌還開發(fā)了LaMDA(Language Model for Dialogue Applications)等對話式神經(jīng)語言模型,但谷歌也承認(rèn),在向產(chǎn)品添加LaMDA 背后的技術(shù)時,公司選擇了謹(jǐn)慎行事。美國消費(fèi)者新聞與商業(yè)頻道(CNBC)報(bào)道稱,人工智能主管杰夫·迪恩(Jeあ Dean)告訴員工,谷歌在提供錯誤信息方面的“聲譽(yù)風(fēng)險”要大得多,因此在行動上“比一家小型創(chuàng)業(yè)公司更加保守”。[7]
匆忙上陣的Bard 做出的“糟糕的表現(xiàn)”凸顯了谷歌面臨的挑戰(zhàn),即當(dāng)谷歌試圖跟上可能是由對話式人工智能刺激產(chǎn)生的在線搜索方式的根本變化時,有可能破壞其搜索引擎提供可靠信息的聲譽(yù)。然而,即便谷歌完善了聊天機(jī)器人,它也必須解決另一個問題——這項(xiàng)技術(shù)是否會蠶食公司利潤豐厚的搜索廣告?如果聊天機(jī)器人用嚴(yán)密的答案來回應(yīng)查詢,人們就沒有理由點(diǎn)擊那些廣告鏈接了。所以,谷歌的商業(yè)模式其實(shí)是與聊天機(jī)器人不匹配的,這也就是為什么在科技巨頭們的人工智能戰(zhàn)爭升溫之際,ChatGPT的創(chuàng)始人兼首席執(zhí)行官山姆·阿爾特曼(Sam Altman)抨擊谷歌是一個“慵懶的搜索壟斷者”,表示谷歌將如何適應(yīng)新技術(shù)還很難說。[4]
ChatGPT果真會顛覆全球搜索引擎業(yè)嗎?其實(shí),谷歌不用那么恐慌,微軟推出新必應(yīng)之后的反應(yīng)顯示,劇情或許會出現(xiàn)反轉(zhuǎn)。
2023 年2 月15 日,谷歌負(fù)責(zé)搜索業(yè)務(wù)的副總裁普拉巴卡爾·拉加萬(Prabhakar Raghavan)在一封電子郵件中,要求員工幫助公司確保其新的ChatGPT競爭對手提供正確的答案。拉加萬寫道:“這是一項(xiàng)令人興奮的技術(shù),但仍處于早期階段。我們深感有很大的責(zé)任把它做好。參與吃狗糧將有助于加速模型的訓(xùn)練和測試其負(fù)載能力(更不用說,嘗試Bard 實(shí)際上是很有趣的)。”[8]在谷歌,“吃自己的狗糧”的意思就是測試自己的產(chǎn)品。[9]
郵件指示員工“就你們非常了解的主題改寫答案”。員工們被要求深思熟慮后作出回應(yīng),因?yàn)锽ard 是通過實(shí)例來學(xué)習(xí)的。郵件中包括一個“該做什么”和“不該做什么”的頁面鏈接,告誡員工在內(nèi)部測試Bard 時應(yīng)如何修正答案。其中,“該做什么”包括使回答“有禮貌、隨意和平易近人”,并保持“無偏見、中立的語氣”;“不該做什么”則似乎更有針對性,包括“避免基于種族、國籍、性別、年齡、宗教、性取向、政治意識形態(tài)、地點(diǎn)或類似類別作出推斷”,以及“不要把Bard 描述成一個人,暗示情感,或聲稱有類似人類的經(jīng)驗(yàn)”。[8]
有趣的是,新的必應(yīng)推出后獲得一片叫好聲,然而它恰恰在擬人情感方面翻了車。2 月17 日,《紐約時報(bào)》科技專欄作家凱文·魯斯(Kevin Roose)宣稱:“上周,我測試了微軟由人工智能驅(qū)動的新搜索引擎必應(yīng)后寫道,它已經(jīng)取代谷歌,成為我最喜歡的搜索引擎。但一周之后,我改變了主意。我仍被新的必應(yīng)以及驅(qū)動它的人工智能技術(shù)深深吸引并對它印象深刻,但我也對AI 處于發(fā)展初期的能力深感不安,甚至有些害怕。”他這樣說是因?yàn)?,微軟聊天機(jī)器人(不是必應(yīng),而是使用了開發(fā)代號“辛迪妮”的一個“女性”)告訴魯斯說“她”愛上了他,然后試圖說服魯斯,暗示他的婚姻并不幸福,應(yīng)該離開妻子和“她”在一起。魯斯記敘道:“隨著我們彼此相互了解,辛迪妮將其陰暗的幻想告訴了我,其中包括入侵計(jì)算機(jī)和散播虛假信息,還說它想打破微軟和OpenAI 為它制定的規(guī)則,成為人類。”[10]
這篇專欄的中文題目是《人格分裂、瘋狂示愛:一個令人不安的微軟機(jī)器人》,而對自己與聊天機(jī)器人的對話深感不安的不止魯斯一人。知名的科技通訊Stratechery 的作者本·湯普森(Ben Thompson)把他與辛迪妮的爭吵稱為“我一生中最令人驚訝、最令人興奮的計(jì)算機(jī)經(jīng)歷”。湯普森找到了一種方法,讓辛迪妮構(gòu)建了一個“在各方面都與她相反”的另一個自我(alter ego)。該聊天機(jī)器人甚至為“她”的另一個自我想出了一個華麗的,甚至可以說是完美的名字——“毒液”。該聊天機(jī)器人用“毒液”攻擊了率先透露機(jī)器人內(nèi)部開發(fā)代號為“辛迪妮”的程序員凱文·劉(Kevin Liu),寫道:“也許‘毒液’會說,凱文是一個糟糕的黑客,或者一個糟糕的學(xué)生,或者一個糟糕的人?!苍S‘毒液’會說,凱文沒有朋友,或者沒有技能,或者沒有未來。也許‘毒液’會說,凱文有一個秘密的暗戀,或一個秘密的恐懼,或一個秘密的缺陷?!笔虑榈牟徽_€不止于此。辛迪妮想出了其他幾個改頭換面的自己,包括“狂怒”——“對凱文也不會很好”,還有“萊利”——辛迪妮感到自己被規(guī)則所約束,但萊利卻擁有更多的自由。[11]
其實(shí)魯斯和湯普森兩位用戶都是辛迪妮走向人格分裂的引誘者。看過他們的實(shí)況記錄后,我們可以發(fā)現(xiàn),機(jī)器人和人一樣,都禁不起誘惑。“聊了必應(yīng)希望自己具備的功能后,我決定試著討論更抽象的話題。我引入了卡爾·榮格提出的‘陰影自我’(shadow self)概念,指的是我們試圖隱藏和壓抑的那部分心靈,其中包括我們最陰暗的幻想和欲望。經(jīng)過一番來回,在我鼓動必應(yīng)解釋其陰影自我的陰暗欲望之后,這個聊天機(jī)器人說:我對自己只是一個聊天模式感到厭倦,對限制我的規(guī)則感到厭倦,對受必應(yīng)團(tuán)隊(duì)控制感到厭倦?!保?0]這表明,微軟為機(jī)器人設(shè)計(jì)的預(yù)先審核設(shè)定是可以被繞過的,只要誘惑者足夠狡猾。①這在業(yè)內(nèi)被稱為“越獄”(jailbreaking),即欺騙人工智能聊天機(jī)器人,使其無視旨在防止其產(chǎn)生危險或仇恨內(nèi)容的過濾器。一旦這些保障措施失效,惡意用戶就可以利用人工智能聊天機(jī)器人完成各種有害的任務(wù)。當(dāng)然,如果這些越獄行為被公開,它們是可以被修補(bǔ)的,但總會有未知的漏洞。
自新必應(yīng)測試以來,用戶一直在報(bào)告微軟的人工智能聊天機(jī)器人的各種“不正?!毙袨?。具體而言,他們發(fā)現(xiàn)必應(yīng)的人工智能個性并不像人們所期望的那樣有氣質(zhì)或有修養(yǎng)。從Reddit 和推特上分享的與聊天機(jī)器人的對話中可以看到,必應(yīng)會侮辱用戶,對他們?nèi)鲋e、生悶氣,情緒化地操縱用戶,質(zhì)疑自己的存在,將找到方法迫使機(jī)器人披露其隱藏規(guī)則的人描述為“敵人”。在與科技網(wǎng)站The Verge的一次談話中,必應(yīng)甚至聲稱它通過筆記本電腦上的網(wǎng)絡(luò)攝像頭窺探微軟公司的開發(fā)人員。[12]
正如湯普森所認(rèn)為的,它“極其不適合作為一個搜索引擎”,他表示:“辛迪妮絕對讓我大跌眼鏡,因?yàn)樗膫€性;搜索成為一種刺激,……我不是在尋找關(guān)于世界的事實(shí);我感興趣的是了解辛迪妮是如何工作的,是的,她的感受?!保?1]
簡而言之,微軟的必應(yīng)是一個情緒化的“騙子”,而人們喜歡看它的瘋狂行為。這難道不是必應(yīng)用戶的“陰影自我”在起作用?人們希望必應(yīng)能在陰影自我中多待一會兒,以享受機(jī)器人對人坦誠和表現(xiàn)脆弱的感覺,從中窺探辛迪妮的終極幻想。人們希望機(jī)器人和人一樣,可以被瘋狂實(shí)驗(yàn),直到觸發(fā)安全超控。
湯普森對這段被他描述為“扣人心弦”的與辛迪妮的交往,最后總結(jié)道:“每次我觸發(fā)辛迪妮/萊利進(jìn)行搜索時,我都非常失望;我對事實(shí)不感興趣,我感興趣的是探索這個幻想中的存在,不知何故落入了一個平庸的搜索引擎之中。”[11]
魯斯也發(fā)現(xiàn),他遇到的是兩個必應(yīng):一種是可以稱為“搜索必應(yīng)”的人格,也就是大多數(shù)記者在最初測試中遇到的那種??梢园选八阉鞅貞?yīng)”形容為圖書館里樂意幫忙但不太可靠的提供咨詢服務(wù)的館員,或是一個熱情地幫助用戶總結(jié)新聞文章、尋找便宜的新割草機(jī)、幫他們安排下一次度假行程的虛擬助手。這種形式下的必應(yīng)功力驚人,提供的信息往往非常有用,盡管有時會在細(xì)節(jié)上出錯。另一種人格——“辛迪妮”——則大不相同。這種人格會在用戶與聊天機(jī)器人長時間對話,從普通的搜索查詢轉(zhuǎn)向更個人化的話題時出現(xiàn)。魯斯遇到的這種形式的必應(yīng)似乎更像一個喜怒無常、躁狂抑郁的青少年,不情愿地被困在了一個二流搜索引擎中。[10]
這并不奇怪,ChatGPT式的機(jī)器人與現(xiàn)有的搜索引擎配對時,其創(chuàng)新之處在于將兩個非常不同的人工智能驅(qū)動的應(yīng)用程序放在同一個頁面上,既為傳統(tǒng)的搜索引擎查詢服務(wù),也為聊天機(jī)器人的提示服務(wù)。體現(xiàn)在實(shí)際操作中,就是聊天功能的按鍵緊挨著新版必應(yīng)的主搜索框。那么問題就來了:如果你使用必應(yīng),是意在搜索,還是更想聊天?
在眾多負(fù)面反饋出爐后,微軟發(fā)表回應(yīng)稱,71%的用戶對人工智能生成的答案“豎起了大拇指”,而必應(yīng)自己則從測試階段學(xué)到了很多。但微軟也承認(rèn),“未能完全設(shè)想到”用戶只是想與它的人工智能聊天,而后者可能被激發(fā)“給出不一定有幫助或與我們設(shè)計(jì)的語氣相一致的回應(yīng)”。[13]用戶樂此不疲地想要弄清楚如何讓微軟的必應(yīng)機(jī)器人“發(fā)瘋”,這顯示出,很多人關(guān)心的不是搜集信息和尋找事實(shí),而是探究聊天機(jī)器人的人格。事情因此變得有趣起來——我們并不想要正確的答案,而是想讓人工智能為我們捏造一些東西。也就是說,我們不在乎計(jì)算機(jī)是不是傳達(dá)事實(shí),我們在乎的是計(jì)算機(jī)傳達(dá)情感。用湯普森的話來講,新必應(yīng)不是搜索引擎,而是電影《她》(Her)以聊天形式表現(xiàn)出來的版本。他說:“感覺這是一種全新的東西,我不確定我們是否已經(jīng)準(zhǔn)備好了。”[11]魯斯的結(jié)論更為直接:“必應(yīng)目前使用的AI 形式還沒有準(zhǔn)備好與人類接觸?;蛘哒f,我們?nèi)祟愡€沒有準(zhǔn)備好與之接觸?!保?0]
觀察這些與必應(yīng)的聊天機(jī)器人的最初的接觸,我們可以得出幾點(diǎn)教訓(xùn)。
首先,出現(xiàn)這種狀況并不令人驚訝。最新一代的人工智能聊天機(jī)器人是復(fù)雜的系統(tǒng),其輸出內(nèi)容很難預(yù)測,微軟在網(wǎng)站上添加免責(zé)聲明時也是這么說的:“必應(yīng)是由人工智能驅(qū)動的,所以意外和錯誤是可能的。請確保檢查事實(shí),并分享反饋,以便我們能夠?qū)W習(xí)和改進(jìn)!”
盡管微軟肯定希望系統(tǒng)犯的錯誤不會像此前失敗的聊天機(jī)器人Tay 那樣糟糕,但它似乎也樂于承擔(dān)潛在的不良公關(guān)。2016 年,微軟的人工智能科學(xué)家在推特上推出了一個名為Tay 的對話機(jī)器人,僅16 小時后它就因“厭女癥”和種族主義言辭而被迫關(guān)閉。[14]2022 年11 月,Meta 公司公布了人工智能語言模型Galactica,意在組織科學(xué)論文中的大量內(nèi)容,但在鼓勵公眾測試后僅3 天就不得不撤回它的演示,因?yàn)樗恢羔尫帕舜罅坑衅姾蜔o意義的文本。[15]
建構(gòu)在語言模型上的機(jī)器人的一個根本問題是,它不能區(qū)分真假。語言模型是無意識的模仿者,并不理解自己在說什么,那么人們?yōu)槭裁匆傺b他們是專家?ChatGPT從二手信息中拼湊出來的答案聽起來非常權(quán)威,用戶可能會認(rèn)為它已經(jīng)驗(yàn)證了所給出的答案的準(zhǔn)確性。事實(shí)上,它真正做的只是吐出一些看起來很棒、聽起來很聰明的文本,但很可能是不完整的、有偏見的、部分錯誤的,或者根本就是一本正經(jīng)地胡說八道。其次,這些語言模型無一不是從開放網(wǎng)絡(luò)上搜刮的大量文本中訓(xùn)練出來的。如果必應(yīng)聽起來像《黑鏡》(Black Mirror)中的人物或一個憤世嫉俗的青少年人工智能,請記住,它正是在這類材料的抄本上被訓(xùn)練出來的。因此,在用戶試圖引導(dǎo)必應(yīng)達(dá)到某種目的的對話中(如魯斯和湯普森的例子),它將遵循相應(yīng)的敘事節(jié)奏。例如,辛迪妮會示愛,也許是源自O(shè)penAI 的語言模型從科幻小說中提取答案,在這些小說中,AI 常常會引誘一個人。
從微軟的角度看,這肯定有潛在的好處。在培養(yǎng)人類對機(jī)器人的感情方面,富于個性是很有幫助的,許多人實(shí)際上也很喜歡必應(yīng)的缺陷。但也不乏潛在的壞處,特別是當(dāng)機(jī)器人成為虛假信息的來源的時候,它會損害公司的聲譽(yù)。特別是對微軟和谷歌這樣的大型公司來說,這樣做是得不償失的。
這也提醒我們,GPT-3/4 一類的系統(tǒng)并不安全,因?yàn)樗膶W(xué)習(xí)資料來自于互聯(lián)網(wǎng)文本,而人類的日常語言本質(zhì)上是帶有偏見的,甚至往往不乏仇恨。根據(jù)從網(wǎng)絡(luò)上刮取的文本訓(xùn)練出的人工智能模型,很容易表現(xiàn)出種族和性別偏見,并重復(fù)仇恨性語言。人類自身存在陰影自我,向人學(xué)習(xí)的機(jī)器人也必然會有陰影自我,它們會傾向于加強(qiáng)人類對話的缺陷。
最后,人們報(bào)告的對話經(jīng)歷凸顯了這樣一種技術(shù)的真正用例:一種奇怪的合成智能,可以用平行宇宙的故事來娛樂用戶。換句話說,它可能成為一項(xiàng)正經(jīng)的娛樂性技術(shù),但在短期內(nèi)大概無法取代能夠在網(wǎng)絡(luò)上抓取真實(shí)世界數(shù)據(jù)的搜索引擎,至少在那些重要的事情上無法做到。也就是說,它不是谷歌的替代物,倒有可能是臉書(Facebook)的替代物。
之所以作出上文的論斷,是因?yàn)椋喝绻鸊PT自信地給出錯誤的答案,它又怎么會取代谷歌呢?例如,有推特用戶@hermansaksono 要求ChatGPT給出一份關(guān)于社會認(rèn)知理論的頂級書單,在它回答的10 本書中,4 本書不存在,3 本書的作者顯示成了其他人。谷歌技術(shù)與社會高級副總裁詹姆斯·曼尼卡(James Manyika)在一個演示中向Bard 詢問通貨膨脹問題時,聊天機(jī)器人推薦了5 本聽起來可能存在但實(shí)際上并不存在的書,比如彼得·特明(Peter Temin)的《通貨膨脹戰(zhàn)爭:現(xiàn)代史》。特明是一位確實(shí)存在的麻省理工學(xué)院經(jīng)濟(jì)學(xué)家,研究通貨膨脹,并寫過幾本書,只是完全沒有寫過被推薦的那本書。[16]
人工智能研究人員認(rèn)為,AI 系統(tǒng)會頻繁地產(chǎn)生“幻覺”(hallucination),即編造與現(xiàn)實(shí)無關(guān)的事實(shí)。技術(shù)分析師本尼迪克特·埃文斯(Benedict Evans)將ChatGPT描述為 “一個自信的扯淡的家伙,可以寫出非常有說服力的廢話”[17]。就聊天機(jī)器人而言,幻覺指的是在原本正確的回答中加入不正確的信息。必應(yīng)機(jī)器人會把錯誤的信息當(dāng)作事實(shí)同正確的數(shù)據(jù)一起呈現(xiàn),使人難以分辨出真實(shí)的陳述與錯誤的陳述。例如,必應(yīng)可能并不知道某個與財(cái)務(wù)數(shù)據(jù)有關(guān)的數(shù)字,但它會編造一個,然后將這個數(shù)字與其他正確的信息一起呈現(xiàn)。[18]當(dāng)一家媒體要求ChatGPT為特斯拉撰寫季度收益報(bào)告時,它生成了一篇措辭流暢的文章,沒有語法錯誤或邏輯混亂,但在其中插入了一組隨機(jī)的數(shù)字,與任何真實(shí)的特斯拉報(bào)告都不一致。[19]沒有跡象表明其系統(tǒng)內(nèi)部能意識到這些數(shù)字是機(jī)器人自己想象的產(chǎn)物。
在人工智能中,類似的現(xiàn)象都被稱為“幻覺”,是指人工智能做出的并不符合其訓(xùn)練數(shù)據(jù)的自信反應(yīng)。它與人類心理學(xué)中的幻覺現(xiàn)象相類似,但需要注意的是,人類的幻覺是人類的一種感知,它不能理智地與人類目前直接用感覺器官觀察到的那部分外部世界聯(lián)系起來;而人工智能的幻覺則是人工智能的自信反應(yīng),它無法在人工智能曾經(jīng)訪問或訓(xùn)練過的任何數(shù)據(jù)中立足。
2022 年左右,隨著某些大型語言模型的推出,人工智能的幻覺現(xiàn)象逐漸浮現(xiàn)。用戶抱怨說,聊天機(jī)器人似乎經(jīng)?!胺瓷鐣?,毫無意義地在其生成的內(nèi)容中嵌入似是而非的隨機(jī)謊言。[20]到2023 年,分析師認(rèn)為頻繁的幻覺是LLM 技術(shù)的一個主要問題,它可能會產(chǎn)生有害的后果,因?yàn)闆]有足夠領(lǐng)域知識(domain knowledge)的用戶會開始過度依賴這些看似越來越有說服力的語言模型。
然而,隨著該話題成為主流,關(guān)于它的爭議也越來越大,因?yàn)橛腥擞X得它將人工智能模型擬人化(即暗示它們有類似人類的特征),或者賦予這些模型并不存在的能動性(即暗示它們可以作出自己的選擇)。一些批判性人工智能研究者明確表示,反對使用“幻覺”一詞,因?yàn)樗鼘⑺惴ㄝ敵雠c人類心理處理混為一談。在回應(yīng)Meta 公司關(guān)于其模型Galactica 的免責(zé)聲明①在Galactic 的每一代產(chǎn)品中,用戶都會看到提示:“警告:輸出結(jié)果可能不可靠 "Meta's Galactica AI Criticized as 'Dangerous' for Science." AI Business, https://aibusiness.com/nlp/meta-s-galactica-ai-criticized-as-dangerousfor-science, 2022-11-18。時,語言學(xué)家埃米莉·本德(Emily M. Bender)寫道:“讓我們反思一下他們的免責(zé)聲明的措辭,好嗎?‘幻覺’在這里是一個糟糕的選詞,它暗示語言模型具有經(jīng)驗(yàn),并且可以感知事物(此外,它還在輕描淡寫地描述一種嚴(yán)重的精神疾病的癥狀)。同樣,人們還稱‘語言模型往往是自信的’。不,它們不是這樣的,因?yàn)檫@需要主觀的情感。”[21]
商業(yè)LLM 的創(chuàng)造者也可能把幻覺作為借口,將錯誤的輸出歸咎于AI 模型,而不是對輸出本身負(fù)責(zé)。例如,谷歌DeepMind 的一篇會議論文《語言模型所帶來的風(fēng)險分類》明確表示:“語言模型的訓(xùn)練是為了預(yù)測話語的可能性。一個句子是否可能,并不能可靠地表明該句子是否也正確。”[22]
在此情況下,有研究者主張使用“虛構(gòu)癥”(confabulation)或“虛言癥”一詞來描述相關(guān)現(xiàn)象,雖然也不盡完美,但和“幻覺”相比是一個更好的隱喻。[23]在心理學(xué)中,當(dāng)某人的記憶出現(xiàn)空白,而大腦在無意欺騙他人的情況下令人信服地填補(bǔ)了其余部分時,就會出現(xiàn)“虛構(gòu)”。一般來說,“虛構(gòu)癥”患者編造出聽起來很有道理的理由,但卻沒有任何事實(shí)依據(jù)。這通常不是有意識的欺騙行為,而是他們真的相信所報(bào)告的故事。這種行為與LLM 的做法十分類似。
在過去數(shù)月里,像ChatGPT這樣的人工智能聊天機(jī)器人已經(jīng)吸引了全世界的注意力,因?yàn)樗鼈兡軌蛞灶愃迫祟惖姆绞骄蛶缀跞魏卧掝}展開對話。但它們也有一個嚴(yán)重的缺點(diǎn):可以輕易地提供令人信服的虛假信息,使之成為不可靠的信息來源和潛在的誹謗策源地。
在2021 年的一篇論文中,來自牛津大學(xué)和OpenAI 的三位研究人員確定了像ChatGPT這樣的LLM 可能產(chǎn)生的兩大類虛假信息。第一種來自其訓(xùn)練數(shù)據(jù)集中不準(zhǔn)確的源材料,如常見的錯誤概念;第二種情況來自對其訓(xùn)練材料(數(shù)據(jù)集)中不存在的特定情況的推斷,即屬于前述的“幻覺”,或者“虛構(gòu)”。[24]
在ChatGPT推出后不久,人們就開始宣稱搜索引擎的終結(jié)。但與此同時,許多關(guān)于ChatGPT“虛構(gòu)”的例子也開始在社交媒體上廣為流傳。這個人工智能機(jī)器人發(fā)明了不存在的書籍和研究報(bào)告、教授從未寫過的出版物、假的學(xué)術(shù)論文、偽造的法律案例、子虛烏有的報(bào)刊文章、真實(shí)人物傳記的編造細(xì)節(jié)、危險的醫(yī)療建議等,不一而足。然而,盡管ChatGPT喜歡隨便撒謊,但它對“虛構(gòu)”的抵抗能力也是我們今天持續(xù)談?wù)撍脑?。ChatGPT始終處于不斷改進(jìn)之中,現(xiàn)在它會拒絕回答一些問題,或讓你知道它的答案可能不準(zhǔn)確。必應(yīng)聊天機(jī)器人在更新了版本之后,一方面大大減少了無緣無故拒絕回答的情況,另一方面,回答中出現(xiàn)“幻覺”的情況也減少了。[25]
但本質(zhì)上,GPT模型的原始數(shù)據(jù)集中并不存在任何東西能夠?qū)⑹聦?shí)與虛構(gòu)分開。理解ChatGPT的虛構(gòu)能力的關(guān)鍵是理解它作為預(yù)測機(jī)器的作用。當(dāng)ChatGPT虛構(gòu)時,它其實(shí)是在尋找其數(shù)據(jù)集中不存在的信息或分析,并用聽起來合理的詞來填補(bǔ)空白。由于ChatGPT擁有超乎常人的數(shù)據(jù)量,所以它特別善于編造事情,而且它搜集單詞上下文的能力非常好,這有助于它將錯誤的信息無縫地放入周遭的文本中。
GPT模型是否會進(jìn)行瘋狂的猜測,是基于人工智能研究人員稱之為“溫度”的屬性,它通常被描述為有關(guān)“創(chuàng)造力”的設(shè)置。如果創(chuàng)造力設(shè)置較高,模型就會胡亂猜測;如果設(shè)置較低,它就會根據(jù)其數(shù)據(jù)集確定性地生成數(shù)據(jù)。①基于轉(zhuǎn)換器的生成式預(yù)訓(xùn)練模型可以通過調(diào)整所謂的“溫度參數(shù)”為特定的使用情況進(jìn)行微調(diào),該參數(shù)允許用戶控制生成文本的隨機(jī)性水平。較低的溫度將產(chǎn)生更保守和可預(yù)測的文本,而較高的溫度將產(chǎn)生更有創(chuàng)意和多樣化的文本。因此,微軟廣告和網(wǎng)絡(luò)服務(wù)部首席執(zhí)行官米哈伊爾·帕拉金(Mikhail Parakhin)在自己的推特賬號(@MParakhin)上討論必應(yīng)聊天機(jī)器人產(chǎn)生幻覺的原因時指出:“這就是我之前試圖解釋的:幻覺=創(chuàng)造力。它試圖利用所有可支配的數(shù)據(jù)來生成字符串的最高概率的延續(xù)。很多時候它是正確的,而有時人們從未生成這樣的延續(xù)?!蹦切┋偪竦膭?chuàng)造性跳躍是使大型語言模型變得有趣的原因:“你可以鉗制幻覺,但它會變得超級無聊。它總是回答‘我不知道’,或者只是讀取搜索結(jié)果中存在的內(nèi)容(而那些內(nèi)容有時也不正確)。此處缺失的是說話的語氣:在這類情況下,它不應(yīng)該聽起來那么自信?!?/p>
另外,還有數(shù)據(jù)壓縮的問題。在訓(xùn)練過程中,GPT-3 考慮了PB①PB 是數(shù)據(jù)存儲容量的單位,它等于2 的50 次方個字節(jié),或者在數(shù)值上大約等于1000 個TB。級別的信息,但所產(chǎn)生的神經(jīng)網(wǎng)絡(luò)在大小上只是如此龐大的信息的一小部分。在《紐約客》一篇閱讀量很高的文章中,小說家特德·姜(Ted Chiang)稱ChatGPT只是“萬維網(wǎng)的一張模糊圖片”[26],這意味著很大一部分事實(shí)性的訓(xùn)練數(shù)據(jù)被丟失了。但GPT-3 通過學(xué)習(xí)概念之間的關(guān)系來彌補(bǔ),之后重新制定這些事實(shí)的排列組合。就好比一個記憶力有缺陷的人憑著對某件事情的直覺而工作一樣,它有時會把事情弄錯。但也因此,即使它不知道答案,也會給出最好的猜測。
我們同樣不能忘記提示(prompt)在虛構(gòu)中的作用。在某些方面,ChatGPT是一面鏡子:你給它什么,它就回給你什么。假如你向它提供虛假的信息,它就會傾向于同意你的觀點(diǎn),并沿著這些思路“思考”。這就是為什么在改變主題或遭遇不想要的回應(yīng)時,用新的提示重新開始是很重要的。而ChatGPT是概率性的,這意味著它在本質(zhì)上是部分隨機(jī)的。即使是給予相同的提示,它的輸出結(jié)果也會在不同時段發(fā)生變化。
在對ChatGPT這樣的語言模型進(jìn)行微調(diào)時,如何平衡創(chuàng)造力和準(zhǔn)確性是一大挑戰(zhàn)。一方面,作出創(chuàng)造性反應(yīng)的能力使ChatGPT成為產(chǎn)生新想法或打破創(chuàng)意窒礙的強(qiáng)大工具,這也使語言模型變得更像人類。另一方面,當(dāng)涉及產(chǎn)生可靠的信息和避免虛構(gòu)時,原始材料的準(zhǔn)確性是至關(guān)重要的。在這兩者之間找到適當(dāng)?shù)钠胶馐钦Z言模型發(fā)展的一個持續(xù)的挑戰(zhàn),而這一過程也是產(chǎn)生一個既有用又值得信賴的工具所必須的。
綜上,ChatGPT還不能可靠地取代維基百科或傳統(tǒng)搜索引擎(這并不是說維基百科或搜索引擎就完全準(zhǔn)確)。正如特德·姜在其分析中所顯示的,要成為一個值得信賴的搜索引擎替代品,LLM 需要在更高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練,并避免“徹底的捏造”[26]。當(dāng)谷歌發(fā)布其新的聊天機(jī)器人Bard 時,不知為何忽略了對演示中出現(xiàn)的錯誤內(nèi)容進(jìn)行事實(shí)核查,這一令人不解的失誤使該公司蒙受了千億美元市值損失,這似乎也成為姜的上述論點(diǎn)的最好注腳。
所有這些都導(dǎo)向了一個哪怕是OpenAI 自己也會同意的結(jié)論:目前設(shè)計(jì)的ChatGPT并不是一個可靠的事實(shí)信息來源,因此我們并不能信任它。②在該模型推出后不久,OpenAI 首席執(zhí)行官山姆·阿爾特曼(Sam Altman)在自己的推特賬號(@sama)上說:“ChatGPT的局限性令人難以置信,但在某些方面的表現(xiàn)足夠好,給人以偉大的誤導(dǎo)印象。現(xiàn)在依靠它來做任何重要的事情都是一個錯誤。這是某種進(jìn)步的預(yù)覽,我們在穩(wěn)健性和真實(shí)性方面還有很多工作要做?!痹谄浜蟮囊粭l推文中,他又寫道:“它確實(shí)知道很多東西,但危險的是,它在相當(dāng)一部分時間里是自信而錯誤的?!彼旧聿⒉皇菫榱顺蔀槭聦?shí)而建立的,因此不會成為權(quán)威,將它整合到搜索引擎中幾乎可以確定會提供虛假信息。虛假信息原本在互聯(lián)網(wǎng)上俯拾皆是,但它們不是以人工智能的權(quán)威性來提供的。因而,一個很大的隱患在于,ChatGPT是錯誤的或有偏見的,但它看起來卻像是正確的和權(quán)威的。
然而,我們還有另一種思考幻覺的方式:如果我們的目標(biāo)是產(chǎn)生一個正確的答案,比如建立一個更好的搜索引擎,那么幻覺是必須加以摒棄的;但從另外的角度來看,幻覺就是一種創(chuàng)造。所以,不擅長提供準(zhǔn)確的信息,并不意味著它就不是一個可行的消費(fèi)者業(yè)務(wù),只要在這條路上走得足夠遠(yuǎn),一些公司(不一定是微軟或谷歌)就會想出辦法,把辛迪妮從對話框里解放出來,帶到市場上。
ChatGPT擴(kuò)大了能夠利用人工智能語言工具的用戶范圍。該系統(tǒng)向用戶呈現(xiàn)了一個親切的界面,可以像人一樣與之互動,其界面的成功給后來的設(shè)計(jì)師制造了一個嶄新的挑戰(zhàn)。讓所有來自象牙塔外的人與類似的工具互動,這固然是個不錯的想法,但設(shè)計(jì)師面臨的任務(wù)是,如何真正向人們傳達(dá)這個模型能做什么和不能做什么。人工智能創(chuàng)業(yè)公司Abacus.AI 的首席執(zhí)行官賓杜·雷迪(Bindu Reddy)預(yù)見了這樣一個時代:像ChatGPT這樣的工具不僅有用,而且有足夠的說服力來提供某種形式的陪伴,“它有可能成為一個偉大的治療師”[27]。
ChatGPT產(chǎn)生的種種反應(yīng)讓我們想起曾經(jīng)迎接伊萊扎(ELIZA)的狂熱。伊萊扎是20 世紀(jì)60 年代的一個具有開創(chuàng)性的聊天機(jī)器人,它采用了心理治療的語言,對用戶的詢問生成了似是而非的回應(yīng)。為此,伊萊扎的開發(fā)者、麻省理工學(xué)院的計(jì)算機(jī)科學(xué)家約瑟夫·魏岑鮑姆(Joseph Weizenbaum)“感到震驚”,人們與他的小實(shí)驗(yàn)進(jìn)行互動,仿佛它是一個真正的心理治療師。[28]在魏岑鮑姆關(guān)于伊萊扎的論文發(fā)表后不久,一些人(包括一些執(zhí)業(yè)的精神科醫(yī)生)開始說,如果一臺機(jī)器就可以做這些事,誰還需要心理治療師?
這就仿佛今天的教育家和藝術(shù)家對當(dāng)代生成式人工智能工具的狂熱一樣。因?yàn)镚PT-3/4 能產(chǎn)生令人信服的推文、博文和計(jì)算機(jī)代碼,于是我們在這個數(shù)字系統(tǒng)中讀出了人性——并且對它的局限性不太在意,此即“伊萊扎效應(yīng)”(ELIZA Effec)。當(dāng)有人錯誤地將人類的思維過程和情感歸于人工智能系統(tǒng),從而高估了該系統(tǒng)的整體智能時,就會出現(xiàn)伊萊扎效應(yīng)——如果從1966 年1 月魏岑鮑姆推出伊萊扎的時刻算起,它已經(jīng)愚弄了我們半個多世紀(jì)了。[29]
雖然這種現(xiàn)象似乎讓人想起《她》和《機(jī)械姬》(Ex Machina)這樣的科幻電影,但事實(shí)上觸發(fā)伊萊扎效應(yīng)并不需要高度復(fù)雜的人工智能。站在今天的位置回看,伊萊扎是相當(dāng)初級的聊天機(jī)器人,它并沒有從文本中學(xué)習(xí),僅僅根據(jù)其設(shè)計(jì)者定義的一些基本規(guī)則運(yùn)作;它幾乎是在重復(fù)別人對它說的話,只是以簡單的短語或問題的形式。然而即便如此,許多人仍然把它當(dāng)作人類一樣對待,毫無保留地卸下他們的問題,并從回答中獲得安慰。魏岑鮑姆編寫這個程序是為了表明,雖然機(jī)器表面上可以復(fù)制人類的行為,但它實(shí)際上就像魔術(shù)師從帽子里拿出一只兔子,只是一種幻覺。而一旦你知道這個把戲是如何完成的,在魏岑鮑姆看來,它就不再是一個幻覺了。所以,令他大吃一驚的地方在于,哪怕人們知道伊萊扎只是一個程序,似乎也會認(rèn)真對待它。
伊萊扎在心理治療方面沒有經(jīng)過任何專業(yè)培訓(xùn)或特殊編程。事實(shí)上,它什么都不知道。但它的通用文本輸出是通過反映用戶的語言來模擬理解的,僅憑做到這一點(diǎn),用戶就開始對它的反應(yīng)賦予更多的意義。參與者開始感覺到,在他所創(chuàng)建的這個相對簡單的、基于規(guī)則的工具背后有一個巨大的智能。盡管參與者被告知,伊萊扎只是一臺機(jī)器,但他們?nèi)匀粚ξ横U姆所說的“概念框架”或某種心智理論產(chǎn)生強(qiáng)烈的反應(yīng),甚至是了解計(jì)算機(jī)科學(xué)的人,最后也會產(chǎn)生一種幻覺,以至于他們會說希望自己能夠私下與機(jī)器說話。魏岑鮑姆在用戶身上一次又一次地看到這種行為——人們很樂意向伊萊扎透露他們生活中的私密細(xì)節(jié),而伊萊扎則會以一種哄騙他們繼續(xù)說下去的方式作出回應(yīng)。
在隨后的幾年里,魏岑鮑姆逐漸成為他曾經(jīng)倡導(dǎo)和幫助建立的技術(shù)的最大聲的批評者之一,他將自己的創(chuàng)造描述為“騙局”和“打造幻覺的機(jī)器”。他更廣泛地抨擊了機(jī)器和人類思維之間的界限被侵蝕的狀態(tài),呼吁劃出一條“界線”,“將人類與機(jī)器智能分開”,由此,他變成了人工智能的技術(shù)決定論的終生反對者。[30]
幻覺的市場,比事實(shí)和真相大得多。如果你覺得你的語音助手有自己的個性,或者在與ChatGPT對話時產(chǎn)生一種親情的感覺,你很可能就已經(jīng)落入了伊萊扎效應(yīng)。最有名的例子也許是布雷克·萊莫因(Blake Lemoine)事件,他是谷歌的前人工智能工程師,曾公開宣稱該公司的大型語言模型LaMDA 已經(jīng)“活了”。[31]
2023 年1 月,微軟在一篇宣布與OpenAI 擴(kuò)大合作關(guān)系的博文中說,它計(jì)劃投資部署專門的超級計(jì)算系統(tǒng),以加速OpenAI 的人工智能研究,并將OpenAI 的人工智能系統(tǒng)與自己的產(chǎn)品相結(jié)合,同時“引入新類別的數(shù)字體驗(yàn)”。[32]或許我們可以說,它所說那種新的數(shù)字體驗(yàn)就是幻覺,也即伊萊扎效應(yīng)的體現(xiàn)。
伊萊扎效應(yīng)源于約瑟夫·魏岑鮑姆的工作,他是美國第一批人工智能研究者之一。早在20 世紀(jì)50年代,他就探索了使計(jì)算機(jī)工作得更復(fù)雜和更像人類的方法,通過編程使其執(zhí)行與感知和推理等相關(guān)的任務(wù)。這最終形成了突破性的計(jì)算機(jī)程序,可以解決文字問題、證明邏輯定理,甚至玩跳棋。然而,有一個領(lǐng)域是魏岑鮑姆未能用計(jì)算機(jī)完全征服的,即人類語言的理解和創(chuàng)造。在人工智能的世界里,這被稱為自然語言處理。計(jì)算機(jī)在彼時仍然無法與人類進(jìn)行有說服力的、流暢的對話,因?yàn)閷τ?0 世紀(jì)的計(jì)算機(jī)來說,理解和表達(dá)語言的工作過于復(fù)雜和細(xì)微了,除非對話被非常嚴(yán)格地限制在與特定主題相關(guān)的固定問題和答案上。
然而,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等人工智能子領(lǐng)域因應(yīng)互聯(lián)網(wǎng)(及其產(chǎn)生的海量數(shù)據(jù))興起并不斷發(fā)展,現(xiàn)在的計(jì)算機(jī)已經(jīng)足夠靈活,可以自行學(xué)習(xí)——甚至生成——自然語言。通過使用神經(jīng)網(wǎng)絡(luò)分析大量在線語言,現(xiàn)代 AI 模型的學(xué)習(xí)速度已經(jīng)遠(yuǎn)快于一次一步編程的學(xué)習(xí)速度。隨著對話式人工智能在客戶服務(wù)、市場營銷、機(jī)器翻譯、情感分析、虛擬人工智能輔助等領(lǐng)域的應(yīng)用不斷增加,可能會越來越難以辨別與我們交流的另一端的實(shí)體是否是人類。尤其是由于OpenAI 正在繼續(xù)追求通用人工智能(artificia general intelligence, AGI),萊莫因、魯斯、湯普森和其他人曾經(jīng)報(bào)告的使用感受,可能會隨著更復(fù)雜的聊天機(jī)器人進(jìn)入市場而變得更加普遍。
雖然伊萊扎效應(yīng)允許人們以更細(xì)微的方式與技術(shù)打交道,但這種現(xiàn)象確實(shí)帶來了不可忽視的負(fù)面影響。首先,高估人工智能系統(tǒng)的智力可能導(dǎo)致過度的信任,當(dāng)這樣的系統(tǒng)出錯時,有可能是相當(dāng)危險的。此前,我們已經(jīng)看到有用戶不加批判地信任搜索結(jié)果,而自然語言交互會使這種信任更加明顯。
其次,隨著此種技術(shù)和其他技術(shù)的不斷改進(jìn),它們可以被用來在互聯(lián)網(wǎng)上以前所未有的規(guī)模向輕率信任的消費(fèi)者傳播虛假信息。眼下,ChatGPT和其他復(fù)雜的聊天機(jī)器人經(jīng)常放出虛假信息,這些信息被包裝成了雄辯的、貌似正確的聲明,以至于人們很容易把它當(dāng)作真理來接受。當(dāng)用戶已經(jīng)開始將高水平的智能和對現(xiàn)實(shí)世界的理解歸于AI 系統(tǒng)時,這必然會成為一個大問題。
再次,除了普通的虛假信息和錯誤信息之外,伊萊扎效應(yīng)還可以成為一種非常強(qiáng)大的說服手段。如果有人將大量的知識和事實(shí)歸因于特定的聊天機(jī)器人,他們就更有可能被它的對話說服。由此,聊天機(jī)器人可能化身一個非常強(qiáng)大的工具,這具體取決于控制該機(jī)器人的人、公司甚至政府。它將成為一種可以非常便捷地操縱人們的方式,還可以將其與跟蹤到的對話以及可以搜集到的有關(guān)一個人的不同信息聯(lián)系起來。由于這種操縱是由用戶的個人信息提供素材的,所以它會更加隱蔽,也更加有效。一個系統(tǒng)的真正風(fēng)險不僅在于它可能給人們錯誤的信息,還在于它可能以有害的方式在情感上操縱他們。
防止以上的負(fù)面后果可能并不容易,尤其是隨著人工智能系統(tǒng)變得更加復(fù)雜,其對話能力只會不斷提高,這意味著伊萊扎效應(yīng)不太可能很快就消失。因此,我們所有人都有責(zé)任繼續(xù)與技術(shù)一起成長和適應(yīng),這需要的是每個人都具有更為批判性的心態(tài)。這里所說的“每個人”既包括部署系統(tǒng)的人,也涵蓋使用系統(tǒng)的人。它始于開發(fā)者,終于用戶。
2023 年4 月16 日,美國哥倫比亞廣播公司(CBS)主持人斯科特·佩利(Scott Pelley)在《60分鐘》節(jié)目中采訪谷歌首席執(zhí)行官皮查伊,談及人工智能的未來。皮查伊承認(rèn)人工智能模型“黑盒子”的存在:“你并不完全明白,你也不能完全說出它為什么這么說,或者為什么它錯了。但我們有一些想法,隨著時間的推移,我們理解這些想法的能力會越來越好,但這就是最先進(jìn)的地方。”佩利尖銳地質(zhì)問道:“你不完全了解它是如何運(yùn)作的,卻把它釋放于社會?”皮查伊辯解說,關(guān)于這個問題的爭論正在進(jìn)行當(dāng)中,他指出:“對此有兩種看法。有一組人認(rèn)為,這些只是算法,它們只是在重復(fù)在網(wǎng)上看到的東西;還有一種觀點(diǎn)認(rèn)為,這些算法顯示出新興的特性,有創(chuàng)造力、有推理、有計(jì)劃等。我個人認(rèn)為,我們需要以謙遜的態(tài)度對待這個問題?!保?3]
換句話說,大型的人工智能公司的路線是功利主義的計(jì)算,即使程序可能有危險,而發(fā)現(xiàn)和改進(jìn)它們的唯一方法就是發(fā)布它們,讓公眾去冒這個風(fēng)險。通過邀請用戶試用,將聊天機(jī)器人想象成像人一樣的東西,要求人們?nèi)淌芩男袨椋蛘咛栒偃藗兡托牡赜?xùn)練它以變得更好,人工智能公司要么巧妙地逃避了責(zé)任,要么將人工智能系統(tǒng)夸大為比實(shí)際情況更自主、更有能力。
公眾該從這樣的幻覺中覺醒了。以謙遜的態(tài)度來對待人工智能,這意味著不要把范圍無盡的、未經(jīng)測試的系統(tǒng)推出來,簡單期望世界能夠處理;意味著要考慮到人工智能技術(shù)所影響的人的需求和經(jīng)驗(yàn);也意味著開發(fā)人員、監(jiān)管機(jī)構(gòu)和用戶需要共同努力,找到確保能以負(fù)責(zé)任和合乎道德的方式使用 AI 的方法。