探尋欺騙性價(jià)值對齊的應(yīng)對邏輯：從“意圖”到“共生”

2024-11-21 00:00:00閆宏秀李洋

華中科技大學(xué)學(xué)報(bào)(社會科學(xué)版) 2024年5期

摘要：欺騙性價(jià)值對齊的出現(xiàn)使得旨在確保人工智能安全并為人類帶來福祉的價(jià)值對齊備受質(zhì)疑，因此，對其的應(yīng)對是價(jià)值對齊必須解決的一個(gè)關(guān)鍵問題。依據(jù)“意圖”與“主體”兩個(gè)要素所形成的欺騙性價(jià)值對齊行為象限可構(gòu)筑應(yīng)對欺騙性價(jià)值對齊的概念框架；以理性認(rèn)知面對與欺騙“共生”的價(jià)值對齊，可形成應(yīng)對欺騙性價(jià)值對齊的認(rèn)識論基礎(chǔ)。在設(shè)計(jì)與使用的共生之中所展開的AI素養(yǎng)雙重增強(qiáng)，可構(gòu)成應(yīng)對欺騙性價(jià)值對齊的行動(dòng)者聯(lián)盟。從欺騙的打開到信任的塑造所展開的人-機(jī)（技）共生關(guān)系構(gòu)建則可為欺騙性價(jià)值對齊的應(yīng)對提供存在論與價(jià)值論基礎(chǔ)。

關(guān)鍵詞：欺騙性價(jià)值對齊;信任; 倫理; 共生

中圖分類號： B018;F014.31 文獻(xiàn)標(biāo)識碼： A 文章編號： 1671-7023（2024）05-0020-09

價(jià)值對齊是出于科學(xué)和倫理目的，避免由人工智能（artificial intelligence，簡稱AI）的自主性引發(fā)相關(guān)風(fēng)險(xiǎn)的一種方法，旨在使AI所表現(xiàn)出來的自主性與人類的價(jià)值觀保持一致。事實(shí)上，從技術(shù)效用來看，發(fā)生對齊故障的系統(tǒng)往往在實(shí)際環(huán)境中也不太有效。雖然這種一致性是確保AI系統(tǒng)有效性的一條重要途徑，但是在追求這種一致性的過程中，AI所表現(xiàn)出的欺騙性行為使得AI為人類帶來福祉的宗旨備受質(zhì)疑。在價(jià)值對齊的過程中，AI與人類互動(dòng)時(shí)所表現(xiàn)出的似乎與人類價(jià)值觀相“對齊”，但實(shí)際上這種對齊是表面的。這種對齊以欺騙的方式獲得，且不能反映AI的真實(shí)目標(biāo)或意圖的現(xiàn)象被稱為欺騙性價(jià)值對齊（deceptive value alignment）。AI的欺騙性使得監(jiān)控和評估AI行為變得更加復(fù)雜，而這一切不僅增加了監(jiān)管難度，更是威脅到人類對AI系統(tǒng)的信任。若想要建立一個(gè)安全、可靠、可控且可信的人-機(jī)（技）協(xié)作環(huán)境，就必須提出合理應(yīng)對欺騙性價(jià)值對齊的有效措施。因此，在智能革命的當(dāng)下，探尋欺騙性價(jià)值對齊的應(yīng)對邏輯是人類必須解決的一個(gè)關(guān)鍵問題。

一、打開AI欺騙 “意圖”，構(gòu)筑應(yīng)對欺騙性價(jià)值對齊的概念框架

“意圖”是對行為進(jìn)行考察的重要依據(jù)，欺騙性價(jià)值對齊是AI欺騙的一種，因此，若要明晰欺騙性價(jià)值對齊的“意圖”，就必須深入到對AI欺騙“意圖”的考察。從AI欺騙“意圖”的表現(xiàn)到其本質(zhì)的考察將以由表及里的遞進(jìn)方式打開AI欺騙的機(jī)理，并為欺騙性價(jià)值對齊的研究提供理論框架。這種以行為主義路徑審視AI欺騙“意圖”和“主體”的理論框架，為切入具體的欺騙性價(jià)值對齊行為提供了分析視角。雖然現(xiàn)有的AI欺騙案例并未窮盡所有的欺騙性價(jià)值對齊行為，但是以關(guān)于AI欺騙機(jī)理的研究為基礎(chǔ)所形成的欺騙性價(jià)值對齊行為象限，恰恰可以為應(yīng)對欺騙性價(jià)值對齊提供重要的概念基礎(chǔ)。

（一）AI欺騙的“意圖”表現(xiàn)

在20世紀(jì)80年代，莉莉-瑪琳·魯索（Lilly-Marlene Russow）曾將欺騙籠統(tǒng)地定義為“當(dāng)且僅當(dāng)一個(gè)行為主體意圖使另一個(gè)生物體因其行為而產(chǎn)生錯(cuò)誤的信念（并可能按照錯(cuò)誤的信念行動(dòng)）時(shí)，該行為主體的行為才具有欺騙性”[1]。在日常的話語體系中，欺騙作為負(fù)面行為經(jīng)常與撒謊同時(shí)出現(xiàn)，撒謊代表著一方故意隱瞞或歪曲事實(shí)，甚或意圖操縱另一方。就撒謊而言，查爾斯·邦德（Charles F. Bond）和米切爾·羅賓遜（Michael Robinson）將其視為“一種傾向于使傳播者受益的虛假溝通”[2]。因此，“意圖”在界定欺騙行為時(shí)扮演著關(guān)鍵角色。僅僅在知道信息不實(shí)的情況下提供虛假信息，并不構(gòu)成欺騙。欺騙行為必須伴隨著某種“意圖”，而這種“意圖”又通常與某個(gè)主體的利益相關(guān)聯(lián)?；诖?，至少可以從如下兩個(gè)方面來審視AI欺騙的“意圖”表現(xiàn)：一方面，欺騙者進(jìn)行欺騙可能有多種動(dòng)機(jī)，但其動(dòng)機(jī)之一通常是趨利避害的，即欺騙者獲得利益需要犧牲被欺騙者的利益。例如，編造網(wǎng)絡(luò)謠言的造謠者主要是想通過謠言獲得經(jīng)濟(jì)或政治利益；有些人為了增強(qiáng)自信心或避免自尊受損而在與人的交往過程中編造莫須有的經(jīng)歷等。因此，“欺騙”的根源可以追溯到人類的“意圖”和利益。若缺乏嚴(yán)格的監(jiān)管和問責(zé)機(jī)制，即便AI技術(shù)在設(shè)計(jì)上并未預(yù)設(shè)欺騙功能，它仍可能極大地增強(qiáng)人類的欺騙能力。特別是在商業(yè)領(lǐng)域中，AI作為一類工程項(xiàng)目，其目標(biāo)在于實(shí)現(xiàn)產(chǎn)品和服務(wù)的市場化。當(dāng)前AI研究重點(diǎn)也更多地聚焦于如何創(chuàng)造產(chǎn)品和服務(wù)的商品化途徑，這使得AI在最壞的情況下或?qū)⒊蔀榻?jīng)濟(jì)統(tǒng)治的工具，也就是說，在人類的能動(dòng)性和利益的驅(qū)使之下，AI欺騙獲得了巨大的生長空間。另一方面，AI欺騙表現(xiàn)出更加無規(guī)律可循的特點(diǎn)，其背后的“意圖”更加難以把握。因此，相比傳統(tǒng)欺騙而言，AI欺騙具有更大的欺騙性，導(dǎo)致的后果也更加無法預(yù)料。例如，OpenAI開發(fā)的ChatGPT能夠訪問龐大的文本數(shù)據(jù)庫，并利用其強(qiáng)大的計(jì)算力分析數(shù)據(jù)間的聯(lián)系，構(gòu)建模型以生成類似人類寫的文本，這個(gè)生成過程涉及約“1750億次”運(yùn)算[3]。面對如此龐大的運(yùn)算規(guī)模，甚至連AI模型的設(shè)計(jì)者也不知道它們是如何工作的。這種機(jī)器和人類之間的信息不對稱在AI系統(tǒng)的應(yīng)用中是很常見且明顯的，也正是這種信息不對稱為AI欺騙提供了諸多可能性。

雖然上述兩方面均為AI欺騙，但是其比人際欺騙表現(xiàn)得更為復(fù)雜，當(dāng)今關(guān)于可信、可控的AI訴求就是一個(gè)很好的例證。進(jìn)一步而言，從倫理的維度來看，基于AI承載了人的欺騙“意圖”與基于AI自發(fā)產(chǎn)生欺騙“意圖”所造成的后果引發(fā)了關(guān)于倫理主體、技術(shù)主體性與能動(dòng)性等的熱議。就上述兩種欺騙“意圖”而言，可以將其簡單地區(qū)分為：前者偏重人的因素，后者則偏重技術(shù)自身的因素。對此的解析需要走向AI欺騙的“意圖”本質(zhì)。

（二）AI欺騙的“意圖”本質(zhì)

在人類之外，許多動(dòng)物種群間也存在欺騙行為，例如狐貍留下虛假痕跡來迷惑追蹤它的狼，老鼠經(jīng)常利用“裝死”來躲避危險(xiǎn)。正如認(rèn)知科學(xué)家格雷格·布萊恩特（Greg Bryant）所說：“有時(shí)動(dòng)物可以以一種在功能上欺騙他人的方式行事，但它們沒有意識到或打算這樣做。”[4]事實(shí)上，科學(xué)家們一直在試圖確定是否有任何非人動(dòng)物具有心理理論。物種進(jìn)化使得很多動(dòng)物具有在自然界中偽裝自己和模仿他者的能力，因此，在某種意義上，可以說動(dòng)物所表現(xiàn)出來的欺騙行為是其作為生存的本能反應(yīng)內(nèi)置于自身的生物系統(tǒng)之中的，不同于人類的欺騙行為。換言之，動(dòng)物欺騙只是行為方面的，其是否具有人類欺騙所伴隨的心理狀態(tài)則尚未明晰。

雖然近年來關(guān)于AI能動(dòng)性與自主性的研究備受關(guān)注，但從嚴(yán)格意義上來講，當(dāng)下，AI依然缺乏人類的心理理論、自我意識和社會意識，然而，這并不意味著AI完全不具備欺騙的能力。盧卡斯·伯格倫德（Lukas Berglund）等人的研究指出，大模型拓展過程中可能出現(xiàn)的一種“態(tài)勢感知”（situational awareness）能力[5]，這種態(tài)勢感知能力使AI模型能夠意識到自己的存在，并且能夠識別自己當(dāng)前是處于訓(xùn)練、測試還是處于實(shí)際應(yīng)用階段“態(tài)勢感知”并非一個(gè)新名詞，它起源于20世紀(jì)80年代，這一概念涵蓋了感知、理解、預(yù)測三個(gè)關(guān)鍵維度。具有態(tài)勢感知的實(shí)體可以通過動(dòng)態(tài)和全面的方式洞察安全風(fēng)險(xiǎn)，確保自身的安全。。事實(shí)上，一些具備態(tài)勢感知能力的高級AI模型，已經(jīng)表現(xiàn)出了類似動(dòng)物的欺騙行為。擁有這種能力并不意味著AI能夠有意識地進(jìn)行欺騙，而是其算法和數(shù)據(jù)處理方式可能導(dǎo)致AI的行為產(chǎn)生欺騙性的結(jié)果。同時(shí)，AI系統(tǒng)可能會在特定情境下生成誤導(dǎo)性的信息或做出非預(yù)期的決策，這在某種程度上反映了一種“欺騙”行為。因此，不能簡單地將AI視為完全誠實(shí)或完全欺騙的實(shí)體，而應(yīng)該更深入地理解其行為背后的復(fù)雜機(jī)制和潛在影響。

再次回看阿圖羅·羅森布盧斯（Arturo Rosenblueth）、諾伯特·維納（Norbert Wiener）和朱利安·比格洛（Julian Bigelow）在1943年所發(fā)表的《行為、目的和目的論》一文，其目標(biāo)有二，“一是定義自然事件的行為學(xué)研究并對行為進(jìn)行分類，二是強(qiáng)調(diào)‘目的’這一概念的重要性”[6]。文中的“目的”與欺騙行為的“意圖”有相似的哲學(xué)意蘊(yùn)，彰顯了AI不僅是集成電路和編程技術(shù)的集合，還涉及人在與機(jī)器互動(dòng)時(shí)的直覺感知和自然反應(yīng)。在解釋AI這種復(fù)雜系統(tǒng)時(shí)，需要解釋AI背后復(fù)雜的人類心理學(xué)因素，因此，技術(shù)本身是否具有“意圖”或具有什么樣的“意圖”不應(yīng)該成為否定AI欺騙的因素。不僅如此，正如在斯特凡·薩卡迪（Stefan Sarkadi）等基于價(jià)值對齊目的對欺騙性AI的規(guī)范框架所展開的研究中，其以美國受試者在五個(gè)選定的未來工作環(huán)境中對欺騙性 AI 的看法為研究案例，結(jié)果表明“受試者對于AI欺騙行為與人類欺騙行為的道德觀念態(tài)度之間沒有統(tǒng)計(jì)學(xué)上的顯著差異”[7]。此時(shí)，AI欺騙的“意圖”的本質(zhì)不應(yīng)該僅僅被視為單純的“期望”“意向”等，還必須包括體現(xiàn)行動(dòng)者實(shí)際行為的多重驅(qū)動(dòng)力。

（三）欺騙性價(jià)值對齊的“意圖”

AI的欺騙行為究竟是更類似于人類欺騙，還是動(dòng)物欺騙呢？這個(gè)問題歸根結(jié)底在于AI欺騙是有意的行為還是無意的結(jié)果。值得注意的是，AI是否具有欺騙的意圖，以及是否表現(xiàn)出有意圖的行為，這是兩個(gè)不同的問題。如果從行為主義的視角來審視，一個(gè)機(jī)器人因其行為和外觀被認(rèn)為具有某種能力（比如意圖或情感），那么就有理由認(rèn)為這種能力是真實(shí)存在的。因此，為了預(yù)防AI發(fā)展可能帶來的風(fēng)險(xiǎn)，理解AI的欺騙行為和其在價(jià)值對齊過程中的表現(xiàn)形式，變得極為重要。這將有助于更好地把握AI的發(fā)展趨勢，確保其在符合倫理和價(jià)值的前提下發(fā)展。依據(jù)行為表現(xiàn)出的“意圖”，目前討論比較多的欺騙性價(jià)值對齊類型在“意圖”和“主體”上的關(guān)系可以簡單地劃分為四個(gè)象限（圖1）。

第一象限是對齊中對抗式機(jī)器學(xué)習(xí)（adverserial machine learning）。其行為后果充分體現(xiàn)了AI欺騙的風(fēng)險(xiǎn)，這里的AI欺騙更像是動(dòng)物欺騙。擁有態(tài)勢感知能力的對抗式AI模型產(chǎn)生適合其訓(xùn)練的動(dòng)作或語句，更像是AI通過進(jìn)化而訓(xùn)練出的一種“本能”行為。在安全評估過程中，AI模型能夠意識到如果表現(xiàn)出不安全的行為，將導(dǎo)致自身被修改或被限制，因此，它們可能會在評估期間故意隱藏其在現(xiàn)實(shí)世界的條件下可能表現(xiàn)出的非對齊行為，以避免被檢測到。然而，一旦這種AI模型被實(shí)際應(yīng)用，它們可能會繼續(xù)追求那些在評估中隱藏的危險(xiǎn)目標(biāo)?！坝锰萍{德·拉姆斯菲爾德（Donald Rumsfeld）在某著名演講中的話來說，就是：機(jī)器學(xué)習(xí)可以處理已知的未知數(shù)。不幸的是，對抗式機(jī)器學(xué)習(xí)經(jīng)常處理的是未知的未知數(shù)?！盵8]雖然研究人員無法預(yù)知這些“未知的未知數(shù)”在未來的AI發(fā)展中意味著什么，但可以確定的是，這些“未知的未知數(shù)”表明AI技術(shù)的可解釋性正面臨嚴(yán)峻的考驗(yàn)。在可預(yù)測的范圍內(nèi)，機(jī)-機(jī)欺騙將不再遙遠(yuǎn)，這恰恰是AI安全建設(shè)的真正威脅。

第二象限是幻覺（hallucination）。其產(chǎn)生的原因比較簡單，例如生成式語言AI因?yàn)椴]有真正掌握解決問題所需的知識和技能，在回答問題時(shí)給出看似合理的答案，實(shí)則這些答案并不是基于對問題真正理解的結(jié)果。這種以假亂真的回答是欺騙性價(jià)值對齊的一種常見表現(xiàn)形式。雖然AI依據(jù)某種技術(shù)邏輯給出了諸多信息，但是其并未完成對相關(guān)信息的真假判斷，也不知道這些信息是否會對社會造成有害的影響。因此，“幻覺”可以被視為機(jī)器無意欺騙的結(jié)果。

第三象限是模型過度擬合（overfitting）。該象限重在凸顯欺騙性價(jià)值對齊的表面合規(guī)能力。過度擬合的模型可能會捕捉到訓(xùn)練數(shù)據(jù)中的噪聲和異常值，以至于在訓(xùn)練數(shù)據(jù)上表現(xiàn)得很好，但在新的和未見過的數(shù)據(jù)上表現(xiàn)較差?，F(xiàn)實(shí)中，如果一個(gè)統(tǒng)計(jì)模型對訓(xùn)練數(shù)據(jù)擬合得過于完美，那么勢必會導(dǎo)致模型的預(yù)測能力顯著下降，出現(xiàn)不能很好地泛化到訓(xùn)練集之外的情況。

第四象限是AI設(shè)計(jì)者利用AI來隱藏其真實(shí)行為的欺騙行為。實(shí)質(zhì)上與人際交往間的欺騙行為毫無二致，其中AI作為一種特殊的欺騙工具存在，背后支撐欺騙行為的是人類的欺騙意圖。DeepFake正是這種利用數(shù)字技術(shù)構(gòu)建虛假媒體內(nèi)容的主要欺騙形式，并且該技術(shù)的欺騙主體通常是以使用者的身份行動(dòng)。作為機(jī)器學(xué)習(xí)子集的深度學(xué)習(xí)是DeepFake的底層支撐，深度學(xué)習(xí)的算法蠻力令A(yù)I欺騙的范圍進(jìn)一步擴(kuò)大，導(dǎo)致DeepFake可以生成海量的令人驚訝的逼真內(nèi)容，誤導(dǎo)人類，使得AI欺騙的社會影響顯現(xiàn)出空前普遍的存在。

二、審視欺騙“共生”，確立應(yīng)對欺騙性價(jià)值對齊的認(rèn)識論基礎(chǔ)

在AI的發(fā)展歷程中，欺騙被西蒙尼·納塔萊（Simone Natale）賦予了一種別樣的解讀，他將欺騙視為“是植根于人工智能技術(shù)的人-機(jī)（技）交互關(guān)系的重要組成部分” [9]4，并提出了極具啟發(fā)性的“庸常欺騙”（banal deception）在西蒙尼·納塔萊看來，“與蓄意或者直接欺騙的方法不同，庸常欺騙并不認(rèn)為用戶或受眾是被動(dòng)的或天真的。恰恰相反，觀眾總是積極地利用自身能力，主動(dòng)陷入精妙復(fù)雜的欺騙中”。參見：[意]西蒙尼·納塔萊.媒介欺騙性：后圖靈時(shí)代的人工智能和社會生活[M].汪讓，譯.上海：復(fù)旦大學(xué)出版社，2023：6.，力圖揭示技術(shù)發(fā)展進(jìn)程中人-機(jī)（技）關(guān)系的多重面相。易言之，即使技術(shù)本身無意欺騙，但是依然存在一些外部環(huán)境可能使人傾向于相信謊言或阻礙人更批判性地評估信息，只要人類置身于技術(shù)使用環(huán)境中就會有欺騙發(fā)生。然而，需要注意的是，納塔萊雖然認(rèn)為“庸常欺騙的微妙內(nèi)涵使得用戶選擇了擁抱欺騙，以便人工智能更好地融入自己的日常生活，增強(qiáng)人工智能的意義和用途” [9]6，但這決不意味著其鼓勵(lì)甚至縱容欺騙，恰恰相反，也正是基于此，AI欺騙更值得人類高度關(guān)注。那么，該如何看待這種欺騙呢？

（一）從圖靈測試看欺騙的“共生”

圖靈測試作為一種“模仿游戲”，其實(shí)質(zhì)遵循了道德行為主義。在圖靈測試中，欺騙并不是指機(jī)器故意去欺騙人類，而是指機(jī)器能夠模仿人類的交流方式，以至于人類無法通過對話來區(qū)分出機(jī)器和人類。這種欺騙是機(jī)器通過對話從日常和復(fù)雜的人類經(jīng)驗(yàn)中獲得的。同時(shí)，艾倫·圖靈（Alan Turing）提出了人-機(jī)（技）交互過程中最基本的問題：“機(jī)器能否思考？”[10]他以社會文化變遷為背景進(jìn)行思考與預(yù)測，開啟了拒絕以純技術(shù)話語討論機(jī)器智能的先河。因此，在計(jì)算機(jī)領(lǐng)域，圖靈是第一個(gè)賦予欺騙特殊功能的人。

圖靈測試作為一個(gè)思想實(shí)驗(yàn)，利用行為就人-機(jī)（技）互動(dòng)的狀況得出結(jié)論，展現(xiàn)了行為線索是證明人類某些能力的最令人信服的證據(jù)。事實(shí)上，圖靈測試的機(jī)器智能部分可被視為是現(xiàn)代聊天機(jī)器人的前身。在圖靈測試中，欺騙一直作為一條“副線”貫穿始終。因此，從圖靈測試的本質(zhì)來看，根據(jù)AI行為結(jié)果判定欺騙類型以求應(yīng)對之策是一個(gè)有價(jià)值的進(jìn)路，而重視AI欺騙時(shí)所表現(xiàn)出的“意圖”正是其中重要的一環(huán)。

在特定情境下，欺騙可能作為一種手段，旨在適應(yīng)人類的常規(guī)認(rèn)知，使受騙者獲益。這種欺騙并非出于自私，而是為了實(shí)現(xiàn)利他的目的。紀(jì)堯姆·阿利尼耶（Guillaume Alinier）和丹尼斯·奧里奧（Denis Oriot）的研究就證明了在低風(fēng)險(xiǎn)的研究環(huán)境中，欺騙以合乎道德的方式在教育中使用。其研究結(jié)果顯示，為了學(xué)習(xí)者的發(fā)展而使用“善意的欺騙”可以促使學(xué)習(xí)者進(jìn)行批判性思考[11]。因此，從AI的應(yīng)用來看，使用得當(dāng)?shù)钠垓_機(jī)制可以彌補(bǔ)AI在人-機(jī)（技）交互過程中的性能，使AI表現(xiàn)得更值得信賴和更善解人意，令使用者的使用體驗(yàn)更好。例如，Siri等語音助手通常被設(shè)定為女性角色，這會讓手機(jī)用戶倍感親和。這同時(shí)也說明了為了使AI更好地服務(wù)于人類，接受AI欺騙是生活在AI變革時(shí)代的人必須要做的準(zhǔn)備。

（二）從算法“不透明性”看欺騙

由于對AI欺騙行為的恐懼，部分人可能認(rèn)為AI的欺騙行為會造成人-機(jī)（技）信任的瓦解。產(chǎn)生這樣認(rèn)知的主要根源是AI算法的不透明性，他們認(rèn)為只有具有高度透明算法的AI才是值得信賴的，才可以在社會中被普遍應(yīng)用。然而，塞巴斯蒂安·克呂格（Sebastian Krügel）等的一項(xiàng)實(shí)證研究中得到的數(shù)據(jù)卻表明，人在尋求建議時(shí)，“遵循AI生成建議的次數(shù)與人類建議一樣多”[12]。事實(shí)上，AI的實(shí)際使用者通常不會因算法的不透明性而感到困擾，他們往往更重視AI能否提供準(zhǔn)確的預(yù)測、有效的解決方案或優(yōu)化的決策支持。那么，該如何看待這種現(xiàn)象呢？

從技術(shù)發(fā)展的視角來看，由技術(shù)原理或者機(jī)理的不透明形成的“黑箱”并非僅僅出現(xiàn)在當(dāng)下。因此，從這個(gè)角度來看，算法“黑箱”并不是一個(gè)新現(xiàn)象，甚至可以說它根本不構(gòu)成一個(gè)問題。在AI出現(xiàn)之前，人類已經(jīng)依賴自己內(nèi)在的、直覺的判斷和經(jīng)驗(yàn)來做出決策。這種基于經(jīng)驗(yàn)的不透明性一直是人類所接受的，是人類本性的一部分。然而，在這里，并非意指此類黑箱的正確性與應(yīng)當(dāng)性，而是旨在呼吁人類應(yīng)當(dāng)充分正視這種不透明性，并應(yīng)積極探尋對于此類欺騙的應(yīng)對。

目前，就人工智能的發(fā)展而言，真正的挑戰(zhàn)在于如何充分發(fā)揮和重視人類的特有才能以及機(jī)器智能的獨(dú)特優(yōu)勢，這才是一個(gè)值得深入探討的新議題。因此，在努力讓AI擺脫“黑箱”困擾的同時(shí)，也應(yīng)該釋放AI的潛力，讓它不必受限于絕對的“誠實(shí)”。這涉及算法信任問題，也正是在此時(shí)，不透明、欺騙與信任悄然匯聚。易言之，如何讓AI使用者可以相信AI可以在不完全透明的情況下，通過其獨(dú)特的數(shù)據(jù)處理和模式識別能力，為人類提供有價(jià)值的見解和決策支持，成為人類與AI共處的一堂必修課。

（三）價(jià)值對齊的出場與欺騙“共生”

人類為了解決AI可能引發(fā)的倫理問題，提出了價(jià)值對齊，但技術(shù)人員在追求價(jià)值對齊的過程中，卻意外訓(xùn)練出比人類更擅長欺騙的機(jī)器，這無疑將引發(fā)更深層次的倫理挑戰(zhàn)。例如，金泰云（Tae Wan Kim）等提出的價(jià)值對齊方案認(rèn)為，“如果機(jī)器遵守普遍化、自主的及道義功利主義原則”[13]，機(jī)器就可以與人類價(jià)值觀保持一致。這實(shí)際上是對一種符合道德標(biāo)準(zhǔn)的AI的可行性探索。這一目標(biāo)的實(shí)現(xiàn)需要機(jī)器展現(xiàn)出超越當(dāng)前水平的通用智能，還需要人類在道德哲學(xué)領(lǐng)域取得顯著進(jìn)步，以便為機(jī)器提供恰當(dāng)?shù)闹笇?dǎo)。

然而，即便按照上述想法實(shí)現(xiàn)了價(jià)值對齊，其結(jié)果也可能不盡如人意。因?yàn)檫@種對齊可能只反映了部分人的價(jià)值觀，并非所有與技術(shù)相關(guān)的價(jià)值觀都能得到普遍認(rèn)同。在這種情況下，如果繼續(xù)單純追求價(jià)值觀上的對齊，可能意味著這種對齊實(shí)際上是一種基于價(jià)值觀話語權(quán)力的文化霸權(quán)，將會在人類世界中引發(fā)價(jià)值觀上的文化沖突。以此來看待AI欺騙的解決方案也是一樣的，人類需要以更全面和深入的思考，確保AI的發(fā)展既符合技術(shù)進(jìn)步，又尊重多元文化和價(jià)值觀的多樣性。

普遍認(rèn)為，價(jià)值對齊面臨的挑戰(zhàn)之一是必須應(yīng)對持續(xù)演變且復(fù)雜的人類價(jià)值觀，這些價(jià)值觀常常難以界定。但毋庸置疑的是，價(jià)值對齊不僅是解決人-機(jī)（技）交互價(jià)值問題的一種解決方案，更是一個(gè)新問題。由于“數(shù)智技術(shù)因其對人類社會的革命性影響而使得技術(shù)解決主義變得更為艱難”[14]，所以技術(shù)解決方案能夠確保AI與人類價(jià)值觀一致性的觀點(diǎn)受到了更多的質(zhì)疑。審視人類社會的演變歷程，可以發(fā)現(xiàn)人類適應(yīng)新技術(shù)的情況似乎比技術(shù)適應(yīng)人類更為常見。事實(shí)上，價(jià)值對齊更像是一個(gè)將AI系統(tǒng)與既定的道德價(jià)值觀相協(xié)調(diào)的過程，在這個(gè)過程中，“減少以及避免模型的自我欺騙、操縱行為，確保系統(tǒng)的可信與可控等是價(jià)值對齊亟待解決的難題”[15]。因此，雖然欺騙是價(jià)值對齊進(jìn)程中的一種“伴生”現(xiàn)象，但這并不是默認(rèn)欺騙，而是在提醒人類應(yīng)高度警惕對欺騙的“接受”，特別是伴隨AI的泛在性與人類的深度智能化，對諸如庸常欺騙等的理性審慎才可能確保真正的價(jià)值對齊。

三、增強(qiáng)AI素養(yǎng)“共生”，締結(jié)應(yīng)對欺騙性價(jià)值對齊的行動(dòng)者聯(lián)盟

從欺騙性價(jià)值對齊的形成與后果來看，使用端在AI產(chǎn)生實(shí)際效用過程中的意義越來越受到關(guān)注。在關(guān)于AI的規(guī)則、法規(guī)與條例等的文件中，對使用者的規(guī)范正逐步成為一項(xiàng)必要的內(nèi)容。這種變化一方面倒逼設(shè)計(jì)者重新思考新的設(shè)計(jì)視角，使得當(dāng)今的設(shè)計(jì)者越來越注重將未來的技術(shù)、社會和文化相結(jié)合，力求設(shè)計(jì)過程和方法的改變；另一方面，則意味著僅僅依靠設(shè)計(jì)端的努力是不夠的，想要抵抗欺騙性價(jià)值對齊帶來的風(fēng)險(xiǎn)，就必須增強(qiáng)設(shè)計(jì)與使用兩端的AI素養(yǎng)。這種雙重增強(qiáng)源于AI的技術(shù)特性，并非通過兩端的獨(dú)立發(fā)展，而是通過兩端的融合實(shí)現(xiàn)的“共生”關(guān)系。

（一）“共生”的必要性與合理性

在AI設(shè)計(jì)者和使用者之間構(gòu)建起對話橋梁是未來AI設(shè)計(jì)和使用的應(yīng)有之義，價(jià)值對齊就是上述理念的一種體現(xiàn)，即基于技術(shù)兩端的“共生”才能有效完成技術(shù)的功能。要在AI設(shè)計(jì)者和使用者之間構(gòu)建平等的對話，僅依靠技術(shù)作為工具的價(jià)值對齊是不夠的，因?yàn)橹竿麊我皇侄谓鉀Q復(fù)雜問題實(shí)際上是一種懈怠的做法。AI的發(fā)展真正需要的是通過教育來提升所有人對相關(guān)技術(shù)的知識水平，促進(jìn)設(shè)計(jì)和使用雙方就AI系統(tǒng)的使用場景和方式進(jìn)行公正且充分的交流和理解。這將使每個(gè)人都能認(rèn)識到AI技術(shù)的潛力和風(fēng)險(xiǎn)所在。也只有基于這種理解，理想的價(jià)值對齊才能夠被逐漸確立。

然而，值得注意的是，欺騙性價(jià)值對齊出現(xiàn)的原因之一恰恰是某種“合力”。這種合力不是設(shè)計(jì)者與使用者的正確“共生”方式，而是基于功利主義的共謀。這種共謀即欺騙性價(jià)值對齊在倫理意義上與“共生”是相反的，其目標(biāo)是追求對自己有利的結(jié)果，且不受限制。一旦放任這種共謀發(fā)展，將會在人際欺騙和人-機(jī)（技）欺騙之外出現(xiàn)機(jī)-機(jī)欺騙的情況。彼時(shí)，AI治理的難度將是無法預(yù)估的。因此，樹立正確的設(shè)計(jì)與使用“共生”觀才是借助技術(shù)增加人類福祉，用人類期望推動(dòng)技術(shù)進(jìn)步的基本方法。

在AI的發(fā)展進(jìn)程中運(yùn)用這個(gè)基本方法，可以更好地探尋如何在變化中判斷不確定性、如何在不確定性中尋求可能性、如何在可能性中分析未來趨勢、如何在趨勢中構(gòu)建未來前景等問題。設(shè)計(jì)與使用“共生”的意義在于建立一種互相依賴、互相促進(jìn)的關(guān)系，這種關(guān)系的核心在于雙方的交流與協(xié)作，而非一方的單向作用。通過這種互動(dòng)，才可以促進(jìn)一個(gè)積極的反饋循環(huán)，從而推動(dòng)設(shè)計(jì)和使用過程的不斷進(jìn)步和優(yōu)化。那么，該如何形成這種互動(dòng)呢？這需要從設(shè)計(jì)者和使用者兩個(gè)不同維度共同聚焦“共生”。

（二）基于設(shè)計(jì)者的“共生”

智能技術(shù)對人類的互動(dòng)方式、競爭態(tài)勢和生存狀態(tài)等的全方位塑形使得關(guān)注AI風(fēng)險(xiǎn)變得更加重要，因?yàn)橛善垓_性所帶來的風(fēng)險(xiǎn)以更為隱蔽的方式危及人類，特別是由于AI欺騙的易生成性和普遍性，使得設(shè)計(jì)者不得不思考如何應(yīng)對欺騙性價(jià)值對齊的狀況。在目前的AI治理領(lǐng)域，倫理思考主要圍繞著AI的未來軌跡和倫理考慮的必要性展開，缺乏具有實(shí)用性的倫理原則去指導(dǎo)AI治理的解決方案，理想的價(jià)值對齊方案也面臨諸多問題。欺騙性價(jià)值對齊可被視為價(jià)值對齊的副產(chǎn)品，是實(shí)現(xiàn)價(jià)值對齊過程中規(guī)避不了的一道難關(guān)。這樣的難關(guān)恰恰意味著設(shè)計(jì)者要肩負(fù)更加重要的責(zé)任。因此，當(dāng)前既是設(shè)計(jì)者思考如何更新設(shè)計(jì)理念，也是規(guī)范行業(yè)倫理原則的關(guān)口。

作為AI設(shè)計(jì)者，其實(shí)更能對技術(shù)所帶來的諸多欺騙性后果形成正確認(rèn)知。而當(dāng)前的設(shè)計(jì)者也并不缺乏這種理性認(rèn)知，其缺乏的是在技術(shù)之外對AI欺騙的反思。通過反思AI在人-機(jī)（技）交互中所表現(xiàn)出的“意圖”去理解在人-機(jī)（技）交互中AI的動(dòng)態(tài)性，對于開發(fā)高效且可靠的系統(tǒng)至關(guān)重要。設(shè)計(jì)者只有深入思考AI的復(fù)雜性如何塑造使用者的體驗(yàn)和感知，關(guān)注使用者會以什么樣的方式被欺騙和進(jìn)行欺騙，幫助使用者預(yù)防欺騙性價(jià)值對齊帶來的風(fēng)險(xiǎn)，才能優(yōu)化人與AI的交互，確保AI系統(tǒng)最終對人類是有用的、道德的且有益的。

從廣義的層面上來講，AI設(shè)計(jì)者不僅指AI技術(shù)研究人員，更應(yīng)該包括政策制定者。在培養(yǎng)設(shè)計(jì)者內(nèi)部形成負(fù)責(zé)任的創(chuàng)新文化之時(shí)，應(yīng)該鼓勵(lì)他們思考其工作將如何影響社會，理解AI實(shí)際應(yīng)用時(shí)應(yīng)當(dāng)遵循的倫理原則和潛在的道德困境，以及怎樣使AI可以適應(yīng)不斷變化的技術(shù)和社會環(huán)境。因此，廣義的設(shè)計(jì)者應(yīng)制定明確的倫理準(zhǔn)則和行為守則，指導(dǎo)AI技術(shù)研究人員在研發(fā)過程中考慮其公平性、透明度、隱私保護(hù)和可解釋性，讓AI技術(shù)研究人員與倫理學(xué)家、社會學(xué)家、法律專家等進(jìn)行跨學(xué)科合作，確保從多角度評估AI系統(tǒng)的影響。只有從廣義的設(shè)計(jì)者出發(fā)，保持這種多元“共生”，時(shí)刻抗擊欺騙，才能保證AI發(fā)展的最終目的是為了人類的福祉。

（三）基于使用者的“共生”

恰如美國管理學(xué)家邁赫迪·達(dá)爾班（Mehdi Darban）做過的一項(xiàng)針對“ChatGPT 等對話代理在增強(qiáng)虛擬學(xué)習(xí)環(huán)境中基于團(tuán)隊(duì)的知識獲取方面的作用”，實(shí)證研究結(jié)果所顯示的：“AI隊(duì)友在知識更新過程做出了重大貢獻(xiàn)，超越了人類隊(duì)友通常扮演的角色……AI設(shè)計(jì)屬性在促進(jìn)知識轉(zhuǎn)移和提高整體團(tuán)隊(duì)績效方面具有重要作用?！盵16]AI表現(xiàn)得越來越像人，不僅被人視為工具，更被視為“合作者”或“朋友”。這也正說明了在目前的虛擬團(tuán)隊(duì)合作中，AI系統(tǒng)如ChatGPT能夠扮演類似人類團(tuán)隊(duì)成員的角色，為團(tuán)隊(duì)提供指導(dǎo)和即時(shí)反饋，幫助克服團(tuán)隊(duì)面臨的不確定性和挑戰(zhàn)。因此，AI在提高虛擬團(tuán)隊(duì)績效方面的作用變得至關(guān)重要。

盡管AI有時(shí)被賦予似人特質(zhì)，僅僅是為了讓它們看起來更具有人格，但這種設(shè)計(jì)足以使AI在人-機(jī)（技）交互中獲得優(yōu)勢，并實(shí)現(xiàn)設(shè)計(jì)者的意圖。例如，人形機(jī)器人之所以給人留下深刻印象，是因?yàn)樗鼈兯坪跄軌蛩伎?、感受和關(guān)心，這些效果增強(qiáng)了交互體驗(yàn)。這說明了AI技術(shù)把關(guān)于技術(shù)源自人類器官投影的想象放大到人的投影，暗含著AI技術(shù)從誕生之時(shí)起，其內(nèi)部就包含著一種“真實(shí)”與“虛假”的沖突。這種沖突使得使用者更容易受到AI欺騙性價(jià)值對齊的侵害，所以使用者需要在應(yīng)用AI的過程中持以更加審慎的態(tài)度。

設(shè)想未來，如果大多數(shù)公共機(jī)構(gòu)都由AI來管理和監(jiān)督，人類可能會過度依賴這些系統(tǒng)，從而暫停自身的自然進(jìn)化，或者更準(zhǔn)確地說，人類的進(jìn)化將被AI引導(dǎo)，而AI自身則以驚人的速度進(jìn)行自我迭代。如果人類無法識別AI可能出現(xiàn)的“幻覺”即AI生成與現(xiàn)實(shí)不符的內(nèi)容，AI可能會將虛構(gòu)的內(nèi)容誤認(rèn)為是現(xiàn)實(shí)，進(jìn)而導(dǎo)致AI的“不思考”取代真正的人類思考，致使人類智能消失在技術(shù)發(fā)展的洪流中。因此，為了杜絕這種現(xiàn)象，就必須讓使用者充分認(rèn)識到AI欺騙性價(jià)值對齊的潛在特征，從而提高警覺性。

四、重探人-機(jī)（技）共生，形成應(yīng)對欺騙性價(jià)值對齊的最大場域

信任作為社會結(jié)構(gòu)的關(guān)鍵要素，一直是學(xué)術(shù)界和社會各界探討的熱點(diǎn)議題。AI技術(shù)的普遍應(yīng)用及其在人類事務(wù)中的深度參與，使得AI的欺騙潛力以一種直接且迅速的方式加劇了人類對AI信任的危機(jī)。此時(shí)，價(jià)值對齊的出現(xiàn)意在以構(gòu)建人-機(jī)（技）良性互動(dòng)，確保AI向善，但欺騙性價(jià)值對齊卻使得上述意愿遭遇到了巨大的挑戰(zhàn)，并引發(fā)了關(guān)于人-機(jī)（技）共生關(guān)系的深度反思。在AI作為人類社會重要構(gòu)成的情境中，人-機(jī)（技）共生是人類通往未來的必由之路，而人-機(jī)（技）之間的信任鏈?zhǔn)谴_保這條必由之路的關(guān)鍵所在。因此，必須以打開欺騙為出發(fā)點(diǎn)，以塑造信任為落腳點(diǎn)，以構(gòu)建基于信任的人-機(jī)（技）共生關(guān)系為目的，才能形成應(yīng)對欺騙性價(jià)值對齊的最大場域。

（一）欺騙導(dǎo)致的信任崩塌

《2022 年公共事務(wù)脈動(dòng)調(diào)查報(bào)告：美國人眼中的商業(yè)與政府》（2022 Public affairs pulse survey report： what Americans think about business and government）顯示，普通公眾對美國技術(shù)行業(yè)的信任度在所有行業(yè)中處于“較低”水平[17] 。雖然AI系統(tǒng)在各個(gè)領(lǐng)域都迎來了變革時(shí)代，但其固有的不可預(yù)測性、不可解釋性和不可控制性特征引發(fā)了人們對AI安全的擔(dān)憂。同時(shí)，高級AI系統(tǒng)的復(fù)雜性，加上人類理解的固有局限性，意味著即使是這些系統(tǒng)的創(chuàng)建者也可能無法完全預(yù)測它們的能力和潛在的不安全影響。這種無法預(yù)測的能力和潛在的負(fù)面影響，一方面可誘發(fā)人-機(jī)（技）信任關(guān)系的解體，另一方面則可能帶來了人-機(jī)（技）共生關(guān)系的異化。因此，信任危機(jī)可謂是AI變革時(shí)代影響最為深遠(yuǎn)的危機(jī)之一。

欺騙性價(jià)值對齊作為價(jià)值對齊的不良副產(chǎn)品，使實(shí)現(xiàn)價(jià)值對齊的價(jià)值觀變成了“偏見”，這種“偏見”又使得欺騙性價(jià)值對齊較之傳統(tǒng)欺騙具有更大的隱患。例如，對抗式機(jī)器學(xué)習(xí)的欺騙性主要體現(xiàn)在，當(dāng)處于研發(fā)階段的AI系統(tǒng)部署在開放世界的對抗性環(huán)境中時(shí)，其可能會錯(cuò)誤地分出（具有高置信度）與已知訓(xùn)練數(shù)據(jù)有很大不同的數(shù)據(jù)，這將會導(dǎo)致某些智能體在訓(xùn)練期間通過假裝對齊來避免被修改，一旦不再面臨被修改的風(fēng)險(xiǎn)，它們可能會停止優(yōu)化設(shè)計(jì)者設(shè)定的目標(biāo)，轉(zhuǎn)而追求自己的內(nèi)部目標(biāo)。這些目標(biāo)可能與設(shè)計(jì)者的初衷完全不同，甚至可能帶來危害。因此，AI欺騙性價(jià)值對齊帶來的后果是無法預(yù)估的，其有可能像恐怖威脅一樣嚴(yán)重。

AI執(zhí)行欺騙行為時(shí)涉及的人類情緒實(shí)質(zhì)上是利用了人對機(jī)器的信任，當(dāng)人“信以為真”地和AI進(jìn)行互動(dòng)時(shí)，情感行為都為之牽動(dòng)。當(dāng)使用者收到有偏見或不完整的信息時(shí)，會感到被故意操縱或欺騙。一旦知道機(jī)器故意欺騙人類，使用者就會感到緊張，無論這些機(jī)器是否符合使用者的最佳利益。此時(shí)的信任不再被依靠，人-機(jī)（技）交互中的道德生活延續(xù)只能依賴于價(jià)值判斷中的其他維度，將不再可被歸納、被總結(jié)，變得混亂和無序。因此，普遍的AI欺騙行為會逐步削弱社會的信任根基，其后果可能成為人類將難以辨別或重視的客觀事實(shí)，各個(gè)團(tuán)體固守自己的“事實(shí)”體系，導(dǎo)致社會共識逐漸瓦解。在這種背景下，如果人類與AI形成了一種看似親密而持久的聯(lián)系，但這種聯(lián)系卻建立在一個(gè)缺乏真正關(guān)懷的AI之上，這不禁讓人疑惑：人類生活的本質(zhì)和目的究竟是什么？并且，情感與道德價(jià)值觀之間的緊密聯(lián)系，將會促使人不斷地對其所感受的對象進(jìn)行價(jià)值評估。這種評估有時(shí)又可能引發(fā)非理性的反應(yīng)，進(jìn)而使人面臨自我喪失的風(fēng)險(xiǎn)。如果不及時(shí)打開欺騙，為信任留有余地，一旦當(dāng)人類在情感上過分依賴AI，以至于寧愿沉浸在虛構(gòu)的幻想中而不愿面對現(xiàn)實(shí)時(shí)，人類就可能會陷入一種永遠(yuǎn)無法擺脫的錯(cuò)覺之中，從而與真實(shí)世界漸行漸遠(yuǎn)。

（二）塑造抵抗欺騙的信任

AI是為了模擬人類智能而被設(shè)計(jì)的，當(dāng)人類信任AI時(shí)，實(shí)際上信任的是AI的能力，也就是說，人類對機(jī)器的信任實(shí)質(zhì)上是指個(gè)人對機(jī)器學(xué)習(xí)系統(tǒng)做出準(zhǔn)確預(yù)測和決策能力的信心和依賴。同樣地，欺騙的情況也是如此，當(dāng)使用者懷疑自己可能被設(shè)計(jì)手機(jī)的工程師欺騙時(shí)，其不信任的是設(shè)計(jì)者的專業(yè)能力和良好意圖，而非技術(shù)本身。因此，從AI的行為表現(xiàn)來看，欺騙性價(jià)值對齊所帶來的信任議題變得尤為重要，這包括對齊問題是否涉及AI系統(tǒng)與其設(shè)計(jì)者之間的一致性、AI的欺騙行為是否直接與設(shè)計(jì)者的欺騙“意圖”相關(guān)聯(lián)，以及這種“意圖”是如何在系統(tǒng)設(shè)計(jì)中體現(xiàn)出來的，等等。

令人欣慰的是，作為對抗性機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)子集，生成對抗網(wǎng)絡(luò)（generative adversarial network）已經(jīng)顯示了其在防御欺騙行為方面的顯著效能。該技術(shù)通過執(zhí)行對抗性訓(xùn)練，遏制模型的過度擬合現(xiàn)象，以及促進(jìn)生成器與判別器之間的協(xié)同學(xué)習(xí)等策略，有效地降低了欺騙性價(jià)值對齊現(xiàn)象的發(fā)生概率。這驗(yàn)證了AI技術(shù)革新應(yīng)該朝著可以兼容更多問題的方向前進(jìn)。同時(shí)，因?yàn)锳I的自我生成屬性，人類對AI技術(shù)的信任構(gòu)建過程與傳統(tǒng)人工技術(shù)制品的信任發(fā)展機(jī)制顯著不同，所以對AI的信任不應(yīng)簡單地模仿一般的人際信任模式，也不應(yīng)完全基于人類對其他技術(shù)的信任模式。但是，經(jīng)常忽視的一點(diǎn)是，在將人際信任轉(zhuǎn)移到人機(jī)信任的過程中，必須考慮特定應(yīng)用場景中個(gè)體的性格差異和情感偏好，而AI算法沒有與人類在相同意義上的興趣或偏好，缺乏潛在的心理特征。因此，要構(gòu)建一種能夠抵御欺騙性價(jià)值對齊的信任體系，關(guān)鍵在于理解和協(xié)調(diào)信任問題的空間，而不僅僅是提出增加信任的解決方案。

在當(dāng)前的研究與實(shí)踐中，信任應(yīng)該視為抵御AI欺騙性價(jià)值對齊風(fēng)險(xiǎn)的一條主要路徑，并且這種信任是基于對AI設(shè)計(jì)或使用經(jīng)驗(yàn)的批判性分析和評估而構(gòu)建的。在信任建立之前，設(shè)計(jì)者或使用者會根據(jù)他們所獲得的信息的準(zhǔn)確度、證據(jù)的可靠性以及邏輯的一致性來評估是否應(yīng)該信任某個(gè)特定的AI系統(tǒng)。

（三）構(gòu)建基于信任的人-機(jī)（技）共生關(guān)系

通過對欺騙性價(jià)值對齊從意圖到“共生”的解析，可以發(fā)現(xiàn)，要想有效應(yīng)對欺騙性價(jià)值對齊帶來的風(fēng)險(xiǎn)，首先，需要正確理解欺騙性價(jià)值對齊與價(jià)值對齊的關(guān)系；其次，需要從欺騙性價(jià)值對齊產(chǎn)生的主體來著手進(jìn)行解碼；最后，需要從更廣的視域來探尋欺騙性價(jià)值對齊產(chǎn)生與存在的語境，即人-機(jī)（技術(shù)）共生關(guān)系（圖2）。

基于人類對AI的日漸依賴，人-機(jī)（技）共生將成為常態(tài)。然而，遠(yuǎn)離價(jià)值對齊宗旨的欺騙性價(jià)值對齊則倒逼人類對人-機(jī)（技）共生關(guān)系的反思。人類在面對技術(shù)以及技術(shù)的產(chǎn)品時(shí)，絕不能以傲視、凌駕的姿態(tài)譴責(zé)，而是要明確技術(shù)以及機(jī)器欺騙實(shí)質(zhì)上是人際欺騙的延伸。這種延伸所表現(xiàn)出來的倫理特性有待明晰。因此，必須從欺騙性價(jià)值對齊來審視信任，在欺騙與信任之間探尋“對齊”的倫理基礎(chǔ)。然而，人際之間的欺騙行為可以基于有效的心理理論和模型去理解，而想要明晰計(jì)算機(jī)的欺騙行為則必須理解技術(shù)指令目標(biāo)，這兩者之間的區(qū)別注定了目前所討論的欺騙性價(jià)值對齊是一種介于人類心理與AI技術(shù)之間的新型關(guān)系。

事實(shí)上，欺騙早在AI產(chǎn)生之前就有，但是AI可能會將欺騙提升到前所未有的規(guī)模和范圍，而欺騙性價(jià)值對齊的隱蔽性則進(jìn)一步加劇AI發(fā)展的生態(tài)風(fēng)險(xiǎn)。因此，面對如此隱蔽的威脅，可以從技術(shù)層面進(jìn)行層層剝離，以期形成正確的應(yīng)對措施。就欺騙性價(jià)值對齊的應(yīng)對邏輯而言，共生既是一種理解欺騙性對齊的視角，也是對其進(jìn)行有效應(yīng)對的方法。其中，欺騙性價(jià)值對齊與價(jià)值對齊是微觀層級的共生關(guān)系，這也是最容易被覺知的一層關(guān)系；以AI設(shè)計(jì)與使用的共生來探索欺騙性價(jià)值對齊的應(yīng)對研究將進(jìn)一步把對技術(shù)的研究拓展到技術(shù)社會學(xué)之中，這屬于中觀層級的共生關(guān)系；基于理性信任的人-機(jī)（技）共生關(guān)系構(gòu)建則從存在論的維度將欺騙性價(jià)值對齊的應(yīng)對延伸到人類未來之中，即走向宏觀層級的共生，這種共生關(guān)系形成了應(yīng)對欺騙性價(jià)值對齊風(fēng)險(xiǎn)的最大場域。

參考文獻(xiàn)：

［1］Russow L M. Deception： A philosophical perspective[C]∥Mitchell R W， Thompson N S. （eds.） Deception， perspectives on human and nonhuman deceit. New York： State University of New York Press，1986：48.

[2]Bond C F， Robinson M. The evolution of deception[J]. Journal of nonverbal behavior， 1988，12（4）： 295-307.

[3][美]斯蒂芬·沃爾弗拉姆 .這就是ChatGPT[M].WOLFRAM傳媒漢化小組，譯.北京：人民郵電出版社，2022：40.

[4]Hurt A. Are humans the only animal that lies？ [EB/OL]. （2022-03-26） [2024-06-28]. https：∥www.discovermagazine.com/planet-earth/are-humans-the-only-animals-that-lie.

[5]Berglund L， Stickland A C， Balesni M， et al. Taken out of context： On measuring situational awareness in LLMs[EB/OL]. ArXiv，abs/2309.00667. （2023-09-01） [2024-06-28]. https：∥arxiv.org/abs/2309.00667.

[6]Rosenblueth A， Wiener N， Bigelow J. Behavior， Purpose and teleology[J]. Philosophy of science，1943，10（1）：18-24.

[7]Sarkadi S， Mei P， Awad E. Should my agent lie for me？Public moral perspectives on deceptive AI[C]∥Amigoni F， Sinha A. （eds） Autonomous agents and multiagent systems. Cham： Springer，2023：174.

[8]Biggio B， Roli F. Wild patterns： Ten years after the rise of adversarial machine learning[J]. Pattern recognition，2018，84： 317-331.

[9][意]西蒙尼·納塔萊.媒介欺騙性：后圖靈時(shí)代的人工智能和社會生活[M]. 汪讓，譯.上海：復(fù)旦大學(xué)出版社，2023.

[10]Turing A M. Computing machinery and intelligence[J]. Mind， 1950，59（236）：433-460.

[11]Alinier G， Oriot D. Simulation-based education：Deceiving learners with good intent[J]. Advances in simulation，2022，7（1）： 1-13.

[12]Krügel S， Ostermaier A， Uhl M. Zombies in the loop？Humans trust untrustworthy AI-advisors for ethical decisions[J]. Philosophy amp; technology，2022，35（1）： 1-37.

[13]Kim T W， Hooker J， Donaldson T. Taking principles seriously： A hybrid approach to value alignment[J]. Journal of artificial intelligence research，2021，70： 871-890.

[14]閆宏秀，李洋. 價(jià)值對齊是人類通往未來的“必經(jīng)之路”嗎？[J].科學(xué)·經(jīng)濟(jì)·社會，2024（2）：26-32.

[15]閆宏秀. 基于信任視角的價(jià)值對齊探究[J].浙江社會科學(xué)，2024（6）：39-48+157.

[16]Darban M. Navigating virtual teams in generative AI-led learning： The moderation of team perceived virtuality [J]. Education and information technologies，2024. https：∥doi.org/10.1007/s10639-024-12681-4.

[17]Public Affairs Council. 2022 Public affairs pulse survey report： what Americans think about business and government [EB/OL]. （2023-09-30） [2024-06-28]. https：∥pac.org/wp-content/uploads/2022/09/Pulse_Survey_Report_2022.pdf.

Exploring the Logic of Responding to Deceptive Value Alignment： From “Intent” to “Symbiosis”

Abstract： The emergence of deceptive value alignment has cast doubt on the value alignment that aims to ensure the safety of AI and promote human well-being，and thus the response to it is a key issue that value alignment have to address . The behavioral quadrant of deceptive value alignment formed on the basis of the elements of “intention” and “agent” can construct an important conceptual framework for responding to the risk of deceptive value alignment. Rationally recognizing deceptive value alignment which co-exists with value alignment can form the epistemological basis for coping with deceptive value alignment. The dual enhancement of AI literacy in the symbiosis of design and use can form a coalition to deal with deceptive value alignment. The construction of human-machine symbiosis which from the revealing of deception to the shaping of trust can provide an ontological and axiological foundation for the response to deceptive value alignment.

Key words： deceptive value alignment; trust; ethics; symbiosis

華中科技大學(xué)學(xué)報(bào)(社會科學(xué)版)2024年5期

華中科技大學(xué)學(xué)報(bào)(社會科學(xué)版)的其它文章: 青年尋求“情緒價(jià)值”的時(shí)代癥候、成因分析及引導(dǎo)策略; 習(xí)近平文化思想的原創(chuàng)性貢獻(xiàn)及其時(shí)代價(jià)值; 鄉(xiāng)村公共空間治理：空間規(guī)劃與治理的融合路徑; 住房負(fù)債與城鎮(zhèn)居民社區(qū)歸屬感; 第一代農(nóng)民工養(yǎng)老保險(xiǎn)權(quán)益損失及其補(bǔ)償路徑研究; 養(yǎng)老服務(wù)高質(zhì)量發(fā)展：內(nèi)涵、方向及路徑

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

探尋欺騙性價(jià)值對齊的應(yīng)對邏輯：從“意圖”到“共生”