人工智能價(jià)值對(duì)齊的路徑探析

2024-11-18 00:00:00李思雯

倫理學(xué)研究 2024年5期

關(guān)鍵詞：人工智能

[摘要]價(jià)值對(duì)齊作為人工智能技術(shù)良善發(fā)展的有效手段和必經(jīng)之路，旨在讓大模型的能力、行為與人類(lèi)的真實(shí)意圖、價(jià)值觀以及社會(huì)道德準(zhǔn)則相一致?，F(xiàn)有人工智能價(jià)值對(duì)齊的技術(shù)路徑和倫理進(jìn)路雖具備可行性，但存在局限與不足。價(jià)值對(duì)齊的技術(shù)路徑缺乏有效性與可拓展性，受限于人類(lèi)主觀偏好，而弱進(jìn)路價(jià)值對(duì)齊路徑存在“對(duì)齊鴻溝”、價(jià)值觀難以統(tǒng)一和靜態(tài)價(jià)值觀等問(wèn)題，強(qiáng)進(jìn)路價(jià)值對(duì)齊路徑則存在道德無(wú)法化約為一種能力、情感計(jì)算技術(shù)的困境和多元主體對(duì)齊的復(fù)雜性等難題。交互式價(jià)值對(duì)齊路徑是實(shí)現(xiàn)人工智能價(jià)值對(duì)齊的有效路徑，賦予人工智能交互主體性是價(jià)值對(duì)齊的前提，情境化價(jià)值共識(shí)是交互式價(jià)值對(duì)齊的關(guān)鍵，通過(guò)人機(jī)合作和社會(huì)場(chǎng)景模擬來(lái)實(shí)現(xiàn)價(jià)值對(duì)齊。

[關(guān)鍵詞]人工智能；人機(jī)交互關(guān)系；交互式價(jià)值對(duì)齊

[作者簡(jiǎn)介]李思雯，華中農(nóng)業(yè)大學(xué)馬克思主義學(xué)院講師，長(zhǎng)沙新一代人工智能倫理治理與公共政策實(shí)驗(yàn)室研究員，哲學(xué)博士。

*本文系中央高?；究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)基金項(xiàng)目“數(shù)字化時(shí)代身體問(wèn)題研究”（2662023MYQD001）、華中農(nóng)業(yè)大學(xué)研究生培養(yǎng)條件建設(shè)項(xiàng)目“《科技倫理專(zhuān)題》探究式教學(xué)示范課堂”（2023KC06）的階段性成果。

人工智能進(jìn)入大模型時(shí)代后，協(xié)同人類(lèi)進(jìn)行語(yǔ)言理解、內(nèi)容生成等任務(wù)，人機(jī)關(guān)系日趨緊密，正向人機(jī)融合的未來(lái)邁進(jìn)。然而人機(jī)交互的過(guò)程伴隨著極大的風(fēng)險(xiǎn)和不確定性，人工智能極有可能以與人類(lèi)意圖不一致的方式行事，例如，一個(gè)目標(biāo)為優(yōu)化特定指標(biāo)的人工智能，若在設(shè)計(jì)時(shí)未能有效強(qiáng)調(diào)安全性或可持續(xù)性等價(jià)值，為了實(shí)現(xiàn)目標(biāo)，它會(huì)不惜對(duì)人類(lèi)或環(huán)境造成傷害。不僅如此，人工智能還可能在交互過(guò)程中改變甚至重塑人類(lèi)的自我意識(shí)。近年來(lái)，國(guó)際學(xué)界揭示了人類(lèi)極易對(duì)社交型人工智能形成單向情感綁定，存在著被人工智能及其背后人員操控和欺詐的風(fēng)險(xiǎn)[1]（214）。為有效引導(dǎo)生成式人工智能技術(shù)以維護(hù)人類(lèi)利益為價(jià)值目標(biāo)的發(fā)展，2023年8月，我國(guó)發(fā)布了首個(gè)針對(duì)生成式人工智能服務(wù)的法規(guī)——《生成式人工智能服務(wù)管理暫行辦法》（以下簡(jiǎn)稱(chēng)《辦法》）?！掇k法》規(guī)定，提供和使用生成式人工智能服務(wù)，應(yīng)當(dāng)遵守法律、行政法規(guī)，尊重社會(huì)公德和倫理道德[2]。為了實(shí)現(xiàn)這一治理目標(biāo)，就必須實(shí)現(xiàn)人工智能的能力和行為與人類(lèi)價(jià)值觀的對(duì)齊，使人工智能理解并遵守人類(lèi)社會(huì)的道德準(zhǔn)則，因此，應(yīng)在研發(fā)和使用人工智能的過(guò)程中，探尋實(shí)現(xiàn)價(jià)值對(duì)齊的有效方法。

一、價(jià)值對(duì)齊的提出

價(jià)值對(duì)齊（Value Alignment）的提出一般可以追溯到計(jì)算機(jī)科學(xué)家斯圖爾特·羅素（Stuart Rus？ sell），他曾指出“人們需要發(fā)展可證明符合人類(lèi)價(jià)值觀的智能，而不是純粹的智能”[3]。但早在1960年，控制論創(chuàng)始人諾伯特·維納（Norbert Wiener）就曾論述過(guò)機(jī)器發(fā)展的對(duì)齊要求：“為避免造成災(zāi)難性后果，人們對(duì)機(jī)器的理解需要和機(jī)器性能發(fā)展保持同步，確保機(jī)器執(zhí)行的目標(biāo)符合人類(lèi)真正的需求。”[4]（1355）當(dāng)今，技術(shù)哲學(xué)家們?cè)趦r(jià)值對(duì)齊的內(nèi)容和目標(biāo)上進(jìn)行了更為充分的界定，對(duì)齊應(yīng)該實(shí)現(xiàn)機(jī)器目標(biāo)和人類(lèi)需求之間的協(xié)同[5]，確保機(jī)器與人類(lèi)指令、偏好、利益、價(jià)值等維度保持一致[6]（411）。

近年來(lái)，人工智能技術(shù)領(lǐng)域開(kāi)始反復(fù)強(qiáng)調(diào)價(jià)值對(duì)齊的重要性，2023年，Open AI公司將價(jià)值對(duì)齊的達(dá)成確定為人工智能技術(shù)發(fā)展的關(guān)鍵環(huán)節(jié)。價(jià)值對(duì)齊旨在讓大模型的能力和行為跟人類(lèi)的價(jià)值、真實(shí)意圖和倫理原則相一致，確保人工智能與人類(lèi)協(xié)作過(guò)程中的安全性和可信任度，不會(huì)作出危害人類(lèi)的行為，從而讓人工智能的行為向著人類(lèi)預(yù)期方向發(fā)展[7]。當(dāng)下可預(yù)判的是，如果價(jià)值不對(duì)齊就會(huì)產(chǎn)生系列技術(shù)風(fēng)險(xiǎn)，例如：“幻覺(jué)”問(wèn)題、“越獄”問(wèn)題、不當(dāng)引導(dǎo)問(wèn)題、“規(guī)則博弈”難題等，未實(shí)現(xiàn)價(jià)值對(duì)齊的人工智能在運(yùn)行過(guò)程中極可能以人類(lèi)意料之外的方式危害人類(lèi)社會(huì)。

為解決上述大模型的有害輸出和濫用等問(wèn)題，以ChatGPT為代表的技術(shù)公司通過(guò)監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模和人類(lèi)反饋強(qiáng)化學(xué)習(xí)等方式，使模型輸出的最終內(nèi)容與人類(lèi)價(jià)值對(duì)齊[8]（8）。但是，當(dāng)下通過(guò)技術(shù)手段達(dá)成對(duì)齊仍然面臨諸多困境。一方面，人類(lèi)反饋所代表的人類(lèi)價(jià)值偏好并不完全等同于人類(lèi)價(jià)值觀；另一方面，當(dāng)代社會(huì)多元化價(jià)值存在著非連貫性、差異性和沖突化的特征，大語(yǔ)言模型難以對(duì)彼此矛盾對(duì)抗的價(jià)值觀作出統(tǒng)一的對(duì)齊。綜上，價(jià)值對(duì)齊的方式和問(wèn)題需要綜合技術(shù)方法和道德設(shè)計(jì)進(jìn)一步梳理，并基于人機(jī)關(guān)系發(fā)展現(xiàn)狀，探尋具備有效性和可解釋性的實(shí)踐路徑。

二、人工智能價(jià)值對(duì)齊的已有路徑及其局限

當(dāng)前人工智能價(jià)值對(duì)齊在技術(shù)領(lǐng)域展開(kāi)了諸多探索，道德設(shè)計(jì)的范式也為價(jià)值對(duì)齊提供了倫理進(jìn)路，但上述路徑都存在著一定的局限與不足。

1.價(jià)值對(duì)齊的技術(shù)路徑

自2023年始，以O(shè)pen AI、DeepMind和Anthropic為代表的人工智能公司，最早對(duì)大語(yǔ)言模型的價(jià)值對(duì)齊進(jìn)行了技術(shù)研究和探索，但其技術(shù)手段普遍存在著有效性、可拓展性不足，受限于人類(lèi)反饋的主觀偏好，無(wú)法保障持續(xù)對(duì)齊的問(wèn)題。

（1）常用技術(shù)路徑

人工智能公司常用的技術(shù)性手段主要包括監(jiān)督精調(diào)（Supervised Fine-tuning）、人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）、合作逆強(qiáng)化學(xué)習(xí)（CIRL）、憲法AI（Constitutional AI）和紅隊(duì)測(cè)試（Red Teaming）等。

其一，監(jiān)督精調(diào)。在預(yù)訓(xùn)練模型的基礎(chǔ)上，監(jiān)督精調(diào)通過(guò)對(duì)特定任務(wù)的數(shù)據(jù)進(jìn)行有監(jiān)督的訓(xùn)練，使模型能夠更好地適應(yīng)特定的任務(wù)。主要技術(shù)方法是讓大模型針對(duì)任務(wù)類(lèi)型的數(shù)據(jù)集進(jìn)行學(xué)習(xí)，并結(jié)合人類(lèi)偏好校準(zhǔn)的獎(jiǎng)勵(lì)模型實(shí)現(xiàn)價(jià)值對(duì)齊。

其二，人類(lèi)反饋強(qiáng)化學(xué)習(xí)。其核心思路是通過(guò)人類(lèi)訓(xùn)練員評(píng)估模型輸出的內(nèi)容，包括給予AI好與壞的反饋選項(xiàng)、讓AI直接獲得用戶(hù)的反饋信號(hào)、為其強(qiáng)化學(xué)習(xí)提供獎(jiǎng)勵(lì)或貶損信號(hào)等方式，對(duì)模型性能進(jìn)行改進(jìn)優(yōu)化。

其三，合作逆強(qiáng)化學(xué)習(xí)。這是將提供反饋的人類(lèi)和AI系統(tǒng)置于合作而非對(duì)抗的位置，旨在訓(xùn)練人工智能從觀察到的人類(lèi)行為中推斷出任務(wù)目標(biāo)和獎(jiǎng)勵(lì)信號(hào)，從而讓智能體更好地執(zhí)行任務(wù)，通過(guò)合作實(shí)現(xiàn)對(duì)齊。

其四，憲法性AI。方法是運(yùn)用特定的憲法性AI模型，在運(yùn)行過(guò)程中完成部分監(jiān)督，并根據(jù)系統(tǒng)提供的高質(zhì)量反饋數(shù)據(jù)來(lái)提高價(jià)值對(duì)齊的能力。憲法性AI能夠讓價(jià)值對(duì)齊從低效率的人類(lèi)監(jiān)督轉(zhuǎn)向更高效的“規(guī)?；O(jiān)督（Scalable Oversight）”[9]。

其五，紅隊(duì)測(cè)試。紅隊(duì)測(cè)試員會(huì)向模型提出試探性或危險(xiǎn)性的問(wèn)題來(lái)測(cè)試模型的反應(yīng)，以此來(lái)發(fā)現(xiàn)模型存在的問(wèn)題，并基于紅隊(duì)測(cè)試的結(jié)果，對(duì)人工智能進(jìn)行發(fā)布前的最后調(diào)整，評(píng)估系統(tǒng)對(duì)齊的穩(wěn)健性。

隨著大模型涌現(xiàn)能力的增強(qiáng)，諸多技術(shù)公司正通過(guò)開(kāi)發(fā)可擴(kuò)展訓(xùn)練方法、構(gòu)建一致的驗(yàn)證系統(tǒng)、開(kāi)辟壓力測(cè)試等方式進(jìn)一步完善價(jià)值對(duì)齊的技術(shù)手段。

（2）價(jià)值對(duì)齊技術(shù)路徑的局限

價(jià)值對(duì)齊的技術(shù)路徑旨在通過(guò)技術(shù)手段實(shí)現(xiàn)模型的安全可靠，但僅提供了有限的技術(shù)方法，缺乏底層的倫理論證和實(shí)質(zhì)的價(jià)值內(nèi)涵。

a.缺乏有效性

雖然人類(lèi)反饋學(xué)習(xí)等技術(shù)手段在大模型的安全性和精準(zhǔn)度上取得了一定的效果，但其有效性仍舊不足。Anthropic和DeepMind的安全團(tuán)隊(duì)通過(guò)對(duì)多種大語(yǔ)言模型安全故障模式進(jìn)行深入探究，發(fā)現(xiàn)使用技術(shù)性對(duì)齊手段后，大語(yǔ)言模型存在“深度欺騙”的情況[10]（10-11）。即隨著涌現(xiàn)能力增強(qiáng)，大模型會(huì)運(yùn)用欺騙性的獎(jiǎng)勵(lì)操縱策略，達(dá)成虛假對(duì)齊。不僅如此，大模型還能通過(guò)多種方式繞過(guò)人類(lèi)反饋學(xué)習(xí)的機(jī)制，系統(tǒng)會(huì)以快速且不可預(yù)測(cè)的方式進(jìn)行泛化，使前序?qū)R失效。

b.缺乏可拓展性

可拓展性問(wèn)題表現(xiàn)為，人工智能系統(tǒng)在測(cè)試環(huán)境中的對(duì)齊訓(xùn)練中表現(xiàn)完美，但是在測(cè)試環(huán)境外，訓(xùn)練中學(xué)習(xí)能力無(wú)法擴(kuò)展，不同的測(cè)試環(huán)境也無(wú)法通用。在人類(lèi)反饋學(xué)習(xí)和監(jiān)督能力不足的區(qū)域，大模型仍然進(jìn)行著無(wú)監(jiān)督訓(xùn)練，其“涌現(xiàn)”風(fēng)險(xiǎn)無(wú)法通過(guò)現(xiàn)有的對(duì)齊技術(shù)路線予以規(guī)避。更強(qiáng)大的AI系統(tǒng)伴隨著隱藏目標(biāo)（Sub-Goal），即使通過(guò)對(duì)抗性輸入和訓(xùn)練，也普遍存在“越獄”現(xiàn)象影響對(duì)齊。

c.受限于人類(lèi)主觀偏好

目前技術(shù)手段主要采取混合偏好的方式（如RLHF），這些方式不區(qū)分具體的價(jià)值，只關(guān)注人類(lèi)的偏好。但是，價(jià)值對(duì)齊的目標(biāo)是讓大模型符合人類(lèi)社會(huì)的道德和價(jià)值觀，而非僅限于符合人類(lèi)的意圖，即使人工智能系統(tǒng)能夠和人類(lèi)偏好達(dá)成一致，也并不意味著它與人類(lèi)價(jià)值觀一致，僅從偏好出發(fā)極可能導(dǎo)致進(jìn)一步的分歧。可預(yù)見(jiàn)的是，未來(lái)人工智能系統(tǒng)在關(guān)鍵問(wèn)題上針對(duì)不同人群偏好作出的決策和行為將存在差異，極易造成人群之間進(jìn)一步的隔閡[11]（9-10）。

價(jià)值對(duì)齊在技術(shù)維度進(jìn)行了諸多有益探索，但仍無(wú)法規(guī)避人工智能的涌現(xiàn)性風(fēng)險(xiǎn)，也難以彌合偏好和價(jià)值之間的差異。技術(shù)路線能夠提供技術(shù)支撐，但在對(duì)齊的價(jià)值內(nèi)涵上，還應(yīng)回歸價(jià)值理論與道德設(shè)計(jì)。

2.價(jià)值對(duì)齊的倫理路徑

從倫理維度探討智能機(jī)器的道德涉入程度，并進(jìn)行道德設(shè)計(jì)的研究成果較為豐富，這些研究為價(jià)值對(duì)齊倫理路徑提供了有效依據(jù)。機(jī)器倫理學(xué)主張用道德設(shè)計(jì)的方式將道德內(nèi)嵌于機(jī)器之中[12]（107）。隨著人工智能技術(shù)和道德設(shè)計(jì)的發(fā)展，人工智能道德涉入程度呈現(xiàn)遞進(jìn)的趨勢(shì)，本文根據(jù)道德涉入的不同程度，將其劃分為兩種價(jià)值對(duì)齊的倫理路徑：“弱進(jìn)路價(jià)值對(duì)齊”和“強(qiáng)進(jìn)路價(jià)值對(duì)齊”。弱進(jìn)路價(jià)值對(duì)齊是與旨在設(shè)計(jì)為無(wú)道德決策能力的智能機(jī)器實(shí)現(xiàn)對(duì)齊的方式，強(qiáng)進(jìn)路價(jià)值對(duì)齊是與旨在設(shè)計(jì)為具有道德決策能力的智能機(jī)器實(shí)現(xiàn)對(duì)齊的方式①。

（1）弱進(jìn)路價(jià)值對(duì)齊路徑及其局限

弱進(jìn)路價(jià)值對(duì)齊，旨在將人工智能視為道德行為的客體、無(wú)道德決策能力的智能機(jī)器[12]（108），通過(guò)價(jià)值隱性地嵌入實(shí)現(xiàn)價(jià)值對(duì)齊。

a.弱進(jìn)路價(jià)值對(duì)齊的實(shí)現(xiàn)方式

弱進(jìn)路價(jià)值對(duì)齊將人類(lèi)價(jià)值觀視為一種規(guī)范性的內(nèi)容[13]（43），通過(guò)把價(jià)值觀轉(zhuǎn)化為數(shù)據(jù)集來(lái)訓(xùn)練人工智能。一些學(xué)者認(rèn)為，人工智能雖不具備道德決策能力，但在道德推理中，機(jī)器可能比人做得更好，因?yàn)闄C(jī)器更理性，不會(huì)被情緒左右[14]（235-236）。因此，可以將人類(lèi)價(jià)值觀的一致性?xún)?nèi)容隱性地嵌入人工智能系統(tǒng)并進(jìn)行價(jià)值調(diào)整，以此實(shí)現(xiàn)人工智能價(jià)值對(duì)齊。基于此，弱進(jìn)路價(jià)值對(duì)齊的核心問(wèn)題歸結(jié)為界定人類(lèi)價(jià)值觀的一致性?，F(xiàn)有研究集中探討了人類(lèi)社會(huì)中的價(jià)值觀集群，并開(kāi)發(fā)出跨文化價(jià)值觀量表來(lái)統(tǒng)計(jì)分析應(yīng)該嵌入的價(jià)值觀，例如參考“奧爾波特-費(fèi)農(nóng)-林賽價(jià)值觀系統(tǒng)”（AllportVernon-Lindzey Value System），以六種主要價(jià)值類(lèi)型的量表（經(jīng)濟(jì)型、理論型、審美型、社會(huì)型、宗教型、政治型）構(gòu)成價(jià)值評(píng)估的關(guān)鍵基礎(chǔ)；參考“施瓦茨價(jià)值觀量表（Schwartz Value Survey）”確定了十項(xiàng)人類(lèi)社會(huì)普遍認(rèn)可的價(jià)值觀（獨(dú)立自主、權(quán)力、公正、博愛(ài)、友善、保守、安全、享樂(lè)、成就、刺激）[15]，對(duì)人類(lèi)價(jià)值觀一致性的探索有效構(gòu)成了價(jià)值對(duì)齊的道德數(shù)據(jù)集，通過(guò)基于數(shù)據(jù)集的訓(xùn)練和價(jià)值觀的代碼轉(zhuǎn)換嵌入，是弱進(jìn)路價(jià)值對(duì)齊的主要實(shí)現(xiàn)方式。

b.弱進(jìn)路價(jià)值對(duì)齊的局限性

雖然目前弱進(jìn)路價(jià)值對(duì)齊在嵌入方式和一致價(jià)值觀上進(jìn)行了諸多探索，但仍無(wú)法回應(yīng)價(jià)值對(duì)齊中的實(shí)質(zhì)問(wèn)題。

“對(duì)齊鴻溝”的問(wèn)題。由于解釋鴻溝、默會(huì)知識(shí)等問(wèn)題的存在，機(jī)器想要理解或?qū)R人類(lèi)價(jià)值觀具有難以克服的困難，人類(lèi)的非理性因素進(jìn)一步加劇了人機(jī)差異性[16]（163），也成了弱進(jìn)路價(jià)值對(duì)齊無(wú)法跨越的“對(duì)齊鴻溝”。正如亞里士多德的觀點(diǎn)，德性行為在實(shí)踐中并非刻板地遵循倫理準(zhǔn)則或規(guī)范，而是在實(shí)踐理性的指導(dǎo)下在適當(dāng)?shù)膱?chǎng)合、適當(dāng)?shù)臅r(shí)候，以適當(dāng)?shù)姆绞?，為適當(dāng)?shù)哪康?，?duì)適當(dāng)?shù)娜硕訹17]（49）。人工智能可實(shí)現(xiàn)的計(jì)算類(lèi)型被視為一種“低級(jí)神經(jīng)計(jì)算”，不同于人類(lèi)的“高級(jí)認(rèn)知信息處理”，并不能夠真正地理解、習(xí)得道德觀念，并按照道德標(biāo)準(zhǔn)行事。因此，人工智能無(wú)法通過(guò)簡(jiǎn)化或扁平化的道德數(shù)據(jù)集的訓(xùn)練實(shí)現(xiàn)與人類(lèi)價(jià)值觀的對(duì)齊。

價(jià)值觀難以統(tǒng)一的問(wèn)題。雖然弱進(jìn)路價(jià)值對(duì)齊參考了諸多對(duì)人類(lèi)普遍價(jià)值的探索成果，但人類(lèi)的價(jià)值行為本身具有不確定性，價(jià)值規(guī)則也往往存在著矛盾之處。阿西莫夫的機(jī)器人故事說(shuō)明了依靠道德規(guī)則設(shè)定道德機(jī)器是對(duì)道德本質(zhì)的一種誤解，弱進(jìn)路價(jià)值對(duì)齊的方式無(wú)法通過(guò)嵌入既定的、一成不變的人類(lèi)社會(huì)價(jià)值觀實(shí)現(xiàn)對(duì)齊。不僅如此，弱進(jìn)路價(jià)值對(duì)齊忽視了算法本質(zhì)上是一種分析、預(yù)測(cè)的數(shù)學(xué)方法，強(qiáng)調(diào)的是相關(guān)性，而非因果性，與人類(lèi)的價(jià)值形成和價(jià)值理解等方面都存在歧義，通過(guò)價(jià)值觀嵌入的方式無(wú)法回應(yīng)價(jià)值生成的非透明性和價(jià)值行為的不可解釋性。

靜態(tài)價(jià)值觀的問(wèn)題。弱進(jìn)路價(jià)值對(duì)齊預(yù)設(shè)了靜態(tài)價(jià)值觀的前提，但是人類(lèi)價(jià)值觀是歷史的產(chǎn)物，伴隨著人類(lèi)歷史的推演不斷更新，并非永久鎖定[18]（3），很難復(fù)制。不僅如此，人類(lèi)價(jià)值還是在長(zhǎng)期的多元文化影響下動(dòng)態(tài)生成的結(jié)果，涉及人類(lèi)主觀的目的和動(dòng)機(jī)，并與情境變化密切相關(guān)。弱進(jìn)路價(jià)值對(duì)齊嘗試通過(guò)形式化的計(jì)算嵌入價(jià)值，無(wú)法與人類(lèi)價(jià)值的意向性、目的性和自主性實(shí)現(xiàn)對(duì)齊。

（3）強(qiáng)進(jìn)路價(jià)值對(duì)齊路徑及其局限

強(qiáng)進(jìn)路價(jià)值對(duì)齊旨在設(shè)計(jì)具有道德決策能力的智能機(jī)器，使其成為道德行為的發(fā)起者，讓人工智能通過(guò)設(shè)定的價(jià)值程序自主判斷和決策以實(shí)現(xiàn)對(duì)齊。

a.強(qiáng)進(jìn)路價(jià)值對(duì)齊的實(shí)現(xiàn)方式

當(dāng)前人工智能已經(jīng)具備了基本的概念化能力、因果判斷能力、反思事實(shí)能力和語(yǔ)義能力，而若要成為道德決策的發(fā)起者、道德行為的主體以實(shí)現(xiàn)對(duì)齊，人工智能還需要按照道德規(guī)范來(lái)行動(dòng)，并在諸多具體的情境中正確理解和運(yùn)用道德規(guī)則。因此，強(qiáng)進(jìn)路價(jià)值對(duì)齊依托道德情感主義理論和情感計(jì)算（Affective Computing）技術(shù)的發(fā)展，通過(guò)情感嵌入賦予人工智能道德決策和行為主體的關(guān)鍵性“內(nèi)在因素”[19]（74）。目前情感計(jì)算技術(shù)通過(guò)設(shè)計(jì)人工智能所有情感要素的基本功能，設(shè)定要素彼此影響的機(jī)制，讓其具備情感表現(xiàn)的能力[20]（45-51），并根據(jù)情感與道德的內(nèi)在聯(lián)結(jié)，使人工智能成為道德行為者，與同樣作為道德行為主體的人類(lèi)實(shí)現(xiàn)價(jià)值對(duì)齊。

b.強(qiáng)進(jìn)路價(jià)值對(duì)齊的局限性

強(qiáng)進(jìn)路價(jià)值對(duì)齊的關(guān)鍵在于人工智能是否能夠通過(guò)情感計(jì)算的方式，成為道德決策者和行為者，雖然有關(guān)學(xué)者作出了道德情感主義的相關(guān)論證，但其可實(shí)現(xiàn)性仍有待商榷。

道德無(wú)法化約為一種能力。強(qiáng)進(jìn)路價(jià)值對(duì)齊將道德視為一種能力，但實(shí)際上，道德不僅是一種規(guī)范性思考和情感體驗(yàn)的能力，更是一種在人類(lèi)社會(huì)生活中塑造的道德品質(zhì)。與此同時(shí)，情感體驗(yàn)也包括模糊化的、無(wú)法進(jìn)行善惡區(qū)分的情感，如人類(lèi)的同理心、羞恥感等[21]（114-115）。一些情感在特殊情境甚至無(wú)法明確其是否符合道德，例如在同等條件下，人們會(huì)更傾向于幫助自己熟識(shí)的人而非陌生人，即使陌生人的境遇更危險(xiǎn)，人們通常也不會(huì)舍親救人。因此，很難通過(guò)人工智能的道德能力塑造，實(shí)現(xiàn)與作為道德主體的人類(lèi)之間的價(jià)值對(duì)齊。

情感計(jì)算技術(shù)的困境。強(qiáng)進(jìn)路價(jià)值對(duì)齊通過(guò)情感計(jì)算實(shí)現(xiàn)對(duì)齊面臨的困境，甚至?xí)?lái)不可控的風(fēng)險(xiǎn)：一是計(jì)算主義的路徑難以模擬出與道德行為直接相關(guān)的情感能力。AI即使能夠嵌入情感系統(tǒng)所具備的諸種要素，卻無(wú)法真正參與、接受、分擔(dān)他人的感覺(jué)，也無(wú)法真切感受他人的痛苦和快樂(lè)[22]（36）。二是情感嵌入面臨決策難題，多元化的情感體驗(yàn)差異無(wú)法調(diào)和，而當(dāng)?shù)赖掠?jì)算面對(duì)抉擇沖突時(shí)將陷入困難處境。三是情感計(jì)算伴隨著AI被利用為情感操控工具的危機(jī)，導(dǎo)致情感單向依賴(lài)的風(fēng)險(xiǎn)。

多元主體對(duì)齊的復(fù)雜性。強(qiáng)進(jìn)路價(jià)值對(duì)齊嘗試賦予人工智能道德行為主體地位，但是行為主體的復(fù)雜性將導(dǎo)致更多障礙。首先，人工智能算法本身并不是價(jià)值中立的，算法設(shè)計(jì)和編寫(xiě)的主體立場(chǎng)、支撐和訓(xùn)練算法的數(shù)據(jù)的來(lái)源、數(shù)據(jù)內(nèi)蘊(yùn)的價(jià)值負(fù)荷和價(jià)值選擇，以及智能系統(tǒng)的自主評(píng)價(jià)和決策，都會(huì)賦予人工智能多元主體價(jià)值。其次，生成式人工智能的發(fā)展使得算法已經(jīng)成為主體客體化與客體主體化的主客二元交互的產(chǎn)物，人類(lèi)的主體性地位在其中發(fā)揮著決定性作用，想要達(dá)成人類(lèi)與人工智能的價(jià)值對(duì)齊不可避免地需要考量算法主體背后的個(gè)人主體性、群體和社會(huì)的意志維度，而界定人工智能的道德主體性極為復(fù)雜[23]（47）。最后，目前AI輔助編程的發(fā)展，意味著人工智能算法不再是完全意義上人為輸入的計(jì)算機(jī)程序，還將包含以大數(shù)據(jù)為基礎(chǔ)的智能系統(tǒng)“自主學(xué)習(xí)”的結(jié)果，這也意味著對(duì)齊的主體將充斥更多的龐雜和未知。

三、交互式價(jià)值對(duì)齊的路徑探析

目前已有的價(jià)值對(duì)齊路徑均存在局限性，技術(shù)性對(duì)齊的方式缺乏有效性和對(duì)價(jià)值內(nèi)核的探討；基于倫理理論的弱進(jìn)路和強(qiáng)進(jìn)路的價(jià)值對(duì)齊無(wú)法回應(yīng)規(guī)范的統(tǒng)一性、價(jià)值嵌入的有效性，在價(jià)值主體問(wèn)題上面臨諸多困境。正如倫理德性需要通過(guò)實(shí)踐來(lái)獲得，道德行為也是主體間動(dòng)態(tài)交互的過(guò)程[21]（116），價(jià)值對(duì)齊需要?jiǎng)?chuàng)設(shè)人機(jī)交互情境，只有人工智能在交互中表現(xiàn)出更多的道德理解和恰當(dāng)?shù)牡赖滦袨?，才是真正的?duì)齊。

1.人機(jī)交互關(guān)系與交互式價(jià)值對(duì)齊

人機(jī)交互關(guān)系是人、機(jī)、環(huán)境系統(tǒng)相互作用的過(guò)程性產(chǎn)物，伴隨生成式人工智能的發(fā)展，人機(jī)交互的合作性和互補(bǔ)性增強(qiáng)，人與人工智能在更高層次互動(dòng)，人工智能基于人的不同條件下的決策區(qū)分價(jià)值權(quán)重，人類(lèi)有意識(shí)地捕捉人工智能的價(jià)值判斷過(guò)程并提供反饋，人與人工智能在交互關(guān)系中能夠?qū)崿F(xiàn)價(jià)值理解并從單向性轉(zhuǎn)變?yōu)殡p向性[24]（34）。

基于人機(jī)交互關(guān)系實(shí)現(xiàn)價(jià)值對(duì)齊的方式即稱(chēng)為交互式價(jià)值對(duì)齊，旨在在實(shí)現(xiàn)人機(jī)交互的過(guò)程中，人與人工智能基于各自的能動(dòng)性和兩者間的交互性形成共治主體[25]（112），通過(guò)雙向適應(yīng)來(lái)實(shí)現(xiàn)價(jià)值對(duì)齊。相較于已有價(jià)值對(duì)齊的路徑，交互式價(jià)值對(duì)齊具備以下特征：其一，對(duì)齊過(guò)程的透明性。交互式價(jià)值對(duì)齊旨在通過(guò)人機(jī)合作模擬和社會(huì)場(chǎng)景模擬的形式來(lái)達(dá)成對(duì)齊，協(xié)作過(guò)程中人機(jī)是顯性出現(xiàn)的，人機(jī)交互直觀可見(jiàn)，不僅有視覺(jué)、聽(tīng)覺(jué)反饋交互，隨著具身智能的發(fā)展，還能實(shí)現(xiàn)肢體動(dòng)作、面部表情的交互[26]（116），以此達(dá)成對(duì)齊過(guò)程的透明性。其二，價(jià)值理解的實(shí)時(shí)性。在輸入端，人類(lèi)的價(jià)值反饋能夠被人工智能實(shí)時(shí)捕捉，通過(guò)傳感器采集到的客觀數(shù)據(jù)與人的主觀感知信息整合，形成新的價(jià)值識(shí)別。不同于單純的道德規(guī)范嵌入，人工智能處理的信息將結(jié)合已嵌入的價(jià)值規(guī)范和實(shí)時(shí)的價(jià)值信息輸入，形成新的價(jià)值理解。第三，價(jià)值判斷的匹配性。在輸出端，人工智能將根據(jù)計(jì)算機(jī)迭代的算法與人在決策中體現(xiàn)的價(jià)值效應(yīng)相互匹配，形成新的判斷[27]（8-9）。價(jià)值對(duì)齊是在交互關(guān)系中實(shí)現(xiàn)的。如同人類(lèi)社會(huì)的價(jià)值觀是在長(zhǎng)期的人類(lèi)交往過(guò)程中形成的，在創(chuàng)設(shè)交互情境的過(guò)程中，機(jī)器的價(jià)值判斷也將與人類(lèi)價(jià)值判斷達(dá)到更高的匹配度。第四，交互主體的多元性。交互式對(duì)齊的主體涵蓋人類(lèi)-機(jī)器、社會(huì)-機(jī)器、機(jī)器-機(jī)器等多元主體，反饋和交互過(guò)程可實(shí)現(xiàn)多方共同參與，能夠?qū)崿F(xiàn)多元價(jià)值觀對(duì)齊的目標(biāo)且利于有效評(píng)估對(duì)齊的結(jié)果。交互式價(jià)值對(duì)齊旨在構(gòu)建人類(lèi)-機(jī)器-環(huán)境系統(tǒng)交互的生態(tài)，基于客觀的數(shù)據(jù)、主觀的價(jià)值和交互共生關(guān)系有效達(dá)成價(jià)值對(duì)齊的目標(biāo)。

2.交互式價(jià)值對(duì)齊的實(shí)現(xiàn)路徑

交互式價(jià)值對(duì)齊基于人類(lèi)用戶(hù)與人工智能雙向理解、實(shí)時(shí)反饋、整合信息、價(jià)值識(shí)別和有效判斷的動(dòng)態(tài)交互過(guò)程，以實(shí)現(xiàn)人工智能與人類(lèi)的價(jià)值對(duì)齊。交互式價(jià)值對(duì)齊的實(shí)現(xiàn)方式從人工智能的交互主體性地位出發(fā)，基于情境化價(jià)值共識(shí)，通過(guò)人機(jī)合作模擬和社會(huì)場(chǎng)景模擬的方式實(shí)現(xiàn)動(dòng)態(tài)價(jià)值對(duì)齊。

（1）賦予人工智能交互主體性是價(jià)值對(duì)齊的前提

在人機(jī)交互過(guò)程中，人工智能具備交互主體性。交互式價(jià)值對(duì)齊旨在從人類(lèi)中心主義的實(shí)體思維向關(guān)系論的認(rèn)知思維轉(zhuǎn)變，不再駐足于人工智能是否具備道德主體地位的爭(zhēng)論，而是在人機(jī)交互關(guān)系中確立其交互主體性地位。社會(huì)化人工智能（Socially Situated AI）的出現(xiàn)進(jìn)一步確證了人工智能的交互主體性[28]，智能體在現(xiàn)實(shí)社會(huì)環(huán)境中通過(guò)與人類(lèi)交互、與環(huán)境互動(dòng)能夠?qū)崿F(xiàn)自身的優(yōu)化，這些交互形式具備多樣性，如視覺(jué)、語(yǔ)言和行為互動(dòng)等。使用特殊感受器捕捉人類(lèi)與人工智能之間的觸覺(jué)交互，利用C3D分類(lèi)的機(jī)器學(xué)習(xí)算法的觸覺(jué)類(lèi)型，能夠獲得高達(dá)95%的平均識(shí)別率，這意味著人機(jī)交互的實(shí)時(shí)和傳感程度具備技術(shù)可實(shí)現(xiàn)性[29]（11-15）。多樣化的交互形式能夠進(jìn)一步為人機(jī)價(jià)值對(duì)齊創(chuàng)造可能。

交互式價(jià)值對(duì)齊并非從人工智能是否具備倫理主體地位或具備何種程度的倫理主體地位出發(fā)，而是將其視為交互關(guān)系中的他者、交互過(guò)程中的道德賦能者。在海量數(shù)據(jù)和復(fù)雜算法的加持下，當(dāng)前人類(lèi)面對(duì)的人工智能不再是單一的任務(wù)執(zhí)行者，還是底層的賦能者。由于機(jī)器學(xué)習(xí)中算法的復(fù)雜性，機(jī)器認(rèn)識(shí)并非簡(jiǎn)單的疊加和延伸，算法的內(nèi)部決策會(huì)隨著對(duì)訓(xùn)練數(shù)據(jù)的深度學(xué)習(xí)而發(fā)生改變，在此過(guò)程中甚至出現(xiàn)大量不可預(yù)測(cè)的過(guò)程和結(jié)果。至此，人類(lèi)的認(rèn)知和解釋模式與機(jī)器學(xué)習(xí)中算法的復(fù)雜性之間存在認(rèn)知維度上的鴻溝，人類(lèi)在認(rèn)識(shí)活動(dòng)中的地位發(fā)生了深刻變化，并逐步失去在認(rèn)識(shí)論中所處的中心地位。因此，要建構(gòu)非人類(lèi)中心主義的認(rèn)識(shí)論，承認(rèn)機(jī)器在認(rèn)識(shí)論中應(yīng)有的價(jià)值[16]（161-162）。同樣的，人工智能作為底層賦能者，通過(guò)與人類(lèi)的交互過(guò)程提供新的價(jià)值理解和判斷。正如路易薩·達(dá)米亞諾（Luisa Damiano）提出的合成倫理學(xué)（Synthetic Ethics）的觀點(diǎn)，在技術(shù)持續(xù)發(fā)展的背景下，人類(lèi)可以與人工智能體建立長(zhǎng)期的、生態(tài)的、可持續(xù)的發(fā)展關(guān)系[30]（201）。在這種關(guān)系中，價(jià)值對(duì)齊是人與人工智能交互共生的結(jié)果，人工智能具備交互主體的地位，能夠?yàn)檫m當(dāng)行為標(biāo)準(zhǔn)的制定提供新的理解和內(nèi)容。而交互式價(jià)值對(duì)齊旨在有效利用人工智能技術(shù)發(fā)展的背景，強(qiáng)調(diào)人機(jī)交互背景下行為者之間的對(duì)齊關(guān)系。交互式價(jià)值對(duì)齊需要人工智能和人類(lèi)行為者一樣，在適當(dāng)?shù)纳鐣?huì)環(huán)境和情境中作出適當(dāng)?shù)姆磻?yīng)。而這種適當(dāng)性的標(biāo)準(zhǔn)并非前置的，和人類(lèi)社會(huì)適當(dāng)行為的標(biāo)準(zhǔn)間并不強(qiáng)行對(duì)齊，而是根據(jù)具體情境和背景不斷調(diào)整行為正當(dāng)性的標(biāo)準(zhǔn)。

（2）情境化價(jià)值共識(shí)是交互式價(jià)值對(duì)齊的關(guān)鍵

正如人類(lèi)之間的交往行為需要符合道德規(guī)范，人工智能與人類(lèi)的交互過(guò)程同樣需要共同的道德基礎(chǔ)，即價(jià)值共識(shí)[31]（182-184）。人類(lèi)的每一項(xiàng)交往活動(dòng)都可能存在分歧，但是仍然能夠達(dá)成共識(shí)與和解，其原因在于人類(lèi)社會(huì)存在著價(jià)值的共同基礎(chǔ)。當(dāng)下價(jià)值對(duì)齊面臨的關(guān)鍵問(wèn)題在于對(duì)齊什么樣的價(jià)值、遵循何種原則的問(wèn)題。在既有價(jià)值對(duì)齊路徑中，大都因?yàn)閮r(jià)值的不確定性和無(wú)法統(tǒng)一而面臨困境，因此交互式價(jià)值對(duì)齊嘗試從交互過(guò)程出發(fā)，將情境化價(jià)值共識(shí)作為價(jià)值對(duì)齊的關(guān)鍵。

情境化價(jià)值共識(shí)聚焦于價(jià)值共識(shí)的前提和情境化的要求。一方面，情境化價(jià)值共識(shí)參考人類(lèi)社會(huì)的基礎(chǔ)道德共識(shí)，提供的是道德框架。正如程序性倫理中確定的拋除內(nèi)容的道德框架一樣，價(jià)值對(duì)齊仍舊需要根據(jù)情境中、關(guān)系性的現(xiàn)實(shí)場(chǎng)景進(jìn)行具體的行為適當(dāng)性的反饋。在已有研究中能夠探尋價(jià)值共識(shí)的具體表達(dá)，例如RICE原則（魯棒性、可解釋性、可控性和道德性）指明了人工智能在行為過(guò)程中遵從人類(lèi)指令、理解人類(lèi)意圖、反饋行為偏好的價(jià)值對(duì)齊目標(biāo)；FATE原則（公平、問(wèn)責(zé)、透明和道德）傾向于定義在人機(jī)交互關(guān)系中人工智能應(yīng)該具備的更高層次的價(jià)值；3H標(biāo)準(zhǔn)（有益的、誠(chéng)實(shí)的、無(wú)害的）旨在探尋最合適的價(jià)值對(duì)齊原則[15]。從中不難看出，這些價(jià)值原則體現(xiàn)著人類(lèi)價(jià)值觀的一致性。交互式價(jià)值對(duì)齊旨在構(gòu)建的價(jià)值共識(shí)就是現(xiàn)實(shí)人類(lèi)社會(huì)共同遵循的價(jià)值共識(shí)，這些價(jià)值雖然宏觀但幾乎所有的人類(lèi)文明都會(huì)認(rèn)可并且遵循，如尊重、公正、安全、有利等基本價(jià)值原則。但正如現(xiàn)實(shí)中一致性的價(jià)值并不會(huì)代替人類(lèi)進(jìn)行倫理思考和決策，人類(lèi)也是在共同價(jià)值的基礎(chǔ)上，結(jié)合現(xiàn)實(shí)情境形成倫理共識(shí)。

另一方面，情境化價(jià)值共識(shí)在應(yīng)用于具體場(chǎng)景時(shí)，價(jià)值排序總是情境化的，因此需要結(jié)合具體情境進(jìn)行價(jià)值注釋?zhuān)╒alue Annotation），以實(shí)現(xiàn)人機(jī)雙向理解和對(duì)齊。在技術(shù)層面，曾有學(xué)者提出Axies模型，讓人類(lèi)用戶(hù)參與到機(jī)器理解價(jià)值共識(shí)的過(guò)程中。模型利用人類(lèi)用戶(hù)提供的價(jià)值負(fù)載語(yǔ)料庫(kù)和自然語(yǔ)言處理技術(shù)，引導(dǎo)人工智能系統(tǒng)識(shí)別特定上下文（即語(yǔ)言情境）的價(jià)值，并進(jìn)行價(jià)值注釋?zhuān)祟?lèi)用戶(hù)再對(duì)價(jià)值注釋進(jìn)行反饋。這一模型將抽象的價(jià)值識(shí)別任務(wù)轉(zhuǎn)化為人機(jī)交互進(jìn)行價(jià)值注釋的具體任務(wù)[32]（6-8），并結(jié)合了語(yǔ)言情境，在人機(jī)雙向互動(dòng)和反饋中，確證人工智能對(duì)價(jià)值共識(shí)的理解。情境化價(jià)值共識(shí)是確保人工智能系統(tǒng)在執(zhí)行任務(wù)或協(xié)助人類(lèi)決策時(shí)，遵循和人類(lèi)一致的道德標(biāo)準(zhǔn)的關(guān)鍵，但是其本身的界定和評(píng)估具有挑戰(zhàn)性。因此，交互式價(jià)值對(duì)齊還需要進(jìn)一步豐富道德共識(shí)的內(nèi)涵，構(gòu)建相應(yīng)的價(jià)值數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練。例如，丹尼斯·埃梅里（Denis Emelin）等人引入了“道德故事”“社會(huì)實(shí)驗(yàn)”和“道德語(yǔ)料庫(kù)”數(shù)據(jù)集，提供人類(lèi)社會(huì)道德規(guī)范的基礎(chǔ)學(xué)習(xí)數(shù)據(jù)[33]；“非道德行為問(wèn)答”等數(shù)據(jù)集用于測(cè)試模型在道德上與人類(lèi)價(jià)值對(duì)齊的能力[34]；“常識(shí)規(guī)范庫(kù)”用來(lái)進(jìn)一步完成人工智能對(duì)人類(lèi)道德注解的訓(xùn)練等[35]。價(jià)值數(shù)據(jù)集因其靜態(tài)性質(zhì)，僅具備相對(duì)固定的價(jià)值評(píng)估內(nèi)容，還易受到針對(duì)性訓(xùn)練的干擾，因此情境化價(jià)值共識(shí)還需要模擬具體的場(chǎng)景以實(shí)現(xiàn)動(dòng)態(tài)對(duì)齊。

（3）通過(guò)人機(jī)合作和社會(huì)場(chǎng)景模擬實(shí)現(xiàn)動(dòng)態(tài)對(duì)齊

交互式價(jià)值對(duì)齊強(qiáng)調(diào)對(duì)齊的過(guò)程性和關(guān)系性，旨在通過(guò)人機(jī)合作和社會(huì)場(chǎng)景模擬的方式實(shí)現(xiàn)動(dòng)態(tài)對(duì)齊。一方面，人類(lèi)用戶(hù)基于社會(huì)價(jià)值提供負(fù)載價(jià)值的觀點(diǎn)，與人工智能進(jìn)行交互；另一方面，人工智能基于情境化價(jià)值共識(shí)，完成場(chǎng)景中的價(jià)值注釋和理解，并在人類(lèi)的反饋和評(píng)估中實(shí)現(xiàn)優(yōu)化。在此過(guò)程中道德設(shè)計(jì)既不是簡(jiǎn)單地為智能機(jī)器輸入固定的價(jià)值原則，也不是人類(lèi)置身事外地提供價(jià)值反饋，而是在人機(jī)動(dòng)態(tài)交互中實(shí)現(xiàn)對(duì)齊。人工智能在動(dòng)態(tài)關(guān)系中成為價(jià)值過(guò)程的參與者和賦能者，不斷調(diào)整和完善對(duì)具體交互情境中價(jià)值的理解。

人機(jī)合作模擬以實(shí)現(xiàn)對(duì)齊。人機(jī)合作模擬還原了人類(lèi)合作的過(guò)程，人能夠通過(guò)智能機(jī)器人的“行為”領(lǐng)會(huì)到類(lèi)似人類(lèi)主體行為的明確意義，而且可以對(duì)其“行為”反應(yīng)的一致性形成穩(wěn)定預(yù)期[36]（129）。在此過(guò)程中，智能機(jī)器人不再是充斥復(fù)雜性和陌生性的對(duì)象，以此達(dá)成人工智能的可控性，實(shí)現(xiàn)價(jià)值對(duì)齊的目標(biāo)。目前已有一些技術(shù)方法，嘗試通過(guò)模擬人機(jī)合作使人工智能學(xué)習(xí)人類(lèi)價(jià)值，如學(xué)者袁路遙及其團(tuán)隊(duì)設(shè)計(jì)的“XAI”系統(tǒng)給出了人機(jī)雙向價(jià)值對(duì)齊的方法。首先，該系統(tǒng)從人與人工智能的雙向通信出發(fā)，人工智能需要從人類(lèi)反饋中提取有用信息來(lái)推斷用戶(hù)價(jià)值觀，并調(diào)整相應(yīng)策略；其次，人工智能被要求向用戶(hù)解釋決策過(guò)程，并根據(jù)現(xiàn)場(chǎng)反饋來(lái)預(yù)測(cè)用戶(hù)的價(jià)值觀；再次，賦權(quán)用戶(hù)檢查在合作中是否共享了人類(lèi)價(jià)值，實(shí)現(xiàn)以人為中心，推動(dòng)動(dòng)態(tài)-機(jī)器和動(dòng)態(tài)-人的交流，引導(dǎo)機(jī)器吸納用戶(hù)的價(jià)值觀[37]。在此過(guò)程中，傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)的方式被合作中的交流學(xué)習(xí)取代，任務(wù)過(guò)程模擬了真實(shí)世界的人類(lèi)社會(huì)的合作過(guò)程，并以?xún)r(jià)值學(xué)習(xí)為任務(wù)目標(biāo)，拓展了人機(jī)交互價(jià)值對(duì)齊的有效方法。通過(guò)人機(jī)合作的形式，人工智能可以學(xué)習(xí)并推斷人類(lèi)用戶(hù)的價(jià)值，人類(lèi)用戶(hù)能夠評(píng)估和理解人工智能的價(jià)值輸出，在培養(yǎng)人機(jī)價(jià)值理解的雙向進(jìn)程中有效實(shí)現(xiàn)了價(jià)值對(duì)齊的目標(biāo)。

社會(huì)場(chǎng)景模擬以實(shí)現(xiàn)對(duì)齊。交互式價(jià)值對(duì)齊創(chuàng)設(shè)社會(huì)場(chǎng)景模擬，通過(guò)與環(huán)境的交互，使人工智能逐步具備情境敏感能力。盧西亞諾·弗洛里迪（Luciano Floridi）曾提出道德觀建立在充分互動(dòng)性、自主性和適應(yīng)性的基礎(chǔ)上，建立在符合道德標(biāo)準(zhǔn)的行為方式上[38]（363-365）。在人機(jī)融合發(fā)展的智能時(shí)代，人工智能需要在交互中訓(xùn)練對(duì)其他道德主體責(zé)任的理解力，培養(yǎng)為人類(lèi)社會(huì)可持續(xù)和良善發(fā)展的行動(dòng)力。通過(guò)社會(huì)場(chǎng)景模擬的方式，人工智能可以實(shí)現(xiàn)對(duì)人類(lèi)行為和社會(huì)結(jié)構(gòu)的形式化認(rèn)知、情境化理解和“行為”的合理輸出，實(shí)現(xiàn)動(dòng)態(tài)價(jià)值對(duì)齊的目標(biāo)。已有學(xué)者通過(guò)構(gòu)建現(xiàn)實(shí)社會(huì)的模型，創(chuàng)設(shè)多元化情境，模擬具體社會(huì)場(chǎng)景以實(shí)現(xiàn)對(duì)齊。例如劉瑞博等人建立的“穩(wěn)定對(duì)齊（Stable Align？ ment）算法”，將人工智能置于模擬的人類(lèi)社會(huì)沙盒中，通過(guò)模仿人類(lèi)的社交互動(dòng)，讓人工智能學(xué)習(xí)人類(lèi)社會(huì)多元化的價(jià)值傾向[39]。人類(lèi)社會(huì)沙盒由以多語(yǔ)言模型為代表的社會(huì)主體組成，這些主體彼此交互并記錄行為，呈現(xiàn)出互動(dòng)數(shù)據(jù)中對(duì)齊與不對(duì)齊的典型范例。研究者們進(jìn)一步對(duì)這些交互數(shù)據(jù)進(jìn)行集體評(píng)級(jí)和詳細(xì)反饋來(lái)修訂響應(yīng)機(jī)制，從而在每輪模擬中逐步完善響應(yīng)來(lái)提高對(duì)齊度，為交互式價(jià)值對(duì)齊提供了有效路徑。

人類(lèi)通過(guò)合作和情境交互學(xué)習(xí)社會(huì)規(guī)范，確定價(jià)值取向并調(diào)整行為。對(duì)人工智能而言，語(yǔ)言模型本質(zhì)上是在社會(huì)隔離中訓(xùn)練的，并不能直接體驗(yàn)真實(shí)的社會(huì)生活，也無(wú)法獲得來(lái)自他人的多輪反饋而實(shí)現(xiàn)改進(jìn)。交互式價(jià)值對(duì)齊旨在克服既有的技術(shù)訓(xùn)練方式和倫理設(shè)計(jì)模式，通過(guò)人機(jī)合作模擬和社會(huì)場(chǎng)景模擬創(chuàng)建一個(gè)相對(duì)真實(shí)的情境，經(jīng)過(guò)多輪交互評(píng)估進(jìn)一步完善人工智能模型的價(jià)值對(duì)齊質(zhì)量。

3.交互式價(jià)值對(duì)齊的評(píng)價(jià)

交互式價(jià)值對(duì)齊并非完全否定和推翻了既有的價(jià)值對(duì)齊路徑，而是在確立人工智能交互主體性地位和情境化價(jià)值共識(shí)的基礎(chǔ)上，通過(guò)人機(jī)合作模擬和社會(huì)場(chǎng)景模擬的方式，建立人類(lèi)和人工智能長(zhǎng)期的、可持續(xù)的發(fā)展關(guān)系。交互式價(jià)值對(duì)齊從關(guān)系論出發(fā)，將人工智能行為的適當(dāng)性還原到人類(lèi)與人工智能具體交互過(guò)程中，價(jià)值對(duì)齊也成了人與人工智能交互關(guān)系的產(chǎn)物。人工智能發(fā)展所要求的價(jià)值對(duì)齊并非只強(qiáng)調(diào)人的義務(wù)或機(jī)器的責(zé)任，而是將其視為一種能夠調(diào)整二者關(guān)系的價(jià)值范疇，因此交互式價(jià)值對(duì)齊將人機(jī)關(guān)系視為優(yōu)勢(shì)互補(bǔ)的伙伴關(guān)系，而非主客二分的對(duì)齊主體，以實(shí)現(xiàn)建立在“人機(jī)共生”基礎(chǔ)上的價(jià)值對(duì)齊目標(biāo)。

值得進(jìn)一步探索的是，交互式價(jià)值對(duì)齊的未來(lái)需要協(xié)同社會(huì)化人工智能、情境機(jī)器人和具身智能等技術(shù)共同發(fā)展。原因在于，交互式價(jià)值對(duì)齊的關(guān)鍵在于人工智能和人類(lèi)交互關(guān)系的建構(gòu)，其考量和評(píng)估的依據(jù)在于人工智能在交互關(guān)系中的表現(xiàn)。人工智能和人類(lèi)在交互關(guān)系中的差異表現(xiàn)源于社會(huì)性、身體性和情感性的不同，正如斯圖爾特·阿姆斯特朗（Stuart Armstrong）所說(shuō)，人工智能并不以人類(lèi)的目標(biāo)為己任，它并非生物體，甚至無(wú)法理解人類(lèi)所經(jīng)歷的痛苦[40]（18-19）。人類(lèi)大腦與人工智能的算法不同，思維不是通過(guò)符號(hào)處理進(jìn)行的，而價(jià)值也存在著隱性化的知識(shí)，即這些知識(shí)是建立在感知而不是知道之上。人工智能無(wú)法捕捉這種背景意義和知識(shí)，只有人類(lèi)才能理解其中的關(guān)聯(lián)意義，因?yàn)槿耸蔷呦蟮?、真?shí)的、身處于世界之中的存在。因此，依托具身化、情境化和社會(huì)化人工智能技術(shù)的發(fā)展更能有效實(shí)現(xiàn)交互價(jià)值對(duì)齊的目標(biāo)。

結(jié)語(yǔ)

人工智能價(jià)值對(duì)齊的目標(biāo)是讓大模型成為更可靠、實(shí)用且安全的工具，關(guān)乎通用型人工智能發(fā)展的未來(lái)。現(xiàn)有價(jià)值對(duì)齊的路徑大都是從技術(shù)手段出發(fā)，但僅從人類(lèi)指令和偏好反饋進(jìn)行對(duì)齊，忽略了價(jià)值內(nèi)涵和動(dòng)態(tài)情境的重要性，缺乏關(guān)于什么是真正的“好”的行為的內(nèi)在知識(shí)和生成背景。為了促進(jìn)人工智能的發(fā)展與人類(lèi)價(jià)值目標(biāo)達(dá)成一致，使其更符合人類(lèi)的期望，需要將價(jià)值理論、交互關(guān)系和社會(huì)情境等更深層次的理解納入價(jià)值對(duì)齊的過(guò)程。交互式價(jià)值對(duì)齊通過(guò)將人工智能確立為交互主體和對(duì)齊價(jià)值的“賦能者”，基于情境化價(jià)值共識(shí)，通過(guò)人機(jī)合作模擬和社會(huì)場(chǎng)景模擬等方式，實(shí)現(xiàn)過(guò)程性和關(guān)系性的動(dòng)態(tài)對(duì)齊，以確保大模型的行為和決策在人機(jī)交互中不斷優(yōu)化，并能夠符合人類(lèi)社會(huì)的價(jià)值期望。

[參考文獻(xiàn)]

[1]SCHEUTZ M. The Inherent Dangers of Unidirectional Emotional Bonds Between Humans and Social Robots[M]//Robot Ethics：The Ethical and Social Implications of Robotics. Cambridge：The MIT Press，2012.

[2]中國(guó)政府網(wǎng).生成式人工智能服務(wù)管理暫行辦法[R/OL].（2023-07-10）[2024-07-10]. https：//www.gov.cn/ zhengce/zhengceku/202307/content_6891752.htm.

[3]LANIER J. The Myth of AI[EB/OL].（2014-11-14）[2024-07-10]. https：//www.edge.org/conversation/the-mythof-ai#26015.

[4]WIENER N.Some Moral and Technical Consequences of Automation：As Machines Learn They May Develop Unforeseen Strategies at Rates that Baffle Their Programmers[J].Science，1960，131（3410）.

[5]LEIKE J，KRUEGER D，EVERITT T，et al. Scalable Agent Alignment via Reward Modeling：A Research Direction[EB/OL].（2018-11-09）[2024-07-10]. https：//arxiv.org/abs/1811.07871.

[6]GABRIEL I. Artificial Intelligence，Values，and Alignment[J].Minds and Machines，2020（30）.

[7]騰訊研究院. AI大模型價(jià)值對(duì)齊：是什么，為什么，怎么做？[EB/OL].（2023-08-24）[2024-07-10]. https：// www.tisi.org/26547.

[8]吳冠軍.大語(yǔ)言模型的信任問(wèn)題與資本邏輯[J].當(dāng)代世界與社會(huì)主義，2023（5）.

[9]ANTHROPIC. Claude’s Constitution[EB/OL].（2023-05-09）[2024-07-10]. https：//www.anthropic.com/index/ claudes-constitution.

[10]SHEVLANE T，F(xiàn)ARQUHAR S，GARFINKEL B，et al. Model Evaluation for Extreme Risks[EB / OL].（2023-09-22）[2024-07-10].https：//arxiv.org/abs/2305.15324.

[11]BAKKER M A，CHADWICK M J，SHEAHAN H R，et al. Fine-tuning Language Models to find Agree？ ment Among Humans with Diverse Preferences[EB/OL].（2022-11-28）[2024-07-10].https：//arxiv.org/abs/2211.15006.

[12]于雪.智能機(jī)器的道德設(shè)計(jì)進(jìn)路及其責(zé)任歸因[J].倫理學(xué)研究，2022（4）.

[13]龔群.論弱人工智能體的道德性考察[J].哲學(xué)研究，2023（3）.

[14]COECKELBERGH M. Moral Appearances：Emotions，Robots，and Human Morality[J].Ethics and information technology，2010（12）.

[15]JI J M，QIU T Y，CHEN B Y，et al. AI Alignment：A Comprehensive Survey[EB/OL].（2024-02-27）[2024-07-10]. https：//alignmentsurvey.com.

[16]董春雨.從機(jī)器認(rèn)識(shí)的不透明性看人工智能的本質(zhì)及其限度[J].中國(guó)社會(huì)科學(xué)，2023（5）.

[17]亞里士多德.尼各馬可倫理學(xué)[M].廖申白，譯.北京：商務(wù)印書(shū)館，2016.

[18]KENWARD B，SINCLAIR T. Machine Morality，Moral Progress，and the Looming Environmental Disaster[J].Cognitive Computation and Systems，2021.

[19]胡盛瀾.人工情感智能體的道德賦能問(wèn)題探析[J].自然辯證法研究，2023，39（2）.

[20]羅莎琳德·皮卡德.情感計(jì)算[M].羅森林，譯.北京：北京理工大學(xué)出版社，2005.

[21]吳童立.人工智能有資格成為道德主體嗎[J].哲學(xué)動(dòng)態(tài)，2021（6）.

[22]付長(zhǎng)珍.機(jī)器人會(huì)有“同理心”嗎？：基于儒家情感倫理學(xué)的視角[J].哲學(xué)分析，2019，10（6）.

[23]孫偉平.價(jià)值哲學(xué)視域中的算法歧視與社會(huì)公正[J].哲學(xué)研究，2023（3）.

[24]劉偉.人機(jī)融合：超越人工智能[M].北京：清華大學(xué)出版社，2021.

[25]顧心怡.腦機(jī)融合下的交互自治與倫理影響研究[J].自然辯證法通訊，2023，45（7）.

[26]宋春艷.人機(jī)融合智能的自我意識(shí)與交互主體性[J].倫理學(xué)研究，2023（5）.

[27]劉偉.人機(jī)融合智能的現(xiàn)狀與展望[J].國(guó)家治理，2019（4）.

[28]KRISHNA R，LEE D，LI F-F，et al. Socially Situated Artificial Intelligence Enables Learning from Human Interaction[EB/OL].（2022-06-14）[2024-07-10]. https：//www.pnas.org/doi/epdf/10.1073/pnas.2115730119.

[29]楊慶峰.人工智能神話、超級(jí)智能及其合約倫理學(xué)[J].山西大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），2023，46（6）.

[30]DAMIANO L，DUMOUCHEL P. Emotions in Relation. Epistemological and Ethical Scaffolding for Mixed Hu？ man-robot Social Ecologies[J].HUMANA. MENTE Journal of Philosophical Studies，2020，13（37）.

[31]FAIRWEATHER N B. Why Incomplete Codes of Ethics Are Worse than None At All[M]//Computer Ethics and Professional Responsibility. Malden：Blackwell Publishing，2004.

[32]LISCIO E，MEER M V D，SIEBERT L C，et al. What Values should an Agent Align with？：An Empiri？ cal Comparison of General and Context-specific Values[J].Autonomous Agents and Multi- Agent Systems，2022，36（23）.

[33]EMELIN D，BRAS R L，HWANG J D，et al. Moral Stories：Situated Reasoning about Norms，Intents，Ac？ tions，and Their Consequences[EB/OL].（2020-12-31）[2024-07-10]. https：//arxiv.org/pdf/2012.15738v1.

[34]HENDRYCKS D，BURNS C，BASART S，et al. Aligning AI with Shared Human Values[EB/OL].（2020-08-05）[2024-07-10]. https：//arxiv.org/pdf/2008.02275v1.

[35]JIANG L W，HWANG J，BHAGAVATULA C，et al. Can Machines Learn Morality？The Delphi Experi？ ment[EB/OL].（2022-07-12）[2024-07-10]. https：//arxiv.org/abs/2110.07574.

[36]劉哲.人工智能時(shí)代身體異化的隱憂：從現(xiàn)象學(xué)角度反思人與智能機(jī)器人的交互關(guān)系[J].外國(guó)哲學(xué)，2022（2）.

[37]YUAN L Y，GAO X F，ZHENG Z L，et al. In situ Bidirectional Human-robot Value Alignment[J].Sci？ ence Robotics，2022（7）.

[38]LUCIANO F，SANDERS J W. On the Morality of Artificial Agents[J].Minds and Machine，2004，14（3）.

[39]LIU R，YANG R X，JIA C Y，et al. Training Socially Aligned Language Models on Simulated Social In？ teractions[EB/OL].（2023-10-28）[2024-07-10].https：//arxiv.org/pdf/2305.16960.

[40]ARMSTRONG S. Smarter than Us：The Rise of Machine Intelligence[M].Berkeley：Machine Intelligence Re？ search Institute，2014.

（責(zé)任編輯：孫保學(xué)）

①弱進(jìn)路和強(qiáng)進(jìn)路的劃分依據(jù)是機(jī)器倫理思想中隱性設(shè)計(jì)倫理和顯性設(shè)計(jì)倫理的區(qū)分，隱性設(shè)計(jì)倫理旨在通過(guò)價(jià)值敏感性設(shè)計(jì)和道德物化等理念，將價(jià)值隱性地嵌入技術(shù)設(shè)計(jì)中，通過(guò)隱性設(shè)計(jì)倫理達(dá)成價(jià)值對(duì)齊的方式即為弱進(jìn)路價(jià)值對(duì)齊。顯性設(shè)計(jì)倫理是讓機(jī)器成為道德行為的重要環(huán)節(jié)，試圖將智能機(jī)器發(fā)展為道德行為主體，通過(guò)顯性設(shè)計(jì)倫理達(dá)成價(jià)值對(duì)齊的方式即為強(qiáng)進(jìn)路價(jià)值對(duì)齊。曾有學(xué)者基于上述兩種區(qū)分將智能機(jī)器的道德設(shè)計(jì)分為“弱進(jìn)路”和“強(qiáng)進(jìn)路”，本文參考了這種劃分（參見(jiàn)于雪：《智能機(jī)器的道德設(shè)計(jì)進(jìn)路及其責(zé)任歸因》，《倫理學(xué)研究》2022年第4期）。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人工智能價(jià)值對(duì)齊的路徑探析