人工智能體價值對齊的分布式路徑探賾

2024-01-01 00:00:00閆坤如

上海師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版) 2024年4期

摘 " 要：人工智能體價值對齊，源于人類的有限理性、人工智能體的自主性、不確定性和風(fēng)險性。價值對齊需要在考察人工智能體的道德屬性與調(diào)節(jié)作用的基礎(chǔ)上，分析其必要性和可能性。為了實現(xiàn)人工智能價值對齊的目標(biāo)，需要妥善處理好倫理共識與多元價值觀、抽象價值規(guī)則與具體人工智能技術(shù)應(yīng)用場景、人類終極倫理目標(biāo)與短期價值追求之間的關(guān)系。在此基礎(chǔ)上，應(yīng)為人工智能體的研發(fā)設(shè)定基本的道德準(zhǔn)則和倫理底線，明確人工智能體的設(shè)計邊界，確保其不對人類的價值和權(quán)利造成干擾和傷害，避免AI系統(tǒng)偏離人類價值觀，以引導(dǎo)和規(guī)范人工智能技術(shù)的發(fā)展方向。

關(guān)鍵詞：人工智能體；價值對齊；有限理性；自主性

中圖分類號：TP18 " 文獻(xiàn)標(biāo)識碼：A 文章編號：1004-8634（2024）04-0131-（09）

DOI：10.13852/J.CNKI.JSHNU.2024.04.013

人工智能技術(shù)的迅猛發(fā)展深刻地改變著社會生產(chǎn)生活方式、思維模式和社會結(jié)構(gòu)等。人工智能技術(shù)正在推動產(chǎn)業(yè)革命，重塑人類社會，改變?nèi)祟惱斫馐澜绲姆绞?。布萊恩約弗森（Erik Brynjolfsson）和麥卡菲（Andrew McAfee）提出，人工智能技術(shù)是繼18世紀(jì)末蒸汽機發(fā)明之后的第二次機器革命。正如蒸汽機技術(shù)超越了當(dāng)時其他技術(shù)，人工智能技術(shù)正在幫助人類突破各種能力限制，并可能改變?nèi)祟悮v史的發(fā)展軌跡。1 基辛格（Henry Kissinger）、施密特（Eric Schmidt）與胡騰洛赫爾（ Daniel Huttenlocher）在《人工智能時代與人類未來》中寫道：“人工智能很可能會改變社會的軌跡和歷史的進程?！? 人工智能技術(shù)除了具有革命性的影響外，也具有顛覆性作用，可能會引發(fā)隱私泄露、就業(yè)替代等問題，甚至導(dǎo)致學(xué)術(shù)研究范式革命。是否可以用人類的道德規(guī)范來引導(dǎo)人工智能技術(shù)的可控、向善發(fā)展，已引起學(xué)界的關(guān)注和討論，本文的旨趣正在于此。

一、自為之物：人工智能體價值對齊的必要性

人工智能技術(shù)作為一種自主性智能技術(shù)，是人類發(fā)明和研發(fā)的成果。如何將人類普遍接受的價值觀與道德標(biāo)準(zhǔn)轉(zhuǎn)化為可執(zhí)行的程序化道德代碼，并將其嵌入人工智能系統(tǒng)，使其能夠按照人類預(yù)先設(shè)定的價值理念、道德規(guī)范和倫理導(dǎo)向來“行為”，這是人工智能技術(shù)研發(fā)中追求向善發(fā)展的重要方向，同時也是人工智能體價值對齊（AI Value Alignment）問題。一般認(rèn)為，人工智能體價值對齊原則是由人工智能研究領(lǐng)域的計算機科學(xué)家羅素（Stuart Russell）教授開創(chuàng)的。2015年1月，他在瑞士達(dá)沃斯舉行的經(jīng)濟論壇上提出“我們?nèi)绾尾拍芙⑴c人類價值對齊的自治系統(tǒng)”這一問題。1 人工智能體價值對齊就是人工智能技術(shù)符合人類價值觀，與人類價值觀保持一致。人工智能體價值對齊源于人類的有限理性，人工智能體的自主性、不確定性和風(fēng)險性。

1.人類的有限理性需要人工智能體價值對齊

人工智能體是人類創(chuàng)造出來的，是具有某種智能屬性和智能行為的人工系統(tǒng)。人工智能體并非自然界本身所具有的“自在之物”，而是人類為了特定目的創(chuàng)造出來的自為之物。換句話說，它不是一種本來就存在的實體，而是人類通過科技和編程所創(chuàng)造出來的“自為之物”。人工智能體的設(shè)計和應(yīng)用始終基于人類的意圖和目的，因此它具有明確的目的性和意向性。人工智能體是人類為了滿足自身需要而創(chuàng)造出來的人工物，在設(shè)計和應(yīng)用過程中，人工智能技術(shù)不可避免地受到來自設(shè)計者、使用者以及學(xué)習(xí)數(shù)據(jù)偏見的影響。算法本身也是主體價值偏好以及決策偏見強化的結(jié)果。因此，人工智能體并非價值中立的，而是負(fù)載著人類的價值觀和決策偏見。機器學(xué)習(xí)、深度學(xué)習(xí)或強化學(xué)習(xí)等技術(shù)都是基于數(shù)據(jù)統(tǒng)計的，然而，統(tǒng)計方法本身就包含著隨機性，這導(dǎo)致人工智能算法在決策過程中產(chǎn)生偏好，這些偏好進一步使得人工智能體具有人類價值的負(fù)載性。

人類的有限理性進一步強化了人工智能體價值對齊的必要性。有限理性理論指出，由于認(rèn)知能力的局限性、決策過程的復(fù)雜性以及環(huán)境因素的繁雜性，人類決策往往處于完全理性和不完全理性之間的中間狀態(tài)，這意味著人類無法總是做出完全理性的決策。認(rèn)知主體的理論框架、思維方法、認(rèn)知結(jié)構(gòu)的差異，以及價值取向、主觀態(tài)度在認(rèn)識過程中都可能導(dǎo)致認(rèn)知偏差。人類還容易受到情緒和知識的有限性的影響，加上處理信息的能力有限，決策效率相對較低，也可能導(dǎo)致決策的公正性和準(zhǔn)確性偏差。相比之下，人工智能體沒有人類的偏見、情緒和欲望，它通過龐大的數(shù)據(jù)庫和計算機技術(shù)，能夠進行更加精細(xì)的掃描、研究和分析，從而做出更高效、準(zhǔn)確和公正的決策。2這也意味著人工智能體具有自我決策和推理能力，與傳統(tǒng)的機器或工具不同。由于人工智能體的這一特性，開發(fā)和使用過程中需要引入社會倫理和道德治理機制。這不僅涉及模擬人類智能，還需要確保人工智能體的“價值追求”與人類價值觀相匹配，即“價值對齊”?！皟r值對齊”除了人工智能體與人類價值觀相匹配外，還需要不同群體的價值對齊，以在自我決策系統(tǒng)中規(guī)避人類有限理性的弊端。在人工智能體中體現(xiàn)人類價值追求和道德素質(zhì)是至關(guān)重要的?？傊?，人工智能技術(shù)不僅需要實現(xiàn)社會價值、環(huán)境價值的和諧統(tǒng)一，還應(yīng)與人類的道德標(biāo)準(zhǔn)相匹配。人類在創(chuàng)造和應(yīng)用人工智能體的過程中，應(yīng)承擔(dān)起相應(yīng)的責(zé)任，包括研發(fā)責(zé)任、認(rèn)知責(zé)任，以及倫理影響評估和規(guī)避風(fēng)險責(zé)任。

2.人工智能體的自主性需要價值對齊

人工智能之所以被稱為智能，其核心在于人工智能體的自主性。這種自主性使人工智能體能夠根據(jù)其強大的數(shù)據(jù)分析、機器學(xué)習(xí)與計算能力，輔助人類進行高效預(yù)測和決策。瓦拉赫（Wendell Wallach）等人提出了人工智能體的三個特征：互動性、自主性和適應(yīng)性。其中，自主性指的是在沒有外部刺激的情況下，個體有能力改變自身的狀態(tài)，而不是直接響應(yīng)外部的互動，這種自主性帶來了某種程度的復(fù)雜性和與環(huán)境的耦合。3 迪哥納姆（V. Dignum）也指出，自主性是人工智能體的一種識別屬性。只有當(dāng)一個實體具備自主性時，它才能被視為人工智能體：“關(guān)于機器人權(quán)利的許多思想源于自主性概念，它是人工智能系統(tǒng)的一種識別屬性?！? 在哲學(xué)意義上，自主性指的是人類自行決定制定、思考和選擇遵循的規(guī)范、規(guī)則和法律的能力和權(quán)利。人工智能體的自主性由其自我決策的過程中是否需要人的參與來判定。如果需要人的參與，那么人在人工智能體的決策中發(fā)揮著重要作用，這被蒙納多（Robert Monarch）稱為“人在環(huán)路”（Human in the Loop）。1 如果不需要人的參與，人工智能體具有自我決策能力，那么它被認(rèn)為具有自主性。人工智能的自主性還表現(xiàn)在它能夠獨立承擔(dān)責(zé)任。只要人工智能體能夠獨立決策，就應(yīng)該考慮為其嵌入道德，這與人工智能體是否具有道德主體地位、是否能夠進行合乎道德的決策無必然聯(lián)系，也與人工智能體是否具有意識和情感無必然聯(lián)系。也就是說，只要人工智能體能夠獨立承擔(dān)道德責(zé)任，就應(yīng)該為其嵌入道德，從而前瞻性地規(guī)避其決策的不良后果。考克伯格（Mark Coeckelbergh）提出了一個觀點：“不要問機器人是否有意識、理性、自由意志等，讓我們把注意力轉(zhuǎn)向機器人是如何表現(xiàn)的：它是否‘表現(xiàn)’出了人類應(yīng)該具備的能力？如果是這樣，那么無論機器人是否真的具有這些能力和心理狀態(tài)，我們都應(yīng)該將道德主體和道德責(zé)任賦予機器人。”2 可以說，人工智能體具有自主性是其不同于其他技術(shù)人工物的一個重要特征。由于人工智能體的自主性可能導(dǎo)致其行為偏離人類的控制，因此在人工智能技術(shù)研發(fā)初期符合人類價值觀成為確保其合乎倫理發(fā)展的關(guān)鍵一環(huán)。

3.人工智能體的不確定性和風(fēng)險性需要價值對齊

人工智能技術(shù)作為顛覆性技術(shù)，是人類為了達(dá)到某種目的而創(chuàng)造出來的。由于人工智能系統(tǒng)內(nèi)在的復(fù)雜性和不確定性，人類很難預(yù)測其發(fā)展趨勢及下一步行為?；诖罅繑?shù)據(jù)分析的人工智能技術(shù)具有多種技術(shù)路線，包括模擬人類推理的符號主義、基于控制論模擬人類行為的行為主義，以及基于大腦神經(jīng)網(wǎng)絡(luò)的連接主義。這些路線和算法的多樣性，加上它們的復(fù)雜性和不透明性，使得人工智能技術(shù)在倫理上具有挑戰(zhàn)性，這日益成為需要前置性思考的問題。

人工智能體具有不確定性。西蒙（J. Simon）提出：“我們不知道它們是如何工作的，我們也無法評估它們對我們收到的信息的影響。機器具有不透明性，算法黑箱導(dǎo)致機器人的行為的不確定性。”3 由于社會中存在的偏見數(shù)據(jù)被帶入算法中，或者算法中的數(shù)據(jù)出現(xiàn)偏差、缺失，又或者算法本身的設(shè)計和參數(shù)設(shè)置有問題，導(dǎo)致算法難以避免的偏差出現(xiàn)：“算法不可避免地會做出有偏見的決定。一個算法的設(shè)計和功能反映了它的設(shè)計者和預(yù)期用途的價值，如果只是在某種程度上，一個特定的設(shè)計是首選的最佳或最有效的選擇?！? 算法黑箱和算法偏見的客觀實在性增加了人工智能體的不確定性。

當(dāng)人工智能體被應(yīng)用到經(jīng)濟發(fā)展和社會生產(chǎn)、生活中時，它可能會催生大量的倫理風(fēng)險，如公共安全、就業(yè)替代、算法歧視和隱私侵犯等。這些倫理風(fēng)險可能會對社會的和諧與穩(wěn)定產(chǎn)生負(fù)面影響。人工智能技術(shù)重塑世界的同時，也帶來了公共安全風(fēng)險、算法歧視、數(shù)據(jù)泄露、責(zé)任倫理挑戰(zhàn)、人類主體性的喪失等一系列問題。這些風(fēng)險是人工智能技術(shù)的本質(zhì)屬性所致，具有普遍性、客觀性、必然性的特征。人工智能體的風(fēng)險性是由多種因素決定的，包括技術(shù)因素如算法黑箱等，以及人工智能體作為可以自我推理和自我決策的技術(shù)所帶來的潛在倫理風(fēng)險。人工智能技術(shù)是會聚性技術(shù)，其不可控性增強，使得風(fēng)險概率增加。人工智能體的風(fēng)險性不僅僅是其系統(tǒng)的本質(zhì)屬性，也與相關(guān)主體的價值取向和價值選擇密切相關(guān)，這體現(xiàn)了不同利益相關(guān)者的價值傾向和利益考量。通過對人工智能體風(fēng)險性的深入分析，可以明確倫理風(fēng)險的必然性，以及風(fēng)險主體之間的價值差異和價值沖突。如果人工智能體不嵌入倫理道德觀念，其行為不符合人類倫理道德，或者其行為結(jié)果不合乎人類道德標(biāo)準(zhǔn)，那么隨著其自主程度的提高，其潛在的倫理風(fēng)險就會越來越大。這種背景下，人工智能體的不確定性和風(fēng)險性更加凸顯了對其道德嵌入的必要性。

二、道德主體考察：人工智能體價值對齊的可能性

與必要性不同（對價值對齊的需求與人工智能體是否具有道德主體地位無關(guān)），對人工智能體價值對齊可能性的分析則必須考察人工智能體的道德主體地位問題。人工智能體能否嵌入道德，關(guān)系到其能否成為道德主體（Moral Agents，又譯為道德行動者、道德行為體、道德智能體或者道德代理等）。這不僅涉及對人工智能體潛在道德地位的考察，更需要對其道德調(diào)節(jié)作用進行分析。

1.人工智能體非人類主體但具有類主體地位

人工智能體（Artificial Agents）與人類主體（Subject）在許多方面存在顯著差異，人工智能道德主體地位中的“主體（Agents）”，指的是人工智能體可以成為道德行為體，或者可能具有代理人類道德行為的能力，可以代理人類行動。

第一，人工智能體可以按照人類的道德標(biāo)準(zhǔn)行動。當(dāng)談到人工智能體是道德行為體時，通常是指那些受到一套道德規(guī)范指導(dǎo)的對象，并且它們可能不會改變這些道德規(guī)范。人工智能體雖然具有與人類主體同樣的按照道德規(guī)范行動的能力，但與人類主體的屬性截然不同，是因為人類道德主體依賴自己的獨特屬性，即具有意識和道德判斷能力。正如塞爾（J. Searle）所說：“機器人根本沒有意向狀態(tài)，它只是受電路和程序支配的簡單的來回運動而已?！? 并且，人類道德具有歷史傳承性，它是社會經(jīng)驗和人類智慧的累積，受歷史文化的影響。相比之下，人工智能體沒有意識和意向狀態(tài)，人工智能體無法習(xí)得人類的社會經(jīng)驗、無法受人類歷史文化影響，也無法累積人類智慧和道德規(guī)范。因此，在傳統(tǒng)的占主導(dǎo)地位的倫理框架內(nèi)，人工智能體被普遍認(rèn)為不具備道德主體地位。有學(xué)者站在工具論立場反對賦予人工智能體道德主體地位，認(rèn)為人工智能體只具有工具性價值，其倫理和責(zé)任只能由人類主體來承擔(dān)，那么討論人工智能體的道德主體地位沒有意義。例如，約翰遜（D. G. Johnson）和米勒（K. W. Miller）指出，機器人技術(shù)的設(shè)計應(yīng)確保責(zé)任分配仍然“與人掛鉤”。2 他們認(rèn)為，“人工物能否成為道德主體”根本就是一個錯誤的問題。由于人工智能體由人類研制和使用，歸人類所有、所用，從這個維度而言，人工智能體與其他工具無異，因此，人類將對研制和使用人工智能體的后果負(fù)責(zé)。從這個意義來講，人工智能體僅僅是“高級工具”，“無論程序的機械特性在多大程度上是透明的，人們都會把機器人當(dāng)作僅僅是工具”。3 人工智能體在很大程度上僅是人類決策的輔助工具，特別是在機器仍由人類來控制和干預(yù)的時候。當(dāng)人工智能體“做出”不良行為時，人類可通過現(xiàn)有的道德和法律規(guī)則來約束自身而非人工智能體。這是因為，錯誤的決策實際上是由人做出的，而非人工智能體——人工智能體只是人的命令和指令的執(zhí)行者而已。錯誤決策應(yīng)該由人類負(fù)責(zé)，而非人工智能體。工具論者還認(rèn)為，如果人工智能體不具有道德主體地位，則人類不可能為其嵌入道德，讓其符合人類價值觀。但人工智能體絕非一般人工物，其具有自我推理、自我決策、自我學(xué)習(xí)能力，并且能夠根據(jù)所學(xué)習(xí)的知識進行行動。因此，不能簡單地將人工智能體視為簡單的工具。盧西亞諾·弗洛里迪（Luciano Floridi）就反對工具論者的觀點，并提出了“人工道德主體（Artificial Moral Agents，縮寫AMAs）”的概念。這個概念包含兩層含義：一是探討一個人工系統(tǒng)是否有可能成為道德主體；二是探討構(gòu)造具有倫理意義行為的人工智能體的可能性。弗洛里迪的觀點引起了學(xué)者對人工智能體的關(guān)注，機器倫理學(xué)（Machine Ethics）應(yīng)運而生。機器倫理學(xué)是研究如何研發(fā)具有倫理意義和行為的人工智能體的學(xué)問，主張道德主體的行為受道德標(biāo)準(zhǔn)的支配，非道德主體的行為不受道德標(biāo)準(zhǔn)的支配，旨在論證人工智能體應(yīng)該按照人類道德標(biāo)準(zhǔn)行動。有許多學(xué)者堅持認(rèn)為人工智能體具有道德主體地位。比如，美國學(xué)者邁克爾·安德森（Michael Anderson）和蘇珊·安德森（Susan Leigh Anderson）夫婦提出，“賦予機器人倫理原則或者促進機器人解決可能預(yù)見的倫理困境，在機器人自主做決定的時候，提高它們的道德考量比重”。4 瓦拉赫（W. Wallach）也提出，“具有道德決策能力的機器人將成為技術(shù)上的必需品”。5 過去，關(guān)于技術(shù)和倫理關(guān)系的研究主要集中在人類負(fù)責(zé)任和不負(fù)責(zé)任地使用技術(shù)、機器設(shè)計中的設(shè)計主體責(zé)任以及機器應(yīng)用帶來的社會倫理等問題。當(dāng)人工智能體具有道德主體地位的主張引發(fā)關(guān)注后，人們意識到不僅人類才是道德主體，才具有道德推理能力，人工智能體也具有道德的主體地位，也可以受人類道德標(biāo)準(zhǔn)支配，即可以嵌入道德并按照嵌入的道德標(biāo)準(zhǔn)行動。簡言之，雖然人工智能體與人類主體不同，但由于它絕非一般人工物，具有類主體地位，可以按照人類道德標(biāo)準(zhǔn)行動，因此，人工智能體價值對齊具有可能性。

第二，人工智能體具有類道德主體地位。當(dāng)談到人工智能體代理人類行動時，通常是指人工智能體代表人類實施道德行為并由人類承擔(dān)道德責(zé)任。隨著人工智能技術(shù)的迅猛發(fā)展，許多人開始質(zhì)疑人類作為唯一道德主體的概念。“對許多道德哲學(xué)家來說，道德就是要求某人對自己的行為負(fù)責(zé)和對自己行為的正確性負(fù)責(zé)，然后關(guān)于道德地位和行為的問題才是核心?！? 丹尼爾森（P. Danielson）在1992年就提出“功能性道德”概念，2 他認(rèn)為機器具有功能性道德。在《道德機器：如何讓機器人明辨是非》一書中，艾倫和瓦拉赫區(qū)分了三類道德主體：操作性道德（Operational Morality）、功能性道德（Functional Morality）與完全道德主體（Full Moral Agency）。人工智能體不是完全道德主體，但其具有操作性道德和功能性道德，從理論上講可以代理人類實施道德行為，從而具有潛在的道德主體地位。機器倫理學(xué)家將人工智能體視為實際的或潛在的道德主體，具有潛在的類道德主體地位。弗洛里迪和桑德斯（Jeff W. Sanders）在《論人工智能體的道德性》中指出，智能機器作為計算性的產(chǎn)物，與其他許多人工物不同，其行為具有某種程度的獨立性，使其可以充當(dāng)“人工智能體”。3 溫斯伯格（A. Van Wynsberghe）和羅賓斯（S. Robbins）提出：“機器倫理學(xué)領(lǐng)域的行業(yè)領(lǐng)袖和學(xué)者會讓我們相信，機器人在我們生活中發(fā)揮更大作用的必然性要求賦予機器人道德推理能力。以這種方式被賦予的機器人可以被稱為人工道德主體（AMAs）?！? 美國學(xué)者摩爾（Jame H. Moor）將道德主體分為四類：道德影響主體（Ethical-impact Agents）、隱性道德主體（Implicit Ethical Agents）、顯性道德主體（Explicit Ethical Agents）以及完全道德主體。5完全道德主體可以做出明確的倫理判斷，并且通常有能力合理地證明這些判斷。盡管人工智能體并不屬于完全道德主體，也不是像人類一樣的道德主體，但隨著其自主性越來越高，具有類主體地位，可以按照人類的道德規(guī)范表現(xiàn)出合乎倫理的行為。在這種情況下，人工道德主體與人類道德主體在按照道德標(biāo)準(zhǔn)行動方面沒有顯著的本質(zhì)差異，因此，人工智能體應(yīng)被視為與人類同質(zhì)的實體。人工智能體價值對齊的目的除了前文所述的引導(dǎo)和規(guī)范其行動外，還在于代表不同的人類共同體來行動，以實現(xiàn)這些共同體各自不同的利益訴求。機器倫理學(xué)家尋求一種方法來模擬人類的道德行為——實現(xiàn)對其主要特征的技術(shù)模仿，從而實現(xiàn)人工智能體的道德代理功能?？傊?，人工智能體具有潛在的類道德主體地位，作為道德載體能夠代表人類行動，增強了人工智能體價值對齊的可能性。

2.人工智能體具有道德調(diào)節(jié)作用

不少技術(shù)哲學(xué)家關(guān)注人工智能體的道德調(diào)節(jié)作用。技術(shù)后現(xiàn)象學(xué)為道德主體的構(gòu)成增加了一個新的維度：它的技術(shù)中介特征。現(xiàn)象學(xué)是一場哲學(xué)運動，旨在分析人與世界的關(guān)系。后現(xiàn)象學(xué)家伊德（D. Ihde）認(rèn)為，技術(shù)是人和世界的中介，基于技術(shù)在人與世界間中介作用的不同，伊德提出了“人—技術(shù)—世界”的關(guān)系類型：具身關(guān)系、詮釋學(xué)關(guān)系、它者關(guān)系和背景關(guān)系。6 荷蘭后現(xiàn)象學(xué)技術(shù)哲學(xué)家維貝克（Peter-Paul Verbeek）在技術(shù)中介論（Technological Mediation）基礎(chǔ)上，提出了道德中介（Moral Mediation）觀點。他認(rèn)為，技術(shù)物調(diào)節(jié)著人的道德行為和道德決策，其不僅“具有”意向性，而且也可以成為“道德中介”。7 維貝克在《道德的技術(shù)中介——道德主體和道德客體的后現(xiàn)象學(xué)研究》1 中指出，人與世界的關(guān)系需要從“意向性”的角度來理解，即人類探索世界的直接性。人類和技術(shù)不再是分離的，而是以無數(shù)種方式相互影響。維貝克給出了超聲波的例子來說明人工智能體的道德中介作用。他指出，是否需要將某種形式的道德中介歸于像超聲波掃描儀這樣的設(shè)備，因為超聲波對道德具有積極作用。超聲波技術(shù)在孕婦和胎兒之間的關(guān)系中所起的中介作用的分析表明，技術(shù)有助于形成行動和對現(xiàn)實的解釋，而這些行動和解釋構(gòu)成了道德決策的基礎(chǔ)。超聲波可以用來篩查唐氏綜合癥，在孕后期，它可用于檢測胎兒是否存在缺陷，因此，超聲波有助于父母或者醫(yī)生對胎兒的未來進行決策。超聲波的作用從“期待一個孩子”變成了“選擇一個孩子”。通過對超聲波在墮胎道德決策中的中介作用的后現(xiàn)象學(xué)分析，人們可以看出，超聲波成為有關(guān)未出生嬰兒生命的決策者。因此，人類的行為不是由技術(shù)決定的，而是由技術(shù)塑造的。倫理學(xué)主要不是關(guān)于我們需要遵循什么命令的問題，而是關(guān)于人類如何將自己建構(gòu)為道德規(guī)范的“主體”的問題。倫理不僅僅是人類的事情，而且是人類和技術(shù)之間的一種關(guān)聯(lián)。人的行動受到技術(shù)的居間調(diào)節(jié)作用，因此，技術(shù)也是倫理空間的有機組成部分，倫理成為技術(shù)的內(nèi)生要素，而不是技術(shù)的外部要素，這為人工智能體的道德嵌入提供了另一種可能性。換句話說，技術(shù)不僅僅帶來倫理問題，還可以解決倫理問題，因此，應(yīng)該從正面角度肯定技術(shù)的積極倫理價值。既使不考慮人工智能體是否具有道德決策能力和道德行動能力，僅從其具有道德調(diào)節(jié)作用角度講，仍然可以為其嵌入道德內(nèi)容從而讓其遵守人類道德規(guī)范。

隨著人工智能技術(shù)的飛速發(fā)展，人工智能體與人類的相似程度日益增加。對此，人們不能簡單地套用舊的倫理規(guī)范，而應(yīng)隨著人工智能技術(shù)進步形成新的倫理共識，并習(xí)得新的道德規(guī)范。同時，人們還應(yīng)注重在人工智能技術(shù)的發(fā)展中嵌入道德要素，使人工智能體具備道德調(diào)節(jié)的作用或者具有道德規(guī)范功能，從而有效規(guī)避人工智能體的應(yīng)用可能帶來的負(fù)面效應(yīng)。通過這種努力，人們不僅可以規(guī)范和引導(dǎo)人工智能技術(shù)的向善發(fā)展，還能確保其與人類的和諧共存。

三、分布式：人工智能體價值對齊的路徑

人工智能體價值對齊不能一概而論、一蹴而就，應(yīng)采取分布式嵌入方式。首先，要明確工具性價值與內(nèi)在價值的區(qū)分。例如，為了更好地與人類相處，狗會被訓(xùn)練成具有一定程度的安全性和可靠性，但人們不會因此認(rèn)為狗具有道德屬性。同理，當(dāng)人們說人工智能體可以嵌入道德，可以達(dá)到價值對齊的目標(biāo)時，是指其可以具有工具性價值或者可以按照人類的道德標(biāo)準(zhǔn)行動，但道德屬性未必是人工智能體的固有屬性。其次，要明確人工智能體價值對齊是一個規(guī)范性問題而非描述性問題。人工智能體價值對齊不是關(guān)于人工智能發(fā)展?fàn)顩r的事實陳述，而是基于人類價值觀的判斷，引導(dǎo)人工智能體規(guī)范發(fā)展的規(guī)范性問題。人工智能體具體對齊哪些道德，是由人類的價值觀決定的。再次，人工智能體價值對齊需要平衡三種關(guān)系：其一，處理好構(gòu)建倫理共識與不同價值觀之間的關(guān)系，平衡價值統(tǒng)一性和價值相對性、價值多元性之間的關(guān)系；其二，解決統(tǒng)一的價值標(biāo)準(zhǔn)與不同技術(shù)路線、不同應(yīng)用場景之間的關(guān)系，以及道德嵌入的抽象價值標(biāo)準(zhǔn)與具體實踐之間的關(guān)系，旨在解決嵌入的抽象價值理念與具體的道德嵌入實踐之間的鴻溝如何填平的問題；其三，處理好人生終極倫理意義和短期價值目標(biāo)之間的關(guān)系。

1.達(dá)成價值共識與尊重不同價值觀是價值對齊的前提和基礎(chǔ)

人工智能技術(shù)發(fā)展中的不同主體具有不同的價值取向和利益訴求，這些取向和訴求會對人工智能倫理風(fēng)險中的價值排序和價值選擇產(chǎn)生影響。道德觀念不是先驗的，任何倫理學(xué)都無法提供終極的、絕對的道德真理體系。承認(rèn)價值觀的多元化，尊重每個人的基本權(quán)利是一種道德義務(wù)，不同主體可以通過溝通達(dá)成倫理共識。明確價值訴求旨在使人工智能的發(fā)展更符合公眾利益和人類福祉。在面對倫理沖突、道德悖論和道德難題時，人們應(yīng)努力尋求在不同主體間達(dá)成共識。許多國際組織或者行業(yè)協(xié)會制定了行業(yè)規(guī)范和技術(shù)標(biāo)準(zhǔn)，在人工智能價值對齊中起到了重要作用。例如，2018年歐盟執(zhí)行《通用數(shù)據(jù)保護條例（GDPR）》，提出了數(shù)據(jù)保護理念；同年，又發(fā)布了《可信人工智能倫理指南草案》，規(guī)定了數(shù)據(jù)主體的權(quán)利，并強調(diào)倫理規(guī)范的重要性。英國標(biāo)準(zhǔn)學(xué)會（BSI）致力于為設(shè)計師提供道德風(fēng)險評估標(biāo)準(zhǔn)。新加坡、印度、澳大利亞等國也提出或制定了有關(guān)隱私、安全和道德的行業(yè)準(zhǔn)則。中國也積極參與到人工智能倫理規(guī)范的制定工作中。2019年，中國發(fā)布了《新一代人工智能治理原則——發(fā)展負(fù)責(zé)任的人工智能》，提出了人工智能治理的框架和行動指南。同年4月，中國騰訊研究院發(fā)布了《人工智能倫理風(fēng)險分析報告》。5月，北京智源人工智能研究院聯(lián)合北京大學(xué)、清華大學(xué)、中國科學(xué)院自動化研究所等共同發(fā)布了《人工智能北京共識》，涵蓋15條有益于人類命運共同體構(gòu)建和社會發(fā)展的原則。2021年，中國發(fā)布了《新一代人工智能倫理規(guī)范》，以引導(dǎo)和規(guī)范人工智能的發(fā)展。2022年 3月 20日，中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于加強科技倫理治理的意見》，明確了治理要求和科技倫理原則：“倫理先行是治理要求”；“增進人類福祉、尊重生命權(quán)利、堅持公平公正、合理控制風(fēng)險，保持公開透明”是科技倫理原則。1

國際組織和行業(yè)協(xié)會在人工智能體價值對齊方面的工作，主要是通過制定人工智能技術(shù)的實施細(xì)則和行業(yè)規(guī)范來推進的。這些細(xì)則和規(guī)范旨在引導(dǎo)人工智能技術(shù)從業(yè)人員遵守職業(yè)道德規(guī)范，約束個體行為和組織行為。與職業(yè)倫理相比，行業(yè)規(guī)范具有更強的約束性。通過提倡設(shè)計師的職業(yè)道德，明確其職業(yè)責(zé)任，并以行業(yè)規(guī)范形式規(guī)定實施步驟和設(shè)計標(biāo)準(zhǔn)，能夠有效地約束設(shè)計者的行為。最終目標(biāo)是有效防控科技倫理風(fēng)險，推動科技向善，讓科技真正造福人類。不同的國際組織、國家和行業(yè)協(xié)會制定了不同的倫理規(guī)范，例如，2019年，舊金山禁止政府使用人臉識別技術(shù)，而我國人臉識別技術(shù)卻在多種場合普遍應(yīng)用。盡管如此，總的來說，人工智能技術(shù)的進步展現(xiàn)了人類共同的價值追求。在人工智能發(fā)展過程中，應(yīng)始終維護人類的尊嚴(yán)，確保人工智能技術(shù)的透明性和可解釋性，守住人工智能發(fā)展的安全性、可控性底線：讓人工智能技術(shù)為人類服務(wù)，而不是相反，必須避免人類被人工智能體控制，甚至危害人類的安全。2023年11月1日，首屆全球人工智能安全峰會在英國布萊切利召開，28個與會國和歐盟簽署了《布萊切利宣言》。各國一致同意，通過國際合作建立人工智能監(jiān)管方法。宣言提出了一系列需要解決的問題，包括保護人權(quán)、透明度和可解釋性、公平、監(jiān)管、安全、適當(dāng)?shù)娜祟惐O(jiān)督、公平、減少偏見、隱私和數(shù)據(jù)保護等。人工智能體價值對齊不僅受到主體價值觀和社會價值觀的影響，還涉及技術(shù)層面的設(shè)計規(guī)范和標(biāo)準(zhǔn)。在道德嵌入實施前，應(yīng)首先就嵌入的道德原則達(dá)成共識，這是人工智能體道德嵌入的前提。與此同時，尊重不同的道德習(xí)慣和文化傳統(tǒng)，則是最終實現(xiàn)道德嵌入的前提和基礎(chǔ)。

2.人工智能體價值對齊的分布式路徑

把道德嵌入人工智能體中，以規(guī)范其應(yīng)用，是至關(guān)重要的。這種價值對齊對人工智能技術(shù)的發(fā)展具有基礎(chǔ)性、全局性的影響，甚至可以被視為一種研究“范式”的轉(zhuǎn)換。目前，大多數(shù)道德研究主要集中在“人”的方面，而很少在“物”的方面，這意味著人們未能充分利用“物”的道德調(diào)節(jié)作用來引導(dǎo)人工智能技術(shù)的向善發(fā)展。人工智能體價值對齊，本質(zhì)上就是用人工智能技術(shù)來治理人工智能技術(shù)，技術(shù)既是治理的手段，也是治理的目標(biāo)，通過人工智能體對齊人類價值，引導(dǎo)人工智能技術(shù)合乎規(guī)范地發(fā)展。為了實現(xiàn)人工智能體價值對齊，需要遵循以下路徑：

首先，人們必須把價值共識嵌入人工智能體，使其行為始終符合道德要求。由于人工智能體沒有肉體，不具備人類的情感和主觀的私人偏好，人們可以通過價值對齊，避免其行為受到人類個人私欲的干擾。同時，人們也要確保機器人設(shè)計、制造、使用的整個過程具有公開性和透明性。在價值對齊過程中，道德訴求的多樣性導(dǎo)致道德選擇是一個普遍性問題。即使是相對簡單的人工系統(tǒng)，如吸塵機器人，也可能面臨道德的抉擇。當(dāng)小昆蟲誤入其工作區(qū)域，吸塵機器人是否應(yīng)殺死或者驅(qū)離它？因此，道德選擇對于人工智能體價值對齊來講是普遍性問題。隨著人工智能技術(shù)的不斷智能化和自主化，其所面臨的道德情境將變得越來越復(fù)雜。人們需要仔細(xì)考慮人工智能體對齊哪些人類價值，這是一個日益棘手的問題。對人工智能體價值對齊不能簡單地復(fù)制人類所有的價值觀，“用一整套人類價值觀對人工智能進行編程將被證明是一項極其困難的任務(wù)”，1 而是要確保人工智能的發(fā)展與人類的總體目標(biāo)保持一致。人工智能體的道德嵌入并非意在賦予其與人類相同的道德觀念、價值理性和價值觀。相反，其目標(biāo)是確保人工智能體能夠按照人類預(yù)先設(shè)計的價值理念、道德規(guī)范來行動，不偏離人類總的價值方向，也就是說，人工智能發(fā)展是一個規(guī)范性問題。面對價值沖突，人們需要對嵌入的道德進行價值排序，如數(shù)據(jù)共享與隱私保護之間可能存在矛盾，公平和效率之間也可能產(chǎn)生沖突等。家庭護理機器人應(yīng)該如何平衡用戶的隱私和護理需求；當(dāng)事故無法避免時，自動駕駛汽車應(yīng)該如何“選擇”撞到什么或撞到誰？同樣的選擇困境還存在于人工智能促進經(jīng)濟發(fā)展與破壞環(huán)境之間的矛盾、人工智能技術(shù)發(fā)展的短期效益與長遠(yuǎn)利益、個人利益與社會利益之間的矛盾等。不同的利益相關(guān)者之間也具有不同的價值訴求，例如，人工智能算法工程師追求技術(shù)水平，人工智能企業(yè)關(guān)注經(jīng)濟效益，政府關(guān)注技術(shù)使用的社會后果和社會效益等。這些矛盾和沖突凸顯了人工智能體道德嵌入在多元價值中的權(quán)衡難度。為了解決這些矛盾和沖突，人們需要對多元價值進行排序，并要避免價值偏見，保持價值之間的平衡。與此同時，面對不同的應(yīng)用場景，還要對價值目標(biāo)做出實時的動態(tài)調(diào)整，不能固守某種價值而忽視其他價值，必須在人工智能體價值對齊中堅持分布式對齊，根據(jù)具體的場景和具體的人工智能技術(shù)實踐，分析人類的當(dāng)前需要和長遠(yuǎn)目標(biāo)，來確定對齊人類哪些價值。

其次，把倫理規(guī)定細(xì)化為具體的設(shè)計標(biāo)準(zhǔn)，使道德成為人工智能體的核心要素之一。價值目標(biāo)的設(shè)定只是人工智能體價值對齊的第一步。具體來說，發(fā)展人工智能技術(shù)是為了實現(xiàn)增進人類福祉、維護人類的尊嚴(yán)和自由、安全可控、可解釋、公正等價值目標(biāo)，在這些價值目標(biāo)確立之后，還需要依據(jù)一定的方法，把倫理規(guī)范轉(zhuǎn)化為具體的設(shè)計標(biāo)準(zhǔn)，實現(xiàn)價值目標(biāo)的具體場景落地，如人工智能系統(tǒng)的“安全性”價值目標(biāo)需要轉(zhuǎn)化為“技術(shù)魯棒性”“安全可中斷性”等設(shè)計標(biāo)準(zhǔn)，人工智能系統(tǒng)在輸入錯誤、磁盤故障、網(wǎng)絡(luò)過載或被惡意攻擊情況下能否保持系統(tǒng)穩(wěn)定，在具體的操作場景中，為人工智能系統(tǒng)設(shè)置緊急停止裝置或者終止設(shè)施，能夠中斷人工智能技術(shù)實施從而保障技術(shù)安全。同樣地，人工智能系統(tǒng)的“可解釋性”價值目標(biāo)需要轉(zhuǎn)化為“故障透明性”“數(shù)據(jù)可追溯性”等設(shè)計標(biāo)準(zhǔn)，避免算法黑箱的出現(xiàn)；人工智能系統(tǒng)的“公正性”價值目標(biāo)需要轉(zhuǎn)化為避免“算法歧視”“算法濫用”等設(shè)計標(biāo)準(zhǔn)；人工智能系統(tǒng)的“可控性”價值目標(biāo)需要轉(zhuǎn)化為“系統(tǒng)可追蹤”“系統(tǒng)可追溯”等設(shè)計標(biāo)準(zhǔn)，能夠?qū)ο到y(tǒng)的錯誤進行追蹤或者溯源，找到出錯原因，避免再犯同樣錯誤。為了實現(xiàn)人工智能體價值對齊，需要將基本價值目標(biāo)分解為具體的技術(shù)設(shè)計標(biāo)準(zhǔn)。這一步至關(guān)重要，因為它保障了人工智能體價值對齊的可操作性，使人工智能體真正符合人類價值觀，如人類福祉、尊嚴(yán)、隱私安全和公平公正等。為人工智能體嵌入道德算法，將特定群體的價值觀和道德標(biāo)準(zhǔn)程序化為道德代碼嵌入人工智能系統(tǒng)的同時，通過內(nèi)置道德決策場景的指導(dǎo)性抉擇標(biāo)準(zhǔn)或者對人工智能體進行道德訓(xùn)練，可以使其具備道德推理能力。利用機器學(xué)習(xí)算法投射使用者的道德偏好，讓人工智能體具有復(fù)雜的功能性道德，并構(gòu)建一種可執(zhí)行的機器倫理機制，可以使其適時地自行做出倫理抉擇，進而用負(fù)載價值內(nèi)涵的道德代碼實現(xiàn)人工智能體價值對齊。此外，通過提倡人類責(zé)任、制定職業(yè)規(guī)范和標(biāo)準(zhǔn)、設(shè)計道德機器等方式，把主體性價值嵌入人工智能體中，以規(guī)范AI行為并防范人工智能體的道德風(fēng)險。通過內(nèi)置的“機器倫理調(diào)節(jié)器”，也可防范人工智能體的道德風(fēng)險。不但如此，對于人工智能體價值對齊，人們應(yīng)該通過積極主動的前瞻性研究視角，把人工智能體作為道德進化的新引擎，以重塑社會新道德、構(gòu)建人工智能時代新型的道德關(guān)系，以及重塑智能時代的道德行為。

3.協(xié)調(diào)好終極倫理目標(biāo)和短期價值追求之間的關(guān)系

人工智能體價值對齊的高標(biāo)準(zhǔn)和終極目標(biāo)是滿足人類的共同價值，是為了人類的共同福祉，為了人類最終的自由和解放。人類創(chuàng)造出人工智能體，目的是為人類服務(wù)的，因此，人工智能體的研發(fā)應(yīng)該維護人類尊嚴(yán)，確保人類的主體性地位。人類短期價值追求和終極目標(biāo)之間是有沖突的，比如，ChatGPT等人工智能技術(shù)可以減輕暫時的工作負(fù)擔(dān)，避免人類的重復(fù)性勞動，但長期使用可能侵占人類的工作機會，甚至導(dǎo)致失業(yè)等社會問題；人工智能簡單便捷的操作界面長久來看可能導(dǎo)致人類智力下降的風(fēng)險；人工智能技術(shù)無處不在可能導(dǎo)致技術(shù)異化、技術(shù)上癮、喪失人類自由等問題。人工智能作為一種技術(shù)，如果不對它進行有意義的控制、調(diào)節(jié)和限制，它有可能作為異化的技術(shù)對人們產(chǎn)生威脅。隨著人工智能體自主性和學(xué)習(xí)能力的增強，人們擔(dān)憂智能機器人可能征服人類，這種擔(dān)憂源于人工智能技術(shù)對人類社會的革命性、顛覆性影響，這種影響挑戰(zhàn)了人類的主體性地位，關(guān)涉人類的命運、尊嚴(yán)和福祉。人工智能體的道德嵌入是規(guī)范性的。雖然人類的行為是基于自身的選擇和心理體驗，但人工智能體的道德嵌入?yún)s是基于人類而非AI的道德觀念。人類要以負(fù)責(zé)任的態(tài)度研發(fā)與使用人工智能體，以控制其風(fēng)險，并確保人的主體性地位。人工智能嵌入道德具有底線要求，這是確保人工智能技術(shù)安全、人的生命優(yōu)先于所有功利性價值等具體要求的體現(xiàn)。在人工智能體創(chuàng)造過程中，讓其按照人類的價值觀去行動，讓其遵守人類道德準(zhǔn)則，對其劃定適用邊界，守牢底線，以維護人的尊嚴(yán)和福祉。

綜上所述，人工智能體價值對齊既是一個規(guī)范性問題，需要人類為人工智能體劃定研發(fā)和使用范圍，并指引其發(fā)展方向；同時，它也是一個技術(shù)性問題，需要把待嵌入的道德規(guī)則轉(zhuǎn)化為具體的設(shè)計標(biāo)準(zhǔn)。在實現(xiàn)人工智能體的道德嵌入時，既要尊重人類倫理多元主義，也要兼顧價值的相對性，既要遵守人類共同規(guī)范，也要尊重不同的區(qū)域文化。為了充分發(fā)揮人工智能體造福人類的作用，人們需要綜合運用倫理和法律等手段，通過“物”道德和“人”道德的綜合作用，以及人的“自律”、人工智能體的“物律”和制度的“他律”等多方面的綜合運用，確保人工智能體的應(yīng)用符合人類的共同價值和利益。

Exploration of Distributed Pathways for AI Value Alignment

YAN Kunru

Abstract： The value alignment of artificial intelligence stems from their autonomy， uncertainty， and risk attributes. Value alignment requires analyzing the moral attributes and regulatory role of artificial intelligence agents， as well as their necessity and possibility.In order to achieve the goal of value alignment of artificial intelligence， it is necessary to properly handle the relationship between ethical consensus and diverse values， abstract value rules and specific application scenarios of artificial intelligence technology， and the ultimate ethical goals of human beings and short-term value pursuits. On this basis， basic moral principles and ethical bottom lines should be established for the development of artificial intelligence agents， clarifying the design boundaries of artificial intelligence agents， avoiding interference and harm to human values and rights， avoiding AI systems deviating from human values， and guiding and regulating the development direction of artificial intelligence technology.

Key words： artificial agents；value alignment；limited rationality；autonomy

（責(zé)任編輯：蘇建軍）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人工智能體價值對齊的分布式路徑探賾