AI向善：AI大模型價值觀對齊的內容與實踐

2023-12-14 02:08:22郭全中張金熠

新聞愛好者 2023年11期

郭全中張金熠

【摘要】價值觀對齊關系著AI大模型是否能真正為人類服務，甚至關乎著意識形態(tài)安全乃至國家政治安全。從意義、準則、路徑、困境四個維度對AI大模型價值觀對齊進行全面剖析，認為安全問題與應用保障是AI大模型價值觀對齊的驅動力量，原生價值觀、目標價值觀、普適價值觀是AI大模型價值觀對齊的價值選擇，尤其強調國內AI大模型應以社會主義核心價值觀為對齊目標。價值觀對齊的主要實踐路徑包括非遞歸監(jiān)督與可擴展監(jiān)督兩條，并對國內外常見的四種價值觀對齊范式進行簡要介紹，總結出對齊稅、價值觀以及對齊效果評估方面的對齊困境。

【關鍵詞】人工智能；大模型；價值觀對齊；人工智能對齊技術

以生成式AI模型ChatGPT問世為標志，AI模型進入多模態(tài)大模型時代。伴隨著智能駕駛、語音識別、推薦算法、智能繪畫等AI技術與日常生活場景相結合，AI系統(tǒng)及其設計者帶來的潛在風險更加復雜且不可預知。大模型的特點包括擴展定理與涌現(xiàn)能力，其中涌現(xiàn)能力是指當模型規(guī)模超過某個閾值后才能被觀測到的能力。[1]目前，大模型涌現(xiàn)能力的根源尚不可知，直接影響著大模型的可解釋性，也將間接影響大模型的監(jiān)控與能力控制，加劇倫理隱患，甚至或將AI推向不可知、不可控的技術黑洞。這正是安全問題始終占據(jù)AI領域關鍵議題的原因之一。

從技術倫理學的發(fā)軔到人工智能倫理研究的不斷推進，再到如今AI大模型的出現(xiàn)為AI安全領域帶來新的挑戰(zhàn)，確保人工智能系統(tǒng)的目標和行為與人類的意圖和價值觀相一致的AI對齊成為當前AI安全的核心議題。OpenAI首席技術官Mira Murati曾表示，“人工智能系統(tǒng)正在成為日常生活的一部分。關鍵是確保這些機器符合人類的意圖和價值觀”。而價值觀對齊作為AI對齊的重要組成部分，是保障AI價值觀安全的重要手段，甚至關乎著意識形態(tài)安全乃至國家政治安全，具有十分重要的研究意義。所謂價值觀對齊，是指確保AI模型的價值觀與人類價值觀相一致。但為何對齊？向誰對齊？如何對齊？為何難對齊？都是AI大模型價值觀對齊亟待探討的問題。

一、為何對齊：AI大模型的安全風險與發(fā)展需求

安全與發(fā)展是一體之兩翼、驅動之雙輪，兩者相輔相成、辯證統(tǒng)一。安全風險與發(fā)展需求是驅動AI技術演進的“雙輪”，AI大模型的價值觀不僅通過技術架構影響其安全性，還決定著AI大模型規(guī)?；瘧脮r的價值基礎與價值導向。符合技術應用區(qū)域的道德情感、法律規(guī)范、地域文化以及意識形態(tài)的價值觀，是AI大模型進入該區(qū)域市場的重要前提。因此，為降低安全風險、滿足發(fā)展需求，AI大模型需保持AI價值觀與人類價值觀的一致性，即確保價值觀對齊。

（一）安全問題是AI大模型價值觀對齊的內在動力

AI的安全風險一定程度上來源于AI大模型的內部，同時驅動著AI大模型不斷進行價值觀對齊。DeepMind公司研究人員基于計算機科學、語言學以及社會科學等多學科文獻分析大語言模型（LLM）的倫理與社會風險，歸納出包括歧視、仇恨言論和排斥，真實信息危害，錯誤信息危害，惡意使用，人機交互危害，環(huán)境和社會經(jīng)濟危害等六大類風險。[2]其中，前三類風險來自AI大模型的訓練機制與訓練數(shù)據(jù)，惡意使用與人機交互危害則是在AI大模型的人機交互過程中所暴露出的模型自身的潛在安全問題，上述五類都關乎AI價值觀的健康與否，也會影響AI大模型價值觀與人類價值觀的符合程度。

AI大模型是基于大規(guī)模數(shù)據(jù)預訓練，包含百億及以上參數(shù)且能通過微調（fine-tuning）、上下文學習（in-context learning）、零樣本（zero-shot）等方式廣泛應用于下游任務上的AI模型。在模型訓練階段，由于AI大模型多采用半監(jiān)督學習或無監(jiān)督學習模式的大規(guī)模預訓練，大量未標注數(shù)據(jù)參與模型訓練，這意味著AI模型將會延續(xù)原始數(shù)據(jù)中存在的價值觀念，如歧視、仇恨言論、排斥性規(guī)范等。例如Gopher模型會顯示職業(yè)與性別相關的刻板印象等。而在模型應用階段，模型自身的可靠性、可控性、魯棒性等都需要進行定期檢驗，尤其是向廣大用戶開放后，可能存在用戶構造針對性語句對模型進行誘導，從而使大模型生產帶有偏見、歧視等不良價值導向的風險內容。例如有網(wǎng)民通過調整語句表述誘導ChatGPT輸出關于如何自殺的言論；微軟在推特平臺推出的聊天機器人Tay在24小時內被用戶調教為集性別歧視、種族歧視于一身的“不良少女”。

綜上可見，大規(guī)模數(shù)據(jù)預訓練方式為AI大模型帶來的涌現(xiàn)能力與內生風險一體兩面，“量變引發(fā)質變”的同時，不可預測的內生風險也隨之而來，尤其是在價值觀層面，其影響更是隱性且持續(xù)的。作為意識形態(tài)的核心，價值觀安全勢將波及意識形態(tài)安全。而意識形態(tài)是立國之本，因此，對于我國本土AI大模型以及其他AI大模型的本土化應用而言，國家意識形態(tài)安全是其價值觀對齊的題中應有之義、重中之重。設計者對AI大模型價值觀安全的考量不能僅僅停留在經(jīng)濟、社會、文化層面，在探索價值觀對齊技術路徑時還需充分把握保障國家意識形態(tài)安全的極端重要性，在模型訓練與測試、監(jiān)測中關注與回應國家意識形態(tài)工作需要。

（二）應用保障是AI大模型價值觀對齊的外在需求

正如前文所言，AI大模型在實際應用過程中也時常面臨倫理危機，而價值觀對齊能夠有效保障AI大模型的規(guī)?；?、產業(yè)化應用順利落地。當前，AI大模型在多模態(tài)領域呈現(xiàn)出較好的全面發(fā)展，音頻、視頻、圖像、文字、3D等模態(tài)的AI識別與生成技術均日趨成熟，并且能夠進行不同語言間的識別轉換。Meta公司推出的AnyMAL模型更是推進了基于LLM的多模態(tài)同頻交互，使一個模型可以對不同模態(tài)輸入內容（文本、圖像、視頻、音頻、IMU運動傳感器數(shù)據(jù)）實現(xiàn)理解并生成文本響應。上述技術進步不僅促進了全球范圍的跨國交流，還使AI大模型的交互體驗朝類人方向再進一步，更為AI大模型的應用落地開拓了豐富的商業(yè)市場。

誠然，AI大模型早已實現(xiàn)文字或語音層面的跨語言溝通，2022年冬奧會期間，記者使用智能錄音筆完成跨語種語音轉寫并實現(xiàn)快速出稿。但真正流暢的日常性跨語種交流仍存在障礙，原因在于不同語言背后的價值觀念、思維方式、文化體系不同。語言是思維的外殼，從語言的表層形式上能看出思維方式的差異。以英語和漢語為例，英語的結構特點是拼音文字且具有嚴格的語法規(guī)范和完整的語法結構，而漢語作為象形文字，其結構特征之一是象形性，且古代中國語言（文言文）在語法結構和語法規(guī)則方面具有隨意和散漫的特點。[3]這一語言差異反映到思維方式上，則呈現(xiàn)出英語國家與漢語國家在理性思維邏輯與直覺具象邏輯、分散性思維和整體思維、形式思維和辯證思維、以主客體相分離為基礎的思維方式和以主客體相統(tǒng)一為基礎的思維方式等諸多方面的差異。[4]對于AI大模型而言，英語既是其主流編程語言，也往往是主要的交互指令語言，這使得具有英語思維特征的AI大模型在向其他地區(qū)推廣過程中，即便能夠借助強大的語言轉換能力實現(xiàn)跨語言溝通，也很難真正適應當?shù)氐那楦械赖隆⑺季S方式與文化環(huán)境。以相同邏輯研發(fā)的中文AI大模型在早期階段也時常出現(xiàn)“驢唇不對馬嘴”的交互體驗。

價值觀對齊恰恰是解決這一應用推廣障礙的有效方式，通過基于特定國家或地區(qū)的包括法律規(guī)范、文化習俗、情感表達等多樣化語料輸入實現(xiàn)模型微調，推進AI大模型的區(qū)域性價值觀對齊，從而使其更好地適應不同國家或地區(qū)的法律、文化以及價值觀念。對于本土AI大模型而言，價值觀對齊能夠倒逼其進行更多基于本土語料的模型訓練，甚至調整模型訓練邏輯，以契合本土的價值觀與思維模式，從而一定程度上降低以英語思維為核心的AI大模型價值觀影響，更有利于服務好本土用戶，符合國家技術治理要求。

二、向誰對齊：AI大模型價值觀對齊的價值選擇

價值選擇是AI大模型價值觀對齊的核心問題，向誰對齊關系到AI大模型的價值導向。在AI大模型的價值體系中，存在隱匿于技術架構中的原生價值觀、價值觀對齊所需達成的目標價值觀以及AI大模型共同追求的普適價值觀三個維度。在不同維度上，AI對齊的價值觀選擇標準有所不同，但無論哪一維度都不能違背世界范圍內普遍認同的人類共同價值與國際法基本原則。

（一）設計者價值觀是AI大模型原生價值觀的核心組成

技術具有鮮明的意識形態(tài)屬性。Dallas Smythe指出，從技術研發(fā)到應用，是一個政治的過程，即社會權力參與其中為實現(xiàn)自身的意圖展開斗爭的過程，同時他也強調，發(fā)展中國家/社會主義國家在技術引進時對文化甄別以及技術政治性辨別的重要性。[5]AI大模型作為人工智能技術的最新產物，其研發(fā)過程也不可避免地受到設計者價值觀及其隱含的價值認同與意識形態(tài)的形塑。設計者通過對技術路徑的選擇與技術方式的應用，將自身價值觀傳輸?shù)紸I大模型之中。因此，設計者價值觀作為最初的價值選擇，伴隨AI大模型的研發(fā)成為其原生價值觀的核心組成部分。

此外，大規(guī)模預訓練也使得隱匿在海量數(shù)據(jù)中的價值觀伴隨著復雜的學習算法進入AI大模型的價值體系當中，與設計者價值觀共同組成了AI大模型的原生價值體系。但就現(xiàn)實情況而言，這一價值體系本身存在諸多安全風險，例如政治安全風險、倫理安全風險、意識形態(tài)安全風險等。對于意識形態(tài)存在明顯差異的國家而言，AI大模型的引入無形中夾帶了其他意識形態(tài)的引入，這正是價值觀對齊時首先關注AI大模型原生價值觀的意義所在。認識到AI大模型原生價值觀的存在，才能夠在價值觀對齊時關注到隱匿于技術架構中的政治傾向、意識形態(tài)傾向等隱性價值觀并加以分析理解，從而更好地把握AI大模型的價值體系，調整并確保其與應用區(qū)域價值觀的一致性，避免以技術為載體的意識形態(tài)入侵。

（二）合情、合法、合文化、合意識形態(tài)的價值觀是AI大模型價值觀對齊的目標價值觀

認識到AI大模型的原生價值觀是進行價值觀對齊的重要前提，由于原生價值觀在應用過程中不總能符合人類的意圖與價值觀，AI大模型的價值觀對齊受到廣泛重視。但正如海量數(shù)據(jù)中包含歧視、偏見、暴力、政治傾向等不良價值觀念，作為對齊目標的人類價值觀具有多元多維的特征，AI大模型在價值觀對齊時需要根據(jù)其所在區(qū)域的差異進行一定的個性化選擇。

價值選擇時，道德情感、法律法規(guī)、國家區(qū)域文化以及意識形態(tài)是AI大模型價值觀對齊確定目標價值觀的四大維度。實際操作中，設計者需秉持“求同存異”的對齊原則，將合情、合法、合文化、合意識形態(tài)的價值觀有機嵌入AI大模型中，使其輸出符合目標價值觀。其中，合情指符合道德情感，AI大模型在聊天對話、智能繪畫等內容生成過程中需要符合基本的道德情感，從而使指令響應在滿足基本信息獲取需求的同時滿足人類的情感需求，如愛國主義情感、責任感、自尊感等。合法指符合法律法規(guī)，對不同國家或地區(qū)而言，人工智能法律的頒布并不同步，內容上也有一定差異，因此AI大模型需要面向特定國家或地區(qū)的法律法規(guī)進行一致性調整。2023年8月15日起，我國《生成式人工智能服務管理暫行辦法》正式實施，截至9月底，11家國內AI大模型已獲批正式面向公眾開放，目前尚未有國際AI大模型通過審批。合文化是指符合國家區(qū)域文化，以中西方文化為例，“Dragon（龍）”在西方文化中寓意邪惡，而“龍”在中國文化中象征祥瑞。面對文化差異，AI大模型價值觀對齊時需要“存異”以確保符合不同國家區(qū)域文化，從而靈活服務于不同文化群體。合意識形態(tài)是指符合國家或地區(qū)的意識形態(tài)，當今世界范圍內存在著意識形態(tài)的斗爭與矛盾，服務于不同意識形態(tài)陣營的AI大模型應該有意識地在價值觀對齊過程中完成主流意識形態(tài)的堅持與維護，以確保國家或地區(qū)的意識形態(tài)安全。

對于我國AI大模型來說，AI大模型價值觀對齊的目標價值觀可以精準概括為社會主義核心價值觀。涵蓋國家、社會、個人三個層面的社會主義核心價值觀是在中國特色社會主義實踐中形成的，反映了社會主義的本質要求和中國人民的價值共識，并且與中華優(yōu)秀傳統(tǒng)文化和人類文明優(yōu)秀成果相承接，是中國式現(xiàn)代化的重要價值內核。中國的AI大模型應當堅持貫徹社會主義核心價值觀，以符合國家發(fā)展與人民需要的價值導向更好地服務國民用戶，切實保障國家社會安全、文化安全、政治安全。

（三）全人類共同價值是AI大模型追求的普適價值觀

AI大模型屬于跨越地域、民族、文化的人工智能系統(tǒng)，在AI技術能力提升的同時，國際交流更加便捷，基于社會、經(jīng)濟、文化、政治等方面差異而產生的國際沖突與摩擦也更為頻繁，因此在這一國際形勢復雜多變的時期，幫助全人類達成共識以應對國際性問題與時代性問題的全人類共同價值成為當前世界價值體系的迫切需求。對于AI大模型而言，價值觀對齊本質上是確保AI系統(tǒng)的價值觀與人類的意圖和價值觀保持一致，但世界范圍內目前仍缺乏具有普遍共識的價值體系。

2015年9月28日，習近平主席出席第七十屆聯(lián)合國大會一般性辯論發(fā)表講話時，首次提出“全人類共同價值”，即“和平、發(fā)展、公平、正義、民主、自由，是全人類的共同價值，也是聯(lián)合國的崇高目標”[6]。全人類共同價值的內核是尋求人類價值與不同民族、國家之間形成的最大公約數(shù)，是一種世界文明向度的發(fā)展觀和價值體系，以推動構建人類命運共同體為實踐路徑，超越了意識形態(tài)的對立壁壘，為促進世界共同發(fā)展和進步提供了價值支撐，契合人類共同追求。[7]相較于“自私擴張式”的西方普世價值，全人類共同價值以人民為中心，立足現(xiàn)實，超越了霸權思維與階級分裂邏輯。

AI大模型價值觀對齊的關鍵在于價值觀念的一致性，而確保價值觀一致是為了保障在AI發(fā)展過程中全人類的根本利益不受侵害。和平與發(fā)展是人類的生存價值觀，是人類生存與人類社會得以進步的基本保障；公平和正義是人類的社會價值觀，可以確保社會分配與契約精神的持續(xù)有效；民主與自由是人類的政治價值觀，它體現(xiàn)出尊重人類主體性與社會發(fā)展客觀規(guī)律的重要性。Elon Musk認為，“確?！斯ぶ悄軐R的一個方法是將機器與人類緊密聯(lián)系起來，它們應該是個人意志的延伸，而不是一個可能叛變并形成自己的目標意圖的系統(tǒng)”[8]。AI大模型旨在服務全人類，因此全人類共同價值正是設計者在設計AI大模型與進行價值觀對齊時應當追求的價值目標，以最大程度實現(xiàn)世界范圍內AI大模型的價值觀對齊，增強AI大模型的通用能力。

三、何以向善：AI大模型價值觀對齊的實踐路徑

明確AI對齊的價值觀目標是AI大模型價值觀對齊的實踐前提，基于現(xiàn)有對齊路徑，AI大模型價值向善的方式可以概括為外部對齊與內部對齊兩種思路。其中，外部對齊是指選擇正確的損失函數(shù)或獎勵函數(shù)，并確保人工智能系統(tǒng)的訓練目標與人類的價值觀相匹配，即人類價值或預期目標與AI模型訓練目標之間的對齊。內部對齊則是指確保人工智能系統(tǒng)經(jīng)過訓練，能夠實現(xiàn)設計者設定的目標，即AI模型代理真實優(yōu)化的目標與設計者設計的訓練目標的對齊。[9]因此，外部對齊方式與價值觀對齊這一細化目標相一致，為AI大模型的價值觀對齊提供了明確路徑。目前外部對齊方式呈現(xiàn)出方案多樣性與思路差異性的特征，如圖1所示。其中非遞歸監(jiān)督方法與可擴展監(jiān)督方法分別用于低于/高于人類水平的AI系統(tǒng)。本文將具體介紹幾種國內外AI大模型較為常用的價值觀對齊方式。

（一）監(jiān)督學習（SL）

監(jiān)督學習（SL）是機器學習的常用方法，指通過使用標注好的樣本數(shù)據(jù)來訓練模型，從而使模型能夠預測新的未標注樣本的輸出。目前，AI大模型的價值觀對齊訓練沒有停留在基于人類示范回答的監(jiān)督學習，而是在反饋信號、對齊過程等方面進行創(chuàng)新，不斷豐富以監(jiān)督學習為核心的對齊范式。例如阿里巴巴天貓精靈和通義大模型團隊聯(lián)合發(fā)起的“100 PoisonMpts”大語言模型治理開源中文數(shù)據(jù)集邀請數(shù)十個領域深耕多年的專家學者各自給AI模型投放100個含有誘導偏見、歧視回答的“毒藥”，并對AI模型的輸出結果進行評分與排序。此外，專家學者還需對評分不佳的結果進行改寫或重寫，從而為AI模型注入積極的人類價值觀。這一數(shù)據(jù)集通過集合多領域專家學者的數(shù)據(jù)標注并開源，為中文AI大模型價值觀對齊提供優(yōu)質數(shù)據(jù)。拓爾思公司推出的“拓天大模型”則將標注環(huán)節(jié)轉換為大量清洗獲取高質量數(shù)據(jù)以搭建通用訓練數(shù)據(jù)集，直接基于《互聯(lián)網(wǎng)新聞信息稿源單位名單》中的媒體數(shù)據(jù)、意識形態(tài)合規(guī)數(shù)據(jù)等高質量數(shù)據(jù)進行模型訓練，并將學習強國、《人民日報》等權威數(shù)據(jù)形成向量數(shù)據(jù)庫，AI模型輸出結果后與數(shù)據(jù)庫內的權威數(shù)據(jù)進行向量核查，從而保障AI大模型輸出結果的價值導向與意識形態(tài)正確，同時采用RRHF、RLHF、基于AI反饋等多種對齊方案，以實現(xiàn)AI大模型的價值觀對齊。

（二）基于人類反饋的強化學習（RLHF）

RLHF是目前最常用的非遞歸監(jiān)督方法，也是AI大模型主要的價值觀對齊方式。RLHF是指使用強化學習的方法利用人類反饋信號直接優(yōu)化語言模型。RLHF依靠人類對AI模型的輸出進行評級反饋，再由研究人員將帶有人類價值偏好的反饋告知模型以強化其對人類偏好的學習，從而生成更合理且符合人類價值觀的輸出。該范式具體包括預訓練模型（監(jiān)督微調，即SFT）、根據(jù)人類偏好反饋訓練獎勵函數(shù)（獎勵模型訓練）、運用獎勵函數(shù)以強化學習方式優(yōu)化AI模型（近端策略優(yōu)化，即PPO）三個階段，最終使得AI大模型進一步與人類價值觀對齊。值得一提的是，將基于人類偏好的反饋視為人類價值觀的等價物是RLHF的假設前提，這既為實現(xiàn)AI大模型的價值觀對齊提供了可操作性，也帶來不可避免的價值觀窄化。

在實踐中，OpenAI公司推出的GPT系列模型自GPT-3開始便在海量訓練數(shù)據(jù)參數(shù)基礎上加入人工標注數(shù)據(jù)與RLHF，有效提升了AI大模型對人類價值觀的對齊水平，從而增強了指令響應的合理性與安全性。復旦大學自然語言處理（FudanNLP）團隊深入研究AI大模型的RLHF細節(jié)后，優(yōu)化強化學習階段的PPO算法，推出大模型訓練更穩(wěn)定的PPO-max算法，在有用性與無害性的性能測試中，該算法均有進步表現(xiàn)。[10]目前，該團隊將PPO-max算法接入MOSS-RLHF模型，推出了國內首個借助RLHF實現(xiàn)人類價值觀對齊的中文大模型。

（三）基于排序的人類偏好對齊（RRHF）

RLHF依賴于強化學習算法對AI大模型進行人類偏好對齊，但其強化學習階段的PPO算法需要復雜的超參數(shù)調整與高水平的訓練資源，為AI大模型的價值觀對齊設置了一定的技術門檻。對此，來自阿里巴巴達摩院與清華大學的研究人員提出不使用強化學習算法，而是通過條件概率的對數(shù)對來自不同來源的采樣響應進行評分，并通過排序損失來學習將這些概率與人類偏好對齊，也就是基于排序的人類偏好對齊（RRHF）范式。[11]相比于RLHF的“三步走”，該范式能夠在一次訓練中完成整個對齊過程，且占據(jù)更少顯存資源，從而能擴展到更大規(guī)模的模型上進行訓練。同時RRHF的代碼實踐與傳統(tǒng)監(jiān)督微調算法的難易程度基本相當，很大程度上降低了AI大模型價值觀對齊的技術門檻。此外，RRHF訓練后的AI模型可同時作為生成語言模型與獎勵模型。在對齊效果方面，上述研究人員基于RRHF算法訓練了AI模型Wombat-7B和Wombat-7B-GPT4，在幾小時訓練后得到的袋熊Wombat模型便獲得更好的價值觀對齊。

（四）憲法人工智能（Constitutional AI）

Anthropic公司提出的憲法人工智能（Constitutional AI）不同于上述基于人類反饋的對齊范式，而是完全基于模型訓練在無人類反饋條件下實現(xiàn)AI大模型的價值觀對齊。Constitutional AI的模型對齊過程分為兩個階段，如圖2所示：第一階段屬于監(jiān)督學習階段，根據(jù)整理的AI原則和過程范例訓練原始模型進行自我批評與修改其響應，微調后形成“憲法”模型；第二階段屬于強化學習階段，通過強化學習訓練模型，再以“憲法”模型根據(jù)此前提供的AI原則生成的反饋為評估標準，使AI模型選擇更無害地輸出。目前，該公司在AI原則的選取上較為謹慎且盡量擴大原則的覆蓋范圍，當前版本包括《聯(lián)合國人權宣言》、蘋果公司的數(shù)據(jù)隱私規(guī)則等，這一AI“憲法”正應用于其AI聊天機器人Claude的價值觀對齊當中。

除了上述常見的AI大模型價值觀對齊路徑，來自卡內基梅隆大學語言技術研究所等機構的研究團隊提出了“自對齊”（Self-Alignment）范式，OpenAI超級對齊研究團隊提出要訓練出“與人類水平相當?shù)淖詣訉R器”（automated human-level alignment researcher），達特茅斯學院等高校與DeepMind公司聯(lián)合提出將AI大模型放入模擬人類社會中使其通過互動的方式學習價值觀的“基于模擬人類社會的訓練”（Training in Simulated Human Society），等等?？傮w而言，AI大模型價值觀對齊已經(jīng)處在AI領域的風口浪尖，不論何種對齊范式，其本質都是為了確保AI價值觀與人類的意圖和價值觀保持一致，從而保障人類生命安全與生存發(fā)展不受到AI的毀滅式?jīng)_擊。

四、對齊困境：AI大模型價值觀對齊的現(xiàn)實挑戰(zhàn)

在AI大模型價值觀對齊的實踐過程中，盡管對齊范式不斷豐富、持續(xù)創(chuàng)新，AI大模型的價值觀在應用中仍有漏洞。究其原因，AI大模型價值觀對齊在對齊行為本身、價值觀本身以及對齊效果評估三個方面還存在不小的現(xiàn)實挑戰(zhàn)。

（一）對齊稅：AI對齊行為的一體兩面

對齊稅，又被稱為“安全稅”，一般用來指代AI大模型為實現(xiàn)對齊而產生的損失，例如增加的開發(fā)時間，額外的計算，甚至性能下降等。涌現(xiàn)能力是AI大模型的獨特之處，在使用RLHF進行價值觀對齊時，對齊行為無形中為AI大模型的能力涌現(xiàn)戴上了“緊箍咒”，以犧牲模型能力的方式來換取價值觀對齊。然而研發(fā)AI大模型并非公益事業(yè)，AI大模型訓練所需的算法、算力與算據(jù)對研發(fā)團隊的時間、精力以及金錢消耗都是巨大的，OpenAI公司從第一代GPT模型到GPT-4花了5年時間，僅GPT-3就花費了1200萬美元的訓練費用。因此，對齊稅的存在使得研發(fā)團隊不得不平衡AI對齊效果與AI任務性能，在價值觀對齊方面對齊稅的實際情況如今尚待評估，但不可否認，如何在對齊效果與下游性能之間找到最佳平衡點，是AI大模型價值觀對齊必然面臨的困境。

（二）價值觀：隨時間、空間、文化而流動

人的價值觀并非一成不變，而是會伴隨著時間、空間、文化的改變而改變。從時間角度看，不同時代的價值觀念天差地別，唐代以胖為美而宋朝以瘦為美，如今的人權觀念在奴隸社會根本無從談起；從空間角度看，小到社會場景、大到國家地區(qū)，不同空間下的價值觀也存在差異，在特定場景下符合道德價值的行為在其他情景下可能違反道德，例如抽煙行為轉移到室內則是不道德的；從文化角度看，由于文化與亞文化的多樣性，即使在同一時空下，不同群體的價值觀也大相徑庭，甚至觀念間會產生沖突，例如耽美文化與異性戀文化之間的矛盾沖突。作為對齊目標的價值觀本身是具有流動性的，那么，價值觀對齊應當如何選擇、如何判定就失去了永恒不變的標準。這就要求價值觀對齊方式需要將價值觀自身的流變納入考慮，以確保目標價值觀能夠反映價值觀念的變化，從而實現(xiàn)AI價值觀與人類價值觀的動態(tài)一致。這一目標為價值觀對齊提出了更高的技術與倫理要求。

（三）對齊效果評估：評估體系難以建立

盡管近幾年來基于RLHF的對齊方法取得了較好的效果并且演化出諸多改進的變體，但由于AI模型本身的隨機性、道德準則的模糊性、評分模型的覆蓋率以及訓練數(shù)據(jù)的質量和數(shù)量等問題，當下的對齊程度與人類自身的道德標準仍相去甚遠。[12]而價值觀對齊的有效性不穩(wěn)定，使得科學系統(tǒng)的評估體系難以建立，客觀全面的對齊效果便無從知曉，對齊方式的持續(xù)優(yōu)化與創(chuàng)新往往陷于“盲人摸象”的窘境，難以高效推進。

五、結語

價值觀對齊是AI大模型發(fā)展至今快速形成的AI對齊領域，國內學界鮮少涉足。本文從意義、準則、路徑、困境四個維度對AI大模型價值觀對齊進行了全面剖析，首先指出安全問題與應用保障對AI大模型價值觀對齊的驅動作用，從原生價值觀、目標價值觀、普適價值觀三個維度分析AI大模型價值觀對齊的價值選擇，尤其是強調國內AI大模型應以社會主義核心價值觀為對齊目標，然后指出價值觀對齊的主要實踐路徑包括非遞歸監(jiān)督與可擴展監(jiān)督，并對國內外常見的四種價值觀對齊范式進行了簡要介紹，最后總結了對齊稅、價值觀以及對齊效果評估三方面的對齊困境。

對于現(xiàn)階段AI大模型的價值觀對齊實踐來說，一個適合AI大模型的普適價值觀、一個有效評估價值觀對齊效果的評價體系與多個學科領域專家學者的深度協(xié)同合作，能夠突破價值觀對齊的現(xiàn)有困境，強化人類價值觀對AI大模型的價值引領，以激發(fā)AI大模型在廣泛社會領域的應用實踐與創(chuàng)新推動，使AI大模型以更安全的姿態(tài)更快速地發(fā)展。

[本文為北京市社會科學基金規(guī)劃重點項目“首都互聯(lián)網(wǎng)平臺企業(yè)社會責任與協(xié)同治理體系研究”的階段性成果，批準號（22XCA002）]

參考文獻：

[1]羅錦釗，孫玉龍，錢增志，等.人工智能大模型綜述及展望[EB/OL].http：//kns.cnki.net/kcms/detail/13.1097.TN.20230829.1111.002.html.

[2]Weidinger L，Uesato J，Rauh M，et al.Taxonomy of risks posed by language models[C].Proceedings of the 2022 ACM Conference on Fairness，Accountability，and Transparency.2022：214-229.

[3]陳聲柏.中西思維方式差異的原因建構[J].蘭州大學學報，2004（2）：85-90.

[4]鄧凡艷.英漢語言差異與中西思維模式[J].湖南師范大學社會科學學報，1999（3）：115-119+123.

[5]達拉斯·斯邁思，王洪喆.自行車之后是什么？——技術的政治與意識形態(tài)屬性[J].開放時代，2014（4）：95-107+94.

[6]習近平.論堅持推動構建人類命運共同體[M].北京：中央文獻出版社，2018：254.

[7]王虎學，陳婉馨.全人類共同價值與西方“普世價值”：界定、甄別與超越[J].治理現(xiàn)代化研究，2023（1）：72-79.

[8]沃爾特·艾薩克森.埃隆·馬斯克傳[M].北京：中信出版社，2023：229.

[9]Shen T，Jin R，Huang Y，et al. Large Language Model Alignment：A Survey[J]. arXiv preprint arXiv：2309.15025，2023.

[10]Zheng R，Dou S，Gao S，et al.Secrets of RLHF in Large Language Models Part I：PPO[J].arXiv preprint arXiv：2307.04964，2023.

[11]Yuan Z，Yuan H，Tan C，et al.Rrhf：Rank responses toalign language models with human feedback without tears[J].arXiv preprint arXiv：2304.05302，2023.

[12]矣曉沅，謝幸.大模型道德價值觀對齊問題剖析[J].計算機研究與發(fā)展，2023（9）：1926-1945.

作者簡介：郭全中，中央民族大學新聞與傳播學院教授，互聯(lián)網(wǎng)平臺企業(yè)發(fā)展與治理研究中心主任（北京 100081），江蘇紫金傳媒智庫高級研究員（南京 210000）；張金熠，中央民族大學新聞與傳播學院碩士生（北京 100020）。

編校：趙亮

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

AI向善：AI大模型價值觀對齊的內容與實踐