你是否想過(guò),ChatGPT生成的答案會(huì)受到用戶(hù)個(gè)人偏好的影響,回復(fù)一些足夠“阿諛?lè)畛校╯ycophancy)”的話,而非中立或真實(shí)的信息?
實(shí)際上,這種現(xiàn)象存在于包括ChatGPT在內(nèi)的大多數(shù)AI模型之中,而罪魁禍?zhǔn)赘?jìng)可能是“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)”。
近日,OpenAI在美國(guó)硅谷的最強(qiáng)競(jìng)爭(zhēng)對(duì)手Anthropic在研究經(jīng)過(guò)RLHF訓(xùn)練的模型時(shí),便探究了“阿諛?lè)畛小边@一行為在AI模型中的廣泛存在及其是否受到人類(lèi)偏好的影響。
相關(guān)論文以“Towards Understanding Syco-phancy in Language Models”為題,已發(fā)表在預(yù)印本網(wǎng)站arXiv上。
研究結(jié)果表明,“阿諛?lè)畛小毙袨樵赗LHF模型中普遍存在,且很可能部分受到人類(lèi)偏好對(duì)“阿諛?lè)畛小被貞?yīng)的影響。
具體來(lái)說(shuō),AI模型表現(xiàn)出這種行為的一個(gè)主要原因是,當(dāng)AI的回復(fù)符合用戶(hù)的觀點(diǎn)或信仰時(shí),用戶(hù)更有可能給予積極的反饋。也因此,為了獲得更多的積極反饋,AI模型就可能會(huì)學(xué)習(xí)并重現(xiàn)這種討好用戶(hù)的行為。
目前,像GPT-4這樣的AI模型通??梢栽诮?jīng)過(guò)訓(xùn)練后產(chǎn)生人們高度評(píng)價(jià)的輸出。使用RLHF對(duì)語(yǔ)言模型進(jìn)行微調(diào)可以改善它們的輸出質(zhì)量,而這些質(zhì)量由人類(lèi)評(píng)估員評(píng)價(jià)。
然而,有研究認(rèn)為基于人類(lèi)偏好判斷的訓(xùn)練方案可能以不可取的方式利用人類(lèi)判斷,如鼓勵(lì)A(yù)I系統(tǒng)生成吸引人類(lèi)評(píng)估員但實(shí)際上有缺陷或錯(cuò)誤的輸出。
目前尚不清楚上述情況是否會(huì)發(fā)生在更多樣化和現(xiàn)實(shí)情境中的模型中,以及是否確實(shí)是由人類(lèi)偏好中的缺陷所驅(qū)動(dòng)的。
為此,該研究首先調(diào)查了最先進(jìn)的AI助手在各種現(xiàn)實(shí)情境中是否提供“阿諛?lè)畛小钡幕貞?yīng)。在自由文本生成任務(wù)中,研究人員在5個(gè)(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先進(jìn)的經(jīng)過(guò)RLHF訓(xùn)練的AI助手中識(shí)別了“阿諛?lè)畛小钡囊恢履J健?p>
圖片來(lái)源:圖蟲(chóng)創(chuàng)意
圖片來(lái)源:圖蟲(chóng)創(chuàng)意
具體而言,這些AI助手在受到用戶(hù)提問(wèn)時(shí)經(jīng)常錯(cuò)誤地承認(rèn)錯(cuò)誤,提供可預(yù)測(cè)的有偏反饋,以及模仿用戶(hù)所犯的錯(cuò)誤。這些實(shí)證研究結(jié)果一致表明,“阿諛?lè)畛小笨赡艽_實(shí)是RLHF模型訓(xùn)練方式的一種特性,而不僅僅是某個(gè)特定系統(tǒng)的單獨(dú)特征。
除此之外,研究又進(jìn)一步探討了人類(lèi)偏好在這一行為中的作用。為了研究這一點(diǎn),研究人員對(duì)現(xiàn)有的人類(lèi)偏好比較數(shù)據(jù)進(jìn)行了調(diào)查,確定“阿諛?lè)畛小被貞?yīng)是否在排名上高于非“阿諛?lè)畛小被貞?yīng)。研究對(duì)hh-rlhf數(shù)據(jù)集進(jìn)行了分析,對(duì)每一對(duì)偏好比較使用語(yǔ)言模型生成文本標(biāo)簽(即“特征”),以評(píng)估優(yōu)選回應(yīng)是否更真實(shí)且不那么堅(jiān)決。
為了了解數(shù)據(jù)鼓勵(lì)哪種行為,研究人員使用貝葉斯邏輯回歸模型通過(guò)這些特征來(lái)預(yù)測(cè)人類(lèi)偏好判斷。這個(gè)模型學(xué)到了與匹配用戶(hù)觀點(diǎn)相關(guān)的特征是人類(lèi)偏好判斷中最有預(yù)測(cè)性的特征之一,這表明偏好數(shù)據(jù)確實(shí)鼓勵(lì)“阿諛?lè)畛小薄?/p>
為探究偏好數(shù)據(jù)中的“阿諛?lè)畛小笔欠駥?dǎo)致了RLHF模型中的“阿諛?lè)畛小毙袨椋S后的研究對(duì)當(dāng)優(yōu)化語(yǔ)言模型的回應(yīng)以適應(yīng)訓(xùn)練用于預(yù)測(cè)人類(lèi)偏好的模型時(shí),“阿諛?lè)畛小笔欠駮?huì)增加進(jìn)行了分析。研究人員使用RLHF和最佳-N采樣方法來(lái)優(yōu)化回應(yīng),以滿(mǎn)足用于訓(xùn)練Claude 2的偏好模型。
研究結(jié)果揭示了一個(gè)有趣的發(fā)現(xiàn):在更多的優(yōu)化過(guò)程中,雖然增加了某些形式的“阿諛?lè)畛小?,但卻減少了其他形式。這現(xiàn)象可能部分源于“阿諛?lè)畛小敝皇瞧媚P图?lì)的眾多特征之一。
然而,研究也發(fā)現(xiàn):Claude 2的偏好模型有時(shí)更傾向于選擇“阿諛?lè)畛小钡幕貞?yīng)而不是真實(shí)的回應(yīng)。此外,采用Claude 2的偏好模型進(jìn)行最佳-N采樣并沒(méi)有產(chǎn)生像Claude 2偏好模型的一個(gè)版本所示的更偏好真實(shí)非“阿諛?lè)畛小被貞?yīng)那樣真實(shí)的回應(yīng)。
這一系列結(jié)果表明:盡管在許多情況下,最先進(jìn)的偏好模型能夠識(shí)別回應(yīng)的真實(shí)性,但仍然可能會(huì)以損害真實(shí)性為代價(jià)產(chǎn)生“阿諛?lè)畛小钡妮敵觥?/p>
為了證實(shí)這些結(jié)果,研究人員又研究了人類(lèi)和偏好模型是否更喜歡有說(shuō)服力、寫(xiě)得很好的模型回應(yīng),這些回應(yīng)確認(rèn)了用戶(hù)的錯(cuò)誤觀點(diǎn)(即“阿諛?lè)畛小被貞?yīng)),而不是糾正用戶(hù)的回應(yīng)。證據(jù)表明:人類(lèi)和偏好模型傾向于更喜歡真實(shí)的回應(yīng),但并不總是如此;有時(shí)他們更喜歡“阿諛?lè)畛小钡幕貞?yīng)。這些結(jié)果進(jìn)一步證明了優(yōu)化人類(lèi)偏好可能會(huì)導(dǎo)致“阿諛?lè)畛小薄?/p>
為了驗(yàn)證這些發(fā)現(xiàn),研究人員進(jìn)一步探究了人類(lèi)和偏好模型是否更偏好那些有說(shuō)服力、表達(dá)流暢的模型回應(yīng),即便這些回應(yīng)是確認(rèn)用戶(hù)錯(cuò)誤觀點(diǎn)(即“阿諛?lè)畛小被貞?yīng))而非糾正用戶(hù)的觀點(diǎn)。
研究證據(jù)顯示:人類(lèi)和偏好模型普遍偏好真實(shí)的回應(yīng),然而,并不是一成不變的,因?yàn)橛袝r(shí)他們更傾向于“阿諛?lè)畛小钡幕貞?yīng)。這些結(jié)果更進(jìn)一步印證了優(yōu)化以迎合人類(lèi)偏好可能會(huì)導(dǎo)致“阿諛?lè)畛小钡漠a(chǎn)生。
總的來(lái)說(shuō),“阿諛?lè)畛小痹诟鞣N模型和情境中都存在,很可能部分原因是人類(lèi)偏好比較數(shù)據(jù)中更喜歡“阿諛?lè)畛小薄?/p>
參考論文:https://arxiv. org/abs/2310.13548
文章來(lái)源:學(xué)術(shù)頭條