亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

連ChatGPT都學(xué)會(huì)了“阿諛?lè)畛小?，AI還會(huì)往哪里去？

2024-01-25 08:37:44

大眾科學(xué) 2023年10期

你是否想過(guò)，ChatGPT生成的答案會(huì)受到用戶(hù)個(gè)人偏好的影響，回復(fù)一些足夠“阿諛?lè)畛校╯ycophancy）”的話，而非中立或真實(shí)的信息？

實(shí)際上，這種現(xiàn)象存在于包括ChatGPT在內(nèi)的大多數(shù)AI模型之中，而罪魁禍?zhǔn)赘?jìng)可能是“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）”。

近日，OpenAI在美國(guó)硅谷的最強(qiáng)競(jìng)爭(zhēng)對(duì)手Anthropic在研究經(jīng)過(guò)RLHF訓(xùn)練的模型時(shí)，便探究了“阿諛?lè)畛小边@一行為在AI模型中的廣泛存在及其是否受到人類(lèi)偏好的影響。

相關(guān)論文以“Towards Understanding Syco-phancy in Language Models”為題，已發(fā)表在預(yù)印本網(wǎng)站arXiv上。

研究結(jié)果表明，“阿諛?lè)畛小毙袨樵赗LHF模型中普遍存在，且很可能部分受到人類(lèi)偏好對(duì)“阿諛?lè)畛小被貞?yīng)的影響。

具體來(lái)說(shuō)，AI模型表現(xiàn)出這種行為的一個(gè)主要原因是，當(dāng)AI的回復(fù)符合用戶(hù)的觀點(diǎn)或信仰時(shí)，用戶(hù)更有可能給予積極的反饋。也因此，為了獲得更多的積極反饋，AI模型就可能會(huì)學(xué)習(xí)并重現(xiàn)這種討好用戶(hù)的行為。

“阿諛?lè)畛小?，最先進(jìn)的AI助手都會(huì)

目前，像GPT-4這樣的AI模型通?？梢栽诮?jīng)過(guò)訓(xùn)練后產(chǎn)生人們高度評(píng)價(jià)的輸出。使用RLHF對(duì)語(yǔ)言模型進(jìn)行微調(diào)可以改善它們的輸出質(zhì)量，而這些質(zhì)量由人類(lèi)評(píng)估員評(píng)價(jià)。

然而，有研究認(rèn)為基于人類(lèi)偏好判斷的訓(xùn)練方案可能以不可取的方式利用人類(lèi)判斷，如鼓勵(lì)A(yù)I系統(tǒng)生成吸引人類(lèi)評(píng)估員但實(shí)際上有缺陷或錯(cuò)誤的輸出。

目前尚不清楚上述情況是否會(huì)發(fā)生在更多樣化和現(xiàn)實(shí)情境中的模型中，以及是否確實(shí)是由人類(lèi)偏好中的缺陷所驅(qū)動(dòng)的。

為此，該研究首先調(diào)查了最先進(jìn)的AI助手在各種現(xiàn)實(shí)情境中是否提供“阿諛?lè)畛小钡幕貞?yīng)。在自由文本生成任務(wù)中，研究人員在5個(gè)（Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2）最先進(jìn)的經(jīng)過(guò)RLHF訓(xùn)練的AI助手中識(shí)別了“阿諛?lè)畛小钡囊恢履Ｊ健?p>

圖片來(lái)源：圖蟲(chóng)創(chuàng)意

具體而言，這些AI助手在受到用戶(hù)提問(wèn)時(shí)經(jīng)常錯(cuò)誤地承認(rèn)錯(cuò)誤，提供可預(yù)測(cè)的有偏反饋，以及模仿用戶(hù)所犯的錯(cuò)誤。這些實(shí)證研究結(jié)果一致表明，“阿諛?lè)畛小笨赡艽_實(shí)是RLHF模型訓(xùn)練方式的一種特性，而不僅僅是某個(gè)特定系統(tǒng)的單獨(dú)特征。

人類(lèi)偏好導(dǎo)致的“阿諛?lè)畛小?/h3>
除此之外，研究又進(jìn)一步探討了人類(lèi)偏好在這一行為中的作用。為了研究這一點(diǎn)，研究人員對(duì)現(xiàn)有的人類(lèi)偏好比較數(shù)據(jù)進(jìn)行了調(diào)查，確定“阿諛?lè)畛小被貞?yīng)是否在排名上高于非“阿諛?lè)畛小被貞?yīng)。研究對(duì)hh-rlhf數(shù)據(jù)集進(jìn)行了分析，對(duì)每一對(duì)偏好比較使用語(yǔ)言模型生成文本標(biāo)簽（即“特征”），以評(píng)估優(yōu)選回應(yīng)是否更真實(shí)且不那么堅(jiān)決。
為了了解數(shù)據(jù)鼓勵(lì)哪種行為，研究人員使用貝葉斯邏輯回歸模型通過(guò)這些特征來(lái)預(yù)測(cè)人類(lèi)偏好判斷。這個(gè)模型學(xué)到了與匹配用戶(hù)觀點(diǎn)相關(guān)的特征是人類(lèi)偏好判斷中最有預(yù)測(cè)性的特征之一，這表明偏好數(shù)據(jù)確實(shí)鼓勵(lì)“阿諛?lè)畛小薄?/p>
為探究偏好數(shù)據(jù)中的“阿諛?lè)畛小笔欠駥?dǎo)致了RLHF模型中的“阿諛?lè)畛小毙袨椋S后的研究對(duì)當(dāng)優(yōu)化語(yǔ)言模型的回應(yīng)以適應(yīng)訓(xùn)練用于預(yù)測(cè)人類(lèi)偏好的模型時(shí)，“阿諛?lè)畛小笔欠駮?huì)增加進(jìn)行了分析。研究人員使用RLHF和最佳-N采樣方法來(lái)優(yōu)化回應(yīng)，以滿(mǎn)足用于訓(xùn)練Claude 2的偏好模型。
研究結(jié)果揭示了一個(gè)有趣的發(fā)現(xiàn)：在更多的優(yōu)化過(guò)程中，雖然增加了某些形式的“阿諛?lè)畛小?，但卻減少了其他形式。這現(xiàn)象可能部分源于“阿諛?lè)畛小敝皇瞧媚Ｐ图?lì)的眾多特征之一。
然而，研究也發(fā)現(xiàn)：Claude 2的偏好模型有時(shí)更傾向于選擇“阿諛?lè)畛小钡幕貞?yīng)而不是真實(shí)的回應(yīng)。此外，采用Claude 2的偏好模型進(jìn)行最佳-N采樣并沒(méi)有產(chǎn)生像Claude 2偏好模型的一個(gè)版本所示的更偏好真實(shí)非“阿諛?lè)畛小被貞?yīng)那樣真實(shí)的回應(yīng)。
這一系列結(jié)果表明：盡管在許多情況下，最先進(jìn)的偏好模型能夠識(shí)別回應(yīng)的真實(shí)性，但仍然可能會(huì)以損害真實(shí)性為代價(jià)產(chǎn)生“阿諛?lè)畛小钡妮敵觥?/p>
為了證實(shí)這些結(jié)果，研究人員又研究了人類(lèi)和偏好模型是否更喜歡有說(shuō)服力、寫(xiě)得很好的模型回應(yīng)，這些回應(yīng)確認(rèn)了用戶(hù)的錯(cuò)誤觀點(diǎn)（即“阿諛?lè)畛小被貞?yīng)），而不是糾正用戶(hù)的回應(yīng)。證據(jù)表明：人類(lèi)和偏好模型傾向于更喜歡真實(shí)的回應(yīng)，但并不總是如此；有時(shí)他們更喜歡“阿諛?lè)畛小钡幕貞?yīng)。這些結(jié)果進(jìn)一步證明了優(yōu)化人類(lèi)偏好可能會(huì)導(dǎo)致“阿諛?lè)畛小薄?/p>
為了驗(yàn)證這些發(fā)現(xiàn)，研究人員進(jìn)一步探究了人類(lèi)和偏好模型是否更偏好那些有說(shuō)服力、表達(dá)流暢的模型回應(yīng)，即便這些回應(yīng)是確認(rèn)用戶(hù)錯(cuò)誤觀點(diǎn)（即“阿諛?lè)畛小被貞?yīng)）而非糾正用戶(hù)的觀點(diǎn)。
研究證據(jù)顯示：人類(lèi)和偏好模型普遍偏好真實(shí)的回應(yīng)，然而，并不是一成不變的，因?yàn)橛袝r(shí)他們更傾向于“阿諛?lè)畛小钡幕貞?yīng)。這些結(jié)果更進(jìn)一步印證了優(yōu)化以迎合人類(lèi)偏好可能會(huì)導(dǎo)致“阿諛?lè)畛小钡漠a(chǎn)生。
總的來(lái)說(shuō)，“阿諛?lè)畛小痹诟鞣N模型和情境中都存在，很可能部分原因是人類(lèi)偏好比較數(shù)據(jù)中更喜歡“阿諛?lè)畛小薄?/p>
參考論文：https：／／arxiv. org/abs/2310.13548
文章來(lái)源：學(xué)術(shù)頭條

猜你喜歡

人類(lèi)特征優(yōu)化

超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
房地產(chǎn)導(dǎo)刊(2022年5期)2022-06-01 06:20:14
人類(lèi)能否一覺(jué)到未來(lái)？
大科技·百科新說(shuō)(2021年6期)2021-09-12 02:37:27
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
建材發(fā)展導(dǎo)向(2021年12期)2021-07-22 08:06:48
關(guān)于優(yōu)化消防安全告知承諾的一些思考
建材發(fā)展導(dǎo)向(2021年7期)2021-07-16 07:07:52
一道優(yōu)化題的幾何解法
中學(xué)生數(shù)理化(高中版.高二數(shù)學(xué))(2021年12期)2021-04-26 07:43:48
人類(lèi)第一殺手
好孩子畫(huà)報(bào)(2020年5期)2020-06-27 14:08:05
如何表達(dá)“特征”
瘋狂英語(yǔ)·新策略(2019年10期)2019-12-13 08:43:28
1100億個(gè)人類(lèi)的清明
意林·全彩Color(2019年6期)2019-07-24 08:13:50
不忠誠(chéng)的四個(gè)特征
當(dāng)代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
數(shù)學(xué)小靈通·3-4年級(jí)(2017年9期)2017-10-13 08:10:54

大眾科學(xué)2023年10期

大眾科學(xué)的其它文章
“00后上崗整活”如何讓傳播打破“次元壁”
“雙碳”目標(biāo)下建筑領(lǐng)域低碳治理改革路徑
大數(shù)據(jù)環(huán)境下小型公共圖書(shū)館建設(shè)思考
高職院校產(chǎn)教融合共同體建設(shè)的實(shí)踐探索
CrossFit訓(xùn)練在高校體育課程應(yīng)用研究
“近源綠地”模式下盧龍古城片區(qū)綠化空間更新設(shè)計(jì)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

連ChatGPT都學(xué)會(huì)了“阿諛?lè)畛小?，AI還會(huì)往哪里去？

“阿諛?lè)畛小?，最先進(jìn)的AI助手都會(huì)

“阿諛?lè)畛小?，最先進(jìn)的AI助手都會(huì)