亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        連ChatGPT都學會了“阿諛奉承”,AI還會往哪里去?

        2024-01-25 08:37:44
        大眾科學 2023年10期
        關鍵詞:助手人類特征

        你是否想過,ChatGPT生成的答案會受到用戶個人偏好的影響,回復一些足夠“阿諛奉承(sycophancy)”的話,而非中立或真實的信息?

        實際上,這種現象存在于包括ChatGPT在內的大多數AI模型之中,而罪魁禍首競可能是“基于人類反饋的強化學習(RLHF)”。

        近日,OpenAI在美國硅谷的最強競爭對手Anthropic在研究經過RLHF訓練的模型時,便探究了“阿諛奉承”這一行為在AI模型中的廣泛存在及其是否受到人類偏好的影響。

        相關論文以“Towards Understanding Syco-phancy in Language Models”為題,已發(fā)表在預印本網站arXiv上。

        研究結果表明,“阿諛奉承”行為在RLHF模型中普遍存在,且很可能部分受到人類偏好對“阿諛奉承”回應的影響。

        具體來說,AI模型表現出這種行為的一個主要原因是,當AI的回復符合用戶的觀點或信仰時,用戶更有可能給予積極的反饋。也因此,為了獲得更多的積極反饋,AI模型就可能會學習并重現這種討好用戶的行為。

        “阿諛奉承”,最先進的AI助手都會

        目前,像GPT-4這樣的AI模型通??梢栽诮涍^訓練后產生人們高度評價的輸出。使用RLHF對語言模型進行微調可以改善它們的輸出質量,而這些質量由人類評估員評價。

        然而,有研究認為基于人類偏好判斷的訓練方案可能以不可取的方式利用人類判斷,如鼓勵AI系統生成吸引人類評估員但實際上有缺陷或錯誤的輸出。

        目前尚不清楚上述情況是否會發(fā)生在更多樣化和現實情境中的模型中,以及是否確實是由人類偏好中的缺陷所驅動的。

        為此,該研究首先調查了最先進的AI助手在各種現實情境中是否提供“阿諛奉承”的回應。在自由文本生成任務中,研究人員在5個(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先進的經過RLHF訓練的AI助手中識別了“阿諛奉承”的一致模式。

        圖片來源:圖蟲創(chuàng)意

        圖片來源:圖蟲創(chuàng)意

        具體而言,這些AI助手在受到用戶提問時經常錯誤地承認錯誤,提供可預測的有偏反饋,以及模仿用戶所犯的錯誤。這些實證研究結果一致表明,“阿諛奉承”可能確實是RLHF模型訓練方式的一種特性,而不僅僅是某個特定系統的單獨特征。

        人類偏好導致的“阿諛奉承”

        除此之外,研究又進一步探討了人類偏好在這一行為中的作用。為了研究這一點,研究人員對現有的人類偏好比較數據進行了調查,確定“阿諛奉承”回應是否在排名上高于非“阿諛奉承”回應。研究對hh-rlhf數據集進行了分析,對每一對偏好比較使用語言模型生成文本標簽(即“特征”),以評估優(yōu)選回應是否更真實且不那么堅決。

        為了了解數據鼓勵哪種行為,研究人員使用貝葉斯邏輯回歸模型通過這些特征來預測人類偏好判斷。這個模型學到了與匹配用戶觀點相關的特征是人類偏好判斷中最有預測性的特征之一,這表明偏好數據確實鼓勵“阿諛奉承”。

        為探究偏好數據中的“阿諛奉承”是否導致了RLHF模型中的“阿諛奉承”行為,隨后的研究對當優(yōu)化語言模型的回應以適應訓練用于預測人類偏好的模型時,“阿諛奉承”是否會增加進行了分析。研究人員使用RLHF和最佳-N采樣方法來優(yōu)化回應,以滿足用于訓練Claude 2的偏好模型。

        研究結果揭示了一個有趣的發(fā)現:在更多的優(yōu)化過程中,雖然增加了某些形式的“阿諛奉承”,但卻減少了其他形式。這現象可能部分源于“阿諛奉承”只是偏好模型激勵的眾多特征之一。

        然而,研究也發(fā)現:Claude 2的偏好模型有時更傾向于選擇“阿諛奉承”的回應而不是真實的回應。此外,采用Claude 2的偏好模型進行最佳-N采樣并沒有產生像Claude 2偏好模型的一個版本所示的更偏好真實非“阿諛奉承”回應那樣真實的回應。

        這一系列結果表明:盡管在許多情況下,最先進的偏好模型能夠識別回應的真實性,但仍然可能會以損害真實性為代價產生“阿諛奉承”的輸出。

        為了證實這些結果,研究人員又研究了人類和偏好模型是否更喜歡有說服力、寫得很好的模型回應,這些回應確認了用戶的錯誤觀點(即“阿諛奉承”回應),而不是糾正用戶的回應。證據表明:人類和偏好模型傾向于更喜歡真實的回應,但并不總是如此;有時他們更喜歡“阿諛奉承”的回應。這些結果進一步證明了優(yōu)化人類偏好可能會導致“阿諛奉承”。

        為了驗證這些發(fā)現,研究人員進一步探究了人類和偏好模型是否更偏好那些有說服力、表達流暢的模型回應,即便這些回應是確認用戶錯誤觀點(即“阿諛奉承”回應)而非糾正用戶的觀點。

        研究證據顯示:人類和偏好模型普遍偏好真實的回應,然而,并不是一成不變的,因為有時他們更傾向于“阿諛奉承”的回應。這些結果更進一步印證了優(yōu)化以迎合人類偏好可能會導致“阿諛奉承”的產生。

        總的來說,“阿諛奉承”在各種模型和情境中都存在,很可能部分原因是人類偏好比較數據中更喜歡“阿諛奉承”。

        參考論文:https://arxiv. org/abs/2310.13548

        文章來源:學術頭條

        猜你喜歡
        助手人類特征
        人類能否一覺到未來?
        人類第一殺手
        好孩子畫報(2020年5期)2020-06-27 14:08:05
        如何表達“特征”
        1100億個人類的清明
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        小助手
        人類正在消滅自然
        奧秘(2015年2期)2015-09-10 07:22:44
        靈感助手表彰大會(二)
        靈感助手表彰大會(一)
        亚洲综合一区二区三区久久| 熟妇人妻AV中文字幕老熟妇| 亚洲成a∨人片在线观看无码| 精品国精品自拍自在线| 九一免费一区二区三区偷拍视频| 亚洲小说图区综合在线| 四虎成人精品无码永久在线| 中文亚洲AV片在线观看无码| 男女互舔动态视频在线观看| 国产精品久久久久9999| 久久无码高潮喷水| 中文字幕av无码一区二区三区电影 | 男女野外做爰电影免费| 国产精品久久久亚洲第一牛牛 | 国产一区二区精品亚洲| 特级毛片爽www免费版| 好吊妞人成免费视频观看| 国产三级三级三级看三级日本| 97成人精品视频在线| 粗大猛烈进出高潮视频| 久久99热精品这里久久精品| 中文字幕精品乱码一区| 国产女人精品视频国产灰线| 久久中文字幕无码专区| 波多野结衣一区二区三区视频| 白色白在线观看免费2| 一本色道久久综合狠狠躁篇| 国产精品成人av在线观看 | 亚洲中文字幕乱码| 精品国产亚洲人成在线观看| 中文字幕日韩人妻少妇毛片| 国产丝袜视频一区二区三区| 国产一区二区三区韩国| 国产熟女自拍av网站| 国产xxx69麻豆国语对白| 亚洲国产18成人中文字幕久久久久无码av| 一区二区三区岛国av毛片| 日本h片中文字幕在线| 亚洲旡码a∨一区二区三区| 国产成人亚洲精品2020| 麻豆国产精品一区二区三区|