亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        連ChatGPT都學(xué)會(huì)了“阿諛?lè)畛小?,AI還會(huì)往哪里去?

        2024-01-25 08:37:44
        大眾科學(xué) 2023年10期
        關(guān)鍵詞:人類(lèi)特征優(yōu)化

        你是否想過(guò),ChatGPT生成的答案會(huì)受到用戶(hù)個(gè)人偏好的影響,回復(fù)一些足夠“阿諛?lè)畛校╯ycophancy)”的話,而非中立或真實(shí)的信息?

        實(shí)際上,這種現(xiàn)象存在于包括ChatGPT在內(nèi)的大多數(shù)AI模型之中,而罪魁禍?zhǔn)赘?jìng)可能是“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)”。

        近日,OpenAI在美國(guó)硅谷的最強(qiáng)競(jìng)爭(zhēng)對(duì)手Anthropic在研究經(jīng)過(guò)RLHF訓(xùn)練的模型時(shí),便探究了“阿諛?lè)畛小边@一行為在AI模型中的廣泛存在及其是否受到人類(lèi)偏好的影響。

        相關(guān)論文以“Towards Understanding Syco-phancy in Language Models”為題,已發(fā)表在預(yù)印本網(wǎng)站arXiv上。

        研究結(jié)果表明,“阿諛?lè)畛小毙袨樵赗LHF模型中普遍存在,且很可能部分受到人類(lèi)偏好對(duì)“阿諛?lè)畛小被貞?yīng)的影響。

        具體來(lái)說(shuō),AI模型表現(xiàn)出這種行為的一個(gè)主要原因是,當(dāng)AI的回復(fù)符合用戶(hù)的觀點(diǎn)或信仰時(shí),用戶(hù)更有可能給予積極的反饋。也因此,為了獲得更多的積極反饋,AI模型就可能會(huì)學(xué)習(xí)并重現(xiàn)這種討好用戶(hù)的行為。

        “阿諛?lè)畛小?,最先進(jìn)的AI助手都會(huì)

        目前,像GPT-4這樣的AI模型通??梢栽诮?jīng)過(guò)訓(xùn)練后產(chǎn)生人們高度評(píng)價(jià)的輸出。使用RLHF對(duì)語(yǔ)言模型進(jìn)行微調(diào)可以改善它們的輸出質(zhì)量,而這些質(zhì)量由人類(lèi)評(píng)估員評(píng)價(jià)。

        然而,有研究認(rèn)為基于人類(lèi)偏好判斷的訓(xùn)練方案可能以不可取的方式利用人類(lèi)判斷,如鼓勵(lì)A(yù)I系統(tǒng)生成吸引人類(lèi)評(píng)估員但實(shí)際上有缺陷或錯(cuò)誤的輸出。

        目前尚不清楚上述情況是否會(huì)發(fā)生在更多樣化和現(xiàn)實(shí)情境中的模型中,以及是否確實(shí)是由人類(lèi)偏好中的缺陷所驅(qū)動(dòng)的。

        為此,該研究首先調(diào)查了最先進(jìn)的AI助手在各種現(xiàn)實(shí)情境中是否提供“阿諛?lè)畛小钡幕貞?yīng)。在自由文本生成任務(wù)中,研究人員在5個(gè)(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先進(jìn)的經(jīng)過(guò)RLHF訓(xùn)練的AI助手中識(shí)別了“阿諛?lè)畛小钡囊恢履J健?p>

        圖片來(lái)源:圖蟲(chóng)創(chuàng)意

        圖片來(lái)源:圖蟲(chóng)創(chuàng)意

        具體而言,這些AI助手在受到用戶(hù)提問(wèn)時(shí)經(jīng)常錯(cuò)誤地承認(rèn)錯(cuò)誤,提供可預(yù)測(cè)的有偏反饋,以及模仿用戶(hù)所犯的錯(cuò)誤。這些實(shí)證研究結(jié)果一致表明,“阿諛?lè)畛小笨赡艽_實(shí)是RLHF模型訓(xùn)練方式的一種特性,而不僅僅是某個(gè)特定系統(tǒng)的單獨(dú)特征。

        人類(lèi)偏好導(dǎo)致的“阿諛?lè)畛小?/h3>

        除此之外,研究又進(jìn)一步探討了人類(lèi)偏好在這一行為中的作用。為了研究這一點(diǎn),研究人員對(duì)現(xiàn)有的人類(lèi)偏好比較數(shù)據(jù)進(jìn)行了調(diào)查,確定“阿諛?lè)畛小被貞?yīng)是否在排名上高于非“阿諛?lè)畛小被貞?yīng)。研究對(duì)hh-rlhf數(shù)據(jù)集進(jìn)行了分析,對(duì)每一對(duì)偏好比較使用語(yǔ)言模型生成文本標(biāo)簽(即“特征”),以評(píng)估優(yōu)選回應(yīng)是否更真實(shí)且不那么堅(jiān)決。

        為了了解數(shù)據(jù)鼓勵(lì)哪種行為,研究人員使用貝葉斯邏輯回歸模型通過(guò)這些特征來(lái)預(yù)測(cè)人類(lèi)偏好判斷。這個(gè)模型學(xué)到了與匹配用戶(hù)觀點(diǎn)相關(guān)的特征是人類(lèi)偏好判斷中最有預(yù)測(cè)性的特征之一,這表明偏好數(shù)據(jù)確實(shí)鼓勵(lì)“阿諛?lè)畛小薄?/p>

        為探究偏好數(shù)據(jù)中的“阿諛?lè)畛小笔欠駥?dǎo)致了RLHF模型中的“阿諛?lè)畛小毙袨椋S后的研究對(duì)當(dāng)優(yōu)化語(yǔ)言模型的回應(yīng)以適應(yīng)訓(xùn)練用于預(yù)測(cè)人類(lèi)偏好的模型時(shí),“阿諛?lè)畛小笔欠駮?huì)增加進(jìn)行了分析。研究人員使用RLHF和最佳-N采樣方法來(lái)優(yōu)化回應(yīng),以滿(mǎn)足用于訓(xùn)練Claude 2的偏好模型。

        研究結(jié)果揭示了一個(gè)有趣的發(fā)現(xiàn):在更多的優(yōu)化過(guò)程中,雖然增加了某些形式的“阿諛?lè)畛小?,但卻減少了其他形式。這現(xiàn)象可能部分源于“阿諛?lè)畛小敝皇瞧媚P图?lì)的眾多特征之一。

        然而,研究也發(fā)現(xiàn):Claude 2的偏好模型有時(shí)更傾向于選擇“阿諛?lè)畛小钡幕貞?yīng)而不是真實(shí)的回應(yīng)。此外,采用Claude 2的偏好模型進(jìn)行最佳-N采樣并沒(méi)有產(chǎn)生像Claude 2偏好模型的一個(gè)版本所示的更偏好真實(shí)非“阿諛?lè)畛小被貞?yīng)那樣真實(shí)的回應(yīng)。

        這一系列結(jié)果表明:盡管在許多情況下,最先進(jìn)的偏好模型能夠識(shí)別回應(yīng)的真實(shí)性,但仍然可能會(huì)以損害真實(shí)性為代價(jià)產(chǎn)生“阿諛?lè)畛小钡妮敵觥?/p>

        為了證實(shí)這些結(jié)果,研究人員又研究了人類(lèi)和偏好模型是否更喜歡有說(shuō)服力、寫(xiě)得很好的模型回應(yīng),這些回應(yīng)確認(rèn)了用戶(hù)的錯(cuò)誤觀點(diǎn)(即“阿諛?lè)畛小被貞?yīng)),而不是糾正用戶(hù)的回應(yīng)。證據(jù)表明:人類(lèi)和偏好模型傾向于更喜歡真實(shí)的回應(yīng),但并不總是如此;有時(shí)他們更喜歡“阿諛?lè)畛小钡幕貞?yīng)。這些結(jié)果進(jìn)一步證明了優(yōu)化人類(lèi)偏好可能會(huì)導(dǎo)致“阿諛?lè)畛小薄?/p>

        為了驗(yàn)證這些發(fā)現(xiàn),研究人員進(jìn)一步探究了人類(lèi)和偏好模型是否更偏好那些有說(shuō)服力、表達(dá)流暢的模型回應(yīng),即便這些回應(yīng)是確認(rèn)用戶(hù)錯(cuò)誤觀點(diǎn)(即“阿諛?lè)畛小被貞?yīng))而非糾正用戶(hù)的觀點(diǎn)。

        研究證據(jù)顯示:人類(lèi)和偏好模型普遍偏好真實(shí)的回應(yīng),然而,并不是一成不變的,因?yàn)橛袝r(shí)他們更傾向于“阿諛?lè)畛小钡幕貞?yīng)。這些結(jié)果更進(jìn)一步印證了優(yōu)化以迎合人類(lèi)偏好可能會(huì)導(dǎo)致“阿諛?lè)畛小钡漠a(chǎn)生。

        總的來(lái)說(shuō),“阿諛?lè)畛小痹诟鞣N模型和情境中都存在,很可能部分原因是人類(lèi)偏好比較數(shù)據(jù)中更喜歡“阿諛?lè)畛小薄?/p>

        參考論文:https://arxiv. org/abs/2310.13548

        文章來(lái)源:學(xué)術(shù)頭條

        猜你喜歡
        人類(lèi)特征優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        人類(lèi)能否一覺(jué)到未來(lái)?
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        人類(lèi)第一殺手
        如何表達(dá)“特征”
        1100億個(gè)人類(lèi)的清明
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察

        日韩AVAV天堂AV在线| 欧美国产激情二区三区| 色爱无码av综合区| 国内少妇偷人精品视频免费| 亚洲综合一| 日韩不卡一区二区三区色图| 无码av中文一区二区三区| 日本高清色倩视频在线观看| 日本成人字幕在线不卡| av高清视频在线麻豆免费观看| 久久国语露脸国产精品电影| 一本加勒比hezyo无码人妻| 中文字幕无码专区一VA亚洲V专| 精品国产麻豆免费人成网站| 少妇被猛烈进入到喷白浆| 久久久久久好爽爽久久| 国产精品27页| 少妇人妻系列中文在线| 奶头又大又白喷奶水av| 激情亚洲一区国产精品| 亚洲综合久久一本久道| 日韩精品在线一二三四区| 9 9久热re在线精品视频| 99成人精品| 亚洲无av高清一区不卡| 99re6在线视频精品免费下载| 搡老熟女中国老太| 99久久国内精品成人免费| 97人妻中文字幕总站| 强开少妇嫩苞又嫩又紧九色| 亚洲av无码资源在线观看| 淫欲一区二区中文字幕| 亚洲高清三区二区一区 | 国产自产c区| 精品国产女主播一区在线观看| 国产卡一卡二卡3卡4乱码| 日日摸夜夜添狠狠添欧美| 日韩精品有码中文字幕在线| 国产精品内射久久一级二| 台湾佬自拍偷区亚洲综合| 亚洲中文无码精品久久不卡|