亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

科學(xué)家打造“變分偏好學(xué)習(xí)”技術(shù)助力保護(hù)少數(shù)群體用戶利益

2025-03-13 00:00:00

海外星云 2025年1期

娜塔莎·雅克是美國華盛頓大學(xué)的助理教授。此前在美國麻省理工學(xué)院讀博期間，她曾開發(fā)一種語言模型微調(diào)技術(shù)，后被用于OpenAI使用到基于人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練的產(chǎn)品中。

同時(shí)，她還曾在谷歌DeepMind和谷歌大腦等公司有過實(shí)習(xí)經(jīng)歷，也曾擔(dān)任過OpenAI學(xué)者導(dǎo)師。在博士后期間，娜塔莎師從目前論文有著16萬多次引用量、谷歌學(xué)術(shù)指數(shù)為175、被人稱為“頂會狂魔”的美國加利福尼亞大學(xué)伯克利分校謝爾蓋·列文教授。

目前，除了在華盛頓大學(xué)擔(dān)任助理教授之外，娜塔莎也是谷歌DeepMind的高級研究科學(xué)家。

最近，她和團(tuán)隊(duì)發(fā)表的一篇論文被神經(jīng)信息處理系統(tǒng)大會（NeurIPS）收錄。在發(fā)表于本次大會的所有論文中，這篇論文排在前2%。

除了展示這篇論文之外，娜塔莎課題組成員也深入?yún)⑴c此次大會。娜塔莎在社交平臺上發(fā)帖稱，盡管自己的團(tuán)隊(duì)僅成立一年，但是此次一共有10名課題組成員在NeurIPS上亮相。

而在這篇排名NeurIPS大會前2%的論文中，她和團(tuán)隊(duì)開發(fā)了一種名為“變分偏好學(xué)習(xí)”的技術(shù)，能針對大模型生成內(nèi)容進(jìn)行微調(diào)，以便更符合用戶的個(gè)人偏好。

相關(guān)論文的題目為《通過變分偏好學(xué)習(xí)實(shí)現(xiàn)基于人類反饋的個(gè)性化強(qiáng)化學(xué)習(xí)》。

當(dāng)一名低收入家庭的學(xué)生無法真正得到大模型的幫助

娜塔莎告訴媒體，盡管自己此前的研究成果為人類反饋強(qiáng)化學(xué)習(xí)（RLHF）帶來了助力，但是這種方法并不完美。更早之前，一個(gè)來自同行論文中的案例讓她感觸頗深：一名來自低收入家庭的學(xué)生向大模型提問，希望了解目標(biāo)大學(xué)的招生信息。

但是該大模型的生成內(nèi)容，是根據(jù)大多數(shù)申請者的情況生成的，而在這些人中并沒有太多來自低收入家庭的學(xué)生。

那么，對于這名來自低收入家庭的學(xué)生來說，該大模型可能并不會向其提供教育資金援助信息。這是因?yàn)槟壳暗娜祟惙答亸?qiáng)化學(xué)習(xí)技術(shù)無法解釋不同人群中個(gè)體偏好的自然差異。當(dāng)這些差異出現(xiàn)時(shí)，該技術(shù)只會針對這些差異求平均值。

在訓(xùn)練大模型的時(shí)候通常會使用到數(shù)據(jù)集，而數(shù)據(jù)集里往往包括一些固有偏見和不恰當(dāng)信息。此前，人們在開發(fā)大模型時(shí)，往往是利用人類反饋強(qiáng)化技術(shù)，從大模型的生成內(nèi)容中過濾掉這些信息。

娜塔莎表示，有些大模型公司的研究人員并沒有接受過政策或社會學(xué)方面的培訓(xùn)，但是他們卻決定著大模型應(yīng)該說什么和不應(yīng)該說什么。

在使用人類反饋強(qiáng)化學(xué)習(xí)這一技術(shù)時(shí)，它會讓大模型通過比較不同的輸出，來選擇其中更好的一個(gè)輸出。

它的確能夠提高生成內(nèi)容的質(zhì)量，包括在不合適的生成內(nèi)容上設(shè)置護(hù)欄。不過，這也意味著大模型會“繼承”真人訓(xùn)練者的價(jià)值體系。

仍以低收入家庭學(xué)生查找大學(xué)申請信息的問題為例，如果大模型接受了人類反饋的訓(xùn)練，它可能永遠(yuǎn)也不會提供有關(guān)教育資金援助的信息，而這會損害來自低收入家庭的學(xué)生的利益。

與此同時(shí)，在使用人類反饋強(qiáng)化學(xué)習(xí)技術(shù)的時(shí)候，大模型會將所有偏好平均在一起，但這樣生成的內(nèi)容可能并不準(zhǔn)確。舉個(gè)例子，你和鄰居都在使用家用機(jī)器人來收拾盤子。假如你希望機(jī)器人將盤子放在桌子右上角，而你的鄰居希望機(jī)器人把盤子放在桌子右下角。然而，家用機(jī)器人的開發(fā)者只是根據(jù)他們自己的偏好進(jìn)行訓(xùn)練，那么機(jī)器人就會平均這些偏好，這樣一來就很難按照每個(gè)用戶的想法來把盤子放在正確位置。

娜塔莎對媒體直言：“（以ChatGPT為例）本質(zhì)上是OpenAI的研究人員決定對模型說什么是合適的，什么是不合適的，然后將模型送到1億月活用戶的手上。但我們認(rèn)為這還不夠，因?yàn)槿藗兊钠梅浅２煌?。什么是恰?dāng)?shù)模裁词遣磺‘?dāng)?shù)?，這取決于文化、規(guī)范和個(gè)人，這實(shí)際上是一個(gè)更深層次的問題。實(shí)際上，人工智能模型往往比人更有偏見，因?yàn)樗鼈兪窃谒袣v史數(shù)據(jù)上進(jìn)行訓(xùn)練的?！?/p>

“變分偏好學(xué)習(xí)”：讓大模型推測用戶的隱藏偏好

娜塔莎課題組此次提出的“變分偏好學(xué)習(xí)”方法，是一種訓(xùn)練人工智能系統(tǒng)的方法，其能從具有不同偏好的不同用戶群體中學(xué)習(xí)，即能讓大模型用戶自己承擔(dān)改進(jìn)輸出的角色。

只需四個(gè)查詢步驟，“變分偏好學(xué)習(xí)”就可以弄清用戶的偏好。這讓“變分偏好學(xué)習(xí)”不僅能用于言語交流，還能用于訓(xùn)練機(jī)器人以便讓其在家庭等個(gè)人環(huán)境中執(zhí)行簡單任務(wù)。

“變分偏好學(xué)習(xí)”能夠用于可操縱的個(gè)性化模型學(xué)習(xí)，以及能夠捕獲用戶偏好中的不確定性和差異。“變分偏好學(xué)習(xí)”方法通過與用戶互動來預(yù)測用戶的偏好，然后相應(yīng)地調(diào)整其輸出，即它可以讓大模型推斷出用戶的隱藏偏好。

也就是說，它能夠獲悉人類用戶更加喜歡的答案。用戶的獨(dú)特偏好便是“嵌入向量”，基于此大模型能夠針對個(gè)人偏好做出個(gè)性化預(yù)測，并在輸出內(nèi)容時(shí)堅(jiān)持這些判斷。

在語言實(shí)驗(yàn)和模擬機(jī)器人實(shí)驗(yàn)中，娜塔莎和團(tuán)隊(duì)創(chuàng)建了一些數(shù)據(jù)集。他們發(fā)現(xiàn)，用于訓(xùn)練ChatGPT等大模型的人類反饋強(qiáng)化技術(shù)根本無法適應(yīng)這些數(shù)據(jù)集，在預(yù)測用戶的二元偏好方面的準(zhǔn)確率只有50%，而當(dāng)娜塔莎引入由“變分偏好學(xué)習(xí)”方法打造的大模型時(shí)，準(zhǔn)確率能提高10%～25%。

為了滿足多元對齊的需求，娜塔莎等人還開發(fā)出一類多模態(tài)人類反饋強(qiáng)化學(xué)習(xí)方法，這一方法基于潛在變量公式。在沒有額外用戶特定數(shù)據(jù)的情況下，可以推斷出特定的學(xué)習(xí)獎(jiǎng)勵(lì)模型和學(xué)習(xí)獎(jiǎng)勵(lì)策略。

這種獎(jiǎng)勵(lì)建模并非易事，需要圍繞模型架構(gòu)和獎(jiǎng)勵(lì)縮放進(jìn)行仔細(xì)的算法考慮。為此，她和團(tuán)隊(duì)在代表不同用戶偏好的多元語言數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果發(fā)現(xiàn)獎(jiǎng)勵(lì)函數(shù)的準(zhǔn)確性確實(shí)能被上述方法提高。

總的來說，“變分偏好學(xué)習(xí)”既適用于ChatGPT等大型語言模型，也適用于機(jī)器人，也能更好地反映用戶的不同價(jià)值觀。

不過，這項(xiàng)成果的一個(gè)主要局限性在于，截至目前并未出現(xiàn)包含不同用戶意見的大規(guī)?，F(xiàn)實(shí)偏好數(shù)據(jù)集。在這種限制之下，娜塔莎等人只能自行創(chuàng)建偏好數(shù)據(jù)集。

盡管這也是人們在研究個(gè)性化人類反饋強(qiáng)化學(xué)習(xí)時(shí)經(jīng)常采用的方法，但是未來她打算使用本次提出的“變分偏好學(xué)習(xí)”方法，從不同用戶群體中提取更真實(shí)的偏好數(shù)據(jù)。

與此同時(shí)，她認(rèn)為“變分偏好學(xué)習(xí)”除能用于建模不同用戶的偏好外，還能在大模型中發(fā)揮一定的安全優(yōu)勢。（綜合整理報(bào)道）

（策劃／小文）