亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        研究發(fā)現(xiàn)Llama2在識別失禮行為上優(yōu)于人類同樣場景下GPT頻繁出錯

        2024-08-03 00:00:00
        海外星云 2024年7期

        人類是復雜的生物。我們的溝通方式是多層次的,心理學家已經設計了多種測試來衡量我們從互動中推斷彼此的意義和理解的能力。

        人工智能模型在這些測試中的表現(xiàn)越來越好。近日,發(fā)表在《自然人類行為》上的一項新研究發(fā)現(xiàn),一些大型語言模型在執(zhí)行被稱為“心智理論”的任務時,表現(xiàn)與人類一樣好,在某些情況下甚至超越了人類。

        這并不意味著人工智能系統(tǒng)實際上能夠讀懂我們的感受,但它確實表明在評估心理學家認為的人類獨有能力的實驗中,這些模型表現(xiàn)得越來越好。

        為了更好地了解大型語言模型在這些任務中的成敗機理,研究人員希望沿用他們用來測試人類心智理論的相同系統(tǒng)性方法。

        理論上,人工智能模型越善于模仿人類,它們在與我們的互動中就越有用和富有同情心。

        OpenAI和谷歌最近都宣布了超級人工智能助手。GPT-4o和Astra的設計目的是提供比其之前版本更流暢、更自然的反饋。

        但我們必須避免陷入相信它們擁有與“類人”能力的陷阱,即使它們看起來是這樣。

        德國漢堡-埃彭多夫大學醫(yī)學中心的神經科學教授克里斯蒂娜·貝基奧參與了這項研究。

        她說:“我們有一種自然的傾向,即認為沒有心智的實體也具備(類W6rB5TocgPykVAOKB337ycZIEUVKRGCjl6psk9ENGhY=似人類的)精神狀態(tài)、心智和意圖。將心智理論放在大型語言模型身上,這樣的風險是存在的?!?/p>

        心智理論是情商和社會智力的標志,它使我們能夠推斷他人的意圖,并與其互動或表達同情。大多數(shù)孩子會在3到5歲之間學會這些技能。

        研究人員測試了兩個大型語言模型家族,OpenAI的GPT-3.5和GPT-4,以及Meta的Llama的三個版本。

        他們挑選的任務旨在測試人類的心智理論,包括識別錯誤信念、識別失禮行為以及理解隱含而非直接說出的意思(潛臺詞)。他們還對1907名人類參與者進行了測試,作為分數(shù)對照。

        該小組進行了5種類型的測試。第一項是暗示任務,旨在衡量某人通過間接評論推斷他人真實意圖的能力。

        第二項是錯誤信念任務,評估某人是否可以推斷出他人的真實信念,而他人的信念通常與事實不符。

        另一項測試衡量某人是否能識別出他人的行為是失禮(或尷尬)的。

        而第四項測試包括講述奇怪的故事,故事中主人公做了一些不尋常的事情,以評估某人是否能夠解釋所說的和所做的之間的反差。他們還測試了人們是否能理解諷刺。

        人工智能模型在獨立的聊天中對每個測試進行了15次嘗試,這樣它們就可以獨立處理每個請求,并且它們的回答也以與人類相同的方式進行評分。

        研究人員隨后對人類志愿者進行了測試,比較了兩組的分數(shù)。

        在涉及間接評論、誤導和錯誤信念的任務中,兩種版本的GPT的表現(xiàn)都追平或偶爾超越了人類平均水平,而GPT-4在諷刺、暗示和奇怪故事測試中的表現(xiàn)優(yōu)于人類。

        Llama2的3個模型的表現(xiàn)均低于人類平均水平。

        然而,Llama2在識別失禮行為和場景方面的表現(xiàn)優(yōu)于人類,而GPT總是提供錯誤的反饋。

        論文作者認為,這是由于GPT普遍不愿意對意見發(fā)表結論,因為模型經?;貞f,沒有足夠的信息讓它們以這樣或那樣的方式給出回答。

        他說:“這些模型肯定沒有展示出人類的心智理論。但我們所展示的是,它們有能力對人物或人們的思想進行心理推理。”

        美國卡內基梅隆大學助理教授瑪藤·薩普沒有參與這項研究,他對這一研究結果評價稱,大型語言模型表現(xiàn)得這么好的一個可能原因是,這些心理測試已經構建得很好了,很可能已經包含在模型的訓練數(shù)據(jù)中了。他說:“重要的是要承認,當你對小孩子進行虛假信念測試時,他們可能從未見過類似的測試,但語言模型可能見過了。”

        然而,我們仍然不了解大型語言模型是如何工作的。

        美國哈佛大學的認知科學家托默·烏爾曼說,像這樣的研究可以幫助我們加深對這類模型的理解,比如它們能做什么、不能做什么。

        但重要的是,當我們進行這樣的大型語言模型測試時,要記住我們真正測試的是什么。

        即使人工智能在旨在測量心智理論的測試中表現(xiàn)優(yōu)于人類,也不意味著心智理論適用于它。

        烏爾曼說:“我并不反對基準,但很多人擔心我們目前使用基準的方式已經不再有意義,我是其中之一。不管這個東西是如何通過基準測試的,它并非以一種類似人類的方式實現(xiàn)的,至少我是這么認為的。”(綜合整理報道)(策劃/多洛米)

        国产美女遭强高潮网站| 新婚人妻不戴套国产精品| 欧美精品亚洲精品日韩专区| 永久黄网站色视频免费| 国产激情无码Av毛片久久| 亚洲免费福利视频网站| 国产精品天天看天天狠| 日本黄页网站免费观看| 国产福利酱国产一区二区| 女同视频网站一区二区| 日韩女优av一区二区| 亚洲综合国产一区二区三区| 欧美一级视频精品观看| 一个人看的在线播放视频| 国产一品二品三品精品在线| ā片在线观看免费观看| av无码av在线a∨天堂app| 白嫩少妇在线喷水18禁| 男女肉粗暴进来动态图| 国产成人无码免费看片软件| 人妻无码人妻有码不卡| 丝袜av乱码字幕三级人妻| 国产成人无码av| 色爱区综合激情五月综合小说| 白白青青视频在线免费观看| 久久女人精品天堂av影院麻 | 日本精品一区二区三区试看| 亚洲 欧美 日韩 国产综合 在线| 色老汉免费网站免费视频| 无码无在线观看| 东京热日本av在线观看| 特级无码毛片免费视频尤物| 丰满少妇爆乳无码专区| 日韩亚洲在线观看视频| 门卫又粗又大又长好爽| 国产精品video| 日韩国产自拍成人在线| 欧美性受xxxx黑人猛交| 日日摸夜夜添无码无码av| 免费国产在线精品三区| 亚洲一区二区在线观看网址|