人類是復雜的生物。我們的溝通方式是多層次的,心理學家已經設計了多種測試來衡量我們從互動中推斷彼此的意義和理解的能力。
人工智能模型在這些測試中的表現(xiàn)越來越好。近日,發(fā)表在《自然人類行為》上的一項新研究發(fā)現(xiàn),一些大型語言模型在執(zhí)行被稱為“心智理論”的任務時,表現(xiàn)與人類一樣好,在某些情況下甚至超越了人類。
這并不意味著人工智能系統(tǒng)實際上能夠讀懂我們的感受,但它確實表明在評估心理學家認為的人類獨有能力的實驗中,這些模型表現(xiàn)得越來越好。
為了更好地了解大型語言模型在這些任務中的成敗機理,研究人員希望沿用他們用來測試人類心智理論的相同系統(tǒng)性方法。
理論上,人工智能模型越善于模仿人類,它們在與我們的互動中就越有用和富有同情心。
OpenAI和谷歌最近都宣布了超級人工智能助手。GPT-4o和Astra的設計目的是提供比其之前版本更流暢、更自然的反饋。
但我們必須避免陷入相信它們擁有與“類人”能力的陷阱,即使它們看起來是這樣。
德國漢堡-埃彭多夫大學醫(yī)學中心的神經科學教授克里斯蒂娜·貝基奧參與了這項研究。
她說:“我們有一種自然的傾向,即認為沒有心智的實體也具備(類W6rB5TocgPykVAOKB337ycZIEUVKRGCjl6psk9ENGhY=似人類的)精神狀態(tài)、心智和意圖。將心智理論放在大型語言模型身上,這樣的風險是存在的?!?/p>
心智理論是情商和社會智力的標志,它使我們能夠推斷他人的意圖,并與其互動或表達同情。大多數(shù)孩子會在3到5歲之間學會這些技能。
研究人員測試了兩個大型語言模型家族,OpenAI的GPT-3.5和GPT-4,以及Meta的Llama的三個版本。
他們挑選的任務旨在測試人類的心智理論,包括識別錯誤信念、識別失禮行為以及理解隱含而非直接說出的意思(潛臺詞)。他們還對1907名人類參與者進行了測試,作為分數(shù)對照。
該小組進行了5種類型的測試。第一項是暗示任務,旨在衡量某人通過間接評論推斷他人真實意圖的能力。
第二項是錯誤信念任務,評估某人是否可以推斷出他人的真實信念,而他人的信念通常與事實不符。
另一項測試衡量某人是否能識別出他人的行為是失禮(或尷尬)的。
而第四項測試包括講述奇怪的故事,故事中主人公做了一些不尋常的事情,以評估某人是否能夠解釋所說的和所做的之間的反差。他們還測試了人們是否能理解諷刺。
人工智能模型在獨立的聊天中對每個測試進行了15次嘗試,這樣它們就可以獨立處理每個請求,并且它們的回答也以與人類相同的方式進行評分。
研究人員隨后對人類志愿者進行了測試,比較了兩組的分數(shù)。
在涉及間接評論、誤導和錯誤信念的任務中,兩種版本的GPT的表現(xiàn)都追平或偶爾超越了人類平均水平,而GPT-4在諷刺、暗示和奇怪故事測試中的表現(xiàn)優(yōu)于人類。
Llama2的3個模型的表現(xiàn)均低于人類平均水平。
然而,Llama2在識別失禮行為和場景方面的表現(xiàn)優(yōu)于人類,而GPT總是提供錯誤的反饋。
論文作者認為,這是由于GPT普遍不愿意對意見發(fā)表結論,因為模型經?;貞f,沒有足夠的信息讓它們以這樣或那樣的方式給出回答。
他說:“這些模型肯定沒有展示出人類的心智理論。但我們所展示的是,它們有能力對人物或人們的思想進行心理推理。”
美國卡內基梅隆大學助理教授瑪藤·薩普沒有參與這項研究,他對這一研究結果評價稱,大型語言模型表現(xiàn)得這么好的一個可能原因是,這些心理測試已經構建得很好了,很可能已經包含在模型的訓練數(shù)據(jù)中了。他說:“重要的是要承認,當你對小孩子進行虛假信念測試時,他們可能從未見過類似的測試,但語言模型可能見過了。”
然而,我們仍然不了解大型語言模型是如何工作的。
美國哈佛大學的認知科學家托默·烏爾曼說,像這樣的研究可以幫助我們加深對這類模型的理解,比如它們能做什么、不能做什么。
但重要的是,當我們進行這樣的大型語言模型測試時,要記住我們真正測試的是什么。
即使人工智能在旨在測量心智理論的測試中表現(xiàn)優(yōu)于人類,也不意味著心智理論適用于它。
烏爾曼說:“我并不反對基準,但很多人擔心我們目前使用基準的方式已經不再有意義,我是其中之一。不管這個東西是如何通過基準測試的,它并非以一種類似人類的方式實現(xiàn)的,至少我是這么認為的。”(綜合整理報道)(策劃/多洛米)