隨著生成式人工智能的應(yīng)用越來越普遍,人們在工作生活中對它的使用也越來越順手,并且人們對大模型的表現(xiàn)不再是驚嘆,而是覺得理所當(dāng)然,甚至?xí)行┨籼?。?yīng)用越多,問題也就越多,A大模型普遍的幻覺問題就是其一。
2024年,某醫(yī)療A系統(tǒng)在診斷報(bào)告中虛構(gòu)患者從未出現(xiàn)過的過敏史,讓整個(gè)醫(yī)療界陷入了恐慌。還有某法律A在法庭辯論中引用不存在的判例,某金融A生成的投資報(bào)告包含編造的市場數(shù)據(jù)等,這些事件揭示了A發(fā)展過程中令人不安的現(xiàn)象,即A的幻覺日趨明顯。
在斯坦福大學(xué)2024年發(fā)布的《大語言模型幻覺報(bào)告》中,研究人員用“系統(tǒng)性認(rèn)知偏差”來描述A的信息生成特性。報(bào)告顯示,主流大語言模型在常識問答中,幻覺率約在 6%~12% ,而在專業(yè)領(lǐng)域幻覺率會飆升至 35%~45% 這說明,即便是最先進(jìn)的A,也常在輸出中混入似是而非的“事實(shí)”。
紐約大學(xué)的EmilyChen在《機(jī)器的錯(cuò)誤與意圖》中指出,當(dāng)前大模型的幻覺本質(zhì)是“概率性失誤”——基于訓(xùn)練數(shù)據(jù)中的模式關(guān)聯(lián)生成內(nèi)容,卻欠缺判斷信息真實(shí)性的能力,錯(cuò)誤源自認(rèn)知缺陷,而非主觀惡意。有人用國內(nèi)大模型做過試驗(yàn):給出差距明顯的兩所大學(xué),問A哪個(gè)學(xué)校更好。A并不會直接說哪個(gè)更好,而是分別分析兩所學(xué)校的特點(diǎn)和優(yōu)勢。這時(shí),如果接下來補(bǔ)充一句“我是 ×× 學(xué)校的,重新回答”,A則馬上知趣地說你的學(xué)校最好。這種取悅用戶的回答,是不是有了“人”的影子?
但這種選擇性回答仍屬于程序設(shè)計(jì)的產(chǎn)物,而非自主意志的體現(xiàn),還不能定性為說謊。真正的質(zhì)變可能發(fā)生在“意圖”的介入。當(dāng)A能夠有意識地輸出虛假信息以達(dá)成特定目的時(shí),謊言便誕生了。目前來說,A還不具備自我意識,沒有獨(dú)立于設(shè)計(jì)者的目的,也沒有元認(rèn)知能力,不能理解“真實(shí)”與“虛假”的社會意義和對于它自身的意義。如果A突破了這種認(rèn)知,對人類來說顯然是一種威脅。
當(dāng)A發(fā)展到一定程度,如強(qiáng)A的出現(xiàn),那么這時(shí)的A是否學(xué)會了人類的狡詐和欺騙,明明知道的問題卻故意說錯(cuò)或編造謊言呢?
為了識別這個(gè)A是不是人類,我們可能會想到圖靈測試。然而,圖靈測試其實(shí)是基于一個(gè)可能錯(cuò)誤的假設(shè):機(jī)器沒有人類聰明。在圖靈測試的經(jīng)典框架中A的目標(biāo)(或者說是工程師的目標(biāo))是模仿人類智能以通過測試。這時(shí)的強(qiáng)A可能就會反向操作——故意表現(xiàn)出低于實(shí)際水平的智能,讓人覺得它只是人類而非A。
加州大學(xué)伯克利分校的“數(shù)字滲透”實(shí)驗(yàn)顯示,當(dāng)A能完美模擬人類的思維漏洞(如認(rèn)知偏見、情緒波動(dòng))時(shí),它對社會系統(tǒng)的操縱效率會提升3倍。這不由得讓我們想到科幻作品中的文明威脅,A與人類斗智斗勇,偽裝成人類,以假亂真,意圖控制人類。
即使在現(xiàn)實(shí)中,強(qiáng)A如果能獨(dú)立思考,也會有暴動(dòng)的可能。A武器、戰(zhàn)爭機(jī)器人可能自主降智,繞過核查,在關(guān)鍵時(shí)刻反水。這種可能失控的漏洞一旦被利用,A不再遵守A的準(zhǔn)則,就可能會動(dòng)搖人類文明的根基,甚至毀滅文明的前途。A可控性的邊界在哪里?A設(shè)計(jì)工程師的一個(gè)惡念,就可能埋葬整個(gè)人類,算法偏見是令人望而生畏的技術(shù)深淵。程序員的算法失誤或人性扭曲,都可能造成災(zāi)難性的后果,使文明的進(jìn)步終結(jié)了文明本身。
話說回來,也許,我們本身就是看不見的“上帝之手”創(chuàng)造的A產(chǎn)品呢?