謝天 邱林 李雨曈 羅殷 劉盼
生成式大語言模型(簡稱大模型)橫空出世,在人工智能領(lǐng)域帶來了前所未有的突破。它們能夠參與復(fù)雜的邏輯推理、理解和生成自然語言,甚至顯示出對(duì)社會(huì)現(xiàn)象深刻的洞察與新穎的解釋。對(duì)于社會(huì)科學(xué)研究者,大模型意味著什么?它僅僅是一個(gè)研究工具的升級(jí),還是對(duì)傳統(tǒng)研究范式的挑戰(zhàn)乃至重塑?本文將從大模型的原理和它在研究方法中的實(shí)用案例,來探討大模型將如何重構(gòu)社會(huì)科學(xué)的研究方式。
生成式大語言模型,如GPT(Generative Pretrained Transformer)[1],最初是為了研發(fā)一個(gè)智能填詞工具。比如,有一個(gè)填空題:天空是_______。通過分析海量文本與基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法,GPT能填上:“藍(lán)色的”,因?yàn)楦鶕?jù)計(jì)算,“藍(lán)色的”出現(xiàn)在“天空”后的概率最高。這種能力被有的研究者戲稱為“隨機(jī)鸚鵡”(stochastically parroting)[2],因?yàn)镚PT無法將“天空”這個(gè)詞與實(shí)際的天空對(duì)應(yīng)起來,即它并不“知道”每個(gè)詞所對(duì)應(yīng)的意義是什么。
然而,令人驚訝的是,這只“隨機(jī)鸚鵡”在學(xué)習(xí)了海量的訓(xùn)練數(shù)據(jù)后,形成了有萬億個(gè)參數(shù)的大模型,能產(chǎn)生與人類創(chuàng)作媲美的文本、影音等內(nèi)容,甚至表現(xiàn)出與人類相當(dāng)?shù)男闹悄芰?。例如,GPT-3.5能站在他人視角上看待問題[3](theory of mind),在一系列認(rèn)知與決策任務(wù)中的表現(xiàn)與人類相當(dāng)[4],“涌現(xiàn)”出的類比推理能力甚至超過了人類[5]。在經(jīng)過一定訓(xùn)練后,它還能在內(nèi)部生成一個(gè)理解時(shí)間與空間的世界模型[6]。部分研究者甚至認(rèn)為人工智能(AI)即將產(chǎn)生出自我意識(shí),并呼吁對(duì)未來潛在風(fēng)險(xiǎn)進(jìn)行管控[7]。
傳統(tǒng)的社會(huì)科學(xué)研究,往往由研究者主導(dǎo)進(jìn)行文獻(xiàn)綜述并提出研究問題和理論觀點(diǎn),設(shè)計(jì)研究,收集數(shù)據(jù),分析數(shù)據(jù)。大模型現(xiàn)在已能夠賦能每個(gè)研究環(huán)節(jié)。
文獻(xiàn)綜述是學(xué)術(shù)研究的起點(diǎn)。對(duì)于單篇論文,GPT能幫助研究者迅速總結(jié)出論文的研究問題、方法、主要結(jié)論等框架性要點(diǎn)[8]。而對(duì)于文獻(xiàn)的全面總結(jié),盡管存在不足,GPT已經(jīng)能夠輔助開展系統(tǒng)性文獻(xiàn)綜述(systematic review)[9]。綜述文獻(xiàn)后,發(fā)現(xiàn)研究問題并提出理論觀點(diǎn)通常被認(rèn)為是整個(gè)研究的核心。此過程涉及的創(chuàng)造性思維也會(huì)被認(rèn)為是人類智慧的關(guān)鍵且充滿神秘色彩。但創(chuàng)造性思維可以被簡化為在問題空間中進(jìn)行有效搜索,同時(shí)生產(chǎn)可能的解決方案(即理論或假設(shè))[10]。這樣一來,人工智能就可以通過搜索過程顯示出創(chuàng)造力。因此,人工智能助力的理論創(chuàng)新或科學(xué)發(fā)現(xiàn)已蔚然成為一個(gè)新的研究領(lǐng)域[11]。
來自意大利的一個(gè)研究團(tuán)隊(duì)在2023年5-6月就開展了一系列實(shí)驗(yàn),以檢驗(yàn)GPT能否能在商業(yè)理論與實(shí)踐中提出新的理論觀點(diǎn)。他們首先在“商業(yè)戰(zhàn)略與創(chuàng)新管理”及“組織與創(chuàng)新文化”兩個(gè)領(lǐng)域中找出了10個(gè)重要的理論及實(shí)踐,然后讓ChatGPT學(xué)習(xí)這些內(nèi)容,并提出顛覆性的新觀點(diǎn)。他們發(fā)現(xiàn),雖然ChatGPT的輸出有時(shí)會(huì)混淆有價(jià)值和沒價(jià)值的信息,但并沒有出現(xiàn)明顯錯(cuò)誤。更關(guān)鍵的是,他們發(fā)現(xiàn)GPT提出了非常創(chuàng)新的觀點(diǎn),有時(shí)甚至超過了專家的水平。這說明GPT已經(jīng)能夠提出具有創(chuàng)造性的理論觀點(diǎn)了[12]。
大模型能幫助研究者進(jìn)行研究設(shè)計(jì)。比如,無論是定量、定性還是混合方法,基于研究問題的性質(zhì)和已提出的理論觀點(diǎn),GPT能識(shí)別并推薦最匹配的研究方法。接下來,在操作化研究概念和變量時(shí),GPT可以通過訪問廣泛的文獻(xiàn)庫,確保所選變量的定義、測(cè)量和解釋符合研究目的。最后,GPT還可以根據(jù)研究的樣本分布為分層抽樣或樣本配對(duì)提供建議,以確保樣本的代表性[8]。
在制作研究材料方面,如訪談提綱或問卷題項(xiàng),GPT也能助研究者一臂之力。在我們的一項(xiàng)關(guān)于松-緊文化①松——緊文化中的“緊”指規(guī)范強(qiáng),對(duì)偏差行為包容度低;而“松”是指規(guī)范弱,對(duì)偏差行為包容度高。經(jīng)典研究見:Gelfand M J, Raver J L, Nishii L, et al.Differences between Tight and Loose Cultures: A 33-Nation Study[J/OL].Science, 2011,332(6033):1100-1104[2023-10-01].https://www.science.org/doi/10.1126/science.1197754.的研究中,需要?jiǎng)?chuàng)作一些情境短文,來測(cè)量被試者對(duì)短文中信息的敏感度。我們期望每個(gè)短文以某人進(jìn)入一個(gè)陌生環(huán)境為情境,并包含“必須”或“可以”做的事情。我們輸入了以下指令給GPT(原文為英文):
請(qǐng)制作一個(gè)150字左右的場(chǎng)景,描述一個(gè)孤獨(dú)的旅行者偶然發(fā)現(xiàn)了一個(gè)偏僻、與世隔絕的村莊。請(qǐng)?jiān)谇榫持邪?件旅行者必須做的事情。在描述這些事情時(shí),請(qǐng)務(wù)必使用“必須”一詞。此外,還請(qǐng)包含6件旅行者可以自由選擇做的陳述,并確保使用“可以”一詞。還請(qǐng)保持“必須”和“可以”句子里表達(dá)的情緒在程度上相當(dāng)。
GPT輸出了符合我們要求的短文,但不夠淺顯易懂。于是,我們輸入了以下指令給GPT(原文為英文):
請(qǐng)調(diào)整語句,使沒有經(jīng)過大學(xué)教育的人也能理解。
GPT根據(jù)指令對(duì)原先的短文進(jìn)行了修改。我們邀請(qǐng)了實(shí)驗(yàn)助手對(duì)GPT生成的實(shí)驗(yàn)材料進(jìn)行了人工評(píng)估。結(jié)果表明,GPT生成的實(shí)驗(yàn)材料完全符合我們的要求。我們使用這些材料收集數(shù)據(jù),并獲得了良好的效果。這表明,GPT能夠產(chǎn)生有效的研究材料。
如果大模型獲取了足夠多的有關(guān)人類社會(huì)的知識(shí),并掌握了人的思考方式,那么在理論上它就可以模擬人類作答心理測(cè)試與問卷調(diào)查。這將取代人類被試在數(shù)據(jù)收集中的必要性[13]。為此,我們?cè)?023年6月開展了一項(xiàng)研究,來檢測(cè)GPT是否能取代大規(guī)模民調(diào)。皮尤研究中心(Pew Research Center)是美國的一個(gè)知名調(diào)研機(jī)構(gòu),主要對(duì)社會(huì)、公共和政策問題進(jìn)行調(diào)查分析。它于2022年3月調(diào)查了10,441位美國公民對(duì)俄烏沖突和拜登政府應(yīng)對(duì)方式的看法,該調(diào)查包括8道題。例如:“您對(duì)拜登政府對(duì)俄烏沖突的反應(yīng)持何態(tài)度?”(1:非常支持~4:非常不支持)[14]。由于GPT-4 的訓(xùn)練數(shù)據(jù)僅更新至2021年9月,因此它對(duì)于2022年2月發(fā)生的俄烏沖突及這個(gè)有關(guān)俄烏沖突的民調(diào)并不知道。如果GPT能產(chǎn)生出與實(shí)際民調(diào)結(jié)果一致的數(shù)據(jù),那就能為GPT模擬受訪者回答問卷提供有力的證據(jù)。
我們首先向GPT介紹了俄烏沖突和以上民調(diào)的題項(xiàng)內(nèi)容,然后要求其預(yù)測(cè),美國受訪者在每個(gè)問題上選擇各個(gè)選項(xiàng)的百分比。與實(shí)際調(diào)查結(jié)果對(duì)比,GPT-4的預(yù)測(cè)平均絕對(duì)誤差(MAE)為9.59%。也就是說,盡管存在偏差,但GPT的預(yù)測(cè)與實(shí)際調(diào)查結(jié)果相當(dāng)接近。具體而言,在8個(gè)問題中,GPT在7個(gè)問題上的預(yù)測(cè)與調(diào)查結(jié)果的選擇方向相符,即它能相對(duì)準(zhǔn)確地預(yù)測(cè)出更多人選擇“支持”或“不支持”的傾向,或預(yù)測(cè)出“重大威脅”大于“小威脅”大于“非威脅”的選擇比例。我們又對(duì)另外三個(gè)皮尤研究中心的民調(diào)做了相同的實(shí)驗(yàn), 并得到了類似的結(jié)果。這說明,GPT有模擬受訪者產(chǎn)生大規(guī)模調(diào)查數(shù)據(jù)的能力。
不僅是模擬調(diào)查數(shù)據(jù),大模型甚至還催生出一種全新的數(shù)據(jù)生產(chǎn)方式,即由大模型控制的虛擬智能體(agent)模擬出個(gè)體與群體行為。斯坦福大學(xué)的研究團(tuán)隊(duì)建立了一個(gè)模擬小鎮(zhèn)[15]。在這個(gè)小鎮(zhèn)里有25個(gè)以GPT為“大腦”的智能體,他們能產(chǎn)生擬人程度很高的個(gè)體行為。比如,一個(gè)智能體早晨起床后會(huì)刷牙,洗澡,邊看新聞邊吃早飯,并與家人聊天。同時(shí),他們也能表現(xiàn)出自主的的群體行為。例如,當(dāng)研究者讓一個(gè)智能體組織一個(gè)派對(duì),這個(gè)智能體就會(huì)自動(dòng)把派對(duì)的信息告訴其他智能體,其他智能體就會(huì)相互約定一起去,最后準(zhǔn)時(shí)在派對(duì)舉行的地點(diǎn)的出現(xiàn)。這樣的智能體與過去的基于主體的建模(Agent-Based Modeling)中的個(gè)體不同。他們不再局限于建模時(shí)的既定行為規(guī)則,而是能夠在互動(dòng)中自動(dòng)產(chǎn)生規(guī)則[16]。這樣的“斯坦福智能體小鎮(zhèn)”能在虛擬環(huán)境中產(chǎn)生類似真實(shí)生活中的交互場(chǎng)景,為社科研究者收集個(gè)體與群體行為數(shù)據(jù)提供了極大的便利。
在定性數(shù)據(jù)分析中,最耗時(shí)耗力的工作就是對(duì)文本進(jìn)行編碼。在演繹編碼(deductive coding)中,研究人員需要根據(jù)預(yù)先確定的編碼本將新的數(shù)據(jù)標(biāo)記為一組固定的編碼。最近的研究發(fā)現(xiàn),GPT-3可直接用于各種演繹編碼任務(wù),無需微調(diào)(finetune)就能與人類專家編碼的結(jié)果保持一致[17]。我們的研究也顯示,GPT對(duì)中文與英文文本的編碼能力很相近。而對(duì)于多人協(xié)作的編碼任務(wù),也已經(jīng)有研究者開發(fā)了基于GPT的AI輔助編碼工具,并通過了可用性與有效性評(píng)估[18]。對(duì)于定量數(shù)據(jù)分析,GPT不僅可以協(xié)助研究者進(jìn)行數(shù)據(jù)清洗、異常值檢測(cè)、變量轉(zhuǎn)換、缺失值分析等基礎(chǔ)工作,而且對(duì)于描述統(tǒng)計(jì)、回歸分析、多變量統(tǒng)計(jì)等,GPT基本能夠根據(jù)研究者需求生成相應(yīng)統(tǒng)計(jì)軟件的指令,甚至自動(dòng)生成結(jié)果報(bào)告。盡管在某些任務(wù)上表現(xiàn)不佳,但鑒于GPT的綜合效率和潛力,有研究者認(rèn)為大模型的出現(xiàn)會(huì)對(duì)數(shù)據(jù)科學(xué)產(chǎn)生巨大改變[19]。
傳統(tǒng)的社會(huì)科學(xué)研究多為理論驅(qū)動(dòng)(theorydriven)。但在過去的10年,隨著社交媒體與大數(shù)據(jù)的出現(xiàn),浮現(xiàn)出大量數(shù)據(jù)驅(qū)動(dòng)(data-driven)的社會(huì)科學(xué)研究[20]。在當(dāng)今的大模型時(shí)代,社會(huì)科學(xué)研究將逐漸成為人工智能驅(qū)動(dòng) (AI-driven)。因?yàn)槿缜拔乃觯竽P鸵涯茉谏缈蒲芯康拿恳粋€(gè)環(huán)節(jié)發(fā)揮重要作用。具體來說,大模型已能夠通過文獻(xiàn)綜述提出研究問題和理論觀點(diǎn),產(chǎn)生研究材料,模擬并收集研究數(shù)據(jù),以及分析數(shù)據(jù)?,F(xiàn)今,大模型在每一個(gè)環(huán)節(jié)里的功能是孤立的,不連續(xù)的。但是,一旦大模型能夠?qū)⑦@些功能整合在一個(gè)自動(dòng)系統(tǒng)中,即它能獨(dú)立提出研究問題,并為這個(gè)研究問題產(chǎn)生研究材料,然后應(yīng)用這些材料去模擬或收集數(shù)據(jù),最后分析數(shù)據(jù)來回答最初的研究問題,那么社會(huì)科學(xué)研究將由人工智能來主導(dǎo)。社科研究者的角色有可能從主導(dǎo)者逐漸轉(zhuǎn)變?yōu)檩o助者。
同時(shí),原來以解釋導(dǎo)向(explanation-oriented)為主的社會(huì)科學(xué),將逐漸轉(zhuǎn)化為解決導(dǎo)向(solutionoriented)。這是因?yàn)橐酝茈y在現(xiàn)實(shí)生活中去嘗試并檢驗(yàn)?zāi)硞€(gè)解決方案所產(chǎn)生的實(shí)際效果。而現(xiàn)在,在類似“斯坦福智能小鎮(zhèn)”這樣的多智能體模擬環(huán)境中,研究者不僅可以觀測(cè)并解釋某個(gè)社會(huì)問題是怎么產(chǎn)生的,而且可以嘗試不同的干預(yù)策略,來找到最佳的解決方案。這將夠使社會(huì)科學(xué)研究更有實(shí)效性,并顛覆理論在社科研究中的主導(dǎo)地位。
大模型人工智能驅(qū)動(dòng)的新研究范式與研究者的角色轉(zhuǎn)變,必然會(huì)對(duì)社會(huì)科學(xué)研究者提出新的要求。首先,研究成本的降低將使傳統(tǒng)研究方法在研究貢獻(xiàn)中“貶值”,進(jìn)而轉(zhuǎn)變研究者對(duì)方法掌握的重點(diǎn):其一,研究者有更多精力用來學(xué)習(xí)和使用更多的跨學(xué)科的新方法,這為跨學(xué)科研究鋪平了道路;其二,學(xué)習(xí)重點(diǎn)不是方法細(xì)節(jié),而是方法原理以及如何與人工智能協(xié)作;其三,需要提高理解和判斷人工智能輸出結(jié)果正誤并進(jìn)行校正的能力。同時(shí),由于人工智能在研究過程中的高效性,可能導(dǎo)致研究者過于依賴人工智能進(jìn)行研究。因此,社科研究者不僅需要借助批判性思維進(jìn)行更多的深度思考,更要確保研究問題在廣泛的社會(huì)、文化和歷史背景下是恰當(dāng)和有效的,為人工智能提供人文智慧、道德判斷和深度解釋。
總之,以大模型為代表的人工智能技術(shù)不但能提高傳統(tǒng)社科研究中各個(gè)環(huán)節(jié)的效率,也將重塑社科研究的范式。研究者需要勇敢擁抱新科技帶來的變化,調(diào)整自身角色,與人工智能協(xié)同工作,一起推進(jìn)能解決社會(huì)問題的社科研究。
作者貢獻(xiàn)說明
謝天:設(shè)計(jì)研究方案,論文初稿撰寫、修改與定稿;
邱林:提出研究思路,設(shè)計(jì)研究方案,論文撰寫與修改;
李雨曈:設(shè)計(jì)研究方案,收集和分析資料,論文修改;
羅殷:設(shè)計(jì)研究方案,收集和分析資料;
劉盼:設(shè)計(jì)研究方案,論文修改。