關(guān)鍵詞:人工智能;大語言模型;語言能力;語法能力;語言習(xí)得;句法加工中圖分類號:H0-05;TP18 文章標(biāo)志碼:A 文章編號:1006-6152(2025)04-0073-11DOI:10.16388/j.cnki.cn42-1843/c.2025.04.007
語言習(xí)得研究的核心目標(biāo)在于揭示人類語言能力發(fā)展的必要條件和充分條件,聚焦先天稟賦與環(huán)境輸入的互動機(jī)制。以Chomsky(1965)為代表的語言天賦論提出“刺激貧乏論”(PovertyofStimulus),強(qiáng)調(diào)人類具備特異性語言本能[1]。而實(shí)證主義學(xué)派則主張通過領(lǐng)域一般性學(xué)習(xí)機(jī)制與環(huán)境輸入的相互作用即可解釋語言發(fā)展2]。這種理論分歧凸顯出兩個關(guān)鍵問題:第一,單純觀察人類語言環(huán)境難以有效區(qū)分先天機(jī)制與后天經(jīng)驗(yàn)的各自貢獻(xiàn);第二,語言習(xí)得神經(jīng)機(jī)制的驗(yàn)證仍需突破性研究方法的支持。當(dāng)前人工智能領(lǐng)域大語言模型(LLMs)的突破性發(fā)展為上述問題提供了新的研究視角。LLMs是基于深度神經(jīng)網(wǎng)絡(luò)的語言學(xué)習(xí)系統(tǒng)[3],其典型架構(gòu)包含數(shù)百億至數(shù)千億參數(shù)4],通過海量語料庫訓(xùn)練可掌握語法規(guī)則、語義表征及語用知識[5],展現(xiàn)出接近人類的文本生成、多任務(wù)處理等語言能力[6-7]。這類模型本質(zhì)上構(gòu)成了新型語言學(xué)習(xí)范本[8],其發(fā)展軌跡從統(tǒng)計語言模型到Transformer模型9],其語言能力發(fā)展對語言習(xí)得從理論到實(shí)踐都產(chǎn)生了深刻的影響,評測其語言能力和人類語言本能之間的差異成為熱點(diǎn)話題。本文通過回顧大語言模型語言能力研究,對比分析人類與LLMs在學(xué)習(xí)環(huán)境和機(jī)制方面的差異,重點(diǎn)探討大語言模型的語言能力評測特征和途徑。
一、大語言模型的語言能力
根據(jù)Chomsky(1965)對語言能力(competence)和語言表現(xiàn)(performance)的區(qū)分,“語言能力\"主要指對語言規(guī)則下意識的理解[1]?!按笳Z言模型的語言能力”則指它對不同語言現(xiàn)象的理解能力,可分為形式和功能兩個部分。形式主要指對語法規(guī)則的泛化能力,而功能主要指語用推理以及語篇文本分析(如情感分析)能力等[10]。隨著大語言模型語言能力的突破性進(jìn)展,評測其語言能力逐漸成為學(xué)界探究LLMs是否具備人類語言認(rèn)知機(jī)制的新途徑[],相關(guān)研究歷經(jīng)三個階段。
(一)萌芽期,人工智能領(lǐng)域的早期語言模型研究呈現(xiàn)明顯的學(xué)科壁壘
從圖靈測試(1950)到 N-gram 模型,再到神經(jīng)網(wǎng)絡(luò)模型[3],人工智能的技術(shù)演進(jìn)長期被視為獨(dú)立于語言學(xué)的工程實(shí)踐,大語言模型語言能力被認(rèn)為和語言學(xué)沒有關(guān)系。研究者甚至主張每開除一個語言學(xué)家,語音識別系統(tǒng)性能就提升一個百分點(diǎn),語言學(xué)的介入會降低模型的表現(xiàn)。而理論語言學(xué)界對此保持審慎態(tài)度,Katzir(2023)和Chomsky(2023)多次強(qiáng)調(diào)LLMs未遵循特定語言學(xué)理論,難以成為有效的認(rèn)知模型[1-12]。盡管Linzen等(2016)開創(chuàng)性地測試部分神經(jīng)網(wǎng)絡(luò)模型的句法加工能力,相關(guān)成果仍因模型性能局限未能引發(fā)語言學(xué)界的實(shí)質(zhì)關(guān)注[13]
(二)爆發(fā)期,Transformer架構(gòu)的革新催生研究范式轉(zhuǎn)變
自Linzen(2019)與Pater(2019)在《Lan-guage》發(fā)起語言學(xué)與深度學(xué)習(xí)的對話,大模型語言能力表現(xiàn)的實(shí)證研究呈現(xiàn)井噴態(tài)勢[14-15]。研究范圍覆蓋語音至語用各層級的評測[16-17],測評方法突破顯著,如構(gòu)建多維度評測體系,涵蓋可接受性判斷[18]、神經(jīng)認(rèn)知數(shù)據(jù)[19]、BLiMP基準(zhǔn)和Zorro數(shù)據(jù)集[16]。同時研究也開展大模型和人類語言能力認(rèn)知機(jī)制比較,探討語言習(xí)得[20]、加工策略2等核心議題。學(xué)界形成兩大陣營:支持者認(rèn)為LLMs具備人類語言結(jié)構(gòu)表征能力[22],質(zhì)疑者則指出它缺乏系統(tǒng)性知識表征與元語言意識[23]
(三)反思期,反思大語言模型和語言學(xué)的雙向賦能路徑
Piantadosi(2023)對“語言天賦論\"的批判引發(fā)學(xué)科反思[24-25.9],形成雙向研究進(jìn)路:一方面,語言學(xué)知識被證實(shí)在提示工程[26]、小樣本學(xué)習(xí)[、規(guī)則理解[27等方面具有實(shí)踐價值;另一方面,LLMs開始作為實(shí)驗(yàn)工具參與語言認(rèn)知加工和習(xí)得研究[28-29],應(yīng)用于名動區(qū)分[30]、語言遞歸[31]、孤島效應(yīng)[32]等理論評測,甚至模擬人類被試的語言能力[33]。值得關(guān)注的是,反對聲浪持續(xù)存在:陸儉明(2025)等質(zhì)疑LLMs未能反映人腦語言能力獨(dú)有機(jī)制[34],Katzir(2023)則指出大語言模型缺乏抽象符號編碼能力[1]
目前評測研究對大語言模型在語音、詞匯、語義、語用多個層級上是否展現(xiàn)出人類相似的語言能力的問題還沒有一致的答案,特別是大模型是否具有語言特異性語法規(guī)則泛化能力還是一個具有爭議性的話題。
二、大語言模型的語言學(xué)習(xí)環(huán)境和機(jī)制
LLMs依賴海量文本數(shù)據(jù)的靜態(tài)訓(xùn)練,通過概率建模捕捉詞匯間的表層關(guān)聯(lián),卻缺乏多模態(tài)感知和具身認(rèn)知基礎(chǔ)。其學(xué)習(xí)受限于封閉的符號系統(tǒng),無法將語言與現(xiàn)實(shí)世界的實(shí)體、動作及社會互動直接關(guān)聯(lián)。而人類語言發(fā)展植根于動態(tài)的互動環(huán)境:嬰幼兒通過視覺、聽覺、觸覺等多通道輸入,在具體情境中建立語義網(wǎng)絡(luò),并借助心智理論推測他人意圖。
所以較之人類語言習(xí)得環(huán)境,大語言模型的學(xué)習(xí)環(huán)境差異顯著,主要表現(xiàn)在三個方面:輸入量級、輸人模態(tài)結(jié)構(gòu)和環(huán)境效果。首先是輸入規(guī)模的量級差異。人類語言習(xí)得的輸入量級呈現(xiàn)漸進(jìn)累積特征,兒童年均接觸詞匯量約300萬至1100萬35,青春期前累計可達(dá)千萬至億級。相較之下,主流LLMs的訓(xùn)練語料規(guī)模呈指數(shù)級超越:ELMo(10億詞符)、BERT(33億詞符)、RoBERTa(300億詞符)至GPT-3(2000億詞符)[36-37.22.6]。Warstadt等(2020)通過BLiMP基準(zhǔn)測試揭示:當(dāng)RoBERTa接受300億詞符訓(xùn)練時,其12項(xiàng)語法任務(wù)中6項(xiàng)達(dá)類人水平;但若將訓(xùn)練量降至人類水平(1億詞符),類人表現(xiàn)僅存2項(xiàng)[16。這表明LLMs的語言能力與數(shù)據(jù)規(guī)模存在超線性關(guān)系,但關(guān)鍵語言現(xiàn)象(如長距離依存結(jié)構(gòu))仍存習(xí)得瓶頸。其次,輸入模態(tài)的結(jié)構(gòu)差異。LLMs當(dāng)前訓(xùn)練語料以書面文本為主,缺失人類語言發(fā)展的核心特征;多模態(tài)感知缺位,兒童通過感覺一運(yùn)動系統(tǒng)構(gòu)建概念支架[38],而LLMs的語義表征僅源于文本共現(xiàn)模式,導(dǎo)致早期名詞偏向等認(rèn)知特性難以復(fù)現(xiàn);互動情境剝離,人類語言功能根植于交際意圖實(shí)現(xiàn)[39],而LLMs的生成機(jī)制缺乏真實(shí)對話的協(xié)商過程,且口語特征缺失,盡管近期研究嘗試整合CHILDES兒童語料4與COCA口語數(shù)據(jù)庫4,LLMs仍難以充分捕捉語音韻律等副語言特征[42]。最后,在環(huán)境效度方面,現(xiàn)有證據(jù)顯示當(dāng)LLMs訓(xùn)練數(shù)據(jù)嚴(yán)格限制于人類水平(如千萬詞符量級),其語言表現(xiàn)顯著退化[43]。這提示研究者需建立環(huán)境輸入的等效性標(biāo)準(zhǔn)。若欲將LLMs結(jié)論外推至人類,須確保模型訓(xùn)練環(huán)境的豐富度不超過人類經(jīng)驗(yàn)上限。當(dāng)前技術(shù)路徑如多模態(tài)整合[44]與互動任務(wù)強(qiáng)化,正試圖彌補(bǔ)LLMs的環(huán)境缺陷,但其認(rèn)知架構(gòu)的本質(zhì)差異仍構(gòu)成理論推廣的生態(tài)效度威脅。
可見,關(guān)于模型的環(huán)境支持假說45在LLMs中獲部分驗(yàn)證,在毫秒級時間尺度內(nèi)完成傳統(tǒng)語言習(xí)得研究需十年追蹤的縱向發(fā)展過程。大語言模通過海量語料庫的概率學(xué)習(xí)機(jī)制[46,8],動態(tài)呈現(xiàn)語言能力的演化過程。
三、大語言模型的語言特異性泛化能力評測
從學(xué)習(xí)環(huán)境來看,模型學(xué)習(xí)者在語料輸入量上具有一定的優(yōu)勢,而人類學(xué)習(xí)者在語料輸人模態(tài)的生態(tài)效度上保持特質(zhì),兩者各有千秋。語言天賦論認(rèn)為人類具有語言特異性的泛化能力[1],所以計算語言學(xué)界為了檢驗(yàn)語言本能天賦論的核心假設(shè),開發(fā)出三類實(shí)驗(yàn)范式系統(tǒng)測量LLMs語言特異性泛化能力[14-15.47-50]:消融實(shí)驗(yàn)、無監(jiān)督測試和監(jiān)督測試。
(一)消融研究
機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)模型中的消融研究(ablationstudy)旨在測量神經(jīng)網(wǎng)絡(luò)模型的組成部分去除之后,神經(jīng)網(wǎng)絡(luò)模型行為表現(xiàn)的變化[51]如圖1所示,一個含有N個模塊的神經(jīng)網(wǎng)絡(luò)模型的消融研究,每次我們?nèi)コ粋€模塊,然后檢測新模型的表現(xiàn),進(jìn)而考察去除模塊的作用。
該消融研究可以用來回答某些問題,如優(yōu)勢A(advantage)在習(xí)得目標(biāo)語言知識T(target)中是不是必要條件,探討如果沒有A的學(xué)習(xí)場景下會發(fā)生什么。例如,學(xué)習(xí)場景通常有兩個主要變量:學(xué)習(xí)者本能的泛化能力和學(xué)習(xí)環(huán)境,如果消除A之后,模型能夠成功,那就說明沒有A,目標(biāo)T可以習(xí)得。如果消融實(shí)驗(yàn)顯示大模型較之人類沒有這種本能優(yōu)勢,仍然可以成功習(xí)得T,那該結(jié)果可以推廣到人類身上,從可學(xué)性上來說人不需要A。若語言天賦論想有更強(qiáng)大的證據(jù),就必須證明模型學(xué)習(xí)者相對于人來說沒有明顯的本能劣勢,如果消融,即去除該本能偏向,就會導(dǎo)致學(xué)習(xí)失敗。大語言模型的消融研究一方面可以用來驗(yàn)證語言天賦論假設(shè)的相關(guān)理論觀點(diǎn),通過模型來測試一些假設(shè)的泛化能力,例如,評測在目標(biāo)學(xué)習(xí)時對層級句法偏向是否為必需品。目前如上文在大語言模型的學(xué)習(xí)環(huán)境中提及,許多具體研究顯示大語言模型(模型學(xué)習(xí)者)如若去除輸入量的優(yōu)勢,輸入明顯貧乏,就會無法習(xí)得要觀測的語言行為。故此消融實(shí)驗(yàn)顯示大模型可能沒有天生的語言特異性泛化能力[52]
(二)無監(jiān)督測試
無監(jiān)督測試主要用來測試神經(jīng)網(wǎng)絡(luò)模型的語言知識[52]。無監(jiān)督測試不依賴標(biāo)注訓(xùn)練或者任何任務(wù)特異性訓(xùn)練,這種方法揭示的語言知識通常是通過自我監(jiān)察,暴露在學(xué)習(xí)環(huán)境或者通過學(xué)習(xí)者本能獲得。大語言模型的無監(jiān)督測試主要利用語言模型的預(yù)訓(xùn)練,根據(jù)之前的成分 W (i 某一成分的可能性,這些預(yù)測概率乘積能夠用來預(yù)測整個W序列,如圖2公式所示:
大語言模型使用語言模型的概率得分來評價它是否具有某種語法規(guī)則泛化能力,常見的測量任務(wù)為可接受性判斷任務(wù)??山邮苄耘袛嗳蝿?wù)是測量句法理論的主要方式[53],它可以提供豐富的行為測試來測量語法知識偏向。語言學(xué)家設(shè)計各種可接受性判斷任務(wù)[54]進(jìn)行無監(jiān)督測試,在針對語言模型的非監(jiān)督測試中,最小對可接受性判斷被廣泛使用[55]。所謂最小對就是意指兩個句子僅1處不同,一個為可接受,另一個為不可接受。如例句(1)a和 (1)b (1)a:他昨天買了一本書和一支筆。b:*他昨天買了什么和一支筆。
句子構(gòu)成最小對時通常在長度和一元概率上基本匹配,最小對主要聚焦可接受和不可接受句子之間的決定性差異,這是決定句子可接受概率的兩個決定因素[56]。所以最小對可接受性判斷任務(wù)可以評價模型預(yù)測可接受性等級差異的能力。這種方法基于一種假設(shè):一個語法正確的句子 Wgood 比一個和自己差異最小但是語法不正確的句子 Wbad 出現(xiàn)的概率更高,語言模型在可接受性判斷中可以預(yù)測到這種差異,如圖3:
PLM(Wgood)gt;PLM(Wbad)
為了提升無監(jiān)督測試效度,研究者開始嘗試給可接受性判斷任務(wù)提供數(shù)據(jù)庫支持。Warstadt等(2018)開發(fā)英語語言學(xué)可接受性數(shù)據(jù)庫(Co-LA)18,包含10000個句子,涉及英語中67種最小對,每一種有1000對,包括形態(tài)、句法和語義等語言現(xiàn)象,如指代一致、元結(jié)構(gòu)、控制和提升、限定和名詞一致、省略、填充和空位、不規(guī)則動詞、孤島效應(yīng)、主謂一致等。他們測試了多個語言模型,但是模型在多個語言現(xiàn)象上沒有表現(xiàn)出優(yōu)勢,且在填充一空位、長距離孤島結(jié)構(gòu)等復(fù)雜語法結(jié)構(gòu)中錯誤顯著。然而Warstadt等(2020)對可接受性數(shù)據(jù)庫進(jìn)行了標(biāo)注,之后再進(jìn)行無監(jiān)督測試,發(fā)現(xiàn)語言模型如GPT等會表現(xiàn)得更好,而在長距離依存如孤島結(jié)構(gòu)的可接受性判斷中表現(xiàn)仍然較差[16]。在此基礎(chǔ)上研究者又開發(fā)了日語可接受性數(shù)據(jù)庫[5,包含10020個句子,331個最小對,Warstadt等(2020)對GPT-2、長短時記憶模型和 N-Gram 語言模型進(jìn)行了測試,準(zhǔn)確率達(dá)到 75% 左右,但是像長距離主謂一致、依存和孤島等識別的錯誤率依舊較高[16]。同樣利用無監(jiān)督測試,Mikhailov等(2022)創(chuàng)建并利用俄語語言可接受性數(shù)據(jù)庫(包含134000個句子)對多個大模型(包括ChatGPT系列)進(jìn)行了測試,結(jié)果發(fā)現(xiàn)在形態(tài)、語義和句法等方面大模型明顯落后于人類[58]。所以總體來看,在非監(jiān)察測試下針對不同語言研究都很難明確大語言模型擁有對語法,特別是復(fù)雜句法規(guī)則如孤島結(jié)構(gòu)等的特異性泛化能力。
(三)監(jiān)督測試或者限制性監(jiān)督測試
監(jiān)督或者限制性監(jiān)督測試,實(shí)際是對非監(jiān)督測試的一種輔助,主要依靠對詞和句子標(biāo)注及訓(xùn)練來進(jìn)行,如詞性標(biāo)注、依存結(jié)構(gòu)標(biāo)注和共指消解等,都是常用的探測任務(wù)[59,在探測神經(jīng)網(wǎng)絡(luò)模型的泛化能力方面有一定的作用,經(jīng)典范式就是刺激貧乏實(shí)驗(yàn)[60]。根據(jù)刺激貧乏論(povertyofstimulus),探測大語言模型能否像兒童一樣從有限且混亂的輸入當(dāng)中習(xí)得某種語法規(guī)則,從而證明它也具有某種語言本能偏向。刺激貧乏實(shí)驗(yàn)實(shí)際是訓(xùn)練大模型(模型學(xué)習(xí)者)去完成一項(xiàng)句子判斷任務(wù),訓(xùn)練數(shù)據(jù)具有模糊和混亂特征,在兩個假設(shè)空間上(語言學(xué)歸納和表層歸納)都具有模糊性。首先,在訓(xùn)練時,假設(shè)大模型應(yīng)該具有兩種泛化能力:語言學(xué)歸納(如Isthemainverbinthe“ing”form)和表層結(jié)構(gòu)歸納(如Does the word“the”precede“a”),輸人數(shù)據(jù)是混亂和模糊的,模型要從中去學(xué)習(xí)。其次,到測試時,改用清晰的數(shù)據(jù),測試模型是否具有語言學(xué)偏向和表層結(jié)構(gòu)偏向。基于監(jiān)督測試的刺激貧乏實(shí)驗(yàn)設(shè)計,研究者開始評測大語言模型傾向于基于句法結(jié)構(gòu)的歸納還是基于主語和情態(tài)動詞倒裝的線性順序歸納48。McCoy等(2020)使用刺激貧乏實(shí)驗(yàn)方法,測試多個循環(huán)神經(jīng)網(wǎng)絡(luò)模型,重點(diǎn)考察對歧義主語和情態(tài)動詞倒裝結(jié)構(gòu)泛化情況。結(jié)果發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)模型缺乏層級泛化能力[48],即使Transformer架構(gòu)的大模型(如Deepseek等)也沒有發(fā)現(xiàn)多層級特異性泛化能力[49。然而,人工神經(jīng)網(wǎng)絡(luò)(ANN)或者大語言模型缺乏類人語言特異性的泛化能力,使得它們成為更加合適的模型學(xué)習(xí)者,因?yàn)檫@些模型可能在這些領(lǐng)域沒有特別先天優(yōu)勢。
從大語言模型語言規(guī)則泛化能力的三種常用測量(消融法、可接受性判斷和刺激貧乏實(shí)驗(yàn))來看,目前大模型在概率學(xué)習(xí)方面具有一定的泛化能力,但是并沒有語言特異性本能偏向。所以探測沒有先天語言特異性層級泛化能力的大語言模型,能否習(xí)得人類句法規(guī)則以及在語法特征方面,能否做出類人的可接受性判斷,可能是大語言模型語言能力評測的新興方向。
四、大語言模型語法能力的評測
從概率統(tǒng)計演化而來的大語言模型是否可以真正習(xí)得人類的語法特征?是否具備與人類相似的語言特異性語法能力?針對這一系列問題,實(shí)際就是要評測大語言模型是否具備類人語法能力。為此,研究者提出句法加工一習(xí)得路徑一基準(zhǔn)建構(gòu)三位一體的評測體系,包括大語言模型的句法加工能力評測、大語言模型的語法特征習(xí)得路徑評測、大語言模型語法評價基準(zhǔn)的構(gòu)建。
(一)大語言模型的句法加工能力評測
大語言模型的句法加工能力評測已經(jīng)成為學(xué)界的熱點(diǎn)話題[61-63],主要聚焦語言模型和人類對語法規(guī)則合法性判斷情況的對比,相關(guān)研究已經(jīng)覆蓋多個語法特征和規(guī)則[63]。例如,有研究者測試了GPT-4和GPT-3.5在系列語言和非語言任務(wù)中對語言區(qū)別性特征“遞歸性”的掌握情況,結(jié)果發(fā)現(xiàn)GPT-4可以識別、產(chǎn)出和分析語言的遞歸結(jié)構(gòu)。當(dāng)然有研究者質(zhì)疑大模型對遞歸性的理解可能只是記憶的結(jié)果,因?yàn)榇竽P涂赡茉谶M(jìn)行大量的訓(xùn)練之后,記住了訓(xùn)練的文本內(nèi)容[31]。所以這類表現(xiàn)可能只是記憶效應(yīng),它是否真正理解遞歸的認(rèn)知本質(zhì)仍然存疑。
針對復(fù)雜句法加工能力的評測,Warstadt和Bowman(2020)引入新數(shù)據(jù)集,涵蓋更多的語言學(xué)現(xiàn)象,他們從上文提到的語言學(xué)可接受性語料庫中選出十三種句法現(xiàn)象,如元結(jié)構(gòu)、控制和提升、省略、填充和空位、句法孤島、主謂一致等,用這十三種句法現(xiàn)象來考察三種預(yù)訓(xùn)練模型(BERT,GPT和BiLSTM)的句法習(xí)得情況[52]。結(jié)果發(fā)現(xiàn)這些模型雖然具有強(qiáng)大的復(fù)雜句加工能力,能輕松加工雙賓結(jié)構(gòu)和被動句等,但是在長距離依存結(jié)構(gòu)方面表現(xiàn)欠佳。例如,句(2)對所有三個模型來說具有一定的挑戰(zhàn)性,BERT和GPT模型相對于BILSTM來說具有一定的優(yōu)勢。
(2)What do you think Iate_?
所以研究發(fā)現(xiàn)大模型在可接受性的分類上總體表現(xiàn)和人類一致,但是在一些復(fù)雜句法結(jié)構(gòu)上沒有做出精細(xì)的區(qū)分[52]
在句法敏感性研究領(lǐng)域,為了解決句法依存等長句子的加工和習(xí)得問題,Linzen等(2016)開創(chuàng)性采用長短時記憶模型(LSTM)來考察該模型對學(xué)習(xí)句法依存的敏感性[13]。該研究發(fā)現(xiàn)LSTM模型在語言加工中可以成功捕捉句子長距離統(tǒng)計規(guī)律。同年他們進(jìn)一步考察了LSTM模型對英語主謂依存結(jié)構(gòu)中人稱數(shù)一致性的敏感性。在該研究中,他們首先進(jìn)行嚴(yán)厲的監(jiān)察,使用數(shù)的預(yù)測任務(wù)來訓(xùn)練模型根據(jù)前面的單詞去猜測動詞數(shù)的變化[13]
(3)The keys to the cabinet
在數(shù)預(yù)測任務(wù)中,如例句(3):模型需要猜測后面的動詞是復(fù)數(shù)還是單數(shù),需要判斷句子的動詞第三人稱單數(shù)、學(xué)習(xí)名詞的單復(fù)數(shù)、能否發(fā)現(xiàn)正確的主語和對應(yīng)的動詞、需要對層級句法敏感等。數(shù)預(yù)測任務(wù)的特別之處在于可以生成大量的訓(xùn)練句和測試句,然后使用語法合法性判斷任務(wù)來訓(xùn)練和學(xué)習(xí)帶有標(biāo)注的句子,顯示這些句子是否違反主謂一致,但是不顯示違反的位置。最后訓(xùn)練模型在沒有采用任何語法監(jiān)督情況下預(yù)測下一個單詞。該研究結(jié)果顯示在較強(qiáng)的監(jiān)督場景下,LSTM模型可以取得較高準(zhǔn)確率(錯誤率不到 1% ),但是模型對于捕獲句法敏感結(jié)構(gòu)表現(xiàn)不佳,需要更直接的監(jiān)督。
(二)大語言模型與兒童語言習(xí)得路徑評測對比
通過對比大模型和兒童的語言習(xí)得,評測大語言模型的語法特征習(xí)得和兒童母語習(xí)得的路徑是否有相似之處[64-66]。Evanson等(2023)探討大語言模型和兒童是否有相似的學(xué)習(xí)階段,重點(diǎn)比較神經(jīng)網(wǎng)絡(luò)模型和兒童(18月一6歲)在句法一語義能力的習(xí)得順序上是否存在顯著性相關(guān),他們共構(gòu)建48個語言模型,評測每個階段大模型的句法和語義能力。在該研究中使用了來自BLiMP和Zorro的96個探測點(diǎn)和54名兒童的語言產(chǎn)出行為并進(jìn)行對比,發(fā)現(xiàn)大語言模型和兒童相似,按照一定的系統(tǒng)順序?qū)W習(xí)語言技能,同時在部分學(xué)習(xí)階段上也表現(xiàn)相似]。Qin等(2024)指出大語言模型在生成連貫文本中的精彩表現(xiàn)已經(jīng)激起大量討論,所以關(guān)于模型學(xué)習(xí)環(huán)境和人類語言可學(xué)性關(guān)系引起研究者的極大興趣[]。如上文所述,大語言模型接受的訓(xùn)練數(shù)據(jù)和兒童收到的語言輸入存在巨大差異,模型訓(xùn)練數(shù)據(jù)規(guī)模(TB級)遠(yuǎn)超兒童語言輸入量(百萬),這種“超量學(xué)習(xí)\"可能導(dǎo)致語法表征機(jī)制的質(zhì)性差異。為了消除數(shù)據(jù)偏差,Wang等(2023)和Qin等(2024)等嘗試用兒童的真實(shí)語料來訓(xùn)練大模型,結(jié)果均發(fā)現(xiàn)訓(xùn)練后的大語言模型可以建立句法范疇系統(tǒng)。這些大語言模型語言習(xí)得路徑評測,為語言學(xué)中“刺激貧乏論(Povertyofstimulus)”的爭論提供了新的視角[67-68]
(三)大語言模型語法能力評價基準(zhǔn)的構(gòu)建
為了深人探究大語言模型語法表征和人類語法能力的質(zhì)性差異,研究者開始嘗試基于自然語言數(shù)據(jù)集,建構(gòu)語法能力評測基準(zhǔn)。在評價模型的語法能力中,多采用經(jīng)典理論語言學(xué)家常用的推測語言的可接受性判斷任務(wù),研究者已經(jīng)建構(gòu)大規(guī)??山邮苄詳?shù)據(jù)集,如英語、日語和俄語等[18.57-58]?;谶@些數(shù)據(jù)集研究者著力句法、語義和形態(tài)等具體語言學(xué)現(xiàn)象的評價[62],開發(fā)語法能力評價系統(tǒng)如BLiMP[16]、SyntaxGym[67]、Zorro[8]等,例如,BLiMP(語言最小對基準(zhǔn)評價系統(tǒng))實(shí)際是對早期推理研究的拓展。這些早期研究主要使用最小對范式進(jìn)行可接受性判斷任務(wù),主要用來評測人類被試的語法能力。而BLiMP主要針對大語言模型,該評價系統(tǒng)主要由最小對組成(兩個句子幾乎相同除了在一個結(jié)構(gòu)或者詞匯特征上有差異)。對于一個給定的最小對 ΔMi ,由兩個句子組成:一個可接受(S,1)和一個不可接受 (Si,2) 。如果一個語言模型能評測P(Si,1)gt;P(Si,2) ,那么這個模型就可以評測 ΔMi 。大語言模型對最小對句子的評測打分主要基于該可接受性句子在所有最小對中所占的百分比率,所以最小對范式可以讓大語言模型直接進(jìn)行評測。當(dāng)然最小對需要仔細(xì)建構(gòu),需要嚴(yán)格控制長度和詞匯頻率。BLiMP評測系統(tǒng)的語料庫涵蓋了12種語言學(xué)現(xiàn)象(指代一致、元結(jié)構(gòu)、約束、控制提升、填充一空位、孤島效應(yīng)、量詞、省略等),67種范式、1000句子對,可以用來測試模型的語言學(xué)知識和語法能力。
另外一種基準(zhǔn)評價系統(tǒng)Zorro數(shù)據(jù)集,旨在評價語言模型和語法習(xí)得之間的關(guān)系[29],該數(shù)據(jù)集主要來自Baby-BERTa(RoBERTa的友好型版本),采用英語兒童直接產(chǎn)出的自然語言,接近一個6歲英語兒童的輸入量。訓(xùn)練材料中的兒童直接話語主要來自英語CHILDES數(shù)據(jù)庫[40]。由于Baby-BERTa訓(xùn)練數(shù)據(jù)要比大模型少得多,且詞匯量也較小,為了解決超范圍詞匯對測試基準(zhǔn)評價系統(tǒng)的影響,按照BLiMP的樣式,Huebner等(2021)開發(fā)新的語法合法性測試系統(tǒng)Zorro,共包含12種語言現(xiàn)象,每種對應(yīng)一種范式,句子不僅詞匯簡單且變化不大[50]
BLiMP和Zorro測試屬于基礎(chǔ)版,優(yōu)點(diǎn)在于可以生成和測量大量的句子,缺點(diǎn)是所有的句子結(jié)構(gòu)相同。此外許多結(jié)構(gòu)較為簡單,遠(yuǎn)低于現(xiàn)代句法分析的覆蓋面。例如,在BLiMP中,主謂一致現(xiàn)象,六個范式中有四個關(guān)于線性主謂一致,可以被2-gram模型捕捉到。盡管長距離,單個線性規(guī)則在這個現(xiàn)象上是成功的,但是簡單測試的成功并沒有驗(yàn)證大模型的真實(shí)語法能力,所以有研究者質(zhì)疑這些范式在評價大語言模型是否擁有語言學(xué)知識的總體目標(biāo)中貢獻(xiàn)不大。雖然存在方法論爭議,但Warstadt等(2020)Gauthier等(2020)和Warstadt等(2018)基于上述數(shù)據(jù)集評價基準(zhǔn),聚焦句法、語義和形態(tài),發(fā)現(xiàn)許多最新的神經(jīng)網(wǎng)絡(luò)模型能夠基于無標(biāo)注數(shù)據(jù),像人類兒童一樣在語言習(xí)得中歸納出語法知識[16,67,18],具有一定的語法能力。
綜上所述,人工神經(jīng)網(wǎng)絡(luò)和當(dāng)下的大語言模型可以從無標(biāo)注的自然文本中學(xué)習(xí)、生成文章,回答問題,可以做出類人的語法接受性判斷[6,16],適合提供低偏向可學(xué)性證據(jù)[14-15]。所以大語言模型的學(xué)習(xí)環(huán)境、規(guī)則泛化能力和語法能力對語言天賦假設(shè)和刺激貧乏論提出了極大的挑戰(zhàn),但是這些研究也顯示語言模型并不能總是展現(xiàn)像人類一樣的泛化能力和語法能力,訓(xùn)練的語料基于不真實(shí)的學(xué)習(xí)場景,如采用來自互聯(lián)網(wǎng)的大規(guī)模語料訓(xùn)練大語言模型,造成這些研究不能針對性回答人類語言能力和大模型語言能力之間的差異本質(zhì)。
五、結(jié)語
大語言模型的語言能力評測研究本質(zhì)上是計算語言學(xué)與理論語言學(xué)、心理語言學(xué)、認(rèn)知語言學(xué)及形式語言學(xué)之間的跨學(xué)科對話。這種互動體現(xiàn)為兩類研究范式的互補(bǔ)性:計算語言學(xué)通過構(gòu)建計算模型揭示語言處理機(jī)制,而認(rèn)知語言學(xué)、形式語言學(xué)和心理語言學(xué)等則聚焦兒童語言習(xí)得和人類語言能力的發(fā)展規(guī)律。二者在方法論與理論建構(gòu)層面存在顯著的協(xié)調(diào)潛力。故此對未來研究有兩點(diǎn)思考:第一,能力邊界與理論挑戰(zhàn):形式與功能的認(rèn)知解耦。盡管大語言模型在形式語言能力層面取得突破,包括生成連貫文本、復(fù)現(xiàn)復(fù)雜句法結(jié)構(gòu)等,但其功能語言能力仍存在系統(tǒng)性缺陷。即形式能力有優(yōu)勢,通過海量參數(shù)實(shí)現(xiàn)語言模式的概率擬合,可模擬人類句法判斷行為[14];而功能能力有局限,在語用推理、意圖理解、跨模態(tài)關(guān)聯(lián)等涉及認(rèn)知一社會交互的領(lǐng)域表現(xiàn)顯著弱于人類[12]。這種能力分離現(xiàn)象引發(fā)理論語言學(xué)界的激烈爭論。一方面是否定論,Chomsky(2023)強(qiáng)調(diào)大模型僅是語言行為的模擬工具,無法解釋人類語言器官(FLN)的生物特異性[2;另一方面是重構(gòu)論,Piantadosi(2023)認(rèn)為大模型的成功證明語言習(xí)得可通過純統(tǒng)計機(jī)制實(shí)現(xiàn),這直接挑戰(zhàn)普遍語法的必要性假設(shè)24。第二,學(xué)科影響與范式轉(zhuǎn)型。當(dāng)前大語言模型語言能力的突破性進(jìn)展,正在重塑語言習(xí)得研究的方法論格局。理論工具革新,為“語言本能論”等長期爭議提供可計算的檢驗(yàn)平臺;研究范式擴(kuò)展,推動產(chǎn)生式模型成為繼行為實(shí)驗(yàn)、腦成像之后的第三種實(shí)證研究路徑;學(xué)科邊界重構(gòu),迫使認(rèn)知科學(xué)家重新審視語言能力的模塊化假設(shè)[9。值得警惕的是,現(xiàn)有大模型的訓(xùn)練數(shù)據(jù)(互聯(lián)網(wǎng)文本)與兒童語言輸入存在生態(tài)效度偏差,這要求后續(xù)研究有必要建立以發(fā)展語言學(xué)為導(dǎo)向的大模型語言能力評測體系。
參考文獻(xiàn):
[1]Chomsky N.Aspects of the Theory of Syntax[M]. Cambridge,MA:MITPress,1965.
[2]Franco PL. Susan Stebbing on Logical Positivism and Communication[J].Journal of Philosophy,2024 (10):48.
[3]馮志偉.計算語言學(xué)方法研究[M].上海:上海外 語教育出版社,2023.
[4]馮志偉,張燈柯.人工智能中的大語言模型[J]. 外國語文,2024(3):1-29.
[5]TayY,Dehghani M,TranVQ,et al. UnifyingLanguage Learning Paradigms[EB/OL].(2022-05-10) [2025-04-15]. https://arxiv.org/pdf/2205.05131.
[6] Brown TB,MannB,RyderN,etal.LanguageModels areFew-Shot Learners [EB/OL].(2020-05-28) [2025-04-15]. https://arxiv.org/pdf/2005.14165.
[7] Naveed H,KhanAU,Qiu S,et al.AComprehensive Overview of Large Language Models[EB/OL]. (2023-07-12)[2025-04-15]. https://arxiv.org/pdf/ 2307.06435.
[8] Marian V. Studying Second Language Acquisition in the Age of Large Language Models:Unlocking the Mysteries of Language and Learning,A Commentary on“Age Effectsin Second Language Acquisition:Expanding the Emergentist Account ”by Catherine L. Caldwell-Harrisand Brian MacWhinney[J].Brain and Language,2023(246).
[9]袁毓林.ChatGPT等大模型的語言處理機(jī)制及其 理論蘊(yùn)涵[J].外國語,2024(4):2-14.
[10]Mahowald K,Ivanova A A,et al.Dissociating Language and thought in Large Language Models[J]. Trends in Cognitive Sciences,2024(6):517-540.
[11」Katzir K. Wny Large Language Models are Poor Ineories ofHuman Linguistic Cognition:A Reply to Piantadosi[J]. Biolinguistics,2023(17).
[12]Chomsky N. ChatGPT and Human Intelligence:Noam Chomsky Responds to Critics:Noam Chomsky Interviewed by Mirfakhraie [EB/OL].(2023-04-24) [2025-04-15]. htps://chomsky.info/20230424-2.
[13]Linzen T,Dupoux E,Goldberg Y. Assessing the Ability of LSTMs to Learn Syntax-sensitive Dependencies[J]. Transactions of the Association for Computational Linguistics,2016(4): 521-535.
[14]Linzen T. What can Linguistics and Deep Learning Contribute to Each Other?Response to Pater[J]. Language,2019(1) :99-108.
[15]Pater J. Generative Linguistics and Neural Networks at60:Foundation,F(xiàn)riction,and Fusion[J].Language,2019(1) :41-74.
[16]Warstadt A,Parrish A,Liu H,et al.BLiMP:The Benchmark of Linguistic Minimal Pairs for English [J].Transactions of the Association for Computational Linguistics,2020(8):377-392.
[17]劉海濤,元達(dá).大語言模型的語用能力探索:從整 體評估到反語分析[J].現(xiàn)代外語,2024(3): 439-451.
[18]Warstadt A,Singh A,Bowman SR.Neural Network Acceptability Judgments [EB/OL]. [2025-04-15]. https ://arxiv. org/pdf/1805.12471.
[19]Binz M,Schulz E. Using Cognitive Psychology to Understand GPT-3[J]. Proceedings of National Academy of Sciences of the United States of America, 2023 (6).
[20]Pouw C,Klots MD H,Alishahi A,et al.Perception of Phonological Assimilation by Neural Speech Recognition Models [J]. Computational Linguistics, 2024 (4):1557-1585.
[21]Lampinen A. Can Language Models Handle Recursively Nested Grammatical Structures?A Case Study on Comparing Models and Humans[J]. Computational Linguistics,2024(4) :1441-1476.
[22]DevlinJ,Chang MW,Kenton L,et al.BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding [C]/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language lecnnoiogies: voiume 1, zU1y:41/1-4100.
[23]Frank M C. Bridging the Data Gap between Children and Large Language Models[J]. Trends in Cognitive Sciences,2023(11):990-992.
[24]Piantadosi S. Modern Language Models Refute Chomsky’s Approach to Language[EB/OL]. (2024-07- 05)[2025-04-15].https://ling.auf. net/lingbuzz/ 007180.
[25]Fox D,Katzir R. Large Language Models and Theoretical Linguistics[J]. Theoretical Linguistics,2024 (1): 71-76.
[26]Wang L,Chen X,Deng X,et al. Prompt Engineering in Consistency and Reliability with the Evidencebased Guideline forLLMs[J].NPJDigit Med,2024 (1):41.
[27]Opitz J.A Closer Look at Classification Evaluation Metrics and A Critical Reflection of Common Evaluation Practice[J].Transactions of the Association for Computational Linguistics,2024(12) : 820-836.
[28]Hu J, Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions [J].Proceedings of the National Academy of Sciences, 2024(36).
[29]崔希亮.AI時代語言學(xué)的學(xué)科發(fā)展問題[J].現(xiàn)代 外語,2025(1):139-147.
[30]Rambell G,Chersoni E,et al. Can Large Language Models Interpret Noun-Noun Compounds? A Linguistically-Motivated Study on Lexicalized and Novel Compounds [C]/Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics: Volume 1: Long Papers,Association for ComputationalLinguistics.Bangkok,Thailand,2024: 11823-11835.
[31] Dabkowski M,Begus G. Large Language Models and (non-)Linguistic Recursion[EB/OL].(2023-06-12) [2025-04-15].https://www.semanticscholar.org/reader/ 55209dc15c9489c1e8ea3cc5d36b697b861f8919.
[32]Wilcox E,et al. What do RNN Language Models Learnabout Filler-Gap Dependencies?[C]//Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP,2018:211-221.
[33]Marjieh R,Sucholutsky I,van Rijn P,et al. Large Language Models Predict Human Sensory Judgments Across Six Modalities[J].Scientific Reports,2024 (14): 21445.
[34]陸儉明.大語言模型的\"語言\"跟自然語言性質(zhì)迥 然不同[J].語言戰(zhàn)略研究,2025(1):1-1.
[35]Hart B,Risley T R.American Parenting of Language-learning Children:Persisting Differences in Family-child Interactions Observed in Natural Home Environments[J].Developmental Psychology,1992 (6):1096.
[36]Peters M E,Neumann M,Iyer M,et al. Deep Contextualized Word Representations[C]/Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics :Human Language Technologies:Volume 1:Long Papers,2018:2227-2237.
[37]Liu Y H,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach [EB/ OL].(2019-07-26)[2025-04-15].https://arxiv. org/pdf/1907.11692.
[38]李宇明.兒童語言發(fā)展的連續(xù)性及順序性[J].漢 語學(xué)習(xí),1994(5):6.
[39]Long M H. The Role of the Linguistic Environment in Second Language Acquisition [C]// Ritchie W C, Bhatia T K. Handbook of Second Language Acquisition.New York:Academic Press,1996:413-468.
[40]MacWhinney B. The CHILDES Project: Tools for Analyzing Talk Volume II:The Database[M].New York : Psychology Press, 2014.
[41]Davies M. The 385+ Million Word Corpus of Contemporary American English(1990-2008 + ):Design, Architecture,and Linguistic Insights[J]. International Journal of Corpus Linguistics, 2009(2):159-190.
[42]Lavechin M, Seyssel M D,Metais M,et al. Early Phonetic Learning from Ecological Audio:Domaingeneral Versus Domain-specific Mechanisms [EB/ OL].[2025-02-18]. https://osf. io/preprints/psyarxiv.
[43]ZhangY,Warstadt A,LiXC,et al.When do You Need Billions of Words of Pretraining Data?[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing:Vol.1:Long papers,2021:1112-1125.
[44]Lazaridou A,Baroni M. Emergent Multi-Agent Com[2025-02-18]. hps://arxiv. org/pdf/2006. 02419.
[45]Caldwell-Harrs C L,MacWhinney B.Age Efects in Second Language Acquisition:Expanding the Emergentist Account [J].Brain and Language,2023 (241):105269.
[46]Ornes S. The Unpredictable Abilities Emerging from Large AI Models[EB/OL].(2023-03-16)[2025- 01-17]. https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models20230316/.
[47]Warstadt A,Bowman S R.Can Neural Networks Acquire a Structural Bias from Raw Linguistic Data? [C]//Proceedings of the 42nd Annual Conference of the Cognitive Science Society,2020.
[48]McCoy RT,F(xiàn)rank R,Linzen T.Does Syntax Need to Growon Trees?Sources ofHierarchical Inductive Biasin Sequence-to-Sequence Networks[J].Transactions of the Association for Computational Linguistics,2020,8:125-140.
[49]Petty J,F(xiàn)rank R. Transformers Generalize Linearly [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2109. 12036.
[50]Huebner P A,Willits JA. Using Lexical Context to Discover the Noun Category :Younger Children Have It Easier[C]// Federmeier K D,Sahakyan L,eds. The Psychology of Learning and Motivation Volume 75:The Context of Cognition:Emerging Perspectives.New York:Academic Press,2021:279-331.
[51]Meyes R,Lu M,Puiseau CW,et al.Ablation Studies in Artificial Neural Networks[EB/OL].[2025- 02-17]. https://arxiv. org/pdf/1901. 08644.
[52]Warstadt A,Bowman SR. What Artificial Neural Networks can Tell us about Human Language Acquisition[C]/ Lappin S,Bernady JP,eds.Algebraic Structures in Natural Language .Oxford:Taylor amp; Francis,2022:1-44.
[53]Schutze C T. The Empirical Base of Linguistics : Grammaticality Judgments and Linguistic Methodology[M]. Chicago,IL:University of Chicago Press, 1996.
[54]Sprouse J,Schutze C T,Almeida D.A Comparison of Informal and Formal Acceptability Judgments UsingaRandom Sample from Linguistic Inquiry 2001- 2010[J].Lingua,2013(134): 219-248.
[55]Marvin R,Linzen T. Targeted Syntactic Evaluation of Language Models [C]/Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:1192-1202.
[56]Lau JH,Clark A,Lappin S.Grammaticality,Acceptability,and Probability:AProbabilistic Viewof Linguistic Knowledge[J]. Cognitive Science,2017 (5):1202-1241.
[57]Someya T,Sugimoto Y,Oseki Y. JCoLA: Japanese Corpus of Linguistic Acceptability[EB/OL].[2025- 02-17]. https ://arxiv. org/pdf/2309.12676.
[58]Mikhailov V,Shamardian T,Ryabinin M,et al.RuColA:Russian Corpus of Linguistic Acceptability [EB/OL].[2025-02-17].https://arxiv.org/pdf/ 2210.12814.
[59]Belinkov Y,Glass JR.Analysis Methods in Neural Language Processing:A Survey [J]. Transactions of the Association for Computational Linguistics,2019 (7):49-72
[60]Wilson C.Learning Phonology with Substantive Bias : An Experimental and Computational Study of Velar Palatalization[J]. Cognitive Science,2006(5): 945-982.
[61] Chaves R P. What don’t RNN Language Models Learn about Filler-Gap Dependencies?[C]//Proceedings of the third Meeting of the Society for Computation in Linguistics (SCiL),2020.
[62]Wilcox E,et al. What do RNN Language Models Learn about Filler-Gap Dependencies?[C]/Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networksfor NLP,2018: 211-221.
[63]Hu J,Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions[J].PNAS,2024(36).
[64]Evanson L,Lakretz Y, King JR. Language Acquisition :Do Children and Language Models Follow Similar Learning Stages?[C]//Findings of the Association for Computational Linguistics:ACL 2O23,Association for Computational Linguistics.Toronto,Canada, 2023:12205-12218.
[65]Qin Y,Wang W,Lake BM. A Systematic InvestigationofLearnability from Single Child Linguistic Input [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2402. 07899.
[66]WangW,VongWK,Kim N,et al.Finding Structure inone Child’s Linguistic Experience[J].Cognitive Science,2023(6).
[67]GauthierJ,HuJ,WilcoxE,et al.SyntaxGym:An Online Platform for Targeted Evaluation of Language Models[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics:System Demonstrations,Association for Computational Linguistics,2020:70-76.
[68]Martinez HJV,Heuser A,Yang C,etal. Evaluat
ingNeural Language Models as Cognitive Modelsof Language Acquisition [C]//Proceedings of the 1st GenBenchWorkshopon(Benchmarking)Generalisation inNLP,2023:48-64. [69]Fodor JD,Crowther C. Understanding Stimulus PovertyArguments[J].The Linguistic Review,2002 (19):105-145.
責(zé)任編輯:劉伊念(E-mail:lynsy@ jhun.edu.cn)
Linguistic Competence Evaluation of Large Language Models : Feature,Approachand Trend
YIBaoshu1,NIChuanbin2
(1.School of Foreign Studies,Nanjing University of Posts and Telecommunications,Nanjing 210023; 2.School of Foreign Languages and Cultures,Nanjing Normal University,Nanjing 210023)
Abstract:After reviewing researches on the development of linguistic competence of Large Language Models(LLMs)and comparing the different characteristics between LLMs and human speech learning, this study explores the evaluation of LLMs’linguistic competence and its theoretical implications from multiple dimensions,including the learning environment and mechanism,the measurement of languagespecific generalization ability,and the assessment of grammatical competence.It can be found that:In terms of learning environment,LLMs achieve eficient statistical generalization with massive single-modal text input,while humans develop language capacity in multi-modal interactions with higher ecological validity;their diffrencesare complementary.Regarding the core assumption of genetic theory of language,the results of ablation experiment,unsupervised and supervised tests reveal that although LLMs lack the prior grammatical specificity of humans,theycanreproduce some grammatical rules through statistical models. The assessment of grammatical competence indicates that although LLMs can acquire surface syntactic structures,thereare stillsignificant limitations in modeling human-specific features such as deep recursion and semantic-syntactic interfaces.Meanwhile,the emergent abilityof LLMs poses a dual challenge to the theory of stimulus scarcity and the genetic theory of language; it promotes the paradigm fusionof computational linguistics with theoretical linguistics,cognitive science and other fields.In the future,the assessment of LLMs’language capabilities needs to focus on the cognitive decoupling mechanism between language forms and functions,so as to explore the collaborative approaches of interdisciplinary methodologiesand clarifyLLMs’language capability boundaries.
Key Words:artificial intelligence(AI);Large Language Model (LLM);linguistic competence; grammatical competence; language acquisition; syntactic processing