亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大語(yǔ)言模型的漢語(yǔ)框架語(yǔ)義分析能力評(píng)估

        2024-10-31 00:00:00高俊杰馬博翔閆智超蘇雪峰李茹

        摘要:大語(yǔ)言模型的出現(xiàn)對(duì)自然語(yǔ)言處理產(chǎn)生了廣泛的影響,已有研究表明大語(yǔ)言模型在各類下游任務(wù)中具有出色的Zero-shot 及Few-shot 能力,而對(duì)于大語(yǔ)言模型的語(yǔ)義分析能力的評(píng)估仍然比較缺乏。因此,本文基于漢語(yǔ)框架語(yǔ)義分析中的三個(gè)子任務(wù):框架識(shí)別、論元范圍識(shí)別和論元角色識(shí)別,分別在Zero-shot 及Few-shot 設(shè)定下評(píng)估了ChatGPT、Gemini 和ChatGLM三個(gè)大語(yǔ)言模型在CFN2.0 數(shù)據(jù)集上的語(yǔ)義分析能力,并與目前基于BERT(BidirectionalEncoder Representations from Transformers)的SOTA模型進(jìn)行了比較。在框架識(shí)別任務(wù)中,大語(yǔ)言模型的準(zhǔn)確率僅比SOTA模型低0.04;但在論元范圍識(shí)別與論元角色識(shí)別任務(wù)上,大語(yǔ)言模型表現(xiàn)不佳,與SOTA(Stateof the Art)模型相比,F(xiàn)1 分?jǐn)?shù)分別相差0.13 和0.39。以上結(jié)果表明,大語(yǔ)言模型雖具備一定的框架語(yǔ)義分析能力,但進(jìn)一步提升大語(yǔ)言模型的語(yǔ)義分析能力仍然是一個(gè)具有挑戰(zhàn)性的工作。

        關(guān)鍵詞:大語(yǔ)言模型;框架識(shí)別;論元范圍識(shí)別;論元角色識(shí)別

        中圖分類號(hào):TP39 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):0253-2395(2024)05-1004-11

        0 引言

        大語(yǔ)言模型憑借其龐大的參數(shù)化知識(shí)和強(qiáng)大的推理能力,在自然語(yǔ)言理解與生成和復(fù)雜推理等任務(wù)上成效顯著,尤其是LLaMA[1-2]、ChatGLM[3]、GPT[4-6]等系列的新一代大語(yǔ)言模型的出現(xiàn),在關(guān)系抽?。?]、文本摘要[8]等各種自然語(yǔ)言處理任務(wù)中展現(xiàn)出令人矚目的效果。隨著相關(guān)研究的不斷深入,借助上下文學(xué)習(xí)、思維鏈等方法[9]進(jìn)一步提升了大語(yǔ)言模型在許多下游任務(wù)中的性能,對(duì)自然語(yǔ)言處理領(lǐng)域產(chǎn)生了巨大的影響。

        探究大語(yǔ)言模型在各種下游任務(wù)上的能力邊界已成為一個(gè)熱點(diǎn)問(wèn)題。Bang 等[10]聚合了覆蓋8 種不同自然語(yǔ)言處理任務(wù)的23 個(gè)數(shù)據(jù)集,對(duì)ChatGPT 在不同任務(wù)上的性能進(jìn)行了全面的評(píng)估。Bian 等[11]針對(duì)大語(yǔ)言模型所掌握的常識(shí)進(jìn)行了評(píng)估,發(fā)現(xiàn)ChatGPT 雖然擁有豐富的知識(shí),但在解決問(wèn)題的經(jīng)驗(yàn)上存在欠缺。Gao 等[12]、Wei 等[13]、Li 等[14]均在信息抽取任務(wù)上評(píng)估了大語(yǔ)言模型的能力,結(jié)果表明大語(yǔ)言模型在多數(shù)情況下具有良好的真實(shí)性,但偶爾會(huì)出現(xiàn)過(guò)度自信的問(wèn)題。Yuan 等[15]和EvEval[16]在事件抽取任務(wù)上評(píng)估了大語(yǔ)言模型的性能,其結(jié)論表明,盡管大語(yǔ)言模型對(duì)單一事件有所了解,但它們感知事件之間語(yǔ)義相似性的能力存在欠缺。Xie 等[17]對(duì)大語(yǔ)言模型的實(shí)體識(shí)別能力進(jìn)行了評(píng)估,并提出了包括句法分析在內(nèi)的四種不同策略來(lái)增強(qiáng)其命名實(shí)體識(shí)別能力,并證明了額外引入的句法分析結(jié)果對(duì)大模型命名實(shí)體識(shí)別能力具有增強(qiáng)作用。以上研究雖然在一定程度上探索了大語(yǔ)言模型在各種下游任務(wù)上的能力邊界,但缺少對(duì)大模型本身語(yǔ)義分析能力的評(píng)估,導(dǎo)致大語(yǔ)言模型所具備的語(yǔ)義理解能力尚不明確,這阻礙了大語(yǔ)言模型的進(jìn)一步研究與應(yīng)用,尤其是在中文上,由于訓(xùn)練語(yǔ)料相對(duì)英文較少,對(duì)其進(jìn)行全面評(píng)估更是非常有必要的。為此,本文基于框架語(yǔ)義分析任務(wù)[18],在Chinese FrameNet 2.0(CFN2.0)數(shù)據(jù)集上對(duì)目前主流支持中文的大語(yǔ)言模型進(jìn)行了一系列的評(píng)估,探究了大語(yǔ)言模型在語(yǔ)義分析任務(wù)上的能力邊界。

        框架語(yǔ)義分析是以Fillmore 的框架語(yǔ)義學(xué)[19]為基礎(chǔ)的語(yǔ)義分析任務(wù),該任務(wù)旨在通過(guò)三個(gè)子任務(wù):框架識(shí)別、論元邊界識(shí)別和論元角色識(shí)別,從框架語(yǔ)義學(xué)的角度將句子解析為結(jié)構(gòu)化的表示形式[20-22]。具體而言,框架語(yǔ)義學(xué)使用語(yǔ)義框架來(lái)表示事件的語(yǔ)義場(chǎng)景,使用框架元素來(lái)表示參與這一事件的語(yǔ)義角色,這種結(jié)構(gòu)化形式更具表達(dá)力,對(duì)于閱讀理解[23-25]、文本摘要[26-27]、關(guān)系抽取[28]和文本生成[29]等下游任務(wù)具有重要意義。如圖1 所示,在例句“他組織班級(jí)的同學(xué)明天參加由學(xué)院舉辦的學(xué)術(shù)研討會(huì)”中,目標(biāo)詞“組織”激活了“安排”框架?!八弊鳛槭﹦?dòng)者,實(shí)施了安排的動(dòng)作;“班級(jí)的同學(xué)”作為受益人,是被安排的對(duì)象;“明天”是事件發(fā)生的時(shí)間,“參加由學(xué)院舉辦的學(xué)術(shù)研討會(huì)”是安排進(jìn)行的具體事件。因此,整個(gè)句子的語(yǔ)義場(chǎng)景可以概括為:施動(dòng)者安排受益人在特定時(shí)間進(jìn)行某一事件。我們可以將句子中的短語(yǔ)與框架元素相匹配,得到其結(jié)構(gòu)化表示。這種結(jié)構(gòu)化表示全面地刻畫了語(yǔ)義場(chǎng)景下的各個(gè)角色,對(duì)于語(yǔ)義理解具有重要作用[30-31]。此外,由圖1 中的示例可見,框架語(yǔ)義分析任務(wù)具有較細(xì)的粒度,需要從完整的句義中抽象出目標(biāo)詞所觸發(fā)的語(yǔ)義場(chǎng)景,并細(xì)致分析句子中各個(gè)短語(yǔ)的劃分、短語(yǔ)含義、短語(yǔ)之間的關(guān)系等,進(jìn)而分析出這一語(yǔ)義場(chǎng)景下與目標(biāo)詞相關(guān)的各種語(yǔ)義角色。這種較細(xì)的粒度使得框架語(yǔ)義分析具有更細(xì)致的表達(dá)能力,能夠更好地作用于下游任務(wù),但同樣也增強(qiáng)了漢語(yǔ)框架語(yǔ)義分析任務(wù)本身的難度。

        以框架語(yǔ)義分析任務(wù)為背景,我們?yōu)榱烁玫卦u(píng)估大語(yǔ)言模型的語(yǔ)義分析能力,構(gòu)建了一系列不同的提示模板,在Zero-shot 和Fewshot兩種設(shè)置下,基于框架識(shí)別、論元范圍識(shí)別、論元角色識(shí)別三個(gè)框架語(yǔ)義分析的子任務(wù),對(duì)大語(yǔ)言模型的框架語(yǔ)義分析能力進(jìn)行了評(píng)估和測(cè)試,并對(duì)評(píng)估結(jié)果進(jìn)行了分析。結(jié)果表明,大語(yǔ)言模型在框架語(yǔ)義分析能力和提示信息利用能力上存在不足,即使是在思維鏈的引導(dǎo)下仍然難以激發(fā)出其框架語(yǔ)義分析能力。

        1 任務(wù)定義

        1.1 框架識(shí)別

        框架識(shí)別(Frame Identification, FI)任務(wù)需要大語(yǔ)言模型為句子中的目標(biāo)詞匹配最適合的語(yǔ)義框架,其主要的挑戰(zhàn)是目標(biāo)詞通常是有歧義的,會(huì)激活多個(gè)語(yǔ)義框架,如圖1 中的“組織”在不同場(chǎng)景下可以激活“使結(jié)合”和“安排”等多個(gè)框架。該任務(wù)的定義為:給定一個(gè)句子S ={ w1,w2,…,wn },目標(biāo)詞wt ∈ S (1 ≤ t ≤ n ),要求通過(guò)目標(biāo)詞wt 在句子S 中的上下文來(lái)理解語(yǔ)義場(chǎng)景,并從給定的框架集合F ={ f1,f 2,…,f m } 中選擇出最恰當(dāng)?shù)目蚣躥t。該任務(wù)主要評(píng)估大語(yǔ)言模型對(duì)句子中目標(biāo)詞語(yǔ)義場(chǎng)景的理解和概括能力。在圖1 的實(shí)例中,框架識(shí)別任務(wù)需要在“使結(jié)合”“安排”等框架組成的集合中確定目標(biāo)詞“組織”在句子中所屬的框架為“安排”。

        1.2 論元范圍識(shí)別

        論元范圍識(shí)別(Argument Identification , AI)任務(wù)需要大語(yǔ)言模型從給定的句子S ={ w1,w2,…,wn } 中找出目標(biāo)詞wt ∈ S (1 ≤ t ≤n ) 所支配的全部論元at ∈ { a1,a2,…,ak },其主要挑戰(zhàn)在于論元的范圍較長(zhǎng),數(shù)量也不確定。該任務(wù)能夠評(píng)估大語(yǔ)言模型分析并尋找句子中與目標(biāo)詞在語(yǔ)義上相關(guān)的片段的能力。如圖1 所示,論元范圍識(shí)別任務(wù)需要在句子中找出目標(biāo)詞“ 組織”所支配的所有論元:“ 他”“ 班級(jí)的同學(xué)”“ 明天”“ 參加由學(xué)院舉辦的學(xué)術(shù)研討會(huì)”。

        1.3 論元角色識(shí)別

        論元角色識(shí)別(Role Identification, RI)任務(wù)需要大語(yǔ)言模型將目標(biāo)詞所支配的全部論元與目標(biāo)詞所屬框架的框架元素進(jìn)行匹配,確定每個(gè)論元在其所屬框架中對(duì)應(yīng)的語(yǔ)義角色,主要的挑戰(zhàn)在于角色數(shù)量多,框架語(yǔ)義知識(shí)庫(kù)中的角色數(shù)量上千,其分類難度較高。該任務(wù)的定義為:給定一個(gè)句子S = { w1,w2,…,wn },已知其中的目標(biāo)詞wt ∈ S (1 ≤ t ≤ n ) 及其所激活的框架ft 和目標(biāo)詞在句子中所支配的全部論元at ∈ { a1,a2,…,ak },該任務(wù)需要大語(yǔ)言模型將這些論元映射到框架ft 具有的框架元素Rf ={ r1,r 2,…,r k } 中。該任務(wù)是框架語(yǔ)義分析任務(wù)的最終步驟,需要大語(yǔ)言模型對(duì)目標(biāo)詞語(yǔ)義場(chǎng)景中所有參與者的具體角色進(jìn)行分析,完整解析出目標(biāo)詞在句子中的框架語(yǔ)義信息。如圖1所示,論元角色識(shí)別任務(wù)需要在句子中找出目標(biāo)詞“組織”所支配的所有論元,并將這些論元分別映射到“ 安排”框架下的“ 施動(dòng)者”“ 受益人”“時(shí)間”和“事件”角色。

        2 實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)設(shè)定

        2.1.1 數(shù)據(jù)集

        我們使用CFN2.0 數(shù)據(jù)集[18]來(lái)評(píng)估大語(yǔ)言模型的框架語(yǔ)義分析能力。該數(shù)據(jù)集來(lái)源于山西大學(xué)中文信息處理團(tuán)隊(duì),其測(cè)試集包含4 000 個(gè)例句,覆蓋了432 個(gè)不同的框架、711 種不同的框架元素。但受限于調(diào)用大語(yǔ)言模型的成本,我們從中隨機(jī)采樣了50 個(gè)不同的框架,并為這50 個(gè)框架各隨機(jī)采樣了2 個(gè)例句,形成了包含100 個(gè)例句、覆蓋50 個(gè)框架的數(shù)據(jù)集。

        2.1.2 實(shí)驗(yàn)方案

        我們的實(shí)驗(yàn)主要針對(duì)Zero-shot 和Few-shot兩種不同場(chǎng)景設(shè)定,采用的提示模板結(jié)構(gòu)如圖2 所示。在Zero-shot 場(chǎng)景下,我們?cè)谔崾灸0逯胁惶峁┤魏螏в写鸢傅男畔?,僅說(shuō)明任務(wù)需求,要求大語(yǔ)言模型解決框架語(yǔ)義分析的相關(guān)問(wèn)題。這樣的場(chǎng)景設(shè)定主要評(píng)估大語(yǔ)言模型自身是否具有框架語(yǔ)義的相關(guān)知識(shí),并分析其能否利用相關(guān)知識(shí)解決框架語(yǔ)義分析的相關(guān)問(wèn)題。而在Few-shot 場(chǎng)景下,我們?cè)谔崾灸0逯幸肓松倭繋в姓_答案的示例樣本,并要求大語(yǔ)言模型按照模板中提供的示例格式進(jìn)行輸出。這使得大語(yǔ)言模型能夠通過(guò)給定樣例中攜帶的正確答案更好地理解任務(wù)需求,從而評(píng)估大語(yǔ)言模型能否有效利用自身的上下文學(xué)習(xí)能力從少量的示例信息學(xué)習(xí)相關(guān)知識(shí)來(lái)提升其框架語(yǔ)義分析能力。此外,受到Wang 等[32]的啟發(fā),我們注意到當(dāng)同一目標(biāo)詞在句子中出現(xiàn)多次時(shí),若不顯式地標(biāo)記出句子中的目標(biāo)詞,則大語(yǔ)言模型將無(wú)法確定需要進(jìn)行框架語(yǔ)義分析的目標(biāo)詞的具體位置。因此,我們?cè)O(shè)計(jì)了不同的提示方法,在句子中使用“ $ ”符號(hào)作為位置提示來(lái)標(biāo)出目標(biāo)詞,評(píng)估大語(yǔ)言模型在引入目標(biāo)詞位置信息前后的框架語(yǔ)義分析任務(wù)性能差異。此外,我們也設(shè)計(jì)了基于思維鏈的提示模板,評(píng)估大語(yǔ)言模型在引入思維鏈前后的框架語(yǔ)義分析能力變化。

        2.2 評(píng)價(jià)指標(biāo)

        根據(jù)上述三項(xiàng)框架語(yǔ)義分析任務(wù)的不同特點(diǎn),我們使用了不同的評(píng)價(jià)指標(biāo)來(lái)評(píng)估解析結(jié)果。

        對(duì)于框架識(shí)別任務(wù),我們將正確率AccFI 作為評(píng)價(jià)指標(biāo)。其定義為:給定ntotal 個(gè)句子和一個(gè)候選框架集合F′ = { f1,f2,…,f m },使用大語(yǔ)言模型為每一個(gè)句子中的目標(biāo)詞在F′ 中選擇一個(gè)框架,將選擇正確的句子數(shù)量記為ncorrect,則框架識(shí)別任務(wù)的AccFI 定義如下:

        AccFI =ncorrect/ntotal。(1)

        對(duì)于論元范圍識(shí)別任務(wù),我們統(tǒng)計(jì)每一個(gè)預(yù)測(cè)結(jié)果與所有真實(shí)標(biāo)簽的最大重合字?jǐn)?shù),并計(jì)算F1 作為評(píng)價(jià)指標(biāo)。具體來(lái)說(shuō),給定一組句子及其所包含的所有真實(shí)論元agold ={ ag1,ag2,…,agm },將模型預(yù)測(cè)出的所有論元記作apred = { ap1,ap2,…,apn },則論元范圍識(shí)別任務(wù)的F1AI 計(jì)算如下:

        對(duì)于論元角色識(shí)別任務(wù),我們同樣計(jì)算F1值作為評(píng)價(jià)指標(biāo)。與論元范圍識(shí)別任務(wù)不同的是,論元角色識(shí)別任務(wù)的評(píng)估只有在論元邊界和論元角色均與標(biāo)簽完全一致的情況下才被認(rèn)為是正確的。具體來(lái)說(shuō),給定一組句子及其所包含的所有真實(shí)論元agold = { ag1,ag2,…,agm } 和對(duì)應(yīng)的角色rgold = { rg1,r g2,…,r gm },將模型預(yù)測(cè)出的所有論元記作apred = { ap1,ap2,…,apn },預(yù)測(cè)出的對(duì)應(yīng)角色記作rpred = { rp1,rp2,…,rpn },完全正確的預(yù)測(cè)結(jié)果數(shù)量記為kcorrect,則論元角色識(shí)別任務(wù)的F1RI 計(jì)算如下:

        2.3 實(shí)驗(yàn)結(jié)果

        2.3.1 使用基礎(chǔ)提示模板的實(shí)驗(yàn)結(jié)果

        我們?cè)谏鲜鰧?shí)驗(yàn)設(shè)置下對(duì)多個(gè)大語(yǔ)言模型進(jìn)行了評(píng)估,包括ChatGPT-3.5[33] 、Gemini-Pro[34]以及ChatGLM2-6B[3]。ChatGPT-3.5 是由OpenAI 于2022 年推出的商用大語(yǔ)言模型,通過(guò)大量語(yǔ)料進(jìn)行訓(xùn)練,并通過(guò)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行微調(diào),使其能夠理解和生成自然語(yǔ)言,在自然語(yǔ)言處理領(lǐng)域的各項(xiàng)任務(wù)中展現(xiàn)出了較好的性能。Gemini 系列商用大語(yǔ)言模型由Google 于2023 年推出,同樣在各項(xiàng)自然語(yǔ)言處理領(lǐng)域的任務(wù)上具有出眾的效果,其特點(diǎn)在于原生具備對(duì)多模態(tài)的支持,根據(jù)模型規(guī)模大小分為Nano、Pro 和Ultra 版本,本文采用的Gemi?ni-Pro 是中等規(guī)模的版本。而ChatGLM2 則是由清華大學(xué)于2023 年推出的開源大語(yǔ)言模型,其參數(shù)量?jī)H為6 B,規(guī)模遠(yuǎn)小于ChatGPT-3.5 和Gemini-Pro,但同樣在自然語(yǔ)言處理領(lǐng)域的通用任務(wù)上具有不俗的表現(xiàn),且具有便于部署的特點(diǎn)。作為對(duì)比的SOTA(State of the Art)模型[35]均為以BERT(Bidirectional Encoder Representa?tions from Transformers)[36]為基礎(chǔ)進(jìn)行微調(diào)后的模型,該方法使用旋轉(zhuǎn)矩陣對(duì)絕對(duì)位置進(jìn)行編碼,同時(shí)將顯式的相對(duì)位置依賴性納入自注意公式中,在框架識(shí)別等任務(wù)中達(dá)到了SOTA。主要實(shí)驗(yàn)結(jié)果見表1(Zero-shot 場(chǎng)景)和表2(Few-shot 場(chǎng)景)。表中加粗表示最高的分?jǐn)?shù),下劃線表示第二高的分?jǐn)?shù)。

        由表1 與表2 中的主要實(shí)驗(yàn)結(jié)果可見,大語(yǔ)言模型在Few-shot 場(chǎng)景下的框架語(yǔ)義分析能力要顯著優(yōu)于Zero-shot 場(chǎng)景,這表明大語(yǔ)言模型具備的上下文學(xué)習(xí)能力在框架語(yǔ)義分析任務(wù)中能夠發(fā)揮積極作用,使其能夠根據(jù)提示樣例更好地理解任務(wù)需求。然而,無(wú)論是在Zero-shot還是Few-shot 場(chǎng)景下,大語(yǔ)言模型在框架語(yǔ)義分析任務(wù)中的表現(xiàn)與傳統(tǒng)模型相比仍存在一定的差異,特別是隨著任務(wù)粒度的細(xì)化,大語(yǔ)言模型的表現(xiàn)下滑明顯。特別的,即使是本次評(píng)估中性能最佳的Gemini,也僅在框架識(shí)別任務(wù)上達(dá)到了與SOTA 模型相近的性能,而在粒度較細(xì)的論元范圍識(shí)別和論元角色識(shí)別任務(wù)上,其性能與SOTA 模型的性能差異逐漸加大。總體而言,我們的評(píng)估結(jié)果表明現(xiàn)階段的大語(yǔ)言模型具備了一定的框架語(yǔ)義分析能力,但是并不能很好地理解粒度較細(xì)的語(yǔ)義信息,因此其在框架語(yǔ)義分析任務(wù)上仍存在一定不足。

        2.3.2 引入目標(biāo)詞位置信息的實(shí)驗(yàn)結(jié)果

        為了分析目標(biāo)詞位置信息對(duì)大模型框架語(yǔ)義分析能力的影響,我們?cè)O(shè)計(jì)實(shí)驗(yàn)對(duì)比了在提示信息中引入目標(biāo)詞的位置信息對(duì)各項(xiàng)評(píng)估任務(wù)性能的影響。在兩種少樣本場(chǎng)景下,不同目標(biāo)詞位置信息設(shè)定的實(shí)驗(yàn)結(jié)果如表3(Zero-shot場(chǎng)景)和表4(Few-shot 場(chǎng)景)所示。

        實(shí)驗(yàn)結(jié)果表明,即使是細(xì)微的位置信息的變動(dòng)也會(huì)給其解析能力帶來(lái)較為顯著的擾動(dòng),且這種擾動(dòng)是難以預(yù)知的,由此可見大語(yǔ)言模型在框架語(yǔ)義分析任務(wù)上對(duì)提示信息的利用是不穩(wěn)定的。

        2.3.3 引入思維鏈的實(shí)驗(yàn)結(jié)果

        此外,為分析思維鏈對(duì)大語(yǔ)言模型框架語(yǔ)義分析任務(wù)的影響,我們分別使用傳統(tǒng)提示構(gòu)建方法以及基于思維鏈的構(gòu)建方法來(lái)構(gòu)建提示模板。在不同的提示模板構(gòu)建方法上得到的實(shí)驗(yàn)結(jié)果見表5(Zero-shot 場(chǎng)景)和表6(Few-shot 場(chǎng)景)。

        由實(shí)驗(yàn)結(jié)果可見,即使使用思維鏈引導(dǎo),也并不能穩(wěn)定地激發(fā)出大語(yǔ)言模型的框架語(yǔ)義分析能力,且對(duì)于一些參數(shù)量較小的模型(如ChatGLM2),甚至?xí)苯訉?dǎo)致輸出內(nèi)容不可控,這也體現(xiàn)了大語(yǔ)言模型在框架語(yǔ)義分析能力上的不足。

        2.3.4 不同溫度系數(shù)下的實(shí)驗(yàn)結(jié)果

        除提示模板外,由于大語(yǔ)言模型自身生成時(shí)具有一定的隨機(jī)性,且這一隨機(jī)性與溫度系數(shù)呈正相關(guān),在不同的溫度系數(shù)下其輸出結(jié)果存在很大的差異。因此我們分析了這一隨機(jī)性對(duì)其框架語(yǔ)義分析能力的影響。對(duì)于每一個(gè)任務(wù)的不同模板設(shè)定,我們均分別測(cè)試了大語(yǔ)言模型在T = 0.1,0.3,0.5,1.0 四種不同溫度系數(shù)下的表現(xiàn),并統(tǒng)計(jì)了其在不同的溫度系數(shù)下取得最好成績(jī)的次數(shù),實(shí)驗(yàn)結(jié)果如圖3 所示。

        結(jié)果表明,大語(yǔ)言模型更偏向于在較低的溫度系數(shù)下完成框架語(yǔ)義分析任務(wù),且僅有極少數(shù)的實(shí)驗(yàn)在溫度系數(shù)為1.0 時(shí)取得了最好的效果。具體而言,在Few-shot 場(chǎng)景下,溫度系數(shù)為0.5 時(shí)有最多的實(shí)驗(yàn)達(dá)到了最好效果,而在Zero-shot 場(chǎng)景下時(shí)這一數(shù)值為0.1。我們認(rèn)為,在Zero-shot 場(chǎng)景下,較大的溫度系數(shù)導(dǎo)致模型隨機(jī)性過(guò)高,在沒(méi)有充足示例的情況下導(dǎo)致輸出偏離了任務(wù)本身;而由于Few-shot 場(chǎng)景下的輸入中含有示例,因此在相對(duì)較高的溫度系數(shù)下其輸出仍然可控,且相對(duì)較高的溫度系數(shù)更好地激發(fā)出大語(yǔ)言模型的表達(dá)能力。由此可見,溫度系數(shù)的改變同樣對(duì)大語(yǔ)言模型的框架語(yǔ)義解析能力具有非常顯著的影響。

        3 分析與討論

        3.1 語(yǔ)義消歧能力分析

        我們通過(guò)上述大量實(shí)驗(yàn)結(jié)果可以看出,大語(yǔ)言模型并不能很好地完成框架語(yǔ)義分析任務(wù),其性能與傳統(tǒng)模型相比仍有較大差距。一方面,框架語(yǔ)義分析需要具有一定的框架語(yǔ)義專業(yè)知識(shí),而大語(yǔ)言模型雖然經(jīng)過(guò)了海量文本數(shù)據(jù)的訓(xùn)練,但這些數(shù)據(jù)中包含的框架語(yǔ)義專業(yè)知識(shí)的數(shù)量、質(zhì)量是難以確定的,這會(huì)嚴(yán)重影響大語(yǔ)言模型對(duì)框架語(yǔ)義信息的理解和處理。另一方面,框架語(yǔ)義分析任務(wù)粒度較細(xì),其中包含了許多細(xì)致、嚴(yán)謹(jǐn)?shù)亩x,且不同定義之間的差異可能是非常細(xì)微的。如圖4 所示,“ 供應(yīng)”與“提供”兩個(gè)框架均表示轉(zhuǎn)移體在兩者之間轉(zhuǎn)移的場(chǎng)景,其定義上的區(qū)分僅在于更強(qiáng)調(diào)“ 提供者”的“提供意愿”還是“接收者”的“接受意愿”,而這種區(qū)分是非常細(xì)致的。這使得漢語(yǔ)框架語(yǔ)義能夠更細(xì)致地刻畫語(yǔ)義場(chǎng)景,但對(duì)于大語(yǔ)言模型而言則極大地增強(qiáng)了其進(jìn)行框架語(yǔ)義分析的難度。大語(yǔ)言模型雖然擅長(zhǎng)對(duì)輸入的上下文進(jìn)行處理,但它們?cè)诶斫庠~語(yǔ)和概念之間的復(fù)雜關(guān)系和識(shí)別歧義能力方面存在局限性。

        3. 2 論元邊界識(shí)別能力分析

        本節(jié)以論元范圍識(shí)別任務(wù)為例,對(duì)大模型的論元邊界識(shí)別能力進(jìn)行樣例分析,重點(diǎn)關(guān)注了目標(biāo)詞位置信息的影響。圖5 為論元范圍識(shí)別任務(wù)中表現(xiàn)最好的Gemini 模型在不同位置信息提示設(shè)定下的識(shí)別結(jié)果樣例。在例句中,目標(biāo)詞“豐富”出現(xiàn)了兩次,因此在沒(méi)有明確指定目標(biāo)詞位置信息的情況下,大語(yǔ)言模型會(huì)受到無(wú)關(guān)詞語(yǔ)的影響而誤判或遺漏論元,而在提示中加入位置信息則緩解了這一問(wèn)題。特別地,正如示例中所示,我們?cè)赯ero-shot 場(chǎng)景下的絕大多數(shù)實(shí)驗(yàn)中引入位置信息都達(dá)到了相對(duì)更好的效果,但在Few-shot 場(chǎng)景中卻相反。這是由于在Zero-shot場(chǎng)景中不存在提示樣例,導(dǎo)致大語(yǔ)言模型對(duì)任務(wù)需求的理解有限,而額外引入的位置信息提示作為任務(wù)需求的補(bǔ)充,對(duì)于大語(yǔ)言模型更好地理解任務(wù)具有積極作用,進(jìn)而使其能夠更準(zhǔn)確地進(jìn)行推理;而Few-shot 場(chǎng)景下的提示樣例已經(jīng)能夠清晰地描述任務(wù)所需的輸入和輸出,此時(shí)引入的位置信息可能會(huì)被大語(yǔ)言模型理解為噪音,對(duì)其推理過(guò)程造成干擾。

        3.3 論元角色識(shí)別能力分析

        本節(jié)以論元角色識(shí)別任務(wù)為例,對(duì)大語(yǔ)言模型的論元角色識(shí)別能力進(jìn)行樣例分析,并重點(diǎn)關(guān)注了思維鏈推理對(duì)其的影響。如圖6 所示,參數(shù)量較小的ChatGLM2 在該任務(wù)上產(chǎn)生了完全不可控的輸出,無(wú)論是否使用思維鏈進(jìn)行引導(dǎo),均出現(xiàn)了F1 值為0 的情況,即其輸出內(nèi)容完全錯(cuò)誤。由此可見,一些大語(yǔ)言模型在語(yǔ)義論元識(shí)別能力上仍存在欠缺,雖然其能夠理解上下文內(nèi)容的語(yǔ)義,但是在分析和分辨句子中不同片段所充當(dāng)?shù)恼Z(yǔ)義角色時(shí),其難以分辨這些粒度較細(xì)的語(yǔ)義信息,即使在思維鏈的引導(dǎo)下其表現(xiàn)仍然不佳。我們認(rèn)為這是由于論元角色識(shí)別任務(wù)更傾向于考驗(yàn)大模型對(duì)語(yǔ)義的理解能力,但思維鏈通常用于強(qiáng)化大語(yǔ)言模型的推理能力,而這種推理能力并不能很好地作用于語(yǔ)義理解能力的增強(qiáng)。此外,思維鏈的引入在一定程度上增加了模型需要理解和生成的上下文長(zhǎng)度,這也使得一些參數(shù)量較小的模型在輸出中出現(xiàn)不可控的情況。

        4 結(jié)論

        盡管大語(yǔ)言模型在許多自然語(yǔ)言處理領(lǐng)域的任務(wù)上取得了令人印象深刻的效果,但經(jīng)過(guò)我們的評(píng)估,與傳統(tǒng)模型相比,大語(yǔ)言模型在框架語(yǔ)義分析任務(wù)上仍存在不足。這種不足主要體現(xiàn)在:(1)語(yǔ)義分析任務(wù)上解析能力嚴(yán)重不足;(2)無(wú)法穩(wěn)定利用額外提示信息提升解決此類問(wèn)題的能力;(3)在思維鏈的引導(dǎo)下仍然難以激發(fā)出其框架語(yǔ)義分析能力。此外,我們也通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)了大語(yǔ)言模型溫度系數(shù)設(shè)定對(duì)其框架語(yǔ)義分析能力的影響,并分析了溫度系數(shù)設(shè)定與示例樣本量之間存在的關(guān)聯(lián)。這些評(píng)估結(jié)果為我們今后的研究提供了新的方向,一方面,我們將在今后的工作中有針對(duì)性地改進(jìn)大語(yǔ)言模型存在的問(wèn)題,使其能夠在框架語(yǔ)義分析任務(wù)中展現(xiàn)出更具競(jìng)爭(zhēng)力的表現(xiàn);另一方面,現(xiàn)階段大語(yǔ)言模型的不足表明我們繼續(xù)基于傳統(tǒng)模型來(lái)解決框架語(yǔ)義分析任務(wù)仍然是非常有意義的。

        參考文獻(xiàn):

        [1] TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMA:Open and Efficient Foundation Language Models[EB/OL]. arXiv Preprint: 2302.13971, 2023. https://arxiv.org/abs/2302.13971.

        [2] TOUVRON H, MARTIN L, STONE K, et al. Llama 2:Open Foundation and Fine-Tuned Chat Models[EB/OL].arXiv Preprint: 2307.09288, 2023. https://arxiv. org/abs/2307.09288.

        [3] DU Z, QIAN Y, LIU X, et al. GLM: General LanguageModel Pretraining with Autoregressive Blank Infilling[C]//Proceedings of the 60th Annual Meeting of the Asso‐ciation for Computational Linguistics (Volume 1: LongPapers). Stroudsbarg, PA: ACL, 2022: 320-335. DOI:10.18653/v1/2022.acl-long.26.

        [4] RADFORD A, NARASIMHAN K, SALIMANS T, et al.Improving Language Understanding by Generative Pre-Training[EB/OL]. (2018-06-09) [2024-02-15]. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.

        [5] RADFORD A, WU J, CHILD R, et al. Language Modelsare Unsupervised Multitask Learners[EB/OL]. (2019-02-15) [2024-03-10]. https://cdn. openai. com/better-language-models/language_models_are_unsupervised_mul ‐titask_learners.pdf.

        [6] BROWN T, MANN B, RYDER N, et al. Language Modelsare Few-Shot Learners[J]. Adv Neural Inform ProcessSyst, 2020, 33: 1877-1901.

        [7] WADHWA S, AMIR S, WALLACE B C. Revisiting RelationExtraction in the era of Large Language Models[C]//Proceedings of the 61st Annual Meeting of the Associationfor Computational Linguistics (Volume 1: LongPapers), Stroudsburg, PA: ACL, 2023: 15566-15589.DOI: 10.18653/v1/2023.acl-long.868.

        [8] LUO Z, XIE Q, ANANIADOU S. ChatGPT as a FactualInconsistency Evaluator for Text Summarization[EB/OL]. arXiv Preprint: 2303.15621, 2023. https://arxiv.org/abs/2303.15621.

        [9] WEI J, WANG X, SCHUURMANS D, et al. Chain-of-Thought Prompting Elicits Reasoning in Large LanguageModels[J]. Adv Neural Inform Process Syst, 2022, 35:24824-24837.

        [10] BANG Y, CAHYAWIJAYA S, LEE N, et al. A Multitask,Multilingual, Multimodal Evaluation of ChatGPTon Reasoning, Hallucination, and Interactivity[C]//Proceedingsof the 13th International Joint Conference onNatural Language Processing and the 3rd Conference ofthe Asia-Pacific Chapter of the Association for ComputationalLinguistics (Volume 1: Long Papers). Romania:AACL, 2023: 675-718. DOI: 10.18653/v1/2023. ijcnlpmain.45.

        [11] BIAN N, HAN X, SUN L, et al. ChatGPT is a Knowledgeablebut Inexperienced Solver: An Investigation ofCommonsense Problem in Large Language Models[EB/OL]. arXiv Preprint: 2303.16421, 2024. https://arxiv.org/abs/2303.16421.

        [12] GAO J, ZHAO H, YU C, et al. Exploring the Feasibilityof ChatGPT for Event Extraction[EB/OL]. arXivPreprint: 2303.03836, 2023. https://arxiv. org/abs/2303.03836.

        [13] WEI X, CUI X, CHENG N, et al. Zero-Shot InformationExtraction via Chatting with ChatGPT[EB/OL].arXiv Preprint: 2302.10205, 2023. https://arxiv.org/abs/2302.10205.

        [14] LI B, FANG G, YANG Y, et al. Evaluating ChatGPT'sInformation Extraction Capabilities: An Assessment ofPerformance, Explainability, Calibration, and Faithfulness[EB/OL]. arXiv Preprint: 2304.11633, 2023. https://arxiv.org/abs/2304.11633.

        [15] YUAN C, XIE Q, ANANIADOU S. Zero-shot TemporalRelation Extraction with ChatGPT[C]//The 22ndWorkshop on Biomedical Natural Language Processingand BioNLP Shared Tasks. Stroudsbarg, PA: ACL,2023: 92-102. DOI: 10.18653/v1/2023.bionlp-1.7.

        [16] TAO Z, JIN Z, BAI X, et al. EvEval: A ComprehensiveEvaluation of Event Semantics for Large LanguageModels[EB/OL]. arXiv Preprint: 2305.15268, 2023.https://arxiv.org/abs/2305.15268.

        [17] XIE T, LI Q, ZHANG J, et al. Empirical Study of Zero-Shot NER with ChatGPT[C]//Proceedings of the 2023Conference on Empirical Methods in Natural LanguageProcessing. Stroudsbarg, PA: ACL, 2023: 7935-7956.DOI: 10.18653/v1/2023.emnlp-main.493.

        [18] LI J, YAN Z, SU X, et al. Overview of CCL23-EvalTask 3: Chinese FrameNet Semantic Parsing[C]//Proceedingsof the 22nd Chinese National Conference onComputational Linguistics (Volume 3: Evaluations).Beijing: CIPS, 2023: 113-123.

        [19] FILLMORE C J. Frame Semantics[M]//GEERAERTSD. Cognitive Linguistics: Basic Readings. Berlin, NewYork: De Gruyter Mouton, 2006: 373-400. DOI:10.1515/9783110199901.373.

        [20] 閆智超, 李茹, 蘇雪峰, 等. 融合目標(biāo)詞上下文序列與結(jié)構(gòu)信息的框架識(shí)別方法[J]. 中文信息學(xué)報(bào), 2024, 38(1): 86-96.

        YAN Z C, LI R, SU X F, et al. Integrating Contextual andStructural Information of Target Words for FrameIdentification[J]. J Chin Inf Process, 2024, 38(1): 86-96.

        [21] SU X F, LI R, LI X L, et al. A Span-based Target-awareRelation Model for Frame-semantic Parsing[J]. ACMTrans Asian Low-Resour Lang Inf Process, 2023, 22(3):1-24. DOI: 10.1145/3569581.

        [22] YAN Z C, SU X F, CHAI Q H, et al. Multiple POSDependency-aware Mixture of Experts for Frame Identification[J]. IEEE Access, 2023, 11: 25604-25615. DOI:10.1109/ACCESS.2023.3253128.

        [23] GUO S, GUAN Y, LI R, et al. Incorporating Syntax andFrame Semantics in Neural Network for Machine Read‐ing Comprehension[C]//Proceedings of the 28th InternationalConference on Computational Linguistics.America: ICCL, 2020: 2635-2641. DOI: 10.18653/v1/2020.coling-main.237.

        [24] GUO S, LI R, TAN H, et al. A Frame-based SentenceRepresentation for Machine Reading Comprehension[C]//Proceedings of the 58th Annual Meeting of the Associationfor Computational Linguistics. Stroudsbarg,PA: ACL, 2020: 891-896. DOI: 10.18653/v1/2020. aclmain.83

        [25] 王智強(qiáng), 李茹, 梁吉業(yè), 等. 基于漢語(yǔ)篇章框架語(yǔ)義分析的閱讀理解問(wèn)答研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(4):795-807. DOI: 10.11897/SP.J.1016.2016.00795.

        WANG Z Q, LI R, LIANG J Y, et al. Research onQuestion Answering for Reading Comprehension Basedon Chinese Discourse Frame Semantic Parsing[J]. ChinJ Comput, 2016, 39(4): 795-807. DOI: 10.11897/SP.J.1016.2016.00795.

        [26] GUAN Y, GUO S, LI R, et al. Frame Semantic-Enhanced Sentence Modeling for Sentence-level ExtractiveText Summarization[C] //Proceedings of the 2021Conference on Empirical Methods in Natural LanguageProcessing. Stroudsbarg, PA: ACL, 2021: 4045-4052.DOI: 10.18653/v1/2021.emnlp-main.331.

        [27] GUAN Y, GUO S, LI R, et al. Integrating Semantic Scenarioand Word Relations for Abstractive SentenceSummarization[C]//Proceedings of the 2021 Conferenceon Empirical Methods in Natural Language Processing.Stroudsbarg, PA: ACL, 2021: 2522-2529.DOI: 10.18653/v1/2021.emnlp-main.196.

        [28] ZHAO H Y, LI R, LI X L, et al. CFSRE: Context-awareBased on Frame-semantics for Distantly Supervised RelationExtraction[J]. Knowl Based Syst, 2020, 210:106480. DOI: 10.1016/j.knosys.2020.106480.

        [29] 譚紅葉, 閆真, 李茹, 等. 邁向創(chuàng)造性語(yǔ)言生成: 漢語(yǔ)幽默自動(dòng)生成的探索[J]. 中國(guó)科學(xué): 信息科學(xué), 2018, 48(11): 1497-1509. DOI: 10.1360/N112018-00158.

        TAN H Y, YAN Z, LI R, et al. Towards CreativeLanguage Generation: Exploring Chinese HumorGeneration[J]. Sci Sin Informationis, 2018, 48(11):1497-1509. DOI: 10.1360/N112018-00158.

        [30] 郝曉燕, 劉偉, 李茹, 等. 漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)及軟件描述體系[J]. 中文信息學(xué)報(bào), 2007, 21(5): 96-100.DOI: 10.3969/j.issn.1003-0077.2007.05.018.

        HAO X Y, LIU W, LI R, et al. Description Systems ofthe Chinese FrameNet Database and Software Tools[J].J Chin Inf Process, 2007, 21(5): 96-100. DOI: 10.3969/j.issn.1003-0077.2007.05.018.

        [31] 劉開瑛. 漢語(yǔ)框架語(yǔ)義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報(bào), 2011, 25(6): 46-52. DOI: 10.3969/j.issn.1003-0077.2011.06.007.

        LIU K Y. Research on Chinese FrameNet Construction andApplication Technologies[J]. J Chin Inf Process, 2011, 25(6): 46-52. DOI: 10.3969/j.issn.1003-0077.2011.06.007.

        [32] WANG S, SUN X, LI X, et al. GPT-NER: Named EntityRecognition via Large Language Models[EB/OL].arXiv Preprint: 2304.10428, 2023. https://arxiv.org/abs/2304.10428.

        [33] OUYANG L, WU J, JIANG X, et al. Training LanguageModels to Follow Instructions with Human Feedback[J]. Adv Neural Inform Process Syst, 2022, 35:27730-27744.

        [34] ANIL R, BORGEAUD S, ALAYRAC J, et al. Gemini:A Family of Highly Capable Multimodal Models[EB/OL]. arXiv Preprint: 2312.11805, 2024. https://arxiv.org/abs/2312.11805.

        [35] LI Z, GUO X, QIAO D, et al. System Report for CCL23-Eval Task 3: Application of Entity Classification ModelBased on Rotary Position Embedding in Chinese FrameSemantic Parsing[C]//Proceedings of the 22nd ChineseNational Conference on Computational Linguistics (Volume3: Evaluations). Beijing: CIPS, 2023: 94-104.

        [36] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pretrainingof Deep Bidirectional Transformers for LanguageUnderstanding[C]//Proceedings of the 2019 Conferenceof the North American Chapter of the Associationfor Computational Linguistics: Human LanguageTechnologies, Volume 1 (Long and Short Papers).Stroudsbarg, PA: ACL, 2019: 4171-4186. DOI:10.18653/v1/N19-1423.

        基金項(xiàng)目:山西省科技合作交流專項(xiàng)項(xiàng)目(202204041101016);山西省基礎(chǔ)研究計(jì)劃項(xiàng)目(202203021211286);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61936012)

        国产性感丝袜在线观看| 日韩亚洲国产中文字幕| 免费黄网站久久成人精品| Jizz国产一区二区| 亚洲日本精品一区二区三区| 日韩av在线不卡一区二区| 久久777国产线看观看精品 | 国产一级黄片久久免费看| 在线观看国产一区二区av| 久久777国产线看观看精品| 亚洲一区 日韩精品 中文字幕 | 男人边吻奶边挵进去视频| 91网站在线看| 久久无码中文字幕东京热| 亚洲国产精品自拍成人| 国产片精品av在线观看夜色| 四川老熟妇乱子xx性bbw| 国产精品美女| 99精品国产自产在线观看| 中文字幕一区二区网址| 国产精品亚洲精品日韩已方| 亚洲精品无码国产| 六月丁香婷婷色狠狠久久| 亚洲AV无码未成人网站久久精品 | 精品精品国产三级av在线| 丰满熟女高潮毛茸茸欧洲视频 | 亚洲综合五月天欧美| 亚洲国语对白在线观看| 日本女优在线一区二区三区| 国内女人喷潮完整视频| 俺来也俺去啦最新在线| 色综合另类小说图片区| 亚洲中文字幕有综合久久| 日本a爱视频二区三区| 国产一区二区三区四区三区| 午夜精品一区二区三区的区别| 亚洲午夜精品久久久久久一区| 日本国产在线一区二区| 中文字日产幕码三区做法| 国产精品情侣呻吟对白视频| 国产精品_国产精品_k频道w|