亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題提示的電力命名實(shí)體識(shí)別①

        2022-09-20 04:11:42康雨萌翟千惠程雅夢(mèng)
        關(guān)鍵詞:文檔實(shí)體單詞

        康雨萌, 何 瑋, 翟千惠, 程雅夢(mèng), 俞 陽(yáng)

        (國(guó)網(wǎng)江蘇營(yíng)銷(xiāo)服務(wù)中心, 南京 210019)

        隨著人工智能技術(shù)的迅速發(fā)展, 國(guó)網(wǎng)集團(tuán)啟動(dòng)了“互聯(lián)網(wǎng)+電力營(yíng)銷(xiāo)”的工作模式, 將傳統(tǒng)的線下?tīng)I(yíng)業(yè)廳與人工客服熱線升級(jí)為自動(dòng)化的電力客服機(jī)器人. 為了支撐智能化的客服問(wèn)答, 構(gòu)建知識(shí)圖譜成為了一個(gè)主要途徑. 而在整個(gè)構(gòu)建流程中, 如何從電力領(lǐng)域文本中進(jìn)行命名實(shí)體識(shí)別(named entity recognition, NER)[1]是一個(gè)重要環(huán)節(jié), 它旨在將輸入文本中的單詞或短語(yǔ)識(shí)別為不同類(lèi)型的實(shí)體標(biāo)簽[2], 為后續(xù)關(guān)系抽取等步驟提供基礎(chǔ).

        傳統(tǒng)的NER方法主要是基于BiLSTM-CRF框架.鑒于預(yù)訓(xùn)練語(yǔ)言模型(pre-trained language model, PLM)[3]在多項(xiàng)自然語(yǔ)言處理任務(wù)上帶來(lái)的顯著提升, 微調(diào)PLM的參數(shù)以編碼輸入文本, 并利用Softmax或條件隨機(jī)場(chǎng)(conditional random field, CRF)[4]分配實(shí)體標(biāo)簽, 成為了NER領(lǐng)域的普遍做法. 盡管這類(lèi)方法在一般任務(wù)上表現(xiàn)不俗, 但是由于預(yù)訓(xùn)練和下游NER任務(wù)之間存在差距, 且對(duì)于新的目標(biāo)領(lǐng)域, 模型需要足夠的訓(xùn)練實(shí)例進(jìn)行微調(diào), 因此在電力場(chǎng)景下, NER[5]任務(wù)仍然面臨著以下挑戰(zhàn):

        首先, 現(xiàn)有方法大多假定具有充足的標(biāo)注訓(xùn)練數(shù)據(jù), 然而, 提供電力領(lǐng)域的標(biāo)注往往需要具備領(lǐng)域知識(shí)的專(zhuān)業(yè)人員. 這使得在實(shí)際應(yīng)用中訓(xùn)練數(shù)據(jù)不足, 即存在少樣本(few-shot)問(wèn)題. 其次, 在傳統(tǒng)開(kāi)放領(lǐng)域NER數(shù)據(jù)集中, 實(shí)體類(lèi)型一般較少且更含義寬泛, 如在廣泛使用的英文數(shù)據(jù)集CoNLL03[2]中, 只有4種實(shí)體類(lèi)型.而在中文電力場(chǎng)景中, 由于其行業(yè)特殊性, 實(shí)體類(lèi)型高達(dá)14種, 而且訓(xùn)練數(shù)據(jù)更少, 這無(wú)疑加大了預(yù)測(cè)實(shí)體類(lèi)型的難度.

        為了克服上述挑戰(zhàn), 本文提出了一種基于主題提示的NER模型(topic prompt NER model, TP-NER). 該模型打破了BERT-LSTM-CRF范式, 使用自然語(yǔ)言提示模板挖掘PLM的潛在知識(shí), 以提升少樣本NER的效果. 同時(shí), 該模型利用了電力語(yǔ)料中的主題信息,使得實(shí)體類(lèi)型預(yù)測(cè)更加準(zhǔn)確.

        1 相關(guān)工作

        近年來(lái), 基于神經(jīng)網(wǎng)絡(luò)的方法在 NER 任務(wù)中提供了有競(jìng)爭(zhēng)力的表現(xiàn). Lewis等人[5]和Chiu等人[6]將NER視為對(duì)輸入文本的每個(gè)單詞的分類(lèi)問(wèn)題. Ma等人[4]利用CRF和“序列-到-序列”框架[7], 從而得到實(shí)體跨度與對(duì)應(yīng)類(lèi)型標(biāo)簽. Zhang等人[8], Cui等人[9]和Gui等人[10]分別使用標(biāo)簽注意網(wǎng)絡(luò)和貝葉斯神經(jīng)網(wǎng)絡(luò). 隨著預(yù)訓(xùn)練模型的興起, Yamada等人[11]提出了基于實(shí)體感知的預(yù)訓(xùn)練, 從而NER 上獲得不錯(cuò)的效果. 這些方法與本文方法的區(qū)別是它們是為指定的命名實(shí)體類(lèi)型[12-14]設(shè)計(jì)的, 采用了序列標(biāo)注的框架, 這令它們?cè)谏贅颖緢?chǎng)景難以適應(yīng)新的類(lèi)型.

        目前已經(jīng)有一些關(guān)于少樣本場(chǎng)景下NER的研究.Wiseman等人[15]提出了不同的預(yù)訓(xùn)練方法和微調(diào)策略. Yang等人[16]利用常見(jiàn)的少樣本分類(lèi)方法, 如原型網(wǎng)絡(luò)和匹配網(wǎng)絡(luò), 其中還學(xué)習(xí)了提高性能的轉(zhuǎn)換分?jǐn)?shù).這些方法依賴(lài)復(fù)雜的訓(xùn)練過(guò)程, 但結(jié)果并不顯著. Chen等人[17]的方法不需要元訓(xùn)練, 通過(guò)最近鄰分類(lèi)器和結(jié)構(gòu)化解碼器, 取得了更好效果.

        利用外部知識(shí)來(lái)提高 PLM 的性能近年來(lái)得到了廣泛的研究, 通常應(yīng)用于預(yù)訓(xùn)練和微調(diào)階段. 具體來(lái)說(shuō),在文本分類(lèi)任務(wù)中, Li等人[18]探索了利用知識(shí)圖譜來(lái)增強(qiáng)輸入文本. 與這些方法不同, 本文的方法在提示調(diào)優(yōu)結(jié)合了主題知識(shí), 因此在少樣本NER任務(wù)中產(chǎn)生了顯著的改進(jìn).

        自從 GPT-3出現(xiàn)以來(lái), 提示調(diào)優(yōu)受到了相當(dāng)大的關(guān)注. GPT-3表明, 通過(guò)即時(shí)調(diào)整和上下文學(xué)習(xí), 大規(guī)模語(yǔ)言模型可以在低資源情況下表現(xiàn)良好. Schick等人[19]認(rèn)為小規(guī)模語(yǔ)言模型也可以使用提示調(diào)整獲得不錯(cuò)的性能. 雖然大多數(shù)研究都是針對(duì)文本分類(lèi)任務(wù)進(jìn)行的, 但一些工作將提示調(diào)整的影響擴(kuò)展到其他任務(wù),例如關(guān)系抽取. 除了對(duì)各種下游任務(wù)使用提示調(diào)優(yōu), 提示模板還用于從PLM中探查知識(shí). 因此, 這為NER任務(wù)提供了一種前景, 即通過(guò)運(yùn)用提示模板, 模型可能有效利用預(yù)訓(xùn)練帶來(lái)的知識(shí).

        2 基于主題提示的電力NER模型

        2.1 任務(wù)定義

        給定一條輸入電力文本 X={x1,x2,···,xn}, 其中xi表 示文本中的第i 個(gè)字, T+為文本總字?jǐn)?shù). 命名實(shí)體識(shí)別任務(wù)的目標(biāo)是輸出三元組Y =(us,ue,l), 其中us∈[1,n]和ue∈[us,n]分 別表示識(shí)別出的實(shí)體在 X中的起始索引與結(jié)束索引, l∈L 表示實(shí)體的類(lèi)型標(biāo)簽, L為數(shù)據(jù)集中所有類(lèi)型的集合. 如果輸入文本 X 中不包含實(shí)體, 則輸出(-1, -1, -1). 如下展示了兩個(gè)電力場(chǎng)景中關(guān)于NER任務(wù)的例子, 其中例1中的輸入文本包含“業(yè)務(wù)需求”類(lèi)型實(shí)體“復(fù)電”, 例2中的輸入文本沒(méi)有包含任何實(shí)體.

        例1. 輸入文本: 復(fù)電手續(xù)如何申請(qǐng)?

        輸出:(us=1,ue=2,l=business)

        解釋: ( 1,2)表示實(shí)體跨度“復(fù)電”, business表示標(biāo)簽“業(yè)務(wù)需求”.

        例2. 輸入文本: 這是怎么回事?

        輸出:(us=-1,ue=-1,l=-1)

        解釋: 該輸入文本中無(wú)實(shí)體.

        2.2 基于提示調(diào)優(yōu)的NER框架

        PLM模型蘊(yùn)含了從海量語(yǔ)料中學(xué)習(xí)到的豐富知識(shí). 利用這些涵蓋各個(gè)領(lǐng)域的知識(shí)即可在僅有少量訓(xùn)練樣本的情況下對(duì)電力領(lǐng)域完成快速適配. 在傳統(tǒng)NER常用的BERT+LSTM+CRF模型[20]中, 盡管預(yù)訓(xùn)練的BERT被用于編碼輸入文本, 但最終還是需要通過(guò)微調(diào)(fine-tuning)其參數(shù)以適應(yīng)NER任務(wù). 由于預(yù)訓(xùn)練的目標(biāo)(掩碼預(yù)測(cè))與NER微調(diào)的目標(biāo)(序列標(biāo)注)不一致, 因此知識(shí)無(wú)法被有效利用, 使得基于微調(diào)的模型在電力NER上通常無(wú)法取得較好的結(jié)果.

        區(qū)別于這些微調(diào)模型, 本文提出的TP-NER構(gòu)建了一種基于提示調(diào)優(yōu)(prompt-tuning)的框架, 以解決的電力場(chǎng)景的少樣本問(wèn)題. 簡(jiǎn)單來(lái)說(shuō), TP-NER將NER的輸出包裝成自然語(yǔ)言提示模板. 相比于原有的三元組形式, PLM更適合對(duì)自然語(yǔ)言進(jìn)行語(yǔ)義表示和打分, 這是因?yàn)樗揪驮谧匀徽Z(yǔ)言語(yǔ)料上進(jìn)行預(yù)訓(xùn)練. 這種提示模板統(tǒng)一了預(yù)訓(xùn)練任務(wù)與下游NER任務(wù)的形式, 使得PLM中的知識(shí)可以被直接利用. 這樣, 僅使用少量的訓(xùn)練樣本即可完成對(duì)電力領(lǐng)域的適配.

        整個(gè)方法流程概覽如圖1所示. 在離線階段, 預(yù)先構(gòu)建NER自然語(yǔ)言模板; 在推理階段, 首先通過(guò)枚舉候選跨度填充模板, 生成候選提示句, 再利用PLM對(duì)候選提示句直接打分排序. 得分最高的提示句所對(duì)應(yīng)的實(shí)體與類(lèi)型作為輸出被返回.

        圖1 基于主題提示的NER方法流程圖

        2.2.1 NER提示模板構(gòu)建

        在本文的定義中, NER提示模板是一個(gè)包含空槽位的自然語(yǔ)言句子. 例如, “[MASK-e]是一個(gè)[MASK-t]類(lèi)型的實(shí)體”是一個(gè)模板. 其中, [MASK-e]表示識(shí)別出的實(shí)體跨度, 如“電能表”; [MASK-t]表示實(shí)體[MASK-e]的類(lèi)型, 如“機(jī)器設(shè)備”. 這種模板以自然語(yǔ)言的形式對(duì)候選的實(shí)體與類(lèi)型進(jìn)行了重新包裝, 以便PLM模型可以利用在自然語(yǔ)言語(yǔ)料上學(xué)習(xí)到的先驗(yàn)知識(shí)克服少樣本問(wèn)題.

        如引言所提到的, 電力領(lǐng)域中實(shí)體類(lèi)型較多, 包含14種, 如“業(yè)務(wù)需求”“機(jī)器設(shè)備”. 在少樣本場(chǎng)景下,PLM模型缺少足夠的訓(xùn)練數(shù)據(jù)去理解這些細(xì)粒度實(shí)體類(lèi)型的差別. 因此, 對(duì)上述NER提示模板進(jìn)行實(shí)體類(lèi)型方面的增強(qiáng). 具體地, 模板被擴(kuò)充為“[MASK-e]是一個(gè)[MASK-t]類(lèi)型的實(shí)體, 與[MASK-r]相關(guān)”. 其中,[MASK-r]表示與實(shí)體類(lèi)型[MASK-t]語(yǔ)義關(guān)聯(lián)的提示詞. 這些詞與實(shí)體類(lèi)型密切相關(guān), 在預(yù)訓(xùn)練的語(yǔ)料中往往與對(duì)應(yīng)的類(lèi)型共同出現(xiàn), 因此對(duì)PLM可以起到有效的提示作用, 從而進(jìn)一步幫助它理解實(shí)體類(lèi)型的語(yǔ)義.

        在離線階段, 為了涵蓋不同的自然語(yǔ)言表達(dá)方式,設(shè)計(jì)了3種正樣本模板T+與 1個(gè)負(fù)樣本模板T-, 如表1所示. T+表 示句子中存在實(shí)體, 而T-表示句子中無(wú)實(shí)體. 這樣, 模板既能利用[MASK-t]帶有的全局類(lèi)型信息, 也能利用與[MASK-r]獲得局部信息.

        表1 命名實(shí)體模板

        2.2.2 模板填充與候選提示句生成

        在推理階段, 首先從正樣本模板中隨機(jī)選擇一個(gè)模板T+, 如“[MASK-e]是一個(gè)[MASK-t]類(lèi)型的實(shí)體, 與[MASK-r]相關(guān)”, 作為待填充的模板. 接著, 枚舉命名實(shí)體跨度( us,ue). 具體做法是, 對(duì)于任意一個(gè)索引u ∈[1,n],枚舉長(zhǎng)度從1到 m 之間的所有跨度, 即(u,u),(u,u+1),···,(u,u+k) . 對(duì)跨度( us,ue) , 將Xus:ue填入T+. 如跨度( 1,3),即文本“復(fù)電手”, 填入模板后得到提示句“復(fù)電手是一個(gè)[MASK-t]類(lèi)型的實(shí)體, 與[MASK-r]相關(guān)”. 隨后, 枚舉一個(gè)實(shí)體類(lèi)型標(biāo)簽l ∈L, 如“business”, 將其對(duì)應(yīng)的標(biāo)簽詞“業(yè)務(wù)需求”填入到T+的[MASK-t]中, 模板更新為“復(fù)電手是一個(gè)業(yè)務(wù)需求類(lèi)型的實(shí)體, 與[MASK-r]相關(guān)”. 最后, 利用LDA模型從電力訓(xùn)練語(yǔ)料中獲取b 個(gè)提示詞, 記為R ={r1,r2,···,rm}. 這些提示詞與實(shí)體類(lèi)型在語(yǔ)義上密切相關(guān), 其獲取過(guò)程將在第2.3節(jié)中詳細(xì)闡述. 枚舉每個(gè)提示詞ri∈R, 如“申請(qǐng)”, 填入到[MASK-r]中, 最終得到完整的提示句“復(fù)電手是一個(gè)業(yè)務(wù)需求類(lèi)型的實(shí)體, 與申請(qǐng)相關(guān)”, 記為T(mén)us,ue,l. 對(duì)輸入文本 X 完成所有枚舉后, 一共得到 n×m×b×|L|個(gè)提示句. 這里,n 為 X 的長(zhǎng)度, | L|表示類(lèi)型標(biāo)簽集合大小. 此外, 考慮文本X 中無(wú)實(shí)體的情況, 此時(shí)僅枚舉實(shí)體跨度填充負(fù)樣本模板T-, 而不需要枚舉實(shí)體類(lèi)型, 得到n ×m個(gè)負(fù)樣本提示句. 綜上, 一共得到n ×m×(b×|L|+1)個(gè)候選提示句.

        2.2.3 候選提示句打分排序

        此階段的目標(biāo)是計(jì)算每個(gè)候選提示句的分?jǐn)?shù). 為了克服電力領(lǐng)域的少樣本問(wèn)題, 使用生成式PLM模型BART[5], 以其蘊(yùn)含的豐富知識(shí)彌補(bǔ)訓(xùn)練樣本的缺失.BART是一種基于編碼器-解碼器框架的PLM模型, 集成了BERT雙向編碼和GPT自左向右解碼的特點(diǎn), 這使得它比BERT更適合文本生成的場(chǎng)景. 在本文中, 將文本 X輸入到BART編碼器中, 通過(guò)自注意力得到的上下文表示. 接著使用BART解碼器進(jìn)行自回歸解碼,在每個(gè)解碼時(shí)刻得到單詞的輸出概率.

        具體來(lái)說(shuō), 對(duì)輸入文本 X={x1,x2,···,xn}, 設(shè)候選提示句 Tus,ue,l={t1,t2,···,tn′} , 其中ti表示該句的第i 個(gè)字, n′表 示文本X 總 字?jǐn)?shù). 則Tus,ue,l的 語(yǔ)義分?jǐn)?shù)score(Tus,ue,l)由每個(gè)解碼時(shí)間步生成字ti的概率乘積計(jì)算得到, 如式(1)所示.

        其中, encoder和decoder分別表示BART的編碼器與解碼器, c1:n∈Rd×n表示對(duì)X 進(jìn)行自注意力機(jī)制編碼后得到的上下文語(yǔ)義向量, hi∈Rd表示在解碼時(shí)間步i時(shí),結(jié)合 c1:n與之前i -1步 結(jié)果t1:i-1, 得到的隱藏向量. d表示向量維數(shù), W ∈R|V|×d, b ∈R|V|為可訓(xùn)練的參數(shù)矩陣與向量, 用于將 hi投 影到BART詞表V 上, | V|表示字典大小.表示在解碼時(shí)間步i 時(shí), 模型生成字的概率.

        最終, TP-NER選擇 score(Tus,ue,l) 最高的( us,ue,l)作為輸出返回, 如圖2所示, 返回(1, 2, business), 識(shí)別出實(shí)體“復(fù)電”與實(shí)體類(lèi)型“業(yè)務(wù)需求”.

        圖2 TP-NER框架

        2.3 主題模型生成提示詞

        上文已提到, NER提示模板中的槽位[MASK-r]用于補(bǔ)充與類(lèi)型[MASK-t]相關(guān)的語(yǔ)義信息, 以幫助PLM在少樣本電力場(chǎng)景下區(qū)分實(shí)體類(lèi)型. 由于行業(yè)文本的特殊性, 電力領(lǐng)域中的一種實(shí)體類(lèi)型標(biāo)簽(如“機(jī)器設(shè)備”“財(cái)務(wù)票據(jù)”“業(yè)務(wù)需求”)往往可以看作一個(gè)主題, 而相關(guān)主題詞可以視為對(duì)主題的進(jìn)一步描述, 用于提示PLM. 例如, 對(duì)于“故障異常”類(lèi)型, 常見(jiàn)主題詞有“掉落、停電、故障、破壞、波動(dòng)、傾斜、失敗、沒(méi)電、欠費(fèi)”等; 對(duì)于“業(yè)務(wù)需求”類(lèi)型, 常見(jiàn)主題詞有“需要、需求、業(yè)務(wù)、恢復(fù)、要求、申請(qǐng)、手續(xù)、辦理、核實(shí)”等. 這些主題詞在預(yù)訓(xùn)練的語(yǔ)料中就常常伴隨著類(lèi)型(主題)共同出現(xiàn), 有利于為預(yù)訓(xùn)練語(yǔ)言模型提供語(yǔ)義提示, 從而幫助確定實(shí)體類(lèi)型. 基于此動(dòng)機(jī), 本文使用經(jīng)典的主題模型LDA[20]從訓(xùn)練語(yǔ)料中抽取主題詞加入到提示模板中, 以增強(qiáng)PLM處理電力領(lǐng)域數(shù)量較多實(shí)體類(lèi)型的能力.

        2.3.1 文檔構(gòu)成

        對(duì)于電力訓(xùn)練集中每個(gè)實(shí)體類(lèi)型標(biāo)簽 l ∈L, 將其視為一個(gè)主題, 并收集包含l類(lèi)型實(shí)體的所有訓(xùn)練文本,例如, 當(dāng)l 為“業(yè)務(wù)需求”時(shí), “復(fù)電手續(xù)如何辦理”即為一個(gè)被收集的文本. 將所有收集到的文本拼接成一整篇電力文檔, 記為D , 以便后續(xù)抽取與l相關(guān)的提示詞.

        2.3.2 文檔建模過(guò)程

        參考LDA模型[20], 對(duì)電力文檔 D 進(jìn)行基于實(shí)體類(lèi)型(即主題)的建模. 整個(gè)過(guò)程包含單詞、實(shí)體類(lèi)型和文檔3層結(jié)構(gòu), 如圖3所示. 在此設(shè)定中, D 被視為一個(gè)詞袋(bag-of-words)模型, 忽略其中單詞的先后順序.

        圖3 LDA模型示意圖

        具體來(lái)說(shuō), 設(shè)θ 表示實(shí)體類(lèi)型在電力文檔D 上的概率分布, φ表示特定類(lèi)型l 上的單詞概率分布, 則生成D 的過(guò)程由參數(shù)α 和β 控制, 步驟如下:

        (1)根據(jù)泊松分布, 得到電力文檔的詞數(shù)N .

        (2)根據(jù)狄利克雷分布 D ir(α), 得到電力文檔的實(shí)體類(lèi)型概率分布θ.

        (3)對(duì)于隱含實(shí)體類(lèi)型l, 根據(jù)狄利克雷分布D ir(β),得到實(shí)體類(lèi)型l下的單詞概率分布φ.

        (4)對(duì)于 D 中的N 個(gè)單詞中的每個(gè)單詞wi, 首先根據(jù) θ的多項(xiàng)式分布 M(θ), 隨機(jī)選擇一個(gè)實(shí)體類(lèi)型l; 再根據(jù)l的多項(xiàng)式分布M (φ) , 隨機(jī)選擇一個(gè)單詞作為wi.

        基于此過(guò)程, 在參數(shù) α ,β條件下, 當(dāng)所有單詞都確定后, 得到電力文檔D , 而生成D 的條件概率P (D|α,β)通過(guò)式(5)計(jì)算:

        其 中, P(θ|α) 表示在參數(shù)α條件下實(shí)體類(lèi)型θ的概率,P(l|θ)表 示選擇類(lèi)型l 的概率, P (wi|l,β) 表示在已選擇l的條件下選擇單詞wi的概率.

        2.3.3 生成提示詞

        為了對(duì)θ 和φ 進(jìn)行估計(jì), TP-NER采用LDA中常用的Gibbs采樣算法. 其過(guò)程可以看成上述文檔生成過(guò)程的逆向過(guò)程, 即對(duì)于第2.3.1節(jié)中得到的電力文檔 D ,通過(guò)以下步驟進(jìn)行參數(shù)估計(jì):

        (1)為每個(gè)單詞wi隨 機(jī)分配一個(gè)實(shí)體類(lèi)型li.

        (2)對(duì)于任意wi, 設(shè)l-i表示除wi以外的其他單詞的實(shí)體類(lèi)型分布. 在已經(jīng)得到l-i的情況下, 計(jì)算wi與實(shí)體類(lèi)型為 j的后驗(yàn)概率P (li=j|l-i,wi), 并將最可能的實(shí)體類(lèi)型分配給wi.

        (3)重復(fù)迭代步驟(2), 直到每個(gè)單詞wi相關(guān)的實(shí)體類(lèi)型分布收斂到穩(wěn)定狀態(tài).

        其中, P (li=j|l-i,wi)通過(guò)式(6)計(jì)算得到:

        其中, N 和L 分別表示電力文檔中的單詞總數(shù)和實(shí)體類(lèi)型總數(shù).表示單詞wi與實(shí)體類(lèi)型li相 關(guān)的頻數(shù), nli為所有單詞都與li相 關(guān)的總頻數(shù);表示文檔D 中與類(lèi)型li相關(guān)的單詞頻數(shù), nD表示D 中的總單詞數(shù). 根據(jù)每個(gè)單詞分配的相關(guān)實(shí)體類(lèi)型時(shí), 通過(guò)如式(7)和式(8)計(jì)算參數(shù):

        其中, φl(shuí),w表示單詞w 與實(shí)體類(lèi)型l 相關(guān)的概率, θD,l表示電力文檔 D出現(xiàn)實(shí)體類(lèi)型l的概率. 結(jié)合φl(shuí),w與θD,l, 則單詞w 在文檔D 中出現(xiàn)的概率PD,w=φl(shuí),w×θD,l. 此概率反映了單詞與文檔主題的相關(guān)性, 是判斷主題詞的依據(jù).

        最后, 將電力文檔 D 中所有的詞按PD,w排序, 選取前 b個(gè)詞作為與實(shí)體類(lèi)型l 的提示詞, 填入模板T+的[MASK-r]槽位, 完成最終提示句, 用于BART打分排序(第2.2.2節(jié)). 這些提示句引導(dǎo)BART利用其蘊(yùn)含的知識(shí), 在少樣本場(chǎng)景下, 完成對(duì)電力領(lǐng)域?qū)嶓w與細(xì)粒度類(lèi)型的識(shí)別.

        2.4 模型訓(xùn)練

        為了訓(xùn)練TP-NER中的打分排序模型, 需要使用訓(xùn)練數(shù)據(jù)中提供的正確實(shí)體構(gòu)建提示句. 假設(shè)實(shí)體跨度( us,ue) 的類(lèi)型是l , 則將( us,ue) 與l 填入正樣本模板T+,得到目標(biāo)提示句 Tus,ue,l. 若( us,ue)不是一個(gè)實(shí)體跨度,則將( us,ue) 填入負(fù)樣本模板T-, 作為目標(biāo)提示句Tus,ue.根據(jù)訓(xùn)練集中所有正確實(shí)體, 可以構(gòu)造出正樣本對(duì)集合 { (X,T+)} ; 通過(guò)隨機(jī)枚舉非實(shí)體的跨度( us,ue), 可以構(gòu)造負(fù)樣本對(duì)集合{ (X,T-)}. 在實(shí)驗(yàn)中, 負(fù)樣本對(duì)集合的大小為正樣本集合大小的1.5倍. 對(duì)于每個(gè)樣本對(duì)( X,T), 計(jì)算模型解碼器輸出的交叉熵?fù)p失, 以反向更新模型參數(shù).

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)的硬件環(huán)境: Intel? Core 7700, 內(nèi)存8 GB. 軟件環(huán)境: Ubuntu 16.04, Python 3.6.8, GPU采用Nvidia RTX-2080ti 11 GB, 深度學(xué)習(xí)框架采用PyTorch 1.4.0.代碼開(kāi)發(fā)環(huán)境選擇PyCharm 2019.3.4.

        3.2 數(shù)據(jù)集

        本文重點(diǎn)關(guān)注中文電力領(lǐng)域, 采用國(guó)家電網(wǎng)真實(shí)工單數(shù)據(jù)與用戶(hù)互動(dòng)數(shù)據(jù), 構(gòu)建了電力領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集. 該數(shù)據(jù)集定義包括以下14種類(lèi)型的實(shí)體:“機(jī)器設(shè)備、電價(jià)電費(fèi)、業(yè)務(wù)需求、故障異常、財(cái)務(wù)票據(jù)、電子渠道、用戶(hù)信息、文件法規(guī)、營(yíng)銷(xiāo)活動(dòng)、身份、公司、違法行為、專(zhuān)業(yè)詞匯”. 訓(xùn)練集, 驗(yàn)證集,測(cè)試集, 分別包含10 244、1 059、2 032條電力文本與對(duì)應(yīng)的實(shí)體、類(lèi)型標(biāo)注.

        3.3 評(píng)價(jià)指標(biāo)

        本文采用準(zhǔn)確率(P)、召回率(R)以及F1 值(F1)作為模型性能的評(píng)價(jià)指標(biāo), 對(duì)測(cè)試集上的實(shí)體識(shí)別結(jié)果進(jìn)行評(píng)估, 計(jì)算方式如下:

        其中, TTP表示模型正確識(shí)別出的實(shí)體個(gè)數(shù); FTP表示模型識(shí)別出的不相關(guān)實(shí)體個(gè)數(shù); FFN表示實(shí)際為相關(guān)實(shí)體但模型識(shí)別錯(cuò)誤的實(shí)體個(gè)數(shù).

        3.4 總體實(shí)驗(yàn)結(jié)果

        本文對(duì)比的方法包括幾種常用的NER模型: BiGRU、BiLSTM-CNN、BiLSTM-CRF、BiLSTM-CNN. 同時(shí),本文也與開(kāi)放領(lǐng)域上表現(xiàn)優(yōu)異的預(yù)訓(xùn)練模型進(jìn)行對(duì)比:BERT和BERT-BiLSTM-CRF.

        實(shí)驗(yàn)結(jié)果如表2所示. 從中可以看出, 本文提出TP-NER模型在中文電力NER數(shù)據(jù)集上擊敗了所有的對(duì)比模型, 取得了最好的結(jié)果. 對(duì)比開(kāi)放領(lǐng)域中表現(xiàn)優(yōu)異的BERT-BiLSTM-CRF模型, TP-NER在F1指標(biāo)上提升了2.17%, 這證明了本文提出的主題提示調(diào)優(yōu)方法相比于傳統(tǒng)序列標(biāo)注方式, 在處理多實(shí)體類(lèi)型的NER任務(wù)時(shí)更加有效.

        表2 電力命名實(shí)體識(shí)別總體結(jié)果(%)

        3.5 消融實(shí)驗(yàn)

        為了檢驗(yàn)TP-NER 模型中的兩個(gè)主要改進(jìn): 提示模板與LDA主題提示詞各自的貢獻(xiàn), 我們針對(duì)如下兩種模型設(shè)置進(jìn)行了消融實(shí)驗(yàn):

        1)移除提示模板: 將提示模板移除, 僅使用BART對(duì)輸入文本執(zhí)行一般的序列標(biāo)注以識(shí)別實(shí)體.

        2)移除LDA提示詞: 不使用LDA模型對(duì)提示模板進(jìn)行擴(kuò)充, 僅依賴(lài)實(shí)體跨度與實(shí)體類(lèi)型構(gòu)建候選提示句并進(jìn)行排序.

        消融實(shí)驗(yàn)結(jié)果如表3所示, 移除提示模板后, 模型F1下降了約3.5%, 而移除LDA提示詞后, F1下降約1%, 這證明了這兩個(gè)組件對(duì)模型均有貢獻(xiàn). 相比之下,提示模板帶來(lái)的提升比LDA帶來(lái)的提升更大, 因?yàn)樗鼜母旧细淖兞薔ER的任務(wù)形式.

        表3 消融實(shí)驗(yàn)結(jié)果(%)

        3.6 少樣本場(chǎng)景實(shí)驗(yàn)結(jié)果

        為了探究TP-NER在少樣本場(chǎng)景下的表現(xiàn), 本文設(shè)計(jì)如下少樣本場(chǎng)景, 對(duì)于每個(gè)實(shí)體類(lèi)型, 分別從訓(xùn)練集中隨機(jī)抽取{10, 20, 50, 100}個(gè)樣本組成小樣本訓(xùn)練集訓(xùn)練模型, 再統(tǒng)計(jì)模型在測(cè)試集上的F1分?jǐn)?shù).

        實(shí)驗(yàn)結(jié)果如表4所示. 從中可以看出, 與使用全部訓(xùn)練集時(shí)相比, TP-NER在少樣本場(chǎng)景下相對(duì)對(duì)比模型的優(yōu)勢(shì)更大. 并且, 訓(xùn)練樣本越少, TP-NER的優(yōu)勢(shì)越明顯. 同時(shí)可以發(fā)現(xiàn), 在不同數(shù)量的訓(xùn)練樣本, TP-NER整體模型始終比移除提示模板后效果更好. 這充分說(shuō)明了提示模板對(duì)于整個(gè)模型的貢獻(xiàn). 值得注意的是, LDA提示詞在樣本數(shù)較少時(shí)提升更大.

        表4 少樣本命名實(shí)體識(shí)別F1分?jǐn)?shù)(%)

        3.7 不同類(lèi)型實(shí)驗(yàn)結(jié)果

        為了探究TP-NER在不同實(shí)體類(lèi)型下的表現(xiàn), 本文對(duì)測(cè)試集上每個(gè)類(lèi)型都統(tǒng)計(jì)了模型的F1分?jǐn)?shù).

        實(shí)驗(yàn)結(jié)果如表5所示. 從中可以看出, TP-NER模型在大部分任務(wù)上都能取得比BERT-LSTM-CRF模型更好的效果, 尤其是在“文件法規(guī)”“公司”“營(yíng)銷(xiāo)活動(dòng)”和“違法行為”這4種類(lèi)型上提升最大. 造成這種顯著提升的原因主要是, 在數(shù)據(jù)集中這些類(lèi)型的標(biāo)注樣本較少, 平均不足100條, BERT-LSTM-CRF模型沒(méi)有足夠的訓(xùn)練數(shù)據(jù)對(duì)其參數(shù)進(jìn)行微調(diào), 以至于利用BERT的先驗(yàn)知識(shí)完成識(shí)別. 相反地, TP-NER將三元組輸出的形式包裝成自然語(yǔ)言形式, 使得PLM可以快速適配到電力NER任務(wù)上, 從而有效利用其知識(shí). 在如“財(cái)務(wù)票據(jù)”“電子渠道”等類(lèi)型上, TP-NER稍稍落后于BERT-LSTM-CRF, 這是因?yàn)檫@些類(lèi)型的訓(xùn)練樣本較多, 在這種訓(xùn)練資源豐富的場(chǎng)景中預(yù)訓(xùn)練模型微調(diào)與提示調(diào)優(yōu)的差距不足以體現(xiàn). 此外, 與“電價(jià)電費(fèi)”“專(zhuān)業(yè)詞匯”相比, “文件法規(guī)”“公司”“違法行為”這些類(lèi)型的粒度更細(xì), LDA收集到的主題詞與類(lèi)型有著緊密的語(yǔ)義聯(lián)系. 例如“違法行為”包含“民事責(zé)任”“舉報(bào)”等密切相關(guān)的主題詞, 因此可以精準(zhǔn)地提示PLM, 從而取得顯著的提升.

        表5 各領(lǐng)域命名實(shí)體識(shí)別F1分?jǐn)?shù)(%)

        4 結(jié)束語(yǔ)

        本文針對(duì)中文電力領(lǐng)域場(chǎng)景的少樣本問(wèn)題和多類(lèi)型問(wèn)題, 提出一種基于主題提示的中文電力領(lǐng)域命名實(shí)體識(shí)別方法. 與傳統(tǒng)的BERT-LSTM-CRF框架不同,該方法提出了一種新的NER方式: 通過(guò)枚舉實(shí)體跨度,實(shí)體類(lèi)型, 主題詞從而構(gòu)造候選提示句. 這種方式可以有效利用預(yù)訓(xùn)練模型中潛在的知識(shí), 從而克服少樣本NER的挑戰(zhàn).

        此外, 該模型還提出使用LDA模型從語(yǔ)料中抽取主題詞, 作為提示以增強(qiáng)模型對(duì)于實(shí)體類(lèi)型的感知, 從而緩解實(shí)體類(lèi)型較多帶來(lái)的挑戰(zhàn).

        實(shí)驗(yàn)結(jié)果表明, 本文的方法在電力場(chǎng)景中取得了比傳統(tǒng)方法更好的結(jié)果. 尤其在“營(yíng)銷(xiāo)活動(dòng)”“公司”“業(yè)務(wù)需求”等類(lèi)型的實(shí)體識(shí)別上, 本文方法的優(yōu)勢(shì)更為顯著.

        在未來(lái)工作中, 嘗試使用基于神經(jīng)網(wǎng)絡(luò)的方法替代主題模型, 引入外部知識(shí)以嘗試解決更加困難的零樣本NER任務(wù).

        猜你喜歡
        文檔實(shí)體單詞
        有人一聲不吭向你扔了個(gè)文檔
        單詞連一連
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        看圖填單詞
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        看完這些單詞的翻譯,整個(gè)人都不好了
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        免费人成在线观看播放国产| 夜先锋av资源网站| 国产三级不卡一区不卡二区在线| 久久精品国产亚洲av高清三区 | 欧美性受xxxx白人性爽| 依依成人精品视频在线观看| 亚洲的天堂av无码| 国产欧美日韩网站| 国产精品99久久不卡二区| 日韩精品午夜视频在线| 亚洲一区二区三区在线看| 亚洲精品粉嫩美女一区| 国产大片黄在线观看| 一夲道无码人妻精品一区二区 | 宅男噜噜噜| 国产精品系列亚洲第一| 久久精品国产亚洲av热明星| 蜜桃av在线播放视频| 在线无码中文字幕一区| 免费人成视频x8x8入口| 久久精品人人爽人人爽| 免费一级肉体全黄毛片| 亚洲AV色欲色欲WWW| 漂亮人妻被强中文字幕乱码| 日本成人午夜一区二区三区| 亚洲国产精品18久久久久久 | 国产精品一区二区黄色片| 91九色国产老熟女视频| 99久久精品免费看国产一区二区三区| 国产精品无码无片在线观看3d| 在教室伦流澡到高潮hgl视频| 国产欧美亚洲另类第一页| 亚洲综合网中文字幕在线| 青青草视频是针对华人| 99精品国产丝袜在线拍国语| 久久99久久99精品免观看| 欧洲一区在线观看| 亚洲伊人久久综合精品| 国产女人av一级一区二区三区 | 激情中文丁香激情综合| 国产91精品在线观看|