亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度遷移學(xué)習(xí)的地方志多模態(tài)命名實(shí)體識(shí)別研究

        2022-05-19 06:58:36陳玥彤
        情報(bào)學(xué)報(bào) 2022年4期
        關(guān)鍵詞:模態(tài)特征文本

        范 濤,王 昊,陳玥彤

        (南京大學(xué)信息管理學(xué)院,南京 210023)

        1 引 言

        黨的十九屆五中全會(huì)通過的《中共中央關(guān)于制定國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和二〇三五年遠(yuǎn)景目標(biāo)的建議》中明確提出了到2035 年建成文化強(qiáng)國的遠(yuǎn)景目標(biāo),并強(qiáng)調(diào)在“十四五”時(shí)期推進(jìn)社會(huì)主義文化強(qiáng)國建設(shè),這標(biāo)志著我國文化強(qiáng)國建設(shè)進(jìn)入了一個(gè)新的歷史階段[1]。作為中華文化的載體和組成部分,地方志是建設(shè)文化強(qiáng)國的重要一環(huán),對(duì)其進(jìn)行挖掘和研究,有利于傳播中華文化和增強(qiáng)文化自信[2]。

        命名實(shí)體識(shí)別作為文本挖掘中的一項(xiàng)基礎(chǔ)任務(wù),旨在識(shí)別文本中的專有詞,如人名、地名、時(shí)間、組織等,其對(duì)后續(xù)的文本知識(shí)組織和知識(shí)圖譜的構(gòu)建都具有重要影響[3]。目前,已有學(xué)者利用相關(guān)研究方法對(duì)地方志等文化資源進(jìn)行了實(shí)體抽取。例如,李娜[4]以《方志物產(chǎn)》山西分卷作為語料,基于條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)了對(duì)物產(chǎn)別名實(shí)體的自動(dòng)抽取。黃水清等[5]將部分人工標(biāo)注的先秦古漢語語料庫作為條件隨機(jī)場(chǎng)的訓(xùn)練數(shù)據(jù),利用訓(xùn)練生成的最優(yōu)模型,對(duì)語料庫中的地名實(shí)體進(jìn)行自動(dòng)識(shí)別。從上述工作可以看出:①當(dāng)前對(duì)于地方志等文化資源命名實(shí)體識(shí)別任務(wù)的研究對(duì)象均基于文本,缺乏對(duì)多模態(tài)內(nèi)容(即文本結(jié)合圖片)的探究;②自動(dòng)識(shí)別文本實(shí)體的模型依賴于大規(guī)模人工標(biāo)注的語料,需要耗費(fèi)大量的人力資源和時(shí)間。然而,隨著地方志數(shù)字化進(jìn)程的加快,地方志數(shù)據(jù)庫提供的內(nèi)容并不僅局限于文本這一單模態(tài)內(nèi)容,與文本相關(guān)聯(lián)的圖片資源同樣以結(jié)構(gòu)化的方式呈現(xiàn),這為地方志多模態(tài)內(nèi)容的研究提供了契機(jī)。在文本命名實(shí)體識(shí)別任務(wù)中,當(dāng)實(shí)體邊界模糊時(shí),僅依靠上下文難以辨別其實(shí)體類型。例如,在圖1 中,倘若僅考慮文本,難以確定句子中所包含實(shí)體的邊界,“江大橋”可以被視作人名,而“長江大橋”又可以被視作地名,但是當(dāng)結(jié)合文本對(duì)應(yīng)的圖片時(shí),則可以確定文本中提及的實(shí)體為“長江大橋”,從而準(zhǔn)確地識(shí)別出實(shí)體。當(dāng)面向某一具體領(lǐng)域展開實(shí)體識(shí)別研究時(shí),通常會(huì)面臨標(biāo)注語料匱乏的問題。常用的解決方法是利用人工去標(biāo)注數(shù)據(jù)集,但是會(huì)耗費(fèi)大量的人力、物力,同時(shí),在面向新領(lǐng)域時(shí),還需標(biāo)注新的語料,并不能較好地解決面向特定領(lǐng)域的實(shí)體識(shí)別問題。然而,通過深度遷移學(xué)習(xí)方法,利用深度神經(jīng)網(wǎng)絡(luò)預(yù)學(xué)習(xí)相關(guān)領(lǐng)域知識(shí)后,再對(duì)目標(biāo)語料進(jìn)行實(shí)體抽取,則可以有效避免對(duì)訓(xùn)練語料的標(biāo)注。目前,已有學(xué)者利用基于深度遷移學(xué)習(xí)的方法抽取文本中的實(shí)體,應(yīng)用公開數(shù)據(jù)集訓(xùn)練模型,結(jié)合微調(diào)的方法提升實(shí)體抽取模型的性能[6-7]。但是,目前的相關(guān)研究多集中于文本,利用深度遷移方法對(duì)多模態(tài)內(nèi)容進(jìn)行命名實(shí)體識(shí)別鮮有探索?;诖耍瑸榱私鉀Q目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)匱乏的問題以及提升實(shí)體識(shí)別性能,本文提出利用深度遷移學(xué)習(xí)并結(jié)合文本和圖片內(nèi)容展開地方志多模態(tài)命名實(shí)體識(shí)別的研究。

        圖1 南京市長江大橋

        多模態(tài)命名實(shí)體識(shí)別是一項(xiàng)新興的任務(wù),旨在利用多模態(tài)內(nèi)容挖掘文本和圖片中存在的相關(guān)語義關(guān)系,增強(qiáng)文本語義信息,提升模型識(shí)別實(shí)體的性能。該任務(wù)最早由Zhang 等[8]提出,其利用基于自適應(yīng)多模態(tài)聯(lián)合注意力機(jī)制(adaptive co-attention)的命名實(shí)體識(shí)別模型,對(duì)推特中網(wǎng)民所發(fā)布的包含多模態(tài)內(nèi)容的帖子進(jìn)行實(shí)體識(shí)別,并獲得了最優(yōu)結(jié)果;同時(shí)作者公開了文中所用的多模態(tài)數(shù)據(jù)集。目前,中文領(lǐng)域尚未有應(yīng)用于多模態(tài)命名實(shí)體識(shí)別的公開數(shù)據(jù)集,因此,本文以文獻(xiàn)[8]的數(shù)據(jù)集為基礎(chǔ),制作了用于深度遷移學(xué)習(xí)的平行語料。盡管圖片內(nèi)容能夠在一定程度上提升命名實(shí)體識(shí)別任務(wù)的性能,但是文本中的語義信息依舊是實(shí)體抽取中的核心?;诖耍疚奶岢龌谏疃冗w移學(xué)習(xí)的多模態(tài)命名實(shí)體識(shí)別模型(multimodal named entity rec‐ognition model,MNERM)。該模型主要由四個(gè)部分組成,分別是BiLSTM-attention module(BAM)模塊、adaptive co-attention module(ACAM)模塊、過濾門及CRF(conditional random fields)層。為使得BAM 模塊和ACAM 模塊分別獲取預(yù)訓(xùn)練權(quán)重,本文分別引入了面向人民日?qǐng)?bào)語料庫的BiLSTM-atten‐tion-CRF(BAC)模型和面向中文平行推特多模態(tài)語料庫的adaptive co-attention CRF(ACAC) 模型,BAM 模塊和ACAM 模塊同樣也是BAC 模型和ACAC模型的組成部分。通過在對(duì)應(yīng)語料庫預(yù)訓(xùn)練模型,將權(quán)重參數(shù)分別遷移至BAM 模塊和ACAM 模塊,使MNERM 模型擁有提取多模態(tài)特征的能力。盡管應(yīng)用多模態(tài)特征能夠提升模型性能,但依舊包含噪聲,本文提出利用過濾門對(duì)ACAM 模塊輸出的多模態(tài)特征進(jìn)行去噪,再同BAM 模塊輸出的文本特征進(jìn)行融合,最后以微調(diào)的方式將融合后的多模態(tài)特征輸入至CRF 層進(jìn)行解碼。

        本文的主要貢獻(xiàn)為:從多模態(tài)視角出發(fā),提出結(jié)合地方志中的文本和圖片進(jìn)行命名實(shí)體的識(shí)別研究;針對(duì)目標(biāo)領(lǐng)域標(biāo)注語料匱乏的問題,提出利用深度遷移學(xué)習(xí)方法進(jìn)行地方志多模態(tài)命名實(shí)體識(shí)別,并構(gòu)建了MNERM 模型,該模型能夠充分獲取不同模態(tài)的信息表示,并能有效捕捉不同模態(tài)間的相關(guān)關(guān)系,增強(qiáng)文本的特征表示能力。

        本文將提出的模型在地方志多模態(tài)數(shù)據(jù)集中進(jìn)行了實(shí)證研究,并與相關(guān)基線模型進(jìn)行對(duì)比。研究結(jié)果表明,本文提出的模型具有一定的優(yōu)越性。

        2 相關(guān)研究

        2.1 地方志命名實(shí)體識(shí)別研究

        伴隨著數(shù)字化進(jìn)程的加快,沉睡的人文資源逐步成為可計(jì)算的數(shù)據(jù),這為數(shù)字人文計(jì)算打下堅(jiān)實(shí)的基礎(chǔ)。而命名實(shí)體識(shí)別作為自然語言處理中的基礎(chǔ)性任務(wù),其對(duì)文本的知識(shí)組織及實(shí)體間的關(guān)系抽取都有著重要的影響。為了探究古籍方志中的實(shí)體自動(dòng)識(shí)別,徐晨飛等[9]采用BiLSTM-CRF、BERT 等模型對(duì)物產(chǎn)別名、人物、產(chǎn)地及引書等實(shí)體進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明,采用基于深度學(xué)習(xí)的實(shí)體識(shí)別方法能夠取得較好的效果。崔競(jìng)烽等[10]基于深度學(xué)習(xí)方法,構(gòu)建BiLSTM-CRF 模型對(duì)菊花古典詩詞中的菊花花名、花色等實(shí)體進(jìn)行識(shí)別,并同CRF 等基線模型作對(duì)比,實(shí)驗(yàn)結(jié)果表明,該文獻(xiàn)提出的方法能夠取得較好的效果。史書中的歷史事件名是歷史文本知識(shí)庫的重要組成部分,唐慧慧等[11]提出以字作為最小語義單元,利用CRF 模型對(duì)魏晉南北朝史書文中的歷史事件名實(shí)體進(jìn)行識(shí)別,并取得良好效果。在人民日?qǐng)?bào)語料庫中,殷章志等[12]利用基于BiLSTM-CRF 的序列標(biāo)注模型抽取文本序列的中間特征,并將其輸入支持向量機(jī)中進(jìn)行實(shí)體識(shí)別,并取得一定的效果。石春丹等[13]提出利用雙向門控循環(huán)網(wǎng)絡(luò)與CRF 結(jié)合的模型對(duì)文本中人名、地名和機(jī)構(gòu)名等實(shí)體進(jìn)行識(shí)別,該模型能夠有效學(xué)習(xí)序列的時(shí)序信息,并能捕捉長距離依賴。

        從上述研究可以看出,目前面向地方志等人文資源的命名實(shí)體識(shí)別研究多基于文本,并利用基于BiLSTM-CRF 架構(gòu)的深度學(xué)習(xí)模型進(jìn)行實(shí)體識(shí)別。與之不同的是,本文在BAC 模型中引入了自注意力機(jī)制,其能夠有效增強(qiáng)文本的特征表示,減少序列信息中的噪聲,并獲得實(shí)體識(shí)別性能上的提升。除此之外,人文資源的數(shù)字化帶來的并不止是單一的文本,同時(shí)有著大量可獲取的對(duì)應(yīng)圖片資源。已有研究表明,圖片的加入能在一定程度上增強(qiáng)和補(bǔ)充對(duì)應(yīng)的文本語義信息[14]?;诖耍疚奶岢鼋Y(jié)合地方志中的文本和圖片,進(jìn)行命名實(shí)體識(shí)別研究。

        2.2 多模態(tài)命名實(shí)體識(shí)別研究

        用戶在網(wǎng)絡(luò)中產(chǎn)生內(nèi)容的多模態(tài)化,為多模態(tài)自然語言處理任務(wù)提供了豐富資源。多模態(tài)命名實(shí)體識(shí)別作為其中的一項(xiàng)任務(wù),已受到學(xué)界和工業(yè)界的廣泛關(guān)注。在以文本為主要處理對(duì)象的命名實(shí)體任務(wù)中,當(dāng)實(shí)體存在多義性或?qū)嶓w邊界難以區(qū)分時(shí),僅依靠上下文對(duì)實(shí)體類別做出準(zhǔn)確判斷存在一定困難。但是當(dāng)文本有著與之對(duì)應(yīng)的圖片時(shí),通過觀察圖片內(nèi)容出現(xiàn)的實(shí)體,則能對(duì)歧義實(shí)體做出準(zhǔn)確預(yù)測(cè)。

        在多模態(tài)命名實(shí)體識(shí)別中,文本和圖片存在語義相關(guān)關(guān)系。在圖片內(nèi)容中,與文本中提及實(shí)體存在相關(guān)關(guān)系的僅局限于圖片的部分區(qū)域。因此,Zhang 等[8]提出基于自適應(yīng)聯(lián)合注意力機(jī)制(adap‐tive co-attention)的多模態(tài)命名實(shí)體模型,利用詞引導(dǎo)和圖引導(dǎo)的注意力機(jī)制充分學(xué)習(xí)文本和圖片的語義相關(guān)關(guān)系及模態(tài)交互,應(yīng)用門機(jī)制進(jìn)行多模態(tài)特征融合和噪聲過濾,之后將多模態(tài)特征與經(jīng)過BiLSTM 編碼后的文本特征再次拼接,獲得最終多模態(tài)融合特征,并將其輸入CRF 層中進(jìn)行解碼,F(xiàn)1值達(dá)到70.69%。同樣地,為了充分學(xué)習(xí)圖片中與文本實(shí)體相對(duì)應(yīng)的語義特征,Yu 等[14]提出基于Trans‐former 架構(gòu)的多模態(tài)命名實(shí)體模型,該模型主要由單模態(tài)特征表示、多模態(tài)Transformer 及輔助實(shí)體邊界檢測(cè)組成,通過這些構(gòu)件,模型能夠較好地學(xué)習(xí)文本和圖片上下文敏感特征,并能夠關(guān)注到聚合多模態(tài)信息時(shí)未被充分關(guān)注的實(shí)體。為充分理解圖片中的視覺內(nèi)容,Lu 等[15]提出基于視覺注意力機(jī)制的多模態(tài)命名實(shí)體模型,該模型能夠自動(dòng)忽略與文本內(nèi)容無關(guān)的視覺信息并重點(diǎn)關(guān)注與文本內(nèi)容最相關(guān)的視覺信息,其在多個(gè)數(shù)據(jù)集中取得較好結(jié)果。

        上述研究主要通過挖掘圖片與文本之間的相關(guān)語義關(guān)系及不同模態(tài)間的交互,并結(jié)合注意力機(jī)制,在公開英文數(shù)據(jù)集中取得一定性能。然而,在中文領(lǐng)域中,多模態(tài)命名實(shí)體識(shí)別任務(wù)尚未有研究涉及,并且缺乏相關(guān)的中文多模態(tài)命名實(shí)體識(shí)別語料。因此,本文探索將公開的英文多模態(tài)命名實(shí)體識(shí)別語料庫制作成可學(xué)習(xí)的平行中文多模態(tài)命名識(shí)別語料庫,并將詞作為句子的劃分粒度,利用深度遷移學(xué)習(xí)的方法對(duì)地方志多模態(tài)數(shù)據(jù)集進(jìn)行實(shí)體識(shí)別研究。

        2.3 深度遷移學(xué)習(xí)研究

        深度遷移學(xué)習(xí)常用的方法包括基于實(shí)例的深度遷移學(xué)習(xí)(instance-based deep transfer learning)、基于映射的深度遷移學(xué)習(xí)(mapping-based deep transfer learning)、基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)(networkbased deep transfer learning)以及基于對(duì)抗的深度遷移學(xué)習(xí) (adversarial-based deep transfer learning)[16]。其基本思想是利用在源域(source domain)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中的知識(shí)解決目標(biāo)域(target domain)中的問題。

        目前,已有相關(guān)文獻(xiàn)利用深度遷移學(xué)習(xí)方法進(jìn)行命名實(shí)體識(shí)別研究。武惠等[17]提出利用基于實(shí)例的深度遷移方法學(xué)習(xí)樣本特征,構(gòu)建BiLSTM-CRF模型對(duì)人民日?qǐng)?bào)語料庫中的實(shí)體進(jìn)行識(shí)別,并取得一定效果。王瑞銀等[7]在源域中訓(xùn)練語言模型預(yù)測(cè)模型,將源域模型知識(shí)遷移至目標(biāo)域模型中,從而對(duì)實(shí)體進(jìn)行識(shí)別,其在法律文書數(shù)據(jù)集中性能良好。為了緩解可利用標(biāo)注語料的不足,Lee 等[6]提出在大型源數(shù)據(jù)集中訓(xùn)練BiLSTM-CRF 實(shí)體識(shí)別模型,結(jié)合微調(diào)的方法對(duì)目標(biāo)域的實(shí)體進(jìn)行識(shí)別,并取得了一定的效果。

        為了有效獲取文本的語義知識(shí)和文本結(jié)合圖片的多模態(tài)知識(shí),本文應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)思想,提出在兩個(gè)源域數(shù)據(jù)集中訓(xùn)練與目標(biāo)模型對(duì)應(yīng)部分有著相似結(jié)構(gòu)的深度學(xué)習(xí)模型,然后將預(yù)訓(xùn)練模型中的權(quán)重遷移至目標(biāo)模型的對(duì)應(yīng)結(jié)構(gòu)中,最后結(jié)合微調(diào)的方法對(duì)地方志多模態(tài)數(shù)據(jù)進(jìn)行實(shí)體識(shí)別。

        3 模型設(shè)計(jì)

        為了提升地方志中模型識(shí)別實(shí)體的性能并探索解決目標(biāo)領(lǐng)域標(biāo)注語料匱乏問題,本文提出基于深度遷移學(xué)習(xí)的多模態(tài)命名實(shí)體模型MNERM,結(jié)構(gòu)具體如圖2 所示,其分別由BAM 模塊、ACAM 模塊、過濾門及CRF 層組成。本文首先分別在人民日?qǐng)?bào)語料庫和中文推特多模態(tài)數(shù)據(jù)集這兩個(gè)源域預(yù)訓(xùn)練BAC 模型和ACAC 模型。然后,利用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法,將BAC 模型和ACAC 模型中的對(duì)應(yīng)權(quán)重分別遷移至BAM 模塊和ACAM 模塊中,使得MNERM 具備抽取文本和圖片的多模態(tài)特征能力。接著,將文本特征和經(jīng)過過濾門過濾的多模態(tài)特征進(jìn)行中間層融合,輸入CRF 層中進(jìn)行解碼生成標(biāo)簽,并進(jìn)行微調(diào)。下文將詳述MNERM 模型及建模方法。

        圖2 基于深度遷移學(xué)習(xí)的多模態(tài)命名實(shí)體識(shí)別模型

        3.1 特征提取

        1)文本特征提取

        文本的特征表示對(duì)下游任務(wù)的表現(xiàn)有著重要影響。本文利用在百度百科大規(guī)模語料中預(yù)訓(xùn)練的中文詞向量模型[18],對(duì)文本進(jìn)行特征表示。MNERM模型以Skip-Gram 模型為基礎(chǔ),并結(jié)合負(fù)采樣技術(shù)進(jìn)行優(yōu)化,其在中文類比推理任務(wù)中取得最優(yōu)結(jié)果。本文利用MNERM 模型分別對(duì)人民日?qǐng)?bào)語料庫、中文推特多模態(tài)語料及地方志多模態(tài)語料庫中的句子進(jìn)行文本表示。

        2)圖片特征提取

        以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[19]為基礎(chǔ)構(gòu)建的模型,如VGG16、VGG19等[20],在多個(gè)計(jì)算機(jī)視覺任務(wù)中均獲得了最優(yōu)結(jié)果。這一方面得益于CNN 強(qiáng)大的特征學(xué)習(xí)建模能力,另一方面則受益于大規(guī)模的圖片訓(xùn)練集,如Ima‐geNet[21]。目前常用的圖片提取方法是利用ImageNet數(shù)據(jù)集中預(yù)訓(xùn)練的CNN 模型,提取最后一層全連接層的輸出作為圖片的特征表示。但為了獲取圖片的空間特征表示,本文遵循文獻(xiàn)[8]中的方法,以預(yù)訓(xùn)練于ImageNet 數(shù)據(jù)集的VGG19 模型中的最后一層池化層的輸出作為圖片的特征表示。本文利用MNERM 模型分別提取中文推特多模態(tài)語料及地方志多模態(tài)語料中的圖片特征。

        3.2 BiLSTM-attention-CRF模型

        文本的語義信息是識(shí)別實(shí)體類別的核心,已有研究表明,將人民日?qǐng)?bào)語料庫(1988)作為遷移學(xué)習(xí)的學(xué)習(xí)語料,并利用基于深度遷移學(xué)習(xí)的方法對(duì)其他語料庫中的相同實(shí)體進(jìn)行識(shí)別,有著良好的效果[17]。為了使MNERM 模型中的BAM 模塊擁有先驗(yàn)知識(shí),本文設(shè)計(jì)了用于權(quán)重遷移的BAC 模型。目前常用的命名實(shí)體模型多基于BiLSTM-CRF 架構(gòu)[7-8],與之不同的是,本文引入了自注意力機(jī)制(self-attention),而利用自注意力機(jī)制能夠有效增強(qiáng)文本的語義表示。BAC 模型主要由BiLSTM 網(wǎng)絡(luò)、自注意力層及CRF 層。BAM 模塊由BAC 模型中的BiLSTM 網(wǎng)絡(luò)和自注意力層組成。BiLSTM 作為循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的變體,能夠較好地學(xué)習(xí)句子中的上下文關(guān)系,具有捕捉長距離依賴的能力,并能夠克服因序列長度過長所帶來的梯度消失和梯度爆炸的問題。給定人民日?qǐng)?bào)語料庫中的句子S={s1,s2,…,si,…,sn},進(jìn)行特征表示后 的 句 子 為其 中 ,n表示句子長度,dw表示向量維度,大小為300。BiLSTM 獲得的隱藏層狀態(tài)hi∈Rd由前向的LSTM輸出和反向的LSTM 輸出拼接而成,d表示隱藏層單元數(shù),具體公式為

        注意力機(jī)制起源于人類視覺,當(dāng)人觀察物體或閱讀書本時(shí),會(huì)對(duì)其中的某一區(qū)域投入大量注意力,獲取富含價(jià)值的信息,并抑制對(duì)其他區(qū)域的注意力投入。目前已有工作利用注意力機(jī)制進(jìn)行自然語言處理任務(wù),如機(jī)器翻譯、情感分析等;而有關(guān)利用自注意力機(jī)制進(jìn)行命名實(shí)體識(shí)別任務(wù)的研究相對(duì)較少。通過利用注意力機(jī)制,能夠確定在決定詞的標(biāo)簽時(shí),有多少詞的信息被利用,從而提升模型性能。自注意力機(jī)制關(guān)注句子內(nèi)部的特征相關(guān)性,并能夠減少對(duì)外部特征的依賴。在自注意力機(jī)制中,句子中的每個(gè)語義單元同其他語義單元進(jìn)行注意力權(quán)重計(jì)算,可以有效捕捉詞間的相互關(guān)系,獲取句子結(jié)構(gòu)信息,增強(qiáng)特征表示。自注意力機(jī)制本質(zhì)上是輸入Query(Q) 到一系列鍵值對(duì)(Key(K),Value(V))的映射函數(shù),對(duì)BiLSTM 生成的句子表示H={hi|hi∈ Rd,i= 1,2,…,n},應(yīng)用自注意力機(jī)制獲得的編碼表示為E={ei|ei∈Rd,i= 1,2,…,n},具體公式為

        其中,Q、K、V為隱藏層狀態(tài)hi的特征;Softmax 為歸一化函數(shù)。將編碼后的文本表示輸入CRF 層進(jìn)行解碼,獲得文本中詞對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽Y={y1,y2,…,yi,…,yn},

        其中,W、b表示全權(quán)重矩陣。本文利用經(jīng)典的最大條件似然估計(jì)對(duì)CRF 層進(jìn)行訓(xùn)練,具體公式為

        3.3 自適應(yīng)聯(lián)合注意力機(jī)制模型

        鑒于當(dāng)前尚未有中文多模態(tài)命名實(shí)體識(shí)別公開數(shù)據(jù)集,僅有英文推特多模態(tài)命名實(shí)體識(shí)別公開數(shù)據(jù)集,目前已有研究涉及利用英譯漢平行語料來進(jìn)行深度遷移學(xué)習(xí),并在公開數(shù)據(jù)集中取得了較好的性能[22]。因此,本文制作了推特多模態(tài)數(shù)據(jù)集的中文平行語料作為ACAC 模型的訓(xùn)練語料,將ACAC模型中自適應(yīng)聯(lián)合注意力網(wǎng)絡(luò)的權(quán)重灌入ACAM 模塊中,其主要由自適應(yīng)聯(lián)合注意力機(jī)制網(wǎng)絡(luò)和CRF層組成。不同于自適應(yīng)聯(lián)合注意力機(jī)制結(jié)構(gòu)[8],在ACAC 模型中,本文將VGG-16 圖片特征提取模型替換成性能更佳的VGG-19[23],其余部分保持一致。

        自適應(yīng)聯(lián)合注意力機(jī)制由詞引導(dǎo)的注意力機(jī)制(word-guided attention,WGA)、圖引導(dǎo)的注意力機(jī)制(image-guided attention,IGA)和門機(jī)制組成。由圖1 可以看出,圖片中僅包含長江大橋的區(qū)域與文本中的“長江大橋”有關(guān),如果考慮圖片中的全部區(qū)域,那么會(huì)帶來噪聲和信息冗余。詞引導(dǎo)的注意力機(jī)制核心思想是給序列中的一個(gè)詞,利用Softmax函數(shù)計(jì)算圖片中的各個(gè)區(qū)域同該詞的相關(guān)程度,過濾掉與其不相關(guān)的區(qū)域和信息,減少計(jì)算復(fù)雜度,以達(dá)到最優(yōu)結(jié)果。應(yīng)用詞引導(dǎo)的注意力機(jī)制,則能讓模型過濾掉噪音并找出與當(dāng)前詞最為相關(guān)的圖片區(qū)域。給定文本序列X={x1,x2,…,xt,…,xn},利用BiLSTM 編碼后的輸出表示為M={mt|mt∈Rd,t=1,2,…,n},利用VGG19 模型提取與文本相對(duì)應(yīng)的圖片特征為T={ti|ti∈ R512,i= 1,2,…,49},其中特征圖的數(shù)量為49,512 表示特征圖的維度。應(yīng)用詞引導(dǎo)的注意力機(jī)制得到與詞mt相關(guān)的圖片特征向量

        其中,θw為詞引導(dǎo)的注意力機(jī)制中的參數(shù)。利用WGA 能夠獲得與詞mt相關(guān)的圖片特征向量但是并不知道序列中的哪個(gè)詞與mt相關(guān)。因此,需要利用圖引導(dǎo)的注意力機(jī)制去尋找與圖片特征的最相關(guān)的詞。圖引導(dǎo)的注意力機(jī)制的核心思想是在給定新的圖片特征向量下,計(jì)算序列中的詞同圖片特征向量的相關(guān)程度,從而提升序列的特征表達(dá)能力。因此,利用IGA 可以計(jì)算出與圖片特征表示相關(guān)的詞

        其中,θi為圖引導(dǎo)的注意力機(jī)制中的參數(shù)。門機(jī)制主要由融合門和過濾門組成。為獲得文本和圖片的多模態(tài)特征表示,利用門機(jī)制中的融合門對(duì)新獲得的依賴于IGA 的詞特征和依賴于WGA 的圖片特征向量進(jìn)行拼接,獲得多模態(tài)融合后的中間特征表示。盡管利用WGA 和IGA 能夠生成富含多模態(tài)語義特征的中間表示,但是依然存在噪聲。例如,當(dāng)預(yù)測(cè)文本中實(shí)體所包含的副詞或形容詞標(biāo)簽時(shí),與之對(duì)應(yīng)的圖片特征并不能提供語義表示的增強(qiáng),反而會(huì)引入噪聲。因此,應(yīng)用門機(jī)制中的過濾門,采用Sigmoid 函數(shù)對(duì)融合后的多模態(tài)中間表示特征進(jìn)行噪聲過濾,獲得高質(zhì)量多模態(tài)中間特征表示gt。盡管融合后的多模態(tài)中間特征能夠在一定程度上完成對(duì)文本和圖片語義的聯(lián)合表達(dá),但是命名實(shí)體識(shí)別的核心語義依舊在于文本。因此,通過將BiLSTM 編碼后序列特征與多模態(tài)中間表示特征相拼接,獲得最終多模態(tài)表示特征ut,具體過程為

        其中,gt,ut∈Rd;θg為門機(jī)制中的全部參數(shù)。將編碼的多模態(tài)特征ut表示輸入CRF 層中進(jìn)行標(biāo)簽解碼,并利用最大似然估計(jì)對(duì)CRF 層進(jìn)行訓(xùn)練,獲得解碼標(biāo)簽。

        3.4 深度遷移學(xué)習(xí)

        為了緩解當(dāng)前可利用標(biāo)注語料匱乏的現(xiàn)狀,本文提出利用深度遷移學(xué)習(xí)方法探索解決這一問題,并設(shè)計(jì)了基于深度遷移學(xué)習(xí)的MNERM 模型。利用預(yù)訓(xùn)練完成的BAC 模型和ACAC 模型,將相應(yīng)的權(quán)重分別遷移至BAM 模塊和ACAM 模塊中,使得MNERM 模型具備對(duì)目標(biāo)域(地方志多模態(tài)數(shù)據(jù)集)抽取文本和多模態(tài)特征的能力。

        給定用于進(jìn)行實(shí)體識(shí)別的地方志文本圖片對(duì)(C,P),C經(jīng)過加載權(quán)重后的BAM 模塊得到的編碼輸 出 為C'={ci|ci∈ Rd,i= 1,2,…,n},(C,P) 經(jīng) 過 加載權(quán)重后的ACAM 模塊得到的多模態(tài)特征表示K={ki|ki∈Rd,i= 1,2,…,n}。盡管利用遷移學(xué)習(xí)后的多模態(tài)特征能夠在一定程度上增強(qiáng)文本語義信息,但是其仍包含一定的噪聲,并且模型學(xué)習(xí)的語料并不是原始中文語料,而是英譯漢平行語料,經(jīng)過翻譯后會(huì)部分丟失原意,引入噪聲。因此,本文提出應(yīng)用過濾門對(duì)提取的多模態(tài)特征進(jìn)行噪聲過濾,得到過濾后的多模態(tài)特征V={vi|vi∈Rd,i= 1,2,…,n},之后將文本語義特征表示C'與多模態(tài)特征表示V進(jìn)行融合輸入至一層全連接層中進(jìn)行非線性激活,獲得最終的多模態(tài)特征表示Z={zi|zi∈R2d,i=1,2,…,n},具體過程為

        其中,Wk和Wz為權(quán)重矩陣;bk和bz為偏置項(xiàng);tanh 為非線性激活函數(shù)。本文將多模態(tài)特征Z輸入CRF 層中,微調(diào)后獲得最終的預(yù)測(cè)標(biāo)簽。

        4 實(shí)證研究

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        1)人民日?qǐng)?bào)語料庫

        本文使用的是1998 年1 月的人民日?qǐng)?bào)語料庫,該語料庫由北京大學(xué)計(jì)算語言學(xué)研究所和富士通公司聯(lián)合制作并發(fā)布,被廣泛應(yīng)用在命名實(shí)體識(shí)別研究中。語料庫中包含人名、地名及機(jī)構(gòu)名實(shí)體,本文以行對(duì)語料進(jìn)行切分,共獲得19484 條句子,將語料庫的80%作為訓(xùn)練集,剩余的20%作為測(cè)試集。

        2)中文推特多模態(tài)數(shù)據(jù)集

        本文使用的是Zhang 等[8]用于多模態(tài)命名實(shí)體任務(wù)的英文推特?cái)?shù)據(jù)集。該數(shù)據(jù)集共包含8257 個(gè)句子和圖片對(duì),標(biāo)注實(shí)體類別為人名、地名、機(jī)構(gòu)名及其他實(shí)體,利用BIO(begin,inside,outside)規(guī)則[24]進(jìn)行實(shí)體標(biāo)注。該數(shù)據(jù)集經(jīng)雙人標(biāo)注完成,包含的實(shí)體數(shù)量為12784,訓(xùn)練集句子數(shù)量為4000,驗(yàn)證集數(shù)量為1000,測(cè)試集數(shù)量為3257。為了制作平行語料,本文首先利用科大訊飛翻譯API(appli‐cation programming interface) 對(duì)數(shù)據(jù)集進(jìn)行翻譯,并召集5 位研究生對(duì)平行語料進(jìn)行檢查,使其通順并保持原意;然后利用jieba 包對(duì)語料進(jìn)行分詞,并使用相同標(biāo)注規(guī)則對(duì)照原英文語料進(jìn)行實(shí)體標(biāo)注;最后得到中文推特多模態(tài)數(shù)據(jù)集。在英文推特中,語料中常包含縮寫詞及非中文對(duì)應(yīng)實(shí)體詞,同時(shí)考慮到遷移應(yīng)用的語料,本文在中文平行數(shù)據(jù)集中去除了其他實(shí)體類別。該平行數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集及測(cè)試集數(shù)量均與原數(shù)據(jù)集保持一致,在實(shí)體對(duì)照的標(biāo)注過程中,當(dāng)中文出現(xiàn)了英文中未標(biāo)注的實(shí)體,本文則加以補(bǔ)充,最后得到的實(shí)體數(shù)量為10636。

        3)地方志多模態(tài)數(shù)據(jù)集

        利用本課題組編寫的爬蟲對(duì)《南京簡志》①江蘇古籍出版社,1986年出版。《南京人物志》②學(xué)林出版社,2001年出版。《南京園林志》③方志出版社,1997年出版。《南京城墻志》④鳳凰出版社,2008年出版。、百度中的南京地方志等資源進(jìn)行爬取,獲取志書中的圖片及相應(yīng)文本描述,文本均為現(xiàn)代文。搜集到的文本及圖片對(duì)數(shù)量為2885,經(jīng)過過濾及去重,共獲得1659 個(gè)文本圖片對(duì)。之后對(duì)數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注,標(biāo)注由組內(nèi)的兩位研究生完成,標(biāo)注規(guī)則為BIO[24],標(biāo)注實(shí)體類別分別為人名、地名及機(jī)構(gòu)名,實(shí)體總量為2908。標(biāo)注后的地方志多模態(tài)數(shù)據(jù)集作為檢驗(yàn)本文提出的MNERM 模型的性能測(cè)試語料。本文同時(shí)標(biāo)注了500 個(gè)用于微調(diào)的文本圖片對(duì)。

        4.2 實(shí)驗(yàn)設(shè)置

        本文所用編程語言為Python 3.6,使用的深度學(xué)習(xí)框架為tensorflow2.3.0,本文的實(shí)驗(yàn)均在兩塊GPU型號(hào)為NVIDIA GeForce RTX 2080ti、內(nèi)存為16G 的服務(wù)器中完成。

        4.3 基線模型

        基于深度遷移學(xué)習(xí)的MNERM 模型主要由BAM模塊、ACAM 模塊、過濾門及CRF 層構(gòu)成,組成模塊的性能影響著整體模型的表現(xiàn)。因此,本文按照使用的數(shù)據(jù)集,分別是人民日?qǐng)?bào)語料庫和中文推特?cái)?shù)據(jù)集,將組成模塊對(duì)應(yīng)的模型(BAC 和ACAC)與不同的基線模型進(jìn)行對(duì)比,以驗(yàn)證其性能。最后,本文將MNERM 模型在地方志多模態(tài)數(shù)據(jù)集進(jìn)行性能驗(yàn)證,并與基線模型作對(duì)比。

        1)人民日?qǐng)?bào)語料庫

        本文選擇了幾種具有優(yōu)異性能的文本實(shí)體識(shí)別模型,將其與BAC 模型作對(duì)比,具體如下。

        BiLSTM-Att[25]:該模型使用的注意力機(jī)制同BAC 模型相同,解碼層使用Softmax 函數(shù)作為標(biāo)簽解碼層。

        BiLSTM-CRF[26]:該模型結(jié)合了BiLSTM 模型和CRF 模型,具有良好的實(shí)體識(shí)別效果,并被廣泛應(yīng)用在命名實(shí)體識(shí)別任務(wù)中。

        BiLSTM[27]:相較于BiLSTM-CRF 模型,該模型利用Softmax 函數(shù)作為序列解碼層,具有一定的實(shí)體識(shí)別性能。

        CRF[28]:該模型為命名實(shí)體識(shí)別任務(wù)中的經(jīng)典模型,能夠較好地考慮到序列特征并避免標(biāo)簽偏置問題。

        1.1 研究對(duì)象 本研究以上海市某地區(qū)失去獨(dú)生子女的父母作為研究對(duì)象。納入標(biāo)準(zhǔn):(1)沒有領(lǐng)養(yǎng)意愿及行為,已經(jīng)喪失再生育能力的夫婦;(2)年齡≥50 歲;(3)失去獨(dú)生子女 1年以上;(4)能獨(dú)立完成問卷調(diào)查。排除認(rèn)知障礙及患有重大精神疾病者。

        2)中文推特多模態(tài)數(shù)據(jù)集

        ACAM 模塊主要由WGA、IGA 和門機(jī)制組成,為驗(yàn)證組成部分的優(yōu)越性,本文對(duì)基于ACAM 的ACAC 模型進(jìn)行了消融實(shí)驗(yàn),分別去除了WGA、IGA 和門機(jī)制,形成Without-WGA、Without-IGA 和Without-Gate 等模型。同時(shí),為了驗(yàn)證多模態(tài)融合的性能,本文將其與僅基于文本的BiLSTM-CRF 作對(duì)比,具體如下。

        Without-WGA:該模型去除了詞引導(dǎo)的注意力機(jī)制,僅保留了圖引導(dǎo)的注意力機(jī)制。

        Without-IGA:該模型去除了圖引導(dǎo)的注意力機(jī)制,僅保留了詞引導(dǎo)的注意力機(jī)制。

        Without-Gate:該模型在自適應(yīng)聯(lián)合注意力網(wǎng)絡(luò)中去除了門機(jī)制。

        BiLSTM-CRF[27]:該模型對(duì)文本序列進(jìn)行命名實(shí)體識(shí)別,參數(shù)與ACAC 保持一致。

        3)地方志多模態(tài)測(cè)試數(shù)據(jù)集

        為了驗(yàn)證MNERM 模型的性能,本文將僅在人民日?qǐng)?bào)語料庫和中文推特?cái)?shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練的BAC 和ACAC 作為對(duì)比模型,微調(diào)方式均保持一致。同時(shí),為了驗(yàn)證過濾門的性能,本文設(shè)計(jì)了去除過濾門的模型Without-FGate 作為對(duì)比。本文還將哈爾濱工業(yè)大學(xué)提供的Language Technology Plat‐form(LTP)[29]中的命名實(shí)體工具作為對(duì)比模型。

        4.4 實(shí)驗(yàn)結(jié)果及分析

        1)人民日?qǐng)?bào)語料庫

        表1 呈現(xiàn)的是BAC 模型與其他模型的對(duì)比結(jié)果。從表1 可以看出,本文提出的模型在各個(gè)指標(biāo)中均表現(xiàn)最優(yōu)。在同BiLSTM-CRF 的比較中可以發(fā)現(xiàn),當(dāng)模型的解碼層均保持相同時(shí),引入自注意力機(jī)制能夠使模型更為關(guān)注那些能夠決定序列標(biāo)簽的信息,生成富含語義特征的序列特征,從而提升模型識(shí)別實(shí)體的性能,這也是BAC 模型具有一定優(yōu)勢(shì)的原因。在同BiLSTM-Att 的對(duì)比中,當(dāng)模型的編碼層保持一致時(shí),利用Softmax 層作為識(shí)別實(shí)體的解碼層,盡管能夠取得一定的性能,但依舊劣于BAC 模型。相較于Softmax 層,CRF 能夠?qū)﹄[藏層的各個(gè)時(shí)間步進(jìn)行有效建模,學(xué)習(xí)并觀察序列中的標(biāo)簽特點(diǎn),從而提升模型的解碼性能。這樣的優(yōu)勢(shì)同樣體現(xiàn)在BiLSTM 和BiLSTM-CRF 的對(duì)比中。當(dāng)忽略文本的上下文關(guān)系,僅用詞向量對(duì)文本進(jìn)行表示時(shí),將其輸入CRF 層進(jìn)行解碼,從結(jié)果可以發(fā)現(xiàn),CRF 模型均劣于使用BiLSTM 或結(jié)合自注意力機(jī)制的模型作為上下文建模的模型,這充分說明了文本上下文在命名實(shí)體識(shí)別任務(wù)中的重要作用,同時(shí)也表明利用BiLSTM 等時(shí)間序列模型能夠較好地學(xué)習(xí)文本上下文關(guān)系,并能生成富含上下文關(guān)系及語義信息的序列特征。

        表1 模型在人民日?qǐng)?bào)語料庫中的測(cè)試結(jié)果

        通過比較分析發(fā)現(xiàn),本文引入的BAC 模型具有較好的實(shí)體識(shí)別性能,而模型包含的BiLSTM 和自注意力網(wǎng)絡(luò)在其中發(fā)揮了充分抽取語義特征的重要作用,這也是本文將BiLSTM 和自注意力網(wǎng)絡(luò)(BAM 模塊)作為MNERM 模型組成部分的原因。

        2)中文推特?cái)?shù)據(jù)集

        自適應(yīng)聯(lián)合注意力機(jī)制由圖引導(dǎo)的注意力機(jī)制、詞引導(dǎo)的注意力機(jī)制及門機(jī)制組成。每個(gè)組成部分均能對(duì)ACAC 模型性能產(chǎn)生影響,為了探究不同組成成分的作用及整體組合的性能,本文對(duì)此進(jìn)行了探究。

        表2 呈現(xiàn)的是各對(duì)比模型在中文推特多模態(tài)數(shù)據(jù)集中的結(jié)果,可以看出,ACAC 模型在F1 這一指標(biāo)上表現(xiàn)最優(yōu)。當(dāng)去除圖引導(dǎo)的注意力機(jī)制后,Without-IGA 模型在精確率(P) 這一指標(biāo)上優(yōu)于ACAC 模型,但是在召回率(R)和F1 指標(biāo)上均劣于ACAC。盡管ACAC 模型在預(yù)測(cè)序列正標(biāo)簽樣本中并沒有表現(xiàn)出最優(yōu)性能,但是在序列中的各實(shí)體類別真實(shí)標(biāo)簽樣本識(shí)別中效果最佳,并在召回率這一指標(biāo)上超出With-IGA 模型近7%。當(dāng)去除詞引導(dǎo)的注意力機(jī)制后,僅利用圖引導(dǎo)的注意力機(jī)制并不能較好地學(xué)習(xí)到文本和圖片之間的模態(tài)交互和關(guān)聯(lián)關(guān)系,這也是Without-WGA 劣于ACAC 的原因。在同Without-FGate 模型的對(duì)比中,可以發(fā)現(xiàn)門機(jī)制在模型中的重要作用,引入門機(jī)制能夠較好地聚合多模態(tài)融合特征,同時(shí)有效過濾來自模態(tài)融合中的噪聲。當(dāng)不考慮文本對(duì)應(yīng)的圖片時(shí),通過對(duì)比BiLSTMCRF,可以發(fā)現(xiàn)圖片信息在增強(qiáng)文本語義特征中的作用,這也是ACAC 模型表現(xiàn)良好的原因。因此,本文將去除了CRF 層的ACAC 模型作為MNERM 模型中的ACAM 模塊,用于提取地方志數(shù)據(jù)中的多模態(tài)特征。

        表2 模型在中文推特?cái)?shù)據(jù)集的測(cè)試結(jié)果

        3)地方志多模態(tài)數(shù)據(jù)集

        表3 呈現(xiàn)的是經(jīng)過微調(diào)后的不同對(duì)比模型對(duì)地方志多模態(tài)數(shù)據(jù)集進(jìn)行實(shí)體識(shí)別的結(jié)果,各模型所用的微調(diào)數(shù)據(jù)均一致。利用通用模型LTP 對(duì)地方志語料進(jìn)行實(shí)體識(shí)別并沒有取得較好的效果。與BAC模型比較可以發(fā)現(xiàn),當(dāng)MNERM 模型聯(lián)合多模態(tài)語料庫知識(shí)后,模型性能有了較大提升。這表明在多模態(tài)語料庫中預(yù)訓(xùn)練實(shí)體識(shí)別模型后,利用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法,將權(quán)重灌入MNERM模型對(duì)應(yīng)模塊中,能夠使得MNERM 具備捕捉不同模態(tài)間的語義相關(guān)關(guān)系及動(dòng)態(tài)交互的能力,從而獲得更優(yōu)的性能。在與ACAC 的比較中可以發(fā)現(xiàn),盡管利用在中文推特多模態(tài)語料庫中的預(yù)訓(xùn)練模型ACAC 能夠取得一定優(yōu)勢(shì),但是劣于含有人民日?qǐng)?bào)語料庫知識(shí)的BAC 模型以及MNERM 模型。一方面是因?yàn)樵谥谱髌叫姓Z料的過程中,會(huì)伴隨著部分英文原意信息的丟失;另一方面是因?yàn)樵从蛴⑽耐铺財(cái)?shù)據(jù)集大多由推特平臺(tái)上用戶的發(fā)帖組成,內(nèi)容大多關(guān)于用戶生活的分享,而目標(biāo)域則是地方志多模態(tài)內(nèi)容,目標(biāo)域與源域之間存在著部分不相關(guān)的知識(shí)。當(dāng)本文引入過濾門后可以看出,采用過濾門的MNERM 模型在精確率和F1 指標(biāo)上均優(yōu)于Without-FGate 模型。盡管應(yīng)用過濾門機(jī)制使得召回率輕微下降,但是F1 值提升了1.042%。這表明,應(yīng)用過濾門能夠?qū)ι疃冗w移學(xué)習(xí)得到的多模態(tài)融合特征噪聲進(jìn)行有效過濾,同時(shí)能夠彌補(bǔ)因源域和目標(biāo)域之間存在不匹配知識(shí)所造成的性能損失。

        表3 地方志多模態(tài)數(shù)據(jù)集深度遷移學(xué)習(xí)結(jié)果

        4)深度遷移學(xué)習(xí)有效性分析

        為了探究深度遷移學(xué)習(xí)在地方志多模態(tài)命名實(shí)體任務(wù)中的有效性以及模型對(duì)目標(biāo)領(lǐng)域的適配性,本文通過調(diào)節(jié)預(yù)訓(xùn)練模型中訓(xùn)練集大小進(jìn)行驗(yàn)證[6]。圖3 展示的是當(dāng)人民日?qǐng)?bào)語料庫訓(xùn)練集大小成比例增加時(shí),BAC 模型在人民語料庫中的測(cè)試性能及在地方志多模態(tài)數(shù)據(jù)集中的文本進(jìn)行深度遷移學(xué)習(xí)的結(jié)果。從圖3 可以看出,隨著預(yù)訓(xùn)練模型中訓(xùn)練集數(shù)量的增加,經(jīng)過微調(diào)后的權(quán)重遷移模型對(duì)地方志文本進(jìn)行實(shí)體識(shí)別的性能呈上升趨勢(shì)。該趨勢(shì)同樣呈現(xiàn)在ACAC 模型對(duì)地方志多模態(tài)數(shù)據(jù)的實(shí)體識(shí)別中。

        從圖4 可以看出,當(dāng)人民日?qǐng)?bào)語料庫及中文推特多模態(tài)數(shù)據(jù)集中的訓(xùn)練集同步成比例上升時(shí),應(yīng)用深度遷移學(xué)習(xí)的MNERM 模型在對(duì)地方志多模態(tài)數(shù)據(jù)集中的實(shí)體進(jìn)行預(yù)測(cè)時(shí),性能總體呈上升趨勢(shì)。綜合圖3、圖4 中的結(jié)果可以發(fā)現(xiàn),預(yù)訓(xùn)練模型中訓(xùn)練集的大小影響著后續(xù)應(yīng)用深度遷移學(xué)習(xí)的效果,這表明本文提出的深度遷移方法具有一定的有效性,并且顯示出本文提出的MNERM 模型對(duì)目標(biāo)領(lǐng)域具有較強(qiáng)的適配性。

        圖3 訓(xùn)練集比例對(duì)BAC模型和ACAC模型性能及應(yīng)用深度遷移學(xué)習(xí)的影響

        圖4 預(yù)訓(xùn)練模型中的訓(xùn)練集比例對(duì)MNERM模型性能的影響

        4.5 誤差分析

        表4 呈現(xiàn)的是利用不同模型對(duì)地方志多模態(tài)數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)進(jìn)行預(yù)測(cè)的結(jié)果。在例1 中,MNERM 模型和ACAC 模型均對(duì)地名實(shí)體做出了準(zhǔn)確的預(yù)測(cè),而BAC 模型則做出了錯(cuò)誤判斷。例1 圖片中的大樓為文本的地名實(shí)體提供了語義增強(qiáng)作用,通過多模態(tài)融合則可以產(chǎn)生更富含語義的表示,從而提升實(shí)體識(shí)別的性能。在多模態(tài)命名實(shí)體中,文本的語義信息依舊是實(shí)體識(shí)別的核心信息。在例2 中,盡管利用ACAC 模型未能對(duì)人名實(shí)體進(jìn)行有效識(shí)別,但僅依靠文本語義信息,BAC 模型做出了準(zhǔn)確判斷,而作為ACAC 模型和BAC 模型兩者的結(jié)合,依靠捕捉文本語義信息的BAM 模塊,MNERM 模型同樣預(yù)測(cè)成功。在例3 中,MNERM模型和BAC 模型均對(duì)人名和組織實(shí)體做出了準(zhǔn)確判斷,而ACAC 模型僅識(shí)別出了人名實(shí)體,未能識(shí)別出組織實(shí)體。例3 圖片中的人像為人名實(shí)體的識(shí)別提供了語義增強(qiáng)作用,但是在組織實(shí)體識(shí)別中,與文本相對(duì)應(yīng)的圖片未提供相應(yīng)的補(bǔ)充特征,ACAC模型未能對(duì)組織實(shí)體進(jìn)行識(shí)別。盡管MNERM 模型在利用深度遷移學(xué)習(xí)的多模態(tài)命名實(shí)體識(shí)別任務(wù)中能夠取得一定效果,但其未能夠有效利用文本中的字級(jí)特征,而聯(lián)合字級(jí)的特征則可以增強(qiáng)文本的表示能力,能夠進(jìn)一步改善多模態(tài)特征融合后的語義表示特征,從而提升遷移學(xué)習(xí)后實(shí)體識(shí)別的性能。

        表4 不同模型對(duì)地方志多模態(tài)數(shù)據(jù)進(jìn)行實(shí)體識(shí)別的結(jié)果

        5 總結(jié)與展望

        當(dāng)前,面向地方志等文化資源的命名實(shí)體識(shí)別研究主要基于文本,忽略了文本對(duì)應(yīng)的圖片信息,同時(shí)還面臨著在領(lǐng)域內(nèi)訓(xùn)練實(shí)體識(shí)別模型缺乏已標(biāo)注數(shù)據(jù)集的困境。為了解決該問題,本文從多模態(tài)視角出發(fā),結(jié)合地方志對(duì)應(yīng)的圖片信息,并提出基于深度遷移學(xué)習(xí)的MNERM 模型。該模型由四個(gè)部分組成,分別是BAM 模塊、ACAM 模塊、過濾門及CRF 層。為了驗(yàn)證模型組成部分的有效性,本文將包含對(duì)應(yīng)模塊的模型(BAC 和ACAC)與不同基線模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,模型各組成部分均包含一定的優(yōu)勢(shì)。利用經(jīng)過權(quán)重遷移后的BAM模塊和ACAM 模塊,MNERM 模型能夠有效獲取文本語義特征及多模態(tài)特征,應(yīng)用過濾門對(duì)ACAM 模塊輸出的多模態(tài)特征進(jìn)行去噪,最后將BAM 模塊輸出的文本語義特征及過濾后的多模態(tài)特征進(jìn)行融合,輸入至CRF 層進(jìn)行解碼。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在同基線模型的比對(duì)中具有一定優(yōu)勢(shì)。同時(shí),為了驗(yàn)證深度遷移學(xué)習(xí)的有效性和對(duì)目標(biāo)領(lǐng)域的適配性,本文將預(yù)訓(xùn)練模型中的訓(xùn)練集比例作為參數(shù)進(jìn)行調(diào)節(jié),發(fā)現(xiàn)當(dāng)源域訓(xùn)練集越大,經(jīng)過深度遷移學(xué)習(xí)后的模型表現(xiàn)越佳。

        本文提出的模型和方法不僅適用于地方志多模態(tài)命名實(shí)體識(shí)別,也適用于數(shù)字人文領(lǐng)域中標(biāo)注數(shù)據(jù)集匱乏的文化資源,如非遺等。在未來的研究中,本課題組將進(jìn)一步提升模型的領(lǐng)域泛化能力,提升模型利用深度遷移學(xué)習(xí)進(jìn)行多模態(tài)實(shí)體識(shí)別的性能以及中文多模態(tài)命名實(shí)體識(shí)別數(shù)據(jù)集的構(gòu)建。

        猜你喜歡
        模態(tài)特征文本
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡支梁的抗彎剛度
        如何快速走進(jìn)文本
        日韩人妻大奶子生活片| 爱情岛永久地址www成人| 成人无码午夜在线观看| 国产极品视觉盛宴在线观看| 91精品福利一区二区三区| 亚洲国产精品一区二区成人片国内 | 区一区二区三免费观看视频| 国产 高潮 抽搐 正在播放| 3d动漫精品一区二区三区| 91福利国产在线观一区二区| 蜜桃av一区二区三区久久| 精品国产一区二区三区色搞| 东北妇女肥胖bbwbbwbbw| 亚洲aⅴ无码国精品中文字慕| 国产网红一区二区三区| 国产精品亚洲av三区亚洲| 久久久久亚洲av无码专区首jn| 日韩AV不卡一区二区三区无码| 黑丝美女喷水在线观看| 亚洲另类丰满熟妇乱xxxx| 国产一区二区女内射| 国产精品一区高清在线观看| 国产亚洲激情av一区二区| 丰满人妻一区二区三区视频| 桃花色综合影院| 日本香蕉久久一区二区视频 | av中文字幕一区不卡| 少妇愉情理伦片丰满丰满午夜| 久久精品免费无码区| 好看的中文字幕中文在线| 高h喷水荡肉爽文np肉色学校| 色猫咪免费人成网站在线观看| 韩国无码精品人妻一区二| 一区二区三区四区在线观看日本| 亚洲国产天堂久久综合| 日本免费人成视频播放| 亚洲av精品一区二区| аⅴ天堂中文在线网| 久久久久亚洲av无码观看| 在线无码免费看黄网站| 亚洲视频免费一区二区|