余傳明 黃婷婷 林虹君 安璐
收稿日期:2020-05-31
基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目“面向跨語(yǔ)言觀點(diǎn)摘要的領(lǐng)域知識(shí)表示與融合模型研究”(項(xiàng)目編號(hào):71974202)。
作者簡(jiǎn)介:余傳明(1978-),男,教授,研究方向:數(shù)據(jù)挖掘、商務(wù)智能與信息檢索。黃婷婷(1995-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息檢索。林虹君(1995-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息檢索。安璐(1979-),女,教授,研究方向:可視化知識(shí)發(fā)現(xiàn)。
摘? 要:[目的/意義]從跨語(yǔ)言視角探究如何更好地解決低資源語(yǔ)言的實(shí)體抽取問(wèn)題。[方法/過(guò)程]以英語(yǔ)為源語(yǔ)言,西班牙語(yǔ)和荷蘭語(yǔ)為目標(biāo)語(yǔ)言,借助遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,提出一種結(jié)合自學(xué)習(xí)和GRU-LSTM-CRF網(wǎng)絡(luò)的無(wú)監(jiān)督跨語(yǔ)言實(shí)體抽取方法。[結(jié)果/結(jié)論]與有監(jiān)督的跨語(yǔ)言實(shí)體抽取方法相比,本文提出的無(wú)監(jiān)督跨語(yǔ)言實(shí)體抽取方法可以取得更好的效果,在西班牙語(yǔ)上,F(xiàn)1值為0.6419,在荷蘭語(yǔ)上,F(xiàn)1值為0.6557。利用跨語(yǔ)言知識(shí)在源語(yǔ)言和目標(biāo)語(yǔ)言間建立橋梁,提升低資源語(yǔ)言實(shí)體抽取的效果。
關(guān)鍵詞:知識(shí)獲取;實(shí)體抽取;跨語(yǔ)言;深度學(xué)習(xí);標(biāo)簽映射
DOI:10.3969/j.issn.1008-0821.2020.12.001
〔中圖分類號(hào)〕TP391? 〔文獻(xiàn)標(biāo)識(shí)碼〕A? 〔文章編號(hào)〕1008-0821(2020)12-0003-14
Research on Cross-lingual Entity Extraction Based on
Tag Transfer and Deep Learning
Yu Chuanming1? Huang Tingting2? Lin Hongjun1? An Lu3
(1.School of Information and Safety Engineering,Zhongnan University of Economics and Law,
Wuhan 430073,China;
2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China;
3.School of Information Management,Wuhan University,Wuhan 430072,China)
Abstract:[Purpose/Significance]This paper explores how to better solve the entity extraction problem of low resource languages from a cross-lingual perspective.[Method/Process]With English as the source language,Spanish and Dutch as the target language,an unsupervised cross-lingual entity extraction method combining self-learning method and GRU-LSTM-CRF network is proposed based on the idea of transfer learning and deep learning.[Result/Conclusion]Compared with the supervised cross-lingual entity extraction method,the unsupervised cross-lingual entity extraction method proposed in this paper can achieve better results.In Spanish,the value of F1 is 0.6419,and in Dutch,the value of F1 is 0.6557.Cross-lingual knowledge is used to build a bridge between source language and target language to improve the effect of entity extraction of low-resource languages.
Key words:knowledge acquisition;entity extraction;cross-lingual;deep learning;label mapping
實(shí)體抽?。‥ntity Extraction,EE),又稱為命名實(shí)體識(shí)別(Name Entity Recognition,NER),是指識(shí)別文本中具有特定意義的實(shí)體[1],包括人名[2]、地名[3]、機(jī)構(gòu)名[4]和專有名詞[5-7]等。實(shí)體抽取在信息抽取的總體任務(wù)中起著至關(guān)重要的作用,有效識(shí)別命名實(shí)體,不僅是關(guān)系抽取[8-9]和構(gòu)建知識(shí)圖譜[10]的基礎(chǔ),而且可以顯著提高問(wèn)答系統(tǒng)[11]和文本挖掘[12]等應(yīng)用的性能。隨著大數(shù)據(jù)的迅速發(fā)展,各種語(yǔ)料在不同語(yǔ)言中的分散化和多樣化日益嚴(yán)峻,跨語(yǔ)言情境下的實(shí)體抽取任務(wù)受到越來(lái)越多的關(guān)注。實(shí)體抽取任務(wù)在中文和英文等語(yǔ)言情境中,存在較為豐富的標(biāo)注語(yǔ)料,與此相關(guān)的實(shí)體抽取模型相對(duì)簡(jiǎn)單;而在阿拉伯語(yǔ)和維吾爾語(yǔ)等語(yǔ)言情境中,標(biāo)注語(yǔ)料相對(duì)稀缺,存在標(biāo)簽語(yǔ)料很少和手工標(biāo)注標(biāo)簽昂貴且費(fèi)時(shí)等問(wèn)題,與此相關(guān)的實(shí)體抽取模型相對(duì)復(fù)雜,面臨更多挑戰(zhàn)。在標(biāo)注語(yǔ)料豐富的源語(yǔ)言和標(biāo)注語(yǔ)料稀缺的目標(biāo)語(yǔ)言之間建立橋梁,將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言,以豐富目標(biāo)語(yǔ)言的標(biāo)簽數(shù)據(jù),通過(guò)建立跨語(yǔ)言的命名實(shí)體識(shí)別模型,提升低資源語(yǔ)言實(shí)體識(shí)別模型的效果,成為一個(gè)亟待解決的研究問(wèn)題。
機(jī)器翻譯研究的發(fā)展在一定程度上緩解了目標(biāo)語(yǔ)言語(yǔ)料稀缺的問(wèn)題,但采用機(jī)器翻譯來(lái)解決跨語(yǔ)言實(shí)體抽取仍面臨一些挑戰(zhàn)。首先,在源語(yǔ)言翻譯成目標(biāo)語(yǔ)言的過(guò)程中,即便在機(jī)器翻譯達(dá)到很高準(zhǔn)確率(即源語(yǔ)言文本與目標(biāo)語(yǔ)言文本具有很好的語(yǔ)義一致性)的情況下,由于在目標(biāo)語(yǔ)言中詞匯語(yǔ)序被調(diào)整,且存在對(duì)源語(yǔ)言詞匯進(jìn)行拆分(源語(yǔ)言詞匯與目標(biāo)語(yǔ)言詞匯之間為一對(duì)多的關(guān)系)或合并(源語(yǔ)言詞匯與目標(biāo)語(yǔ)言詞匯之間為多對(duì)一的關(guān)系)的情況,很難準(zhǔn)確地建立詞匯標(biāo)簽(如B、I、O等)從源語(yǔ)言到目標(biāo)語(yǔ)言之間的一一對(duì)應(yīng)關(guān)系,如何在機(jī)器翻譯基礎(chǔ)上自動(dòng)化地構(gòu)建目標(biāo)語(yǔ)言的語(yǔ)料標(biāo)簽仍然是一個(gè)嚴(yán)峻的問(wèn)題。其次,目前應(yīng)用較為廣泛的免費(fèi)在線翻譯系統(tǒng)(如谷歌和百度翻譯等)并不支持所有語(yǔ)言,針對(duì)稀缺資源語(yǔ)種(如蒙古語(yǔ)和維吾爾語(yǔ)等),如何在沒(méi)有機(jī)器翻譯的情況下自動(dòng)化地構(gòu)建目標(biāo)語(yǔ)言的文本(并在此基礎(chǔ)上自動(dòng)化地構(gòu)建標(biāo)簽)也是一大挑戰(zhàn)。
為解決上述問(wèn)題,本文將自動(dòng)化的雙語(yǔ)詞典構(gòu)建應(yīng)用到跨語(yǔ)言實(shí)體抽取任務(wù)中,利用遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,開(kāi)展跨語(yǔ)言實(shí)體抽取的實(shí)證研究。
1? 相關(guān)研究現(xiàn)狀
1.1? 實(shí)體抽取的傳統(tǒng)模型
實(shí)體抽取的傳統(tǒng)模型包括早期基于規(guī)則的方法、統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法以及近年來(lái)基于深度學(xué)習(xí)的方法,其效果不斷得以提升。
1.1.1? 基于規(guī)則的實(shí)體抽取
基于規(guī)則的實(shí)體抽取方法是指人工構(gòu)造規(guī)則或者借助機(jī)器自動(dòng)生成規(guī)則,然后從文本中找出匹配規(guī)則的字符串。為了解決烏爾都語(yǔ)實(shí)體標(biāo)注語(yǔ)料稀缺的問(wèn)題,Riaz K[13]提出一種基于規(guī)則的命名實(shí)體識(shí)別方法,首先從Becker-Riaz語(yǔ)料庫(kù)中選取200篇文檔,人工為時(shí)間、地名、機(jī)構(gòu)名等6個(gè)實(shí)體標(biāo)簽制定規(guī)則;并選出2 262篇文檔進(jìn)行實(shí)驗(yàn),該方法的召回率為90.7%,準(zhǔn)確率為91.5%,F(xiàn)1值為91.1%。由于人工構(gòu)造規(guī)則需要消耗較多的人力和物力,所以研究者們嘗試借助機(jī)器自動(dòng)生成規(guī)則的方法。Collins M等[14]先構(gòu)造種子規(guī)則,再根據(jù)語(yǔ)料對(duì)該種子規(guī)則進(jìn)行無(wú)監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,將這些規(guī)則用于實(shí)體抽取,該方法在人名、地名和機(jī)構(gòu)名3種實(shí)體抽取任務(wù)中取得很好的效果。周昆[15]提出一種基于規(guī)則匹配的命名實(shí)體識(shí)別方法,首先,將中文人名、知識(shí)按照不同類別和不同層次進(jìn)行組織,可提高知識(shí)庫(kù)的可維護(hù)性;然后分別制定20種人名識(shí)別規(guī)則和9種地名識(shí)別規(guī)則;最后構(gòu)建具有自主學(xué)習(xí)能力的實(shí)體識(shí)別系統(tǒng),能在識(shí)別實(shí)體的基礎(chǔ)上,產(chǎn)生新的規(guī)則反饋給規(guī)則庫(kù),該方法有效提高了實(shí)體抽取的準(zhǔn)確率和召回率?;谝?guī)則的實(shí)體抽取方法在小規(guī)模語(yǔ)料庫(kù)上,訓(xùn)練速度快且模型效果好,但需要制定大量的規(guī)則,導(dǎo)致該類方法的可移植性較差。
1.1.2? 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的實(shí)體抽取
在基于統(tǒng)計(jì)機(jī)器的方法中,實(shí)體抽取被視為序列標(biāo)注問(wèn)題。序列標(biāo)注問(wèn)題中當(dāng)前的預(yù)測(cè)標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測(cè)標(biāo)簽相關(guān),預(yù)測(cè)標(biāo)簽序列之間具有強(qiáng)相互依賴關(guān)系。目前常用的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機(jī)場(chǎng)模型(CRF)等。CRF是計(jì)算整個(gè)標(biāo)記序列的聯(lián)合分布概率,在全局范圍內(nèi)進(jìn)行歸一化處理,不僅克服HMM輸出的獨(dú)立性假設(shè)問(wèn)題,而且有效避免了MEMM的標(biāo)記偏置問(wèn)題。如馮艷紅等[16]提出一種基于詞向量和條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別方法,將領(lǐng)域詞語(yǔ)的語(yǔ)義特征和領(lǐng)域特征融入CRF模型中,在漁業(yè)領(lǐng)域語(yǔ)料、通用語(yǔ)料和混合語(yǔ)料上進(jìn)行實(shí)驗(yàn),該方法均取得較好效果。李想等[17]將農(nóng)作物、病蟲(chóng)害和農(nóng)藥名稱的詞性、偏旁部首、左右指界詞、附近數(shù)量詞等特征融入CRF模型,建立特征與命名實(shí)體類別和詞位間的關(guān)聯(lián)關(guān)系,從而識(shí)別出命名實(shí)體,對(duì)農(nóng)作物、病蟲(chóng)害、農(nóng)藥命名實(shí)體識(shí)別的準(zhǔn)確度分別達(dá)97.72%、87.63%、98.05%?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的實(shí)體抽取獲得了較好的結(jié)果,但是該方法需要人工選擇的特征作為模型輸入,實(shí)體抽取的效果嚴(yán)重依賴特征選取,且模型的泛化能力不強(qiáng)。
1.1.3? 基于深度學(xué)習(xí)的實(shí)體抽取
深度學(xué)習(xí)技術(shù)成為研究命名實(shí)體識(shí)別問(wèn)題的熱點(diǎn)方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來(lái)的數(shù)據(jù)稀疏問(wèn)題。近年來(lái),基于深度學(xué)習(xí)的實(shí)體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進(jìn)行向量表示,然后用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等網(wǎng)絡(luò)進(jìn)行文本的語(yǔ)言特征提取,最后用條件隨機(jī)場(chǎng)(CRF)輸出最優(yōu)標(biāo)簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實(shí)體識(shí)別模型,與基線方法相比,該方法具有較強(qiáng)的魯棒性,對(duì)詞語(yǔ)特征工程的依賴性較小。在此基礎(chǔ)上,Lample G等[19]提出兩種命名實(shí)體識(shí)別模型:一種是基于雙向LSTM和CRF的命名實(shí)體識(shí)別模型,一種是基于轉(zhuǎn)移的命名實(shí)體識(shí)別模型,在沒(méi)有人工處理特征和地名錄的前提下,英語(yǔ)、荷蘭語(yǔ)、德語(yǔ)和西班牙語(yǔ)數(shù)據(jù)集上均取得較好的結(jié)果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實(shí)體識(shí)別模型,該模型對(duì)輸入字符序列和所有匹配詞典的潛在詞匯進(jìn)行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會(huì)出現(xiàn)分詞錯(cuò)誤。在多個(gè)數(shù)據(jù)集上證明Lattice LSTM方法優(yōu)于基于詞和基于字符的LSTM命名實(shí)體識(shí)別方法。目前,大部分神經(jīng)網(wǎng)絡(luò)都是使用Word2Vec和Glove工具訓(xùn)練詞向量,所得到的詞向量沒(méi)有考慮詞序?qū)υ~義的影響,Google在2018年10月發(fā)布BERT語(yǔ)言表示模型,在各項(xiàng)自然語(yǔ)言處理任務(wù)中都取得了最先進(jìn)的結(jié)果。王子牛等[21]提出基于BERT的中文命名實(shí)體方法,首先用BERT訓(xùn)練大量未標(biāo)注語(yǔ)料,得到抽象的語(yǔ)義特征,然后結(jié)合LSTM-CRF神經(jīng)網(wǎng)絡(luò),該方法在《人民日?qǐng)?bào)》數(shù)據(jù)集上的F1值達(dá)到94.86%。此外,深度學(xué)習(xí)方法還被廣泛應(yīng)用于歷史事件名抽取[22]、電子病歷實(shí)體抽取[23]、商業(yè)領(lǐng)域?qū)嶓w抽取[24]、在線醫(yī)療實(shí)體抽取[25]等應(yīng)用場(chǎng)景。值得說(shuō)明的是,基于深度學(xué)習(xí)的實(shí)體抽取方法,在英語(yǔ)和中文等高資源語(yǔ)言中取得很好的效果;對(duì)于維吾爾語(yǔ)、蒙古語(yǔ)等低資源語(yǔ)言,實(shí)體抽取的效果有待提高。
1.2? 跨語(yǔ)言情境下的實(shí)體抽取研究
跨語(yǔ)言的實(shí)體抽取主要目標(biāo)是提升低資源語(yǔ)言的命名實(shí)體識(shí)別效果。值得說(shuō)明的是,跨語(yǔ)言實(shí)體抽取不能理解為“單語(yǔ)言實(shí)體抽取”與“機(jī)器翻譯”的簡(jiǎn)單拼接。從研究現(xiàn)狀來(lái)看,目前主要包括以下兩點(diǎn):一是基于標(biāo)簽數(shù)據(jù)遷移的跨語(yǔ)言實(shí)體抽取;二是利用基于語(yǔ)言獨(dú)立特征遷移的跨語(yǔ)言實(shí)體抽取。
1.2.1? 基于標(biāo)簽遷移的跨語(yǔ)言實(shí)體抽取
基于標(biāo)簽遷移的跨語(yǔ)言實(shí)體抽取是指利用平行語(yǔ)料或者雙語(yǔ)詞典將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言,并在目標(biāo)語(yǔ)言上建立實(shí)體抽取模型以完成實(shí)體識(shí)別任務(wù)。在基于平行語(yǔ)料的跨語(yǔ)言實(shí)體抽取方面,Ni J等[26]提出一種基于弱監(jiān)督的跨語(yǔ)言命名實(shí)體識(shí)別方法,首先建立英語(yǔ)實(shí)體抽取模型,得到英語(yǔ)實(shí)體標(biāo)簽;然后通過(guò)包含對(duì)齊信息的平行語(yǔ)料庫(kù),實(shí)現(xiàn)英語(yǔ)與目標(biāo)語(yǔ)言句子的對(duì)齊,并將英語(yǔ)的標(biāo)簽映射給目標(biāo)語(yǔ)言;最后建立目標(biāo)語(yǔ)言的實(shí)體抽取模型。其研究結(jié)果表明,目標(biāo)語(yǔ)言實(shí)體抽取的效果好壞取決于英語(yǔ)實(shí)體抽取模型和平行語(yǔ)料庫(kù)在詞匯句子層面的對(duì)齊程度。徐廣義等[27]為了解決柬埔寨語(yǔ)實(shí)體標(biāo)簽語(yǔ)料稀缺和命名實(shí)體缺乏明顯標(biāo)識(shí)特征的問(wèn)題,根據(jù)英語(yǔ)和柬埔寨語(yǔ)的平行語(yǔ)料來(lái)構(gòu)造雙語(yǔ)圖,獲取柬埔寨語(yǔ)的實(shí)體類別分布特征,顯著提高了柬埔寨語(yǔ)的命名實(shí)體識(shí)別的性能。上述實(shí)驗(yàn)結(jié)果表明,通過(guò)平行語(yǔ)料庫(kù)將源語(yǔ)言標(biāo)簽遷移給低資源語(yǔ)言,能夠有效提升低資源語(yǔ)言的命名實(shí)體識(shí)別效果。值得說(shuō)明的是,由于構(gòu)建平行語(yǔ)料庫(kù)需要耗費(fèi)較多的人力,所以從一定程度上限制了該方法的推廣性。
在基于雙語(yǔ)詞典的跨語(yǔ)言實(shí)體抽取方面,Mayhew S等[28]利用“廉價(jià)”雙語(yǔ)詞典,將一種或幾種高資源語(yǔ)言中可用的標(biāo)簽數(shù)據(jù)“翻譯”為目標(biāo)語(yǔ)言,并在廉價(jià)詞典的基礎(chǔ)上加入維基百科特征,顯著提高目標(biāo)語(yǔ)言實(shí)體抽取的效果?;诹畠r(jià)詞典的方法,其效果在很大程度上取決于雙語(yǔ)詞典的規(guī)模和質(zhì)量,由于人工構(gòu)建雙語(yǔ)詞典具有一定的困難,在處理真正低資源語(yǔ)言的命名實(shí)體識(shí)別問(wèn)題上具有局限性。Xie J等[29]為了減少對(duì)人工構(gòu)建雙語(yǔ)詞典的依賴,用種子詞典進(jìn)行詞典規(guī)約得到包含更多單詞對(duì)的雙語(yǔ)詞典,將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言;為了提高數(shù)據(jù)遷移過(guò)程中語(yǔ)序的魯棒性,在神經(jīng)網(wǎng)絡(luò)模型中加入自注意力機(jī)制,在西班牙語(yǔ)、荷蘭語(yǔ)和德語(yǔ)數(shù)據(jù)集上取得了較好的結(jié)果。與此類似,Ehrmann M等[30]嘗試在沒(méi)有任何平行語(yǔ)料庫(kù)的情況下構(gòu)建雙語(yǔ)詞典,通過(guò)無(wú)監(jiān)督的方式對(duì)齊單語(yǔ)單詞嵌入空間。值得說(shuō)明的是,利用雙語(yǔ)詞典進(jìn)行標(biāo)簽映射存在標(biāo)簽映射錯(cuò)誤問(wèn)題。為解決該問(wèn)題,吳煥欽[31]提出一種基于軟對(duì)齊的跨語(yǔ)言命名實(shí)體識(shí)別方法,通過(guò)建立跨語(yǔ)言神經(jīng)網(wǎng)絡(luò)模型,其中源語(yǔ)言句子、源語(yǔ)言標(biāo)簽和目標(biāo)語(yǔ)言句子均用于預(yù)測(cè)目標(biāo)語(yǔ)言的命名實(shí)體標(biāo)簽,從而實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的標(biāo)簽遷移,充分利用了源語(yǔ)言和目標(biāo)語(yǔ)言的上下文信息??偟膩?lái)說(shuō),一方面,基于雙語(yǔ)詞典的跨語(yǔ)言實(shí)體抽取方法擺脫了對(duì)于雙語(yǔ)平行語(yǔ)料的限制,因而具有更廣泛的應(yīng)用;另一方面,如何減少對(duì)人工構(gòu)建雙語(yǔ)詞典的依賴(即在處理低資源語(yǔ)言時(shí)能夠準(zhǔn)確、自動(dòng)、快速地構(gòu)建雙語(yǔ)詞典),又成為新的瓶頸問(wèn)題。
1.2.2? 基于語(yǔ)言獨(dú)立特征遷移的跨語(yǔ)言實(shí)體抽取
基于語(yǔ)言獨(dú)立特征遷移的跨語(yǔ)言實(shí)體抽取是指在一種語(yǔ)言上通過(guò)語(yǔ)言獨(dú)立特征訓(xùn)練出模型,然后將模型直接遷移給其他語(yǔ)言。依照語(yǔ)言獨(dú)立特征的不同,可以分為詞簇特征、音韻特征、維基百科特征和共享詞向量特征等。在詞簇特性方面,“詞簇”(Word Cluster)是指文本中2個(gè)或2個(gè)以上的詞形以固定的組合關(guān)系(或位置)重復(fù)同現(xiàn)[32-33]。Tackstrom O等[34]將具有語(yǔ)言獨(dú)立性的詞簇特征加入直接遷移系統(tǒng)中,實(shí)現(xiàn)從英語(yǔ)到目標(biāo)語(yǔ)言的語(yǔ)言結(jié)構(gòu)遷移,在依賴句法分析和命名實(shí)體識(shí)別任務(wù)中,系統(tǒng)相對(duì)誤差分別減少13%和26%。在上述研究的基礎(chǔ)上,Tackstrom O[35]在命名實(shí)體識(shí)別任務(wù)中,通過(guò)加入多種源語(yǔ)言的詞簇特征,并結(jié)合自訓(xùn)練學(xué)習(xí)目標(biāo)語(yǔ)言的獨(dú)立特征,顯著提高目標(biāo)語(yǔ)言實(shí)體抽取的效果。在音韻特征方面,Bharadwaj A等[36]提出一種加入音韻特征的神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合自注意機(jī)制學(xué)習(xí)關(guān)注更有效的字符,預(yù)訓(xùn)練的模型能夠很好地適應(yīng)標(biāo)注語(yǔ)料少甚至沒(méi)有標(biāo)注語(yǔ)料的目標(biāo)語(yǔ)言中。在維基百科特征方面,Tsai C T等[37]將單詞和短語(yǔ)鏈接到維基百科中的條目,并使用頁(yè)面類別作為語(yǔ)言獨(dú)立特征,實(shí)驗(yàn)表明,維基百科特征可有效提高命名實(shí)體識(shí)別的性能。在共享詞向量特征方面,Ni J等[26]將源語(yǔ)言和目標(biāo)語(yǔ)言的詞向量投影到共享空間,將共享空間中的詞向量作為語(yǔ)言獨(dú)立特征,在源語(yǔ)言上訓(xùn)練模型并將其直接應(yīng)用到目標(biāo)語(yǔ)言中,實(shí)驗(yàn)表明該方法優(yōu)于之前最先進(jìn)的方法,并且縮小了與監(jiān)督學(xué)習(xí)的差距??傮w而言,基于語(yǔ)言獨(dú)立特征遷移的方法,可以有效地將源領(lǐng)域的預(yù)訓(xùn)練模型遷移給目標(biāo)語(yǔ)言,提高了模型在不同語(yǔ)言間的自適應(yīng)性,但是該方法仍需要一定量的目標(biāo)語(yǔ)言標(biāo)注語(yǔ)料,對(duì)于真正低資源語(yǔ)言來(lái)說(shuō),具有一定的局限性。
值得說(shuō)明的是,目前基于深度學(xué)習(xí)的實(shí)體抽取模型,較多地集中在單語(yǔ)言數(shù)據(jù)集上。在跨語(yǔ)言實(shí)體抽取任務(wù)上,一方面,由于機(jī)器翻譯并不能完全解決標(biāo)注語(yǔ)料缺乏的問(wèn)題;另一方面,基于標(biāo)簽遷移的跨語(yǔ)言實(shí)體抽取較多地依賴于平行語(yǔ)料或雙語(yǔ)詞典的自動(dòng)構(gòu)建,這使得命名實(shí)體識(shí)別的效果提升仍然面臨諸多挑戰(zhàn)。如何有效地將源語(yǔ)言豐富的標(biāo)注語(yǔ)料遷移給目標(biāo)語(yǔ)言,成為當(dāng)前亟待解決的研究問(wèn)題。鑒于此,本文提出融合標(biāo)簽遷移學(xué)習(xí)和深度學(xué)習(xí)的跨語(yǔ)言命名實(shí)體識(shí)別框架。一方面,探究不同的標(biāo)簽映射方式和深度學(xué)習(xí)方法對(duì)跨語(yǔ)言命名實(shí)體抽取系統(tǒng)的影響;另一方面,探究遷移的數(shù)據(jù)量、雙語(yǔ)詞典規(guī)模和相似度計(jì)算方式對(duì)跨語(yǔ)言實(shí)體抽取系統(tǒng)的影響,以期為跨語(yǔ)言實(shí)體抽取相關(guān)研究提供借鑒。
2? 研究框架與方法
2.1? 研究問(wèn)題
本文旨在探究跨語(yǔ)言情境下的實(shí)體抽取問(wèn)題,參照Feng X等[38]關(guān)于低資源語(yǔ)言命名實(shí)體識(shí)別的研究,我們將英語(yǔ)假定為高資源的源語(yǔ)言,西班牙語(yǔ)和荷蘭語(yǔ)為低資源的目標(biāo)語(yǔ)言(即完全沒(méi)有實(shí)體標(biāo)注語(yǔ)料,只有少量或者完全沒(méi)有雙語(yǔ)詞典),利用跨語(yǔ)言知識(shí)在源語(yǔ)言和目標(biāo)語(yǔ)言之間建立橋梁,將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言,得到目標(biāo)語(yǔ)言的訓(xùn)練集,然后建立目標(biāo)語(yǔ)言的命名實(shí)體識(shí)別模型。具體而言,本文在特定的數(shù)據(jù)集上探究以下問(wèn)題:①在跨語(yǔ)言實(shí)體抽取任務(wù)中,如何有效地將資源豐富語(yǔ)言中的標(biāo)簽遷移到低資源語(yǔ)言中?在有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)中,哪一種遷移方法更為有效?②在跨語(yǔ)言標(biāo)簽遷移的基礎(chǔ)上,如何將深度學(xué)習(xí)正確地應(yīng)用于命名實(shí)體識(shí)別模型?在卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(LSTM)和門(mén)控循環(huán)單元(GRU)等神經(jīng)網(wǎng)絡(luò)模型中,哪一種更為有效?③在跨語(yǔ)言實(shí)體抽取任務(wù)中,如何合理地確定源語(yǔ)言訓(xùn)練數(shù)據(jù)的規(guī)模?源語(yǔ)言訓(xùn)練數(shù)據(jù)的規(guī)模是否越大越好?④如何合理地確定源語(yǔ)言和目標(biāo)語(yǔ)言雙語(yǔ)詞典的規(guī)模?雙語(yǔ)詞典的規(guī)模是否越大越好?⑤在跨語(yǔ)言實(shí)體抽取任務(wù)中,如何選擇合理的相似度方法來(lái)計(jì)算源語(yǔ)言和目標(biāo)語(yǔ)言的對(duì)應(yīng)翻譯?
2.2? 研究框架
本文提出跨語(yǔ)言實(shí)體抽?。–ross-Lingual Entity Extraction,CLEE)框架,如圖1所示,該框架由跨語(yǔ)言標(biāo)簽映射模塊和命名實(shí)體識(shí)別模塊構(gòu)成。標(biāo)簽映射模塊中,根據(jù)生成雙語(yǔ)詞典是否需要種子詞典,將標(biāo)簽映射模塊分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類,實(shí)現(xiàn)從源語(yǔ)言到目標(biāo)語(yǔ)言的標(biāo)簽遷移,其中有監(jiān)督學(xué)習(xí)包括簡(jiǎn)單詞典翻譯和擴(kuò)展詞典翻譯;無(wú)監(jiān)督學(xué)習(xí)包括自學(xué)習(xí)詞典翻譯。在命名實(shí)體識(shí)別模塊,對(duì)目標(biāo)語(yǔ)言建立基于深度學(xué)習(xí)的實(shí)體抽取模型。
2.3? 跨語(yǔ)言標(biāo)簽映射模塊
2.3.1? 簡(jiǎn)單詞典翻譯
相對(duì)于平行語(yǔ)料庫(kù)而言,雙語(yǔ)詞典是一種豐富且廉價(jià)的資源,將直接通過(guò)雙語(yǔ)詞典得到目標(biāo)語(yǔ)言標(biāo)簽數(shù)據(jù)的方法稱為簡(jiǎn)單詞典翻譯。該方法的主要思路是從Github網(wǎng)站下載Facebook官方提供的源語(yǔ)言和目標(biāo)語(yǔ)言高度對(duì)齊的雙語(yǔ)詞典[39],通過(guò)雙語(yǔ)詞典將源語(yǔ)言的單詞翻譯成目標(biāo)語(yǔ)言,并將源語(yǔ)言的標(biāo)簽數(shù)據(jù)直接映射給目標(biāo)語(yǔ)言,得到帶標(biāo)簽的目標(biāo)語(yǔ)言訓(xùn)練集;然后根據(jù)雙語(yǔ)詞典得到的目標(biāo)語(yǔ)言訓(xùn)練集,建立深度學(xué)習(xí)的命名實(shí)體識(shí)別模型。
2.3.2? 詞典擴(kuò)展翻譯
對(duì)于低資源的語(yǔ)言,當(dāng)雙語(yǔ)詞典資源也很稀缺的情況下,可以利用種子詞典進(jìn)行詞典擴(kuò)展翻譯。具體思路如下:首先通過(guò)種子詞典學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言詞向量之間的正交性矩陣W,通過(guò)正交性映射將源語(yǔ)言和目標(biāo)語(yǔ)言的詞向量映射到同一向量空間;其次是進(jìn)行詞典規(guī)約(Lexicon Induction)[40],將預(yù)訓(xùn)練的源語(yǔ)言和目標(biāo)語(yǔ)言詞向量通過(guò)相似性局部縮放(CSLS)[40],得到包含更多單詞對(duì)的雙語(yǔ)詞典;最后利用擴(kuò)展后的雙語(yǔ)詞典,將源語(yǔ)言的單詞翻譯成目標(biāo)語(yǔ)言,并將源語(yǔ)言的標(biāo)簽直接映射給目標(biāo)語(yǔ)言,得到目標(biāo)語(yǔ)言的訓(xùn)練數(shù)據(jù)集。
正交性映射的基本原理是假設(shè)有一個(gè)種子詞典D={xi,yi}(i=1,2,…,d),其中xi為源語(yǔ)言的詞向量,yi為對(duì)應(yīng)目標(biāo)語(yǔ)言的詞向量,共有d個(gè)單詞對(duì)。通過(guò)迭代訓(xùn)練式(1)得到正交性矩陣W,正交性矩陣W保證映射前和映射后的詞向量方差保持不變。
minw=Wxi-yi2s.t.WWT=I(1)
相似性局部縮放(CSLS)的基本原理是源語(yǔ)言和目標(biāo)語(yǔ)言的詞向量通過(guò)正交矩陣W映射到同一空間后,根據(jù)最近鄰找出同一向量空間下,目標(biāo)語(yǔ)言詞向量Y對(duì)應(yīng)源語(yǔ)言詞向量WX的翻譯。余弦相似度可以計(jì)算源語(yǔ)言詞向量WX和目標(biāo)語(yǔ)言詞向量Y之間的相似性,余弦值越大,說(shuō)明源語(yǔ)言對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯越正確。但該方法存在Hubness問(wèn)題,即最近鄰是非對(duì)稱的,目標(biāo)語(yǔ)言詞向量Y是源語(yǔ)言詞向量WX的最近鄰,但源語(yǔ)言詞向量WX不是目標(biāo)語(yǔ)言詞向量Y的最近鄰。鑒于此,本文采用相似性局部縮放(CSLS)方法,計(jì)算公式如式(2)和式(3)所示:
CSLS(WXs,Yt)=2cos(WXs,Yt)-rT(WXs)-rs(Yt)(2)
rT(WXs)=1K∑Yt∈ηT(s)cos(WXs,Yt), rs(Yt)=1K∑WXs∈ηS(t)cos(WXs,Yt)(3)
rT(WXs)和rs(Yt)用于度量每個(gè)源語(yǔ)言和目標(biāo)語(yǔ)言單詞的Hubness問(wèn)題的嚴(yán)重程度,如果一個(gè)單詞和另外一種語(yǔ)言的單詞都很接近,則r值就很高,那么CSLS(WXs,Yt)的值會(huì)變小。
2.3.3? 自學(xué)習(xí)詞典翻譯
詞典擴(kuò)展翻譯依賴于小型種子詞典,采用有監(jiān)督的方法學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言之間的映射矩陣。但對(duì)于真正低資源的語(yǔ)言,當(dāng)源語(yǔ)言和目標(biāo)語(yǔ)言之間不存在雙語(yǔ)詞典的情況下,利用不同語(yǔ)言的等價(jià)詞具有相似性分布的原理,進(jìn)行無(wú)監(jiān)督的自學(xué)習(xí)詞典翻譯[41]。具體分3個(gè)步驟:
第一步:詞向量的標(biāo)準(zhǔn)化。首先根據(jù)維度歸一化源語(yǔ)言詞向量X和目標(biāo)語(yǔ)言詞向量Y;然后均值中心化每個(gè)維度;最后重復(fù)維度歸一化處理步驟。
第二步:完全無(wú)監(jiān)督的初始化。利用標(biāo)準(zhǔn)化后的源語(yǔ)言和目標(biāo)語(yǔ)言詞向量去構(gòu)建初始化詞典D,詞典D的行是來(lái)自于源語(yǔ)言X的單詞(X1,X2,…,Xi,…);列是來(lái)自于目標(biāo)語(yǔ)言Y的單詞(Y1,Y2,…,Yi,…),如果Y中的第j個(gè)詞是X中的第i個(gè)詞的翻譯,則Dij=1;否則Dij=0。由于X和Y是兩種不同語(yǔ)言訓(xùn)練得到的詞向量矩陣,無(wú)論是第i個(gè)單詞Xi*和Yi*,還是第j個(gè)維度X*j和Y*j,它們之間都不是對(duì)齊的,故用相似矩陣替代詞向量矩陣:MX=XXT和MY=YYT。對(duì)相似性矩陣的每一行都進(jìn)行排序,在嚴(yán)格的等距條件下,排序后不同語(yǔ)言中相等的詞會(huì)得到相同的向量。因此給出sorted(MX)中的任意一行,都可以在sorted(MY)中找到最相近的一行,從而找到對(duì)應(yīng)詞的翻譯。
D=D11D12……
D21D22……
……Dij…
…………(4)
第三步:自學(xué)習(xí)訓(xùn)練過(guò)程。通過(guò)最大化當(dāng)前字典D的相似性來(lái)計(jì)算最優(yōu)正交映射WX和WY,計(jì)算公式如式(5)所示;并在映射后的詞向量相似矩陣上計(jì)算最優(yōu)的詞典D,映射后的詞向量相似矩陣為XWXWTZZT,如果j=argmaxk(Xi*WX)·(Yj*WY),則Dij=1,否則Dij=0。不斷地重復(fù)上述訓(xùn)練步驟直到收斂。
argmaxWX,WY∑i∑jDij((Xi*WX)·(Yj*WY))(5)
2.4? 命名實(shí)體識(shí)別模塊
目標(biāo)語(yǔ)言的命名實(shí)體識(shí)別可看作是序列標(biāo)注問(wèn)題,輸入序列為X={x1,x2,…,xn},xi為該序列中的第i個(gè)單詞;輸出是與X相對(duì)應(yīng)的標(biāo)簽序列Y={y1,y2,…,yn},yi為第i個(gè)單詞的標(biāo)簽。本文的詞表示編碼器使用雙向LSTM神經(jīng)網(wǎng)絡(luò),可充分利用單詞的上下文信息;解碼器使用CRF,常見(jiàn)的解碼器有CRF、HMM和MEMMs,而解碼器CRF能夠計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率分布,是在全局范圍統(tǒng)計(jì)歸一化,標(biāo)簽預(yù)測(cè)的效果較好。故該部分實(shí)驗(yàn)主要為了比較不同的字符編碼器對(duì)目標(biāo)語(yǔ)言的命名實(shí)體識(shí)別模型的影響。命名實(shí)體識(shí)別模塊的框架如圖2所示。
圖2? 命名實(shí)體識(shí)別模塊架構(gòu)圖
通過(guò)標(biāo)簽映射模塊,得到目標(biāo)語(yǔ)言的訓(xùn)練集,對(duì)目標(biāo)語(yǔ)言建立基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型。該模型包括編碼和解碼兩個(gè)環(huán)節(jié),在編碼環(huán)節(jié),首先采用門(mén)控循環(huán)單元(GRU)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)或者雙向長(zhǎng)短期記憶模型(LSTM)得到每個(gè)單詞的字符向量;然后通過(guò)加載預(yù)訓(xùn)練的詞向量或者用Word2Vec工具訓(xùn)練維基百科語(yǔ)料庫(kù)得到每個(gè)單詞的詞向量;接著將每個(gè)單詞的詞向量Wword和字符向量Cword串聯(lián)得到聯(lián)合向量表示Eword;最后采用長(zhǎng)短期記憶模型(LSTM)獲取每個(gè)單詞的上下文特征。在解碼環(huán)節(jié),通過(guò)條件隨機(jī)場(chǎng)(CRF)分析句子中標(biāo)簽之間的制約關(guān)系,加入標(biāo)簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標(biāo)簽序列。
2.4.1? 字符編碼器(CNN/GRU/LSTM神經(jīng)網(wǎng)絡(luò))
英語(yǔ)、西班牙語(yǔ)和荷蘭語(yǔ)的單詞都具有豐富的形態(tài)信息,如單詞的前綴和后綴等,這些信息能夠?yàn)槊麑?shí)體識(shí)別任務(wù)提供有價(jià)值的信息,顯著提高標(biāo)簽預(yù)測(cè)的效果。此外,研究表明,單詞拼寫(xiě)對(duì)詞性標(biāo)注和語(yǔ)言建模等任務(wù)中的未登錄詞有很大的幫助。為了使單詞表示對(duì)拼寫(xiě)敏感,本文采用字符編碼器提取單詞中的字符信息,探究以下3種字符編碼器,即卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)和門(mén)控循環(huán)單元(GRU)在命名實(shí)體識(shí)別上的效果。
2.4.2? 詞表示編碼器(LSTM神經(jīng)網(wǎng)絡(luò))
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在訓(xùn)練過(guò)程中通常會(huì)出現(xiàn)梯度消失或梯度爆炸的情況,為了解決這個(gè)問(wèn)題,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)應(yīng)運(yùn)而生,LSTM能很好地提升模型的長(zhǎng)距離依賴的性能。LSTM和一般RNN的區(qū)別在于,LSTM增加了一個(gè)存儲(chǔ)器塊單元A,這個(gè)存儲(chǔ)器塊A包括3部分:輸入門(mén)、遺忘門(mén)和輸出門(mén)。輸入門(mén)決定有多少新信息需要加入單元中,遺忘門(mén)主要用于控制單元內(nèi)信息的存儲(chǔ),即決定丟棄什么信息,輸出門(mén)是確定該單元A要輸出什么信息。
2.4.3? 條件隨機(jī)場(chǎng)(CRF)解碼器
Bi-LSTM層輸出每個(gè)單詞對(duì)應(yīng)的各個(gè)標(biāo)簽的預(yù)測(cè)分值,可以挑選分值最高的作為單詞的標(biāo)簽,但經(jīng)常會(huì)出現(xiàn)一些不合法的標(biāo)簽序列。故在Bi-LSTM層的基礎(chǔ)上加CRF層,CRF層能從訓(xùn)練數(shù)據(jù)中得到約束性規(guī)則,例如句子第一個(gè)單詞以B/O開(kāi)頭,而不能從I開(kāi)頭;在B-label1和I-label2中,label1和label2要同類型;O和I-label不能組合在一起。標(biāo)簽序列中非法序列出現(xiàn)的概率大大降低,從而提高標(biāo)簽預(yù)測(cè)的準(zhǔn)確性。
對(duì)于輸入句子X(jué)={x1,x2,…,xn},對(duì)應(yīng)的輸出標(biāo)簽為Y={y1,y2,…,yn}。該標(biāo)簽序列的計(jì)算得分為:
s(X,Y)=∑ni=0Ayi,yi+1+∑ni=0Pi,yi(6)
其中,P是Bi-LSTM的輸出得分矩陣,P的大小是n*k,k是不同標(biāo)簽的數(shù)目,Pi,j是代表第i個(gè)單詞標(biāo)記為第j個(gè)標(biāo)簽的得分。A是轉(zhuǎn)移得分矩陣,Ai,j是同一句子中由標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移分?jǐn)?shù)。矩陣A是大小為k+2的正方形矩陣,k是標(biāo)簽的個(gè)數(shù)。對(duì)這個(gè)分?jǐn)?shù)進(jìn)行指數(shù)化和標(biāo)準(zhǔn)化,可以得到標(biāo)注序列y的概率值p(y|X)。
p(y|X)=es(X,Y)∑∈YXes(X,)(7)
在式(7)中,YX表示句子X(jué)的所有可能的標(biāo)簽輸出序列。
3? 實(shí)驗(yàn)結(jié)果與討論
3.1? 數(shù)據(jù)集
本次實(shí)驗(yàn)中,以英語(yǔ)作為源語(yǔ)言,數(shù)據(jù)來(lái)源于CoNLL2003公開(kāi)數(shù)據(jù)集[42];以西班牙語(yǔ)和荷蘭語(yǔ)為目標(biāo)語(yǔ)言,數(shù)據(jù)來(lái)源于CoNLL2002公開(kāi)數(shù)據(jù)集[43]。3種語(yǔ)言的訓(xùn)練集、驗(yàn)證集和測(cè)試集已劃分好。例如,英語(yǔ)的訓(xùn)練集、驗(yàn)證集和測(cè)試集中分別包含單詞數(shù)為204 567個(gè)、51 587個(gè)和46 666個(gè)。具體統(tǒng)計(jì)如表1所示。
3種語(yǔ)言均使用BIO標(biāo)注法,其中,B表示實(shí)體詞的開(kāi)始,I表示實(shí)體詞的內(nèi)部,O表示實(shí)體詞的外部(不是實(shí)體詞),在B和I的后接實(shí)體類型以區(qū)分不同的實(shí)體。CoNLL2003和CoNLL2002數(shù)據(jù)集包含4種類型的實(shí)體,分別為人名(Person)、地名(Location)、機(jī)構(gòu)名(Organization)和其他實(shí)體(Miscellaneous)。例如:
3.2? 實(shí)驗(yàn)及參數(shù)設(shè)置
為探究本文提出的研究問(wèn)題,在跨語(yǔ)言命名實(shí)體識(shí)別的任務(wù)中,將比較標(biāo)簽映射方式、命名實(shí)體識(shí)別方法、遷移數(shù)據(jù)量的大小、雙語(yǔ)詞典的大小以及求最近鄰的方法5個(gè)因素對(duì)跨語(yǔ)言命名實(shí)體識(shí)別系統(tǒng)的影響,相關(guān)實(shí)驗(yàn)設(shè)置如表3所示。
在命名實(shí)體識(shí)別算法中,從向量維度、訓(xùn)練設(shè)置和超參數(shù)3個(gè)方面設(shè)置相關(guān)參數(shù),遵循以下原則:一是可比性,即不同模型的參數(shù)設(shè)置最大可能具有一致性,如保持相同的詞向量維度和字符向量維度等;二是兼顧可用性和效率性,參照相關(guān)研究工作的參數(shù)設(shè)置[44],使得模型有較好的實(shí)體抽取效果,并盡可能地減少存儲(chǔ)空間的開(kāi)銷(xiāo)和運(yùn)行時(shí)間的耗費(fèi)。具體參數(shù)設(shè)置如表4所示。
3.3? 基線方法
本文提出融合自學(xué)習(xí)詞典翻譯和GRU-LSTM-CRF網(wǎng)絡(luò)的實(shí)體抽取方法,為了檢驗(yàn)該方法的有效性,假定英語(yǔ)為高資源語(yǔ)言,西班牙語(yǔ)和荷蘭語(yǔ)為低資源語(yǔ)言(完全沒(méi)有實(shí)體標(biāo)注語(yǔ)料)??缯Z(yǔ)言標(biāo)簽映射模塊中,以簡(jiǎn)單詞典翻譯、詞典擴(kuò)展翻譯為基線方法;命名實(shí)體識(shí)別模塊中,以CRF、CNN-LSTM-CRF、LSTM-LSTM-CRF為基線方法。具體來(lái)說(shuō),將所提出的方法與11種基線方法進(jìn)行比對(duì),如表5所示。
3.4? 本文方法與基線方法的對(duì)比實(shí)驗(yàn)
在本文方法與基線方法的對(duì)比中,以英語(yǔ)為源語(yǔ)言、西班牙語(yǔ)和荷蘭語(yǔ)為目標(biāo)語(yǔ)言,探究跨語(yǔ)言實(shí)體抽取(CLEE)框架的有效性。具體而言,在跨語(yǔ)言標(biāo)簽映射模塊,通過(guò)雙語(yǔ)詞典將英語(yǔ)的CoNLL2003訓(xùn)練集遷移給西班牙語(yǔ)和荷蘭語(yǔ),得到目標(biāo)語(yǔ)言的訓(xùn)練集。在命名實(shí)體識(shí)別模塊,用遷移的目標(biāo)語(yǔ)言訓(xùn)練集訓(xùn)練命名實(shí)體識(shí)別模型,并用西班牙語(yǔ)和荷蘭語(yǔ)的CoNLL2002驗(yàn)證集和測(cè)試集對(duì)模型進(jìn)行驗(yàn)證和評(píng)估。統(tǒng)計(jì)出實(shí)驗(yàn)結(jié)果的準(zhǔn)確率(P)、召回率(R)和F1值,具體實(shí)驗(yàn)結(jié)果如表6和表7所示。
由表6可以看出,在“英語(yǔ)-西班牙語(yǔ)”數(shù)據(jù)集上,本文所提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF網(wǎng)絡(luò)”的實(shí)體抽取效果優(yōu)于其他基線方法,F(xiàn)1值達(dá)到0.6419。具體地,比較不同標(biāo)簽映射方式對(duì)實(shí)驗(yàn)結(jié)果的影響,固定命名實(shí)體識(shí)別模型為GRU-LSTM-CRF,得出自學(xué)習(xí)詞典翻譯效果最好,F(xiàn)1值為0.6419;其次為簡(jiǎn)單詞典翻譯,F(xiàn)1值為0.6369;詞典擴(kuò)展翻譯排在最后,F(xiàn)1值為0.6299。
比較不同命名實(shí)體識(shí)別模型對(duì)實(shí)驗(yàn)結(jié)果的影響,在不同的標(biāo)簽映射方法中,CRF模型實(shí)體抽取的效果均遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實(shí)體抽取方法;當(dāng)標(biāo)簽映射方式為簡(jiǎn)單詞典翻譯時(shí),GRU-LSTM-CRF取得了最優(yōu)結(jié)果,F(xiàn)1值為0.6369,比CNN-LSTM-CRF和LSTM-LSTM-CRF的F1值分別高0.028和0.027;當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時(shí),GRU-LSTM-CRF取得了最優(yōu)結(jié)果(0.6299),CNN-LSTM-CRF次之(0.6226),LSTM-LSTM-CRF結(jié)果最差(0.5930);當(dāng)標(biāo)簽映射方式為自學(xué)習(xí)詞典翻譯時(shí),同樣是GRU-LSTM-CRF的方法效果最好,比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了4個(gè)百分點(diǎn)。
由表7可以看出,在“英語(yǔ)-荷蘭語(yǔ)”數(shù)據(jù)集上,本文所提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF網(wǎng)絡(luò)”的實(shí)體抽取效果同樣優(yōu)于其他基線方法,F(xiàn)1值達(dá)到0.6557。具體地,比較不同標(biāo)簽映射方式對(duì)實(shí)驗(yàn)結(jié)果的影響,固定命名實(shí)體識(shí)別模型為GRU-LSTM-CRF,得出自學(xué)習(xí)詞典翻譯取得最好的效果,F(xiàn)1值為0.6557,比簡(jiǎn)單詞典翻譯和詞典擴(kuò)展翻譯分別高0.017和0.011。
比較不同命名實(shí)體識(shí)別模型對(duì)實(shí)驗(yàn)結(jié)果的影響,在不同的標(biāo)簽映射方法中,CRF模型實(shí)體抽取的效果均遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實(shí)體抽取方法;當(dāng)標(biāo)簽映射方式為簡(jiǎn)單詞典翻譯時(shí),CNN-LSTM-CRF取得了最優(yōu)結(jié)果,F(xiàn)1值為0.6484,LSTM-LSTM-CRF次之(0.6420),GRU-LSTM-CRF最差(0.6388);當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時(shí),GRU-LSTM-CRF取得了最優(yōu)結(jié)果(0.6451),比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了3個(gè)百分點(diǎn)。當(dāng)標(biāo)簽映射方式為自學(xué)習(xí)詞典翻譯時(shí),CNN-LSTM-CRF、LSTM-LSTM-CRF和GRU-LSTM-CRF 3種實(shí)體抽取方法的F1分別為0.6549、0.6481和0.6557,實(shí)驗(yàn)效果上整體相差不大。
綜合表6和表7來(lái)看,自學(xué)習(xí)詞典翻譯在跨語(yǔ)言標(biāo)簽映射中具有一定優(yōu)勢(shì)。作為一種無(wú)監(jiān)督的標(biāo)簽映射方法,自學(xué)習(xí)詞典翻譯方法不需要雙語(yǔ)種子詞典,而是根據(jù)源語(yǔ)言和目標(biāo)語(yǔ)言的分布形態(tài)生成雙語(yǔ)詞典。當(dāng)目標(biāo)語(yǔ)言完全沒(méi)有標(biāo)注語(yǔ)料,且源語(yǔ)言和目標(biāo)語(yǔ)言之間沒(méi)有雙語(yǔ)詞典時(shí),可通過(guò)該方法得到比簡(jiǎn)單詞典翻譯和詞典擴(kuò)展翻譯更好的實(shí)驗(yàn)結(jié)果。此外,CRF統(tǒng)計(jì)模型的實(shí)體抽取效果遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實(shí)體抽取模型;GRU-LSTM-CRF模型與其余兩種深度學(xué)習(xí)模型相比較,在大多數(shù)情況下GRU字符編碼器表現(xiàn)更好,可能是因?yàn)镚RU的結(jié)構(gòu)比LSTM更加簡(jiǎn)單,GRU能更快地趨于收斂,并且所需的Epoch次數(shù)更少,這使得迭代次數(shù)一致的情況下,GRU取得了更好的結(jié)果。
從實(shí)驗(yàn)結(jié)果和實(shí)際情況的比照來(lái)看,本文提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF”方法在不同的評(píng)價(jià)指標(biāo)下均取得較好的結(jié)果,在多數(shù)情況下能夠較好地識(shí)別出實(shí)體,但仍存在少數(shù)與實(shí)際情況不一致的結(jié)果。例如,在西班牙語(yǔ)句子“Sao Paulo(Brasil),23 May(EFECOM)”中,單詞“Sao Paulo”的中文含義為“圣保羅”,被人工標(biāo)注為地名,而實(shí)驗(yàn)結(jié)果將其判定為人名。通過(guò)對(duì)原始語(yǔ)料進(jìn)行比對(duì),發(fā)現(xiàn)在英語(yǔ)訓(xùn)練集中,單詞“Sao Paulo”的實(shí)體標(biāo)簽存在地名和人名兩種情況,由于待識(shí)別語(yǔ)句長(zhǎng)度較短(上下文信息并不充分),可能導(dǎo)致分類錯(cuò)誤。再如,在荷蘭語(yǔ)句子“In Viangros Kan Het Vlees,in Welke Fase Van Het Productieproces Het Zich Ook Bevindt,Perfect Getraceerd Worden Aan De Hand Van Een Etiket”(譯為“在Viangros,肉產(chǎn)品在生產(chǎn)過(guò)程任何階段都可以通過(guò)其標(biāo)簽被完美地追蹤”)中,單詞“Viangros”被人工標(biāo)注為組織機(jī)構(gòu)名,而實(shí)驗(yàn)結(jié)果將其誤判為地名。通過(guò)對(duì)原始語(yǔ)料進(jìn)行比對(duì),發(fā)現(xiàn)通過(guò)數(shù)據(jù)遷移得到的荷蘭語(yǔ)訓(xùn)練集中介詞“in”的上下文中存在較多地名,可能導(dǎo)致訓(xùn)練出的模型將單詞Viangros誤判為地名。
3.5? 擴(kuò)展實(shí)驗(yàn)
擴(kuò)展實(shí)驗(yàn)部分,本文探究從源語(yǔ)言遷移不同大小的訓(xùn)練集給目標(biāo)語(yǔ)言、雙語(yǔ)詞典大小以及計(jì)算最近鄰的方法對(duì)跨語(yǔ)言的命名實(shí)體識(shí)別模型的影響。
3.5.1? 源語(yǔ)言訓(xùn)練集大小對(duì)跨語(yǔ)言實(shí)體抽取效果的影響
標(biāo)簽映射方法為簡(jiǎn)單詞典翻譯,命名實(shí)體識(shí)別模型為CNN-LSTM-CRF,雙語(yǔ)詞典的大小為8 000,比較遷移不同大小的訓(xùn)練集對(duì)命名實(shí)體識(shí)別的影響。實(shí)驗(yàn)結(jié)果如表8和表9所示。
從表8和表9可以看出,總體而言,在目標(biāo)語(yǔ)言為西班牙語(yǔ)或荷蘭語(yǔ)時(shí),隨著遷移訓(xùn)練集數(shù)量的不斷增加,F(xiàn)1值逐漸增加。具體而言。在源語(yǔ)言數(shù)據(jù)集規(guī)模由3 000增加到150 000時(shí),F(xiàn)1值增加較為迅速;在達(dá)到150 000后,F(xiàn)1值增加開(kāi)始放緩;
3.5.2? 雙語(yǔ)詞典大小對(duì)跨語(yǔ)言實(shí)體抽取效果的影響
從源語(yǔ)言遷移的訓(xùn)練集大小為180 000,標(biāo)簽映射方法為簡(jiǎn)單詞典翻譯,命名實(shí)體識(shí)別模型為CNN-LSTM-CRF,比較不同雙語(yǔ)詞典大小對(duì)西班牙語(yǔ)命名實(shí)體識(shí)別的影響。其中雙語(yǔ)詞典大小為0時(shí),實(shí)際是直接進(jìn)行模型的遷移,用英語(yǔ)訓(xùn)練集訓(xùn)練得到模型后,并在西班牙語(yǔ)和荷蘭語(yǔ)的驗(yàn)證集和測(cè)試集上進(jìn)行驗(yàn)證和評(píng)估。具體結(jié)果如表10和表11所示。
由表10和表11可知,在西班牙語(yǔ)數(shù)據(jù)集上,當(dāng)雙語(yǔ)詞典大小為8 000時(shí),模型結(jié)果最優(yōu),F(xiàn)1值為0.6235;在荷蘭語(yǔ)數(shù)據(jù)集上,雙語(yǔ)詞典大小為10 000時(shí)結(jié)果最好,F(xiàn)1值為0.6484??傮w上看,隨著雙語(yǔ)詞典大小的增加,F(xiàn)1值也不斷增加。
在一定范圍內(nèi),從源語(yǔ)言遷移到目標(biāo)語(yǔ)言的標(biāo)簽數(shù)據(jù)越大,雙語(yǔ)詞典越大,包含的跨語(yǔ)言的知識(shí)也越多,跨語(yǔ)言的命名實(shí)體識(shí)別系統(tǒng)的性能也就越好。
3.5.3? 相似度計(jì)算方法對(duì)跨語(yǔ)言實(shí)體抽取效果的影響
詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯在生成雙語(yǔ)詞典時(shí),都利用相似度來(lái)計(jì)算源語(yǔ)言和目標(biāo)語(yǔ)言的對(duì)應(yīng)翻譯。本文提出兩種相似度計(jì)算方法,分別為余弦相似度和相似性局部縮放(CSLS),比較這兩種標(biāo)簽映射方式中不同計(jì)算最近鄰的方法對(duì)西班牙語(yǔ)和荷蘭語(yǔ)命名實(shí)體識(shí)別的影響。實(shí)驗(yàn)結(jié)果如表12和表13所示。
由表12和表13可知,在西班牙語(yǔ)和荷蘭語(yǔ)數(shù)據(jù)集上,當(dāng)遷移的訓(xùn)練集大小為180 000,命名實(shí)體識(shí)別的模型CNN-LSTM-CRF時(shí),詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯這兩種標(biāo)簽映射方式利用相似性局部縮放(CSLS)計(jì)算源語(yǔ)言和目標(biāo)語(yǔ)言的相似性,效果均優(yōu)于余弦相似度。CSLS可以計(jì)算不同語(yǔ)言間的單詞相似性,并且考慮了源語(yǔ)言和目標(biāo)語(yǔ)言的Hubness程度懲罰。比如當(dāng)某個(gè)單詞與另一種語(yǔ)言中的多個(gè)單詞相似時(shí),該單詞的CSLS值會(huì)較小,可以有效抑制某些單詞是很多單詞的最近鄰的情況。
3.6? 討? 論
根據(jù)本文方法與基線方法的對(duì)比實(shí)驗(yàn)和擴(kuò)展實(shí)驗(yàn)的結(jié)果,我們對(duì)2.1中所提出的研究問(wèn)題進(jìn)行探討。針對(duì)問(wèn)題1“在跨語(yǔ)言實(shí)體抽取任務(wù)中,如何有效地將資源豐富語(yǔ)言中的標(biāo)簽遷移到低資源語(yǔ)言中?在有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)中,哪一種遷移方法更為有效?”,從不同標(biāo)簽映射方式對(duì)實(shí)驗(yàn)結(jié)果的影響可以看出,在跨語(yǔ)言實(shí)體抽取任務(wù)中,使用不同的標(biāo)簽映射方式會(huì)在很大程度上影響模型效果。當(dāng)標(biāo)簽映射方式為簡(jiǎn)單詞典翻譯,雙語(yǔ)詞典大小為10 000,通過(guò)雙語(yǔ)詞典將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言。當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時(shí),首先雙語(yǔ)種子詞典的大小設(shè)為2 000,通過(guò)正交性映射和相似性局部縮放(CSLS),詞典擴(kuò)展到100 000個(gè)單詞對(duì),將源語(yǔ)言的訓(xùn)練集遷移給為目標(biāo)語(yǔ)言。由于簡(jiǎn)單詞典翻譯和詞典擴(kuò)展翻譯均為有監(jiān)督的標(biāo)簽映射方式,其標(biāo)簽映射的效果很大程度上依賴于雙語(yǔ)詞典的質(zhì)量和大小。而自學(xué)習(xí)詞典翻譯法是一種完全無(wú)監(jiān)督的標(biāo)簽映射方式,利用源語(yǔ)言和目標(biāo)語(yǔ)言的相似詞向量之間具有相似的分布特征,通過(guò)不斷地迭代訓(xùn)練生成包括100 000個(gè)單詞對(duì)的雙語(yǔ)詞典,將源語(yǔ)言的訓(xùn)練集遷移給為目標(biāo)語(yǔ)言。實(shí)驗(yàn)表明,無(wú)監(jiān)督的自學(xué)習(xí)標(biāo)簽映射方法取得最好的效果。
針對(duì)問(wèn)題2“在跨語(yǔ)言標(biāo)簽遷移的基礎(chǔ)上,如何將深度學(xué)習(xí)正確地應(yīng)用于命名實(shí)體識(shí)別模型?在卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(LSTM)和門(mén)控循環(huán)單元(GRU)等神經(jīng)網(wǎng)絡(luò)模型中,哪一種更為有效?”,從不同命名實(shí)體識(shí)別模型對(duì)實(shí)驗(yàn)結(jié)果的影響可以看出,采用不同的深度學(xué)習(xí)命名實(shí)體識(shí)別方法,對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生不同的影響。分別采用CNN、LSTM和GRU 3種神經(jīng)網(wǎng)絡(luò)模型對(duì)字符向量進(jìn)行編碼,其中GRU神經(jīng)網(wǎng)絡(luò)的效果最好。雖然GRU神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較簡(jiǎn)單,但仍然能夠取得相對(duì)較好的結(jié)果,表明在跨語(yǔ)言命名實(shí)體識(shí)別系統(tǒng)中,GRU-LSTM-CRF模型足以捕獲目標(biāo)語(yǔ)言的字符向量和詞向量信息。
針對(duì)問(wèn)題3“在跨語(yǔ)言實(shí)體抽取任務(wù)中,如何合理地確定源語(yǔ)言訓(xùn)練數(shù)據(jù)的規(guī)模?源語(yǔ)言訓(xùn)練數(shù)據(jù)的規(guī)模是否越大越好?”,從不同大小的訓(xùn)練集對(duì)實(shí)驗(yàn)結(jié)果的影響可以看出,在西班牙語(yǔ)和荷蘭語(yǔ)數(shù)據(jù)集上,當(dāng)固定雙語(yǔ)詞典大小不變,遷移的訓(xùn)練集大小在30 000~180 000之間,隨著遷移的訓(xùn)練集增大,跨語(yǔ)言命名實(shí)體識(shí)別的效果呈現(xiàn)上升趨勢(shì)。但是當(dāng)遷移的訓(xùn)練集大小為210 000時(shí),F(xiàn)1值反而下降。由于遷移的訓(xùn)練集過(guò)大,但雙語(yǔ)詞典大小有限,得到的目標(biāo)語(yǔ)言訓(xùn)練集中的未登錄詞較多,從而影響跨語(yǔ)言命名實(shí)體識(shí)別系統(tǒng)的性能。因此,有必要合理地平衡雙語(yǔ)詞典大小和遷移標(biāo)簽數(shù)據(jù)二者的關(guān)系,使得跨語(yǔ)言命名實(shí)體識(shí)別系統(tǒng)達(dá)到最好的效果。
針對(duì)問(wèn)題4“如何合理地確定源語(yǔ)言和目標(biāo)語(yǔ)言雙語(yǔ)詞典的規(guī)模?雙語(yǔ)詞典的規(guī)模是否越大越好?”,從不同雙語(yǔ)詞典大小對(duì)實(shí)驗(yàn)結(jié)果的影響可以看出,隨著雙語(yǔ)詞典的詞數(shù)量增大,跨語(yǔ)言命名實(shí)體識(shí)別系統(tǒng)的性能越好。由于雙語(yǔ)詞典越大,包含源語(yǔ)言和目標(biāo)語(yǔ)言間信息越多,將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言的更加準(zhǔn)確。但是,隨著雙語(yǔ)詞典的不斷增加,跨語(yǔ)言命名實(shí)體識(shí)別的性能增長(zhǎng)緩慢,故規(guī)模小但高度對(duì)齊的雙語(yǔ)詞典可有效提高跨語(yǔ)言命名實(shí)體識(shí)別的效果。此外,當(dāng)雙語(yǔ)詞典的大小為0時(shí),是將源語(yǔ)言訓(xùn)練出的模型直接遷移到目標(biāo)語(yǔ)言,這種模型使用直接遷移的方法效果較差。
針對(duì)問(wèn)題5“在跨語(yǔ)言實(shí)體抽取任務(wù)中,如何選擇合理的相似度方法來(lái)計(jì)算源語(yǔ)言和目標(biāo)語(yǔ)言的對(duì)應(yīng)翻譯?”,從不同計(jì)算最近鄰的方法對(duì)實(shí)驗(yàn)結(jié)果的影響可以看出,在西班牙語(yǔ)和荷蘭語(yǔ)數(shù)據(jù)集上,詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯兩種標(biāo)簽映射方式均利用相似性生成雙語(yǔ)詞典,因此在擴(kuò)展實(shí)驗(yàn)部分,在詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯中比較余弦相似度和CSLS兩種相似度計(jì)算方法對(duì)跨語(yǔ)言命名實(shí)體識(shí)別系統(tǒng)的影響。由于CSLS考慮了源語(yǔ)言和目標(biāo)語(yǔ)言單詞的Hubness程度懲罰,生成源語(yǔ)言和目標(biāo)語(yǔ)言間的雙語(yǔ)詞典對(duì)齊效果更好。
總體而言,與其他研究相比,本文所提出的框架具有以下優(yōu)勢(shì):①相比于機(jī)器翻譯模型,本文較好地解決了由于詞匯語(yǔ)序被調(diào)整以及源語(yǔ)言詞匯被拆分或合并等所帶來(lái)的標(biāo)簽映射錯(cuò)誤問(wèn)題;②相比于基于平行語(yǔ)料的方法,本文方法節(jié)省了構(gòu)建平行語(yǔ)料所消耗的人力與時(shí)間;③相比于其他基于雙語(yǔ)詞典的方法,本文提出無(wú)監(jiān)督雙語(yǔ)詞典構(gòu)建模型,能夠更加便利地應(yīng)用于無(wú)標(biāo)注資源的小語(yǔ)種語(yǔ)言實(shí)體抽取。從理論上來(lái)看,當(dāng)目標(biāo)語(yǔ)言完全沒(méi)有標(biāo)注語(yǔ)料時(shí),根據(jù)雙語(yǔ)詞典資源稀缺程度的不同,本文提出3種不同的標(biāo)簽映射方法。其中,針對(duì)一般低資源語(yǔ)言,可采用簡(jiǎn)單詞典翻譯和詞典擴(kuò)展翻譯;對(duì)于完全無(wú)雙語(yǔ)詞典的語(yǔ)言,可采用自學(xué)習(xí)詞典翻譯。從實(shí)踐上來(lái)看,我們通過(guò)實(shí)證探究遷移的數(shù)據(jù)量、雙語(yǔ)詞典規(guī)模和相似度計(jì)算方式在跨語(yǔ)言實(shí)體抽取任務(wù)中的影響,對(duì)于跨語(yǔ)言實(shí)體抽取實(shí)踐具有借鑒作用。研究結(jié)果對(duì)于改進(jìn)跨語(yǔ)言情境下的知識(shí)獲取模型、促進(jìn)知識(shí)獲取研究等方面具有重要意義。
4? 結(jié)? 語(yǔ)
為了提升跨語(yǔ)言情境下低資源語(yǔ)言命名實(shí)體識(shí)別模型的性能,本文在跨語(yǔ)言實(shí)體抽?。–LEE)框架下,首先利用遷移學(xué)習(xí)的思想,將源語(yǔ)言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語(yǔ)言,然后利用深度學(xué)習(xí)的思想,建立目標(biāo)語(yǔ)言的命名實(shí)體識(shí)別模型。本文將標(biāo)簽映射模塊和命名實(shí)體識(shí)別模塊的不同方法進(jìn)行組合,并在西班牙語(yǔ)和荷蘭語(yǔ)數(shù)據(jù)集上進(jìn)行實(shí)證研究,論證了結(jié)合自學(xué)習(xí)詞典翻譯和GRU-LSTM-CRF網(wǎng)絡(luò)的無(wú)監(jiān)督跨語(yǔ)言實(shí)體抽取效果最好。實(shí)驗(yàn)結(jié)果表明,通過(guò)利用跨語(yǔ)言知識(shí)在源語(yǔ)言和目標(biāo)語(yǔ)言之間建立橋梁,能顯著提升低資源語(yǔ)言實(shí)體抽取的效果。
受制于實(shí)驗(yàn)條件,本文僅探究了與跨語(yǔ)言命名實(shí)體識(shí)別相關(guān)的5個(gè)問(wèn)題。在后續(xù)研究中,將繼續(xù)探究以下問(wèn)題:①如何進(jìn)一步優(yōu)化研究方法,持續(xù)改進(jìn)現(xiàn)有命名實(shí)體識(shí)別模型,使用BERT模型或者在模型中加入自注意力機(jī)制來(lái)提高跨語(yǔ)言命名實(shí)體識(shí)別的性能;②進(jìn)一步探究HowNet義原詞典、同義詞詞典以及反義詞詞典等語(yǔ)義工具對(duì)于跨語(yǔ)言命名實(shí)體識(shí)別效果的提升。
參考文獻(xiàn)
[1]孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010,(6):42-47.
[2]禤鎮(zhèn)宇,蔣盛益,張禮明,等.基于多特征Bi-LSTM-CRF的影評(píng)人名識(shí)別研究[J].中文信息學(xué)報(bào),2019,33(3):94-101.
[3]魏勇,李鴻飛,胡丹露,等.一種基于復(fù)合特征的中文地名識(shí)別方法[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2018,43(1):17-23.
[4]關(guān)曉炟,呂學(xué)強(qiáng),李卓,等.用戶查詢?nèi)罩局械闹形臋C(jī)構(gòu)名識(shí)別[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,(1):72-78.
[5]余麗,錢(qián)力,付常雷,等.基于深度學(xué)習(xí)的文本中細(xì)粒度知識(shí)元抽取方法研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(1):38-45.
[6]劉曉娟,劉群,余夢(mèng)霞.基于關(guān)聯(lián)數(shù)據(jù)的命名實(shí)體識(shí)別[J].情報(bào)學(xué)報(bào),2019,38(2):191-200.
[7]馬建霞,袁慧,蔣翔.基于Bi-LSTM+CRF的科學(xué)文獻(xiàn)中生態(tài)治理技術(shù)相關(guān)命名實(shí)體抽取研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,4(Z1):78-88.
[8]張琴,郭紅梅,張智雄.融合詞嵌入表示特征的實(shí)體關(guān)系抽取方法研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(9):8-15.
[9]鄂海紅,張文靜,肖思琪,等.深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J].軟件學(xué)報(bào),2019,30(6):1793-1818.
[10]丁晟春,侯琳琳,王穎.基于電商數(shù)據(jù)的產(chǎn)品知識(shí)圖譜構(gòu)建研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(3):45-56.
[11]安波,韓先培,孫樂(lè).融合知識(shí)表示的知識(shí)庫(kù)問(wèn)答系統(tǒng)[J].中國(guó)科學(xué):信息科學(xué),2018,48(11):1521-1532.
[12]范馨月,崔雷.基于文本挖掘的藥物副作用知識(shí)發(fā)現(xiàn)研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(3):79-86.
[13]Riaz K.Rule-based Named Entity Recognition in Urdu[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2010:126-135.
[14]Collins M,Singer Y.Unsupervised Models for Named Entity Classification[C]//Proceedings of Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.Stroudsburg:ACL,1999:100-110.
[15]周昆.基于規(guī)則的命名實(shí)體識(shí)別研究[D].合肥:合肥工業(yè)大學(xué),2010.
[16]馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2016,36(11):3146-3151.
[17]李想,魏小紅,賈璐,等.基于條件隨機(jī)場(chǎng)的農(nóng)作物病蟲(chóng)害及農(nóng)藥命名實(shí)體識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(S1):178-185.
[18]Huang Z,Xu W,Yu K,et al.Bidirectional LSTM-CRF Models for Sequence Tagging[EB/OL].https://arxiv.org/abs/1508.01991,2020-03-16.
[19]Lample G,Ballesteros M,Subramanian S,et al.Neural Architectures for Named Entity Recognition[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2016:260-270.
[20]Zhang Y,Yang J.Chinese NER Using Lattice LSTM[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2018:1554-1564.
[21]王子牛,姜猛,高建瓴,等.基于BERT的中文命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)科學(xué),2019,46(S2):138-142.
[22]唐慧慧,王昊,張紫玄,等.基于漢字標(biāo)注的中文歷史事件名抽取研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(7):89-100.
[23]李綱,潘榮清,毛進(jìn),等.整合BiLSTM-CRF網(wǎng)絡(luò)和詞典資源的中文電子病歷實(shí)體識(shí)別[J].現(xiàn)代情報(bào),2020,40(4):3-12,58.
[24]丁晟春,方振,王楠.基于Bi-LSTM-CRF的商業(yè)領(lǐng)域命名實(shí)體識(shí)別[J].現(xiàn)代情報(bào),2020,40(3):103-110.
[25]陳美杉,夏晨曦.肝癌患者在線提問(wèn)的命名實(shí)體識(shí)別研究:一種基于遷移學(xué)習(xí)的方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(12):61-69.
[26]Ni J,Dinu G,F(xiàn)lorian R,et al.Weakly Supervised Cross-lingual Named Entity Recognition via Effective Annotation and Representation Projection[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2017:1470-1480.
[27]徐廣義,嚴(yán)馨,余正濤,等.融合跨語(yǔ)言特征的柬埔寨語(yǔ)命名實(shí)體識(shí)別方法[J].云南大學(xué)學(xué)報(bào):自然科學(xué)版,2018,40(5):865-871.