劉慧敏 熊菲 王國(guó)慶
關(guān)鍵詞:簡(jiǎn)歷實(shí)體識(shí)別;RoBERTa模型;詞向量;BiLSTM-CRF模型
1 概述
在大數(shù)據(jù)時(shí)代,人才的競(jìng)爭(zhēng)非常激烈,如何在海量的簡(jiǎn)歷中快速地識(shí)別、發(fā)現(xiàn)與企業(yè)需求相符合的求職者成了一個(gè)亟待解決的問(wèn)題。傳統(tǒng)的方式是花費(fèi)大量的人力物力從各大招聘平臺(tái)的簡(jiǎn)歷中進(jìn)行人工篩選,該方法不僅實(shí)效性差,并且很容易出現(xiàn)招聘人員與崗位不匹配的后果。
為解決該問(wèn)題,諸多學(xué)者也展開(kāi)了相應(yīng)研究,發(fā)現(xiàn)人才簡(jiǎn)歷的分析與命名實(shí)體識(shí)別技術(shù)具有密不可分的關(guān)系。在CoNNL-2003會(huì)議[1]中,學(xué)者們對(duì)多種命名實(shí)體識(shí)別方法進(jìn)行了評(píng)測(cè),為命名實(shí)體識(shí)別的研究奠定了基礎(chǔ)。2004年廖先桃等[2]使用隱形馬爾可夫模型(Hidden Markov Model, HMM) 與自動(dòng)規(guī)則提取相結(jié)合實(shí)現(xiàn)了中文命名實(shí)體提取技術(shù)。2009年彭春艷等[3]使用條件隨機(jī)場(chǎng)CRF(Conditional Random Field) ,結(jié)合單詞構(gòu)詞特性的距離依賴性,對(duì)生物命名實(shí)體進(jìn)行了研究。2016年G Lample等人[4]將長(zhǎng)短期記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM(Long Short-Term Memory)在命名實(shí)體上的應(yīng)用進(jìn)行推廣,首次提出了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)BiL?STM(Bidirectional Long Short-Term Memory) 和CRF結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,表明該模型能夠獲取上下文的序列信息, 因此在命名實(shí)體識(shí)別中得到了廣泛的應(yīng)用。
但上述方法只關(guān)注了詞或者詞之間的特征提取,忽略了上下文的語(yǔ)義。為解決此問(wèn)題,Devlin等人[5]引入了一種稱為BERT (Bidirectional Encoder Repre?sentation from Transformers)的新模型對(duì)詞向量進(jìn)行表征,該模型借助Transformers結(jié)構(gòu)可以得到上下文的語(yǔ)義信息。Liu Y等人[6]于2019年提出了RoBERTa(ARobustly Optimized BERT Pretraining Approach) 模型,RoBERTa在BERT模型的基礎(chǔ)上增加了大量訓(xùn)練參數(shù)和訓(xùn)練數(shù)據(jù),且在語(yǔ)言表征中使用了雙字節(jié)編碼,提高了詞匯表征的準(zhǔn)確度和執(zhí)行效率。
受上述文獻(xiàn)的啟發(fā),本文建立了基于RoBERTa-BiLSTM-CRF模型的中文實(shí)體識(shí)別方法,并將該方法應(yīng)用于大數(shù)據(jù)人才簡(jiǎn)歷分析中。具體做法是利用本文建立的RoBERTa-BiLSTM-CRF模型對(duì)脫敏后的求職簡(jiǎn)歷進(jìn)行測(cè)試。結(jié)果表明,本文建立的模型具有較強(qiáng)的識(shí)別效果。相關(guān)研究結(jié)果為企業(yè)更高效地招納人才提供了一個(gè)廣義的框架,同時(shí)對(duì)于中文命名實(shí)體識(shí)別技術(shù)的研究具有一定的指導(dǎo)意義和參考價(jià)值。
2 理論方法
本文建立了RoBERTa-BiLSTM-CRF 模型,該模型是端到端的語(yǔ)言模型,能夠較好地捕捉文本中存在的語(yǔ)法和語(yǔ)義特征,并且能夠自動(dòng)理解上下文的關(guān)聯(lián)性。模型主要由三個(gè)模塊構(gòu)成,分別是RoBERTa模塊、BiLSTM模塊和CRF模塊,各層的功能和原理如圖1所示。
2.1 RoBERTa 模塊
由于計(jì)算機(jī)只能識(shí)別數(shù)字、向量或者矩陣,故如何將文字向量化是諸多研究者關(guān)注的重點(diǎn)。文本向量化的研究先后經(jīng)歷了one-hot、Word2Vec、BERT。其中one-hot模型在字典比較大時(shí),會(huì)出現(xiàn)維度災(zāi)難的問(wèn)題。而Word2Vec 雖然可以學(xué)習(xí)詞語(yǔ)之間的關(guān)系,但不能解決一詞多義的問(wèn)題。BERT模型雖具有較強(qiáng)的語(yǔ)義表征優(yōu)勢(shì),但采用的是靜態(tài)掩碼,無(wú)法兼顧更多的語(yǔ)言信息。相較于BERT模型,RoBERTa采用了動(dòng)態(tài)編碼,且在特征編碼階段借助了雙向Trans?former[7],通過(guò)該網(wǎng)絡(luò)結(jié)構(gòu)可以得到同一個(gè)句子中的詞與詞之間的關(guān)聯(lián)程度調(diào)整權(quán)重系數(shù)矩陣,進(jìn)而獲取詞的表征向量。與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Neu?ral Network,RNN) 相比,它可以更充分地利用上下文信息,能捕捉到更長(zhǎng)距離的依賴關(guān)系。
RoBERTa預(yù)訓(xùn)練語(yǔ)言模型是BERT的一種變種。與經(jīng)典的BERT模型相比,RoBERTa引入了更多的訓(xùn)練數(shù)據(jù),增大了mini-batch的同時(shí),去除了NSP任務(wù),提升了優(yōu)化速度和性能。RoBERTa模型采用了動(dòng)態(tài)掩碼,針對(duì)每一次輸入序列都會(huì)動(dòng)態(tài)生成新的掩碼模式。模型會(huì)不斷地適應(yīng)不同的掩碼策略,學(xué)習(xí)不同的語(yǔ)義表征。
2.2 BiLSTM 模塊
LSTM是一種改進(jìn)的RNN,LSTM模型有效地解決了RNN訓(xùn)練時(shí)產(chǎn)生的梯度爆炸或梯度消失問(wèn)題,同時(shí)也實(shí)現(xiàn)了對(duì)長(zhǎng)距離信息的有效利用[8]。與RNN的主要區(qū)別在于,它在算法中增加了一個(gè)“處理器”來(lái)判斷信息是否有用,處理器的結(jié)構(gòu)稱為“門(mén)”。LSTM單元中有三個(gè)“門(mén)”,分別是遺忘門(mén)、輸入門(mén)和輸出門(mén),以及記憶cell。其中輸入門(mén)決定著是否有信息輸入到記憶cell,輸出門(mén)決定著是否有信息從記憶cell輸出,遺忘門(mén)判斷丟棄哪些信息。
由于LSTM只能從前往后接收待識(shí)別的文本,而通過(guò)研究發(fā)現(xiàn),下文信息也有很重要的參考價(jià)值。為了能夠同時(shí)獲得上下文信息,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM) 就應(yīng)運(yùn)而生。BiLSTM由兩個(gè)LSTM層組成,分別用來(lái)訓(xùn)練前向和后向的序列。這種結(jié)構(gòu)可以將過(guò)去的信息和未來(lái)的信息同時(shí)在輸出層進(jìn)行綜合輸出。所以BiLSTM的最終輸出既包括了過(guò)去的隱藏信息也包括了未來(lái)的隱藏信息,其結(jié)構(gòu)如下:
2.3 CRF 模塊
在命名實(shí)體識(shí)別任務(wù)中,由于BiLSTM模型無(wú)法處理相鄰標(biāo)簽之間的依賴關(guān)系,而條件隨機(jī)場(chǎng)(CRF)能通過(guò)相鄰標(biāo)簽關(guān)系得到一個(gè)最優(yōu)的預(yù)測(cè)序列[9]。為保證最終預(yù)測(cè)結(jié)果的可信度。需要在CRF層加入損失函數(shù),區(qū)別于常規(guī)的損失函數(shù)計(jì)算方法,CRF損失的函數(shù)由實(shí)際路徑的分?jǐn)?shù)和所有路徑的分?jǐn)?shù)組成,而真實(shí)路徑分?jǐn)?shù)也應(yīng)該是所有路徑中分?jǐn)?shù)最高的。假設(shè)每種可能的路徑分?jǐn)?shù)為Pi,共有N 條路徑,則總路徑分?jǐn)?shù)就是:
3實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)來(lái)源及參數(shù)設(shè)置
本文數(shù)據(jù)主要收集了求職簡(jiǎn)歷952份,有601562個(gè)字作為語(yǔ)料庫(kù)作為實(shí)驗(yàn)的數(shù)據(jù)集,進(jìn)行應(yīng)聘崗位、應(yīng)聘公司、工作職位、工作單位、學(xué)歷、專業(yè)等內(nèi)容的識(shí)別。實(shí)驗(yàn)過(guò)程中把語(yǔ)料庫(kù)隨機(jī)分成訓(xùn)練集、測(cè)試集和評(píng)估集。本次實(shí)驗(yàn)采用的預(yù)訓(xùn)練語(yǔ)言模型為Ro?BERTa模型,具體模型訓(xùn)練參數(shù)如表1所示。
3.2 語(yǔ)料標(biāo)注與評(píng)價(jià)指標(biāo)
命名實(shí)體識(shí)別的語(yǔ)料標(biāo)注有以下幾種模式:BIO模式、BIEO模式、BIOES模式以及BMEO模式,本次工作采用的標(biāo)注方式為BIO模式,其中B代表實(shí)體開(kāi)始位置,I表示實(shí)體的非開(kāi)始位置,O代表其他位置[10]。對(duì)簡(jiǎn)歷中需要識(shí)別的命名實(shí)體進(jìn)行標(biāo)注,標(biāo)注實(shí)體主要包括12個(gè)類別,實(shí)體名以及標(biāo)注名稱如表2所示:
在實(shí)際的命名實(shí)體預(yù)測(cè)過(guò)程中,實(shí)體預(yù)測(cè)正確的條件需要實(shí)體的邊界以及實(shí)體的類型兩個(gè)條件都正確才算是完成了一個(gè)有效的命名實(shí)體識(shí)別的任務(wù)。在本次工作中,對(duì)命名實(shí)體識(shí)別性能的判別采用了正確率P、召回率R 和F1 值作為命名實(shí)體的評(píng)價(jià)指標(biāo),具體定義如下:
式中,a 為識(shí)別出的正確的實(shí)體個(gè)數(shù),A 為識(shí)別出的正確實(shí)體個(gè)數(shù),B 為所有標(biāo)注的實(shí)體個(gè)數(shù)。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文所有的實(shí)驗(yàn)均在相同的語(yǔ)料、相同配置的環(huán)境下進(jìn)行,最后得到如表3的實(shí)驗(yàn)結(jié)果:
通過(guò)表3可以看出,模型對(duì)姓名、應(yīng)聘公司、應(yīng)聘崗位、學(xué)歷以及學(xué)校的識(shí)別結(jié)果是非常優(yōu)異的,但對(duì)職稱、技能方面的識(shí)別并不理想,具體是因?yàn)槁毞Q數(shù)據(jù)非常少,導(dǎo)致訓(xùn)練樣本無(wú)法學(xué)習(xí)到其相應(yīng)的信息,而技能識(shí)別結(jié)果不理想則是因?yàn)榧寄苤g存在簡(jiǎn)寫(xiě)或者縮寫(xiě),或者有指代歧義的現(xiàn)象,該部分問(wèn)題也是后續(xù)研究的重點(diǎn),訓(xùn)練過(guò)程中準(zhǔn)確率和損失率如圖3、圖4所示:
從圖3和圖4可以看出,隨著訓(xùn)練輪數(shù)的增加,整個(gè)模型的準(zhǔn)確率在升高,而損失在下降的,證明模型對(duì)于簡(jiǎn)歷的命名實(shí)體識(shí)別任務(wù)的效果一直在提升的。說(shuō)明RoBERTa預(yù)訓(xùn)練模型可以很好地勝任該任務(wù),且對(duì)字所表達(dá)出的多義性有較好的處理,對(duì)文本特征提取的性能也很好。
3.4 模型測(cè)試
本節(jié)對(duì)RoBERTa-BILSTM-CRF訓(xùn)練出的模型進(jìn)行測(cè)試,選用隱去姓名、電話,郵箱、地址等信息的求職簡(jiǎn)歷,進(jìn)行簡(jiǎn)歷命名實(shí)體識(shí)別的模型調(diào)用和測(cè)試,具體結(jié)果如表4所示:
從表4 可以看出,本文建立的RoBERTa-BiLSTM-CRF模型對(duì)簡(jiǎn)歷的命名實(shí)體識(shí)別具有較好的魯棒性,說(shuō)明RoBERTa模型相比其他模型,其特征提取能力更強(qiáng)。
4 總結(jié)與展望
本文的工作雖然在一定程度上取得了一些成果,但仍存在進(jìn)一步改善的空間。主要集中在以下幾點(diǎn):1) 沒(méi)有充分利用到領(lǐng)域?qū)I(yè)的知識(shí),不能對(duì)實(shí)體的縮寫(xiě)進(jìn)行很好地表征。下一步將會(huì)在實(shí)體的縮寫(xiě)以及實(shí)體消歧方面進(jìn)行進(jìn)一步研究。2) 本文的實(shí)驗(yàn)數(shù)據(jù)量雖然是特定的領(lǐng)域,但語(yǔ)料的規(guī)模并不是特別大,導(dǎo)致最終的數(shù)據(jù)結(jié)果不是太理想。并沒(méi)有對(duì)模型的性能和多領(lǐng)域的應(yīng)用場(chǎng)景進(jìn)行探索,接下來(lái)將會(huì)在命名實(shí)體識(shí)別的構(gòu)建方法以及泛化能力上進(jìn)行研究。3) 并未考慮實(shí)體間的相關(guān)關(guān)系,以及實(shí)體間的內(nèi)在邏輯,下一步將嘗試將命名實(shí)體識(shí)別和知識(shí)圖譜相結(jié)合。