邢志偉,戴 錚,羅 謙
(1.中國(guó)民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300; 2.中國(guó)民航局第二研究所 工程技術(shù)研究中心,四川 成都 610041)
旅客運(yùn)輸是航空運(yùn)輸?shù)闹匾M成部分,2019年全行業(yè)完成旅客運(yùn)輸量65 993.42萬(wàn)人次,比上年增長(zhǎng)6.9%[1]。不斷提高機(jī)場(chǎng)的旅客服務(wù)質(zhì)量一直是機(jī)場(chǎng)管理者追求的目標(biāo),傳統(tǒng)的問(wèn)卷調(diào)查方式伴有隨機(jī)性和盲目性難以獲得真實(shí)客觀的旅客評(píng)價(jià)。采用命名實(shí)體識(shí)別技術(shù),針對(duì)互聯(lián)網(wǎng)上的旅客評(píng)價(jià)文本進(jìn)行識(shí)別可以快速找到評(píng)價(jià)的業(yè)務(wù)對(duì)象,幫助機(jī)場(chǎng)管理者聚焦旅客服務(wù)中的痛點(diǎn)。
命名實(shí)體識(shí)別[2]是從文本數(shù)據(jù)中抽取人名、地名、組織機(jī)構(gòu)名等專(zhuān)有名詞的技術(shù)。由于傳統(tǒng)的規(guī)則與統(tǒng)計(jì)的方法過(guò)分依賴(lài)人工特征和專(zhuān)家知識(shí)而逐漸被基于深度學(xué)習(xí)的方法取代[3]。
民航業(yè)務(wù)實(shí)體識(shí)別[4]是一種特殊領(lǐng)域的實(shí)體識(shí)別,目的是從海量的非結(jié)構(gòu)化文本中識(shí)別出運(yùn)營(yíng)業(yè)務(wù)、商業(yè)業(yè)務(wù)、其它服務(wù)業(yè)務(wù)(綜合服務(wù)業(yè)務(wù))等多種不同類(lèi)型的實(shí)體。民航命名實(shí)體識(shí)別區(qū)別于一些規(guī)范的通用實(shí)體,旅客評(píng)價(jià)中存在較多的復(fù)雜命名實(shí)體,如地名與地名的嵌套,同時(shí)存在數(shù)據(jù)類(lèi)別不平衡的情況,如地名與綜合服務(wù)類(lèi)實(shí)體數(shù)量相差較大,因此增加了民航業(yè)務(wù)實(shí)體的識(shí)別難度。
為了解決旅客評(píng)價(jià)中民航業(yè)務(wù)實(shí)體的識(shí)別問(wèn)題,本文提出了集成卷積網(wǎng)絡(luò)(ensemble convolution neural network,ECNN)與長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)融合的模型,并添加了注意力機(jī)制。該模型首先由集成卷積和長(zhǎng)短期記憶網(wǎng)絡(luò)提取文本的長(zhǎng)短距離特征,然后由Attention分配權(quán)重,最后輸入至條件隨機(jī)場(chǎng)(conditional random filed,CRF)獲取最終的預(yù)測(cè)標(biāo)簽。
命名實(shí)體識(shí)別技術(shù)發(fā)展到深度學(xué)習(xí)階段,文獻(xiàn)[5]基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)網(wǎng)絡(luò)的改進(jìn)模型長(zhǎng)短期記憶網(wǎng)絡(luò),提出了端到端的BLSTM-CRF模型,克服了傳統(tǒng)的規(guī)則模版需要大量專(zhuān)家知識(shí)的缺陷,該模型能夠滿足大多數(shù)簡(jiǎn)單實(shí)體的識(shí)別。
為解決復(fù)合實(shí)體的識(shí)別,文獻(xiàn)[6]設(shè)計(jì)了一種針對(duì)中文的動(dòng)態(tài)meta-embedding模型,嵌入層不局限于詞或字的模型,將句子的詞語(yǔ)全劃分后與字向量融合,提高了模型對(duì)于實(shí)體邊界的劃分能力。文獻(xiàn)[7]針對(duì)微博中的復(fù)合實(shí)體設(shè)計(jì)了一種雙層條件隨機(jī)場(chǎng)模型,采用了基于詞性標(biāo)記的復(fù)合實(shí)體特征詞提取算法并輔助了外部語(yǔ)義知識(shí)庫(kù)。文獻(xiàn)[8]將復(fù)合實(shí)體看作結(jié)點(diǎn)的聯(lián)結(jié)使用從遞歸神經(jīng)網(wǎng)絡(luò)提取的特征來(lái)學(xué)習(xí)實(shí)體的超圖表示。文獻(xiàn)[9]利用卷積神經(jīng)網(wǎng)絡(luò)能夠很好描述提取特征信息這一特點(diǎn),在BLSTM-CRF模型的基礎(chǔ)上利用CNN網(wǎng)絡(luò)訓(xùn)練出具有形態(tài)特征的字符級(jí)向量,并從大規(guī)模背景語(yǔ)料訓(xùn)練中得到具有語(yǔ)義特征信息的詞向量,然后將二者進(jìn)行組合作為輸入,提出了CNN-BLSTM-CRF模型。
為解決部分領(lǐng)域數(shù)據(jù)類(lèi)別失衡導(dǎo)致的識(shí)別性能下降的問(wèn)題。文獻(xiàn)[10]使用了基于Transformer雙向編碼器的BERT模型,通過(guò)微調(diào)詞嵌入層數(shù)增強(qiáng)了對(duì)句子的表達(dá),從改善詞嵌入層面提高了對(duì)微博這種非結(jié)構(gòu)化文本的識(shí)別。文獻(xiàn)[11]使用Attention機(jī)制獲得詞在全文范圍的表示解決了化學(xué)領(lǐng)域?qū)嶓w一致性差的問(wèn)題。文獻(xiàn)[12]針對(duì)不規(guī)范文本中數(shù)據(jù)類(lèi)別標(biāo)記不平衡問(wèn)題提出了一種基于遺傳算法的數(shù)據(jù)類(lèi)別標(biāo)記方法,通過(guò)合成類(lèi)別分布均衡的文本擴(kuò)充源數(shù)據(jù)降低了分布不平衡性。
但是民航旅客評(píng)價(jià)規(guī)范性更差,它兼具復(fù)雜實(shí)體較多、數(shù)據(jù)類(lèi)別不平衡這兩大特點(diǎn)。因此本文提出一種融合ECNN 與Attention機(jī)制的模型ECNN-BLSTM-Attention-CRF,通過(guò)ECNN提取文本多范圍的特征信息,并添加Attention機(jī)制增強(qiáng)模型對(duì)于小類(lèi)別實(shí)體的關(guān)注,能有效應(yīng)對(duì)旅客評(píng)價(jià)這一特殊領(lǐng)域文本。
結(jié)合民航業(yè)對(duì)國(guó)內(nèi)民用機(jī)場(chǎng)服務(wù)質(zhì)量的評(píng)價(jià),經(jīng)分析機(jī)場(chǎng)所涉及的旅客服務(wù)主要分為運(yùn)營(yíng)類(lèi)、商業(yè)類(lèi)和其它服務(wù)類(lèi)(綜合服務(wù)類(lèi))3大類(lèi),其中運(yùn)營(yíng)類(lèi)和商業(yè)類(lèi)具體分為5小類(lèi)和3小類(lèi),其業(yè)務(wù)劃分如圖1所示。
圖1 機(jī)場(chǎng)旅客服務(wù)業(yè)務(wù)劃分
民航領(lǐng)域目前沒(méi)有公開(kāi)的標(biāo)準(zhǔn)數(shù)據(jù)集,本文從某點(diǎn)評(píng)類(lèi)網(wǎng)站上獲取旅客評(píng)價(jià)數(shù)據(jù),進(jìn)行了一定的數(shù)據(jù)處理,包括刪減了部分字符和將部分阿拉伯?dāng)?shù)字替換為漢字,展示部分處理后的評(píng)價(jià)數(shù)據(jù)如下。
例:“XX地鐵二號(hào)線終于通到了XX機(jī)場(chǎng),過(guò)來(lái)方便多了,再也不用坐又破又味兒的機(jī)場(chǎng)巴士了。出了地鐵站就是機(jī)場(chǎng)擺渡車(chē)…”
觀察數(shù)據(jù)可以得出旅客評(píng)價(jià)文本有以下特點(diǎn):
(1)存在較多的復(fù)雜實(shí)體。
(2)格式不規(guī)范,口語(yǔ)表達(dá)嚴(yán)重,例如“打的”。
(3)指代表述普遍,例如用“hk”指代香港。
(4)錯(cuò)別字現(xiàn)象普遍,例如“無(wú)限信號(hào)”。
由于旅客評(píng)價(jià)中各類(lèi)別之間的數(shù)據(jù)量相差較大,這會(huì)導(dǎo)致訓(xùn)練集的標(biāo)記類(lèi)別不平衡,同時(shí)小樣本的數(shù)據(jù)有時(shí)候具有更大的價(jià)值。數(shù)據(jù)類(lèi)別不平衡將給模型帶來(lái)較大的影響,導(dǎo)致模型更加關(guān)注大體量類(lèi)別數(shù)據(jù)而對(duì)小體量類(lèi)別數(shù)據(jù)有所忽略。在旅客評(píng)價(jià)數(shù)據(jù)中運(yùn)營(yíng)類(lèi)、商業(yè)類(lèi)等實(shí)體中均存在少數(shù)類(lèi)別實(shí)體,在訓(xùn)練時(shí)會(huì)受到地名這類(lèi)多數(shù)類(lèi)別實(shí)體的影響。同時(shí)非實(shí)體字符與實(shí)體字符的數(shù)據(jù)量也存在較大差異,文獻(xiàn)[13]采用數(shù)據(jù)平衡性指標(biāo)R來(lái)評(píng)估非實(shí)體與實(shí)體標(biāo)記數(shù)量的平衡性,計(jì)算方式如下
(1)
式中:WO表示文本中非實(shí)體字符數(shù),WE表示文本中實(shí)體字符數(shù)。非實(shí)體與實(shí)體的比值即R值越大文本類(lèi)別失衡越嚴(yán)重。對(duì)數(shù)據(jù)集中抽取的一部分?jǐn)?shù)據(jù)進(jìn)行平衡度計(jì)算,如圖2所示,例如都從未添加領(lǐng)域知識(shí)的訓(xùn)練集和測(cè)試集的第三句旅客評(píng)價(jià)開(kāi)始順序抽取100字符,訓(xùn)練集的R值有階段性上升并產(chǎn)生多次的波動(dòng),表明此時(shí)的文本類(lèi)別較為不平衡。
圖2 數(shù)據(jù)平衡與文本字符數(shù)關(guān)系
為了滿足模型的數(shù)據(jù)需求,本文采用半監(jiān)督思想與人工修正結(jié)合的方法擴(kuò)充標(biāo)準(zhǔn)數(shù)據(jù)。為盡可能多地獲取已標(biāo)注數(shù)據(jù),首先由民航從業(yè)者進(jìn)行標(biāo)注,同時(shí)從微博WeiboNER數(shù)據(jù)集中往訓(xùn)練集中補(bǔ)充了部分已標(biāo)注數(shù)據(jù),數(shù)據(jù)增量過(guò)程如下:
(1)input:已標(biāo)注數(shù)據(jù)集合L,未標(biāo)注數(shù)據(jù)集合U,集合H,測(cè)試集Q和基分類(lèi)器。
(2)while總的F1未趨近收斂
(3)將L在基分類(lèi)器上進(jìn)行訓(xùn)練得出模型M,并對(duì)測(cè)試集Q測(cè)試得出總的F1
(4)使用M對(duì)U進(jìn)行預(yù)測(cè)獲得集合H: {wi,tagj} 其中w是字符,tag是該字符的預(yù)測(cè)標(biāo)記
(5)人工修正H中明顯的標(biāo)注錯(cuò)誤
(6)將H加入到L中
(7)output:集合L
上述過(guò)程中每次循環(huán)初:U會(huì)重新添加新的未標(biāo)注數(shù)據(jù),集合H和模型M置空。不同循環(huán)可調(diào)整基分類(lèi)器的模型和參數(shù)。
詞位標(biāo)注采用BIO標(biāo)注法,B表示實(shí)體開(kāi)始,I表示實(shí)體中后部,O表示非實(shí)體部分。本文不只識(shí)別機(jī)場(chǎng)業(yè)務(wù)實(shí)體,同時(shí)識(shí)別了旅客評(píng)價(jià)文本中的人名、地名和組織機(jī)構(gòu)名,標(biāo)注方式的示例如下:
例:“武 B-LOC.NAM漢 I-LOC.NAM地B-TRAN鐵I-TRAIN二 I-TRAN號(hào) I-TRAN線 I-TRAN終 O于 O通 O到 O了 O天 B-LOC.NAM河 I-LOC.NAM機(jī) I-LOC.NAM場(chǎng) I-LOC.NAM…”
本文模型在BLSTM-CRF的基礎(chǔ)上融合了集成卷積網(wǎng)絡(luò)與注意力機(jī)制,整個(gè)模型框架如圖3所示。
圖3 基于ECNN-BLSTM-ATTENTION-CRF的 實(shí)體識(shí)別模型
旅客評(píng)價(jià)文本中常常出現(xiàn)較為復(fù)雜的實(shí)體,例如“廣西壯族自治區(qū)政府”地名與組織機(jī)構(gòu)名嵌套在一起。因此整個(gè)學(xué)習(xí)模型中需要增加識(shí)別局部上下文的能力。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層擁有良好的提取數(shù)據(jù)特征的能力。利用這一特性本文使用集成卷積神經(jīng)網(wǎng)絡(luò)提取文本上下文特征,使用不同窗口大小卷積核的網(wǎng)絡(luò)獲取更加豐富的詞語(yǔ)邊界特征信息,然后將信息集成[14]。
卷積僅在長(zhǎng)方向或者寬方向上進(jìn)行滑窗操作,如式(2)字嵌入矩陣X∈Rn×m首先經(jīng)過(guò)不同窗口大小的卷積操作得到Cw i, 然后通過(guò)式(3)將其集成,提取多范圍的特征信息后形成C={C1,C2,…Cw i}。 使用集成卷積時(shí),設(shè)置多種不同大小的卷積窗口并設(shè)置步長(zhǎng)值,當(dāng)卷積核移動(dòng)到邊緣時(shí)使用padding對(duì)于邊界進(jìn)行擴(kuò)充
Cw i=f(V·X)+b
(2)
C=Cw1⊕Cw2⊕…⊕Cw i
(3)
式中:V為權(quán)值矩陣,X為計(jì)算的字嵌入矩陣,b為偏置,wi是所使用的卷積窗口大小,f為激活函數(shù),本文使用ReLU作為激活函數(shù)將卷積層的輸出結(jié)果進(jìn)行非線性映射。
梯度消失會(huì)阻礙模型學(xué)習(xí)長(zhǎng)依賴(lài)關(guān)系,而LSTM網(wǎng)絡(luò)能夠在給定的時(shí)間步驟中更好控制記憶與遺忘,同時(shí)本文為了充分獲取文本信息,采用了雙向LSTM網(wǎng)絡(luò)的模型。將ECNN網(wǎng)絡(luò)的輸出分別輸入到前向LSTM和后向LSTM中,其計(jì)算流程如下。
(4)
通過(guò)輸入門(mén)it來(lái)產(chǎn)生需要更新的信息,公式如下
(5)
使用tanh函數(shù)生成新的候選值,公式如下
(6)
綜合遺忘門(mén)和輸入門(mén),去掉不用的信息并添加新的信息完成更新過(guò)程,公式如下
(7)
然后通過(guò)sigmoid函數(shù)來(lái)得到單元的初始輸出。公式如下
(8)
(9)
Attention機(jī)制廣泛的用于圖像識(shí)別中,模仿人的注意力行為,例如當(dāng)人在聚精會(huì)神看熒幕時(shí),自然會(huì)忽視周?chē)l(fā)生的事件。旅客評(píng)價(jià)文本中有相當(dāng)一部分實(shí)體分布不均衡,例如出現(xiàn)的人名和安檢類(lèi)實(shí)體,相對(duì)于地名實(shí)體屬于小類(lèi)別實(shí)體,因此需要給學(xué)習(xí)模型添加注意力機(jī)制,使模型注意關(guān)鍵信息而忽略冗余信息,從而讓小類(lèi)別實(shí)體獲得有效的訓(xùn)練。注意力機(jī)制的原理如圖4所示,不同于分心模型,注意力機(jī)制是通過(guò)對(duì)輸入的序列分配不同的權(quán)重,“避輕就重”優(yōu)化資源配置,提高輸出的質(zhì)量。
圖4 注意力機(jī)制
(10)
條件隨機(jī)場(chǎng)[16]是一種無(wú)向圖模型,結(jié)合了最大熵和隱馬爾可夫模型的特點(diǎn),克服了隱馬爾可夫模型獨(dú)立性假設(shè)和最大熵模型的標(biāo)記偏置等缺陷,能獲得全局最優(yōu)解。傳統(tǒng)的softmax以最高概率標(biāo)簽作為結(jié)果,視各標(biāo)簽為獨(dú)立的個(gè)體,實(shí)際上標(biāo)簽之間存在互相的約束關(guān)系。CRF將這種約束關(guān)系也納入考慮,為當(dāng)前解決序列標(biāo)注問(wèn)題的較優(yōu)選擇。最終輸出標(biāo)簽序列由輸出層的輸出yi和轉(zhuǎn)移矩陣T運(yùn)算得出,計(jì)算公式如下
(11)
式中:li表示i時(shí)刻的標(biāo)簽,Tli-1,li表示從li-1標(biāo)簽轉(zhuǎn)移到li標(biāo)簽的概率,最終通過(guò)維特比算法解碼得到預(yù)測(cè)標(biāo)簽。
實(shí)驗(yàn)使用的計(jì)算環(huán)境見(jiàn)表1。
表1 實(shí)驗(yàn)環(huán)境配置
實(shí)驗(yàn)的部分超參數(shù)設(shè)定見(jiàn)表2。
經(jīng)數(shù)據(jù)增量并添加所整理的部分領(lǐng)域知識(shí)后,所構(gòu)造數(shù)據(jù)集中的人名、地名、組織機(jī)構(gòu)和機(jī)場(chǎng)業(yè)務(wù)實(shí)體分布見(jiàn)表3,其中具體人名與指代人名合并統(tǒng)計(jì),地名和組織機(jī)構(gòu)名中的具體與指代同理合并統(tǒng)計(jì),各類(lèi)實(shí)體數(shù)量的統(tǒng)計(jì)以數(shù)據(jù)集中每類(lèi)實(shí)體開(kāi)始標(biāo)志符的數(shù)量為準(zhǔn)。補(bǔ)充到訓(xùn)練集中的WeiboNER數(shù)據(jù)集中特有的實(shí)體類(lèi)別和標(biāo)注不進(jìn)行去除,但不納入實(shí)體數(shù)量分布的統(tǒng)計(jì)。由于本數(shù)據(jù)集除使用部分WeiboNER數(shù)據(jù)集以外,其它部分不是國(guó)際上開(kāi)源數(shù)據(jù)集,因此在構(gòu)造時(shí)規(guī)范性不足,測(cè)試集與訓(xùn)練集部分內(nèi)容重合,按存儲(chǔ)空間大小已標(biāo)注數(shù)據(jù)中約86%的數(shù)據(jù)為訓(xùn)練集,約14%的數(shù)據(jù)為測(cè)試集。
表2 超參數(shù)設(shè)定
表3 機(jī)場(chǎng)業(yè)務(wù)實(shí)體分布
命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)設(shè)定為精確率P、召回率R和綜合精確率和召回率的評(píng)價(jià)指標(biāo)F1值。其計(jì)算方法如式(12)~式(14)所示
(12)
(13)
(14)
實(shí)驗(yàn)參考文獻(xiàn)[17]進(jìn)行設(shè)計(jì),為了評(píng)估本文模型在旅客評(píng)價(jià)數(shù)據(jù)集的上的性能,設(shè)計(jì)了3組實(shí)驗(yàn)8個(gè)模型進(jìn)行分析,包括BLSTM-CRF、CNN-BLSTM-CRF為第一實(shí)驗(yàn)組;本文在代碼實(shí)現(xiàn)時(shí)構(gòu)建了兩種Attention的實(shí)現(xiàn)方式,BLSTM-Attention(12)-CRF、CNN-BLSTM-Attention(12)-CRF、ECNN-BLSTM-Attention(12)-CRF為第二、第三實(shí)驗(yàn)組,第一實(shí)驗(yàn)組使用Word2Vec初始化字向量,第二、第三實(shí)驗(yàn)組隨機(jī)初始化字向量,第三實(shí)驗(yàn)組的Attention_size設(shè)置為200,結(jié)果見(jiàn)表4。
表4中每個(gè)模型達(dá)到表中F1值的epoch數(shù)有所差異。從第一實(shí)驗(yàn)組的結(jié)果看出卷積神經(jīng)網(wǎng)絡(luò)能有效提高模型的識(shí)別性能,對(duì)比不使用卷積的模型在F1值上有1.88%的提升。第二、第三實(shí)驗(yàn)組結(jié)果顯示出注意力機(jī)制的優(yōu)越性,兩種實(shí)現(xiàn)注意力方式的模型F1值優(yōu)劣趨勢(shì)相同,第二實(shí)驗(yàn)組實(shí)現(xiàn)注意力機(jī)制的代碼雖然簡(jiǎn)單,但是需要訓(xùn)練更多的epoch相比于第一實(shí)驗(yàn)組犧牲了收斂速度,第三實(shí)驗(yàn)組的實(shí)現(xiàn)方式收斂速度不會(huì)下降。
表4 不同模型實(shí)驗(yàn)對(duì)比結(jié)果
為驗(yàn)證集成卷積的有效性,以BLSTM-Attention(1)-CRF為基礎(chǔ)添加了不同的卷積,實(shí)驗(yàn)設(shè)置了卷積層中不同的卷積核大小進(jìn)行對(duì)比,CNN3、CNN5、CNN7表示卷積窗口大小為3、5、7,卷積核數(shù)量為256*3,ECNN集成了以上3種窗口大小的卷積核,卷積核數(shù)量為256*3,訓(xùn)練相同的epoch數(shù)展示F1值最優(yōu)的epoch的測(cè)試結(jié)果,見(jiàn)表5。
表5 不同卷積核大小對(duì)比結(jié)果
表5結(jié)果顯示在使用單一窗口大小卷積核時(shí),當(dāng)卷積核大小為7時(shí)F1值為76.74%,當(dāng)3種卷積核集成后F1值提高到77.38%。在ECNN-BLSTM-Attention(1)-CRF模型識(shí)別下,觀察F1值為77.38%的測(cè)試集結(jié)果,部分復(fù)雜的實(shí)體如“廣西壯族自治區(qū)政府”、“少林寺食品專(zhuān)賣(mài)店”能被正確識(shí)別,不同卷積核大小的網(wǎng)絡(luò)可以獲取不同范圍的特征信息,多種卷積核的集成可以獲得豐富的文本信息。
卷積神經(jīng)網(wǎng)絡(luò)池化層的作用是特征降維、壓縮數(shù)據(jù)量和減小過(guò)擬合的作用,文獻(xiàn)[18]表示在一定場(chǎng)景下池化層進(jìn)一步壓縮數(shù)據(jù)量的操作使得部分有價(jià)值的信息喪失。因此本文以ECNN-BLSTM-Attention(1)-CRF模型為基礎(chǔ)使用平均池化、最大池化、無(wú)池化設(shè)置3組對(duì)比實(shí)驗(yàn),訓(xùn)練相同的epoch數(shù)展示F1值最優(yōu)的epoch的測(cè)試結(jié)果見(jiàn)表6。發(fā)現(xiàn)在本對(duì)比實(shí)驗(yàn)下,不使用池化層能得到更好的效果。
表6 不同池化對(duì)比結(jié)果
表7展示了ECNN-BLSTM-Attention(1)-CRF模型識(shí)別下總體F1值達(dá)到77.38%的測(cè)試集機(jī)場(chǎng)業(yè)務(wù)實(shí)體識(shí)別的結(jié)果,其中具體人名與指代人名合并計(jì)算展示,地名和組織機(jī)構(gòu)名中的具體與指代同理合并計(jì)算展示。模型對(duì)于“行李類(lèi)”、“地名”的識(shí)別效果較好,對(duì)于“餐飲類(lèi)”、“酒店類(lèi)”的識(shí)別效果較差,觀察點(diǎn)評(píng)網(wǎng)站的原始數(shù)據(jù)時(shí)發(fā)現(xiàn)旅客用“星爸爸”代表“星巴克”,“酒店類(lèi)”實(shí)體數(shù)量過(guò)少??紤]“綜合服務(wù)”類(lèi)由于涉及的實(shí)體范圍較廣,增加了模型的學(xué)習(xí)難度,識(shí)別效果較差。
表7 不同類(lèi)別實(shí)體識(shí)別結(jié)果
經(jīng)過(guò)數(shù)據(jù)增量過(guò)程與實(shí)驗(yàn)過(guò)程之后,展示兩過(guò)程中的部分標(biāo)注結(jié)果如下:
標(biāo)注正確示例:“川 B-ORG.NAM航 I-ORG.NAM”、“少 B-SHOP林 I-SHOP寺 I-SHOP食 I-SHOP品 I-SHOP專(zhuān) I-SHOP賣(mài) I-SHOP店 I-SHOP”。
標(biāo)注錯(cuò)誤示例:“當(dāng) B-LOC.NOM場(chǎng) I-LOC.NOM”、“無(wú) O限 O信 O號(hào) O”。
從正確示例中看出本文模型能夠在出現(xiàn)縮寫(xiě)和長(zhǎng)實(shí)體的情況下精準(zhǔn)的識(shí)別部分較難實(shí)體。從錯(cuò)誤示例中看出數(shù)據(jù)增量階段所使用的基分類(lèi)器對(duì)于近似的字詞表示的識(shí)別能力較弱,考慮是字符相近“當(dāng)場(chǎng)”被誤識(shí)別為“機(jī)場(chǎng)”給予了通用地名的標(biāo)注。但本文模型依然有不足之處,由于“無(wú)限信號(hào)”中的“限”字是錯(cuò)別字因此被錯(cuò)誤預(yù)測(cè)成了非實(shí)體。
本研究在卷積網(wǎng)絡(luò)提取特征信息的基礎(chǔ)上設(shè)計(jì)了集成卷積并在模型中添加了注意力機(jī)制,模型能有效識(shí)別民航業(yè)務(wù)實(shí)體。但是本研究的不足之處有以下幾點(diǎn),數(shù)據(jù)集構(gòu)建時(shí)部分業(yè)務(wù)劃分不明確,出現(xiàn)了部分實(shí)體未能準(zhǔn)確分類(lèi)和標(biāo)注的前后一致性不同等問(wèn)題,同時(shí)構(gòu)造訓(xùn)練集與測(cè)試集時(shí)有部分內(nèi)容重合造成了一定程度上的測(cè)試集泄露,測(cè)試集中的最后一例文本數(shù)據(jù)及其標(biāo)注未顯示在測(cè)試結(jié)果中,數(shù)據(jù)集的構(gòu)造和實(shí)驗(yàn)中有被標(biāo)注文本、標(biāo)簽數(shù)據(jù)的錯(cuò)標(biāo)、漏標(biāo)現(xiàn)象,補(bǔ)充到訓(xùn)練集中的WeiboNER數(shù)據(jù)中所特有的實(shí)體類(lèi)別在本研究部分測(cè)試結(jié)果中被錯(cuò)誤顯示出。因此未來(lái)需加強(qiáng)數(shù)據(jù)集構(gòu)造和實(shí)驗(yàn)的規(guī)范性并致力加強(qiáng)對(duì)于縮寫(xiě)、指代、歧義實(shí)體的識(shí)別。