李童
摘要:為了實(shí)現(xiàn)橋梁檢測(cè)領(lǐng)域文本命名實(shí)體的有效識(shí)別,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,首先利用卷積神經(jīng)網(wǎng)絡(luò)中的卷積層可以有效的描述數(shù)據(jù)的局部特征,再用BiLSTM-CRF深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行命名實(shí)體標(biāo)注。實(shí)驗(yàn)結(jié)果表明與主流BiLSTM-CRF模型相比較,CNN-BiLSTM-CRF模型在各項(xiàng)指標(biāo)上都有一定的提升效果。
關(guān)鍵詞:命名體識(shí)別;LSTM;CRF
中圖分類號(hào):TP391.1;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)01-0235-02
0 引言
隨著交通基礎(chǔ)設(shè)施建設(shè)的快速發(fā)展,中國(guó)正在逐步從橋梁大國(guó)發(fā)展為橋梁強(qiáng)國(guó)。如何對(duì)橋梁運(yùn)營(yíng)期的服役狀況進(jìn)行全面監(jiān)管,保障橋梁的安全可靠性,及時(shí)發(fā)現(xiàn)重要結(jié)構(gòu)病害,實(shí)施科學(xué)合理的維修加固等管理養(yǎng)護(hù)措施,一直是橋梁領(lǐng)域關(guān)注的重點(diǎn),也是未來的發(fā)展方向[1]。
橋梁的定期檢查,會(huì)記錄橋梁的狀態(tài),包括結(jié)構(gòu)外觀病害觀測(cè)、材料性能劣化、重要構(gòu)件變形等,評(píng)定其技術(shù)狀況等級(jí),并提出后續(xù)養(yǎng)護(hù)維修建議,定期檢查已成為我國(guó)公路橋梁運(yùn)營(yíng)期業(yè)務(wù)體系中最重要的工作內(nèi)容之一[2]。定期橋檢報(bào)告中包含了大量的結(jié)構(gòu)和病害等細(xì)粒度信息,挖掘分析結(jié)構(gòu)病害成因和結(jié)構(gòu)狀態(tài)演化趨勢(shì),采取相應(yīng)的維護(hù)措施,能夠有效的保證橋梁的安全性,也是人工智能時(shí)代土木基礎(chǔ)設(shè)施管理創(chuàng)新發(fā)展的重要趨勢(shì)。
命名實(shí)體作為文本信息抽取、知識(shí)圖譜構(gòu)建等任務(wù)的基礎(chǔ)性工作之一,在自然語言處理、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等研究方向得到了廣泛關(guān)注和長(zhǎng)足發(fā)展[3]。橋梁命名實(shí)體識(shí)別目的是從橋梁檢測(cè)報(bào)告中抽取橋梁的構(gòu)件信息、病害信息和病害的位置信息,命名實(shí)體的識(shí)別是橋梁領(lǐng)域各項(xiàng)自然語言處理的基礎(chǔ)任務(wù)。對(duì)橋梁命名實(shí)體的有效識(shí)別能夠加快橋梁領(lǐng)域知識(shí)圖譜的構(gòu)架,為構(gòu)件與病害信息的關(guān)聯(lián)、推理等工作進(jìn)行支持,對(duì)橋梁管理與養(yǎng)護(hù)工作具有重要的意義。
本文采用目前主流的深度神經(jīng)網(wǎng)絡(luò)方法進(jìn)行命名體的識(shí)別。主要工作內(nèi)容:(1)實(shí)現(xiàn)了對(duì)構(gòu)件信息,病害信息等領(lǐng)域?qū)嶓w的識(shí)別。(2)采用CNN-BiLSTM-CRF模型為訓(xùn)練模型。(3)使用字符級(jí)向量輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
1 相關(guān)工作
命名實(shí)體識(shí)別任務(wù)過去主要采用基于機(jī)器學(xué)習(xí)的方法和基于規(guī)則的方法。特征工程的質(zhì)量嚴(yán)重影響這些方法的效果,特征工程的選擇需要大量的人工來進(jìn)行,還學(xué)要特定領(lǐng)域的知識(shí),為了避免因?yàn)樘卣鞴こ逃绊憣?shí)體識(shí)別的精度,目前大多數(shù)研究都采用基于深度學(xué)習(xí)的方法,深度神經(jīng)網(wǎng)絡(luò)是一個(gè)用于挖掘潛在有用特征的多層神經(jīng)網(wǎng)絡(luò),通過神經(jīng)網(wǎng)絡(luò)自動(dòng)抽取數(shù)據(jù)的特征,實(shí)現(xiàn)了端到端的訓(xùn)練。張海楠等[4]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的字詞聯(lián)合方法,將字向量和詞向量進(jìn)行有效互補(bǔ),提高了命名實(shí)體的識(shí)別性能。也有越來越多的學(xué)者開始關(guān)注少數(shù)民族語言的發(fā)展,王路路等[5]利用BiLSTM-CRF模型來識(shí)別維吾爾問命名實(shí)體的識(shí)別,也取得了較好效果。
2 模型介紹
2.1 CNN模型
卷積神經(jīng)網(wǎng)絡(luò)中的卷積層能夠很好地描述數(shù)據(jù)的局部特征,令卷積核列數(shù)與詞向量列數(shù)保持一致,每次卷積都相當(dāng)于卷積了一整行,保證了詞向量的完整性。再通過池化層可以進(jìn)一步提取出局部特征中最具有代表性的部分。由CNN的輸出結(jié)果將作為BiLSTM的輸入。
2.2 LSTM神經(jīng)網(wǎng)絡(luò)
LSTM神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM在RNN的基礎(chǔ)上加入了門機(jī)制來解決循環(huán)神經(jīng)網(wǎng)絡(luò)模型因?yàn)殚L(zhǎng)序列而產(chǎn)生梯度爆炸的問題,能夠處理較長(zhǎng)的語句信息問題,所以該模型在解決長(zhǎng)序列標(biāo)注問題上有一定的優(yōu)勢(shì)。通過加入門和細(xì)胞狀態(tài)來控制傳遞給記憶單元的輸入比例,在解決梯度爆炸問題的同時(shí)也解決了學(xué)習(xí)長(zhǎng)期依賴信息。
為了充分利用上下文信息,本文將采用BiLSTM模型。BiLSTM在LSTM的基礎(chǔ)上增加了反向傳播層,可以將信息序列從正反兩個(gè)方向輸入模型,然后由隱含層保存兩個(gè)方向的信息序列。
2.3 CRF
在BiLSTM網(wǎng)絡(luò)層之后接一個(gè)線形層,CRF層將BiLSTM層的輸出作為輸入,根據(jù)序列得分選擇全局最優(yōu)的標(biāo)簽序列。在CRF層可以可以對(duì)最終預(yù)測(cè)的預(yù)測(cè)標(biāo)簽添加一些限制來確保結(jié)果是有效的。
整個(gè)序列的打分等于各個(gè)位置的打分之和,而各個(gè)位置的打分由得分矩陣和轉(zhuǎn)移矩陣組成。模型訓(xùn)練時(shí)通過最大化得分函數(shù),即可求得文本的最佳得分序列。
3 實(shí)驗(yàn)
3.1 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)結(jié)果采用識(shí)別準(zhǔn)確率(P)、召回率(R)和調(diào)和平均F1值作為評(píng)價(jià)指標(biāo)。P是指正確實(shí)體在實(shí)體總數(shù)的百分比,R是指正確識(shí)別的實(shí)體棧測(cè)試集所有實(shí)體的百分比,F(xiàn)1是P和R的調(diào)和平均值,綜合考慮模型的性能。
3.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)所用的環(huán)境及參數(shù)設(shè)置如下,實(shí)驗(yàn)主機(jī)采用8核16G內(nèi)存的臺(tái)式機(jī),顯卡型號(hào)為RTX 2060S,python版本為3.6.5,Tensorflow版本為1.12.0,數(shù)據(jù)樣本最大長(zhǎng)度為100,學(xué)習(xí)率為0.01,迭代次數(shù)為100,遺忘率為0.1。
3.3 實(shí)驗(yàn)結(jié)果與分析
CNN-BiLSTM-CRF模型在自建語料上進(jìn)行命名體識(shí)別,為了驗(yàn)證基于神經(jīng)網(wǎng)絡(luò)的命名體識(shí)別方法的有效性使用了多種網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。
時(shí)間序列模型是基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)體識(shí)別的主要模型,如BiLSTM-CRF模型,雙向LSTM模型可以從正反兩個(gè)方向建模,BiLSTM-CRF模型的精確率為90.38%,召回率為85.16%,F(xiàn)值為87.69。因?yàn)镃NN模塊的卷積層能夠提取字符的上下文局部特征,為BiLSTM模型的輸入提供了有效的特征,使得準(zhǔn)確率得到了有效的提升,CNN-BiLSTM-CRF模型精確率為90.94%,召回率為88.08%,F(xiàn)值為89.49%,與BiLSTM-CRF模型相比效果確實(shí)有一定的提升。
4 總結(jié)與展望
本文針對(duì)橋梁檢測(cè)文本的命名體識(shí)別任務(wù),提出了CNN-BiLSTM-CRF模型在橋梁檢測(cè)報(bào)告語料上取得了最好效果。該模型通過CNN網(wǎng)絡(luò)來對(duì)文本的局部信息特征進(jìn)行抽象化抽取和表示,使得模型在精確率和召回率上都有一定的提升,說明CNN確實(shí)能夠更有效的提取文本的上下文局部特征。
在未來的研究工作中,我們將繼續(xù)研究基于深度神經(jīng)網(wǎng)絡(luò)的橋梁領(lǐng)域命名體識(shí)別工作,收集更多種類,更多數(shù)量的橋梁文本進(jìn)行字向量和詞向量的訓(xùn)練,進(jìn)一步將字詞結(jié)合等特征表示機(jī)制運(yùn)用到相應(yīng)的模型中。
參考文獻(xiàn)
[1] 鮑躍全,李惠.人工智能時(shí)代的土木工程[J].土木工程學(xué)報(bào),2019,52(05):1-11.
[2] 賀拴海,趙祥模,馬建,等.公路橋梁檢測(cè)及評(píng)價(jià)技術(shù)綜述[J].中國(guó)公路學(xué)報(bào),2017,30(11):63-80.
[3] 侯夢(mèng)薇,衛(wèi)榮,陸亮,等.知識(shí)圖譜研究綜述及其在醫(yī)療領(lǐng)域的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2018,55(12):2587-2599.
[4] 張海楠,伍大勇,劉悅,等.基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J].中文信息學(xué)報(bào),2017,31(04):28-35.
[5] 王路路,艾山·吾買爾,吐爾根·依布拉音,等.基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實(shí)體識(shí)別研究[J].中文信息學(xué)報(bào),2019,33(03):64-70.