王麗亞 陳哲
摘要: 提出一種基于中文BERT-wwm-ext嵌入的BIGRU網(wǎng)絡(luò)模型。利用中文BERT-wwm-ext得到字向量,加強(qiáng)了模型對(duì)深層次語(yǔ)言表征的學(xué)習(xí)能力。將得到的字向量輸入到BIGRU網(wǎng)絡(luò)中,進(jìn)一步學(xué)習(xí)上下文語(yǔ)義特征。將模型預(yù)測(cè)的邊界分?jǐn)?shù)向量利用解碼算法轉(zhuǎn)化成最終的答案。在多組數(shù)據(jù)集上做對(duì)比實(shí)驗(yàn)表明,所提模型能有效地提高中文意見(jiàn)目標(biāo)提取的準(zhǔn)確率。
關(guān)鍵詞: BERT-wwm-ext; BiGRU; 邊界預(yù)測(cè); 中文意見(jiàn)目標(biāo)提取
中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)05-94-05
Chinese opinion target extraction based on BERT_BiGRUboundary prediction
Wang Liya1, Chen Zhe2
(1. College of artificial intelligence,Zhejiang Industry & Trade Vocational College, Wenzhou, Zhejiang 325003, China;
2. College of Computer Science and Engineering, Wuhan Institute of Technology)
Abstract: In this paper, a BIGRU network model based on Chinese BERT-wwm-ext embedding is proposed. First, the word vectors are obtained by using Chinese BERT-wwm-ext, which strengthens the learning ability of the model for deep level language representation. Then, the obtained word vectors are input into the BIGRU network to further learn the context semantic features. Finally, the boundary score vectors predicted by the model are converted into the final answers using the decoding algorithm. The experimental results show that the proposed model can effectively improve the accuracy of Chinese opinion target extraction.
Key words: BERT-wwm-ext; BiGRU; boundary prediction; Chinese opinion target extraction
0 引言
意見(jiàn)目標(biāo)提?。∣TE)[1]是意見(jiàn)挖掘和情感分析的基本任務(wù),是自然語(yǔ)言處理(NLP)領(lǐng)域的研究熱點(diǎn)。意見(jiàn)目標(biāo)提取主要是對(duì)文本中表達(dá)意見(jiàn)的主體進(jìn)行抽取。例如文本“煙臺(tái)最好吃的烤翅尖就在所城里阿宋燒烤。滿墻都是老煙臺(tái)的剪貼畫,招牌菜就是烤翅尖?!笔菍?duì)目標(biāo)“阿宋燒烤”表達(dá)建議。OTE任務(wù)就是對(duì)文本中意見(jiàn)目標(biāo)“阿宋燒烤”的提取。傳統(tǒng)方法將意見(jiàn)目標(biāo)提取建模為序列標(biāo)簽任務(wù)。意見(jiàn)目標(biāo)提取任務(wù)要求從文本中定位出意見(jiàn)表達(dá)的目標(biāo),目標(biāo)片段由文本中的一個(gè)片段組成的情況,因此,本文把該任務(wù)重新建模為邊界預(yù)測(cè)任務(wù),預(yù)測(cè)出文本中兩個(gè)位置索引去指示答案的起始和結(jié)束位置。在抽取過(guò)程中避免了繁瑣的序列標(biāo)記操作。
1 相關(guān)研究
傳統(tǒng)的意見(jiàn)目標(biāo)提取方法可分為三類:基于規(guī)則[2]、基于統(tǒng)計(jì)[3]、基于規(guī)則和統(tǒng)計(jì)相結(jié)合[4]。但是這三種方法具有很強(qiáng)的局限性,過(guò)于依賴人工制定的規(guī)則,過(guò)程復(fù)雜。而基于深度學(xué)習(xí)的方法不再依賴于人工特征,減少了人力代價(jià),提高了工作效率。
Liu等人[5]利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和單詞嵌入來(lái)提取意見(jiàn)目標(biāo)。Poria等人[6]引入深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)并結(jié)合語(yǔ)言模式以實(shí)現(xiàn)更好的性能。Wang等人[7]2016年提出RNCRF模型,由遞歸神經(jīng)網(wǎng)絡(luò)和CRF組成。Li等人[8]2018年提出基于字符的BILSTM-CRF結(jié)合POS和字典用于中文意見(jiàn)目標(biāo)提取。在3組共10萬(wàn)條數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),并與最流行的抽取框架BILSTM_CRF模型比較,證明其方法是最佳的。
但是以上基于深度學(xué)習(xí)的方法將OTE任務(wù)建模為序列標(biāo)記任務(wù),且文本表示利用單詞嵌入或字嵌入,對(duì)語(yǔ)言表征學(xué)習(xí)深度不夠。
Devlin等人[9-10]受神經(jīng)概率語(yǔ)言模型[11]思想的啟發(fā)提出BERT(Bidirectional Encoder Representations from Transformers)模型。BERT刷新了11項(xiàng)NLP任務(wù)的性能記錄??梢灶A(yù)見(jiàn)的是,BERT將為NLP帶來(lái)里程碑式的改變,也是NLP領(lǐng)域近期最重要的進(jìn)展。針對(duì)中文文本,Sun等人[12-13]2019年提出ERNIE模型,是BERT在中文NLP任務(wù)上的改進(jìn)。提出了命名實(shí)體級(jí)遮罩的概念,對(duì)BERT的遮罩語(yǔ)言模型在遮罩方式上進(jìn)行了修改。近期,Cui等人[14]提出BERT-wwm模型,緊跟谷歌在2019年5月31日發(fā)布的一項(xiàng)BERT的升級(jí)版本,利用全詞覆蓋(Whold Word Masking,WWM)技術(shù),更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略,針對(duì)中文文本使用了WWM技術(shù),在中文維基百科(包括簡(jiǎn)體和繁體)進(jìn)行訓(xùn)練。
預(yù)訓(xùn)練語(yǔ)言模型會(huì)直接影響方法的效果。所以本文針對(duì)中文短文本,將OTE任務(wù)重新建模為邊界預(yù)測(cè)任務(wù),使OTE任務(wù)不依賴于序列標(biāo)記。引入中文版BERT對(duì)語(yǔ)言表征進(jìn)行預(yù)訓(xùn)練,加強(qiáng)了模型的語(yǔ)言表征學(xué)習(xí)能力。在此基礎(chǔ)上添加BIGRU網(wǎng)絡(luò),進(jìn)一步學(xué)習(xí)文本的語(yǔ)義特征。最后將模型預(yù)測(cè)的邊界分?jǐn)?shù)向量利用解碼算法轉(zhuǎn)化成最終的答案輸出。實(shí)驗(yàn)使用Li等人[8]相同的數(shù)據(jù)集,在三組共10萬(wàn)條數(shù)據(jù)上實(shí)驗(yàn)結(jié)果表明,針對(duì)本文數(shù)據(jù)集,將OTE任務(wù)重新建模為邊界預(yù)測(cè)任務(wù),BERT_BIGRU邊界預(yù)測(cè)方法在不依賴序列標(biāo)記的基礎(chǔ)上,能有效的提高OTE任務(wù)的準(zhǔn)確度。
2 BERT_BIGRU邊界預(yù)測(cè)
針對(duì)中文短文本將OTE任務(wù)重新建模為邊界預(yù)測(cè)任務(wù)。主要分為三部分:一是BERT預(yù)訓(xùn)練語(yǔ)言模型,二是BIGRU模型,三是邊界預(yù)測(cè)。模型結(jié)構(gòu)如圖1所示。
2.1 BERT預(yù)訓(xùn)練語(yǔ)言模型
BERT模型使用多層Transformer的編碼器來(lái)作為語(yǔ)言模型,在語(yǔ)言模型預(yù)訓(xùn)練的時(shí)候,提出了兩個(gè)新的目標(biāo)任務(wù),即遮擋語(yǔ)言模型(Masked Language Model,MLM)和預(yù)測(cè)下一個(gè)句子的任務(wù)。
本文采用的是哈工大訊飛聯(lián)合發(fā)布的全詞覆蓋中文BERT預(yù)訓(xùn)練模型(BERT-wwm-ext)。此模型也采用了WWM技術(shù),主要更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略,如果一個(gè)完整的詞的部分字被Mask,則同屬該詞的其他部分也會(huì)被Mask,即全詞覆蓋。但較之前的BERT-wwm模型,BERT-wwm-ext模型使用了更大規(guī)模的數(shù)據(jù)中文維基百科數(shù)據(jù)和通用數(shù)據(jù)訓(xùn)練而成,進(jìn)一步提升了預(yù)訓(xùn)練語(yǔ)言模型的性能。WWM的生成樣例如表1所示。
BERT-wwm-ext模型中預(yù)測(cè)下一個(gè)句子的任務(wù),即生成句子嵌入(segmentembedding)。每個(gè)序列的第一個(gè)標(biāo)記始終是一個(gè)特殊的分類標(biāo)記[CLS]。對(duì)應(yīng)于該token的最終隱藏狀態(tài)(Transformer的輸出)被用作分類任務(wù)的聚合序列表示。用特殊標(biāo)記[SEP]將它們分開(kāi)。這樣句子對(duì)被打包成一個(gè)帶有兩標(biāo)記的序列。在每個(gè)標(biāo)記上,添加一個(gè)學(xué)習(xí)嵌入,指示它是否屬于句子A或句子B。
BERT-wwm-ext模型使用12層Transformer編碼器。對(duì)于給定的字,BERT-wwm-ext模型通過(guò)深層Transformer編碼器獲得字嵌入(token embeddings)、句子嵌入(segment embeddings)和位置嵌入(position embeddings),然后將三者相加作為該字的輸入嵌入(input embedding)。具體結(jié)構(gòu)可視化如圖2所示。
2.2 BIGRU網(wǎng)絡(luò)
BERT_BIGRU模型直接使用BERT層的輸出作為BIGRU層的輸入。若記t時(shí)刻正向GRU輸出的隱藏狀態(tài)為[ht],反向GRU輸出的隱藏狀態(tài)為[ht],則BiGRU輸出的隱藏狀態(tài)[ht],具體計(jì)算過(guò)程如下:
[ht=GRU(ht-1,Ut)] ⑴
[ht=GRU(ht-1,Ut)] ⑵
[ht=wtht+vtht-1+bt] ⑶
其中,[wt,vt]是權(quán)值矩陣,GRU:GRU函數(shù),[Ut]:t時(shí)刻的GRU輸入,[bt]:偏置向量。
2.3 邊界預(yù)測(cè)
邊界預(yù)測(cè)模塊對(duì)意見(jiàn)目標(biāo)的邊界進(jìn)行建模。文本通過(guò)BERT_BIGRU網(wǎng)絡(luò)被表示為一個(gè)矩陣[H=h+h]。通過(guò)兩個(gè)全連接層(Dense Layer)得到文本中每個(gè)字的兩個(gè)分?jǐn)?shù)向量,[starti]代表文本的第i個(gè)字作為意見(jiàn)目標(biāo)項(xiàng)起始的概率,[endi]表示文本的第i個(gè)字作為意見(jiàn)目標(biāo)項(xiàng)結(jié)束的概率,start和end通過(guò)相同結(jié)構(gòu)不同參數(shù)計(jì)算得出。本文采用交叉熵?fù)p失函數(shù),用來(lái)評(píng)估當(dāng)前訓(xùn)練得到的邊界概率分布與真實(shí)目標(biāo)邊界分布的差異情況,對(duì)模型進(jìn)行優(yōu)化訓(xùn)練。過(guò)程如下:
[Losss=-1Ni[ysilnstarti+(1-ysi)ln(1-starti)]]? ⑷
[Losse=-1Ni[yeilnendi+(1-yei)ln(1-endi)]]? ⑸
[Loss=Losss+Losse] ? ⑹
其中,[ysi]和[yei]是真實(shí)意見(jiàn)目標(biāo)邊界的指示。
將OTE任務(wù)重新建模為邊界預(yù)測(cè)任務(wù)。由于OTE任務(wù)需要輸出的是具體目標(biāo)實(shí)體片段,而B(niǎo)ERT_BIGRU模型的預(yù)測(cè)結(jié)果是兩個(gè)分?jǐn)?shù)向量,則需要解碼算法將分?jǐn)?shù)向量轉(zhuǎn)化成最終的目標(biāo)實(shí)體輸出。
利用兩個(gè)softmax分別預(yù)測(cè)結(jié)果首尾,選擇概率最大的片段。softmax函數(shù)如下:
[softmaxx=exp(x-max(x))/sum(exp(x-max(x)))] ⑺
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
數(shù)據(jù)[16]來(lái)自百度(baidu)、點(diǎn)評(píng)(dianping)、馬蜂窩(mafengwo)這三個(gè)互聯(lián)網(wǎng)公司,具體數(shù)據(jù)集設(shè)置如表2所示。
3.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)所用評(píng)價(jià)指標(biāo)為Accuracy、Precision、Recall、F1,其值越高,代表模型分類能力越好。定義TP:為模型識(shí)別完全正確的實(shí)體個(gè)數(shù),F(xiàn)P:為模型識(shí)別出的結(jié)果包含正確的實(shí)體,但邊界判定出現(xiàn)錯(cuò)誤的個(gè)數(shù),F(xiàn)N:識(shí)別錯(cuò)誤的個(gè)數(shù)。評(píng)價(jià)指標(biāo)公式如下:
[Accuracy=TP/(TP+FP+FN)]? ⑻
[Precision=TP/(TP+FP)]? ⑼
[Recall=TP/(TP+FN)]? ⑽
[F1=2*(Precision*Recall)/(Precision+Recall)]? ⑾
經(jīng)觀察抽取結(jié)果,本文模型在實(shí)驗(yàn)過(guò)程中不存在抽取為空的情況,在計(jì)算FP時(shí)注意了抽取結(jié)果不存在原句,且容錯(cuò)字符個(gè)數(shù)小于10,為避免指標(biāo)計(jì)算理解差別,這里給出具體的打分代碼算法。見(jiàn)表3。
3.3 實(shí)驗(yàn)結(jié)果與分析
文獻(xiàn)[8]中的工作,已針對(duì)相同數(shù)據(jù)集設(shè)置了多組詳細(xì)的對(duì)比實(shí)驗(yàn),其中包括了最流行的抽取框架BILSTM_CRF模型。并證明其方法是最佳的。所以,本文直接與其對(duì)比。
⑴ BILSTM_CRF[8]:建模為序列標(biāo)記任務(wù)。首先生成字符位置信息特征([CP-POS]@C)并構(gòu)建字典特征(DictFeature),最后將[CP-POS]@C和DictFeature整合到基于Word2vec字符嵌入的BILSTM_CRF模型中。
⑵ BERT:建模為邊界預(yù)測(cè)任務(wù)。與本文唯一差別是神經(jīng)網(wǎng)絡(luò)模型為BERT-wwm-ext模型加普通Dense層。
⑶ BERT_BIGRU:建模為邊界預(yù)測(cè)任務(wù)。本文方法。
為了測(cè)試模型的有效性,在實(shí)驗(yàn)過(guò)程中,所有模型都執(zhí)行相同的數(shù)據(jù)預(yù)處理和分類器。測(cè)試集的實(shí)驗(yàn)結(jié)果如表4所示。
表4顯示了3組模型在測(cè)試集上的對(duì)比結(jié)果。從綜合評(píng)測(cè)指標(biāo)Accuracy、F1上來(lái)看。第一組與第二組的比較可知,對(duì)意見(jiàn)目標(biāo)提取任務(wù)重新建模為邊界預(yù)測(cè)任務(wù)的方法更優(yōu)?;贐ERT邊界預(yù)測(cè)的方法引入BERT-wwm-ext模型進(jìn)行語(yǔ)言表征學(xué)習(xí),再結(jié)合線性網(wǎng)絡(luò)層,得到邊界預(yù)測(cè)的分?jǐn)?shù)向量,最后利用兩個(gè)softmax分別預(yù)測(cè)結(jié)果首尾,選擇概率最大的片段。相對(duì)第一組實(shí)驗(yàn),減少了預(yù)處理部分對(duì)生成字符位置信息特征([CP-POS]@C)和構(gòu)建字典特征(DictFeature)的工作,即很大程度上減少了繁瑣的特征生成工程。
第三組與第二組的比較,三個(gè)數(shù)據(jù)集,BERT_BIGRU模型在點(diǎn)評(píng)數(shù)據(jù)集上稍低,即Accuracy值低0.0007、F1值低0.0004。但在百度、馬蜂窩兩個(gè)數(shù)據(jù)集上均高于BERT模型,所以在一定程度上,添加BIGRU網(wǎng)絡(luò)學(xué)習(xí)文本上下文語(yǔ)義特征有利于提高模型對(duì)文本邊界預(yù)測(cè)的準(zhǔn)確度。綜上,本文提出的BERT_BIGRU模型比其余二組模型更優(yōu)。
為了量化模型的優(yōu)劣,本文在測(cè)試集上進(jìn)行預(yù)測(cè)。預(yù)測(cè)值統(tǒng)計(jì)結(jié)果如表5所示。Right為模型提取完全正確的樣本總數(shù),Wrong為模型提取錯(cuò)誤的樣本總數(shù)。另外,本文實(shí)驗(yàn)結(jié)果及模型最優(yōu)的權(quán)重已分享至谷歌云盤[17]。
4 總結(jié)
本文提出了一種基于BERT_BIGRU邊界預(yù)測(cè)的中文意見(jiàn)目標(biāo)提取方法。將意見(jiàn)目標(biāo)提取任務(wù)建模為邊界預(yù)測(cè)任務(wù),并引入BERT-wwm-ext模型進(jìn)行語(yǔ)言預(yù)訓(xùn)練,且添加BIGRU網(wǎng)絡(luò)學(xué)習(xí)文本上下文語(yǔ)義特征,有利于提高模型對(duì)目標(biāo)實(shí)體邊界預(yù)測(cè)的準(zhǔn)確度。實(shí)驗(yàn)在百度、點(diǎn)評(píng)、馬蜂窩三個(gè)共10萬(wàn)條數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,結(jié)果表明BERT_BIGRU邊界預(yù)測(cè)方法在不依賴數(shù)據(jù)序列標(biāo)記的基礎(chǔ)上,將準(zhǔn)確度提高近8%,能有效地提高中文意見(jiàn)目標(biāo)提取的準(zhǔn)確率,但由于BERT模型的復(fù)雜化,一定程度上增加了模型時(shí)間代價(jià)。今后研究如何提高抽取工作的準(zhǔn)確率且時(shí)間代價(jià)更小的模型,是下一步工作的目標(biāo)。
參考文獻(xiàn)(References):
[1] Kang Liu, Liheng Xu, and Jun Zhao. Opinion target
extraction using word-based translation model. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, EMNLP-CoNLL 2012, July 12-14, 2012, Jeju Island, Korea,2012:1346-1356
[2] Feng Chunsheng, Hao Aimin. Automaric Recognition of
Natural Language Based on Pattern matching[J]. Computer Engineering and Applications,2006,42(19):144-146
[3] Liu Zhiqiang, Du Yuncheng, Shi Shuicai. Extraction of Key
Information in Web News Based on Improved Hidden Markov Model[J].Data Analysis and Knowledge Discovery,2019(3):120-128
[4] Cheng Zhigang. Research on Chinese Named Entity
Recognition Based on Rules and Conditions Random Fields[D]. Central China Normal University,2015
[5] Pengfei Liu, Shafiq R. Joty, and Helen M. Meng. Fine-
grained opinion mining with recurrent neural networks and word embeddings. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015,Lisbon, Portugal, September 17-21,2015:1433-1443
[6] Soujanya Poria, Erik Cambria, and Alexander F. Gelbukh.
Aspect extraction for opinion mining with a deep convolutional neural network. Knowl.-Based Syst.,2016,108:42-49
[7] Wenya Wang, Sinno Jialin Pan, Daniel Dahlmeier, and
Xiaokui Xiao. Recursive neural conditional random fields for aspect-based sentiment analysis.In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA, November 1-4,2016:616-626
[8] Yanzeng Li, Tingwen Liu, Diying Li, et al. Character-
based BiLSTM-CRF Incorporating POS and Dictionaries for Chinese Opinion Target Extraction. Asian Conference on Machine Learning,ACML,2018:518-533
[9] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of
deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805,2018
[10] https://github.com/google-research/bert.
[11] Bengio Y, Ducharme R, Vincent P. A neural probabilistic
language model[J]. Journal of machine learning research,2003,3:1137-1155
[12] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced
Representation through Knowledge Integration[J]. arXiv preprint arXiv:1904.09223,2019
[13] https://github.com/PaddlePaddle/ERNIE.
[14] Yiming Cui, Wanxiang Che, Ting Liu, et al. Pre-Training
with Whole Word Masking for Chinese BERT[J]. arXiv preprint arXiv:1906.08101,2019
[15] https://github.com/ymcui/Chinese-BERT-wwm.
[16] https://github.com/kdsec/chinese-opinion-target-
extraction
[17] https://drive.google.com/drive/folders/1t7jFhO2T_-
UfmBzcXCHU2QLDnRvo4QIj?usp=sharing