亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT—BiLSTM—CRF模型的運(yùn)營(yíng)商文本命名實(shí)體與關(guān)系聯(lián)合提取

        2023-04-29 00:00:00戴勝林周天偉楊國(guó)鋒張國(guó)成
        中國(guó)新通信 2023年7期

        摘要:本文使用大規(guī)模預(yù)訓(xùn)練漢語(yǔ)模型的 BERT-BiLSTM-CRF 方法,從運(yùn)營(yíng)商的非結(jié)構(gòu)化文本數(shù)據(jù)中聯(lián)合提取命名實(shí)體與關(guān)系。首先,通過(guò)運(yùn)營(yíng)商非結(jié)構(gòu)化文本數(shù)據(jù)建立運(yùn)營(yíng)商文本語(yǔ)料庫(kù),對(duì)語(yǔ)料進(jìn)行文本標(biāo)簽標(biāo)注;然后,提出一種基于運(yùn)營(yíng)商文本命名實(shí)體與關(guān)系提取的 BERT-BiLSTM-CRF 模型方法。實(shí)驗(yàn)結(jié)果表明,該技術(shù)在運(yùn)營(yíng)商文本命名實(shí)體與關(guān)系聯(lián)合提取中適用性較強(qiáng),在運(yùn)營(yíng)商文本的命名實(shí)體與關(guān)系聯(lián)合提取中,F(xiàn)1 值高達(dá) 93.2%,可以將該方法應(yīng)用到實(shí)際問(wèn)題解決中。

        關(guān)鍵詞:BERT;BiLSTM;CRF;實(shí)體識(shí)別;詞嵌入

        一、引言

        隨著信息化發(fā)展和數(shù)據(jù)積累,電信運(yùn)營(yíng)商擁有數(shù)量巨大的用戶,沉淀了海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),作為非結(jié)構(gòu)化的對(duì)話文本是運(yùn)營(yíng)商辦理客戶業(yè)務(wù)和處理客戶問(wèn)題的重要數(shù)據(jù)資源。運(yùn)營(yíng)商非結(jié)構(gòu)化的對(duì)話文本數(shù)據(jù)具有非結(jié)構(gòu)化、口語(yǔ)化、業(yè)務(wù)性強(qiáng)等特點(diǎn),對(duì)該數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和實(shí)體與關(guān)系的抽取可以有效利用其中包含的語(yǔ)義信息,推動(dòng)運(yùn)營(yíng)商智能化發(fā)展。

        實(shí)體和關(guān)系抽取研究如何自由文本中抽取所需命名實(shí)體和關(guān)系的技術(shù),但中文自然語(yǔ)言具有表達(dá)的靈活性,運(yùn)營(yíng)商文本信息具有專(zhuān)業(yè)性的特點(diǎn),進(jìn)行運(yùn)營(yíng)商的文本信息提取是當(dāng)前研究的難點(diǎn)問(wèn)題,探索相關(guān)有效的信息提取方法具有重要價(jià)值。

        二、相關(guān)工作

        對(duì)運(yùn)營(yíng)商領(lǐng)域知識(shí)提取的方法研究主要涉及兩個(gè)方面:①運(yùn)營(yíng)商非結(jié)構(gòu)化中文語(yǔ)料庫(kù)構(gòu)建與運(yùn)營(yíng)商領(lǐng)域文本詞嵌入技術(shù);②運(yùn)營(yíng)商命名實(shí)體識(shí)別與關(guān)系提取技術(shù)。

        (一)中文運(yùn)營(yíng)商語(yǔ)料庫(kù)與詞嵌入技術(shù)

        詞向量是一種表示自然語(yǔ)言中詞的方法,把每個(gè)詞都表示為一個(gè)N維空間內(nèi)的點(diǎn),即一個(gè)高維空間內(nèi)的向量。通過(guò)這種做法,把自然語(yǔ)言計(jì)算轉(zhuǎn)換為向量計(jì)算。詞嵌入技術(shù)(Word Embeddings)是一種將文本中的每個(gè)字符、詞、句封裝為向量表達(dá)式的技術(shù),是機(jī)器學(xué)習(xí)算法執(zhí)行自然語(yǔ)言處理的基礎(chǔ)。然而,在運(yùn)營(yíng)商領(lǐng)域的中文語(yǔ)料庫(kù)和詞嵌入技術(shù)研究較少,缺乏運(yùn)營(yíng)商領(lǐng)域詞嵌入技術(shù),故使用通用的中文詞嵌入技術(shù)作為替代方案,如Word2Vec、BERT等。尤其是BERT作為一個(gè)Word2Vec的替代者,其在NLP的11個(gè)領(lǐng)域相較于其他模型方法預(yù)測(cè)精度有較大提升且效果很好。本方法包含研究BERT模型詞嵌入技術(shù)在運(yùn)營(yíng)商命名實(shí)體與關(guān)系提取中的應(yīng)用。

        (二)運(yùn)營(yíng)商命名實(shí)體識(shí)別與關(guān)系提取

        運(yùn)營(yíng)商領(lǐng)域文本命名實(shí)體與關(guān)系提取從最早期開(kāi)始,主要有依賴(lài)專(zhuān)家的詞典與規(guī)則的方法,對(duì)于繁雜的非結(jié)構(gòu)化文本的效果較差;隨后是基于統(tǒng)計(jì)的方法,提取效果有一定提升但并非很理想。

        在非結(jié)構(gòu)化的運(yùn)營(yíng)商中文語(yǔ)料研究方面,學(xué)者們開(kāi)展了基于專(zhuān)家詞庫(kù)與規(guī)則的運(yùn)營(yíng)商知識(shí)提??;學(xué)者們開(kāi)展傳統(tǒng)的統(tǒng)計(jì)方法應(yīng)用于運(yùn)營(yíng)商命名實(shí)體和關(guān)系的提取主要有條件隨機(jī)場(chǎng)模型(CRF)。運(yùn)營(yíng)商領(lǐng)域命名實(shí)體提取應(yīng)用CRF模型提取實(shí)體的F1值達(dá)到72.55%的識(shí)別結(jié)果。隨著人工智能技術(shù)的進(jìn)步,使用深度學(xué)習(xí)方法提取文本語(yǔ)義信息逐漸成為一種趨勢(shì),如LSTM、BiLSTM—CRF、BiGRU—CRF模型等。BiLSTM—CRF模型對(duì)運(yùn)營(yíng)商命名實(shí)體識(shí)別結(jié)果取得了90.04%的F1值。BiGRU—CRF模型對(duì)運(yùn)營(yíng)商命名實(shí)體識(shí)別也取得了F1值90.19的識(shí)別結(jié)果。

        在電信運(yùn)營(yíng)商文本命名實(shí)體識(shí)別領(lǐng)域,應(yīng)用深度學(xué)習(xí)框架進(jìn)行實(shí)體提取獲得了較好的效果,但目前關(guān)于聯(lián)合提取運(yùn)營(yíng)商命名實(shí)體與關(guān)系研究的工作較少。

        三、數(shù)據(jù)來(lái)源及語(yǔ)料標(biāo)注

        本次話術(shù)文本所涉及的實(shí)體涵蓋了業(yè)務(wù)類(lèi)、動(dòng)作類(lèi)和問(wèn)題類(lèi)三大類(lèi)別。話術(shù)文本語(yǔ)料是通過(guò)“BIO+命名實(shí)體”的方法進(jìn)行實(shí)體標(biāo)注的。其中,B代表實(shí)體的頭部;I代表實(shí)體的中間部分或尾部;O代表非實(shí)體部分。由于話術(shù)文本多為圍繞某種營(yíng)銷(xiāo)場(chǎng)景展開(kāi),本次話術(shù)文本語(yǔ)料中的實(shí)體關(guān)系采用“BIO+關(guān)系”的標(biāo)注方式。通過(guò)這種方式可以實(shí)現(xiàn)實(shí)體與關(guān)系聯(lián)合提取任務(wù)向序列標(biāo)注任務(wù)轉(zhuǎn)換。如表1所示。根據(jù)BIO方式對(duì)編碼后的文本進(jìn)行標(biāo)注,B代表流程動(dòng)作開(kāi)始部分,I代表流程動(dòng)作結(jié)束部分,O代表流程動(dòng)作部分。如:流程動(dòng)作“不能微信”標(biāo)注為繳費(fèi)環(huán)節(jié)異常。

        最終選取了5個(gè)場(chǎng)景對(duì)話文本進(jìn)行實(shí)體與關(guān)系的標(biāo)注工作。使用BIO標(biāo)注方法標(biāo)注文本語(yǔ)料3000個(gè)句子。標(biāo)注的運(yùn)營(yíng)商語(yǔ)料按照8 :1:1的比例隨機(jī)劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。

        四、基于BERT-BiLSTM-CR模型的運(yùn)營(yíng)商命名實(shí)體與關(guān)系提取

        本文是通過(guò)BERT-BiLSTM-CRF模型對(duì)運(yùn)營(yíng)商文本數(shù)據(jù)進(jìn)行數(shù)據(jù)建模,完成運(yùn)營(yíng)商話術(shù)文本中實(shí)體提取和關(guān)系抽取。構(gòu)建模型以BERT的詞嵌入層(BERT-Embedding Layer)構(gòu)建字向量,通過(guò)對(duì)掩蓋信息預(yù)測(cè)學(xué)習(xí)文本上下文的語(yǔ)義變化表示;使用雙向長(zhǎng)短期記憶模型(BiLSTM Layer)處理上下文信息,進(jìn)行文本的文本提??;最后使用條件隨機(jī)場(chǎng)模型(CRF Layer)進(jìn)行標(biāo)簽的預(yù)測(cè)?;谶\(yùn)營(yíng)商大規(guī)模語(yǔ)料對(duì)預(yù)訓(xùn)練語(yǔ)言模型BERT進(jìn)行訓(xùn)練,首先導(dǎo)入BERT字典處理話術(shù)文本,轉(zhuǎn)換為字符編碼,然后利用BERT模型訓(xùn)練字向量、詞嵌入表示、特征標(biāo)志和位編碼信息進(jìn)行輸出。BERT模型主要是通過(guò)學(xué)習(xí)輸入的話術(shù)文本的字符級(jí)概率分布來(lái)學(xué)習(xí)命名實(shí)體與關(guān)系標(biāo)簽之間的規(guī)律特征。BiLSTM是由多層循環(huán)神經(jīng)網(wǎng)絡(luò)堆疊而成的,通過(guò)雙向傳播同時(shí)處理上下文的信息提取到文本中的特征,添加CRF層作為模型的最后輸出。條件隨機(jī)場(chǎng)CRF模型通過(guò)轉(zhuǎn)移概率評(píng)分的模式學(xué)習(xí)標(biāo)簽之間的聯(lián)系,建立相鄰命名實(shí)體和關(guān)系標(biāo)簽之間的轉(zhuǎn)移規(guī)則,提高模型預(yù)測(cè)結(jié)果的準(zhǔn)確性,如“B—不能微信”為動(dòng)作實(shí)體的開(kāi)頭部分,一般后面會(huì)接上“I—不能微信”。句子的頭部應(yīng)為“B—”或“O—”標(biāo)簽,“I—”標(biāo)簽只能作為句子的干部或者尾部,通過(guò)標(biāo)簽轉(zhuǎn)移規(guī)則的學(xué)習(xí)實(shí)現(xiàn)最終的實(shí)體與關(guān)系預(yù)測(cè)。根據(jù)對(duì)語(yǔ)料的整體長(zhǎng)度分析,BETRT模型的輸入文本最大長(zhǎng)度設(shè)定為256;BiLSTM模型隱藏層層數(shù)設(shè)置為128;詞向量維度設(shè)置為512。

        五、實(shí)驗(yàn)與分析

        (一)實(shí)驗(yàn)設(shè)計(jì)

        本文采用“BIO+實(shí)體與關(guān)系”的方法對(duì)運(yùn)營(yíng)商大規(guī)模話術(shù)文本語(yǔ)料數(shù)據(jù)標(biāo)注,其中B作為標(biāo)注的實(shí)體開(kāi)頭部分,I代表實(shí)體的中間部分,O表示非實(shí)體部分。實(shí)現(xiàn)了提取任務(wù)到序列標(biāo)注任務(wù)的轉(zhuǎn)換。

        本文采用F1值判斷模型的預(yù)測(cè)性能,同時(shí)也計(jì)算分析了召回率R和精確率P的具體值,具體計(jì)算如下:

        P=Correct / Predict×100%

        R=Correct / Gold×100% (1)

        F1=2PR / (P+R)×100%

        其中,Correct表示模型預(yù)測(cè)正確的實(shí)體與關(guān)系數(shù)量,Predict表示實(shí)體與關(guān)系總數(shù)量,Gold表示模型識(shí)別到的實(shí)體與關(guān)系總數(shù)量。P表示模型精準(zhǔn)率,R表示模型召回率,F(xiàn)1值表示模型預(yù)測(cè)的性能指標(biāo)。

        (二)實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)采用Linux操作系統(tǒng),基于Pytorch平臺(tái)搭建訓(xùn)練,訓(xùn)練環(huán)境如表2所示。

        (三)實(shí)驗(yàn)結(jié)果

        為驗(yàn)證模型有效可行,首先基于BERT模型進(jìn)行微調(diào)實(shí)驗(yàn)。選取BERT-fine-tuning模型第11個(gè)epoch時(shí)取得最優(yōu)F1值進(jìn)行可視化展示。

        為了驗(yàn)證BERT-BiLSTM-CRF模型在運(yùn)營(yíng)商數(shù)據(jù)集上的優(yōu)勢(shì),該實(shí)驗(yàn)對(duì)比分析了CRF模型、LSTM模型、BiLSTM-CRF模型的F1值,結(jié)果顯示BERT-BiLSTM-CRF模型有較為明顯的優(yōu)勢(shì)。

        通過(guò)對(duì)比不同神經(jīng)網(wǎng)絡(luò)模型的F1值顯示,本文采用的BERT-BiLSTM-CRF模型比傳統(tǒng)CRF模型提高了5.6%,LSTM和BiLSTM-CRF模型也比CRF模型有一定的改進(jìn),說(shuō)明神經(jīng)網(wǎng)絡(luò)在文本特征提取方面發(fā)揮了重要作用。BiLSTM模型對(duì)LSTM進(jìn)行雙向訓(xùn)練,雙向網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地學(xué)習(xí)文本特征,捕捉更多的序列信息。從模型的預(yù)測(cè)效果看出,F(xiàn)1對(duì)比提升了2.2%,說(shuō)明使用雙向訓(xùn)練效果更佳。從BERT-BiLSTM-CRF模型和BiLSTM模型的實(shí)驗(yàn)結(jié)果對(duì)比發(fā)現(xiàn),F(xiàn)1值提升了1.7%,由于BERT使用中文動(dòng)態(tài)預(yù)訓(xùn)練模型,更充分地提取字符級(jí)、詞級(jí)和句子級(jí)的文本特征,使得模型的精度更高,預(yù)訓(xùn)練的詞向量能更好地表達(dá)語(yǔ)義信息,獲得更好的預(yù)測(cè)效果,提高模型預(yù)測(cè)性能。

        六、結(jié)束語(yǔ)

        針對(duì)運(yùn)營(yíng)商文本實(shí)體和關(guān)系提取任務(wù),本文基于預(yù)訓(xùn)練語(yǔ)言模型(BERT)訓(xùn)練大量的運(yùn)營(yíng)商文本數(shù)據(jù),從中獲取文本詞向量,作為神經(jīng)網(wǎng)絡(luò)模型(BiLSTM-CRF)的輸入,從而構(gòu)建BERT—BiLSTM—CRF模型進(jìn)行運(yùn)營(yíng)商非結(jié)構(gòu)化文本實(shí)體和關(guān)系的提取訓(xùn)練與預(yù)測(cè)。對(duì)比CRF、LSTM和BiLSTM-CRF,本文BERT—BiLSTM—CRF模型在模型性能評(píng)估指標(biāo)上有較大的優(yōu)勢(shì)。其中的BERT模型是基于大量的運(yùn)營(yíng)商數(shù)據(jù)訓(xùn)練的,可以學(xué)習(xí)到上下文語(yǔ)境,通過(guò)學(xué)習(xí)文本詞語(yǔ)、句法結(jié)構(gòu)等文本特征實(shí)現(xiàn)上下文語(yǔ)義理解,另外,BiLSTM對(duì)詞向量做進(jìn)一步預(yù)處理,再引入CRF強(qiáng)大的實(shí)體識(shí)別能力,使得該模型相較于其他模型在運(yùn)營(yíng)商文本實(shí)體和關(guān)系提取領(lǐng)域取得更好的效果。

        作者單位:戴勝林 周天偉 楊國(guó)鋒 張國(guó)成 中國(guó)電信安徽分公司省智慧營(yíng)銷(xiāo)和業(yè)務(wù)管理中心

        參" 考" 文" 獻(xiàn)

        [1]屈倩倩, 闞紅星. 基于Bert-BiLSTM-CRF的中醫(yī)文本命名實(shí)體識(shí)別[J]. 電子設(shè)計(jì)工程, 2021, 29(19):40-43,48.

        [2]李長(zhǎng)遠(yuǎn). 面向運(yùn)營(yíng)商資費(fèi)知識(shí)圖譜的信息抽取技術(shù)研究與應(yīng)用[D]. 北京郵電大學(xué), 2019.

        [3]李佳媛, 劉曉蒙, 羅思明. 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法:,CN112836501A[P]. 2021.

        [4] Yu J ," Sun J ," Dong Y , et al. Entity recognition model of power safety regulations knowledge graph based on BERT-BiLSTM-CRF[C]// 2021 IEEE International Conference on Power Electronics, Computer Applications (ICPECA). IEEE, 2021.

        亚洲丰满熟女乱一区二区三区 | 色先锋资源久久综合5566| 久久这里都是精品一区| 国产精品女同二区五区九区 | 亚洲一区二区三区码精品色| 日韩精品成人区中文字幕| 精品国产一区av天美传媒| 中文毛片无遮挡高潮| 午夜黄色一区二区不卡| 亚洲人不卡另类日韩精品| 久久www免费人成—看片| 国产高清无码91| 少妇一级内射精品免费| 国产免费av手机在线观看片| 西西人体444www大胆无码视频| 91天堂素人精品系列全集亚洲| 亚洲无av高清一区不卡| 精品人妻系列无码人妻漫画| 国产天美传媒性色av| 久久久久久99精品| 中文字幕文字幕视频在线| 亚洲成a人v欧美综合天堂| 日韩精品无码一区二区中文字幕 | 亚洲一区二区一区二区免费视频| 大桥未久av一区二区三区| 亚洲伊人成综合网| 国产精品av在线一区二区三区 | 无码AV午夜福利一区| 亚洲av产在线精品亚洲第三站| 品色堂永远免费| 国产美女白浆| 国产特黄1区2区3区4区| 精品欧美一区二区三区久久久 | 99无码精品二区在线视频| 久久99精品国产99久久| 亚洲成片在线看一区二区| 亚洲中文字幕在线一区| 国产人妻久久精品二区三区特黄| 免费国产一级片内射老| 你懂的视频网站亚洲视频 | 免费一级国产大片|