亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多維度特征融合的中文命名實(shí)體識(shí)別系統(tǒng)

        2021-01-29 01:48:58
        關(guān)鍵詞:多維度特征模型

        牛 迪

        (浙江大學(xué) 經(jīng)濟(jì)學(xué)院,浙江 杭州 310027)

        命名實(shí)體識(shí)別(Named entity recognition,NER)是自然語言處理的一項(xiàng)基礎(chǔ)任務(wù),被廣泛用于信息抽取[1,2]、信息檢索、情感分析[3]、問答系統(tǒng)等業(yè)務(wù)應(yīng)用中。尤其是在金融科技中,NER能夠用于識(shí)別公司名稱、公司簡(jiǎn)稱、證券代碼、高管人名、上市日期、交易金額等等,這些識(shí)別出的命名實(shí)體信息又能進(jìn)一步的應(yīng)用于下游業(yè)務(wù),如信息披露、監(jiān)管、審計(jì)等等。

        傳統(tǒng)的命名實(shí)體識(shí)別的方法有兩種,一是規(guī)則匹配,通過人工創(chuàng)建的規(guī)則模版和詞典來識(shí)別文本中的命名實(shí)體。另一種方法是采用統(tǒng)計(jì)機(jī)器學(xué)習(xí),先依據(jù)人工經(jīng)驗(yàn)總結(jié)命名實(shí)體的各種特征,如詞形、字符大小寫、字符前后綴、關(guān)鍵詞、人名姓氏等等,構(gòu)建特征工程,再采用隱馬爾可夫模型(Hidden Markov model,HMM)、最大熵馬爾可夫模型(Maximum entropy Markov model,MEMM)、條件隨機(jī)場(chǎng)(Conditional random field,CRF)等機(jī)器學(xué)習(xí)模型[4-7]從標(biāo)注語料中學(xué)習(xí)出統(tǒng)計(jì)規(guī)律。比如,在文獻(xiàn)[5]中,Chieu和Ng從語料中歸納出17個(gè)特征組,如詞的區(qū)域(Zone)特征組、詞的區(qū)域與大小寫(Case and zone)特征組、詞信息(Token information)特征組、詞典(Dictionaries)特征組、前后綴(Suffixes and prefixes)特征組等。每個(gè)特征組有多個(gè)特征項(xiàng),以詞信息特征組為例,該特征組下有10個(gè)特征項(xiàng),如InitCapPeriod、OneCap、AllCapsPeriod等。隨后將這些特征與最大熵模型相結(jié)合,從標(biāo)注數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)規(guī)律。

        深度學(xué)習(xí)興起后,學(xué)術(shù)界開始采用端到端的深度學(xué)習(xí)模型[8-10],如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short term memory,LSTM)來嘗試解決命名實(shí)體識(shí)別的問題,常見的模型結(jié)構(gòu)有LSTM-CRF,CNN-CRF等?;舅悸肥窍壤脀ord2vec的方法,從原始語料中訓(xùn)練獲得詞向量(Word embedding),然后將句子中每個(gè)詞的詞向量作為L(zhǎng)STM或雙向LSTM(Bidirectional long short term memory,Bi-LSTM)的輸入特征,通過神經(jīng)網(wǎng)絡(luò)的多層網(wǎng)絡(luò)結(jié)構(gòu)來自動(dòng)構(gòu)建特征集合,最后通過CRF模型來實(shí)現(xiàn)序列標(biāo)注。相比上述傳統(tǒng)機(jī)器學(xué)習(xí)的方法,深度學(xué)習(xí)模型能夠不需要人工構(gòu)建特征。Lample等[10]驗(yàn)證了單純依靠詞向量作為輸入特征,Bi-LSTM+CRF就可以獲得更好的NER預(yù)測(cè)結(jié)果。但是為了提高命名實(shí)體識(shí)別的準(zhǔn)確率,隨后的深度學(xué)習(xí)模型開始嘗試融入字詞的特征[9-15],實(shí)驗(yàn)效果也證明了這種策略的有效性。

        本文從兩個(gè)方面對(duì)NER的研究進(jìn)行了擴(kuò)充,一是系統(tǒng)性地設(shè)計(jì)了NER整體框架,不再單純通過改進(jìn)深度學(xué)習(xí)模型來提高NER的識(shí)別準(zhǔn)確率;二是在現(xiàn)有的LSTM和CNN深度學(xué)習(xí)模型的基礎(chǔ)上設(shè)計(jì)了新的模型結(jié)構(gòu),融入了字符特征、詞特征、詞典信息等多維度信息。通過在中文數(shù)據(jù)集上的對(duì)比,本文設(shè)計(jì)的NER系統(tǒng)將識(shí)別F1值提高到96.2%。

        1 系統(tǒng)框架

        區(qū)別于以往論文單純的從深度學(xué)習(xí)模型角度入手來提升NER的識(shí)別準(zhǔn)確率,本文將模型視為NER系統(tǒng)的一個(gè)部分,同時(shí)搭配傳統(tǒng)的規(guī)則匹配、詞典匹配等方法,共同提升NER的識(shí)別準(zhǔn)確率。系統(tǒng)整體框架如圖1所示。

        由于本文采用的模型結(jié)構(gòu)融入了字符、詞、詞典等特征,因此需要對(duì)系統(tǒng)輸入的句子做切詞處理。然后,對(duì)詞作詞典查詢,在構(gòu)建的多種詞典(普通詞典、人名詞典、地名詞典、影視詞典、公司名詞典等)中檢索出每個(gè)詞所對(duì)應(yīng)的標(biāo)簽,如人名、地名等。由于語言中的詞常有多種用途,會(huì)存在于多個(gè)詞典中,如“紅色”,既會(huì)存在于普通詞典中,也會(huì)在影視詞典、書名詞典中出現(xiàn),因此經(jīng)過詞典查詢后,每個(gè)詞會(huì)有多個(gè)標(biāo)簽。同時(shí)考慮到詞典沒法收錄所有的詞匯,因此也存在詞無法從這些詞典中檢索出的現(xiàn)象,即未登錄詞(out of vocabulary,OOV)。按照詞典檢索成功與否,每個(gè)詞的詞典特征存在如下3種情況:

        Case A:詞只存在于一個(gè)詞典中,為此可以構(gòu)造出改詞的詞典特征為[1,0,0,0,…],其中1表示詞在該位置的詞典檢索成功,0表示在該位置的詞典檢索失敗;

        Case B:詞不存在于任何一個(gè)詞典中,則詞典特征為[0,0,0,0,…],所有詞典都檢索失敗;

        Case C:詞存在于多個(gè)詞典中,則詞典特征中有多個(gè)1,[1,0,1,0,…]。

        當(dāng)一個(gè)句子中所有詞的詞典特征都是Case A時(shí),則無需再依賴深度學(xué)習(xí)模型做NER,否則就需要依靠模型識(shí)別。當(dāng)句子中有詞處于Case B和Case C的情況時(shí),則需要依靠深度學(xué)習(xí)模型來做命名實(shí)體識(shí)別。

        與此同時(shí),規(guī)則模塊會(huì)對(duì)句子做匹配,根據(jù)配置好的規(guī)則識(shí)別出句子中的命名實(shí)體。規(guī)則模塊采用了正則表達(dá)式作為規(guī)則語言,主要用來識(shí)別特征明顯的命名實(shí)體。本文利用規(guī)則模塊識(shí)別了時(shí)間、日期、數(shù)量、電話號(hào)碼、郵箱、地址、金額。這些識(shí)別出的命名實(shí)體會(huì)和模型、詞典匹配的結(jié)果做最終的融合,最終輸出一個(gè)命名實(shí)體識(shí)別結(jié)果。

        2 模型結(jié)構(gòu)

        區(qū)別于常規(guī)的Bi-LSTM模型,本文在Bi-LSTM的輸入端做了如下改進(jìn):增加字符特征生成模塊、增加詞典特征生成模塊和拼接操作單元。借助此改進(jìn),本文的模型結(jié)構(gòu)可以融合字符特征、詞特征、詞典特征。其中,字符特征通過CNN模型提取,詞特征即詞向量,詞典特征如上述通過查詢?cè)~典構(gòu)建。模型結(jié)構(gòu)如圖2所示。

        2.1 多維度特征

        本文所采用的多維度特征指:詞的字符特征、詞典特征和詞特征,如圖3所示。

        詞的字符特征需要利用CNN從字符嵌入(Char embedding)中提取特征。區(qū)別于詞嵌入,每個(gè)字符的嵌入是在[-0.5,0.5]的區(qū)間上隨機(jī)采樣獲得。考慮到每個(gè)詞的字符個(gè)數(shù)不一,因此系統(tǒng)會(huì)先從語料庫(kù)中分析詞的最大字符長(zhǎng)度,對(duì)于字符個(gè)數(shù)小于最大值的詞,需要對(duì)字符做填充(Padding),填充符為特殊字符PADDING。CNN的超參數(shù)參考表1。

        詞典特征用來表征詞是否在某個(gè)詞典之中,因此構(gòu)建詞典特征需要先構(gòu)建相應(yīng)的詞典,本文構(gòu)建了6個(gè)詞典:

        (1)普通詞典:記錄中文漢字,總數(shù)量約8萬;

        (2)人名詞典:記錄常見的人名,總數(shù)量約7 800;

        (3)地名詞典:記錄常見的地名,包括國(guó)內(nèi)外的行政地區(qū),總數(shù)量約3 400;

        (4)影視詞典:記錄常見的影視作品名稱,總數(shù)量約3 000;

        (5)公司名:記錄常見的公司名稱,總數(shù)量約1 000;

        (6)機(jī)構(gòu)名:記錄常見的機(jī)構(gòu)名稱,包括國(guó)內(nèi)外的行政機(jī)構(gòu),總數(shù)量約200;

        按照本文第二部分的介紹,NER系統(tǒng)會(huì)根據(jù)詞所在的詞典,構(gòu)建出詞的詞典特征,以“紅色”為例,普通詞典和影視詞典中會(huì)記錄“紅色”,因此其詞典特征為[1,0,0,1,0,0]。

        最終,對(duì)詞嵌入、詞典特征、字符特征進(jìn)行向量拼接(Concatenate),輸出詞的多維度特征。

        2.2 Bi-LSTM

        雙向LSTM(Bi-LSTM)利用LSTM單元對(duì)輸入的詞特征做編碼[16-17]。在前向LSTM層,按照句子的正向排序(x1,x2,…,xn),順序?qū)⒚總€(gè)詞的詞特征輸入LSTM;在反向LSTM層,按照句子的逆向排序(xn,xn-1,…,x1),順序?qū)⒃~的詞特征輸入LSTM,如圖4所示。

        前向LSTM和反向LSTM分別對(duì)輸入的詞特征進(jìn)行編碼,各自輸出前向隱向量(fw1,fw2,…,fwn)和反向隱向量(bw1,bw2,…,bwn)。Bi-LSTM對(duì)前向隱向量和反向隱向量做拼接,得到Bi-LSTM的輸出隱向量

        hi=fwi⊕bwi

        2.3 CRF

        CRF(Conditional random field)在NER中得到大量應(yīng)用[7],主要原因在于CRF能夠?qū)D模型(Graphical model)和判別分類(Discriminative classification)結(jié)合起來。本文采用的是線性CRF(Linear CRF),圖模型結(jié)構(gòu)如圖5所示,其中,X=(x1,x2,…,xT)為輸入序列,y=(y1,y2,…,yT)為輸出序列。

        按照?qǐng)D模型理論,線性CRF可以用因子圖(Factor graph)來描述,條件分布p(y|X)可表達(dá)成

        (1)

        式中:Z(X)是歸一函數(shù)(Normalization function),局部函數(shù)(Local function)Ψt是對(duì)數(shù)線性模式(Log-linear form),由一些列的特征函數(shù)(Feature function)組成,如下

        (2)

        式中:f、h、g為特征函數(shù),常設(shè)為指示函數(shù)(Indicator function),系數(shù)λm和μn的含義等同于隱馬爾可夫鏈(HMM)的轉(zhuǎn)移概率(Transition probability)p(yt|yt-1)和發(fā)射概率(Emission probability)p(x|y)。

        在統(tǒng)計(jì)機(jī)器學(xué)習(xí)中,這些特征函數(shù)需要手工構(gòu)建。在Bi-LSTM和線性CRF融合的模型中,可以忽略這些特征函數(shù)的構(gòu)建,直接由Bi-LSTM輸出發(fā)射概率矩陣。方程1可簡(jiǎn)化成

        (3)

        式中:Λ為轉(zhuǎn)移概率矩陣,M為發(fā)射概率矩陣,y0和yT+1分別代表句子的起始標(biāo)注和結(jié)束標(biāo)注。

        3 模型及訓(xùn)練參數(shù)

        式中:參數(shù)w可歸納為CNN網(wǎng)絡(luò)參數(shù)、Bi-LSTM網(wǎng)絡(luò)參數(shù)、CRF的轉(zhuǎn)移矩陣參數(shù)。最優(yōu)參數(shù)值為

        除了網(wǎng)絡(luò)參數(shù)外,CNN和Bi-LSTM還有超參數(shù),具體值如表1所示。

        表1 CNN和Bi-LSTM的超參數(shù)

        4 實(shí)驗(yàn)結(jié)果

        本實(shí)驗(yàn)采用了1998年《人民日?qǐng)?bào)》的標(biāo)注語料作為數(shù)據(jù)集。為驗(yàn)證本文所述NER方案的有效性,同時(shí)對(duì)比了常見的基于字符的LSTM+CRF模型,以及基于詞的LSTM+CRF模型。為方便數(shù)據(jù)結(jié)果對(duì)比,本文的NER方案命名為Multi-feature NER,基于字符的LSTM+CRF模型命名為Char NER,基于詞的LSTM+CRF模型命名為Word NER。實(shí)驗(yàn)結(jié)果如表2所示。

        表2 實(shí)驗(yàn)對(duì)比數(shù)據(jù)

        從表2中可以看出,相比常見的基于字符的LSTM+CRF模型,以及基于詞的LSTM+CRF模型,本文所采用NER方案在準(zhǔn)確率和召回率方面均有優(yōu)勢(shì),F1值遠(yuǎn)優(yōu)于常見方案。

        5 結(jié)論

        命名實(shí)體識(shí)別是自然語言處理的一項(xiàng)基礎(chǔ)任務(wù),在文本信息抽取中起到了重要的作用。本文采用了多維度特征融合的系統(tǒng)方案來提升NER的識(shí)別準(zhǔn)確率,一是系統(tǒng)性的設(shè)計(jì)了NER整體框架,不再單純通過改進(jìn)深度學(xué)習(xí)模型來提高NER的識(shí)別準(zhǔn)確率;二是在現(xiàn)有的LSTM和CNN深度學(xué)習(xí)模型的基礎(chǔ)上設(shè)計(jì)了新的模型結(jié)構(gòu),融入了字符特征、詞特征、詞典信息等多維度信息。利用CNN模型,融合了字符特征,同時(shí)利用Bi-LSTM模型,融合了詞特征和詞典信息。通過實(shí)驗(yàn)數(shù)據(jù)對(duì)比,本文的基于多維度特征融合的NER方案在準(zhǔn)確率、召回率上都要優(yōu)于常見的基于字符的LSTM+CRF模型和基于詞的LSTM+CRF模型。

        猜你喜歡
        多維度特征模型
        一半模型
        重要模型『一線三等角』
        “多維度評(píng)改”方法初探
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        多維度市南
        商周刊(2017年7期)2017-08-22 03:36:22
        3D打印中的模型分割與打包
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        熟女人妻一区二区三区| 午夜一区二区三区av| 国产精品无套内射迪丽热巴| 亚洲综合无码一区二区三区| 亚洲伊人久久大香线蕉综合图片| 精品国产AⅤ一区二区三区4区| 精品国产乱码一区二区三区在线| 18禁国产美女白浆在线| 国产一区二区三区资源在线观看| 91久久精品一二三区色| 青青青爽在线视频免费播放| 中文字幕av高清人妻| 亚洲av无码乱码在线观看富二代| 美丽人妻在夫前被黑人| 久久无码专区国产精品s| 人妻在线日韩免费视频 | 日本五月天婷久久网站| 国产爆乳无码一区二区在线| 无码吃奶揉捏奶头高潮视频| 久久亚洲av午夜福利精品西区 | 免费黄片小视频在线播放| 亚洲码欧美码一区二区三区| 激情伊人五月天久久综合| 久久久无码人妻精品一区| 精品人妻无码一区二区色欲产成人| 久久久伊人影院| 色哟哟av网站在线观看| 免费国产自拍视频在线观看| 免费一区二区在线观看视频在线| 一区二区三区亚洲视频 | 推油少妇久久99久久99久久| 色综合久久精品中文字幕| 99热久久只有这里是精品| 久久精品国产黄片一区| 最新国产不卡在线视频| 十八禁视频网站在线观看| 中文字幕天天躁日日躁狠狠躁免费 | 无套内谢老熟女| 狠狠久久亚洲欧美专区| av天堂手机在线免费| 中文字幕中文字幕777|