亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CRF和Bi—LSTM的保險(xiǎn)名稱實(shí)體識(shí)別

        2018-09-05 10:19:04陳彥妤杜明
        關(guān)鍵詞:命名實(shí)體標(biāo)簽

        陳彥妤 杜明

        文章編號(hào): 2095-2163(2018)03-0111-04中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A

        摘要: 關(guān)鍵詞: (Schoo of Computer Science and Technology, Donghua University, Shanghai 201620, China)

        Abstract: Because the insurance name is long and there are a lot of abbreviations and ambiguities in the user's query, identifying the insurance naming information in the user question becomes a research problem in insurance intelligent question answering. In this paper, a model (Bi-LSTM-CRF) combining Conditional Random Field (CRF) with two-way long-term memory networks(Bi-LSTM)is proposed. Then pre-trained word embedding vectors are added to train this model. The experiment result shows that: compared with the traditional method of machine learning, Bi-LSTM-CRF has a better performance in insurance Name Entity Recognition.

        Key words:

        作者簡(jiǎn)介:

        收稿日期: 引言

        社會(huì)保險(xiǎn)作為現(xiàn)代經(jīng)濟(jì)的分支產(chǎn)業(yè)和風(fēng)險(xiǎn)管理的基本手段,是衡量經(jīng)濟(jì)發(fā)達(dá)程度和國民生活水平的有效標(biāo)志。但是目前大部分民眾對(duì)于保險(xiǎn)領(lǐng)域相關(guān)知識(shí)卻甚少涉獵。在參保人面臨選擇、產(chǎn)生問題時(shí),如何利用智能問答[1]相關(guān)技術(shù),準(zhǔn)確理解用戶的查詢意圖,為其提供專業(yè)、精準(zhǔn)的問答服務(wù),更好地輔助參保人做出選擇即已成為互聯(lián)網(wǎng)保險(xiǎn)領(lǐng)域的熱門趨勢(shì)。

        但保險(xiǎn)行業(yè)是一個(gè)門類龐雜、內(nèi)容泛化的實(shí)踐領(lǐng)域。且保險(xiǎn)領(lǐng)域內(nèi)的許多專有名詞,例如保險(xiǎn)名稱,字?jǐn)?shù)普遍較多,且構(gòu)成較為復(fù)雜。所以人們?cè)谔岢鰡栴}時(shí)常常不能準(zhǔn)確地表達(dá)出完整的保險(xiǎn)名稱,而是使用簡(jiǎn)寫、別名等方式進(jìn)行描述,甚至常常會(huì)發(fā)生錯(cuò)別字、歧義等混淆事件。這種情況給用戶問句的理解帶來了很大的困難。同時(shí),句子內(nèi)的標(biāo)點(diǎn)符號(hào)、句子構(gòu)成方式、空格等都會(huì)對(duì)保險(xiǎn)名稱的識(shí)別造成重大影響。綜上分析可知,研究識(shí)別用戶問句中的保險(xiǎn)名稱則有著不可忽視的實(shí)際應(yīng)用價(jià)值。

        1相關(guān)工作

        目前,學(xué)術(shù)界對(duì)于命名實(shí)體識(shí)別[2]的研究,根據(jù)模型和算法的不同,現(xiàn)已陸續(xù)推出了成效可觀的各類技術(shù)成果,對(duì)其可給出如下重點(diǎn)表述。

        規(guī)則和詞典相結(jié)合的方法最早應(yīng)用于命名實(shí)體識(shí)別中。該方法的規(guī)則主要是人工構(gòu)造規(guī)則模版,以字符串匹配的算法來設(shè)計(jì)展開命名實(shí)體的識(shí)別。這類方法的性能很大程度上將依賴于優(yōu)質(zhì)的人工構(gòu)造規(guī)則和完整的詞典。賈自艷等就是通過單字和多字的組合規(guī)則模型來實(shí)現(xiàn)命名實(shí)體的識(shí)別[3]。在保證這一前提的基礎(chǔ)上,基于詞典和規(guī)則的方法往往可以獲得優(yōu)良性能。但此類方法的人工成本較大,可移植性不高。

        基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法是近年來獲得學(xué)界高度矚目與廣泛應(yīng)用的命名實(shí)體識(shí)別算法。這類方法多依托于統(tǒng)計(jì)學(xué)模型,并基于半監(jiān)督的機(jī)器學(xué)習(xí)方法識(shí)別實(shí)體。主要的方法有最大熵(ME)[4]、隱馬爾可夫模型(HMM)[5]、條件隨機(jī)場(chǎng)(CRF)等。Zhao等通過最大熵模型對(duì)4類名詞進(jìn)行實(shí)體識(shí)別,獲得了77.87%的準(zhǔn)確率[6]。另有陳霄采用SVM模型提出了中文組織機(jī)構(gòu)名的實(shí)體識(shí)別,準(zhǔn)確率達(dá)到了81.68%[7]。其中,CRF自2001年由Lafferty[8]等人研發(fā)提出后,就廣泛應(yīng)用于命名實(shí)體識(shí)別領(lǐng)域。在中文實(shí)體識(shí)別領(lǐng)域,相較于其它的統(tǒng)計(jì)學(xué)算法,也取得了更好的效果。

        隨著命名實(shí)體識(shí)別的研究日趨深入,學(xué)術(shù)界正嘗試將現(xiàn)階段焦點(diǎn)性的深度學(xué)習(xí)技術(shù)應(yīng)用于中文命名實(shí)體的識(shí)別中。如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。其中,解決了RNN的長(zhǎng)依賴問題的LSTM模型已獲證實(shí)在命名實(shí)體識(shí)別中有更好的效果。在命名實(shí)體識(shí)別中,相較于其它深度學(xué)習(xí)算法,LSTM可以更為完善地存儲(chǔ)句子中前后信息,同時(shí)也可以擬合非線性神經(jīng)網(wǎng)絡(luò),這些特點(diǎn)都可以較好地彌補(bǔ)基于統(tǒng)計(jì)的CRF等模型的缺陷。因此,近一時(shí)期以來,學(xué)術(shù)界開始致力于將深度學(xué)習(xí)與機(jī)器學(xué)習(xí)結(jié)合起來,通過綜合多種算法的優(yōu)點(diǎn)來提高實(shí)體識(shí)別的效果。

        基于以上問題,本文開展了如下研究工作:

        (1)用保險(xiǎn)領(lǐng)域語料預(yù)訓(xùn)練字向量,將句子按字標(biāo)注,將預(yù)訓(xùn)練的字向量代替常規(guī)詞向量作為模型的輸入。實(shí)驗(yàn)證明在保險(xiǎn)這一特殊專業(yè)詞匯較多的領(lǐng)域中,預(yù)訓(xùn)練的字向量相比詞向量取得了更好的效果。

        (2)將雙向的LSTM神經(jīng)網(wǎng)絡(luò)結(jié)合CRF的模型應(yīng)用到保險(xiǎn)名稱的命名實(shí)體識(shí)別中。這樣將雙向LSTM可以保存句子前后信息的優(yōu)勢(shì)與CRF相結(jié)合,仿真實(shí)驗(yàn)最終表明該模型在保險(xiǎn)名稱實(shí)體識(shí)別中具有更加優(yōu)越的性能表現(xiàn)。

        2基于BI-LSTM-CRF實(shí)現(xiàn)保險(xiǎn)名稱實(shí)體識(shí)別

        2.1CRF

        研究可知,CRF是對(duì)最大熵模型(HMM)的改進(jìn)。根據(jù)給定的輸入序列,CRF可以推測(cè)出對(duì)應(yīng)的最優(yōu)標(biāo)記序列,因此CRF可以應(yīng)用于命名實(shí)體的識(shí)別。這里,通過研究可得線性鏈條件隨機(jī)場(chǎng)即如圖1所示。

        2.2Bi-LSTM

        LSTM是一種解決序列標(biāo)注中出現(xiàn)的長(zhǎng)依賴問題的RNN模型。一般LSTM包含3個(gè)門,分別是:輸入門(Input Gate)、忘記門(Forget Gate)、輸出門(Output Gate),通過這3個(gè)門來控制細(xì)胞狀態(tài)。其中,輸入門決定保留當(dāng)前輸入的多少信息,忘記門決定保留上一個(gè)隱層傳來的多少信息,輸出門決定將輸出多少的信息。每個(gè)門通過sigmoid層和pointwise層的操作來對(duì)輸入到門的信息進(jìn)行選擇和刪除。例如sigmoid層通過產(chǎn)生一個(gè)0~1之間的參數(shù)用來選擇相應(yīng)比例的信息。

        Bi-LSTM相較LSTM又引入了一定程度上的優(yōu)化。Bi-LSTM不僅可以保存前面的信息,同時(shí)也可以考慮到之后的信息,對(duì)于中文這種語義受上下文影響較大的語言來說,Bi-LSTM已獲證實(shí)可以在中文序列標(biāo)注中取得更好的效果。

        如圖2所示,結(jié)合預(yù)訓(xùn)練生成的字向量,通過word embedding層轉(zhuǎn)化為字向量序列X1-i,將其作為Bi-LSTM的輸入。前向LSTM從左到右輸入,得到一組輸出h1-i;后向LSTM從右到左輸入得到一組輸出hi-1。這樣得到了2組元素長(zhǎng)度均為hidden size的輸出,最后將2組輸出的Ht相加得到Bi-LSTM的輸出。

        2.3基于Bi-LSTM-CRF識(shí)別保險(xiǎn)名稱實(shí)體

        在本文中,研究結(jié)合Bi-LSTM和CRF這2種模型,通過Bi-LSTM層獲得之前和未來的輸入特征,利用深度學(xué)習(xí)解決CRF中的序列特征提取問題。

        首先采用了BIO經(jīng)典標(biāo)注法來對(duì)用戶語料按字進(jìn)行標(biāo)注,標(biāo)注后結(jié)果可見表1。

        然后將利用word2vector[10]結(jié)合爬取到的保險(xiǎn)問題語料展開字向量的預(yù)訓(xùn)練,并結(jié)合預(yù)訓(xùn)練字向量和標(biāo)準(zhǔn)化處理后的語料集即可以開始模型訓(xùn)練。

        標(biāo)注句子標(biāo)注句子標(biāo)注句子標(biāo)注請(qǐng)O福I-BXN年O么O問O的O齡O?O平B-BXN投O是O安I-BXN保O什O如圖3所示,在每一次訓(xùn)練過程中,可將用戶問句按字符分開,并將字求得向量化,再作為模型的輸入。將雙向LSTM的輸出htl和htr相加,傳入Liner層和Log-Softmax層進(jìn)行非線性操作得到ht,同時(shí)將ht傳入CRF層。定義上述輸出的分?jǐn)?shù)矩陣為n*k的矩陣P。其中,n為句子中字向量的個(gè)數(shù),k為需要識(shí)別的所有標(biāo)簽個(gè)數(shù),Pi,t表示的是整個(gè)句子中第t個(gè)詞標(biāo)簽是i的分?jǐn)?shù)。過程中將該矩陣作為CRF層的輸入,CRF層可以引進(jìn)句子局部特征的線性加權(quán)值,獲得句子級(jí)別標(biāo)簽信息。通過狀態(tài)轉(zhuǎn)移矩陣參數(shù)的作用,可以有效利用前后標(biāo)簽來預(yù)測(cè)當(dāng)前標(biāo)簽,優(yōu)化整個(gè)序列。為此,可定義這個(gè)狀態(tài)轉(zhuǎn)移為(k+2)*(k+2)的矩陣A,其中Ai, j表示在一個(gè)連續(xù)的時(shí)間序列中,第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的分?jǐn)?shù)[11]。對(duì)于輸入序列x,預(yù)測(cè)的標(biāo)簽序列y的分?jǐn)?shù)的公式表述為:sx,y=∑ni=0Ayi, yi+1+∑ni=1Pi,yi(1)

        再用softmax層計(jì)算出所有可能標(biāo)簽的概率,在訓(xùn)練過程中不斷收斂,最大程度地提高正確預(yù)測(cè)序列的分?jǐn)?shù)。研究推得數(shù)學(xué)運(yùn)算公式如下:py|x=es(x,y)1Yxexp (∑y∈Yes(x,y)x)(2)

        logpy|X=1K[sx,y-log∑y∈Yxλiesx,y](3)其中,λ表示向量維度;K為句子字?jǐn)?shù);Y為所有可能的標(biāo)簽序列。

        至此,CRF層會(huì)輸出一個(gè)得分最高的標(biāo)記序列。多次訓(xùn)練后,不斷調(diào)整網(wǎng)絡(luò)參數(shù),得分最高的序列會(huì)逐步向預(yù)先標(biāo)記的正確序列靠近,綜上就是模型的訓(xùn)練過程。得到一個(gè)效果較優(yōu)的模型后,當(dāng)面對(duì)輸入問題:請(qǐng)問平安福的投保年齡是什么?模型可以將保險(xiǎn)名稱:“平安?!边@一實(shí)體識(shí)別出來。

        3實(shí)驗(yàn)

        3.1實(shí)驗(yàn)數(shù)據(jù)集

        為了對(duì)本文提出的方法進(jìn)行有效性評(píng)估,本文從專業(yè)化保險(xiǎn)服務(wù)平臺(tái)沃保網(wǎng)和向日葵保險(xiǎn)專家網(wǎng)站上爬取并整理了11 456條用戶問題數(shù)據(jù),并按字對(duì)其進(jìn)行手工標(biāo)注。其中,7 320條左右作為訓(xùn)練集,3 019條作為測(cè)試集,剩下1 117條作為交叉驗(yàn)證集。

        本文中字向量[12]由Google開源工具word2vec中的skip-gram模型,結(jié)合事先爬取的保險(xiǎn)領(lǐng)域問句進(jìn)行字向量訓(xùn)練,由此形成100維的字向量。對(duì)比實(shí)驗(yàn)采用的詞向量借助jieba分詞處理,再使用word2vec訓(xùn)練,維度也為100維。

        3.2實(shí)驗(yàn)參數(shù)設(shè)置

        本文實(shí)驗(yàn)中,字向量維度為100維,LSTM隱層單元數(shù)為100,丟棄率(dropout rate)為0.6,學(xué)習(xí)率為0.001。

        3.3實(shí)驗(yàn)結(jié)果分析

        為了更好地討論信息統(tǒng)計(jì)與結(jié)果分析,從數(shù)據(jù)集中隨機(jī)選取定量記錄進(jìn)行樣本分析,并獲取準(zhǔn)確率P、召回率R和F1度量值。這3個(gè)指標(biāo)具體定義公式如下:P=識(shí)別正確的實(shí)體數(shù)識(shí)別的實(shí)體總數(shù)(4)

        R=識(shí)別正確的實(shí)體數(shù)文本中包含的實(shí)體總數(shù)(5)

        F1=2*P*RP+R(6)基于如上3個(gè)指標(biāo),就可以較全面地評(píng)價(jià)模型性能。利用本文的保險(xiǎn)問題數(shù)據(jù)集來設(shè)計(jì)生成對(duì)比實(shí)驗(yàn),最終實(shí)驗(yàn)結(jié)果可見表2。

        結(jié)論:

        (1)通過對(duì)比Bi-LSTM-CRF+ Pre-trained Word和Bi- LSTM-CRF + Pre-trained Character模型的數(shù)據(jù),進(jìn)一步分析后發(fā)現(xiàn),采用預(yù)訓(xùn)練的字向量作為輸入比用詞向量效果更好。相應(yīng)的準(zhǔn)確值、召回率、以及F1值都有較大的提高。對(duì)于保險(xiǎn)領(lǐng)域問句來說,句子中含有較多的領(lǐng)域?qū)I(yè)詞匯,且句子較短,噪聲較大。采用jieba對(duì)句子進(jìn)行分詞很容易產(chǎn)生歧義。若采用字向量作為分詞則可以避免這種歧義情況,在保險(xiǎn)名稱實(shí)體識(shí)別中可以獲得更好的效果。

        (2)通過對(duì)比CRF、Bi-LSTM+ Pre-trained Character和Bi- LSTM-CRF + Pre-trained Character模型的評(píng)價(jià)指標(biāo),處理分析后發(fā)現(xiàn),本文提出的基于預(yù)訓(xùn)練字向量的Bi-LSTM-CRF在保險(xiǎn)名稱實(shí)體識(shí)別中可以取得更好的效果。Bi- LSTM-CRF 結(jié)合預(yù)訓(xùn)練字向量,利用Bi-LSTM為 CRF選取最優(yōu)特征工程,利用CRF句子級(jí)別的標(biāo)簽信息優(yōu)化Bi-LSTM結(jié)構(gòu)。結(jié)合兩者可以獲得更佳的識(shí)別效果。

        4結(jié)束語

        保險(xiǎn)領(lǐng)域的智能問答技術(shù)設(shè)計(jì)與實(shí)現(xiàn)已然成為當(dāng)下人工智能與社會(huì)保險(xiǎn)相契合的熱點(diǎn)研究項(xiàng)目。不同于以往建立問答語料庫,并通過計(jì)算問句相似度來查詢相近答案的方法,本文是從自然語言角度出發(fā),能夠更加貼切、充分地理解用戶查詢意圖。實(shí)驗(yàn)表明,對(duì)比當(dāng)下學(xué)術(shù)界流行的各個(gè)模型,在真實(shí)的保險(xiǎn)領(lǐng)域問句數(shù)據(jù)中,本文的模型在保險(xiǎn)名稱命名實(shí)體的識(shí)別上取得了較好效果。未來將考慮引入attention機(jī)制,根據(jù)各種字符的不同重要程度分配相應(yīng)的權(quán)重,動(dòng)態(tài)地利用字向量信息[13]。

        參考文獻(xiàn)

        [1] 毛先領(lǐng),李曉明. 問答系統(tǒng)研究綜述[J]. 計(jì)算機(jī)科學(xué)與探索,2012,6(3):193-207.

        [2] NADEAU D, SEKINE S. A survey of named entity recognition and classification[J]. Journal of Linguisticae Investigations, 2007, 30 (1) :1-20.

        [3] 賈自艷,史忠植. 基于概率統(tǒng)計(jì)技術(shù)和規(guī)則方法的新詞發(fā)現(xiàn)[J]. 計(jì)算機(jī)工程,2004,30(20):19-21,83.

        [4] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational linguistics, 1996, 22 (1) :39-71.

        [5] RABINER L, JUANG B. An introduction to hidden Markov models[J]. IEEE ASSP Magazine, 1986, 3 (1) :4-16.

        [6] ZHAO Jian. Research on conditional probabilistic model and its application in Chinese Named Entity Recognition[D]. Harbin:Harbin Institute of Technology,2006.

        [7] 陳霄. 基于支持向量機(jī)的中文組織機(jī)構(gòu)名識(shí)別[D]. 上海:上海交通大學(xué),2007.

        [8] LAFFERTY J,MCCALLUM A,PEREIRA F. Conditional random fields: Porbabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning. Williamstown, MA, USA:Williams College,2001: 282-289.

        [9] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011, 12 (1):2493-2537.

        [10]MIKOLOV T, SUTSKEVER I, CHEN Kai, et al. Distributed representations of words and phrases and their compositionality[J]. arXiv preprint arXiv:1310.4546, 2013.

        [11]HUANG Zhiheng, XU Wei, YU Kai. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991v1, 2015.

        [12]WANG Ling, LUS T, MARUJO L,et al. Finding function in form: Compositional character models for open vocabulary word representation[J]. arXiv preprint arXiv:1508.02096v1, 2015.

        [13]REI M, CRICHTON G K O, PYYSALO S. Attending to characters in neural sequence labeling models[J]. arXiv preprint arXiv:1611.04361,2016.

        猜你喜歡
        命名實(shí)體標(biāo)簽
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        標(biāo)簽化傷害了誰
        国产精品又污又爽又色的网站| 日本xxxx色视频在线播放| 极品美女扒开粉嫩小泬| 国产在线h视频| 亚洲成a人片在线播放观看国产| AV熟妇导航网| 亚洲一区二区三区乱码在线| 久久精品亚洲成在人线av乱码| 亚洲性无码一区二区三区| 人禽无码视频在线观看| 国产精品亚洲A∨天堂不卡| 东京道一本热码加勒比小泽| 国产自拍精品视频免费| 国产午夜福利不卡在线观看 | 五月综合激情婷婷六月| 少妇寂寞难耐被黑人中出| av无码一区二区三| 亚洲成a人一区二区三区久久| 乱人伦中文视频在线| 日本少妇人妻xxxxx18| 中文字幕亚洲精品码专区| 中文字幕影片免费人妻少妇| 成人综合网站| 国产日产精品久久久久久| 国产精品黄色av网站| 日本一区二区三区区视频| 久久99精品久久久久久清纯| 久久精品女人天堂av| 亚洲欧美日韩精品久久亚洲区色播| 日本不卡的一区二区三区 | 欧美牲交videossexeso欧美| 99国产超薄丝袜足j在线观看| 中文字幕av人妻一区二区| 国产内射视频在线免费观看| 国产精品无码v在线观看| 亚洲最大天堂无码精品区| 人妻风韵犹存av中文字幕| 最近免费中文字幕中文高清6| 老熟女高潮一区二区三区 | 大学生被内谢粉嫩无套| 亚洲av午夜福利精品一区二区|