亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的簡(jiǎn)歷信息實(shí)體抽取方法

        2018-12-22 07:40:56勝,李偉,張
        關(guān)鍵詞:信息方法模型

        黃 勝,李 偉,張 劍

        (1.重慶郵電大學(xué) 光通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室,重慶 400065;2.北京大學(xué)深圳研究院,廣東 深圳 518057)

        0 引 言

        簡(jiǎn)歷是生活中常見(jiàn)的文本,按結(jié)構(gòu)通??梢詣澐譃榻Y(jié)構(gòu)化文本、半結(jié)構(gòu)化文本、非結(jié)構(gòu)化文本。為了從財(cái)經(jīng)人物中挖掘關(guān)聯(lián)信息以便于監(jiān)管機(jī)構(gòu)維護(hù)市場(chǎng),其中非常重要的一環(huán)就是從非結(jié)構(gòu)化的簡(jiǎn)介文本中抽取相應(yīng)的信息實(shí)體,對(duì)其進(jìn)行結(jié)構(gòu)化處理并建立人物信息數(shù)據(jù)庫(kù),此外企業(yè)的人力資源部門(mén)同樣也需要對(duì)簡(jiǎn)歷信息實(shí)體進(jìn)行抽取?,F(xiàn)有的信息實(shí)體抽取方法主要是通過(guò)規(guī)則匹配并結(jié)合相關(guān)的語(yǔ)言學(xué)特征定制模板來(lái)抽取,然而該方法泛化能力差,開(kāi)發(fā)維護(hù)困難,難以應(yīng)對(duì)大數(shù)據(jù)量且格式自由的非結(jié)構(gòu)化自然語(yǔ)言文本。

        為解決主要依賴(lài)于規(guī)則模板方法的弊端,首先可以將待解析文本處理待標(biāo)注詞序列,通過(guò)序列標(biāo)注算法為待解析的信息實(shí)體標(biāo)記上相應(yīng)的標(biāo)簽,再通過(guò)匹配標(biāo)簽進(jìn)行解析。在深度學(xué)習(xí)還沒(méi)有滲透到各個(gè)應(yīng)用領(lǐng)域之前,傳統(tǒng)的最常用的序列標(biāo)注算法是基于條件隨機(jī)場(chǎng)(conditional random fields,CRF)[1]模型。CRF作為一種概率圖模型雖然其求解的是全局最優(yōu)序列,但其需要依賴(lài)于人工定制的特征抽取模板。深度學(xué)習(xí)則不同,其可以自主的學(xué)習(xí)到序列中的特征信息,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[1]已經(jīng)顯示出其在混雜的文本數(shù)據(jù)中的信息識(shí)別能力,但其求解的是局部最優(yōu)解,并未將標(biāo)簽之間的約束信息引入。

        基于以上的論述,本文提出基于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)[2]與CRF聯(lián)合模型的簡(jiǎn)歷信息實(shí)體解析方法。該方法首先通過(guò)Word2Vec[3]訓(xùn)練得到詞向量表對(duì)輸入的詞序列進(jìn)行初始化,然后再由雙向LSTM層融合待標(biāo)注詞所處的語(yǔ)境信息,輸出所有可能標(biāo)簽序列的分值到CRF層,最后由其引入前后標(biāo)簽之間的約束求解最優(yōu)標(biāo)簽序列,并輔以Dropout[4]方法防止過(guò)擬合。

        1 簡(jiǎn)歷信息抽取

        為構(gòu)建人物信息數(shù)據(jù)庫(kù)需要從人物簡(jiǎn)介信息中抽取簡(jiǎn)歷信息實(shí)體(姓名、性別、現(xiàn)任職位、曾任公司等)。該簡(jiǎn)介是非結(jié)構(gòu)化的自然語(yǔ)言文本,如下段為簡(jiǎn)歷示例。

        北京遠(yuǎn)特科技股份有限公司,陳**,男,1973年10月出生,中國(guó)國(guó)籍,無(wú)境外永久居留權(quán),研究生學(xué)歷。1997年至2000年,負(fù)責(zé)福耀玻璃集團(tuán)的生產(chǎn)調(diào)度和戰(zhàn)略規(guī)劃工作;2000年至2003年在美國(guó)俄克拉荷馬大學(xué)就讀;2003年至2007年任美國(guó)CBK控股公司營(yíng)銷(xiāo)副總;2007年至今在華瑞集團(tuán)工作,現(xiàn)任華瑞集團(tuán)副董事長(zhǎng);2014年4月至今任遠(yuǎn)特科技董事長(zhǎng)。

        簡(jiǎn)歷信息實(shí)體的標(biāo)注相較于其它序列標(biāo)注問(wèn)題有很大的不同與挑戰(zhàn)。首先是簡(jiǎn)介信息文本往往涉及多領(lǐng)域,多行業(yè),存在很多行業(yè)專(zhuān)有名詞與表述,而且人物簡(jiǎn)介信息方面的訓(xùn)練語(yǔ)料也很少。該簡(jiǎn)介的抽取的另外一個(gè)更大的挑戰(zhàn)就是需要對(duì)長(zhǎng)序列依賴(lài)建模,有時(shí)一個(gè)人物可以在同一時(shí)間段內(nèi)在多家公司任職,而且在同一個(gè)公司也可以有多個(gè)職位頭銜,而為了區(qū)分相應(yīng)的現(xiàn)任與曾任相關(guān)標(biāo)簽,就需要考慮到整篇簡(jiǎn)歷的信息。圖1展示的是利用序列標(biāo)注方法抽取簡(jiǎn)歷信息的整體流程。

        圖1 簡(jiǎn)歷信息實(shí)體抽取流程

        在圖1中,信息實(shí)體的標(biāo)注這一環(huán)節(jié)無(wú)疑是最為重要的,在以往的處理方式中,對(duì)于中文來(lái)說(shuō),一般是在分詞的過(guò)程中引入相關(guān)的實(shí)體標(biāo)記信息,但是一般分詞工具自帶的實(shí)體標(biāo)記功能是通用化的,所含有的標(biāo)記信息也比較的少。此前已有研究將深度學(xué)習(xí)應(yīng)用于自然語(yǔ)言處理中,比如Yao等[5]將循環(huán)神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)混合的循環(huán)條件隨機(jī)場(chǎng)(recurrent conditional random field,RCRF)模型應(yīng)用于語(yǔ)言理解;Chiu等[6]聯(lián)合長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)用于命名實(shí)體識(shí)別;而Ma和Hovy等[7]則在LSTM和CNN聯(lián)合的基礎(chǔ)上又嵌套了CRF,用于英文的詞性標(biāo)注問(wèn)題;Jagannatha等[8]將RNN應(yīng)用于醫(yī)療文本的序列標(biāo)注問(wèn)題中。為此提出深度學(xué)習(xí)方法應(yīng)用于簡(jiǎn)歷信息文本的抽取中,將混合LSTM網(wǎng)絡(luò)和CRF概率圖模型的序列標(biāo)注模型應(yīng)用于簡(jiǎn)歷信息實(shí)體的標(biāo)簽標(biāo)注環(huán)節(jié)。

        在該混合模型中由LSTM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)信息序列的特征,輸出相應(yīng)的備選標(biāo)簽概率給輸出層,利用CRF層代替LSTM神經(jīng)網(wǎng)絡(luò)的Softmax輸出層,將鄰近標(biāo)簽之間的約束引入最后的標(biāo)簽預(yù)測(cè),從而為每個(gè)詞產(chǎn)生最終的預(yù)測(cè)標(biāo)簽,最后定制相應(yīng)的標(biāo)簽匹配規(guī)則將信息實(shí)體抽取出來(lái)。

        2 模型及優(yōu)化

        2.1 LSTM

        利用多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù),已經(jīng)在包括自動(dòng)語(yǔ)音處理到圖像處理中有強(qiáng)大的影響力,特別是近年RNN和CNN已經(jīng)被應(yīng)用到語(yǔ)音識(shí)別[9]、語(yǔ)言理解、機(jī)器翻譯、語(yǔ)言模型、人臉識(shí)別等任務(wù)中。長(zhǎng)短期記憶網(wǎng)絡(luò)是一種特殊類(lèi)型的RNN,通常也被簡(jiǎn)稱(chēng)為L(zhǎng)STM,與傳統(tǒng)RNN相比較,比如Elman-RNN和Jordan-RNN[1],LSTM已經(jīng)在序列數(shù)據(jù)上展示出更好的長(zhǎng)距離依賴(lài)處理能力,其在本質(zhì)上和RNN沒(méi)有什么區(qū)別,唯一的不同之處在于LSTM用了一個(gè)具有線(xiàn)性激活功能的記憶單元(memory cell)去存儲(chǔ)歷史信息。這在一定的程度上避免了由于線(xiàn)性記憶單元在任意時(shí)間內(nèi)保留未縮放的激活和誤差導(dǎo)數(shù)而造成的梯度爆炸和梯度消失問(wèn)題。圖2是一個(gè)LSTM記憶單元。

        圖2 LSTM cell結(jié)構(gòu)

        該LSTM記憶單元由式(1)實(shí)現(xiàn)

        (1)

        其中,σ是邏輯Sigmoid函數(shù),i、f、o還有C分別是輸入門(mén)(input gate)、遺忘門(mén)(forget gate)、輸出門(mén)(output gate)和記憶單元向量(cell vectors),這些向量的維度都與隱藏層向量h的維度是一致。Wi、Wf、Wo分別表示連接輸入門(mén)、遺忘門(mén)、輸出門(mén)的權(quán)重矩陣。

        雖然LSTM能更好的處理長(zhǎng)距離依賴(lài)問(wèn)題,但是LSTM相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)也更加的復(fù)雜,相應(yīng)的權(quán)重參數(shù)也更多,其模型的訓(xùn)練將會(huì)消耗更多的時(shí)間和空間以及計(jì)算資源,同時(shí)也需要更多的訓(xùn)練數(shù)據(jù)支撐訓(xùn)練。盡管該模型在一些比較簡(jiǎn)單的序列標(biāo)注問(wèn)題上取得了比較良好的效果,但是當(dāng)輸出的標(biāo)簽之間存在很強(qiáng)的依賴(lài)關(guān)系時(shí),其獨(dú)立的分類(lèi)決策就有限制了。本文的簡(jiǎn)歷信息實(shí)體的標(biāo)注解析就屬于這一類(lèi)具有強(qiáng)標(biāo)簽依賴(lài)的,例如標(biāo)簽B-org.company后面不能直接就是標(biāo)簽I-gsp.company或者I-per.name,像這種情況就不能只根據(jù)待標(biāo)注序列的上下文信息孤立的判別標(biāo)簽,為此還應(yīng)該將整個(gè)序列中標(biāo)簽與標(biāo)簽之間的約束關(guān)系引入。

        2.2 CRF(Baseline)

        為了在預(yù)測(cè)當(dāng)前標(biāo)簽中利用到臨近標(biāo)簽信息有兩種不同的方法,第一種是像最大熵分類(lèi)器(maximum entropy classifier)和最大熵馬爾科夫模型(maximum entropy markov model,MEMM)這樣的通過(guò)預(yù)測(cè)每個(gè)時(shí)間步長(zhǎng)的標(biāo)簽分布,再使用相應(yīng)的解碼來(lái)尋找最優(yōu)標(biāo)簽序列;第二種就是像條件隨機(jī)場(chǎng)(CRF)這種是在整個(gè)句子層級(jí)的建模,求解全局最優(yōu)解。CRF和隱馬爾科夫模型(hidden markov model,HMM)作為在自然語(yǔ)言處理領(lǐng)域具有豐富應(yīng)用歷史的概率圖模型,其經(jīng)常被應(yīng)用在分詞,詞性標(biāo)記等任務(wù)中。尤其是CRF,其是一個(gè)非常簡(jiǎn)單而又非常有效的概率圖模型,不同于HMM對(duì)P(x,y)聯(lián)合建模,CRF模型對(duì)后驗(yàn)概率P(y|x)直接建模。已有研究結(jié)果表明,CRF模型通常有著更高的標(biāo)注精度,在深度學(xué)習(xí)沒(méi)有廣泛的滲透到各個(gè)應(yīng)用領(lǐng)域之前,其基本是最主流的方法。

        2.3 BLSTM-CRF

        根據(jù)以上的分析。提出將聯(lián)合了雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(bidirectional LSTM,BLSTM)與條件隨機(jī)場(chǎng)(CRF)的序列標(biāo)注模型應(yīng)用于簡(jiǎn)歷信息實(shí)體中的標(biāo)注,該步驟是簡(jiǎn)歷信息實(shí)體抽取的關(guān)鍵步驟。

        在BLSTM-CRF聯(lián)合模型中,BLSTM不是直接的輸出備選標(biāo)簽,而是將待標(biāo)記對(duì)象與各標(biāo)簽序列對(duì)應(yīng)的分值輸出給CRF層,由CRF層引入標(biāo)簽之間的約束對(duì)標(biāo)簽序列進(jìn)行綜合選取,與Ling等[10]中提出的模型類(lèi)似。這個(gè)分值是與每個(gè)標(biāo)記對(duì)象被標(biāo)記的標(biāo)簽相對(duì)應(yīng)。該分值由BLSTM計(jì)算得到的包含待標(biāo)注詞上下文信息的詞向量的點(diǎn)乘得到。該結(jié)構(gòu)如圖3所示。為說(shuō)明這個(gè)混合模型,下面將舉例。

        圖3 BLSTM混合CRF序列標(biāo)注模型

        (1)假定一條輸入詞序列為

        X=(x1,x2,…,xn)

        (2)

        在實(shí)際的神經(jīng)網(wǎng)絡(luò)輸入中,其中xi指的是其對(duì)應(yīng)的d維詞向量,該向量可隨機(jī)初始化也可利用訓(xùn)練好的詞向量表初始化。

        (2)再由BLSTM層中的前向LSTM將詞xi及其上文信息計(jì)算表征為向量li,同理后向LSTM將反向讀取該詞序列,且將詞xi及其下文信息計(jì)算表征為ri,然后再將ri和li兩個(gè)向量再連接為向量ci,ci= [ri;li]。其中前向LSTM和后向LSTM具有不同的網(wǎng)絡(luò)參數(shù)。該種方法有效的將詞以及其上下文信息用向量表征出來(lái),已被應(yīng)用到多種自然語(yǔ)言處理任務(wù)。

        (3)定義BLSTM層的輸出分值,假定整個(gè)網(wǎng)絡(luò)的輸出目標(biāo)序列(即所對(duì)應(yīng)的標(biāo)簽序列)為

        y=(y1,y2,…,yn)

        (3)

        則分值由以下公式確定

        (4)

        其中,A是過(guò)渡分值矩陣,Ai,j表示的是從標(biāo)簽i過(guò)渡到標(biāo)簽j的分值。而其中的P代表的是大小為n×k,雙向LSTM的輸出分值矩陣,其中k與目標(biāo)標(biāo)簽分類(lèi)數(shù)相同,Pi,j代表的是單詞i被神經(jīng)網(wǎng)絡(luò)標(biāo)注為j標(biāo)簽的分值。y0和yn是這個(gè)句子所對(duì)應(yīng)的起始和結(jié)束標(biāo)簽,因此A是維度為k+2的方陣。

        在所有的標(biāo)簽序列上Softmax生成目標(biāo)序列y的概率為

        (5)

        在訓(xùn)練過(guò)程中,最大化正確標(biāo)簽序列的對(duì)數(shù)概率

        (6)

        其中,YX代表序列X對(duì)應(yīng)的所有可能的標(biāo)簽序列,從上面的表述可以看出訓(xùn)練網(wǎng)絡(luò)是為了盡量的輸出有效的標(biāo)簽序列。在解碼的時(shí)候,通過(guò)由以下公式

        (7)

        給出的最大分值用于預(yù)測(cè)最合適的標(biāo)簽序列??梢杂脛?dòng)態(tài)規(guī)劃的方法計(jì)算方程(6)中的求和以及方程(7)中的最大后驗(yàn)序列y*,因?yàn)槭菍?duì)輸出之間的相互作用進(jìn)行建模[11]。

        從前面的敘述中,可以得出該模型的參數(shù)分別是分?jǐn)?shù)矩陣A,以及雙向LSTM的參數(shù),即生成矩陣P的參數(shù),CRF層線(xiàn)性特征的權(quán)重和詞向量。其中xi表示的是輸入序列X中每個(gè)詞所對(duì)應(yīng)的詞向量表示,而其中的yi則是與每個(gè)詞所對(duì)應(yīng)的標(biāo)注標(biāo)簽相關(guān)聯(lián)的。使用之前所描述的CRF來(lái)引入相鄰標(biāo)簽之間的約束,代替此層使用的Softmax輸出層,從而得到每個(gè)詞所對(duì)應(yīng)的最終預(yù)測(cè)標(biāo)簽。模型訓(xùn)練最終目標(biāo)使得正確標(biāo)簽的所對(duì)應(yīng)的分值最大,為此對(duì)網(wǎng)絡(luò)進(jìn)行以訓(xùn)練調(diào)整權(quán)重使得似然方程(6)所對(duì)應(yīng)的標(biāo)簽概率最大化。

        2.4 預(yù)訓(xùn)練詞向量

        在未利用預(yù)訓(xùn)練向量初始化向量查詢(xún)表時(shí),將隨機(jī)初始化向量表,然后在后續(xù)訓(xùn)練中調(diào)整參數(shù)的同時(shí),得到相應(yīng)的詞向量表。但是在標(biāo)記訓(xùn)練數(shù)據(jù)資源比較少的情況下,采用隨機(jī)初始化的向量表,容易收斂到局部最優(yōu)解,或者很難收斂。詞的向量化表示為每個(gè)詞提供了連續(xù)空間的表征,這些詞向量一般是利用大規(guī)模的語(yǔ)料庫(kù),可以在包含從淺層神經(jīng)網(wǎng)絡(luò)到卷積神經(jīng)網(wǎng)絡(luò)再到循環(huán)神經(jīng)網(wǎng)絡(luò)等多種模型上訓(xùn)練生成。

        為了訓(xùn)練詞向量,首先是需要相應(yīng)的訓(xùn)練語(yǔ)料庫(kù),不同的語(yǔ)料庫(kù)訓(xùn)練出來(lái)的詞向量效果是不一樣的,為此在本文的實(shí)驗(yàn)中選取了中文維基百科(Cnwiki)的語(yǔ)料庫(kù)和搜狗(Sogou)新聞的語(yǔ)料作為訓(xùn)練數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗分別得到兩個(gè)語(yǔ)料915 MB和1.70 GB的正文數(shù)據(jù)。其次就是訓(xùn)練工具的選擇,主流的有Google在2013年開(kāi)源的Word2Vec以及斯坦福大學(xué)開(kāi)源的GloVe。Word2vec可以在百萬(wàn)數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行高效的訓(xùn)練,其訓(xùn)練得到的詞向量,可以很好地度量詞與詞之間的相似性,且其簡(jiǎn)單高效。Word2Vec主要包含兩個(gè)算法模型,即連續(xù)詞袋模型(continuous bag-of-words,CBOW)和Skip-gram[3]。CBOW利用詞語(yǔ)的上下文來(lái)預(yù)測(cè)詞語(yǔ),而Skip-gram利用詞語(yǔ)來(lái)預(yù)測(cè)其上下文。

        在本文的實(shí)驗(yàn)中將利用Gensim工具包中的Word2Vec,在中文維基百科語(yǔ)料庫(kù)和搜狗新聞?wù)Z料庫(kù)上以Skip-gram模型分別得到565 MB和390 MB的100維詞向量,其中前者包含619 275個(gè)詞的向量,后者含425 957個(gè)詞的向量。

        2.5 Dropout

        深層神經(jīng)網(wǎng)絡(luò)包含多個(gè)非線(xiàn)性隱藏層,這使得它們成為非常具有表現(xiàn)力的模型,可以學(xué)習(xí)到輸入與輸出之間非常復(fù)雜的關(guān)系。然而,使用有限的訓(xùn)練數(shù)據(jù),這些復(fù)雜關(guān)系中許多都是采樣噪聲的結(jié)果,它們存在于訓(xùn)練集中但是并沒(méi)有出現(xiàn)在實(shí)際的測(cè)試集中,這樣將導(dǎo)致過(guò)擬合問(wèn)題,使得訓(xùn)練出來(lái)的模型泛化能力降低。在本文的實(shí)驗(yàn)中,將根據(jù)Hinton等[5]提出的Dropout訓(xùn)練方法,即在訓(xùn)練過(guò)程中隨機(jī)的使得雙向LSTM輸入之前的一些權(quán)重不更新(但依舊是連接的),這樣可以防止過(guò)擬合。

        3 實(shí)驗(yàn)與分析

        3.1 數(shù)據(jù)集

        本文所使用的數(shù)據(jù)集是從多家上市公司的公開(kāi)招股書(shū)PDF中獲取的1000條非結(jié)構(gòu)化的高管簡(jiǎn)介信息文本,共包含76780個(gè)待標(biāo)注項(xiàng),其中一條為一個(gè)人的簡(jiǎn)介信息,每條包含150~400個(gè)漢字。并根據(jù)嚴(yán)格制定的標(biāo)注規(guī)范由多人對(duì)其進(jìn)行標(biāo)注,避免由于人主觀(guān)性差異帶來(lái)的影響。其中標(biāo)注規(guī)范中的13個(gè)基本標(biāo)簽見(jiàn)表1,加入IOB信息后則有27個(gè)標(biāo)簽。其中B表示的標(biāo)簽的開(kāi)頭,I表示的是實(shí)體標(biāo)簽非開(kāi)頭信息,比如“北京大學(xué)”對(duì)應(yīng)的標(biāo)簽分別為B-org.school、I-org.school。O指的是其它,即代表非所要抽取的其它信息實(shí)體。數(shù)據(jù)集按8∶1∶1的比例分割為訓(xùn)練集、開(kāi)發(fā)集、測(cè)試集。

        3.2 評(píng)價(jià)指標(biāo)

        本文采用準(zhǔn)確率(Precision)、召回率(Recall)、F1-Score3種評(píng)價(jià)指標(biāo),其值越高表示標(biāo)注識(shí)別的效果越好,除此以外記錄F1-score隨著訓(xùn)練Epoch次數(shù)的變化曲線(xiàn)

        (8)

        其中,為了保證實(shí)驗(yàn)結(jié)果的公平客觀(guān),實(shí)驗(yàn)結(jié)果采取10折交叉驗(yàn)證。將數(shù)據(jù)集分成10等份,輪流將其中的1份作為測(cè)試集,其余9份作為訓(xùn)練數(shù)據(jù),并在訓(xùn)練數(shù)據(jù)中拿出1份作為驗(yàn)證集,用于訓(xùn)練中的模型評(píng)估以及Early Stopping,Early Stopping可以防止過(guò)擬合和節(jié)省模型訓(xùn)練時(shí)間。

        3.3 實(shí)驗(yàn)步驟

        本文方法的實(shí)驗(yàn)基本流程如下:

        (1)數(shù)據(jù)預(yù)處理:對(duì)數(shù)據(jù)集進(jìn)行清洗,根據(jù)相應(yīng)的xml標(biāo)簽信息將其數(shù)據(jù)集中的處理標(biāo)注對(duì)象與其對(duì)應(yīng)的標(biāo)簽寫(xiě)入兩個(gè)二維List(Python數(shù)據(jù)類(lèi)型)中,兩條List的第一維索引對(duì)應(yīng)的簡(jiǎn)歷的數(shù)字ID,第二維分別對(duì)應(yīng)簡(jiǎn)歷對(duì)象內(nèi)容和對(duì)應(yīng)的標(biāo)簽信息,然后使用分詞工具對(duì)第一個(gè)含有簡(jiǎn)歷信息內(nèi)容的List進(jìn)行分詞,并引入IOB信息。

        (2)模型訓(xùn)練:對(duì)于上述的神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型,以反向傳播(BP)算法來(lái)訓(xùn)練網(wǎng)絡(luò),用隨機(jī)梯度下降(SGD)算法在每個(gè)訓(xùn)練樣本時(shí)調(diào)整權(quán)重參數(shù),其中學(xué)習(xí)率的變動(dòng)區(qū)間為0.001到0.06,學(xué)習(xí)率的選取對(duì)結(jié)果有重要的影響,如果學(xué)習(xí)率過(guò)大就會(huì)導(dǎo)致局部直線(xiàn)化嚴(yán)重,就會(huì)丟失很多的細(xì)節(jié)信息如果學(xué)習(xí)率過(guò)小為了盡量的擬合曲線(xiàn),就需要更多的樣本,學(xué)習(xí)訓(xùn)練的時(shí)間會(huì)更長(zhǎng),也容易造成過(guò)擬合。在實(shí)驗(yàn)過(guò)程中,通過(guò)多組實(shí)驗(yàn)的對(duì)比后,學(xué)習(xí)率設(shè)置為0.01為宜。

        表1 標(biāo)注標(biāo)簽以及相關(guān)說(shuō)明

        在本文的BLSTM與CRF混合模型中前向和后向LSTM的維度都設(shè)置為100,對(duì)其進(jìn)行微調(diào)并實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)隱藏層維度對(duì)性能并沒(méi)有明顯的影響。詞向量表征的維度大小選取與語(yǔ)料庫(kù)的大小相關(guān),如果維度過(guò)大將會(huì)導(dǎo)致訓(xùn)練的時(shí)間加長(zhǎng),復(fù)雜度增加;維度過(guò)小將不能完全表征詞豐富的語(yǔ)義信息,為此綜合多方面考慮以及小組實(shí)驗(yàn)的對(duì)比,默認(rèn)設(shè)定詞向量維度為100。Dropout參數(shù)rate設(shè)定為0.5,參數(shù)設(shè)定過(guò)小將會(huì)導(dǎo)致更長(zhǎng)的訓(xùn)練時(shí)間,而且也防止過(guò)擬合的效果也會(huì)降低;然而參數(shù)設(shè)定過(guò)高將會(huì)導(dǎo)致非線(xiàn)性擬合不夠,降低性能,影響標(biāo)注效果。

        表3中Dr是指Dropout,Pre(S)指使用Sogou語(yǔ)料訓(xùn)練的詞向量表,Pre(W)指使用Cnwiki語(yǔ)料訓(xùn)練的詞向量表。

        實(shí)驗(yàn)結(jié)果表明,聯(lián)合了神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)模型的簡(jiǎn)歷信息實(shí)體抽取方法要明顯的優(yōu)于傳統(tǒng)的簡(jiǎn)歷抽取方法。首先單純從表2的實(shí)驗(yàn)結(jié)果來(lái)看,其實(shí)傳統(tǒng)RNN,比如Elman-RNN、Jordan-RNN并不見(jiàn)得在標(biāo)注效果上要優(yōu)于基于CRF的標(biāo)注方法,因?yàn)镃RF求解的是全局最優(yōu)解,而RNN實(shí)質(zhì)上求解的是局部最優(yōu)解,RNN相對(duì)于CRF的優(yōu)勢(shì)在于無(wú)需人工定制的特征模板,而是由神經(jīng)網(wǎng)絡(luò)自動(dòng)的學(xué)習(xí)序列內(nèi)在的特征。而其中LSTM和BLSTM的標(biāo)注效果要好于RNN,這是由于LSTM在一定程度上緩解了序列的長(zhǎng)距離依賴(lài)問(wèn)題,特別是對(duì)于簡(jiǎn)歷信息元抽取,需要一次性對(duì)整篇的簡(jiǎn)歷文本進(jìn)行標(biāo)注識(shí)別,但是BLSTM的效果仍比CRF差一些。但是BLSTM與CRF聯(lián)合方法要明顯優(yōu)于兩者單獨(dú)作為標(biāo)注模型的方法。

        表2 各模型實(shí)驗(yàn)結(jié)果對(duì)比

        從表3和圖4中可以看出,在該聯(lián)合模型中添加相關(guān)優(yōu)化方法Dropout和預(yù)訓(xùn)練向量,由表2和表3的數(shù)據(jù)對(duì)比可以看出,加入Dropout方法后F1值提升了近2%,原因在于LSTM由于其網(wǎng)絡(luò)的復(fù)雜性增加,權(quán)重參數(shù)也更多,表征能力也更強(qiáng),也更加容易出現(xiàn)過(guò)擬合,Dropout的防過(guò)擬合效果明顯。在表3的數(shù)據(jù)中可以看出在加入Sogou語(yǔ)料庫(kù)訓(xùn)練的預(yù)向量之后,標(biāo)注的效果反而比隨機(jī)初始化向量的效果變差了,由于搜狗新聞?wù)Z料庫(kù)更加的偏重于新聞?lì)惖谋硎觯沟糜?xùn)練的向量帶有傾向性,進(jìn)一步的導(dǎo)致梯度下降時(shí)的路徑并非最優(yōu)路徑。對(duì)于中文維基百科語(yǔ)料訓(xùn)練所得向量的加入提升也比較明顯。從圖4中的曲線(xiàn)可以看出,預(yù)訓(xùn)練向量的加入可以使得訓(xùn)練的提前達(dá)到收斂,曲線(xiàn)更加平滑,混合的簡(jiǎn)歷標(biāo)注抽取模型在訓(xùn)練了大概20 Epoch就可得到最優(yōu)模型參數(shù),極大降低了模型訓(xùn)練的時(shí)間,而且本文提出的方法也比以往的模型方法得到的標(biāo)注性能F1值提升了近8%的絕對(duì)百分比。表4中展現(xiàn)的是利用BLSTM-CRF模型結(jié)合了中文維基預(yù)訓(xùn)練向量初始化以及Dropout方法的各標(biāo)簽標(biāo)注性能及占比。

        表3 模型優(yōu)化方法對(duì)比

        圖4 各方法F1值與隨Epoch次數(shù)的變化曲線(xiàn)

        標(biāo)簽PrecisionRecallF1-score占有比pers.name99.48%96.95%98.2011.69%pers.male96.88%96.88%96.883.90%pers.female100.00%100.00%100.001.77%pers.birth100.00%98.80%99.395.00%pers.country100.00%100.00%100.004.75%pers.edu91.03%92.21%91.614.75%pers.school71.05%84.38%77.142.31%org.time82.89%95.45%88.734.63%org.company90.30%97.72%93.8614.43%org.pos87.01%95.65%91.1210.78%gsp.time93.06%88.74%90.858.77%gsp.company82.25%81.90%82.0714.07%gsp.pos85.66%82.61%84.1014.86%

        4 結(jié)束語(yǔ)

        本文提出了一種簡(jiǎn)歷信息實(shí)體標(biāo)注抽取的方法,該方法利用深度學(xué)習(xí)強(qiáng)大的特征學(xué)習(xí)能力,特別是LSTM的序列建模能力,由機(jī)器自動(dòng)的獲取詞序列的特征,并以融合了詞所在語(yǔ)境信息的向量來(lái)表征詞,且由CRF層引入標(biāo)簽之間的約束作全局最優(yōu)標(biāo)簽預(yù)測(cè),并輔以預(yù)訓(xùn)練詞向量初始化詞向量表。實(shí)驗(yàn)結(jié)果表明,該方法相較于傳統(tǒng)的簡(jiǎn)歷實(shí)體抽取方法,不僅在標(biāo)注性能上得到整體的提升,而且可有效避免人工定制特征抽取規(guī)則的麻煩、降低實(shí)際開(kāi)發(fā)的難度與成本。在當(dāng)前的大數(shù)據(jù)環(huán)境下,將該方法與云計(jì)算平臺(tái)相結(jié)合并引入基于深層神經(jīng)網(wǎng)絡(luò)的分詞技術(shù),研究出能夠高速處理大數(shù)據(jù)量多領(lǐng)域文本的端到端系統(tǒng),是下一步的研究方向。

        猜你喜歡
        信息方法模型
        一半模型
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        展會(huì)信息
        中文字幕亚洲区第一页| 国模吧无码一区二区三区| 国产又粗又猛又黄又爽无遮挡 | 久久久久亚洲精品无码网址 | 亚洲中文字幕久久精品品| 国产夫妇肉麻对白| 免费拍拍拍网站| 欧美白人最猛性xxxxx| 在线观看视频亚洲| 99久久久无码国产精品动漫| 日本女优中文字幕有码| 一区二区三区四区亚洲免费| 国产av一区二区三区无码野战| 中年熟妇的大黑p| 亚洲另类国产综合第一| 国产女奸网站在线观看| 国产一级一片内射在线| 亚洲成人av一区免费看| 国产黑丝美腿在线观看| 亚洲愉拍99热成人精品热久久| 国产亚洲精品久久久久久久久动漫 | 久久水蜜桃亚洲av无码精品麻豆| 一区=区三区国产视频| 亚洲sm另类一区二区三区| 欧美性xxxxx极品老少| 国产精品国产三级国av在线观看| 久久综合网天天 | 激情五月婷婷久久综合| 亚洲精品大全中文字幕| 国产欧美综合一区二区三区| 成人免费一区二区三区| 在线一区不卡网址观看| 亚洲av中文aⅴ无码av不卡| 国产午夜视频高清在线观看 | 国产精品 人妻互换| 女人与牲口性恔配视频免费| 日本女优在线观看一区二区三区| 亚洲精选自偷拍一区二| 国产成人午夜无码电影在线观看| 中文字幕在线亚洲日韩6页手机版| 国产精品一区二区久久精品蜜臀|