亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lattice-LSTM的多粒度中文分詞

        2019-02-25 05:49:28張文靜張惠蒙楊麟兒荀恩東
        中文信息學報 2019年1期
        關鍵詞:分詞粒度向量

        張文靜,張惠蒙,楊麟兒,荀恩東

        (1. 北京語言大學 語言資源高精尖創(chuàng)新中心,北京 100083;2. 北京語言大學 信息科學學院,北京 100083)

        0 引言

        中文分詞任務是中文信息處理領域中最為經(jīng)典且關鍵的課題之一。在過去的幾十年中,研究者們對其進行了不斷的探索。早期,基于詞表的最大長度匹配方法被廣泛用來解決該問題。從2003年起,分詞問題逐漸被視為序列標注任務[1]。最大熵[2]、條件隨機場[3-5]等模型被用來解決序列標注任務。然而,傳統(tǒng)機器學習方法一般采用特征工程的方式,依賴專家經(jīng)驗,成本較高。由于神經(jīng)網(wǎng)絡模型可以自動隱式提取特征,因此近年來被廣泛用于解決分詞任務。Zheng 等[6]提出神經(jīng)網(wǎng)絡中文分詞的方法,將字向量作為輸入,用一個簡單的神經(jīng)網(wǎng)絡模型替代了最大熵模型[2]。Chen等[7]提出用長短期記憶神經(jīng)網(wǎng)絡(long short-term memory neural networks,LSTM)來對句子進行建模,捕捉字與字之間的長距離依賴關系。Zhang等[8]將基于轉移的思想應用于分詞任務中并取得了很好的效果。Yang等[9]使用了大量的外部訓練語料進行預訓練,利用外部知識提高了分詞效果。

        中文分詞任務在單粒度人工標注語料下取得了不錯的成績,然而,中文分詞存在分詞標準不統(tǒng)一的問題,比如,對于不同的人工標注語料,如Microsoft Research(MSR)數(shù)據(jù)集[10],Peking University People Daily(PPD)數(shù)據(jù)集[11],Penn Chinese Treebank(CTB)數(shù)據(jù)集[12],分詞標準是有所區(qū)別的。表1給出了三種分詞標準下示例句子的分詞結果。

        表1 三種分詞標準下示例句子的分詞結果

        Sproat等[13]的研究表明以漢語為母語者在未提供明確標準的情況下對于詞邊界的識別度約為76%??梢?,單粒度中文分詞對人工數(shù)據(jù)標注的工作提出了很大的挑戰(zhàn)。并且,模型在對單粒度標注語料進行訓練時,會更多地學習標注標準的特征,而不是詞語的特征。Gong等[14]構建了多粒度中文分詞語料庫,并利用短語句法分析和序列標注的思想來解決多粒度中文分詞任務,取得了很好的結果。這一工作為中文分詞任務開創(chuàng)了新的思路,為研究者們提供了新的研究方向。多粒度中文分詞的優(yōu)勢在于其應用于信息檢索和機器翻譯等任務時具有一定的容錯性,可減少分詞錯誤對后續(xù)任務的影響。而且不同粒度的分詞結果可以起到互補作用:一方面,粗粒度詞語可以使模型更準確地捕獲信息從而進行分析;另一方面,細粒度詞語可以減少數(shù)據(jù)稀疏性并體現(xiàn)出對語言更深層次的理解,為后續(xù)任務打下良好基礎。

        基于字的多粒度中文分詞模型的缺點之一是沒有充分利用不同粒度的詞語信息。為了彌補這一缺陷,我們把詞語信息作為特征輸入到模型中。由于這些詞語中包含多種粒度,可以為模型提供更多的知識引導,使得模型可以更好地生成多粒度中文分詞結果。本文在基于字的LSTM模型中加入潛在的粒度多樣化的詞語信息作為特征,并構建Lattice-LSTM來對這些詞語進行建模。如圖1所示,我們利用自動獲取的詞表來構建網(wǎng)格結構。例如,“和平共處”“和平”“共處”表示兩種分詞標準得到的多粒度詞語結果。Zhang等[15]的工作表明混合詞典信息的網(wǎng)格LSTM結構可以建模句子從開始字到結束字的信息流動過程。我們將本文提出的模型在Gong等[14]構建的多粒度標注數(shù)據(jù)上進行了訓練。實驗表明,模型可以從上下文中自動尋找到多粒度中文分詞結果,并取得很好的效果。與基于字的LSTM多粒度中文分詞模型相比,我們的模型利用了多粒度的詞語信息作為模型特征。實驗結果表明,我們的模型結果要好于基于字的LSTM多粒度中文分詞模型和基于句法分析的多粒度中文分詞模型,并且在多粒度中文數(shù)據(jù)集上取得了目前最好的結果。

        圖1 網(wǎng)格結構

        1 模型

        我們在基于字的LSTM模型中加入潛在的粒度多樣化的詞語信息并構建Lattice-LSTM模型。給定句子s=c1,c2,…,cm作為輸入,其中,cj代表這個句子中的第j個字。輸出是粒度從粗到細的多粒度標簽,如表2所示。每個詞在單粒度上采用BIES標簽體系。

        表2 多粒度標簽

        1.1 基于字的LSTM-CRF模型

        循環(huán)神經(jīng)網(wǎng)絡(RNN)利用隱藏狀態(tài)來保存歷史信息,是解決序列標注問題的一種有效方法。然而,由于梯度消失的原因,RNN不能很好地學習到長距離依賴關系。長短期記憶網(wǎng)絡(LSTM)在RNN的基礎上引入記憶單元來記錄狀態(tài)信息,并通過三種名為輸入門、遺忘門和輸出門的門結構來更新隱藏狀態(tài)和記憶單元。

        (1)

        (2)

        圖2 本文提出的模型

        ? Char+bichar

        雙字特征在中文分詞任務中對于字特征的表示起到了很好的作用[7,9,16]。于是,通過將單字向量和雙字向量進行拼接的方式,在基于字的LSTM-CRF模型中加入雙字特征,如式(3)所示。

        (3)

        其中,eb表示雙字向量映射表。

        1.2 Lattice-LSTM-CRF模型

        模型的全部結構如圖2(b)所示。我們的模型可以看作是在基于字的LSTM-CRF模型基礎上加入詞特征,并利用門結構引導信息的流動。

        (4)

        (5)

        (6)

        (7)

        (8)

        (9)

        2.3 CRF層

        一個標準的CRF(層)作用在h1,h2,…,hm上。標簽序列y=l1,l2,…,lm的生成概率如式(10)所示。

        (10)

        其中,y′是任意可能的標簽。我們采用維特比算法來得到最可能的標簽序列。

        2 實驗

        2.1 數(shù)據(jù)集

        對于多粒度中文分詞任務,實驗所用的訓練語料和測試語料來源于Gong等[14]構建的多粒度標注數(shù)據(jù)集。該數(shù)據(jù)集由MSR,PPD,CTB這三個分詞標準不一致的數(shù)據(jù)集以及人工標注測試數(shù)據(jù)集構成,詳細信息如表3所示。

        表3 訓練集、開發(fā)集和測試集統(tǒng)計信息

        2.2 評測指標

        2.3 超參數(shù)及訓練設置

        超參數(shù)的選擇對神經(jīng)網(wǎng)絡模型有很大的影響。在我們的模型中,超參數(shù)的設置如表4所示。字向量、雙字向量及網(wǎng)格中的詞向量都采用隨機初始化的方式,且向量維度都設為50。LSTM模型的隱藏層維度設為200,層數(shù)為1。對于字向量和網(wǎng)格中的詞向量都使用Dropout[17],且值設為0.5。優(yōu)化算法使用SGD(隨機梯度下降法)對模型優(yōu)化,且初始學習率設為0.015并以0.05的速率進行衰減。我們選擇在開發(fā)集上效果最好的模型來對測試集進行評測。由于時間和計算資源的限制,之后我們將會繼續(xù)探索預訓練詞向量和詞向量表示對模型的影響。

        表4 超參數(shù)值表

        2.4 實驗結果及分析

        表5給出了本文提出的基于Lattice-LSTM的多粒度中文分詞模型在多粒度中文標注數(shù)據(jù)開發(fā)集和測試集上的實驗結果,且同Gong等[14]的實驗結果進行了對比。本文提出的方法是在基于字的LSTM多粒度中文分詞模型基礎上,加入了網(wǎng)格結構。從表5中我們可以看出,我們的模型效果要好于Gong等[14]基于字的LSTM模型的效果,開發(fā)集的F1值從95.41%提高到了96.78%。而且,表5的實驗結果表明,同Lattice-LSTM模型相比,引入雙字特征之后的Lattice-LSTM模型并沒有使得開發(fā)集的F1值很大的提升。這是因為雖然雙字向量在一定程度上可以消除單字歧義,但是雙字向量也是模棱兩可的。

        通過對實驗結果的對比與分析,本文提出的Lattice-LSTM多粒度中文分詞模型好于Gong等[14]提出的基于字的LSTM多粒度中文分詞模型和基于句法分析的多粒度中文分詞模型,并且對于引入雙字特征后的Gong等[14]的模型,本文模型的實驗效果依然顯得更好?;贚attice-LSTM的多粒度中文分詞模型充分利用了蘊含著分詞粒度多樣化特征的詞語信息,對多粒度中文分詞任務實驗效果的提升起到了一定的幫助作用。

        表5 本文模型與Gong等[14]模型實驗結果對比

        3 相關工作

        最大長度匹配方法是中文分詞的經(jīng)典方法,此方法基于合適的搭配詞典就可以取得一定程度上可以使人接受的性能。Xue[1]是最先將分詞問題轉化成基于字的序列標注問題。Peng等[4]的工作表明將條件隨機場應用于基于字的序列標注模型中可以取得不錯的效果。研究者們將這些方法用于神經(jīng)網(wǎng)絡模型中[6-7,18-19]。除了字特征外,詞特征以及將詞特征與字特征相結合的方法也被應用于神經(jīng)網(wǎng)絡模型[8,20-23]。

        研究者們對樹結構循環(huán)神經(jīng)網(wǎng)絡進行不斷改進,形成了網(wǎng)格結構循環(huán)神經(jīng)網(wǎng)絡。網(wǎng)格RNNs被應用于解決機器翻譯[24]、同聲傳譯[25]、命名實體識別[15]等問題。Su等[24]提出基于詞網(wǎng)格的RNN編碼器用于解決機器翻譯問題。Sperber等[25]將樹結構LSTM轉化為網(wǎng)格LSTM并融合了語音翻譯的詞典信息,取得了不錯的效果。Zhang等[15]提出將詞典特征融入到網(wǎng)格結構RNNs中以解決中文命名實體識別問題。此方法在字序列信息的基礎上充分利用了詞的信息,減少了分詞錯誤信息的傳遞,同時取得了很好的結果。

        針對多粒度中文分詞任務,我們在傳統(tǒng)基于字的LSTM模型基礎上,加入了多種分詞粒度的詞典信息。與傳統(tǒng)模型相比,我們把多種分詞粒度的詞語信息作為特征輸入到模型中。這些詞語中包含多種粒度的詞語,可以在一定程度上為模型提供更多的知識引導。在網(wǎng)格結構的輔助下,本文提出的模型對不同粒度的分詞標準都有較強的捕捉能力。

        4 結論

        本文針對多粒度中文分詞任務,提出一種基于Lattice-LSTM的多粒度中文分詞模型。在基于字的LSTM多粒度中文分詞模型的基礎上,融合了多種分詞粒度的詞語信息,取得了更好的效果,可以捕捉到不同粒度的分詞標準。我們會探索多粒度中文分詞在信息檢索、機器翻譯等任務上的應用。

        猜你喜歡
        分詞粒度向量
        向量的分解
        粉末粒度對純Re坯顯微組織與力學性能的影響
        聚焦“向量與三角”創(chuàng)新題
        基于矩陣的多粒度粗糙集粒度約簡方法
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        基于粒度矩陣的程度多粒度粗糙集粒度約簡
        值得重視的分詞的特殊用法
        向量垂直在解析幾何中的應用
        向量五種“變身” 玩轉圓錐曲線
        高考分詞作狀語考點歸納與疑難解析
        久久这里都是精品99| 少妇人妻偷人精品视蜜桃| 一区二区三区人妻少妇| 人人妻人人澡人人爽人人精品av| 野花视频在线观看免费| 亚洲国产精品高清一区| 丰满熟女高潮毛茸茸欧洲视频 | 成人久久久久久久久久久| 国产精品99久久免费| 国产91吞精一区二区三区| 97久久精品人人妻人人| 国产欧美精品在线一区二区三区| 国产免费一级高清淫日本片| 国产精品美女| 国产在亚洲线视频观看| mm在线精品视频| 97中文字幕一区二区| 久久精品国产亚洲av网站 | 亚洲精品午夜无码专区| 久久日本三级韩国三级| 97久久久久人妻精品专区| 98精品国产综合久久| 午夜影院91| 日本高清二区视频久二区| 日韩精品综合在线视频| 日韩精品一区二区三区乱码| 十四以下岁毛片带血a级| 国产精品视频一区二区三区不卡| 亚洲va久久久噜噜噜久久天堂| 精品伊人久久大线蕉色首页| 成年站免费网站看v片在线| 熟妇丰满多毛的大隂户| 九九99久久精品在免费线18| 国产精品女同学| 亚洲一区精品在线中文字幕| 国产乱对白刺激视频| 中国xxx农村性视频| 国产精品免费久久久久影院 | 午夜免费视频| 精品无码人妻一区二区三区品| 97人人超碰国产精品最新o|