亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)方法的句子及語(yǔ)素邊界劃分研究

        2017-09-20 06:27:29TolegenGulmira鄔春學(xué)
        電子科技 2017年9期
        關(guān)鍵詞:對(duì)模型語(yǔ)素字符

        Tolegen Gulmira,鄔春學(xué)

        (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

        基于深度學(xué)習(xí)方法的句子及語(yǔ)素邊界劃分研究

        Tolegen Gulmira,鄔春學(xué)

        (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

        針對(duì)哈薩克語(yǔ)的句子、單詞及語(yǔ)素邊界檢測(cè)問(wèn)題,文中提出了一種基于深度學(xué)習(xí)的邊界檢測(cè)方法:CNN-TSS模型。通過(guò)將邊界檢測(cè)問(wèn)題視為序列標(biāo)注任務(wù),將句子、單詞及語(yǔ)素的邊界檢測(cè)合并為一種任務(wù)完成。通過(guò)對(duì)CNN-TSS模型選取最優(yōu)超參數(shù),對(duì)不同語(yǔ)言進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明,該模型在不使用額外特征的情況下,在性能上超過(guò)了基于傳統(tǒng)方法的邊界檢測(cè)系統(tǒng)。

        句子邊界檢測(cè);語(yǔ)素邊界檢測(cè);黏著語(yǔ);深度學(xué)習(xí)

        句子、單詞及語(yǔ)素邊界劃分任務(wù)是詞性標(biāo)注[1]、機(jī)器翻譯、篇章理解等自然語(yǔ)言處理(Natural Language Processing,NLP)任務(wù)的基礎(chǔ)研究之一。該任務(wù)的主要目的是自動(dòng)找出文本中句子、單詞、語(yǔ)素的左右邊界,使得處理后的文本可以用于其他的NLP任務(wù)當(dāng)中。雖然在NLP研究中,所采用的語(yǔ)料都已經(jīng)經(jīng)過(guò)了人工標(biāo)注和劃分,當(dāng)語(yǔ)料庫(kù)添加其他新領(lǐng)域文本時(shí),則首先需要對(duì)源文本做分句和分詞等處理,如果分句和分詞模型準(zhǔn)確率比較高,則會(huì)有利于其他后續(xù)工作的開(kāi)展。而且多數(shù)NLP應(yīng)用在實(shí)際使用時(shí),通常首先就需要對(duì)原文本進(jìn)行分句和分詞等處理。所以實(shí)現(xiàn)一種準(zhǔn)確率較為理想的分句、分詞模型是NLP任務(wù)的關(guān)鍵之一。

        句子的邊界通常由句號(hào)、問(wèn)號(hào)、感嘆號(hào)和省略號(hào)等符號(hào)來(lái)表示,然而這些符號(hào)使用會(huì)出現(xiàn)歧異,例如在英語(yǔ)的縮寫(xiě)詞當(dāng)中就會(huì)使用與句號(hào)等符號(hào),這對(duì)句子邊界的劃分帶來(lái)一定困難。此外,對(duì)英語(yǔ)及黏著語(yǔ)(Agglutinative Language)來(lái)說(shuō),如哈薩克語(yǔ)(Kazakh),土耳其語(yǔ) (Turkish),雖然這些語(yǔ)言的單詞邊界可以通過(guò)空格來(lái)識(shí)別,但是有些復(fù)雜的形態(tài)結(jié)構(gòu)的單詞,在實(shí)際中,需要將其分為兩個(gè)標(biāo)示符(token)來(lái)看待,因?yàn)轲ぶZ(yǔ)的構(gòu)詞法是通過(guò)對(duì)詞根綴加不同后綴而形成,不同的后綴有一定的語(yǔ)義和語(yǔ)法功能,所以這將會(huì)有利于語(yǔ)法分析、文本對(duì)齊、機(jī)器翻譯等任務(wù)的進(jìn)行。

        針對(duì)哈薩克語(yǔ)的句子、單詞及語(yǔ)素邊界劃分問(wèn)題,本文提出了基于深度學(xué)習(xí)方法的邊界劃分模型。并將句子、單詞及語(yǔ)素邊界劃分任務(wù)作為一種序列標(biāo)注任務(wù)一次完成[2]。本文中實(shí)現(xiàn)了基于字符的句子及語(yǔ)素邊界劃分模型(Character Neural Networks for Token and Sentence Segmentation, CNN-TSS),簡(jiǎn)稱(chēng)CNN-TSS模型。為有效評(píng)估CNN-TSS模型的性能,本文首先對(duì)哈薩克的句子,語(yǔ)素邊界劃分任務(wù)進(jìn)行了測(cè)試,而且在其他語(yǔ)言上與已有的工作進(jìn)行了系統(tǒng)的比較。

        1 相關(guān)工作

        通常,句子、單詞及語(yǔ)素邊界劃分任務(wù)作為獨(dú)立不同的任務(wù)來(lái)完成,但為了進(jìn)一步提高模型的準(zhǔn)確率,可以共享不同任務(wù)的信息,即作為一種任務(wù)來(lái)解決。一般有兩種解決方法:第一種是基于規(guī)則的方法;另一種是基于機(jī)器學(xué)習(xí)的方法。前者[3-4]需要大量的人工編寫(xiě)的正則表達(dá)式規(guī)則,通過(guò)匹配規(guī)則達(dá)到邊界劃分效果。但該類(lèi)方法在性能,可擴(kuò)展性及適用性上都比較弱,對(duì)新領(lǐng)域語(yǔ)料需要重新設(shè)計(jì)和編寫(xiě)規(guī)則。后者通常分為兩種:有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法的邊界檢測(cè)模型。文獻(xiàn)[2]提出了獨(dú)立于語(yǔ)言特征的基于無(wú)監(jiān)督學(xué)習(xí)方法的句子邊界識(shí)別模型- Punkt系統(tǒng)。該系統(tǒng)主要包含了兩個(gè)檢測(cè)階段,即縮寫(xiě)檢測(cè)和標(biāo)示符分類(lèi)階段。從實(shí)驗(yàn)結(jié)果來(lái)看,Punkt 在分句任務(wù)上得到了比較理想的結(jié)果,超過(guò)了基于規(guī)則的方法。

        目前已有的基于有監(jiān)督學(xué)習(xí)方法的分句模型多數(shù)都使用了額外的特征集合,如在英文中使用單詞大小寫(xiě),縮寫(xiě)詞列表等。模型主要采用了最大熵模型(Maximum Entropy Model)[7]和條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型[8]。文獻(xiàn)[1]提出了基于CRF的句子及單詞邊界自動(dòng)劃分模型Elephant系統(tǒng)。該模型將每個(gè)字符視為標(biāo)注單元,采用Unicode類(lèi)別,Unicode編碼,神經(jīng)網(wǎng)絡(luò)模型隱含層特征以及這些特征組合作為特征,在英語(yǔ)、意大利語(yǔ)及荷蘭語(yǔ)上的分詞和分句語(yǔ)料上進(jìn)行了測(cè)試,并取得了比較好的結(jié)果。

        為避免傳統(tǒng)方法中所需要的特征工程,本文實(shí)現(xiàn)了基于深度學(xué)習(xí)方法的句子,單詞及語(yǔ)素邊界劃分模型(CNN-TSS),而且在該模型中,本文將句子,單詞及語(yǔ)素邊界劃分作為一種任務(wù)解決,并且在沒(méi)有采用額外的特征的情況下,將其與上述的Punk和Elephant系統(tǒng)進(jìn)行了比較。

        2 IOB序列標(biāo)注

        IOB標(biāo)注方案是NLP序列標(biāo)注任務(wù),如詞性標(biāo)注,命名實(shí)體識(shí)別等任務(wù)中常用的一種標(biāo)注方案。本文使用了IOB標(biāo)注方案來(lái)識(shí)別句子,詞語(yǔ)和語(yǔ)素的邊界。該方案包含了I、O、S、T標(biāo)簽,其中,S和T分別表示句子和token的開(kāi)始邊界。將token內(nèi)部的字符標(biāo)注為I,token外部的字符標(biāo)注為O。這種標(biāo)注方案的有利之處在于,不僅可以劃分句子的開(kāi)始和結(jié)束邊界,也可以將一個(gè)單詞根據(jù)所需要的需求劃分為幾個(gè)token。比如對(duì)英語(yǔ)單詞didn’t來(lái)說(shuō),可以將其劃分為兩個(gè)token: did 和 n’t。 Table 1 給出了相應(yīng)的IOB序列標(biāo)注的例子。 這里將句子中的每一個(gè)字符標(biāo)注為IOB標(biāo)簽的一個(gè)標(biāo)簽來(lái)區(qū)分句子和token的邊界。

        表1 IOB序列標(biāo)注舉例,每個(gè)字符對(duì)應(yīng)于一個(gè)標(biāo)簽

        3 基于字符的深度網(wǎng)絡(luò)模型

        在大多數(shù)NLP序列標(biāo)注任務(wù)中,基于詞的深度學(xué)習(xí)模型已經(jīng)得到了廣泛的使用[5]。 但本文對(duì)句子、單詞及語(yǔ)素邊界劃分任務(wù)引入基于字符的深度學(xué)習(xí)模型,稱(chēng)其為CNN-TSS模型。該模型主要由基于窗口的字符映射層非線(xiàn)性層和輸出層組成。

        3.1 基于窗口的字符映射層

        定義C為從訓(xùn)練集中收集的字符集合。其中每個(gè)字符xi∈C可以表示為一個(gè)d維向量Mxi∈R1×d。將C中的所有字符的向量存入字符嵌入矩陣中M∈Rd×|C|,其中|C|為字符集大小。每個(gè)字符xi∈C都有一個(gè)索引系數(shù)ki,該系數(shù)為字符xi的向量在字符嵌入矩陣中的位置。對(duì)輸入的字符,輸入層能將相應(yīng)字符的向量提取出來(lái)表示為L(zhǎng)TM(·)

        LTM(ki)=Mxi

        (1)

        本文中采用了滑動(dòng)窗口方法,定義w為窗口大小,則對(duì)w大小窗口的字符,輸入層中得到的向量可以表示為

        (2)

        3.2 非線(xiàn)性層

        非線(xiàn)性層是將前一層的輸出作為輸入,經(jīng)過(guò)線(xiàn)性層的映射,并使用激活函數(shù)從原始的向量特征上進(jìn)一步提取高維非線(xiàn)性特征的過(guò)程,其計(jì)算過(guò)程可以表示為

        (3)

        其中,σ為T(mén)anh激活函數(shù);W1為模型參數(shù);b1為bias項(xiàng);h為隱含層的輸出。

        3.3 輸出層

        模型的輸出層將隱含層的輸出作為輸入,對(duì)當(dāng)前窗口的中心字符計(jì)算出相應(yīng)標(biāo)簽的概率,其可以表示為

        Y(x,T,θ)=softmax(W2h+b2)

        (4)

        4 實(shí)驗(yàn)結(jié)果及分析

        為測(cè)試CNN-TSS模型的性能,本文安排了兩組實(shí)驗(yàn):(1)分析不同超參數(shù)對(duì)模型性能的影響;(2)進(jìn)行最終測(cè)試并與已有工作進(jìn)行比較。實(shí)驗(yàn)中使用了精確率(Accuracy)作為評(píng)估模型的性能的指標(biāo)。

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文對(duì)不同語(yǔ)言進(jìn)行了測(cè)試。對(duì)哈薩克語(yǔ),本文人工標(biāo)注了新聞?wù)Z料,并將其作為訓(xùn)練和測(cè)試數(shù)據(jù)。此外,為了與已有系統(tǒng)進(jìn)行比較,本文對(duì)英語(yǔ)和意大利語(yǔ),分別使用了GMB[6]和PAISà[7]數(shù)據(jù)集,該數(shù)據(jù)與已有工作[1-2]所使用的數(shù)據(jù)完全一致,其數(shù)據(jù)為:訓(xùn)練集,驗(yàn)證集和測(cè)試集。驗(yàn)證集是用于模型和超參數(shù)的選擇。表2給出了不同語(yǔ)言語(yǔ)料統(tǒng)計(jì)數(shù)據(jù)。

        表2 IOB序列標(biāo)注例子

        4.2 超參數(shù)選擇實(shí)驗(yàn)

        CNN-TSS模型主要的超參數(shù)包括:學(xué)習(xí)速率,隱含層單元數(shù)量,模型窗口大小和字符向量大小。根據(jù)文獻(xiàn)[12]實(shí)驗(yàn)結(jié)果表明,在深度學(xué)習(xí)模型中學(xué)習(xí)速率是比較敏感的超參數(shù),可以將其他參數(shù)設(shè)置為較小值來(lái)調(diào)整模型的學(xué)習(xí)速率,會(huì)減少大部分調(diào)參數(shù)時(shí)間。對(duì)CNN-TSS模型,本文測(cè)試了不同的學(xué)習(xí)速率(1~0.000 1)。 表3給出了不同學(xué)習(xí)速率對(duì)模型性能的影響,并分別標(biāo)簽S,T及S+T+I計(jì)算了精確率,該實(shí)驗(yàn)中使用了哈薩克語(yǔ)語(yǔ)料。 其中,Dev和Test分別為驗(yàn)證集和測(cè)試集上的精確率。

        表3 不同學(xué)習(xí)速率對(duì)模型性能的影響 /%

        從表3中可以看出,當(dāng)學(xué)習(xí)速率設(shè)為0.01時(shí),模型的性能最高,小于或大于該值都會(huì)影響模型的性能。標(biāo)簽S的準(zhǔn)確率比較低,其原因是其他超參數(shù)的值比較小的緣故。

        表4給出了選擇不同窗口大小對(duì)模型性能的影響,將學(xué)習(xí)速率固定為0.01,對(duì)3,5,7,9,11不同大小窗口進(jìn)行了測(cè)試。

        表4 不同窗口大小對(duì)模型性能的影響 /%

        從表4中可以看出,模型的性能隨著窗口大小的不斷增大。對(duì)句子邊界S標(biāo)簽,當(dāng)取5為窗口大小時(shí),其模型性能提升了60.05%,該結(jié)果表明,3個(gè)字符的信息量,不足以判斷句子的邊界,導(dǎo)致性能偏低。當(dāng)窗口大小為9時(shí),模型的性能相對(duì)較高。但當(dāng)將窗口大小設(shè)為11時(shí),標(biāo)簽S在測(cè)試集上的性能降低,結(jié)果表明,在句子邊界劃分上過(guò)大的窗口會(huì)將“噪聲信息”也會(huì)包含進(jìn)來(lái)導(dǎo)致錯(cuò)誤。

        表5 不同字符向量大小對(duì)模型性能的影響 /%

        表5給出了不同大小的字符嵌入向量對(duì)模型性能的影響,本文對(duì)(5~50)之間的向量大小進(jìn)行了測(cè)試??梢钥闯?,當(dāng)將每個(gè)字符用10維的向量表示時(shí),模型在測(cè)試集上的性能相對(duì)比較高。當(dāng)增大字符嵌入向量大小后,沒(méi)有帶來(lái)明顯的性能提升。

        表6給出了不同大小的隱含層單元數(shù)量對(duì)模型性能的影響??梢钥闯?,取50為隱含層單元數(shù)量時(shí),在綜合考慮S,T和S+T+I標(biāo)簽時(shí)性能相對(duì)較好。取太大的隱含層數(shù)量并沒(méi)有對(duì)模型識(shí)別性能帶來(lái)太大提升,并增加模型計(jì)算時(shí)間。

        表6 隱含層單元數(shù)量對(duì)模型性能的影響 /%

        通過(guò)上述實(shí)驗(yàn)結(jié)果,本文對(duì)CNN-TSS模型最終超參數(shù)進(jìn)行了選擇,如表7所示,并將其用于后續(xù)的實(shí)驗(yàn)中。

        表7 CNN-TSS模型的超參數(shù)

        4.3 實(shí)驗(yàn)結(jié)果

        在選擇超參數(shù)后,本文在哈薩克語(yǔ)語(yǔ)料上,訓(xùn)練了CNN-TSS模型,并進(jìn)行了最終測(cè)試,其結(jié)果如表8所示。

        表8 CNN-TSS模型對(duì)哈薩克語(yǔ)的測(cè)試結(jié)果 /%

        此外,為進(jìn)一步驗(yàn)證CNN-TSS模型的性能,本文將其與已有的Punkt 和 Elephant系統(tǒng)進(jìn)行了比較,如表9所示。實(shí)驗(yàn)結(jié)果表明,CNN-TSS模型均在英語(yǔ)和意大利語(yǔ)上,性能超過(guò)了已有的系統(tǒng),而且該系統(tǒng)中使用了多種額外的特征集合。但CNN-TSS中只采用了上下文特征,實(shí)驗(yàn)結(jié)果表明本文提出的CNN-TSS模型對(duì)句子,單詞及語(yǔ)素邊界劃分任務(wù)有較好的建模能力。

        表9 CNN-TSS模型與其他系統(tǒng)的比較結(jié)果 /%

        5 結(jié)束語(yǔ)

        本文對(duì)哈薩克語(yǔ)的句子,單詞及語(yǔ)素邊界劃分問(wèn)題提出了基于深度學(xué)習(xí)方法的邊界劃分模型,稱(chēng)其為CNN-TSS模型。為了分析CNN-TSS模型性能,本文對(duì)超參數(shù)進(jìn)行了選擇,分析了不同超參數(shù)對(duì)模型性能的影響,實(shí)驗(yàn)結(jié)果表明,CNN-TSS模型在哈薩克語(yǔ)的句子、單詞及語(yǔ)素邊界劃分任務(wù)上精確率達(dá)99.90%。

        為進(jìn)一步驗(yàn)證CNN-TSS模型的性能,本文與已有的模型在英語(yǔ)和意大利語(yǔ)上進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,CNN-TSS模型在沒(méi)有使用額外任何特征的情況下,其性能均超過(guò)了傳統(tǒng)模型,取得了較理想的結(jié)果。

        [1] Evang K,Basile V,Chrupaxa G,et al.Elephant:sequence labeling for word and sentence segmentation[C].Washington,USA:In Proceedings of the Conference on Empirical Methods in Natural Language Processing,2013.

        [2] Kiss T, Strunk J. Unsupervised multilingual sentence boundary detection[J]. Computational Linguistics, 2006, 32(4): 485-525.

        [3] Jurafsky D, Martin J H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition[M]. Speech and Language Processing : Prentice Hall, 2000.

        [4] Read J, Dridan R, Oepen S, et al. Sentence boundary detection: A long solved problem?[C].International Conference on Computational Linguistics,2012.

        [5] Collobert R, Weston J, Bottou L, et al. Natural language processing (Almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1):2493-2537.

        [6] Dridan R, Oepen S. Tokenization: returning to a long solved problem a survey, contrastive experiment, recommendations, and toolkit[C].India:Meeting of the Association for Computational Linguistics: Short Papers,2012.

        [7] Reynar J C, Ratnaparkhi A. a maximum entropy approach to identifying sentence boundaries[C].Washington,DC,USA:In Proceedings of the Fifth Conference on Applied Natural Language Processing,Association for Computational Linguistics,1997.

        [8] Lafferty J D, Mccallum A, Pereira F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C].CA,USA:In Proceeding of ICML,2001.

        [9] Fares M, Oepen S, Zhang Y. Machine learning for high-quality tokenization replicating variable tokenization schemes [M].Berlin Heidelberg:Springer-Verlag,2013.

        [10] Basile V,Bos J,Evang K,et al.Developing a large semantically annotated corpus[C].Istanbul,Turkey:In Proceedings of the Eight International Conference on Language Resources and Evaluation,2012.

        [11] Castagnoli S, Borghetti C, Brunello M. I testi del web: una proposta di classificazione sulla base del corpus PAISà[M].Russia:Formale Informale-Lavariazione Diregistro Nella Comunicazione Elettronica,2011.

        [12] Greff K, Srivastava R K, Koutnik J, et al. LSTM: a search space odyssey[J]. IEEE Transactions on Neural Networks & Learning Systems,2015(3):04069-04073.

        Deep Learning for Sentence and Token Boundaries Detection

        Toleu Galymzhan, WU Chunxue

        (School of Optical-Electronic and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

        Sentence and token boundaries detection is one of the important tasks in natural language processing. In order to avoid task-specific feature engineering, we have proposed character-level based neural network model for token and sentence segmentation (CNN-TSS). In order to share the information from these tasks, we have treated them as a combined task. The experimental results show that CNN-TSS can achieve high-accuracy without using any external features.

        sentence boundaries detection;token boundaries detection;agglutinative language;deep learning

        2016- 11- 15

        Tolegen Gulmira (1987-),女,碩士研究生。研究方向:自然語(yǔ)言處理。鄔春雪(1961-),男,教授。研究方向:計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用等。

        10.16180/j.cnki.issn1007-7820.2017.09.006

        TP391.1

        A

        1007-7820(2017)09-020-04

        猜你喜歡
        對(duì)模型語(yǔ)素字符
        尋找更強(qiáng)的字符映射管理器
        《最低入門(mén)等級(jí)音節(jié)、漢字、詞匯表》語(yǔ)素和語(yǔ)素義分析
        多義語(yǔ)素識(shí)別及教學(xué)探討
        ——針對(duì)對(duì)外漢語(yǔ)語(yǔ)素教學(xué)構(gòu)想
        光源對(duì)模型貼圖的影響——3種人造光源在三維數(shù)字化采集中的應(yīng)用
        廣州文博(2020年0期)2020-06-09 05:15:44
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        語(yǔ)素的判定、分類(lèi)及語(yǔ)法單位關(guān)系研究述評(píng)
        消失的殖民村莊和神秘字符
        因果復(fù)合詞
        蒙藥特潤(rùn)舒都樂(lè)對(duì)模型小鼠脾臟NK細(xì)胞活性的影響
        国产综合精品| 小草手机视频在线观看| 91精品国产综合久久精品密臀 | 亚洲男人的天堂在线播放| 韩国精品一区二区三区 | 中文字幕影片免费人妻少妇 | 女女同女同一区二区三区| 亚洲 欧美 国产 制服 动漫| a国产一区二区免费入口| 久久se精品一区二区国产| 极品夫妻一区二区三区| 牛牛在线视频| 四虎影视在线观看2413| 大肥婆老熟女一区二区精品| 人妻少妇精品专区性色anvn| 人人妻人人澡人人爽欧美一区九九| 91精选视频在线观看| 日本一区二区三区四区在线看| 91久久综合精品久久久综合| 日韩视频中文字幕精品偷拍| 久久精品国产99精品九九| 日韩av一区二区三区在线观看| 337p日本欧洲亚洲大胆色噜噜| 欧美日韩国产成人高清视频| 中文字幕乱码亚洲无线精品一区| 国产一区二区三区护士| 欧美成人精品a∨在线观看 | 丰满人妻无套中出中文字幕| 国产亚洲精品一区二区在线观看| 日本高清视频wwww色| 豆国产95在线 | 亚洲| 国产伦理自拍视频在线观看| 亚洲国产色一区二区三区| 黄色a级国产免费大片| 日本一区二区三区中文字幕最新| 成人av资源在线播放| 毛片免费视频在线观看| 99热这里只有精品4| 久久中文字幕国产精品| 亚洲欧美国产精品久久| 毛片免费在线播放|