亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于表示學(xué)習(xí)的中文分詞算法探索

        2013-10-15 01:37:18來(lái)斯惟徐立恒陳玉博
        中文信息學(xué)報(bào) 2013年5期
        關(guān)鍵詞:監(jiān)督特征實(shí)驗(yàn)

        來(lái)斯惟,徐立恒,陳玉博,劉 康,趙 軍

        (中國(guó)科學(xué)院自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100190)

        1 引言

        詞是“最小的能獨(dú)立運(yùn)用的語(yǔ)言單位”[1],由于中文具有大字符集連續(xù)書(shū)寫(xiě)的特點(diǎn),如果不進(jìn)行分析,計(jì)算機(jī)則無(wú)法得知中文詞的確切邊界,從而很難理解文本中所包含的語(yǔ)義信息。因此,中文分詞是自然語(yǔ)言處理中的一個(gè)關(guān)鍵的基礎(chǔ)技術(shù),是其他中文應(yīng)用,例如,命名實(shí)體識(shí)別、句法分析、語(yǔ)義分析等的前期文本處理關(guān)鍵環(huán)節(jié),其性能的優(yōu)劣對(duì)于中文信息處理尤為重要。

        傳統(tǒng)對(duì)于中文分詞的研究比較豐富,例如,最大正向匹配、最大逆向匹配、雙向匹配等基于詞典的匹配方法。然而,由于語(yǔ)言的復(fù)雜性,中文文本中存在大量的詞邊界歧義與未登錄詞(OOV)。僅僅是基于詞典的匹配方法無(wú)法有效地解決以上兩個(gè)中文分詞中的關(guān)鍵難點(diǎn)問(wèn)題。所以越來(lái)越多的方法關(guān)注基于字的中文分詞?;谧值闹形姆衷~方法基本假設(shè)是一個(gè)詞語(yǔ)內(nèi)部文本高內(nèi)聚,而詞語(yǔ)邊界與外部文字低耦合。每一個(gè)詞都可以通過(guò)其所在的上下文特征進(jìn)行表示,通過(guò)統(tǒng)計(jì)模型可以很好的判別當(dāng)前字在構(gòu)詞過(guò)程中的作用(詞的開(kāi)始、中間、結(jié)束或是單字詞)。通過(guò)大量實(shí)驗(yàn)表明這種基于字的中文分詞方法要明顯優(yōu)于基于詞典匹配的分詞方法。然而,基于字標(biāo)注的分詞方法的問(wèn)題在于:傳統(tǒng)的字表示特征,無(wú)論是一元特征(Unigram)或是二元特征(Bigram),都很難有效表示目標(biāo)字,使得統(tǒng)計(jì)模型不能有效地理解每個(gè)字的含義。另外,所有的特征表示都是基于詞袋子模型,然而這樣表示模型有兩個(gè)較為明顯的缺點(diǎn):1)語(yǔ)義鴻溝問(wèn)題。通過(guò)詞袋子模型,我們沒(méi)法直接知道“麥克風(fēng)”和“話筒”描述的是同樣的事物。2)低頻詞的問(wèn)題。在使用詞袋子特征訓(xùn)練模型時(shí),低頻詞由于出現(xiàn)次數(shù)較少,往往只被訓(xùn)練的極少的次數(shù),容易造成訓(xùn)練不足,也非常有可能過(guò)擬合。因此如何對(duì)于中文文本中每個(gè)字進(jìn)行建模,并自動(dòng)的抽取字的表示特征是基于字表示的分詞方法中的一個(gè)難點(diǎn)問(wèn)題。

        然而,近些年隨著深度學(xué)習(xí)(Deep Learning)的興起,特征表示學(xué)習(xí)(Feature Representation Learning)逐步成為機(jī)器學(xué)習(xí)的一個(gè)新興分支。深度學(xué)習(xí)是利用深層神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)出數(shù)據(jù)的一種表示。自2006年Hinton[2]提出深度學(xué)習(xí)后,該方法在語(yǔ)音、圖像領(lǐng)域均取得了驚人的成果。已有工作表明,隨著網(wǎng)絡(luò)層數(shù)的加深,深度學(xué)習(xí)算法可以學(xué)習(xí)出越來(lái)越抽象的數(shù)據(jù)表示。在這種特征的基礎(chǔ)上進(jìn)一步地進(jìn)行模型的學(xué)習(xí),可以顯著地提高分類的性能。在自然語(yǔ)言處理任務(wù)中,深度學(xué)習(xí)也已經(jīng)廣泛地應(yīng)用于命名實(shí)體識(shí)別(NER)、詞性標(biāo)注(POS Tagging)、情感分類(Sentiment Classification)等任務(wù),并有一定優(yōu)勢(shì)。然而在中文分詞任務(wù)中,還未見(jiàn)針對(duì)深度學(xué)習(xí)的應(yīng)用研究成果。因此本文試圖將深度學(xué)習(xí)應(yīng)用于中文分詞任務(wù),來(lái)探討其是否可以有效地提高分詞的性能。

        具體地,我們利用基于詞的稠密向量表示方法[3],將一個(gè)字用n維實(shí)數(shù)向量來(lái)描述。同時(shí)采用SENNA[4]在海量無(wú)標(biāo)注數(shù)據(jù)來(lái)無(wú)監(jiān)督的訓(xùn)練每個(gè)字的稠密特征表示向量,并以此作為特征,應(yīng)用于分詞算法中。經(jīng)過(guò)多組實(shí)驗(yàn)比對(duì),我們的方法的效果相對(duì)于人工設(shè)計(jì)特征的最大熵算法有一定的競(jìng)爭(zhēng)力。

        文本章節(jié)安排具體如下:第2節(jié)介紹了分詞及詞的表示學(xué)習(xí)的相關(guān)工作;第3節(jié)介紹了基于字表示的分詞算法框架;第4節(jié)介紹一種在大規(guī)模語(yǔ)料上無(wú)監(jiān)督學(xué)習(xí)出字的稠密表示的方法;第5節(jié)為實(shí)驗(yàn)及分析;最后對(duì)本文工作進(jìn)行了總結(jié),并指出將來(lái)工作的方向。

        2 相關(guān)工作

        傳統(tǒng)分詞方法依賴詞典匹配,并通過(guò)貪心算法截取可能的最大長(zhǎng)度詞進(jìn)行有限的歧義消除。常用的貪心策略有正向最大匹配法、逆向最大匹配法和雙向匹配等。然而,基于詞典方法存在兩個(gè)明顯的缺陷,即不能很好地處理詞邊界歧義和未登錄詞(OOV)。為了解決中文分詞的這兩個(gè)關(guān)鍵問(wèn)題,許多研究工作集中到了基于字標(biāo)注的機(jī)器學(xué)習(xí)中文分詞方法。

        基于字的中文分詞方法基本假設(shè)是一個(gè)詞語(yǔ)內(nèi)部文本高內(nèi)聚,而詞語(yǔ)邊界與外部文字低耦合。通過(guò)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法學(xué)習(xí)判斷詞界是當(dāng)前中文分詞的主流做法?,F(xiàn)有工作大多使用序列標(biāo)注模型執(zhí)行BMES標(biāo)注。Xue等人提出了基于HMM模型的字標(biāo)注中文分詞方法[5]。劉群等提出一種基于層疊隱馬模型的漢語(yǔ)詞法分析方法[6]。該方法引入角色HMM識(shí)別未登錄詞,使用Viterbi算法標(biāo)注出全局最優(yōu)的角色序列。同時(shí),該方法還提出了一種基于N-最短路徑的策略進(jìn)行切分排歧。Wang等人使用基于字分類的CRF模型進(jìn)行中文詞法分析[7]。對(duì)基于字標(biāo)注中文分詞方法的改進(jìn)包括引入更多的標(biāo)簽和設(shè)計(jì)更多高效的特征[8-9]、聯(lián)合使用產(chǎn)生式模型和判別式模型以融合兩者的優(yōu)點(diǎn)[10]以及將無(wú)監(jiān)督方法中使用的特征引入有監(jiān)督方法中[11]等。然而,傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法往往依賴于人工設(shè)計(jì)的特征,而一個(gè)特征是否有效需要多次嘗試與選擇。因此人工設(shè)計(jì)一系列好的特征既費(fèi)時(shí)又費(fèi)力。

        近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法的突破[2],基于神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法得到了蓬勃的發(fā)展。在自然語(yǔ)言處理領(lǐng)域,表示學(xué)習(xí)的目標(biāo)是要將最小的語(yǔ)義單位表示成一個(gè)n維向量,向量中的每一維表示某種隱含(latent)的句法或語(yǔ)義信息。Collobert等人在2011年發(fā)布了首個(gè)基于表示學(xué)習(xí)的多任務(wù)學(xué)習(xí)系統(tǒng)SENNA[4]。它將詞性標(biāo)注、命名實(shí)體識(shí)別、句法分析和語(yǔ)義角色標(biāo)注任務(wù)融合于一個(gè)框架,運(yùn)用神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)序列標(biāo)注模型,進(jìn)行自動(dòng)的特征學(xué)習(xí),從而避免了繁瑣的人工特征設(shè)計(jì)過(guò)程。此后,基于深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法被應(yīng)用于句法分析[12]、復(fù)述檢測(cè)[13]、語(yǔ)義分析[14]以及情感分類任務(wù)[15],并取得了巨大的成功。在不需要人工參與設(shè)計(jì)有效特征的情況下,表示學(xué)習(xí)方法相比于傳統(tǒng)有監(jiān)督模型取得了等價(jià)于或更好的成績(jī)。

        3 基于字表示的有監(jiān)督分詞

        3.1 數(shù)據(jù)預(yù)處理

        中文分詞的訓(xùn)練語(yǔ)料中,英文與數(shù)字的出現(xiàn)次數(shù)較少(甚至有可能26個(gè)英文字母中有的字母未在訓(xùn)練集中出現(xiàn)過(guò))。為了簡(jiǎn)化處理流程,本文使用了一個(gè)簡(jiǎn)單的數(shù)據(jù)預(yù)處理步驟,將所有的連續(xù)數(shù)字字符替換成一個(gè)專用的數(shù)字標(biāo)記“NUMBER”,將所有連續(xù)的英文字母替換成一個(gè)專用的英文單詞標(biāo)記“WORD”。如訓(xùn)練語(yǔ)料“中國(guó)/教育/與/科研/計(jì)算機(jī)網(wǎng)/(/CERNET/)/已/連接/了/200/多/所/大學(xué)”經(jīng)過(guò)預(yù)處理步驟將會(huì)變成“中國(guó)/教育/與/科研/計(jì)算 機(jī) 網(wǎng)/(/WORD/)/已/連 接/了/NUMBER/多/所/大學(xué)”。其中NUMBER和 WORD在訓(xùn)練時(shí)都當(dāng)作一個(gè)字符來(lái)考慮。

        圖1 算法基本結(jié)構(gòu)圖

        這種方法在一定程度上丟失了部分語(yǔ)義信息,會(huì)對(duì)分詞精度產(chǎn)生負(fù)面的影響。但是在訓(xùn)練語(yǔ)料不充分的情況下,該預(yù)處理可以簡(jiǎn)化后續(xù)步驟,將實(shí)驗(yàn)重心放在處理漢字詞語(yǔ)上。

        3.2 字的稠密向量表示

        借鑒Bengio等人[3]的思想,本文將每個(gè)漢字用一個(gè)n維實(shí)數(shù)向量來(lái)表示(后文簡(jiǎn)稱字向量)。字向量初始化為一個(gè)隨機(jī)的小實(shí)數(shù)值,在訓(xùn)練過(guò)程中,每個(gè)字的字向量會(huì)進(jìn)行更新,最后根據(jù)訓(xùn)練目標(biāo)的不同,字向量之間的相似度也會(huì)有所不同。具體可見(jiàn)第4節(jié)實(shí)驗(yàn)部分。

        3.3 模型及算法

        與其他基于字的分詞方法相似,本文也采用BMES體系對(duì)漢字進(jìn)行標(biāo)注。對(duì)于單字詞,其標(biāo)簽為S;對(duì)于多字詞,詞中的第一個(gè)漢字標(biāo)簽為B,最后一個(gè)漢字標(biāo)簽為E,中間字的標(biāo)簽為M。對(duì)訓(xùn)練數(shù)據(jù)的每個(gè)字進(jìn)行標(biāo)注后,本文采用一種3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)每個(gè)字進(jìn)行訓(xùn)練,其結(jié)構(gòu)如圖1所示。

        對(duì)于句子中的每個(gè)字的標(biāo)簽分類任務(wù),本文選取上下文以及當(dāng)前字,共w個(gè)字作為特征。其中上文和下文均為(w-1)/2個(gè)字。圖中最下方為這w個(gè)字的原始文本,經(jīng)過(guò)第一層,將每個(gè)字轉(zhuǎn)換成其字向量表示υi,并把w個(gè)字連接成一個(gè)wn維的向量υ。該wn維的向量是神經(jīng)網(wǎng)絡(luò)的輸入層。隱藏層h的設(shè)計(jì)與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)一致,輸入層的wn個(gè)節(jié)點(diǎn)與隱藏層的H 個(gè)節(jié)點(diǎn)之間兩兩均有邊連接。隱藏層選用tanh函數(shù)作為激活函數(shù)。輸出層一共有4個(gè)節(jié)點(diǎn),使用softmax[16]歸一化后,分別表示這個(gè)字被打上B、M、E、S標(biāo)簽的概率。

        網(wǎng)絡(luò)結(jié)構(gòu)可以形式化的表示為:

        其中U為輸入層到隱藏層的權(quán)重,V為隱藏層到輸出層的權(quán)重。這兩層均可理解為簡(jiǎn)單的矩陣相乘。最后使用softmax函數(shù)可以將輸出o轉(zhuǎn)換成標(biāo)簽概率p。

        網(wǎng)絡(luò)的訓(xùn)練目標(biāo)使用傳統(tǒng)的最大似然估計(jì)法,即求出一組參數(shù)θ,并最大化:

        其中參數(shù)θ包含各個(gè)字的字向量υ以及兩個(gè)網(wǎng)絡(luò)中的參數(shù)矩陣U和V。訓(xùn)練中這里使用了樸素的隨機(jī)梯度下降法。

        4 無(wú)監(jiān)督學(xué)習(xí)字表示

        在有監(jiān)督的學(xué)習(xí)中,往往會(huì)遇到低頻字訓(xùn)練不充分的問(wèn)題。無(wú)論在傳統(tǒng)的淺層模型(如最大熵、CRF)中,還是第3節(jié)描述的以神經(jīng)網(wǎng)絡(luò)為框架的模型中,低頻字只會(huì)在極少量的樣本中出現(xiàn)。因此,如果引入一個(gè)更大的語(yǔ)料,從這個(gè)語(yǔ)料中學(xué)習(xí)出各個(gè)字更豐富的信息,并加入有監(jiān)督學(xué)習(xí)中,將有可能極大地提高有監(jiān)督學(xué)習(xí)的訓(xùn)練效果。

        4.1 字表示的訓(xùn)練

        字表示的無(wú)監(jiān)督訓(xùn)練Collobert等人[4]和 Mnih等人[17]均提出過(guò)。Joseph[18]對(duì)這兩種方法進(jìn)行了更公平的比較,結(jié)果表明,Collobert的方法略勝一籌。在中文中,尚未看到類似的比較,因此本文直接使用Collobert的方法訓(xùn)練字向量。

        在無(wú)監(jiān)督字表示訓(xùn)練中,我們?nèi)匀皇褂萌鐖D1所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。不同之處在于,最后一層只輸出一個(gè)得分,而并不輸出4個(gè)標(biāo)簽的概率。該得分的含義為這個(gè)連續(xù)的字序列是否是一個(gè)正常的詞序列。所謂的正常序列,是相對(duì)隨機(jī)序列而言的。語(yǔ)料中真實(shí)存在的序列均認(rèn)為是正常序列,而一個(gè)隨機(jī)從字典中選取若干個(gè)字生成的序列,則認(rèn)為是非正常序列。

        由于這個(gè)想法與語(yǔ)言模型非常相似,因此在文獻(xiàn)[4]中也被稱作語(yǔ)言模型。實(shí)際上,Collobert的方法與傳統(tǒng)的語(yǔ)言模型略有差別。傳統(tǒng)意義上,語(yǔ)言模型是給定了前若干個(gè)字/詞,預(yù)測(cè)下一個(gè)字/詞。而在這種方法中,并不需要預(yù)測(cè)下一個(gè)字,只需知道一個(gè)序列是否是正常序列。在無(wú)監(jiān)督訓(xùn)練階段,我們希望一個(gè)正常的序列可以得到高分,而一個(gè)非正常的序列,我們希望它的分?jǐn)?shù)更小。

        在實(shí)際操作中,正樣本可以直接從語(yǔ)料中選取得到,而負(fù)樣本則需要構(gòu)造。如果負(fù)樣本直接從字典中選取若干個(gè)隨機(jī)字符,則容易生成完全沒(méi)有可讀性的字符串。這些字符串會(huì)離分類面非常的遠(yuǎn),這會(huì)造成一些略有“語(yǔ)病”的句子,被分類成正常的句子。為了解決這個(gè)問(wèn)題,使得負(fù)樣本更接近真實(shí)的分界面,本文的負(fù)樣本由一個(gè)真實(shí)的序列隨機(jī)替換一個(gè)字得到。類似的方法在文獻(xiàn)[4]和文獻(xiàn)[18]中提出過(guò)。文獻(xiàn)[4]替換了一個(gè)序列中最中間的詞,而文獻(xiàn)[18]替換了一個(gè)序列中最后的詞,取得的效果類似。本文在實(shí)驗(yàn)中替換的是中間字。

        記x為一組正常的字序列,則fθ(x)表示網(wǎng)絡(luò)的輸出。每個(gè)負(fù)樣本記作xw,表示一個(gè)正常的序列x中將中間的字替換為w。同樣地,負(fù)樣本的輸出為fθ(xw)。

        無(wú)監(jiān)督訓(xùn)練階段,這里使用成對(duì)訓(xùn)練的方法,即最小化如下目標(biāo):

        式中,X為從語(yǔ)料集中選取出了所有連續(xù)的w個(gè)字,D表示字典。

        與監(jiān)督學(xué)習(xí)階段相同,這里也采用隨機(jī)梯度下降法進(jìn)行訓(xùn)練,最后只使用其詞向量部分。

        4.2 字表示的使用

        通過(guò)無(wú)監(jiān)督訓(xùn)練得到的字表示通常有兩種用法。一、作為神經(jīng)網(wǎng)絡(luò)模型的初始值。二、加入到現(xiàn)有的淺層模型中,如最大熵模型。

        文獻(xiàn)[4]將無(wú)監(jiān)督學(xué)習(xí)得到的詞向量作為有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)中的初始值,大幅度提高了其有監(jiān)督學(xué)習(xí)的訓(xùn)練效果。這一思想與音頻、圖像領(lǐng)域在深度學(xué)習(xí)中,對(duì)深層神經(jīng)網(wǎng)絡(luò)的初始值使用受限玻爾茲曼機(jī)進(jìn)行無(wú)監(jiān)督的初始化非常類似。由于神經(jīng)網(wǎng)絡(luò)是一個(gè)非凸優(yōu)化的問(wèn)題,局部極值點(diǎn)非常的多,好的初始值可以使其最后收斂到一個(gè)更好的解,同時(shí)也能在一定程度上抑制訓(xùn)練的過(guò)擬合。

        本節(jié)無(wú)監(jiān)督訓(xùn)練得到的字向量同樣可以直接作為第3節(jié)中字向量的初始值用于訓(xùn)練。對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)中的U、V矩陣,仍然使用隨機(jī)的初始值。

        文獻(xiàn)[18]在英語(yǔ)中使用詞向量作為擴(kuò)展特征,提升了命名實(shí)體識(shí)別(NER)和語(yǔ)塊分析(Chunking)的效果。其方法較為直接,在最大熵做序列標(biāo)注問(wèn)題時(shí),直接將周圍共w個(gè)詞的詞向量直接加入改詞特征向量中。

        在第5節(jié)的實(shí)驗(yàn)中,我們同時(shí)嘗試了以上兩種思路。

        5 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)中,我們以最大熵模型作為基準(zhǔn),嘗試了本文描述的若干種方法,并進(jìn)行比較。

        在實(shí)驗(yàn)中,我們需要確定w的大小,即認(rèn)為上下文窗口中共w個(gè)字會(huì)對(duì)當(dāng)前字的標(biāo)簽產(chǎn)生主要影響。文獻(xiàn)[19]中通過(guò)大量實(shí)驗(yàn)表明窗口5個(gè)字可以覆蓋真實(shí)文本中99%以上的情況。因此本文也取w為5,即使用上文兩個(gè)字、下文兩個(gè)字與當(dāng)前字。

        從訓(xùn)練時(shí)間和小規(guī)模測(cè)試的結(jié)果考慮,本文所有實(shí)驗(yàn)字向量的維度均為50。

        5.1 實(shí)驗(yàn)設(shè)置

        在有監(jiān)督學(xué)習(xí)部分,本文使用的語(yǔ)料為Sighan 2005bakeoff的分詞語(yǔ)料。選取其中北京大學(xué)標(biāo)注的數(shù)據(jù)用于訓(xùn)練、驗(yàn)證和測(cè)試。

        原始語(yǔ)料只包含了訓(xùn)練集與測(cè)試集,在實(shí)驗(yàn)前,我們將原始語(yǔ)料的訓(xùn)練集前90%當(dāng)作我們自己的訓(xùn)練集,最后10%當(dāng)作開(kāi)發(fā)集。測(cè)試集保持不變。最后訓(xùn)練集共有1626187個(gè)字,驗(yàn)證集包含了160898個(gè)字,測(cè)試集有168973字。

        在非監(jiān)督實(shí)驗(yàn)中,我們使用了兩個(gè)語(yǔ)料,第一個(gè)語(yǔ)料(實(shí)驗(yàn)中稱“小語(yǔ)料”)直接采用了北京大學(xué)標(biāo)注的數(shù)據(jù)中的訓(xùn)練集,共179萬(wàn)字。第二個(gè)語(yǔ)料(實(shí)驗(yàn)中稱“大語(yǔ)料”)在第一個(gè)語(yǔ)料的基礎(chǔ)上,加入了搜狗新聞?wù)Z料的精簡(jiǎn)版,其中涉及教育、文化、軍事等一共10個(gè)類型的新聞?wù)Z料。刪除其中有亂碼的句子后,最后得到的語(yǔ)料一共有2723萬(wàn)字。

        非監(jiān)督訓(xùn)練中,需要確定一個(gè)字典,字典從大語(yǔ)料中出現(xiàn)的1萬(wàn)多個(gè)字中,選取出現(xiàn)次數(shù)大于等于5次的所有字。剩下的字全都使用“unknown”特殊標(biāo)記替代。一共5449字。

        實(shí)驗(yàn)中,所有的最大熵模型均使用liblinear工具包計(jì)算。而神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)由自己編寫(xiě)的代碼完成,在訓(xùn)練集上訓(xùn)練,當(dāng)開(kāi)發(fā)集準(zhǔn)確率達(dá)到最大值時(shí),停止訓(xùn)練,取該模型用于測(cè)試。

        5.2 基準(zhǔn)實(shí)驗(yàn)

        基準(zhǔn)實(shí)驗(yàn)使用分詞中較為常用的最大熵模型,特征選用一元及二元特征。

        對(duì)于字ck,其特征向量具體包括:

        · 一元特征ci,其中i為{k-2,k-1,k,k+1,k+2},如果ci超出了句子的邊界,則使用一個(gè)特殊的符號(hào)“padding”來(lái)代替。

        以上所有特征的權(quán)重均為1。

        基準(zhǔn)實(shí)驗(yàn)一共有兩個(gè),第一個(gè)實(shí)驗(yàn)只使用了上述的一元特征,在后文中稱作“最大熵一元特征”;第二個(gè)實(shí)驗(yàn)同時(shí)使用了一元特征和二元特征,在后文中稱作“最大熵二元特征”。

        以上兩個(gè)基準(zhǔn)實(shí)驗(yàn)均使用最大熵算法進(jìn)行訓(xùn)練和測(cè)試。對(duì)字標(biāo)簽進(jìn)行預(yù)測(cè)后,使用viterbi算法搜索最優(yōu)路徑。

        為了展示神經(jīng)網(wǎng)絡(luò)模型以及字表示對(duì)于實(shí)驗(yàn)的影響,本文設(shè)計(jì)了多組對(duì)比實(shí)驗(yàn)。

        (1)監(jiān)督網(wǎng)絡(luò)。使用第3節(jié)中所述的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行監(jiān)督分詞,其初始值選用均勻分布的隨機(jī)數(shù)。

        (2)監(jiān)督網(wǎng)絡(luò)+小語(yǔ)料字向量。在上一個(gè)實(shí)驗(yàn)的基礎(chǔ)上,使用第4章描述的方法在179萬(wàn)字的小語(yǔ)料上訓(xùn)練得到的字向量作為初始值,訓(xùn)練分詞網(wǎng)絡(luò)。

        (3)監(jiān)督網(wǎng)絡(luò)+大語(yǔ)料字向量。字向量使用2723萬(wàn)字的大語(yǔ)料訓(xùn)練得到,其余同上一個(gè)實(shí)驗(yàn)。

        (4)大語(yǔ)料字向量最大熵。使用大語(yǔ)料訓(xùn)練生成的字向量作為特征,使用最大熵算法訓(xùn)練字標(biāo)注器。在實(shí)驗(yàn)中,本文設(shè)定窗口大小為5,字向量的維度為50,因此每個(gè)字均有250個(gè)特征,各特征的權(quán)重對(duì)應(yīng)窗口中每個(gè)字字向量的各維分量。

        (5)隨機(jī)字向量最大熵。將每個(gè)字的字向量替換成50個(gè)隨機(jī)數(shù),重復(fù)上一個(gè)實(shí)驗(yàn)。

        (6)最大熵二元特征+字向量。使用大語(yǔ)料訓(xùn)練生成的字向量作為額外特征加入到“最大熵二元特征”實(shí)驗(yàn)中。即每個(gè)字的特征為一元特征、二元特征以及250個(gè)字向量特征。

        5.3 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)結(jié)果如表1所示。

        表1中列舉了本文所做的一共8組實(shí)驗(yàn)。其中#1和#2為上一節(jié)中描述的兩個(gè)基準(zhǔn)實(shí)驗(yàn)。#3到 #8依次為上一節(jié)中描述的各個(gè)實(shí)驗(yàn)。

        #1和 #2為傳統(tǒng)的最大熵分詞方法得到的結(jié)果,與前人論文得到的結(jié)果相同,使用最大熵模型配合二元特征可以取得非常好的效果,該方法在Sighan 2005的評(píng)測(cè)中,可以排到第三名。

        表1 實(shí)驗(yàn)結(jié)果

        #3和 #6相比,有巨大的優(yōu)勢(shì),這里主要有兩點(diǎn)原因:第一,當(dāng)特征數(shù)較少時(shí),非線性的神經(jīng)網(wǎng)絡(luò)相比線性的最大熵模型有優(yōu)勢(shì)(與之相對(duì)的,如果特征數(shù)很多時(shí),如 #2中使用的二元特征,非線性模型無(wú)論是訓(xùn)練時(shí)間還是測(cè)試時(shí)間都會(huì)非常長(zhǎng));第二,神經(jīng)網(wǎng)絡(luò)模型在反向傳播時(shí),可以修改詞向量,這相比直接把詞向量作為輸入特征的最大熵模型更為靈活。

        #3、#4、#5的比較中可以看出,無(wú)監(jiān)督訓(xùn)練得到的字向量在作為有監(jiān)督訓(xùn)練初始值時(shí),可以顯著地提升有監(jiān)督學(xué)習(xí)的效果。其中 #4雖然采用了無(wú)監(jiān)督的數(shù)據(jù)進(jìn)行訓(xùn)練,但實(shí)際上訓(xùn)練數(shù)據(jù)來(lái)自北京大學(xué)標(biāo)注語(yǔ)料,因此可以看作是封閉訓(xùn)練的結(jié)果。#5只能看作開(kāi)放訓(xùn)練的結(jié)果。

        #2和 #8中可以看出,將字向量作為附加特征輔助最大熵模型,效果幾乎沒(méi)有提升(只在小數(shù)點(diǎn)后第4位略有提升)。

        #6和 #7的對(duì)比實(shí)驗(yàn)。值得注意的是,即使使用隨機(jī)數(shù)來(lái)描述一個(gè)字,也可以取得超過(guò)純猜測(cè)的效果(不到0.25的準(zhǔn)確率)

        字向量除了通過(guò)在有監(jiān)督學(xué)習(xí)中看出其效果之外,可以直接通過(guò)字之間的相似度,看出其效果。表2展示了有監(jiān)督學(xué)習(xí)得到的字向量,以及不同大小語(yǔ)料無(wú)監(jiān)督學(xué)習(xí)得到的字向量的比較。這里選取了“一”、“李”、“江”、“急”這4個(gè)字。從對(duì)比中,可以很明顯的看出,無(wú)監(jiān)督方式學(xué)習(xí)得到的相似字,與原字在深層語(yǔ)義上更為相關(guān)。而且語(yǔ)料越大,這個(gè)效果越明顯。

        表2 各字向量得到的“一”、“李”、“江”、“急”的最相似的字

        事實(shí)上,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)對(duì)初始值及各個(gè)參數(shù)是十分敏感的,包括隨機(jī)梯度下降法中使用的學(xué)習(xí)速率,都會(huì)對(duì)結(jié)果造成影響。本實(shí)驗(yàn)中借鑒了文獻(xiàn)[20]的方法,使用固定的學(xué)習(xí)速率,各層的學(xué)習(xí)速率與該層輸入節(jié)點(diǎn)數(shù)的平方根成反比??赡軗Q用其他的參數(shù),可以獲得更好的訓(xùn)練效果,甚至超過(guò)最大熵模型的效果。但是由于時(shí)間有限,本文并不能嘗試各種不同的優(yōu)化方案。同樣地,對(duì)于無(wú)監(jiān)督階段,如果采用更大的語(yǔ)料,更充分的訓(xùn)練,也應(yīng)當(dāng)能取得更顯著的效果。

        本文得出如下結(jié)論:字向量的表示是一種較好的特征,使用字向量配合神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的分詞,相比一元特征有較大的優(yōu)勢(shì)。但是這種方法目前還不能取代人工設(shè)計(jì)特征,即使是簡(jiǎn)單的二元特征。隨著數(shù)據(jù)量的增大,無(wú)監(jiān)督學(xué)習(xí)得到的字向量也會(huì)越來(lái)越實(shí)用,相信使用更豐富的無(wú)監(jiān)督訓(xùn)練語(yǔ)料,可以得到更有用的字向量。

        6 總結(jié)與展望

        本文探索了一種基于表示學(xué)習(xí)的中文分詞方法。我們首先在大規(guī)模中文語(yǔ)料中學(xué)習(xí)字的語(yǔ)義向量表示,然后將學(xué)得的語(yǔ)義向量應(yīng)用于有監(jiān)督的中文分詞。實(shí)驗(yàn)表明,表示學(xué)習(xí)是一種有效的中文分詞方法,并在該領(lǐng)域展現(xiàn)出一定的潛力。然而我們發(fā)現(xiàn),它尚不能取代傳統(tǒng)基于人工設(shè)計(jì)特征的有監(jiān)督機(jī)器學(xué)習(xí)方法。對(duì)表示學(xué)習(xí)方法的改進(jìn)包括修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、修改網(wǎng)絡(luò)的目標(biāo)函數(shù)和使用更好的優(yōu)化算法等。相信通過(guò)不斷的改進(jìn),表示學(xué)習(xí)算法可以成為一種較實(shí)用的中文分詞方法。

        [1]漢語(yǔ)信息處理詞匯01部分:基本術(shù)語(yǔ)(GB12200.1-90)6[S],中國(guó)標(biāo)準(zhǔn)出版社,1991。

        [2]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

        [3]Bengio Y,Schwenk H,Senécal J S,et al.Neural probabilistic language models[M].Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186.

        [4]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].The Journal of Machine Learning Research,2011,12:2493-2537.

        [5]Xue N.Chinese word segmentation as character tagging[J].Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.

        [6]劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421-1429.

        [7]Peng F,F(xiàn)eng F,McCallum A.Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:562.

        [8]Tang B,Wang X,Wang X.Chinese Word Segmentation Based on Large Margin Methods[J].Int.J.of A-sian Lang.Proc.,2009,19(2):55-68.

        [9]Zhao H,Huang C N,Li M,et al.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]//Proceedings of PACLIC.2006,20:87-94.

        [10]Wang K,Zong C,Su K Y.A character-based joint model for Chinese word segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Association for Computational Linguistics,2010:1173-1181.

        [11]Zhao H,Kit C.Integrating unsupervised and supervised word segmentation:The role of goodness measures[J].Information Sciences,2011,181(1):163-183.

        [12]Socher R,Lin C C,Ng A,et al.Parsing natural scenes and natural language with recursive neural networks[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11).2011:129-136.

        [13]Socher R,Huang E H,Pennin J,et al.Dynamic pooling and unfolding recursive autoencoders for paraphrase detection[C]//Proceedings of Advances in Neural Information Processing Systems.2011:801-809.

        [14]Bordes A,Glorot X,Weston J,et al.Joint learning of words and meaning representations for open-text semantic parsing[C]//Proceedings of International Conference on Artificial Intelligence and Statistics.2012:127-135.

        [15]Socher R,Pennington J,Huang E H,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:151-161.

        [16]Bridle J S.Probabilistic interpretation of feedforward classification network outputs,with relationships to statistical pattern recognition[M].Neurocomputing.Springer Berlin Heidelberg,1990:227-236.

        [17]Mnih A,Hinton G E.A scalable hierarchical distributed language model[C]//Proceedings of Advances in neural information processing systems.2008:1081-1088.

        [18]Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:384-394.

        [19]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,21(3):8-19.

        [20]Plaut D C,Hinton G E.Learning sets of filters using back-propagation[J].Computer Speech &Language,1987,2(1):35-61.

        猜你喜歡
        監(jiān)督特征實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        如何表達(dá)“特征”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        監(jiān)督見(jiàn)成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        久久本道久久综合伊人| 国产99re在线观看只有精品| 中文字幕无码免费久久9一区9| 国产伦一区二区三区久久| 国产在线一区二区三区四区| 芒果乱码国色天香| 99久久精品自在自看国产| 精品久久久亚洲中文字幕| 日韩精品极品系列在线免费视频 | 久久91精品国产91久久麻豆| 99久久精品人妻一区| 久久人妻av一区二区软件| 使劲快高潮了国语对白在线| 精品人妻少妇一区二区中文字幕| 精品国产av一区二区三区| 国产色视频一区二区三区qq号| 亚洲欧美日韩中文在线制服| AV无码免费不卡在线观看| 久久狼人国产综合精品| 超碰人人超碰人人| 国产精品人妻一区夜夜爱| 4hu44四虎www在线影院麻豆 | 老鸭窝视频在线观看| 青青草原综合久久大伊人| 久久天堂av色综合| 国产成人av区一区二区三| 又紧又大又爽精品一区二区| 亚洲精品无码高潮喷水在线 | 中文字幕人妻av四季| 凹凸国产熟女精品视频app| 亚洲综合久久成人a片| 99久久久久久亚洲精品| 国产成人综合精品一区二区| 天堂8在线天堂资源bt| 中文字幕亚洲综合久久菠萝蜜| 亚洲大胆视频在线观看| 激情综合色综合啪啪开心| 最近中文字幕在线mv视频在线| 无码啪啪人妻| 人妻制服丝袜中文字幕| 羞羞视频在线观看|