張開旭,周昌樂
(廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建 廈門 361005)
中文分詞詞性標(biāo)注是中文自然語(yǔ)言處理的重要任務(wù)。訓(xùn)練分詞詞性標(biāo)注模型依賴于人工標(biāo)注的訓(xùn)練數(shù)據(jù)。然而人工標(biāo)注的數(shù)據(jù)規(guī)模有限,難以涵蓋多樣的文本和廣泛的詞匯,這制約了分詞詞性標(biāo)注模型的性能。
從未經(jīng)標(biāo)注的語(yǔ)料中獲取有用的詞匯信息,提高中文分詞詞性標(biāo)注的效果,一方面避免了高成本的人工標(biāo)注,另一方面利用更加廣泛的詞匯信息可以克服人工標(biāo)注數(shù)據(jù)的局限性。本文試圖從大規(guī)模的未標(biāo)注語(yǔ)料中提取出中文詞匯的分布信息,并經(jīng)過自動(dòng)學(xué)習(xí)得到相應(yīng)的特征以提高現(xiàn)有分詞詞性標(biāo)注模型效果。其中最大的挑戰(zhàn)在于如何將詞匯的高維分布信息轉(zhuǎn)化為低維特征表示。
一個(gè)詞的上下文分布多種多樣,如果一一統(tǒng)計(jì),不但存在大量冗余或無(wú)用信息,而且對(duì)于大規(guī)模數(shù)據(jù)在時(shí)間、空間復(fù)雜度上也不可接受。本文通過啟發(fā)式的方法,選出最能代表詞匯特征的上下文,只統(tǒng)計(jì)詞匯在這些特定上下文中的出現(xiàn)情況,用以代表詞匯的分布信息,解決了在大規(guī)模語(yǔ)料中抽取分布信息的時(shí)間、空間復(fù)雜度問題。
直接將此分布信息作為特征,其維度仍然過高。本文進(jìn)一步使用自動(dòng)編碼器(auto-encoders),無(wú)監(jiān)督地學(xué)習(xí)對(duì)這一高維分布信息的編碼函數(shù),從而得到相應(yīng)的低維表示,可直接用作分詞詞性標(biāo)注模型的特征。自動(dòng)編碼器是一種無(wú)監(jiān)督學(xué)習(xí)高維數(shù)據(jù)的低維表示的神經(jīng)網(wǎng)絡(luò),在深度學(xué)習(xí)中被廣泛用于無(wú)監(jiān)督特征學(xué)習(xí),并在圖像分類等任務(wù)中表現(xiàn)出了很好的效果[1-2]。
實(shí)驗(yàn)中,我們自動(dòng)選擇了1 346個(gè)上下文,在260億漢字的互聯(lián)網(wǎng)語(yǔ)料中統(tǒng)計(jì)了52 876個(gè)多字詞的分布信息,使用自動(dòng)編碼器進(jìn)行特征無(wú)監(jiān)督學(xué)習(xí),最終對(duì)每個(gè)詞得到50維的詞匯低維稀疏表示。在賓州中文樹庫(kù)5.0數(shù)據(jù)集上的實(shí)驗(yàn)表明該方法得到的詞匯特征對(duì)分詞詞性標(biāo)注模型的效果有較大提升,在詞性標(biāo)注上優(yōu)于主成分分析與k均值聚類結(jié)合的方法。此外在訓(xùn)練自動(dòng)編碼器時(shí)對(duì)輸入引入噪音,得到的降噪自動(dòng)編碼器也能產(chǎn)生更高質(zhì)量的特征。
基于人工標(biāo)注訓(xùn)練集的中文分詞詞性標(biāo)注模型已經(jīng)被廣泛深入地研究,其中包括基于字標(biāo)注的模型[3],基于亞詞的模型[4],基于詞的模型[5]等,本文所用分詞詞性標(biāo)注基線方法改進(jìn)自基于詞圖的模型[6]。
相關(guān)工作也集中在使用標(biāo)注訓(xùn)練集之外的未標(biāo)注語(yǔ)料提高效果。其中包括使用鄰接變化數(shù)[7]等用于提高中文分詞效果的統(tǒng)計(jì)量。此外也有基于無(wú)標(biāo)注數(shù)據(jù)自動(dòng)分析結(jié)果的特征,Wang等人[8]和Sun等人[9]等人將未標(biāo)注的Gigaword語(yǔ)料進(jìn)行自動(dòng)分析,從其結(jié)果中提煉特征幫助分詞詞性標(biāo)注。但是以上方法均難以直接用于本文中的大規(guī)模語(yǔ)料。
除了使用未標(biāo)注語(yǔ)料,Jiang等人[10-11]和Sun等人[12]也嘗試?yán)镁哂胁煌瑯?biāo)注規(guī)范的額外語(yǔ)料。他們均使用北京大學(xué)標(biāo)注的《人民日?qǐng)?bào)》語(yǔ)料庫(kù),來提高賓州中文樹庫(kù)5.0數(shù)據(jù)集上的分詞模型或分詞詞性標(biāo)注模型的效果。
自動(dòng)編碼器被廣泛用于深度學(xué)習(xí)中的無(wú)監(jiān)督特征學(xué)習(xí)。Coates等人[1]使用基于支持向量機(jī)的圖片分類任務(wù),比較了若干無(wú)監(jiān)督特征學(xué)習(xí)算法,除稀疏自動(dòng)編碼器外效果最好的是主成分分析與k均值聚類結(jié)合的方法,因此本文也在實(shí)驗(yàn)中對(duì)這兩種方法加以比較。此外降噪自動(dòng)編碼器[2]也被用以提高深度學(xué)習(xí)分類器的效果,本文也將研究其是否對(duì)中文詞匯特征自動(dòng)學(xué)習(xí)有效。
詞嵌入(word embedding)是通過建立神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,對(duì)詞進(jìn)行低維稠密連續(xù)表示[13]。但在大規(guī)模語(yǔ)料上學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的速度較慢,因此在本實(shí)驗(yàn)中未采用這種方式進(jìn)行特征學(xué)習(xí)。
3.1 基于分布的詞匯信息表示 本節(jié)將討論使用一個(gè)高維布爾向量反映詞匯的上下文分布信息。向量的每一維,表示一種上下文,目標(biāo)詞所對(duì)應(yīng)的向量某一維為1,表示目標(biāo)詞能夠出現(xiàn)在相應(yīng)的上下文中,反之則表示該詞不能出現(xiàn)在相應(yīng)的上下文中。我們期望這樣的向量,能夠盡可能地反映目標(biāo)詞的句法、語(yǔ)義信息,以便在具體的應(yīng)用中加以利用。要在大規(guī)模語(yǔ)料上實(shí)現(xiàn)這一目標(biāo),需要解決兩個(gè)問題: 首先,給定上下文和目標(biāo)詞后,如何判斷目標(biāo)詞能夠出現(xiàn)在相應(yīng)上下文中,即向量分量的計(jì)算問題;其次,詞匯出現(xiàn)的上下文是無(wú)窮無(wú)盡的,應(yīng)該選擇哪些上下文作來刻畫詞匯的分布信息,即向量維度的選擇問題。后兩小節(jié)分別對(duì)這兩個(gè)問題進(jìn)行討論。
3.2分量計(jì)算
如果目標(biāo)詞與特定上下文的共現(xiàn)概率大于某一閾值,就可將目標(biāo)詞布爾向量相應(yīng)維度的分量置為1。但由于存在噪音以及在目標(biāo)詞出現(xiàn)頻率較小的情況下,使用最大似然估計(jì)得到的共現(xiàn)概率不太準(zhǔn)確,在此以如下方式確定分量取值。
設(shè)目標(biāo)詞為w,在語(yǔ)料庫(kù)中出現(xiàn)的頻次為n,設(shè)詞串與上下文c在語(yǔ)料庫(kù)中共同出現(xiàn)的次數(shù)為m,如果,
則稱目標(biāo)詞w與上下文c匹配。式(1)基于二項(xiàng)分布假設(shè)檢驗(yàn),p為零假設(shè)時(shí)目標(biāo)詞與上下文c的共現(xiàn)概率。在本實(shí)驗(yàn)中,使用單邊95%的置信區(qū)間,即R=1.67,并且令零假設(shè)為一個(gè)較小的概率值p=10-4。與最大似然估計(jì)使用的公式m≥np相比,本實(shí)驗(yàn)所用公式的不等式右邊增加了一項(xiàng),更為保守,可以減少可能的噪音。并且在目標(biāo)詞出現(xiàn)頻次n趨于無(wú)窮大時(shí),兩種方法等價(jià)。
3.3維度選擇
本小節(jié)討論如何確定上下文的集合用以統(tǒng)計(jì)詞匯的分布信息。
為了使同一個(gè)上下文所匹配上的詞的句法、語(yǔ)義更為單一,更具特異性,我們使用目標(biāo)詞左邊、右邊出現(xiàn)的兩個(gè)詞組成的詞對(duì)〈w1,w2〉來表示上下文c。例如,句子片段“材料 利用率 高”中,目標(biāo)詞“利用率”就與上下文“〈材料,高〉”共現(xiàn)。
根據(jù)以上方式定義的上下文數(shù)量相當(dāng)龐大,不可能為所有目標(biāo)詞一一統(tǒng)計(jì)可能的上下文。因此需要確定一個(gè)上下文的子集用以統(tǒng)計(jì)詞匯的分布信息。我們主要排除那些匹配的詞不多或者過于特殊不具有句法、語(yǔ)義意義的上下文。在此我們的假設(shè)是,如果一個(gè)上下文所匹配的詞有句法、語(yǔ)義意義,那么應(yīng)該有其他的上下文也能正好匹配上這些詞。例如,如果我們發(fā)現(xiàn)“〈材料,高〉”、“〈材料,低〉”、“〈物資,高〉”等一系列上下文所能匹配的詞較為一致,就說明它們所匹配的詞在句法、語(yǔ)義上有一定共性,并且說明這些上下文能夠反映詞匯的某些句法、語(yǔ)義性質(zhì),是比較有效的上下文。
基于以上假設(shè),設(shè)計(jì)以下啟發(fā)式方法確定上下文集合。設(shè)上下文詞對(duì)c1和c2,分別能夠匹配的詞的集合為W1和W2。則定義c1與c2的相似度為它們能匹配上的詞的集合之間的Jaccard距離。
根據(jù)得到的相似度矩陣,使用吸引力傳播(Affinity Propagation)聚類算法,對(duì)詞對(duì)聚類。得到類別成員數(shù)大于5的類別所包含的所有上下文詞對(duì),用作表示詞匯信息向量的分量。
基于分布的詞匯信息維度仍然較高,不適合直接用于分詞詞性標(biāo)注等任務(wù)。本節(jié)討論如何由高維的詞匯信息,不根據(jù)具體任務(wù)或者具體任務(wù)的正確標(biāo)注,無(wú)監(jiān)督地學(xué)習(xí)出低維的可用于具體任務(wù)的特征向量。本文主要討論在深度學(xué)習(xí)中使用較多的自動(dòng)編碼器以及基于主成分分析和k均值聚類的方法。
4.1自動(dòng)編碼器
自動(dòng)編碼器是一種多層前傳神經(jīng)網(wǎng)絡(luò),可以用來對(duì)高維數(shù)據(jù)降維,得到低維的特征向量,其在深度學(xué)習(xí)中被廣泛運(yùn)用。
在將自動(dòng)編碼器用于無(wú)監(jiān)督特征學(xué)習(xí)時(shí),通常使用有一個(gè)輸入層、一個(gè)隱層以及一個(gè)輸出層的神經(jīng)網(wǎng)絡(luò)。設(shè)輸入樣本的向量表示為x,通過以下方式可得到隱層和輸出層的激活情況。
其中S(x)=1/(1-e-x)為Sigmoid函數(shù),并注意與一般的多層前傳神經(jīng)網(wǎng)絡(luò)不同的是,前后兩個(gè)公式使用的權(quán)重矩陣W、WT互為轉(zhuǎn)置。
與有監(jiān)督學(xué)習(xí)不同,自動(dòng)編碼器的學(xué)習(xí)目標(biāo)是使輸出層盡量還原輸入層的狀態(tài),既使得z盡量與x相同,本文使用損失函數(shù)
這里我們采用了矩陣表示,X是一個(gè)由n個(gè)樣本的向量組成的矩陣,KL(xi||zi),是輸入向量xi與輸出向量zi的KL散度,用以度量它們之間的區(qū)別。
而由于隱層y的維度比x的維度小得多,所以隱層y可以學(xué)習(xí)到輸入樣本的低維表示,并且能夠通過解碼盡量包含與高維表示相同的信息。使用沒有標(biāo)注的數(shù)據(jù)集X進(jìn)行自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。最后對(duì)于任何輸入向量x,計(jì)算其對(duì)應(yīng)的隱層向量y,就得到了輸入向量的一個(gè)低維編碼。
自動(dòng)編碼器權(quán)重的訓(xùn)練采用隨機(jī)梯度下降算法,使用以下公式更新權(quán)重矩陣,如式(6)所示。
其中η為更新的步長(zhǎng),參數(shù)b和b′采用相同方式更新。
4.2降噪自動(dòng)編碼器
為了使自動(dòng)編碼器更具魯棒性,更好地對(duì)存在噪音的數(shù)據(jù)進(jìn)行編碼,在訓(xùn)練時(shí)對(duì)輸入進(jìn)行污染[2],即使用X′代替X作為輸入,X′的元素定義為
其中矩陣B的元素獨(dú)立采樣自一個(gè)伯努利分布。但在訓(xùn)練自動(dòng)編碼器時(shí)仍然要求自動(dòng)編碼器的輸出Z盡量還原真實(shí)的輸入X而非X′。
4.3稀疏自動(dòng)編碼器
在訓(xùn)練自動(dòng)編碼器時(shí),通常還可以引入額外的約束,限制隱層神經(jīng)元的激活數(shù)目,使得對(duì)于一個(gè)樣本,只有少部分隱層神經(jīng)元被激活,這也是對(duì)數(shù)據(jù)進(jìn)行稀疏編碼(sparse coding)的實(shí)現(xiàn)方式之一。稀疏編碼被證明有可能提高模型效果[1]。
在本實(shí)驗(yàn)中,在損失函數(shù)中引入對(duì)隱層神經(jīng)元激活數(shù)目的約束項(xiàng),如式(8)所示。
4.4使用主成分分析和k均值聚類的特征學(xué)習(xí)方法 除了使用自動(dòng)編碼器,本文也使用基于主成分分析(PCA, Principal Component Analysis)和k均值聚類的方法進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí)。首先對(duì)輸入數(shù)據(jù)進(jìn)行主成分分析降維,并進(jìn)行白化(whiten)。經(jīng)過PCA白化后,表示數(shù)據(jù)樣本的向量每一維的均值為0,方差為1并且相互獨(dú)立,即其協(xié)方差矩陣為單位陣。進(jìn)一步地,使用k近鄰聚類方法對(duì)樣本進(jìn)行聚類,為了避免硬聚類造成的噪音,對(duì)每個(gè)樣本,取前h個(gè)最近鄰作為樣本的特征表示。
5.1基線模型 本文使用基于詞圖的中文分詞詞性標(biāo)注聯(lián)合模型。輸入是由基于字標(biāo)注的分詞詞性標(biāo)注模型輸出的詞圖, 基于詞圖的模型在輸入的詞圖中找出最優(yōu)路徑作為最終的分詞詞性標(biāo)注結(jié)果。
如圖1所示,將最優(yōu)路徑的選擇過程看作從一個(gè)有向無(wú)環(huán)的詞圖中依次找出元素壓棧的過程。最后當(dāng)Q處理完畢,棧中的元素就構(gòu)成最終的分詞詞性標(biāo)注結(jié)果。由于在一個(gè)位置能夠壓棧的元素可能有多種選擇,模型根據(jù)當(dāng)前棧頂、次棧頂元素和待壓棧元素判斷壓棧動(dòng)作的分?jǐn)?shù),最后在所有可能的壓棧動(dòng)作序列中搜索出動(dòng)作分?jǐn)?shù)之和最高的作為最終的輸出。
圖1 基于詞圖的分詞詞性標(biāo)注模型的解碼過程
本文采用Huang等人[14]的方法,進(jìn)行解碼和模型參數(shù)的學(xué)習(xí)。所使用的特征模板列在表1中。
表1 基線分詞詞性標(biāo)注模型的特征模板
其中s1、s0分別是次棧頂和棧頂,q0是待壓棧的詞,s0.w表示該詞本身,s0.len表示的詞長(zhǎng),s0.t表示詞的詞性,s0.conf表示該詞在詞圖上的置信度。
5.2 無(wú)監(jiān)督特征和其他特征的引入
在獲取詞匯信息時(shí),我們?cè)诖笠?guī)模語(yǔ)料中統(tǒng)計(jì)了字符串能夠匹配上的不同上下文模板的情況,構(gòu)成詞的字符串能夠匹配的不同上下文較多,而不是詞的字符串能夠匹配的上下文較少。根據(jù)字符串匹配模板多少,我們可以設(shè)計(jì)新的受限鄰接變化數(shù)[15]特征,即表2中的rav,表示該詞匹配上的上下文的個(gè)數(shù)。
進(jìn)一步,我們引入無(wú)監(jiān)督特征學(xué)習(xí)得到的特征,相關(guān)的特征模板見表2中的ae特征和k特征。其中aej表示該詞在自動(dòng)編碼器編碼之后的向量第j維分量的值大于0.9。類似的,可使用k均值方法引入無(wú)監(jiān)督特征,其中kj表示該詞最近的5個(gè)類中心中有j。
表2 額外的特征模板
最后,與Jiang等人[10]、Sun等人[12]的方法類似,使用北京大學(xué)《人民日?qǐng)?bào)》半年語(yǔ)料庫(kù)訓(xùn)練一個(gè)基于字標(biāo)注的分詞詞性標(biāo)注模型,對(duì)CTB5語(yǔ)料進(jìn)行分詞詞性標(biāo)注,用標(biāo)注結(jié)果作為新的特征,見表2中的pku。其中pku表示該詞使用《人民日?qǐng)?bào)》語(yǔ)料訓(xùn)練的模型中被標(biāo)注的詞性。
最終,我們使用的分詞詞性標(biāo)注系統(tǒng)流程圖以及所添加的無(wú)監(jiān)督詞匯特征如圖2所示。
圖2 本文所用分詞詞性標(biāo)注模型流程圖
6.1 實(shí)驗(yàn)設(shè)置 本文用以抽取中文詞匯信息的資源為SogouT互聯(lián)網(wǎng)語(yǔ)料*http://www.sogou.com/labs/dl/t.html2008版。其中包含了HTML格式的網(wǎng)頁(yè)文件,對(duì)內(nèi)容進(jìn)行自動(dòng)篩選,找到其中的正文部分,得到共6 800萬(wàn)網(wǎng)頁(yè)、260億字符的數(shù)據(jù)集。為了對(duì)語(yǔ)料進(jìn)行分詞,使用的是一個(gè)基于字標(biāo)注的中文分詞模型,其訓(xùn)練語(yǔ)料來自中文樹庫(kù)CTB5,按照Z(yǔ)hang等人[5]的劃分方式劃分訓(xùn)練集、開發(fā)集和測(cè)試集,用以訓(xùn)練分詞模型的為其中的訓(xùn)練集。同時(shí),為了檢驗(yàn)無(wú)監(jiān)督詞匯特征學(xué)習(xí)得到的詞匯特征的有效性,仍然使用在CTB5語(yǔ)料上進(jìn)行的中文分詞詞性標(biāo)注任務(wù)。與Jiang等人[10]、Sun等人[12]的工作類似,本文會(huì)使用在《人民日?qǐng)?bào)》訓(xùn)練分詞詞性標(biāo)注模型,使用其對(duì)CTB5語(yǔ)料進(jìn)行分詞詞性標(biāo)注,將所得到的結(jié)果作為額外的特征。本文所使用的《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)*http://vdisk.weibo.com/s/8Viac與原版略有不同,例如,已經(jīng)將漢族人名的姓氏和名字兩部分進(jìn)行了合并。在大規(guī)模語(yǔ)料中抽取詞的分布信息,需要分詞模型進(jìn)行分詞,而基于詞圖的分詞詞性標(biāo)注基線模型也需要分詞詞性標(biāo)注模型生成詞圖,這兩個(gè)模型均使用THULAC中文詞法分析工具包*http://nlp.csai.tsinghua.edu.cn/thulac/在CTB5的訓(xùn)練集上進(jìn)行訓(xùn)練得到。分詞和詞性標(biāo)注的效果使用F值進(jìn)行評(píng)測(cè)[3]。
6.2詞匯信息獲取
首先使用在CTB5訓(xùn)練語(yǔ)料上訓(xùn)練的中文分詞模型對(duì)SogouT中抽取的文本進(jìn)行中文分詞,得到一個(gè)高頻詞表,同時(shí)得到詞表中的詞與各種上下文詞對(duì)的匹配情況。根據(jù)3.3節(jié)的方法定義上下文詞對(duì)的相似度,使用吸引力傳播聚類工具對(duì)上下文詞對(duì)聚類,選擇其中類別成員大于5的共131個(gè)類別中的1346個(gè)上下文詞對(duì),作為詞匯向量空間表示中的維度。
表3是聚類結(jié)果中的部分類別及其代表成員,每一行為同一類別中的不同上下文。可以看到,一方面所選出的上下文詞對(duì)能夠匹配大量的詞匯,另一方面,每一個(gè)類別中的上下文詞對(duì)可以體現(xiàn)一類詞匯的共同的句法、語(yǔ)義特征。因此用這些上下文詞對(duì)的匹配情況來表征一個(gè)詞的句法、語(yǔ)義信息,是有效的。同時(shí)由于對(duì)于每個(gè)詞僅需要記錄其在一千余種不同上下文中的出現(xiàn)情況,其計(jì)算的時(shí)間、空間復(fù)雜度也適合進(jìn)行大規(guī)模數(shù)據(jù)的處理。
最終,使用這1346個(gè)上下文詞對(duì),在260億字符的數(shù)據(jù)集上對(duì)52876個(gè)高頻多字詞的分布信息進(jìn)行了統(tǒng)計(jì)。
表3 使用吸引力傳播算法對(duì)上下文進(jìn)行聚類的部分結(jié)果
6.3 詞匯特征無(wú)監(jiān)督學(xué)習(xí)
根據(jù)4.1節(jié)的方法,使用自動(dòng)編碼器對(duì)抽取出的詞匯信息進(jìn)行進(jìn)一步的編碼。自動(dòng)編碼器的人工神經(jīng)網(wǎng)絡(luò)的可見層有1 346個(gè)神經(jīng)元,隱層有50個(gè)神經(jīng)元。為給輸入引入噪音,每次迭代的時(shí)候隨機(jī)選擇每個(gè)輸入數(shù)據(jù)10%的維度將其置為0。為實(shí)現(xiàn)稀疏自動(dòng)編碼,將式(8)中的ρ置為0.1,β置為1。訓(xùn)練采用隨機(jī)梯度下降算法迭代15次。通過自動(dòng)編碼器的編碼,最終對(duì)于每個(gè)詞,得到了一個(gè)50維的零一向量,作為其詞匯特征向量。
表4展示了50個(gè)隱層神經(jīng)元之中的4個(gè)的相關(guān)信息,第一列表示能最大程度激活該神經(jīng)元的部分上下文模板,第二列列舉了能最大程度激活該神經(jīng)元的部分詞匯??梢娝鼈円捕加幸欢ǖ木浞?、語(yǔ)義共性。
表4 使用自動(dòng)編碼器學(xué)習(xí)后部分隱層單元學(xué)習(xí)結(jié)果
為了與自動(dòng)編碼器特征學(xué)習(xí)效果進(jìn)行對(duì)比,在使用k均值聚類的方法無(wú)監(jiān)督學(xué)習(xí)特征時(shí),對(duì)經(jīng)過PCA白化的數(shù)據(jù)使用k均值聚出50個(gè)類別。并且對(duì)于任意一個(gè)樣本,選擇與其距離最近的5個(gè)類中心作為其特征表示。
6.4 提升分詞詞性標(biāo)注性能
表5是在CTB5語(yǔ)料上分詞詞性標(biāo)注任務(wù)中的結(jié)果。結(jié)果中標(biāo)有“(*)”的表示方法額外使用了《人民日?qǐng)?bào)》標(biāo)注數(shù)據(jù)集。
在相關(guān)工作中,Wang等人[8]使用經(jīng)過自動(dòng)分析的Gigaword新聞?wù)Z料中提取的提升幫助CTB5語(yǔ)料上的分詞詞性標(biāo)注效果,Jiang等人[10-11]和Sun等人[12]的方法使用北京大學(xué)《人民日?qǐng)?bào)》語(yǔ)料庫(kù)提升CTB5語(yǔ)料上的分詞詞性標(biāo)注效果。
表5在CTB5數(shù)據(jù)集上本文各種方法效果與已有方法比較
方法分詞F值詞性標(biāo)注F值Wang_2011[8]0.98110.9418(?)Jiang_2009[10]0.98230.9403(?)Jiang_2012[11]0.9843無(wú)(?)Sun_2012[12]未提供0.9467基線0.97960.9387基線+RAV0.98080.9386基線+RAV+k均值聚類特征0.98280.9420 (?)加入PKU模型解碼結(jié)果特征0.98450.9464基線+RAV+自動(dòng)編碼特征0.98340.9448 特征學(xué)習(xí)無(wú)稀疏編碼約束0.98330.9447 特征學(xué)習(xí)不引入噪音0.98190.9432 (?)加入PKU模型解碼結(jié)果特征0.98430.9480
注: 方法名稱中標(biāo)注有“(*)”的表示其使用了額外的人工標(biāo)注語(yǔ)料。
本文基線模型能達(dá)到較好的效果,引入RAV特征可以小幅提高分詞的效果,但對(duì)詞性標(biāo)注的幫助不大。
再考察無(wú)監(jiān)督詞匯特征學(xué)習(xí)得到的特征。不論是引入k均值聚類的特征還是自動(dòng)編碼器的特征,分詞詞性標(biāo)注的效果均有明顯提升,在詞性標(biāo)注上自動(dòng)編碼器的效果較優(yōu)??梢娫诖笠?guī)模語(yǔ)料中無(wú)監(jiān)督學(xué)習(xí)得到的特征對(duì)分詞詞性標(biāo)注模型有很大的幫助。對(duì)自動(dòng)編碼器而言,稀疏編碼約束的映入對(duì)效果影響不大,而訓(xùn)練時(shí)噪音的引入對(duì)無(wú)監(jiān)督特征學(xué)習(xí)的質(zhì)量是有幫助的。
最后,進(jìn)一步加入《人民日?qǐng)?bào)》語(yǔ)料庫(kù)相關(guān)特征后,模型效果有了進(jìn)一步提高。無(wú)論是否使用額外的標(biāo)注數(shù)據(jù)集,本文方法的效果均超過了相關(guān)工作。
本文研究利用自動(dòng)編碼器進(jìn)行中文詞匯特征的無(wú)監(jiān)督學(xué)習(xí)。首先從大規(guī)模無(wú)標(biāo)注語(yǔ)料中抽取詞匯的高維分布信息。并使用自動(dòng)編碼器無(wú)監(jiān)督學(xué)習(xí)得到的低維特征提升中文分詞詞性標(biāo)注任務(wù)效果,以檢驗(yàn)所得到特征的有效性。此外,還是用主成分分析與k均值聚類的方法進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí),與使用自動(dòng)編碼器的方法進(jìn)行對(duì)比。在賓州中文樹庫(kù)5.0數(shù)據(jù)集上的實(shí)驗(yàn)表明,從大規(guī)模無(wú)標(biāo)注語(yǔ)料中學(xué)習(xí)的詞匯特征顯著提升了分詞詞性標(biāo)注任務(wù)的效果,使用自動(dòng)編碼器的方法要優(yōu)于k均值聚類的方法。并且本文模型的效果超過了所有相關(guān)工作。
本文所提出的特征,將詞匯分布式地表示為一個(gè)低維向量,與直接使用詞匯本身作為特征相比,特征數(shù)目非常少,可以避免由于特征過多造成的數(shù)據(jù)稀疏問題,并且對(duì)訓(xùn)練集中未出現(xiàn)的詞也能夠更好的處理。這應(yīng)是其能夠提高現(xiàn)有分詞詞性標(biāo)注模型性能的原因之一。
本文只是無(wú)監(jiān)督特征學(xué)習(xí)在中文信息處理中的一次嘗試。未來將研究更好的詞匯分布信息的抽取、表示方法,以及漢字、字串分布信息的抽取、表示方法。進(jìn)一步地,可通過自動(dòng)編碼器學(xué)習(xí)詞串、句法關(guān)系等更大粒度語(yǔ)言單位的特征表示。并在深度神經(jīng)網(wǎng)絡(luò)的框架下進(jìn)行統(tǒng)一的參數(shù)學(xué)習(xí),用于分詞、詞性標(biāo)注、句法分析等多種自然語(yǔ)言處理任務(wù)。
[1] Coates Adam, Ng Andrew Y, Lee Honglak. An analysis of single-layer networks in unsupervised feature learning[C]//Proceedings of International Conference on Artificial Intelligence and Statistics. 2011: 215-223.
[2] Vincent Pascal, Larochelle Hugo, Bengio Yoshua, et la. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. 2008: 1096-1103.
[3] Ng Hwee Tou, Low Jin Kiat. Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based?[C]//Proceedings of EMNLP 2004. Barcelona, Spain: Association for Computational Linguistics. 2004: 277-284.
[4] Sun Weiwei. A Stacked Sub-Word Model for Joint Chinese Word Segmentation and Part-of-Speech Tagging[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA: Association for Computational Linguistics. 2011: 1385-1394.
[5] Zhang Yue, Clark Stephen. Joint Word Segmentation and POS Tagging Using a Single Perceptron[C]//Proceedings of ACL-08: HLT. Columbus, Ohio: Association for Computational Linguistics. 2008: 888-896.
[6] Jiang Wenbin, Mi Haitao, Liu Qun. Word Lattice Reranking for Chinese Word Segmentation and Part-of-Speech Tagging[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee. 2008: 385-392.
[7] Feng Haodi, Chen Kang, Kit Chunyu, et al. Unsupervised Segmentation of Chinese Corpus Using Accessor Variety[C]//Proceedings of Natural Language Processing IJCNLP. 2005: 694-703.
[8] Wang Yiou, Jun’ichi Kazama, Yoshimasa Tsuruoka, et al. Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-Analyzed Data[C]//Proceedings of 5th International Joint Conference on Natural Language Processing. Chiang Mai, Thailand: Asian Federation of Natural Language Processing. 2011: 309-317.
[9] Sun Weiwei, Uszkoreit Hans. Capturing Paradigmatic and Syntagmatic Lexical Relations: Towards Accurate Chinese Part-of-Speech Tagging[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island, Korea: Association for Computational Linguistics. 2012: 242-252.
[10] Jiang Wenbin, Huang Liang, Liu Qun. Automatic Adaptation of Annotation Standards: Chinese Word Segmentation and POS Tagging—A Case Study[C]//Proceedings of the 47th ACL. Suntec, Singapore: Association for Computational Linguistics. 2009: 522-530.
[11] Jiang Wenbin, Meng Fandong, Liu Qun, et al. Iterative Annotation Transformation with Predict-Self Reestimation for Chinese Word Segmentation[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea: Association for Computational Linguistics. 2012: 412-420.
[12] Sun Weiwei, Wan Xiaojun. Reducing Approximation and Estimation Errors for Chinese Lexical Processing with Heterogeneous Annotations[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island, Korea: Association for Computational Linguistics. 2012: 232-241.
[13] Collobert Ronan, Weston Jason. A unified architecture for natural language processing: Deep neural networks with multitask learning[C]//Proceedings of the 25th international conference on machine learning. 2008: 160-167.
[14] Huang Liang, Sagae Kenji. Dynamic Programming for Linear-Time Incremental Parsing[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden: Association for Computational Linguistics. 2010: 1077-1086.
[15] Zhang Kaixu, Wang Ruining, Xue Ping, et al. Extract Chinese Unknown Words from a Large-scale Corpus Using Morphological and Distributional Evidences[C]//Proceedings of 5th International Joint Conference on Natural Language Processing. Chiang Mai, Thailand: Asian Federation of Natural Language Processing. 2011: 837-845.