李珊珊 ,蔣盛益 ,符斯慧
(1.廣東外語(yǔ)外貿(mào)大學(xué) 廣州市非通用語(yǔ)種智能處理重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006;2.廣東外語(yǔ)外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510006)
作為菲律賓官方語(yǔ)言的菲律賓語(yǔ),又稱他加祿語(yǔ),屬于南島語(yǔ)系的馬來(lái)-波利尼西亞語(yǔ)族,主要被使用于菲律賓,也廣泛運(yùn)用于馬來(lái)西亞沙巴州、印度尼西亞北部地區(qū)和新加坡。在菲律賓人口中,超過(guò)2 000萬(wàn)人以菲律賓語(yǔ)作為母語(yǔ)。菲律賓語(yǔ)采用的書寫系統(tǒng)為拉丁字母。在菲律賓語(yǔ)的發(fā)展過(guò)程中,因受殖民統(tǒng)治和外來(lái)文化的影響,其從西班牙語(yǔ)、福建閩南話、英語(yǔ)、馬來(lái)語(yǔ)、阿拉伯語(yǔ)等語(yǔ)言中吸收了不少詞匯。菲律賓語(yǔ)屬于黏著語(yǔ)(agglutinative language),但是也呈現(xiàn)出一些屈折語(yǔ)的特征,如動(dòng)詞的形態(tài)受焦點(diǎn)、體及語(yǔ)態(tài)的影響,代詞的形態(tài)受數(shù)的影響等。菲律賓語(yǔ)的詞匯形態(tài)變化復(fù)雜,句法結(jié)構(gòu)復(fù)雜,且單詞順序較為自由。
菲律賓是東南亞的一個(gè)發(fā)展中國(guó)家,也是“一帶一路”沿線的重要國(guó)家之一。1975年中菲建交以來(lái),兩國(guó)關(guān)系總體上發(fā)展順利,各領(lǐng)域的合作不斷被拓展。隨著“一帶一路”倡議提出之后,中菲兩國(guó)在政治、經(jīng)濟(jì)貿(mào)易、文化等領(lǐng)域的合作有了進(jìn)一步的發(fā)展,致力于共同深化和平與發(fā)展的戰(zhàn)略性合作關(guān)系。中菲兩國(guó)在文化交流與合作更加密切的同時(shí),語(yǔ)言互通的需求也日漸強(qiáng)烈。在當(dāng)今互聯(lián)網(wǎng)快速發(fā)展的時(shí)代,如何利用信息技術(shù),構(gòu)建“語(yǔ)言互通”的橋梁,進(jìn)一步深化我國(guó)與菲律賓國(guó)家的文化與信息交流,促進(jìn)區(qū)域合作,實(shí)現(xiàn)共同發(fā)展,顯得十分必要。為此,有不少學(xué)術(shù)研究團(tuán)隊(duì)以菲律賓語(yǔ)為對(duì)象進(jìn)行學(xué)術(shù)研究,主要的研究團(tuán)隊(duì)包括菲律賓德拉薩大學(xué)語(yǔ)言技術(shù)中心(De La Salle University,Center for Language Technologies)、菲律賓理工大學(xué)計(jì)算機(jī)與信息科學(xué) 學(xué) 院(Polytechnic University of the Philippines,College of Computer and Information Sciences)、廣州市非通用語(yǔ)種智能處理重點(diǎn)實(shí)驗(yàn)室(Guangzhou Key Laboratory of Multilingual Intelligent Processing)等。由此可見,對(duì)菲律賓語(yǔ)自然語(yǔ)言處理方面展開研究具有重要的現(xiàn)實(shí)意義。因此,本文擬對(duì)菲律賓語(yǔ)的詞法分析、句法分析、語(yǔ)義分析等基礎(chǔ)研究和機(jī)器翻譯、拼寫檢查、情感分析等應(yīng)用技術(shù)的研究現(xiàn)狀進(jìn)行歸納與分析,并且梳理已有資源建設(shè)的研究成果,剖析其面臨的主要問(wèn)題,在此基礎(chǔ)上展望其未來(lái)的研究方向。
詞法分析研究主要包括詞干提取、形態(tài)分析(如詞形還原等)、詞性標(biāo)注等基礎(chǔ)研究,以及命名實(shí)體識(shí)別等應(yīng)用技術(shù)。本小節(jié)介紹的內(nèi)容僅涉及菲律賓語(yǔ)自然語(yǔ)言處理領(lǐng)域的底層技術(shù),如詞干提取、形態(tài)分析、詞性標(biāo)注等,而其他應(yīng)用技術(shù)研究?jī)?nèi)容將在后續(xù)章節(jié)中展示。
2.1.1 形態(tài)分析
菲律賓語(yǔ)的詞綴系統(tǒng)非常復(fù)雜,包含前綴、中綴、環(huán)綴、后綴、重復(fù)及以上多種詞綴的疊加。菲律賓語(yǔ)中的重復(fù)可以是單詞部分重復(fù)或者全部重復(fù)。多種詞綴疊加是菲律賓語(yǔ)動(dòng)詞中常見的語(yǔ)言現(xiàn)象。例如單詞pinanglilibang-libang,它通過(guò)詞干libang 附加前綴pang,而前綴pang 又疊加中綴in 組成pinang,并且部分重復(fù)li 及全部重復(fù)libang 來(lái)構(gòu)成。由于菲律賓語(yǔ)的復(fù)雜性,對(duì)其進(jìn)行形態(tài)分析成為菲律賓語(yǔ)自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)任務(wù),可為信息檢索、機(jī)器翻譯等研究提供支持。
F.Fortes[1]提出一個(gè)用于提取級(jí)聯(lián)(concatenative,指包含前綴、后綴、環(huán)綴的情況)和非級(jí)聯(lián)(non- concatenative,指包含中綴、重復(fù)的情況)形式的詞干動(dòng)詞詞法分析器——TagMA。TagMA 通過(guò)語(yǔ)素、CV(C,consonants表輔音;V,vowels表元音)以及音節(jié)來(lái)表示輸入的動(dòng)詞,再將輸入表示饋入生成器以得到候選集合。雖然TagMA的分析準(zhǔn)確率達(dá)96%,但是利用該方法分析輸入動(dòng)詞的過(guò)程耗時(shí)較長(zhǎng),且只輸出動(dòng)詞的詞干、詞綴和時(shí)態(tài),而不包括動(dòng)詞的不定形式。
在此基礎(chǔ)上,F(xiàn).C.Fortes-Galvan等[2]將最優(yōu)化理論(optimality theory)應(yīng)用于詞法分析中,提出了一個(gè)基于約束的動(dòng)詞詞法分析器,以同時(shí)處理級(jí)聯(lián)和非級(jí)聯(lián)的形態(tài)學(xué)現(xiàn)象。并且課題組利用該分析器對(duì)含有50個(gè)詞根的1 600個(gè)動(dòng)詞進(jìn)行了測(cè)試,所得結(jié)果表明,分析器所輸出的動(dòng)詞基本形式的準(zhǔn)確率達(dá)96%。
R.Roxas等[3]也設(shè)計(jì)了一個(gè)動(dòng)詞詞法分析器。與F.C.Fortes-Galvan等提出的分析器不同的是,R.Roxas設(shè)計(jì)的分析器輸出的結(jié)果中包含動(dòng)詞的時(shí)態(tài)、不定式形式以及詞綴。對(duì)于一個(gè)給定的動(dòng)詞,該詞法分析器能給出該動(dòng)詞的基本形式、所含詞綴以及對(duì)應(yīng)的時(shí)態(tài)(過(guò)去時(shí)、現(xiàn)在時(shí)及將來(lái)時(shí))。利用該分析器對(duì)1 050個(gè)動(dòng)詞(包含規(guī)則動(dòng)詞及不規(guī)則動(dòng)詞)進(jìn)行測(cè)試,所得測(cè)試結(jié)果表明,其對(duì)于3種輸出結(jié)果的準(zhǔn)確率均達(dá)95%以上。
以上兩項(xiàng)研究只是對(duì)動(dòng)詞進(jìn)行了分析和還原,而D.E.Bonus[4]提出了一個(gè)不限于動(dòng)詞的基于詞典的詞根還原算法TagSA(https://github.com/laronandrew11/ stemmer),該算法中考慮了詞綴、重復(fù)以及復(fù)合等情況。并在6 000 多個(gè)詞語(yǔ)上進(jìn)行了測(cè)試,且取得了不錯(cuò)的效果。
P.Baumann等[5]研究了如何利用語(yǔ)言資源豐富的英語(yǔ)來(lái)輔助對(duì)于資源缺乏的菲律賓語(yǔ)及祖魯語(yǔ)的形態(tài)進(jìn)行分析。他們考慮到這兩種語(yǔ)言的形態(tài)變化較為豐富,并且由于受到外來(lái)文化的影響,有不少借詞現(xiàn)象,因此,可以根據(jù)借詞的形態(tài)變化來(lái)獲取常用的詞綴。以獲取菲律賓語(yǔ)單詞的詞綴為例,他們先從網(wǎng)上獲取兩種語(yǔ)言的文本,并且分別從中提取出對(duì)應(yīng)的詞匯列表;再通過(guò)判斷某個(gè)英語(yǔ)單詞是否為一個(gè)菲律賓語(yǔ)單詞的子串,以獲得潛在的詞綴。最后,根據(jù)潛在的詞綴在語(yǔ)料中的分布,確定最終的詞綴。他們利用該方法成功提取出28個(gè)常用的菲律賓語(yǔ)詞綴以及66個(gè)常用的祖魯語(yǔ)詞綴。
通過(guò)以上的研究分析可以看出,由于菲律賓語(yǔ)的動(dòng)詞形態(tài)變化較其他詞類的更為豐富,其形態(tài)分析研究主要針對(duì)動(dòng)詞,較少有研究針對(duì)所有詞類。幾乎所有的研究是利用菲律賓語(yǔ)動(dòng)詞的形態(tài)學(xué)變化規(guī)律提出基于規(guī)則的形態(tài)分析方法,算法的準(zhǔn)確率也較高。本課題組認(rèn)為,雖然菲律賓語(yǔ)動(dòng)詞的形態(tài)變化復(fù)雜,但是均有規(guī)律可循,可以通過(guò)構(gòu)建大規(guī)模(詞干、派生詞)序列對(duì)語(yǔ)料庫(kù),將形態(tài)分析任務(wù)轉(zhuǎn)化為序列學(xué)習(xí)任務(wù),通過(guò)深度學(xué)習(xí)方法,如LSTM(long shortterm memory)、seq2seq等,可自動(dòng)學(xué)習(xí)菲律賓語(yǔ)動(dòng)詞的形態(tài)學(xué)規(guī)則,從而實(shí)現(xiàn)詞干的提取。
2.1.2 詞性標(biāo)注
詞性(part-of-speech,POS)是詞匯最基本的語(yǔ)法屬性,使用詞性標(biāo)注便于判定每個(gè)詞的語(yǔ)法范疇。詞性標(biāo)注是自然語(yǔ)言處理中一項(xiàng)非常重要的基礎(chǔ)性工作,其為句法分析、命名實(shí)體識(shí)別、機(jī)器翻譯等任務(wù)打下基礎(chǔ)。與英語(yǔ)相比,菲律賓語(yǔ)同樣具有后綴、大寫字母等可用于確定POS的語(yǔ)言特征。除此以外,菲律賓語(yǔ)的詞性標(biāo)注離不開前綴、中綴、環(huán)綴、重復(fù)等有用的語(yǔ)言信息。
Cheng C.K.等[6]提出了一個(gè)基于模板的n元語(yǔ)法詞性標(biāo)注器,其核心為幾類詞特征,即常用的225個(gè)用于構(gòu)建句子的詞語(yǔ)、詞綴、字母大寫以及連字符。他們所用的訓(xùn)練和測(cè)試語(yǔ)料源于菲律賓語(yǔ)版圣經(jīng)(共141句),用到的詞類標(biāo)簽有59個(gè),測(cè)試結(jié)果的準(zhǔn)確率為92%以上。
M.Erlyn等[7]探討了影響菲律賓語(yǔ)詞性標(biāo)注效果的因素,考慮以菲律賓語(yǔ)單詞的形態(tài)結(jié)構(gòu)、形態(tài)信息(如詞綴)作為訓(xùn)練POS模型的輸入。實(shí)驗(yàn)中使用了菲律賓德拉薩大學(xué)(De La Salle University,DLSU)的人工標(biāo)注數(shù)據(jù),涵蓋小說(shuō)、報(bào)紙文章、短片故事和圣經(jīng)章節(jié),包括114 096個(gè)詞條,POS 標(biāo)注集包括9個(gè)粗粒度標(biāo)簽、60個(gè)特定標(biāo)簽、5個(gè)標(biāo)點(diǎn)符號(hào)標(biāo)簽以及其他符號(hào)的標(biāo)簽,所得測(cè)試結(jié)果表明,POS模型標(biāo)注的準(zhǔn)確率高達(dá)93%以上。
C.D.E.Reyes等[8]利用支持向量機(jī)和bigram 開發(fā)了一個(gè)菲律賓語(yǔ)詞性標(biāo)注器SVPOST,并對(duì)其有效性進(jìn)行了實(shí)驗(yàn)驗(yàn)證。其實(shí)驗(yàn)數(shù)據(jù)中包含122 318個(gè)已標(biāo)注單詞和64個(gè)詞性標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,該標(biāo)注器的準(zhǔn)確率可達(dá)81%。
N.Nocon等[9]將統(tǒng)計(jì)機(jī)器翻譯的方法應(yīng)用于菲律賓語(yǔ)的詞性標(biāo)注中。他們將序列標(biāo)注問(wèn)題轉(zhuǎn)換為編碼-解碼問(wèn)題,并以給定的句子(源語(yǔ)言)作為輸入,句子中的詞語(yǔ)對(duì)應(yīng)的詞性標(biāo)記(目標(biāo)語(yǔ)言)為模型的輸出。實(shí)驗(yàn)中使用的詞類標(biāo)記集為MGNN 標(biāo)記集(包含230個(gè)詞類標(biāo)記,http://goo.gl/dY0qFe),所用的訓(xùn)練和測(cè)試語(yǔ)料取自維基百科(共2 668句),得到的最高準(zhǔn)確率為84.75%。
M.P.Go等[10]構(gòu)建了基于Stanford 詞性標(biāo)注器的菲律賓語(yǔ)詞性標(biāo)注(https://github.com/matthewgo/ FilipinoStanfordPOSTagger)。他們用到的核心算法為最大熵循環(huán)依賴網(wǎng)絡(luò),在設(shè)計(jì)特征時(shí)考慮了詞匯的形態(tài)及句子內(nèi)部的語(yǔ)碼轉(zhuǎn)換信息,使用的詞類標(biāo)記集也是MGNN 標(biāo)記集,所用的訓(xùn)練和測(cè)試語(yǔ)料來(lái)源于英文維基百科隨機(jī)抽取的15 166個(gè)句子,經(jīng)由相關(guān)語(yǔ)言學(xué)家翻譯為菲律賓語(yǔ)句子后再進(jìn)行人工詞性標(biāo)注,最終得到的標(biāo)記準(zhǔn)確率為96%。
J.F.T.Olivo等[11]嘗試了基于條件隨機(jī)場(chǎng)的方法,使用的詞類標(biāo)記集仍為MGNN 標(biāo)記集,所用訓(xùn)練和測(cè)試語(yǔ)料與M.P.Go等[10]所用的語(yǔ)料一致,得到的標(biāo)記準(zhǔn)確率在90%以上。
菲律賓語(yǔ)句子中單詞順序自由,導(dǎo)致菲律賓語(yǔ)不可以通過(guò)分析目標(biāo)詞前后詞匯的分布概率來(lái)預(yù)測(cè)目標(biāo)詞的POS 標(biāo)簽,將POS 標(biāo)注視為序列學(xué)習(xí)任務(wù)則無(wú)法很好地學(xué)到菲律賓語(yǔ)語(yǔ)法結(jié)構(gòu)模式,從而導(dǎo)致實(shí)驗(yàn)效果不好;而標(biāo)注語(yǔ)料的缺乏也限制了詞性標(biāo)注工作的開展。
句法分析的主要任務(wù)是為了確定句子中各組成成分之間的關(guān)系,也就是確定其句法結(jié)構(gòu)。菲律賓語(yǔ)的句子中,各組成成分的順序較為自由,不具有主謂一致的語(yǔ)法特點(diǎn),并且句子的焦點(diǎn)成為主題而不是主語(yǔ)。這些語(yǔ)言特征成為菲律賓語(yǔ)句法分析中的一大障礙,導(dǎo)致適用于菲律賓語(yǔ)句法分析的算法相對(duì)較少,其研究成果也很少。
A.Clark[12]嘗試了利用詞匯功能語(yǔ)法(lexical functional grammar,LFG)作為計(jì)算模型來(lái)捕獲菲律賓語(yǔ)的信息,實(shí)現(xiàn)了一個(gè)用于菲律賓語(yǔ)書面句子語(yǔ)法分析并輸出句子功能結(jié)構(gòu)的系統(tǒng)——FiSSAn。雖然FiSSAn 目前只能用于處理陳述句,但是可以通過(guò)總結(jié)更廣泛的語(yǔ)法規(guī)則集以捕獲更多類型的菲律賓語(yǔ)句子結(jié)構(gòu),如祈使句和疑問(wèn)句等。
D.L.Alcantara等[13]使用無(wú)監(jiān)督的統(tǒng)計(jì)方法,對(duì)菲律賓語(yǔ)句子進(jìn)行了構(gòu)成成分(constituent)的劃分。他們?cè)趯?duì)句子進(jìn)行詞形還原和詞性標(biāo)注后,統(tǒng)計(jì)分析所有出現(xiàn)的詞性標(biāo)注序列,以生成劃分構(gòu)成成分的規(guī)則,由此得到的規(guī)則庫(kù)即可以用于劃分后續(xù)句子的構(gòu)成成分,此方法的F值在69%以上。
E.Manguilimotan等[14]首先進(jìn)行了針對(duì)菲律賓語(yǔ)依存句法分析的研究。他們采用基于圖的最大生成樹算法,探索了粗細(xì)粒度的詞性、詞根和形態(tài)等特征對(duì)句法分析模型性能的影響。并且在2 741個(gè)句子上進(jìn)行了訓(xùn)練和測(cè)試,結(jié)果表明,對(duì)于無(wú)標(biāo)簽的依存關(guān)系(unlabeled attachment scores,UAS),句法分析模型的平均準(zhǔn)確率為78%;而對(duì)于整個(gè)句子,句法分析模型的平均準(zhǔn)確率僅為24%。這一實(shí)驗(yàn)結(jié)果表明,當(dāng)詞性信息不夠準(zhǔn)確時(shí),加入形態(tài)信息有利于提高句法分析器的性能。
對(duì)于不同的語(yǔ)言單位,語(yǔ)義分析有著不同的意義。在詞匯的層面上,語(yǔ)義分析指詞義消歧;在句子的層面上,語(yǔ)義分析指語(yǔ)義角色標(biāo)注;在篇章的層面上,語(yǔ)義分析指共指消解。語(yǔ)義分析是目前NLP(natural language processing)研究的一個(gè)重要方向。部分學(xué)者對(duì)于菲律賓語(yǔ)語(yǔ)義分析進(jìn)行了初步的探討和研究,這些研究主要集中在語(yǔ)義知識(shí)庫(kù)的構(gòu)建、詞義消歧等方面。
E.Domingo等[15]研究了將句法關(guān)系信息融合到機(jī)器翻譯系統(tǒng)中,以進(jìn)行目標(biāo)語(yǔ)言的詞義消歧。他們一方面利用雙語(yǔ)詞典和WordNet 進(jìn)行源語(yǔ)言的詞義消歧,另一方面從目標(biāo)語(yǔ)言詞典和語(yǔ)料中統(tǒng)計(jì)抽取出句法的關(guān)系信息,兩者結(jié)合以在生成目標(biāo)語(yǔ)言時(shí)選擇出最合適的詞語(yǔ)。
M.Mistica等[16]初步實(shí)現(xiàn)了基于條件隨機(jī)場(chǎng)(conditional random field,CRF)的語(yǔ)義分析器,以識(shí)別菲律賓語(yǔ)中的謂詞-論元結(jié)構(gòu)。他們構(gòu)建了一個(gè)小規(guī)模的謂詞-論元菲律賓語(yǔ)語(yǔ)料庫(kù),并且在實(shí)驗(yàn)過(guò)程中對(duì)比了詞性、詞語(yǔ)形態(tài)及字母n-gram等特征對(duì)分析器性能的影響。實(shí)驗(yàn)結(jié)果表明,對(duì)于謂詞的識(shí)別,F(xiàn)值最高為44.2%,而對(duì)于論元的識(shí)別和依附,F(xiàn)值最高為47.7%。
S.Bergsma等[17]針對(duì)附加前綴的動(dòng)詞,提出如果前綴動(dòng)詞可以被分解為包含其詞干的語(yǔ)義等效表達(dá),則可認(rèn)為該詞是組成動(dòng)詞。他們還開發(fā)了一個(gè)分類器,以通過(guò)一系列詞匯和其分布特征來(lái)預(yù)測(cè)詞匯的組成。實(shí)驗(yàn)結(jié)果表明,該分類器可以較為準(zhǔn)確地預(yù)測(cè)附加前綴的動(dòng)詞的詞干。
A.L.Andrei[18]試圖構(gòu)建了一個(gè)小規(guī)模的面向Twitter的菲律賓語(yǔ)情感詞典LIWC(linguistic inquiry and word count)。首先,他在菲律賓國(guó)內(nèi)的博客、新聞網(wǎng)站及Twitter 上獲取菲律賓語(yǔ)文本,并且通過(guò)文本預(yù)處理得到了18 254個(gè)詞,其中包含英語(yǔ)、菲律賓語(yǔ)、宿霧語(yǔ)、印尼語(yǔ)和西班牙語(yǔ)等語(yǔ)言的單詞。然后,其利用谷歌翻譯,將所有詞翻譯為菲律賓語(yǔ)詞,經(jīng)過(guò)人工校對(duì)過(guò)濾后,得到了1 510個(gè)菲律賓語(yǔ)詞;再仿照構(gòu)建英語(yǔ)LIWC的步驟,讓3 位標(biāo)注員對(duì)所有詞進(jìn)行正負(fù)向情感標(biāo)注,最終獲得273個(gè)正向情感詞及344個(gè)負(fù)向情感詞。另外,人工標(biāo)注篩選了大量針對(duì)某個(gè)話題的推文,最終獲得575篇帶有情感標(biāo)記(正向、負(fù)向及中性)的推文,基于這些推文測(cè)試了情感詞典的效果,在正向文本上的平均F值為33%,在負(fù)向文本上的平均F值為52%,而在中性文本上的平均F值為12.5%,說(shuō)明仍有較大的提升空間。
綜上所述,相比詞法分析及句法分析等方面的研究,菲律賓語(yǔ)語(yǔ)義分析的研究成果較少,而且其語(yǔ)義知識(shí)庫(kù)構(gòu)建仍處于初級(jí)階段。
菲律賓的機(jī)器翻譯始于20世紀(jì)90年代后期,涉及菲律賓國(guó)家的兩種官方語(yǔ)言:菲律賓語(yǔ)和英語(yǔ)。截至目前,菲律賓語(yǔ)的機(jī)器翻譯研究取得了較大進(jìn)展,其研究方法涵蓋基于轉(zhuǎn)換、基于語(yǔ)料庫(kù)、基于統(tǒng)計(jì)和基于深度學(xué)習(xí)的方法。
最早被用于菲律賓語(yǔ)機(jī)器翻譯研究的方法是轉(zhuǎn)換法,該方法主要是通過(guò)對(duì)源語(yǔ)言進(jìn)行分析,得到其結(jié)構(gòu),再將分析的結(jié)構(gòu)轉(zhuǎn)換成目標(biāo)語(yǔ)言的結(jié)構(gòu),而后根據(jù)目標(biāo)語(yǔ)言結(jié)構(gòu)生成目標(biāo)語(yǔ)言,從而實(shí)現(xiàn)翻譯。例如R.Roxas等[19]利用增強(qiáng)過(guò)濾網(wǎng)絡(luò)和少于10 000 詞條的字典構(gòu)建了英菲翻譯工具,但該工具僅是針對(duì)陳述句和祈使句的翻譯。隨后,A.Borra[20]探討了將詞匯功能語(yǔ)法作為文法形式的翻譯系統(tǒng),發(fā)現(xiàn)功能結(jié)構(gòu)(f-structure,f結(jié)構(gòu))和組分結(jié)構(gòu)(c-structure,c結(jié)構(gòu))有助于識(shí)別翻譯錯(cuò)誤。在此基礎(chǔ)上,A.Borra等[21]也提出了一個(gè)基于詞匯功能語(yǔ)法的英菲機(jī)器翻譯系統(tǒng)。整個(gè)系統(tǒng)包括對(duì)源語(yǔ)言f結(jié)構(gòu)的分析、源語(yǔ)言的f結(jié)構(gòu)到目標(biāo)語(yǔ)言的f結(jié)構(gòu)的轉(zhuǎn)換,以及由目標(biāo)語(yǔ)言的f結(jié)構(gòu)生成目標(biāo)語(yǔ)言幾個(gè)步驟。在系統(tǒng)開發(fā)過(guò)程中,用到了兩種語(yǔ)言的語(yǔ)法規(guī)則、單語(yǔ)詞典、轉(zhuǎn)換詞典(包含2 000個(gè)平行詞對(duì))及轉(zhuǎn)換規(guī)則等語(yǔ)言資源。實(shí)驗(yàn)結(jié)果表明,輸入和輸出的句子符合既定的語(yǔ)法規(guī)則、其單詞存在于詞典中且轉(zhuǎn)換規(guī)則必須存在相應(yīng)的f結(jié)構(gòu)才可以成功翻譯。T.Allman等[22]開發(fā)了一個(gè)稱為L(zhǎng)inguist’s Assistant的自然語(yǔ)言生成器,可被用于翻譯宗教文本。其雖然需要復(fù)雜的短語(yǔ)結(jié)構(gòu)規(guī)則才能正確地對(duì)目標(biāo)語(yǔ)言的成分進(jìn)行排序,但是短語(yǔ)生成規(guī)則明顯簡(jiǎn)化了目標(biāo)語(yǔ)言的語(yǔ)法規(guī)則。以上基于轉(zhuǎn)換的方法中,翻譯的效果受限于語(yǔ)料規(guī)模及轉(zhuǎn)換規(guī)則,無(wú)法翻譯詞典外的詞匯(out of vocabulary,OOV)。
鑒于基于轉(zhuǎn)換方法的人工構(gòu)造規(guī)則的局限性,基于語(yǔ)料庫(kù)的機(jī)器翻譯方法應(yīng)運(yùn)而生。該方法和傳統(tǒng)的基于規(guī)則的方法相比有很大的不同,基于語(yǔ)料庫(kù)的方法并不對(duì)目標(biāo)語(yǔ)言進(jìn)行深入復(fù)雜的語(yǔ)法分析,也不通過(guò)規(guī)則轉(zhuǎn)換,而使用源語(yǔ)言和目標(biāo)語(yǔ)言相對(duì)照的雙語(yǔ)或多語(yǔ)語(yǔ)料庫(kù)直接或間接地進(jìn)行翻譯。例如R.E.O.Roxas等[23-24]提出了基于轉(zhuǎn)換規(guī)則和基于語(yǔ)料庫(kù)混合的方法。其中,利用LFG 實(shí)現(xiàn)基于轉(zhuǎn)換的方法,而基于語(yǔ)料庫(kù)的方法嘗試從大量英菲平行句對(duì)(包含207 000 菲律賓語(yǔ)詞匯)中抽取翻譯模式,并且存為模板,以實(shí)現(xiàn)翻譯。E.Ong等[25]提出一種基于模板的機(jī)器翻譯系統(tǒng),該系統(tǒng)從給定的雙語(yǔ)語(yǔ)料庫(kù)中提取模板,并以常見的詞匯過(guò)濾及組塊對(duì)齊算法來(lái)提高提取模板的質(zhì)量。
基于統(tǒng)計(jì)的機(jī)器翻譯方法是一種間接地使用語(yǔ)料庫(kù)的機(jī)器翻譯方法,它是通過(guò)雙語(yǔ)句對(duì)的對(duì)齊,分析詞匯共現(xiàn)的可能性來(lái)計(jì)算源語(yǔ)言的某一個(gè)詞映射到目標(biāo)語(yǔ)言的一個(gè)或多個(gè)(或零個(gè))詞的概率。例如J.Ang等[26]構(gòu)建了一個(gè)基于Moses(http://www.statmt.org/moses/)菲英統(tǒng)計(jì)翻譯系統(tǒng)——FEBSMT,所用的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于22 031句旅游領(lǐng)域的英菲平行句對(duì)。該系統(tǒng)可以接受用戶反饋,并且周期性地匯總反饋數(shù)據(jù),以對(duì)系統(tǒng)做增量式訓(xùn)練,提升系統(tǒng)性能。
由于自動(dòng)構(gòu)建平行語(yǔ)料庫(kù)方法的可用性,基于深度學(xué)習(xí)的菲律賓語(yǔ)機(jī)器翻譯研究取得了一定的進(jìn)展。A.J.Tacorda等[27]利用100 000個(gè)英菲平行句對(duì)訓(xùn)練RNN模型,并集成字節(jié)對(duì)編碼(byte pair encoding,BPE)以減少OOV 翻譯錯(cuò)誤。BPE 將一個(gè)詞條分解成可識(shí)別的字符序列。因此,如果已經(jīng)通過(guò)BPE 識(shí)別出訓(xùn)練數(shù)據(jù)的詞干和詞綴,則可以識(shí)別訓(xùn)練數(shù)據(jù)中不存在的詞條。但是BPE 無(wú)法處理誤將詞干的字符序列識(shí)別為詞綴的情況。而針對(duì)OOV 翻譯的問(wèn)題,A.N.Lazaro等[28]提出通過(guò)利用領(lǐng)域適應(yīng)技術(shù)預(yù)處理訓(xùn)練數(shù)據(jù),從而減少OOV的概率。
菲律賓語(yǔ)除了具有句子結(jié)構(gòu)成分順序自由的特點(diǎn)外,其動(dòng)詞擁有時(shí)態(tài)和焦點(diǎn)的特點(diǎn)及詞綴包含前綴、中綴、后綴、環(huán)綴及重復(fù)等復(fù)雜的形態(tài)變化特點(diǎn),這些都給菲律賓語(yǔ)機(jī)器翻譯帶來(lái)一定的挑戰(zhàn)。由于菲律賓語(yǔ)目前還沒有成熟可用的語(yǔ)言工具,如詞干提取、詞性標(biāo)注等工具,故菲律賓語(yǔ)機(jī)器翻譯仍有很大的探索和研究空間。
隨著互聯(lián)網(wǎng)技術(shù)的普及,越來(lái)越多的用戶在互聯(lián)網(wǎng)(如Twitter、Facebook等)上發(fā)表對(duì)于諸如人物、事件、產(chǎn)品等有價(jià)值的評(píng)論信息。為了理解和分析可能包含用戶情感、觀點(diǎn)和信念的大量數(shù)據(jù),情感分析工作顯得至關(guān)重要。
R.V.J.Regalado等[29]研究了菲律賓語(yǔ)文本的主觀性分類。他們以TF-IDF為主要特征,分別對(duì)文檔和句子用C4.5、樸素貝葉斯、KNN(k-nearest neighbor)和SVM(support vector machine)等 算法進(jìn)行了主觀性分類。對(duì)于文檔級(jí)別,給出算法中SVM 算法取得了最高的準(zhǔn)確率,為95.06%;而對(duì)于句子級(jí)別,樸素貝葉斯算法取得了最高的準(zhǔn)確率,為58.75%。M.Pippin等[30]嘗試對(duì)菲律賓人發(fā)的推文進(jìn)行了情感分類。他們的情感分類體系中包含7個(gè)類別:開心、傷心、憤怒、驚恐、驚奇、厭惡及中性。他們用樸素貝葉斯算法在300 000篇推文(其中“中性”占最大比例,為79%;“開心”第二,占18%)上進(jìn)行測(cè)試,分類準(zhǔn)確率約為70%。
F.Patacsil等[31]獲取了菲律賓國(guó)內(nèi)一些熱門博客的評(píng)論,以研究菲律賓國(guó)民對(duì)國(guó)內(nèi)3 家主要因特網(wǎng)服務(wù)提供商(intenment server provider,ISP)的看法。他們以n-gram模型作為主要特征,輔以一些規(guī)則,對(duì)比了樸素貝葉斯和SVM的性能。實(shí)驗(yàn)結(jié)果表明,使用二元模型的SVM 獲得的情感分析效果較好。
F.R.Lapitan等[32]利用眾包的方式構(gòu)建了一個(gè)小規(guī)模但是高質(zhì)量的Twitter 情感語(yǔ)料庫(kù)。他們的情感分類體系中包含9個(gè)類別:憤怒、期待、愉快、傷心、信任、驚奇、厭惡、恐懼及其它。在隨機(jī)選取了778篇菲律賓語(yǔ)推文和570篇英語(yǔ)推文后,依托CrowdFlower 平臺(tái)對(duì)這些推文按照指定規(guī)范進(jìn)行了人工標(biāo)注,經(jīng)過(guò)過(guò)濾后,獲得1 146篇帶情感標(biāo)簽的菲律賓語(yǔ)和英語(yǔ)推文。另外,他們的相關(guān)實(shí)驗(yàn)結(jié)果表明,現(xiàn)有的語(yǔ)言資源和工具還不足以對(duì)推文進(jìn)行準(zhǔn)確的情感分類。
通過(guò)以上分析可以看出,菲律賓語(yǔ)情感分析主要是有監(jiān)督的、依賴人工標(biāo)注的情感分類。而情感分類體系因不同學(xué)者而異,并且實(shí)驗(yàn)數(shù)據(jù)大多數(shù)是基于自己構(gòu)建的小規(guī)模數(shù)據(jù),因此無(wú)法客觀地比較各種方法的效果。
命名實(shí)體(name entity recognition,NER)是識(shí)別文本中具有特定意義的詞語(yǔ),如人名、地名等,并為其添加標(biāo)注,它是自然語(yǔ)言處理的一個(gè)重要工具,對(duì)網(wǎng)絡(luò)信息抽取、跨語(yǔ)言情感分析、機(jī)器翻譯等上層應(yīng)用起著非常重要的作用,對(duì)于語(yǔ)言研究工作也具有重要的支撐作用。但現(xiàn)有菲律賓語(yǔ)命名實(shí)體識(shí)別方面的研究成果還較少。
K.M.L.Ebo?a等[33]利用最大熵法來(lái)實(shí)現(xiàn)菲律賓語(yǔ)小說(shuō)摘錄的命名實(shí)體識(shí)別。他們將命名實(shí)體分為人名、地名、機(jī)構(gòu)名、日期、時(shí)間5。其實(shí)驗(yàn)結(jié)果表明,基于F度量值,NERF-CRF(named entity recognizer Filipino text using conditional random field)的識(shí)別準(zhǔn)確率達(dá)到80.53%,其中在日期類別上的識(shí)別錯(cuò)誤率為0%,較差的是對(duì)地名和機(jī)構(gòu)名的識(shí)別,錯(cuò)誤率分別為28.41%和13.10%。
與K.M.L.Ebo?a等[33]的研究成果相似,A.P.T.Alfonso等[34]也提出了利用條件隨機(jī)場(chǎng)實(shí)現(xiàn)菲律賓語(yǔ)文本命名實(shí)體識(shí)別系統(tǒng)NERF-CRF。NERF-CRF 將命名實(shí)體分為人名、地名、日期、機(jī)構(gòu)名4。其實(shí)驗(yàn)結(jié)果表明,基于F度量值,NERF-CRF的準(zhǔn)確率達(dá)83%,其中在日期類別上的識(shí)別錯(cuò)誤率為0%,較差的實(shí)體類別是地名和機(jī)構(gòu)名,錯(cuò)誤率分別為42%和33%。
拼寫檢查旨在檢索文本輸入中因人為拼寫錯(cuò)誤導(dǎo)致的文本錯(cuò)誤?,F(xiàn)有拼寫檢查工具主要有Microsoft Word和Google Docs,它們可以自動(dòng)進(jìn)行英語(yǔ)語(yǔ)法和拼寫檢查,并且提供修改建議,為語(yǔ)言學(xué)習(xí)者提供了極大的便利。諸如句法分析、樹庫(kù)、詞性標(biāo)注等工具,對(duì)于提高拼寫檢查效果有很大幫助[35]。因此,菲律賓語(yǔ)拼寫檢查研究除了基于規(guī)則的方法外,有不少研究者開始考慮綜合其他自然語(yǔ)言處理工具來(lái)提高糾錯(cuò)準(zhǔn)確率。
E.D.Dimalen等[36]實(shí)現(xiàn)了一個(gè)基于規(guī)則的菲律賓語(yǔ)拼寫檢查器,已經(jīng)被作為插件整合在OpenOffice中,可用于檢查拼寫錯(cuò)誤和語(yǔ)法錯(cuò)誤。
N.Oco等[37]利用Language Tool,設(shè)計(jì)了一個(gè)基于詞典及規(guī)則的拼寫檢查器,主要用于檢查詞語(yǔ)拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤、漏詞等情況。在272個(gè)帶有錯(cuò)誤的句子上進(jìn)行測(cè)試,得知其準(zhǔn)確率為83%。
M.P.Go等[38]也設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)菲律賓語(yǔ)拼寫檢查器Gramatika。他們先從高質(zhì)量文本中獲取n元模型、詞性及詞干信息,再利用這些信息學(xué)習(xí)出混合n元模型,最后通過(guò)學(xué)習(xí)出的模型和預(yù)定義的規(guī)則偵測(cè)文本中的拼寫和語(yǔ)法錯(cuò)誤,并給出修改建議。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在錯(cuò)誤表達(dá)上給出修改建議的準(zhǔn)確率為64%(248個(gè)帶有錯(cuò)誤的句子),有15%的句子被判斷為有錯(cuò)誤(1 284個(gè)沒有錯(cuò)誤的句子)。
由于菲律賓語(yǔ)語(yǔ)言資源及高效準(zhǔn)確可用的語(yǔ)言分析工具的缺乏,與英語(yǔ)相比,菲律賓語(yǔ)的拼寫檢查研究較為滯后。N.L.Tsao等[39]及Huang C.C.等[40]通過(guò)實(shí)驗(yàn)表明,POS的引入使得拼寫檢查性能顯著性提升。考慮到菲律賓語(yǔ)形態(tài)變化豐富,因此本課題組更加認(rèn)為提高菲律賓語(yǔ)拼寫檢查效果,高質(zhì)量的POS模型必不可少。
在人工構(gòu)建菲律賓語(yǔ)語(yǔ)言資源(例如詞典、形態(tài)信息、語(yǔ)法規(guī)則庫(kù)和語(yǔ)料庫(kù)等)方面的研究已經(jīng)取得了很大進(jìn)展。除此以外,由于人工構(gòu)建語(yǔ)料庫(kù)的內(nèi)在困難,不少學(xué)者開始研究自動(dòng)抽取高質(zhì)量語(yǔ)言資源的技術(shù)。
E.P.Tiu等[41]提出了一種從可比語(yǔ)料中自動(dòng)提取雙語(yǔ)詞典的方法,其中英語(yǔ)為源語(yǔ)言,菲律賓語(yǔ)為目標(biāo)語(yǔ)言。他們結(jié)合上下文抽取、聚類技術(shù),并使用詞性標(biāo)簽來(lái)定義單詞的不同含義。實(shí)驗(yàn)結(jié)果表明,較前人研究的成果,他們獲得的整體F值從7.32%提高到了10.65%。
S.Dita等[42]初步通過(guò)人工構(gòu)建菲律賓國(guó)家語(yǔ)言的在線語(yǔ)料庫(kù),包括菲律賓語(yǔ)、宿霧語(yǔ)、伊洛卡諾語(yǔ)、希利蓋農(nóng)語(yǔ)和菲律賓手語(yǔ)。前4種語(yǔ)言包含250 000個(gè)單詞的文本,而菲律賓手語(yǔ)包含7 000個(gè)視頻。該在線語(yǔ)料庫(kù)還提供了用于語(yǔ)言分析的自動(dòng)化工具,例如字?jǐn)?shù)統(tǒng)計(jì)。該項(xiàng)目后續(xù)考慮了自動(dòng)獲取文本、語(yǔ)音、視頻等多模態(tài)語(yǔ)料資源。
文獻(xiàn)[42]的工作是為德拉薩大學(xué)語(yǔ)言技術(shù)中心研發(fā)英菲機(jī)器翻譯系統(tǒng)服務(wù)[43]。除此以外,面對(duì)有限的菲律賓語(yǔ)語(yǔ)言資源,基于菲律賓語(yǔ)語(yǔ)言委員會(huì)提供的詞典,他們還構(gòu)建了一個(gè)英菲詞典,包含詞條的形態(tài)學(xué)信息如詞性標(biāo)簽等,具體如表1所示。
表1 英菲詞典-DLSUTable1 English-Filipino dictionary (DLSU)
A.Borra等[44]討論了菲律賓語(yǔ)Word Net的構(gòu)建,探討了菲律賓語(yǔ)的形態(tài)用于構(gòu)建分析器和生成器,以支持Word Net中的詞干以及詞綴序列對(duì)的收集。J.P.Ilao等[45]針對(duì)搜索引擎如雅虎等,提出基于查詢的方法來(lái)自動(dòng)收集諸如新聞、博客評(píng)論等相關(guān)文本(包含單語(yǔ)文本和雙語(yǔ)文本),并構(gòu)建了語(yǔ)料庫(kù)Web Miner 系統(tǒng)。Web Miner 系統(tǒng)共收集了14 600個(gè)英菲平行句對(duì),包含約582 000個(gè)菲律賓語(yǔ)單詞。由于該系統(tǒng)不僅爬取新聞報(bào)道,還收集社交平臺(tái)的評(píng)論等資源,因此獲取的單語(yǔ)菲律賓語(yǔ)料庫(kù)并不是完全正確的,包含拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤、句子成分替換等問(wèn)題。
A.El-Kishky等[46]應(yīng)用URL(Uniform Resource Location)匹配規(guī)則,從commoncrawl 語(yǔ)料庫(kù)(http://commoncrawl.org/)中爬取高質(zhì)量的跨語(yǔ)言文檔數(shù)據(jù)集,包含92種不同語(yǔ)言(含菲律賓語(yǔ)、印地語(yǔ)、德語(yǔ)等)與英語(yǔ)對(duì)齊的文檔對(duì)。他們首先使用人工注釋來(lái)直接評(píng)估該數(shù)據(jù)集的質(zhì)量,而后通過(guò)評(píng)估下游任務(wù),即利用該對(duì)齊語(yǔ)料訓(xùn)練的機(jī)器翻譯模型質(zhì)量,進(jìn)一步評(píng)估該數(shù)據(jù)集的質(zhì)量。
R.A.Sagum等[47]提出了基于決策樹和n-gram模型的半監(jiān)督方法來(lái)構(gòu)建菲律賓語(yǔ)的語(yǔ)義知識(shí)庫(kù)FilWordNet。并將模型在500篇文檔(包含25 618個(gè)單詞,其中含15 377個(gè)菲律賓語(yǔ)單語(yǔ)單詞)上測(cè)試,正確提取詞干且進(jìn)行POS的準(zhǔn)確率高達(dá)86.29%。
總體來(lái)說(shuō),在菲律賓語(yǔ)自然語(yǔ)言處理領(lǐng)域,語(yǔ)言資源不足,與英語(yǔ)、漢語(yǔ)等語(yǔ)種的自然語(yǔ)言處理研究相比,還存在較大差距。現(xiàn)有研究比較寬泛但不深入,在詞法分析、句法分析、語(yǔ)義分析等底層技術(shù)及機(jī)器翻譯、情感分析、拼寫檢查等應(yīng)用技術(shù)中都有一些成果。其中,機(jī)器翻譯的研究取得了較快的進(jìn)展,拼寫檢查次之,而在句法分析、語(yǔ)義分析、命名實(shí)體識(shí)別等方面的研究成果相對(duì)較少。菲律賓語(yǔ)的機(jī)器翻譯幾乎都是涉及英語(yǔ)-菲律賓語(yǔ)的翻譯,沒有涵蓋其他語(yǔ)言。這與菲律賓國(guó)家的語(yǔ)言政策有關(guān),菲律賓國(guó)家的第二官方語(yǔ)言是英語(yǔ),菲律賓政府和學(xué)術(shù)研究機(jī)構(gòu)在英語(yǔ)和菲律賓語(yǔ)的語(yǔ)料構(gòu)建及英菲機(jī)器翻譯上投入了較多的人力和物力。而菲律賓語(yǔ)與其他語(yǔ)言對(duì)照的平行語(yǔ)料缺乏,研究投入不足。
雖然菲律賓語(yǔ)在自動(dòng)構(gòu)建語(yǔ)料庫(kù)方面的研究取得了一定的進(jìn)展,但是相較于英語(yǔ)、漢語(yǔ)等通用語(yǔ)種,菲律賓語(yǔ)仍然屬于語(yǔ)言資源較為缺乏的低資源語(yǔ)言。大部分語(yǔ)料庫(kù)構(gòu)建研究旨在收集英菲平行句對(duì)或詞對(duì),主要服務(wù)于機(jī)器翻譯;而關(guān)于自然語(yǔ)言處理其他領(lǐng)域的語(yǔ)料資源構(gòu)建研究非常少。由于深度學(xué)習(xí)算法高度依賴于高質(zhì)量、大規(guī)模的標(biāo)注語(yǔ)料,導(dǎo)致無(wú)法有效運(yùn)用深度學(xué)習(xí)方法于詞法分析、句法分析、命名實(shí)體識(shí)別等方面。
在信息大爆炸時(shí)代,信息的精煉和提取成為一個(gè)重要的研究課題,而文本自動(dòng)摘要是解決信息爆炸問(wèn)題的關(guān)鍵技術(shù)之一,跨語(yǔ)言自動(dòng)摘要技術(shù)可以讓人們快速地了解不同國(guó)家和地區(qū)的信息。然而,根據(jù)已有文獻(xiàn)調(diào)查發(fā)現(xiàn),目前菲律賓語(yǔ)文本自動(dòng)摘要方面的研究幾乎為空白。
綜合以上對(duì)菲律賓語(yǔ)自然語(yǔ)言處理現(xiàn)狀分析可以得知,英語(yǔ)-菲律賓語(yǔ)平行語(yǔ)料較為豐富,有力地推動(dòng)了機(jī)器翻譯的研究進(jìn)展。面對(duì)豐富的英語(yǔ)-菲律賓語(yǔ)平行語(yǔ)料,如何通過(guò)跨語(yǔ)言處理技術(shù),構(gòu)建漢語(yǔ)-菲律賓語(yǔ)平行語(yǔ)料庫(kù),成為我國(guó)研究漢語(yǔ)-菲律賓語(yǔ)機(jī)器翻譯、跨語(yǔ)言自動(dòng)摘要等任務(wù)的首要解決問(wèn)題。
針對(duì)菲律賓語(yǔ)的其他自然語(yǔ)言處理領(lǐng)域語(yǔ)料匱乏的問(wèn)題,同時(shí)在詞法分析、句法分析、語(yǔ)義分析等任務(wù)上無(wú)法使用海量無(wú)標(biāo)注語(yǔ)料進(jìn)行深度學(xué)習(xí)等,十分必要構(gòu)建相關(guān)領(lǐng)域較大規(guī)模、開放的標(biāo)注數(shù)據(jù)庫(kù)。面對(duì)資源缺乏的基礎(chǔ)問(wèn)題,盡管菲律賓語(yǔ)形態(tài)變化豐富,但只要總結(jié)足夠多的形態(tài)規(guī)則就可以構(gòu)建形態(tài)學(xué)信息語(yǔ)料庫(kù);而正確的形態(tài)學(xué)信息可為詞性標(biāo)注和句法分析等提供重要的語(yǔ)言特征,有利于提高其他自然語(yǔ)言處理任務(wù)的性能,從而利用半監(jiān)督的資源構(gòu)建技術(shù)促進(jìn)其他領(lǐng)域語(yǔ)言資源的構(gòu)建。
在大規(guī)模、高質(zhì)量、開放的語(yǔ)言資源構(gòu)建的前提下,深度學(xué)習(xí)應(yīng)用于菲律賓語(yǔ)自然語(yǔ)言處理的方法研究成為可能。在基本理論和模型創(chuàng)新的基礎(chǔ)上,鑒于菲律賓語(yǔ)的句子語(yǔ)法結(jié)構(gòu)較為靈活,并結(jié)合基于規(guī)則、基于統(tǒng)計(jì)和深度學(xué)習(xí)的方法,可在一定程度上解決由菲律賓語(yǔ)復(fù)雜的語(yǔ)言特征造成的諸如詞義多樣、句法結(jié)構(gòu)歧義等問(wèn)題,從而推動(dòng)命名實(shí)體識(shí)別、句法分析、語(yǔ)法糾錯(cuò)、知識(shí)圖譜構(gòu)建以及語(yǔ)義分析等方面的研究。
最后,考慮到信息爆炸時(shí)代下文本自動(dòng)摘要技術(shù)的重要性,可借鑒其他語(yǔ)言的文本自動(dòng)摘要研究技術(shù),探討基于規(guī)則、基于圖模型、基于結(jié)構(gòu)等方法對(duì)菲律賓語(yǔ)文本自動(dòng)摘要的適用性,以填補(bǔ)菲律賓語(yǔ)自動(dòng)文摘研究的空缺,這也是未來(lái)研究的重要方向。
湖南工業(yè)大學(xué)學(xué)報(bào)2020年3期