(福州大學(xué) 福建 福州 350000)
在“一帶一路”倡議以及全球化的深入發(fā)展的背景中,國(guó)家與國(guó)家之間的交流也更加頻繁與深入,中國(guó)與西班牙語(yǔ)國(guó)家雙邊貿(mào)易額度總體呈快速增長(zhǎng)態(tài)勢(shì),表明中國(guó)已是絕大部分西班牙語(yǔ)國(guó)家的主要貿(mào)易伙伴之一,雙方有著廣闊的合作前景[1]。因此,對(duì)來(lái)自西班牙語(yǔ)國(guó)家的海量數(shù)據(jù)進(jìn)行高效挖掘成為支持我國(guó)相關(guān)組織進(jìn)行管理決策的重要信息管理技術(shù)。
從數(shù)據(jù)挖掘的角度上來(lái)看,文本挖掘指的是將數(shù)據(jù)挖掘技術(shù)應(yīng)用在文本集合上,以發(fā)現(xiàn)其中隱含的知識(shí)。文本分析是文本挖掘的一個(gè)關(guān)鍵過(guò)程,是從文本數(shù)據(jù)中獲得具有較高質(zhì)量的文本特征的方法和過(guò)程。
在廣泛查閱與西班牙文文本分析相關(guān)的國(guó)內(nèi)外研究成果的基礎(chǔ)上,本文介紹了文本分析的相關(guān)概念,羅列了幾種能用于西班牙文分詞工具,并且簡(jiǎn)要概述了目前國(guó)內(nèi)外文本分析的研究成果。
(一)相關(guān)概念
文本分析作為文本挖掘的一個(gè)部分,涉及到使用自然語(yǔ)言處理、信息檢索和機(jī)器學(xué)習(xí)等技術(shù)將非結(jié)構(gòu)化的文本數(shù)據(jù)在語(yǔ)法上解析成更具結(jié)構(gòu)化的數(shù)據(jù)形式,即是將文本數(shù)據(jù)轉(zhuǎn)換為可以體現(xiàn)出文本特征的詞向量。
在語(yǔ)言學(xué)上,詞是可獨(dú)立使用的最小語(yǔ)言單位,通常由詞組成短語(yǔ),短語(yǔ)組成從句,從句組成句子。西班牙文以詞為書(shū)寫(xiě)單位,有空格作為分界符加以區(qū)分。簡(jiǎn)單的切分是不足的,必須引入詞干提取、詞形還原等文本分析技術(shù)對(duì)文本數(shù)據(jù)進(jìn)行更精確的切分。
詞干提取和詞形還原是詞語(yǔ)規(guī)范化處理的兩種相似技術(shù)。詞干提取主要用于信息檢索領(lǐng)域,而詞形還原更多用于處理單詞準(zhǔn)確率要求較高的文本分類(lèi)、情感分析等領(lǐng)域[2]。
(二)西班牙文文本分析工具
詞干提取和詞形還原的方法均較為成熟,主要可以分為基于規(guī)則的方法、基于詞典的方法、基于統(tǒng)計(jì)的方法以及混合的方法。下文將列出目前較為成熟的3個(gè)包含詞干提取、詞性還原的功能且可用于西班牙文文本分析的工具。
1.Stanford core NLP
Stanford core NLP[3]提供了對(duì)西班牙語(yǔ)的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等功能。
2.NLTK
NLTK[4]支持包括西班牙語(yǔ)在內(nèi)的分詞、詞干提取、詞性標(biāo)注、詞形還原等功能。
3.Pattern.es
Pattern[5]中的pattern.es包含了專(zhuān)用于西班牙語(yǔ)文本分析的詞性標(biāo)注器以及詞干提取、詞性還原工具。
研究跨語(yǔ)言文本分析要解決的問(wèn)題是:由于語(yǔ)言習(xí)慣以及語(yǔ)法上的差異,適用于某一特定語(yǔ)言的分析方法未必適合另一語(yǔ)言。目前,在跨語(yǔ)言的文本研究上常用的研究方法有三種:基于機(jī)器翻譯的方法、基于統(tǒng)計(jì)和詞典的方法和基于平行語(yǔ)料和深度學(xué)習(xí)的方法。
(一)國(guó)內(nèi)研究及應(yīng)用
我國(guó)在文本分析上的研究主要集中于算法的改進(jìn)或是創(chuàng)新,主要研究領(lǐng)域有文本分類(lèi)[6]、情感分析[7]等,對(duì)專(zhuān)用于文本分析的工具的研發(fā)成果較少。
國(guó)內(nèi)學(xué)者在跨語(yǔ)言文本的處理上以英語(yǔ)文本為主,增加了如法語(yǔ)、日語(yǔ)等語(yǔ);一部分學(xué)者選擇了我國(guó)的少數(shù)民族語(yǔ)言;還有一部分學(xué)者選擇了泰國(guó)語(yǔ)等周邊國(guó)家的語(yǔ)言。
國(guó)內(nèi)學(xué)者使用西班牙語(yǔ)進(jìn)行的文本分析相關(guān)研究還不是很多,我國(guó)學(xué)者改進(jìn)或創(chuàng)新的算法用于西班牙語(yǔ)的文本分析研究也尚未見(jiàn)較多相關(guān)的實(shí)驗(yàn)結(jié)果。文獻(xiàn)[8]提出了綜合集成計(jì)算模型和深度多任務(wù)學(xué)習(xí)模型的方法用于英語(yǔ)-西班牙語(yǔ)文本相似度評(píng)估。文獻(xiàn)[9]使用西班牙酒店的網(wǎng)頁(yè)文本自建了一個(gè)小型語(yǔ)料庫(kù),并進(jìn)行相關(guān)的分析工作。文獻(xiàn)[10]建立2016年《國(guó)務(wù)院政府工作報(bào)告》中英西三語(yǔ)平行語(yǔ)料庫(kù),分析了句法特征和詞匯特征。
綜上所述,我國(guó)學(xué)者對(duì)于西班牙語(yǔ)文本分析的研究還遠(yuǎn)不如對(duì)英語(yǔ)文本的研究深入,因此,對(duì)于西班牙語(yǔ)文本分析的研究前景較為廣闊,或許可以成為未來(lái)的研究方向。
(二)國(guó)外研究及應(yīng)用
盡管我國(guó)在跨語(yǔ)言的文本分析研究中對(duì)西班牙語(yǔ)的研究和討論較少,但西班牙語(yǔ)的文本分析在西班牙語(yǔ)系國(guó)家以及英語(yǔ)系國(guó)家的研究中仍然占有一席之地。國(guó)外學(xué)者的研究在較早的時(shí)候大多集中于算法或模型的提出與改進(jìn),而后則慢慢轉(zhuǎn)向具體應(yīng)用領(lǐng)域的研究。
1.西班牙語(yǔ)國(guó)家的研究及應(yīng)用
近幾年,西班牙語(yǔ)系學(xué)者在西班牙語(yǔ)的文本分析的研究上十分重視情感分析的研究,除此之外,對(duì)于文本簡(jiǎn)化[11]、機(jī)器翻譯[12]、問(wèn)答系統(tǒng)[13]等方面的研究也十分活躍。
在情感分析方面,西班牙自然語(yǔ)言處理協(xié)會(huì)(SEPLN)[14]組織了SEPLN(TASS)語(yǔ)義分析研討會(huì)積極推動(dòng)相關(guān)研究的進(jìn)程。文獻(xiàn)[15]提出了基于二進(jìn)制最大熵的情緒分析策略,可區(qū)分六種情緒類(lèi)別。文獻(xiàn)[16]致力于根據(jù)西班牙語(yǔ)語(yǔ)言特性建立一個(gè)新的西班牙語(yǔ)的情感詞典。
此外,西班牙語(yǔ)系學(xué)者關(guān)于文本分析的研究還涉及了財(cái)務(wù)以及西班牙語(yǔ)學(xué)習(xí)等相關(guān)方面,如文獻(xiàn)[17]利用自然語(yǔ)言處理、本體學(xué)習(xí)、意見(jiàn)挖掘等方面的技術(shù),實(shí)現(xiàn)財(cái)務(wù)分析相關(guān)流程自動(dòng)化;文獻(xiàn)[18]提出了針對(duì)西班牙語(yǔ)學(xué)習(xí)中語(yǔ)法搭配錯(cuò)誤的自動(dòng)分類(lèi)方法,給學(xué)習(xí)者提供語(yǔ)法學(xué)習(xí)的輔助工具。
在跨語(yǔ)言的文本分析研究方面,西班牙語(yǔ)系學(xué)者與中國(guó)學(xué)者相似,大多都首選了英語(yǔ)文本作為實(shí)驗(yàn)數(shù)據(jù),還有一部分學(xué)者使用了與西班牙語(yǔ)相似的的語(yǔ)言,如荷蘭語(yǔ)[19]、以及葡萄牙語(yǔ)等。
2.非西班牙語(yǔ)國(guó)家的研究及應(yīng)用
在非西班牙語(yǔ)系國(guó)家關(guān)于西班牙語(yǔ)文本分析的研究中,大多數(shù)可得文獻(xiàn)以英文為主,這類(lèi)研究學(xué)者對(duì)西班牙語(yǔ)文本分析的研究也屬于跨語(yǔ)言的文本分析研究,近幾年語(yǔ)料庫(kù)的建設(shè)及基于其的分析研究逐漸涌現(xiàn),此外,文本簡(jiǎn)化及注釋[20]方面的研究也都有所突破。
在語(yǔ)料庫(kù)的建設(shè)及分析方面,文獻(xiàn)[21]介紹了在MULTINOT項(xiàng)目中的英語(yǔ)-西班牙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)工作。文獻(xiàn)[22]建設(shè)了一個(gè)標(biāo)注否定情緒的西班牙語(yǔ)語(yǔ)料庫(kù)。
綜上所述,從文獻(xiàn)內(nèi)容來(lái)看,無(wú)論是西班牙語(yǔ)系的學(xué)者,還是非西班牙語(yǔ)系的學(xué)者,比較傾向于跨領(lǐng)域應(yīng)用方面的研究。
文本分析作為文本挖掘的一個(gè)重要步驟,其對(duì)海量信息進(jìn)行高效的管理、挖掘和運(yùn)用的意義和價(jià)值逐漸受到關(guān)注并獲得一定的研究進(jìn)展??偨Y(jié)國(guó)內(nèi)外關(guān)于西班牙語(yǔ)文本分析的研究現(xiàn)狀,可見(jiàn)其在西語(yǔ)系國(guó)家受到較高的重視,同時(shí)在國(guó)際上西班牙語(yǔ)文本分析也占有一席之地,但我國(guó)在西班牙語(yǔ)文本分析上的研究仍有待加深,未來(lái)的研究方向在于:
(1)將已有成果向西班牙語(yǔ)文本分析拓展。后續(xù)研究可將現(xiàn)有的研究成果應(yīng)用于西班牙語(yǔ)語(yǔ)料,對(duì)比各類(lèi)已有算法在西班牙語(yǔ)上的文本分析效果。
(2)將現(xiàn)有研究成果向其他領(lǐng)域的應(yīng)用發(fā)展。后續(xù)研究可將現(xiàn)有的成果應(yīng)用到其他領(lǐng)域,或使用某一領(lǐng)域的專(zhuān)業(yè)文本進(jìn)行實(shí)驗(yàn)檢查分析效果。
(3)對(duì)現(xiàn)有算法進(jìn)行改進(jìn)。盡管現(xiàn)有算法或相關(guān)的工具在西班牙語(yǔ)文本分析的研究方面已經(jīng)能夠達(dá)到較為準(zhǔn)確的程度,但是學(xué)海無(wú)涯,這一研究仍然有繼續(xù)提升的空間。