亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

西班牙文文本分析研究綜述

2020-02-25 01:14:52

福建質(zhì)量管理 2020年6期

(福州大學(xué) 福建福州 350000)

一、引言

在“一帶一路”倡議以及全球化的深入發(fā)展的背景中，國(guó)家與國(guó)家之間的交流也更加頻繁與深入，中國(guó)與西班牙語(yǔ)國(guó)家雙邊貿(mào)易額度總體呈快速增長(zhǎng)態(tài)勢(shì)，表明中國(guó)已是絕大部分西班牙語(yǔ)國(guó)家的主要貿(mào)易伙伴之一，雙方有著廣闊的合作前景[1]。因此，對(duì)來(lái)自西班牙語(yǔ)國(guó)家的海量數(shù)據(jù)進(jìn)行高效挖掘成為支持我國(guó)相關(guān)組織進(jìn)行管理決策的重要信息管理技術(shù)。

從數(shù)據(jù)挖掘的角度上來(lái)看，文本挖掘指的是將數(shù)據(jù)挖掘技術(shù)應(yīng)用在文本集合上，以發(fā)現(xiàn)其中隱含的知識(shí)。文本分析是文本挖掘的一個(gè)關(guān)鍵過(guò)程，是從文本數(shù)據(jù)中獲得具有較高質(zhì)量的文本特征的方法和過(guò)程。

在廣泛查閱與西班牙文文本分析相關(guān)的國(guó)內(nèi)外研究成果的基礎(chǔ)上，本文介紹了文本分析的相關(guān)概念，羅列了幾種能用于西班牙文分詞工具，并且簡(jiǎn)要概述了目前國(guó)內(nèi)外文本分析的研究成果。

二、相關(guān)概念及分析工具

(一)相關(guān)概念

文本分析作為文本挖掘的一個(gè)部分，涉及到使用自然語(yǔ)言處理、信息檢索和機(jī)器學(xué)習(xí)等技術(shù)將非結(jié)構(gòu)化的文本數(shù)據(jù)在語(yǔ)法上解析成更具結(jié)構(gòu)化的數(shù)據(jù)形式，即是將文本數(shù)據(jù)轉(zhuǎn)換為可以體現(xiàn)出文本特征的詞向量。

在語(yǔ)言學(xué)上，詞是可獨(dú)立使用的最小語(yǔ)言單位，通常由詞組成短語(yǔ)，短語(yǔ)組成從句，從句組成句子。西班牙文以詞為書(shū)寫(xiě)單位，有空格作為分界符加以區(qū)分。簡(jiǎn)單的切分是不足的，必須引入詞干提取、詞形還原等文本分析技術(shù)對(duì)文本數(shù)據(jù)進(jìn)行更精確的切分。

詞干提取和詞形還原是詞語(yǔ)規(guī)范化處理的兩種相似技術(shù)。詞干提取主要用于信息檢索領(lǐng)域，而詞形還原更多用于處理單詞準(zhǔn)確率要求較高的文本分類(lèi)、情感分析等領(lǐng)域[2]。

(二)西班牙文文本分析工具

詞干提取和詞形還原的方法均較為成熟，主要可以分為基于規(guī)則的方法、基于詞典的方法、基于統(tǒng)計(jì)的方法以及混合的方法。下文將列出目前較為成熟的3個(gè)包含詞干提取、詞性還原的功能且可用于西班牙文文本分析的工具。

1.Stanford core NLP

Stanford core NLP[3]提供了對(duì)西班牙語(yǔ)的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等功能。

2.NLTK

NLTK[4]支持包括西班牙語(yǔ)在內(nèi)的分詞、詞干提取、詞性標(biāo)注、詞形還原等功能。

3.Pattern.es

Pattern[5]中的pattern.es包含了專(zhuān)用于西班牙語(yǔ)文本分析的詞性標(biāo)注器以及詞干提取、詞性還原工具。

三、國(guó)內(nèi)外研究及應(yīng)用

研究跨語(yǔ)言文本分析要解決的問(wèn)題是：由于語(yǔ)言習(xí)慣以及語(yǔ)法上的差異，適用于某一特定語(yǔ)言的分析方法未必適合另一語(yǔ)言。目前，在跨語(yǔ)言的文本研究上常用的研究方法有三種：基于機(jī)器翻譯的方法、基于統(tǒng)計(jì)和詞典的方法和基于平行語(yǔ)料和深度學(xué)習(xí)的方法。

(一)國(guó)內(nèi)研究及應(yīng)用

我國(guó)在文本分析上的研究主要集中于算法的改進(jìn)或是創(chuàng)新，主要研究領(lǐng)域有文本分類(lèi)[6]、情感分析[7]等，對(duì)專(zhuān)用于文本分析的工具的研發(fā)成果較少。

國(guó)內(nèi)學(xué)者在跨語(yǔ)言文本的處理上以英語(yǔ)文本為主，增加了如法語(yǔ)、日語(yǔ)等語(yǔ)；一部分學(xué)者選擇了我國(guó)的少數(shù)民族語(yǔ)言；還有一部分學(xué)者選擇了泰國(guó)語(yǔ)等周邊國(guó)家的語(yǔ)言。

國(guó)內(nèi)學(xué)者使用西班牙語(yǔ)進(jìn)行的文本分析相關(guān)研究還不是很多，我國(guó)學(xué)者改進(jìn)或創(chuàng)新的算法用于西班牙語(yǔ)的文本分析研究也尚未見(jiàn)較多相關(guān)的實(shí)驗(yàn)結(jié)果。文獻(xiàn)[8]提出了綜合集成計(jì)算模型和深度多任務(wù)學(xué)習(xí)模型的方法用于英語(yǔ)-西班牙語(yǔ)文本相似度評(píng)估。文獻(xiàn)[9]使用西班牙酒店的網(wǎng)頁(yè)文本自建了一個(gè)小型語(yǔ)料庫(kù)，并進(jìn)行相關(guān)的分析工作。文獻(xiàn)[10]建立2016年《國(guó)務(wù)院政府工作報(bào)告》中英西三語(yǔ)平行語(yǔ)料庫(kù)，分析了句法特征和詞匯特征。

綜上所述，我國(guó)學(xué)者對(duì)于西班牙語(yǔ)文本分析的研究還遠(yuǎn)不如對(duì)英語(yǔ)文本的研究深入，因此，對(duì)于西班牙語(yǔ)文本分析的研究前景較為廣闊，或許可以成為未來(lái)的研究方向。

(二)國(guó)外研究及應(yīng)用

盡管我國(guó)在跨語(yǔ)言的文本分析研究中對(duì)西班牙語(yǔ)的研究和討論較少，但西班牙語(yǔ)的文本分析在西班牙語(yǔ)系國(guó)家以及英語(yǔ)系國(guó)家的研究中仍然占有一席之地。國(guó)外學(xué)者的研究在較早的時(shí)候大多集中于算法或模型的提出與改進(jìn)，而后則慢慢轉(zhuǎn)向具體應(yīng)用領(lǐng)域的研究。

1.西班牙語(yǔ)國(guó)家的研究及應(yīng)用

近幾年，西班牙語(yǔ)系學(xué)者在西班牙語(yǔ)的文本分析的研究上十分重視情感分析的研究，除此之外，對(duì)于文本簡(jiǎn)化[11]、機(jī)器翻譯[12]、問(wèn)答系統(tǒng)[13]等方面的研究也十分活躍。

在情感分析方面，西班牙自然語(yǔ)言處理協(xié)會(huì)(SEPLN)[14]組織了SEPLN(TASS)語(yǔ)義分析研討會(huì)積極推動(dòng)相關(guān)研究的進(jìn)程。文獻(xiàn)[15]提出了基于二進(jìn)制最大熵的情緒分析策略，可區(qū)分六種情緒類(lèi)別。文獻(xiàn)[16]致力于根據(jù)西班牙語(yǔ)語(yǔ)言特性建立一個(gè)新的西班牙語(yǔ)的情感詞典。

此外，西班牙語(yǔ)系學(xué)者關(guān)于文本分析的研究還涉及了財(cái)務(wù)以及西班牙語(yǔ)學(xué)習(xí)等相關(guān)方面，如文獻(xiàn)[17]利用自然語(yǔ)言處理、本體學(xué)習(xí)、意見(jiàn)挖掘等方面的技術(shù)，實(shí)現(xiàn)財(cái)務(wù)分析相關(guān)流程自動(dòng)化；文獻(xiàn)[18]提出了針對(duì)西班牙語(yǔ)學(xué)習(xí)中語(yǔ)法搭配錯(cuò)誤的自動(dòng)分類(lèi)方法，給學(xué)習(xí)者提供語(yǔ)法學(xué)習(xí)的輔助工具。

在跨語(yǔ)言的文本分析研究方面，西班牙語(yǔ)系學(xué)者與中國(guó)學(xué)者相似，大多都首選了英語(yǔ)文本作為實(shí)驗(yàn)數(shù)據(jù)，還有一部分學(xué)者使用了與西班牙語(yǔ)相似的的語(yǔ)言，如荷蘭語(yǔ)[19]、以及葡萄牙語(yǔ)等。

2.非西班牙語(yǔ)國(guó)家的研究及應(yīng)用

在非西班牙語(yǔ)系國(guó)家關(guān)于西班牙語(yǔ)文本分析的研究中，大多數(shù)可得文獻(xiàn)以英文為主，這類(lèi)研究學(xué)者對(duì)西班牙語(yǔ)文本分析的研究也屬于跨語(yǔ)言的文本分析研究，近幾年語(yǔ)料庫(kù)的建設(shè)及基于其的分析研究逐漸涌現(xiàn)，此外，文本簡(jiǎn)化及注釋[20]方面的研究也都有所突破。

在語(yǔ)料庫(kù)的建設(shè)及分析方面，文獻(xiàn)[21]介紹了在MULTINOT項(xiàng)目中的英語(yǔ)-西班牙語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)工作。文獻(xiàn)[22]建設(shè)了一個(gè)標(biāo)注否定情緒的西班牙語(yǔ)語(yǔ)料庫(kù)。

綜上所述，從文獻(xiàn)內(nèi)容來(lái)看，無(wú)論是西班牙語(yǔ)系的學(xué)者，還是非西班牙語(yǔ)系的學(xué)者，比較傾向于跨領(lǐng)域應(yīng)用方面的研究。

四、結(jié)論

文本分析作為文本挖掘的一個(gè)重要步驟，其對(duì)海量信息進(jìn)行高效的管理、挖掘和運(yùn)用的意義和價(jià)值逐漸受到關(guān)注并獲得一定的研究進(jìn)展?？偨Y(jié)國(guó)內(nèi)外關(guān)于西班牙語(yǔ)文本分析的研究現(xiàn)狀，可見(jiàn)其在西語(yǔ)系國(guó)家受到較高的重視，同時(shí)在國(guó)際上西班牙語(yǔ)文本分析也占有一席之地，但我國(guó)在西班牙語(yǔ)文本分析上的研究仍有待加深，未來(lái)的研究方向在于：

(1)將已有成果向西班牙語(yǔ)文本分析拓展。后續(xù)研究可將現(xiàn)有的研究成果應(yīng)用于西班牙語(yǔ)語(yǔ)料，對(duì)比各類(lèi)已有算法在西班牙語(yǔ)上的文本分析效果。

(2)將現(xiàn)有研究成果向其他領(lǐng)域的應(yīng)用發(fā)展。后續(xù)研究可將現(xiàn)有的成果應(yīng)用到其他領(lǐng)域，或使用某一領(lǐng)域的專(zhuān)業(yè)文本進(jìn)行實(shí)驗(yàn)檢查分析效果。

(3)對(duì)現(xiàn)有算法進(jìn)行改進(jìn)。盡管現(xiàn)有算法或相關(guān)的工具在西班牙語(yǔ)文本分析的研究方面已經(jīng)能夠達(dá)到較為準(zhǔn)確的程度，但是學(xué)海無(wú)涯，這一研究仍然有繼續(xù)提升的空間。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

西班牙文文本分析研究綜述

一、引言

二、相關(guān)概念及分析工具

三、國(guó)內(nèi)外研究及應(yīng)用

四、結(jié)論

二、相關(guān)概念及分析工具

三、國(guó)內(nèi)外研究及應(yīng)用

四、結(jié)論