亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DC-Value的西班牙語文本詞語提取方法①

        2021-06-28 06:28:20顏煜鈴簡梓煒
        計算機系統(tǒng)應用 2021年6期
        關鍵詞:單詞文本語文

        于 娟,顏煜鈴,簡梓煒,張 晨

        (福州大學 經(jīng)濟與管理學院,福州 350108)

        1 引言

        隨著“一帶一路”倡議的推進和全球化進程的加快,國家之間的經(jīng)濟交流日益頻繁與深入,跨國組織的管理決策依據(jù)也不再限于單一語種的信息,而是希望基于來自全球各語種數(shù)據(jù)的全局視圖.然而,相比圖像、視頻等其它非結構化數(shù)據(jù),文本具有更為顯著的語種差異?閱讀不懂的語種的文本,人們能從中接受到的信息幾乎是零.為此,有必要研究多語種文本的融合分析方法,以快速獲取瞬息萬變的國際情況信息,支持跨國組織的國際化戰(zhàn)略管理決策.

        西班牙語(以下簡稱西語)是聯(lián)合國6 種官方語言之一,是全球19 個國家的官方語言,有四億多人作為母語使用,是僅次于漢語的世界第二大母語語言[1].相關統(tǒng)計數(shù)據(jù)顯示,我國與西語國家的雙邊經(jīng)貿(mào)關系發(fā)展迅速,已成為包括西班牙、智利、秘魯、墨西哥等大部分西語國家的主要貿(mào)易伙伴之一,未來有著廣闊的合作前景[2,3].另一方面,我國尚缺乏西語專門人才,因此,如何對來自西語國家的海量文本進行高效的數(shù)據(jù)挖掘,已成為我國相關組織的一個重要的管理方法問題.

        文本詞語提取是文本挖掘的基礎工作,是指自動獲取待分析文本中出現(xiàn)的詞語,包括單詞和短語.西班牙文(以下簡稱西文)的單詞之間用空格分開,易于實現(xiàn)自動提取;但文本挖掘所用的特征詞大多是面向文本內(nèi)容的多詞短語,因此,西文的短語提取是西語文本詞語提取和文本挖掘的關鍵環(huán)節(jié).另一方面,相比同屬印歐語系的英語,西語的詞形變化規(guī)則更為復雜:名詞不僅有單復數(shù)變化,還區(qū)分陰陽性;動詞、形容詞和代詞均需依據(jù)所修飾或指代的名詞的陰陽性進行相應變化.并且,西語和英語的語序也有所不同:西語中的形容詞位置多樣化,即形容詞或形容詞短語可能位于其所修飾的名詞或名詞短語的前面、后面甚至其它位置[4].種種差異導致現(xiàn)有的比較完善的英語文本詞語提取方法不能直接應用于西文詞語提取.

        為此,本文研究西文詞語提取方法,結合西語語法規(guī)則和串頻統(tǒng)計方法,從西語文本中自動提取包含多詞短語在內(nèi)的詞語集合,以支持西語文本挖掘工作.本文第2 節(jié)介紹詞語提取方法的研究現(xiàn)狀;第3 節(jié)簡述本文所提出的西文詞語提取方法的框架流程;第4 節(jié)詳細說明西文候選詞語的提取過程和方法;第5 節(jié)介紹計算候選詞語成詞可能性的成詞度算法;第6 節(jié)通過實驗比較分析本文方法與傳統(tǒng)的英文短語提取方法C-value和NC-value;第7 節(jié)給出研究結論.

        2 相關工作

        詞語是某一語言里的詞(也稱原子詞、單詞等)和固定短語(也稱合成詞、詞組、多詞術語等)的總稱.其中,原子詞是詞語組成的基本單元;合成詞是由多個原子詞依據(jù)一定規(guī)則組合成的短語,具有其組成部分不能代表的特定含義.詞語提取是文本挖掘的基礎工作,為文本的結構化建模提供詞庫,因此,其召回率和準確率顯著影響文本挖掘的效果.現(xiàn)有的詞語提取方法研究大多針對中文或英文文本詞語提取[5,6].這些詞語提取方法可分為主要的3 類:基于規(guī)則的方法、基于統(tǒng)計的方法和混合方法.

        基于規(guī)則的方法首先根據(jù)語言的詞法或句法特征總結構詞規(guī)則,然后從文本中提取符合規(guī)則的詞串作為詞語.因各語言的詞法和句法不同,構詞規(guī)則一般僅適用于某一特定語言的文本詞語提取.例如,文獻[7,8]總結了中文詞語構詞規(guī)則及中文詞語提取方法;文獻[9,10]總結了英文網(wǎng)頁或學術報告中的詞語構詞規(guī)則,用于自動提取英文術語;文獻[11–13]等研究總結了西文的詞語提取規(guī)則.這些基于規(guī)則的詞語提取方法受限于規(guī)則庫的準確性和全面性.由于總結構詞規(guī)則耗時耗力,且難以用少量規(guī)則覆蓋多變的詞法和句法,因此這類詞語提取方法的召回率大都不高.

        基于統(tǒng)計的方法利用概率論和信息論,從大規(guī)模語料中統(tǒng)計多個原子詞的鄰接共現(xiàn)概率,提取得到原子詞和固定短語.文獻[14,15]使用字符的共現(xiàn)率、字符串各部分的互信息、字符串的信息熵等指標從大規(guī)模語料庫中提取詞語.文獻[16,17]進一步將詞語的上下文信息納入考量指標,提出了C-value 方法及其改進方法NC-value.文獻[18]研究了改進的C-value/NCvalue 方法,用于提取西文詞語.這些基于統(tǒng)計的詞語提取方法不受構詞規(guī)則的限制,也較少受到不同語言的影響,僅在分詞和詞形規(guī)范化階段因不同語言而異[19].這類方法一般都需要大規(guī)模語料的支持才能保證準確率,不適用于可用語料較少的情況.

        混合的詞語提取方法,結合使用前述兩種方法,以同時保證結果的高準確率和高召回率.文獻[20]結合詞性分析與串頻統(tǒng)計,研究了一種提取中文詞語的原子詞步長法.文獻[21]提出一種結合HITS與C-value的HC-value 方法,用于提取英文短語.文獻[22]提出一種基于西文語義標注,結合TF-IDF和NC-Value 的術語提取方法.此外,還有一些基于機器學習的術語提取方法[23,24].文獻[25]基于術語的詞性特征和上下文等信息訓練SVM 模型,以提取具有相似位置特征的命名實體.這些混合方法既結合了基于規(guī)則和基于統(tǒng)計的詞語提取方法的優(yōu)點,又能一定程度地克服兩種方法的不足,因此優(yōu)于非混合方法[26].混合方法是當前詞語提取方法研究的主流.

        3 本文方法框架

        由于目前針對西語文本詞語提取的方法研究較少,因此,為了支持西語文本挖掘,本文借鑒前述中、英文文本詞語提取方法,提出一種結合語言學規(guī)則和統(tǒng)計學方法的西文詞語提取方法,利用詞法規(guī)則和單詞共現(xiàn)規(guī)律,從西語文本中自動提取包含單詞和短語在內(nèi)的詞語集合.該方法分為3 步:文本預處理、候選詞語提取和成詞度計算.方法流程如圖1所示.

        圖1 西語文本詞語提取方法流程圖

        (1)文本預處理模塊,首先清洗輸入的西語文本,刪除其中與詞語提取無關的圖片、公式、標識符等,輸出統(tǒng)一格式的純文本;然后采用現(xiàn)成工具進行詞性標注和詞形還原,輸出帶詞性標注的標準化文本.詞性標注是指為每個單詞標注其POS 詞性.常用的西文詞性標注工具有:Pattern.es[27]、NLTK[28]、Apache OpenNLP[29]、Stanford core NLP[30]、Polyglot[31]等.詞形還原是指把名詞復數(shù)、動詞變位等變形的西語單詞還原為單詞原形.常用的西文詞形還原工具有Pattern.es[27]和NLTK[28]等.

        (2)候選詞語提取模塊.本文依據(jù)西語語法特征總結構詞率低的單詞和詞性,總結形成停用詞表和停用詞性表.該模塊首先刪除前一模塊輸出文本中的停用詞,得到一個單詞串的序列;然后計算每一單詞串的子串及其出現(xiàn)頻次,超出頻次閾值的子串為頻繁詞串;刪除出現(xiàn)頻次與父串相同的頻繁詞串,其余的作為候選詞語輸出.后文第4 節(jié)詳細說明該模塊的過程和方法.

        (3)成詞度計算模塊的輸入為前一模塊輸出的候選詞語集合,輸出為按成詞度降序排列的候選詞語序列.該模塊計算每一候選詞語的C'-value和D-value值,然后將加權和DC-value 值作為候選詞語的成詞度.把候選詞語序列交由西語專業(yè)人士進行人工判斷選擇,可得到最終的西文詞語集合.后文第6 節(jié)詳細介紹成詞度計算方法.

        4 候選詞語提取

        候選詞語提取分為兩個步驟:停用詞刪除和頻繁詞串提取.

        停用詞刪除的輸入是帶詞性標注的西語純文本、停用詞表和停用詞性表.該子模塊遍歷輸入文本,刪除其中出現(xiàn)在停用詞表和停用詞性表的單詞,僅保留位于句首的停用詞,輸出一個西文單詞串的序列.停用詞是那些參與造句但不參與構詞的單詞,如es(是)、y(和)等;停用詞性是一些鮮少參與構成短語的詞性,如代詞、副詞、從屬連詞等.本文在文獻[20]的基礎之上,依據(jù)經(jīng)驗總結了西文詞語提取的停用詞表和停用詞性表.

        頻繁詞串提取的輸入是一個西語單詞串的序列,輸出是候選詞語集合.該子模塊以單詞為步長,對輸入的每一詞串以長度優(yōu)先[32]取子串,并計算子串的出現(xiàn)頻次,出現(xiàn)頻次大于閾值的作為頻繁詞串.為了避免詞語提取的截斷問題,出現(xiàn)頻次與父串相同的頻繁詞串不列入候選詞語.例如,若父輩詞串“conjunto/NN de/IN dato/NNS”(數(shù)據(jù)集)在文本中出現(xiàn)了10 次,且其子串“dato/NNS”(數(shù)據(jù))也出現(xiàn)了10 次,則“dato/NNS”不列入候選詞語集合.

        以一段西語文本的處理為例說明本文的候選詞語提取方法.圖2左側為一段西語文本,右側為其對應的中文翻譯.圖2中的文本不具有特殊性.圖3為圖2文本經(jīng)文本預處理的結果.不失一般性,本文采用Pattern.es 進行西文詞性標注和詞形還原.圖4為圖3文本刪除停用詞和停用詞性詞之后的結果.為明晰起見,采用“[”和“]”作為段落起始和終止符.表1為圖4文本提取頻繁詞串所得的候選詞語,其中的頻次僅記錄頻繁詞串獨立出現(xiàn)的次數(shù).

        表1 圖4候選詞語提取結果

        圖2 西語文本示例及其中文翻譯

        圖3 圖2西語文本的文本預處理結果

        圖4 圖3文本刪除停用詞后的結果

        5 成詞度計算

        成詞度是候選詞語成詞的可能性,其主要指標是單元度(unithood)和領域度(termhood).其中,單元度衡量候選詞語內(nèi)部語言結構的穩(wěn)定性;領域度衡量候選詞語與某一領域相關的程度.對每一個候選詞語,本文首先計算其單元度和領域度,然后結合起來計算成詞度.

        C-value是常用的英文候選詞語單元度計算方法,但其僅考慮由兩個及以上單詞組成的詞語[17,18],不能用于計算僅由一個單詞構成的詞語的單元度.為了全面比較包含單詞和短語在內(nèi)的候選詞語的單元度,本文對C-value 計算公式進行改進,將C=log2|t|改為C=1+log2|t|,使其可以計算單詞的單元度.改進后的算式如式(1)所示:

        式(1)中,t為候選詞語,C=1+log2|t|,|t|表示t的長度;t f(t)是t在西語文本中出現(xiàn)的頻次;Tt表示嵌套t的非t候選詞語的集合,|Tt|表示Tt集合中元素的個數(shù).

        C'-value 值越大,說明候選詞語出現(xiàn)的頻次越高且被嵌套的情況越少,則其單獨成詞的可能性就越大.在出現(xiàn)頻次相等的情況下,較長的候選詞語成詞的可能性更大.

        在計算候選詞語的領域度時,本文借鑒文獻[33,34],采用式(2)計算領域度:

        式(2)中,t為候選詞語,t f(t)表示t在西語文本中出現(xiàn)的總頻率,d f(t) 表示t出現(xiàn)的文本頻率;t fi(t)表示t在第i個文本中出現(xiàn)的次數(shù);N為t出現(xiàn)的文本數(shù).考慮到部分候選詞語僅在1 個文檔中出現(xiàn),所以引入第N+1 個文本對候選詞語的分布進行修正,且t fN+1(t)等于t在修正后語料中出現(xiàn)的平均頻次.

        D-value 值越大,則候選詞語在輸入語料中的不同文本之間的分布越不均勻,說明其越有可能與特定領域相關,則其是領域專有短語的可能性越大,因而成詞的可能性也就越大.

        結合單元度C′-value和領域度D-value 這兩個指標計算候選詞語的成詞度,算式如式(3)所示:

        式(3)中,α為0 到1 之間的一個實數(shù),用于將C'-value和D-value 融合進一個線性模型.多次實驗的結果表明,α取值0.2 時,成詞度的計算結果最準確.

        6 實驗分析

        目前還沒有檢驗西文詞語提取方法優(yōu)劣的通用數(shù)據(jù)集,也沒有標準的評價指標.本文采用兩組實驗,比較分析本文所提出的西文詞語提取方法與傳統(tǒng)的Cvalue[17]和NC-value[18]方法的性能.

        6.1 實驗數(shù)據(jù)

        本文采用兩個題材不同的西語語料比較分析:聯(lián)合國平行語料庫[35]和路透社文本分類語料庫[36].從聯(lián)合國平行語料庫中隨機選取246 篇西語會議記錄作為實驗數(shù)據(jù)一,共12.8 MB;從路透社語料中選取200 篇新聞報道作為實驗數(shù)據(jù)二,共162 KB.

        6.2 評價指標

        常用的文本挖掘方法檢驗指標是召回率和準確率.召回率主要受所采用的候選詞語提取方法的影響.西文詞語提取常用的C-value 方法和NC-value 方法在提取候選詞語時,只考慮名詞和形容詞,基于詞性規(guī)則,僅能提取得到符合設定規(guī)則的名詞和形容詞組合.本文在提取候選詞語時,全面考察各種詞性,僅刪除不參與構詞的代詞、副詞、從屬連詞等,然后以單詞為步長提取由各種詞性單詞組合而成的頻繁詞串,刪除其中僅作為子串出現(xiàn)的頻繁詞串之后得到候選詞語集合.因此,本文的西文詞語提取方法能夠提取得到的候選詞語數(shù)目大幅提高,約為C-value 方法和NC-value 方法的2.2 倍;并且,由于本文方法的準確率較高,所以召回率也遠高于C-value 方法和NC-value 方法.因此,本文不再比較3 種西文詞語提取方法的召回率,僅重點評價三者的準確率.

        6.3 實驗結果與分析

        首先對每組實驗數(shù)據(jù)進行文本預處理,接著以2為出現(xiàn)頻次的閾值提取頻繁詞串,刪除頻次與父串相同的頻繁詞串,得到候選詞語集合.然后計算候選詞語的成詞度,即C-value、NC-value和DC-value 值,并按成詞度降序排列輸出給西語專業(yè)人士判斷哪些候選成詞.實驗數(shù)據(jù)一和數(shù)據(jù)二的候選詞語集合分別包含17 058 條和1983 條西文候選詞語.

        盡管C-value和NC-value 方法在候選詞語提取階段的召回率遠低于本文方法,但為了公平比較3 種方法的準確率,在成詞度計算時為3 種方法提供了相同的候選詞語集合,均為由本文方法所得到的候選詞語集合.基于人工判斷的結果,從正確率和錯誤率兩個方面分析詞語自動提取的準確率,如表2、表3和圖5、圖6所示.

        表2 聯(lián)合國平行語料庫詞語提取正確率(%)

        表3 路透社語料詞語提取結果正確率(%)

        圖5 聯(lián)合國平行語料庫詞語提取錯誤率

        正確率和錯誤率的計算公式分別如式(4)、式(5)所示:

        其中,候選詞語數(shù)是候選詞語集合中的詞語個數(shù);成詞數(shù)和不成詞數(shù)分別指由西語專業(yè)人士判斷成詞和不成詞的候選詞語的個數(shù);頻繁詞串數(shù)是指閾值大于2 的詞串個數(shù),其中包含那些出現(xiàn)頻次與父串相同的子串;誤刪詞數(shù)是那些本應成詞但因僅作為子串出現(xiàn)而未列入候選詞語的頻繁詞串個數(shù).從表2、表3和圖5、圖6可以看到:

        圖6 路透社語料詞語提取結果錯誤率

        (1)候選詞語集合相同的情況下,3 種成詞度計算方法對候選詞語的排序不同,但準確率持平.可見,本文提出的西文詞語提取方法在大幅提高召回率的同時,與經(jīng)典的C-value和NC-value 方法的準確率持平.

        (2)語料的規(guī)模影響著本文方法的準確率.實驗數(shù)據(jù)二的詞語提取準確率略低于數(shù)據(jù)一,原因是其語料規(guī)模較小,沒能完備地展現(xiàn)串頻共現(xiàn)的統(tǒng)計特征.圖2的西語文本較短,其中的頻繁詞串數(shù)量較少,且常因僅作為子串出現(xiàn)而被誤刪,如“tecnología(技術)”、“sistema(系統(tǒng))”等.可見,本文方法更適用于語料規(guī)模較大的西語文本的詞語提取.

        總之,在西語文本詞語提取方面,本文方法的召回率顯著高于經(jīng)典的C-value和NC-value 方法;在成詞度計算方面,3 種方法的準確率區(qū)別不大,都較為令人滿意.并且,語料規(guī)模越大,本文方法的準確率越高.

        7 結論

        作為聯(lián)合國和眾多國際組織的工作語言,西班牙語在全球具有廣泛的使用范圍,是僅次于漢語的世界第二大語言,但目前西語文本挖掘研究尚不成熟,尤其是針對西語文本詞語提取的方法研究.我國與西語國家的雙邊經(jīng)貿(mào)關系發(fā)展迅速,為了支持基于西語信息的管理決策,本文提出一種西語文本詞語提取方法,以支持針對西語文本的文本挖掘和自動分析.

        給定待分析的西語文本或語料庫,本文分3 步自動提取詞語集合:(1)對輸入文本進行預處理,包括:文本清洗、詞性標注和詞形還原;(2)根據(jù)西語語法特征總結停用詞表和停用詞性表,刪除文本中的停用詞,然后基于串頻統(tǒng)計提取得到候選詞語集合;(3)計算候選詞語的成詞度,以成詞度降序輸出給人工判斷選擇,得到最終的詞語集合.實驗表明,本文方法的召回率顯著高于C-value和NC-value 等經(jīng)典的西語文本詞語提取方法,且準確率與這些經(jīng)典方法持平.

        本文方法適用于大規(guī)模西語文本語料的詞語提取.在面向西語文本分類、聚類等文本挖掘任務時,采用本文方法的前兩個步驟(文本預處理和候選詞語提取)即可無監(jiān)督地提取待分析文本中的詞語集合,供文本建模從中選取特征詞.在面向西語文本命名實體識別、本體構建、機器翻譯等需要準確詞語的任務時,除了前兩個步驟,還需采用本文方法的第3 步(成詞度計算)計算候選詞語的成詞度.候選詞語按成詞度降序排列交由西語專業(yè)人士進行人工判斷確定最終的詞語集合,能夠降低人工選詞的工作量.

        本文的西詞文本詞語提取方法的準確率受到停用詞表和停用詞性表的影響,因此,未來將在應用研究中繼續(xù)完善停用詞表和停用詞性表,進一步提高西班牙語文本詞語提取方法的準確率.

        猜你喜歡
        單詞文本語文
        《快樂語文》2022年全新改版!
        快樂語文(2021年35期)2022-01-18 06:05:52
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        單詞拾趣
        海外英語(2006年8期)2006-09-28 08:49:00
        国产一品道av在线一二三区| 亚洲综合欧美色五月俺也去| 亚洲一区自拍高清亚洲精品| 中文天堂在线www| 99色网站| 日韩精品国产精品亚洲毛片| 妺妺窝人体色www婷婷| 大香伊蕉国产av| 亚洲国产精品久久久性色av| 国产精品一品二区三区| 一边摸一边抽搐一进一出口述 | 传媒在线无码| 一区二区三区四区免费国产视频| 成年女人免费v片| 又爽又黄又无遮挡的激情视频| 精品一区二区三区免费爱| 亚洲女同性恋激情网站| 亚洲国产精品综合久久网络| 国产午夜福利小视频合集| 在线无码精品秘 在线观看| 白白色视频这里只有精品| 少妇精品无码一区二区三区| 亚洲一区二区三区偷拍女厕| 国产高清亚洲精品视频| 少妇免费av一区二区三区久久| 一区二区三区乱码在线 | 欧洲| 日日摸夜夜欧美一区二区| 日韩av一区二区在线观看| 狠狠色欧美亚洲狠狠色www| 内射少妇36p九色| АⅤ天堂中文在线网| 麻豆久久91精品国产| 风韵多水的老熟妇| 亚洲欧洲久久久精品| 成人自拍三级在线观看| 午夜亚洲av日韩av无码大全| 精品久久久久久国产| 国产精品高清亚洲精品| 午夜dv内射一区二区| 精品一区二区久久久久久久网站 | 国内精品91久久久久|