亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于計算機的法語語料庫構(gòu)建及其語言評估研究

        2021-06-27 03:25:54宋元元
        電子設(shè)計工程 2021年12期

        宋元元

        (西安翻譯學(xué)院,陜西西安 710105)

        隨著計算機信息技術(shù)水平的不斷提升,處于計算機時代背景下,計算機系統(tǒng)也已經(jīng)不單純應(yīng)用于專業(yè)學(xué)術(shù)場合,而是逐步滲透到社會工作、生活的各領(lǐng)域。但是,在普及應(yīng)用計算機的過程中,如何更好掌握計算機用語對于人們的語言學(xué)習(xí)至關(guān)重要[1]。在計算機技術(shù)領(lǐng)域中,不規(guī)范語言翻譯表現(xiàn)方式導(dǎo)致計算機無法實現(xiàn)統(tǒng)一翻譯,導(dǎo)致閱讀理解困難。以及計算機用語過于生活化,也衍生了大量多義詞和新詞語,再加上網(wǎng)絡(luò)用語過于泛濫,很多時候人們會不知所云。計算機系統(tǒng)語料庫源于拉丁語,同源法語單詞“Corps”[2]。語料庫在語言上表示對于某類語言情況所匯集的有限話語集合。而法語教學(xué)中也經(jīng)常會聽到學(xué)生抱怨,聽不懂表達詞語,也找不到合適的詞匯[3]。而這些都是由于學(xué)生未能充分掌握法語詞匯及運用技巧,所以提出基于計算機的法語語料庫,并運用于學(xué)生的語言評估,旨在能夠建立計算機領(lǐng)域內(nèi)的法語語料庫,并搭設(shè)學(xué)生可以在計算機平臺實現(xiàn)法語自學(xué)的平臺。

        1 法語語料庫的構(gòu)建原則

        1.1 采集代表性法語語料

        在建立法語語料庫時,第一步就是需要采集語料,并且保證語料庫的語料具有代表性。選定明確的抽樣范圍并進行分層抽樣、等距離抽樣方式,保證可以選取具有代表性的語料[4]。

        1.2 定期更新語料庫

        新聞作為具備一定時效性的語言,每年都會出現(xiàn)諸多實時新詞。所以在構(gòu)建法語語料庫時,也需要確保可以不斷更新語料庫,將原本已經(jīng)失去存在活力的語言刪除,才能夠真正保障語料庫具備使用意義[5]。

        1.3 運用新型軟件分析數(shù)據(jù)

        通過運用AntConc3.3.4w 等多種統(tǒng)計分析軟件,目前,該軟件作為廣泛應(yīng)用的一種數(shù)據(jù)分析軟件,對法語語料庫構(gòu)建來講尤為適用[6]。經(jīng)過運用該軟件統(tǒng)計小型法語語料庫,并對新聞中所發(fā)生的常用詞匯和具體習(xí)慣進行總結(jié),從而形成新型詞匯表,并劃分不同難易程度的四類詞匯等級,如圖1 所示。

        圖1 語料庫分析軟件

        2 關(guān)鍵技術(shù)

        2.1 語料存儲

        在計算機系統(tǒng)中,建立法語語料庫需要建立XML 文件存儲格式標(biāo)注。一般情況下完成存儲式XML 標(biāo)注,作為能夠運用字節(jié)偏移量加以表示的對齊位置關(guān)系,XML 文檔可以基于各關(guān)鍵詞領(lǐng)域,標(biāo)識對應(yīng)位置,并明確標(biāo)注的章、節(jié)、段、句、詞等主體信息。需要分開存儲生語料及XML 標(biāo)注,以便后續(xù)對計算機法語語料庫進行系統(tǒng)擴充,也會出現(xiàn)同一語料庫作為多個XML 的文檔標(biāo)注,但是不同XML 文檔卻實現(xiàn)了差異化功能[7]。譬如a.xml 標(biāo)注表示雙語對齊,b.xml 表示句法,c.xml 表示數(shù)據(jù)挖掘,這樣不僅可以有效節(jié)省存儲空間,與此同時也可以最大化保護文檔產(chǎn)權(quán)。對于XML 標(biāo)注集可以劃分為篇章、段落、句子、詞語,如圖2所示。

        圖2 語料存儲標(biāo)注功能

        2.2 雙語詞典

        建立計算機法語語料庫平臺,主要包括通用型、領(lǐng)域內(nèi)兩類詞典,在程序編寫中參照權(quán)威語言詞典用書,作為通用型機型詞典,而領(lǐng)域內(nèi)則采用國外經(jīng)典文書索引校對文本。在計算機雙語詞典的平臺存儲格式方面,運用XML 格式能夠?qū)崿F(xiàn)快速查找。

        2.3 特征語塊

        特征語塊定義包括:1)字符串內(nèi)的句號;2)表現(xiàn)文本中的均勻分布文段內(nèi),突然存在的特殊句段以及具體的標(biāo)記特點;3)字符串內(nèi)的換行符結(jié)束段落;4)特征及多個段落、句子集合特征語塊;5)細化特征語塊,確??梢钥s小語塊操作范圍;6)對分句處理協(xié)調(diào)過程中,能夠自動更正誤差并保證語塊對齊[8]。

        3 法語語料庫構(gòu)建實現(xiàn)

        3.1 建設(shè)目標(biāo)

        在建設(shè)法語語料庫平臺時,為了保證語料可以在計算機各方面全面覆蓋,并且對各類翻譯風(fēng)格充分體現(xiàn),定位原始語料作為計算機詞典、工具書、計算機軟件、法語對照和網(wǎng)絡(luò)用語。

        為了能夠?qū)R篇章、句子和段落,實現(xiàn)自動對齊語句,保證達到90%左右的對齊率,運用可拓展語料參數(shù)標(biāo)記,便于自動式檢索語句[9]。

        3.2 平臺建設(shè)方案

        在建設(shè)該平臺時,設(shè)計的平臺結(jié)構(gòu)組成包括降噪處理、提取特征語塊、提取目錄樹、標(biāo)注關(guān)鍵詞和分詞、統(tǒng)計詞頻信息并編撰詞典、對齊分段、及時過濾停用詞,如圖3 所示。

        圖3 法語語料庫平臺建構(gòu)方案

        3.2.1 降噪處理

        由于平臺在加工語料處理時,通常會不同程度地產(chǎn)生一定噪音,譬如漏掉標(biāo)點符號或產(chǎn)生不必要的換行符,以及不可識別字符。

        3.2.2 提取特征語塊

        在法語語料平臺中,標(biāo)記提取特征語塊,主要是實現(xiàn)文章結(jié)構(gòu)的大致標(biāo)記,為該類特征結(jié)構(gòu)提供了分段便利性,并且準確對齊分句的關(guān)鍵前提就是能夠提取特征語塊。一般情況下,在互譯文章中可以選擇特殊標(biāo)記,譬如章標(biāo)題或范例,并運用已知資源獲得相應(yīng)的特征詞塊位置。

        3.2.3 提取目錄樹

        如今在建設(shè)法語語料庫時,作為基本電子化書,詳細目錄是為了對所處位置信息能夠快速查看,并且可以有效改善用戶在使用過程中的自主感官,提取目錄樹可以為用戶應(yīng)用該語料庫,形成更高層次的視角提供方便。目錄樹能夠提供法語、漢語相對應(yīng)的查找功能,并且以各個章節(jié)標(biāo)點為依據(jù),譬如章、節(jié)等字符標(biāo)識。但同樣也需要注意該步驟需要做好XML 標(biāo)記,標(biāo)記語料所在位置,才能保證不會在日后處理過程中發(fā)生遺漏。

        3.2.4 標(biāo)注關(guān)鍵詞和分詞

        經(jīng)過完成領(lǐng)域內(nèi)法語詞典查找,并運用最優(yōu)化匹配模式,完成對應(yīng)中文和法語的領(lǐng)域詞匯,及時做好相應(yīng)標(biāo)記,確保法語、中文兩大標(biāo)記文檔,均能夠成功識別相應(yīng)的領(lǐng)域詞所在具體位置,并根據(jù)對應(yīng)信息及時完成統(tǒng)計領(lǐng)域主要詞頻[10]。

        3.2.5 統(tǒng)計詞頻信息并編撰詞典

        對于通常是原文的法語文本,經(jīng)譯文翻譯形成的中文文本,統(tǒng)計通篇詞頻的過程中,成功將停用詞過濾掉。統(tǒng)計詞頻后,一旦發(fā)現(xiàn)兩類接近的中文和法語詞頻,同時又無法找到詞典中對應(yīng)翻譯的情況下,則可以運用計算機之間存在的兩個向量間的相似性計算方法,并確認是否作為互譯詞對[11-12]。

        3.2.6 對齊分段

        與詞頻相結(jié)合可以滿足既定范圍中的單詞詞頻差值和閾值,成功標(biāo)記相應(yīng)錨點從而成功對齊相應(yīng)分段。分段代碼示例如下[13]:

        3.2.7 及時過濾停用詞

        停用詞指輔助類功能詞句,譬如漢語里的的、得、地、是等,通常會高頻率地出現(xiàn)在部分文章中,甚至可能占據(jù)較大占比,對于語料庫的對齊、查找速率造成嚴重影響,也增加了對齊噪音,所以統(tǒng)計詞頻時就需要進行提前過濾處理[14]。

        4 法語語料庫語言評估實現(xiàn)

        構(gòu)建法語語料庫在應(yīng)用于語言評估過程中,具體的分析內(nèi)容及研究的語言學(xué)內(nèi)容之間存在較大相關(guān)性,通過定量分析語料庫數(shù)據(jù),可以保證用戶在應(yīng)用中,更針對性地選定語料庫的具體范圍、內(nèi)容、程度以及具體數(shù)量,并對關(guān)系用詞的容許性、區(qū)分關(guān)鍵語義名詞作合理解釋[15-18];也可以建立法語語料庫,準確定位法語學(xué)習(xí)者在學(xué)習(xí)過程中的相關(guān)語言問題,如圖4 所示。

        圖4 語料庫語言評估架構(gòu)

        1)在法語語料庫的詞匯量方面,詞匯量密切相關(guān)語言能力,越是豐富的詞匯量也就形成越強的語言學(xué)習(xí)及運用能力,同時還要注意詞匯量達到的可信度及應(yīng)用過程中的題材因素。

        2)詞匯詞級具體分布情況很大程度上反映了將用戶具備的詞匯掌握及運用能力,能夠運用高級詞匯的用戶自然也掌握了更豐富的詞匯。

        3)法語語料庫能夠為使用者提供便捷的操作手段,并定期檢測和評估法語語言學(xué)習(xí)的掌握度。

        5 結(jié)束語

        建構(gòu)法語語料庫已經(jīng)成為目前法語學(xué)習(xí)中的關(guān)鍵組成?;谟嬎銠C程序,構(gòu)建法語語料庫,實現(xiàn)橫縱不同組合,對不同個體或群體學(xué)生的法語詞匯掌握能力進行語言評估,發(fā)現(xiàn)該法語語料庫的構(gòu)建能夠有效提高學(xué)生對法語詞匯的掌握及運用能力。

        思思久久96热在精品国产 | 免费现黄频在线观看国产| 亚洲a人片在线观看网址| 久久91精品国产91久久跳舞| 草草影院发布页| 久久aⅴ人妻少妇嫩草影院| 无码电影在线观看一区二区三区| 久久色悠悠亚洲综合网| 日本a级一级淫片免费观看| 国产又色又爽又黄的| 日本高清一区二区三区水蜜桃| 女人被躁到高潮嗷嗷叫| 国产专区国产精品国产三级| 久久久久99精品成人片直播| 人人爽久久涩噜噜噜av| 国产女精品| 经典亚洲一区二区三区| 一区二区三区亚洲视频| 国内精品久久久久伊人av| 精品国产精品久久一区免费式| 好爽~又到高潮了毛片视频| 国产一区二区三区日韩在线观看| av中文字幕潮喷人妻系列| 牛牛本精品99久久精品88m | 熟女无套高潮内谢吼叫免费| 一本一本久久aa综合精品| 国产自精品| 国产美女主播福利一区| 漂亮人妻洗澡被公强 日日躁| 国产精品久久久久久影视 | 又黄又爽的成人免费视频| 无码av专区丝袜专区| 亚洲婷婷久悠悠色悠在线播放| 欧洲熟妇色xxxx欧美老妇性| 国产熟妇搡bbbb搡bb七区| 一本一本久久久久a久久综合激情| 亚洲粉嫩av一区二区黑人| 91成人自拍在线观看| 米奇777四色精品人人爽| 亚洲日韩欧美一区二区三区| 久久中文字幕av一区二区不卡 |