亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文文本校對(duì)評(píng)測(cè)集構(gòu)建

        2023-02-04 06:08:38才智杰三毛措才讓卓瑪
        中文信息學(xué)報(bào) 2023年11期
        關(guān)鍵詞:課文研究

        才智杰,三毛措,3,才讓卓瑪

        (1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院, 青海 西寧 810016;2. 省部共建藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室, 青海 西寧 810008;3. 四川省威州民族師范學(xué)校,四川 阿壩 624000;4. 西南民族大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)

        0 引言

        隨著自然語(yǔ)言處理研究的不斷深入,技術(shù)方法的評(píng)測(cè)已成為自然語(yǔ)言處理的研究?jī)?nèi)容之一。評(píng)測(cè)集是技術(shù)方法評(píng)測(cè)的基礎(chǔ)數(shù)據(jù),有了合理的評(píng)測(cè)集才能有效地評(píng)測(cè)技術(shù)方法。文本校對(duì)評(píng)測(cè)集是用于評(píng)價(jià)文本校對(duì)效果的數(shù)據(jù)集,可分為傳統(tǒng)文本校對(duì)評(píng)測(cè)集和標(biāo)準(zhǔn)文本校對(duì)評(píng)測(cè)集。傳統(tǒng)文本校對(duì)評(píng)測(cè)集是對(duì)正確的數(shù)據(jù)集通過(guò)主觀經(jīng)驗(yàn)人工偽造而得到的評(píng)測(cè)集,標(biāo)準(zhǔn)文本校對(duì)評(píng)測(cè)集是通過(guò)選擇研究對(duì)象獲取可信度強(qiáng)的真實(shí)數(shù)據(jù)集而得到的評(píng)測(cè)集。在沒(méi)有構(gòu)建標(biāo)準(zhǔn)評(píng)測(cè)集的情況下,通常使用傳統(tǒng)文本校對(duì)評(píng)測(cè)集進(jìn)行評(píng)測(cè)。由于傳統(tǒng)評(píng)測(cè)集是人工偽造的數(shù)據(jù)集,不能覆蓋文本校對(duì)的各種類(lèi)型,因此學(xué)者們開(kāi)始研究標(biāo)準(zhǔn)評(píng)測(cè)集的構(gòu)建。

        藏文文本校對(duì)研究剛剛起步,目前還沒(méi)有用于評(píng)價(jià)藏文文本校對(duì)性能的標(biāo)準(zhǔn)評(píng)測(cè)集。隨著大數(shù)據(jù)時(shí)代的不斷推進(jìn),藏文電子語(yǔ)料也與日俱增,這些語(yǔ)料已經(jīng)過(guò)相關(guān)機(jī)構(gòu)的審核,基本無(wú)錯(cuò)誤,因而不能作為藏文文本校對(duì)的評(píng)測(cè)集。本文在結(jié)合藏文特點(diǎn)并分析英文、漢文文本校對(duì)評(píng)測(cè)集構(gòu)建方法的基礎(chǔ)上,研究了藏文文本校對(duì)評(píng)測(cè)集的構(gòu)建方法,構(gòu)建了用于評(píng)價(jià)藏文文本校對(duì)性能的標(biāo)準(zhǔn)評(píng)測(cè)集,并統(tǒng)計(jì)分析了評(píng)測(cè)集中的錯(cuò)誤類(lèi)型及分布。

        1 研究現(xiàn)狀

        文本校對(duì)評(píng)測(cè)是文本校對(duì)性能分析的基礎(chǔ),評(píng)測(cè)的目的是驗(yàn)證模型的性能,以比較各種文本校對(duì)技術(shù)的優(yōu)劣。然而,評(píng)測(cè)體系需要客觀公正,不受主觀感覺(jué)影響。自2014年起,學(xué)者們開(kāi)始了文本校對(duì)評(píng)測(cè)集的建設(shè)工作。英文文本校對(duì)評(píng)測(cè)集建設(shè)方面,ACL自然語(yǔ)言學(xué)習(xí)特別興趣小組(SIGNLL)組織了CONLL年度會(huì)議,專(zhuān)門(mén)用于探討自然語(yǔ)言處理技術(shù)方法,2014年的會(huì)議任務(wù)是探討文本校對(duì)評(píng)測(cè)方法。該小組在研究英語(yǔ)語(yǔ)法錯(cuò)誤檢測(cè)技術(shù)時(shí)以標(biāo)準(zhǔn)的方式構(gòu)建了50篇論文的英文文本校對(duì)評(píng)測(cè)集[1],用于評(píng)測(cè)英語(yǔ)語(yǔ)法錯(cuò)誤檢測(cè)。該評(píng)測(cè)集數(shù)據(jù)采集對(duì)象是25名非英語(yǔ)母語(yǔ)國(guó)家大學(xué)的學(xué)生,其構(gòu)建方式是根據(jù)給出的兩個(gè)提示每人寫(xiě)兩篇論文,評(píng)測(cè)集的具體信息如表1所示。在CONLL2014語(yǔ)法錯(cuò)誤檢測(cè)任務(wù)中,17個(gè)小組采用不同的文本校對(duì)方法在相同的英文文本校對(duì)評(píng)測(cè)集上驗(yàn)證其任務(wù)的性能, 學(xué)者們希望在這樣的平臺(tái)上挖掘出更先進(jìn)的英語(yǔ)語(yǔ)法錯(cuò)誤檢測(cè)技術(shù)。

        表1 英文文本校對(duì)評(píng)測(cè)集信息表

        漢文文本校對(duì)評(píng)測(cè)集建設(shè)方面,2015年自然語(yǔ)言處理技術(shù)研討會(huì)NLP-TEA與中國(guó)語(yǔ)法錯(cuò)誤檢測(cè)(CGED)共同為漢文文本校對(duì)工具的開(kāi)發(fā)和實(shí)施提供了一個(gè)論壇。他們?cè)谘芯繚h語(yǔ)語(yǔ)法錯(cuò)誤檢測(cè)時(shí)以標(biāo)準(zhǔn)的方式構(gòu)建了1 000個(gè)評(píng)測(cè)句的漢文文本校對(duì)評(píng)測(cè)集[2],用于評(píng)測(cè)漢語(yǔ)語(yǔ)法錯(cuò)誤檢測(cè)。該評(píng)測(cè)集數(shù)據(jù)采集內(nèi)容是臺(tái)灣地區(qū)的TOCFL機(jī)考作文,其構(gòu)建方式是以漢語(yǔ)為母語(yǔ)的人手工標(biāo)注語(yǔ)法錯(cuò)誤,并提供相應(yīng)的糾正,然后以開(kāi)放測(cè)試的形式進(jìn)行評(píng)估,促進(jìn)了漢文文本校對(duì)技術(shù)的發(fā)展。2017年由臺(tái)灣大學(xué)、計(jì)算語(yǔ)言與中文處理協(xié)會(huì)主辦,亞洲自然語(yǔ)言處理聯(lián)合協(xié)會(huì)(AFNLP)承辦的第八屆國(guó)際自然語(yǔ)言處理聯(lián)席會(huì)議IJCNLP2017的共同任務(wù)也是漢語(yǔ)語(yǔ)法錯(cuò)誤檢測(cè),他們以標(biāo)準(zhǔn)的方式構(gòu)建了漢文文本校對(duì)評(píng)測(cè)集[3],用于評(píng)測(cè)漢語(yǔ)語(yǔ)法錯(cuò)誤檢測(cè)。該評(píng)測(cè)集的數(shù)據(jù)采集內(nèi)容是《漢語(yǔ)水平考試》的寫(xiě)作部分,其構(gòu)建方式與上面方法一致,表2顯示了評(píng)測(cè)集中錯(cuò)誤類(lèi)型的分布。2018年國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議NLPCC2018的共同任務(wù)中,他們從北京大學(xué)漢語(yǔ)學(xué)習(xí)語(yǔ)料庫(kù)中抽取2 000個(gè)句子以標(biāo)準(zhǔn)的方式構(gòu)建了一個(gè)漢文文本校對(duì)評(píng)測(cè)集[4],其目的是評(píng)測(cè)漢語(yǔ)語(yǔ)法糾錯(cuò)。

        表2 IJCNLP 2017語(yǔ)法錯(cuò)誤檢測(cè)評(píng)測(cè)集中錯(cuò)誤類(lèi)型的分布

        國(guó)內(nèi)少數(shù)民族語(yǔ)言文字的文本校對(duì)評(píng)測(cè)集構(gòu)建研究剛剛起步,藏文文本校對(duì)評(píng)測(cè)集構(gòu)建研究也處于探索階段。目前,學(xué)者們普遍采用爬蟲(chóng)技術(shù)抓取網(wǎng)絡(luò)上現(xiàn)有的語(yǔ)料,進(jìn)而通過(guò)增加噪聲數(shù)據(jù)的方法獲取訓(xùn)練集或者評(píng)測(cè)集(傳統(tǒng)評(píng)測(cè)集)。2018年才智杰等[5]在研究向量模型的藏文非真字自動(dòng)拼寫(xiě)檢查時(shí)采用傳統(tǒng)的方式構(gòu)建了規(guī)模為11.7萬(wàn)的藏文字評(píng)測(cè)集, 2019年色差甲等[6]在研究CNN藏文音節(jié)拼寫(xiě)檢查時(shí)采用傳統(tǒng)方式構(gòu)建了人工偽造的音節(jié)數(shù)據(jù)集,2020年華旦扎西等[7]在研究TC_LSTM的藏文詞拼寫(xiě)檢查時(shí)也采用傳統(tǒng)的方式主觀構(gòu)建了規(guī)模為400句的藏文詞評(píng)測(cè)集。綜上所述,我們可以看出英文和漢文文本校對(duì)評(píng)測(cè)集建設(shè)方面已比較成熟,同時(shí)也推動(dòng)了英文和漢文自然語(yǔ)言處理發(fā)展。但藏文文本校對(duì)評(píng)測(cè)集構(gòu)建方面還未見(jiàn)標(biāo)準(zhǔn)評(píng)測(cè)集的相關(guān)文獻(xiàn)報(bào)道,制約了藏文文本校對(duì)技術(shù)的發(fā)展。

        2 藏文文本校對(duì)評(píng)測(cè)集構(gòu)建

        2.1 藏文文本校對(duì)評(píng)測(cè)集構(gòu)建方案

        數(shù)據(jù)采集是評(píng)測(cè)集構(gòu)建的第一步。數(shù)據(jù)采集方式多種多樣,通常采用問(wèn)卷調(diào)查、做實(shí)驗(yàn)、查閱資料、下載公開(kāi)數(shù)據(jù)集、人工偽造數(shù)據(jù)、爬蟲(chóng)以及現(xiàn)場(chǎng)采集等方式。目前進(jìn)行藏文文本校對(duì)技術(shù)研究時(shí), 學(xué)者們采用人工偽造數(shù)據(jù)構(gòu)建評(píng)測(cè)集(傳統(tǒng)評(píng)測(cè)集),傳統(tǒng)評(píng)測(cè)集中存在的錯(cuò)誤類(lèi)型覆蓋率不全、可靠性較低,不能準(zhǔn)確反映文本校對(duì)的真實(shí)情況。而現(xiàn)場(chǎng)采集的數(shù)據(jù)能反映出問(wèn)題的真實(shí)性,具有直觀性、科學(xué)性、真實(shí)性以及通用性等優(yōu)點(diǎn)。因此,本文借鑒英文和漢文的文本校對(duì)評(píng)測(cè)集的建立過(guò)程,采用現(xiàn)場(chǎng)采集的方式進(jìn)行了評(píng)測(cè)數(shù)據(jù)采集,以此設(shè)計(jì)了藏文文本校對(duì)評(píng)測(cè)集的構(gòu)建方案。藏文文本校對(duì)評(píng)測(cè)集的構(gòu)建方案如圖1所示。

        圖1 藏文文本校對(duì)評(píng)測(cè)集構(gòu)建方案

        藏文文本校對(duì)評(píng)測(cè)集構(gòu)建方案由評(píng)測(cè)集采集和評(píng)測(cè)集數(shù)據(jù)分析兩部分組成,評(píng)測(cè)集采集包括數(shù)據(jù)采集對(duì)象選取、數(shù)據(jù)采集內(nèi)容選取、數(shù)據(jù)收集以及數(shù)據(jù)整理四部分,評(píng)測(cè)集數(shù)據(jù)分析包括錯(cuò)誤類(lèi)型統(tǒng)計(jì)、錯(cuò)誤類(lèi)型分布及數(shù)據(jù)分析三部分。構(gòu)建藏文文本校對(duì)評(píng)測(cè)集時(shí),首先要選擇與自己研究問(wèn)題相符合的數(shù)據(jù)采集對(duì)象,進(jìn)而選擇數(shù)據(jù)采集內(nèi)容,然后到現(xiàn)場(chǎng)采集數(shù)據(jù)樣本,對(duì)采集的數(shù)據(jù)樣本進(jìn)行整理,并判斷數(shù)據(jù)是否有效,最后對(duì)構(gòu)建的評(píng)測(cè)集進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)整理是將采集到的數(shù)據(jù)規(guī)范化,并數(shù)字化。根據(jù)數(shù)據(jù)集中是否出現(xiàn)拼寫(xiě)錯(cuò)誤判斷數(shù)據(jù)集的有效性。若有拼寫(xiě)錯(cuò)誤,則將其歸入評(píng)測(cè)集,否則重新采集。數(shù)據(jù)分析部分通過(guò)統(tǒng)計(jì)評(píng)測(cè)集中的錯(cuò)誤類(lèi)型和分析錯(cuò)誤類(lèi)型的分布情況,驗(yàn)證評(píng)測(cè)集構(gòu)建的合理性和有效性。

        2.2 藏文文本校對(duì)評(píng)測(cè)集構(gòu)建

        根據(jù)藏文文本校對(duì)評(píng)測(cè)集構(gòu)建方案,可以按以下步驟建立藏文文本校對(duì)評(píng)測(cè)集。

        第一步: 數(shù)據(jù)采集對(duì)象選取

        本文將拉加草原學(xué)校作為這次課題研究數(shù)據(jù)采集的對(duì)象。該學(xué)校位于青海省果洛藏族自治州瑪沁縣拉加鎮(zhèn),這所學(xué)校設(shè)有9個(gè)年級(jí),14個(gè)教學(xué)班,開(kāi)設(shè)的課程與其他中小學(xué)的設(shè)課內(nèi)容基本一致,所使用的教材均為教育部標(biāo)準(zhǔn)教材。此外,將辯論的課程和思想也被運(yùn)用在了日常教學(xué)中。該校的學(xué)生都從小學(xué)一年級(jí)開(kāi)始學(xué)習(xí)藏語(yǔ),都是母語(yǔ)學(xué)習(xí)者,因而藏語(yǔ)水平總體上比其他語(yǔ)言文字成績(jī)普遍都較高,學(xué)生的來(lái)源除青海各個(gè)州縣外,還有甘肅、四川等地區(qū),這種來(lái)源多樣性有助于識(shí)別藏文文本中各地方特有的拼寫(xiě)錯(cuò)誤類(lèi)型。學(xué)校設(shè)有9個(gè)年級(jí)(一年級(jí)至九年級(jí)),其中一年級(jí)到三年級(jí)的藏語(yǔ)學(xué)習(xí)時(shí)長(zhǎng)較短,還未掌握很多的藏文知識(shí)點(diǎn),藏語(yǔ)水平較低,因此本研究以四年級(jí)至九年級(jí)共六個(gè)年級(jí)作為研究對(duì)象進(jìn)行現(xiàn)場(chǎng)數(shù)據(jù)采集。數(shù)據(jù)采集對(duì)象信息如表3所示。

        表3 數(shù)據(jù)采集對(duì)象信息表

        表3列舉的信息可作為本課題研究對(duì)象的主要原因有以下四個(gè)方面: ①由于該學(xué)校的學(xué)生均為母語(yǔ)使用者,為數(shù)據(jù)的有效性提供了基礎(chǔ)保障;②由于該學(xué)校收集到的數(shù)據(jù)具有多元化,使得數(shù)據(jù)類(lèi)型較全面及覆蓋率較高,并與下游任務(wù)藏文文本校對(duì)的實(shí)驗(yàn)內(nèi)容相吻合;③由于每個(gè)年級(jí)每位學(xué)生的藏語(yǔ)水平各不相同,使得本文采集到的數(shù)據(jù)具有很大的研究?jī)r(jià)值;④由于本文將采取現(xiàn)場(chǎng)采集的方式采集數(shù)據(jù),使得本文采集到的數(shù)據(jù)具有真實(shí)性。綜上,本文的數(shù)據(jù)采集對(duì)象滿(mǎn)足數(shù)據(jù)的有效性、多樣性、價(jià)值性、真?zhèn)涡缘人拇筇匦?符合作為本次研究的數(shù)據(jù)采集要求。

        第二步: 數(shù)據(jù)采集內(nèi)容選取

        選取研究?jī)?nèi)容時(shí),本文考慮學(xué)生的藏語(yǔ)學(xué)習(xí)時(shí)長(zhǎng)的長(zhǎng)短,計(jì)劃從三年級(jí)至八年級(jí)的上下冊(cè)教材中各選一篇課文,共12篇課文。為了提高數(shù)據(jù)的質(zhì)量和數(shù)據(jù)采集的效率,低年級(jí)的課文普遍都很短,本文選擇其中常用詞較多同、篇長(zhǎng)較長(zhǎng)的課文作為數(shù)據(jù)采集的內(nèi)容。高年級(jí)的課文普遍都很長(zhǎng),本文選擇其中常用詞較多、篇長(zhǎng)較短的課文作為數(shù)據(jù)采集的內(nèi)容。因此本文選取的數(shù)據(jù)采集內(nèi)容的覆蓋性較全面,其中的常用詞也較普遍,符合作為本課題的數(shù)據(jù)采集內(nèi)容。藏文文本校對(duì)評(píng)測(cè)集數(shù)據(jù)采集內(nèi)容的選取信息如表4所示。為了獲取學(xué)生在已學(xué)課文的情況下所犯的真實(shí)性的拼寫(xiě)錯(cuò)誤數(shù)據(jù),本文將四年級(jí)的學(xué)生作為三年級(jí)上下冊(cè)教材兩篇課文的數(shù)據(jù)采集的對(duì)象,將五年級(jí)的學(xué)生作為四年級(jí)上下冊(cè)教材兩篇課文的數(shù)據(jù)采集的對(duì)象,以此類(lèi)推。

        表4 評(píng)測(cè)集數(shù)據(jù)采集內(nèi)容選取信息表

        第三步: 數(shù)據(jù)收集

        由于初三年級(jí)需要備考和缺少人手等的種種原因,本文最終實(shí)際獲取到的數(shù)據(jù)只有六篇課文的內(nèi)容,共232名學(xué)生的研究樣本,數(shù)據(jù)信息如表5所示。數(shù)據(jù)采集的方式是現(xiàn)場(chǎng)采集的方法,即老師到每個(gè)班聽(tīng)寫(xiě)相應(yīng)的課文,對(duì)每個(gè)數(shù)據(jù)采集對(duì)象采取一致的數(shù)據(jù)采集方法,保證采集數(shù)據(jù)樣本的有效性、可比性、可靠性及研究?jī)r(jià)值,使得采集的數(shù)據(jù)具有普遍性和代表性。表5中數(shù)據(jù)采集參與人數(shù)和最終收集的數(shù)據(jù)樣本數(shù)一致。

        表5 實(shí)際評(píng)測(cè)集數(shù)據(jù)采集信息表

        第四步: 數(shù)據(jù)整理

        評(píng)測(cè)數(shù)據(jù)的代表性決定了最終建立的藏文文本校對(duì)評(píng)測(cè)集的可靠性和可行性。完成第三步的數(shù)據(jù)收集后,本文對(duì)收集到的紙質(zhì)版數(shù)據(jù)樣本進(jìn)行了整理。數(shù)據(jù)整理包括對(duì)數(shù)據(jù)樣本進(jìn)行編號(hào),例如,四年級(jí)40名學(xué)生的數(shù)據(jù)樣本編號(hào)依次為4-1、4-2、…、4-40,五年級(jí)一班36名學(xué)生的數(shù)據(jù)樣本編號(hào)依次為5(1)-1、5(1)-2、…、5(1)-36,五年級(jí)二班33名學(xué)生的數(shù)據(jù)樣本編號(hào)依次為5(2)-1、5(2)-2、…、5(2)-33,以此類(lèi)推。由藏語(yǔ)為母語(yǔ)的人對(duì)數(shù)據(jù)樣本進(jìn)行拼寫(xiě)錯(cuò)誤檢查并做了錯(cuò)誤注釋;將6個(gè)數(shù)據(jù)集的內(nèi)容(正確的數(shù)據(jù)內(nèi)容)進(jìn)行電子化(文檔)并以文本格式分別保存;在每個(gè)文件中按每個(gè)數(shù)據(jù)采集參與人數(shù)復(fù)制、粘貼相應(yīng)的文檔并對(duì)文檔進(jìn)行編號(hào)(紙質(zhì)版樣本編號(hào)數(shù)=文檔復(fù)制數(shù)=數(shù)據(jù)采集參與人數(shù)=文檔編號(hào)數(shù)),它們之間是一對(duì)一的關(guān)系;按照每份紙質(zhì)版樣本中注釋的錯(cuò)誤將在對(duì)應(yīng)電子文檔中的正確的字改成錯(cuò)誤的字,獲取最終的藏文文本校對(duì)評(píng)測(cè)集。藏文文本校對(duì)評(píng)測(cè)集信息如表6所示,表中的數(shù)據(jù)大小是指評(píng)測(cè)集文檔數(shù)的總大小,例如,序號(hào)1對(duì)應(yīng)的數(shù)據(jù)大小200KB是指四年級(jí)40名學(xué)生的評(píng)測(cè)集文檔數(shù)的總大小有200KB,以此類(lèi)推。

        表6 藏文文本校對(duì)評(píng)測(cè)集信息分布表

        3 藏文文本校對(duì)評(píng)測(cè)集數(shù)據(jù)分析

        根據(jù)文獻(xiàn)[8]中歸納的藏文文本真字錯(cuò)誤類(lèi)型,本文首先識(shí)別了本文構(gòu)建的藏文文本校對(duì)評(píng)測(cè)集中的拼寫(xiě)錯(cuò)誤類(lèi)型,其次對(duì)錯(cuò)誤類(lèi)型的分布進(jìn)行了統(tǒng)計(jì),最后根據(jù)統(tǒng)計(jì)表對(duì)數(shù)據(jù)進(jìn)行分析。

        為了進(jìn)一步弄清評(píng)測(cè)集中錯(cuò)誤類(lèi)型的分布,本文做了詳細(xì)的統(tǒng)計(jì)和分析,得出了以下評(píng)測(cè)集中錯(cuò)誤類(lèi)型分布情況的統(tǒng)計(jì)結(jié)果,整個(gè)藏文文本校對(duì)評(píng)測(cè)集中的錯(cuò)誤類(lèi)型的分布統(tǒng)計(jì)如表7所示。表7中全集是指整個(gè)232個(gè)評(píng)測(cè)集文檔之和。為了更直觀地了解評(píng)測(cè)集中的拼寫(xiě)錯(cuò)誤類(lèi)型的分布,根據(jù)表7中統(tǒng)計(jì)的數(shù)據(jù)本文畫(huà)出了對(duì)應(yīng)的餅圖,如圖2所示。

        圖2 全樣本錯(cuò)誤類(lèi)型的分布圖

        表7 全樣本錯(cuò)誤類(lèi)型的分布統(tǒng)計(jì)表

        圖3 真字錯(cuò)誤類(lèi)型的分布圖

        表8 真字錯(cuò)誤類(lèi)型的分布統(tǒng)計(jì)表

        為了能更清楚地觀察每篇課文的評(píng)測(cè)集中每個(gè)錯(cuò)誤類(lèi)型的分布情況,本文又詳細(xì)統(tǒng)計(jì)了這些數(shù)據(jù)信息,具體信息如表9所示。表9中數(shù)量是指對(duì)于一篇課文(共6篇課文)的每個(gè)評(píng)測(cè)集文檔中出現(xiàn)該錯(cuò)誤類(lèi)型的總數(shù)。根據(jù)表9中統(tǒng)計(jì)的數(shù)據(jù)本文得出了每篇課文的藏文文本校對(duì)評(píng)測(cè)集中錯(cuò)誤類(lèi)型的分布圖,如圖4~圖9所示。

        圖4 課文1評(píng)測(cè)集中錯(cuò)誤類(lèi)型分布情況

        圖5 課文2評(píng)測(cè)集中錯(cuò)誤類(lèi)型分布情況

        圖6 課文3評(píng)測(cè)集中錯(cuò)誤類(lèi)型分布情況

        圖7 課文4評(píng)測(cè)集中錯(cuò)誤類(lèi)型分布情況

        圖8 課文5評(píng)測(cè)集中錯(cuò)誤類(lèi)型分布情況

        圖9 課文6評(píng)測(cè)集中錯(cuò)誤類(lèi)型分布情況

        表9 各篇評(píng)測(cè)集中錯(cuò)誤類(lèi)型的分布統(tǒng)計(jì)表

        由表9、圖4至圖9可知,各篇評(píng)測(cè)集中構(gòu)詞錯(cuò)誤占的比例最大,占比依次在72.41%~82.6% 的區(qū)間,其次是語(yǔ)法錯(cuò)誤,占比依次在14.42%~26.11%的區(qū)間,再次是非真字錯(cuò)誤,占比依次在0.74%~1.70%的區(qū)間。至于語(yǔ)義錯(cuò)誤、連帶錯(cuò)誤和標(biāo)點(diǎn)錯(cuò)誤、是由于本文的研究?jī)?nèi)容和采集方式的選擇,導(dǎo)致出現(xiàn)的頻次很少,但也符合實(shí)際情況,因此本文構(gòu)建的藏文文本校對(duì)評(píng)測(cè)集是合理的。

        4 結(jié)論

        本文通過(guò)分析英文和漢文文本校對(duì)評(píng)測(cè)集構(gòu)建方法,設(shè)計(jì)了藏文文本校對(duì)評(píng)測(cè)集構(gòu)建方案,根據(jù)此方案構(gòu)建了藏文文本校對(duì)評(píng)測(cè)集,并統(tǒng)計(jì)分析了藏文文本校對(duì)評(píng)測(cè)集中存在的錯(cuò)誤類(lèi)型。統(tǒng)計(jì)數(shù)據(jù)結(jié)果表明,從藏文文本錯(cuò)誤類(lèi)型大類(lèi)層面來(lái)說(shuō),錯(cuò)誤類(lèi)型主要集中在真字錯(cuò)誤,占比為98.14%。藏文真字錯(cuò)誤類(lèi)型又分為構(gòu)詞錯(cuò)誤、語(yǔ)法錯(cuò)誤、語(yǔ)義錯(cuò)誤及連帶錯(cuò)誤四小類(lèi),其中構(gòu)詞錯(cuò)誤占的比例最高,占比為80.23%。這就決定了我們?cè)谘芯肯乱蝗蝿?wù)藏文文本校對(duì)方法時(shí)應(yīng)該注重哪一種錯(cuò)誤類(lèi)型,如何選擇任務(wù)的側(cè)重點(diǎn),從而為藏文文本校對(duì)技術(shù)研究奠定了基礎(chǔ)。本文數(shù)據(jù)采集的合理性、可操作性及統(tǒng)計(jì)分析結(jié)果確保了本文構(gòu)建的評(píng)測(cè)集的有效性。今后我們將在已構(gòu)建的藏文文本校對(duì)評(píng)測(cè)集的基礎(chǔ)上,研究藏文真字的文本校對(duì)方法,進(jìn)一步完善自動(dòng)文本校對(duì)技術(shù)。

        猜你喜歡
        課文研究
        課文積累吧
        勇闖課文積累關(guān)
        課文積累吧
        勇闖課文積累關(guān)
        勇闖課文關(guān)
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        背課文的小偷
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        国产精品一二三区亚洲| 青草久久婷婷亚洲精品| 一区二区亚洲精品在线| 人人澡人人妻人人爽人人蜜桃麻豆 | 国产天堂av在线播放资源| 久久综网色亚洲美女亚洲av| 真实国产乱子伦精品视频| 天天做天天爱夜夜夜爽毛片| 天天爽夜夜爽人人爽| av午夜久久蜜桃传媒软件| 国产成人综合久久精品免费| 中文字幕在线日韩| 性色av手机在线观看| 久久精品国产亚洲av久五月天| 综合色免费在线精品视频| 三年片免费观看影视大全视频 | 三级全黄的视频在线观看| 久久九九av久精品日产一区免费| 自拍偷区亚洲综合第一页| 国产精品毛片一区二区三区| 91精品人妻一区二区三区久久久| 国产一精品一av一免费爽爽| 国产成本人片无码免费2020| 久久99精品国产99久久| 国产一级黄色录像| 国产高清在线精品一区不卡| 一区二区三区在线日本视频| 国产视频一区二区三区在线免费| 性刺激的大陆三级视频| 青草视频在线播放| 免费看欧美日韩一区二区三区| 夜夜春精品视频| 91精品国产色综合久久不| 日本九州不卡久久精品一区| 国产精品麻豆va在线播放| 亚洲色在线v中文字幕| 久久精品国产99国产精2020丨 | 国产亚洲精品久久久ai换| 亚洲欧美日韩一区在线观看| 久久精品国产精品亚洲婷婷| 一区二区免费中文字幕|