亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢維可比語料數(shù)據(jù)集

        2020-06-22 09:59:20馮韜李淼曹宜超曾偉輝
        關(guān)鍵詞:漢維維吾爾語語料

        馮韜,李淼,曹宜超,曾偉輝

        1.中國科學(xué)院合肥智能機(jī)械研究所,合肥 230031

        2.中國科學(xué)技術(shù)大學(xué),合肥 230026

        引 言

        語料庫是自然語言處理工作的基礎(chǔ)資源,具有非常大的應(yīng)用價(jià)值。根據(jù)語料庫包含的語種數(shù)量,可以分為單語語料庫、雙語語料庫以及多語語料庫。其中,雙語語料庫是最常用也是最主要的語料庫資源,根據(jù)語料庫中語料資源的對(duì)應(yīng)關(guān)系,其包含平行語料庫和可比語料庫兩種形式。平行語料庫中的雙語數(shù)據(jù)嚴(yán)格互譯,其按照不同的對(duì)齊粒度可以分為詞級(jí)、句級(jí)、段級(jí)以及篇章級(jí)。平行語料由于其良好的互譯性、雙語資源嚴(yán)格對(duì)齊等特點(diǎn),已經(jīng)被廣泛應(yīng)用于自然語言處理的許多方面。但是,平行語料庫的構(gòu)建是一項(xiàng)非常艱巨的任務(wù),需要借助語言學(xué)專家的知識(shí),耗時(shí)費(fèi)力,周期較長。而且,從互聯(lián)網(wǎng)上獲取平行語料也是比較困難的,因?yàn)榛ヂ?lián)網(wǎng)中嚴(yán)格互譯的文檔資源比較稀少,無法從網(wǎng)絡(luò)中挖掘大規(guī)模的平行語料資源。因此,目前平行語料庫中的雙語資源數(shù)量并不能達(dá)到實(shí)際的應(yīng)用需求,尤其是在類似于維吾爾語的少數(shù)民族語言方面,該問題更加明顯。

        可比語料作為平行語料的補(bǔ)充,日益受到了人們的重視??杀日Z料是指內(nèi)容具有一定的相似性但并不是嚴(yán)格互譯的雙語資源。兩篇可比語料文檔的主題相似,描述的是同一個(gè)事件,但是獨(dú)立的產(chǎn)生于各自的語言中,文本之間并不是互譯的,這些特點(diǎn)使得可以利用機(jī)器學(xué)習(xí)算法從大規(guī)模的互聯(lián)網(wǎng)文本中獲取可比語料。首先利用網(wǎng)絡(luò)爬蟲技術(shù)從互聯(lián)網(wǎng)上挖掘源語言文本,其次采用主題建模算法獲取文本的主題,然后從互聯(lián)網(wǎng)上挖掘類似主題的目標(biāo)語言候選文本,最后利用跨語言相似度算法獲取最終的目標(biāo)文本,并將其放入到可比語料庫中[1]??杀日Z料也可以應(yīng)用于自然語言處理的其他任務(wù)中,如機(jī)器翻譯、跨語言信息計(jì)算、語言模型等。因此,可比語料對(duì)于自然語言處理領(lǐng)域具有十分重要的意義。

        我國是一個(gè)統(tǒng)一的多民族的國家,維吾爾語信息處理對(duì)于促進(jìn)民族之間的交流與合作具有十分重要的意義,漢維可比語料庫的建設(shè)可以有效促進(jìn)漢維機(jī)器翻譯的研究。目前神經(jīng)機(jī)器翻譯已經(jīng)取得了很好的進(jìn)展,在多種語言對(duì)上的性能超過了傳統(tǒng)的機(jī)器翻譯方法。但是,神經(jīng)機(jī)器翻譯是“數(shù)據(jù)驅(qū)動(dòng)”的方法,其性能嚴(yán)重依賴于平行語料的規(guī)模、質(zhì)量和領(lǐng)域覆蓋面,只有大量的數(shù)據(jù)才能充分的發(fā)揮神經(jīng)網(wǎng)絡(luò)的性能。所以,漢維平行語料資源的匱乏嚴(yán)重制約了漢維機(jī)器翻譯的發(fā)展,但是人工構(gòu)建漢維平行語料庫又非常困難。因此,在漢維平行語料資源不足的情況下,從互聯(lián)網(wǎng)上挖掘高質(zhì)量的漢維可比語料具有重要的意義,可以為漢維機(jī)器翻譯的研究以及維吾爾語信息處理提供語料資源和技術(shù)支撐。

        1 數(shù)據(jù)采集和處理方法

        漢語和維吾爾語文本數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲技術(shù)從互聯(lián)網(wǎng)上獲取的,然后對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理、特征提取、相似度計(jì)算等步驟,最終決定是否將其放入到漢維可比語料庫中。漢維可比語料挖掘系統(tǒng)框架結(jié)構(gòu)如圖1所示。

        圖1 漢維可比語料系統(tǒng)示意圖

        該系統(tǒng)利用最大連續(xù)文本密度和的方法對(duì)漢語和維吾爾語的網(wǎng)頁內(nèi)容進(jìn)行抽取。根據(jù)現(xiàn)有的網(wǎng)頁正文抽取方法,本方法提出了一個(gè)融合結(jié)構(gòu)和語言特征的統(tǒng)計(jì)模型,將網(wǎng)頁文檔轉(zhuǎn)化為正、負(fù)交替的文本密度序列。為避免丟失短小正文行,采用高斯平滑技術(shù),通過鄰近行內(nèi)容的連續(xù)性,增加短文本行的文本密度[2-3]。最后,結(jié)合最大間隔距離,利用動(dòng)態(tài)規(guī)劃的方法計(jì)算最大連續(xù)文本密度和來抽取網(wǎng)頁正文內(nèi)容,這樣可以有效避免將網(wǎng)頁評(píng)論等篇幅較長的噪聲誤判為正文內(nèi)容的情況發(fā)生。

        在獲取漢語和維吾爾語網(wǎng)頁文本之后,對(duì)其進(jìn)行相似度計(jì)算[4]。在漢維可比語料挖掘系統(tǒng)中,采用融合多特征的漢維網(wǎng)頁文本相似度計(jì)算方法。該方法首先抽取預(yù)處理后的網(wǎng)頁文本的發(fā)布時(shí)間、標(biāo)題和正文信息等特征,這里的預(yù)處理主要是先去噪,然后翻譯維吾爾語標(biāo)題和關(guān)鍵字,再使用中國科學(xué)院的ICTCLSA(Institute of Computing Technology,Chinese Lexical Analysis System)系統(tǒng)進(jìn)行分詞、過濾停用詞等處理[5-6]。然后根據(jù)上述特征計(jì)算雙語文檔發(fā)布日期的差異、正文長度關(guān)系、正文阿拉伯?dāng)?shù)字相似度、標(biāo)題重合程度以及正文重合程度5種啟發(fā)信息,并將它們作為特征來判斷漢語文本和維吾爾語文本的相似程度。在該方法中利用正則表達(dá)式匹配文本的標(biāo)題和發(fā)布日期并且抽取文本的正文內(nèi)容,然后利用正則表達(dá)式提取正文中的阿拉伯?dāng)?shù)字。選擇雙語文檔發(fā)布日期作為相似度計(jì)算的特征是因?yàn)椴煌Z言文本對(duì)同一事件的描述一般是在事件發(fā)生后的一段時(shí)間內(nèi),兩篇可比語料文檔的發(fā)布日期應(yīng)該是相近的[7-8]。

        對(duì)于網(wǎng)頁文本內(nèi)容,選擇正文長度關(guān)系、正文阿拉伯?dāng)?shù)字、標(biāo)題重合度以及正文重合程度作為相似度計(jì)算的特征。選擇正文長度關(guān)系是由于兩篇可比語料文本對(duì)同一事件的描述應(yīng)基本一致,內(nèi)容長度比應(yīng)該在某個(gè)值附近分布,可將長度關(guān)系轉(zhuǎn)換為長度關(guān)系度;選擇正文阿拉伯?dāng)?shù)字相似度是因?yàn)榭杀日Z料的不同語言文檔是對(duì)同一事件的描述,那么出現(xiàn)在正文中的量詞等阿拉伯?dāng)?shù)字應(yīng)基本一致,可以利用歐式距離計(jì)算漢維文本中的阿拉伯?dāng)?shù)字的相似度;選擇標(biāo)題重合程度是因?yàn)樾侣剺?biāo)題是對(duì)內(nèi)容的概要,可比語料的源語言標(biāo)題經(jīng)翻譯后應(yīng)與目標(biāo)語言標(biāo)題基本一致,即有較多相同的詞匯;選擇正文重合程度是因?yàn)閮善杀日Z料文檔的主題是一致的,源語言新聞?wù)慕?jīng)翻譯后的文本應(yīng)與目標(biāo)語言新聞?wù)南嗨?,即兩篇新聞文檔的主旨是相同的。為了提高模型的效率,減少其計(jì)算時(shí)間,本文取300個(gè)字符作為處理的閾值,即文本長度超過300個(gè)字符的數(shù)據(jù)不參與正文重合度的計(jì)算。最后通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到各啟發(fā)信息的權(quán)重并將5種啟發(fā)信息進(jìn)行加權(quán)融合,從而得到兩篇漢維新聞文檔的相似度得分。

        本文利用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建了漢維可比語料挖掘系統(tǒng),并取得了較好的實(shí)驗(yàn)結(jié)果,主要包含以下幾個(gè)方面的研究工作:

        (1)在網(wǎng)頁正文提取方面,提出了一種基于最大連續(xù)文本密度和的網(wǎng)頁正文文本抽取方法。將網(wǎng)頁內(nèi)容轉(zhuǎn)換為正負(fù)交替的密度序列,并將密度序列和最大的那部分文本看作是網(wǎng)頁正文文本。

        (2)提出了一種融合多特征的跨語言網(wǎng)頁正文文本相似度計(jì)算方法。在該方法中將網(wǎng)頁的標(biāo)題、發(fā)布日期以及正文文本作為相似度計(jì)算的特征信息,并且利用神經(jīng)網(wǎng)絡(luò)算法為特征信息賦予相應(yīng)的權(quán)值,特征信息加權(quán)求和的值就是兩個(gè)網(wǎng)頁文本的相似度。

        (3)漢維可比語料系統(tǒng)挖掘到的語料經(jīng)過處理之后,將其上傳到相應(yīng)的網(wǎng)站,供用戶下載使用。因此,可比語料的數(shù)據(jù)是公開共享的。

        2 數(shù)據(jù)樣本描述

        本數(shù)據(jù)集的一個(gè)樣本共包含兩個(gè)文件:第一個(gè)是txt格式的漢語語料文本,第二個(gè)是txt格式的維吾爾語語料文本,漢語文本和維吾爾語文本是一一對(duì)應(yīng)的,圖2、圖3分別表示漢語語言文本和其相對(duì)應(yīng)的維吾爾語語言文本。

        圖2 漢語語言文本

        圖3 維吾爾語語言文本

        整個(gè)數(shù)據(jù)集由5000個(gè)樣本數(shù)據(jù)構(gòu)成,即數(shù)據(jù)集包含5000個(gè)漢語語言文本和5000個(gè)維吾爾語語言文本。圖4和圖5分別表示漢語文本的數(shù)據(jù)結(jié)構(gòu)和維吾爾語文本的數(shù)據(jù)結(jié)構(gòu)。漢語的文件名是ch,維吾爾語的文件名是uy,每一個(gè)文件夾中包含多個(gè)文本數(shù)據(jù),它們是一一對(duì)應(yīng)的關(guān)系。如圖4中的1_cn.txt與圖5中的1_uy.txt是一組可比語料對(duì)。

        圖4 漢語文本的數(shù)據(jù)結(jié)構(gòu)

        圖5 維吾爾語語言文本數(shù)據(jù)結(jié)構(gòu)

        3 數(shù)據(jù)質(zhì)量和評(píng)估

        為了保證可比語料數(shù)據(jù)的質(zhì)量,將漢維可比語料加入到數(shù)據(jù)庫后,審核人員會(huì)對(duì)這些數(shù)據(jù)進(jìn)行進(jìn)一步篩選和審查。并且為了更好地服務(wù)審核人員,我們開發(fā)了遠(yuǎn)程Web網(wǎng)頁系統(tǒng)供審核人員使用,在網(wǎng)頁中顯示漢維可比語料供專家審查。因此,維吾爾語語言專家們可以通過遠(yuǎn)程登錄網(wǎng)頁的方式對(duì)漢維可比語料進(jìn)行審核,對(duì)于審核結(jié)果不達(dá)標(biāo)的可比語料,將它們從漢維可比語料庫中刪除。

        在獲取漢維可比語料的過程中,我們使用了正則匹配算法對(duì)維吾爾語和漢語語料文本進(jìn)行去噪處理。針對(duì)網(wǎng)頁文本雜亂無序、不規(guī)范等特點(diǎn),我們把網(wǎng)頁中的一些冗余標(biāo)簽,如“

        国产熟女精品一区二区三区| 亚洲精品www久久久久久| 国产自精品在线| 毛片亚洲av无码精品国产午夜| 国产精品一区二区三久久不卡| 亚洲中文字幕乱码在线视频| 久久综合99re88久久爱| 亚洲精品一区二区三区蜜臀| 国产mv在线天堂mv免费观看| 女人高潮内射99精品| 国产精品女同一区二区软件| 国产永久免费高清在线观看视频| 97人妻碰碰视频免费上线| 伊人久久这里只有精品| av资源吧首页在线观看| 亚洲 都市 校园 激情 另类| 国产二级一片内射视频播放| av手机免费在线观看高潮| 久久中文字幕久久久久91| 精品无码一区二区三区亚洲桃色| 亚洲国产精品综合久久网络| 国产精品亚洲二区在线| 天天中文字幕av天天爽| 99精品国产综合久久久久五月天| 日本边添边摸边做边爱喷水| 不卡免费在线亚洲av| 亚洲天堂中文字幕君一二三四| 精品一品国产午夜福利视频| 亚洲国产成人久久综合| 亚洲黄色av一区二区三区| 二区三区亚洲精品国产| 国产视频最新| 无码h黄动漫在线播放网站| 免费1级做爰片1000部视频 | 无码人妻中文中字幕一区二区| 色一情一乱一伦一区二区三区| 国产亚av手机在线观看| 99国产精品久久一区二区三区| 成人全视频在线观看免费播放| 91精品国产91| 日本护士吞精囗交gif|