亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)的設(shè)計(jì)

        2019-08-21 00:33:08
        安順學(xué)院學(xué)報(bào) 2019年3期
        關(guān)鍵詞:文本系統(tǒng)

        (1、2、3.湖北文理學(xué)院計(jì)算機(jī)工程學(xué)院,湖北 襄陽(yáng)441053)

        雙語(yǔ)語(yǔ)料庫(kù)作為基礎(chǔ)資源,在機(jī)器翻譯、跨語(yǔ)言信息檢索、詞典編纂等領(lǐng)域起著重要作用[1,2]。雙語(yǔ)語(yǔ)料庫(kù)按照互譯程度的差異可分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。所謂可比語(yǔ)料就是主題相同或相關(guān)的語(yǔ)料,不要求互為翻譯對(duì)??杀日Z(yǔ)料庫(kù)根據(jù)對(duì)齊的程度分為語(yǔ)料庫(kù)級(jí)別和篇章級(jí)別。一些新聞網(wǎng)站,例如新華社,同時(shí)用多種語(yǔ)言發(fā)布新聞,一段時(shí)間內(nèi)這些網(wǎng)站發(fā)布的多語(yǔ)種新聞的集合可視為語(yǔ)料庫(kù)級(jí)別可比語(yǔ)料庫(kù),這種語(yǔ)料庫(kù)從整體上是可比的,但具體到單個(gè)篇章并未對(duì)齊。本文針對(duì)的是篇章對(duì)齊的語(yǔ)料庫(kù)。可比語(yǔ)料相對(duì)平行語(yǔ)料具有來(lái)源廣泛、領(lǐng)域覆蓋全面、內(nèi)容時(shí)效性強(qiáng)和易于獲取的優(yōu)勢(shì)。因此,近年來(lái)關(guān)于可比語(yǔ)料庫(kù)的研究日益增多。在語(yǔ)料庫(kù)的構(gòu)建方面,也從構(gòu)建平行語(yǔ)料庫(kù)逐步轉(zhuǎn)向了可比語(yǔ)料庫(kù)。在可比語(yǔ)料庫(kù)構(gòu)建方面,國(guó)內(nèi)外的相關(guān)研究也不少,例如,文獻(xiàn)[3]從瑞典新聞網(wǎng)站和美國(guó)新聞網(wǎng)站獲取語(yǔ)料,首次利用跨語(yǔ)言信息檢索方式構(gòu)建可比語(yǔ)料庫(kù);文獻(xiàn)[4]從新華網(wǎng)下載中英新聞?wù)Z料,同樣采用跨語(yǔ)言信息檢索方式進(jìn)行對(duì)齊;文獻(xiàn)[5]利用維基百科構(gòu)建可比語(yǔ)料庫(kù);文獻(xiàn)[6]從社交網(wǎng)站推特(Twitter)挖掘可比語(yǔ)料。這些研究有一個(gè)共同的特點(diǎn)就是基本采用離線的、一次性的方式構(gòu)建語(yǔ)料庫(kù),生成的語(yǔ)料庫(kù)的規(guī)模有限。文章嘗試在上述研究工作的基礎(chǔ)上設(shè)計(jì)了一種可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng),持續(xù)穩(wěn)定的生成可比語(yǔ)料,以構(gòu)建更大規(guī)模的可比語(yǔ)料庫(kù)。根據(jù)已有的研究,可比語(yǔ)料常見(jiàn)的來(lái)源有新聞、百科信息(如維基百科)以及社交網(wǎng)站(如推特)。語(yǔ)料庫(kù)在線構(gòu)建需要語(yǔ)料持續(xù)更新,易于獲取,因此新聞是最適合的對(duì)象。利用新聞具有時(shí)效性強(qiáng)的特點(diǎn),通過(guò)設(shè)置時(shí)間窗口,可以大大縮減潛在可比新聞對(duì)的搜索范圍,使得語(yǔ)料下載和文本對(duì)齊可以并行處理,使得在線構(gòu)建成為可能?;诖耍疚脑O(shè)計(jì)了一個(gè)中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)。該系統(tǒng)能夠在少量人工干預(yù)的情況下在線運(yùn)行,持續(xù)穩(wěn)定的生成可比語(yǔ)料,可構(gòu)建時(shí)間連續(xù)、大規(guī)模的新聞可比語(yǔ)料庫(kù)。

        1 系統(tǒng)的總體設(shè)計(jì)

        中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建過(guò)程如圖1所示。系統(tǒng)主要由兩大模塊組成:語(yǔ)料獲取模塊和文本對(duì)齊模塊。語(yǔ)料獲取模塊使用爬蟲監(jiān)測(cè)選定的中英文網(wǎng)站的新聞更新情況,并下載新聞網(wǎng)頁(yè),然后從網(wǎng)頁(yè)中抽取新聞文本及相關(guān)元素,最后存入生語(yǔ)料庫(kù)。文本對(duì)齊模塊從生語(yǔ)料庫(kù)中取出新聞,首先依據(jù)新聞的發(fā)布時(shí)間構(gòu)造候選新聞文本對(duì),然后對(duì)候選新聞文本對(duì)進(jìn)行分詞、去停用詞、抽取內(nèi)容詞等常規(guī)文本處理,隨后在在線詞典的支持下計(jì)算候選新聞文本對(duì)的可比度,保留高可比度的候選新聞文本對(duì),最后存入可比語(yǔ)料庫(kù)。

        兩個(gè)功能模塊基本是并行處理的,只是在系統(tǒng)啟動(dòng)的初始階段,待語(yǔ)料獲取模塊收集到一定時(shí)間范圍內(nèi)(以天為單位)語(yǔ)料后,文本對(duì)齊模塊才能文本對(duì)齊和可比語(yǔ)料生成工作,此后兩個(gè)模塊可以實(shí)現(xiàn)并行工作。

        圖1 中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建過(guò)程示意圖

        系統(tǒng)最關(guān)鍵的步驟是計(jì)算可比度??杀榷扔糜诤饬侩p語(yǔ)文本對(duì)的可比性。鑒于語(yǔ)義的復(fù)雜性,可比度的計(jì)算沒(méi)有標(biāo)準(zhǔn)。從計(jì)算復(fù)雜度和效果綜合考慮,本系統(tǒng)選擇文獻(xiàn)[5]和[6]提出的基于詞匯重合度的可比度計(jì)算方法。

        2 系統(tǒng)的詳細(xì)功能

        2.1 語(yǔ)料獲取

        2.1.1 雙語(yǔ)新聞網(wǎng)頁(yè)下載

        正確的選擇新聞網(wǎng)站和新聞?lì)愋蛯?duì)于系統(tǒng)的設(shè)計(jì)具有重要影響。本系統(tǒng)選擇從環(huán)球時(shí)報(bào)英文版網(wǎng)站(www.globaltimes.cn)的國(guó)際新聞板塊獲取英文新聞,從鳳凰網(wǎng)的國(guó)際新聞板塊獲取中文新聞,主要原因這兩個(gè)網(wǎng)站的列表頁(yè)結(jié)構(gòu)簡(jiǎn)單,直接采用靜態(tài)分頁(yè)而不是動(dòng)態(tài)加載的方式(如圖2所示),易于爬?。涣硗膺@些列表頁(yè)也包含新聞的發(fā)布時(shí)間,易于爬蟲監(jiān)控新聞的更新情況。相比其他類型的新聞,國(guó)際新聞?dòng)貌煌Z(yǔ)言發(fā)布的可能性更大。文章使用的爬蟲為Webmagic (http://webmagic.io/)。

        圖2 鳳凰網(wǎng)和環(huán)球時(shí)報(bào)英文版的列表頁(yè)

        2.1.2 新聞文本的抽取

        通過(guò)Jsoup解析網(wǎng)頁(yè)結(jié)構(gòu),然后抽取新聞的相關(guān)信息,包括新聞標(biāo)題,發(fā)布時(shí)間,新聞來(lái)源,新聞?wù)?,如圖3、圖4所示:

        圖3 中文新聞文本

        圖4 英文新聞文本

        2.2 文本對(duì)齊

        2.2.1 候選文本對(duì)生成

        新聞具有即時(shí)性的特點(diǎn),針對(duì)同一事件,不同語(yǔ)言的新聞發(fā)布時(shí)間應(yīng)該相差不大,根據(jù)這一特點(diǎn)可以大大縮小候選文本對(duì)的規(guī)模,還能提高對(duì)齊的準(zhǔn)確性。經(jīng)過(guò)測(cè)試,設(shè)置時(shí)間窗口為1天,即給定一篇源語(yǔ)言新聞文本,將發(fā)布日期三天內(nèi)的目標(biāo)新聞文本作為候選集,即前一天,當(dāng)天,后一天的目標(biāo)新聞文本。將源語(yǔ)言新聞文本與目標(biāo)語(yǔ)言新聞文本候選集的每一篇進(jìn)行配對(duì)即得到候選文本對(duì)。

        2.2.2 候選文本對(duì)可比度計(jì)算

        (1)文本分詞及去停用詞:首先,對(duì)候選文本對(duì)中的中文新聞文本和英文新聞文本分別采用中科院分詞軟件NLPIR和斯坦福大學(xué)的自然語(yǔ)言處理工具包CoreNLP進(jìn)行分詞和詞性標(biāo)注,然后,根據(jù)停用詞表,去掉停用詞。

        (2)內(nèi)容詞提取:為了進(jìn)一步減少計(jì)算量,仿照文獻(xiàn)[7],對(duì)于去停用詞后的文本,只保留內(nèi)容詞,即名詞、動(dòng)詞、形容詞和副詞。

        (3)詞匯翻譯:通過(guò)調(diào)用網(wǎng)易有道詞典API,將上一步得到的英文新聞文本詞匯和中文新聞文本分別進(jìn)行英譯漢和漢譯英。

        (4)候選文本對(duì)可比度計(jì)算:基于詞匯重合度的可比度計(jì)算公式如下:

        comparability(den,dcn)=

        其中,binDC(den,dcn)=

        binDC(dcn,den)=

        trans(w,d)當(dāng)詞語(yǔ)w在文檔d中有對(duì)應(yīng)的翻譯等于1,否則等于0。

        2.2.3 可比度閾值設(shè)定

        通過(guò)設(shè)定可比度閾值過(guò)濾主題相似度不高的文本對(duì)。由于語(yǔ)義的復(fù)雜性,可比度閾值的設(shè)定沒(méi)有理論計(jì)算方法,通常通過(guò)人工抽樣判斷,而且文本對(duì)的主題相似度與可比度的計(jì)算值也不是簡(jiǎn)單的線性關(guān)系。通過(guò)隨機(jī)抽取200對(duì)文本對(duì)進(jìn)行人工判斷主題相似度,將可比度閾值設(shè)置為0.28,則得到的文本對(duì)中90%為主題相同或相關(guān)。

        將所有可比度低于閾值0.28的文本對(duì)濾掉,剩下的文本對(duì)可以認(rèn)為是主題相關(guān)的,即可比的,文本對(duì)齊過(guò)程結(jié)束。

        2.2.4 可比語(yǔ)料庫(kù)的存儲(chǔ)

        對(duì)齊后的文本對(duì)的集合即為可比語(yǔ)料庫(kù),為了便于使用,通常將可比語(yǔ)料庫(kù)存儲(chǔ)到文件或者數(shù)據(jù)庫(kù)中。在存儲(chǔ)可比語(yǔ)料庫(kù)時(shí),為了方便以后的應(yīng)用,除了存儲(chǔ)英漢新聞文本對(duì)本身外,還將存儲(chǔ)新聞文本標(biāo)題、發(fā)布時(shí)間以及基于詞匯重合度的可比度計(jì)算值,示例如圖5所示。

        圖5 可比新聞文本對(duì)示例

        2.3 影響系統(tǒng)連續(xù)在線運(yùn)行的因素

        除了計(jì)算機(jī)故障、網(wǎng)絡(luò)故障等不可控因素外,影響系統(tǒng)連續(xù)在線運(yùn)行的因素主要是網(wǎng)站的改版,包括新聞目錄頁(yè)的改版和新聞內(nèi)容頁(yè)的改版,這將影響網(wǎng)頁(yè)的下載和內(nèi)容抽取。據(jù)觀察,網(wǎng)站一般并不會(huì)頻繁改版,即使改版,系統(tǒng)一般也只需要修改少量代碼即可重新運(yùn)行。

        3 總結(jié)

        可比語(yǔ)料是一種用途廣泛的雙語(yǔ)資源??杀日Z(yǔ)料庫(kù)的構(gòu)建是一個(gè)研究熱點(diǎn),但如何連續(xù)漸進(jìn)構(gòu)建大規(guī)模的可比語(yǔ)料庫(kù)這方面的研究還不多見(jiàn)。文章在前人工作的基礎(chǔ)上,通過(guò)選擇合適的新聞網(wǎng)站,權(quán)衡各種可比度計(jì)算方法,設(shè)計(jì)了一個(gè)中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)。系統(tǒng)的主體部分已經(jīng)開(kāi)發(fā)完成,測(cè)試結(jié)果表明,系統(tǒng)能夠在線生成中英新聞可比語(yǔ)料。

        猜你喜歡
        文本系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        基于PowerPC+FPGA顯示系統(tǒng)
        在808DA上文本顯示的改善
        半沸制皂系統(tǒng)(下)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲精品一区二区三区在线观| 欧美日韩电影一区| 人妻被猛烈进入中文字幕| 青青草视频在线观看9| 人妻少妇中文字幕在线| 久久久日韩精品一区二区三区 | 国产av三级精品车模| 白白色白白色视频发布| 国产成人精品电影在线观看| 免费看国产成年无码av| 一区二区三区日本在线| 天堂av在线美女免费| 国产在线精品成人一区二区三区| 国产色xx群视频射精| 曰本无码人妻丰满熟妇5g影院| 精品无码AⅤ片| 在线观看日韩精品视频网站| 国产99一区二区三区四区| 人人妻人人妻人人片av| 亚洲国产另类久久久精品小说| 偷拍一区二区三区黄片| 婷婷色综合视频在线观看| 黄色视频在线免费观看| 国产精品亚洲ΑV天堂无码| av免费一区二区久久| 亚洲av一二三四区四色婷婷| 在线精品免费观看| 男女搞黄在线观看视频| 老女老肥熟女一区二区| 欧美日韩亚洲tv不卡久久| 久久久久综合一本久道| 国产的自拍av免费的在线观看| 在厨房拨开内裤进入毛片| 3d动漫精品一区二区三区| 无码免费午夜福利片在线| 一区二区三区日本高清| 亚洲成在人线av品善网好看| 四虎精品成人免费观看| 国产主播一区二区三区在线观看| 亚洲中文字幕在线一区| 门卫又粗又大又长好爽|