亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        山東農(nóng)業(yè)大學(xué)碩博士論文摘要語(yǔ)料庫(kù)的研制

        2018-10-25 08:21:50葛曉帥司艷輝

        □葛曉帥 司艷輝

        一、引言

        Sinclair在《Corpus, Concordance, Collocation》中寫到“當(dāng)同時(shí)觀察大量的語(yǔ)料時(shí),語(yǔ)言看上去會(huì)截然不同(The language looks rather different when you look at a lot of it at once.)?!盵1](P:100)為了能夠大量觀察語(yǔ)料,在上世紀(jì)六十年代,美國(guó)布朗大學(xué)的學(xué)者率先建成了世界上第一個(gè)大型電子語(yǔ)料庫(kù),即著名的布朗語(yǔ)料庫(kù)(Brown Corpus)。自此,語(yǔ)料庫(kù)日益成為語(yǔ)言研究和調(diào)查的重要方法。

        我國(guó)的電子語(yǔ)料庫(kù)建設(shè)始于1979年武漢大學(xué)建立的漢語(yǔ)現(xiàn)代文學(xué)作品語(yǔ)料庫(kù)。之后,國(guó)內(nèi)涌現(xiàn)了一大批通用或?qū)S谜Z(yǔ)料庫(kù),如清華大學(xué)建設(shè)的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),廣東外語(yǔ)外貿(mào)大學(xué)與上海交通大學(xué)合作研制的中國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)(CLEC)等。專用語(yǔ)料庫(kù)中關(guān)注摘要這一語(yǔ)類的并不多見,現(xiàn)有的也主要關(guān)注期刊摘要[2][3]。近年雖出現(xiàn)了對(duì)碩博士論文摘要的研究,也集中在語(yǔ)言學(xué)領(lǐng)域的論文[4][5]。這些語(yǔ)料庫(kù)一般庫(kù)容較小,僅包含幾十上百篇摘要;語(yǔ)種單一,僅搜集英文摘要,通常用于中外摘要的對(duì)比研究。牛桂玲[2]創(chuàng)建的中外學(xué)術(shù)論文中英文摘要語(yǔ)料庫(kù)是筆者所知的唯一一個(gè)中英文平行摘要語(yǔ)料庫(kù),其搜集的摘要也都來自權(quán)威期刊。對(duì)碩博士論文摘要的研究,尤其是平行語(yǔ)料的研究,尚且無人涉及。

        碩博士論文是學(xué)生階段學(xué)術(shù)水平和寫作水平的集中體現(xiàn)。無論漢語(yǔ)摘要還是英語(yǔ)摘要,都經(jīng)過反復(fù)修改潤(rùn)色,反映了一個(gè)學(xué)生對(duì)兩種語(yǔ)言駕馭的最高水平。碩博士論文摘要的研究對(duì)漢語(yǔ)和英語(yǔ)的教學(xué)有重要啟示,如輔助翻譯教學(xué),學(xué)術(shù)英語(yǔ)教學(xué)等。

        碩博士論文摘要的研究如此匱乏,思考其背后的原因,筆者認(rèn)為缺乏研究對(duì)象,也就是缺乏碩博士論文摘要的語(yǔ)料是重要因素。期刊摘要較易獲取,通常可通過期刊所在出版社網(wǎng)站檢索到完整的摘要;碩博士論文摘要?jiǎng)t難以獲取,構(gòu)建一個(gè)大型碩博士論文摘要語(yǔ)料庫(kù)更是費(fèi)心費(fèi)力。我們經(jīng)過兩年的搜集和整理,研制了山東農(nóng)業(yè)大學(xué)碩博士論文摘要語(yǔ)料庫(kù)(后簡(jiǎn)稱山農(nóng)摘要語(yǔ)料庫(kù))。

        二、語(yǔ)料庫(kù)的設(shè)計(jì)與建設(shè)

        (一)語(yǔ)料庫(kù)的總體設(shè)計(jì)

        語(yǔ)料庫(kù)的建設(shè)必須首先進(jìn)行總體設(shè)計(jì)和規(guī)劃。山農(nóng)摘要語(yǔ)料庫(kù)設(shè)計(jì)包含兩個(gè)子語(yǔ)料庫(kù):一是翻譯語(yǔ)料庫(kù),二是平行語(yǔ)料庫(kù)。

        翻譯語(yǔ)料庫(kù)包含所有可獲取的碩博士論文中英文摘要以及語(yǔ)料的元信息。在翻譯語(yǔ)料庫(kù)基礎(chǔ)上對(duì)各年份和學(xué)科進(jìn)行抽樣,通過人工對(duì)齊雙語(yǔ)語(yǔ)料,建成具有代表性和平衡性的句級(jí)平行語(yǔ)料庫(kù)。

        (二)翻譯語(yǔ)料庫(kù)的建設(shè)

        翻譯語(yǔ)料庫(kù)由彼此具有翻譯關(guān)系的原文與譯文構(gòu)成,但原文與譯文之間沒有進(jìn)行段落、句子乃至詞語(yǔ)層面上的對(duì)齊處理。[2](P:35)一篇碩博士論文的漢語(yǔ)摘要與其對(duì)應(yīng)的英語(yǔ)摘要構(gòu)成一對(duì)翻譯語(yǔ)料,將多篇論文摘要搜集整理可構(gòu)成翻譯語(yǔ)料庫(kù)。山農(nóng)摘要語(yǔ)料庫(kù)的子庫(kù)即翻譯語(yǔ)料庫(kù)計(jì)劃包含所有可獲取的山東農(nóng)業(yè)大學(xué)碩博士論文的摘要。

        1.語(yǔ)料的采集

        語(yǔ)料來源為中國(guó)知網(wǎng)。采集知網(wǎng)全部學(xué)位授予單位為山東農(nóng)業(yè)大學(xué)的碩博士論文中英文摘要。

        具體檢索方式為:打開知網(wǎng)檢索頁(yè),選擇“博碩士”論文庫(kù),選擇檢索條件為“學(xué)位授予單位”,輸入“山東農(nóng)業(yè)大學(xué)”檢索。

        山東農(nóng)業(yè)大學(xué)1978年獲批碩士點(diǎn),1986年開始招收博士研究生;但早期碩博士論文未進(jìn)行電子化,知網(wǎng)可獲取的最早論文為2000年的1篇碩士論文。

        截至2017年9月28日,按照上述檢索條件,在知網(wǎng)可搜索到10 539篇碩博士論文,其中53篇在網(wǎng)頁(yè)上無摘要或摘要不完整(博士6篇,碩士47篇),可獲取摘要的論文共10 486篇。

        綜上,摘要的時(shí)間分布范圍為2000年至2017年9月底,共采集10 486篇論文的雙語(yǔ)摘要。

        2.采集內(nèi)容

        根據(jù)總體設(shè)計(jì),除了中英文摘要本身外,應(yīng)盡可能采集語(yǔ)料的元信息,包括中文標(biāo)題、英文標(biāo)題、副標(biāo)題、作者姓名、指導(dǎo)教師姓名、學(xué)科專業(yè)、級(jí)別(碩士或博士)、寫作年份、中文關(guān)鍵詞、英文關(guān)鍵詞、下載數(shù)量等。元信息越詳盡,越能豐富今后的研究角度。

        3.具體采集步驟

        (1)按照上述采集條件檢索出符合條件的論文列表。

        (2)點(diǎn)擊結(jié)果的“中文提名”打開其中文摘要頁(yè)面。

        (3)將中文摘要頁(yè)面網(wǎng)址中開頭的“kns”替換為“eng.oversea”,點(diǎn)擊回車即可看到中英文摘要頁(yè)面。

        (4)采集頁(yè)面上所需信息。

        4.語(yǔ)料的存儲(chǔ)

        語(yǔ)料的常用存儲(chǔ)方式為純文本文件,純文本文件便于讀寫,但難以存儲(chǔ)元信息,難以按照指定條件查找特定文本。例如,在純文本文件中查找2015年果樹學(xué)方向的所有博士論文英文摘要很難實(shí)現(xiàn)。雖然有在文件頭部添加元信息標(biāo)簽的方案,但元信息標(biāo)簽會(huì)污染原文,給后續(xù)的檢索工作帶來麻煩。

        山農(nóng)摘要語(yǔ)料庫(kù)采用數(shù)據(jù)庫(kù)存儲(chǔ)的方式。數(shù)據(jù)庫(kù)文件可以簡(jiǎn)單理解為常用的MS Excel工作簿,一個(gè)數(shù)據(jù)表相當(dāng)于Excel的一個(gè)工作表(sheet),一個(gè)數(shù)據(jù)表的字段類似于Excel表的一列。每篇論文的摘要占一條記錄,即一行,每條記錄都包含下面各字段(列)內(nèi)容:

        表1 語(yǔ)料庫(kù)存儲(chǔ)表字段設(shè)計(jì)

        數(shù)據(jù)庫(kù)存儲(chǔ)有兩個(gè)優(yōu)勢(shì):

        (1)分字段存取

        不同信息被分別存入不同字段,可按需求導(dǎo)出。

        例如上文提到的2015年果樹學(xué)方向的所有博士論文英文摘要,只需要按照指定條件寫出SQL查詢語(yǔ)句:

        “SELECT EnglishAbstract FROM Abstracts WHERE writtenYear=’2015’AND discipline=’果樹學(xué)’AND sourceDatabase=’博士’;”

        即可從數(shù)據(jù)庫(kù)中導(dǎo)出語(yǔ)料為純文本文件,構(gòu)成符合要求的語(yǔ)料庫(kù)。這種便利性是純文本存儲(chǔ)方式無法實(shí)現(xiàn)的。

        (2)方便數(shù)據(jù)分析

        每篇摘要均有一些常用的描述性指標(biāo),如單詞數(shù),平均詞長(zhǎng),平均句長(zhǎng)等。取得這些指標(biāo)數(shù)據(jù)后存入相應(yīng)字段,會(huì)為之后的數(shù)據(jù)分析提供極大便利。

        翻譯語(yǔ)料庫(kù)在語(yǔ)料存入數(shù)據(jù)庫(kù)后即已完成,可根據(jù)研究需要導(dǎo)出純文本文件,隨時(shí)構(gòu)建語(yǔ)料庫(kù)。翻譯語(yǔ)料庫(kù)總庫(kù)容為漢英摘要各10 486篇,漢語(yǔ)摘要共計(jì)10 828 933字次,英語(yǔ)摘要共計(jì)6 277 006詞次。

        完成翻譯語(yǔ)料庫(kù)的建設(shè)后,下一步是建設(shè)平行語(yǔ)料庫(kù)。

        (三)平行語(yǔ)料庫(kù)的建設(shè)

        平行語(yǔ)料庫(kù)是指收錄某一源語(yǔ)言文本及其對(duì)應(yīng)的目的語(yǔ)文本的語(yǔ)料庫(kù),不同語(yǔ)言文本之間構(gòu)成不同層次的平行對(duì)應(yīng)關(guān)系[6](P:33)。平行語(yǔ)料可在語(yǔ)料庫(kù)級(jí),篇章級(jí),句子級(jí)和句珠級(jí)等層次進(jìn)行對(duì)齊。[7](P:9)鑒于當(dāng)前自然語(yǔ)言處理以句子為單位,因此大部分雙語(yǔ)語(yǔ)料是以句對(duì)形式出現(xiàn)。[8](P:221)句對(duì)即為句子級(jí)別對(duì)齊,山農(nóng)平行語(yǔ)料庫(kù)同樣采用主流的句對(duì)齊方式。

        語(yǔ)料之間的平行對(duì)齊處理是一項(xiàng)難度較高而且耗費(fèi)時(shí)間和精力的工作。[6](P:34)漢英語(yǔ)料按照句子對(duì)齊需要大量的人工介入,將篇章級(jí)對(duì)齊的一萬多篇語(yǔ)料進(jìn)行一一句子對(duì)齊在短期內(nèi)難以完成,鑒于此,我們進(jìn)行了科學(xué)分層抽樣,考慮了學(xué)科、年份、碩博士論文比例后選取了596篇論文的中英文摘要進(jìn)行人工對(duì)齊。

        1.句子的界定標(biāo)準(zhǔn)

        對(duì)齊語(yǔ)料需要將漢語(yǔ)句與其譯文英文句子一一對(duì)齊。在對(duì)齊前首先要進(jìn)行句子劃分。句子的劃分標(biāo)準(zhǔn)通常采用句號(hào)、問號(hào)及感嘆號(hào)。然而考慮到摘要本身的特點(diǎn),如漢語(yǔ)句多用長(zhǎng)句,有時(shí)一段話僅包含一個(gè)句子,而其對(duì)應(yīng)英文翻譯卻包含多個(gè)句子。咨詢相關(guān)專家后,在不影響句義完整性的條件下,可將部分冒號(hào)和逗號(hào)也作為句子的界定標(biāo)準(zhǔn),即如果按照冒號(hào)或逗號(hào)進(jìn)行劃分能夠得到更小的句對(duì),則按照冒號(hào)或逗號(hào)劃分句子。在實(shí)踐中,漢語(yǔ)句的逗號(hào)是常見的句子劃分標(biāo)準(zhǔn)。

        2.對(duì)齊操作

        對(duì)齊操作采用Tmxmall Aligner[9]在線對(duì)齊系統(tǒng)。Tmxmall Aligner是一款在線的免費(fèi)雙語(yǔ)對(duì)齊工具,有自動(dòng)句對(duì)齊功能,如果提前進(jìn)行了段落級(jí)別的對(duì)齊,其自動(dòng)句對(duì)齊效果也非常顯著,能大量減少人工對(duì)齊的負(fù)擔(dān)。

        每一篇選定的論文漢英摘要各存入一份純文本文件,漢語(yǔ)文件以“論文編號(hào)-CN.txt”命名,英語(yǔ)文件以“論文編號(hào)-EN.txt”命名。如某篇論文編號(hào)為205011089,則其對(duì)應(yīng)漢語(yǔ)文件名為“2015011089-CN.txt”,英語(yǔ)文件名為“2015101089-EN.txt”。

        我們首先對(duì)團(tuán)隊(duì)成員進(jìn)行對(duì)齊操作培訓(xùn),并進(jìn)行試對(duì)齊。統(tǒng)一標(biāo)準(zhǔn)后進(jìn)行正式對(duì)齊操作。

        分配對(duì)齊任務(wù),團(tuán)隊(duì)成員在線進(jìn)行對(duì)齊操作,完成后導(dǎo)出對(duì)齊的tmx格式文檔,文件名為論文編號(hào)。tmx格式是通用的翻譯記憶庫(kù)交換格式,各大翻譯輔助軟件如Trados等均支持tmx文件。

        匯總tmx文件,將tmx文件轉(zhuǎn)換為純文本文件即建成句子級(jí)對(duì)齊平行語(yǔ)料庫(kù)。

        平行語(yǔ)料庫(kù)總庫(kù)容為漢英摘要各596篇,對(duì)齊句數(shù)15 849句對(duì),漢字676 355字次,英文356 257詞次。

        3.平行語(yǔ)料庫(kù)檢索軟件的開發(fā)

        平行語(yǔ)料庫(kù)建成后,我們考察了現(xiàn)有的四款平行語(yǔ)料庫(kù)檢索軟件,發(fā)現(xiàn)各有優(yōu)缺點(diǎn),但均無法滿足我們的需要,如ParaConc是收費(fèi)軟件,其他的軟件或者無法處理大規(guī)模語(yǔ)料,或者對(duì)中文支持不友好。借鑒各軟件的優(yōu)點(diǎn),并設(shè)計(jì)增添了新的特性后,我們自行開發(fā)了SDAU-ParaConc平行語(yǔ)料庫(kù)檢索軟件。該軟件除支持純文本文件外還可直接導(dǎo)入tmx文件檢索,自動(dòng)識(shí)別對(duì)齊方式,檢索速度更快,結(jié)果界面更友好,能大幅減少語(yǔ)言研究者的學(xué)習(xí)使用成本。軟件現(xiàn)可在北外語(yǔ)料庫(kù)語(yǔ)言學(xué)工具頁(yè)[10]下載。

        綜上所述,山農(nóng)摘要語(yǔ)料庫(kù)構(gòu)成可總結(jié)為下述圖表:

        圖1 山農(nóng)摘要語(yǔ)料庫(kù)的構(gòu)成

        三、山農(nóng)摘要語(yǔ)料庫(kù)的特點(diǎn)和用途

        建成的山農(nóng)摘要語(yǔ)料庫(kù)有三個(gè)特點(diǎn)。第一,全面性。該語(yǔ)料庫(kù)是首個(gè)對(duì)一所院校的碩博士論文摘要全面收錄的語(yǔ)料庫(kù)。第二,首創(chuàng)性。該語(yǔ)料庫(kù)的平行語(yǔ)料庫(kù)子庫(kù)是第一個(gè)碩博士論文摘要漢英平行語(yǔ)料庫(kù)。第三,靈活性。語(yǔ)料存儲(chǔ)采用數(shù)據(jù)庫(kù)方式,便于按需導(dǎo)出語(yǔ)料。

        以上三個(gè)特點(diǎn)使得語(yǔ)料庫(kù)可分可合,可橫向?qū)Ρ纫部煽v向?qū)Ρ?。將語(yǔ)料分為單語(yǔ)語(yǔ)料庫(kù),可進(jìn)行漢語(yǔ)或英語(yǔ)單語(yǔ)研究;將語(yǔ)料合并,可進(jìn)行翻譯研究;將語(yǔ)料按照不同學(xué)科分割,可進(jìn)行學(xué)科間的橫向?qū)Ρ?;按照年份劃分語(yǔ)料則可進(jìn)行學(xué)科內(nèi)的縱向?qū)Ρ妊芯俊?/p>

        語(yǔ)料庫(kù)建設(shè)是基礎(chǔ)建設(shè),在其基礎(chǔ)上能夠開展多種多樣的研究。可預(yù)見的研究方向有:

        語(yǔ)言研究:對(duì)摘要語(yǔ)言特征進(jìn)行研究,如詞匯、句法、文體等。

        翻譯研究:碩博士論文摘要是一項(xiàng)漢譯英翻譯活動(dòng),可進(jìn)行翻譯的顯化隱化研究,翻譯錯(cuò)誤研究等,這些研究能進(jìn)一步促進(jìn)翻譯教學(xué)的改革。平行語(yǔ)料庫(kù)還可作為機(jī)器翻譯記憶庫(kù),進(jìn)行計(jì)算機(jī)輔助翻譯研究。

        教材編寫:EAP教材可以從相關(guān)學(xué)科語(yǔ)料獲取詞表等輔助教材編寫。

        文獻(xiàn)計(jì)量學(xué)研究:文獻(xiàn)計(jì)量學(xué)與語(yǔ)料庫(kù)語(yǔ)言學(xué)都依賴關(guān)鍵詞分析。[11](P:36)對(duì)學(xué)校發(fā)表的碩博士論文進(jìn)行文獻(xiàn)計(jì)量學(xué)研究能夠?yàn)閷W(xué)校的學(xué)科建設(shè)和發(fā)展提供參考。

        四、總結(jié)

        山農(nóng)摘要語(yǔ)料庫(kù)的研制填補(bǔ)了大型碩博士論文摘要語(yǔ)料庫(kù)的空白,其采用的數(shù)據(jù)庫(kù)存儲(chǔ)方式為語(yǔ)料庫(kù)增添了強(qiáng)大的靈活性,能夠按照研究者的需要提供相應(yīng)的語(yǔ)料庫(kù),供研究者進(jìn)行多種角度的研究。其平行子庫(kù),是第一個(gè)碩博士論文摘要句級(jí)對(duì)齊平行語(yǔ)料庫(kù),在計(jì)算機(jī)輔助翻譯、翻譯教學(xué)研究等方面均可提供支持。我們還開發(fā)了平行語(yǔ)料庫(kù)檢索軟件SDAU-ParaConc,獲得了同行認(rèn)可,也為未來研究提供了便利的工具。

        国产激情在线观看免费视频| 亚洲粉嫩高潮的18p| 少妇被粗大的猛进出69影院| 欧美激情在线播放| 精品欧洲av无码一区二区14| 国产啪亚洲国产精品无码| 日产精品久久久久久久性色| 精品欧美乱码久久久久久1区2区| 国产精品厕所| 男女激情床上视频网站| 国产亚洲一区二区三区夜夜骚| 男女干逼视频免费网站| 中文字幕一区二区三区亚洲| 精品人妻av中文字幕乱| 91久久精品色伊人6882| 无码精品一区二区三区在线| 国产乱对白刺激视频| 又粗又硬又黄又爽的免费视频| 欧美精品AⅤ在线视频| 91精品国产91热久久p| 加勒比久草免费在线观看| 中文字幕色资源在线视频| 国产日产久久高清ww| 色翁荡息又大又硬又粗视频| 亚洲国产欧美日韩欧美特级| 亚洲av无码专区亚洲av| 国产亚洲一区二区三区夜夜骚| 亚洲精品中文字幕不卡| 无码色av一二区在线播放| 少妇下面好紧好多水真爽播放| 99精品免费久久久久久久久日本| 这里有精品可以观看| 老熟女熟妇嗷嗷叫91| 午夜宅男成人影院香蕉狠狠爱| 国产不卡精品一区二区三区| 青青草原亚洲| 99久久亚洲精品无码毛片| 亚洲成a人片在线观看中文!!!| 亚洲成人激情在线影院| 日本国产精品久久一线| 粉嫩av国产一区二区三区|