亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        PATTIE兒童讀物及視聽材料英語語料庫的創(chuàng)建

        2015-08-17 19:00:52外交學(xué)院
        語料庫語言學(xué) 2015年1期
        關(guān)鍵詞:庫容語料兒童文學(xué)

        外交學(xué)院 吉 潔

        PATTIE兒童讀物及視聽材料英語語料庫的創(chuàng)建

        外交學(xué)院 吉 潔

        本文介紹“PATTIE(Preschoolers- and Teenagers-oriented Texts in English)兒童讀物及視聽材料英語語料庫”的建設(shè)概況。PATTIE語料庫主要收集由成人所寫,面向4歲到10多歲兒童的英文正式出版物,包括兒童文學(xué)、小學(xué)教材、科普讀物、報刊新聞和少兒動畫5種體裁,涉及英美等地出版物。語料庫經(jīng)過詞性標(biāo)注和元信息標(biāo)記,可在BFSU CQPweb語料庫平臺在線檢索。與面向成人的語料相比,兒童輸入語料不僅在內(nèi)容上更符合兒童的認知能力、價值觀念和興趣趨向,而且在語言使用上具有鮮明特點。PATTIE語料庫的建成將對兒童語言學(xué)習(xí)和教學(xué)發(fā)揮積極作用。

        兒童讀物及視聽材料英語語料庫、PATTIE、兒童英語、語料庫建設(shè)

        1. 引言

        近20年來,語料庫語言學(xué)的研究熱點更多集中于學(xué)習(xí)者語料庫、雙語語料庫和短語學(xué)等研究(劉霞等 2014),兒童語料庫似乎并未得到廣泛關(guān)注。其實,基于兒童語料的研究已經(jīng)持續(xù)了一個多世紀(jì)。Preyer(1889)和Stern & Stern(1907)基于其子女的語料,初步探討了兒童語言的習(xí)得與發(fā)展。Thorndike(1921)和陳鶴琴(1922)為建立詞表所收集的語料中,包含大量兒童文學(xué)、小學(xué)教材或課外讀物。這些最初的紙質(zhì)兒童語料,為語言習(xí)得與教學(xué)相關(guān)研究提供了數(shù)據(jù)基礎(chǔ)(Braine 1963;Fries & Traver 1940;McCarthy 1954)。隨著電子語料庫的興起和相關(guān)技術(shù)的成熟,越來越多兒童語料庫建成,主要可分為兩大類:兒童輸出語料庫和兒童輸入語料庫。

        兒童輸出語料庫,主要收集兒童所產(chǎn)出的語言。其中規(guī)模較大的為卡內(nèi)基梅隆大學(xué)的兒童語言數(shù)據(jù)交流系統(tǒng)CHILDES(MacWhinney & Snow 1985),主要包含0-5歲兒童的多語種歷時口語語料。蘭卡斯特大學(xué)的LCCPW語料庫(Smith et al. 1998),為9-11歲兒童的英語歷時筆語語料。這些歷時口筆語語料多用于研究兒童的語言習(xí)得及發(fā)展(Le Normand et al. 2013;Ravid et al. 2008;范莉 2007)。此外,還有一些為特定研究目的而建設(shè)的兒童語料庫。例如,CMU(Eskenazi et al. 1997)、CNG(Hamalainen et al. 2013)和Jasmin(Cucchiarini & Van hamme 2013)語料庫分別收錄英語、葡萄牙語和荷蘭語的兒童口語,以改進語音識別系統(tǒng);Gabania et al.(2011)自建兒童口語語料,以輔助診斷語言障礙;趙守輝、劉永兵(2007)建立了新加坡華族兒童語料庫,以服務(wù)于國家語言規(guī)劃政策。

        兒童輸入語料庫,主要收集面向兒童的語言,如兒童文學(xué)、教材等。Sealey &Thompson(2004;2007)從BNC語料庫中抽取了40篇兒童文學(xué),建成小型CLLIP語料庫,并將其分別用于課堂語言教學(xué)和文學(xué)特征分析。Johns et al.(2008)將兒童文學(xué)Swallows and Amazons建成小型語料庫,讓臺灣學(xué)生通過解讀索引行來學(xué)習(xí)詞匯,取得了較好的教學(xué)效果。目前規(guī)模較大的輸入型語料庫較少,英語中僅有牛津兒童語料庫OCC(Wild et al. 2013)。該庫包含兒童文學(xué)和非文學(xué)兩部分輸入語料,以及部分兒童輸出的筆語語料,庫容約3,000萬詞。

        總的來講,兒童輸出語料庫數(shù)量較多,相關(guān)研究也較為豐富,僅基于CHILDES語料庫的語言習(xí)得研究就多達數(shù)千篇1。相比之下,兒童輸入語料庫的數(shù)量較少,相關(guān)研究也寥寥無幾。成人語料庫已證實其在語言教學(xué)和數(shù)據(jù)驅(qū)動學(xué)習(xí)中的重要作用,但其語料不一定符合兒童學(xué)習(xí)者的認知能力、價值觀念和興趣趨向。已有的兒童輸出語料庫主要為尚在發(fā)展中的兒童語言,也不適合作為例句教給學(xué)習(xí)者。因此,建立一個由成人所寫的、面向兒童的輸入語料庫,既能保證語料的合理性,又能保證內(nèi)容的貼合性,對兒童語言學(xué)習(xí)和教學(xué)有一定的意義。然而,已有OCC語料庫僅供牛津出版社編纂詞典,并未公開發(fā)行。其輸入語料中,小說文學(xué)約占80%,略顯單一,且未包含兒童經(jīng)常接觸到的影視動畫等口語語料?;谝陨显?,本研究試圖建設(shè)一個采樣平衡、對研究人員開放的兒童讀物及視聽材料英語語料庫,即Preschoolers- and Teenagers-oriented Texts in English語料庫,簡稱PATTIE語料庫。

        2. PATTIE語料庫的設(shè)計與建設(shè)

        2.1 語料構(gòu)成

        本語料庫主要收集由成人所寫的、面向4歲至10多歲兒童的英文正式出版或發(fā)行作品2。語料總庫容約為200萬詞3,包括36個文本文件,分屬5種體裁:兒童文學(xué)、小學(xué)教材、科普讀物、報刊新聞、少兒動畫。詳見表1。

        兒童文學(xué)包括當(dāng)代文學(xué)和經(jīng)典文學(xué)兩部分。其中,當(dāng)代文學(xué)主要收集1990年之后出版的暢銷作品或獲獎書籍,包括《哈利波特》系列、《神奇樹屋》系列、《穿條紋衣服的男孩》和《愛德華的奇妙之旅》等7部作品,共約49萬字,占總庫容24.75%。經(jīng)典文學(xué)主要收集1960年之前出版的,至今仍然被廣泛閱讀的經(jīng)典作品,如《愛麗絲漫游仙境》、《夏洛的網(wǎng)》、《小王子》、《綠野仙蹤》等8部作品,共約43萬字,占總庫容21.36%。

        小學(xué)教材主要收集近年來英、美兩國主流小學(xué)教材或讀物,包括《加州語文》、《牛津閱讀樹》等4套教材,共約36萬字,占總庫容17.88%。

        科普讀物收集了暢銷科普圖畫書《神奇校車》,以及著名兒童出版社DK和Scott Foresman的兩套科學(xué)教材,共約8萬字,占總庫容4.19%。

        報刊新聞主要收集美國《時代周刊兒童版》近兩年的新聞報道,涉及娛樂、體育、健康、科技、國內(nèi)、國外6大方面,共約10萬字,占總庫容5.36%。

        少兒動畫主要收集近20年收視率較高的、或者獲得較多獎項的動畫片劇本,包括“降世神通”、“數(shù)字精靈”等8部動畫,共約53萬字,占總庫容26.46%。

        總體來講,本庫涵蓋4歲至10多歲兒童的大部分語言輸入形式,并將其在兒童日常生活中的實際比例考慮在內(nèi)。例如,文學(xué)、教材及動畫所占比例可能較大,而科普和新聞的比例可能略小。就來源地域而言,本庫優(yōu)先選用英國與美國的原始語料,僅有《伊索寓言》、《安徒生童話》和《格林童話》這3部作品屬于譯本語料。且總體取樣較為平均,英式英語和美式英語幾乎各占一半。就出版或發(fā)行時間而言,約80%語料取自1990年以后,較能體現(xiàn)當(dāng)代英語語言的特色。

        表1 . 兒童英語輸入語料庫PATTIE的構(gòu)成

        (續(xù)表)

        2.2 語料采集、整理與標(biāo)注

        本庫語料來源主要有4種形式:電子書、紙質(zhì)書、網(wǎng)頁、字幕文件。針對不同的形式,有以下不同的采集方式:1)文學(xué)作品主要為pdf格式的電子書,需要先使用Adobe Acrobat Pro軟件將頁眉頁腳裁剪掉,僅保留正文部分,并另存為Word文檔。再從Word文檔復(fù)制粘貼到純文本文件中4,并保存為ANSI編碼格式。2)小學(xué)教材和科普讀物主要為紙質(zhì)書,需要先將書籍掃描為pdf格式的電子書,然后使用ABBYY FineReader軟件進行OCR文字識別。經(jīng)人工核對后,另存為純文檔。3)報刊新聞主要來源于網(wǎng)頁,需要從網(wǎng)頁中將新聞?wù)膹?fù)制粘貼到純文本文件中,并刪掉廣告等無關(guān)信息。4)少兒動畫主要取自于srt格式的字幕文件,需要先編寫正則表達式,將時間軸等無關(guān)信息刪除,僅保留動畫字幕文字正文,再將所有字幕文件合并另存為純文本文件。

        語料采集完畢后,需要進行格式整理。在PowerGREP軟件中執(zhí)行Text Cleaning Library.pgl操作5,通過“噪音刪除”、“斷行修正”、“文本清理”和“精益求精”4個步驟,可解決非正常斷行、中文或全角字符、多余空格或空行等多項問題。

        語料整理完畢之后,即得到生文本語料庫(PATTIE_RAW)。使用CLAWS(C7編碼)對生語料進行POS詞性標(biāo)注,即得到標(biāo)注過詞性的語料庫(PATTIE_POS)。根據(jù)表1為本語料庫標(biāo)注以下元信息:類別(genre)、出版時間(time)和區(qū)域(region),并單獨存儲為制表符分隔的(tab-delimited)文本文件。

        2.3 在線檢索平臺

        本語料庫可在BFSU CQPweb進行在線檢索6。該平臺既可對單詞、短語進行簡單查詢,也可使用正則表達式對詞性賦碼、類聯(lián)接等形式進行復(fù)雜檢索,還可實現(xiàn)生成詞表、計算主題詞等多項功能(許家金、吳良平 2014)。根據(jù)標(biāo)注的元信息,用戶可選定一個或多個限制條件(如1990年之后英國出版的兒童文學(xué)),對本庫中部分語料進行針對性檢索。

        3. 兒童英語輸入語的特點

        建立專門面向兒童的輸入語料庫,不僅由于其內(nèi)容更符合兒童的認知水平和觀念興趣,也是由于其語言使用與面向成人的語料明顯不同。為了更好地挖掘兒童英語輸入語的特點,本研究專門組建了400萬庫容的參照語料庫,包括布朗家族的6個語料庫(Brown、LOB、Frown、FLOB、Crown、LOB)中的小說部分,以及其中Crown和CLOB兩庫的一般、學(xué)術(shù)和新聞部分,并自建了“老友記”和“摩登家庭”兩部情景劇的語料,以保證參照語料在內(nèi)容、結(jié)構(gòu)與比例上均與本語料庫具有可比性(見表2)。并且,布朗家族語料庫涵蓋英、美兩個地域,時間跨度從上世紀(jì)60年代至今,其中最新的Crown和CLOB兩庫皆為2009年左右的語料(Xu & Liang 2013),因此在時間和地域上也與本語料庫相似。具體對比結(jié)果如下:

        就語料難度而言,面向兒童的語料整體難度低于成人語料。這主要表現(xiàn)在以下幾方面:1)兒童語料的標(biāo)準(zhǔn)類形比(STTR,每千詞)為38.13,成人語料為43.71,這說明兒童語料的詞匯豐富度不及成人語料。2)兒童語料的平均詞長和句長均低于成人語料。尤其是平均句長,兒童語料僅為8.59詞,約為成人句長的一半,句式相對短小簡單。3)使用Range軟件得到GSL詞表分布情況,其中第三級和詞表外詞匯對文本難度有較好的判別能力(梁茂成等 2010:138)。表2可見,兒童語料的三級詞匯占0.78%,詞表外詞匯占11.63%,分別低于成人語料的3.38%和12.76%,這說明兒童語料中的詞匯更加容易一些。

        就常用詞語而言,兒童語料的詞語意義更具體,更物理化、可見化。成人語料的詞語意義更抽象,更心理化、社會化。對比兩種語料的關(guān)鍵詞發(fā)現(xiàn):1)兒童語料更常使用實體名詞,如親人(daddy、father、mum(my)、grandpa、granny、grandma、uncle)、動物(dragon、rabbit、lion、duck、dog、dinosaur、bird、mouse、fox、frog)、自然(tree、forest、flower、water、snow、moon、sun、sky、wind、rock、sea、mountain)、食品(food、potato、cake、chocolate、apple)、玩具(toy、wand、rope、sword、kite)等,其所指較具體。而成人語料更常使用抽象名詞,如表示政治(administration、government、election)、經(jīng)濟(economy、finance、market、insurance、budget、income、fund)、社會文化(society、culture、religion、media、law)、關(guān)系(relationship、marriage)等詞,其意義較抽象。2)兒童語料更常使用身體動詞,如看(look、see)、聽(hear)、說(said、ask、yell、shout、squeak、whisper、sing)、哭笑(cry、laugh、giggle)、四肢動作(run、jump、hop、climb、ride、pull、grab)等。這些均屬物理動作,具有可視性。而成人語料更常使用心理動詞(know、consider)或者名物化了的心理活動(analysis、decision、assessment)來表示動作。3)兒童語料的常用形容詞多表示物理屬性,如形狀(little、big、giant、long)、顏色(red、green、blue)、溫濕(warm、cold、wet)、音量(loud、quiet)等。而成人語料的常用形容詞多表示社會屬性,如政治經(jīng)濟(financial、commercial、political)、社會文化(religious、married、legal)、區(qū)域性(local、global、international、British)、公開性(public、private)等。

        就時態(tài)和句型而言,兒童語料常用過去時態(tài)和疑問句,成人語料常用完成時態(tài)、進行時態(tài)和從句。對比兩種語料的POS碼發(fā)現(xiàn):1)兒童語料更常使用動詞過去式(VVD)、動詞原形(VVO)、動詞不定式(VVI)以及情態(tài)動詞(VM)。而成人語料更常使用動詞過去分詞(VVN)、現(xiàn)在分詞(VVG)和第三人稱單數(shù)形式(VVZ)。2)兒童語料更常使用疑問副詞(RRQ),如where、how。而成人語料更常使用從屬連詞(CS),如that、if、whether、because、although等。使用從句也許是成人語料句長更長的原因之一。

        表2 . 參照語料庫的構(gòu)成及其與本庫的對比

        4. 結(jié)語

        本文主要介紹了兒童英語讀物及視聽材料語料庫PATTIE的設(shè)計與建設(shè),并初步探討了兒童英語輸入語言的特點。PATTIE語料庫主要收集由成人所寫的、面向4歲到10多歲兒童的英文正式出版或發(fā)行作品,包括兒童文學(xué)、小學(xué)教材、科普讀物、報刊新聞和少兒動畫5種體裁,涉及英國和美國不同地域,取樣結(jié)構(gòu)較為平衡。語料庫經(jīng)過詞性標(biāo)注和元信息標(biāo)注,可在BFSU CQPweb平臺在線檢索。與面向成人的語料相比,兒童輸入語料不僅在內(nèi)容上更符合兒童的認知能力、價值觀念和興趣趨向,而且在語言使用上具有鮮明特點,對兒童語言學(xué)習(xí)和教學(xué)有更多的實用價值。限于時間與精力,目前PATTIE語料庫的庫容較小,后續(xù)仍需作進一步的擴充。本語料庫還可與兒童輸出語料庫、國內(nèi)英語教材庫進行交叉對比研究。

        注釋

        1. 根據(jù)CHILDES網(wǎng)站數(shù)據(jù)(http://talkbank.org/info/usage/childesbib.pdf),截止到2008年,基于該庫發(fā)表的相關(guān)研究共3,104篇。

        2. 本庫所收語料的版權(quán)歸原出版社或發(fā)行方所有。本庫為免費在線檢索平臺,不提供全文查看或下載。僅供學(xué)術(shù)研究或?qū)W習(xí)教學(xué)使用,請勿用于任何商業(yè)用途。

        3. 本文庫容采用“[A-Za-z0-9-]+”的計算方法。

        4. 不直接另存為純文本,是為了避免行末出現(xiàn)多余換行符。

        5. Text Cleaning Library.pgl是由筆者編寫的文本清理代碼,需在PowerGREP軟件中執(zhí)行,可從http://www.bfsu-corpus.org/channels/tools下載。

        6. 本庫在線檢索網(wǎng)址為http://124.193.83.252/cqp/pattie/,用戶名和密碼均為“test”。

        Braine, M. 1963. The ontogeny of English phrase structure: The first phase [J]. Language 39: 1-13.

        Cucchiarini, C. & H. Van hamme. 2013. The JASMIN speech corpus: Recordings of children,non-natives and elderly people [A]. In P. Spyns & J. Odijk (eds.). Essential Speech and Language Technology for Dutch [C]. Berlin: Springer. 43-59.

        Eskenazi, M., J. Mostow & D. Graff. 1997. The CMU Kids Corpus LDC97S63 [OL] https://catalog.ldc.upenn.edu/LDC97S63 (accessed 09/02/2015). Philadelphia: Linguistic Data Consortium.

        Fries, C. & A. Traver. 1940. English Word List: A Study of their Adaptability and Instruction [M].Washington, D.C.: American Council of Education.

        Gabania, K., T. Soloriob, Y. Liua, K. Hassanalia & C. Dollaghanc. 2011. Exploring a corpus-based approach for detecting language impairment in monolingual English-speaking children [J].Artificial Intelligence in Medicine 53: 161-170.

        Hamalainen, A., S. Rodrigues, A. Judice, S. M. Silva, A. Calado, F. M. Pinto & M. S. Dias.2013. The CNG corpus of European Portuguese children’s speech [A]. In I. Habernal & V.Matousek (eds.). Text, Speech, and Dialogue [C]. Berlin: Springer. 544-551.

        Johns, T., H. Lee & L. Wang. 2008. Integrating corpus-based CALL programs in teaching English through children’s literature [J]. Computer Assisted Language Learning 21: 483-506.

        Le Normand, M., I. Moreno-Torres, C. Parisse & G. Dellatolas. 2013. How do children acquire early grammar and build multiword utterances? A corpus study of French children aged 2 to 4 [J]. Child Development 84: 647-661.

        MacWhinney, B. & C. Snow. 1985. The child language data exchange system [J]. Journal of Child Language 12: 271-296.

        McCarthy, D. 1954. Language development in children [A]. In L. Carmichael (ed.). Manual of Child Psychology [C]. New York: Wiley. 492-630.

        Preyer, W. 1889. The Mind of a Child [M]. New York: Appleton.

        Ravid, D., W. Dressler, B. Nir-Sagiv, K. Korecky-Kroll, A. Souman, K. Rehfelt. 2008. Core morphology in child directed speech: Crosslinguistic corpus analyses of noun plurals[A]. In H. Behrens (ed.). Corpora in Language Acquisition Research: History, Methods,Perspectives [C]. Amsterdam: Benjamins. 25-60.

        Sealey, A. & P. Thompson. 2004. ‘What do you call the dull words?’ Primary school children using corpus-based approaches to learn about language [J]. English in Education 38: 80-91.

        Smith, N., A. McEnery & R. Ivanic. 1998. Issues in transcribing a corpus of children's handwritten projects [J]. Literary and Linguistic Computing 13: 217-225.

        Stern, C. & W. Stern. 1907. Die Kindersprache: Eine psychologische und sprachtheoretische Untersuchung [M]. Leipzig: Barth.

        Thompson, P. & A. Sealey. 2007. Through children’s eyes? Corpus evidence of the features of children’s literature [J]. International Journal of Corpus Linguistics 12: 1-23.

        Thorndike, E. 1921. The Teacher’s Word Book [M]. New York: Columbia University.

        Wild, K., A. Kilgarriff & D. Tugwell. 2013. The Oxford Children’s Corpus: Using a children’scorpus in lexicography [J]. International Journal of Lexicography 26(2): 190-218.

        Xu, J. & M. Liang. 2013. A tale of two C’s: Comparing English varieties with Crown and CLOB(The 2009 Brown family corpora) [J]. ICAME Journal 37: 175-183.

        陳鶴琴,2014,語體文應(yīng)用字匯[J],《語料庫語言學(xué)》(1):94-102。

        范 莉,2007,兒童對普通話中否定詞的早期獲得 [J],《現(xiàn)代外語》(2):144-154。

        梁茂成、李文中、許家金,2010,《語料庫應(yīng)用教程》[M]。北京:外語教學(xué)與研究出版社。

        劉 霞、許家金、劉 磊,2014,基于CiteSpace的國內(nèi)語料庫語言學(xué)研究概述(1998-2013)[J],《語料庫語言學(xué)》(1):69-77。

        許家金、吳良平,2014,基于網(wǎng)絡(luò)的第四代語料庫分析工具CQPweb及應(yīng)用實例 [J],《外語電化教學(xué)》(5):10-15。

        趙守輝、劉永兵,2007,新加坡華族學(xué)前兒童口語語料庫的生成 [J],《世界漢語教學(xué)》(2):98-105。

        附錄一 PATTIE常用關(guān)鍵詞表(前100)

        (續(xù)表)

        (續(xù)表)

        附錄二 PATTIE常用詞組列表(前50)

        通信地址:100037 北京市外交學(xué)院英語系

        猜你喜歡
        庫容語料兒童文學(xué)
        第四屆福建省啟明兒童文學(xué)雙年榜揭榜
        海峽姐妹(2019年11期)2019-12-23 08:42:20
        第三屆福建省啟明兒童文學(xué)雙年榜揭榜
        海峽姐妹(2018年1期)2018-04-12 06:44:32
        唯童年不可辜負
        ——兩岸兒童文學(xué)之春天的對話
        創(chuàng)作(2017年3期)2017-06-19 16:41:20
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        全省已建成水庫總庫容
        月潭水庫防洪庫容的確定
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        零庫容梯級電站聯(lián)合調(diào)控策略研究
        國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
        中文字幕精品久久天堂一区| 夜夜爽夜夜叫夜夜高潮| 国产精品久久久久一区二区三区 | 高清无码精品一区二区三区| 国产一级r片内射免费视频| 日本一二三区在线不卡| 国产在线播放一区二区不卡 | 人妻激情另类乱人伦人妻| 中文乱码人妻系列一区二区| 香蕉久久夜色精品国产| 91国内偷拍精品对白| 国产欧美精品aaaaaa片| 欧美黑人群一交| 国产成人精品日本亚洲18| 日本黄色一区二区三区视频| 国产亚洲中文字幕一区| 日本真人边吃奶边做爽电影| 久久国内精品自在自线图片| 麻豆久久五月国产综合| 国产精品一区二区久久毛片| 久久精品国产亚洲av久五月天| av天堂午夜精品一区| 久久露脸国产精品| 国产熟女精品一区二区三区| 久久国产女同一区二区| 后入丝袜美腿在线观看| 免费a级毛片无码av| 欧美做受视频播放| 亚洲二区三区在线播放| 丝袜美腿福利视频在线| 国产av一区二区精品凹凸| 久久精品国内一区二区三区| 手机AV片在线| 国产91精品一区二区麻豆亚洲| 中文字幕人妻在线中字| 亚洲精品无码乱码成人| 男人深夜影院无码观看| 一区二区三区观看视频在线| 国产麻豆剧果冻传媒一区| 国产大学生粉嫩无套流白浆| 久久久调教亚洲|