亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        整合型學習者語料庫平臺的規(guī)劃與實現(xiàn)

        2009-06-02 06:32:18毛文偉
        現(xiàn)代教育技術 2009年9期

        毛文偉

        【摘要】建立學習者語料庫能為二語習得等方面的研究提供新的思路和方法。但是,迄今為止的語料庫建設由于缺乏統(tǒng)一的平臺支持,存在著協(xié)同困難、重復勞動多以及升級、版權保護難等問題。通過構建整合型學習者語料庫建設應用平臺則能夠極大地提高建設的效率和效果。

        【關鍵詞】學習者語料庫;外語教學;中介語;B/S架構;賦碼

        一 序言

        自世界上第一個機讀英語語料庫——布朗語料庫(Brown)創(chuàng)建以來,語料庫在語法、詞匯、文體等不同領域逐漸得到廣泛應用。以推進二語習得或中介語研究為目的的學習者語料庫建設雖稍顯滯后,但近年來也不斷取得新的成果。朗文學習者語料庫LLC(Longman Learners Corpus)、學習者英語國際語料庫ICLE(International Corpus of Learner English) 以及香港科技大學語料庫HKUST (Hong Kong University of Science and Technology Corpus)都處在不斷完善和發(fā)展的階段[1]。通過國內(nèi)學者的多年努力,中國學習者英語語料庫CLEC(Chinese Learner English Corpus)、中國大學學習者英語口語語料庫COLSEC(College Learners Spoken English Corpus)和英語專業(yè)學習者語料庫CEM(Corpus for English Majors)也先后建成,對我國二語習得研究和教學改革起到了巨大的推動作用,成為研究外語教學規(guī)律不可或缺的基本素材。

        但是,這些語料庫在開發(fā)過程中都沒有特定軟件平臺的支撐1。數(shù)據(jù)由建設者分頭輸入、處理后再匯總在一起。盡管入門門檻較低,發(fā)布后也沒有日常運營開支,但存在著協(xié)同困難、重復勞動多、升級繁瑣以及版權保護方面的難題。隨著因特網(wǎng)技術的不斷發(fā)展,軟件平臺的體系結構從過去的單用戶發(fā)展到今天的C/S(客戶機/服務器)和B/S(瀏覽器/服務器)架構。這些平臺體系的出現(xiàn)為語料庫建設提供了嶄新的技術手段。在很大程度上,避免了數(shù)據(jù)分發(fā)、匯總、格式統(tǒng)一以及升級過程中的重復勞動,提高了建庫效率,降低了出錯概率。本文擬以中國日語學習者語料庫CJLC(Chinese Japanese Learners Corpus)的構建為例,探討整和型語料庫建設應用平臺的方案設計及實現(xiàn)。

        二 單用戶系統(tǒng)開發(fā)模式的局限

        如上所述,現(xiàn)有的語料庫多為分散開發(fā)模式。建設者只須具備基本的字處理軟件使用能力即可參與開發(fā),入門門檻不高。發(fā)布后也無需日常運營開支。但是,這種開發(fā)方式也存在著明顯不足。首先,語料庫建設是一項龐大的工程,為了保證語料的質(zhì)量和開發(fā)效率,需要多人協(xié)同進行。由于缺乏平臺支撐,在輸入、校對、標注、修正等各個階段,都必須反復進行語料的分發(fā)和匯總,重復勞動多,也容易出現(xiàn)差錯。其次,為了提高語料的可用性,還需要對語料進行標注。但是,僅憑字處理軟件或Dreamweaver等HTML編輯工具,很難對語料進行深度標注。在賦碼過程中,所有錯誤碼和數(shù)據(jù)標簽都須手工輸入,既不直觀,加重了標注者的負擔,又提高了出錯的幾率。楊惠中等[2]指出,在中國大學學習者英語口語語料庫(COLSEC)素材的匯總過程中,觀察到了文本標簽嵌套錯誤、標簽拼寫錯誤、標簽設定不一致、全角半角不一致、錯誤碼設置過多等諸多問題。這些都需要人工校對加以修正。而在發(fā)布之后,由于語料庫分散在不同用戶手中,使得開發(fā)者難以迅速、高效地對語料進行統(tǒng)一升級和擴充,也不利于版權保護。

        運用基于B/S架構的整合型語料庫開發(fā)應用平臺2以有效地解決這些問題,提高語料庫開發(fā)效率。在B/S結構平臺的支撐下,用戶界面通過IE等WWW瀏覽器來實現(xiàn),數(shù)據(jù)統(tǒng)一存儲在服務器端,主要事務邏輯也在服務器端完成。由此簡化了建庫流程,實現(xiàn)了數(shù)據(jù)的自動分發(fā)和匯總,系統(tǒng)升級更為快捷方便。同時,由于支持Unicode,便于實現(xiàn)多語言界面,也給語料庫的建設者和使用者帶來了很多方便。

        三 中國日語學習者語料庫(CJLC)的總體規(guī)劃

        中國日語學習者語料庫(CJLC)為國家社會科學基金項目“中國日語學習者語料庫的建設與研究”的建設內(nèi)容之一,于2008年6月啟動。該語料庫以反映中國日語學習者的實際學習情況為目標。通過全面、系統(tǒng)地收集我國高校日語專業(yè)學生的語料,客觀、翔實、準確地反映我國日語專業(yè)學生的語言習得和發(fā)展狀況。它的建成將填補國內(nèi)外在這一領域的空白,為我國高校日語專業(yè)教學大綱、課程設置、教學內(nèi)容、教學標準、教學方法、詞匯表的制定和完善以及教學評估提供客觀依據(jù),并有力地推動兩語研究的發(fā)展。

        本語料庫平臺分為建庫和應用兩大子系統(tǒng)。各下屬模塊的具體功能如下表1所示。每個模塊都具有不同界面,需要特定權限方能顯示和進入。系統(tǒng)管理員根據(jù)實際需要為用戶靈活分配權限,通過網(wǎng)絡完成輸入、標注、校對、檢索和管理等各項工作。由于數(shù)據(jù)庫存在于服務器端,可以實現(xiàn)多用戶共享,所以數(shù)據(jù)的輸入和標注等不同階段的工作可以同步進行,互不干擾。當然,對于某一特定語料來說,還是需要按照一定流程完成輸入、標注等一系列工作(詳見圖1)。

        在互聯(lián)網(wǎng)應用的初期,開發(fā)者多使用C或Perl等CGI語言進行Web開發(fā)?,F(xiàn)在,已有C#/ASP.NET、JSP和PHP5等多種方案可供選擇。本課題組選擇了AMP(Apache/MySQL/PHP)解決方案,即以PHP5編寫語料庫開發(fā)平臺,MySQL作為數(shù)據(jù)庫,Apache為Web服務器發(fā)布軟件。這些都是遵循GPL的開放源碼軟件,不必繳納軟件使用費。這在很大程度上降低了開發(fā)費用。同時,又擁有豐富的資源可供使用、修改或重組。在成本和可用資源方面,勝過了C#/ASP.NET/IIS解決方案。

        永久免费看黄网站性色| 久久精品亚州中文字幕| 伊人加勒比在线观看视频| 狠狠的干性视频| 亚洲另类精品无码专区| 亚洲天堂资源网| 最新亚洲无码网站| 偷柏自拍亚洲综合在线| 日本一级三级在线观看| 美女露出粉嫩小奶头在视频18禁| 特级精品毛片免费观看| 国产成人亚洲综合无码| 亚洲综合色区无码专区| 国产精品亚洲在钱视频| 加勒比日韩视频在线观看 | 无码h黄肉3d动漫在线观看| 国产精品乱码一区二区三区| 国产又色又爽无遮挡免费| 久久噜噜噜| 国产大学生自拍三级视频| 黑人老外3p爽粗大免费看视频| 国产精品女人呻吟在线观看| 国内精品一区二区三区| 婷婷精品国产亚洲av| 国产伦一区二区三区色一情| 久久综合狠狠色综合伊人| 精品一精品国产一级毛片| 中文字幕亚洲中文第一| 极品少妇hdxx麻豆hdxx| 无套内射无矿码免费看黄| 亚洲欧洲日产国码久在线观看| 日韩色久悠悠婷婷综合| 日韩精品亚洲一区二区| 欧洲人妻丰满av无码久久不卡| 无码国产精品一区二区免费97| 日本女同伦理片在线观看| 日本免费精品免费视频| 成人中文乱幕日产无线码| 久久婷婷综合色丁香五月| 狼人av在线免费观看| 中文字幕无码乱人伦|