亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語(yǔ)國(guó)際教育漢語(yǔ)文本分級(jí)及難度測(cè)查對(duì)比研究*

        2020-11-25 02:21:22王鴻濱
        關(guān)鍵詞:測(cè)查分詞分級(jí)

        王鴻濱

        (北京語(yǔ)言大學(xué) 漢語(yǔ)國(guó)際教育研究院/漢語(yǔ)國(guó)際教育學(xué)部,北京 100083)

        一、引 言

        閱讀和分級(jí)閱讀(Leveled Reading)(1)“分級(jí)閱讀”還有其他的翻譯方法,例如Graded Reading、Classification of Reading、Level Reading等。是二語(yǔ)習(xí)得中閱讀能力培養(yǎng)的重要部分,目前已在國(guó)內(nèi)外英語(yǔ)閱讀教學(xué)中得到了廣泛應(yīng)用,從閱讀推廣實(shí)踐的最終成效來(lái)看,國(guó)外閱讀推廣早已蔚然成風(fēng),歐美等發(fā)達(dá)國(guó)家已在不同層面、通過不同方式,培育社會(huì)閱讀習(xí)慣、推動(dòng)國(guó)民閱讀并形成了諸如“閱讀優(yōu)先”“閱讀起跑線計(jì)劃”“公共圖書計(jì)劃”“分級(jí)閱讀”等影響廣泛的閱讀品牌。此外,技術(shù)積累和開發(fā)功不可沒。例如被廣泛使用的藍(lán)思分級(jí)標(biāo)準(zhǔn)已經(jīng)有30年積累,隨著信息網(wǎng)絡(luò)以及各類智慧平臺(tái)的出現(xiàn),目前出現(xiàn)了一批運(yùn)用藍(lán)思分級(jí)標(biāo)準(zhǔn)致力于用數(shù)據(jù)驅(qū)動(dòng)教育發(fā)展,開拓閱讀領(lǐng)域的公司。例如Meta Metrics公司成立了互動(dòng)式的“藍(lán)思專業(yè)發(fā)展工作坊”(Lexile Professional development workshops) ,根據(jù)美國(guó)全國(guó)教學(xué)大綱 Common Core State標(biāo)準(zhǔn)和藍(lán)思分級(jí)之間的關(guān)系,計(jì)算了課內(nèi)教材的文本難度(在閱讀教學(xué)上將文本難度和學(xué)生能力進(jìn)行75%理解程度上的匹配),學(xué)生在獲取自己的閱讀能力分值后,在網(wǎng)絡(luò)系統(tǒng)內(nèi)輸入分值,使用“覓書” (Find a Book) 搜索引擎,會(huì)產(chǎn)生難度呈降序排列的書單以供他們選擇。Meta Metrics公司還與教育部門及考試中心合作創(chuàng)建了評(píng)價(jià)體系,與PISA、PIRLS和NAEP等閱讀測(cè)試建立了合作關(guān)系,試題發(fā)布和施測(cè)之前,閱讀文章和閱讀理解題目都要經(jīng)過藍(lán)思分值測(cè)算,學(xué)生的閱讀理解得分也可轉(zhuǎn)換為藍(lán)思分值和其他的閱讀分級(jí)的分值。(2)羅德紅,余婧.美國(guó)藍(lán)思分級(jí)閱讀框架:差異化閱讀教學(xué)和測(cè)評(píng)工具[J].現(xiàn)代中小學(xué)教育,2013,(10).Renaissance公司,目前有用于測(cè)評(píng)的Star Assessment,通過測(cè)試可以將孩子的閱讀能力進(jìn)行量化;還有承接測(cè)評(píng)產(chǎn)品的Accelerated Reader,通過他們自己的一套分級(jí)體系測(cè)出文本閱讀難度,與之前測(cè)評(píng)的學(xué)生閱讀能力匹配,保證學(xué)生讀到最適合自己的文字。Newsela主要研發(fā)新聞分級(jí)閱讀,其底層標(biāo)準(zhǔn)仍然是藍(lán)思分級(jí),核心技術(shù)點(diǎn)是有一部分機(jī)器輔助新聞改寫,例如同樣的主題以不同的閱讀難度提供給相應(yīng)理解能力的孩子;Lightsail則是致力于iPad 端的個(gè)性化圖書館,(3)Lightsail目前在中國(guó)的業(yè)務(wù)通常是跟相對(duì)高端的輔導(dǎo)班以及國(guó)際學(xué)校合作?;谒{(lán)思分級(jí),可以在線看書。

        國(guó)外有眾多的分級(jí)閱讀學(xué)習(xí)資源網(wǎng)站,其推薦的分級(jí)書目多為開放式,各分級(jí)體系本身不對(duì)其所評(píng)估定級(jí)的圖書數(shù)量做出限制,推薦書目不斷更新,截至2017年3月,Lexile網(wǎng)站已經(jīng)為267520部圖書進(jìn)行了難度測(cè)量,且仍在每月更新;GRL已對(duì)超過5萬(wàn)種圖書進(jìn)行了分級(jí);再如美國(guó)1萬(wàn)多所學(xué)校采用的分級(jí)閱讀學(xué)習(xí)網(wǎng)站:Raz-Kids和Reading A-Z(Raz-Kids plus),(4)www.raz-kids.com是美國(guó)著名的付費(fèi)網(wǎng)站www.learninga-z.com旗下產(chǎn)品之一,作為輔助教師指導(dǎo)學(xué)生的課外閱讀工具。Raz內(nèi)容涉及科學(xué)、生物、歷史等知識(shí),題材包含經(jīng)典童話、寓言傳說(shuō)、數(shù)學(xué)啟蒙、英文美文、日常生活故事、還有識(shí)物認(rèn)知、自然地理、世界人文等學(xué)科知識(shí)。其閱讀內(nèi)容的難易程度是根據(jù)全文詞匯數(shù)、高頻詞詞匯數(shù)與比例、低頻詞詞匯數(shù)與比例、句子長(zhǎng)度、句子復(fù)雜度、句式、插圖信息量、思想深度、主題等多個(gè)角度,將整個(gè)閱讀體系從零基礎(chǔ) aa(看圖認(rèn)單詞)至z(小學(xué)5年級(jí))分為27個(gè)級(jí)別, 對(duì)應(yīng)美國(guó)3~12歲的孩子。(5)據(jù)統(tǒng)計(jì),美國(guó)有80%的公立學(xué)校將它作為首選教材;在北美(美國(guó)/加拿大),有超過50%的小學(xué)都在使用它作為英語(yǔ)閱讀課教材。這種高效的分級(jí)方法是基于成熟的分級(jí)標(biāo)準(zhǔn)體系及讀物難易度測(cè)查的計(jì)算機(jī)技術(shù)。相比英語(yǔ)國(guó)家成熟的閱讀體系、“海量”的分級(jí)讀物,目前我國(guó)漢語(yǔ)分級(jí)讀物的建設(shè)主要為各大出版社基于分級(jí)閱讀理念編寫的分級(jí)讀物,利用這種方式開展分級(jí)閱讀,由于讀物編寫、出版周期較長(zhǎng),也就造成了分級(jí)讀物數(shù)量上的不足。由于缺乏可行的讀物難易度評(píng)價(jià)體系,我國(guó)分級(jí)閱讀推薦的書目則較少,且多為封閉性的書單。例如,2011年,“新閱讀研究所”組織專家研制的面向我國(guó)中小學(xué)生的推薦閱讀書目表——《中國(guó)小學(xué)生基礎(chǔ)閱讀書目》共推薦100種,2015年“親近母語(yǔ)研究院”(Hug Chinese)發(fā)布了小學(xué)階段分級(jí)閱讀書目《中學(xué)生閱讀行動(dòng)指南》共推薦153種,2017年,北京語(yǔ)言大學(xué)出版社推出的漢語(yǔ)國(guó)際教育領(lǐng)域首部《留學(xué)生漢語(yǔ)分級(jí)閱讀指南》共推薦基本書目172種,擴(kuò)展書目91種,我國(guó)現(xiàn)有的漢語(yǔ)讀物根本不能滿足學(xué)習(xí)者的需求,為學(xué)習(xí)者推薦的書目不足,將直接導(dǎo)致可供學(xué)習(xí)者選擇的分級(jí)讀物數(shù)量不足。

        隨著科技的發(fā)展,漢語(yǔ)國(guó)際教育優(yōu)質(zhì)學(xué)習(xí)資源和專利產(chǎn)品層出不窮,特別是“互聯(lián)網(wǎng)+”的國(guó)際漢語(yǔ)教學(xué)資源與智慧教育平臺(tái)因其卓越的功能,其成果受到國(guó)際漢語(yǔ)教育者的歡迎。在漢語(yǔ)國(guó)際教育的閱讀和閱讀教學(xué)領(lǐng)域,針對(duì)通用型漢語(yǔ)國(guó)際教育用學(xué)習(xí)字源和語(yǔ)料,已有的且開發(fā)較為完善的智能分析工具(分級(jí)及難度評(píng)價(jià)系統(tǒng))有3個(gè)——“中文助教TM”“國(guó)際漢語(yǔ)教材編寫指南”和“漢語(yǔ)文本指難針”,而在商務(wù)漢語(yǔ)閱讀教學(xué)中,分級(jí)閱讀應(yīng)用還相對(duì)較少,建立一套基于文本難易度,適用于漢語(yǔ)國(guó)際教育用商務(wù)漢語(yǔ)分級(jí)體系,能夠?yàn)椴煌降膶W(xué)習(xí)者推薦符合其水平的讀物,幫助學(xué)習(xí)者高效提高閱讀能力。本文將以經(jīng)貿(mào)類材料為例,從特點(diǎn)、指標(biāo)及依據(jù)、使用及實(shí)測(cè)等方面對(duì)“國(guó)際漢語(yǔ)教材編寫指南”和“漢語(yǔ)文本指難針”這兩套漢語(yǔ)文本難度測(cè)查系統(tǒng)進(jìn)行對(duì)比分析,為商務(wù)漢語(yǔ)分級(jí)體系的建立提供一定參考。

        二、漢語(yǔ)國(guó)際教育學(xué)習(xí)資源概述

        (一)漢語(yǔ)國(guó)際教育學(xué)習(xí)資源軟件和平臺(tái)

        “中文助教”(Chinese TATM),是由美國(guó)斯坦福大學(xué)資助、儲(chǔ)誠(chéng)志博士為編寫《漢語(yǔ)風(fēng)》教材而開發(fā)設(shè)計(jì)的工具軟件,主要用于幫助中文教師編寫、修改、評(píng)估教材和教學(xué)輔助材料。(6)王葆華.“中文助教”軟件在美國(guó)問世[J].世界漢語(yǔ)教學(xué),2005,(3).編寫成套教材或準(zhǔn)備臨時(shí)性的教學(xué)輔助材料都會(huì)涉及很多費(fèi)時(shí)費(fèi)力且易出錯(cuò)的工作,“中文助教”都能迅速方便地完成,主要功能包括:字詞注音、自動(dòng)分詞、生詞(字)標(biāo)注和字詞分析等。

        “漢語(yǔ)文本指難針”是由中山大學(xué)開發(fā)的一款在線工具,它基于大規(guī)?!皣?guó)際漢語(yǔ)教材語(yǔ)料庫(kù)”建立,用于漢語(yǔ)作為第二語(yǔ)言教學(xué)的文本難度在線評(píng)估。作為“語(yǔ)言數(shù)據(jù)網(wǎng)(LanguageData.net)”的一個(gè)功能分支,其主要功能包括:文本定級(jí)、詞匯反饋和例句查詢。(7)金檀,李百川,林星彤,郭凱.“漢語(yǔ)文本指難針”產(chǎn)品介紹與使用說(shuō)明[EB/OL].http://languagedata.net/ce/,2017-03-15.“漢語(yǔ)文本指難針”從漢字、詞匯、語(yǔ)法方面對(duì)文本難度進(jìn)行分析,并提供文本難度LD值、文本等級(jí)劃分及大綱等級(jí)3種參考信息。文本定級(jí)指依照《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》的定級(jí)標(biāo)準(zhǔn),對(duì)所測(cè)文本進(jìn)行分級(jí);詞匯反饋是指根據(jù)《漢語(yǔ)國(guó)際教育用音節(jié)漢字詞匯等級(jí)劃分》的詞匯等級(jí)信息,對(duì)所測(cè)文本的詞匯等級(jí)進(jìn)行標(biāo)注,了解詞匯難度分布情況;例句反饋依據(jù)“全球漢語(yǔ)教材庫(kù)”的大規(guī)模教材信息數(shù)據(jù),精選全球漢語(yǔ)教材庫(kù)中最具代表性的教材數(shù)據(jù),能夠?qū)崿F(xiàn)通過詞匯查詢例句的功能。

        《國(guó)際漢語(yǔ)教材編寫指南》(www.cltguides.com)是孔子學(xué)院總部/國(guó)家漢辦“孔子學(xué)院發(fā)展規(guī)劃(2012~2020)”重大課題。該課題對(duì)全球5000余冊(cè)國(guó)際漢語(yǔ)教材、3000余萬(wàn)字語(yǔ)料庫(kù)進(jìn)行了定量分析,在此基礎(chǔ)上,依據(jù)《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》《漢語(yǔ)水平考試大綱》(新HSK考試大綱)、《漢語(yǔ)國(guó)際教育用音節(jié)漢字詞匯等級(jí)劃分》等標(biāo)準(zhǔn),獲取了漢字、詞匯、語(yǔ)法、場(chǎng)景、話題、交際任務(wù)、文化知識(shí)、典型例句、練習(xí)等之間的內(nèi)在聯(lián)系,使之構(gòu)成了國(guó)際漢語(yǔ)教學(xué)的實(shí)用資源。它以實(shí)用資源、熱點(diǎn)新聞作為基礎(chǔ),借助講義、教輔教材編寫工具,支持教師編寫符合學(xué)習(xí)者認(rèn)知水平和學(xué)習(xí)等級(jí)的個(gè)性化教學(xué)資料,并可進(jìn)行實(shí)時(shí)分析、評(píng)價(jià)。

        國(guó)際漢語(yǔ)教學(xué)文本材料的編寫是教學(xué)資源建設(shè)的重要內(nèi)容,《國(guó)際漢語(yǔ)教材編寫指南》創(chuàng)新性地采用人工智能、大數(shù)據(jù)、多媒體網(wǎng)絡(luò)以及知識(shí)庫(kù)技術(shù),將資源、工具有機(jī)地集成為智能性平臺(tái),從而動(dòng)態(tài)地、有針對(duì)性地解決國(guó)際漢語(yǔ)教材本土化的難題,為國(guó)際漢語(yǔ)教學(xué)一線的廣大教師提供科學(xué)、有效的服務(wù)。截至到目前,全球186個(gè)國(guó)家和地區(qū)的漢語(yǔ)教師利用該平臺(tái)的資源和工具自行編寫的講義、教輔和教材等成果已達(dá)6萬(wàn)6千余份,不僅可為老師提供便利、節(jié)省時(shí)間, 也能從多方面幫助教師提高其質(zhì)量。目前,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具是孔子學(xué)院總部研發(fā)的這一大型實(shí)用網(wǎng)絡(luò)應(yīng)用平臺(tái)的一部分,為教師編寫教案提供了豐富的實(shí)用教學(xué)資源。它既支持在線操作,又有單機(jī)版軟件。

        (二)自動(dòng)分詞系統(tǒng)軟件和平臺(tái)

        因?yàn)闈h語(yǔ)與英語(yǔ)不同,在英語(yǔ)書面語(yǔ)中,詞與詞之間有空格作為自然分界符,而漢語(yǔ)詞匯之間則沒有一個(gè)形式上的分界符,這也就意味著我們必須要利用一定的方法對(duì)漢語(yǔ)文本進(jìn)行有效的分詞處理。傳統(tǒng)人工分詞的方式耗時(shí)巨大,且主觀性強(qiáng),較為低效。隨著計(jì)算機(jī)技術(shù)的發(fā)展,許多科研院校、技術(shù)人員都對(duì)漢語(yǔ)自動(dòng)分詞技術(shù)進(jìn)行了研究,并將該技術(shù)應(yīng)用于搜索引擎、機(jī)器翻譯等領(lǐng)域。自動(dòng)分詞系統(tǒng)運(yùn)算速度快、精確度高,能夠大大提高工作質(zhì)量和效率。目前使用較為廣泛、認(rèn)可度較高的漢語(yǔ)分詞系統(tǒng)有THULAC、LTP、NLPIR漢語(yǔ)分詞系統(tǒng)、Jieba等。

        THULAC(THU Lexical Analyzer for Chinese)是由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的漢語(yǔ)詞法分析工具,它基于人民日?qǐng)?bào)語(yǔ)料庫(kù)等原始語(yǔ)料,由大規(guī)模人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)(約含5800萬(wàn)字)訓(xùn)練而成,主要功能為漢語(yǔ)分詞和詞性標(biāo)注。

        LTP(語(yǔ)言技術(shù)平臺(tái),Language Technology Platform)是哈工大社會(huì)計(jì)算與信息檢索研究中心開發(fā)的漢語(yǔ)語(yǔ)言處理系統(tǒng),語(yǔ)料來(lái)源于哈工大信息檢索研究中心漢語(yǔ)依存樹庫(kù)(HIT-CIR Chinese Dependency Treebank)和哈工大信息檢索研究中心同義詞詞林?jǐn)U展版(HIT-CIR Tongyici Cilin Extended)。(8)哈工大-訊飛語(yǔ)言云.哈工大-訊飛語(yǔ)言云分詞服務(wù)[EB/OL].http://www.ltp-cloud.com/intro/#cws_how.2017-03-15.LTP的分詞模塊基于機(jī)器學(xué)習(xí)框架,能夠有效解決歧義問題。

        NLPIR漢語(yǔ)分詞系統(tǒng)又名ICTCLAS,其全稱是“大數(shù)據(jù)搜索與挖掘共享平臺(tái)”(http://ictclas.nlpir.org/downloads),其主要功能包括漢語(yǔ)分詞、詞性標(biāo)注、用戶詞典等,除此之外,NLPIR還具有新詞發(fā)現(xiàn)與自適應(yīng)分詞功能和關(guān)鍵詞識(shí)別功能。該平臺(tái)集分詞標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、文本分類、情感分析、關(guān)鍵詞提取、文本聚類、語(yǔ)義信息抽取等為一體,能夠全方位多角度滿足應(yīng)用者對(duì)大數(shù)據(jù)文本的處理需求。NLPIR是嚴(yán)格按照內(nèi)置程序嚴(yán)格切分而未考慮詞義范圍,因此經(jīng)由計(jì)算機(jī)分詞后仍有大量超綱詞需要人工校對(duì)。由于NLPIR演示平臺(tái)根據(jù)新浪RSS feed摘要,(9)RSS是一個(gè)全文化瀏覽器,只需把博客的地址或者 RSS feed 輸入到頁(yè)面唯一的輸入框里,點(diǎn)擊后,全文化的 Feed 就生成了,同時(shí),頁(yè)面還會(huì)生成了相應(yīng)的訂閱按鈕。利用NLPIR的精準(zhǔn)網(wǎng)絡(luò)采集系統(tǒng)實(shí)時(shí)抓取新浪最新的新聞(每次刷新均會(huì)重新抓取)的運(yùn)作特質(zhì),在前期調(diào)研中,我們?cè)眠@一軟件與各類《大綱》進(jìn)行比對(duì)時(shí)發(fā)現(xiàn),真超綱詞反而可以準(zhǔn)確切分,但偽超綱詞(即大綱中無(wú),但其構(gòu)詞語(yǔ)素可獨(dú)立成詞,且詞義相當(dāng)于語(yǔ)素義疊加的詞)則需要做二次切分,人工劃入相對(duì)應(yīng)的大綱等級(jí)中。雖然NLRIP功能非常強(qiáng)大,可以正確切分大部分詞語(yǔ),但仍有一些錯(cuò)誤,其中,超綱詞和同形詞部分就需要進(jìn)行人工干預(yù)。

        Jieba(結(jié)巴)分詞的主要功能包括漢語(yǔ)分詞和自定義詞典,它支持3種分詞模式:精確模式、全模式和搜索引擎模式。精確模式,適合文本分析;全模式,速度快,但不能解決歧義;搜索引擎模式在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞進(jìn)行二次切分,適用于搜索引擎分詞。

        雖然上述4種工具的自動(dòng)分詞準(zhǔn)確率均能達(dá)到98%以上,但在實(shí)際操作中,仍然需要結(jié)合人工校對(duì)進(jìn)一步提高準(zhǔn)確率,最大程度地保證分詞效果以及后續(xù)詞匯數(shù)量及其等級(jí)信息統(tǒng)計(jì)的準(zhǔn)確性。

        上述各類國(guó)際漢語(yǔ)教育資源平臺(tái)的輔助定量分析功能,均通過量化的教育資源評(píng)估體系,為漢語(yǔ)國(guó)際教師提供教學(xué)和教材編寫與評(píng)價(jià)方面的技術(shù)指導(dǎo)和服務(wù),并為該領(lǐng)域研究者提供研究成果轉(zhuǎn)換和評(píng)價(jià)依據(jù),不但為漢語(yǔ)教師編寫教學(xué)材料服務(wù),也提高了教師編寫教學(xué)材料的效率和質(zhì)量。

        三、兩種評(píng)價(jià)體系的測(cè)查指標(biāo)分析

        (一)“漢語(yǔ)文本指難針”的評(píng)價(jià)體系

        評(píng)價(jià)功能主要基于對(duì)字詞的分析,其依據(jù)為所測(cè)文本用詞的SVL常用度和HSK等級(jí)信息。其中,SVL常用度是通過對(duì)一個(gè)大型語(yǔ)料庫(kù)的計(jì)算分析得出的,該語(yǔ)料庫(kù)由中國(guó)大陸、臺(tái)灣、香港等地的各種當(dāng)代(1980~2002)漢語(yǔ)語(yǔ)料抽樣構(gòu)成。

        “漢語(yǔ)文本指難針”從漢字、詞匯、語(yǔ)法方面對(duì)文本難度進(jìn)行分析,并提供難度LD值、文本等級(jí)劃分及大綱等級(jí)等參考信息。在評(píng)價(jià)漢字、詞匯難度時(shí),“漢語(yǔ)文本指難針”依照《漢語(yǔ)國(guó)際教育用音節(jié)漢字詞匯等級(jí)劃分》,對(duì)文本漢字、詞匯等級(jí)進(jìn)行標(biāo)注;在語(yǔ)法方面,則采用“平均句長(zhǎng)”作為衡量語(yǔ)法難度的標(biāo)準(zhǔn)。

        “漢語(yǔ)文本指難針” 在文本定級(jí)功能中,依照《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》的定級(jí)標(biāo)準(zhǔn),將所有課文分為了三等六級(jí)。其中,“等級(jí)劃分”中包含“初級(jí)”“中級(jí)”“高級(jí)”;“大綱等級(jí)”這一指標(biāo)中則按照一至六級(jí)進(jìn)行劃分。通過測(cè)查,“漢語(yǔ)文本指難針”還會(huì)向用戶提供一個(gè)數(shù)值在1.0~4.0之間的數(shù)值作為文本難度值,即難度LD值。LD值與文本難度成正比,LD值越高,則說(shuō)明所測(cè)文本難度越大,反之說(shuō)明文本難度越小。除此之外,該平臺(tái)還支持LD值與文本定級(jí)的對(duì)應(yīng),其對(duì)應(yīng)關(guān)系表1所示。

        表1 難度LD值與文本定級(jí)對(duì)應(yīng)表

        此外,“漢語(yǔ)文本指難針”還有一項(xiàng)“漢語(yǔ)字詞檔案”功能,能夠?qū)ξ谋緷h字、詞匯、句子進(jìn)行分析,并在線提供分析結(jié)果。這一功能同樣依據(jù)《漢語(yǔ)國(guó)際教育用音節(jié)漢字詞匯等級(jí)劃分》,在漢字方面,能夠分析得出文本漢字等級(jí),并計(jì)算出文本的字?jǐn)?shù)、字種數(shù)、各等級(jí)漢字分布、累計(jì)分布率、每句分布率和每句累計(jì)分布率;在詞匯方面,也提供上述數(shù)據(jù),如詞數(shù)、詞種數(shù)、各等級(jí)詞匯分布、累計(jì)分布率、每句分布率和每句累計(jì)分布率;在句子方面,該平臺(tái)則采用句子總數(shù)、句子所含漢字?jǐn)?shù)、句子所含詞語(yǔ)數(shù),以及所含漢字?jǐn)?shù)、詞語(yǔ)數(shù)的最小值、最大值、平均值、標(biāo)準(zhǔn)差等指標(biāo)進(jìn)行分析。分析操作流程如下所示(以下均選取北京語(yǔ)言大學(xué)漢語(yǔ)學(xué)院經(jīng)貿(mào)系本科三年級(jí)(上)留學(xué)生所使用的經(jīng)貿(mào)綜合課教材《第一課 老外在中國(guó)》進(jìn)行演示):

        首先,在“漢語(yǔ)字詞檔案”初始界面(http://www.languagedata.net/clpat/)將所要分析的文本輸入至“文章”文本框中,輸入驗(yàn)證碼。分詞是測(cè)查漢語(yǔ)預(yù)料詞匯難度中至關(guān)重要的一步,在輸出分析結(jié)果之前,“漢語(yǔ)字詞檔案”會(huì)對(duì)用戶所輸入的文本進(jìn)行分詞處理,由于分詞的準(zhǔn)確率直接影響著詞匯難度測(cè)查結(jié)果的準(zhǔn)確性, 為了保證分詞結(jié)果的精確性,該平臺(tái)基于哈工大訊飛語(yǔ)言云分詞系統(tǒng)(即語(yǔ)言技術(shù)平臺(tái),LTP),首先進(jìn)行一輪自動(dòng)分詞,并將分詞結(jié)果進(jìn)行反饋(機(jī)器自動(dòng)以“/”對(duì)詞語(yǔ)切分結(jié)果進(jìn)行標(biāo)示)。我們以北京語(yǔ)言大學(xué)漢語(yǔ)學(xué)院經(jīng)貿(mào)系本科三年級(jí)留學(xué)生所使用的《商務(wù)漢語(yǔ)綜合》(上)第一課《老外在中國(guó)》第一部分“企業(yè)高管康立晨”為例:

        圖1 《商務(wù)漢語(yǔ)綜合》(三上)自動(dòng)切詞結(jié)果顯示(頁(yè)面局部)

        雖然LTP分詞系統(tǒng)準(zhǔn)確率已經(jīng)很高,但仍達(dá)不到100%,因此,為了保證數(shù)據(jù)處理的準(zhǔn)確性,“漢語(yǔ)字詞檔案”還提供了分詞校對(duì)頁(yè)面,用戶可在“自動(dòng)切詞結(jié)果”頁(yè)面對(duì)分詞結(jié)果進(jìn)行人工校對(duì)和修正。

        最后,提交文本及經(jīng)校對(duì)的分詞結(jié)果后,系統(tǒng)會(huì)對(duì)文本漢字、詞語(yǔ)、句子進(jìn)行分析,提供相關(guān)分析數(shù)據(jù),并支持txt格式漢字、詞語(yǔ)列表下載。(10)語(yǔ)言數(shù)據(jù)網(wǎng).國(guó)際漢語(yǔ)字詞檔案在線分析[EB/OL].http://www.languagedata.net/clpat/2016-10-28.見表2、表3、表4。

        表2 漢字檔案分析

        表3 詞語(yǔ)檔案分析

        表4 句子檔案分析

        (二)“國(guó)際漢語(yǔ)教材編寫指南”的評(píng)價(jià)體系

        “國(guó)際漢語(yǔ)教材編寫指南” 評(píng)價(jià)工具從漢字、詞匯、課文、語(yǔ)法4個(gè)角度對(duì)文本難度進(jìn)行測(cè)查,并依據(jù)《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》和《漢語(yǔ)水平考試大綱》,列出了16項(xiàng)教材評(píng)價(jià)參數(shù)和指標(biāo),用于對(duì)已出版教材及用戶自編教材、講義等材料的分析和評(píng)價(jià),以檢驗(yàn)教材實(shí)際難度,以及是否符合《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》,能否對(duì)接新漢語(yǔ)水平考試等問題。

        在漢字難度評(píng)價(jià)中,“國(guó)際漢語(yǔ)教材編寫指南” 評(píng)價(jià)工具統(tǒng)計(jì)及計(jì)算的指標(biāo)包括字次、字種、各等級(jí)累計(jì)分布和編入比例;在詞匯難度評(píng)價(jià)中,涉及的指標(biāo)有詞次、詞種、各等級(jí)詞等級(jí)累計(jì)分布和編入比例;評(píng)價(jià)課文時(shí),該系統(tǒng)會(huì)根據(jù)用戶設(shè)定計(jì)算平均每課生詞數(shù)、平均每課生詞密度和平均句長(zhǎng);而語(yǔ)法方面,則按照用戶標(biāo)注的語(yǔ)法點(diǎn)計(jì)算平均每課語(yǔ)法點(diǎn)數(shù)。另外,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具還通過統(tǒng)計(jì)大規(guī)模教材得出了不同等級(jí)的教材各項(xiàng)統(tǒng)計(jì)指標(biāo)的難度參考區(qū)間,用戶可以將所測(cè)各指標(biāo)數(shù)據(jù)與參考區(qū)間數(shù)值進(jìn)行對(duì)比,以幫助掌握文本難度情況。

        另外,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具還依據(jù)《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》的定級(jí)標(biāo)準(zhǔn),通過統(tǒng)計(jì)大規(guī)模教材得出了不同等級(jí)的教材各項(xiàng)統(tǒng)計(jì)指標(biāo)的難度參考區(qū)間(見表5),用戶可以將所測(cè)得的各指標(biāo)數(shù)據(jù)與參考區(qū)間數(shù)值進(jìn)行對(duì)比,以幫助掌握文本難度情況。在使用“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具對(duì)文本進(jìn)行難度評(píng)價(jià)時(shí),考慮到了文本適用對(duì)象和適用水平的問題,將文本劃分為成人和少兒兩類,兩類之下又各自分為初級(jí)、中級(jí)、高級(jí)三等。由于不同適用對(duì)象、不同適用水平的文本,各個(gè)指標(biāo)的難度參考區(qū)間不同,測(cè)查前,用戶需自行勾選所測(cè)文本的適用對(duì)象和適用水平。

        表5 適用對(duì)象、適用水平、參考指標(biāo)、參考區(qū)間對(duì)照表(11)孔子學(xué)院總部/國(guó)家漢辦(2017)國(guó)際漢語(yǔ)教材編寫指南[EB/OL].http://www.cltguides.com/user/analysis!input.action/2017-03-15.

        “漢語(yǔ)文本指難針”從漢字、詞匯、語(yǔ)法方面對(duì)文本難度進(jìn)行分析,并提供文本難度LD值、文本等級(jí)劃分及大綱等級(jí)等參考信息。在評(píng)價(jià)漢字、詞匯難度時(shí),“漢語(yǔ)文本指難針”以《漢語(yǔ)國(guó)際教育用音節(jié)漢字詞匯等級(jí)劃分》為依據(jù);而在文本定級(jí)功能中,則依照《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》的定級(jí)標(biāo)準(zhǔn),將所有課文分為了三等六級(jí)。其中,“等級(jí)劃分”中包含“初級(jí)”“中級(jí)”“高級(jí)”;“大綱等級(jí)”這一指標(biāo)中則按照一至六級(jí)進(jìn)行劃分。通過測(cè)查,“漢語(yǔ)文本指難針”還會(huì)向用戶提供一個(gè)數(shù)值在1.0~4.0之間的數(shù)值作為文本難度值,即難度LD值。LD值與文本難度成正比,LD值越高,則說(shuō)明所測(cè)文本難度越大,反之說(shuō)明文本難度越小。除此之外,該平臺(tái)還支持LD值與文本定級(jí)的對(duì)應(yīng),其對(duì)應(yīng)關(guān)系如下表6所示。

        表6 難度LD值與文本定級(jí)對(duì)應(yīng)表

        四、兩種評(píng)價(jià)體系的對(duì)比

        (一)操作方法對(duì)比

        “漢語(yǔ)文本指難針”在進(jìn)入系統(tǒng)頁(yè)面(http://languagedata.net/editor/)后,無(wú)需登錄可直接進(jìn)行測(cè)查,只需將所需測(cè)查的文本輸入或復(fù)制粘貼至“文章”文本框中,系統(tǒng)自動(dòng)得出分析結(jié)果,向用戶提供難度LD值、等級(jí)劃分、大綱等級(jí)、漢字難度、詞匯難度和平均句長(zhǎng)6項(xiàng)數(shù)據(jù),并通過難度LD值使用指引圖直觀地出標(biāo)示所測(cè)文本的難度水平。見表7和圖2。

        表7 原文難度分析結(jié)果

        圖2 難度LD值使用指引圖

        如文本難度測(cè)查結(jié)果與預(yù)期相符,或與文本編寫要求相符,不需修改,則可以點(diǎn)擊“生成詞表”查看分詞結(jié)果及詞匯等級(jí)統(tǒng)計(jì)結(jié)果(如圖3)。用戶如需查看各等級(jí)詞匯情況,可勾選上方“超綱詞”“高級(jí)詞”“中級(jí)詞”等選項(xiàng),系統(tǒng)便會(huì)將不同等級(jí)的詞匯用不同的顏色標(biāo)注出來(lái),如在上一步文本難度測(cè)查結(jié)果與預(yù)期或與文本編寫要求不相符,需要對(duì)原文進(jìn)行修改,修改完成后,點(diǎn)擊“文本定級(jí)”按鈕,便能得到修改后文本的難度測(cè)查結(jié)果。

        圖3 漢語(yǔ)文本指南針 “生成詞表”界面(局部)

        “國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具在使用前需要進(jìn)行注冊(cè),注冊(cè)并登錄成功后,進(jìn)入評(píng)價(jià)工具頁(yè)面(http://www.cltguides.com/user/analysis!input.action)。

        要注意的是,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具要求在上傳的文本中對(duì)文本標(biāo)題、課文、生詞、語(yǔ)法點(diǎn)進(jìn)行標(biāo)注,例如:標(biāo)題需要在標(biāo)題文字前增加“[title]”,則識(shí)別為標(biāo)題,讀取本行;課文要在內(nèi)容文字前增加“[content] ”,則識(shí)別為內(nèi)容,讀取本行或本段;生詞要在生詞文字前增加“[word]”,則識(shí)別為生詞;語(yǔ)法點(diǎn)需在語(yǔ)法點(diǎn)文字前增加“[grammar]”,則識(shí)別為語(yǔ)法點(diǎn)。上述標(biāo)注需在上傳教材文本前完成。

        系統(tǒng)根據(jù)其測(cè)查標(biāo)準(zhǔn)及用戶自定測(cè)查項(xiàng)目得出測(cè)查結(jié)果,并依照該系統(tǒng)的難度參考區(qū)間對(duì)所測(cè)文本各項(xiàng)指標(biāo)難度進(jìn)行評(píng)價(jià),如表8、表9所示(本演示僅標(biāo)注文章標(biāo)題及內(nèi)容,未標(biāo)注生詞及語(yǔ)法點(diǎn))。同時(shí),“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具還支持將測(cè)查數(shù)據(jù)在線生成圖表,如圖4所示(以漢字等級(jí)分布、漢字等級(jí)累計(jì)分布兩項(xiàng)指標(biāo)為例),參考區(qū)間為95.73%~99.5%,1~6級(jí)字等級(jí)累計(jì)分布98.56%。

        表8 《商務(wù)漢語(yǔ)綜合》(三上)評(píng)價(jià)結(jié)果

        表9 評(píng)價(jià)結(jié)果顯示

        圖4 漢字等級(jí)分布

        (二)評(píng)價(jià)方法的對(duì)比

        在用戶體驗(yàn)方面,通過上文所述操作方法可以看出,“漢語(yǔ)文本指難針”和“國(guó)際漢語(yǔ)教材編寫指南”這兩套評(píng)價(jià)工具系統(tǒng)的操作難度都不高,操作步驟清晰,便于上手。作為在線工具,這兩套系統(tǒng)的運(yùn)算速度也較快,在使用中沒有出現(xiàn)網(wǎng)頁(yè)卡頓、等候時(shí)間過長(zhǎng)等現(xiàn)象。

        首先,在對(duì)文本的詞匯等級(jí)進(jìn)行測(cè)查時(shí),分詞是不可回避的問題,就目前的技術(shù)水平而言,許多漢語(yǔ)分詞工具的技術(shù)、算法等已經(jīng)相當(dāng)成熟,大部分常用的漢語(yǔ)分詞工具分詞準(zhǔn)確率都能夠達(dá)到98%以上,如清華大學(xué)的THULAC、哈工大的LTP、NLPIR漢語(yǔ)分詞系統(tǒng)、Jieba等,但這些分詞工具都不能夠保證100%的準(zhǔn)確率,為了確保測(cè)查結(jié)果的準(zhǔn)確性,用戶有必要對(duì)分詞結(jié)果進(jìn)行人工校對(duì)。在這一方面,“漢語(yǔ)文本指難針”在得出測(cè)查結(jié)果之前,必經(jīng)步驟便是系統(tǒng)自動(dòng)分詞結(jié)果進(jìn)行人工校對(duì),而“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具則不提供人工校對(duì)功能。

        其次,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具在測(cè)查過程中采用的是上傳文本文檔的形式,并要求用戶按照系統(tǒng)格式要求對(duì)文本的標(biāo)題、內(nèi)容、生詞、語(yǔ)法點(diǎn)等進(jìn)行標(biāo)注,“漢語(yǔ)文本指難針”則直接在頁(yè)面文本框輸入文本即可。相比較而言,針對(duì)小批量測(cè)查,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具操作比較繁瑣,國(guó)際漢語(yǔ)教材編寫指南”則相對(duì)簡(jiǎn)便,但如進(jìn)行大批量測(cè)查,由于前者無(wú)需重復(fù)操作,測(cè)查過程和結(jié)果相對(duì)后者而言,會(huì)更加簡(jiǎn)單清晰。但“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具上傳文本的大小有限制,文件需控制在1M以內(nèi),如需要測(cè)查的文本篇幅特別長(zhǎng),仍然需要重復(fù)操作。

        再者,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具在上傳文本時(shí),僅支持Microsoft Office Word 97~2003文檔(即.doc格式文本文檔),不支持.txt、.docx、.pdf格式文檔,而由于軟件升級(jí),Microsoft Office Word 97~2003文檔已不是當(dāng)前最常用、最主流的文檔格式,Microsoft Office Word 2003版本以上用戶、PDF用戶需先將文本轉(zhuǎn)換為Microsoft Office Word 97~2003文檔才能進(jìn)行測(cè)查,增加不必要的工作量,建議升級(jí)或增加所支持的文本格式,方便用戶使用。

        另外,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具因在進(jìn)行測(cè)查之前需要先登錄,系統(tǒng)可以識(shí)別用戶,也能夠保存用戶上傳的教材,同時(shí)也提供單機(jī)版,方便在脫網(wǎng)環(huán)境下使用;“漢語(yǔ)文本指難針”則不支持保存教材,更偏向在線的即時(shí)測(cè)查。

        五、關(guān)于測(cè)查效果和準(zhǔn)確度的對(duì)比

        (一)測(cè)查效果與準(zhǔn)確度

        我們?cè)谇拔奶岬?,“中文助教TM”的語(yǔ)料難度測(cè)查主要依靠對(duì)文本詞匯等級(jí)的標(biāo)注。仇鑫奕對(duì)“中文助教TM”的語(yǔ)料難度測(cè)查效果進(jìn)行了考察,發(fā)現(xiàn)該工具在標(biāo)注文本詞匯等級(jí)時(shí),由于其本身的分詞系統(tǒng)分詞精確度不夠高,常常因分詞失誤導(dǎo)致詞匯等級(jí)標(biāo)注錯(cuò)誤,這也影響了該工具文本難度測(cè)查結(jié)果。例如:“……你的耳朵長(zhǎng)到哪里去了?”中,該軟件將“耳朵長(zhǎng)”劃分為一個(gè)詞,而實(shí)際上,這里應(yīng)該為名詞“耳朵”+動(dòng)詞“長(zhǎng)”;又如“第二天下午放學(xué)……”中,該軟件將“二天”劃分為一個(gè)詞,但應(yīng)當(dāng)為數(shù)詞“二”+名詞“天”。(12)仇鑫奕.“中文助教TM”的語(yǔ)料難度測(cè)量問題和改進(jìn)建議[J].中國(guó)教育信息化,2010,(23).

        “國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具在測(cè)查中會(huì)分別計(jì)算出漢字、詞匯、句子等各項(xiàng)指標(biāo)的數(shù)值,并依據(jù)表2的難度參考區(qū)間對(duì)各項(xiàng)指標(biāo)做出“偏低”“合理”或“偏高”的評(píng)價(jià)。例如,根據(jù)該工具的標(biāo)準(zhǔn),高級(jí)成人教材1~6級(jí)詞累計(jì)分布的參考區(qū)間為64.92%~79.19%,假如測(cè)得一篇課文該項(xiàng)高于79.19%,系統(tǒng)會(huì)標(biāo)注“偏高”,在64.92%~79.19%之間標(biāo)注“合理”,低于64.92%標(biāo)注“偏低”,其他指標(biāo)的難度評(píng)價(jià)均為如此。可以看出,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具對(duì)文本難度的評(píng)價(jià)雖然較“中文助教TM”更加全面,但仍不夠系統(tǒng),我們可以用它測(cè)得漢字、詞匯、句子等的難度,但無(wú)法將這些難度值進(jìn)行整合,也不能得知整個(gè)文本綜合的難度值或等級(jí)信息。

        “漢語(yǔ)文本指難針”是幾款工具中唯一能夠?qū)h字、詞匯、句子等各項(xiàng)測(cè)查指標(biāo)進(jìn)行整合和計(jì)算,進(jìn)而得到一個(gè)明確的難度值和參考等級(jí)的。因此,我們利用該工具對(duì)我們調(diào)研中所測(cè)得語(yǔ)言難度控制最好的《卓越商務(wù)漢語(yǔ)教程高級(jí)閱讀》進(jìn)行了試測(cè),以檢驗(yàn)該工具是否適用于商務(wù)類語(yǔ)料,試測(cè)結(jié)果如下表10:

        表10 “漢語(yǔ)文本指難針”對(duì)《卓越商務(wù)漢語(yǔ)教程高級(jí)閱讀》課文試測(cè)結(jié)果

        由上表可知,“漢語(yǔ)文本指難針”根據(jù)《國(guó)際漢語(yǔ)教學(xué)通用課程大綱》的定級(jí)標(biāo)準(zhǔn),將《卓越商務(wù)漢語(yǔ)教程高級(jí)閱讀》的15篇課文均歸為中高級(jí),其中中等四級(jí)僅2篇,高等的13篇中,五級(jí)8篇,六級(jí)3篇,整體難度均較高。這與教材課文的實(shí)際難度相符,但是該工具給出的難度值和等級(jí)劃分是相對(duì)于通用型語(yǔ)料而言的,也就是說(shuō),我們無(wú)法通過“漢語(yǔ)文本指難針”準(zhǔn)確測(cè)得一篇商務(wù)漢語(yǔ)文本在商務(wù)漢語(yǔ)語(yǔ)料中的等級(jí),這也是本文提出希望建立商務(wù)類漢語(yǔ)讀物分級(jí)標(biāo)準(zhǔn)的原因之一。

        為了檢驗(yàn)“漢語(yǔ)文本指難針”和“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具文本難度測(cè)查的準(zhǔn)確度,并進(jìn)一步觀察這兩套系統(tǒng)是否適合應(yīng)用于漢語(yǔ)國(guó)際教育用商務(wù)漢語(yǔ)語(yǔ)料難度的測(cè)查,本文選取北京語(yǔ)言大學(xué)漢語(yǔ)學(xué)院經(jīng)貿(mào)系本科三年級(jí)留學(xué)生所使用的《商務(wù)漢語(yǔ)綜合》(上、下)兩冊(cè)課本中的課文進(jìn)行試測(cè),結(jié)果如下表11、表12、表13、表14:

        表11 “漢語(yǔ)文本指難針”三年級(jí)上冊(cè)課文試測(cè)結(jié)果

        表12 “漢語(yǔ)文本指難針”三年級(jí)下冊(cè)課文試測(cè)結(jié)果

        表13 “國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具三年級(jí)上冊(cè)課文試測(cè)結(jié)果

        表14 “國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具三年級(jí)下冊(cè)課文試測(cè)結(jié)果

        由上文試測(cè)結(jié)果可以看出,用“漢語(yǔ)文本指難針”進(jìn)行測(cè)試,兩冊(cè)教材課文難度LD值界于2.50~3.88之間,等級(jí)劃分均為中等、高等難度,等級(jí)劃分均為四級(jí)至六級(jí),其中,測(cè)定為四級(jí)的有6篇,五級(jí)6篇,六級(jí)7篇。根據(jù)“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具的評(píng)價(jià)結(jié)果,三年級(jí)上冊(cè)課文漢字指標(biāo)一項(xiàng)難度合理,一項(xiàng)偏低;詞匯指標(biāo)一項(xiàng)偏高,一項(xiàng)合理;課文平均句長(zhǎng)合理。三年級(jí)下冊(cè)漢字指標(biāo)一項(xiàng)難度合理,一項(xiàng)偏低;詞匯指標(biāo)一項(xiàng)偏高,一項(xiàng)合理;課文平均句長(zhǎng)偏高。

        由于“漢語(yǔ)文本指難針”沒有為所測(cè)得數(shù)值提供一個(gè)可參考的難度區(qū)間,我們不能夠從漢字難度、詞匯難度和平均句長(zhǎng)的數(shù)據(jù)中判斷出教材難度是否合理,但從難度LD值、等級(jí)劃分、大綱等級(jí)三項(xiàng)指標(biāo)的測(cè)查結(jié)果來(lái)看,三年級(jí)上、下兩冊(cè)教材的課文實(shí)際難度與測(cè)查所得難度基本相符?!皣?guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具與前者不同,它為用戶提供了數(shù)值參考區(qū)間,但不提供等級(jí)信息,從上下兩冊(cè)教材漢字、詞匯、課文平均句長(zhǎng)的各項(xiàng)數(shù)據(jù)來(lái)看,兩冊(cè)教材根據(jù)該系統(tǒng)的評(píng)價(jià)結(jié)果,漢字難度都偏低、詞匯難度都偏高,下冊(cè)課文難度偏高。

        通過觀察兩套系統(tǒng)詞匯測(cè)查結(jié)果,我們發(fā)現(xiàn),被系統(tǒng)標(biāo)注為超綱詞的詞匯中,有很多為商務(wù)詞匯,如:“合資、擇業(yè)、產(chǎn)業(yè)革命、經(jīng)銷、供應(yīng)、開銷”等。由于“漢語(yǔ)文本指難針”和“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具在詞匯測(cè)查中依據(jù)的大綱均為通用型大綱,大綱本身詞匯商務(wù)特點(diǎn)不明顯,因此,部分對(duì)于商務(wù)漢語(yǔ)學(xué)習(xí)者而言未必是超綱詞的詞匯在測(cè)查中被劃入超綱詞范圍,這使得測(cè)查結(jié)果對(duì)于商務(wù)漢語(yǔ)學(xué)習(xí)者而言精確度有所降低。

        (二)結(jié)論與問題

        綜上所述,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具和“漢語(yǔ)文本指難針”根據(jù)其適用范圍的不同,功能各有側(cè)重,其中最適合用于分級(jí)讀物建設(shè)的是“漢語(yǔ)文本指難針”。

        一般而言,商務(wù)漢語(yǔ)學(xué)習(xí)者以大學(xué)生、商務(wù)人士、相關(guān)領(lǐng)域研究人員居多,其母語(yǔ)閱讀水平應(yīng)當(dāng)已處于較高的水平,因此,在探討商務(wù)類漢語(yǔ)分級(jí)讀物語(yǔ)料難易度測(cè)查標(biāo)準(zhǔn)的過程中,我們可以將影響兒童閱讀難易度的因素排除在外,如插圖、字體、間距等,主要關(guān)注詞匯、語(yǔ)法等客觀因素?!皾h語(yǔ)文本指難針”和美國(guó)藍(lán)思框架閱讀的分級(jí)都采取了類似的做法,二者都是利用計(jì)算機(jī)技術(shù)對(duì)讀物詞匯、語(yǔ)法難度等客觀因素進(jìn)行測(cè)試,并在整合各項(xiàng)難度的基礎(chǔ)上得到一個(gè)讀物整體的難度值,以此作為分級(jí)依據(jù)。這種分級(jí)方式分級(jí)效率高且結(jié)果科學(xué),值得我們借鑒。

        在功能側(cè)重方面,“漢語(yǔ)文本指難針”主要功能為文本定級(jí)、詞匯反饋和例句查詢,而“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具的定位則更偏向于輔助教材的編寫。換言之,“漢語(yǔ)文本指難針”更適用于用戶對(duì)文本難度沒有把握,對(duì)文本進(jìn)行測(cè)查的情況,“國(guó)際漢語(yǔ)教材編寫指南”評(píng)價(jià)工具則更適用于用戶已大致了解文本等級(jí)水平,對(duì)文本難度進(jìn)行復(fù)核和檢驗(yàn)的情況。

        但是,作為以通用型漢語(yǔ)國(guó)際教育大綱為依據(jù)的難度測(cè)查工具,由于通用型大綱本身的局限性,兩套系統(tǒng)在測(cè)查商務(wù)漢語(yǔ)語(yǔ)料時(shí),雖然測(cè)查結(jié)果仍保持了一定的準(zhǔn)確度,但其用于詞匯分級(jí)的商務(wù)詞匯遠(yuǎn)不能實(shí)現(xiàn)對(duì)商務(wù)漢語(yǔ)語(yǔ)料進(jìn)行精確分級(jí)的需求,這就會(huì)造成兩個(gè)結(jié)果:

        一是,用戶通過這兩套系統(tǒng)對(duì)商務(wù)漢語(yǔ)語(yǔ)料進(jìn)行測(cè)查時(shí),會(huì)出現(xiàn)超綱詞偏多的情況,使系統(tǒng)誤認(rèn)為該文本詞匯難度偏大,也就造成了對(duì)于商務(wù)漢語(yǔ)學(xué)習(xí)者而言,文本的實(shí)際難度與系統(tǒng)測(cè)查所得難度不符的問題;

        二是,大量商務(wù)詞匯被歸為超綱詞,而現(xiàn)有系統(tǒng)又缺乏這些超綱的商務(wù)詞匯的等級(jí)信息,會(huì)出現(xiàn)商務(wù)漢語(yǔ)語(yǔ)料分級(jí)精確度與通用型漢語(yǔ)語(yǔ)料相比較低的問題。

        六、設(shè)想與建議

        基于核心知識(shí)庫(kù),從互聯(lián)網(wǎng)、教材數(shù)據(jù)庫(kù)中獲取特定領(lǐng)域相關(guān)數(shù)據(jù),開發(fā)面向漢語(yǔ)學(xué)習(xí)者的初級(jí)、中級(jí)、高級(jí)不同層次的學(xué)習(xí)文本素材庫(kù)及相關(guān)文化產(chǎn)品勢(shì)在必行。我們認(rèn)為,應(yīng)當(dāng)借鑒現(xiàn)有資源編寫平臺(tái)文本分級(jí)定量評(píng)價(jià)方法的基礎(chǔ)上,重點(diǎn)研究動(dòng)態(tài)、開放的備選素材獲取、分析及加工方法,并且探索以“學(xué)”為導(dǎo)向的學(xué)習(xí)資源生成方法,建立一個(gè)基于文本難易度,適用于漢語(yǔ)國(guó)際教育的商務(wù)漢語(yǔ)學(xué)習(xí)資源文本庫(kù),能夠借助移動(dòng)互聯(lián)技術(shù)、學(xué)習(xí)分析技術(shù),捕獲、匯聚、分析各類信息,構(gòu)建學(xué)習(xí)者信息模型,為學(xué)習(xí)者提供突破時(shí)空限制的智慧教育服務(wù)。例如用戶上傳文本后,學(xué)習(xí)資源平臺(tái)會(huì)給出待分析文本在后臺(tái)資源(語(yǔ)料)庫(kù)中的難度位置,并向用戶推薦資源庫(kù)中與待分析文本中漢字、詞匯、語(yǔ)法距離最近的文章,得到一個(gè)用于閱讀訓(xùn)練的排序文本集。該學(xué)習(xí)資源文本庫(kù)(集)一方面可以輔助學(xué)生進(jìn)行原文閱讀,另一方面還可以最大限度地拓展與之交互的有效閱讀空間。具體設(shè)想是由專業(yè)的團(tuán)隊(duì)制定一套文本分級(jí)測(cè)定程序,包含閱讀能力中所有可以量化的客觀要素(漢字、詞匯、語(yǔ)法等),并以分值的方式(通過漢語(yǔ)可讀性公式)體現(xiàn)圖書的等級(jí)和閱讀者的閱讀水平,并將之進(jìn)行技術(shù)關(guān)聯(lián)。見圖5。

        圖5 基于智慧教育平臺(tái)的漢語(yǔ)分級(jí)閱讀標(biāo)準(zhǔn)研制路徑

        這方面還有以下基礎(chǔ)研究有待開展:

        首先,參考學(xué)界對(duì)商務(wù)詞匯的界定及商務(wù)漢語(yǔ)大綱詞匯,從測(cè)查得到的超綱詞中抽出屬于商務(wù)詞匯的部分。再基于已有的商務(wù)漢語(yǔ)大綱和商務(wù)漢語(yǔ)教材為商務(wù)詞匯標(biāo)注等級(jí),并通過測(cè)查語(yǔ)料范圍的擴(kuò)大逐步擴(kuò)大詞庫(kù)容量,以使商務(wù)漢語(yǔ)閱讀詞匯部分的分級(jí)結(jié)果更加精確,滿足教師及學(xué)習(xí)者的閱讀、研究需求。

        其次,任何一個(gè)文本分級(jí)系統(tǒng)如要實(shí)現(xiàn)高效、精確的分級(jí),都離不開計(jì)算機(jī)技術(shù)的輔助和支持,商務(wù)漢語(yǔ)語(yǔ)料的難度測(cè)查和分級(jí)亦是如此。因此,在建立商務(wù)漢語(yǔ)分級(jí)閱讀體系的過程中,要重視利用計(jì)算機(jī)技術(shù)開發(fā)有關(guān)功能模塊。例如,與清華大學(xué)THULAC、哈工大LTP、NLPIR漢語(yǔ)分詞系統(tǒng)、Jieba等已較為成熟的漢語(yǔ)分詞工具團(tuán)隊(duì)展開合作,完成分級(jí)體系的詞匯模塊等。

        最后,一個(gè)成熟的系統(tǒng)必然要有良好的用戶體驗(yàn),以網(wǎng)絡(luò)智慧教育平臺(tái)形式的分級(jí)系統(tǒng)為例,網(wǎng)站設(shè)計(jì)要簡(jiǎn)明清晰,注意在細(xì)節(jié)處提升用戶使用的舒適度,同時(shí),網(wǎng)站信息和技術(shù)要及時(shí)更新優(yōu)化。建議設(shè)立專門的用戶反饋渠道,以及時(shí)發(fā)現(xiàn)并解決系統(tǒng)出現(xiàn)的問題,使系統(tǒng)運(yùn)行流暢。

        猜你喜歡
        測(cè)查分詞分級(jí)
        運(yùn)用體育“運(yùn)動(dòng)包”開展體育游戲,促進(jìn)幼兒五項(xiàng)體能發(fā)展
        結(jié)巴分詞在詞云中的應(yīng)用
        基于測(cè)查數(shù)據(jù)的“旋轉(zhuǎn)”教學(xué)建議
        分級(jí)診療路難行?
        值得重視的分詞的特殊用法
        分級(jí)診療的“分”與“整”
        分級(jí)診療的強(qiáng)、引、合
        “水到渠成”的分級(jí)診療
        西藏小學(xué)教師心理健康測(cè)查
        西藏科技(2015年8期)2015-09-26 11:55:57
        小組合作學(xué)習(xí)解決化學(xué)學(xué)困生
        狼人香蕉香蕉在线28 - 百度| 午夜一区二区三区福利视频| 久亚洲一线产区二线产区三线麻豆| 伊人情人色综合网站| 无码人妻精品一区二区蜜桃网站| 国产又色又爽无遮挡免费动态图| 国产日韩三级| 91青青草手机在线视频| 91久久偷偷做嫩模影院| 国产精品无码人妻在线| 国产96在线 | 欧美| 国产精品短视频| 亚洲av五月天天堂网| 成人av资源在线观看| 久久久中文久久久无码| 欧美大黑帍在线播放| 中文字幕第一页亚洲观看 | 国产精品美女白浆喷水| 给我播放的视频在线观看| 91精品国产91综合久久蜜臀| 高潮潮喷奶水飞溅视频无码| 97精品依人久久久大香线蕉97| 亚洲AV无码精品色欲av| 国产福利一区二区三区视频在线看| 亚洲男同免费视频网站| 四虎成人精品在永久免费| 国产一区二区内射最近更新| 动漫在线无码一区| 青青草精品在线免费观看 | 首页 综合国产 亚洲 丝袜| 久久久久亚洲AV无码专| 在线观看视频国产一区二区三区| 日本免费大片一区二区| 特级av毛片免费观看| 免费AV一区二区三区无码| 成年人视频在线播放麻豆| 亚洲 欧美 综合 在线 精品| 久久这里只精品国产免费10| 亚洲av成人在线网站| 中文字幕亚洲精品综合| 久久精品免费中文字幕|