亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向信息處理的《古籍漢字分級(jí)字表(7000字)》的研制

        2024-01-01 00:00:00余雪馮敏萱李斌
        辭書研究 2024年6期

        摘 要 分級(jí)字表是文本難度分級(jí)的重要基礎(chǔ)資源。文章基于大規(guī)模古籍文本語料庫,在統(tǒng)計(jì)構(gòu)建《古籍漢字通用字表》的基礎(chǔ)上,通過挖掘古籍漢字在字形、字音、字義以及應(yīng)用層面的11個(gè)分級(jí)計(jì)量特征,設(shè)計(jì)了古籍漢字學(xué)習(xí)優(yōu)先級(jí)的分級(jí)評(píng)價(jià)體系,將各漢字表示為基于計(jì)量特征學(xué)習(xí)優(yōu)先級(jí)的字向量,借助相似度計(jì)算,實(shí)現(xiàn)了古籍漢字學(xué)習(xí)優(yōu)先級(jí)別的3級(jí)劃分,得到《古籍漢字分級(jí)字表(7000字)》。該字表包括甲級(jí)字1516個(gè)、乙級(jí)字2421個(gè),丙級(jí)字3063個(gè),能夠從文字層面為古漢語文本難度分級(jí)提供必要的基礎(chǔ)字表,有助于古漢語文本分級(jí)研究,助力面向辭書編撰的語言文字信息化平臺(tái)建設(shè),進(jìn)而為古文讀寫能力水平測(cè)試、古文篇章的自動(dòng)分級(jí)等研究奠定

        基礎(chǔ)。

        關(guān)鍵詞 信息處理 古籍漢字 分級(jí)字表 古文文本分級(jí)

        繼承和弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化是實(shí)現(xiàn)中華民族偉大復(fù)興的重要內(nèi)容,古籍文獻(xiàn)作為中華優(yōu)秀傳統(tǒng)文化的重要載體,蘊(yùn)含著豐富的歷史記憶、思想智慧和知識(shí)體系,是中華民族發(fā)展進(jìn)步必須繼承的寶貴精神財(cái)富。因此,如何促進(jìn)古籍文獻(xiàn)在當(dāng)代的傳播是一個(gè)值得思考的問題。古漢語文本難度分級(jí)能為不同層次閱讀者提供合適的古籍文本,降低古籍閱讀的門檻,進(jìn)而促進(jìn)古籍文獻(xiàn)的傳承與傳播。文本難度分級(jí)也稱為可讀性評(píng)估,對(duì)給定文本從漢字、詞匯、句法、篇章等層面進(jìn)行分析,判斷其難度適合什么水平的讀者。文本難度分級(jí)研究主要服務(wù)于語言與信息化處理,對(duì)分級(jí)閱讀、語言水平測(cè)試以及信息化平臺(tái)建設(shè)等方面都具有重要意義。

        現(xiàn)有文本難度分級(jí)研究主要面向現(xiàn)代漢語語料,早期以構(gòu)建可讀性公式為主要方法,從漢字、詞匯、句子等語言指標(biāo)入手,衡量文本難度。(張寧志 2000;郭望皓 2010;左虹,朱勇 2014;王蕾 2017)隨著自然語言處理技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法逐漸應(yīng)用于漢語文本難度分級(jí)研究。(孫剛 2015;蔣智威 2018;程勇,徐德寬 2019)漢字是記錄漢

        語的書寫符號(hào),作為表意文字,漢字與語素、詞匯之間的關(guān)系錯(cuò)綜復(fù)雜,因此,在文本難度分級(jí)研究中,漢字層面因素越來越受到研究者們的關(guān)注,不少研究者在持續(xù)挖掘漢字層面因素的同時(shí),也探討了漢字與文本難度之間的關(guān)系。程勇等(2020)在探討影響文本閱讀難度的關(guān)鍵語言因素時(shí),設(shè)計(jì)了字種數(shù)、平均筆畫數(shù)、平均字頻以及低頻字比例,并發(fā)現(xiàn)低頻字比例與文本難度級(jí)別的相關(guān)性最高,漢字的平均筆畫數(shù)與難度級(jí)別的相關(guān)性最小。吳思遠(yuǎn)等(2020)在漢字層面設(shè)計(jì)了字符平均筆畫數(shù)、對(duì)稱字比例、常用字比例等15個(gè)指標(biāo),研究表明常用字比例、平均對(duì)數(shù)字頻、未登錄字比例因素的模型準(zhǔn)確率最高。杜月明(2022)在探討二語閱讀文本可讀性時(shí),統(tǒng)計(jì)了《漢語水平詞匯與漢字等級(jí)大綱》中甲、乙、丙、丁級(jí)字的比例,以《現(xiàn)代漢語常用字表》為底表,計(jì)算常用漢字與次常用漢字的占比,并新增“超綱字”統(tǒng)計(jì),將其納入漢字常用度特征中,研究表明該特征對(duì)文本難度的預(yù)測(cè)能力較強(qiáng)。

        上述研究均以現(xiàn)有的常用字表、分級(jí)字表為底表,統(tǒng)計(jì)低頻字、高頻字、常用字、甲級(jí)字、超綱字等漢字使用信息,并證實(shí)漢字層面因素是影響文本難度分級(jí)的關(guān)鍵因素。然而以上研究均基于現(xiàn)代漢語語料,對(duì)于古漢語文本難度分級(jí)研究較少。目前,僅查閱到兩篇文獻(xiàn)關(guān)注“古文分級(jí)”。白瑞芬(2017)雖從群體針對(duì)性、語言運(yùn)用性、改編合理性等角度對(duì)已有的分級(jí)改編讀本進(jìn)行了問題分析,但僅提出“依據(jù)兒童認(rèn)知和課程標(biāo)準(zhǔn)對(duì)古文分級(jí)”等建設(shè)性意見,缺乏客觀性,分級(jí)標(biāo)準(zhǔn)也未明確。張秋玲等(2022)從字詞、句式、文章體裁和內(nèi)容四個(gè)方面總結(jié)了淺易文言文應(yīng)該具備的特征。在詞匯層面,認(rèn)為淺易文言文所用詞匯應(yīng)多為文言常用詞匯或次常用詞匯,為此早在2010年研究中心就以饒杰騰先生編制的“初中語文課本文言常用600詞”及“24個(gè)常見虛詞”作為確定一篇“淺易文言文”中常用詞匯比例的參照詞表,最終提出了用于測(cè)量文言文等級(jí)的數(shù)學(xué)模型。這一研究是對(duì)古漢語文本難易度評(píng)量從基于經(jīng)驗(yàn)的主觀判斷到基于數(shù)據(jù)的量化分析的突破性推進(jìn),但所參照的詞表體量較小,且適用范圍狹窄。目前仍缺少一個(gè)規(guī)模適中的古籍漢字分級(jí)字表,因此基于大規(guī)模古籍文本語料研制古漢語的分級(jí)字表具有重要意義。

        分級(jí)字表的研制需在常用字表、通用字表統(tǒng)計(jì)基礎(chǔ)上完成。采用科學(xué)統(tǒng)計(jì)方法進(jìn)行的常用字研究始于20世紀(jì)20年代。(費(fèi)錦昌 1988)1921年,著名教育家陳鶴琴統(tǒng)計(jì)了白話文中漢字出現(xiàn)的頻率,并于1928年出版《語體文應(yīng)用字匯》,這是我國(guó)第一本現(xiàn)代漢字字頻統(tǒng)計(jì)專著,為漢字的計(jì)量研究做出了寶貴貢獻(xiàn)。(蘇培成 2001)1988年,國(guó)家語言文字工作委員會(huì)完成了《現(xiàn)代漢語常用字表》和《現(xiàn)代漢語通用字表》的制定,這是當(dāng)代常用字表研制的重要里程碑?!冬F(xiàn)代漢語常用字表》共收字3500個(gè),含2500個(gè)常用字和1000個(gè)次常用字,《現(xiàn)代漢語通用字表》共收字7000個(gè),包括3500個(gè)常用字。除常用字表外,面向不同應(yīng)用的分級(jí)字表也層出不窮,且兼顧了分級(jí)需要,其分級(jí)情況如表1所示:

        表1中的分級(jí)字表均基于現(xiàn)代漢語語料研制而成,適用于對(duì)外漢語教學(xué)、漢字應(yīng)用水平測(cè)試等工作與研究,面向古漢語文本難度分級(jí)字表研究及成果則較少。古漢語的字表研究多為專書的字匯研究,如針對(duì)《急就篇》(陳黎明 1996)、《詩經(jīng)》(毛承慈 2012)、《孟子》(馮莉 2012)等具體作品的字匯統(tǒng)計(jì)分析。目前,盡管有一些高質(zhì)量古漢語字典(《古漢語常用字典》),但其往往更注重收字全面、收字量大(如《漢語大字典》收列單字約5.6萬個(gè)),與分級(jí)字表旨趣不同。

        因此,我們提出建立古籍文獻(xiàn)的分級(jí)字表,解決古籍文獻(xiàn)在文本難度分級(jí)、信息處理等方面的切實(shí)需求。我們基于大規(guī)模古籍文本語料庫中的字頻信息,綜合考慮了筆畫數(shù)、構(gòu)詞能力、分布率、義項(xiàng)個(gè)數(shù)等11個(gè)分級(jí)計(jì)量特征,確定古籍漢字的優(yōu)先級(jí)別,構(gòu)建出《古籍漢字分級(jí)字表》,為古籍文本難度分級(jí)提供必要的基礎(chǔ)字表;同時(shí),助力加強(qiáng)面向辭書編撰的語言文字信息化平臺(tái)建設(shè),進(jìn)而為古文分級(jí)閱讀、古文讀寫能力水平測(cè)試、古文篇章的自動(dòng)分級(jí)等研究奠定基礎(chǔ),從而提升以古代典籍為依托的中華優(yōu)秀傳統(tǒng)文化傳承和傳播的效度,對(duì)于延續(xù)文化根脈、增強(qiáng)文化自信具有重要意義。

        一、 《古籍漢字通用字表》的研制

        (一) 選字來源

        本研究選用文淵閣《四庫全書》作為統(tǒng)計(jì)語料,構(gòu)建了包含3408個(gè)古籍文本,25277個(gè)字型,731852425個(gè)字例的古籍文本語料庫?!端膸烊珪贩譃榻?jīng)、史、子、集四部,內(nèi)容體裁豐富多樣,被譽(yù)為傳統(tǒng)文化的巨典,古代典籍的淵藪(汪受寬,劉鳳強(qiáng) 2005),以其作為統(tǒng)計(jì)語料,可避免單一類型文本對(duì)字表選字的負(fù)面影響。同時(shí),由于它匯集了我國(guó)清代乾隆以前各朝代的主要典籍文獻(xiàn),有利于我們將不同時(shí)期的用字情況納入考量,可以避免根據(jù)某一特定時(shí)期用字情況選取通用字的局限。

        (二) 選字?jǐn)?shù)量

        作為面向古籍閱讀的字表,收字?jǐn)?shù)量必須適中。數(shù)量過多,不能降低使用者的學(xué)習(xí)負(fù)擔(dān);數(shù)量太少,不能滿足實(shí)際閱讀需要?!豆偶疂h字通用字表》選字?jǐn)?shù)量的確定主要基于以下三點(diǎn)考慮。

        1. 參考其他字表收字?jǐn)?shù)量

        我國(guó)的字表研究已有一些重要成果,這些通用字表的收字?jǐn)?shù)量大都在6000—8500個(gè),如《現(xiàn)代漢語通用字表》收字7000個(gè),《通用規(guī)范漢字表》收字8105個(gè)。經(jīng)過數(shù)十年的應(yīng)用和實(shí)踐,6000—8500這一收字量范圍已經(jīng)得到廣泛認(rèn)可,被證明是合適的收字量,因此,《古籍漢字通用字表》的收字?jǐn)?shù)量應(yīng)該也在這一范圍內(nèi)。

        2. 根據(jù)漢字效用遞減率確定

        周有光(1984)先生曾提出“漢字效用遞減率”,高頻漢字效用較高,而低頻漢字效用則較低。確定通用字的數(shù)量,需要考察高頻通用古籍漢字的覆蓋率。利用構(gòu)建的古籍文本語料庫,我們對(duì)《四庫全書》中的高頻字型進(jìn)行了文本覆蓋率統(tǒng)計(jì),結(jié)果如表2所示:

        由表2可知,高頻漢字對(duì)于提高文本覆蓋率有著很大的作用。在《四庫全書》25277個(gè)字型中,前1000個(gè)高頻字型就覆蓋了82.1%的語料,前7000個(gè)高頻字型的覆蓋率高達(dá)99.58%,而字頻靠后的1.8萬多個(gè)字型,只能使文本覆蓋率增加0.42%。因此,根據(jù)文本覆蓋率,《古籍漢字通用字表》的收字量應(yīng)在7000個(gè)左右。

        3. 根據(jù)理解文本所需漢字量確定

        理解古籍文本內(nèi)容,需要一定的漢字量,但在閱讀過程中,可能會(huì)遇到陌生的低頻漢字,這時(shí)需要從上下文中推測(cè)這些未知漢字的意義。Liu和Nation(1985)的實(shí)驗(yàn)表明,要想從語境中猜測(cè)未知詞,以獲得對(duì)文本足夠的理解,需要對(duì)文本進(jìn)行95%的覆蓋。

        綜合以上三點(diǎn),我們將《古籍漢字通用字表》的收字?jǐn)?shù)量確定為7000個(gè),將字頻靠前的7000字型作為候選,作為構(gòu)建分級(jí)字表的初步嘗試。

        (三) 選字原則

        古籍漢字字形復(fù)雜,存在大量的繁體、異體字形,要想全部保留下來也是不可能的?!豆偶疂h字分級(jí)字表》主要有兩個(gè)服務(wù)目標(biāo):一是為古漢語文本難度分級(jí)提供必要的基礎(chǔ)字表,二是促進(jìn)古籍文獻(xiàn)在當(dāng)代的傳播。這就要求我們?cè)趯?duì)通用層面的繁體、異體字形進(jìn)行規(guī)范時(shí),必須遵從科學(xué)性和適用性的原則。因此,有必要確立《古籍漢字通用字表》的收字原則,盡可能對(duì)古籍通用范圍內(nèi)的漢字字形進(jìn)行系統(tǒng)整理,歸納一個(gè)個(gè)散見的字樣,上升到字種,為古籍閱讀需求者排除閱讀障礙,達(dá)到普及古籍文獻(xiàn)的目的。同時(shí),為了保存古籍的原貌,在收錄某一字種后,列出其在通用范圍內(nèi)出現(xiàn)的散見字樣,從而使得《古籍漢字通用字表》的收字更加科學(xué)明晰,為漢字分級(jí)打下堅(jiān)實(shí)基礎(chǔ)。收字樣例詳見表3:

        《通用規(guī)范漢字表》在提供現(xiàn)代漢語通用層面用字標(biāo)準(zhǔn)的同時(shí),也十分重視繁體字的使用問題,附有《規(guī)范字與繁體字、異體字對(duì)照表》,收錄了3120個(gè)規(guī)范字及相應(yīng)的繁體字、異體字?!豆偶∷⑼ㄓ米忠?guī)范字形表》的發(fā)布實(shí)施填補(bǔ)了繁體字字形規(guī)范方面的空白,是我國(guó)漢字規(guī)范工作的又一次重要實(shí)踐。兩個(gè)標(biāo)準(zhǔn)相輔相成,成為《古籍漢字通用字表》收字的重要參照。

        基于此,我們堅(jiān)持從古籍用字的實(shí)際出發(fā),遵從優(yōu)選原則,參照《古籍印刷通用字規(guī)范字形表》及《規(guī)范字與繁體字、異體字對(duì)照表》,在保存古籍漢字原貌的同時(shí),優(yōu)選漢字作為字種,并列出該字種相應(yīng)的散見字樣,以構(gòu)建兼具科學(xué)性與適用性的《古籍漢字通用字表》。

        二、 《古籍漢字分級(jí)字表(7000字)》的研制

        縱觀字詞量表研制歷程,對(duì)漢字屬性的研究是漢字表成功研制的基石。所謂漢字的屬性,就是漢字包含的信息。漢字屬性包括漢字的字形、讀音、意義、編碼、應(yīng)用等方面的特征,有效地統(tǒng)計(jì)分析和全面認(rèn)識(shí)這些特征對(duì)于科學(xué)地研究漢字至關(guān)重要。邢紅兵(2011)也認(rèn)為,要進(jìn)行科學(xué)的漢字研究,就必須將漢字的統(tǒng)計(jì)屬性和認(rèn)知特點(diǎn)兩方面相結(jié)合。因此,本字表的研制將以漢字的統(tǒng)計(jì)屬性和認(rèn)知特點(diǎn)兩個(gè)維度為統(tǒng)攝,依據(jù)漢字的字形、字音、字義以及字用四個(gè)層面的相關(guān)研究,合理設(shè)計(jì)漢字分級(jí)計(jì)量特征,做到“先易后難、由淺入深、循序漸進(jìn)”(李兆麟 2014)。

        (一) 分級(jí)計(jì)量特征設(shè)計(jì)

        1. 漢字應(yīng)用層面的分級(jí)計(jì)量特征

        (1) 字頻:字頻反映了一個(gè)漢字的常用度,已有研究表明,無論是在以漢語為第一語言還是第二語言的學(xué)習(xí)者中,漢字的認(rèn)知加工均存在頻率效應(yīng),即與低頻漢字相比,留學(xué)生在高頻漢字上的認(rèn)讀表現(xiàn)更好。(江新等 2006;郝美玲 2018)在字詞量表研制中,頻率也是重要參考特征,如《義務(wù)教育常用詞表(草案)》在對(duì)詞表進(jìn)行分級(jí)時(shí),依據(jù)頻率高低來排列順序,做到常用的詞先學(xué),不太常用的詞后學(xué);普遍的詞先學(xué),較為專門的詞后學(xué)。(蘇新春 2017)我們已經(jīng)根據(jù)漢字的字頻及文本覆蓋率情況確定了《古籍漢字通用字表》的7000字,由于字頻高的漢字對(duì)應(yīng)較高的文本覆蓋率,因此我們假設(shè)一個(gè)漢字的字頻越高,優(yōu)先級(jí)別越高。

        (2) 分布率:確定一個(gè)字是否常用,不能單純依靠字頻,還須考慮其使用范圍。如果某字出現(xiàn)的文本個(gè)數(shù)多,則說明其分布均勻,使用面廣;反之則分布不均,使用面窄。我們用“分布率”表示漢字這一特征,某字的分布率規(guī)定為該字型出現(xiàn)的文本數(shù)與總文本數(shù)的比率,(郭曙綸 2009)其計(jì)算公式為:

        分布率=

        基于此,我們假設(shè)如果某字型出現(xiàn)的文本個(gè)數(shù)越多,分布率越高,則說明其分布得越均勻,該字越常用,優(yōu)先級(jí)別越高。通過統(tǒng)計(jì)7000字在3408個(gè)古籍文本出現(xiàn)的文本個(gè)數(shù),可計(jì)算得到各字的分布率。

        (3) 構(gòu)詞能力:在考慮選擇哪些漢字作為基礎(chǔ)漢字時(shí),除了要考慮字頻和分布率外,還要考慮漢字的構(gòu)詞能力。(趙金銘 1989)漢字的構(gòu)詞能力是指漢字與其他漢字組合構(gòu)成新詞的能力,常以漢字參與構(gòu)詞的數(shù)量來衡量。(江新等2006)在第二語言習(xí)得研究領(lǐng)域,不少學(xué)者對(duì)漢字“構(gòu)詞能力”在漢字加工中的作用進(jìn)行了一些實(shí)驗(yàn)性探討,發(fā)現(xiàn)歐美學(xué)生漢字學(xué)習(xí)中存在“構(gòu)詞數(shù)效應(yīng)”,即在學(xué)生學(xué)過的詞表中,漢字的構(gòu)詞數(shù)影響其認(rèn)讀的正確率,構(gòu)詞數(shù)越多,漢字認(rèn)讀成績(jī)?cè)胶?。(江新?2006;郝美玲 2018)因此,我們認(rèn)為一個(gè)漢字的構(gòu)詞能力強(qiáng),則說明該字具有較強(qiáng)的實(shí)用性和組合能力,優(yōu)先級(jí)別應(yīng)當(dāng)越高。

        《漢語大詞典》是一部大型歷時(shí)漢語語文辭書,按照“古今兼收,源流并重”的原則,收錄了30多萬個(gè)詞語,因此,我們基于《漢語大詞典》的詞匯歷時(shí)數(shù)據(jù)庫,考察古籍漢字的構(gòu)詞能力。結(jié)果表明,《古籍漢字通用字表》選取的7000字,除了可以單獨(dú)成詞外,絕大多數(shù)還可以與其他字組合構(gòu)成新詞。掌握了構(gòu)詞能力強(qiáng)的字,便很容易認(rèn)讀理解它們組成的詞語。以“王”為例,其參與的構(gòu)詞有“魏王”“國(guó)王”“鬼戎王”等,學(xué)習(xí)者在習(xí)得“王”字的基本語義及用法后,在古籍閱讀中,無論是遇到“陳王”還是“楚王”,皆可推測(cè)其表示某君主或諸侯王。因此構(gòu)詞能力同樣是判定漢字學(xué)習(xí)優(yōu)先級(jí)別的指標(biāo)之一?;凇稘h語大詞典》統(tǒng)計(jì)得到構(gòu)詞數(shù)量較高的漢字情況如表4所示:

        2. 字形層面的分級(jí)計(jì)量特征

        漢字是記錄漢語的書寫符號(hào)體系,是最重要的輔助性交際工具。(李索 2004)從書寫符號(hào)的角度來看,漢字難度與其視覺呈現(xiàn)字形密切相關(guān)。

        (1) 結(jié)構(gòu)方式:結(jié)構(gòu)方式是漢字不同部件的組合形式,漢字總體可以分為獨(dú)體字和合體字。以往研究表明,不同漢字結(jié)構(gòu)方式的認(rèn)知難易度存在明顯的差異,從易到難依次為獨(dú)體字、左右結(jié)構(gòu)、上下結(jié)構(gòu)、包圍結(jié)構(gòu)等。(彭瑞祥等1983;馮麗萍 1999)據(jù)蘇培成(1994)統(tǒng)計(jì),在現(xiàn)代漢語7000個(gè)通用字中,獨(dú)體字雖然只有235個(gè),占3.4%,但除去只能單用的16個(gè)字以外,其余都可用作聲旁,是其他漢字的組成部分。

        對(duì)古籍漢字7000字的字形結(jié)構(gòu)信息進(jìn)行統(tǒng)計(jì),主要分為兩大類:由單個(gè)部件構(gòu)成的獨(dú)體字和由多個(gè)部件構(gòu)成的合體字,合體字可以分為左右結(jié)構(gòu)、上下結(jié)構(gòu)、包圍結(jié)構(gòu)和其他結(jié)構(gòu)(包括嵌套結(jié)構(gòu)、品字結(jié)構(gòu))。其中,獨(dú)體字共有254個(gè),平均筆畫數(shù)為5.059,筆畫數(shù)少,且字頻排名越靠前,獨(dú)體字占比越高。因此,獨(dú)體字的優(yōu)先級(jí)別應(yīng)當(dāng)最高,其次是左右結(jié)構(gòu)、上下結(jié)構(gòu)、包圍結(jié)構(gòu)和其他結(jié)構(gòu)的漢字。

        (2) 筆畫數(shù)量:漢字的筆畫數(shù)影響漢字識(shí)別,即存在“筆畫數(shù)效應(yīng)”。葉重新和劉英茂(1972)認(rèn)為多筆畫字的認(rèn)識(shí)閾最高,最難認(rèn)識(shí),中筆畫字次之,少筆畫字認(rèn)識(shí)閾最低。由此,我們推斷:筆畫數(shù)越少的漢字,字形越簡(jiǎn)單,優(yōu)先級(jí)別應(yīng)當(dāng)越高。通過對(duì)古籍通用7000字進(jìn)行筆畫數(shù)統(tǒng)計(jì),可得到其平均筆畫數(shù)為12.54,其中筆畫數(shù)為12畫的漢字?jǐn)?shù)量最多,筆畫數(shù)最大值為33,是“麤”字,最小值為1畫,包括“一”“乙”兩字。

        (3) 部首:不同的部首具有不同的構(gòu)字能力。對(duì)于那些包含強(qiáng)構(gòu)字能力部首的漢字,應(yīng)優(yōu)先學(xué)習(xí),例如部首為“言”的漢字“謂”“諸”“記”,在學(xué)習(xí)它們時(shí),可以聯(lián)想到其同部首字,加深印象,降低記憶負(fù)擔(dān)。(吳鑑城等2019)因此,在進(jìn)行古籍漢字分級(jí)時(shí),我們也需考慮到部首的影響,那些包含強(qiáng)構(gòu)字能力部首的漢字,優(yōu)先級(jí)別應(yīng)當(dāng)更高。

        通過對(duì)7000字進(jìn)行分析,可得到240個(gè)不同的部首,其中,7.1%的部首只能構(gòu)成單個(gè)漢字,構(gòu)字能力最弱,構(gòu)字?jǐn)?shù)量超過10個(gè)的部首較多,約占部首總數(shù)的46.7%。在所有部首中,構(gòu)字能力最強(qiáng)的是“氵”,構(gòu)字?jǐn)?shù)多達(dá)423個(gè)。表5展示了排名前10的部首及其構(gòu)字?jǐn)?shù)量。

        (4) 繁簡(jiǎn)字形:古籍文獻(xiàn)區(qū)別于現(xiàn)代文獻(xiàn)的顯著特點(diǎn)是使用繁體字記錄。(閻瑞君,陳軍 2003)對(duì)于沒有專門接受過文字訓(xùn)練的讀者來說,大量的繁體字會(huì)嚴(yán)重影響對(duì)古籍的閱讀和理解。(王立軍 2023)分析古籍文獻(xiàn)中的漢字,不可避免地需要考慮到漢字繁簡(jiǎn)字形的使用及變化,我們對(duì)7000字的繁簡(jiǎn)字形進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)有4845個(gè)漢字仍保持原字形,2155個(gè)漢字進(jìn)行了簡(jiǎn)化,字形上有了與繁體字形相對(duì)應(yīng)的簡(jiǎn)體字形,這種字形差異變化主要體現(xiàn)在筆畫數(shù)量上。通過對(duì)這2155個(gè)漢字進(jìn)行專門分析可知,它們的繁體字形平均筆畫數(shù)為15.16,簡(jiǎn)體字形平均筆畫數(shù)為9.42。其中,筆畫數(shù)變化最大的漢字為“鬭”,經(jīng)過字形簡(jiǎn)化后,變?yōu)椤岸贰?,筆畫數(shù)由26畫變?yōu)?畫,減少了22畫。通過前文可知,漢字識(shí)別存在筆畫數(shù)效應(yīng),因此,我們認(rèn)為沒有繁簡(jiǎn)字形變化的漢字,優(yōu)先級(jí)別應(yīng)當(dāng)更高,有繁簡(jiǎn)字形變化的漢字優(yōu)先級(jí)別應(yīng)較低。

        (5) 異體字個(gè)數(shù):一個(gè)漢字如果異體字?jǐn)?shù)量很多,則說明在古籍文獻(xiàn)中異體字替代本字的可能性較大,進(jìn)而影響人們閱讀,增加閱讀難度。那么同一個(gè)漢字,為什么會(huì)出現(xiàn)多個(gè)不同的字形?基于最樸素的判斷,我們認(rèn)為這是由于該漢字的使用者眾多,使用范圍廣,不同的人又具有不同的書寫風(fēng)格和習(xí)慣。正因如此,同一個(gè)漢字在數(shù)量龐大的使用群體中,字形難以實(shí)現(xiàn)規(guī)范統(tǒng)一,而使用范圍的廣闊性又導(dǎo)致了各地文字的變化并不完全一致,如戰(zhàn)國(guó)時(shí)期六國(guó)使用的文字與秦國(guó)有別,同一個(gè)“皇”字,秦國(guó)、齊國(guó)、蔡國(guó)和魯國(guó)分別有不同的寫法。(丁琳琳 2009)同時(shí),我們認(rèn)為異體字?jǐn)?shù)量的多少可以反映漢字的常用性,一個(gè)漢字,只有使用得多,才有可能出現(xiàn)多個(gè)字形,具有多個(gè)異體字。因此,我們認(rèn)為如果一個(gè)漢字異體字?jǐn)?shù)量較多,則說明其越常用,優(yōu)先級(jí)別越高。利用漢典網(wǎng),[1]我們獲取了7000字異體字信息,并對(duì)不同字頻段漢字異體字?jǐn)?shù)量進(jìn)行統(tǒng)計(jì),如表6所示。可以看到,字頻排名越靠前的漢字,平均異體字?jǐn)?shù)量越多。這說明通用性高的漢字,往往在異體字?jǐn)?shù)量上具有優(yōu)勢(shì),優(yōu)先級(jí)別應(yīng)當(dāng)更高。

        3. 字音層面的分級(jí)計(jì)量特征

        一個(gè)漢字可能有多個(gè)讀音,相較于單音字,多音字發(fā)生誤讀進(jìn)而產(chǎn)生錯(cuò)誤理解的可能性更大,因此更難掌握。通過對(duì)古籍漢字7000字的讀音數(shù)量進(jìn)行統(tǒng)計(jì),我們發(fā)現(xiàn)絕大部分漢字為單音字,單音字占比為75.57%,在多音字中,雙音字占比最高,為13.11%,三音字等總計(jì)占比2%。將單音字放在多音字之前學(xué)習(xí)是合理的,因?yàn)閱我糇衷谧R(shí)記時(shí)不易發(fā)生混亂。針對(duì)多音字,我們采取簡(jiǎn)化標(biāo)注方案,不考慮多音字的讀音數(shù)量對(duì)學(xué)習(xí)優(yōu)先級(jí)別的影響,直接將漢字分為單音字和多音字,其中單音字的優(yōu)先級(jí)別較高,多音字的優(yōu)先級(jí)別較低。

        4. 字義層面的分級(jí)計(jì)量特征

        (1) 詞性用法標(biāo)簽數(shù)量:古漢語詞匯具有以單音節(jié)詞為主的特點(diǎn),從書寫符號(hào)的角度來看,一個(gè)個(gè)詞語就是一個(gè)個(gè)漢字。一個(gè)漢字往往具有多個(gè)詞性用法標(biāo)簽,這些標(biāo)簽是我們對(duì)漢字進(jìn)行分級(jí)的重要依據(jù)。借助漢典網(wǎng)上“國(guó)語辭典”對(duì)漢字的解釋,我們對(duì)7000字的詞性用法標(biāo)簽進(jìn)行了獲取,漢字的詞性用法標(biāo)簽共分為名、動(dòng)、形、代、副、嘆、連、助、綴9類,一個(gè)漢字的詞性用法標(biāo)簽個(gè)數(shù)越多,則說明它的用法越多,在實(shí)際使用中,該字能充當(dāng)多種角色,優(yōu)先級(jí)別應(yīng)當(dāng)越高。

        (2) 義項(xiàng)個(gè)數(shù):在漢字的每個(gè)詞性用法標(biāo)簽下面,對(duì)應(yīng)著多個(gè)不同的義項(xiàng)。如“書”字,在“動(dòng)詞”這一詞性標(biāo)簽下,有兩個(gè)義項(xiàng):①寫;②記載。義項(xiàng)個(gè)數(shù)能夠說明字義的多樣性。一個(gè)漢字,其義項(xiàng)個(gè)數(shù)越多,能表示的含義也就越多,優(yōu)先級(jí)別也就越高。

        (二) 數(shù)據(jù)統(tǒng)計(jì)及漢字分級(jí)

        利用漢典網(wǎng),我們獲取了古籍漢字7000字的各個(gè)計(jì)量特征信息,并分別賦予了不同計(jì)量特征的優(yōu)先級(jí)別。以筆畫數(shù)信息為例,筆畫數(shù)越少的漢字,優(yōu)先級(jí)別越高,我們根據(jù)筆畫數(shù)對(duì)漢字進(jìn)行分組并賦予各組別漢字不同的優(yōu)先級(jí)別。為避免主觀性劃分,我們采用聚類分析,用機(jī)器自動(dòng)進(jìn)行劃分的方法實(shí)現(xiàn)了漢字在筆畫數(shù)這一計(jì)量特征上的分組。

        K-means算法是一種十分常用的聚類機(jī)器學(xué)習(xí)算法,以筆畫數(shù)為例,我們采用K-means算法對(duì)7000字進(jìn)行聚類。聚類開始時(shí),需要確定聚類個(gè)數(shù)K,這里將K值初步設(shè)定為5,對(duì)漢字進(jìn)行5組分類,聚類開始后,算法首先隨機(jī)選取5個(gè)點(diǎn)作為初始聚類中心,然后計(jì)算各個(gè)樣本到聚類中心的距離,將樣本歸到離它最近的聚類中心所在的類;經(jīng)過多次迭代,聚類中心最終不再變更,聚類結(jié)束。如表7所示,7000字被劃分到5個(gè)不同類別中。各組的取值范圍分別是[1,7]、[8,11]、[12,16]、[17,21]、[22,33],考慮到數(shù)據(jù)分布特點(diǎn),各組漢字?jǐn)?shù)量不同,分別為859個(gè)、2191個(gè)、2666個(gè)、1035個(gè)、249個(gè)。

        在聚類分析的基礎(chǔ)上,我們依照數(shù)據(jù)分組對(duì)各組漢字進(jìn)行學(xué)習(xí)優(yōu)先級(jí)別值的確定,其中筆畫數(shù)越少的漢字優(yōu)先級(jí)別越高,此外又對(duì)各計(jì)量特征依照優(yōu)先級(jí)別由高到低的順序進(jìn)行賦值,數(shù)值越高,則優(yōu)先級(jí)別越高。據(jù)此賦予了各組漢字5、4、3、2、1的優(yōu)先級(jí)別。不同計(jì)量特征下的數(shù)據(jù)分組和優(yōu)先級(jí)別賦予結(jié)果如表7所示:

        特別要說明的是,在使用字頻和分布率這兩個(gè)計(jì)量特征時(shí),我們發(fā)現(xiàn),使用5級(jí)優(yōu)先級(jí)別值會(huì)使得后續(xù)的分級(jí)結(jié)果差距不夠顯著。對(duì)此,針對(duì)字頻和分布率這兩個(gè)計(jì)量特征,我們采用7級(jí)優(yōu)先級(jí)別設(shè)置,其數(shù)據(jù)分組和優(yōu)先級(jí)別賦予如表8所示:

        綜合上述信息,我們獲得了各個(gè)漢字對(duì)應(yīng)不同計(jì)量特征的優(yōu)先級(jí)別值,一個(gè)漢字可以用其計(jì)量特征及對(duì)應(yīng)優(yōu)先級(jí)別表示,例如:書 = 筆畫數(shù)量4+部首構(gòu)字?jǐn)?shù)1+字形結(jié)構(gòu)3+繁簡(jiǎn)字形1+異體字個(gè)數(shù)1+讀音數(shù)量1+詞性用法標(biāo)簽2+義項(xiàng)2+構(gòu)詞能力2+字頻7+分布率7。

        基于此,我們使用向量空間模型(VSM:Vector Space Model)來表示漢字(以下簡(jiǎn)稱“字向量”)。向量空間模型是目前機(jī)器學(xué)習(xí)領(lǐng)域通用的數(shù)據(jù)表示方法,本文將漢字的語言學(xué)特征轉(zhuǎn)換為字向量,建立基于計(jì)量特征學(xué)習(xí)優(yōu)先級(jí)別的向量空間模型。每個(gè)漢字由一個(gè)維度為11的向量表示,一個(gè)計(jì)量特征代表一個(gè)維度,對(duì)應(yīng)維度的權(quán)重為該計(jì)量特征的優(yōu)先級(jí)別,例如“書”字可以表示為字向量“書:(4,1,3,1,1,1,2,2,2,7,7)”,這樣便可獲得基于計(jì)量特征優(yōu)先級(jí)別表示的字向量。漢字字向量表示如表9所示:

        將各字向量映射到歐氏空間,進(jìn)行基于優(yōu)先級(jí)別的各漢字間相似度的計(jì)算。我們的最終目的是實(shí)現(xiàn)漢字的分組,讓相似度高的漢字聚集在一組,相似度低的漢字聚集在另一組,因此,需要設(shè)置一個(gè)用于相似度比較的標(biāo)準(zhǔn)。假設(shè)存在這樣一個(gè)理想漢字,它在各個(gè)計(jì)量特征層面上的優(yōu)先級(jí)別均為最高,則其可以表示為字向量(5,5,5,2,5,2,5,5,5,7,7),以該理想漢字為標(biāo)準(zhǔn),那么與它相似度越高的漢字,優(yōu)先級(jí)別越高。因此,只需計(jì)算各漢字與理想漢字間的相似度即可。

        本研究采用計(jì)算歐氏距離的方法測(cè)量各字向量與理想漢字間的距離。在m維空間,點(diǎn)x與點(diǎn)y的歐氏距離的計(jì)算公式為:

        D(x,y)=

        我們求得各漢字與理想漢字的歐式距離用于后續(xù)漢字分級(jí),結(jié)果如表10所示:

        (三) 分級(jí)結(jié)果

        分級(jí)意味著制造差別,同一級(jí)別內(nèi)部成員應(yīng)當(dāng)是相似的,不同級(jí)別間的成員則存在差異。字表分為幾級(jí),要根據(jù)需求來確定。以往的分級(jí)字表,一般分為3—5級(jí),如《通用規(guī)范漢字表》(3級(jí))、《漢語國(guó)際教育用音節(jié)漢字詞匯等級(jí)劃分》(3級(jí))、《漢字頻率表》(5級(jí))。因此,我們將《古籍漢字分級(jí)字表(7000字)》也確定為3級(jí)。以各漢字與理想漢字的歐式距離為依據(jù),歐式距離越小,則表明該漢字在向量空間與理想漢字間的距離越近,與理想漢字越相似,優(yōu)先級(jí)別越高。我們采用K-means算法對(duì)7000字進(jìn)行聚類,聚類數(shù)為3,結(jié)果如表11所示:

        由此初步確定了共分3級(jí)的《古籍漢字分級(jí)字表(7000字)》,其中甲級(jí)字1516個(gè),乙級(jí)字2421個(gè),丙級(jí)字3063個(gè),甲級(jí)字優(yōu)先級(jí)別最高,乙級(jí)字、丙級(jí)字優(yōu)先級(jí)別遞減。該字表能為古漢語文本難度分級(jí)提供參考,也為古籍文本信息處理提供了基礎(chǔ)字表。

        (四) 基于字層面的古漢語文本難度分級(jí)驗(yàn)證

        古漢語文本難度分級(jí)涉及字詞、句、語法、篇幅等多個(gè)層面,多項(xiàng)研究表明字詞層面因素與文本難度級(jí)別之間具有較高的相關(guān)性。(程勇等 2020;吳思遠(yuǎn)等 2020)然而,目前尚缺乏規(guī)模合適的可用于古漢語文本分級(jí)的基礎(chǔ)字表,前期工作獲得的《古籍漢字分級(jí)字表》為古漢語文本分級(jí)研究奠定了基礎(chǔ)。

        古漢語漢字與漢語詞匯的單位基本切合,一字一詞、一音一義,(王寧 2014)如果能細(xì)致深入地挖掘古籍文本中的漢字信息,就相當(dāng)于從詞匯和漢字兩個(gè)層面對(duì)影響古漢語文本難度級(jí)別的因素進(jìn)行探討,所以,基于字層面對(duì)古漢語文本進(jìn)行分級(jí)驗(yàn)證是合理的。我們依托于《古籍漢字分級(jí)字表(7000字)》,從字這一層面入手,對(duì)古漢語文本難度等級(jí)劃分進(jìn)行驗(yàn)證,以期得到較好的驗(yàn)證結(jié)果。

        目前,針對(duì)古漢語文本分級(jí)研究較少。張秋玲等(2022)從字詞、句子、文體三方面構(gòu)建了文言文難易度評(píng)量模型,并對(duì)中學(xué)語文教科書中出現(xiàn)的52篇文言文的難易度進(jìn)行了1—5級(jí)的劃分。我們將張秋玲等(2022)的5級(jí)劃分合并為3級(jí),并將《古籍漢字分級(jí)字表(7000字)》中三個(gè)難度級(jí)別視作三項(xiàng)指標(biāo),分別統(tǒng)計(jì)了各個(gè)級(jí)別漢字在這52篇文言文中所占比例,計(jì)算出三項(xiàng)指標(biāo)的權(quán)重值分別為2.689、0.247、0.065,因此可以得出每篇文言文的可讀性數(shù)值,數(shù)值越高,該篇文言文越淺易。我們將所得結(jié)果與張秋玲等人的實(shí)驗(yàn)進(jìn)行比對(duì),“/”前為張秋玲等人劃分等級(jí),“/”后為依據(jù)《古籍漢字分級(jí)字表(7000字)》劃分級(jí)別,具體如表12所示:

        由表12可知,張秋玲等(2022)的實(shí)驗(yàn)結(jié)果與依據(jù)《古籍漢字分級(jí)字表(7000字)》劃分結(jié)果的一致率為57.69%,可見,《古籍漢字分級(jí)字表(7000字)》的分級(jí)效果具有一定的合理性。其中,等級(jí)提升的文言文占比為40%,而《答謝中書書》《與朱元思書》《小石潭記》以及《莊子與惠子游于濠梁之上》這四篇文本難度等級(jí)跨度較大,前三篇由比較淺易的1級(jí)提升到3級(jí),通過分析文本可知,其文本用字較難,存在豐富的一詞多義、古今異義現(xiàn)象,張秋玲等人將其劃分為非常淺易是不太合適的,而《莊子與惠子游于濠梁之上》由3級(jí)降到1級(jí),雖然其用字較為簡(jiǎn)單,但屬于議論文體,且寓言豐富,張秋玲等人將其劃分為難是合理的。

        綜上,字層面大致能夠反映出古漢語文本難度等級(jí)差異,但文本分級(jí)仍需要綜合考察各個(gè)層面因素,此后,筆者將繼續(xù)完善字表構(gòu)建,為古文分級(jí)研究提供必要的基礎(chǔ)資源。

        三、 結(jié)論與展望

        為了解決古漢語文本難度分級(jí)的困難,本文基于大規(guī)模古籍文本語料,考察了古籍文本用字信息,統(tǒng)計(jì)構(gòu)建了《古籍漢字通用字表》,并在此基礎(chǔ)上制定出11個(gè)漢字分級(jí)計(jì)量特征,實(shí)現(xiàn)了《古籍漢字分級(jí)字表(7000字)》的研制,其中甲級(jí)字1516個(gè),乙級(jí)字2421個(gè),丙級(jí)字3063個(gè)。

        然而,本研究仍有值得改進(jìn)與發(fā)展之處:首先,各個(gè)計(jì)量特征在劃定級(jí)別時(shí),有時(shí)需要主觀判斷,因此在一定程度上會(huì)帶有主觀性,仍需進(jìn)一步加強(qiáng)主觀性的一致性檢驗(yàn)工作;其次,雖然我們考慮了11個(gè)計(jì)量特征,但仍可能是不完善的,需要在今后借鑒更多的分級(jí)特征,優(yōu)化漢字的分級(jí);最后,《古籍漢字分級(jí)字表(7000字)》的應(yīng)用效果,需要通過具體的實(shí)踐去驗(yàn)證,不斷加以研究和調(diào)整。在未來工作中,我們還將基于《古籍漢字分級(jí)字表(7000字)》,對(duì)古文分級(jí)閱讀、古文水平分級(jí)評(píng)測(cè)等任務(wù)進(jìn)行研究,助力中國(guó)古代典籍和文化的普及與推廣。

        附 注

        [1] 漢典網(wǎng):https://www.zdic.net。

        參考文獻(xiàn)

        1. 白瑞芬.國(guó)學(xué)經(jīng)典少兒讀物分級(jí)改編的問題與思路.編輯學(xué)刊,2017(3).

        2. 陳黎明.《急就篇》用字初探.中國(guó)語文,1996(6).

        3. 程勇,徐德寬.基于多層面語言特征的中文文本閱讀難度自動(dòng)分級(jí)研究.第20屆漢語詞匯語義學(xué)國(guó)際研討會(huì)(北京信息科技大學(xué)),2019.

        4. 程勇,徐德寬,董軍.基于語文教材語料庫的文本閱讀難度分級(jí)關(guān)鍵因素分析與易讀性公式研究.語言文字應(yīng)用,2020(1).

        5. 丁琳琳.《第一批異體字整理表》發(fā)布以來的漢字異體字整理研究.山東大學(xué)碩士學(xué)位論文,2009.

        6. 杜月明,王亞敏,王蕾.漢語水平考試(HSK)閱讀文本可讀性自動(dòng)評(píng)估研究.語言文字應(yīng)用,2022(3).

        7. 費(fèi)錦昌.常用字的性質(zhì)、特點(diǎn)及其選取標(biāo)準(zhǔn).語文學(xué)習(xí),1988(9).

        8. 馮莉.基于《孟子》字料庫的字頻統(tǒng)計(jì)與研究.北京師范大學(xué)碩士學(xué)位論文,2012.

        9. 馮麗萍.漢字認(rèn)知規(guī)律與漢字教學(xué)原則. //呂必松主編. 漢字與漢字教學(xué)研究論文選.北京:北京大學(xué)出版社,1999.

        10. 馮志偉.現(xiàn)代漢字和計(jì)算機(jī).北京:北京大學(xué)出版社,1989.

        11. 郭曙綸.漢語語料庫大規(guī)模統(tǒng)計(jì)與小規(guī)模統(tǒng)計(jì)的對(duì)比.語言文字應(yīng)用,2009(2).

        12. 郭望皓.對(duì)外漢語文本易讀性公式研究.上海交通大學(xué)碩士學(xué)位論文,2010.

        13. 郝美玲.高級(jí)漢語水平留學(xué)生漢字認(rèn)讀影響因素研究.語言教學(xué)與研究,2018(5).

        14. 江新,趙果,黃慧英,等.外國(guó)學(xué)生漢語字詞學(xué)習(xí)的影響因素——兼論《漢語水平大綱》字詞的選擇與分級(jí).語言教學(xué)與研究,2006(2).

        15. 蔣智威.面向可讀性評(píng)估的文本表示技術(shù)研究.南京大學(xué)博士學(xué)位論文,2018.

        16. 李索.漢字與中華傳統(tǒng)文化.北京:高等教育出版社,2004.

        17. 李兆麟.談常用字詞的選取及其等級(jí)劃分.辭書研究,2014(2).

        18. 毛承慈.基于字料庫的《詩經(jīng)》文字研究.北京師范大學(xué)碩士學(xué)位論文,2012.

        19. 彭瑞祥,喻柏林.不同結(jié)構(gòu)的漢字再認(rèn)的研究. //中國(guó)心理學(xué)會(huì)普通心理學(xué)與實(shí)驗(yàn)心理學(xué)專業(yè)委員會(huì)編.普通心理學(xué)與實(shí)驗(yàn)心理學(xué)論文集.蘭州:甘肅人民出版社,1983.

        20. 蘇培成.現(xiàn)代漢字學(xué)綱要.北京:北京大學(xué)出版社,1994.

        21. 蘇培成.二十世紀(jì)的現(xiàn)代漢字研究.太原:書海出版社,2001.

        22. 蘇新春.《義務(wù)教育常用詞表(草案)》研制的理論與方法.語言文字應(yīng)用,2017(3).

        23. 孫剛.基于線性回歸的中文文本可讀性預(yù)測(cè)方法研究.南京大學(xué)碩士學(xué)位論文,2015.

        24. 汪受寬,劉鳳強(qiáng).《四庫全書》研究的回顧與思考.史學(xué)史研究,2005(1).

        25. 王蕾.初中級(jí)日韓學(xué)習(xí)者漢語文本可讀性公式研究.語言教學(xué)與研究,2017(5).

        26. 王立軍.繁體字字形規(guī)范的基本理念與當(dāng)代實(shí)踐.語言文字應(yīng)用,2023(1).

        27. 王寧.論漢字與漢語的辯證關(guān)系——兼論現(xiàn)代字本位理論的得失.北京師范大學(xué)學(xué)報(bào),

        2014(1).

        28. 吳鑑城,白明弘,林慶隆.臺(tái)灣華語文語料庫在華語文教育的應(yīng)用.華語文教學(xué)研究,

        2019(3).

        29. 吳思遠(yuǎn),于東,江新.漢語文本可讀性特征體系構(gòu)建和效度驗(yàn)證.世界漢語教學(xué),2020(1).

        30. 邢紅兵.漢字的統(tǒng)計(jì)研究與對(duì)外漢字教學(xué).漢字教學(xué)與研究,2011(12).

        31. 閻瑞君,陳軍.古籍書目數(shù)據(jù)庫中繁簡(jiǎn)字的使用.圖書與情報(bào),2003(3).

        32. 葉重新,劉英茂.影響本國(guó)文字認(rèn)識(shí)閾的因素.臺(tái)北:臺(tái)灣大學(xué)心理學(xué)系研究報(bào),1972(14).

        33. 張寧志.漢語教材語料難度的定量分析.世界漢語教學(xué),2000 (3).

        34. 張秋玲,牛青森,趙寧寧.中學(xué)語文教科書文言選文難易度評(píng)量模型檢驗(yàn).語言文字應(yīng)用,2022(3).

        35. 趙金銘.近十年對(duì)外漢語教學(xué)研究評(píng)述.語言教學(xué)與研究,1989(1).

        36. 周有光.現(xiàn)代漢語用字的定量問題.辭書研究,1984(4).

        37. 左虹,朱勇.中級(jí)歐美留學(xué)生漢語文本可讀性公式研究.世界漢語教學(xué),2014(2) .

        38. Liu Na,Nation I S P. Factors Affecting Guessing Vocabulary in Context. RELC Journal 1985,16(1):33-42.

        (余 雪 南京一中明發(fā)濱江分校 江蘇 210031;

        馮敏萱 南京師范大學(xué)文學(xué)院/南京師范大學(xué)語言大數(shù)據(jù)與計(jì)算人文研究中心 江蘇 210097;

        李 斌 南京師范大學(xué)文學(xué)院/南京師范大學(xué)語言大數(shù)據(jù)與計(jì)算人文研究中心 江蘇 210097)

        (責(zé)任編輯 郎晶晶)

        www.日本一区| 精品人妻午夜一区二区三区四区 | 乱人伦中文无码视频在线观看| 在线亚洲综合| 国产精品专区一区二区av免费看| 亚洲国产综合在线亚洲区亚洲av| 色婷婷五月综合久久| 国产精品亚洲五月天高清| 手机在线中文字幕国产| 日本系列有码字幕中文字幕| 国内精品人妻无码久久久影院| 亚洲国产欧美在线成人| 久久迷青品着产亚洲av网站| av日韩高清一区二区| 免费久久人人爽人人爽av| 国产三级在线视频播放| 日韩精品夜色二区91久久久| 中文字幕乱码亚洲无限码| 久久亚洲私人国产精品va| 国产aⅴ夜夜欢一区二区三区| 国产精品丝袜美腿诱惑| 久青草影院在线观看国产| 亚洲av日韩av综合| 92精品国产自产在线观看48页 | 中文字幕精品久久天堂一区 | 精品亚洲一区二区三洲| 国产精品多人p群无码| 7878成人国产在线观看| 九九日本黄色精品视频| 久久一本日韩精品中文字幕屁孩 | 亚洲日韩欧美国产另类综合| 亚洲啊啊啊一区二区三区| 91成人自拍在线观看| 国产精品一区二区无线| 乱人伦视频69| 一本色道精品亚洲国产一区| 欧美黑寡妇特a级做爰| 九九99久久精品在免费线18| 美女被搞在线观看一区二区三区 | 五十路熟女一区二区三区| 视频精品亚洲一区二区|