亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于回歸模型的對外漢語閱讀材料的可讀性自動(dòng)評(píng)估研究

        2018-08-30 06:02:56孫未未曾致中
        中國教育信息化 2018年15期
        關(guān)鍵詞:可讀性特征選擇特征

        孫未未 ,夏 菁,曾致中

        (1.華中師范大學(xué) 國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心,湖北 武漢430079;2.華中師范大學(xué) 國際文化交流學(xué)院,湖北 武漢430079)

        一、引言

        隨著我國綜合實(shí)力的提升和“一帶一路”戰(zhàn)略的實(shí)施,對外漢語教學(xué)的需求量與日俱增。[1]在對外漢語教學(xué)專業(yè)設(shè)立近30年間,該教學(xué)事業(yè)獲得蓬勃發(fā)展,但也伴隨著不規(guī)范的問題。[2]北京語言文化大學(xué)張志寧副教授認(rèn)為在漢語教材尤其是中高級(jí)教材的選擇和編排上,對難度的控制和安排還遠(yuǎn)遠(yuǎn)說不上是科學(xué)和合理的,仍存在缺乏客觀統(tǒng)一的標(biāo)準(zhǔn)和過度依賴教師主觀經(jīng)驗(yàn)的問題。[3]目前對外漢語閱讀材料難度評(píng)估成果較少,仍以形式較為簡單的“可讀性公式”評(píng)估為主,其效果離實(shí)際應(yīng)用還有一定差距。[4]因此,本研究利用機(jī)器學(xué)習(xí)等先進(jìn)的信息科學(xué)統(tǒng)計(jì)方法,重在對多維特征數(shù)據(jù)的深度挖掘與科學(xué)分析,探究特征背后的對外漢語編制內(nèi)在規(guī)律的隱性關(guān)系以實(shí)現(xiàn)對外漢語閱讀材料更高質(zhì)量的可讀性評(píng)估,此項(xiàng)研究具有十分重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。

        對外漢語閱讀材料的可讀性評(píng)估屬于漢語文本可讀性研究的一個(gè)分支。目前,漢語可讀性研究方法主要有以下四種:①可讀性公式法,如黃敏[6]、荊溪昱[10]等人建立的中文可讀性公式。②基于認(rèn)知理論法,例如WordNet(單詞語義關(guān)系網(wǎng)絡(luò))在線詞匯數(shù)據(jù)庫和Coh-Metrix可讀性相關(guān)指標(biāo)計(jì)算工具等研究成果。該方法為文本難度評(píng)估提供了更好的理論支撐和解釋說明,但是相比較傳統(tǒng)的可讀性公式法,其結(jié)果并不具有特別的優(yōu)越性。[11]③基于單詞統(tǒng)計(jì)的語言模型法,單詞統(tǒng)計(jì)語言模型主要通過特定可讀性級(jí)別的語言模型生成文本中特定單詞或單詞組的概率大小來預(yù)測文本可讀性級(jí)別。[12]對比可讀性公式,該方法較好地解決了Web短文本難度評(píng)估問題。[13][14]④特征結(jié)合機(jī)器學(xué)習(xí)的方法是基于NLP(自然語言處理技術(shù))和機(jī)器學(xué)習(xí)的發(fā)展,結(jié)合復(fù)雜特征和新的方法應(yīng)用于文本難度評(píng)估中。[5]機(jī)器學(xué)習(xí)中的分類或者回歸方法有支持向量機(jī)、多元線性回歸等。按照與學(xué)習(xí)算法結(jié)合的方式,將監(jiān)督特征選擇技術(shù)分為嵌入特征選擇、包裝特征選擇和排序特征選擇三類。該方法可以將公式法、認(rèn)知理論方法和語言模型方法的預(yù)測結(jié)果作為特征指標(biāo)加入到分類模型中進(jìn)而提高評(píng)估性能,較其他評(píng)估方法具有較大的優(yōu)越性。[15][16][17][18][19][20]比如Yaw-Huei Chen等人基于術(shù)語TF-IDF值選擇結(jié)合SVM的方法評(píng)估小學(xué)教科書三門學(xué)科的文章難度,有效地識(shí)別出適合低中年級(jí)學(xué)生的文章。[21]Schwarm和Ostendorf應(yīng)用SVM算法結(jié)合三元語言模型方法評(píng)估英語新聞文章的可讀性,實(shí)驗(yàn)結(jié)果顯示SVM算法對文本難度評(píng)估準(zhǔn)確率顯著高于傳統(tǒng)公式法。[14]

        對外漢語的教授對象是以漢語為第二語言的學(xué)習(xí)者,閱讀材料能使其掌握漢語的特殊規(guī)律。對外漢語閱讀材料難度評(píng)估領(lǐng)域主要針對兩個(gè)方面進(jìn)行研究:一方面是文本的哪些特征與難度相關(guān),且相關(guān)性更強(qiáng);另一方面是對如何測定這些特征與文本難度關(guān)系的方法研究。下面主要針對這兩方面的研究介紹相關(guān)的兩種方法——可讀性公式法和特征結(jié)合機(jī)器學(xué)習(xí)法。對外漢語領(lǐng)域中的可讀性公式有:一是張志寧改進(jìn)愛德華·弗萊提出的“句長-音節(jié)數(shù)”測量法[3];二是王雷主要用詞匯和句子作為影響因素制定的可讀性公式[22][23][24];三是楊金余通過統(tǒng)計(jì)不同等級(jí)詞頻和固定詞組來測定高級(jí)精讀教材在詞匯層面上難度的方法[4][23][24];四是鄒紅建、楊爾弘等人利用文本通用詞的覆蓋率和文本長度實(shí)現(xiàn)的文本難度分類方法[25]。公式法一方面存在易被理解、易于實(shí)現(xiàn)和易統(tǒng)計(jì)所需變量等優(yōu)點(diǎn),另一方面也存在因涉及的特征因素過于簡單,導(dǎo)致直接使用中對文本難易程度表達(dá)不充分的缺點(diǎn)。特征結(jié)合機(jī)器學(xué)習(xí)的方法在漢語中大量的研究結(jié)果表明其具有更高的準(zhǔn)確性,然而在對外漢語中的應(yīng)用還比較少,僅有臺(tái)灣學(xué)者Yao-Ting Sung等人提出的“基于CEFR框架特征結(jié)合SVM算法”分類方法[26]。他的方法是基于分類的,本研究創(chuàng)新性地將SVM回歸方法應(yīng)用于對外漢語閱讀材料難度評(píng)估。回歸方法的優(yōu)點(diǎn)在于教材中的文本可讀性明顯是可以定量刻畫的,彼此存在大小偏序關(guān)系,更能針對問題有效地說明這種內(nèi)在特征。

        本研究通過計(jì)算機(jī)文本分析工具對六套對外漢語高級(jí)教材中的閱讀材料進(jìn)行自然語言處理,提取文本中漢字、詞語、句子、段落等影響文本可讀性(難度)的多層級(jí)特征。通過均勻分割的方法解決設(shè)置回歸中可讀性取值標(biāo)簽的問題,并利用SVM算法進(jìn)行回歸建模。主要步驟包括采集甄選對外漢語閱讀材料,抽取對外漢語文章特征,通過經(jīng)典機(jī)器學(xué)習(xí)算法——SVM算法評(píng)估,應(yīng)用特征工程優(yōu)化算法評(píng)估性能。

        二、研究方法

        本研究所使用的方法屬于特征結(jié)合機(jī)器學(xué)習(xí)的方法,該方法總體架構(gòu)如圖1所示,主要包括對外漢語教材閱讀材料收集甄選、特征抽取、機(jī)器學(xué)習(xí)模型訓(xùn)練與優(yōu)化三個(gè)主要階段,其過程相當(dāng)于抽取經(jīng)典教材中權(quán)威專家的經(jīng)驗(yàn),以形成一個(gè)智能化的專家評(píng)估系統(tǒng)。下面介紹這三個(gè)階段的具體實(shí)施步驟。

        圖1 文本難度評(píng)估方法總體架構(gòu)圖

        1.對外漢語教材閱讀材料收集甄選

        對外漢語教材內(nèi)容的編輯應(yīng)該循序漸進(jìn),代表性教材更能體現(xiàn)權(quán)威專家編制教材的內(nèi)在規(guī)律,也正是本研究構(gòu)建的評(píng)估模型數(shù)據(jù)來源。[27]同時(shí)考慮到特征選擇一致性,比如并非所有的對外漢語閱讀材料都有“生詞”特征。我們通過專家咨詢、對話訪談、數(shù)據(jù)分析等方法甄選了具有代表性和特征一致性的六套教材(見表1),利用掃描儀和pdf轉(zhuǎn)換工具獲取文章閱讀材料電子版,教材及對應(yīng)的文章數(shù)量如表2所示。

        表1 中高級(jí)對外漢語教材說明表

        表2 中高級(jí)對外漢語教材文本樣本數(shù)據(jù)統(tǒng)計(jì)圖

        從以上教材閱讀文章數(shù)量上看,除了《漢語閱讀教程》教材文章中高級(jí)上下冊數(shù)量相對較多以外,將其他5套教材的數(shù)量進(jìn)行統(tǒng)計(jì)分析:中級(jí)上冊文章數(shù)量平均16篇,中級(jí)下冊文章數(shù)量平均16篇,高級(jí)上冊文章數(shù)量平均14篇,高級(jí)下冊文章數(shù)量平均14篇。中級(jí)文章數(shù)略高于高級(jí)文章數(shù)但相差不大。

        2.特征抽取

        對外漢語閱讀材料難度自動(dòng)評(píng)估中,特征抽取相當(dāng)于深度挖掘?qū)<揖幹平滩牡膬?nèi)在規(guī)律,使之?dāng)?shù)量化、形式化、技術(shù)化和科學(xué)化。對外漢語教學(xué)過程是在漢字、詞語、句子、語法等不同層次上循序漸進(jìn)的一個(gè)教學(xué)體系。[28]因此在特征抽取階段,通過自然語言處理的方法,經(jīng)過分詞、詞頻統(tǒng)計(jì)、VBA編程等步驟抽取對外漢語文章在漢字、詞語、句子、語法等不同維度上更精煉且質(zhì)量更高的特征。[29]詳細(xì)抽取過程如圖2所示。

        圖2 特征抽取過程圖

        特征抽取首先要將對外漢語文本進(jìn)行自然語言處理,使用中科院NLPIR漢語分詞系統(tǒng)(該系統(tǒng)由中國科學(xué)院計(jì)算技術(shù)研究所研制,分詞精度達(dá)到98.45%)進(jìn)行分詞處理和詞頻統(tǒng)計(jì),得到對應(yīng)的詞語和詞頻,進(jìn)而構(gòu)建文章詞語特征數(shù)據(jù)庫。本實(shí)驗(yàn)中選用《HSK詞匯等級(jí)標(biāo)準(zhǔn)大綱》和《HSK詞性表》作為詞語等級(jí)評(píng)判的標(biāo)準(zhǔn)。《HSK詞匯等級(jí)標(biāo)準(zhǔn)大綱》由國家對外漢語教學(xué)領(lǐng)導(dǎo)小組辦公室漢語水平考試部編制,對HSK考試和教材編寫起了很大的指導(dǎo)作用,是當(dāng)前所有漢語詞表中比較權(quán)威的一種。[30][31]《HSK詞性表》由北京語言大學(xué)漢語國際教育技術(shù)研發(fā)中心制定。構(gòu)建HSK詞匯等級(jí)評(píng)判標(biāo)準(zhǔn)數(shù)據(jù)庫和多等級(jí)字標(biāo)準(zhǔn)數(shù)據(jù)庫,將創(chuàng)建好的文章詞語特征數(shù)據(jù)庫與對應(yīng)的HSK詞匯等級(jí)標(biāo)準(zhǔn)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行查找匹配,統(tǒng)計(jì)得出每篇文章甲乙丙丁等級(jí)個(gè)數(shù)和對應(yīng)的詞語特征頻數(shù),共有8個(gè)不同的詞語特征,見表3中的序號(hào)為1-8的特征名。由此將8個(gè)詞語特征通過SUM和比例重新組合得到9個(gè)特征,另外“生詞數(shù)”是一個(gè)很重要的特征,它反映了學(xué)生閱讀該篇文章要學(xué)習(xí)的生詞數(shù)量,體現(xiàn)文章閱讀的難易程度,具體特征表示見表3中的序號(hào)為9-18的特征名。

        在詞語維度上,不僅有不同等級(jí)的詞語對應(yīng)的詞頻,還有詞性。表面上詞性的多少體現(xiàn)詞性的數(shù)量,然而這更體現(xiàn)了句子結(jié)構(gòu)和語法的復(fù)雜性。句子是由比它小的語法單位詞或短語組成,那么判斷句子復(fù)雜性的方法之一就是通過分辨詞性來進(jìn)行。從語法角度上分析,一個(gè)相對簡單的句子結(jié)構(gòu)是“主語+謂語+賓語”,通過定語、狀語、補(bǔ)語的加入可以增加句子的復(fù)雜度,比如“[狀語(修飾全句的)]+(定語)主語+[狀語]謂語<動(dòng)補(bǔ)>+(定語)賓語<賓補(bǔ)>”的句子結(jié)構(gòu)。句子結(jié)構(gòu)中不同成分的具體詞性表示如表4所示。

        表3 甲乙丙丁等級(jí)詞語特征表

        表4 句子成分與詞性表

        所以,如果一篇文章中出現(xiàn)了形容詞、數(shù)量詞、狀態(tài)詞、副詞、介詞等比較多的情況,可以視其中涉及了較多的復(fù)雜句,這篇文章的難度系數(shù)增加。語法的難點(diǎn)和重點(diǎn)對教材閱讀材料的編輯影響重大,[32]由此我們統(tǒng)計(jì)了每篇文章的22種詞性特征,按照不同的詞性類別進(jìn)行分類,具體特征名如表5所示。

        表5 詞性特征表

        從對外漢語文章篇幅角度抽取特征,主要有文章的字符總數(shù)、段落數(shù)、句子總數(shù)等特征體現(xiàn)文章的難易程度。在Microsoft Word中的“審閱——字?jǐn)?shù)統(tǒng)計(jì)”中可以得到字符總數(shù)、段落數(shù)這兩個(gè)特征值。然而如何提取文章的句子總數(shù)呢?由于對外漢語文章每個(gè)句子由標(biāo)點(diǎn)符號(hào)分隔,因此分別統(tǒng)計(jì)每篇文章中“,”、“。 ”、“! ”、“? ”、“…”的詞頻總數(shù),得出句子總數(shù)的兩種不同表示形式(有無逗號(hào))的特征值。另外利用公式“詞頻總數(shù)/句子總數(shù)(分兩種,有無逗號(hào))”得出平均每個(gè)句子的詞語個(gè)數(shù)??偣舶藗€(gè)特征,詳細(xì)特征名如表6所示。

        表6 篇幅特征表

        綜上,為衡量文章的難易程度,較全面且多層次地還原專家編制教材的內(nèi)在規(guī)律,本實(shí)驗(yàn)共抽取了六套教材600篇文章在漢字、詞語、句子、語法等不同維度的48個(gè)特征。

        3.SVM算法評(píng)估與優(yōu)化

        (1)SVM 算法介紹

        在20世紀(jì)90年代早期支持向量機(jī)(SVMs)文本最優(yōu)分類器在Vapnik的統(tǒng)計(jì)學(xué)習(xí)理論中首次提出。[39]在訓(xùn)練樣本數(shù)相對較小的情況下,SVM算法也能達(dá)到很好的分類推廣能力,在線性不可分的情況下,SVM算法通過核函數(shù)將數(shù)據(jù)反映到高維空間,在高維空間中構(gòu)建線性決策函數(shù)以解決維數(shù)問題,[33]其中核函數(shù)決定回歸函數(shù)集的復(fù)雜度,通過體現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)策略來控制算法性能,最終通過解決凸二次規(guī)劃問題得到全局最優(yōu)解。在解決一系列實(shí)際問題中獲得成功,從而引起人們對它的極大關(guān)注。

        (2)SVM 算法評(píng)估

        構(gòu)建SVM監(jiān)督學(xué)習(xí)算法分類和回歸模型的過程能衡量專家編制教材內(nèi)在規(guī)律客觀性、準(zhǔn)確性和統(tǒng)一標(biāo)準(zhǔn)性程度,其過程包括選擇實(shí)驗(yàn)數(shù)據(jù)集、數(shù)據(jù)預(yù)處理、構(gòu)建訓(xùn)練和測試模型三個(gè)步驟,整體結(jié)構(gòu)如圖3所示。詳細(xì)內(nèi)容如下:①小數(shù)據(jù)量樣本建模中,訓(xùn)練集和測試集劃分原則遵循數(shù)量比為70%和30%比較合理,同時(shí)確保每一條數(shù)據(jù)存在且有效。②特征數(shù)據(jù)預(yù)處理包括標(biāo)準(zhǔn)化處理、打標(biāo)處理和特征屬性選擇處理。使用Min-max標(biāo)準(zhǔn)化將每一套教材所有文章的每一個(gè)特征進(jìn)行標(biāo)準(zhǔn)化處理。例如《漢語閱讀與寫作教程》教材共80篇文章,針對生詞這一個(gè)特征,即 x1,x2……xn(n=80)進(jìn)行變換:yi=生成的新序列即為y1,y2……yn∈[0,1]。標(biāo)簽代表每一套教材中每一篇文章的前后順序,是專家編制教材內(nèi)在規(guī)律的量化。打標(biāo)規(guī)則如下:在分類模型中,每篇文章的label標(biāo)簽即為該篇文章所屬的教材類別,有中級(jí)上冊、中級(jí)下冊、高級(jí)上冊、高級(jí)下冊四個(gè)類別。在回歸模型中,對應(yīng)四個(gè)類別區(qū)間分別用[0-0.25]、[0.25-0.5]、[0.5-0.75]、[0.75-1]表示。 應(yīng)用公式:該公式能夠精確到每一篇文章的難度值,yi代表m等級(jí)中第i篇文章的難度值,比較直觀地反映出與真實(shí)值之間的差距以及作為如何調(diào)整文章難度的參考依據(jù)。m代表數(shù)值中級(jí)上為1、中級(jí)下為2、高級(jí)上為3、高級(jí)下為4;im代表在m等級(jí)下的第i篇文章;nm代表在m等級(jí)下的文章總數(shù)n;特征數(shù)據(jù)屬性選擇中標(biāo)簽作為特殊屬性,其他特征數(shù)據(jù)是一般屬性。[3][4]SVM模型訓(xùn)練涉及SVM模型選擇和參數(shù)標(biāo)定,模型選擇包括模型類型選擇、核函數(shù)選擇和損失函數(shù)選擇。[3-5]模型類型選擇LibSVM,因其在精度和效率上超過傳統(tǒng)學(xué)習(xí)算法。核函數(shù)選擇RBF核函數(shù),因其學(xué)習(xí)收斂速度快、泛化能力好,應(yīng)用更加廣泛。損失函數(shù)選擇ε不敏感損失函數(shù),因其在小樣本訓(xùn)練中具有計(jì)算優(yōu)勢,確保全局最小解的存在。[3-6]在參數(shù)標(biāo)定中,主要調(diào)整C值和rbf核函數(shù)中的Gamma值。測試該模型的準(zhǔn)確率,根據(jù)效果驗(yàn)證逐步優(yōu)化。以上過程深度挖掘與探索對外漢語文章多層面上的特征與難度之間的內(nèi)在關(guān)系。

        圖3 SVM算法評(píng)估流程

        (3)評(píng)估性能優(yōu)化

        機(jī)器學(xué)習(xí)方法中特征的數(shù)量和選擇十分關(guān)鍵。選擇不合適的特征或特征數(shù)量過小或過大會(huì)導(dǎo)致欠擬合和過擬合問題,影響模型精度,特征選擇能夠解決這類問題。本文選用RMS_Error指標(biāo)來衡量一個(gè)特征是否重要和顯著,因?yàn)镽MS_Error能夠針對回歸模型作精度評(píng)估,從而反映出測量精密度。為了進(jìn)一步提高SVM算法性能,通過特征工程——應(yīng)用“排序特征選擇”和“包裝特征選擇”技術(shù)來降低均方根誤差值以達(dá)到優(yōu)化算法性能。

        排序特征選擇技術(shù)是根據(jù)特征對學(xué)習(xí)算法分類能力的重要性和顯著性來對所有的特征排序,然后根據(jù)排序結(jié)果選取排名靠前的特征作為最終學(xué)習(xí)算法的特征集。排序式特征選擇主要是根據(jù)每個(gè)特征單獨(dú)地對分類或回歸的貢獻(xiàn)大小來評(píng)估其重要性,這類方法對剔除無關(guān)和弱相關(guān)特征是非常有效的。包裝特征選擇技術(shù)在選擇是否保留某個(gè)特征時(shí)主要依據(jù)該特征的加入能否給學(xué)習(xí)算法的性能帶來提升。理論上來說,使用包裝特征選擇技術(shù)是可以窮舉所有特征組合并且找出其中表現(xiàn)最好的特征子集,但存在耗時(shí)巨大的問題。另外還包括序列前向搜索和序列后向捜索的啟發(fā)式特征選擇技術(shù)。序列前向搜索的過程是:開始選擇特征空集T,每一輪加入一個(gè)特征,使當(dāng)前學(xué)習(xí)算法性能提升最大,直到所有的待選特征的加入都無法使學(xué)習(xí)算法性能得到提升時(shí)就終止該過程。以此類推,得出最優(yōu)結(jié)果。序列后向搜索的過程相反:開始時(shí)r為所有特征集合,每一輪刪除一個(gè)特征,使該特征的剔除能夠最大程度地提升學(xué)習(xí)算法性能,直到r中剩下的所有特征都不能被剔除為止。排序特征選擇和包裝特征選擇技術(shù)的應(yīng)用能夠很好地排除無關(guān)特征和弱相關(guān)特征,使SVM算法性能得到提高與優(yōu)化。實(shí)際上該過程體現(xiàn)的是用更精簡的標(biāo)準(zhǔn)來達(dá)到專家編制教材難度設(shè)定的統(tǒng)一性。

        三、計(jì)算結(jié)果和分析

        為了評(píng)估SVM算法分類模型和回歸模型應(yīng)用于對外漢語文本難易程度評(píng)估的不同效果,我們在Windows10、32位系統(tǒng)下使用Rapidminer數(shù)據(jù)挖掘工具進(jìn)行不同的實(shí)驗(yàn),所有的結(jié)果都是在對參數(shù)進(jìn)行調(diào)整后的情況下得到的。

        構(gòu)建SVM模型在對外漢語文本難度評(píng)估中,我們分別使用了分類和回歸兩種不同的模型。在分類和回歸建模中,重點(diǎn)是標(biāo)簽的不同。分類模型中標(biāo)簽是中級(jí)上、中級(jí)下、高級(jí)上、高級(jí)下四個(gè)類別,而不是數(shù)值。在回歸模型中是用區(qū)間[0,1]數(shù)值表示文章的難易程度,輸出的是每一篇文章對應(yīng)的難易程度表示的觀測值,具體的打標(biāo)規(guī)則在“SVM算法評(píng)估”中有介紹。也正因?yàn)榇?,本?shí)驗(yàn)選用均方根誤差值來表示難度評(píng)估的準(zhǔn)確度。我們希望通過這一系列實(shí)驗(yàn)來驗(yàn)證回歸模型評(píng)估性能高于分類模型。

        經(jīng)過“排序特征選擇”和“包裝特征選擇”技術(shù)等一系列實(shí)驗(yàn)后,我們得到最優(yōu)組合特征結(jié)果如下:十四個(gè)特征(見表7)組合作為第一個(gè)模型,應(yīng)用序列反向搜索依次減少特征得到的評(píng)估結(jié)果RMS_Error值如圖4所示。

        表7 十四個(gè)特征組合模型特征表

        圖4 序列反向搜索SVM算法評(píng)估結(jié)果圖

        得到的RMS_Error值比較好的是13個(gè)特征組合的SVM評(píng)估結(jié)果0.172和4個(gè)特征組合的SVM評(píng)估結(jié)果0.168的兩種情況,下面兩張圖(見圖5和圖6)具體展示了對應(yīng)兩種情況的各個(gè)特征的評(píng)估結(jié)果。圖5表示了其中13個(gè)特征組合的SVM算法評(píng)估結(jié)果,圖6表示了4個(gè)特征組合的SVM算法評(píng)估結(jié)果。回歸和分類模型下的不同準(zhǔn)確率如圖7所示,SVM算法回歸模型的準(zhǔn)確率是62.28%,分類模型的準(zhǔn)確率是59.65%,說明回歸模型更能精確地表現(xiàn)每一篇文章的難易程度,評(píng)估性能更好。

        圖5 13個(gè)特征組合的SVM算法評(píng)估結(jié)果圖

        圖6 四個(gè)特征組合的SVM算法評(píng)估結(jié)果圖

        圖7 SVM算法回歸與分類評(píng)估對比結(jié)果圖

        實(shí)驗(yàn)結(jié)果表明,圖5中的十三個(gè)特征在對外漢語難度評(píng)估中起著較大的影響作用。重點(diǎn)分析介詞和助詞突出文章難易程度的原因:為什么是介詞和助詞,而不是名詞或者動(dòng)詞對難易程度的影響大;從文章的語法上分析,存在語法結(jié)構(gòu)序,由易到難的次序,從簡式到繁式的過程。[37][38]筆者認(rèn)為不管是中級(jí)還是高級(jí)的閱讀材料,都會(huì)出現(xiàn)一定量的名詞和動(dòng)詞等。但是如果出現(xiàn)介詞或者助詞在不同文章中占比相差較大的情況,反映出文章的不同難易程度。在一個(gè)句子中介詞是不能作為獨(dú)立成分存在的,詞與詞和詞與句子之間的關(guān)系是用介詞表示的。名詞、代詞、短語或者從句會(huì)作介詞的賓語,構(gòu)成介賓結(jié)構(gòu),通常作為補(bǔ)語,因此介詞的出現(xiàn)往往象征著更復(fù)雜的句子結(jié)構(gòu)。另外助詞有結(jié)構(gòu)助詞、時(shí)態(tài)助詞和語氣助詞三種:“的”、“地”、“得”屬于結(jié)構(gòu)助詞,“了”、“著”屬于時(shí)態(tài)助詞,“嗎”、“呢”、“吧”屬于語氣助詞。在中級(jí)文章中,文章篇幅較小,但在高級(jí)文章中篇幅較長且句子結(jié)構(gòu)更復(fù)雜,其他詞性的占比更大。這時(shí),助詞在中級(jí)文章中的占比就比較突出,而在高級(jí)文章中,其作用就會(huì)小得多。由此可見,助詞在文中占有的比例反映出文章的篇幅和句子復(fù)雜度進(jìn)而影響著文章的難易程度。另外SVM算法回歸模型的準(zhǔn)確率要明顯高于分類模型的準(zhǔn)確率,說明回歸模型具有明顯的優(yōu)勢且更能說明每一套教材的每一篇文章的難易程度,回歸模型更接近于專家編制教材設(shè)定難度值的過程。

        四、結(jié)論

        本文提出了一種適用于小數(shù)據(jù)量對外漢語閱讀材料的難度評(píng)估方法,相比較傳統(tǒng)的專家人工評(píng)估,智能化專家評(píng)估系統(tǒng)具有以下優(yōu)勢:①評(píng)估的規(guī)則和標(biāo)準(zhǔn)更加明確,并且可以定量地加以描述;②評(píng)估規(guī)則具有更好的可擴(kuò)展性,可以基于大數(shù)據(jù)自適應(yīng)地學(xué)習(xí)和修正;③可以顯著提高評(píng)估的效率,節(jié)省對外漢語閱讀材料編寫的時(shí)間、人力、物力等資源。但該方法對于大規(guī)模應(yīng)用也存在一定的局限性,比如所需數(shù)據(jù)準(zhǔn)備工作過于復(fù)雜和煩瑣,后續(xù)也可以通過繼續(xù)增加特征種類來進(jìn)一步提高評(píng)估性能等。

        附 特征名稱及解釋表

        32 /nz 其他專名33 /r 代詞34 /z 狀態(tài)詞35 /d 副詞36 /p 介詞37 /c 連詞38 /u 助詞39 /t 時(shí)間詞40 /qt 時(shí)量詞41 總字符數(shù) 一篇文章的字符總數(shù)42 段落數(shù) 一篇文章的段落數(shù)43 生詞數(shù)/總字符數(shù) 一篇文章的生詞總數(shù)/一篇文章的字符總數(shù)44 每段落平均字符數(shù) 段落數(shù)/總字符數(shù):一篇文章的段落數(shù)/一篇文章的字符總數(shù)45 (不含逗號(hào))句子總數(shù) 一篇文章的句子總數(shù),不統(tǒng)計(jì)逗號(hào)的句子46 (含逗號(hào))句子總數(shù) 一篇文章的句子總數(shù),包括統(tǒng)計(jì)逗號(hào)的句子47 (不含逗號(hào))每句子平均字符數(shù)(一篇文章的句子總數(shù),不統(tǒng)計(jì)逗號(hào)的句子)/一篇文章的字符總數(shù)48 (含逗號(hào))每句子平均字符數(shù)(一篇文章的句子總數(shù),包括統(tǒng)計(jì)逗號(hào)的句子)/一篇文章的字符總數(shù)

        猜你喜歡
        可讀性特征選擇特征
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        對增強(qiáng)吸引力可讀性引導(dǎo)力的幾點(diǎn)思考
        新聞傳播(2015年11期)2015-07-18 11:15:03
        淺談對提高黨報(bào)可讀性的幾點(diǎn)看法
        新聞傳播(2015年9期)2015-07-18 11:04:12
        在增強(qiáng)地方時(shí)政新聞可讀性上用足心思
        中國記者(2014年2期)2014-03-01 01:38:34
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        天天做天天爱天天综合网| 日韩精品无码一区二区三区| 色综合久久精品亚洲国产| 久久久久久av无码免费看大片| 91精品国产高清久久久久| 日本国产一区在线观看| 五月av综合av国产av| 少妇人妻偷人精品视蜜桃| 国产精品福利久久香蕉中文| 亚洲一区二区自偷自拍另类| 人人妻人人澡人人爽超污| 国产在线无码一区二区三区| 无码8090精品久久一区| 深夜一区二区三区视频在线观看| 内射人妻少妇无码一本一道 | 亚洲一本大道无码av天堂| avtt一区| 亚洲中文字幕高清av| 内射欧美老妇wbb| 五月婷婷六月激情| 中文字幕一区二区在线| 老熟女富婆激情刺激对白| av无码免费永久在线观看| 国产精品无码久久久久久蜜臀AV| 日本女优中文字幕在线播放| 大地资源中文第3页| 一区二区三区日韩亚洲中文视频| 国产亚洲精品高清视频| 亚洲丁香婷婷久久一区二区| 人妻少妇精品视频一区二区三区| 久久国产精品老人性| 国产精品一区二区三区播放| 天天爽天天爽夜夜爽毛片| 中字无码av电影在线观看网站| 亚洲视频在线免费观看一区二区| 国产成人午夜福利在线观看| 厨房玩丰满人妻hd完整版视频| 国产三级黄色的在线观看 | 精品久久久久久久无码人妻热| 国产天堂网站麻豆| 久久精品国产精品亚洲婷婷|