亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漢語國際教育教材語料的三音節(jié)名詞型動態(tài)詞分析

        2018-07-18 03:02:38郭冬冬宋繼華彭煒明張引兵
        中文信息學(xué)報 2018年6期
        關(guān)鍵詞:詞類語素知識庫

        郭冬冬,宋繼華,彭煒明,張引兵

        (北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100875)

        0 引言

        漢語是一種缺少發(fā)達形態(tài)的語言。很多語法現(xiàn)象常常漸變而不會頓變,所以在語法分析上容易遇到各種“中間狀態(tài)”[1]。詞和非詞的界限很難明確地劃分[2-3]。許多語言單位中詞或語素的結(jié)合并非純句法層面的自由組合,它受到意義凝聚程度、音節(jié)韻律特征以及結(jié)構(gòu)穩(wěn)定性質(zhì)等因素的限制。這些組合單位在詞匯學(xué)層面還沒有完全凝固、定型,即使收詞完備的大型詞典也未能收錄它們。動態(tài)詞就是指這些一般詞庫中不收錄,而在句法分析時又不適宜做進一步短語結(jié)構(gòu)分析的造句單位。如專有名詞(中國人、鐵路工人)、動結(jié)式/動趨式動詞(看清、舉起)、數(shù)量詞(一只、十多個)、重疊式(看看、聽一聽)等[4-6]。短語結(jié)構(gòu)一般可以自由擴展,內(nèi)部成分結(jié)合不是很緊密,而動態(tài)詞為具有一定內(nèi)聚性的組合結(jié)構(gòu),意義凝聚、音節(jié)適長、結(jié)構(gòu)相對穩(wěn)定,具有很強的模式性,不能自由擴展。

        國際漢語教學(xué)領(lǐng)域中存在大量的動態(tài)詞。以新漢語水平考試(HSK)為例,HSK一級到六級5 000詞匯中[7],未被《現(xiàn)代漢語詞典》(第6版)(以下簡稱《現(xiàn)漢》)收錄的達到119條。利用信息處理技術(shù)對漢語動態(tài)詞進行的相關(guān)研究[8-9]很有限,更加缺少面向國際漢語教學(xué)的動態(tài)詞分析。因此,深入細(xì)致地研究分析國際漢語教材語料中真實出現(xiàn)的動態(tài)詞十分必要。分析基于國際漢語教學(xué)的動態(tài)詞,一方面有助于認(rèn)識理解漢語搭配的基本原理,掌握國際漢語教學(xué)領(lǐng)域詞匯的使用與分布特點。幫助漢語作為第二語言學(xué)習(xí)者產(chǎn)生規(guī)范的漢語表達,形成漢語語感,促進國際漢語教學(xué)詞匯研究與詞匯教學(xué)的發(fā)展;另一方面對面向國際漢語教學(xué)自動詞法與自動句法分析[10-11]的實現(xiàn),面向國際漢語教學(xué)詞典與教材的編撰,國際漢語教學(xué)詞匯等級擴展研究以及教學(xué)文本難度評級等都具有重要的作用。

        三音節(jié)名詞是國際漢語教學(xué)中一種常見的詞匯類型,在詞匯教學(xué)中占有重要的位置,而其中三音節(jié)名詞型動態(tài)詞又占有較高的比重。三音節(jié)名詞型動態(tài)詞是指整體詞類為名詞、音節(jié)數(shù)為3的動態(tài)詞。HSK一級到六級5 000詞匯中,三音節(jié)名詞共有94條,其中未被《現(xiàn)漢》收錄的動態(tài)詞達到20條,分別為: 充電器、重陽節(jié)、大使館、登機牌、端午節(jié)、公安局、國慶節(jié)、火車站、加油站、解說員、救護車、開幕式、垃圾桶、墨水兒、紐扣兒、青少年、上進心、塑料袋、行李箱、羽絨服。

        本文首先介紹三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式的一種知識表示方法;然后通過標(biāo)注一定規(guī)模的國際漢語教材語料,獲取三音節(jié)名詞型動態(tài)詞的所有結(jié)構(gòu)模式類型以及對應(yīng)的動態(tài)詞及詞頻信息,構(gòu)建基于國際漢語教學(xué)的三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式知識庫;最后在結(jié)構(gòu)模式知識庫的基礎(chǔ)上對三音節(jié)名詞型動態(tài)詞進行分析。

        1 結(jié)構(gòu)模式知識表示

        三音節(jié)名詞型動態(tài)詞內(nèi)部詞或語素的結(jié)合同樣受到意義凝聚程度、音節(jié)韻律特征以及結(jié)構(gòu)穩(wěn)定性質(zhì)等因素的限制。三音節(jié)名詞型動態(tài)詞的音節(jié)模式包含“2+1”、“1+2”和“1+1+1”三種,其中“1”和“2”對應(yīng)著動態(tài)詞內(nèi)部的詞或語素,詞或語素具有不同的類別。另外,詞或語素的結(jié)合方式也不盡相同。上述特點體現(xiàn)了三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式的多樣性,為了有效描述三音節(jié)名詞型動態(tài)詞不同類別的結(jié)構(gòu)模式,采用下面四項信息對結(jié)構(gòu)模式進行知識表示: 三音節(jié)名詞型動態(tài)詞整體詞類、內(nèi)部成分詞類或語素類、內(nèi)部成分音節(jié)數(shù)以及內(nèi)部成分之間的結(jié)構(gòu)關(guān)系。

        1.1 準(zhǔn)備工作

        1.1.1 語素類別信息

        《現(xiàn)漢》所收詞語相當(dāng)穩(wěn)定,本文選擇《現(xiàn)漢》中詞、語素及詞類標(biāo)記作為標(biāo)注基礎(chǔ)來標(biāo)注動態(tài)詞及其結(jié)構(gòu)模式信息。動態(tài)詞內(nèi)部成分常常包含不成詞語素,而《現(xiàn)漢》中只有成詞語素給出詞類信息[12]。根據(jù)語素組合成詞時的功能可以把不成詞語素分為名詞性語素、動詞性語素、形容詞性語素、副詞性語素等類別,這有利于說明語素與其所構(gòu)成的詞的功能之間的關(guān)系以及詞的內(nèi)部結(jié)構(gòu)關(guān)系[13]。因此,有必要首先根據(jù)《現(xiàn)漢》中不成詞語素在詞典中的義項及其構(gòu)詞功能為它們添加類別信息。

        《現(xiàn)漢》中的詞類具體包括名詞、時間詞、方位詞、數(shù)詞、量詞、代詞、動詞、形容詞、副詞、介詞、連詞、助詞、嘆詞以及擬聲詞等十幾種類型。為《現(xiàn)漢》添加的不成詞語素類別主要包括名詞性語素、動詞性語素、形容詞性語素、副詞性語素與意義虛化的詞綴語素,如“-兒、-子、老-、阿-”等。其他類型語素數(shù)量較少且不常見,用統(tǒng)一的語素符號Xg表示,不再加以區(qū)分?!冬F(xiàn)漢》中詞類和語素類對應(yīng)的符號標(biāo)記如表1所示。

        表1 《現(xiàn)漢》詞類/語素類標(biāo)記集

        1.1.2結(jié)構(gòu)關(guān)系符號

        用類似句法的手段依據(jù)一定的語義關(guān)系對已知語素進行組合,這是最常見的造詞方式[13]。構(gòu)成動態(tài)詞的詞或語素的結(jié)合方式也與句法關(guān)系類似。所以,在描寫動態(tài)詞的內(nèi)部結(jié)構(gòu)關(guān)系時,首先參考句法關(guān)系,外加重疊結(jié)構(gòu)、方位結(jié)構(gòu)、數(shù)量結(jié)構(gòu)、詞綴/助詞結(jié)構(gòu)以及其他虛詞格式等,確定如表2所示的動態(tài)詞結(jié)構(gòu)關(guān)系符號集。具體包括并列、定中、狀中、述補、動賓、主謂、重疊和其他共八種結(jié)構(gòu)關(guān)系。采用統(tǒng)一的“-”符號表示方位結(jié)構(gòu)、數(shù)量結(jié)構(gòu)、詞綴/助詞結(jié)構(gòu)和其他虛詞格式,是因為從其內(nèi)部成分及對應(yīng)詞類或語素類信息即可將它們區(qū)分開來。

        表2 動態(tài)詞結(jié)構(gòu)關(guān)系符號集

        1.2 結(jié)構(gòu)模式

        三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式的知識表示如下:

        ? <結(jié)構(gòu)模式>∷=<整體詞類>: <內(nèi)部成分詞類或語素類><內(nèi)部成分音節(jié)數(shù)>[<結(jié)構(gòu)關(guān)系符號><內(nèi)部成分詞類或語素類><內(nèi)部成分音節(jié)數(shù)>]{1,2}

        ? <整體詞類>∷=n

        ? <內(nèi)部成分詞類或語素類>∷=n|t|f|m|q|r|v|a|d|p|c|u|e|o|Ng|Vg|Ag|Dg|Ug|Xg

        ? <內(nèi)部成分音節(jié)數(shù)>∷=<空>|2(音節(jié)數(shù)為空表示默認(rèn)值1)

        部分三音節(jié)名詞型動態(tài)詞的結(jié)構(gòu)模式如表3所示。其中,“閱讀課”的結(jié)構(gòu)模式為“n: v2n”,冒號前的n表示“閱讀課”整體詞類為名詞;v2代表內(nèi)部成分“閱讀”的詞類是v,音節(jié)數(shù)為2;最后的n代表內(nèi)部成分“課”是名詞,音節(jié)數(shù)為默認(rèn)值1;“”表示內(nèi)部成分“閱讀”和“課”之間的結(jié)構(gòu)關(guān)系為定中關(guān)系。

        表3 三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式

        1.3 相關(guān)說明

        1.3.1詞庫問題

        《現(xiàn)漢》收詞十分嚴(yán)謹(jǐn)。它不會收錄像“中國”、“北京”、“淘寶”這樣的雙音節(jié)專有名詞。在分析三音節(jié)名詞型動態(tài)詞時,如果其內(nèi)部成分出現(xiàn)上述雙音節(jié)專有名詞,不適宜對這類雙音節(jié)專有名詞作進一步的內(nèi)部分析,故遇到這類詞時將其直接補充到基礎(chǔ)詞庫《現(xiàn)漢》中。

        1.3.2切分問題

        分析三音節(jié)名詞型動態(tài)詞的結(jié)構(gòu)模式需先將其內(nèi)部成分隔開,切分標(biāo)準(zhǔn)是在結(jié)構(gòu)與意義相統(tǒng)一的前提下直到每一成分能夠在《現(xiàn)漢》中找到相應(yīng)的義項以及詞類或語素類為止。例如,對于動態(tài)詞“足球迷”,由于《現(xiàn)漢》中收錄了“足球”和“迷”,所以正確的切分結(jié)果應(yīng)該是“足球”與“迷”。雖《現(xiàn)漢》中同樣收錄了“足”和“球迷”,但切分成“足”與“球迷”顯然不正確,這種組合結(jié)構(gòu)與詞的意義不統(tǒng)一。

        1.3.3 層次問題

        三音節(jié)名詞型動態(tài)詞內(nèi)部成分為3個時,從理論上說會存在組合的先后順序,即層次問題。部分動態(tài)詞在整體詞類、內(nèi)部成分詞類或語素類、內(nèi)部成分音節(jié)數(shù)及內(nèi)部成分之間結(jié)構(gòu)關(guān)系四者確定的情況下,層次歧義性并不大。例如,“制藥廠”對應(yīng)模式為“n: v|nn”,可以確定其組合層次為“(v|n)n”。因為,若為“v|(nn)”,第一層內(nèi)部關(guān)系就成為動賓關(guān)系。而參考句法關(guān)系,動賓關(guān)系一般為動詞性結(jié)構(gòu)而非名詞性結(jié)構(gòu)。

        有些動態(tài)詞僅僅依靠上述四項信息還不能明確組合層次。如表3中的動態(tài)詞“副組長”和“單人間”,結(jié)構(gòu)模式都為“n: anNg”,但前者的組合層次為“a(nNg)”,而后者的組合層次為“(an)Ng”。為了使動態(tài)詞結(jié)構(gòu)模式能明確反映動態(tài)詞的組合層次,將這類有組合歧義的結(jié)構(gòu)模式分為兩種情形。以“n: anNg”為例,將其分為“n: a(nNg)”與“n: (an)Ng”。

        2 結(jié)構(gòu)模式知識庫構(gòu)建

        組織語言學(xué)背景的研究生對國際漢語教材語料庫(包括《新實用漢語課本》《快樂漢語》《長城漢語》《跟我學(xué)漢語》《漢語教學(xué)直通車》《當(dāng)代中文》《漢語樂園》等國際漢語教材)中的三音節(jié)名詞型動態(tài)詞進行人工標(biāo)注。標(biāo)注內(nèi)容含動態(tài)詞的結(jié)構(gòu)模式以及動態(tài)詞內(nèi)部詞或語素在基礎(chǔ)詞庫《現(xiàn)漢》中對應(yīng)的義項。標(biāo)注結(jié)果如圖1所示?!冬F(xiàn)漢》中詞或語素的每條義項由義項碼(三位數(shù)字)唯一地標(biāo)識。

        圖1 三音節(jié)名詞型動態(tài)詞“中文歌”標(biāo)注結(jié)果

        為了保證標(biāo)注結(jié)果的準(zhǔn)確性與一致性,同一段語料文本至少由兩位同學(xué)進行標(biāo)注,并由專家對標(biāo)注結(jié)果進行審核。標(biāo)注結(jié)果一致且通過審核的數(shù)據(jù)視為有效數(shù)據(jù)。如果標(biāo)注結(jié)果不一致或未通過審核,則需要標(biāo)注者和審核者討論研究決定。在實際標(biāo)注過程中,許多組合是動態(tài)詞還是短語結(jié)構(gòu)很難界定。對于這類組合結(jié)構(gòu),標(biāo)注時先按照動態(tài)詞處理。一方面,這種組合滿足動態(tài)詞的某種結(jié)構(gòu)模式,像動態(tài)詞一樣作為詞匯整體教授給漢語二語學(xué)習(xí)者很容易被接受。另一方面,將這種組合作為一個整體有助于面向國際漢語教學(xué)自動句法分析的實現(xiàn),通過避免對組合內(nèi)部的細(xì)節(jié)進行處理從而減輕自動句法分析的負(fù)擔(dān)。

        本文一共獲得29 465句(498 965字)標(biāo)注三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式信息的國際漢語教材語料數(shù)據(jù)。利用正則表達式匹配與提取標(biāo)注語料中的三音節(jié)名詞型動態(tài)詞及其結(jié)構(gòu)模式信息。正則表達式是用某種模式去匹配一類字符串的一種公式,由若干普通字符和特殊字符(元字符)構(gòu)成。普通字符包括大小寫字母、數(shù)字和漢字等,元字符指一些具有特殊含義的專用字符。語料中的三音節(jié)名詞型動態(tài)詞及其結(jié)構(gòu)模式信息規(guī)則明確,利用正則表達式“.{3}【.+?】【.+?】”可將所有待提取信息準(zhǔn)確地匹配出來。對提取出的信息進行統(tǒng)計分析,最終建立具有75種結(jié)構(gòu)模式的三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式知識庫。構(gòu)建的知識庫的結(jié)構(gòu)如表4所示。75種結(jié)構(gòu)模式按與之對應(yīng)的動態(tài)詞頻次由高到低排序如表5所示。

        表4 三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式知識庫結(jié)構(gòu)

        三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式知識庫中的75種結(jié)構(gòu)模式對應(yīng)的動態(tài)詞總數(shù)為4 678條,對應(yīng)的動態(tài)詞總類別數(shù)達到1 712種。知識庫中結(jié)構(gòu)模式“n: v|Ngn”對應(yīng)的內(nèi)容如表6所示。

        表5 三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式類型

        表6 知識庫中結(jié)構(gòu)模式“n: v|Ngn”

        表6 知識庫中結(jié)構(gòu)模式“n: v|Ngn”

        idmodePOSsyllablefrequencyclassdetail16n: v|Ng↗nn32610【洗[001]發(fā)[101]水[004]】 10【登[001]機[002]牌[002]】 4【洗[001]衣[001]店[002]】 2【含[002]金[001]量[103]】 2【購[001]物[001]袋[001]】 2【藏[001]趣[001]園[001]】 2【撲[001]爐[001]蛾[001]】 1【登[001]機[002]口[006]】 1【有[001]情[001]人[001]】 1【收[005]件[003]人[001]】 1

        3 三音節(jié)名詞型動態(tài)詞分析

        結(jié)構(gòu)模式知識庫中對應(yīng)動態(tài)詞頻次排在前十的結(jié)構(gòu)模式如表7所示。由表7可知,除“n: n2-Ug”外,其他結(jié)構(gòu)模式的內(nèi)部結(jié)構(gòu)關(guān)系都為定中關(guān)系。由此可知,國際漢語教學(xué)中三音節(jié)名詞型動態(tài)詞內(nèi)部成分的主要結(jié)合方式是定中結(jié)構(gòu)關(guān)系。最常見的是雙音節(jié)名詞、動詞、形容詞與單音節(jié)名詞或名詞性語素(不成詞語素)的結(jié)合及單音節(jié)形容詞、名詞、數(shù)詞與雙音節(jié)名詞的結(jié)合。

        表7 頻次排在前十的結(jié)構(gòu)模式

        結(jié)構(gòu)模式知識庫中包含前綴和后綴標(biāo)記的結(jié)構(gòu)模式共有八種,分別為“n: n2-Ug”、“n: an-Ug”、“n: v2-Ug”、“n: a2-Ug”、“n: nn-Ug”、“n: f2-Ug”、“n: Ug-n2”和“n: nNg-Ug”。標(biāo)注的國際漢語教材語料中三音節(jié)名詞型動態(tài)詞出現(xiàn)前綴和后綴的詳細(xì)情況如表8所示。表8中“詳細(xì)信息”字段包含具體的前綴/后綴、對應(yīng)的義項碼以及出現(xiàn)頻次等信息。

        表8 三音節(jié)名詞型動態(tài)詞出現(xiàn)前綴和后綴情況

        從國際漢語教材語料庫中獲取的1 712種動態(tài)詞中,內(nèi)部詞或語素的類別(考慮義項差別)共有1 713種。其中,出現(xiàn)頻次最高的15種詞或語素如圖2所示。在國際漢語教學(xué)領(lǐng)域中,人[n][001]、小[a][001]、大[a][001]、們[Ug][101]、者[u][001]、新[a][001]、好[a][001]、兒[Ug][101]、性[Ug][003]、課[n][002]等詞或語素構(gòu)成三音節(jié)名詞型動態(tài)詞能力較強。

        本節(jié)以構(gòu)建的三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式知識庫為基礎(chǔ),初步分析了國際漢語教學(xué)中三音節(jié)名詞型動態(tài)詞內(nèi)部成分的主要結(jié)合方式、出現(xiàn)前綴/后綴情況以及構(gòu)成三音節(jié)名詞型動態(tài)詞能力較強的詞或語素。三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式知識庫蘊含大量有價值的信息,如果進一步挖掘,可以對國際漢語教學(xué)中的三音節(jié)名詞型動態(tài)詞產(chǎn)生更加全面深入的理解與認(rèn)識。

        圖2 三音節(jié)名詞型動態(tài)詞內(nèi)部頻次最高的詞或語素

        4 結(jié)語

        本文利用知識工程的方法對國際漢語教學(xué)中的三音節(jié)名詞型動態(tài)詞進行研究分析,初步構(gòu)建了面向國際漢語教學(xué)的三音節(jié)名詞型動態(tài)詞結(jié)構(gòu)模式知識庫,通過分析結(jié)構(gòu)模式知識庫取得了部分重要成果。本文的研究方法可以進一步推廣到國際漢語教學(xué)中其他音節(jié)的名詞型動態(tài)詞以及其他詞類的動態(tài)詞研究中,以便更好地服務(wù)于國際漢語教學(xué)的詞匯研究與詞匯教學(xué)以及面向國際漢語教學(xué)的信息處理。

        猜你喜歡
        詞類語素知識庫
        《最低入門等級音節(jié)、漢字、詞匯表》語素和語素義分析
        多義語素識別及教學(xué)探討
        ——針對對外漢語語素教學(xué)構(gòu)想
        長江叢刊(2020年30期)2020-11-19 09:48:13
        用詞類活用法擴充詞匯量
        語素的判定、分類及語法單位關(guān)系研究述評
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        基于語料庫“隱秘”的詞類標(biāo)注初步探究
        從成語中學(xué)習(xí)詞類活用
        因果復(fù)合詞
        高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
        基于“字本位”理論再談漢語詞類問題
        极品美女扒开粉嫩小泬| 青青草骚视频在线观看| 亚洲成aⅴ人片久青草影院| 精品久久久久久777米琪桃花| 国产精品国产三级国产专播| 少妇性l交大片免费1一少| 国产精品成人无码久久久久久| 日本爽快片18禁免费看| 亚洲午夜福利精品久久| 亚洲中文高清乱码av中文| 亚洲欧洲av综合色无码| 中文字幕av无码免费一区| 窄裙美女教师在线观看视频| 精品不卡视频在线网址| 激情综合网缴情五月天| 亚洲中文字幕精品久久a| 亚洲av无码专区在线观看下载| 日本亚洲国产一区二区三区| 麻豆国产VA免费精品高清在线| 国产不卡在线观看视频| 男人的天堂无码动漫av| 国产高清无码在线| 国内精品久久人妻性色av| 国产内射爽爽大片| 丰满人妻av无码一区二区三区| 麻豆密入视频在线观看 | 国产成人一区二区三区影院| 少妇人妻综合久久中文字幕| 国产又爽又黄的激情精品视频| 女同av免费在线播放| 国产一品二品三品精品在线| 男人添女人下部高潮全视频| 色综合久久久久久久久五月| 亚洲双色视频在线观看| 激情亚洲一区国产精品久久| 久久久久久好爽爽久久| 2020久久精品亚洲热综合一本| 精品国产一区二区三区a| 亚洲a∨无码男人的天堂| 欧美视频第一页| 亚洲蜜臀av一区二区三区漫画|