亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        《面向自然語言處理的語言學(xué)要義》述評

        2016-03-16 01:37:06上海外國語大學(xué)楊春雷
        外文研究 2016年2期
        關(guān)鍵詞:論元形態(tài)學(xué)句法

        上海外國語大學(xué) 楊春雷

        ?

        《面向自然語言處理的語言學(xué)要義》述評

        上海外國語大學(xué) 楊春雷

        《面向自然語言處理的語言學(xué)要義》從跨語言的視角,探討了如何通過分析句子各組成部分之間的相互關(guān)系(主要是形態(tài)和句法結(jié)構(gòu))來構(gòu)建更準確的語言描寫系統(tǒng),從而為更成功的自然語言處理系統(tǒng)奠定基礎(chǔ)。

        自然語言處理;形態(tài);句法

        LinguisticFundamentalsforNaturalLanguageProcessing: 100EssentialsfromMorphologyandSyntax(《面向自然語言處理的語言學(xué)要義:形態(tài)學(xué)和句法學(xué)的100個要點》,下文稱《面向自然語言處理的語言學(xué)要義》)的雛形是2012年國際計算語言學(xué)協(xié)會組織的一次授課講義。作者Emily M. Bender是美國華盛頓大學(xué)語言學(xué)系和計算科學(xué)與工程系的雙聘教授,也是中心語驅(qū)動的短語結(jié)構(gòu)語法(Head-driven Phrase Structure Grammar,簡稱HPSG)理論的最主要旗手之一。

        本書凝聚了作者跨學(xué)科的學(xué)術(shù)思想和成果,其中體現(xiàn)的主要特點和作者的專業(yè)領(lǐng)域高度契合。作者在計算語言學(xué)、形式語法和語言類型學(xué)等各領(lǐng)域皆頗有建樹。在計算語言學(xué)方面,她是華盛頓大學(xué)計算語言學(xué)專業(yè)的負責人,長期為《計算語言學(xué)》、《語言和計算研究》、《語言技術(shù)中的語言學(xué)問題》等雜志撰稿;在形式語法方面,她是HPSG理論的權(quán)威著作《句法理論》(Sagetal. 2003)的作者之一,而HPSG理論是計算語言學(xué)領(lǐng)域應(yīng)用最廣泛的形式句法理論框架(Backofenetal. 1996);在語言類型學(xué)方面,她負責的斯坦福大學(xué)語言與信息研究中心“語法母體”(Grammar Matrix)項目經(jīng)過近20年的發(fā)展,建立了跨語言語法的開發(fā)平臺,并在該平臺上開發(fā)出20種語言的可計算語法。

        1. 主要內(nèi)容

        本書分為4個部分,共10章,包含100個知識要點,每個要點集中解釋一個語言學(xué)問題,篇幅從一段到兩頁不等。

        第一部分(第1章“介紹/動因”)是全書概述,共有7個要點,介紹形態(tài)學(xué)和句法學(xué)的基本概念,并闡述本書的寫作目的——研究兩個領(lǐng)域的關(guān)鍵知識,分別是:1)自然語言處理(Natural Language Processing,以下簡稱NLP)領(lǐng)域:NLP的核心任務(wù)是提取語句中的依存關(guān)系,即“誰對誰做了什么”。人類語言依靠各種手段體現(xiàn)句子各部分之間的關(guān)系,找到并精確描寫這些手段對NLP中特征的提取與設(shè)計以及錯誤分析至關(guān)重要。2)語言學(xué)領(lǐng)域:理想的NLP程序不僅能處理語言內(nèi)部結(jié)構(gòu),也能處理不同語言的自然語料,但如何描寫跨語言差異對NLP領(lǐng)域的學(xué)者來說是個巨大挑戰(zhàn)。因此,語言學(xué)家需要從NLP的角度構(gòu)建普遍適用的語言學(xué)知識體系。作者特別強調(diào)了語言學(xué)知識對NLP的重要性,認為如今的NLP系統(tǒng)大多只適用于有限的幾種語言,是否適用于其他語言令人懷疑。書中豐富的多語種語料可以用來測試這些NLP系統(tǒng)的解釋力。

        第二部分(第2章至第4章)聚焦形態(tài)學(xué)。

        第2章“形態(tài)學(xué)介紹”共有15個要點,介紹詞素、派生、屈折變化等基本概念,并重點結(jié)合多語種語料討論詞素與音素和詞的復(fù)雜關(guān)系。例如,在希伯來語中,表示屈折變化的中綴會插入動詞詞根;關(guān)于didn’t的詞匯屬性存在爭議;untieable中詞根tie與前綴un-和后綴-able的組合順序決定最終的語義差異等。

        第3章“形態(tài)音位學(xué)”共有4個要點,結(jié)合多語種語料描寫了形態(tài)音位學(xué)的3種主要變化過程:1)僅涉及詞素形式的變化,如名詞復(fù)數(shù)的規(guī)則變化;2)涉及前后詞素的變化,如主謂一致;3)完全無規(guī)律的詞素變化,如不規(guī)則動詞變化。

        第4章“形態(tài)句法學(xué)”是形態(tài)學(xué)部分內(nèi)容最豐富的一章,共有16個要點,介紹與形態(tài)學(xué)相關(guān)的句法功能,如時、體、態(tài)、人稱、性別、數(shù)、格、否定、限定性、言據(jù)性、敬語和所屬格等,重點討論形態(tài)學(xué)特征間的一致關(guān)系。作者詳細討論了許多形態(tài)學(xué)標記的范疇在不同語言中的差異。以時態(tài)系統(tǒng)為例,最簡單的是兩分法,其中最常見的是過去時VS非過去時(如日語)和將來時VS非將來時。英語是三分法,即過去時、現(xiàn)在時和將來時。但有些語言的時態(tài)系統(tǒng)要復(fù)雜得多。根據(jù)Dahl & Velupillai(2011: 36)對222種語言的調(diào)查,秘魯亞瓜語中僅過去時就有5種,分別是:“最近1類”,表示幾個小時前;“最近2類”,表示1天前;“過去1類”,表示大約一周到一個月前;“過去2類”,表示大約一兩個月到一兩年前;“過去3類”,表示很久以前或傳說中的過去。又如,最簡單的格系統(tǒng)是兩分法;最復(fù)雜的匈牙利語有21種格。

        這一章的突出特點是跨語言語料豐富。48組例句中除了12組來自英語,其他36組分別來自五大洲的20種語言,其中既包括漢、日、德、法、阿拉伯語等使用廣泛的語種,也包括澳大利亞和美國的土著語言等小語種。豐富的跨語言差異形象地證明了語言的多樣性,提醒兩個領(lǐng)域的學(xué)者不應(yīng)僅關(guān)注一種語言的特征,而應(yīng)尋求跨語言的普遍特征,對于面向廣泛應(yīng)用的NLP系統(tǒng)(如機器翻譯)的設(shè)計者來說尤其如此。處理跨語言語料時,應(yīng)注意形態(tài)標記系統(tǒng)間的差異。相同的形態(tài)學(xué)特征在語言A中的值可能等于語言B中的兩個甚至更多的值的集合。例如,復(fù)數(shù)標記在英語中的值{復(fù)數(shù)}等于多種大洋洲語言中除單數(shù)外的4個值的集合,即{雙、三、大于1的小數(shù)目、復(fù)數(shù)}。

        第三部分(第5章至第9章)聚焦句法。

        第5章“句法介紹”共有3個要點,作者將句法定義為附加在語句上的約束條件,并為語義“搭建腳手架(scaffold)”。作者根據(jù)“弗雷格原則”,重點討論了約束條件如何影響語句的語法正確性和語義闡釋,認為信息組合成語義結(jié)構(gòu)的方式很大程度上取決于句法。

        第6章“詞性”共有4個要點,分別介紹如何根據(jù)形態(tài)、句法分布以及功能來定義詞性。作者還指出詞性劃分的復(fù)雜性,并強調(diào)沒有任何廣泛適用于所有語言的詞類體系,但弱化的、規(guī)模較小的詞類體系能滿足一些實際應(yīng)用(如機器翻譯)的需要。

        第7章“中心語、論元和修飾成分”共有17個要點,分別定義這3種句法成分并研究它們的句法表現(xiàn)。例如,作者分別從句法和語義角度討論了修飾語的7個特點;在討論中心語的詞類時,她特別指出由動詞和形容詞派生的名詞(如invitation和likelihood)也可做中心語,并且可以選擇自己的論元。作者重點討論了成分結(jié)構(gòu)的主要測試方法,如并列、句中特定位置和可替代性等;作者也討論了區(qū)分論元和修飾語的測試方法,如句法必要性和語義蘊含等,并結(jié)合例證討論如何以科學(xué)的態(tài)度看待這些測試方法。

        第8章“論元種類和語法功能”共有15個要點,首先討論不同語義角色和句法功能以及它們之間的關(guān)系。作者結(jié)合賓州樹庫(Penn Treebank)、框架語義網(wǎng)(FrameNet)和英語資源語法(English Resource Grammar,簡稱ERG)等NLP應(yīng)用,從句法和語義的角度分析如何對各種依存關(guān)系進行分類、標注以及建立層級結(jié)構(gòu)。例如,主語可標注為名詞性、被動名詞性、小句、被動小句和控制性主語5個子類。又如,ERG區(qū)分了193個詞項類別,其中僅提升和控制動詞的配價關(guān)系就有45種,涉及501個動詞。本章還研究了如何使用詞序、一致和格標記等特征甄別語法功能以及形態(tài)句法如何改變句法功能。

        第9章“句法位置和語義角色的不匹配”共有16個要點,分別討論了5類不匹配現(xiàn)象。第1類是句法位置和語義角色間的明顯錯位,如被動、反被動、與格換位和具有形態(tài)標記的使役關(guān)系等;第2類涉及語義為空的詞匯,如功能詞和虛詞等;第3類結(jié)構(gòu)中一個謂詞的語義論元在句法上實現(xiàn)為另一個謂詞的論元,如提升和控制結(jié)構(gòu);第4類包括復(fù)雜謂語和并列結(jié)構(gòu),前者中單個小句的論元允準涉及不止一個詞,后者則可能產(chǎn)生“多對一”和“一對多”的匹配關(guān)系;第5類中句法論元實現(xiàn)的位置離它們的中心語較遠,如長距離依存。

        在第三部分,作者準確定義和區(qū)分了一系列的句法概念,討論了許多特殊的句法結(jié)構(gòu),并有針對性地推薦了NLP的相應(yīng)成果。但是,一方面,一些理論語言學(xué)的討論對NLP的學(xué)者們來說理解起來可能有些困難。例如,在討論提升和控制動詞的區(qū)別時,作者沒有解釋一些重要的抽象語言學(xué)概念,如“未充分賦值”(unsaturated)和“允準”(license)等,而且也未在內(nèi)容索引中列出。另一方面,雖然作者提供了一些相關(guān)NLP文獻和資源,但書中缺少與NLP相關(guān)的技術(shù)手段的支持,如語法開發(fā)平臺的安裝及使用、可計算語法的讀取及修改等。如果理論語言學(xué)家想了解如何計算實現(xiàn)抽象的句法概念,很難迅速有效地使用書中推薦的NLP資源。為此,如果能附上NLP和形式句法的相關(guān)術(shù)語解釋并增加NLP資源的使用說明,相信會有所幫助。

        第四部分(第10章“資源”)共有3個要點,分別提供了形態(tài)分析器、深層句法自動剖析器和形態(tài)學(xué)數(shù)據(jù)庫方面的實用資源信息。

        2. 簡評

        本書的主要特色有3個:

        1)跨學(xué)科的知識體系:作者具有跨理論語言學(xué)和計算科學(xué)的知識背景,寫作目的明確,內(nèi)容豐富切題并且體系完整,觀點有說服力,在理論語言學(xué)和NLP之間搭建了溝通的橋梁。本書不僅能為NLP領(lǐng)域的學(xué)者提供系統(tǒng)的形態(tài)學(xué)和句法學(xué)框架,也可幫助理論語言學(xué)家從NLP視角探索具有普遍意義的深層語言規(guī)律。書中的許多語言學(xué)描寫,尤其是前6章的內(nèi)容,可以直接應(yīng)用于機器翻譯。同樣,從NLP的角度描寫語言現(xiàn)象對理論語言學(xué)家也有所啟發(fā)。

        本書的內(nèi)容和技術(shù)細節(jié)的安排真正兼顧了兩個專業(yè)領(lǐng)域的學(xué)者。在這方面其他相關(guān)著作就稍顯遜色。一方面,NLP的學(xué)者常參考的語言學(xué)經(jīng)典著作(如Fromkinetal. 2013; O’Gradyetal. 2010)雖然都辟專章介紹了NLP,但篇幅有限,內(nèi)容僅限于結(jié)合少數(shù)例證介紹NLP的主要概念和研究領(lǐng)域。另一方面,語言學(xué)家常參考的NLP經(jīng)典著作(如Jurafsky & Martin 2008)主要關(guān)注語言學(xué)各層面NLP的構(gòu)架、技術(shù)細節(jié)、算法和應(yīng)用,關(guān)于語言學(xué)的討論不夠深入,系統(tǒng)性也不強。但遵循本書構(gòu)架,既能有深厚的語言學(xué)本體(尤其是普遍語法)研究基礎(chǔ),又能方便地對本體研究成果進行計算實現(xiàn),從而建立面向NLP、針對特定語言的可計算語法系統(tǒng)。

        2)跨語言差異的豐富語料支撐: 書中的討論涉及多達82種語言,而且絕大部分要點都有例句支撐。這些例句來自斯瓦希里語、希伯來語、土耳其語、芬蘭語、塞爾維亞—克羅地亞語、車臣語、印古什語、楚克奇語、尤卡吉爾語等20多個語種。此外,書中詳細討論的大量跨語言差異可以幫助語言學(xué)家更深刻地理解跨語言變化規(guī)律對設(shè)計機器翻譯系統(tǒng)和其他多語言應(yīng)用軟件的重要意義。

        3)可讀性強,使用方便:本書介紹了面向NLP的形態(tài)和句法結(jié)構(gòu)體系,言簡意賅,深入淺出。本書簡潔的排版、一目了然的目錄編排、詳細的內(nèi)容和語言索引、附錄、參考文獻以及正文中頻繁出現(xiàn)的交叉引用都非常便于快速檢索。例如,附錄中列出了行間標注中使用的語法術(shù)語縮略形式、全稱、上層語法類別以及書中相關(guān)知識要點等詳細信息。此外,20多頁參考文獻全都列出了引用出處的確切頁碼,因此擴展閱讀會非常高效。

        本書也存在以下兩點不足之處:

        1)作為一本實用手冊性質(zhì)的著作,書中沒有深入討論語言學(xué)家和NLP學(xué)者共同關(guān)注的一些重要內(nèi)容,例如:特征提取的原則、構(gòu)建特征結(jié)構(gòu)的方法和詞性標注等。

        2)多語種語料分布不均,大多集中在形態(tài)學(xué)部分,而句法部分有近80%的語料都來自英語。句法結(jié)構(gòu)在不同語言中的變化非常豐富,能提供更多啟發(fā)。如果在這一部分能進一步豐富多語種語料,更能凸顯本書跨語言的獨特視角。

        總的來說,本書信息量大、系統(tǒng)性強,是一本可讀性很好的NLP和形式語法實用工具書。因此,本書出版后短短一年多時間即受到學(xué)界的廣泛關(guān)注和好評,已被《計算語言學(xué)》和《機器翻譯》等SCI和SSCI頂級期刊推介,并已有多所著名高校將其列為研究生跨系教材,如美國麻省大學(xué)和達特茅斯學(xué)院(常春藤盟校)計算機科學(xué)系、華盛頓大學(xué)語言學(xué)系和印度孟買大學(xué)語言學(xué)系等。

        Backofen, R.etal. 1996.TheEAGLESFormalismsWorkingGroup.FinalReport(TechnicalReport) [R]. Saarbrücken: German Research Center for Artificial Intelligence.

        Bender, E. M. 2013.LinguisticFundamentalsforNaturalLanguageProcessing: 100EssentialsfromMorphologyandSyntax[M]. San Rafael: Morgan-Claypool.

        Dahl, ?. & V. Velupillai. 2011. Perfective/imperfective aspect [OL] // M. S. Dryer & M. Haspelmath (eds.).TheWorldAtlasofLanguageStructuresOnline. Munich: Max Planck Digital Library. http://wals.info/chapter/65.

        Fromkin, V.etal. 2013.AnIntroductiontoLanguage(10thedition) [M]. Wadsworth: Cengage Learning.

        Jurafsky, D. & J. H. Martin. 2008.Speech&LanguageProcessing(2ndedition) [M]. Upper Saddle River: Prentice Hall.

        O’Grady, W.etal. 2010.ContemporaryLinguistics:AnIntroduction(6thedition) [M]. Boston: Bedford/St. Martin’s.

        Sag, I. A.etal. 2003.SyntacticTheory:AFormalIntroduction[M]. Stanford: CSLI Publications.

        (責任編輯 任鳳梅)

        通訊地址: 201620 上海市 上海外國語大學(xué)英語學(xué)院

        本文系國家社會科學(xué)基金項目“類型學(xué)視野下的漢語短語結(jié)構(gòu)語法及其計算實現(xiàn)研究”(16BYY136)、教育部人文社會科學(xué)研究規(guī)劃基金項目“面向深層語言處理的漢語短語結(jié)構(gòu)語法”(13YJC740118)和上海外國語大學(xué)規(guī)劃基金項目“語言量化現(xiàn)象的多維度研究”(2013XJGH023)的階段性研究成果。

        H043

        A

        2095-5723(2016)02-0095-04

        2016-02-26

        猜你喜歡
        論元形態(tài)學(xué)句法
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
        基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
        醫(yī)學(xué)微觀形態(tài)學(xué)在教學(xué)改革中的應(yīng)用分析
        英語中動構(gòu)式中施事論元句法隱含的認知研究
        數(shù)學(xué)形態(tài)學(xué)濾波器在轉(zhuǎn)子失衡識別中的應(yīng)用
        巨核細胞數(shù)量及形態(tài)學(xué)改變在四種類型MPN中的診斷價值
        国产性感丝袜在线观看| 亚洲—本道中文字幕久久66| 亚洲精品国产精品av| 亚洲丰满熟女乱一区二区三区| 五月综合激情婷婷六月| 欧美成人秋霞久久aa片| a级毛片100部免费看| 国产午夜影视大全免费观看| 91精品欧美综合在线观看| 国产3p一区二区三区精品| 日本一级特黄aa大片| 国产xxxxx在线观看| 久草视频国产| 国产在线观看不卡网址| 久久精品亚州中文字幕| 色一情一区二区三区四区| 国产亚洲欧美日韩综合一区在线观看 | 亚洲中字永久一区二区三区| 最新国产精品拍自在线观看| 亚洲精品久久久久avwww潮水| 超薄丝袜足j好爽在线观看| 国产成人免费a在线视频| 激情视频在线播放一区二区三区| 亚洲中文字幕午夜精品| 樱花草在线播放免费中文| 成人在线免费视频亚洲| 草青青在线视频免费观看| 婷婷丁香五月激情综合| 国产96在线 | 亚洲| 手机av男人天堂免费网址| 区一区二区三免费观看视频 | 日本亚洲国产精品久久| 亚洲av综合日韩| 对白刺激的老熟女露脸| 毛片在线视频成人亚洲| 宅男666在线永久免费观看| 欧美中文字幕在线| 中文字幕一区二区区免| 色综合久久久久综合体桃花网| 亚洲欧洲巨乳清纯| 久久久AV无码精品免费|