亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        R.Hausser的左結(jié)合語法

        2014-10-24 01:18:47馮志偉
        外語學(xué)刊 2014年2期
        關(guān)鍵詞:樹結(jié)構(gòu)結(jié)點(diǎn)短語

        馮志偉

        (杭州師范大學(xué),杭州 310036)

        ●語言學(xué)

        〇引進(jìn)與詮釋

        R.Hausser的左結(jié)合語法

        馮志偉

        (杭州師范大學(xué),杭州 310036)

        本文在“語表組合線性內(nèi)部匹配”理論和“數(shù)據(jù)庫語義學(xué)”基礎(chǔ)上,介紹Roland Hausser的“左結(jié)合語法”。 這種獨(dú)具特色的形式語法,對于自然語言的自動分析和自動生成具有重要的指導(dǎo)意義。

        語表組合線性內(nèi)部匹配;數(shù)據(jù)庫語義學(xué);左結(jié)合語法

        采用計算機(jī)技術(shù)來研究和處理自然語言是20世紀(jì) 40 年代末期和50年代才開始的。50多年來,這項(xiàng)研究取得長足的進(jìn)展,成為當(dāng)代語言學(xué)中一個重要的新興分支——自然語言處理(Natural Language Processing,簡稱NLP)。在信息網(wǎng)絡(luò)時代,自然語言處理引起包括計算機(jī)專家和語言學(xué)家在內(nèi)的越來越多的學(xué)者的重視,成為文科和理科緊密結(jié)合的一門典型交叉學(xué)科(Manaris 1999)。

        由于現(xiàn)實(shí)的自然語言極為復(fù)雜,不可能直接作為計算機(jī)的處理對象,為了使現(xiàn)實(shí)的自然語言成為可以由計算機(jī)直接處理的對象,在眾多的應(yīng)用領(lǐng)域中,我們需要根據(jù)處理的要求,把自然語言抽象處理為一個“問題”(problem),再把這個問題在語言學(xué)上加以“形式化”(formalism),建立語言的“形式模型”(formal model),使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來,并且把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為“算法”(algorithm),建立自然語言處理的“計算模型”(computational model),使之能夠在計算機(jī)上實(shí)現(xiàn)。在自然語言處理中,算法取決于形式模型,形式模型是自然語言計算機(jī)處理的本質(zhì),而算法只不過是實(shí)現(xiàn)形式模型的手段而已。這種建立語言形式模型的研究是非常重要的,它應(yīng)當(dāng)屬于自然語言處理的基礎(chǔ)理論研究。(馮志偉 2010)

        由于自然語言處理的復(fù)雜性,這樣的形式模型的研究往往是一個“強(qiáng)不適定問題”(strongly ill-posed problem),也就是說,在用形式模型建立算法來求解自然語言處理的問題時,往往難以滿足問題解的“存在性”、“唯一性”和“穩(wěn)定性”這3條最基本的要求,有時是不能滿足其中的一條,有時甚至3條都不能滿足。因此,對于這樣的強(qiáng)不適定性問題求解,應(yīng)當(dāng)加入適當(dāng)?shù)摹凹s束條件”(constraint conditions),使問題的一部分在一定的范圍內(nèi)變成“適定問題”(well-posed problem),從而順利地求解這個問題,建立自然語言處理的形式模型,以達(dá)到自然語言處理的目標(biāo)。(張鈸 2007:3-7)

        我們在本文中介紹的“左結(jié)合語法”(Left-Associative Grammar,簡稱LA)就是一種獨(dú)具特色的自然語言處理的形式模型。

        左結(jié)合語法的創(chuàng)始人Roland Hausser是德國愛爾蘭根-紐倫堡大學(xué)計算語言學(xué)教授。他先后出版了《表面組成語法》、《自然人機(jī)交流》、《計算語言學(xué)基礎(chǔ)-人機(jī)自然語言交流》和《自然語言交流的計算機(jī)模型》等多部專著,發(fā)表文章近百篇。近年來,Hausser進(jìn)一步提出了“數(shù)據(jù)庫語義學(xué)”(Database Semantics,簡稱DBS)和完整的“語表組合線性內(nèi)部匹配”理論(Surface Compositional Li-near Internal Matching,簡稱SLIM),創(chuàng)立了左結(jié)合語法,在計算語言學(xué)界形成了他自己獨(dú)特的風(fēng)格。

        我與Hausser曾有一面之交。2002年聯(lián)合國教科文組織(UNESCO)韓國委員會在韓國首爾舉行了一次關(guān)于“信息時代的語言問題”的學(xué)術(shù)研討會,我和Hausser都被邀請參加了這次會議,在會議期間的交談中,我對于Hausser獨(dú)特的理論有了初步的了解,回國之后,我又細(xì)讀了他的《計算語言學(xué)基礎(chǔ)-人機(jī)自然語言交流》一書,對于他的理論又有了進(jìn)一步的認(rèn)識。我認(rèn)為Hausser是一位具有獨(dú)創(chuàng)精神的計算語言學(xué)家。

        2006年,Hausser又出版了《自然語言交流的計算機(jī)模型-數(shù)據(jù)庫語義學(xué)下的語言理解、推理和生成》一書(Hausse 2006)。在這本書中,他系統(tǒng)地分析了自然語言的主要結(jié)構(gòu),以英語為例,分析了聽話人模式(hearer mode)和說話人模式(speaker mode)下的示意推導(dǎo)。聽話人模式下的分析主要討論了如何嚴(yán)格按照時間線性順序?qū)⒑~-論元結(jié)構(gòu)(hypotaxis)和并列結(jié)構(gòu)(parataxis)編碼為命題因子,并把共指(coreference)作為推理基礎(chǔ)上的二級關(guān)系來分析。說話者模式下的分析主要討論如何在詞庫內(nèi)進(jìn)行以提取內(nèi)容為基礎(chǔ)的自動導(dǎo)航,如何按照相應(yīng)語言的語法要求輸出正確的詞形和語序,如何析出適當(dāng)?shù)墓δ茉~,等等。在這本重要的著作中,Hausser構(gòu)建了一個功能完整但覆蓋面有限的英語交流體系,為我們提供了一個對自然語言交流進(jìn)行理論分析的功能框架。

        Hausser認(rèn)為,面向未來的計算語言學(xué)的中心任務(wù)就是研究一種人類可以用自己的語言與計算機(jī)進(jìn)行自由交流的認(rèn)知機(jī)器。因此,自然語言的人機(jī)交流應(yīng)當(dāng)是計算語言學(xué)的中心任務(wù)。計算語言學(xué)研究應(yīng)當(dāng)通過對說話人的語言生成過程與聽話人解釋語言的過程進(jìn)行建模,在適宜的計算機(jī)上復(fù)制信息的自然傳遞過程,從而構(gòu)建一種可與人用自然語言自由交流的自治的認(rèn)知機(jī)器,這樣的認(rèn)知機(jī)器也就是機(jī)器人(robot)。為了實(shí)現(xiàn)這一目標(biāo),我們必須對于自然語言交流機(jī)制的功能模型有深刻的理解。

        Hausser提出的“語表組合線性內(nèi)部匹配”理論以人作為人機(jī)交流的主體,而不是以語言符號為主體,突出了人在人機(jī)交流中的主導(dǎo)作用,SLIM理論要求通過完全顯化的機(jī)械步驟,使用邏輯和電子的方式來解釋自然語言理解和自然語言的生成過程。因此, SLIM理論與現(xiàn)代語言學(xué)中的結(jié)構(gòu)主義、行為主義和言語行為等理論是不同的,具有明顯的創(chuàng)新特色。

        SLIM理論強(qiáng)調(diào)“表層成分”(Surface),以語表組合性作為它的方法論原則;SLIM理論強(qiáng)調(diào)“線性”(Linear),以時間線性作為它的實(shí)證原則;SLIM理論強(qiáng)調(diào)語言的“內(nèi)部因素”(Internal),以語言的內(nèi)部因素作為它的本體論原則;SLIM理論強(qiáng)調(diào)“匹配”(Matching),以語言和語境信息之間的匹配作為它的功能原則。事實(shí)上,SLIM這個名字本身就來自于“表層成分”、“線性”、“內(nèi)部因素”和“匹配”這4項(xiàng)原則的英文名稱的首字母縮寫。

        SLIM理論的技術(shù)實(shí)現(xiàn)手段叫做“數(shù)據(jù)庫語義學(xué)”(DBS)。DBS是把自然語言理解和生成重新建構(gòu)為“角色轉(zhuǎn)換”(turn-taking)的規(guī)則體系。角色轉(zhuǎn)換指的是從“說話人模式”向“聽話人模式”的轉(zhuǎn)換,或者從“聽話人模式”向“說話人模式”的轉(zhuǎn)換。

        在自然語言的實(shí)際交流過程中,第1個過程是聽話人模式中的自然主體從另一個主體或者語境獲得信息,第2個過程是自然主體在自己的認(rèn)知當(dāng)中分析信息,第3個過程是自然主體思考如何作出反應(yīng),第4個過程是自然主體用語言或者行動做出反饋。

        DBS的輸入與第1個過程相似,要求計算機(jī)或者機(jī)器人具備外部界面。接下來匹配語境和認(rèn)知的內(nèi)容,采用左結(jié)合語法(LA)來模擬第2個過程,這個左結(jié)合語法是處于聽話人模式中的,叫做LA-hear。左結(jié)合語法的第二個變體負(fù)責(zé)在內(nèi)存詞庫中搜索合適的內(nèi)容,叫做LA-think,這一部分操作對應(yīng)于第3個過程。左結(jié)合語法的第三個變體的任務(wù)是語言生成,叫做LA-speak,模擬第4個過程。如圖1所示:

        圖1 角色轉(zhuǎn)換體系

        在圖1中,聽話人模式的LA-hear模擬第2個過程,說話人模式的LA-think模擬第3個過程,LA-speak模擬第4個過程。

        DBS的分析結(jié)果用DBS圖(DBS graph)來表示。DBS圖是一種樹結(jié)構(gòu),但是,DBS圖的樹結(jié)構(gòu)與短語結(jié)構(gòu)語法和依存語法的樹結(jié)構(gòu)有所不同。例如,英語的句子The little girl slept(那個小女孩睡著了) 用短語結(jié)構(gòu)語法分析后的樹結(jié)構(gòu)如下:

        圖2 短語結(jié)構(gòu)樹

        在這個短語結(jié)構(gòu)語法的樹結(jié)構(gòu)中,S(句子)由NP(名詞短語)和VP(動詞短語)組成,NP由DET(限定詞),ADJ(形容詞)和N(名詞)組成,它們分別對應(yīng)于單詞the, little和girl,VP對應(yīng)于單詞slept. 句子的層次和單詞之間的前后線性關(guān)系都是很清楚的,但是,在組成S的NP和VP之間,沒有說明哪一個是中心詞,在組成NP的DET, ADJ和N之間,也沒有說明哪一個是中心詞,句子中各個成分的中心不突出。

        用依存語法分析后的樹結(jié)構(gòu)如下:

        圖3 依存結(jié)構(gòu)樹

        在這個依存語法的樹結(jié)構(gòu)中,全部結(jié)點(diǎn)都是具體的單詞,沒有S, NP, VP, DET, ADJ和N等表示范疇的結(jié)點(diǎn),各個單詞之間的依存關(guān)系清楚,這種依存關(guān)系是二元關(guān)系,支配者是中心詞,被支配者的從屬詞。但是,單詞之間的前后線性順序不如短語結(jié)構(gòu)語法的樹結(jié)構(gòu)那樣明確。

        用DBS圖分析后的樹結(jié)構(gòu)如圖4所示:

        圖4 DBS圖的樹結(jié)構(gòu)

        在DBS圖的樹結(jié)構(gòu)中,著重對語言內(nèi)容進(jìn)行分析,因此,沒有表示定冠詞 the 的結(jié)點(diǎn),結(jié)點(diǎn)上的單詞都用原型詞表示。DBS圖最突出的特色在于,DBS圖樹結(jié)構(gòu)的結(jié)點(diǎn)之間的連線各自有其明確的含義,連線不僅表示結(jié)點(diǎn)之間的依存關(guān)系,還可以根據(jù)連線走向的不同來表示不同的功能:垂直豎線“|” 表示修飾-被修飾關(guān)系,例如,圖4中l(wèi)ittle與girl用垂直豎線相連,表示little修飾girl;左斜線 “/” 代表主語-動詞關(guān)系,例如,圖4中g(shù)irl與sleep用左斜線相連,表示girl是sleep的主語。此外,DBS圖樹結(jié)構(gòu)還使用右斜線 “” 表示賓語-動詞關(guān)系,使用水平線 “-”表示并列關(guān)系。由于連線走向的不同可以表示不同的功能,這樣的樹結(jié)構(gòu)表示的信息比短語結(jié)構(gòu)語法的樹結(jié)構(gòu)和依存語法的樹結(jié)構(gòu)豐富多了。這是DBS圖樹結(jié)構(gòu)最引人矚目的特點(diǎn)。

        上面的DBS圖中表示了little做girl的修飾語,girl做sleep的主語,表達(dá)的是句子中單詞之間的語義關(guān)系,所以,Hausser把這樣的DBS圖叫做“語義關(guān)系圖”(the semantic relations graph,簡稱SRG)。

        如果把DBS圖中每個結(jié)點(diǎn)上的單詞替換為代表其詞性的字母,那么,語義關(guān)系圖就變成了“詞性關(guān)系圖”(the part of speech signature,或者簡寫為signature)。上一例句的詞性關(guān)系圖如圖5所示:

        圖5 詞性關(guān)系圖

        語義關(guān)系圖和詞性關(guān)系圖是同一句子內(nèi)容的不同表示,它們表示的內(nèi)容相同,表示的形式不同。

        Hausser在2011年的新書中還提出了另外兩個圖:一個是“編號弧圖”(the numbered arcs graph,簡稱NAG), 一個是“語表實(shí)現(xiàn)圖”(the surface realization)。這兩個圖分別表現(xiàn)如何從內(nèi)容生成語言的過程和結(jié)果。編號弧圖表示激活語義關(guān)系圖的時間線性順序,也就是說,編號弧圖在某種程度上可以說是添加了編號弧的語義關(guān)系圖。語表實(shí)現(xiàn)圖表示如何按照遍歷順序生成語言的表層形式。

        例如,英語句子“The little girl ate an apple”(這個女孩吃了一個蘋果)的語義關(guān)系圖(SRG)如圖6所示:

        圖6 語義關(guān)系圖

        由于語義關(guān)系圖(SRG)只表示句子的內(nèi)容,所以,在這個SRG中,沒有表示定冠詞the的結(jié)點(diǎn),也沒有表示不定冠詞an的結(jié)點(diǎn),過去時形式ate用不定式動詞eat來表示。

        這個句子的詞性關(guān)系圖(signature)如圖7所示:

        圖7 詞性關(guān)系圖

        在這個詞性關(guān)系圖中,結(jié)點(diǎn)上的單詞都替換表示其詞性的字母。

        這個句子的編號弧圖(NAG)如圖8所示:

        圖8 編號弧圖

        由于編號弧圖要表示激活語義關(guān)系圖的時間線性順序,這種時間順序用編號弧表示,編號弧用虛線標(biāo)出,并在虛線旁邊用數(shù)字注上時間的線性順序:結(jié)點(diǎn)eat首先激活的結(jié)點(diǎn)girl(編號弧1);接著,結(jié)點(diǎn)girl激活結(jié)點(diǎn)little(編號弧2),由于它們之間用垂直豎線“|”相連,因此,可推導(dǎo)出little修飾girl(編號弧3);由于結(jié)點(diǎn)girl與結(jié)點(diǎn)eat之間用左斜線 “/”相連,因此,可推導(dǎo)出girl是eat的主語(編號弧4);然后,結(jié)點(diǎn)eat激活結(jié)點(diǎn)apple(編號弧5),由于結(jié)點(diǎn)apple與結(jié)點(diǎn)eat之間用右斜線 “”相連,因此,可推導(dǎo)出apple是eat的賓語(編號弧6)。可以看出,所有表示推導(dǎo)的編號弧的方向都是自底向上的。

        這個句子的語表實(shí)現(xiàn)圖如圖9所示:

        圖9 語表實(shí)現(xiàn)圖

        圖9中的數(shù)字表示單詞生成的順序。

        數(shù)據(jù)庫語義學(xué)(DBS)有兩個基礎(chǔ):一個是左結(jié)合語法(LA-grammar),一個是單詞數(shù)據(jù)庫(word bank)。左結(jié)合語法和單詞數(shù)據(jù)庫在DBS中緊密結(jié)合在一起。Hausser把左結(jié)合語法比作火車頭,把單詞數(shù)據(jù)庫比作火車運(yùn)行必需的鐵路系統(tǒng)。

        單詞數(shù)據(jù)庫存儲單詞的內(nèi)容,其存儲形式是一種非遞歸的特征結(jié)構(gòu),叫做“命題因子”(proplets)。英文 “proplet” 取自 “proposition droplet”,表示命題的構(gòu)成部分。

        一個命題因子是“屬性-值偶對”的集合。每個單詞或者句子元素的句法語義信息都體現(xiàn)為相應(yīng)的屬性-值矩陣。例如,漢語“學(xué)生”這個單詞的屬性-值矩陣如圖10所示:

        圖10 屬性-值矩陣

        這樣的屬性-值矩陣就是單詞數(shù)據(jù)庫的“命題因子”。

        左結(jié)合語法是按照自然語言的時間線性順序自左向右結(jié)合進(jìn)行分析與計算的方法。

        具體來講,每個句子的第一個詞為整句分析過程中的第一個“句子起始部分”(sentence start),之后輸入下“一個詞”(next word),二者經(jīng)過計算構(gòu)成新的句子起始部分,再繼續(xù)與下一個輸入的單詞進(jìn)行組合計算。這樣不斷地進(jìn)行分析,直到句子結(jié)束或者出現(xiàn)語法錯誤才終止。當(dāng)出現(xiàn)句法歧義或者詞匯歧義時,左結(jié)合語法允許按照不同的推導(dǎo)路徑并行地繼續(xù)運(yùn)算。

        Hausser將左結(jié)合語法與短語結(jié)構(gòu)語法進(jìn)行了對比分析。他指出,左結(jié)合語法與短語結(jié)構(gòu)語法是同質(zhì)的語言分析方法。它們之間的差異在于:短語結(jié)構(gòu)語法依據(jù)的是“替換原則”(the principle of substitution),而左結(jié)合語法依據(jù)的則是“可接續(xù)性原則”(the principle of continuation)。如果以“a, b, c…” 來代表語言符號,以“+” 代表串連符,那么,左結(jié)合語法的計算過程可以表示如圖11:

        圖11 左結(jié)合語法的計算過程

        左結(jié)合語法在進(jìn)行推導(dǎo)時,總是按照自左向右和自底向上的順序,沿著樹結(jié)構(gòu)的左側(cè),一步一步地把單詞逐一地結(jié)合起來的。樹結(jié)構(gòu)中的推導(dǎo)順序如圖12所示:

        圖12 樹結(jié)構(gòu)中的推導(dǎo)順序

        例如,英語句子“Every girl drunk water”(每一個女孩都喝了水)的推導(dǎo)順序如圖13所示:

        圖13 推導(dǎo)順序示例

        從這個樹結(jié)構(gòu)中可以看出,推導(dǎo)從左側(cè)開始,首先把every與girl結(jié)合起來,形成(np),然后把(np)與drank結(jié)合起來,形成(np’v),最后把(np’v)與(sn)結(jié)合起來,形成(v)。

        整個推導(dǎo)過程遵循時間線性(time linearity)的原則。所謂“時間線性”,就是“以時間為序,與時間同向”(linear like time and in the direction of time),也就是說,在推導(dǎo)時,要按照時間前后的順序進(jìn)行,要沿著時間的方向推進(jìn)。

        顯而易見,左結(jié)合語法是一種基于短語結(jié)構(gòu)語法的形式模型,同時又吸取了依存語法和數(shù)據(jù)庫語義學(xué)的一些優(yōu)點(diǎn),具有明顯的創(chuàng)新特色。這種獨(dú)具特色的形式模型,對于自然語言的自動分析和自動生成具有重要的指導(dǎo)意義。

        馮志偉. 自然語言處理的形式模型[M]. 北京:中國科學(xué)技術(shù)大學(xué)出版社, 2010.

        張 鈸. 自然語言處理的計算模型[J]. 中文信息學(xué)報, 2007(3).

        Hausser, R.AComputationalModelofNaturalLanguageCommunication:Interpretation,InferenceandProductioninDatabaseSemantics[M]. Berlin:Springer-Verlag, 2006.

        Manaris, B.NaturalLanguageProcessing:AHuman-computerInteractionPerspective[J].AdvancesinComputers, 1999(47).

        【責(zé)任編輯謝 群】

        Left-AssociativeGrammarofRolandHausser

        Feng Zhi-wei

        (Hangzhou Normal University, Hangzhou 310036, China )

        Based upon Surface Compositional Linear Internal Matching (SCLIM) and Database Semantics (DBS), this paper introduces the Left-Associative Grammar (LA) of Roland Hausser. LA plays important role in automatic analysis and generation in natural language processing.

        Surface Compositional Linear Internal Matching; Database Semantics; Left-Associative Grammar

        H043

        A

        1000-0100(2014)02-0030-5

        2012-03-27

        猜你喜歡
        樹結(jié)構(gòu)結(jié)點(diǎn)短語
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個數(shù)估計
        四維余代數(shù)的分類
        大數(shù)據(jù)背景下基于B—樹結(jié)構(gòu)的SQL Server數(shù)據(jù)優(yōu)化策略研究
        基于μσ-DWC特征和樹結(jié)構(gòu)M-SVM的多維時間序列分類
        采用動態(tài)樹結(jié)構(gòu)實(shí)現(xiàn)網(wǎng)絡(luò)課程內(nèi)容的動態(tài)更新
        河南科技(2014年11期)2014-02-27 14:17:57
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測量網(wǎng)絡(luò)實(shí)現(xiàn)
        基于DHT全分布式P2P-SIP網(wǎng)絡(luò)電話穩(wěn)定性研究與設(shè)計
        結(jié)點(diǎn)位移的確定
        永久免费毛片在线播放| 亚洲av无码一区二区三区天堂古代 | 人妻少妇av无码一区二区| 欧美乱人伦中文字幕在线不卡| 国内精品国产三级国产avx| 麻豆精品一区二区综合av| 欧美性色黄大片手机版| 久久AⅤ无码精品为人妻系列| 亚洲国产一区二区三区在观看| 国产91极品身材白皙| 成年性生交大片免费看| 丰满岳乱妇久久久| www.av在线.com| 免费精品人妻一区二区三区| 粗大的内捧猛烈进出少妇| 躁躁躁日日躁| 成人国产精品免费网站| 日本一区二区三区高清视 | 国内精品国产三级国产| 五月天中文字幕mv在线| 色婷婷五月综合亚洲小说| 亚洲AV无码久久久久调教| 国产精品老熟女乱一区二区| 人妻少妇出轨中文字幕| 欧美高大丰满freesex| 亲少妇摸少妇和少妇啪啪| 国产91色综合久久高清| 2018国产精华国产精品| 亚洲AV无码一区二区三区ba| 日本高清在线一区二区| 亚洲国产精品久久精品| 婷婷色中文字幕综合在线| 欧美精品v欧洲高清| 亚洲女同免费在线观看| 久久久av波多野一区二区| 久久亚洲Av无码专区| 亚洲黄片av在线免费观看| 免费a级毛片18禁网站| 国产人妻无码一区二区三区免费| 亚洲第一免费播放区| 日本一本一道久久香蕉男人的天堂|