亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義解析的中文GIS自然語(yǔ)言接口實(shí)現(xiàn)研究

        2014-02-28 01:26:22周俊生曲維光許菊紅龍毅朱耀邦
        中文信息學(xué)報(bào) 2014年6期
        關(guān)鍵詞:語(yǔ)義意義

        周俊生, 曲維光,許菊紅,龍毅,朱耀邦

        (1. 南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210023;2. 南京師范大學(xué) 地理科學(xué)學(xué)院,虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)

        1 引言

        隨著地理信息系統(tǒng)(GIS)應(yīng)用的普及,中文GIS應(yīng)用越來(lái)越面向公眾服務(wù),如位置信息服務(wù)、車載地圖導(dǎo)航及旅游景點(diǎn)介紹等。人們可以通過(guò)GIS系統(tǒng)查詢一些與日常生活息息相關(guān)的信息,比如“107國(guó)道穿越哪幾個(gè)縣”、“查詢金陵飯店附近500米范圍內(nèi)的超市”等。但如果在傳統(tǒng)的基于窗口、菜單和對(duì)話框等形式的GIS條件界面上執(zhí)行這些GIS操作時(shí),經(jīng)常需要在不同的圖層設(shè)置條件和輸入信息,比較繁瑣與低效。因此,如果在GIS中合理運(yùn)用自然語(yǔ)言接口實(shí)現(xiàn)人機(jī)間的通信交互,更符合人們的認(rèn)知習(xí)慣和語(yǔ)言習(xí)慣,更有助于GIS的應(yīng)用普及。近些年來(lái),許多研究者在中文GIS的自然語(yǔ)言接口技術(shù)上展開了一系列的研究[1-4],但是目前的研究主要還是基于文法規(guī)則或模式匹配的方法。顯然,這種基于規(guī)則匹配的方法很難解決中文表達(dá)的靈活性問(wèn)題。

        另一方面,近些年來(lái)語(yǔ)義解析(semantic parsing)已成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。語(yǔ)義解析的目標(biāo)是將自然語(yǔ)言形式的句子轉(zhuǎn)換成一種完全形式化的意義表示MR(Meaning Representation)[5]。由于意義表示語(yǔ)言MRL(Meaning Representation Language)是一種無(wú)歧義的形式化語(yǔ)言,因而,基于一種形式化的MRL給出的自然語(yǔ)言句子的意義表示可以被計(jì)算機(jī)直接處理和自動(dòng)推理。在過(guò)去的十來(lái)年中,研究者們提出了多種基于統(tǒng)計(jì)學(xué)習(xí)模型的語(yǔ)義解析方法。例如,Wong 提出了一種基于統(tǒng)計(jì)機(jī)器翻譯技術(shù)的語(yǔ)義解析算法WASP[6],Lu 提出了一種基于生成式模型(generative model)的語(yǔ)義解析方法[7]。Kwiatkowski 則提出了基于組合范疇文法CCG(Combinatory Categorial Grammar)以及高階合一方法的語(yǔ)義解析方法等[8]。

        因此,本文將采用語(yǔ)義解析方法對(duì)中文GIS自然語(yǔ)言接口實(shí)現(xiàn)技術(shù)展開探索性的研究。為了能夠采用有監(jiān)督學(xué)習(xí)的中文語(yǔ)義解析算法實(shí)現(xiàn)中文GIS自然語(yǔ)言接口,我們首先選擇一個(gè)GIS具體應(yīng)用領(lǐng)域設(shè)計(jì)了一種形式化意義表示語(yǔ)言,并開發(fā)了一個(gè)相應(yīng)的語(yǔ)義解析標(biāo)注語(yǔ)料庫(kù);然后,我們?cè)O(shè)計(jì)了一種有效的語(yǔ)義解析算法,實(shí)現(xiàn)了GIS操作的自然語(yǔ)言輸入到形式化意義表示形式的轉(zhuǎn)換。在所開發(fā)的語(yǔ)料庫(kù)上進(jìn)行的十折交叉驗(yàn)證實(shí)驗(yàn)結(jié)果顯示,本文所采用的語(yǔ)義解析算法的F1值達(dá)到了90.67%,性能明顯優(yōu)于baseline系統(tǒng)。

        2 形式化意義表示語(yǔ)言的設(shè)計(jì)及語(yǔ)料庫(kù)的開發(fā)

        為了將自然語(yǔ)言的句子轉(zhuǎn)化成一種計(jì)算機(jī)可理解和執(zhí)行的形式化表示,首先需要定義一種形式化的意義表示語(yǔ)言。具體地,我們以南京市地圖信息查詢作為應(yīng)用領(lǐng)域,設(shè)計(jì)了一種函數(shù)式的形式化意義表示語(yǔ)言GISQL,在此基礎(chǔ)上,我們進(jìn)一步開發(fā)了一個(gè)相應(yīng)的中文語(yǔ)義解析標(biāo)注語(yǔ)料庫(kù)。

        2.1 形式化意義表示語(yǔ)言GISQL的設(shè)計(jì)

        GISQL是一種函數(shù)式的意義表示語(yǔ)言,之所以選擇函數(shù)式的形式語(yǔ)言表示而沒(méi)有選擇更加普遍使用的SQL語(yǔ)言是因?yàn)楹瘮?shù)式語(yǔ)言能夠提供一種更加易于實(shí)現(xiàn)映射的組合形式將自然語(yǔ)言句子映射到復(fù)雜的意義表示形式。意義表示語(yǔ)言中的基本元素與GIS數(shù)據(jù)庫(kù)對(duì)象的一些術(shù)語(yǔ)之間存在一定的對(duì)應(yīng)關(guān)系。這些基本元素包含非終結(jié)符和函數(shù)(或謂詞)。在GIS數(shù)據(jù)庫(kù)中,存在很多的實(shí)體類型,例如學(xué)校、超市、銀行、景點(diǎn)、娛樂(lè)場(chǎng)所等,所以對(duì)于不同的實(shí)體類型定義不同的非終結(jié)符是不切實(shí)際的。因此我們引入了一個(gè)非終結(jié)符“ENTITYNAME”代表各種不同類型的實(shí)體,包括地名、單位名、街道名、行政區(qū)名等。但在每一次引用時(shí)它指代的實(shí)體是確定和唯一的,例如“夫子廟”、“文苑路”、“玄武區(qū)”等地理命名實(shí)體。此外,在自然語(yǔ)言的表達(dá)中有一些實(shí)體名具有不確定性,比如 “蘇果超市”、“銀行”等并不能代表一個(gè)特定位置的超市和銀行。為此,我們引入了另外一種非終結(jié)符“ENTITYTYPENAME”代表不確定的實(shí)體類型。在GISQL文法中,我們共設(shè)計(jì)了10種不同的非終結(jié)符,如表1所示。

        表1 GISQL中的非終結(jié)符

        基于以上的非終結(jié)符集合的設(shè)計(jì),我們進(jìn)一步為GISQL文法設(shè)計(jì)和構(gòu)造了一個(gè)函數(shù)(或謂詞)集合,共包含54個(gè)不同函數(shù),表2中給出了GISQL中的部分函數(shù)實(shí)例及其相應(yīng)的意義。GISQL中的函數(shù)和GIS系統(tǒng)本身提供的函數(shù)并不具有直接的對(duì)應(yīng)關(guān)系(本文實(shí)驗(yàn)中使用的GIS系統(tǒng)是ArcGis)。簡(jiǎn)單地說(shuō),GISQL中的單個(gè)函數(shù)可能涉及到GIS中多個(gè)函數(shù)的嵌套調(diào)用。例如,GISQL中的函數(shù)的contain(Entity, EntityTypeName)函數(shù)是首先由GIS中的QueryEntity(List targetObject, ISpatialFilter pSpatialFilter, refList featuresID)查找所有EntityTypeName類型的全部實(shí)體;其次對(duì)EntityTypeName中的每一個(gè)元素調(diào)用GIS函數(shù)contain(entity1,entity2)判斷是否為真,若為真則保存相應(yīng)實(shí)體,若為假則進(jìn)行下一次判斷,最后返回滿足所有條件的實(shí)體,從而實(shí)現(xiàn)了GISQL中的contain(Entity, EntityTypeName)函數(shù)功能。在GISQL文法中的函數(shù)可以有多種解釋,例如一個(gè)函數(shù)返回值可以是一個(gè)實(shí)體集合,一個(gè)實(shí)體的屬性,實(shí)體之間的某種空間關(guān)系,或者是返回一個(gè)GIS操作的中間結(jié)果集。

        表2 GISQL中的一些函數(shù)實(shí)例描述

        形式文法是由一系列產(chǎn)生式組成的,定義了非終結(jié)符和函數(shù)集合后,就可定義形式化意義表示語(yǔ)言中的產(chǎn)生式。對(duì)于每個(gè)非終結(jié)符都可以定義一個(gè)或多個(gè)產(chǎn)生式,而每一個(gè)句子意義表示均是由多個(gè)產(chǎn)生式組合而成,并且一個(gè)特定的產(chǎn)生式組合能確定唯一的MR解析樹。圖1給出了一個(gè)自然語(yǔ)言查詢實(shí)例和其相應(yīng)的意義表示以及對(duì)應(yīng)的MR解析樹。

        (a) 自然語(yǔ)言查詢實(shí)例: 查詢?cè)谌丝诿芏茸钚〉男姓^(qū)內(nèi)所有蘇果超市的面積和是多大?

        (b) 形式化意義表示: answer(sum(area(contain(smallest_one(density(queryentity('行政區(qū)'))),'蘇果超市'))))

        (c) 意義表示(MR)解析樹:

        圖1 一個(gè)自然語(yǔ)言的查詢實(shí)例及其相應(yīng)的的MR解析樹

        2.2 中文語(yǔ)義解析標(biāo)注語(yǔ)料庫(kù)的開發(fā)

        為了建立基于有監(jiān)督學(xué)習(xí)的中文語(yǔ)義解析器和實(shí)驗(yàn)測(cè)試的需要,我們?cè)贕ISQL文法設(shè)計(jì)的基礎(chǔ)上開發(fā)了一個(gè)中文語(yǔ)義解析標(biāo)注語(yǔ)料庫(kù)。為此,我們需要收集大量關(guān)于南京市地圖查詢的中文自然語(yǔ)言查詢實(shí)例。為了使收集的查詢問(wèn)題實(shí)例更接近于人們?cè)趯?shí)際生活中可能提出的真實(shí)查詢問(wèn)題,我們?cè)诮M織學(xué)生收集具體的中文自然語(yǔ)言查詢實(shí)例之前,首先全面分析和考慮了涉及南京市地圖查詢的所有可能的問(wèn)題類型,并設(shè)計(jì)了一個(gè)實(shí)際查詢問(wèn)題的類型方案。具體的,我們依據(jù)可能的查詢目標(biāo)將所有可能的真實(shí)查詢問(wèn)題共分為七種類型,如表3所示。其中每種類型下可包含大量不同的查詢實(shí)例表達(dá),而且一些類似的問(wèn)題也可以根據(jù)不同的句式添加不同的實(shí)例表達(dá),例如可以根據(jù)人們的表達(dá)習(xí)慣,將查詢動(dòng)詞、語(yǔ)氣詞、查詢目標(biāo)三者之間的位置互換等。針對(duì)這七種查詢問(wèn)題的類型,我們共收集了1 110條自然語(yǔ)言實(shí)例。這些自然語(yǔ)言查詢實(shí)例表達(dá)都是非常常見和靈活的自然語(yǔ)言查詢問(wèn)句,有些比較口語(yǔ)化,如包含詞語(yǔ)的缺失、詞序的靈活變動(dòng)等。

        表3 自然語(yǔ)言查詢的問(wèn)題類型與相應(yīng)實(shí)例

        對(duì)于收集的這1 110個(gè)自然語(yǔ)言實(shí)例,我們根據(jù)GISQL文法對(duì)每個(gè)實(shí)例的意義表示形式都進(jìn)行人工標(biāo)注和校對(duì),從而構(gòu)成了1 110個(gè)自然語(yǔ)言句子/意義表示(NL/MR)對(duì)的語(yǔ)料庫(kù)。其中,自然語(yǔ)言句子的平均長(zhǎng)度為16.38個(gè)字,意義表示的平均長(zhǎng)度為7.72。

        在英文語(yǔ)義解析研究中,目前廣泛使用的一個(gè)實(shí)驗(yàn)語(yǔ)料庫(kù)是GEOQUERY[9],它是隨Turbo Prolog 2.0一起發(fā)布的一個(gè)小的數(shù)據(jù)集,共包含880條關(guān)于美國(guó)簡(jiǎn)單地理信息的自然語(yǔ)言查詢實(shí)例(例如,“美國(guó)最高的山是哪個(gè)?”、“有哪些河流經(jīng)德克薩斯州?”等),并對(duì)這些實(shí)例采用了一種邏輯查詢語(yǔ)言進(jìn)行了標(biāo)注。相對(duì)于GEOQUERY,本文研究的實(shí)際GIS應(yīng)用領(lǐng)域更復(fù)雜,因而設(shè)計(jì)的GISQL文法也更復(fù)雜,包含了更多數(shù)量的函數(shù)和產(chǎn)生式;而且,我們開發(fā)的語(yǔ)料庫(kù)規(guī)模也更大。

        3 基于隱變量感知器的語(yǔ)義解析實(shí)現(xiàn)算法

        語(yǔ)義解析任務(wù)是將自然語(yǔ)言句子x轉(zhuǎn)換成形式化的意義表示y,其中,輸入x是詞的序列,輸出y是由形式化意義表示文法中的產(chǎn)生式構(gòu)成的MR樹。顯然,判別式的結(jié)構(gòu)化學(xué)習(xí)模型非常適合于求解語(yǔ)義解析任務(wù)。但是,句子x中的詞和MR樹y中的結(jié)點(diǎn)之間并不存在直接的對(duì)應(yīng)關(guān)系。為了解決這個(gè)問(wèn)題,一種有效的方法是通過(guò)引入隱變量h構(gòu)造輸入句子和輸出的意義表示之間的對(duì)應(yīng)性[11]。假設(shè)給定輸入句子x,輸出的MR樹y和隱變量h的聯(lián)合特征向量,用F(x,h,y)表示,w表示一組相對(duì)應(yīng)的參數(shù)。判別式結(jié)構(gòu)化預(yù)測(cè)模型f用于返回輸出的得分最高的意義表示y,同時(shí)最大化隱變量h[10],如公式(1)所示:

        (1)

        應(yīng)用隱變量結(jié)構(gòu)化預(yù)測(cè)模型解決語(yǔ)義解析問(wèn)題將面臨三個(gè)方面的挑戰(zhàn)[11]: 1)如何引入一個(gè)合適的隱變量對(duì)輸入和輸出之間的對(duì)應(yīng)關(guān)系進(jìn)行建模;2)如何設(shè)計(jì)一個(gè)有效的學(xué)習(xí)算法用于直接優(yōu)化最大化問(wèn)題的模型參數(shù)w;3)在龐大的樹結(jié)構(gòu)搜索空間中,如何設(shè)計(jì)一個(gè)有效的解碼算法以獲得最優(yōu)輸出。

        3.1 隱變量的結(jié)構(gòu)

        我們引入混合樹(hybrid tree)作為隱變量構(gòu)造輸入句子和輸出的意義表示樹(MR-tree)的對(duì)應(yīng)關(guān)系,因?yàn)樗峁┝艘粋€(gè)自然的結(jié)構(gòu)表示自然語(yǔ)言句子中的詞語(yǔ)和意義表示文法中的產(chǎn)生式的相關(guān)性[7]?;旌蠘涫怯勺匀徽Z(yǔ)言詞語(yǔ)作為葉子節(jié)點(diǎn)和文法中的產(chǎn)生式作為內(nèi)部節(jié)點(diǎn)的樹。圖2中給出了在圖1中所示的實(shí)例對(duì)應(yīng)的一棵混合樹。

        圖2 混合樹實(shí)例

        對(duì)于每一對(duì)輸入句子x和對(duì)應(yīng)的輸出MR樹y,可能存在多個(gè)不同的推導(dǎo)能夠建立輸入輸出對(duì)(x,y)之間的對(duì)應(yīng)關(guān)系,而其中的每一個(gè)推導(dǎo)構(gòu)成了一棵混合樹。對(duì)每一棵混合樹通過(guò)保留其中的產(chǎn)生式中間結(jié)點(diǎn)和地理實(shí)體終結(jié)符可派生出唯一的一棵MR樹或一種形式化意義表示。因此,混合樹結(jié)構(gòu)非常適合在判別式結(jié)構(gòu)化模型中充當(dāng)隱變量結(jié)構(gòu)。

        3.2 參數(shù)學(xué)習(xí)算法

        基于效率和收斂性的考慮[12],我們采用隱變量感知器算法學(xué)習(xí)判別式模型的語(yǔ)義解析器。類似于結(jié)構(gòu)化感知器[13],隱變量感知器算法也是一種通過(guò)迭代訓(xùn)練集的在線學(xué)習(xí)算法,圖3中描述了語(yǔ)義解析任務(wù)中的隱變量感知器算法。此算法主要通過(guò)學(xué)習(xí)預(yù)測(cè)混合樹來(lái)幫助解決解析任務(wù),在算法中存在以下兩種解碼任務(wù):

        其中,h*表示與實(shí)例對(duì)(xi,yi)對(duì)應(yīng)的混合樹。對(duì)訓(xùn)練實(shí)例對(duì)(xi,yi)我們可以通過(guò)應(yīng)用一種約束的隱結(jié)構(gòu)解碼器來(lái)預(yù)測(cè)混合樹h*。約束解碼器是指解碼搜索過(guò)程中僅使用正確解析樹yi中的MR產(chǎn)生式作為候選MR產(chǎn)生式集合去搜索得分最高的混合樹,且此混合樹涵蓋了句子xi中的所有詞語(yǔ)。而混合樹h′則可以通過(guò)一種非約束的普通解碼器進(jìn)行預(yù)測(cè),并且從混合樹h′中可直接提取預(yù)測(cè)輸出y′,該操作用運(yùn)算式Proj(h)表示。受MIRA在線學(xué)習(xí)算法的啟發(fā)[14],本文采用最大間隔原則更新參數(shù)向量w。

        圖3 基于隱變量感知器的語(yǔ)義解析訓(xùn)練算法

        3.3 特征模板的設(shè)計(jì)

        在基于含隱變量的結(jié)構(gòu)化感知器的判別式學(xué)習(xí)模型中,特征模板的設(shè)計(jì)非常重要。在混合樹中,結(jié)點(diǎn)或者對(duì)應(yīng)于自然語(yǔ)言(NL)詞,或者對(duì)應(yīng)于一個(gè)MR產(chǎn)生式,每個(gè)NL詞和子MR產(chǎn)生式都是由它的直接父MR產(chǎn)生式產(chǎn)生的。換句話說(shuō),混合樹中的所有NL詞和子MR產(chǎn)生式都連接到他們的父MR產(chǎn)生式。為了能全面地描述混合樹的結(jié)構(gòu)特性,我們共設(shè)計(jì)了四種類型特征:

        1) 詞特征(Word features);

        2) 產(chǎn)生式特征(Production features);

        3) 詞和產(chǎn)生式的混合特征(Mixture features);

        4) 混合模式特征(hybrid pattern features)。

        表4中給出了所有類型的特征模板定義。其中,前三種類型特征用于獲取父MR產(chǎn)生式和它所有孩子結(jié)點(diǎn)之間的相關(guān)性。最后一種特征描述由父產(chǎn)生式結(jié)點(diǎn)向下延伸的混合模式,具體地說(shuō),對(duì)于混合樹中一個(gè)給定的MR產(chǎn)生式結(jié)點(diǎn),混合模式是指該結(jié)點(diǎn)下的自然語(yǔ)言的詞序列和其各個(gè)子MR產(chǎn)生式結(jié)點(diǎn)之間組合的形式。為簡(jiǎn)化解碼過(guò)程,在文法GISQL中我們已約定每個(gè)MR產(chǎn)生式的右邊最多有兩個(gè)子語(yǔ)義范疇,即含有兩個(gè)子MR產(chǎn)生式。

        表4 特征模板

        其中,w表示自然語(yǔ)言中的詞,w-1表示詞w左邊的第一個(gè)詞,p表示子MR產(chǎn)生式,par表示與一個(gè)NL詞或者一個(gè)子MR產(chǎn)生式直接相關(guān)的父MR產(chǎn)生式,rule表示一個(gè)混合模式;isConstant(w)用于檢查w是否是已知常量,例如地理命名實(shí)體等;predicate(p)表示從MR產(chǎn)生式p中提取出函數(shù)(或謂詞)。

        3.4 解碼算法的設(shè)計(jì)

        解碼算法的目標(biāo)是根據(jù)模型參數(shù)找到分值最高的混合樹。由于前述的所有特征模板均具有局部性,因此我們?cè)O(shè)計(jì)了一種動(dòng)態(tài)規(guī)劃解碼算法有效地產(chǎn)生最優(yōu)混合樹。

        在動(dòng)態(tài)規(guī)劃的解碼算法中,首先讓每一個(gè)子問(wèn)題對(duì)應(yīng)于混合樹中以某個(gè)MR產(chǎn)生式為根的子樹,該子樹派生自然語(yǔ)言句子中的部分詞;然后,根據(jù)每個(gè)根MR產(chǎn)生式涵蓋的詞的個(gè)數(shù)以及根MR產(chǎn)生式相關(guān)的所有可能混合模式來(lái)分解子問(wèn)題;最后,依照自底向上的次序求解所有子問(wèn)題。但是,由于算法中可能的混合模式數(shù)量多達(dá)21個(gè),從而導(dǎo)致動(dòng)態(tài)規(guī)劃中的遞歸表達(dá)非常復(fù)雜,圖4中僅給出了算法的簡(jiǎn)要輪廓描述。該動(dòng)態(tài)規(guī)劃算法的時(shí)間復(fù)雜度為O(n2T2),其中n為句子的長(zhǎng)度,T為候選MR產(chǎn)生式的個(gè)數(shù)。

        圖4 語(yǔ)義解析中的動(dòng)態(tài)規(guī)劃解碼算法

        3.5 候選MR產(chǎn)生式集合的提取

        由于解碼算法的時(shí)間復(fù)雜度不僅依賴于句子的長(zhǎng)度,而且還與候選MR產(chǎn)生式集合的大小有關(guān)。因此,為了在測(cè)試階段能進(jìn)一步提高解碼的效率和準(zhǔn)確率,我們提出了一個(gè)基于向量空間模型的MR產(chǎn)生式排序方法來(lái)提取相關(guān)的MR產(chǎn)生式用于解碼,而不是簡(jiǎn)單地使用所有可能的MR產(chǎn)生式作為候選集合。

        類似于文檔排序方法[15],我們利用向量空間模型將相關(guān)MR產(chǎn)生式的提取問(wèn)題轉(zhuǎn)換為MR產(chǎn)生式排序問(wèn)題。但是與文檔排序問(wèn)題不同的是,將每個(gè)可能的MR產(chǎn)生式表示成一個(gè)向量是非常困難的。對(duì)于訓(xùn)練數(shù)據(jù)集中的每個(gè)實(shí)例,它的正確MR樹均是給定的,而每個(gè)訓(xùn)練實(shí)例的正確MR樹中一般都包含多個(gè)不同的MR產(chǎn)生式,如何建立各個(gè)MR產(chǎn)生式與自然語(yǔ)言句子中一個(gè)詞或多個(gè)詞之間可能存在的關(guān)聯(lián)性呢?為了解決這個(gè)問(wèn)題,我們首先設(shè)計(jì)了一個(gè)簡(jiǎn)單有效的方式來(lái)構(gòu)建每個(gè)MR產(chǎn)生式的向量。

        第一步,對(duì)于每一個(gè)訓(xùn)練實(shí)例通過(guò)從其自然語(yǔ)言句子中抽取所有一元、二元、三元詞匯串的方式建立一個(gè)相應(yīng)的向量表示;接下來(lái),為了給出每個(gè)MR產(chǎn)生式的向量表示,我們對(duì)包含該MR產(chǎn)生式的所有訓(xùn)練實(shí)例的向量進(jìn)行求和,用此和向量作為該MR產(chǎn)生式的對(duì)應(yīng)的向量表示。對(duì)每個(gè)MR產(chǎn)生式的向量表示均按此方法計(jì)算獲取。采用這種計(jì)算方法的基本理由是: 因?yàn)榕c某個(gè)MR產(chǎn)生式密切相關(guān)的一些詞或短語(yǔ)可能會(huì)多次出現(xiàn)在其MR樹中包含該MR產(chǎn)生式的訓(xùn)練實(shí)例句子中,因此,對(duì)包含相同MR產(chǎn)生式的實(shí)例向量進(jìn)行相加求和可以導(dǎo)致在該MR產(chǎn)生式對(duì)應(yīng)的和向量中與這些詞或短語(yǔ)對(duì)應(yīng)的項(xiàng)會(huì)具有較高的頻度值。

        其次,為每個(gè)MR產(chǎn)生式構(gòu)建向量表示的另一個(gè)重要問(wèn)題是MR產(chǎn)生式向量中每一項(xiàng)的權(quán)重如何設(shè)置?如果簡(jiǎn)單按照上述求和方式直接構(gòu)建每個(gè)MR產(chǎn)生式向量將會(huì)導(dǎo)致在和向量中必然存在很多噪音,為此我們采用一種修改的tf-idf權(quán)重方案,即通過(guò)計(jì)算相對(duì)詞頻值來(lái)替換傳統(tǒng)的詞頻,因?yàn)橄鄬?duì)詞頻值可以更好地反應(yīng)向量中的各個(gè)特征項(xiàng)對(duì)于一個(gè)MR產(chǎn)生式的重要性。

        在測(cè)試時(shí),對(duì)于一個(gè)給定的測(cè)試自然語(yǔ)言實(shí)例,首先按上述方法構(gòu)造一個(gè)向量表示,然后根據(jù)余弦相似度計(jì)算提取前n個(gè)相似度最高的MR產(chǎn)生式作為該測(cè)試實(shí)例的相關(guān)MR產(chǎn)生式集合。其中,n的值可由句子中包含詞的個(gè)數(shù)確定。

        4 相關(guān)工作比較

        在過(guò)去的十來(lái)年中,研究者們提出了多種基于有監(jiān)督學(xué)習(xí)的語(yǔ)義解析模型與算法。Wong提出了一種基于統(tǒng)計(jì)機(jī)器翻譯技術(shù)的語(yǔ)義解析算法WASP[6]。該算法從成對(duì)的標(biāo)注訓(xùn)練語(yǔ)料中學(xué)習(xí)同步上下文無(wú)關(guān)文法SCFG形式的轉(zhuǎn)換規(guī)則來(lái)捕捉自然語(yǔ)言句子與意義表示之間的關(guān)系。Wong進(jìn)一步將WASP擴(kuò)展到處理λ演算意義表示形式,提出了一種語(yǔ)義解析算法λ-WASP[16]。Li通過(guò)對(duì)統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域中經(jīng)典的同步文法學(xué)習(xí)算法GHKM進(jìn)行了擴(kuò)展[17],用于從成對(duì)的自然語(yǔ)言句子與邏輯形式的標(biāo)注數(shù)據(jù)集中學(xué)習(xí)歸納λ-SCFG的規(guī)則集,更好地建立了自然語(yǔ)言句子與邏輯形式的對(duì)應(yīng)關(guān)系。然而,這些基于SCFG規(guī)則的語(yǔ)義解析算法主要是在采用基于λ演算的邏輯形式的意義表示類型的語(yǔ)義解析問(wèn)題中表現(xiàn)了較好的性能,而本文主要聚焦于函數(shù)式(variable-free)的意義表示類型。

        Lu提出了一種基于生成式模型的語(yǔ)義解析方法[7],該方法首先定義了一種混合樹結(jié)構(gòu),然后提出一種生成式模型對(duì)自然語(yǔ)言句子和其意義表示關(guān)系進(jìn)行聯(lián)合建模,在利用生成式模型輸出n-best結(jié)果的基礎(chǔ)上,進(jìn)一步采用一個(gè)判別式模型并引入各種非局部特征對(duì)n-best結(jié)果進(jìn)行重排序。本文中的語(yǔ)義解析算法也借鑒了混合樹的結(jié)構(gòu),但我們將混合樹視為一種隱變量,設(shè)計(jì)了一種有效的判別式學(xué)習(xí)模型直接實(shí)現(xiàn)了語(yǔ)義解析過(guò)程,避免了生成式模型中需要引入各種獨(dú)立性假設(shè)的不足。該方法既具有判別式模型能夠方便地嵌入各種靈活的特征組合表示的優(yōu)點(diǎn),又自然地將解碼算法集成在訓(xùn)練與推導(dǎo)階段。

        近年來(lái),基于組合范疇文法CCG(Combinatory Categorial Grammar)的英文語(yǔ)義解析研究受到了較多的關(guān)注[18]。CCG作為一種能夠耦合語(yǔ)法和語(yǔ)義關(guān)系的有效語(yǔ)言文法形式,能夠?qū)Ω鞣N語(yǔ)言現(xiàn)象進(jìn)行描述與建模[19]。但采用基于CCG的語(yǔ)義解析方法時(shí),如何獲取一個(gè)好的、有效的詞典是一個(gè)非常困難的問(wèn)題。Kwiatkowski則通過(guò)使用高階合一(higher-order unification)的方法定義了一個(gè)與訓(xùn)練數(shù)據(jù)一致的包含所有文法的假設(shè)空間,實(shí)現(xiàn)了詞項(xiàng)的自動(dòng)生成,從而避免了人工設(shè)計(jì)規(guī)則模板的復(fù)雜性[8]。

        5 實(shí)驗(yàn)結(jié)果與分析

        基于我們開發(fā)的包含1 110條實(shí)例的中文語(yǔ)義解析標(biāo)注語(yǔ)料庫(kù),采用我們提出的含隱變量的感知器模型的語(yǔ)義解析算法進(jìn)行了十折交叉驗(yàn)證實(shí)驗(yàn),并計(jì)算其微平均(micro-averaged)結(jié)果。實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用了傳統(tǒng)的準(zhǔn)確率(precision)、召回率(recall)和F1值。其中,對(duì)于每個(gè)測(cè)試實(shí)例預(yù)測(cè)正確性的判定方法是: 當(dāng)預(yù)測(cè)產(chǎn)生的MR樹與對(duì)該實(shí)例標(biāo)注的正確MR樹完全一致時(shí),才認(rèn)為該實(shí)例的測(cè)試輸出是正確的。

        5.1 候選MR產(chǎn)生式集合提取方法的有效性驗(yàn)證

        為提高測(cè)試階段的效率與準(zhǔn)確率,我們提出了一種基于排序方法的候選MR產(chǎn)生式集合抽取方法,為了驗(yàn)證該方法的有效性,我們進(jìn)行了兩組十折交叉驗(yàn)證對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。表中第一行(LP)表示采用隱變量感知器模型進(jìn)行訓(xùn)練,在測(cè)試時(shí)使用所有的MR產(chǎn)生式作為候選產(chǎn)生式集合;而第二行(LP+EXT)表示采用同樣的隱變量感知器模型LP進(jìn)行訓(xùn)練,但在測(cè)試時(shí)對(duì)每個(gè)測(cè)試實(shí)例分別使用排序訪法抽取一個(gè)更小的候選MR產(chǎn)生式集合后進(jìn)行解碼。從表中的實(shí)驗(yàn)結(jié)果可以看出,通過(guò)基于排序法實(shí)現(xiàn)更小MR產(chǎn)生式候選集合的抽取明顯改進(jìn)了時(shí)間效率,將總的測(cè)試時(shí)間縮短了將近2/3。同時(shí),語(yǔ)義解析的準(zhǔn)確率也得到了顯著的提高,F(xiàn)1值提高了3.2%,獲得了25.5%的錯(cuò)誤減少率。

        表5 增加候選MR產(chǎn)生式集合提取方法的實(shí)驗(yàn)結(jié)果對(duì)比

        5.2 不同語(yǔ)義解析算法的實(shí)驗(yàn)比較

        為了能夠驗(yàn)證我們的方法在中文GIS自然語(yǔ)言接口實(shí)現(xiàn)中的有效性,我們也實(shí)現(xiàn)了兩個(gè)baseline系統(tǒng)。我們選擇Lu 提出的產(chǎn)生式模型并結(jié)合重排序的后處理過(guò)程[7],以及Kwiatkowski 提出的基于CCG文法和采用高階合一方法自動(dòng)構(gòu)造詞典的的語(yǔ)義解析模型[8]構(gòu)造了兩個(gè)baseline系統(tǒng),分別記為baseline-1和baseline-2。因?yàn)檫@兩種方法是目前英文語(yǔ)義解析研究中性能領(lǐng)先的基于有監(jiān)督學(xué)習(xí)模型,而且它們也不需要任何額外的語(yǔ)法先驗(yàn)知識(shí),因而這兩種方法和我們的方法具有直接的可比較性。

        表6中的實(shí)驗(yàn)結(jié)果顯示,在F1值上,我們的系統(tǒng)比baseline-1系統(tǒng)獲得了4.11%的提高,相對(duì)于目前在英文語(yǔ)義解析任務(wù)中具有最佳解析性能的baseline-2系統(tǒng)也高出了1.77%。同時(shí)注意到,我們系統(tǒng)的召回率和準(zhǔn)確率幾乎相等。這意味著對(duì)于幾乎所有的測(cè)試實(shí)例,我們的系統(tǒng)都能解析出一個(gè)意義表示樹結(jié)果。一個(gè)可能的原因是因?yàn)槲覀兊姆椒ㄊ腔谂袆e式結(jié)構(gòu)化預(yù)測(cè)模型,它能夠很好地集成各種有效的特征組合,因而對(duì)一些訓(xùn)練數(shù)據(jù)中未見的MR產(chǎn)生式具有一定的平滑作用。

        表6 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比

        6 結(jié)束語(yǔ)

        本文針對(duì)基于語(yǔ)義解析的中文GIS自然語(yǔ)言接口實(shí)現(xiàn)技術(shù)與方法進(jìn)行了探索性的研究。我們選擇南京市地圖查詢作為具體的實(shí)際應(yīng)用領(lǐng)域,首先設(shè)計(jì)了一個(gè)形式化意義表示語(yǔ)言GISQL,并在此基礎(chǔ)上開發(fā)了一個(gè)相應(yīng)的中文語(yǔ)義解析標(biāo)注語(yǔ)料庫(kù)。

        據(jù)我們所知,這也是第一個(gè)中文語(yǔ)義解析語(yǔ)料庫(kù)。然后,我們提出了一種基于含隱變量的感知器模型的語(yǔ)義解析算法。在開發(fā)的中文語(yǔ)義解析標(biāo)注語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果顯示,該算法的F1值達(dá)到了90.67%,明顯優(yōu)于兩個(gè)baseline系統(tǒng)。更重要的是,本文的研究結(jié)果證明了基于語(yǔ)義解析方法實(shí)現(xiàn)中文GIS的自然語(yǔ)言接口是一種有效可行的途徑。

        在下一步的工作中,我們將擴(kuò)展形式化意義表示語(yǔ)言GISQL和語(yǔ)料庫(kù),以覆蓋更廣泛的GIS應(yīng)用領(lǐng)域與問(wèn)題,包括地圖瀏覽、數(shù)據(jù)采集和空間分析等領(lǐng)域;另外,我們將研究基于啟發(fā)式搜索的結(jié)構(gòu)化學(xué)習(xí)算法,這樣能夠引入更多非局部化的特征描述混合樹結(jié)構(gòu),從而會(huì)產(chǎn)生更好的語(yǔ)義解析性能。

        [1] 張連蓬,儲(chǔ)美華,劉國(guó)林,江濤. 車載智能地理信息查詢系統(tǒng)及其自然語(yǔ)言接口[J]. 現(xiàn)代測(cè)繪, 2005, 28(1): 20-23.

        [2] 馬林兵, 龔健雅. 空間信息自然語(yǔ)言查詢接口的研究與應(yīng)用[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2003, 28 (3): 301-305.

        [3] S Mador-Haim, Y Winter, A Braun. Controlled language for geographical information system queries[C]//Proceedings of Inference in Computational Semantics, 2006.

        [4] 余明朗, 明小娜, 龍毅, 張雪英. GIS環(huán)境下中文命令的規(guī)則匹配與語(yǔ)義解析[J]. 地理與地理信息科學(xué), 2012, 28(6): 7-12.

        [5] R J Kate, Y W Wong, R J Mooney. Learning to transform natural to formal languages[C]//Proceedings of AAAI, 2005: 1062-1068.

        [6] Y W Wong, R J Mooney. Learning for semantic parsing with statistical machine translation[C]//Proceedings of the HLT-NAACL, 2006: 439-446.

        [7] Wei Lu, Hwee Tou Ng, Wee Sun Lee, Luke S. Zettlemoyer. A Generative Model for Parsing Natural Language to Meaning Representations[C]//Procee-dings of EMNLP, 2008: 913-920.

        [8] Tom Kwiatkowski, Luke Zettlemoyer, Sharon Goldwater, Mark Steedman. Inducing probabilistic CCG grammars from logical form with higher-order unification[C]//Proceeding of EMNLP, 2010: 1223-1233.

        [9] John M. Zelle, Raymond J. Mooney. Learning to parse database queries using inductive logic programming[C]//Proceedings of AAAI, 1996: 1050-1055.

        [10] C N J Yu, T Joachims. Learning structural svms with latent variables[C]//Proceedings of ICML, 2009.

        [11] Junsheng Zhou, Juhong Xu, Weiguang Qu. Efficient Latent Structural Perceptron with Hybrid Trees for Semantic Parsin[C]//Proceedings of the IJCAI, 2013: 2246-2252.

        [12] Michael Collins. Discriminative training methods for hidden Markov models: Theory and experiments with perceptron algorithms[C]//Proceeding of EMNLP, 2002.

        [13] Xu Sun, Takuya Matsuzaki, Daisuke Okanohara Jun’ichi Tsujii. Latent Variable Perceptron Algorithm for Structured Classification[C]//Proceedings of IJCAI, 2009: 1236-1242.

        [14] Ryan McDonald. Discriminative Training and Spanning Tree Algorithms for Dependency Parsing[D]. University of Pennsylvania, PhD Thesis, 2006.

        [15] D L Lee, H Chuang, K Seamons. Document Ranking and the Vector-Space Model[J]. IEEE Software, 1997, 14(2): 67-75.

        [16] Yuk Wah Wong, Raymond J. Mooney. Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus[C]//Proceedings of ACL, 2007: 203-210.

        [17] Peng Li, Yang Liu, Maosong Sun. An Extended GHKM Algorithm for Inducing -SCFG[C]//Proceedings of AAAI, 2013: 605-611.

        [18] L S Zettlemoyer, M Collins. Online learning of relaxed CCG grammars for parsing to logical form[C]//Proceedings of EMNLP-CoNLL, 2007: 678-687.

        [19] Mark Steedman. The Syntactic Process[M]. The MIT Press, Cambridge, Mass,2000.

        猜你喜歡
        語(yǔ)義意義
        一件有意義的事
        新少年(2022年9期)2022-09-17 07:10:54
        有意義的一天
        生之意義
        文苑(2020年12期)2020-04-13 00:54:10
        語(yǔ)言與語(yǔ)義
        “k”的幾何意義及其應(yīng)用
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        詩(shī)里有你
        北極光(2014年8期)2015-03-30 02:50:51
        認(rèn)知范疇模糊與語(yǔ)義模糊
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        語(yǔ)義分析與漢俄副名組合
        国产剧情一区二区三区在线| 99久久亚洲国产高清观看| 一区二区三区四区在线观看视频| 亚洲成人一区二区av| 亚洲日韩在线中文字幕综合| 韩国精品一区二区三区无码视频| 99热成人精品国产免| 蜜桃成人精品一区二区三区| 精品亚洲一区二区三区四区五区| 无码日韩精品一区二区三区免费| 色综合久久中文综合久久激情| 一本久久伊人热热精品中文| 日本国产亚洲一区二区| 国产免国产免费| 伊人久久亚洲综合影院首页| 免费高清日本一区二区| av网站在线观看入口| 免费无码一区二区三区蜜桃大| 免费一本色道久久一区| 亚洲一区二区三区在线激情| 日本xxxx色视频在线观看| 少妇无码一区二区三区| 久久尤物av天堂日日综合| 亚洲天堂av在线观看免费| 日本动漫瀑乳h动漫啪啪免费| 99re热这里只有精品最新| 亚洲日产国无码| 亚州终合人妖一区二区三区| 色噜噜av亚洲色一区二区| 国产精品主播视频| 精品黄色一区二区三区| 在线无码中文字幕一区| 亚洲精品久久久久久动漫| 精品无码人妻久久久一区二区三区 | 亚洲一区二区三区毛片| 亚洲gay片在线gv网站| 爱情岛永久地址www成人| 99久久精品国产片| 99久久国产精品免费热| 欧美人与动牲交a精品| 9久久精品视香蕉蕉|