亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存句法的中文語(yǔ)義模型及語(yǔ)義提取方法

        2024-01-20 02:21:28王佳琦孫啟童
        中文信息學(xué)報(bào) 2023年10期
        關(guān)鍵詞:語(yǔ)義模型

        王佳琦,韓 軍,孫啟童

        (北京航空航天大學(xué) 軟件開(kāi)發(fā)環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100191)

        0 引言

        自然語(yǔ)言處理包含眾多的研究和應(yīng)用領(lǐng)域,如機(jī)器翻譯、人機(jī)對(duì)話、文本分類(lèi)、信息檢索等。不同的領(lǐng)域,對(duì)于語(yǔ)義的定義有所不同,也對(duì)語(yǔ)義提取的粒度及方式有著不同的需求。本文針對(duì)不同的語(yǔ)義提取場(chǎng)景,設(shè)計(jì)了不同的語(yǔ)義提取算法,將語(yǔ)句按照不同的語(yǔ)義模型進(jìn)行提取。本文所提出的基于依存句法的中文語(yǔ)義模型及語(yǔ)義提取方法,對(duì)語(yǔ)義進(jìn)行了結(jié)構(gòu)化的表述,很好地區(qū)分了不同的語(yǔ)義提取場(chǎng)景,并在各個(gè)場(chǎng)景中取得了預(yù)期的效果。

        1 相關(guān)研究

        1.1 語(yǔ)義模型

        國(guó)內(nèi)對(duì)于語(yǔ)義模型的研究,主要有如下兩種?;谠~組本位語(yǔ)法的語(yǔ)義模型和基于依存句法樹(shù)的語(yǔ)義模型。

        基于詞組本位語(yǔ)法的語(yǔ)義模型是由劉群[1]等人提出的,目的是實(shí)現(xiàn)一個(gè)漢英機(jī)器翻譯系統(tǒng)。他們從配價(jià)語(yǔ)法、格語(yǔ)法和論元結(jié)構(gòu)理論入手,在對(duì)這些理論進(jìn)行了分析研究之后,構(gòu)建出了這種通用的語(yǔ)義模型。1959年,法國(guó)語(yǔ)言學(xué)家Lucien T提出了配價(jià)語(yǔ)法[2-3]這一概念。配價(jià)語(yǔ)法以動(dòng)詞為中心,對(duì)不同的動(dòng)詞標(biāo)以不同的價(jià)值,以此來(lái)描述不同實(shí)體之間的關(guān)系。所謂格語(yǔ)法[4],又被稱(chēng)為語(yǔ)法關(guān)系理論?!案瘛敝傅氖遣煌~語(yǔ),在不同語(yǔ)態(tài)環(huán)境中發(fā)生的變化,如常常被提起的“第三人稱(chēng)單數(shù)”,指的就是“格”的變化。所謂論元結(jié)構(gòu)理論[5],則是注重于語(yǔ)句的語(yǔ)義處理,同時(shí)兼顧語(yǔ)句的語(yǔ)法處理。

        基于依存句法樹(shù)的語(yǔ)義模型,是直接使用依存句法分析[6]生成的樹(shù)狀結(jié)構(gòu)作為語(yǔ)義模型。依存句法分析指的是,在分詞和詞性標(biāo)注的基礎(chǔ)上,識(shí)別語(yǔ)句中各個(gè)詞語(yǔ)之間的依存關(guān)系。以“幫我買(mǎi)張從北京到上海的機(jī)票”為例,其依存句法樹(shù)如圖1所示。

        圖1 依存句法樹(shù)示意圖

        近些年,哈爾濱工業(yè)大學(xué)在依存句法分析方面取得了突破性的進(jìn)展。哈工大社會(huì)計(jì)算與信息檢索研究中心花費(fèi)數(shù)年搭建的中文自然語(yǔ)言處理平臺(tái)LTP[7],同時(shí)兼具分詞、詞性標(biāo)注、依存句法分析等功能。在Chinese Dependency Treebank(CDT)數(shù)據(jù)集[8]上,依存句法分析的準(zhǔn)確率高達(dá)89.5%。

        對(duì)于上述兩種語(yǔ)義模型,都存在其各自的缺陷?;谠~組本位語(yǔ)法的語(yǔ)義模型,其目的是實(shí)現(xiàn)漢英翻譯系統(tǒng),其對(duì)于語(yǔ)義提取的幫助,只能對(duì)單一場(chǎng)景下的單句有效,遷移性較差。基于依存句法樹(shù)的語(yǔ)義模型,在假設(shè)依存句法分析正確的前提下,可以保證包含該語(yǔ)句的所有信息。但這樣也會(huì)帶來(lái)另一個(gè)問(wèn)題,即語(yǔ)義模型所包含的信息太多,調(diào)用者難以分辨哪些是自己需要的,哪些是自己不需要的。同時(shí),依存句法樹(shù)的生成只依賴(lài)于自然語(yǔ)言處理工具,而其效果是由訓(xùn)練集和訓(xùn)練算法決定的,缺乏一定的泛化能力,對(duì)邊緣數(shù)據(jù)的處理不夠完善,對(duì)語(yǔ)義的描述存在一定的偏差。

        1.2 語(yǔ)義提取方法

        語(yǔ)義特征指的是語(yǔ)言中構(gòu)成意義的基本單位。1955年,Bloomfield提出了語(yǔ)義特征這一概念[9]。在漢語(yǔ)領(lǐng)域,朱德熙于1956年將語(yǔ)義特征用于分析漢語(yǔ)的語(yǔ)法研究[10]。

        近些年,國(guó)內(nèi)對(duì)于語(yǔ)義特征提取方法的研究,逐漸趨于統(tǒng)一。根據(jù)邵敬敏、周芍的研究[11],語(yǔ)義特征提取方法可以總結(jié)歸納為如下四種方法: 內(nèi)省概括法、組合分析法、對(duì)立比較法和變換分析法。①內(nèi)省分析法適用一個(gè)固定的語(yǔ)法結(jié)構(gòu),當(dāng)想要了解其中某個(gè)詞語(yǔ)的語(yǔ)義時(shí),可以嘗試將其替換為詞性相同、含義相近的詞語(yǔ),然后對(duì)整個(gè)語(yǔ)句作出分析理解,進(jìn)而概括總結(jié)該詞語(yǔ)的語(yǔ)義。②組合分析法指的是,將兩個(gè)或兩個(gè)以上的詞語(yǔ)進(jìn)行組合后,可產(chǎn)生新的語(yǔ)義。新的語(yǔ)義一般與組合詞的詞性相關(guān),不同的詞性對(duì)應(yīng)著不同的語(yǔ)義。同時(shí),新的語(yǔ)義也會(huì)因?yàn)榻M合詞所蘊(yùn)含的意義太多,而呈現(xiàn)出復(fù)雜、多義的特點(diǎn)。③對(duì)立比較法,指的是針對(duì)一詞多義這種現(xiàn)象,將該詞的所有含義列舉出來(lái),然后分別舉例,進(jìn)行分組比較。④變化分析法一般適用于非正常語(yǔ)序的句子,可以將其轉(zhuǎn)變成正常語(yǔ)序,然后通過(guò)分析得到語(yǔ)義特征。

        語(yǔ)義特征的分析和提取,是直接建立在語(yǔ)言學(xué)基礎(chǔ)上的,是自然語(yǔ)言最直接、最底層的分析方式[12]。由此可見(jiàn),如何分析提取語(yǔ)義特征,對(duì)于研究語(yǔ)義提取方法有重要的指導(dǎo)作用。但是,上述方法更注重理論,并且均未定義語(yǔ)義模型。對(duì)于最終的語(yǔ)義表達(dá)結(jié)果,沒(méi)有給出明確的定義。因此,上述方法并不能直接用作語(yǔ)義提取算法。

        2 語(yǔ)義模型的構(gòu)建

        要構(gòu)建語(yǔ)義模型,首先要定義何為語(yǔ)義。廣義上來(lái)講,語(yǔ)義指的是語(yǔ)言所蘊(yùn)含的含義。不同的自然語(yǔ)言,基于不同的符號(hào),這些符號(hào)起初不包含信息。人們對(duì)于相同的符號(hào),有著相同的理解,此時(shí)這些符號(hào)便蘊(yùn)含了信息。

        語(yǔ)義模型的作用就是,從自然語(yǔ)言中提取信息,并對(duì)這些信息進(jìn)行結(jié)構(gòu)化的表述。因此,語(yǔ)義模型的構(gòu)建,需圍繞信息提取來(lái)展開(kāi)。

        2.1 鍵值對(duì)語(yǔ)義模型

        精簡(jiǎn)語(yǔ)義提取場(chǎng)景,指的是用戶在處理語(yǔ)句時(shí),使用的語(yǔ)義數(shù)量相對(duì)較少,且語(yǔ)義均為普遍的社會(huì)常識(shí),如目的地,出發(fā)地等。其特點(diǎn)是,數(shù)量較少的語(yǔ)義即可完成用戶對(duì)語(yǔ)義提取的需求。

        針對(duì)上述場(chǎng)景,本文提出了鍵值對(duì)語(yǔ)義模型。此模型使用key-value鍵值對(duì)的形式表示語(yǔ)義。其定義了所有語(yǔ)義項(xiàng)的key,并定義了其對(duì)應(yīng)value所應(yīng)滿足的各種條件。例如,“目的地”是一種語(yǔ)義項(xiàng)的key,其value的定義是: 詞性必須為ns,其在依存句法樹(shù)中的父節(jié)點(diǎn)必須為“到”“至”等詞語(yǔ)。對(duì)于例句“幫我買(mǎi)張從北京到上海的機(jī)票”,其鍵值對(duì)語(yǔ)義模型如圖2所示。

        圖2 鍵值對(duì)語(yǔ)義模型示例

        鍵值對(duì)語(yǔ)義模型依賴(lài)于漢語(yǔ)語(yǔ)法。本文從漢語(yǔ)詞典中遍歷了所有的漢語(yǔ)字詞,將這些字詞作為知識(shí)庫(kù)的基本詞匯,對(duì)它們的重要程度、語(yǔ)義本體、使用頻率等屬性進(jìn)行總結(jié)。節(jié)選如表1所示。其中,“重要程度”值越小,該語(yǔ)義越重要;“使用頻率”值越大,該語(yǔ)義出現(xiàn)頻率越高。

        表1 語(yǔ)義本體總結(jié)節(jié)選

        本文對(duì)日常生活中經(jīng)常使用的2 513個(gè)字詞做了統(tǒng)計(jì),針對(duì)字詞的重要程度、使用頻率對(duì)其進(jìn)行劃分,并將其映射到語(yǔ)義本體。其中,語(yǔ)義本體是一種key-value鍵值對(duì)。key的定義,主要是使用已有的、具有普適性的詞語(yǔ),去描繪其他使用頻率較低的詞語(yǔ)。例如,用“選擇”作為“篩選”的語(yǔ)義本體,用“討論”作為“商議”“商榷”的語(yǔ)義本體。其次,是使用意圖明顯的短語(yǔ)來(lái)描繪這些詞語(yǔ)。例如,用“對(duì)人好”作為“善待”“善意”的語(yǔ)義本體,用“想便宜”作為“砍價(jià)”的語(yǔ)義本體。

        鍵值對(duì)語(yǔ)義模型要求用戶對(duì)不同的詞語(yǔ)進(jìn)行總結(jié),存在大量的重復(fù)性勞動(dòng)。同時(shí),語(yǔ)義項(xiàng)中key的定義沒(méi)有明確的規(guī)范,導(dǎo)致語(yǔ)義模型對(duì)于同一語(yǔ)義的描述缺乏標(biāo)準(zhǔn)。例如,在“從北京到上?!边@個(gè)短語(yǔ)中,提取出的語(yǔ)義是“出發(fā)地: 北京,目的地: 上海”,而在“今天誰(shuí)值日”這個(gè)句子中,提取出的語(yǔ)義是“詢(xún)問(wèn): 誰(shuí)”。其中,“出發(fā)地”“目的地”“詢(xún)問(wèn)”等key的定義,受主觀因素影響,其本質(zhì)是使用另一字符串來(lái)消除歧義。

        2.2 槽式語(yǔ)義模型

        隨著語(yǔ)義的增多,鍵值對(duì)語(yǔ)義模型對(duì)于“鍵”的定義,有如下要求: (1)唯一性。在定義一個(gè)全新的“鍵”時(shí),需對(duì)比所有已定義的“鍵”,避免產(chǎn)生歧義。(2)可讀性。對(duì)于所有已定義的“鍵”,需配以相應(yīng)的說(shuō)明,闡述其具體含義。(3)擴(kuò)展性。添加新鍵時(shí),不與舊鍵產(chǎn)生沖突。這種對(duì)于“鍵”有較高要求的場(chǎng)景,本文將其定義為復(fù)雜語(yǔ)義提取場(chǎng)景。其特點(diǎn)是,該場(chǎng)景所需的語(yǔ)義較為復(fù)雜,對(duì)于“鍵”有唯一性、可讀性、擴(kuò)展性的需求。復(fù)雜語(yǔ)義提取場(chǎng)景是為了區(qū)分簡(jiǎn)單語(yǔ)義提取場(chǎng)景,指的是該語(yǔ)義模型中,含有更多的“鍵”,這些“鍵”是由后續(xù)開(kāi)發(fā)者來(lái)定義的。而該語(yǔ)義模型的用戶,只能使用已定義的語(yǔ)義,不能添加語(yǔ)義。

        針對(duì)上述場(chǎng)景,本文提出了槽式語(yǔ)義模型。此模型對(duì)于“鍵”有了規(guī)范化的定義,可以表述任意語(yǔ)法特征。在語(yǔ)句中,根據(jù)漢語(yǔ)語(yǔ)言學(xué)的研究可知,句式和語(yǔ)義存在映射關(guān)系。因此,本文采用保留關(guān)鍵詞的形式,對(duì)模型有如下定義: (1)保留漢語(yǔ)中的虛詞,抽取實(shí)詞; (2)對(duì)于被抽取的詞,組織成數(shù)組的形式; (3)將被抽取后留下的空位,用“$+詞性”的方式進(jìn)行填充,得到的字符串作為“鍵”。對(duì)于例句“幫我買(mǎi)張從北京到上海的機(jī)票”,可以得到如圖3所示的槽式語(yǔ)義模型。

        圖3 槽式語(yǔ)義模型示例

        槽式語(yǔ)義模型,使用key-value鍵值對(duì)的形式表示語(yǔ)義。其中它的key是一個(gè)字符串,使用“$”作為一個(gè)槽(slot)的占位符,后面跟著的英文字母是這個(gè)slot應(yīng)填入詞的詞性。value是一個(gè)二維數(shù)組,內(nèi)層數(shù)組對(duì)應(yīng)著各個(gè)slot所取出的值,外層數(shù)組是考慮到同一語(yǔ)句中,可能存在著多個(gè)相同的語(yǔ)義而設(shè)計(jì)的。

        那么,對(duì)于語(yǔ)義模型的key來(lái)說(shuō),哪些字詞該保留下來(lái),哪些字詞該換成slot,就成了至關(guān)重要的問(wèn)題。在這個(gè)問(wèn)題上,槽式語(yǔ)義模型給出了如下方案,即保留介詞、關(guān)聯(lián)詞等結(jié)構(gòu)性的虛詞,將名詞、代詞等有著大量同屬性的實(shí)詞做為slot。語(yǔ)義模型的key值,使用“關(guān)鍵詞+slot”的形式,實(shí)現(xiàn)了語(yǔ)義的唯一性、可讀性及擴(kuò)展性。只需將value中的值逐一填入slot中,就可得到語(yǔ)序正常、表意清晰的短語(yǔ)。后續(xù)開(kāi)發(fā)者可以依據(jù)此規(guī)則,定義新的語(yǔ)義。

        2.3 樹(shù)狀語(yǔ)義模型

        分詞、詞性標(biāo)注及依存句法分析,包含了語(yǔ)句的全部信息。當(dāng)語(yǔ)義提取對(duì)信息完備性有需求時(shí),需要定義新的語(yǔ)義模型,來(lái)確保上述信息不會(huì)丟失。

        針對(duì)上述場(chǎng)景,本文提出了樹(shù)狀語(yǔ)義模型。此模型定義了如表2所示的五種基本句式及三種修飾關(guān)系,用來(lái)描述語(yǔ)句所有的句法關(guān)系。

        表2 樹(shù)狀語(yǔ)義模型句法表

        此模型的特點(diǎn)是,保留語(yǔ)句中的大部分信息,對(duì)依存句法樹(shù)進(jìn)行重構(gòu),通過(guò)遞歸的方式,構(gòu)建語(yǔ)義樹(shù)。對(duì)于例句“我不知道他有沒(méi)有去過(guò)故宮?!?其樹(shù)狀語(yǔ)義模型如圖4所示。

        圖4 樹(shù)狀語(yǔ)義模型示例

        同時(shí),樹(shù)狀語(yǔ)義模型也可用于多粒度語(yǔ)義的提取。在圖4中,例句的第一層是“s+v+o”的句式,對(duì)應(yīng)的例句則是“我|不知道|他有沒(méi)有去過(guò)故宮”。用戶可以通過(guò)查詢(xún)知識(shí)庫(kù)的方式來(lái)分別獲取s、v、o的具體含義。若知識(shí)庫(kù)中包含該詞語(yǔ),則此時(shí)就已經(jīng)完成了對(duì)語(yǔ)義的提取;若知識(shí)庫(kù)不包含該詞語(yǔ),則需查詢(xún)?cè)摴?jié)點(diǎn)下是否還有子節(jié)點(diǎn),而它的子節(jié)點(diǎn),也符合給定的句式。因此,用戶只需對(duì)語(yǔ)義樹(shù)進(jìn)行遍歷,并與知識(shí)庫(kù)中的信息進(jìn)行匹配,即可提取出語(yǔ)義信息。

        2.4 路徑式語(yǔ)義模型

        自然語(yǔ)言是動(dòng)態(tài)的,當(dāng)語(yǔ)義提取對(duì)語(yǔ)義有新的要求時(shí),需對(duì)語(yǔ)義進(jìn)行擴(kuò)充。此時(shí),語(yǔ)義模型的擴(kuò)展性會(huì)顯得格外重要。本文將這種場(chǎng)景定義為擴(kuò)展性語(yǔ)義提取場(chǎng)景。該場(chǎng)景允許用戶設(shè)計(jì)并添加語(yǔ)義,與復(fù)雜語(yǔ)義提取場(chǎng)景有著本質(zhì)的區(qū)別。

        針對(duì)上述場(chǎng)景,本文提出了路徑式語(yǔ)義模型。用戶可以通過(guò)添加語(yǔ)義提取模板的方式,添加語(yǔ)義的提取規(guī)則,其示意圖如圖5所示。

        圖5 路徑式語(yǔ)義模型示例

        所謂路徑,指的是在依存句法樹(shù)中從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑。依存句法樹(shù)示例如圖1所示,對(duì)于這棵依存句法樹(shù),可以通過(guò)深度優(yōu)先遍歷,得到如表3所示的中間結(jié)果。

        表3 依存句法樹(shù)深度優(yōu)先遍歷結(jié)果

        路徑式語(yǔ)義模型,需要定義語(yǔ)義提取模板,然后將多個(gè)模板組合在一起。只有當(dāng)語(yǔ)句滿足所有的模板時(shí),才會(huì)完成匹配。規(guī)定每個(gè)語(yǔ)義提取模板必須為奇數(shù)個(gè)元素,且奇數(shù)位元素形式為“詞語(yǔ)+空格+詞性”的形式,偶數(shù)位元素為依存句法關(guān)系。為了增加模板的靈活性,可以使用“$”符作為通配符。

        路徑式語(yǔ)義模型的存儲(chǔ)結(jié)構(gòu)如表4所示。

        表4 路徑式語(yǔ)義模型存儲(chǔ)結(jié)構(gòu)

        Semantics為語(yǔ)義提取模板,只有滿足模板,才可以說(shuō)語(yǔ)句滿足這一語(yǔ)義。Indexes為用戶自定義要提取位置的索引。在用語(yǔ)義提取模板對(duì)語(yǔ)句進(jìn)行比對(duì)后,如果語(yǔ)句滿足所有的模板,就可以匹配出相應(yīng)的值。但是,用戶需要的不一定是所有的值,因此需要用戶自己定義提取哪個(gè)索引對(duì)應(yīng)的詞。Formatting是預(yù)設(shè)字符串,用戶可以將根據(jù)索引提取出來(lái)的詞語(yǔ)填入該預(yù)設(shè)字符串中,得到用戶自定義的語(yǔ)義。

        3 語(yǔ)義提取算法

        3.1 基于關(guān)鍵詞的語(yǔ)義提取算法

        基于關(guān)鍵詞的語(yǔ)義提取算法使用了鍵值對(duì)語(yǔ)義模型和槽式語(yǔ)義模型,通過(guò)對(duì)詞語(yǔ)的分類(lèi),首先確定語(yǔ)句中的關(guān)鍵詞,然后對(duì)關(guān)鍵詞的父節(jié)點(diǎn)、子節(jié)點(diǎn)、兄弟節(jié)點(diǎn)、祖先節(jié)點(diǎn)、子孫節(jié)點(diǎn)等進(jìn)行邏輯判斷,依次篩選出語(yǔ)句的語(yǔ)義項(xiàng),組合生成最終的語(yǔ)義。

        如圖6所示,以語(yǔ)句“幫我買(mǎi)張從北京到上海的機(jī)票”為例,先使用自然語(yǔ)言處理工具對(duì)其進(jìn)行分詞、詞性標(biāo)注和依存句法分析,得到如圖2所示的依存句法樹(shù)。因?yàn)檎Z(yǔ)句中存在“幫”和動(dòng)賓短語(yǔ),因此可以判斷此語(yǔ)句是一個(gè)命令句。然后,確定關(guān)鍵詞“幫”,其DBL邊所指向的子節(jié)點(diǎn)是該命令的作用對(duì)象,此句中可定義為消費(fèi)者,得到語(yǔ)義項(xiàng)“消費(fèi)者: 我”;確定關(guān)鍵詞“從”,其POB邊所指向的子節(jié)點(diǎn)是“北京”,其詞性為ns地點(diǎn),得到語(yǔ)義項(xiàng)“出發(fā)地: 北京”;確定關(guān)鍵詞“到”,其POB邊所指向的子節(jié)點(diǎn)是“上?!?其詞性為ns地點(diǎn),得到語(yǔ)義項(xiàng)“目的地: 上海”。以此類(lèi)推,得到最終的語(yǔ)義。

        圖6 基于關(guān)鍵詞的語(yǔ)義提取算法示例

        該算法的偽代碼如表5所示。

        表5 基于關(guān)鍵詞的語(yǔ)義提取算法

        3.2 樹(shù)狀語(yǔ)義提取算法

        樹(shù)狀語(yǔ)義提取算法是依據(jù)樹(shù)狀語(yǔ)義模型,對(duì)依存句法樹(shù)進(jìn)行整合,得到全新的樹(shù)狀結(jié)構(gòu)的一種算法。樹(shù)狀語(yǔ)義模型包含“簡(jiǎn)單句”和“修飾關(guān)系”這兩種句型結(jié)構(gòu),這兩種結(jié)構(gòu)又細(xì)分為“主語(yǔ)+謂語(yǔ)”“主語(yǔ)+謂語(yǔ)+賓語(yǔ)”“主語(yǔ)+謂語(yǔ)+補(bǔ)語(yǔ)”等句型結(jié)構(gòu)。這里的句型結(jié)構(gòu)并沒(méi)有嚴(yán)格的規(guī)定,取決于用戶對(duì)于句型的理解,用戶也可以根據(jù)需求自定義句型結(jié)構(gòu)。

        如圖7所示,以“我不知道他有沒(méi)有去過(guò)故宮。”為例,介紹樹(shù)狀語(yǔ)義提取算法。首先構(gòu)造依存句法樹(shù),然后使用層序遍歷的方式遍歷這棵樹(shù)。這里以“主語(yǔ)+謂語(yǔ)+賓語(yǔ)”為例,當(dāng)遍歷到節(jié)點(diǎn)“知道 v”時(shí),發(fā)現(xiàn)該節(jié)點(diǎn)的詞性是動(dòng)詞,此時(shí),已經(jīng)找到了“謂語(yǔ)”,需要再找到“主語(yǔ)”和“賓語(yǔ)”。于是,遞歸遍歷該節(jié)點(diǎn)的所有子節(jié)點(diǎn),判斷其子節(jié)點(diǎn)的arc值是否為“SBV”,是的話,則找到該動(dòng)詞的主語(yǔ);同時(shí)判斷其子節(jié)點(diǎn)的arc值是否為“VOB”,是的話,則找到該動(dòng)詞的賓語(yǔ)。找到“主語(yǔ)”“謂語(yǔ)”和“賓語(yǔ)”的節(jié)點(diǎn)之后,以這些節(jié)點(diǎn)分割句子,即可得到主語(yǔ)是“我”,謂語(yǔ)是“不知道”,賓語(yǔ)是“他有沒(méi)有去過(guò)故宮”。遞歸時(shí),“他有沒(méi)有去過(guò)故宮”也會(huì)得到對(duì)應(yīng)的結(jié)果,即主語(yǔ)是“他”,謂語(yǔ)是“有沒(méi)有去過(guò)”,賓語(yǔ)是“故宮”。以此類(lèi)推,得到最終結(jié)果。

        圖7 樹(shù)狀語(yǔ)義提取算法示意圖

        該算法的偽代碼如表6所示。

        表6 樹(shù)狀語(yǔ)義提取算法

        3.3 可擴(kuò)展的語(yǔ)義提取算法

        可擴(kuò)展的語(yǔ)義提取算法,是基于路徑式語(yǔ)義模型而構(gòu)建的,其示意圖如圖8所示。

        圖8 可擴(kuò)展的語(yǔ)義提取算法示意圖

        圖8以語(yǔ)句“幫我買(mǎi)張從北京到上海的機(jī)票”為例,先對(duì)依存句法樹(shù)進(jìn)行深度優(yōu)先遍歷,得到依存句法樹(shù)的路徑。然后,將路徑分別與預(yù)設(shè)模板進(jìn)行匹配,提取出目標(biāo)信息。最后,將提取出的信息,填入到格式化字符串中,完成語(yǔ)義的提取。例如,路徑“["幫 v", "VOB", "買(mǎi) v", "VOB", "機(jī)票 n", "ATT", "張 q"]”,可以匹配模板“[["$ v", "VOB", "$ n"]]”,提取到語(yǔ)義“買(mǎi)機(jī)票”。

        其擴(kuò)展性主要表現(xiàn)在兩個(gè)方面。首先,其沒(méi)有針對(duì)某一個(gè)詞語(yǔ)的復(fù)雜邏輯結(jié)構(gòu),而是由用戶直接定義語(yǔ)義模板,用來(lái)對(duì)語(yǔ)句進(jìn)行處理。當(dāng)語(yǔ)句與所有模板都匹配成功時(shí),則提取語(yǔ)義。其次,用戶可以根據(jù)實(shí)際需求,控制語(yǔ)義提取的粒度。若用戶對(duì)某個(gè)語(yǔ)義的準(zhǔn)確率要求很高,那么只需設(shè)置多個(gè)語(yǔ)義模板,或者定義更長(zhǎng)的語(yǔ)義模板,即可達(dá)到要求。若用戶對(duì)某個(gè)語(yǔ)義的準(zhǔn)確率要求不高,那么可以設(shè)置較短的語(yǔ)義模板。

        該算法的偽代碼如表7所示。

        表7 可擴(kuò)展的語(yǔ)義提取算法

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        本節(jié)以“怎么”“什么”“哪”“多少”“誰(shuí)”這五個(gè)疑問(wèn)代詞為例,展示了如何通過(guò)語(yǔ)義模型及語(yǔ)義提取算法來(lái)提取語(yǔ)義。之后,使用北京語(yǔ)言大學(xué)提供的BCC語(yǔ)料庫(kù)[12]進(jìn)行實(shí)驗(yàn),其中每個(gè)疑問(wèn)代詞對(duì)應(yīng)的例句有1 000句,共5 000句例句。例句的實(shí)際含義為人工標(biāo)注,各個(gè)實(shí)驗(yàn)的設(shè)計(jì)與結(jié)果如下文所述。

        4.2 語(yǔ)義提取實(shí)驗(yàn)

        疑問(wèn)代詞“怎么”,在現(xiàn)代漢語(yǔ)詞典中有五種含義,分別是“詢(xún)問(wèn)”“泛指”“虛指”“程度”“否定”。由于泛指和虛指對(duì)于語(yǔ)義提取來(lái)說(shuō),不具有明確的意義,而有些特殊語(yǔ)句可能包含兩種以上的含義,如例句“大家怎么會(huì)沒(méi)有意見(jiàn)呢?”,其中“怎么”的含義,既表示了詢(xún)問(wèn),又表示了否定。因此,將泛指和虛指篩除后,將剩下的含義組合,給出了本文對(duì)于“怎么”的六種含義的分類(lèi),分別是“詢(xún)問(wèn)”“程度”“否定”“詢(xún)問(wèn)|程度”“詢(xún)問(wèn)|否定”“程度|否定”。

        關(guān)于疑問(wèn)代詞“怎么”,本文僅通過(guò)對(duì)50條包含“怎么”的語(yǔ)句進(jìn)行總結(jié)后,就可定義出20個(gè)語(yǔ)義提取模板,節(jié)選如表8所示。

        表8 “怎么”語(yǔ)義提取模板節(jié)選

        然后,本文使用表8所示的語(yǔ)義提取模板對(duì)BCC語(yǔ)料庫(kù)中的1 000條包含“怎么”的語(yǔ)句,使用定義了20個(gè)語(yǔ)義提取模板的可擴(kuò)展的語(yǔ)義提取算法進(jìn)行了語(yǔ)義提取測(cè)試,結(jié)果節(jié)選如表9所示。

        表9 “怎么”語(yǔ)義提取結(jié)果節(jié)選

        由表8、表9可知,當(dāng)語(yǔ)義提取模板設(shè)計(jì)過(guò)短時(shí),可以與更多的語(yǔ)句進(jìn)行匹配,得到更多的語(yǔ)義提取結(jié)果。這些結(jié)果并沒(méi)有優(yōu)先級(jí)的設(shè)定,會(huì)被填入一個(gè)二維數(shù)組中。這也印證了漢語(yǔ)的復(fù)雜性。例如,同一句話,既可以是詢(xún)問(wèn),也可以是否定。對(duì)于這種情況,用戶可以在設(shè)定格式化字符串時(shí),傳入不同的數(shù)字,代表不同的優(yōu)先級(jí),然后對(duì)得到的語(yǔ)義結(jié)果進(jìn)行排序和取舍。

        對(duì)于基于關(guān)鍵詞的語(yǔ)義提取算法及樹(shù)狀語(yǔ)義提取算法,這兩種算法不支持額外的配置,因此直接對(duì)實(shí)驗(yàn)數(shù)據(jù)集中的語(yǔ)句進(jìn)行了語(yǔ)義提取實(shí)驗(yàn)。與使用了20個(gè)語(yǔ)義提取模板的可擴(kuò)展的語(yǔ)義提取算法進(jìn)行對(duì)比,其準(zhǔn)確率如表10所示。

        表10 三種語(yǔ)義提取算法準(zhǔn)確率對(duì)比 (單位: %)

        由表10可知,對(duì)于定義了20個(gè)語(yǔ)義提取模板的可擴(kuò)展的語(yǔ)義提取算法,其準(zhǔn)確率與基于關(guān)鍵詞的語(yǔ)義提取算法各有優(yōu)劣。這種情況主要由模板數(shù)量及質(zhì)量決定。由4.3節(jié)實(shí)驗(yàn)可知,當(dāng)模板數(shù)量逐漸增加時(shí),可擴(kuò)展的語(yǔ)義提取算法效果會(huì)越來(lái)越好。同時(shí),當(dāng)定義的模板適用于更多語(yǔ)句時(shí),其提取效果會(huì)更好。對(duì)于樹(shù)狀提取算法,其準(zhǔn)確率均處于80%以上,不符合正常語(yǔ)序的句子,如倒裝句等,會(huì)造成樹(shù)狀語(yǔ)義提取出錯(cuò)。

        4.3 擴(kuò)展模板實(shí)驗(yàn)

        針對(duì)語(yǔ)義提取方式的可行性與擴(kuò)展性,本文通過(guò)擴(kuò)充模板數(shù)量的方式,分別使用了10個(gè)、15個(gè)、20個(gè)、25個(gè)、30個(gè)語(yǔ)義提取模板,對(duì)“怎么”、“什么”、“哪”、“多少”、“誰(shuí)”五種疑問(wèn)代詞進(jìn)行了語(yǔ)義提取實(shí)驗(yàn)。實(shí)驗(yàn)所使用的數(shù)據(jù)取自北京語(yǔ)言大學(xué)的BCC語(yǔ)料庫(kù),每個(gè)疑問(wèn)代詞有1 000條語(yǔ)句。最終的結(jié)果如表11所示。

        表11 語(yǔ)義提取準(zhǔn)確率 (單位: %)

        由表11數(shù)據(jù)可以繪制出如圖9所示的模板數(shù)量對(duì)于語(yǔ)義提取效果影響折線圖。

        圖9 模板數(shù)量對(duì)于語(yǔ)義提取效果影響折線圖

        由圖9可知,隨著模板配置數(shù)量的提升,各個(gè)疑問(wèn)代詞的語(yǔ)義提取準(zhǔn)確率也逐漸升高,且總體上有放緩的趨勢(shì)。從20個(gè)模板以后,折線都趨于平緩。這是因?yàn)?模板的數(shù)量已經(jīng)足夠大,足以正確提取90%左右的語(yǔ)句。而提取錯(cuò)誤的語(yǔ)句,通常是一些邊緣數(shù)據(jù),針對(duì)這些邊緣數(shù)據(jù)設(shè)計(jì)的語(yǔ)義提取模板,泛用性相對(duì)較低,因此折線會(huì)趨于平緩。

        另外,圖中不同折線的高度略有不同?!霸趺础庇辛鶄€(gè)類(lèi)別,“什么”有四個(gè)類(lèi)別,“哪”有三個(gè)類(lèi)別,“多少”有六個(gè)類(lèi)別,“誰(shuí)”有兩個(gè)類(lèi)別。一般來(lái)說(shuō),類(lèi)別多的疑問(wèn)代詞,語(yǔ)義提取效果會(huì)更好。但在30個(gè)模板時(shí),“多少”的準(zhǔn)確率超過(guò)了“怎么”,這是由于語(yǔ)義提取模板的設(shè)定和數(shù)據(jù)標(biāo)注不準(zhǔn)確導(dǎo)致的。語(yǔ)句中詞語(yǔ)的含義無(wú)法量化,存在一定的主觀誤差。

        4.4 與深度學(xué)習(xí)算法的對(duì)比實(shí)驗(yàn)

        本節(jié)采用包含“多少”的語(yǔ)句,共計(jì)1 000條,語(yǔ)料來(lái)自于北京語(yǔ)言大學(xué)提供的BCC語(yǔ)料庫(kù),類(lèi)型為人工標(biāo)注,該數(shù)據(jù)集的詳細(xì)信息如表12所示。

        表12 數(shù)據(jù)集詳情表

        該數(shù)據(jù)集有以下特點(diǎn):

        (1) 樣本規(guī)模小;

        (2) 數(shù)據(jù)分布不均勻;

        (3) 不同含義的語(yǔ)句句法結(jié)構(gòu)類(lèi)似。

        中文文本分類(lèi)任務(wù),現(xiàn)階段的主流解決方案是深度學(xué)習(xí)。于是,本文與基于深度學(xué)習(xí)的中文文本分類(lèi)算法TextCNN[13],TextRNN[14],FastText[15],TextRCNN[16],TextRNN_Att[17],DPCNN[18],Transformer[19]做了對(duì)比。訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為3∶1∶1,保證在各個(gè)集合中每一類(lèi)所占的比例相同。使用上述方法,對(duì)本節(jié)給出的數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試,各模型的準(zhǔn)確率如表13所示。

        表13 文本分類(lèi)算法準(zhǔn)確率 (單位: %)

        由表13可知,TextCNN,TextRNN,TextRCNN,DPCNN和Transformer的準(zhǔn)確率均為85.94%。TextRNN準(zhǔn)確率為86.72%,FastText準(zhǔn)確率為85.16%。

        以模型的最高準(zhǔn)確率86.72%為基準(zhǔn),與不同模板數(shù)量對(duì)應(yīng)的分類(lèi)效果做對(duì)比,可得到如圖10所示的折線圖。

        圖10 語(yǔ)義提取算法與文本分類(lèi)算法對(duì)比折線圖

        由圖10可知,當(dāng)模板數(shù)量少于25個(gè)時(shí),各模型的準(zhǔn)確率都高于語(yǔ)義提取算法。當(dāng)模板數(shù)量達(dá)到25以上時(shí),語(yǔ)義提取算法的準(zhǔn)確率會(huì)超過(guò)上述模型,并仍保持了增長(zhǎng)的趨勢(shì)。

        綜上所述,當(dāng)樣本規(guī)模小,分布不均勻,且各個(gè)分類(lèi)的區(qū)別不明顯時(shí),隨著模板數(shù)量的增加,語(yǔ)義提取算法的準(zhǔn)確率會(huì)越來(lái)越高,最終超過(guò)上述模型。因此,語(yǔ)義提取算法在處理上述數(shù)據(jù)時(shí),有明顯的優(yōu)勢(shì)。

        5 結(jié)論

        本文主要通過(guò)對(duì)語(yǔ)言學(xué)理論體系的研究,總結(jié)歸納漢語(yǔ)的語(yǔ)法特點(diǎn),使用自然語(yǔ)言處理工具的分詞、詞性標(biāo)注及依存句法分析的結(jié)果,提出了基于依存句法的語(yǔ)義模型,提出了相應(yīng)的語(yǔ)義提取算法。

        本文充分地分析研究了漢語(yǔ)的語(yǔ)法特點(diǎn),在此基礎(chǔ)上,提出了四種不同的語(yǔ)義模型,分別是鍵值對(duì)語(yǔ)義模型、槽式語(yǔ)義模型、樹(shù)狀語(yǔ)義模型及路徑式語(yǔ)義模型,這些模型分別適用于不同的語(yǔ)義提取場(chǎng)景,然后提出了對(duì)應(yīng)的語(yǔ)義提取算法,分別是基于關(guān)鍵詞的語(yǔ)義提取算法、樹(shù)狀語(yǔ)義提取算法及可擴(kuò)展的語(yǔ)義提取算法。最后,使用BCC語(yǔ)料庫(kù)的5 000條語(yǔ)句,進(jìn)行了語(yǔ)義提取實(shí)驗(yàn),驗(yàn)證了上述語(yǔ)義提取方法的可行性與優(yōu)越性。

        上述模型與算法,均適用于訓(xùn)練數(shù)據(jù)少的應(yīng)用場(chǎng)景。用戶只需總結(jié)特定場(chǎng)景中常見(jiàn)的語(yǔ)法特點(diǎn),即可制定出相應(yīng)的語(yǔ)義提取規(guī)則,從而完成對(duì)語(yǔ)義的提取。其次,對(duì)于跨場(chǎng)景的情況,存在大量的可重用的語(yǔ)義提取規(guī)則,可以直接用于不同場(chǎng)景下的語(yǔ)義提取。因此,該方法對(duì)于訓(xùn)練數(shù)據(jù)少的應(yīng)用場(chǎng)景,有著更好的適用性,且彌補(bǔ)了傳統(tǒng)算法可遷移性差等缺點(diǎn)。

        猜你喜歡
        語(yǔ)義模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        認(rèn)知范疇模糊與語(yǔ)義模糊
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        語(yǔ)義分析與漢俄副名組合
        午夜福利电影| 国产91AV免费播放| 无码91 亚洲| 伊人婷婷综合缴情亚洲五月| 99久久久人妻熟妇精品一区二区| 午夜秒播久久精品麻豆| 精品国际久久久久999波多野| a级毛片100部免费观看| 黄色视频免费在线观看| 国产精品麻豆最新AV| 久久亚洲精彩无码天堂| 日本黄色特级一区二区三区| 国产视频激情在线观看 | 国产精品成人3p一区二区三区| 中文无码伦av中文字幕| 撕开奶罩揉吮奶头视频| 四虎影院在线观看| 亚洲人成绝费网站色www| 午夜亚洲精品视频在线| 欧美性xxxxx极品老少| 日韩在线一区二区三区免费视频| 亚洲精品视频久久| 成年视频网站在线观看777 | 国产婷婷色一区二区三区深爱网 | 最近免费中文字幕中文高清6 | 中文字幕亚洲精品在线免费| 亚洲精品一品区二品区三品区 | 欧美在线区| 在线精品亚洲一区二区三区 | 国内精品少妇久久精品| 亚洲最近中文字幕在线| 国产成人综合亚洲看片| 香色肉欲色综合| 中文字幕二区三区在线| 中文无码av一区二区三区| а天堂中文在线官网| 最新无码国产在线播放| 中文字幕精品永久在线| 日韩一级精品视频免费在线看| 亚洲午夜久久久久久久久久| 国产精品露脸视频观看|