亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遠(yuǎn)監(jiān)督的語(yǔ)義知識(shí)資源擴(kuò)展研究

        2016-06-01 11:29:46盧達(dá)威王星友袁毓林
        中文信息學(xué)報(bào) 2016年6期
        關(guān)鍵詞:句法語(yǔ)義

        盧達(dá)威,王星友,袁毓林

        (1. 北京大學(xué) 中文系,北京 100871;2. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

        基于遠(yuǎn)監(jiān)督的語(yǔ)義知識(shí)資源擴(kuò)展研究

        盧達(dá)威1,王星友2,袁毓林1

        (1. 北京大學(xué) 中文系,北京 100871;2. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

        語(yǔ)義知識(shí)資源蘊(yùn)含了深刻的語(yǔ)言學(xué)理論,是語(yǔ)言學(xué)知識(shí)和語(yǔ)言工程的重要接口。該文以形容詞句法語(yǔ)義詞典為研究對(duì)象,探索對(duì)語(yǔ)義知識(shí)資源自動(dòng)擴(kuò)展的方法。該文的目標(biāo)是利用大規(guī)模語(yǔ)料庫(kù),擴(kuò)展原有詞典的詞表及其對(duì)應(yīng)的句法格式。具體方法是根據(jù)詞的句法格式將詞典的詞分類,將待擴(kuò)展的新詞通過(guò)分類器映射到原有詞典的詞中,以此把詞典擴(kuò)展問題轉(zhuǎn)化為多類分類問題。依據(jù)的原理是詞典詞和待擴(kuò)展新詞在大規(guī)模語(yǔ)料中句法結(jié)構(gòu)的相似性。該文通過(guò)遠(yuǎn)監(jiān)督的方法構(gòu)造訓(xùn)練數(shù)據(jù),避免大量的人工標(biāo)注。訓(xùn)練過(guò)程結(jié)合了淺層機(jī)器學(xué)習(xí)方法和深度神經(jīng)網(wǎng)絡(luò),取得了有意義的成果。實(shí)驗(yàn)結(jié)果顯示,深度神經(jīng)網(wǎng)絡(luò)能夠習(xí)得句法結(jié)構(gòu)信息,有效提升匹配的準(zhǔn)確率。

        資源擴(kuò)展 遠(yuǎn)監(jiān)督 語(yǔ)義知識(shí)資源

        1 引言

        語(yǔ)義知識(shí)資源是在特定的語(yǔ)言學(xué)理論基礎(chǔ)上,以詞型(Type)為標(biāo)注對(duì)象進(jìn)行語(yǔ)言描寫的語(yǔ)言工程實(shí)踐的成果,是語(yǔ)言學(xué)理論和自然語(yǔ)言處理技術(shù)結(jié)合的重要手段。相比以詞例(Token)為標(biāo)注對(duì)象的語(yǔ)料庫(kù)標(biāo)注,語(yǔ)義知識(shí)資源庫(kù)建設(shè)更為便捷,且對(duì)自然語(yǔ)料的覆蓋面更大,對(duì)系統(tǒng)的可移植性更高。比較有名的語(yǔ)義知識(shí)資源有WordNet[1-2]、VerbNet[3]、PropBank[4]、FrameNet[5-6]、ConceptNet[7]和國(guó)內(nèi)的HowNet[8]、《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》[9]、《同義詞詞林》[10]等,這些資源都有各自的語(yǔ)言學(xué)、心理學(xué)或哲學(xué)理論基礎(chǔ),成為了語(yǔ)言學(xué)理論和自然語(yǔ)言處理的重要接口。

        語(yǔ)義知識(shí)資源作為一種專家型的資源,具有以下特征:

        (1) 高質(zhì)量。這些資源都凝聚了語(yǔ)言學(xué)家們的智慧和多年的積累,蘊(yùn)含了深刻的理論和實(shí)踐價(jià)值。

        (2) 規(guī)模有限。由于資源的編纂需要大量的人力物力,語(yǔ)義資源的規(guī)模增長(zhǎng)緩慢。

        (3) 高頻。由于規(guī)模所限,出于典型性考慮,詞典所選詞一般為高頻詞,這使得詞典在語(yǔ)料覆蓋度上有一定的保證。

        從語(yǔ)言工程實(shí)踐中,面對(duì)真實(shí)的大數(shù)據(jù)文本,語(yǔ)義資源常常因其規(guī)模有限,難以在計(jì)算中充當(dāng)核心角色,通常僅作為一種特征參與計(jì)算,以輔助提高準(zhǔn)確率和召回率。這既沒有充分發(fā)揮其高質(zhì)量的優(yōu)勢(shì),也不能很好地將語(yǔ)言學(xué)知識(shí)融入計(jì)算中。同時(shí),由于更新緩慢,語(yǔ)義知識(shí)資源的規(guī)模難以追趕日新月異的語(yǔ)言變化和網(wǎng)絡(luò)生態(tài)。規(guī)模的有限性成為了語(yǔ)義知識(shí)資源在工程實(shí)踐中的最大瓶頸。

        本文的目標(biāo)就是以語(yǔ)義知識(shí)資源為種子,根據(jù)特定語(yǔ)義資源的格式,從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)并擴(kuò)充語(yǔ)義知識(shí)資源的詞表及詞所對(duì)應(yīng)的內(nèi)容,本文把這一任務(wù)稱為語(yǔ)義知識(shí)資源擴(kuò)展。

        在多年的語(yǔ)言知識(shí)資源建設(shè)和語(yǔ)言處理工程實(shí)踐中,我們認(rèn)識(shí)到語(yǔ)義知識(shí)資源擴(kuò)展對(duì)語(yǔ)言資源的使用有下列重要的意義。

        (1) 在應(yīng)用領(lǐng)域,有利于充分發(fā)揮語(yǔ)義知識(shí)資源的基礎(chǔ)作用。若擴(kuò)展了語(yǔ)義知識(shí)資源的規(guī)模,實(shí)現(xiàn)語(yǔ)義知識(shí)資源對(duì)語(yǔ)料的高覆蓋,則語(yǔ)義知識(shí)資源將能夠作為NLP應(yīng)用的基礎(chǔ),如直接用于句法分析、語(yǔ)義分析、語(yǔ)義理解等,使語(yǔ)義知識(shí)資源更好地應(yīng)用于自然語(yǔ)言處理的各個(gè)領(lǐng)域。

        (2) 在知識(shí)資源建設(shè)上,有助于提高語(yǔ)義資源的編纂效率。語(yǔ)義資源擴(kuò)展雖然不能完全代替人工編纂,但可以通過(guò)人機(jī)結(jié)合的方法有效提高效率,減輕編者的負(fù)擔(dān)。

        不少學(xué)者嘗試通過(guò)擴(kuò)展知識(shí)資源的方法解決資源規(guī)模不足的問題,如Kipper[11]利用Levin[3]的動(dòng)詞分類擴(kuò)展WordNet的動(dòng)詞詞表,Strapparava[12]擴(kuò)展了WordNet的情感詞表等。Rothe[13]與本文的任務(wù)較為接近,他針對(duì)WordNet進(jìn)行了擴(kuò)展研究,巧妙地運(yùn)用了WordNet中Word、Synset和Lexeme三種數(shù)據(jù)類型之間的關(guān)系,構(gòu)造了無(wú)監(jiān)督的自學(xué)習(xí)擴(kuò)展方法,取得了較好結(jié)果。然而,不同的知識(shí)資源,由于其內(nèi)容、結(jié)構(gòu)、理論等方面的差異,其擴(kuò)展方法并不能簡(jiǎn)單地移植。

        本文以在建的北京大學(xué)形容詞句法語(yǔ)義詞典為研究對(duì)象,探索對(duì)語(yǔ)義知識(shí)資源自動(dòng)擴(kuò)展的方法。其主要思路是: 從大規(guī)模的語(yǔ)料庫(kù)中,得到其語(yǔ)料庫(kù)的詞表;再通過(guò)某種映射,匹配到語(yǔ)義資源的小詞表中;并通過(guò)人機(jī)結(jié)合的方法,補(bǔ)充新的語(yǔ)義知識(shí)資源的細(xì)節(jié)。本文首先介紹形容詞句法語(yǔ)義詞典的結(jié)構(gòu)及其特點(diǎn);根據(jù)其結(jié)構(gòu)特點(diǎn),選擇合適的特征,把資源擴(kuò)展問題規(guī)約為分類問題;同時(shí),使用遠(yuǎn)監(jiān)督的方法構(gòu)造訓(xùn)練語(yǔ)料,避免大量語(yǔ)料標(biāo)注;依據(jù)的原理是詞典的詞和待擴(kuò)展新詞在大規(guī)模語(yǔ)料中句法結(jié)構(gòu)的相似性;并結(jié)合深度神經(jīng)網(wǎng)絡(luò)和其他淺層機(jī)器學(xué)習(xí)方法進(jìn)行語(yǔ)義資源的擴(kuò)展。

        2 語(yǔ)義知識(shí)資源的結(jié)構(gòu)特點(diǎn)分析

        本文以北京大學(xué)《形容詞句法語(yǔ)義詞典》[14]為研究對(duì)象。句法語(yǔ)義詞典中,每個(gè)詞都帶有句法信息和語(yǔ)義角色的信息,包括每個(gè)詞所能接受的所有句法格式以及其對(duì)應(yīng)語(yǔ)義角色。后文的討論主要圍繞該詞典進(jìn)行。

        2.1 形容詞句法語(yǔ)義詞典及其結(jié)構(gòu)特點(diǎn)

        形容詞句法語(yǔ)義詞典收錄形容詞(含狀態(tài)詞)共3 000多個(gè),其理論基礎(chǔ)是論元結(jié)構(gòu)理論[15]。具體而言,詞典的每個(gè)詞條都包含三個(gè)部分: 注音和釋義、語(yǔ)義角色集、句法格式集。其中,語(yǔ)義角色集包括每個(gè)詞在某個(gè)義項(xiàng)下各個(gè)論元的語(yǔ)義角色集合,共有主事(TH)、感事(SE)、范圍(RA)、與事(D)、量幅(EXT)、對(duì)象(TA)、系事(RE)、致事(CAU)、原因(RN)、目的(AI)、時(shí)間(T)、處所(L)、方向(DI)13種語(yǔ)義角色,每個(gè)詞條的每種語(yǔ)義角色采用個(gè)例化的方法來(lái)具體描寫。句法格式指該謂詞跟受其支配的這些論元角色在句子中的句法配置方式。如詞條“美麗”的釋義如下:

        美麗 měilì <形容詞> 好看;漂亮;看了使人產(chǎn)生美感的。多形容女性容貌或風(fēng)光、景色、詩(shī)文、理想等。跟“丑陋”相對(duì)。

        (1) 語(yǔ)義角色:

        主事TH: 具有好看、漂亮,看了使人產(chǎn)生美感這種屬性的人或物;

        與事D: 主事跟他在美麗這種屬性上進(jìn)行比較的參照者。

        (2) 句法格式:

        S1: TH+(比D+)__ [*注: 括號(hào)中的部分是選擇性成分,可以省略,下同。]

        例如,那位姑娘非?!?。| 西湖的景色十分~。|湖邊的天鵝雕塑在夕陽(yáng)的照耀下顯得非?! 眼前的首都比想象中的還要~得多。

        S2: (比D+)__+的+TH

        例如,~的姑娘 | ~的風(fēng)景 | ~的地方 | ~的心靈 | 比七仙女還~的女孩兒 | 比未名湖更~的景點(diǎn)

        詞的句法格式在句法分析有重要的作用。當(dāng)前句法分析的方法通常是使用依存語(yǔ)法或者上下文無(wú)關(guān)文法,自下而上進(jìn)行遞歸分析。如果基于詞的句法格式進(jìn)行句法分析,則句法分析的過(guò)程就變成了模式匹配的過(guò)程,句子則看作多種模式的嵌套。這不僅大大減少了句子的層次,而且模式匹配更符合人對(duì)句子的理解和認(rèn)知過(guò)程。例如,上例“眼前的首都比想象中的還要美得多”,按照“美麗”的句法格式,該句可以分析為“眼前的首都[TH]+比+想象中的[D]+還要+美麗[形容詞]+得多”。更進(jìn)一步,當(dāng)我們使用句法格式完成句法分析后,語(yǔ)義角色分析也就同步完成了,這相當(dāng)于一次性完成了淺層語(yǔ)義分析和句法分析,不僅高效,而且能避免在句法分析基礎(chǔ)上做語(yǔ)義分析時(shí),造成誤差累積。這是使用句法語(yǔ)義詞典進(jìn)行句法分析的另一優(yōu)勢(shì)。當(dāng)然,要使用句法格式進(jìn)行句法分析,還需要?jiǎng)釉~和名詞句法語(yǔ)義詞典的配合;同時(shí),也需要擴(kuò)展詞典對(duì)語(yǔ)料的覆蓋度。這正是本文進(jìn)行語(yǔ)義資源擴(kuò)展研究的一大原因。

        從詞條“美麗”可知,詞典涵蓋了詞語(yǔ)之間的聚合和組合關(guān)系,這兩種關(guān)系是語(yǔ)言系統(tǒng)中的兩種最根本的關(guān)系[16]。聚合關(guān)系指詞語(yǔ)之間在意義上的關(guān)聯(lián),如詞典標(biāo)記了每個(gè)詞條相對(duì)的同義詞、反義詞等,索緒爾稱之為“聯(lián)想關(guān)系”;組合關(guān)系指語(yǔ)篇中的共現(xiàn)關(guān)系,如每個(gè)詞條的句法格式等,索緒爾稱之為“句段關(guān)系”[17]。

        我們認(rèn)為,對(duì)聚合關(guān)系和組合關(guān)系,應(yīng)該分別進(jìn)行擴(kuò)展。對(duì)于聚合關(guān)系的擴(kuò)展,已有不少研究,如文獻(xiàn)[18-19];同時(shí),漢語(yǔ)中也有一些反映聚合關(guān)系的資源,如HowNet和《同義詞詞林》等。而對(duì)于組合關(guān)系的擴(kuò)展,則研究較少,每個(gè)詞的句法格式也是《形容詞句法語(yǔ)義詞典》的特色與核心。另外,對(duì)于詞典的釋義部分,由于該詞典特色之一是以體驗(yàn)性認(rèn)知的釋義為原則,對(duì)計(jì)算機(jī)來(lái)說(shuō),這種自動(dòng)釋義要求過(guò)高。因此,我們把研究的重心放在語(yǔ)義角色和句法格式的擴(kuò)展中。

        2.2 句法格式的統(tǒng)計(jì)和分析

        形容詞句法格式的類型包括主謂結(jié)構(gòu)和偏正結(jié)構(gòu)兩類。主謂結(jié)構(gòu)用于陳述事物的狀態(tài)、性狀等,如上例“美麗”中的S1: “TH+(比D+)__”(西湖的景色十分美麗);偏正結(jié)構(gòu)用于指稱具有某種性狀的事物,如上例中的S2: “(比D+)__+的+TH”(比仙女還漂亮的女孩)。句法格式的成分包括: 語(yǔ)義角色、形容詞和語(yǔ)義角色的相對(duì)位置,引介詞語(yǔ)(引出語(yǔ)義角色的介詞或動(dòng)詞,“比、對(duì)、讓、使”等),助詞或后綴(“的、地”等),謂詞前的動(dòng)詞(“感到、顯得”等),狀語(yǔ)(“彼此、相互”等)。由于句法成分眾多,位置多樣,造成不同類型的句法格式共有1 000多種(表1展示了使用數(shù)量較多的前十種句法格式)。

        表1 詞典中使用數(shù)較多的句法格式(前十)

        在擴(kuò)展詞典時(shí),我們將根據(jù)語(yǔ)義角色和句法格式的特點(diǎn),簡(jiǎn)化及合并類似的句法格式,并把詞典按照句法格式集歸類,將詞典的擴(kuò)展問題規(guī)約為新詞語(yǔ)的分類問題。

        2.3 句法格式判別集的選取與簡(jiǎn)化

        構(gòu)造句法格式判別集的目的,是將形容詞詞典按照句法格式集分類。因此,在構(gòu)造句法格式集時(shí),我們犧牲一定的精確度,舍去個(gè)性較強(qiáng)的句法格式,而選擇具有普遍性和典型性的句法格式,作為歸類標(biāo)準(zhǔn)。同時(shí),候選的句法格式還必須具有較強(qiáng)的完備性和一致性;即每個(gè)詞所列的句法格式不是舉例性的,而是排他性的;若某詞不包含某種句法格式,則該句法格式一定不能用于該詞。

        在簡(jiǎn)化句法格式時(shí),我們考慮了以下幾個(gè)原則: (1)句法格式中,最重要的區(qū)別是該句法結(jié)構(gòu)是主謂結(jié)構(gòu)還是偏正結(jié)構(gòu)?因?yàn)橛行┬稳菰~或狀態(tài)詞只能充當(dāng)主謂結(jié)構(gòu)謂語(yǔ),而不能充當(dāng)偏正結(jié)構(gòu)的定語(yǔ),如“安好、盡然”等。對(duì)于主謂結(jié)構(gòu)的句法格式,其論元角色在前,形容詞在后;對(duì)于偏正結(jié)構(gòu)的句法格式,其形容詞在前,論元角色在后。因此,位于句法格式首和末的語(yǔ)義角色至關(guān)重要。(2)在句法格式的諸多成分中,最具完備性和一致性的成分是: 語(yǔ)義角色,及其與形容詞的相對(duì)位置。其他成分帶有較多特定的詞的特殊性,并可能帶有編纂時(shí)的人為誤差而造成不一致。而且,引介詞語(yǔ)和語(yǔ)義角色之間有較大的論元的可預(yù)測(cè)性。例如,與事D前的引介詞語(yǔ)是“比”,對(duì)象TA前的引介詞語(yǔ)一般是“對(duì)”等。(3)在句法格式中,主事TH和感事SE是形容詞的必有成分,是呈互補(bǔ)分布的對(duì)比特征,即二者不會(huì)出現(xiàn)在同一個(gè)句法格式中。形容詞跟主事搭配還是感事搭配,反應(yīng)了該詞的性質(zhì),是形容詞重要的區(qū)別特征。

        根據(jù)以上的原則,我們對(duì)已有的句法格式進(jìn)行簡(jiǎn)化: 僅保留主事TH、感事SE以及位于句法格式首末位置的語(yǔ)義角色,除句法格式括號(hào)內(nèi)的可選性成分,并去除其他成分。經(jīng)過(guò)此簡(jiǎn)化合并,整理得到句法格式45種(見表2)。根據(jù)每個(gè)詞所含的句法格式,詞典的形容詞可以分為97類(見表3)。

        表2 選取和簡(jiǎn)化后的句法格式及其在詞典中的數(shù)量(前15)

        表3 按照句法格式的詞典分類(前5)

        這些分類反應(yīng)了形容詞在句法結(jié)構(gòu)方面的特點(diǎn)。例如,表3的C1類的形容詞有兩個(gè)句法格式“_+TH”和“TH+_”,C2類比C1類多了一種句法格式“_+RA”。TH是主事的標(biāo)記,RA是范圍標(biāo)記。主事(TH)表示性質(zhì)、狀態(tài)等事態(tài)的非感知性的主體,范圍(RA)一般表示性狀所涉及的主體的具體方面,如“身材、性格、氣勢(shì)、規(guī)?!钡?。C1類和C2類句法格式的不同反映了詞典中兩類形容詞的多方面差異。首先,這兩類語(yǔ)義角色數(shù)量不同,類1的形容詞不存在范圍(RA)這一語(yǔ)義角色。因?yàn)槿舸嬖诜秶?RA)這一語(yǔ)義角色,則必然有“_+RA”這一句法格式。第二,C2類的形容詞能夠同時(shí)受主事(TH)和范圍(RA)兩個(gè)維度的詞語(yǔ)來(lái)修飾,如“他[TH]性格[RA]很陽(yáng)剛?!倍?中的形容詞則只能受一個(gè)維度的詞語(yǔ)修飾,如“河面[TH]一片白蒙蒙”。

        再如C3類和C4類,其差別在于C3類有句法格式“TH+_+RA”,而4類有“TH+_+RE”。RE是系事標(biāo)記,指主事呈現(xiàn)出形容詞表示的某種性狀時(shí)所處的狀態(tài)或所進(jìn)行的活動(dòng),一般是動(dòng)詞性成分。而如上所述,范圍(RA)通常是名詞性成分。也就是說(shuō),在類4的形容詞可以狀語(yǔ),修飾動(dòng)詞行成分RE,如“敵軍[TH]匆促應(yīng)戰(zhàn)[RE]”,而C3類的形容詞卻不行,C1類、C2類的形容詞也不行。

        又如,有的形容詞分類,只有“TH+_”一種句法格式,如C13類的“不賴、安好、不要緊、牢、枉然”等,表示該類形容詞只能做謂語(yǔ),不能做定語(yǔ)修飾名詞。

        在所有97類中,多于1個(gè)詞的類有45類,共有詞3 149個(gè)詞,占詞典詞數(shù)的98.38%。只有一個(gè)詞的類有52類,由于它們不便構(gòu)造訓(xùn)練集和測(cè)試集,在下文的研究和實(shí)驗(yàn)中,我們以前45類詞構(gòu)造訓(xùn)練集和測(cè)試集,進(jìn)行詞典的擴(kuò)展研究。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)方案概述

        本文語(yǔ)義資源的擴(kuò)展思路是根據(jù)詞典的特點(diǎn)構(gòu)造分類器,將不在詞典中的詞映射到詞典中。為了構(gòu)造合適的分類器并檢驗(yàn)其分類效果,我們首先利用現(xiàn)有詞典構(gòu)造訓(xùn)練集和測(cè)試集。

        本文的實(shí)驗(yàn)方案如下: (1)從大規(guī)模語(yǔ)料庫(kù)中訓(xùn)練出每個(gè)詞的詞向量。(2)將詞典的每個(gè)詞按照句法格式分類(如第二節(jié)所述),并把每一類的詞隨機(jī)分成訓(xùn)練集和測(cè)試集。(3)從語(yǔ)料庫(kù)中,抽取含有訓(xùn)練集和測(cè)試集每個(gè)詞的所有句子,并按訓(xùn)練集和測(cè)試集中詞的類別來(lái)對(duì)這些句子貼上相應(yīng)詞及其類別的標(biāo)簽(如表4所示)。(4)這些句子通過(guò)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。(5)通過(guò)若干種分類器對(duì)測(cè)試集進(jìn)行分類,并比較這些方法。

        我們的實(shí)驗(yàn)方案,基于以下兩個(gè)假設(shè): 一是詞向量表示一個(gè)詞的近距離上下文的語(yǔ)義表示;二是深度神經(jīng)網(wǎng)絡(luò),特別是循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)句子訓(xùn)練的過(guò)程,看作是系統(tǒng)融入了句子的結(jié)構(gòu)知識(shí)的過(guò)程。故認(rèn)為該實(shí)驗(yàn)方案包含了近距離的上下文搭配知識(shí)和遠(yuǎn)距離的句法知識(shí)。我們使用遠(yuǎn)監(jiān)督方法,在詞的訓(xùn)練集和測(cè)試集基礎(chǔ)上,構(gòu)造句子的訓(xùn)練集和測(cè)試集。所謂遠(yuǎn)監(jiān)督是Mintz[20]提出的,他們利用語(yǔ)義資源庫(kù)FreeBase中的關(guān)系(relations)來(lái)構(gòu)造訓(xùn)練數(shù)據(jù),進(jìn)而用這些訓(xùn)練數(shù)據(jù)解決關(guān)系抽取的問題,從而避免人工標(biāo)注。我們實(shí)驗(yàn)方案參考Mintz的方法,利用詞典句法格式的分類,構(gòu)造用于深度神經(jīng)網(wǎng)絡(luò)的句子訓(xùn)練集和測(cè)試集,故稱為遠(yuǎn)監(jiān)督方法。本實(shí)驗(yàn)具體構(gòu)造方法見3.2節(jié)。

        圖1 語(yǔ)義知識(shí)資源擴(kuò)展實(shí)驗(yàn)?zāi)P?/p>

        3.2 實(shí)驗(yàn)語(yǔ)料

        本文的實(shí)驗(yàn)語(yǔ)料是北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心(CCL,Center for Chinese Linguistics PKU)的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),簡(jiǎn)稱CCL語(yǔ)料庫(kù)。

        詞向量的訓(xùn)練: 我們對(duì)語(yǔ)料庫(kù)進(jìn)行分詞,并使用word2vec[21-22]訓(xùn)練300維的詞向量,使用skip-gram模型,迭代次數(shù)為50次。為了更好地訓(xùn)練詞語(yǔ)上下文的語(yǔ)義信息,在分詞時(shí),我們基于規(guī)則對(duì)數(shù)字、時(shí)間、日期,以及人名、地名、機(jī)構(gòu)名等專有名詞進(jìn)行了簡(jiǎn)單的識(shí)別與合并,規(guī)則如“姓氏+身份詞/親屬稱謂人名”“省/市+字符串+地名后綴(鎮(zhèn)/鄉(xiāng)/村/街等)地名”等。這樣就大大減少了語(yǔ)料中的詞匯量。本文的目標(biāo)是獲得形容詞的詞向量,將數(shù)字、時(shí)間、日期、人名、地名、機(jī)構(gòu)名等大量且低頻的名詞合并后,上下文更為簡(jiǎn)單一致,可以提高形容詞的訓(xùn)練效果。

        形容詞分類訓(xùn)練集和測(cè)試集: 句法語(yǔ)義詞典根據(jù)句法格式分類(見第二節(jié)),并取詞數(shù)大于1的類,共45類,其中有三類其測(cè)試集或訓(xùn)練集的所有詞在CCL語(yǔ)料庫(kù)中都沒有出現(xiàn),故除去這三類,保留42類3 149詞。按9∶1且至少測(cè)試集有1詞的原則,構(gòu)造訓(xùn)練集和測(cè)試集,得到訓(xùn)練集2 835詞,測(cè)試集314詞。

        句子訓(xùn)練集和測(cè)試集: 在CCL語(yǔ)料庫(kù)中抽取出含有訓(xùn)練集或測(cè)試集的形容詞所對(duì)應(yīng)的所有句子,分別構(gòu)成句子訓(xùn)練集和測(cè)試集,并以形容詞所在的分類作為句子的標(biāo)簽。得到訓(xùn)練集81.9萬(wàn)句,測(cè)試集18.5萬(wàn)句,平均句長(zhǎng)30.6詞。句子訓(xùn)練和測(cè)試樣本見表4。

        表4 句子訓(xùn)練及測(cè)試樣本舉例

        注: 表4中每句是一個(gè)訓(xùn)練或測(cè)試樣本,已分詞?!啊緡?yán)實(shí)】”代表該句的目標(biāo)詞,“【C3】”代表目標(biāo)詞的分類。在樣本句中抽走目標(biāo)詞,并用填充。表示人名,在分詞階段使用規(guī)則對(duì)專有名詞進(jìn)行了基本識(shí)別,每類專有名詞用一種符號(hào)表示,如。

        3.3 深度神經(jīng)網(wǎng)絡(luò)

        使用深度神經(jīng)網(wǎng)絡(luò)(DNN,Deep Neural Networks)對(duì)句子訓(xùn)練集進(jìn)行訓(xùn)練有兩個(gè)作用: 一是通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)句子進(jìn)行分類,從而對(duì)句子所對(duì)應(yīng)的標(biāo)簽詞分類;二是在訓(xùn)練過(guò)程中,會(huì)修改詞向量,使得直接基于詞向量的分類器能夠取得更好的分類效果。

        本文的神經(jīng)網(wǎng)絡(luò)模型采用了卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Networks)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Networks)疊加的結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)能夠抽取句子的局部特征,而循環(huán)神經(jīng)網(wǎng)絡(luò)能夠處理輸入順序和長(zhǎng)距離依存的問題,這一模型組合在語(yǔ)音識(shí)別[23]、語(yǔ)言模型的建模[24]上都取得了較好的效果。本文神經(jīng)網(wǎng)絡(luò)模型如圖2所示。

        圖2 CNN+RNN神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

        實(shí)驗(yàn)首先使用word2vec得到預(yù)訓(xùn)練的詞向量,詞向量為300維;同時(shí),根據(jù)句子長(zhǎng)度和目標(biāo)形容詞在句子的位置,設(shè)定句子長(zhǎng)度為L(zhǎng)=56。實(shí)驗(yàn)時(shí),通過(guò)對(duì)詞向量的查表,將句子表示為300×L的向量表示形式,不足L的句子填充至L,超過(guò)L的句子截?cái)酁長(zhǎng);然后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這個(gè)句子向量的局部特征。實(shí)驗(yàn)中,卷積窗口W分別取4和5以學(xué)習(xí)不同范圍的特征。對(duì)于同一種窗口,我們分別采用200個(gè)不同的卷積核,對(duì)于一個(gè)窗口為W的卷積核,應(yīng)用卷積核函數(shù),將300×L的輸入變化成長(zhǎng)度為L(zhǎng)-W+1的向量輸出。然后對(duì)卷積的輸出使用比例為2的最大池化,進(jìn)行特征篩選,降低輸出維度。對(duì)于不同的卷積核和不同的卷積窗口的輸出,得到不同的池化結(jié)果。通過(guò)連接層,將這些結(jié)果連接起來(lái),并且保持位置關(guān)系。卷積與池化后的局部特征表示作為序列輸入,輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),為了解決長(zhǎng)時(shí)依賴問題,實(shí)驗(yàn)中采用GRU循環(huán)神經(jīng)網(wǎng)絡(luò)單元。通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò),我們可以獲得處理局部特征的位置關(guān)系并學(xué)習(xí)長(zhǎng)距離特征。循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出為100維,作為句子級(jí)別的特征表示,再連接隱藏層400維的全連接的網(wǎng)絡(luò),并通過(guò)softmax輸出,實(shí)現(xiàn)多類分類功能。

        3.4 分類器及實(shí)驗(yàn)結(jié)果

        對(duì)于測(cè)試集的分類預(yù)測(cè),我們構(gòu)造了若干分類器,以比較最好的方法:

        (1) 基于深度神經(jīng)網(wǎng)絡(luò)的分類器。3.3小節(jié)的深度神經(jīng)網(wǎng)絡(luò)是以句子為單位作分類預(yù)測(cè)的。對(duì)于測(cè)試詞或擴(kuò)展新詞的預(yù)測(cè),由包含該詞的所有句子的DNN分類投票結(jié)果決定,該分類器記為: DNN分類器。

        除了基于深度神經(jīng)網(wǎng)絡(luò)的分類器,我們還構(gòu)造了基于詞向量的若干分類器。

        (2) K近鄰分類器。K近鄰(KNN,k-Nearest Neighbor)算法由Altman[25]提出,本實(shí)驗(yàn)中,測(cè)試詞的分類由與之距離最近的若干個(gè)訓(xùn)練集詞的分類決定,距離用詞向量之間的余弦距離計(jì)算,記為KNN分類器。由于詞典類數(shù)較多,且非常不均衡,存在許多元素個(gè)數(shù)較少甚至為1的類,故K的取值不宜太大。實(shí)驗(yàn)中從我們?nèi)=3和K=1(即最近鄰)進(jìn)行比較。同時(shí),我們還比較基于原始的詞向量的KNN結(jié)果和基于深度神經(jīng)網(wǎng)絡(luò)調(diào)整后的詞向量的KNN結(jié)果。以上分類器分別記為: KNN(K=3,訓(xùn)練前),KNN(K=1,訓(xùn)練前),KNN(K=3,訓(xùn)練后),KNN(K=1,訓(xùn)練后)。

        (3) SVM分類器。支持向量機(jī)(SVM,Support Vector Machine)由Cortes和Vapnik[26]首先提出的。它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。SVM中,我們以詞向量的各維度作為特征,共300維,對(duì)詞典中訓(xùn)練集和測(cè)試集所涉及的21個(gè)句法格式分別構(gòu)造分類器,使用徑向基函數(shù)[27]作為核函數(shù)。測(cè)試時(shí),對(duì)每個(gè)詞對(duì)這21個(gè)句法格式獨(dú)立判斷是否存在該句法格式,全部判斷正確才認(rèn)為該詞分類正確,否則算錯(cuò)。同時(shí),我們基于原始詞向量和DNN訓(xùn)練后詞向量分別構(gòu)造分類器進(jìn)行測(cè)試。

        各分類器準(zhǔn)確率情況如表5所示。

        表5 各分類器的準(zhǔn)確率對(duì)比(測(cè)試樣本詞總數(shù): 314詞)

        3.5 討論

        從分類結(jié)果看,基于深度神經(jīng)網(wǎng)絡(luò)的分類結(jié)果并不理想,僅為34.08%,甚至不如簡(jiǎn)單的最近鄰方法。但是經(jīng)過(guò)深度神經(jīng)網(wǎng)絡(luò)有目標(biāo)地訓(xùn)練后調(diào)整的詞向量,對(duì)基于詞向量的淺層分類器的分類效果有了顯著提升。SVM分類器基于原始詞向量的分類準(zhǔn)率為42.04%,基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練后準(zhǔn)確率為48.41%,提升了6.37%;KNN(K=1)分類器從基于原始詞向量的38.54,提升到44.77%,提升了了6.23%;KNN(K=3)分類器準(zhǔn)確率從41.40%提升到49.68%,提升了8.28%。

        在各分類器中,KNN(K=3,訓(xùn)練后)分類器效果最好,達(dá)到49.68%,接近一半的準(zhǔn)確率。而且,由于算法簡(jiǎn)單,過(guò)擬合現(xiàn)象少,一些詞數(shù)的類也能夠預(yù)測(cè)準(zhǔn)確。而SVM分類器和DNN分類器中預(yù)測(cè)準(zhǔn)確的詞都集中在訓(xùn)練集數(shù)量最多的幾個(gè)類中,這也是多數(shù)分類器對(duì)非均衡分類容易造成的問題。

        對(duì)于經(jīng)過(guò)DNN調(diào)整后的詞向量有效提升分類器準(zhǔn)確率的問題,我們認(rèn)為: 由于詞典擴(kuò)展的目標(biāo),需要根據(jù)詞典確定。而原始自動(dòng)學(xué)習(xí)的詞向量,是從一定窗口的上下文學(xué)習(xí)出來(lái)的,更偏重于近上下文的語(yǔ)義。形容詞句法語(yǔ)義詞典的擴(kuò)展則更側(cè)重于句法格式。語(yǔ)義相似的詞語(yǔ),句法格式未必相同。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練針對(duì)句子訓(xùn)練,通過(guò)CNN和RNN的層疊,融入了句法結(jié)構(gòu)的因素,故在調(diào)整詞向量時(shí),有了具體調(diào)整目標(biāo)。因此,對(duì)基于詞向量的分類器由較大幅度的提升。

        測(cè)試集中第九類的詞“累”最接近訓(xùn)練集第二類中的詞“辛苦”,從語(yǔ)義上看似乎很合理;然而從句法上看,他們所能進(jìn)入的句法格式不一樣,屬于不同類(表6)?!靶量唷笆且环N生存狀態(tài),主事TH表示具有身心勞累、艱辛困苦這種屬性的人,范圍RA表示辛苦的具體方面,如句法格式①“TH+_: 孩子們學(xué)習(xí)十分辛苦。(TH=孩子們)”;而“累”不僅可以表示主體的身體或生存狀態(tài),還強(qiáng)調(diào)主體的主觀感受,所以不僅能帶主事TH,還帶語(yǔ)義角色感事SE,表示感到疲憊乏力的人或動(dòng)物,例如,句法格式④ “SE+_: 我感到渾身都十分累。(SE=我)”,這里的“累”就不能替換成“辛苦”??梢姡浞ǜ袷脚c分布的不同,深刻地反映了詞匯更深層、細(xì)致的語(yǔ)義差別。

        表6 “累”和“辛苦”的句法格式

        經(jīng)過(guò)DNN訓(xùn)練調(diào)整后,最接近“累”的詞變成了“傷感”和“苦”。它們雖然在語(yǔ)義上不相同,但在句法格式上,卻是比較一致的,屬于同一類(類9);即既能夠表達(dá)具有“傷感”或“苦”狀態(tài)的人或事,如“這首詩(shī)很傷感。(TH=這首詩(shī))”“他的命很苦。(TH=他的命)”,又能表示感到“傷感”或“苦”的人,如“方鴻漸正因情場(chǎng)失意而感到傷感。(SE=方鴻漸)”“他感到很苦。(SE=他)”。可見,經(jīng)過(guò)DNN訓(xùn)練調(diào)整后,詞向量更好地反映了詞匯的句法結(jié)構(gòu)能力。

        4 結(jié)論和展望

        本文的目標(biāo)是擴(kuò)展現(xiàn)有的語(yǔ)義知識(shí)資源,以期使語(yǔ)義知識(shí)資源更好地應(yīng)用于NLP的各個(gè)領(lǐng)域,乃至作為NLP應(yīng)用的基礎(chǔ)。本文以北京大學(xué)《形容詞句法語(yǔ)義詞典》為研究對(duì)象,其資源擴(kuò)展的主要思路是: 從大規(guī)模的語(yǔ)料庫(kù)中,得到語(yǔ)料庫(kù)的詞表。再通過(guò)某種映射,匹配到語(yǔ)義資源的小詞表中;并通過(guò)人機(jī)結(jié)合的方法,補(bǔ)充新的語(yǔ)義知識(shí)資源的細(xì)節(jié),達(dá)到語(yǔ)言資源擴(kuò)展的目的。而這種映射,體現(xiàn)在本文中就是: 根據(jù)詞典的特點(diǎn),利用每個(gè)詞句法格式的不同,把詞典擴(kuò)展問題轉(zhuǎn)化為分類問題。

        解決分類問題需要的大量的訓(xùn)練語(yǔ)料,為避免人工語(yǔ)料標(biāo)注消耗巨大的人力物力,我們利用遠(yuǎn)監(jiān)督的方法進(jìn)行機(jī)器學(xué)習(xí)。首先從大規(guī)模語(yǔ)料庫(kù)中訓(xùn)練詞向量,并以詞向量的維度為詞的特征進(jìn)行機(jī)器學(xué)習(xí)。由于詞向量的學(xué)習(xí)過(guò)程決定了詞向量?jī)H能表達(dá)有限窗口的上下文信息,因而我們用訓(xùn)練集和測(cè)試集的詞抽取所有會(huì)有該詞的句子,組成句子的訓(xùn)練集和測(cè)試集;再利用由卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)疊加的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并在訓(xùn)練中調(diào)整詞向量,以此將句法結(jié)構(gòu)的信息融入詞向量中。

        實(shí)驗(yàn)結(jié)果顯示,利用經(jīng)過(guò)調(diào)整的詞向量,使用較簡(jiǎn)單的K近鄰算法下,在45類的多分類問題中,能達(dá)到接近50%的準(zhǔn)確率;與使用SVM分類器相當(dāng),優(yōu)于使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類預(yù)測(cè)。

        另一方面,本文的工作也可以輔助人工擴(kuò)充詞典。在人工擴(kuò)充詞典的詞匯時(shí),可先用詞典所有的詞在語(yǔ)料庫(kù)中抽取句子進(jìn)行訓(xùn)練;然后對(duì)候選的形容詞表進(jìn)行KNN(K=3)的分類,以此確定詞的基本句法格式集;在此基礎(chǔ)上,再進(jìn)行人工校對(duì)。人工校對(duì)的過(guò)程,不僅是編纂新詞的過(guò)程,而且還能夠發(fā)現(xiàn)原來(lái)詞典的錯(cuò)誤,例如,原詞的類屬不當(dāng)?shù)?。通過(guò)人機(jī)結(jié)合的方法,不僅能夠提高詞典編纂的效率,還能提高詞典的準(zhǔn)確率和一致性。

        由于句法語(yǔ)義詞典中每個(gè)詞都帶有句法信息和語(yǔ)義角色的信息,句法格式同時(shí)體現(xiàn)了論元的位置和論元的語(yǔ)義角色。因而,若利用句法語(yǔ)義詞典進(jìn)行句法結(jié)構(gòu)分析,則可以同步解決句法分析和語(yǔ)義分析問題,而這正是自然語(yǔ)言處理的基礎(chǔ)環(huán)節(jié)。

        句法語(yǔ)義詞典凝聚了語(yǔ)言學(xué)家們多年知識(shí)積累,本文的工作也是將語(yǔ)言學(xué)知識(shí)融入機(jī)器學(xué)習(xí)的一種探索,從實(shí)驗(yàn)結(jié)果看,取得了初步的成效。

        [1] Miller G. Wordnet: An electronic lexical database[DB]. http://wordnet.princeton.edu.

        [2] Miller G A,Fellbaum C. WordNet then and now [J]. Language Resources and Evaluation, 2007, 41(2): 209-214.

        [3] Levin B. English verb classes and alternations: A preliminaryinvestigation[M]. Chicago: University of Chicago press, 1993.

        [4] Palmer M,Gildea D, Kingsbury P. The proposition bank: An annotated corpus of semantic roles[J]. Computational linguistics, 2005, 31(1): 71-106.

        [5] Fillmore C J. Framesemantics[J]. Linguistics in the morning calm, 1982: 111-137.

        [6] Fillmore C J, Johnson C R,Petruck M R L. Background to framenet[J]. International journal of lexicography, 2003, 16(3): 235-250.

        [7] Liu H, Singh P.ConceptNet—a practical commonsense reasoning tool-kit[J]. BT technology journal, 2004, 22(4): 211-226.

        [8] 董振東, 董強(qiáng). HowNet[DB], http://www.keenage.com.2000.

        [9] 俞士汶. 現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解[M]. 北京: 清華大學(xué)出版社, 1998.

        [10] 梅家駒. 同義詞詞林[M]. 上海: 上海辭書出版社, 1983.

        [11] Kipper K, Dang H T, Palmer M. Class-Based ConstructionOf A Verb Lexicon[C]//Proceedings of Seventeenth National Conference on Artificial Intelligence & Twelfth Conference on Innovative Applications of Artificial Intelligence. 2000: 691-696.

        [12] Strapparava C, Valitutti A. WordNet Affect: an Affective Extension of WordNet[C]//Proceedings of LREC. 2004, 4: 1083-1086.

        [13] Rothe S, Schütze H. AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes[J]. arxiv preprint axxiv:1507,01127,2015.

        [14] 袁毓林. 基于生成詞庫(kù)論和論元結(jié)構(gòu)理論的語(yǔ)義知識(shí)體系研究[J]. 中文信息學(xué)報(bào), 2013, 27(6): 23-30.

        [15] 袁毓林. 漢語(yǔ)配價(jià)語(yǔ)法研究[M]. 北京: 商務(wù)印書館, 2010.

        [16] 袁毓林, 李強(qiáng). 怎樣用物性結(jié)構(gòu)知識(shí)解決“網(wǎng)球問題”?[J]. 中文信息學(xué)報(bào), 2014, 28(5): 1-12.

        [17] 索緒爾. 普通語(yǔ)言學(xué)教程[J]. 北京: 商務(wù)印書館, 1980.

        [18] 宋文杰, 顧彥慧, 周俊生,等. 多策略同義詞獲取方法研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 51(2): 301-306.

        [19] 孫霞, 董樂紅. 基于監(jiān)督學(xué)習(xí)的同義關(guān)系自動(dòng)抽取方法[J]. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008, 38(1): 35-39.

        [20] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the ACL 2009: 1003-1011.

        [21] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv: 1301.3781, 2013a.

        [22] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of Advances in neural information processing systems. 2013b: 3111-3119.

        [23] Sainath T N, Vinyals O, Senior A, et al. Convolutional, long short-term memory, fully connected deep neural networks[C]//Proceedings of 2015 IEEE International Conference, 2015: 4580-4584.

        [24] Kim Y,Jernite Y, Sontag D, et al. Character-aware neural language models[J]. arXiv preprint arXiv: 1508.06615, 2015.

        [25] Altman N S. An introduction to kernel and nearest-neighbor nonparametricregression[J]. The American Statistician, 1992, 46(3): 175-185.

        [26] Cortes C,Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.

        [27] Lowe D,Broomhead D. Multivariable functional interpolation and adaptive networks[J]. Complex syst, 1988, 2: 321-355.

        Research on the Expansion of Semantic Knowledge Resources Based on Distant Supervision

        LU Dawei1, WANG Xingyou2, YUAN Yulin1

        (1. Department of Chinese Language and Literature, Peking University, Beijing 100871, China;2. School of Information Science,Beijing Language and Culture University, Beijing 100083, China)

        The semantic knowledge resources containing extensive linguistic information are one of the important interfaces of linguistics and language engineering. In this paper, we study the automatic expansion of semantic knowledge resources by the example of theAdjectiveSyntactic-SemanticsDictionary. We aim to extend the vocabulary of the dictionary and their syntactic patterns via the large corpus. More specifically, our method is to classify the words in dictionary into 97 categories by their syntactic patterns, and mapping the new words which are not existing in the dictionary into each category, thereby the whole task can be treated as a multi-class classification issue. The method is based on the fact that the new words and the dictionary words have the similar syntactic patterns in large corpus. We construct the training data by distance supervision, so as to reduce the effort of manual annotation. Training process combines the shallow learning and the deep neural network, which achieves the promising results. The experimental results show that the deep neural network is able to learn the syntactic information, and effectively improve the accuracy in the mapping task.

        resource extension; Distant Supervision; semantic knowledge resources

        盧達(dá)威(1983—),博士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼h語(yǔ)語(yǔ)言學(xué)等。E-mail:wedalu@163.com王星友(1991—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:ultimate010@gmail.com袁毓林(1962—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)檎Z(yǔ)言學(xué)和漢語(yǔ)語(yǔ)言學(xué)、句法學(xué)、語(yǔ)義學(xué)、語(yǔ)用學(xué),計(jì)算語(yǔ)言學(xué)和中文信息處理等。E-mail:yuanyl@pku.edu.cn

        1003-0077(2016)06-0147-09

        2016-09-27 定稿日期: 2016-10-11

        教育部人文社會(huì)科學(xué)研究青年項(xiàng)目(16YJC740050);中國(guó)博士后科學(xué)基金第60批面上項(xiàng)目(2016M600838);國(guó)家社科基金重大招標(biāo)項(xiàng)目(12&ZD175);國(guó)家重點(diǎn)基礎(chǔ)研究計(jì)劃(973計(jì)劃)(2014CB340502)

        TP391

        A

        猜你喜歡
        句法語(yǔ)義
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        語(yǔ)言與語(yǔ)義
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        疑問詞“怎么”句法功能的演變及其動(dòng)因
        認(rèn)知范疇模糊與語(yǔ)義模糊
        信息結(jié)構(gòu)與句法異位
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        亚洲精品二区在线观看| 国产69精品久久久久久久| 91九色中文视频在线观看| 黄射视频在线观看免费| 免费看男女做羞羞的事网站| 无码人妻精品一区二区三区免费| 久久久久久久一线毛片| 极品新娘高清在线观看| а天堂中文地址在线| 久久精品人人做人人综合| 国产mv在线天堂mv免费观看| 国产品精品久久久久中文| 免费国产不卡在线观看| 色与欲影视天天看综合网| 欧美成人在线视频| 中文字幕有码无码av| 岛国精品一区二区三区| 日韩精品人妻一区二区三区蜜桃臀| 色综合久久网| 成人一区二区免费视频| 99热这里只有精品久久6| 91精品国产高清久久福利| 成年站免费网站看v片在线| 免费观看激色视频网站| 女人体免费一区二区| 日本一区人妻蜜桃臀中文字幕| 国产成人无码a区在线观看导航 | 中文无码免费在线| 色播视频在线观看麻豆| 99噜噜噜在线播放| 国产在线一区二区三区av| 欧美xxxx新一区二区三区| 国产精品老女人亚洲av无| 成人国成人国产suv| 国产美女在线精品免费观看网址| 无码啪啪熟妇人妻区| 白白色发布会在线观看免费| 久久伊人少妇熟女大香线蕉| 国产真人无遮挡作爱免费视频| 青青草国内视频在线观看| 青青草 视频在线观看|