亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語未登錄詞的詞義知識表示及語義預(yù)測

        2016-06-01 11:29:46田元賀
        中文信息學(xué)報 2016年6期
        關(guān)鍵詞:語義概念結(jié)構(gòu)

        田元賀,劉 揚

        (1. 北京大學(xué) 中國語言文學(xué)系,北京 100871; 2. 北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京 100871;3. 北京大學(xué) 計算語言學(xué)研究所,北京 100871)

        漢語未登錄詞的詞義知識表示及語義預(yù)測

        田元賀1,2,劉 揚2,3

        (1. 北京大學(xué) 中國語言文學(xué)系,北京 100871; 2. 北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京 100871;3. 北京大學(xué) 計算語言學(xué)研究所,北京 100871)

        在此前的漢語未登錄詞語義預(yù)測中,構(gòu)詞相關(guān)的知識一直被當(dāng)做預(yù)測的手段,而沒有被視為一種有價值的知識表示方式,該文在“語素概念”基礎(chǔ)上,深入考察漢語的語義構(gòu)詞知識,給出未登錄詞的“多層面”的詞義知識表示方案。針對該方案,該文采用貝葉斯網(wǎng)絡(luò)方法,構(gòu)建面向漢語未登錄詞的自動語義構(gòu)詞分析模型,該模型能有效預(yù)測未登錄詞的“多層面”的詞義知識。這種詞義知識表示簡單、直觀、易于拓展,實驗表明對漢語未登錄詞的語義預(yù)測具有重要的價值,可以滿足不同層次的應(yīng)用需求。

        未登錄詞;詞義知識表示;語義預(yù)測;語義構(gòu)詞

        1 引言

        詞義知識的表示和獲取是文本理解的基礎(chǔ)。在中文信息處理的實踐中,漢語未登錄詞的頻繁出現(xiàn),對機器理解提出了很大的挑戰(zhàn),其語義預(yù)測對智能信息檢索、機器翻譯等典型應(yīng)用具有重要價值。目前這一領(lǐng)域的研究仍處于起步階段。

        未登錄詞的語義預(yù)測涉及兩個方面: 預(yù)測內(nèi)容以及預(yù)測方法。

        在預(yù)測內(nèi)容上,此前的研究[1-7]主要是預(yù)測未登錄詞的語義類別,也有預(yù)測概念圖[8]和語義構(gòu)詞知識[9]的。語義類別的預(yù)測是一種粗線條的預(yù)測,只能表示特定語義分類下的大概的詞義,而對精細化的詞義需求無能為力。例如,對于“選材”一詞,語義類別的預(yù)測一般將其設(shè)定為“獲取”這個義類,而“獲取”的“具體內(nèi)容”無法直觀得到。相比之下,概念圖以圖的形式表示構(gòu)詞概念之間的關(guān)系,表達的詞義信息要多于語義類別,然而,對于未登錄詞來說,這種表示形式過于復(fù)雜,既不直觀、也不利于計算。

        關(guān)于詞義,符淮青[10]等多位語言學(xué)家指出: 語素義的組合可以在一定程度上體現(xiàn)詞義。因此,將語義構(gòu)詞知識作為詞義知識表示并對其進行預(yù)測將是一種新的選擇。這種詞義知識表示具有簡單、直觀的特點,能夠全面、充分地反映構(gòu)詞語素對詞義的貢獻。例如,在“選材”中,“選”的語素義為“挑選”,“材”的語素義為“有才能的人”,其“述賓”結(jié)構(gòu)關(guān)系及成分意義,準確地反映了“選材”的語義,在精度上高于語義類別,在復(fù)雜程度上低于概念圖。吉志薇[9]是目前唯一嘗試預(yù)測未登錄詞語義構(gòu)詞知識并給出預(yù)測方法的人。但遺憾的是,她只是簡單地將未登錄詞的語義構(gòu)詞知識作為詞義知識輸出,而沒有注意到“多層面”的構(gòu)詞知識在實際應(yīng)用上的巨大價值,并且,不同的語素及其意義之間無法形成有效的關(guān)聯(lián),此外,她的實驗結(jié)果也不太理想。

        在預(yù)測方法上,目前主要有兩類,即基于語料的方法和基于詞內(nèi)部知識的方法。此前,Lu[1]和Chen[2]嘗試了基于語料的方法,并用這種方法預(yù)測語義類別,Lu的F值為37.1%,Chen的準確率為34.4%。此外,Lu還提供了基于詞內(nèi)部知識的方法。

        相比之下,基于詞內(nèi)部知識方法的研究較多,結(jié)果也更理想。Lu[1]、Chen[3]、Tseng[4]、Chen[5]、邱立坤[6]等基于《同義詞詞林》(以下簡稱《詞林》)和《知網(wǎng)》,尚芬芬[7]基于《現(xiàn)代漢語語義詞典》,均預(yù)測未登錄詞的語義類別。值得一提的是,他們采用的預(yù)測模型,例如,“重疊字模型”、“字類別關(guān)聯(lián)模型”等,都用了語義構(gòu)詞分析的思路,卻沒有意識到可以將語義構(gòu)詞知識應(yīng)用于詞義知識表示。在結(jié)果方面,Lu的準確率為61.6%,Chen[3]對名詞的準確率為81.0%,Tseng對名詞、動詞、形容詞的準確率分別為71.4%、52.8%、65.8%,Chen[5]對雙音節(jié)V-V復(fù)合詞的準確率為61.6%,邱立坤的F值為64.7%,尚芬芬的準確率為77.9%。此外,張瑞霞[8]基于《知網(wǎng)》預(yù)測概念圖的準確率為79.3%。吉志薇[9]雖然給出了語義構(gòu)詞知識的預(yù)測方法,卻沒能得到一個整體上的結(jié)果,其部分結(jié)果(準確率為43.7%)也因為實驗樣本少而缺乏足夠的代表性。

        在此基礎(chǔ)上,我們研究未登錄詞的語義預(yù)測,既包括預(yù)測內(nèi)容,也包括預(yù)測方法。

        首先,我們關(guān)注系統(tǒng)的語義構(gòu)詞知識與詞義知識表示之間的關(guān)聯(lián),原則上,這種表示對已登錄詞、未登錄詞都是適用的。針對完整給出未登錄詞詞義知識的難點,我們探究“多層面”的詞義知識表示在應(yīng)用需求上的價值;接下來,設(shè)計針對漢語未登錄詞的自動語義構(gòu)詞分析模型,預(yù)測未登錄詞的“多層面”的詞義知識,實現(xiàn)對未登錄詞的詞義預(yù)測。

        需要說明的是,二字詞在漢語中占據(jù)主體,對它的研究具有代表性,因此,目前的研究以二字未登錄詞為主。本文中的知識表示和預(yù)測方法具有良好的擴展性,可以方便地拓展到三字及以上未登錄詞的情形。

        2 漢語的語義構(gòu)詞知識及“多層面”的知識表示

        凡是對詞的理解有意義的語義構(gòu)詞知識,在中文信息處理應(yīng)用中都是有價值的。因此,本文所講的語義構(gòu)詞知識,涵蓋詞性、構(gòu)詞結(jié)構(gòu)、語素類、語素義等在內(nèi)的廣義知識。漢語未登陸詞的語義預(yù)測也將以此為基礎(chǔ)給出,以便在廣泛的意義層面上來表示詞義。

        課題組研發(fā)多年并計劃推出的北京大學(xué)《漢語概念詞典》(以下簡稱《概念詞典》,英文名稱the Chinese Object-Oriented Lexicon, 簡稱COOL)在生成詞庫理論(GLT理論)[11]、面向?qū)ο笏枷?OO思想)[12]、WordNet理論[13]等觀點指導(dǎo)下,以《現(xiàn)代漢語詞典(第5版)》(以下簡稱《現(xiàn)漢》)刻畫的漢語的語素及語素義為依據(jù),采用“同義語素集”來表征“語素概念”并建立“語素概念體系”;在此基礎(chǔ)上,詳盡描述漢語詞的構(gòu)詞結(jié)構(gòu),并實現(xiàn)構(gòu)詞結(jié)構(gòu)下的構(gòu)詞成分(即語素)對“語素概念體系”中的“語素概念”的嚴格綁定,以此來誘導(dǎo)和表達漢語詞義,并提供多種應(yīng)用程序接口。

        《概念詞典》包含的詞的這些語義構(gòu)詞知識,構(gòu)成本文工作的一個數(shù)據(jù)基礎(chǔ)。

        2.1 語義構(gòu)詞知識

        2.1.1 詞性知識

        《概念詞典》為其收錄的詞都標注了詞性,其中,51 454個二字詞的情況如表1所示。

        表1 《概念詞典》中二字詞詞性統(tǒng)計表

        續(xù)表

        詞性數(shù)量比率/%例詞副詞9051.76臨時數(shù)詞570.11好多量詞900.17公尺介詞360.07為了代詞1140.22咱們助詞230.04不得嘆詞100.02嗚呼擬聲詞1150.22乒乓連詞1620.31不但合計51454100.00

        2.1.2 構(gòu)詞結(jié)構(gòu)知識

        在語言學(xué)界有兩種主流的構(gòu)詞結(jié)構(gòu)體系,一種注重表達構(gòu)詞語素間的語義關(guān)系(如主體、客體等),而另一種體系注重表達構(gòu)詞語素間的語法關(guān)系(如主謂、述賓等)。對于第一種構(gòu)詞體系,傅愛平[14]指出: 雖然其在表示詞義時更具優(yōu)勢,但是其結(jié)構(gòu)體系較為復(fù)雜,對計算機來說,識別難度較大。相比之下,第二種構(gòu)詞體系較為簡單,結(jié)構(gòu)標準較為統(tǒng)一,且與句法結(jié)構(gòu)有天然的相似性,苑春法[15]的研究表明,基于語法的構(gòu)詞結(jié)構(gòu)與構(gòu)詞語素類和詞性之間存在一定的相關(guān)性。因此,采用第二種構(gòu)詞體系更有利于計算的開展。實際上,由于后續(xù)要求構(gòu)詞成分對“語素概念”嚴格綁定,我們獲得的依然是廣義的語義構(gòu)詞知識。

        基于以上分析,我們參考楊梅[16]和北京大學(xué)中文系郭銳教授對構(gòu)詞結(jié)構(gòu)的研究成果,構(gòu)建了基于語法的構(gòu)詞體系,并為《概念詞典》中所有52 108個二字詞按義項區(qū)分標注了構(gòu)詞結(jié)構(gòu)(表2)。為保證構(gòu)詞結(jié)構(gòu)知識的可靠性,我們請三位專家對同一詞項進行標注,兩人以上標注結(jié)果相同的一致率為93.46%。

        表2 《概念詞典》二字詞構(gòu)詞結(jié)構(gòu)統(tǒng)計表

        續(xù)表

        構(gòu)詞結(jié)構(gòu)數(shù)量比率/%例詞定中1958137.58紅旗狀中42158.09熱愛介賓1570.30從小重疊3100.59哥哥名量780.15紙張數(shù)量560.11一些方位1890.36野外復(fù)量200.04場次前附加6981.34老虎后附加23084.43忘卻單純詞20783.99克隆合計52108100.00

        2.1.3 語素類知識

        語言學(xué)上的“語素”指的是“最小的音義結(jié)合體”,在本文中,為方便起見,漢語語素暫且限定為一個漢字。由于《現(xiàn)漢》只為部分(主要是成詞語素,約48%)語素標注了語素類,我們采用專家人工標注的方式補齊了其余(主要是不成詞語素,約52%)的語素類,《概念詞典》全部20 175個語素的語素類知識如表3所示。

        表3 《概念詞典》語素類統(tǒng)計表

        2.1.4 語素義知識

        此前,學(xué)界對于語素義系統(tǒng)的研究較少??菏烙耓17]曾構(gòu)建了《漢字義類信息庫》,但他所選取的義類體系源于《詞林》,用這種詞義體系對字義分類的做法難免偏頗。借鑒WordNet理論,課題組成員陸顧婧[18]在其碩士論文中用“語素特征”(現(xiàn)在稱其為“語素概念”)來稱謂漢語中可計算的最小意義單元,并采用“同義語素集”的形式來加以表示,該集合中的元素為具有相同或基本相同意義(即語素義)的那些語素,其中的每個語素都攜有獨特的“語素義編碼”。例如,語素“選”有多個語素義,其中的一個語素義的“語素義編碼”為“選1_04_01”,這表明: 它是該單字在詞典中的第1次條目出現(xiàn)(即“選1”),該條目共有4個義項(即“選1_04”),當(dāng)前為第1個義項(即“選1_04_01”)。

        目前,對以上20 175個語素所表達的語素義,我們按釋義計算相似度,形成初步的“同義語素集”,并經(jīng)反復(fù)的人工校對、核對,獲得了5 113個“語素概念”。在這些“語素概念”之間,我們進一步構(gòu)建了初步的上、下位語義關(guān)系,形成了一個樹狀結(jié)構(gòu)的“語素概念體系”。在后續(xù)的知識表示中,如果確定了特定語素的語素義,攜有了“語素義編碼”,就意味著該特定語素在該體系中綁定了一個“語素概念”,并接受該體系的意義表達和約束。

        以表達“選擇、挑選”意義的動語素“語素概念”X為例,X={刷3_01_01,掄1_01_01,拔1_08_03,揀1_01_01,擇1_02_01,擇2_02_01,挑1_02_01,擢1_02_02,調(diào)4_02_02,選1_04_01,遴1_01_01,銓1_02_01},在“語素概念體系”中,其所處的“語素概念”位置如圖1所示。

        圖1 樹狀結(jié)構(gòu)的“語素概念體系”示例

        在標注二字詞的構(gòu)詞結(jié)構(gòu)和前、后語素類后,我們繼續(xù)把《概念詞典》中所有二字詞的前、后語素按其語素義與對應(yīng)的“語素義編碼”掛鉤。于是,二字詞的前、后語素與它們在“語素概念體系”中的“語素概念”就建立了嚴格綁定關(guān)系。這樣一來,單一的語素義就擁有了更豐富的、便于計算的意義形式。

        2.2 已登錄詞的“全層面”的詞義知識表示

        對《概念詞典》中的二字詞,在以上語義構(gòu)詞分析之后,我們獲得了由詞性、構(gòu)詞結(jié)構(gòu)、語素類和語素義等四方面知識構(gòu)成的一個“全層面”的詞義知識表示。其中,前三個層面屬于語法層,最后一個層面屬于語義層。以“選材”一詞為例,“選”表示“挑選、選擇”的“語素概念”,“材”表示“有才能的人”的“語素概念”。鑒于“語素概念”中的每個語素都攜有獨特的“語素義編碼”,為方便起見,語素對應(yīng)的“語素概念”只以“語素義編碼”的形式標出,“選材”的“全層面”的詞義知識表示如表4所示。

        為了誘導(dǎo)詞義的簡化的表達形式,我們在構(gòu)詞結(jié)構(gòu)和詞義之間搭建意義關(guān)聯(lián)。

        表4 “選材”的詞義知識表示

        亢世勇[17]曾給出包括A+B=A=B、A+B=A、A+B=B、A+B=C、A+B=A+B、A+B=A+B+D、A+B=A+D、A+B=D+B等八種形式的意義結(jié)構(gòu)體系,其中,A、B分別表示二字詞的前語素義和后語素義,C代表轉(zhuǎn)義后的意義,D代表附加意義。這種體系分類詳細,但轉(zhuǎn)義和附加義的知識較難于獲取,在實際應(yīng)用中面臨較大的挑戰(zhàn)。陸顧婧[18]提出了一種簡單、方便計算的意義結(jié)構(gòu)體系,如表5所示,這也是我們目前采用的方案。需要指出的是,為方便起見,該意義結(jié)構(gòu)體系省略了轉(zhuǎn)義和附加義等附加因素,目前只考慮詞的字面意義,即本義。轉(zhuǎn)義和附加義的問題在后續(xù)層面單獨加以表達和解決,這里不再贅述。例如,“鐵窗”有“監(jiān)獄”的意思,目前只考慮其字面義“鐵的窗戶”,其轉(zhuǎn)義問題可以在后續(xù)階段加以表示和處理,并不會因此丟失。

        在此基礎(chǔ)上,我們給出了詞的“意義序列”的輸出形式。該序列為構(gòu)詞語素的“語素義編碼”的排列,內(nèi)容和順序基本由構(gòu)詞結(jié)構(gòu)決定,如表6所示。以“選材”為例,其“意義序列”一般為“<選1_04_01,材1_05_04>”,此外,允許在應(yīng)用需求中依據(jù)約定改變序列順序,以表達計算的靈活性,如“<材1_05_04,選1_04_01>”也是一個合法的“意義序列”??紤]“語素概念體系”的意義表達和約束,詞的“意義序列”表達詞義的精細程度高于詞的語義類別,而復(fù)雜程度低于概念圖。

        表5 意義結(jié)構(gòu)與構(gòu)詞結(jié)構(gòu)的對應(yīng)關(guān)系

        表6 詞的“意義序列”示例

        對于三字和多字詞,可以采取分層迭代的方法來獲取“意義序列”[18]。例如,先將“亂彈琴”輸出為“<彈琴,亂1_06_01>”(“亂彈琴”是狀中結(jié)構(gòu)),再將“彈琴”輸出為“<彈2_06_04,琴1_03_02>”(“彈琴”是述賓結(jié)構(gòu)),而完整收集的“意義序列”為“<<彈2_06_04,琴1_03_02>, 亂1_06_01>”。

        2.3 未登錄詞的“多層面”的詞義知識表示

        語義構(gòu)詞知識涵蓋不同層面,單一層面或多個層面的知識都有助于未登錄詞的理解,有其獨特意義和應(yīng)用價值。比如,未登錄詞的詞性知識有助于句法分析器性能的提高。再如,未登錄詞的構(gòu)詞結(jié)構(gòu)知識決定了構(gòu)詞語素對整體詞義貢獻的差異,對于單純詞類型,獲取構(gòu)詞結(jié)構(gòu)知識就夠了;對于前附加、后附加、重疊結(jié)構(gòu)、名量結(jié)構(gòu)等類型,還需要獲取單一語素義知識;對于其它構(gòu)詞結(jié)構(gòu)類型,在獲取構(gòu)詞結(jié)構(gòu)知識的同時,獲取單一語素義和全部語素義知識都有價值,這取決于具體的應(yīng)用需求。例如,對于“紅旗”,如果關(guān)注對象的屬性,那么只需獲取前語素義知識,如果關(guān)注對象本身,那么只需獲取后語素義知識,如果關(guān)注整體意義,那么就需要獲取所有語素義知識。此外,在某些應(yīng)用中,甚至語素類都扮演重要角色。例如,如果關(guān)注“彈琴”中的獨立的實體對象,那么只需分別判別“彈”和“琴”的語素類知識,并據(jù)此獲取其中的名詞性語素的語素義知識即可。

        因此,依據(jù)應(yīng)用需求的不同,可以選取不同層面的語義構(gòu)詞知識進行預(yù)測并加以組合,以達到對未登錄詞意義的有效把握,我們稱其為“多層面”的詞義知識表示。其優(yōu)點在于,在滿足需求的同時,避免了預(yù)測“全層面”的詞義知識表示的困難,減少了需要預(yù)測的知識數(shù)目,有助于預(yù)測方法性能的提高。

        在未登錄詞的“多層面”的詞義知識表示的基礎(chǔ)上,其“意義序列”的輸出遵循同樣的規(guī)范,這里不再贅述。

        3 基于貝葉斯網(wǎng)絡(luò)的語義構(gòu)詞分析模型

        語義構(gòu)詞知識包括詞性、構(gòu)詞結(jié)構(gòu)、語素類和語素義等,苑春法[15]、王淑華[19]等人的研究表明,這些語義構(gòu)詞知識之間具有一定的相關(guān)性。因此,可以嘗試從二字未登錄詞的詞型出發(fā),以推理的方式獲取這些知識。貝葉斯網(wǎng)絡(luò)正好提供了推理的概率手段,可以用于各種語義構(gòu)詞知識組合性的預(yù)測,滿足詞義知識表示的多層次需求。在本文研究中,我們以貝葉斯最優(yōu)分類器算法[20]為基礎(chǔ),構(gòu)建語義構(gòu)詞分析模型。

        為表述方便,做如下約定:D表示訓(xùn)練數(shù)據(jù),H表示假設(shè)空間,X前字表示前語素,X后字表示后語素,X前類表示前語素類,X后類表示后語素類,X前義表示前語素義,X后義表示后語素義,X詞性表示詞性,X結(jié)構(gòu)表示構(gòu)詞結(jié)構(gòu)。于是,X前類、X后類、X前義、X后義、X詞性、X結(jié)構(gòu)構(gòu)成了二字未登錄詞ab(X前字=a、X后字=b)的語義構(gòu)詞知識,而V表示依據(jù)需求不同而被選入當(dāng)前詞義知識表示的語義構(gòu)詞知識組合的集合。語義構(gòu)詞分析模型的任務(wù)就是預(yù)測V中最優(yōu)的語義構(gòu)詞知識組合,如式(1)所示。

        進一步,由貝葉斯公式,如式(2)所示。

        此外,定義:

        3.1 假設(shè)空間的構(gòu)建

        對于貝葉斯網(wǎng)絡(luò)來說,不同的假設(shè)對應(yīng)于語義構(gòu)詞知識之間的不同的條件獨立性,也對應(yīng)了不同的網(wǎng)絡(luò)結(jié)構(gòu)和推理過程。

        我們認為,語義構(gòu)詞知識的預(yù)測由以下三個任務(wù)順序組成: 1、語素類知識X前類和X后類的預(yù)測;2、語素義知識X前義和X后義的預(yù)測;3、詞性知識X詞性和結(jié)構(gòu)知識X結(jié)構(gòu)的預(yù)測。其中,任務(wù)1有三種推理模式: ①前字->前類,后字->后類;②后字->后類,前字、后類->前類;③前字->前類,后字、前類->后類;任務(wù)2有四種推理模式: ①前字、后類->前義,后字、前義->后義;②后字、前類->后義,前字、后義->前類;③前字、后類->前義,后字、 前類->后義;④前字->前義,后字->后義(該推理模式不使用前類和后類的特征);任務(wù)3只有一種推理模式: 前義、后義->詞性,前義、后義、詞性->結(jié)構(gòu)。綜上所述,共有(3×3+1)×1=10種推理模式,分別對應(yīng)了假設(shè)空間中10種可能的假設(shè)。

        舉例來說,選取任務(wù)1中的推理模式③、任務(wù)2中的推理模式①和任務(wù)3中的推理模式,它們組成的一種假設(shè)的貝葉斯網(wǎng)絡(luò)如圖2所示。

        圖2 一種假設(shè)的貝葉斯網(wǎng)絡(luò)

        于是,有式(5):

        (5)

        進一步,由全概公式,有式(6):

        (6)

        特別地,當(dāng)hi為圖2所示的假設(shè)時,有式(7):

        (7)

        (8)

        其它假設(shè)和語義構(gòu)詞知識組合的計算方法與此類似。

        3.3 數(shù)據(jù)稀疏問題的應(yīng)對方法

        對于數(shù)據(jù)稀疏問題,有兩種應(yīng)對方法:

        方法1是使用結(jié)構(gòu)簡單的假設(shè)推理。在假設(shè)空間的十種假設(shè)中,既有貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)十分復(fù)雜的假設(shè)(圖2);也有十分簡單的假設(shè)(圖3)。理論上,這種假設(shè)可以覆蓋《概念詞典》中的全部二字詞,增強了模型的適用性。

        圖3 一種結(jié)構(gòu)弱化的貝葉斯網(wǎng)絡(luò)

        方法2是在推理中使用“語素概念體系”中的上層“語素概念”節(jié)點。由于在全體“語素概念”間構(gòu)建起了樹狀結(jié)構(gòu),當(dāng)使用上層節(jié)點的語義知識進行推理時,發(fā)生數(shù)據(jù)稀疏問題的可能性大大降低。

        4 實驗結(jié)果與數(shù)據(jù)分析

        4.1 實驗數(shù)據(jù)說明

        如前文所述,我們請多位專家對《概念詞典》中所有的二字詞標注了構(gòu)詞結(jié)構(gòu)、語素類和語素義等語義構(gòu)詞知識。對以上標注結(jié)果,按如下原則計算人工標注的準確率: ①如果三人標注一樣,則認定三人均正確;②如果兩人標注一樣,則認定標注一樣的兩人正確,另一人錯誤;③如果三人標注均不相同,則認定三人均錯誤。人工標注的準確率見表7,由于《概念詞典》中已有詞性知識,不需要人工標注,所以沒有給出相關(guān)數(shù)據(jù)。

        表7 語義構(gòu)詞知識人工標注情況

        對全部二字詞整理之后,共得到41 472個不同詞型的語義構(gòu)詞知識,這些將作為我們的實驗數(shù)據(jù)。未登錄詞通常從語料中篩選并使用模型對其進行語義預(yù)測,但是,這樣的未登錄詞缺乏作為判定標準的語義構(gòu)詞知識,無法給出模型的預(yù)測準確率,無法評價模型效果?;谶@些考慮,本文實驗的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均選自《概念詞典》,我們將以上詞型隨機十等分,采用十折交叉驗證的方法來檢驗?zāi)P托Ч?,即輪流將其中九份作為?xùn)練數(shù)據(jù),剩下一份作為測試數(shù)據(jù)。這樣一來,對模型而言,每輪測試數(shù)據(jù)中的詞即未登錄詞。

        4.2 實驗結(jié)果和分析

        首先,在未對實驗數(shù)據(jù)做篩選的情況下,語義構(gòu)詞分析模型可以處理所有二字未登錄詞,不同語義構(gòu)詞知識及其組合的預(yù)測準確率,如表8—表10所示。從這些結(jié)果不難看出,隨 著預(yù)測語義構(gòu)詞知識種類的增多和疊加,其準確率也隨之下降。結(jié)合前文分析,這也表明,使用自動方法獲取“全層面”的語義構(gòu)詞知識是有難度的,在當(dāng)前,“多層面”的詞義知識表示更具有現(xiàn)實意義。

        表8 語法層的語義構(gòu)詞知識預(yù)測準確率

        表9 語義層的語義構(gòu)詞知識預(yù)測準確率

        表10 “語法+語義”層的語義構(gòu)詞知識預(yù)測準確率

        接下來,將人工標注的準確率和自動方法進行比較,如表11—表13所示。由于無需人工標注詞性,所以表中沒有“詞性”和“詞性+構(gòu)詞結(jié)構(gòu)”的比較項目??梢园l(fā)現(xiàn),人工標注的準確率在一些項目上并不高,例如,人工在“詞性+構(gòu)詞結(jié)構(gòu)+前語素義+后語素義”項目的準確率為61.87%,而這一結(jié)果是建立在標注專家已知詞性和詞義的基礎(chǔ)上的。這意味著,如果讓人和機器處于同樣的條件下——只知詞型而不知詞義和詞性,那么人工標注的準確率應(yīng)該比目前的更低。這恰好表明,使用自動方法準確獲取“全層面”的語義構(gòu)詞知識在目前充滿挑戰(zhàn),即使預(yù)測模型能夠改善,人工標注的準確率也是可供參考的上限。相反,預(yù)測部分的語義構(gòu)詞知識,即“多層面”的語義構(gòu)詞知識,由于其準確率較高,更應(yīng)成為自動方法關(guān)注的焦點。

        表11 語法層的人工與模型準確率比較

        表12 語義層的人工與模型準確率比較

        表13 “語法+語義”層的人工與模型準確率比較

        進一步,結(jié)合各種構(gòu)詞結(jié)構(gòu)的統(tǒng)計數(shù)據(jù)(表2),我們發(fā)現(xiàn)“多層面”的詞義知識表示的價值更加突顯。例如,如果只獲取后語素義知識,那么對3.28%(連謂)+21.90%(聯(lián)合)+37.58%(定中)+8.09%(狀中)+0.59%(重疊)+0.11%(數(shù)量)+0.36%(方位)+1.34%(前附加)=73.25%的二字詞有較準確的意義把握。

        最后,將實驗結(jié)果與前人研究進行比較: (1) 假定二字詞的后語素義基本決定了它的語義類別,那么我們對語義類別的預(yù)測準確率達到66.23%,這一結(jié)果和現(xiàn)有的研究[1,3-7]基本相當(dāng),區(qū)別在于,我們給出了精確的語素義,其背后有“語素概念體系”的表達和約束,而此前給出的是單一的語義類別; (2) 在此前的實驗中,預(yù)測語義類別以及預(yù)測概念圖的研究[8],都是將語料中出現(xiàn)的未登錄詞作為測試數(shù)據(jù)——實際上,“能產(chǎn)性構(gòu)詞”類型的未登錄詞在語料中占了很大的比例,其語義預(yù)測更加有規(guī)律可循。相比之下,本文實驗的測試數(shù)據(jù)是在《概念詞典》中隨機抽取,其中屬于“能產(chǎn)性構(gòu)詞”類型的詞并不多。在測試數(shù)據(jù)的預(yù)測難度和適用范圍上,本文研究優(yōu)于此前的研究; (3) 同樣預(yù)測語義構(gòu)詞知識的研究[9]給出了預(yù)測方法,但該方法建立在71個專門挑選的未登錄詞上,不具有代表性,也沒能給出完整的實驗結(jié)果。與該方法的部分實驗結(jié)果(其準確率為43.7%)相比,我們在“語法+語義”層的預(yù)測結(jié)果與之大致相當(dāng),此外,我們在“語素概念”基礎(chǔ)上建立不同語素及其意義之間的廣泛關(guān)聯(lián),語義構(gòu)詞知識的廣度和深度都有新的提升。

        5 結(jié)語

        綜上所述,本文研究的貢獻體現(xiàn)在如下兩個方面。

        (1) 在預(yù)測內(nèi)容上,此前的漢語未登錄詞語義預(yù)測,構(gòu)詞相關(guān)的知識一直被當(dāng)做預(yù)測的手段,而沒有被視為一種有價值的知識表示方式,我們在“語素概念”基礎(chǔ)上,深入考察漢語的語義構(gòu)詞知識,給出未登錄詞的“多層面”的詞義知識表示方案。這種“多層面”的詞義知識表示,針對未登錄詞的完全語義預(yù)測的困難,可以依據(jù)不同的任務(wù)性質(zhì)和指標要求,給出不同的語義構(gòu)詞知識及組合,表現(xiàn)出高度的靈活度和可裁剪性,預(yù)測結(jié)果簡單、直觀、易于應(yīng)用。

        (2)在預(yù)測方法上,針對“多層面”的詞義知識表示的需求,我們采用貝葉斯網(wǎng)絡(luò)方法預(yù)測未登錄詞的多樣化的語義構(gòu)詞知識。該模型實現(xiàn)簡單,可以依據(jù)任務(wù)需求的變化快速給出相應(yīng)結(jié)果,可以預(yù)測任何漢語二字詞,表現(xiàn)出良好的適用性。與同樣預(yù)測語義構(gòu)詞知識的此前方法想比,本文方法首次給出了整體實驗結(jié)果,該結(jié)果與此前部分實驗結(jié)果的預(yù)測準確率相當(dāng)。此外,該方法能夠預(yù)測精確的語素義,其背后也有“語素概念體系”的表達和約束,而此前給出的多是單一的語義類別。

        總體上看,未登錄詞的語義預(yù)測仍舊是研究上的難點,“多層面”的詞義知識表示不失為一種有效的應(yīng)對方案,它通過對預(yù)測內(nèi)容的選取和組合,可以滿足不同應(yīng)用對不同層面詞義知識的靈活需求。但是,也應(yīng)看到,我們對未登錄詞的詞義知識表示和語義構(gòu)詞分析進行了初步的探索,所使用的語義資源和分析技術(shù)仍有較大的提高和改善的空間,這也是未來需要繼續(xù)展開的工作。此外,目前只探討了漢語二字詞的情形,三字及以上詞的相關(guān)資源仍在加緊開發(fā)中,將研究成果由二字詞拓展到多字詞,也是我們下一步需要展開的工作。

        [1] Lu X. Hybrid Models for Semantic Classification of Chinese Unknown Words[C]//Proceedings of the HLT-NAACL,2007: 188-195.

        [2] Chen H H, Lin C C. Sense-tagging Chinese corpus[C]//Proceedings of the second workshop on Chinese language processing: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics-Volume 12. Association for Computational Linguistics, 2000: 7-14.

        [3] Chen K J, Chen C. Automatic semantic classification for Chinese unknown compound nouns[C]//Proceedings of the 18th conference on Computational linguistics-Volume 1. Association for Computational Linguistics, 2000: 173-179.

        [4] Tseng H. Semantic classification of Chinese unknown words[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 2. Association for Computational Linguistics, 2003: 72-79.

        [5] Chen C J. Character-sense association and compounding template similarity: Automatic semantic classification of Chinese compounds[C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing,2004: 33-40.

        [6] 邱立坤.現(xiàn)代漢語未登錄詞詞類和語義類標注研究[D].北京大學(xué)博士學(xué)位論文,2010.

        [7] 尚芬芬,顧彥慧,戴茹冰,等.基于《現(xiàn)代漢語語義詞典》的未登錄詞語義預(yù)測研究[J].北京大學(xué)學(xué)報(自然科學(xué)版),2016,01: 10-16.

        [8] 張瑞霞,楊國增,閆新慶.基于知網(wǎng)的漢語普通未登錄詞語義分析模型[J].計算機應(yīng)用與軟件,2012,08: 126-130.

        [9] 吉志薇,馮敏萱.面向普通未登錄詞理解的二字詞語義構(gòu)詞研究[J].中文信息學(xué)報,2015,05: 63-68,83.

        [10] 符淮青.詞義和構(gòu)成詞的語素義的關(guān)系[J].辭書研究,1981,01: 98-110.

        [11] Pustejovsky, J. The Generative Lexicon[M]. Mass: MIT Press, 1995.

        [12] Grady Booch, Robert A. Maksimchuk, Michael W. Engle, etc. Object-Oriented Analysis and Design with Applications, 3rd Edition[M]. Addison-Wesley Professional, 2007.

        [13] Fellbaum C. WordNet: An Electronic Lexical Database [M]. Mass: MIT Press, 1998.

        [14] 傅愛平.漢語信息處理中單字的構(gòu)詞方式與合成詞的識別和理解[J].語言文字應(yīng)用,2003,04: 25-33.

        [15] 苑春法,黃昌寧.基于語素數(shù)據(jù)庫的漢語語素及構(gòu)詞研究[J].世界漢語教學(xué),1998,02: 8-13.

        [16] 楊梅.現(xiàn)代漢語合成詞構(gòu)詞研究[D].南京師范大學(xué)博士學(xué)位論文,2006.

        [17] 亢世勇,李毅,孫道功,等.漢語系統(tǒng)語料庫的建設(shè)與詞典編纂[C]//上海辭書學(xué)會.2004年辭書與數(shù)字化研討會論文集.上海辭書學(xué)會: 2004: 7.

        [18] 陸顧婧.漢語構(gòu)詞分析與詞義知識表示研究[D].北京大學(xué)碩士學(xué)位論文,2013.

        [19] 王淑華.雙字組合理解模式探索[J].上海大學(xué)學(xué)報(社會科學(xué)版),2007,03: 43-47.

        [20] Tom M. Mitchell著,曾華軍,張銀奎譯.機器學(xué)習(xí)[M].北京: 機械工業(yè)出版社,2014: 125-126.

        Lexical Knowledge Representation and Sense Prediction of Chinese Unknown Words

        TIAN Yuanhe1,2, LIU Yang2,3

        (1. Department of Chinese Language and Literature, Peking University, Beijing 100871, China;2. Key Laboratory of Computational Linguistics (Ministry of Education), Peking University, Beijing 100871, China;3. Institute of Computational Linguistics, Peking University, Beijing 100871, China)

        In the previous researches in sense prediction of Chinese unknown words, the lexical knowledge related to word-formation has been used but not regarded as a valuable form of knowledge representation. This paper, on the basis of the morphemic concepts, provides a multi-level solution to knowledge representation of Chinese unknown words. A model based on Bayesian network is also constructed to analyze semantic word-formation of Chinese unknown words, effectively predicting the multi-level lexical knowledge of Chinese unknown words. This kind of lexical knowledge representation is simple, intuitive and easy to expand. Experimental results show that, this knowledge representation is of important value in sense guessing of Chinese unknown words, and can meet the application needs on different levels.

        Chinese unknown words; lexical knowledge representation; sense prediction; semantic word formation

        田元賀(1994—),本科,主要研究領(lǐng)域為應(yīng)用語言學(xué)、語言知識工程、中文信息處理。E-mail:tianyh94@sina.com劉揚(1971—),博士,副教授,主要研究領(lǐng)域為語言知識工程、中文信息處理。E-mail:liuyang@pku.edu.cn

        1003-0077(2016)06-0026-09

        2016-09-27 定稿日期: 2016-10-20

        國家社科基金(16BYY137);國家重點基礎(chǔ)研究發(fā)展計劃資助項目(2014CB340504);國家社科基金(12&ZD119)

        TP391

        A

        猜你喜歡
        語義概念結(jié)構(gòu)
        Birdie Cup Coffee豐盛里概念店
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        語言與語義
        幾樣概念店
        論結(jié)構(gòu)
        中華詩詞(2019年7期)2019-11-25 01:43:04
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        論《日出》的結(jié)構(gòu)
        “上”與“下”語義的不對稱性及其認知闡釋
        創(chuàng)新治理結(jié)構(gòu)促進中小企業(yè)持續(xù)成長
        国产亚洲女在线线精品| 山外人精品影院| av潮喷大喷水系列无码| 亚洲熟妇色xxxxx欧美老妇| 日本久久一区二区三区高清| 亚洲一区二区三区在线观看播放| 日韩精品一区二区三区视频 | 俺去啦最新地址| 欧美性猛交xxxx富婆| 国产2021精品视频免费播放| 亚洲高清美女久久av| 国内自拍速发福利免费在线观看| 人妻少妇精品久久久久久| 免费a级毛片无码无遮挡| 热久久网站| 人妻精品久久久一区二区| 国99精品无码一区二区三区| 亚洲av精品一区二区三区| 无码人妻精品一区二区三区在线| 99ri国产在线观看| 国产一级av理论手机在线| 国产不卡在线观看视频| 亚洲国产精品一区二区成人片国内| 激情综合丁香五月| 无码人妻精品一区二区三18禁 | 伊人精品无码AV一区二区三区| 国产av一区二区凹凸精品| 亚洲国产一区二区视频| 少妇夜夜春夜夜爽试看视频 | 国内大量揄拍人妻在线视频| 99久久国内精品成人免费| 国产av普通话对白国语| 丰满人妻猛进入中文字幕| 欧美精品一区二区蜜臀亚洲| 久久亚洲国产精品成人av秋霞| 中文字幕日本人妻一区| 亚洲一区二区国产激情| 亚洲av成人无码网站…| 九一成人AV无码一区二区三区| 亚洲国产综合久久精品| 无码日韩精品一区二区免费暖暖|