亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多義詞義項粒度與區(qū)別性特征的梯級建構(gòu)*

        2019-09-18 08:31:26劉筱杉
        關(guān)鍵詞:多義詞詞類義項

        劉筱杉

        (武漢大學文學院,湖北 武漢 430072)

        一、問題的提出

        所謂多義詞,從語言信息處理的角度來看,就是“書寫形式相同的一個詞形表示了兩個或多個不同的意義,即形與義形成了一對多的映射關(guān)系”[1]127。在語料庫詞義標注中,多是以傳統(tǒng)詞典中的義項劃分作為重要依據(jù)的,但詞典編纂中,由于人在區(qū)分義項時往往過于追求概念上的細微差別,使得義項粒度過于精細,超越了計算機的識別能力,進而給詞義的自動標注帶來困難。例如,《現(xiàn)代漢語詞典》中,關(guān)于“大暴雨”一詞有兩個義項的描述:

        [大暴雨]①指下得很大的暴雨。②氣象學上指24小時內(nèi)雨量達100—199.9毫米,或12小時內(nèi)雨量達70—139.9毫米的雨。①若無特別說明,文中所引詞義注釋均出自《現(xiàn)代漢語詞典》(第6版),北京:商務印書館,2012年。文中語料均引自CCL語料庫(網(wǎng)絡版)。

        義項①是泛指義,義項②是特指義,詞義表達也很清楚,但是在詞義標注時,例如:“珠江三角洲部分地方6日也下了224.8 毫米的大暴雨,并出現(xiàn)9級大風。”既可以選擇外延大的義項①,因為暴雨不僅大,而且降雨量超過了氣象學上的“199.9 毫米”;也可以選擇外延小的義項②,因為既然雨量達199.9毫米是氣象學上認定的大暴雨,那么比它大的224.8毫米理所當然也符合要求,造成選擇難的原因在于義項②被表泛指的義項①所包含。而詞義標注又必須要給真實語料中的每個詞選擇并標示一個確定的義項,由此可見,傳統(tǒng)詞典中的義項劃分并非完全適用于計算機。

        以上是詞義自動標注在知識資源上存在的問題。若從標注實踐來看,這是否意味著高準確率的詞義標注無法實現(xiàn)?若否,又是否有新的解決途徑?能否直接從具體語料出發(fā),根據(jù)多義詞在真實語料庫中的使用及分布,去建構(gòu)能被計算機所識別的、形式化的、規(guī)則化的區(qū)別性特征?然后再利用所建構(gòu)的區(qū)別性特征,對詞典中不合理的義項劃分粒度進行調(diào)整?這樣既能確保詞義標注高準確率的實現(xiàn),也解決了其在知識資源上的問題。但關(guān)鍵是,該如何提取有效的區(qū)別性特征?盡管有不少學者在這方面進行過研究,但他們在提取區(qū)別性特征時各有側(cè)重,總的來說,缺乏一定的系統(tǒng)性、層級性。在前賢研究的基礎上,我們嘗試從真實的語料出發(fā),根據(jù)多義詞不同義項在詞類、句法組合、語義搭配上的差異,對多義詞義項的區(qū)別性特征進行更為合理、全面的建構(gòu),以提高詞義標注的準確率。

        二、多義詞義項粒度與區(qū)別性特征

        (一)義項粒度問題

        在詞義標注研究領域,學者們提出了義項粒度的概念,認為細粒度(fine-grained)和粗粒度(coarse-grained)與多義詞的義項區(qū)分密切相關(guān),直接影響到詞義標注的正確程度。Ide & Véronis認為,“傳統(tǒng)語文詞典的義項切分粒度過小,導致有些多義詞義項超出了自然語言處理的需求,增加了詞義標注的難度。”Veronis 通過實驗分析,將詞義標注不一致的原因總結(jié)為三點:“1)詞典的釋義中能被計算機用于判斷的線索較少;2)詞典的義項區(qū)分沒有充分考慮到實際運用中的詞義布分;3)義項之間過于模糊,導致區(qū)別信息缺乏”。吳云芳、俞士汶指出:“信息處理用詞語義項區(qū)分應對所標注的語料具有‘完備性’”[1]128;并且還要求“義項的區(qū)分具有‘離散和不相交’的特性,即在意義分析系統(tǒng)中不同義項之間是離散的”[1]129。肖航認為:“詞典中多義詞的義項之間存在重疊、相離、包含等關(guān)系,這些關(guān)系影響著詞義的準確區(qū)分,具體表現(xiàn)為詞義區(qū)分線索不足、義項缺失等,義項劃分顆粒度是否適當及義項間是否有足夠區(qū)分特征直接決定著詞義標注的正確率?!碧K新春在論述傳統(tǒng)詞典的義項特征時也指出,其“長于對具體詞的考察,缺乏統(tǒng)一、整體的義項切分標準,義項顆粒度粗細不一,需將義項在使用中的獨立性、完整性以及區(qū)別特征的顯著性作為判斷義項切分是否合理的重要依據(jù)”。通過以上分析,我們認為,多義詞義項粒度過粗或者過細是導致詞義標注難的主要原因。具體表現(xiàn)在:

        1.當多義詞義項劃分顆粒度過細時,義項間通常呈現(xiàn)出包含或者大面積重疊關(guān)系,義項之間的語義距離相對較小,從詞義標注的角度而言,會因義項與義項之間缺乏足夠的區(qū)別性特征,而陷入模棱兩可的境地。例如:

        [過道]①新式房子由大門通向各房間的走道;②舊式房子連通各個院子的走道,特指大門所在的一間或半間屋子。

        從釋義上看,“過道”一詞兩個義項的核心內(nèi)容都是連通房子各組成部分的走道,可見,兩義項之間存在非常明顯的重疊現(xiàn)象,差別僅僅在于義項①中的“房子”是“新式”的,而義項②中的“房子”是“舊式”的,也正因為兩義項在釋義上重疊的部分過大,使得用于能將彼此區(qū)別開來的部分相對較小。在詞義標注時,通常會因區(qū)別性特征不足而造成困難。例如:“嬌小玲瓏的莫慧蘭在不足百米的過道上就連遭記者三次‘包圍’…”,似乎很難確定到底該選哪個義項,莫慧蘭是站在“新式”過道還是“舊式”過道上,從句中無法判斷出來,并且如此細微的義項劃分,對分析句子幫助也不大,應合并成一個義項更好。

        2.當多義詞義項劃分顆粒度過粗時,會使得原本有差別的兩個義項并未劃分開,導致義項劃分未能反映出該詞在語言實際運用中的真實面貌,這樣詞義標注的結(jié)果也會有悖于語言事實。例如:

        [評論]①批評或議論;②批評或議論的文章。

        從釋義上看,“評論”一詞的兩個義項并不難區(qū)分,義項①為動詞,義項②為名詞,但在標注過程中,可以發(fā)現(xiàn)義項②所指過于寬泛。在真實語料中,還存在一種較特殊的“評論”,即針對重大事件或問題發(fā)表在報刊上的評述性文章,包括社論、評論員文章等。例如:“新華社發(fā)表了題為《在春天里放飛中國夢》的評論?!彪m然此類“評論”囊括在義項②所指中,但又不同于一般的批評或議論性文章,它是一種新聞體裁。因此,有必要將義項②進一步拆分為兩個義項,即a.批評或議論的文章;b.特指一種新聞體裁,如社論、評論員文章等。這樣才會使標注結(jié)果更符合語言實際。為驗證上述觀點的合理性,我們發(fā)現(xiàn)《現(xiàn)代漢語大詞典》(上海辭書出版社)中“評論”一詞正是按照①批評、議論;②批評、議論的文章;③一種新聞體裁這樣三個義項劃分的。

        (二)利用區(qū)別性特征對義項粒度的調(diào)整

        鑒于作為詞義標注重要資源的傳統(tǒng)詞典在義項劃分粒度上存在上述不合理問題,可以利用區(qū)別性特征對其進行調(diào)整、改造。所謂區(qū)別性特征,是指義項在真實語料中賴以體現(xiàn)其意義內(nèi)涵同時又能區(qū)別于其他義項的表達形式,是能被計算機所識別的形式化的產(chǎn)物,主要包括詞類、句法組合、語義類搭配等。借助區(qū)別性特征對不合理義項劃分粒度進行調(diào)整主要包括如下方面:

        1.義項合并

        (1)當多義詞不同義項在語義內(nèi)涵上有細微差異,且這一差異無法通過計算機所能識別的形式特征體現(xiàn)出來時,需對相關(guān)義項進行合并。例如“該”在《現(xiàn)漢》(第4 版)中有兩個義項為:①應當:~說的一定要說。④表示根據(jù)情理或經(jīng)驗推測應當如此:再不澆水,花都~蔫了。義項①與義項④的“該”均為助動詞,兩者在句法組合上也大致相同即多出現(xiàn)于動詞前,計算機很難從形式上對其進行識別,兩義項在語義上的細微差別僅表現(xiàn)在前者是一種按道理、按照常理的“應該”,后者多是根據(jù)經(jīng)驗、情理作出的推測,即便由人來判斷也會出現(xiàn)結(jié)果不一致的情況,因此宜將兩者合并成一個義項。

        (2)當多義詞不同義項的語義內(nèi)涵極為接近時,即便在形式上呈現(xiàn)出細微的特征差異,仍需合并相關(guān)義項,因為義項的劃分不能為了形式而形式,立足于不同義項語義內(nèi)涵有差異的劃分才是有意義的。例如:[正義]①公正的、有利于人民的道理。②公正的、有利于人民的。義項①是名詞,義項②具有描寫性,屬于形容詞,多作定語,如:正義的人、正義的事業(yè)。盡管兩義項在詞性、句法組合特征上的差異為計算機的自動識別提供了區(qū)分線索,但其語義內(nèi)涵卻是極接近的,若暫不考慮義項的歸屬,單看“維護正義”與“正義戰(zhàn)爭”,似乎很難找出兩者的語義差別,故有必要將兩義項合二為一。以不同義項在語義內(nèi)涵上有足夠差異為前提來進行義項劃分才是合理的,若盲目參照形式使得義項劃分粒度過于細致,反會給計算機的自動識別增加不必要的負擔。

        2.義項拆分

        多義詞義項劃分粒度過粗的情況也是常有的,當某一義項內(nèi)部仍存在語義差異,且這一差異能通過計算機可識別的形式體現(xiàn)出來時,需對該義項進行拆分。例如:[打磨]在器物的表面摩擦,使光滑、精致:手工~︱這個劇本還得經(jīng)過幾次~。從后半部分的用例可以顯示出傳統(tǒng)詞典對“打磨”的義項粒度處理是相對粗的。通過語義搭配這一區(qū)別性特征,可以發(fā)現(xiàn)與釋義中的“打磨”搭配的語義類多為“器皿、用具”,如玉石、陶器、刀具等,而與用例中的“打磨”搭配的語義類多是“文章、劇本”等,這說明該義項內(nèi)部仍存在語義差別。后者是由前者引申出來的。最好的處理辦法是將其拆分為兩個獨立義項:①在器物表面摩擦,使光滑、精致。②對文章、臺詞等創(chuàng)作進行修改潤色,使趨于完善。

        3.義項補充

        義項和語料之間需有清晰明確的對應,當義項的劃分與真實語料中詞義分布不一致時,需對缺失的義項進行補充。例如:[出軌]①(火車、有軌電車等)行駛時脫離軌道。②比喻言語行動超出常規(guī):這話說得~了。從釋義上看,義項①具有動作性,為動詞,且后面無法帶賓語;義項②具有描寫性,能被程度副詞“很”、“太”修飾,也能出現(xiàn)在“得”的后面作補語,如:這話太出軌、話說得很出軌。借助句法組合上的區(qū)別性特征,兩義項似乎很容易區(qū)分開,但在真實語料中,我們卻發(fā)現(xiàn)有些用例無法從現(xiàn)有的義項中找到與之匹配的義項,例如:“當然,像妻子出軌、孩子犯罪這種問題發(fā)生在自己身上的可能性極低…/結(jié)婚第四年,她丈夫出軌了。”例句中“出軌”前并未出現(xiàn)“很”、“得”等標志性詞語,很顯然與義項②不符合,再從語義搭配來看,與例句中的“出軌”搭配的語義類通常是“人”,而與義項①的“出軌”搭配的語義類則是“列車、電車”等交通工具,故義項①也是非匹配項。由此可見,傳統(tǒng)詞典中對“出軌”的義項劃分是不具完備性的,借助語義搭配上的特征差異,我們認為應補上“比喻婚姻關(guān)系中一方或雙方出現(xiàn)外遇行為”這一義項才算完整。義項的劃分應全面反映該詞在真實語料中的使用情況,只有這樣詞義標注的結(jié)果方才不悖于語言事實。

        三、區(qū)別性特征梯級建構(gòu)的可行性

        鑒于傳統(tǒng)詞典中義項劃分粒度問題給詞義標注帶來了不少困難,Kilgarriff 甚至認為,“若不解決好多義詞義項間區(qū)分難的問題,不僅詞義標注無法達到高準確率,而且與之相關(guān)的研究也將走進死胡同?!迸c此同時,也有學者提出不同的看法。Wilks 認為Kilgarriff 的論斷高估了多義詞義項區(qū)分的難度,他通過對Gale 等人提出的“One Sense Per Discourse”(一篇一義)及Yarowsky 提出的“One Sense Per Collocation”(一搭配一意義)兩個假設進行分析,指出:“從語料本身出發(fā),有效利用多義詞在具體語料中的使用和分布特點,高準確率的詞義標注是可以實現(xiàn)的”。Palmer 認為:“能在義項區(qū)分中有效發(fā)揮作用的只有那些具體的、有形的標準(比如論元結(jié)構(gòu)、句法框架、選擇限制),而建立在世界知識之上的意義區(qū)分是值得懷疑的?!眳窃品肌⒂崾裤胍仓赋觯骸吧舷挛恼Z境是計算機區(qū)分詞語意義的最終憑借,因此可以根據(jù)詞語的句法行為來區(qū)分義項?!盵1]130蘇新春在論述機用詞典義項庫的建立時也提到,“要立足于義項意義內(nèi)涵尋求義項形式差異,同時也要注重對義項形式特征的提取,并努力做到使兩者相符”。

        Kilgarriff 的觀點雖有一定道理,但難免有將困難無限放大之嫌。盡管標注過程中會因義項劃分粒度不當導致區(qū)分線索缺乏,從而使計算機陷入到選擇難的境地,但也不宜把難度估計過高,并非沒有解決的辦法。從上述其他學者的觀點中可以得到啟示。我們認為,從真實的語料出發(fā),由于多義詞的使用和分布在具體語料中是有規(guī)律可尋的,可以根據(jù)多義詞不同義項在句法組合、語義搭配上的差異,尋找到足夠的區(qū)分線索,并對其進行形式化的描寫并建構(gòu)規(guī)則,以可識別的方式提供給計算機,高準確率的詞義標注是可以實現(xiàn)的。同時,區(qū)別性特征梯級建構(gòu)的過程,也是多義詞義項與義項間的區(qū)分度不斷明晰化的過程,完全可利用所建構(gòu)的區(qū)別性特征,及時對詞典中的義項劃分粒度進行調(diào)整(如合并、拆分、補充義項等),使之更趨合理化,這樣也解決了詞義標注在知識資源上的問題。

        另外,句法和語義也是相互依存與制約的。脫離了句法形式,語義關(guān)系無法得到體現(xiàn);脫離了語義關(guān)系,任何句法形式毫無作用可言。因此在對多義詞義項的區(qū)別性特征進行提取時,單從句法形式上進行分析是欠妥的,容易陷入到唯形式論的誤區(qū)中。而是要將句法形式和語義關(guān)系、語義類別結(jié)合起來,互相滲透。例如:“吞沒”一詞有兩個義項:①把公共的或代管的財務據(jù)為己有;②淹沒。這兩個義項均表示動詞義,而且“吞沒”后都可以帶賓語及動態(tài)助詞,兩者句法組合功能大體相同,若要區(qū)分這兩個義項,單從句法的角度似乎行不通,這時不妨通過“吞沒”后面受事角色語義類的不同來尋求突破。借助真實語料,可以發(fā)現(xiàn)與義項①搭配的受事角色語義類多為“錢財”,與義項②搭配的受事角色語義類以“建筑物”居多,根據(jù)這一區(qū)別性特征,計算機便能很快將其區(qū)分開來。鑒于本研究中識別主體的特殊性即計算機往往對形式化、規(guī)則化的對象更容易識別,我們嘗試先從形式入手再到意義即從詞類層到句法層再到語義層即“梯級”遞進的方式,對多義詞義項的區(qū)別性特征進行更為合理與系統(tǒng)性的建構(gòu)。由于區(qū)別性特征形式可以是多樣的,故需對多義詞不同義項所屬的詞類、句法組合功能、語義搭配及各義項在語言使用中的分布情況進行全面考察,并且遵循一定的規(guī)則與流程,采取逐層排除的方式,直至找出最為合理與有效的區(qū)別性特征。按照這一思路,我們認為對多義詞義項的區(qū)別性特征進行梯級建構(gòu)是可行的。

        四、區(qū)別性特征的梯級建構(gòu)

        (一)第一級詞類標記

        在前期的語言信息處理中,計算機自動分詞與詞類標注的正確率都已達到一定程度,由于不少多義詞的不同義項所屬詞類也是不相同的,因此可以充分利用詞類標注的成果進而對不同義項進行識別。例如:

        [設計]①[動]在正式做某項工作之前,根據(jù)一定的目的要求,預先制定方法、圖樣等;②[名]設計的方案或規(guī)劃的藍圖等:那兩項~已經(jīng)完成。

        《現(xiàn)代漢語詞典》中已明確標出義項①是動詞義,義項②是名詞義,當計算機對如下句中“設計”所屬的義項進行識別時,首先可先通過專門的分詞標注軟件對其進行自動分詞與詞類標注,得到:

        (1)高層建筑/n 的/u 建筑/n 設計/n 和/c 管理/n 上/nd ,/w 沒有/v 達到/v 防火/v 規(guī)范/n 的/u 要求/n。/w

        (2)電子/n 窗戶/n 還/d 能/vu 按/p 用戶/n 的/u要求/n 設計/v 出/vd 世界/n 某/r 一/m 旅游勝地/n的/u 風景/n ,/w 故/c 有著/v 廣闊/a 的/u 銷售/v 前景/n。/w

        在此基礎上,通過詞類標記來進行匹配,第(1)句中“設計”的詞類標記為n即名詞,計算機可根據(jù)此標記很快找到與之相匹配的義項②,同理第(2)句中“設計”的詞類標記為V即動詞,計算機能很快判斷出與之匹配的是義項①。

        可見,通過借助前期詞處理所取得的成果,在詞類標記的輔助下,計算機可以準確地判斷出很大一部分多義詞的詞義或者縮小多義詞義項的數(shù)量,但是,此方法僅適用于多義詞義項所屬詞性不相同的情況,當多義詞不同義項所屬詞性都相同時,計算機則無法直接匹配識別。另外,在少數(shù)情況下,自動分詞與標注也會出現(xiàn)錯誤,建立在此基礎上的義項識別也會受影響,例如:

        (3)并/c 以/p 這個/r 設計/v 為/vl 綱領/n 而/c行動/n(/w 當然/d 只有/d 失敗/v)/w 。/w

        第(3)句中,“設計”很明顯應該標注為“設計/n”即名詞才對,但卻被標注為“v”即動詞,這時計算機若根據(jù)錯誤的詞性標注結(jié)果去匹配義項,只會得到錯誤的結(jié)果。對此,需要尋求新的途徑去解決利用詞類標記無法辨識的那部分多義詞。

        (二)第二級句法組合

        當無法通過詞類標記找到相匹配的義項時,就必須進入到句法層面,嘗試從組合功能的角度尋找義項間的區(qū)別性特征。即通過對該詞在句中可與哪些成分組合進行逐一描寫分析,從而找到義項甲具備而義項乙不具備、或者義項乙具備而義項甲不具備的某種特征。例如:

        [沐浴]①洗澡;②借指受潤澤;③比喻沉浸在某種環(huán)境中。

        借助大量語料,我們對“沐浴”不同義項的句法組合特征進行描寫,“沐浴”的句法組合特征見表1:

        表1 “沐浴”的句法組合特征

        表1清晰地顯示出三個不同義項的“沐浴”在組合功能上的差異,義項①作謂語時,通??梢允枪鈼U的,也可以與動態(tài)助詞“著/了/過”直接連用,還可以帶上動量補語,如:沐浴一次。義項②與義項③的“沐浴”也通常作謂語,后面可以不帶任何成分,也可以帶上動態(tài)助詞或者補語,如:在日光下沐浴著/在暖陽里沐浴一下。但與義項①不同的是,義項②與義項③的“沐浴”后面可以直接帶賓語或者介詞短語,如:沐浴春風/沐浴愛情光輝/沐浴在金色的秋陽之中等。由此可見,沐浴后能否帶賓語或者介詞短語構(gòu)成義項②與義項③區(qū)別于義項①的一個屬性特征。

        根據(jù)這一區(qū)別性特征,計算機能很快識別出與以下句中的“沐浴”意思相符的義項。

        (4)兩百年來,法國人沐浴在浪漫的氣氛中。

        由于第(4)句中的“沐浴”后出現(xiàn)了介詞短語“在……中”,義項①能很快排除掉,而義項②與義項③則可以通過“沐浴”前的語義角色語義類的不同來區(qū)分。與義項②搭配的語義類多為“植物”,如花草、秧苗等,與義項③搭配的語義類以“人”、“建筑物”類居多(具體操作流程下文會詳細說明),據(jù)此可以判定例句中的“沐浴”當屬義項③比喻沉浸在某種環(huán)境中。

        需要說明的是,計算機對于義項③的正確識別是以動詞“沐浴”后的賓語或者介詞短語不為空為前提的,為便于表述,我們把這一區(qū)別性特征設為Vx即當且僅當“Vx≠空”,這一區(qū)別性特征在實際操作中才有效。當“沐浴”后的賓語或者介詞短語為空時,并不能斷定“沐浴”就是義項①,例如:

        (5)找個背風向陽的草坪坐下,任憑太陽沐浴。

        (6)它讓你在它的光輝里沐浴,又讓你染上它的清香一步一回頭地離開。

        上文中的例(5)、例(6)句中“沐浴”的后面沒有賓語或者介詞短語,但計算機并不能就此識別出“沐浴”當屬義項①表示洗澡,因為義項②與義項③的“沐浴”后同樣可以不帶任何成分,在形式上與義項①的“沐浴”相同。此時,計算機無法從形式上將義項①與義項②、義項③區(qū)分開來。這也正體現(xiàn)出借助句法組合功能識別多義詞義項的局限性。在實際操作中,當多義詞在句法組合上的某個區(qū)別性特征為空時,有可能產(chǎn)生與其他義項相同的句法組合形式,導致計算機無法從形式上進行義項識別,從而不得不采取新的手段來尋求突破。

        (三)第三級 語義搭配

        當多義詞的不同義項所屬詞性相同且從句法組合上也難以提取區(qū)別性特征時,就只能進入到語義層面,通過考察被標注詞與其他詞語在搭配上的一些語義限制,將不同的義項區(qū)別開來。根據(jù)“語義句法雙向選擇性原則”①邵敬敏認為對于一個X+Y的組合,不僅X要選擇Y,而且Y要選擇X即只有相同或互補語義特征的詞才能搭配。以及“詞語之間能否搭配,取決于雙方是否存在耦合性義征或語義兼容性”[11],可以發(fā)現(xiàn)能夠組合到一起的詞語之間必然在語義上存在某種聯(lián)系。因此當單從被標注詞的角度無法找到突破口時,不妨考察有哪些語義角色可以與之組合到一起,充當這些語義角色的詞語又隸屬哪些語義類,從而找到使之與其他義項相區(qū)別的特征屬性。下面就以多義動詞“腐蝕”為例,進行具體說明。

        [腐蝕]①通過化學作用,使物體逐漸消損破壞;②使人在壞的思想、行為、環(huán)境等因素影響下逐漸變質(zhì)墮落。

        1.建構(gòu)語義角色描寫框架

        要從語義搭配上對多義詞不同義項間的區(qū)別性特征進行提取,首先需要對能與該詞搭配到一起的語義角色進行全面描寫。我們采取了魯川、林杏光先生的劃分體系,將語義角色分為主體、客體、鄰體、方式、根由、環(huán)境六種,并且每種語義角色又可細分,例如方式角色又包括工具、憑借和樣式①參見魯川、林杏光《現(xiàn)代漢語語法的格關(guān)系》,《漢語學習》,1989年第5期,第11-15頁。。在此基礎上,我們對不同義項“腐蝕”的語義角色搭配情況進行描寫分析并建構(gòu)框架,見表2:

        表2 “腐蝕”語義角色描寫框架

        由表2可知能與義項①的“腐蝕”搭配的語義角色是受事、結(jié)果和工具,例如:硫酸能腐蝕皮膚。其中“硫酸”為工具、材料,“皮膚”則為受事。/昆蟲的尸體被腐蝕成一片粉末。其中“昆蟲的尸體”為受事,“粉末”為結(jié)果。能與義項②搭配的語義角色為受事、工具,例如:黃色書刊會腐蝕青少年。其中“黃色書刊”為工具,“青少年”則是受事。

        2.語義角色的語義類歸納

        完成了語義角色的框架建構(gòu)后,需要借助真實的語料庫,找到能充當這些語義角色的典型詞語,然后進行語義類歸納,并與《同義詞詞林》的義類體系②參見梅家駒、竺一鳴《同義詞詞林》,上海:上海辭書出版社,1983年,第12頁?!锻x詞詞林》把詞語分為大、中、小三級,按詞義分類編排,共分12個大類、94個中類,1428個小類。例如:第二大類(B物)又分為Ba統(tǒng)稱、Bb擬狀物、Bc物體的部分、Bd 天體、Be地貌、Bf氣象等18個中類,中類(Ba統(tǒng)稱)又分出Ba01物體、Ba02生物Ba物品物件、Ba04貨物產(chǎn)品、Ba05器具設備等10個小類。對應起來。我們對能進入到與“腐蝕”搭配的不同語義角色的詞語進行語義類歸納,見表3:

        表3 “腐蝕”語義角色語義類

        表3清晰地反映出與“腐蝕”搭配的不同語義角色的詞語在語義類上的差異。首先,從位于“腐蝕”之前的方式語義類來看,最大區(qū)別在于作為義項①方式的多為表“具體物”類名詞,例如:有害氣體、重金屬、硫酸、細菌等;而作為義項②方式的詞語多為“抽象事物”類,例如:榮譽、迷信觀念、邪教、不良習俗等。其次,從位于“腐蝕”之后的客體語義類來看,最大不同是義項②的客體可以是“人”類,即只要“腐蝕”后客體位置上出現(xiàn)表示“人”的詞語,就可以識別為義項②,另外,部分表“抽象事物”類詞語也能作為義項②客體,例如:心靈、靈魂、精神等;與此相對,作為義項①客體的只能是部分“具體物”類詞語,例如:皮膚、建筑物、船只、木材等。

        根據(jù)上述語義類區(qū)別性特征,計算機可以對被標注詞前后,對應語義角色位置上詞語的語義類進行判別,并由此很快識別出下列句中“腐蝕”所屬義項。例如:

        (7)坤薩曼說,蝙蝠的大堆排泄物嚴重腐蝕了博物館內(nèi)的棟梁、木柱。

        (8)近些年,不法組織腐蝕在校大學生的案例時有發(fā)生,已引起了相關(guān)部門的高度警惕。

        第(7)句中“腐蝕”前面的方式角色“蝙蝠的排泄物”屬于“Ba 廢物類”,并且位于“腐蝕”之后的客體角色為“棟梁、木柱”,屬于“Bn建筑物類”,于是可以判定該句中的“腐蝕”為義項①;第(8)句中“腐蝕”前面的方式角色“不法組織”當屬“Di團體、派別”類,而位于“腐蝕”之后的客體是“在校大學生”,屬于“A 人”類,故可判定該句中的“腐蝕”為義項②。

        由以上分析不難發(fā)現(xiàn),語義搭配實質(zhì)上體現(xiàn)的是詞語語義類選擇機制,例如動詞對論元角色語義類的選擇機制,形容詞對受其修飾名詞語義類選擇機制等,通過描寫、歸納不同語義角色的語義類聚,進而提取區(qū)別性特征,其優(yōu)點在于少量規(guī)則就可以涵蓋大量具體詞語的搭配,但要完成這樣一個語義類描寫體系,并建立相應規(guī)則庫,工作量相當,還需持久努力。

        (四)第四級頻率排歧

        多義詞各義項的頻率分布并非是均衡的,具體表現(xiàn)在某一義項很常用,使用頻率高,而其他義項則用得很少,出現(xiàn)頻率較低。尤其在語義搭配中,當充任某語義角色的詞語較為零散地分布于眾多語義類,導致不太好歸納時,不妨充分利用義項分布的不均衡性,先直接找出與非優(yōu)勢義項搭配詞語或語義類,而不對與優(yōu)勢義項搭配的語義類別作詳細描寫、歸納,將其作為缺省值。在標注時,根據(jù)多義詞所在句中的搭配成分,看其是否符合與非優(yōu)勢義項搭配的條件,如果是,就判定該多義詞屬于非優(yōu)勢義項,如果否,就取缺省值即該多義詞屬于優(yōu)勢義項。例如:

        [參加]①加入某種組織或某種活動:~工作|~會議|~選舉;②參與提出(意見):這件事兒,請你也參加點兒意見。

        較之義項①,義項②出現(xiàn)頻率相對較低,為了驗證這一點,我們從北大語料庫中隨機抽取了500句含有“參加”一詞的語例,結(jié)果發(fā)現(xiàn)表示義項②的句子不足5例,不僅數(shù)量少,而且用法也較為單一即只有“參加…意見”這一種用法,例如:“我不參加意見,讓他們自己協(xié)商去。(《風雨故人來》白峰溪)”可見兩個義項頻率分布玄虛,義項②作為非優(yōu)勢義項出現(xiàn)的語境較為固定,義項①是優(yōu)勢義項,可以作為缺省值,毋須對其可以與哪些語義類搭配進行歸納,并且由于義項①的搭配極為豐富,要詳盡描寫也是相當困難的。在實際標注中,首先查看“參加”之后客事位置上是否出現(xiàn)“意見”這一常與義項②搭配的字段,如果是,就判定“參加”屬于義項②表示參與提出意見;如果否,就取缺省值即“參加”屬于義項①,這樣不僅大大降低了計算機識別的難度,而且提高了準確率。

        綜上所述,在提取多義詞義項區(qū)別性特征時,首先可從詞類標記入手,當多義詞不同義項所屬詞類不相同時,可通過詞類標記,找到與之相對應的義項;其次當多義詞不同義項所屬詞類相同時,需從句法組合上找出排它性特征;然后當在句法組合也上無明顯性差別或者某區(qū)別性特征為空時,就只能通過語義搭配來找到突破;最后當充任某語義角色的詞語較為零散,不便于歸類,使得從語義搭配上也無計可施時,可充分借助頻率排歧即通過非優(yōu)勢義項的排除來找到正確的義項所屬。由此,得到提取多義詞區(qū)別性特征的梯級建構(gòu)模型(圖中Y代表“是”,N代表“否”),見圖1:

        圖1 區(qū)別性特征梯級建構(gòu)模型

        五、結(jié) 語

        計算機對多義詞詞義的自動識別一直是語言信息處理中的難點問題。本文針對作為詞義標注重要依據(jù)的傳統(tǒng)詞典中的義項劃分問題進行了相關(guān)探討,認為多義詞義項粒度過粗或者過細是導致詞義標注難的主要原因所在。進而嘗試從真實語料出發(fā),由詞類標記到句法組合再到語義搭配即梯級遞進的方式,對多義詞義項的區(qū)別性特征進行更為合理與系統(tǒng)性的建構(gòu),并得到了梯級建構(gòu)的模型。但本文的研究只是一種概要式的探討,由于不同詞類具有其自身的獨特性,因此具體到單個多義詞的區(qū)別性特征提取時,可能會在遵循上述操作流程的基礎上有略微變化,還有待進一步研究。

        猜你喜歡
        多義詞詞類義項
        “玄”“懸”二字含義不同
        鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
        多義詞
        用詞類活用法擴充詞匯量
        基于語料庫“隱秘”的詞類標注初步探究
        從成語中學習詞類活用
        小心兩用成語中的冷義項
        基于“字本位”理論再談漢語詞類問題
        淺議多義詞在語境中的隱喻認知
        多義詞way的語義認知分析及實證研究
        兩用成語中的冷義項
        知識窗(2015年1期)2015-05-14 09:08:17
        国产乱子伦露脸在线| 精品无码av无码专区| 男人的天堂免费a级毛片无码| 97午夜理论片在线影院| 一区二区三区国产在线网站视频 | 国产成人午夜福利在线观看者| 亚洲一区二区成人在线视频| 日产一区日产2区日产| 色费女人18毛片a级毛片视频| 曰本无码人妻丰满熟妇5g影院| 亚洲日韩精品无码专区网站| 亚洲一区综合精品狠狠爱| 久久伊人中文字幕有码久久国产| 日本一区二区三区四区高清不卡| 最新日本一道免费一区二区| 日本丶国产丶欧美色综合| 精品福利一区| 国产伦奸在线播放免费| 人妻少妇精品视频一区二区三区l 日韩人妻中文字幕专区 | 国产第19页精品| 日本一区二区亚洲三区| 日本熟女精品一区二区三区| 国语对白嫖老妇胖老太| 国产夫妻av| 中文字幕乱码在线婷婷| 在线观看午夜视频国产| 婷婷色香五月综合激激情| 日韩毛片在线看| 日韩国产自拍成人在线| 欧美性色欧美a在线播放| 亚洲欧洲无码av不卡在线| 国产91在线|亚洲| 海外华人在线免费观看| 成l人在线观看线路1| 欧美亚洲国产人妖系列视| 青青草免费高清视频在线观看| 最新日本人妻中文字幕| 国产又爽又粗又猛的视频| 国产一区二区三区爆白浆| 美女免费观看一区二区三区| 69一区二三区好的精华|