亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詞性標注規(guī)范化探索

        2009-04-29 00:00:00萬紅雅劉丙麗牛雅嫻
        現代語文 2009年11期

        摘 要:詞性標注問題一直是計算語言學中的一個難點問題,對于一些詞類的標注標準和方法,至今仍未統一,如兼類詞、區(qū)別詞,這給進一步的句法分析和語料庫的共享帶來了很大困難,甚至有時候會造成資源的浪費。本著實用的目的,在參考各家標注策略的基礎上,本文對兼類詞、區(qū)別詞和狀態(tài)詞的標注給出了統一的標注策略。

        關鍵詞:詞性標注 句法分析 兼類詞 區(qū)別詞 狀態(tài)詞

        一、引言

        在大多數情況下,對語料進行詞性標注,只是語料庫建設的一個開始,而不是終點。句法標注是當前的一個研究熱點,是建立在詞性標注基礎上的一項工作。我們在對語料進行句法標注的過程中發(fā)現,分詞系統中一些詞類標記會給句法分析工作帶來一些困擾。這些問題不僅影響到句法標注的效率,也影響到標注的準確性和一致性。因此,在分詞及詞性標注階段,應考慮詞類標記對句法層面的影響,以節(jié)省人力、物力。

        首先,分詞類別(或POS標記)應該在句法上有功能意義,例如名詞、動詞等。因為那些不是從句法層面劃分出來的標記,即使標示出來也無法在句法分析中進行處理。

        其次,在有意義的基礎上,我們需要把握一個度。因為與語言本體或語言理論研究追求細致和完美的目的不同,語言工程更多地是要求時效性和可行性。在語料庫的標注過程中,詞類劃分不宜過多或過少。詞類過少,對句法分析的深度和精度不夠。詞類過多,又會使語言分析和處理的過程太復雜,代價太高。那么,到底劃分多少詞類才能在句法層面達到自足呢?對世界上13種語言依存句法的考察表明,在進行自動句法分析時,一種語言所劃分出的詞類數量一般應當控制在在10~20之間。

        本文通過系統①,探討了兼類詞以及區(qū)別詞和狀態(tài)詞的詞性標注問題。我們將首先對所討論的標記概念進行界定,然后對比當今國內幾大分詞系統對其的處理,最后經過綜合分析探討之后,提出一些具有可行性的建議。

        二、兼類詞

        兼類詞從狹義上講是指同一個義項(嚴格說是同一概括詞)兼屬多個詞類。如“小時(n/q)”。從廣義上講還包括意義上有聯系的幾個義項屬于不同詞類。如“通知(v/n)”。

        兼類詞的處理在計算語言學中一直是個頗有爭議的難點問題,怎么來處理兼類詞,區(qū)分還是不做區(qū)分,粗分還是細分。為了回答這些問題,我們從語言本體和計算機處理的角度,對國內的幾個分詞系統進行了分析和比較。

        據統計,兼類詞主要出現在名詞、動詞、形容詞、副詞之間。那么,這幾個分詞系統是如何處理這些詞類的呢?表1為幾個系統對五種詞類的標注:

        表1:四大標注系統的五類標記對比

        從上面的對比和對具體語料的考察可知,四個系統對兼類都做了不程度的區(qū)分:A和D較嚴格地區(qū)分了各種兼類情況,并且連“名物化”現象都做了區(qū)分。B系統的分詞類別最為詳盡,但具體對兼類的處理和C系統并沒有大的差別,它們都只對明顯的兼類情況做了區(qū)分。

        但是,當在這些系統輸出的基礎上進行句法分析時我們卻發(fā)現:(1)由于語言使用的靈活性,機器還不能對大量的兼類做很好的區(qū)分,如像“工作”類廣義的兼類詞都不能很好地區(qū)分,仍需要人工排查。(2)由于動詞性兼類大量不做區(qū)分,致使動詞成了全能詞,其功能在數據上的區(qū)分度在所有詞類中最低。(3)兼類詞的不做區(qū)分不利于計算機句法分析,也不利于基于語料庫的語言學研究。

        基于以上分析,我們認為,對兼類的處理應該采取嚴格區(qū)分的標準,綜合考慮進一步句法分析的需要和寬泛意義上的通用性需要,并參考本體語言學的有關研究成果。因此我們提出如下建議:

        第一,對于兼類詞的第二種情況,也即意義上有聯系的幾個義項屬于不同的詞類的,既然是不同詞類,就必須分開,如“鎖、領導、工作、死”等。陸儉明認為,從本體研究的需要出發(fā),這些詞并不屬于兼類詞,也就是說雖同音,但意義不同,所以必須分開。

        第二,對于兼類詞的第一種情況,這也是分詞系統的難點問題,是我們主要解決的問題。在四個系統中,只有A和D對其做了區(qū)分,但其區(qū)分并沒有改變詞類,只是從活用的角度在小類內部做了區(qū)分,如vd與vn,雖然從詞類上看似比較合理,但對進一步的句法分析并沒有什么大的幫助。況且我們仔細分析就會發(fā)現,不只是動詞和形容詞存在這種情況,名詞也會有這種情況,比如現在看來已經很普遍的“很+名”現象,如果按這樣的觀點,很大一部分名詞如“陽光、女人”都應該標為na,但為什么沒有標呢?

        這類兼類主要有以下幾種情況:

        1.“v-n”兼類、“v-d”兼類

        在黃昌寧等的統計中,動詞和名詞的兼類在《中學生詞典》中占兼類詞總數的49.8%,在《兼類詞選釋》中占兼類詞總數的37.6%。據郭銳統計,具有名詞性的動詞在10300個動詞中有2381個,占23%,在詞頻最高的前3925個詞中共有1220個,占31%。因此,對這類詞的處理對句法分析會產生較大的影響,應分開處理,如“研究、調查、學習、發(fā)展、解決”等。動詞和副詞的兼類雖然數量上沒有前者多,但由于其功能性比較明顯(直接作狀語),因此我們也建議分開。

        2.“a-n”兼類、“a-d”兼類

        因為動詞和形容詞同屬謂詞類,且這類兼類情況在兼類中的數量僅次于動名兼類,因此,我們也建議區(qū)分開來。形容詞和名詞的兼類如“安全、健康、平衡、奧妙”等,形容詞和副詞的兼類如“認真、深入”等。

        3.“n-q”兼類

        有些名詞可以經常用在數詞的后面表示物量或者動量,前者如“碗、桶、車”等,后者如“刀、筆、天”等。因為其功能比較明顯,并且在數據庫中這類詞的數量也并不少,因此按量詞處理。

        4.名詞的其他活用

        雖然我們對動詞、形容詞的活用都做了區(qū)分,但考慮到這類名詞活用現象的數量有限性和意義單一性,我們對名詞臨時具有形容詞性質的情況不做區(qū)分,仍按名詞處理。

        三、區(qū)別詞和狀態(tài)詞

        形容詞是漢語實詞中非常重要的一類詞,一般表示事物的性質、狀態(tài),其內部分類比較復雜。在比較早期的語法書當中,以下的幾類詞統統被歸為形容詞:

        a.黃、慢、大、幼稚、美妙、透明、簡單,安全……

        b.黝黑、雪白、火熱、碧藍、稀里糊涂、古里古怪……

        c.上等、慢性、有線、長途、活期、金、副……

        其中,c類最早由呂叔湘、饒長溶(1981)提出,他們稱之為“非謂形容詞”,是形容詞的一個次類。朱德熙先生在《語法講義》里首次將c類形容詞單列為“區(qū)別詞”。

        對應于語法上的不同分類,現存的國內語料庫在詞性標注這一問題上,存在著明顯的差別。有的系統把區(qū)別詞從形容詞中劃分出來,如系統a、c。在系統a中,還對區(qū)別詞進行了更為細致的區(qū)分:①一般為切分單位,并標以詞性b,如女/b司機/n,金/b手鐲/n;②單音節(jié)區(qū)別詞和單音節(jié)名詞或名語素組合,作為一個切分單位,并標以名詞詞性n,如雄雞/n,雌象/n;③少數“單音節(jié)區(qū)別詞+雙音節(jié)詞”的結構作為一個詞收入了詞典,則不再切分??倳?n。與之不同,系統b把形容詞分為四類:性質形容詞aq、區(qū)別詞b、唯謂形容詞ap、狀態(tài)形容詞as;系統d則把區(qū)別詞從形容詞當中分割出來,將區(qū)別詞分為b區(qū)別詞、b1區(qū)別詞性慣用語,而且把狀態(tài)詞也從形容詞中分割出來并給予一個z作標記。

        從計算語言學的角度來看,這些對形容詞的分類都因太復雜而影響到了句法分析的效率。如何處理才能更適合進一步的句法分析呢?首先從語言本體的方面,針對這三類詞的不同性質特征,作一個比較,見表2:

        表2:三種形容詞的對比

        不難發(fā)現,盡管這三類詞的語法功能各不相同,但是,它們有一個唯一的共同點,即作名詞的定語。不同的分詞標準,服務于不同的研究目的。由于“區(qū)別詞的詞類本質是修飾,功能固定而單一”。較好地體現了形容詞性成分的功能,所以遵循著靈活的分類意見,本文建議將這三類詞歸并在一起。區(qū)別詞可以看作作定語的形容詞當中的一個小部分,狀態(tài)詞則或作謂語,或作補語,或作定語的形容詞中的一個小部分。

        在語言本體研究上應該把區(qū)別詞和形容詞作一個明確的區(qū)分,區(qū)分的理論價值不容否認。而“區(qū)別詞的詞類本質是修飾,功能固定而單一”。從工程的角度,即從語料庫的建設角度所采取的劃分則與之迥異。因為與語言本體或語言理論研究追求細致和完美的目的不同,語言工程更多是要求可行性和可操作性。

        四、結語

        在計算語言學中,語料庫的標注是進行一切研究的基礎,從語料庫工程建設的角度講,我們應堅持經濟省力原則,對于不必要的詞類標記建議能簡則簡。正如本文所述,在參考各家本體語言學研究的基礎上,對于兼類詞,除少數名詞活用之外,我們建議嚴格按功能區(qū)分詞性,將其劃到各個詞類之中;而區(qū)別詞、狀態(tài)詞,則建議不再和形容詞區(qū)分開來。標注方案的一致性不僅能節(jié)約資源,減少建設語料庫的資金投入,同時也能給我們的研究和應用帶來便利,為進一步開發(fā)語料庫奠定基礎。

        (本文為中國傳媒大學“211工程”三期重點學科建設項目,名稱為“漢語有聲媒體語言依存句法樹庫構建與應用研究”。)

        注 釋:

        ①A系統:北京大學現代漢語語料庫加工規(guī)范,《中文信息學報》,

        16卷第5期;B系統:國家語言文字應用研究所計算語言學研究室,信息處理用現代漢語詞類標記集規(guī)范,《語言文字應用》,2001年8月第3期;C系統:哈工大信息檢索研究室漢語依存樹庫;D系統:中科院計算所漢語詞性標記集。

        參考文獻:

        [1]郭銳.現代漢語詞類研究[M].北京:商務印書館,2002.

        [2]Liu,HaitaoHuang,Wei.A Chinese Dependency Syntax for Treebanking[M].Beijing:Tsinghua University Press,2006.

        [3]陸儉明.現代漢語語法研究教程[M].北京:北京大學出版社,2005.

        [4]黃昌寧,童翔.漢語真實文本的語義自動標注[J].語言文字應用,1993,(4).

        [5]俞士汶,段慧明,朱學峰,孫斌.北京大學現代漢語語料庫加工規(guī)范[J].中文信息學報,2002,(5).

        [6]北京大學中文系現代漢語教研室.現代漢語專題教程[M].北京:北京大學出版社,2003.

        (萬紅雅 劉丙麗 牛雅嫻 董藝 北京 中國傳媒大學應用語言學研究所 100024)

        免费人成视频在线观看视频| 亚洲精品1区2区在线观看| 少妇被粗大猛进进出出男女片| 激情久久黄色免费网站| 欧美丰满熟妇bbb久久久| 日日婷婷夜日日天干| 亚洲精品成人专区在线观看| 久久狠狠高潮亚洲精品暴力打| 国产在线看不卡一区二区| 在线观看日韩精品视频网站| 日本黄网色三级三级三级| 成人国产一区二区三区| 日韩人妻无码精品久久久不卡| 国产曰批免费视频播放免费s| 亚洲女同成av人片在线观看| 精品人妻中文字幕一区二区三区| 久草手机视频在线观看| 亚洲av无码一区东京热久久| 人妻丝袜无码国产一区| 日韩a∨精品日韩在线观看| 手机看片国产日韩| 午夜视频免费观看一区二区| 精品国产日产av在线| 开心久久婷婷综合中文字幕| 久久精品国产99国产精偷| a级毛片无码久久精品免费| 精品国产福利在线观看网址2022| 波多吉野一区二区三区av| 国产av精品久久一区二区| 日韩精品视频在线观看无| 性无码专区无码| 高清在线亚洲中文精品视频| 国产精品久久久久久久y| 日本本土精品午夜视频| 亚洲色偷偷综合亚洲avyp| 国产一区二区三区影院| 国产高清一级毛片在线看| 日韩中文字幕不卡在线| 三年片大全在线观看免费观看大全| 精品香蕉久久久爽爽| 国产成人美女AV|