亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于標(biāo)記隱現(xiàn)規(guī)則的復(fù)句層次關(guān)系識別?
        ——三句式二重有標(biāo)復(fù)句層次關(guān)系識別

        2018-04-26 11:57:31劉鳳嬌劉劍鋒翟宏森楊夢川
        計算機與數(shù)字工程 2018年4期
        關(guān)鍵詞:句法語義規(guī)則

        李 源 劉鳳嬌 劉劍鋒 翟宏森 楊夢川

        (華中師范大學(xué)計算機學(xué)院 武漢 430079)

        1 引言

        隨著信息化社會的發(fā)展,中文信息處理成為推動搜索引擎、人工智能等技術(shù)的重要工具,因此,大力研究中文信息處理技術(shù)的發(fā)展成為人們關(guān)注的焦點。在對復(fù)句進(jìn)行研究的過程中,分詞、詞性標(biāo)注等技術(shù)已經(jīng)相對成熟,極具代表性的是中科院的分詞系統(tǒng)ICTCLAS、哈工大與科大訊飛聯(lián)合推出的語言云平臺等。目前,國內(nèi)的研究重點是復(fù)句的語義、依存關(guān)系、層次關(guān)系等。如魯松、羅進(jìn)軍等對復(fù)句層次關(guān)系的探討,吳鋒文、舒江波、胡金柱等發(fā)表的基于規(guī)則的漢語復(fù)句層次關(guān)系自動識別研究,以及吳鋒文提出的三分句可識別關(guān)系詞隱現(xiàn)形式。這些對復(fù)句層次關(guān)系等方面的研究不僅能加深對復(fù)句內(nèi)部聯(lián)結(jié)規(guī)則的認(rèn)識,同時,對復(fù)句信息工程的縱深化發(fā)展也起到至關(guān)重要的推動作用[1]。

        本文的主要工作是借助哈工大的語言云平臺以及華中師范大學(xué)的CCCS語料庫,對三分句二重復(fù)句進(jìn)行分詞、詞性標(biāo)注以及復(fù)句內(nèi)標(biāo)記隱現(xiàn)模式進(jìn)行確定,從而通過構(gòu)建的標(biāo)記隱現(xiàn)規(guī)則庫獲得該復(fù)句的層次結(jié)構(gòu)。

        2 關(guān)系詞標(biāo)注對復(fù)句層次關(guān)系識別的限制

        2.1 關(guān)系詞

        復(fù)句關(guān)系詞是“復(fù)句中用來聯(lián)結(jié)分句標(biāo)明關(guān)系的詞語”(邢福義,2001:26)。它作為復(fù)句內(nèi)部關(guān)系的標(biāo)志,在復(fù)句中有著特殊的地位和作用。特別是,對有標(biāo)復(fù)句而言,關(guān)系詞語的正確提取、標(biāo)記和搭配是進(jìn)行復(fù)句層次劃分的重要依據(jù)[2~4],另外,關(guān)系詞語的類別也暗含了關(guān)系詞所在分句的語義類型。因此,在進(jìn)行三分句復(fù)句層次識別過程中可以利用復(fù)句關(guān)系詞語在句法和語義方面的標(biāo)志作用,將關(guān)系詞語的句法語義信息、搭配規(guī)則以及分句間的語義依存關(guān)系提供給計算機,讓計算機在這些信息的支持下來識別和判斷有標(biāo)復(fù)句的層次關(guān)系。通過關(guān)系詞庫的建立和關(guān)系詞的搭配規(guī)則的研究可以發(fā)現(xiàn),對于全標(biāo)復(fù)句,可以直接利用關(guān)系詞搭配規(guī)則進(jìn)行復(fù)句層次劃分。所以,在復(fù)句缺標(biāo)的情況下,可以想方設(shè)法將所缺標(biāo)記進(jìn)行有效補全進(jìn)而轉(zhuǎn)化為全標(biāo)復(fù)句,再進(jìn)行復(fù)句層次劃分。

        在對復(fù)句進(jìn)行層次關(guān)系的識別過程中,首先要對復(fù)句進(jìn)行預(yù)處理,包含分詞、詞性標(biāo)注、關(guān)系詞標(biāo)注、分句等;其中,關(guān)系詞的正確標(biāo)注和分句的正確獲取是有效識別有標(biāo)復(fù)句層次關(guān)系的重要依據(jù)。因此,在預(yù)處理過程中,關(guān)系詞的正確標(biāo)注是做好有標(biāo)復(fù)句層次關(guān)系識別的重要前提。

        2.2 關(guān)系詞標(biāo)注過程中的困難

        關(guān)系詞的正確標(biāo)注是提高復(fù)句層次劃分正確率的重要保障,然而,由于漢語表達(dá)方式的千變?nèi)f化以及復(fù)句的結(jié)構(gòu)多樣性,在使用計算機對復(fù)句的關(guān)系詞進(jìn)行標(biāo)注的過程中會面臨很多困難。目前,存在兩個最主要的問題:一是關(guān)系詞隱現(xiàn);二是偽關(guān)系詞的標(biāo)注[5]。

        例1、如果有人說小高已經(jīng)在喜歡她了,1)所以才會留下來。2)小高是死也不會承認(rèn)的。3)(古龍《英雄無淚》)

        例2、只/要一斤,多的不要。

        圖1 (例2)句法分析圖

        在例1中分句3)缺標(biāo)即關(guān)系詞隱現(xiàn),根據(jù)關(guān)系詞的搭配規(guī)則以及已有的語義信息可以在分句3)中添加關(guān)系詞“要不然”、“否則”等。通過哈工大語言云平臺對例2進(jìn)行詞性標(biāo)注和依存句法分析可以發(fā)現(xiàn),“只要”會出現(xiàn)分詞錯誤,因此導(dǎo)致計算機在關(guān)系詞標(biāo)注時將兩個詞“只”和“要”錯誤地標(biāo)注成關(guān)系詞“只要”。

        3 分句的獲取

        根據(jù)《漢語復(fù)句研究》(邢福義著)中對復(fù)句的定義可知,復(fù)句是分句的復(fù)合。復(fù)句與單句的本質(zhì)區(qū)別在于復(fù)句中的分句是相對獨立的,每個分句都有“句”的性質(zhì)和地位,每個分句都不做彼此的成分。因此,正確獲取分句也是保證正確進(jìn)行復(fù)句層次劃分的重要前提。通過對華中師范大學(xué)CCCS語料庫的觀察發(fā)現(xiàn),逗號、分號和冒號是常用的復(fù)句句中標(biāo)點符號。但是,冒號一般表示解釋、說明的意思,因此,在句子中具有統(tǒng)領(lǐng)作用,而分號在一般復(fù)句中也存在標(biāo)識層次的作用。所以,本文重點使用依存句法(COO依存關(guān)系)和句中標(biāo)點符號(逗號)來進(jìn)行分句的獲?。?~7]。

        3.1 依存句法

        依存語法是通過分析語言單位內(nèi)成分之間的依存關(guān)系來揭示其句法結(jié)構(gòu),該語法直接描述詞語之間的關(guān)系。每對詞之間構(gòu)成依存關(guān)系對,其中,依存對中的一個詞為核心,亦稱支配詞,另一個詞為依存詞,亦稱從屬詞,所有受支配的成分都是以某種依存關(guān)系從屬于其支配詞[8]。那么,直觀來講,依存句法就是分析識別句子中的“主謂賓”、“定狀補”這些語法成分,并分析各成分之間的關(guān)系[9]。

        計算語言學(xué)家Robinson總結(jié)了一組語法的4條公理:

        1)一個句子中只有一個獨立成分不依存于其他任何成分;2)句子的其他成分都必須依存于某一成分;3)任何一個成分都不能依存于兩個或兩個以上的其他成分;

        4)如果成分A直接依存于成分B,而成分C位于A和B之間,則C依存于A或者B,或者依存于A和B之間的某一成分[10]。

        3.2 基于依存句法和標(biāo)點符號(逗號)獲取分句

        在復(fù)句中,逗號是出現(xiàn)頻率最高的句中標(biāo)點符號(表示一句話沒有結(jié)束),所以在確定分句的過程中,可以根據(jù)句中逗號對有標(biāo)復(fù)句進(jìn)行初步的分句切割并編號。但是由于在漢語中,使用逗號分開的部分不一定都能單獨成為一個分句,它可能是其他分隔部分的句子成分,此時就不能夠進(jìn)行分句,因此單獨使用逗號劃分出分句是不準(zhǔn)確的[11]。

        例3、1986年,廠工會改選,由于肖醫(yī)生群眾基礎(chǔ)好,威信高,被選為廠工會主席?!堕L江日報》1989年02月10日02版次

        經(jīng)過哈工大語言云平臺對該有標(biāo)復(fù)句進(jìn)行依存句法分析,分析結(jié)果如下:

        根據(jù)圖2可以看出,例3通過逗號初步分句的結(jié)果是:1)1986年;2)廠工會改選;3)由于肖醫(yī)生群眾基礎(chǔ)好;4)威信高;5)被選為廠工會主席。但是經(jīng)過依存句法分析可以知道,1)、2)兩部分中所含的成分之間存在ADV關(guān)系(狀中結(jié)構(gòu)),并非COO關(guān)系(并列關(guān)系),因而不可以分句,即1)、2)同屬一個分句。3)、4)、5)三部分中的成分也沒有存在COO(并列關(guān)系),只有ADV關(guān)系,因此,3)、4)、5)同屬一個分句。而在2)中的“改選”和5)中的“選”存在COO關(guān)系,所以該復(fù)句由兩個分句構(gòu)成。雖然此處出現(xiàn)的是COO關(guān)系,但是并不意味是并列,該復(fù)句是一個因果類的復(fù)句。

        圖2 (例3)分析結(jié)果

        例4、當(dāng)時,除了皇帝,沒有人敢狩獵駱馬和穿著駱馬毛制的衣服,否則將受到死刑懲處?!堕L江日報》1988年11月15日04版次

        經(jīng)過哈工大語言云平臺對該有標(biāo)復(fù)句進(jìn)行依存句法分析,分析結(jié)果如下:

        根據(jù)逗號對例4進(jìn)行初步分句的結(jié)果是:1)當(dāng)時;2)除了皇帝;3)沒有人敢狩獵駱馬和穿著駱馬毛制的衣服;4)否則將受到死刑懲處。但是經(jīng)過依存句法分析可以知道,1)、2)、3)三部分存在的是ADV關(guān)系(狀中結(jié)構(gòu)),構(gòu)成依存關(guān)系,因而不可以分句,即1)、2)、3)同屬一個分句。4)和前面三個部分存在COO(并列關(guān)系),因此,4)單獨成為一個分句。同時,該復(fù)句是一個轉(zhuǎn)折類的復(fù)句。

        圖3 (例4)句法分析結(jié)果

        從3.2中的實驗結(jié)果可以看出,單純地用句中逗號進(jìn)行分句的獲取是不準(zhǔn)確的,所以在分句獲取的過程中可以借助依存關(guān)系進(jìn)行偽分句的去除。當(dāng)然,這種獲取分句的方式的正確率在很大程度上要取決于依存句法的正確分析。因此,在依存句法分析錯誤的情況下,為了提高分句獲取的正確率,保證后續(xù)復(fù)句層析分析的正確性,可以采取人工過濾偽分句。

        4 基于標(biāo)記隱現(xiàn)規(guī)則的三分句二重復(fù)句層次關(guān)系識別

        4.1 三分句二重有標(biāo)復(fù)句的兩種關(guān)聯(lián)模式

        通過對三分句的二重復(fù)句進(jìn)行研究發(fā)現(xiàn),由三個分句構(gòu)成的二重復(fù)句存在著兩種句法關(guān)聯(lián)模式,即1-2型關(guān)聯(lián)模式和2-1關(guān)聯(lián)模式,這兩種關(guān)聯(lián)模式如圖4、圖5所示[11]。

        圖5 2-1型

        從圖示中可以看出這兩種關(guān)聯(lián)模式在結(jié)構(gòu)上具有不同的組合順序,1-2型,是S2、S3兩個分句先進(jìn)行組合構(gòu)成一個層次,最后整體與S1構(gòu)成一個新的層次;2-1型是S1、S2兩個分句先進(jìn)行組合構(gòu)成一個層次,最后整體與S3構(gòu)成一個新的層次。

        4.2 三分句二重復(fù)句的標(biāo)記隱現(xiàn)模式

        對于一個給定的三分句有標(biāo)復(fù)句,它的標(biāo)記隱現(xiàn)模式是由各分句的標(biāo)記隱現(xiàn)情況共同組成。設(shè)三個分句的標(biāo)記形式分別為C1_TYPE、C2_TYPE、C3_TYPE,則整個復(fù)句的標(biāo)記隱現(xiàn)模式為(C1_TYPE ,C2_TYPE,C3_TYPE),其中這三者的值 可 為 kb、Ri_fore、Ri_back、Rj_fore、Rj_back、Ri_back+Rj_fore及Ri_fore+Rj_fore中的某一個。

        每個字段的含義如下:

        1)R:表示關(guān)系標(biāo)記(關(guān)系詞);

        2)i/j:表示關(guān)系詞的語義類別為S(i)或S(j);

        3)_:主要作用是將關(guān)系詞的語義類別和配位進(jìn)行分隔;

        4)fore/back:表示關(guān)系詞分別為前配位、后配位,即前呼標(biāo)或后應(yīng)標(biāo)。

        5)kb:與(1)~(4)不同時存在,表示該分句中不存在準(zhǔn)關(guān)系詞,即為空標(biāo)。

        如Ri_fore表示標(biāo)記R的語義類別為S(i),句法配位為X(fore)。kb表示此分句中標(biāo)記缺省,即空標(biāo)。

        如圖8所示為構(gòu)建的標(biāo)記隱現(xiàn)規(guī)則庫[12~13](部分?jǐn)?shù)據(jù)),其中C1_TYPE、C2_TYPE、C3_TYPE分別表示三個分句中的標(biāo)記隱現(xiàn)形式,RESULT_TYPE為對應(yīng)的復(fù)句層次結(jié)構(gòu)類型。

        圖6 三句式二重有標(biāo)復(fù)句的標(biāo)記隱現(xiàn)規(guī)則庫

        4.3 基于標(biāo)記隱現(xiàn)規(guī)則的復(fù)句層次結(jié)構(gòu)分析

        本文選取CCCS語料庫中1000條三分句有標(biāo)復(fù)句作為層次分析的測試用例,為了方便說明,本文列舉了充盈態(tài)1-2類型的三分句有標(biāo)復(fù)句、充盈態(tài)2-1類型的三分句有標(biāo)復(fù)句。對此進(jìn)行開放性測試,層次關(guān)系分析,得到的實驗結(jié)果如下所示。

        例5釣魚一坐就是幾個小時,既能增強體質(zhì),又能培養(yǎng)耐力。

        圖7 例5層次結(jié)構(gòu)類型結(jié)果

        例6“電熱褥”不僅能驅(qū)寒解乏,消除潮氣,而且還是理想的家用醫(yī)療器具。

        圖8 例6層次結(jié)構(gòu)分析結(jié)果

        表1 實驗結(jié)果

        5 結(jié)語

        漢語表達(dá)方式的千變?nèi)f化決定了復(fù)句層次關(guān)系的識別將是一個復(fù)雜的工程,而對復(fù)句的各種研究的落腳點都要歸于對復(fù)句內(nèi)關(guān)系詞的研究上去。復(fù)句內(nèi)標(biāo)記隱現(xiàn)模式的正確獲取是做好層次識別的關(guān)鍵。因此,復(fù)句的層次關(guān)系識別和復(fù)句的標(biāo)記是相輔相成的兩部分,對復(fù)句的層次關(guān)系的識別離不開對關(guān)系詞的正確標(biāo)注,在后續(xù)的研究過程中,要做好對復(fù)句中標(biāo)記隱現(xiàn)情況的研究。

        [1]吳鋒文.漢語復(fù)句信息處理研究二十年[J].中文信息學(xué)報,2015,29(1):13-18.WU Fengwen.The twenty years of Chinese language infor?mation processing research[J].Chinese information jour?nal,2015,29(1):13-18.

        [2]胡金柱,吳鋒文,李瓊,等.漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J].語言科學(xué),2010(2):133-142.HU Jinzhu,WU Fengwen,LI Qiong,et al.The construc?tion and use of Chinese sentence relationship[J].Lan?guage science,2010(2):133-142.

        [3]吳鋒文.基于關(guān)系標(biāo)記的漢語復(fù)句分類研究[J].漢語學(xué)報,2011(3):63-73,96.WU Fengwen.The classification of Chinese sentence based on relation markers[J].Journal of Chinese,2011(3):63-73,96.

        [4]胡金柱,舒江波,姚雙云,等.面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J].計算機工程與科學(xué),2009,31(10):90-93.HU Jinzhu,SHU Jin,YAO Shuangyun,et al.The reach of word extraction algorithm about Chinese information pro?cessing[J].computer engineering and science,2009,31(10):90-93.

        [5]吳鋒文.關(guān)系標(biāo)記對漢語復(fù)句層次關(guān)系識別的影響[J].渭南師范學(xué)院學(xué)報,2014,29(9):68-73.WU Fengwen.The relation markers'influence on the rec?ognition of compound sentences[J].Journal of Weinan Teachers University,2014,29(9):68-73.

        [6]秦存鋼.影響分句確認(rèn)的因素[J].泰安教育學(xué)院學(xué)報岱宗學(xué)刊,2002(3):36-40.QIN Cungang.The factors which affecting the confirming of clauses[J].Journal of Tai'an Institute of education Da?izong journal,2002(3):36-40.

        [7]朱文獻(xiàn).分號與復(fù)句的層次[J].閱讀與寫作,1998(4):29-30.ZHU Wenxian.Levels of compound sentences with a semi?colon[J].reading and writing,1998(4):29-30.

        [8]葉林沿.基于依存關(guān)系樹的復(fù)句句法特征自動選?。跠].武漢:華中師范大學(xué),2014.YE Linyan.The automatically select of sentence syntactic based on dependency relation'tree[D].Wuhan:Central China Normal University,2014.

        [9]袁文宜.依存語法概述[J].科技情報開發(fā)與經(jīng)濟,2010(18):152-154.YUAN Yi.Overview of dependency grammar[J].Science and technology information development and economy,2010(18):152-154.

        [10]石翠.依存句法分析研究綜述[J].智能計算機與應(yīng)用,2013,3(6):47-49.SHI Cui.Review of dependency parsing[J].Intelligent computer and application,2013,3(6):47-49.

        [11]劉劍鋒.基于搭配關(guān)系的有標(biāo)復(fù)句層次關(guān)系分析[D].武漢:華中師范大學(xué),2015.LIU Jianfeng.The hierarchy analysis based on colloca?tion tag compound sentence[D].Wuhan:Central China Normal University,2015.

        [12]吳鋒文.面向信息處理的“一標(biāo)三句式”復(fù)句層次關(guān)系判定[J].北方論叢,2012(1):64-68.WU Fengwen.The determination about relationship of layer for information processing“one standard of three clauses”[J].The North journal,2012(1):64-68.

        [13]吳鋒文.面向信息處理的“二標(biāo)三句式”復(fù)句層次關(guān)系判定[J].信陽師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版),2012,32(1):88-93.WU Fengwen.The determination about relationship of layer for information processing“two standards of three clauses”[J].Journal of Xinyang Normal University(Phi?losophy and Social Sciences Edition),2012,32(1):88-93.

        猜你喜歡
        句法語義規(guī)則
        撐竿跳規(guī)則的制定
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        數(shù)獨的規(guī)則和演變
        語言與語義
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        白色月光免费观看完整版| 精品少妇人妻av免费久久久| 国产日韩久久久精品影院首页| 人妻少妇精品视频一区二区三区| 亚洲一区二区三区视频免费看| 国模精品一区二区三区| 国产午夜视频在线观看| 国产av专区一区二区三区 | 精品国产亚洲一区二区在线3d| 国产一区二区三区亚洲精品| 亚洲精品中文字幕视频色| 亚洲乱亚洲乱妇| 性夜影院爽黄a爽在线看香蕉| 免费观看视频在线播放| 午夜福利视频一区二区二区| 亚洲婷婷五月综合狠狠爱| 久久婷婷色综合一区二区 | 国产太嫩了在线观看| 大地资源中文在线观看官网第二页 | 午夜视频一区二区三区播放| 国产免费爽爽视频在线观看| 天天爱天天做天天爽| 国产又粗又猛又黄色呦呦| 亚洲最大在线视频一区二区| 国产乱码精品一区二区三区四川人 | 不卡高清av手机在线观看| 一区二区三区国产亚洲网站| 午夜被窝精品国产亚洲av香蕉| 精品人妻va出轨中文字幕| 巨乳av夹蜜桃站台蜜桃机成人| 国产日产韩国级片网站| 少妇高潮无套内谢麻豆传| 国产精品video| 一本色道亚州综合久久精品| 国产精品成人观看视频国产奇米 | 国产一级av理论手机在线| 国产精品黄色片在线看| 亚洲∧v久久久无码精品| 国产永久免费高清在线观看视频| 久久中文字幕暴力一区| 国产亚洲2021成人乱码|