亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        韓國語定語從句句法特征分析及其自動識別

        2018-04-16 07:24:18安帥飛畢玉德
        中文信息學(xué)報 2018年2期
        關(guān)鍵詞:韓國語復(fù)句自動識別

        安帥飛,畢玉德,張 婷

        (解放軍外國語學(xué)院,河南 洛陽 471003)

        0 引言

        當(dāng)前,語篇層面上的復(fù)句處理仍是機器翻譯等應(yīng)用系統(tǒng)面臨的難點之一,如何將復(fù)句自動離析為單句成為許多人研究的重點。吳鋒文[1]回顧了漢語復(fù)句二十年前的研究,概述了邢福義團隊的漢語復(fù)句信息工程、張仕仁[2]在復(fù)句“功能結(jié)構(gòu)樹”及胡金柱等[3]在復(fù)句關(guān)系詞提取等的研究工作。韓國語復(fù)句處理方面,劉洋等[4-5]利用連接詞尾對并列類復(fù)句進行“解構(gòu)化”處理,提出了對韓漢復(fù)句機器翻譯的改進建議,并有效地實現(xiàn)了接續(xù)復(fù)句的自動提取實驗。定語從句屬于嵌套類復(fù)句,本文從定語從句入手,重點分析如何從嵌套類復(fù)句自動離析出單句的問題。

        1 韓國語定語從句

        韓國語中,僅有一對主謂關(guān)系的句子稱為單句,有兩組或兩組以上主謂關(guān)系的句子稱為復(fù)句[7]。根據(jù)語言的遞歸性,復(fù)句又劃分為嵌套的包孕句與組合的接續(xù)句。韓國語句子分類體系如圖1所示[8]。

        圖1 韓國語句子分類體系圖

        其中,韓國語包孕句下屬的定語從句包孕句即為本文的研究對象*本文僅討論單句作定語從句的情況,暫不討論復(fù)句作定語(“”)和多重定語(“……”)問題。。

        2 韓國語定語從句句法特征及其形式化表示

        韓國語定語從句的基本構(gòu)成為:定語修飾成分、冠形詞形詞尾、被修飾的中心詞。可將其形式化為:AC→AM+ETM+Head*AC是定語從句(attributive clause)的簡寫;A是定語(attributive)的簡寫,M是modifiers修飾語的簡寫;ETM是冠形詞形詞尾在“韓國語21世紀世宗計劃”語料標(biāo)注體系的標(biāo)注形式。。

        根據(jù)定語修飾成分AM與中心詞Head的關(guān)系,可將定語從句分為關(guān)系定語從句和同位定語從句[9]。

        關(guān)系定語從句中,中心詞Head充當(dāng)定語修飾成分AM中的主語、賓語等句子成分。

        同位定語從句中,中心詞Head不作為AM的句子成分,與AM為同指關(guān)系。

        另外,分析定語修飾成分AM的內(nèi)部構(gòu)成,可將定語從句分為長定語從句和短定語從句。長定語從句中,定語修飾成分AM是整個句子。短定語從句中,定語修飾成分AM是主語、謂語、賓語、狀語等單句中的句子成分。所有的長定語從句均屬于同位定語從句[10]。

        綜上,定語從句的分類如圖2所示。

        圖2 定語從句分類圖

        按照動詞中心論觀點[11],根據(jù)定語修飾成分AM中謂詞的不同,本文將定語從句分為動詞類AM、形容詞類AM、系詞類AM定語從句分別進行說明。

        2.1 動詞類AM定語從句

        在語料觀察實驗中,利用WordSmith軟件的Concord功能,將關(guān)鍵詞設(shè)為ETM,共現(xiàn)詞設(shè)為VV,從處理結(jié)果中選取500句定語從句進行人工觀察分析,歸納總結(jié)動詞類AM定語從句的類型*形容詞類、系詞類AM定語從句的觀察實驗與此相同,下文不再贅述。。

        (1) 關(guān)系定語從句

        除動詞之外,動詞類AM中往往還含有主語、賓語、狀語等。根據(jù)語言學(xué)規(guī)律,結(jié)合在語料庫中歸納分析,關(guān)系定語從句的構(gòu)成可擴展為以下15種類型。

        ① 【主】+VV(+EP)+ETM+NP

        主語在語料中的標(biāo)記形式為:NP+主格助詞JKS。因此,該類定語從句的形式化表示為“【NP+JKS】+VV(+EP)+ETM+NP”。

        ② 【賓】+VV(+EP)+ETM+NP;

        賓語在語料中的標(biāo)記形式為:NP+賓格助詞JKO。因此,該類定語從句的形式化表示為“【NP+JKO】+VV(+EP)+ETM+NP”。

        ③ 【狀】+VV(+EP)+ETM+NP

        在定語修飾成分AM中,主語、賓語、狀語等會交叉出現(xiàn),且韓國語語序自由,各成分位置并不固定。各成分相互交叉,組合為以下形式。

        ④ 【主賓】+VV(+EP)+ETM+NP*受篇幅所限,組合類從句不再舉例說明。下同。

        在語料中體現(xiàn)為【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。

        ⑤ 【主狀】+VV(+EP)+ETM+NP

        在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

        ⑥ 【狀主】+VV(+EP)+ETM+NP

        在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。

        ⑦ 【賓主】+VV(+EP)+ETM+NP

        在語料中體現(xiàn)為【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。

        ⑧ 【賓狀】+VV(+EP)+ETM+NP

        在語料中體現(xiàn)為【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

        ⑨ 【狀賓】+VV(+EP)+ETM+NP

        在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。

        ⑩ 【主賓狀】+VV(+EP)+ETM+NP

        在語料中體現(xiàn)為【NP+JKS】+【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

        在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。

        在語料中體現(xiàn)為【NP+JKO】+【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

        在語料中體現(xiàn)為【NP+JKO】+【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。

        在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。

        在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。

        (2) 同位定語從句

        同位定語從句分為長定語從句和短定語從句。

        ② 短定語從句中,定語修飾成分AM中不含終結(jié)詞尾,中心詞Head與長定語從句相同,基本構(gòu)成為“VV(+EP)+ETM+NP”。短定語從句的AM、ETM構(gòu)成與關(guān)系定語相同,同樣可擴展出15種組合類型,不再詳述。

        2.2 形容詞類AM定語從句

        (1) 關(guān)系定語從句

        定語修飾成分AM中,除了基本的形容詞之外,往往還含有主語、狀語等。因此,關(guān)系定語從句的構(gòu)成可擴展為以下四種類型:

        ① 【主】+VA(+EP)+ETM+NP

        主語在語料中的標(biāo)記形式為“NP+主格助詞JKS”。因此,該類定語從句的形式化表示為“【NP+JKS】+VA(+EP)+ETM+NP”。

        ② 【狀】+VA(+EP)+ETM+NP

        ③ 【主狀】+VA(+EP)+ETM+NP

        該類結(jié)構(gòu)在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+VA(+EP)+ETM+NP。

        ④ 【狀主】+VA(+EP)+ETM+NP

        該類結(jié)構(gòu)在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+VA(+EP)+ETM+NP。

        (2) 同位定語從句

        同位定語從句分為長定語從句和短定語從句。

        ② 短定語從句中,定語修飾成分AM中不含終結(jié)詞尾,中心詞Head與長定語從句相同,基本構(gòu)成為“VA(+EP)+ETM+NP”。短定語從句的AM、ETM構(gòu)成與關(guān)系定語相同,同樣可擴展出四種組合類型,不再詳述。

        2.3 系詞類AM定語從句

        (1) 關(guān)系定語從句

        (2) 同位定語從句

        同位定語從句分為長定語從句和短定語從句。

        3 韓國語定語從句自動識別實驗

        實驗時,按照前述定語從句句法結(jié)構(gòu)特征,歸納分析其在語料中的左右邊界規(guī)則和內(nèi)部構(gòu)成間的共現(xiàn)關(guān)系規(guī)則,構(gòu)建定語從句識別規(guī)則集。根據(jù)識別規(guī)則集,對標(biāo)注語料進行匹配運算,自動識別出定語從句。在此過程中,分析錯誤的識別結(jié)果,迭代完善規(guī)則集,最終自動識別出定語從句。具體流程如圖3所示。

        圖3 韓國語定語從句自動識別實驗流程圖

        3.1 實驗語料及預(yù)處理

        本文所用語料共80萬句,來源于兩處:①韓國政府為推動韓文信息化發(fā)展,自1998年開始實施、2007年建成的“21世紀世宗計劃”標(biāo)注語料庫。該語料庫涵蓋新聞、小說、雜志等。本文從中選取了50萬句。②網(wǎng)站抓取、后期整理后,獲得政治、軍事、外交、安全、經(jīng)濟、科技等新聞?wù)Z句,利用UTagger分詞器(標(biāo)注體系與“21世紀世宗計劃”標(biāo)注語料相同)進行分詞處理,得到30萬句標(biāo)注語料。

        本文自動識別的對象是定語從句,其基本結(jié)構(gòu)為“謂詞+ETM+NP”。謂詞分為單一謂詞和復(fù)合謂詞,在所用的標(biāo)注語料中,單一動詞、形容詞被標(biāo)記為VV、VA,派生動詞、派生形容詞的標(biāo)記為“NNG -XSV、NNG -XSA”,合成動詞、合成形容詞的標(biāo)記為VV-EC-VV|VX、VA-EC-VA|VX。為方便后期處理,在實驗之初,使用正則表達式將復(fù)合動詞、復(fù)合形容詞的標(biāo)記形式統(tǒng)一替換為VV和VA。

        表1 慣用型詞表

        續(xù)表

        3.2 韓國語定語從句的識別規(guī)則

        定語從句的識別規(guī)則包含左右邊界規(guī)則和從句內(nèi)部結(jié)構(gòu)的共現(xiàn)關(guān)系規(guī)則。

        3.2.1韓國語定語從句的左右邊界規(guī)則

        根據(jù)第二節(jié)分析的定語從句句法結(jié)構(gòu)特征,觀察其在語料中的左右邊界特征表現(xiàn),并借此來界定定語從句。

        (1) 左邊界界定

        通過觀察語料及實驗迭代分析,發(fā)現(xiàn)定語從句的左邊界存在以下情況:

        ① 句子以定語從句開頭,左邊緊鄰詞不存在。

        ② 左邊界緊鄰詞為連接詞尾EC

        EC作為連接復(fù)句的標(biāo)志詞,可作為其后定語從句的左邊界。

        ③ 左邊界緊鄰詞為冠形詞形詞尾ETM

        該類定語從句含有雙(多)重定語,本文從基本單元入手,分層級解決嵌套問題。

        ④ 左邊界緊鄰詞為補助詞JX

        句中出現(xiàn)兩個主語,主句的主語出現(xiàn)在從句的主語前,充當(dāng)從句的左邊界。

        ⑤ 左邊界緊鄰詞為主格助詞JKS

        ⑥ 左邊界緊鄰詞為副詞格助詞JKB

        ⑦ 左邊界緊鄰詞為賓格助詞JKO

        ⑧ 左邊界緊鄰詞為逗號SP、括號SS、特殊符號SW等

        (2) 右邊界界定

        ① 關(guān)系定語從句的右邊界界定

        ② 同位定語從句的右邊界界定

        3.2.2韓國語定語從句內(nèi)部構(gòu)成的共現(xiàn)關(guān)系規(guī)則

        根據(jù)3.2.1中的左右邊界規(guī)則,得到了基本的定語從句,但對于含主語、狀語、賓語等修飾成分的句子,無法判斷主語等成分歸屬于主句還是從句。本文輔以定語從句內(nèi)部構(gòu)成間的共現(xiàn)關(guān)系規(guī)則解決這一問題。

        (1) 根據(jù)語言學(xué)特征,結(jié)合在語料中的觀察分析,得到確定的共現(xiàn)關(guān)系規(guī)則有四條:

        ② 根據(jù)左右邊界規(guī)則抽取出的成分中,如含有兩個主語(出現(xiàn)兩個JKS),前一個JKS標(biāo)識的主語歸屬于主句,后一個JKS標(biāo)識的主語歸屬于從句;

        ③ 根據(jù)左右邊界規(guī)則抽取出的成分,如是同位定語從句,主語、狀語、賓語等修飾成分歸屬于從句;

        (2) 對于無法確定歸屬的定語從句,計算內(nèi)部構(gòu)成成分間的共現(xiàn)頻率,根據(jù)頻率值來近似地估計各成分間的緊密關(guān)系,以判斷其歸屬。下面以判斷【NP+JKS】是否歸屬于形容詞類AM定語從句為例進行說明。

        在形容詞類AM定語從句中,首先找到主語成分【NP+JKS】,其出現(xiàn)在ETM前,將該NP賦值為a1,然后找到定語從句的中心詞,將該中心詞賦值為a2,將AM中的形容詞賦值為a3。計算并比較共現(xiàn)概率Count(a1,a3)/Count(a1)*Count(a3)與Count(a2,a3)/Count(a2)*Count(a3)。如果Count(a1,a3)/Count(a1)*Count(a3)的值大于Count(a2,a3)/Count(a2)*Count(a3),則認定主語成分【NP+JKS】與形容詞的結(jié)合緊密度高于被修飾的中心詞,【NP+JKS】歸屬于定語從句。反之,【NP+JKS】歸屬于主句。實驗時,為解決數(shù)據(jù)稀疏問題,本文采用了加一平滑,對每個統(tǒng)計項都進行了加一處理[15]。

        3.3 實驗結(jié)果及評測

        根據(jù)定語從句的識別規(guī)則集,對80萬實驗語料進行匹配運算,實現(xiàn)了定語從句的自動識別。將其中部分結(jié)果翻譯展示如表2所示。

        表2 定語從句自動識別實驗結(jié)果表

        為驗證規(guī)則的可行性,本文借助了廣泛應(yīng)用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的正確率(P值)、召回率(R值),以及二者的加權(quán)平均F值,用來評價實驗結(jié)果[16]。評測時,另外從新聞、小說、雜志三類語料中分別選取了500句進行實驗,然后將人工分析得到的結(jié)果與程序自動識別的結(jié)果相比較,結(jié)果如表3所示。

        表3 實驗結(jié)果比對表

        分別計算P、R、F的值結(jié)果如表4所示。

        表4 實驗評測結(jié)果表

        經(jīng)過比較分析,得到了實驗中錯誤識別的定語從句有以下三個類型。

        (1) 特殊符號(SW)導(dǎo)致的錯誤

        (3) 語料標(biāo)注錯誤

        4 總結(jié)與展望

        本文通過分析定語從句的句法結(jié)構(gòu)特征,對其左右邊界和內(nèi)部構(gòu)成成分的共現(xiàn)關(guān)系進行歸納總結(jié),構(gòu)建了定語從句識別規(guī)則集,實現(xiàn)了定語從句的自動識別。從嵌套類復(fù)句中自動離析出定語從句,為提高韓漢機器翻譯、信息檢索等應(yīng)用系統(tǒng)的效能打下了堅實的基礎(chǔ)。

        本文主要討論了單句作定語從句的情況,針對復(fù)句作定語及多重定語問題,以后將做進一步的分析研究。

        [1]吳鋒文.漢語復(fù)句信息處理研究二十年[J].中文信息學(xué)報,2015,29(1):13-18.

        [2]張仕仁.漢語復(fù)句的結(jié)構(gòu)分析[J].中文信息學(xué)報,1994,8(4):43-54.

        [3]胡金柱,舒江波,姚雙云,等.面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J].計算機工程與科學(xué),2009,37(10):90-93.

        [4]劉洋,畢玉德,李健.基于句法知識的復(fù)句解構(gòu)對韓漢復(fù)句機器翻譯改進芻議[J].洛陽師范學(xué)院學(xué)報,2017,36(2):49-53.

        [5]劉洋,畢玉德,李健.基于語言知識的韓國語復(fù)句自動識別策略及實現(xiàn)[J].東北亞外語研究,2017,17(2):42-49.

        [6]安帥飛,畢玉德.韓國語名詞短語結(jié)構(gòu)特征分析及自動提取[J].中文信息學(xué)報,2013,27(5):205-210.

        [7](韓)李翊燮.韓國語語法[M].郭一誠,譯.北京:世界圖書出版公司,2012:331.

        [9]張光軍,江波,李翊燮.韓國的語言[M].北京:北京大學(xué)出版社,2009:311-312.

        [11]畢玉德.現(xiàn)代韓國語動詞語義組合關(guān)系研究[M].北京:民族出版社,2005:27-28.

        [13]韋旭升,許東振.新編韓國語實用語法[M].北京:外語教學(xué)與研究出版社,2006:613-617.

        [14]李姬子,李鐘禧.韓國語助詞和詞尾詞典[M].張光軍,譯.北京:外語教學(xué)與研究出版社,2010.

        [15]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008:78-79.

        [16]馮志偉,胡鳳國.數(shù)理語言學(xué)[M].北京:商務(wù)印書館,2012:367.

        安帥飛(1991—),博士研究生,主要研究領(lǐng)域為自然語言處理、模塊識別。E-mail:anshuaifei2013@sina.cn

        畢玉德(1967—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理、韓國語句法語義學(xué)。E-mail:biyude@gmail.com

        張婷(1984—),博士研究生,主要研究領(lǐng)域為自然語言處理、領(lǐng)域本體構(gòu)建。E-mail:tinaam@sina.com

        猜你喜歡
        韓國語復(fù)句自動識別
        連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
        漢語復(fù)句學(xué)說的源流
        韓國語復(fù)句結(jié)構(gòu)的二分說
        韓國語不完全詞特征探析
        自動識別系統(tǒng)
        特別健康(2018年3期)2018-07-04 00:40:18
        金屬垃圾自動識別回收箱
        基于IEC61850的配網(wǎng)終端自動識別技術(shù)
        電測與儀表(2016年6期)2016-04-11 12:06:38
        韓國語教學(xué)中“-??”的話語功能分析
        針對TOPIK評分標(biāo)準(zhǔn)的韓國語寫作教育
        復(fù)句內(nèi)部不應(yīng)當(dāng)用句號
        爱我久久国产精品| 国产成人精品一区二区20p| 久久婷婷五月综合色丁香| 最近中文字幕视频完整版在线看 | 中文字幕第八页| 亚洲区1区3区4区中文字幕码| 日本亚洲中文字幕一区| 无码国产色欲xxxx视频| 六月丁香婷婷色狠狠久久| 中文字幕av无码一区二区三区电影| 日本免费一区二区精品| 一本色道无码不卡在线观看| 职场出轨的人妻中文字幕| 青青草在线成人免费视频| 成av人片一区二区久久| 精品熟女av中文字幕| 绝顶高潮合集videos| 天堂草原电视剧在线观看图片高清| 国产精品一区二区久久乐下载 | 人妻无码中文专区久久五月婷| 亚洲人成网站在线播放小说| 丰满老熟女性生活视频| 久久久中文久久久无码| 国产午夜福利短视频| 中日无码精品一区二区三区| 亚洲中文字幕精品久久吃奶| 日本大骚b视频在线| 亚洲肥老熟妇四十五十路在线| 中文字幕一二区中文字幕| 蜜臀av毛片一区二区三区| 精品无码久久久久久国产| 国产日韩欧美网站| 国产精品久久国产三级国| 中文有码亚洲制服av片| 亚洲欧美日韩人成在线播放| 精品亚洲少妇一区二区三区| 女主播啪啪大秀免费观看| av国产传媒精品免费| 丰满少妇被猛烈进入无码| 日本二区视频在线观看| 亚洲av综合国产av日韩|