亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對(duì)答結(jié)構(gòu)的標(biāo)注與應(yīng)用研究
        ——以漢語(二語)教學(xué)會(huì)話體語料為例*

        2015-02-14 02:01:52楊麗姣徐麗芳北京師范大學(xué)中文信息處理研究所北京00875中國(guó)專利信息中心北京00088同方知網(wǎng)北京技術(shù)有限公司北京009
        關(guān)鍵詞:自動(dòng)識(shí)別二語語料

        楊麗姣, 熊 文, 徐麗芳(.北京師范大學(xué) 中文信息處理研究所,北京 00875;.中國(guó)專利信息中心,北京 00088;.同方知網(wǎng)(北京)技術(shù)有限公司,北京009)

        ?

        對(duì)答結(jié)構(gòu)的標(biāo)注與應(yīng)用研究
        ——以漢語(二語)教學(xué)會(huì)話體語料為例*

        楊麗姣1, 熊 文2, 徐麗芳3
        (1.北京師范大學(xué) 中文信息處理研究所,北京 100875;2.中國(guó)專利信息中心,北京 100088;3.同方知網(wǎng)(北京)技術(shù)有限公司,北京100192)

        研究針對(duì)漢語(二語)教學(xué)會(huì)話體語料語義功能的檢索需求,基于漢語國(guó)際教育動(dòng)態(tài)語料庫(kù),探討了一種語料庫(kù)語言信息標(biāo)注框架。圍繞日??谡Z交際的主要目的以及教學(xué)范圍,提出19類對(duì)答結(jié)構(gòu),刻畫了引發(fā)語與應(yīng)答語的基本形式。以此為基礎(chǔ),開展對(duì)答結(jié)構(gòu)的自動(dòng)識(shí)別算法研究,選取問候、感謝、祝賀、贊揚(yáng)、介紹5個(gè)類別進(jìn)行試驗(yàn),實(shí)驗(yàn)測(cè)試在準(zhǔn)確率和召回率上均取得較好的成績(jī)。對(duì)答結(jié)構(gòu)的標(biāo)注框架對(duì)于會(huì)話體語料相關(guān)表達(dá)式的抽取具有較好的適應(yīng)性,自動(dòng)識(shí)別算法可用于語言信息的自動(dòng)抽取以及語料庫(kù)擴(kuò)展應(yīng)用軟件研發(fā)等。

        漢語二語教學(xué);標(biāo)注框架;對(duì)答結(jié)構(gòu);語義功能;自動(dòng)識(shí)別

        一、引 言

        口語交際是二語教學(xué)的關(guān)鍵內(nèi)容。在教學(xué)上,人們不僅關(guān)心如何說(即語法)以及說什么(即詞匯)的問題,還關(guān)心怎樣得體地表達(dá)(即交際運(yùn)用)。程棠(1996)*程棠. 關(guān)于 “結(jié)構(gòu)—功能—文化相結(jié)合”的教學(xué)原則的思考[J]. 世界漢語教學(xué),1996,(4).提出,漢語(二語)教學(xué)的基本任務(wù)是培養(yǎng)外國(guó)學(xué)生用漢語進(jìn)行社會(huì)交際的能力,要獲得社會(huì)交際能力,除了掌握相當(dāng)?shù)脑~匯量、語法構(gòu)式外,學(xué)生要懂得在特定語境中如何正確而得體地使用漢語。*關(guān)于語境(Context)概念,一直以來,具有不同研究背景與研究目的的學(xué)者不斷給其下定義。大體而言,可以從兩個(gè)維度理解語境所包含的信息。從純語言學(xué)的維度出發(fā),語境信息指向言內(nèi),涉及與一個(gè)詞或句子的上下文有關(guān)的語言材料。從語用學(xué)或話語取向研究出發(fā),語言的理解要結(jié)合語言發(fā)生的情景,語境信息指向言外,這也就是所謂的言內(nèi)語境和言外語境之分。他們需要了解,中國(guó)人在一般日常交際場(chǎng)合下,如何根據(jù)不同交際目的選擇或調(diào)整會(huì)話內(nèi)容?比如,對(duì)于他人的夸獎(jiǎng),是以“哪里、哪里”式的自謙作為回應(yīng),還是以感謝、回贊等表達(dá)作為應(yīng)答。交際目的、交際場(chǎng)合、交際對(duì)象、交際心理等語境差異對(duì)于會(huì)話開始、結(jié)束時(shí)的語言表達(dá)往往形成了一些模式。這些模式在二語教學(xué)大綱中以功能項(xiàng)目列表的方式進(jìn)行解釋,但交際功能項(xiàng)目是對(duì)句子的語言表達(dá)功能的靜態(tài)抽取,在動(dòng)態(tài)的交際進(jìn)程中,如何根據(jù)對(duì)話的推進(jìn)或變化模式進(jìn)一步審視語言的表達(dá)功能?

        研究基于漢語(二語)教學(xué)會(huì)話體語料,梳理漢語二語教學(xué)大綱的基本交際功能項(xiàng)目,在會(huì)話進(jìn)程中描述對(duì)答結(jié)構(gòu)的內(nèi)涵,提出對(duì)答結(jié)構(gòu)的標(biāo)注框架,并抽取語言特征與識(shí)別模式,開展對(duì)答結(jié)構(gòu)自動(dòng)識(shí)別的實(shí)驗(yàn)研究。

        在自然語言處理研究中,詞義以及句法結(jié)構(gòu)語的標(biāo)注與自動(dòng)識(shí)別算法相對(duì)成熟,語用層面的研究較為薄弱,針對(duì)什么樣的目的和內(nèi)容,在什么單位上進(jìn)行語用信息的標(biāo)注與自動(dòng)識(shí)別,相關(guān)研究不多見。對(duì)答結(jié)構(gòu)的語義功能屬于語用層面的語言信息,是語境要素的構(gòu)成,本文的討論是對(duì)這方面研究的一個(gè)粗淺嘗試。

        在應(yīng)用上,對(duì)語義功能的標(biāo)注可以豐富語料庫(kù)語言信息的標(biāo)注層次,可供語料庫(kù)檢索與交際情景密切相關(guān)的各類語言表達(dá)以及關(guān)鍵詞。在語料達(dá)到相當(dāng)規(guī)模時(shí),還可以統(tǒng)計(jì)語義功能的出現(xiàn)頻率及多樣性,獲取更多研究數(shù)據(jù)。對(duì)答結(jié)構(gòu)的自動(dòng)切分以及自動(dòng)識(shí)別算法研究,也可用于語料自動(dòng)抽取,以及漢語(二語)教材編寫輔助系統(tǒng)、自主學(xué)習(xí)系統(tǒng)等語料庫(kù)擴(kuò)展應(yīng)用工程的研發(fā)。

        二、動(dòng)態(tài)語料庫(kù)概況

        研究的基礎(chǔ)是漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)(簡(jiǎn)稱動(dòng)態(tài)語料庫(kù))*漢語國(guó)際教育領(lǐng)域的語料庫(kù)建設(shè)一直集中于各類中介語語料庫(kù)。中介語語料庫(kù)關(guān)注學(xué)習(xí)者的語言使用信息,針對(duì)學(xué)習(xí)者語言應(yīng)用中的偏誤情況進(jìn)行標(biāo)注,內(nèi)容包括字、詞、句、篇各級(jí)單位中的各類錯(cuò)誤。要了解正確的、不同層次的語言信息,無論是學(xué)生和教師,可供選用的語料庫(kù)尚待研發(fā)。現(xiàn)有一些語料庫(kù)或數(shù)據(jù)庫(kù)以教材中典范的文本資源為語料采集對(duì)象,供用戶檢索的內(nèi)容僅僅是語料的字頻、詞頻以及句長(zhǎng)、教材背景等粗略的信息等。(可參看“全球漢語教材庫(kù)”(http://www.ctm-lib.com/);“國(guó)際漢語教學(xué)數(shù)據(jù)庫(kù)”(http://tpi.cie.muc.edu.cn/),該語料庫(kù)以經(jīng)典漢語(二語)教材為主要采集對(duì)象,收錄了國(guó)家漢辦發(fā)布的部分HSK考題文本語料。還收錄少量經(jīng)典中小學(xué)語文教材以及通用自然語料以供對(duì)比之用。經(jīng)過自動(dòng)分詞以及詞性校對(duì),目前入庫(kù)的句子數(shù)據(jù)庫(kù)接近20萬句。構(gòu)成比例見表1:

        表1 語料庫(kù)的語料構(gòu)成

        動(dòng)態(tài)語料庫(kù)由3個(gè)子庫(kù)組成:生語料庫(kù)、熟語料庫(kù)、元數(shù)據(jù)庫(kù)。

        生語料庫(kù)以句子的形式存儲(chǔ)所收集的全部語料。以教材語料為例,每個(gè)句子的屬性信息包括ID號(hào)、句子內(nèi)容、段落號(hào)、課文名、單元名以及教材名。在生語料庫(kù)中,可以通過ID找出句子的上下文、相關(guān)段落或語篇,因此,語言特征的抽取或語料標(biāo)注范圍可以跨越句子進(jìn)行。

        熟語料庫(kù)是在人工標(biāo)注與計(jì)算機(jī)輔助標(biāo)注基礎(chǔ)上,再經(jīng)人工校對(duì)的語料。用戶可以根據(jù)需要,檢索詞義、句法語義綜合信息以及語用層面的相關(guān)語言信息。

        元數(shù)據(jù)庫(kù)以教材為例,屬性信息包括書名、責(zé)任者、出版時(shí)間、出版社、適用對(duì)象、適用水平、教材類型。

        漢語(二語)經(jīng)典教材語料是語料庫(kù)的核心組成,語料采集考慮教材類型、適用水平、出版年代、影響因子等屬性特征。從教材類型上說,以通用型、綜合類教材為主,這類教材多采用書面化的口語,反映漢語(二語)教學(xué)典范的語言形式。此外,也補(bǔ)充以聽、說、讀、寫單項(xiàng)技能訓(xùn)練為主要目標(biāo)的教材以及少量專門用途教材(如醫(yī)用漢語教材、商務(wù)漢語教材)、文化教材等以反映特定領(lǐng)域的教材用語面貌。

        漢語(二語)教學(xué)在2000年前后進(jìn)入發(fā)展的快速通道,相應(yīng)地,漢語(二語)教材數(shù)量激增。動(dòng)態(tài)語料庫(kù)以2000年以后的教材為主,并收錄少量20世紀(jì)60年代至20世紀(jì)90年代的經(jīng)典教材,以供歷時(shí)考察比較的需要。

        動(dòng)態(tài)語料庫(kù)建設(shè)面向漢語(二語)教學(xué)與研究的信息檢索需求,結(jié)合計(jì)算機(jī)語言信息自動(dòng)識(shí)別的探索,設(shè)定標(biāo)注框架。標(biāo)注體系分為詞義標(biāo)注、句法語義綜合標(biāo)注、語境信息標(biāo)注三個(gè)層次。對(duì)答結(jié)構(gòu)的語義功能是語境信息標(biāo)注的重要內(nèi)容。一般而言,語料標(biāo)注的過程也就是是對(duì)語料中語言單位的特征進(jìn)行解釋的過程,不同的人可能會(huì)有不同的解釋結(jié)果。(崔剛等,2000)*崔剛,盛永梅.語料庫(kù)中語料的標(biāo)注[J]. 清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2000,(1).對(duì)答結(jié)構(gòu)語義功能的標(biāo)注針對(duì)動(dòng)態(tài)語料庫(kù)中的會(huì)話體語料進(jìn)行,抽取交際進(jìn)程過程中反映特定交際目的,體現(xiàn)話語交際合作原則、禮貌原則等基本原則的句子。

        三、對(duì)答結(jié)構(gòu)的內(nèi)涵及標(biāo)注內(nèi)容

        (一)對(duì)答結(jié)構(gòu)的內(nèi)涵與邊界

        要實(shí)現(xiàn)對(duì)答結(jié)構(gòu)的標(biāo)注與自動(dòng)識(shí)別,首先要研究會(huì)話的單位,明確對(duì)答結(jié)構(gòu)的語言范圍。對(duì)答結(jié)構(gòu)研究是會(huì)話研究的子課題。早期進(jìn)行會(huì)話研究的美國(guó)學(xué)者Sacks、Schegloff和Jefferson提出過話輪、鄰近對(duì)和序列等概念,俄羅斯語言學(xué)家雅庫(kù)賓斯基提出了“對(duì)語”這一概念。他認(rèn)為“言語交際的對(duì)話形式是指相互作用的個(gè)人行動(dòng)和反應(yīng)的相對(duì)迅速的交替”,每一次交替就是一個(gè)對(duì)語。*徐翁宇.俄語對(duì)話分析[M]. 北京:外語教學(xué)與研究出版社,2008:27~28.實(shí)際上,大多數(shù)學(xué)者都傾向?qū)⑴彂?yīng)對(duì)當(dāng)作會(huì)話的基本單位,它由兩個(gè)前后相鄰的話輪構(gòu)成,兩個(gè)話輪要由不同的參與者說出,第一個(gè)話輪要求有特定的第二個(gè)話輪與它相配,比如提問—回答。在漢語(二語)教學(xué)領(lǐng)域,劉虹(2004)描寫了領(lǐng)域內(nèi)對(duì)答結(jié)構(gòu)的基本面貌。*劉虹.會(huì)話結(jié)構(gòu)分析[M]. 北京:北京大學(xué)出版社, 2004:103~140.在本研究中,對(duì)答結(jié)構(gòu)是指以會(huì)話體語料為標(biāo)注對(duì)象的,主要由鄰近對(duì)構(gòu)成、展現(xiàn)了基本交際功能的語言表達(dá)框架,如問候、介紹、歡迎、建議及其不同的回應(yīng)。有時(shí),對(duì)答結(jié)構(gòu)也會(huì)跨越一個(gè)鄰近對(duì),由兩組以上不同話輪構(gòu)成的連續(xù)語句構(gòu)成。例如:

        醫(yī)生:你哪兒不舒服?

        病人:我全身都不舒服。

        醫(yī)生:全身都不舒服?說具體一點(diǎn)。

        病人:沒胃口,吃不下。

        上例中醫(yī)生的引發(fā)語是詢問“結(jié)果或情況”,病人作了說明性回應(yīng),接下來醫(yī)生繼續(xù)追問,病人進(jìn)一步作說明性回應(yīng)。對(duì)話的前兩個(gè)話輪和后兩個(gè)話輪,在作對(duì)答結(jié)構(gòu)自動(dòng)切分時(shí),容易被處理為兩個(gè)單位,因?yàn)樗鼈冊(cè)诮Y(jié)構(gòu)上是完整的,都包括引發(fā)語和應(yīng)答語,在語義上也是完整的,都有詢問和結(jié)果。但在上下文語境中,后一組對(duì)話與前一組關(guān)系密切,推進(jìn)了前一組對(duì)話引發(fā)的話題。理想的狀態(tài)是將4個(gè)話輪切分為一個(gè)對(duì)答結(jié)構(gòu),統(tǒng)一標(biāo)注其語義功能:詢問“結(jié)果/情況”(引發(fā)語)——說明性回應(yīng)(應(yīng)答語)。在處理這類對(duì)答結(jié)構(gòu)時(shí),要重點(diǎn)考慮句子的常規(guī)焦點(diǎn)在話輪中的復(fù)現(xiàn),以此作為跨越鄰近對(duì)的對(duì)答結(jié)構(gòu)自動(dòng)切分的重要激活因子。

        對(duì)答結(jié)構(gòu)的特點(diǎn)可以歸納為:

        (1)由兩個(gè)或兩個(gè)以上分屬不同話輪的連續(xù)語句構(gòu)成。

        (2)這些連續(xù)語句分別由兩個(gè)或兩個(gè)以上的人說出。

        (3)連續(xù)語句中的引發(fā)語和應(yīng)答語相互關(guān)聯(lián),引發(fā)語對(duì)應(yīng)答語的生成和選擇有一定的制約。

        這些對(duì)答結(jié)構(gòu)又可分為毗鄰雙部式和毗鄰多部式。毗鄰雙部式由相鄰的引發(fā)語和應(yīng)答語兩個(gè)部分構(gòu)成,是對(duì)答結(jié)構(gòu)的基本形式。毗鄰多部式對(duì)答由分屬不同話輪的兩個(gè)以上的相鄰語句構(gòu)成的,結(jié)構(gòu)中部分話輪兼有上一部分應(yīng)答語的功能和下一部分引發(fā)語的功能,起到了承上啟下的作用。

        (二)對(duì)答結(jié)構(gòu)的標(biāo)注內(nèi)容

        根據(jù)國(guó)家漢辦《高等學(xué)校外國(guó)留學(xué)生漢語言專業(yè)教學(xué)大綱》功能項(xiàng)目列表以及漢語(二語)教學(xué)會(huì)話研究成果,研究初步確定對(duì)答結(jié)構(gòu)的標(biāo)注框架,然后在一定范圍進(jìn)行語料試標(biāo),檢驗(yàn)框架的適應(yīng)性。*國(guó)家對(duì)外漢語教學(xué)領(lǐng)導(dǎo)小組辦公室. “高等學(xué)校外國(guó)留學(xué)生漢語言專業(yè)教學(xué)大綱”附表四,功能項(xiàng)目表[S]北京:北京語言文化大學(xué)出版社,2002.根據(jù)標(biāo)注反饋,區(qū)分19種核心的對(duì)答結(jié)構(gòu),其引發(fā)語分別是:?jiǎn)柡?寒暄、介紹、歡迎、告別、建議/商量、邀請(qǐng)、請(qǐng)求、要求、感謝、贊揚(yáng)、祝賀、祝愿、責(zé)怪、通知/轉(zhuǎn)告、提醒/警告、道歉、抱怨、詢問。而這些引發(fā)語的對(duì)答語各不相同,見表2示例。

        表2 對(duì)答結(jié)構(gòu)的標(biāo)注框架

        TX提醒/警告JSH接受A:小心點(diǎn),到別的地方去玩。(提醒/警告)B:好。(接受)GX感謝B:好的,謝謝。(感謝)BJ辯解B:沒關(guān)系的。(辯解)FD反對(duì)B:我們就要在這里玩兒。(反對(duì))DQ道歉HY回應(yīng)A:實(shí)在抱歉。(道歉)B:沒關(guān)系。(回應(yīng))AW安慰/寬慰B:沒事兒,別著急。(安慰/寬慰)ZB責(zé)備B:你做得太過分了。(責(zé)備)BY抱怨DQ道歉A:怎么又壞了!(抱怨)B:對(duì)不起。(道歉)FH附和B:就是,太討厭了。(附和)FY敷衍/婉拒B:就這樣用一用吧。(敷衍/婉拒)AW安慰/寬慰B:沒關(guān)系的,別管它。(安慰/寬慰)FD反對(duì)B:沒壞啊。(反對(duì))ZG責(zé)怪DQ道歉A:怎么搞的!(責(zé)怪)B:對(duì)不起。(道歉)BJ辯解B:我也不知道怎么回事。(辯解)FD反對(duì)B:沒關(guān)系,不要大驚小怪。(反對(duì))TZH通知/轉(zhuǎn)告HY回應(yīng)A:明天早上八點(diǎn)開會(huì)。(通知/轉(zhuǎn)告)B:好的,謝謝。(回應(yīng))GX感謝B:差點(diǎn)忘了,多謝提醒。(感謝)XW詢問SHM說明/描寫A:你多大了?B:我5歲。(說明)A:你現(xiàn)在在哪里?B:我在學(xué)校門口。(說明)A:你住哪一個(gè)房間?B:我住302房間(說明)A:這是什么顏色的?B:這是紅色的。(說明)A:咱們?cè)趺慈ツ?B:咱們打的去。(說明)A:你為什么來晚了?B:路上真是太堵了。(描寫)PJ評(píng)價(jià)A:你覺得東西怎么樣?B:我覺得特別好。(評(píng)價(jià))PD判斷/推斷/估計(jì)A:他要干什么呢?B:不太清楚。(判斷/推斷/估計(jì))A:他怎么了?B:我估計(jì)他還在生你的氣。(判斷/推斷/估計(jì))(詢問范圍包括:個(gè)人信息、方位處所、數(shù)量號(hào)碼、性狀、方式、原因、目的、意見看法、結(jié)果等。)HY懷疑HY回應(yīng)A:你難道不知道這件事情的重要性?B:對(duì)不起,我錯(cuò)了。(回應(yīng))FD反對(duì)A:你是開玩笑騙我吧?B:怎么會(huì)呢?(反對(duì))FH附和A:他不可能這樣做吧?B:我想不會(huì)。(附和)

        在標(biāo)注實(shí)踐中,引發(fā)語或應(yīng)答語最多可以標(biāo)注兩個(gè)語義功能項(xiàng)目。比如“你真是太棒了,謝謝!”既表達(dá)贊揚(yáng),也表示感謝,二者均需標(biāo)注出來。

        明確對(duì)答結(jié)構(gòu)的邊界特征以及“引發(fā)語—應(yīng)答語”的構(gòu)成類型,為對(duì)答結(jié)構(gòu)的自動(dòng)識(shí)別算法奠定了基礎(chǔ)。對(duì)答結(jié)構(gòu)的自動(dòng)識(shí)別算法可用于在更大的范圍內(nèi)檢索同類語料,實(shí)現(xiàn)漢語國(guó)際教育語料庫(kù)檢索信息的動(dòng)態(tài)更新。

        四、對(duì)答結(jié)構(gòu)的自動(dòng)識(shí)別算法及實(shí)驗(yàn)

        會(huì)話體和敘述體是漢語(二語)教材的基本語體。此前的研究針對(duì)敘述體語料提出了話題標(biāo)注框架以及自動(dòng)識(shí)別話題的算法(楊麗姣、熊文,2014)*Lijiao Yang,Wen Xiong. Topics Tagging and Automatice Identification of TCSL corpus, 2013 Asian Conference on the Social Sciences(ACSS 2013)[A].Singapore:先進(jìn)社會(huì)與行為科學(xué)(ISSN:2339-5133),2014,(4).。針對(duì)會(huì)話體語料,研究提出對(duì)答結(jié)構(gòu)語義功能的標(biāo)注體系以及如下基于規(guī)則的、上下文相關(guān)的語義功能自動(dòng)識(shí)別算法。

        具體算法如下:

        1.加載n條自動(dòng)識(shí)別規(guī)則

        2.加載語義特征知識(shí)庫(kù)

        3.對(duì)輸入的m條會(huì)話體對(duì)答句進(jìn)行分詞和語義特征項(xiàng)加載

        4.對(duì)內(nèi)存中的每一條規(guī)則rule[i],i=0,...,n

        (1)對(duì)會(huì)話體對(duì)答句中的每一句sentence[j],j=0,...,m,判別所屬的類別category[j]

        (2)累加所有句子的類別,取出現(xiàn)次數(shù)最多的類別作為最終的類別

        下面,本文以類別“邀請(qǐng)”(代碼為YQ)為例,給出自動(dòng)識(shí)別規(guī)則:

        YQ=[YQ1]+{JSH}+{FY}+{SHY}+{JJ}

        YQ1={時(shí)間詞}+[到|來]+[語氣詞]+<。>

        JSH=<好>+[語氣詞|的]+<。>

        FY={代詞}+[<有>+<事>|<忙>]+<。>

        SHY={時(shí)間詞}+[怎么樣]+<。>

        JJ=<謝謝>+<時(shí)間詞>+<吧>+<。>

        上述算法中,符號(hào)“[ ]”表示其中內(nèi)容至少出現(xiàn)一次,符號(hào)“{ }”表示其中內(nèi)容出現(xiàn)零次到多次,符號(hào)“< >”表示其中內(nèi)容只出現(xiàn)一次,符號(hào)“+”表示中間可出現(xiàn)其他詞語。

        本文采用了前向最大分詞算法對(duì)句子進(jìn)行分詞,同時(shí)根據(jù)知識(shí)庫(kù)中的詞條所對(duì)應(yīng)的語義項(xiàng),給每個(gè)分詞單位一個(gè)或多個(gè)詞性。以下以“邀請(qǐng)”對(duì)答結(jié)構(gòu)為例,介紹具體的處理過程。其過程如下:

        1.輸入內(nèi)容為:

        A:明天到我家來玩兒吧。

        B:我明天下午有事。謝謝,下次吧。

        (其中,A:表示說話者甲,B:表示說話者乙)

        2.分詞和語義特征加載,內(nèi)容為:

        A:明天<時(shí)間詞/>到我<代詞/>家來玩兒吧<語氣詞/>。

        B:我<代詞/>明天<時(shí)間詞/>下午<時(shí)間詞/>有事。謝謝,下次<時(shí)間詞/>吧<語氣詞/>。

        3.規(guī)則匹配過程:

        A:明天<時(shí)間詞/>到我<代詞/>家來玩兒吧<語氣詞/>。

        根據(jù)“時(shí)間”、“到”、“來”、“吧”,匹配上規(guī)則“邀請(qǐng)”,代碼為YQ1。

        B:我明天<時(shí)間詞/>下午<時(shí)間詞/>有事。

        根據(jù)“我<代詞/>”、“有+事+?!?,匹配上“敷衍/婉拒”規(guī)則,代碼為FY。

        謝謝,下次<時(shí)間詞/>吧<語氣詞/>。

        根據(jù)“謝謝”、“時(shí)間+吧+?!?,匹配上“拒絕”規(guī)則,代碼為JJ。

        由于上面3句匹配上了“邀請(qǐng)”的規(guī)則,這3句被識(shí)別為“邀請(qǐng)”的對(duì)答結(jié)構(gòu)。根據(jù)它們匹配的不同規(guī)則A被輸出YQ,表明其是邀請(qǐng)的引發(fā)語。B的第一句被標(biāo)為FY,第二句被標(biāo)為JJ,表明B的應(yīng)答是敷衍和拒絕。算法中規(guī)則是判斷的關(guān)鍵,只要匹配上規(guī)則就可以判斷句子是屬于哪種對(duì)答結(jié)構(gòu)。

        為驗(yàn)證算法的有效性,研究從18種對(duì)答結(jié)構(gòu)框架中選取問候、介紹、感謝、祝賀、贊揚(yáng)5種作為測(cè)試對(duì)象,并隨機(jī)抽取漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)中5000個(gè)句子為測(cè)試語料。

        測(cè)試對(duì)象的選擇主要考慮以下因素:第一,常用性。即該對(duì)答結(jié)構(gòu)與留學(xué)生的學(xué)習(xí)生活息息相關(guān),使用頻率高;第二,差異性。由于文化的差異帶來交流溝通方式以及言語表達(dá)的差異,在測(cè)試對(duì)象中具有較好的體現(xiàn);第三,可行性。研究首選有語言規(guī)律可循、易結(jié)合具體算法實(shí)現(xiàn)較大范圍自動(dòng)識(shí)別的對(duì)象展開研究。

        具體步驟如下:第一,對(duì)5000句語料進(jìn)行人工標(biāo)注,將其中的問候、介紹、感謝、祝賀、贊揚(yáng)對(duì)答結(jié)構(gòu)標(biāo)注出來,做好記錄并將其作為參考答案;第二,用自動(dòng)識(shí)別算法對(duì)測(cè)試語料進(jìn)行識(shí)別與標(biāo)注;第三,將自動(dòng)識(shí)別與標(biāo)注的結(jié)果與人工標(biāo)記的結(jié)果作對(duì)照,記錄識(shí)別的數(shù)量、正確識(shí)別數(shù)量。根據(jù)公式1與公式2計(jì)算識(shí)別的正確率與召回率。

        公式1:正確率=正確識(shí)別數(shù)/識(shí)別數(shù)

        公式2:召回率=正確識(shí)別數(shù)/應(yīng)識(shí)別數(shù)

        5000句的實(shí)驗(yàn)結(jié)果如下表所示:

        表2 實(shí)驗(yàn)數(shù)據(jù)

        從最終的測(cè)試結(jié)果來看,問候、感謝、祝賀、贊揚(yáng)這4種對(duì)答結(jié)構(gòu)自動(dòng)識(shí)別的正確率都達(dá)到80%,召回率都達(dá)到70%以上,效果較好。而介紹類對(duì)答結(jié)構(gòu)識(shí)別率偏低,這與該類結(jié)構(gòu)中的核心表達(dá)式語義功能的泛化有較大關(guān)聯(lián)(如“是”字句)??傮w而言,研究提出的算法對(duì)這五類對(duì)答結(jié)構(gòu)的自動(dòng)識(shí)別有較好的適應(yīng)能力和處理效果。由于試驗(yàn)的基礎(chǔ)語料數(shù)量較少,未來有相當(dāng)?shù)目臻g可以擴(kuò)充語料,改進(jìn)知識(shí)庫(kù),細(xì)化規(guī)則,進(jìn)一步提高自動(dòng)識(shí)別成績(jī)。

        五、應(yīng)用分析

        研究利用漢語(二語)教材會(huì)話體語料,分析日常交際情境下的主要會(huì)話模式,描述了18類對(duì)答結(jié)構(gòu)的語言框架,選擇其中的5個(gè)類別,在對(duì)答結(jié)構(gòu)自動(dòng)切分基礎(chǔ)上開展語義功能的自動(dòng)識(shí)別算法試驗(yàn),檢測(cè)結(jié)果表明相關(guān)算法的有效性。

        研究是利用語料庫(kù)語言信息,提升數(shù)字化漢語(二語)教學(xué)水平的一種嘗試??v觀目前已經(jīng)建成并有限度開放的大型漢語語料庫(kù),如CCL語料庫(kù)、國(guó)家語委語料庫(kù)等,這些語料庫(kù)主要為用戶提供目標(biāo)字詞的檢索功能,服務(wù)于語言學(xué)學(xué)術(shù)研究、詞典編撰以及語言信息處理。要滿足漢語(二語)教師對(duì)語言信息的多層次、細(xì)化的需求,就需要思考語料庫(kù)語言信息的標(biāo)注層次與標(biāo)注框架,建設(shè)專門用途語料庫(kù)或?qū)ΜF(xiàn)有語料庫(kù)資源進(jìn)行深度挖掘,并結(jié)合自然語言處理自動(dòng)算法研究,面向漢語(二語)教學(xué)活動(dòng)、教材編寫、自主學(xué)習(xí)等領(lǐng)域需求,搭建語言信息綜合檢索以及應(yīng)用研發(fā)平臺(tái)。當(dāng)前,利用語料庫(kù)語言資源開發(fā)漢語(二語)教學(xué)資源平臺(tái)的研究方興未艾*林進(jìn)展等.數(shù)據(jù)驅(qū)動(dòng)(Data driving)漢語(二語)學(xué)習(xí)應(yīng)用平臺(tái)的研發(fā),數(shù)字化漢語教學(xué)[A].北京:清華大學(xué)出版社,2014.。

        對(duì)答結(jié)構(gòu)的標(biāo)注與自動(dòng)識(shí)別,主要服務(wù)于漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)語言信息的多維標(biāo)注、自動(dòng)抽取以及語料庫(kù)擴(kuò)展應(yīng)用系統(tǒng)研發(fā)等,但不僅限于此。概括如下:

        (1)對(duì)答結(jié)構(gòu)的標(biāo)注框架是對(duì)日常交際中發(fā)話與應(yīng)答基本模式的概括,為漢語(二語)教材編寫或教學(xué)活動(dòng)中的功能項(xiàng)目表達(dá)式提供了新的框架。在標(biāo)注框架下抽取關(guān)鍵詞及常用表達(dá)式的特征,可細(xì)化現(xiàn)有教學(xué)大綱中的功能項(xiàng)目說明。

        (2)對(duì)答結(jié)構(gòu)的標(biāo)注框架,可用于計(jì)算一定規(guī)模語料庫(kù)中,語言表達(dá)式與交際對(duì)象、交際場(chǎng)合、典型情景之間的適應(yīng)關(guān)系。比如“問候—回應(yīng)”結(jié)構(gòu),區(qū)分不同對(duì)象,熟人與陌生人、長(zhǎng)輩與平輩;區(qū)分不同場(chǎng)合,正式與非正式場(chǎng)合;區(qū)分不同情景,節(jié)日情景、人際關(guān)懷情景等,在不同語境條件下,其互動(dòng)模式有何特點(diǎn)。相關(guān)數(shù)據(jù)不僅是二語教學(xué)所關(guān)心的,也可作為話語分析研究的內(nèi)容。

        (3)“感謝”等5類對(duì)答結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果,將為全面的對(duì)答結(jié)構(gòu)語義功能自動(dòng)識(shí)別算法的研究提供基礎(chǔ)數(shù)據(jù)。

        (4)對(duì)答結(jié)構(gòu)的自動(dòng)切分以及自動(dòng)識(shí)別可以服務(wù)于漢語國(guó)際教育動(dòng)態(tài)語料庫(kù)語言信息的動(dòng)態(tài)更新,語料庫(kù)擴(kuò)展應(yīng)用如教材編寫輔助系統(tǒng)、自主學(xué)習(xí)系統(tǒng)等軟件研發(fā)。

        [責(zé)任編輯:張黎玲]

        A tagging frame of the question-answer structure and its application: A study of the TCSL conversation corpus

        YANG Li-jiao1, XIONG Wen2& XU li-fang3
        (1. Institute of Chinese Information Processing,Beijing Normal University,Beijing 100875, China; 2. Chinese Patent Information Center, Beijing 100088, China; 3. TTKN, Beijing 100192, China)

        With a consideration of the retrieval requirement of the semantic functions for the conversation style in the dynamic corpus of the international Chinese education, this paper explores a tagging frame for the corpus-based language information. Focusing on the major goals in daily conversations and the relevant teaching domains, this frame brings up nineteen categories of question-answer structures and describes the basic forms of questions and answers. With this, it discusses an automatic recognition algorithm for the question-answer structures by selecting five categories such as greeting, thanking, congratulating, praising, and introduction as the research objects. The results show that it is fairly satisfactory in terms of accuracy and recall rate as well as applicable in the automatic retrieval of the language information and related studies.

        Teaching Chinese as Secondary Language; tagging frame; question-answer structure; semantic function; automatic recognition

        國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)“海量文本多層次知識(shí)表示及中文文本理解應(yīng)用系統(tǒng)研制”(2012AA011104)。

        楊麗姣,女,白族,云南個(gè)舊人,北京師范大學(xué)副教授,博士,研究方向?yàn)闈h語國(guó)際教育、語料庫(kù)語言學(xué)研究。

        H195

        A

        1672-1306(2015)03-0045-08

        猜你喜歡
        自動(dòng)識(shí)別二語語料
        自動(dòng)識(shí)別系統(tǒng)
        特別健康(2018年3期)2018-07-04 00:40:18
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        金屬垃圾自動(dòng)識(shí)別回收箱
        《教學(xué)二語習(xí)得簡(jiǎn)介》述評(píng)
        基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
        Ferris與Truscott二語寫作語法糾錯(cuò)之爭(zhēng)
        國(guó)內(nèi)二語寫作書面糾正性反饋研究述評(píng)
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        二語習(xí)得中母語正遷移的作用分析
        《苗防備覽》中的湘西語料
        91桃色在线播放国产| 国产裸体歌舞一区二区| 亚洲电影一区二区三区 | a黄片在线视频免费播放| 欧美激情一区二区三区 | 国产精品无码人妻在线| 亚洲av中文无码乱人伦在线r▽| 亚洲日产无码中文字幕| 羞涩色进入亚洲一区二区av| 日本强伦姧人妻一区二区| 又爽又黄又无遮挡网站动态图| 国产人成无码视频在线| 色婷婷精久久品蜜臀av蜜桃| 免费av片在线观看网址| 少妇做爰免费视频网站| 国产v综合v亚洲欧美大天堂| 日产精品毛片av一区二区三区| 久久久精品国产免大香伊| 中文字幕久无码免费久久| 亚洲三区二区一区视频| 伊人婷婷综合缴情亚洲五月| 无码色av一二区在线播放| 精品国产精品久久一区免费式| 亚洲欧洲美洲无码精品va | 国产亚洲一区二区三区成人| 亚洲精品久久区二区三区蜜桃臀| 色噜噜狠狠狠综合曰曰曰| 亚洲色大成网站www在线观看 | 国产黄色一级大片一区二区| 草草地址线路①屁屁影院成人| 亚洲av无码片一区二区三区| 亚洲av永久久无久之码精| 国产视频一区二区三区在线免费| 国产无遮挡又黄又爽在线观看| 美女污污网站| 国产女主播福利在线观看| 久久精品国产亚洲7777| 亚洲精品456| 北岛玲亚洲一区二区三区| 亚洲成a人片在线观看无码专区| 国产剧情av麻豆香蕉精品|