亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語復(fù)句信息處理研究二十年

        2015-04-25 09:57:16吳鋒文
        中文信息學(xué)報 2015年1期
        關(guān)鍵詞:胡金復(fù)句信息處理

        吳鋒文

        (信陽師范學(xué)院 文學(xué)院,河南 信陽 464000)

        ?

        漢語復(fù)句信息處理研究二十年

        吳鋒文

        (信陽師范學(xué)院 文學(xué)院,河南 信陽 464000)

        加強漢語復(fù)句信息處理研究對中文信息處理具有重要意義。該文介紹了漢語復(fù)句信息工程的概況,將復(fù)句知識建模、關(guān)系標(biāo)記識別、非分句識別、復(fù)句句法語義關(guān)系判定、復(fù)句知識庫建設(shè)等成果條理化,結(jié)合已有成果的研究視角、方法及關(guān)注焦點來分析復(fù)句信息處理的研究現(xiàn)狀,并對其發(fā)展趨勢進(jìn)行了展望。

        信息處理;復(fù)句;關(guān)系標(biāo)記;自動識別

        1 引言

        在漢語研究領(lǐng)域,復(fù)句作為重要的語法實體單位,它上連篇章,下含小句,兼具句法、語義和語用等方面的屬性,因而成為語法研究的熱點,受到學(xué)者的廣泛關(guān)注。復(fù)句在基礎(chǔ)研究方面成果豐碩,特別是出現(xiàn)了復(fù)句研究代表性專著《現(xiàn)代漢語復(fù)句新解》(王維賢1994)和《漢語復(fù)句研究》(邢福義2001)[1]。

        然而,隨著科技信息的發(fā)展和學(xué)科研究的融合,面向信息處理的漢語研究需求日益突出,中文信息處理正成為漢語應(yīng)用研究的熱點。目前,中文信息處理正處于“句處理”攻堅階段[2],而句處理現(xiàn)狀是對單句自動句法分析研究較多,對復(fù)句的信息處理卻關(guān)注較少。復(fù)句在句法、語義方面與單句存有區(qū)別,而且它作為連接小句與篇章的“橋梁”,受到的語境制約也相對較多,因而要解決好“句處理”問題,漢語復(fù)句的句法語義自動分析問題必須受到重視。為此,邢福義緊跟時代發(fā)展趨向,適時提出了“漢語復(fù)句信息工程”理念,推動漢語復(fù)句應(yīng)用層面的研究。

        為順應(yīng)中文信息領(lǐng)域“句處理”發(fā)展趨勢,推動漢語復(fù)句信息工程發(fā)展,本文擬對近二十年來(1994-2013)漢語復(fù)句在信息處理領(lǐng)域的研究進(jìn)行系統(tǒng)梳理,勾勒復(fù)句信息處理研究的現(xiàn)狀,審視研究中存在的問題,并對未來研究趨向進(jìn)行展望,以期進(jìn)一步深化漢語復(fù)句信息處理研究。

        2 漢語復(fù)句信息工程概觀

        當(dāng)今信息時代,語言成為一種有用的資源。如何對語言資源進(jìn)行開發(fā)與利用,正成為計算語言學(xué)和人工智能、人機(jī)交互、專家系統(tǒng)等智能化領(lǐng)域的重要議題,這是時代與科技發(fā)展的要求?;谶@種時代背景和學(xué)術(shù)使命,華中師范大學(xué)語言研究所語言學(xué)家邢福義教授帶領(lǐng)其研究團(tuán)隊適時啟動漢語復(fù)句信息工程。

        姚雙云以小句中樞說為理論指導(dǎo),對復(fù)句信息工程的研究內(nèi)容、目標(biāo)以及復(fù)句層次關(guān)系標(biāo)注的方法進(jìn)行了初步探討[3]。漢語復(fù)句信息工程是一個文理交叉的大型跨學(xué)科研究課題。這一課題,以漢語句法研究為本,以漢語信息處理研究為用,以漢語復(fù)句作為促進(jìn)學(xué)科發(fā)展的研究突破口。該課題主要包括5個方面的研究內(nèi)容:一為漢語復(fù)句關(guān)系詞的覆蓋范圍、配對情況、搭配強度和關(guān)系詞的相似度;二為復(fù)句關(guān)聯(lián)模式、內(nèi)部結(jié)構(gòu)特點與外部功能特點;三為關(guān)系詞和復(fù)句復(fù)雜特征集的描述與合一運算;四為關(guān)系詞的自動識別和標(biāo)注、關(guān)聯(lián)項功能的自動識別和標(biāo)注、復(fù)句句式類別與層次關(guān)系的自動識別與標(biāo)注;五為有標(biāo)復(fù)句標(biāo)注語料庫的構(gòu)建以及面向復(fù)句領(lǐng)域的研究工具的開發(fā)。

        本工程研究目標(biāo)包括兩個方面。其一,在研究的基礎(chǔ)性工作上,建立一個漢語研究專用標(biāo)注語料庫—漢語復(fù)句語料庫,它包含豐富的句法、語義信息,是漢語復(fù)句研究的重要平臺;其二,在研究的深度和理論方法追求上,揭示復(fù)句關(guān)聯(lián)的內(nèi)在機(jī)制,建立復(fù)句關(guān)聯(lián)的基本模型,總結(jié)復(fù)句句式類別與語義關(guān)系的計算機(jī)自動判定的方法,有效地提高計算機(jī)處理句子的能力。在工程實施過程中,努力將《漢語復(fù)句研究》一書的豐富成果形式化,使之應(yīng)用于語言信息化領(lǐng)域的研究實踐,并進(jìn)一步發(fā)掘復(fù)句的語法功能,弄清復(fù)句功能分類。本工程的研究實踐分前、后兩期。前期工程專門針對有標(biāo)復(fù)句進(jìn)行研究,重點研究復(fù)句的聯(lián)結(jié)機(jī)制,復(fù)句關(guān)系標(biāo)記的識別及其標(biāo)注,分句的確認(rèn),分句層次和語義關(guān)系的判定等,在前期研究的基礎(chǔ)上,逐步探索有標(biāo)復(fù)句向無標(biāo)復(fù)句研究的過渡,從而轉(zhuǎn)向后期的無標(biāo)復(fù)句句法、語義關(guān)聯(lián)的自動判定研究。

        在華中師范大學(xué)語言研究所和計算機(jī)科學(xué)系部分師生通力合作下,復(fù)句信息工程進(jìn)展順利,已完成了復(fù)句語料庫和基于復(fù)句語料庫的分詞系統(tǒng)的開發(fā),在復(fù)句語料自動標(biāo)注、關(guān)系標(biāo)記與非分句的識別、關(guān)聯(lián)模式的形式化描寫,以及復(fù)句句法語義判定研究等方面已取得了階段性成果,有標(biāo)復(fù)句的信息處理正如火如荼地開展。

        而且,以邢福義和胡金柱教授為領(lǐng)隊的聯(lián)合研究團(tuán)隊,近幾年先后主持教育部重大基金項目“面向中文信息處理的復(fù)句聯(lián)結(jié)機(jī)制及形式化策略分析”和國家社科基金 “有標(biāo)復(fù)句層次關(guān)系的信息化研究”和“基于規(guī)則的復(fù)句關(guān)系標(biāo)記自動標(biāo)注與實現(xiàn)策略研究”等課題,致力于漢語復(fù)句及其關(guān)系標(biāo)記的信息處理研究,逐步實現(xiàn)漢語復(fù)句研究從基礎(chǔ)層面向應(yīng)用層面的融合與轉(zhuǎn)變。

        3 漢語復(fù)句信息處理研究現(xiàn)狀

        近二十年來,漢語復(fù)句應(yīng)用層面的研究正逐漸融入計算科學(xué)領(lǐng)域,為漢語復(fù)句研究開辟了新的道路,成為計算語言學(xué)的重要議題。相關(guān)研究成果主要集中在復(fù)句知識建模、復(fù)句關(guān)系標(biāo)記的識別、非分句語段的識別、復(fù)句句法語義關(guān)系判定、復(fù)句知識庫工程建設(shè)等方面。

        3.1 復(fù)句知識建模

        語言知識建模,是實現(xiàn)自然語言理解的關(guān)鍵性技術(shù)。張仕仁圍繞著漢語復(fù)句的計算機(jī)處理問題,提出采用盒式圖和復(fù)雜特征集表示復(fù)句結(jié)構(gòu)形式與意義結(jié)構(gòu),并探討了漢語復(fù)句的自動分析問題。通過對復(fù)句結(jié)構(gòu)的分析,把復(fù)句歸結(jié)為分句、聯(lián)合結(jié)構(gòu)、偏正結(jié)構(gòu)3種基本成分,并用盒式圖表示這些結(jié)構(gòu),以此構(gòu)造出各式各樣的復(fù)句來。為了能正確地劃分復(fù)句基本結(jié)構(gòu)的類型,采用了復(fù)雜特征集描述,并構(gòu)造出一棵復(fù)句的“功能結(jié)構(gòu)樹”[4]。該文是研究漢語復(fù)句信息處理的較早文獻(xiàn)。

        此外,胡金柱、邢福義、王琳、肖升等引入本體論思想,探索復(fù)句本體建模問題。胡金柱、邢福義介紹了本體研究現(xiàn)狀,引入本體元模型建模方法,在漢語小句元模型的基礎(chǔ)上構(gòu)造漢語復(fù)句靜態(tài)本體模型,以期推動漢語本體語義網(wǎng)的研究,使中文信息處理水平努力提升到句子的層面[5]。王琳利用本體元建模方法構(gòu)建漢語小句元模型,并采用本體網(wǎng)絡(luò)語言O(shè)WL描述小句本體,對小句進(jìn)行語義分析,然后利用構(gòu)成的小句元模型再去描述復(fù)句模型,最后生成整個復(fù)句的OWL表示[6]。肖升在分析復(fù)句結(jié)構(gòu)和邏輯連接詞的基礎(chǔ)上,采用面向?qū)ο蠓椒?gòu)建有標(biāo)復(fù)句的本體模型[7]。

        3.2 復(fù)句關(guān)系標(biāo)記的識別

        復(fù)句關(guān)系詞語是復(fù)句句法、語義關(guān)系的形式標(biāo)志,因而關(guān)系詞語的識別是復(fù)句信息處理的基礎(chǔ)性工作。近十年來學(xué)界主要從機(jī)械匹配、機(jī)器學(xué)習(xí)、語料庫、規(guī)則和統(tǒng)計、標(biāo)記搭配判斷等方面對關(guān)系標(biāo)記識別問題進(jìn)行了研究。

        鄒嘉彥將關(guān)系標(biāo)記的信息表示為五元組,采用機(jī)械匹配的方法來確定關(guān)系詞語和復(fù)句關(guān)系,并進(jìn)行語料篇章關(guān)系詞的標(biāo)注實驗[8]。高維君將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于漢語復(fù)句關(guān)系詞的歧義辨別,將漢語關(guān)聯(lián)詞語的消歧識別轉(zhuǎn)化為決策樹分類器,提高了漢語關(guān)系詞語識別的正確率[9]。李文翔等以語料庫為資源,采用數(shù)據(jù)挖掘算法提取反映關(guān)聯(lián)詞語用法的各種特征信息,并將這些信息整理為關(guān)聯(lián)詞語的知識庫,作為關(guān)聯(lián)詞識別的依據(jù),并對有歧義的關(guān)聯(lián)詞語提出了基于決策樹的消歧方法[10]。胡金柱、沈威采用概率統(tǒng)計方法,構(gòu)建關(guān)系標(biāo)記的渡越矩陣,并對容易產(chǎn)生歧義的“結(jié)果”和“如”進(jìn)行關(guān)系標(biāo)記自動標(biāo)注的個案測試,其測試結(jié)果較為理想[11]。沈威、姚雙云(2007)探討了基于規(guī)則方法的關(guān)系詞語識別策略,將關(guān)系詞的識別過程分解為關(guān)系詞表的建立、規(guī)則庫的建立、利用關(guān)系詞表和規(guī)則庫進(jìn)行關(guān)系詞標(biāo)注3個步驟[12]。尹蔚、羅進(jìn)軍對選擇標(biāo)記“是……,還是……”的識別問題進(jìn)行個案研究,總結(jié)出影響有標(biāo)復(fù)句合用型關(guān)系詞識別率的一些規(guī)律,分別為關(guān)系標(biāo)記的語序制約律、相互制約律、句法空間制約律、親密度制約律[13]。

        復(fù)句關(guān)系標(biāo)記識別研究中,偽關(guān)系詞的篩除與過濾是難點。為解決這一問題,胡金柱、舒江波提出一種基于基于詞性標(biāo)記和關(guān)系詞搭配理論的正向算法提取復(fù)句語料中的關(guān)系標(biāo)記。首先采用正向選擇算法,利用詞性標(biāo)記的特點對復(fù)句實例中的詞語進(jìn)行剪枝,優(yōu)化匹配效率,得到初始的關(guān)系詞集,然后根據(jù)關(guān)系標(biāo)記的搭配理論對候選詞集進(jìn)行處理,過濾掉偽關(guān)系詞,最終標(biāo)記出復(fù)句中的關(guān)系詞[14]。胡金柱、雷利利從關(guān)系詞的搭配關(guān)系出發(fā),采用解空間樹得到關(guān)系標(biāo)記所有的搭配集合,并對解空間樹進(jìn)行剪枝,去掉無用搭配集,過濾掉偽關(guān)系標(biāo)記,最終識別出復(fù)句關(guān)系標(biāo)記,測試表明,解空間樹和剪枝算法對復(fù)句關(guān)系詞判定的正確率達(dá)到98.9%[15]。

        姚雙云在大規(guī)模語料庫分詞處理基礎(chǔ)上,探討了關(guān)聯(lián)詞搭配模式自動發(fā)現(xiàn)的基本方法[16]。通過評估關(guān)聯(lián)詞搭配的3個重要參數(shù)(搭配距離、搭配強度MI值、搭配強度Z值),并設(shè)定閾值,超過閾值的模式自動作為候選搭配模式。實驗表明,該方法有助于發(fā)現(xiàn)以往未被注意的復(fù)句句法搭配模式。

        3.3 非分句語段的識別*所謂“非分句”,是指出現(xiàn)在復(fù)句中的缺乏“分句”相對獨立地位的各種短語性語段。如“成功的基礎(chǔ)是奮斗,奮斗的收獲是成功,所以,天下唯有不知而艱辛奮斗的人,才能走上成功的高峰。”中劃橫線部分就是一個名詞性非分句語段成分。

        復(fù)句句法語義關(guān)系的判定,其前提是要確定分句的數(shù)目,排除各種短語語段的干擾。胡金柱、俞小娟結(jié)合語言學(xué)的相關(guān)理論,提取出識別短語字段的因素,并對這些因素進(jìn)行主成分分析,進(jìn)而得出短語字段識別的綜合影響因素以及與原始的具體因素之間的關(guān)聯(lián),采用主成分分析法識別復(fù)句中的非分句[17-18];李瓊在界定非分句的基礎(chǔ)上,采用基于詞性信息和句法信息的方法來識別復(fù)句中的短語字段[19];李瓊還探討了基于語義知識的非分句的識別策略[20]。此外,王立霞、孫宏林探討了現(xiàn)代漢語介詞短語邊界識別問題[21]。這些研究的開展,為復(fù)句層次關(guān)系自動識別研究奠定了基礎(chǔ)。

        3.4 復(fù)句句法語義關(guān)系判定

        計算機(jī)對漢語復(fù)句進(jìn)行自動句法分析,其核心任務(wù)是對分句間的層次構(gòu)造和語義關(guān)聯(lián)進(jìn)行自動判定。這方面主要成果有魯松、李晉霞、洪鹿平、周文翠、劉云、羅進(jìn)軍、吳鋒文以及胡金柱、舒江波等。

        魯松、宋柔從機(jī)器翻譯角度,研究判定漢語描述型復(fù)句分句間的內(nèi)在聯(lián)系的形式化處理方法,給出了完整的關(guān)系判定規(guī)則,并提出了采用中心分句動態(tài)判定方法來解決部分復(fù)句處理規(guī)則局部性的問題[22];魯松、白碩等以復(fù)句的層次關(guān)系研究為對象,將多重復(fù)句的層次結(jié)構(gòu)形式化為層次關(guān)系樹,并采用上下文無關(guān)文法表示多重復(fù)句,提出一種基于具有預(yù)測機(jī)制、自底向上、部分?jǐn)?shù)據(jù)驅(qū)動的確定性移進(jìn)-規(guī)約算法來處理多重復(fù)句的層次關(guān)系[23]。李幸、宗成慶在分析漢語標(biāo)點符號用法和句法功能的基礎(chǔ)上,提出一種新的面向漢語長句的層次化句法分析方法,對復(fù)句層次關(guān)系處理具有一定借鑒意義[24]。

        周文翠采用統(tǒng)計方法,借鑒支持向量機(jī)(SVM)理論來識別無標(biāo)并列復(fù)句。該文首先從語言學(xué)角度角度提取主語、謂語等相關(guān)特征,并根據(jù)《知網(wǎng)》語義分類將特征量化,然后構(gòu)建并列復(fù)句模型來識別并列復(fù)句[25]。遺憾的是,該研究局限在兩個分句之間,因而并沒有涉及到分句間的層次判定分析。而洪鹿平通過確定逗號的功能來判斷復(fù)句的切分點,將復(fù)句轉(zhuǎn)化為分句的有序集,在此基礎(chǔ)上,采用條件隨機(jī)場(CRF)理論來判定分句間的語義關(guān)系[26],也沒有涉及分句間的層次判定分析。

        李晉霞、劉云著重探討了二重復(fù)句的自動分析問題[27]。他們認(rèn)為,一個多重復(fù)句的層次劃分實質(zhì)上是分句之間相互選擇、匹配構(gòu)成不同層次復(fù)句子模塊的過程。該文總結(jié)出能夠?qū)崿F(xiàn)二重復(fù)句自動層次劃分的幾種復(fù)句標(biāo)記聯(lián)結(jié)模式,并指出關(guān)系包孕、關(guān)系詞音節(jié)數(shù)量對復(fù)句層次劃分的影響。

        羅進(jìn)軍從句法識別的角度,提出建立有標(biāo)復(fù)句表里關(guān)聯(lián)模態(tài),并結(jié)合關(guān)系標(biāo)記語表序列聚類的方法來識別有標(biāo)復(fù)句層次關(guān)系[28],但該方法對歧義型有標(biāo)復(fù)句格式的句法分析仍將無能為力。

        為解決復(fù)句自動句法分析中關(guān)系詞的省略和嵌套問題,劉云提出關(guān)系詞語“離析度”思想,引入信息頻率和權(quán)重值的思想來評估復(fù)句關(guān)系詞的離析度,以關(guān)系詞離析度思想來解決復(fù)句層次關(guān)系識別問題,并總結(jié)歸納出“最鄰近優(yōu)先匹配原則”、“前者前優(yōu)先,后者后優(yōu)先”等復(fù)句層次分析的規(guī)則[29];汪夢翔在關(guān)系詞“離析度”基礎(chǔ)上,闡述了關(guān)系詞離析度在復(fù)句自動句法分析中的應(yīng)用問題[30]。

        吳鋒文從復(fù)句信息處理角度出發(fā),對復(fù)句的層次關(guān)系識別問題進(jìn)行了系列研究[31-33]。為解決關(guān)系詞省略和關(guān)系詞不能標(biāo)示分句間層次組合順序的局限,全面考察了3句式復(fù)句標(biāo)記聯(lián)結(jié)模式與層次關(guān)系之間的制約規(guī)律,將有標(biāo)復(fù)句分為充盈態(tài)與非充盈態(tài)兩類。標(biāo)記充盈態(tài)模式與復(fù)句實例層次關(guān)系間存在“一對一”的映射關(guān)系,其復(fù)句實例可以采用基于規(guī)則方法來識別;標(biāo)記非充盈態(tài)模式與復(fù)句實例間不存在“一對一”的映射關(guān)系,其層次關(guān)系的判定需要引入分句間的語義分析。在界定分句語義關(guān)聯(lián)度基礎(chǔ)上,從主謂句法成分角度對分句關(guān)聯(lián)進(jìn)行深層知識挖掘,提取出直接聚層關(guān)聯(lián)的分句間存在的10組典型特征,構(gòu)建了一種基于分句語義關(guān)聯(lián)度判定的復(fù)句分析法。此外,還對“二標(biāo)三句式”、“一標(biāo)三句式”復(fù)句的層次關(guān)系判定問題進(jìn)行個案研究[34-35],歸納出復(fù)句層次關(guān)系判定的若干句法語義規(guī)則,實驗表明了該研究的有效性。

        胡金柱、舒江波嘗試采用分句語義關(guān)聯(lián)理論來解決復(fù)句層次關(guān)系識別中的難點,從句法和語義角度總結(jié)出分句語義關(guān)聯(lián)的3大類、14個小類的特征,并根據(jù)特征之間的相互約束規(guī)律和分句特征的統(tǒng)計規(guī)律來確定分句關(guān)聯(lián)特征分析的先后順序,在此基礎(chǔ)上討論分句間語義關(guān)聯(lián)度的計算方法,根據(jù)分句間的關(guān)聯(lián)度來確定分句的層次歸屬[36]。

        3.5 復(fù)句語言知識庫的構(gòu)建

        實踐表明,中文信息處理的開展,需要語言知識庫的支持。為適應(yīng)研究的需要,復(fù)句語言知識研究也引起學(xué)者關(guān)注:邢福義、姚雙云探討了復(fù)句語料庫的建設(shè)及其在復(fù)句信息工程中的應(yīng)用問題[37];為改進(jìn)現(xiàn)有分詞系統(tǒng)對復(fù)句關(guān)系詞標(biāo)注結(jié)果不準(zhǔn)的狀況,杜超華、胡金柱在中國科學(xué)院ICTCLAS 分詞軟件的基礎(chǔ)上,研發(fā)了基于復(fù)句語料庫的分詞系統(tǒng)[38];劉云開展了漢語虛詞知識庫的研究,該虛詞知識庫中包含大量復(fù)句關(guān)系詞語的相關(guān)句法、語義、語用信息[39];胡金柱、吳鋒文緊扣“句處理”需求,開發(fā)漢語復(fù)句知識庫,初步研制了一個包含436個復(fù)句關(guān)系標(biāo)記的復(fù)句知識子庫,并探討了關(guān)系標(biāo)記信息的形式化表征與運算問題[40-41]。

        4 漢語復(fù)句信息處理研究展望

        總體而言,近二十年漢語復(fù)句應(yīng)用層面的研究取得了一些可喜的成就:漢語復(fù)句信息處理的兩項基礎(chǔ)性工作——復(fù)句關(guān)系詞的識別及非分句的識別與標(biāo)注,都取得一定進(jìn)展;漢語復(fù)句句法語義關(guān)系判定問題逐漸受到學(xué)界的關(guān)注,特別是復(fù)句語料庫、基于復(fù)句語料庫的分詞系統(tǒng)以及復(fù)句知識庫的建設(shè),都將為漢語復(fù)句信息工程推向縱深發(fā)展奠定堅實的基礎(chǔ)。

        當(dāng)然,我們也要清醒認(rèn)識到,漢語復(fù)句應(yīng)用層面的研究起步較晚,研究還極其薄弱。目前復(fù)句信息處理研究,無論是復(fù)句關(guān)系詞、非分句的識別,還是復(fù)句句法語義關(guān)系判定,都是在受限領(lǐng)域里進(jìn)行的??梢哉f,已有研究雖已觸及到漢語復(fù)句信息工程的“冰山一角”,但更多問題還需進(jìn)一步去發(fā)掘和探索。展望漢語復(fù)句信息處理研究的未來,需要著重做好以下幾方面的工作。

        首先,需要進(jìn)一步加強漢語復(fù)句研究的“兩棲學(xué)者”聯(lián)合攻關(guān)勢態(tài)。當(dāng)前信息時代,語言學(xué)的多邊緣化趨勢日益明顯,語言學(xué)科的發(fā)展要跟上時代步伐,必須面向社會,面向應(yīng)用,其研究成果必須服務(wù)于社會經(jīng)濟(jì)的發(fā)展[42]。中文信息處理需要的,并不是現(xiàn)在漢語學(xué)界已有知識的照搬,而是需要根據(jù)計算機(jī)的“能力”去總結(jié)和發(fā)掘漢語的規(guī)律,使之具有可操作性。但就漢語復(fù)句研究而言,長期以來學(xué)界研究關(guān)注點在于基礎(chǔ)研究,是基于“人際理解”的,而不是基于“機(jī)器理解”的,沒有考慮到漢語信息處理的需求,使得已有成果不能完全適應(yīng)中文信息處理的需要。在新的時代,中文信息處理研究需要文、理不同學(xué)科研究團(tuán)隊的聯(lián)合攻關(guān)已成為共識,漢語復(fù)句研究必需結(jié)合社會的應(yīng)用需求,實現(xiàn)研究思路的轉(zhuǎn)變,為適應(yīng)中文信息處理的需求而加強面向機(jī)器的應(yīng)用型研究。這種研究思路的轉(zhuǎn)變,需要漢語言學(xué)界和計算機(jī)學(xué)界兩支隊伍緊密結(jié)合起來,需要整合不同學(xué)科(除語言學(xué)、計算機(jī)科學(xué),還涉及到邏輯學(xué)、人腦科學(xué)、信息傳播學(xué)等)之間的研究資源,大力培養(yǎng)既懂語言學(xué)又會計算機(jī)科學(xué)的“兩棲人才”。

        其次,需要進(jìn)一步加強漢語復(fù)句語義識別研究,實現(xiàn)無標(biāo)分句的句法語義消歧。隨著復(fù)句關(guān)系詞語與非分句識別研究的開展,集中力量研究漢語復(fù)句句法語義關(guān)系識別將是復(fù)句信息工程的重心。在復(fù)句層次關(guān)系識別方面,魯松、白碩、羅進(jìn)軍等作出了開拓性工作,但對因缺乏關(guān)系標(biāo)記而出現(xiàn)分句層次歸屬歧義的情形仍無能為力;周文翠、洪鹿平等采用統(tǒng)計策略研究復(fù)句分句的語義識別,為復(fù)句的語義識別奠定了基礎(chǔ),但沒有涉及到分句間的層次構(gòu)造的處理;胡金柱、吳鋒文關(guān)于分句語義關(guān)聯(lián)的研究才剛起步。加強漢語復(fù)句的語義識別仍是任重道遠(yuǎn),要最終解決復(fù)句句法語義關(guān)系識別問題,無標(biāo)分句的層次歸屬消歧研究將是無法跨越的“溝坎”。只有首先突破對無標(biāo)分句層次歸屬消歧處理,才能實現(xiàn)有標(biāo)復(fù)句向無標(biāo)復(fù)句信息處理研究的過渡。

        再者,需要進(jìn)一步加強復(fù)句知識庫資源建設(shè)。研究表明,語言知識庫在中文信息處理中具有重要作用。漢語言知識庫建設(shè)已取得一定進(jìn)展,如《現(xiàn)代漢語語法信息詞典詳解》、虛詞知識庫、漢語知網(wǎng)、HNC 詞語知識庫以及漢語框架語義知識庫(CFN)的開發(fā)與利用,已在學(xué)界產(chǎn)生一定影響。但由于知識產(chǎn)權(quán)方面的原因,這些語言知識庫的兼容性、通用性不強,而漢語復(fù)句的專用知識庫建設(shè)又很滯后。因而,集中力量開發(fā)一個集復(fù)句分類系統(tǒng)、關(guān)系詞知識庫、分句聚層組合規(guī)則庫、分句句法語義特征集于一體的復(fù)句本體知識庫[43],將是今后漢語復(fù)句應(yīng)用研究面臨的重要任務(wù)。

        [1] 吳鋒文.新時期以來漢語復(fù)句基礎(chǔ)研究綜觀[J].信陽師范學(xué)院學(xué)報(哲社版).2013,33(1):78-84.

        [2] 陸儉明.關(guān)于句處理中所要考慮的語義問題[J].語言研究,2001,21(1):1-12.

        [3] 姚雙云.小句中樞理論的應(yīng)用與復(fù)句信息工程[J].漢語學(xué)報.2005,5(4):71-79.

        [4] 張仕仁.漢語復(fù)句的結(jié)構(gòu)分析[J].中文信息學(xué)報.1994,8(4):43-54.

        [5] 胡金柱,邢福義.復(fù)句靜態(tài)本體模型初探.第三屆HNC與語言學(xué)研究學(xué)術(shù)研討會論文集[C].北京:北京師范大學(xué)出版社,2006.

        [6] 王琳.基于本體的漢語復(fù)句語義分析[D].武漢:華中師范大學(xué)碩士學(xué)位論文.2006.

        [7] 肖升,胡金柱.面向?qū)ο笥袠?biāo)復(fù)句本體建模[J].計算機(jī)應(yīng)用研究.2010,27(2):552-554.

        [8] 鄒嘉彥,連興隆.中文篇章中的關(guān)聯(lián)詞語及其引導(dǎo)的句子關(guān)系的自動標(biāo)注.中文信息處理國際會議論文集[C].北京:清華大學(xué)出版社,1998:288-297.

        [9] 高維君,姚天順,黎邦洋,等.機(jī)器學(xué)習(xí)在漢語關(guān)聯(lián)詞語識別中的應(yīng)用[J].中文信息學(xué)報.2000,14(3):1-8.

        [10] 李文翔.基于語料庫的關(guān)聯(lián)詞識別方法[J].計算機(jī)工程與應(yīng)用.2004,41(7):50-52.

        [11] 胡金柱,沈威.基于渡越矩陣的復(fù)句關(guān)系詞自動標(biāo)注初探[J].微計算機(jī)信息.2007,24(30):200-202.

        [12] 沈威,姚雙云.基于規(guī)則的復(fù)句中的關(guān)系詞標(biāo)注探討[J].福建電腦.2007,23(4):6-7.

        [13] 尹蔚,羅進(jìn)軍.從“是p,還是q”有標(biāo)選擇復(fù)句看合用型關(guān)系詞的自動識別[J].中南大學(xué)學(xué)報(社科版).2007,19(6):740-743.

        [14] 胡金柱,舒江波,姚雙云,等.面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J].計算機(jī)工程與科學(xué).2009,37(10):90-93.

        [15] 胡金柱,雷利利.多重復(fù)句關(guān)系標(biāo)記搭配的求解模型研究[J].計算機(jī)工程與科學(xué).2011,39(11):177-182.

        [16] 姚雙云,胡金柱,肖升,等.關(guān)聯(lián)詞搭配的自動發(fā)現(xiàn)[J].計算機(jī)應(yīng)用研究.2011,28(12):4426-4429.

        [17] 胡金柱,俞小娟.基于規(guī)則庫和聚類分析的復(fù)句短語字段的自動識別研究[J].華中師范大學(xué)學(xué)報.2008,52(2):190-194.

        [18] 俞小娟,胡金柱.用主成分分析法研究短語字段的判別因素[J].計算機(jī)技術(shù)與發(fā)展.2008,18(10):116-119.

        [19] 李瓊,胡金柱.現(xiàn)代漢語復(fù)句中短語字段的自動識別初探[J].寧夏大學(xué)學(xué)報.2008,30(1):6-10.

        [20] 李瓊.基于語義知識的書讀前后非分句語言片段識別[J].湖北社會科學(xué).2010,24(3):128-131.

        [21] 王立霞,孫宏林.現(xiàn)代漢語介詞短語邊界識別研究[J].中文信息學(xué)報.2005,19(3):80-86.

        [22] 魯松,宋柔.漢英機(jī)器翻譯中描述型復(fù)句的關(guān)系識別與處理[J].軟件學(xué)報.2001,12(1):83-93.

        [23] 魯松,白碩,李素建,等.漢語多重關(guān)系復(fù)句的關(guān)系層次分析[J].軟件學(xué)報.2001,12(7):987-995.

        [24] 李幸,宗成慶.引入標(biāo)點處理的層次化漢語長句句法分析方法[J].中文信息學(xué)報.2006,20(4):8-15.

        [25] 周文翠,袁春風(fēng).并列復(fù)句的自動識別初探[J].計算機(jī)應(yīng)用研究[J].2008,25(3):764-766.

        [26] 洪鹿平.漢語復(fù)句關(guān)系自動判定研究[D].南京:南京師范大學(xué)碩士學(xué)位論文.2008.

        [27] 李晉霞,劉云.面向計算機(jī)的二重復(fù)句層次劃分研究[C].第7屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文.2003.

        [28] 羅進(jìn)軍.基于句法識別的有標(biāo)復(fù)句層次關(guān)系研究[J].漢語學(xué)報.2009,9(1):83-89.

        [29] 劉云.復(fù)句關(guān)系詞語離析度考察[J].語言教學(xué)與研究.2008,30(6):15-21.

        [30] 汪夢翔.關(guān)聯(lián)詞離析度在有標(biāo)復(fù)句層次自動分析中的應(yīng)用[J].云南師范大學(xué)學(xué)報(哲社版).2011,54(4):148-152.

        [31] 吳鋒文,胡金柱,肖明,等.基于規(guī)則的漢語復(fù)句層次關(guān)系自動識別研究[J].華文教學(xué)與研究.2010,10(1):85-92.

        [32] 吳鋒文.基于關(guān)系標(biāo)記的漢語復(fù)句分類研究[J].漢語學(xué)報.2011,11(3):63-73.

        [33] 吳鋒文.基于主謂語知識挖掘的分句語義關(guān)聯(lián)研究[J].語言文字應(yīng)用.2011,20(4):132-142.

        [34] 吳鋒文.面向信息處理的“二標(biāo)三句式”復(fù)句層次關(guān)系判定[J].信陽師范學(xué)院學(xué)報(哲社版).2012,32(1):88-93.

        [35] 吳鋒文.面向信息處理的“一標(biāo)三句式”復(fù)句層次關(guān)系判定[J].北方論叢.2012,54(1):64-68.

        [36] 胡金柱,舒江波,羅進(jìn)軍.漢語復(fù)句中分句的語義關(guān)聯(lián)特征[J].語言文字應(yīng)用.2010,19(4):121-130.

        [37] 邢福義,姚雙云.復(fù)句語料庫的建設(shè)及利用[C].第三屆HNC與語言學(xué)研究學(xué)術(shù)研討會.2005.

        [38] 杜超華,胡金柱.基于復(fù)句語料庫分詞系統(tǒng)研究[J].計算機(jī)與數(shù)字工程.2007,35(5):43-45.

        [39] 劉云.漢語虛詞知識庫的建設(shè)[M].武漢:華中師范大學(xué)出版社.2009.

        [40] 胡金柱,吳鋒文,李瓊,等.漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J].語言科學(xué).2010,9(2):133-142.

        [41] 吳鋒文.面向中文信息處理的三句式有標(biāo)復(fù)句層次關(guān)系自動識別研究[D].武漢:華中師范大學(xué)博士學(xué)位論文.2010.

        [42] 許嘉璐.設(shè)想和現(xiàn)狀——試論中文信息處理與現(xiàn)代漢語研究[J].中文信息學(xué)報.2001,15(2):1-8.

        [43] 吳鋒文.從信息處理看漢語復(fù)句分類研究[J].信陽師范學(xué)院學(xué)報(哲社版).2011,31(4):79-83.

        Chinese Compound Sentences Processing: Past 20 Years

        WU Fengwen

        (College of Liberal Arts, Xinyang Normal University, Xinyang, Henan 464000, China)

        The study on Chinese Compound Sentences is essential to the information processing. This paper summarizes the past researches on compound sentences, including compound sentences modeling, relation markers recognition, structure recognition, compound sentences parsing and corpus construction. It also reveals the prospects and possible research trends in further studies.

        information processing; compound sentences; relation markers; automatic recognition

        吳鋒文(1981—),博士,副教授,主要研究領(lǐng)域為漢語語法,中文信息處理。E?mail:wufw@mail.ccnu.edu.cn

        1003-0077(2015)01-0013-06

        2013-05-12 定稿日期: 2013-10-11

        國家社科基金(14CYY035,11BYY052);教育部人文社科基金(12YJC740110);信陽師范學(xué)院第五批青年骨干教師資助計劃

        TP391

        A

        猜你喜歡
        胡金復(fù)句信息處理
        胡金紅:從農(nóng)家門闖出海外致富路
        華人時刊(2023年11期)2023-07-29 06:27:36
        A 27-year-old Chinese wolf whisperer
        連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
        東營市智能信息處理實驗室
        基于Revit和Dynamo的施工BIM信息處理
        漢語復(fù)句學(xué)說的源流
        韓國語復(fù)句結(jié)構(gòu)的二分說
        地震烈度信息處理平臺研究
        CTCS-3級列控系統(tǒng)RBC與ATP結(jié)合部異常信息處理
        復(fù)句內(nèi)部不應(yīng)當(dāng)用句號
        国内揄拍国内精品少妇| 日本人妻av在线观看| 亚洲av中文字字幕乱码| av一区二区在线网站| 免费a级毛片18禁网站| 欧美丰满熟妇xxxx性| 色一情一区二| 国产在线观看免费一级| 性感的小蜜桃在线观看| 亚洲色图在线免费观看视频| 美丽人妻在夫前被黑人| 无码中文字幕人妻在线一区二区三区| 精精国产xxx在线视频app| 久久久亚洲经典视频| 白白视频在线免费观看| 亚洲无人区乱码中文字幕动画| 性人久久久久| 疯狂做受xxxx国产| 国产久热精品无码激情| 亚洲午夜看片无码| 久久久免费精品国产色夜| 日本少妇熟女一区二区| 亚洲成av人综合在线观看| 久久久久久国产精品无码超碰动画| 日本中文字幕不卡在线一区二区| 性感人妻中文字幕在线| 日本亚洲中文字幕一区| 亚洲中文字幕无码不卡电影 | 天天射综合网天天插天天干| 无码人妻一区二区三区免费视频| 国产精品国产三级国产av′| h动漫尤物视频| 亚洲天堂av黄色在线观看| 国产对白国语对白| av无码免费永久在线观看| 激情五月天伊人久久| 国产精品女同一区二区久| 中文字幕午夜精品久久久| 日韩一区国产二区欧美三区 | av无码天堂一区二区三区 | 国内精品国产三级国产|