亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向計(jì)算的漢語(yǔ)語(yǔ)法研究的四個(gè)層次思考

        2008-01-01 00:00:00
        現(xiàn)代語(yǔ)文 2008年3期

        摘要:計(jì)算機(jī)處理大規(guī)模文本信息越來(lái)越受到重視,本文從計(jì)算語(yǔ)言學(xué)專(zhuān)業(yè)的角度出發(fā),以計(jì)算的眼光看待當(dāng)前漢語(yǔ)語(yǔ)法研究,并且“基于計(jì)算”闡述了對(duì)漢語(yǔ)語(yǔ)法研究的“字”“詞法”“句法”“語(yǔ)義”四個(gè)層次的簡(jiǎn)單思考與認(rèn)識(shí)。

        關(guān)鍵詞:計(jì)算 語(yǔ)法 詞法 句法 語(yǔ)義

        一、當(dāng)前本體語(yǔ)法研究的現(xiàn)狀

        現(xiàn)代意義的中國(guó)語(yǔ)言學(xué)自公認(rèn)的1898年《馬氏文通》出版以來(lái),已經(jīng)建立并發(fā)展了百余年。20世紀(jì)80年代到上世紀(jì)末,再到本世紀(jì)初,漢語(yǔ)語(yǔ)法研究空前繁榮。

        當(dāng)前語(yǔ)法研究呈現(xiàn)出理論多元化的態(tài)勢(shì),人們不僅在回顧著漢語(yǔ)語(yǔ)法研究的歷史,更為重要的是思考著今后的發(fā)展趨勢(shì)。如果說(shuō)20世紀(jì)的漢語(yǔ)語(yǔ)法研究是以“求實(shí)”作為旗幟,那么新世紀(jì)的漢語(yǔ)語(yǔ)法研究則是以“創(chuàng)新”作為動(dòng)力。所謂“多元化”是指多種不同理論的研究相互共存,相互補(bǔ)充,相互促進(jìn),即打破了以“大家”一統(tǒng)天下的局面。

        漢語(yǔ)語(yǔ)法觀念的外延逐漸擴(kuò)大。隨著語(yǔ)法研究的深入,人們發(fā)現(xiàn)“純語(yǔ)法”的研究已難以解釋很多復(fù)雜的語(yǔ)法現(xiàn)象。語(yǔ)法學(xué)的領(lǐng)域必須開(kāi)拓,與其他相關(guān)學(xué)科結(jié)合,一方面借助于相關(guān)學(xué)科的方法、手段、理論來(lái)多方位、多角度、多層次地解釋語(yǔ)法形式與語(yǔ)法意義之間的關(guān)系,另一方面語(yǔ)法學(xué)也應(yīng)向其他學(xué)科輸送自己的成果,以相互結(jié)合而相得益彰。心理學(xué)、生理學(xué)、信息論、系統(tǒng)論、符號(hào)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科領(lǐng)域都能與語(yǔ)法學(xué)形成交叉學(xué)科。語(yǔ)法觀念的外延逐漸擴(kuò)大,不僅開(kāi)拓了語(yǔ)法研究的新領(lǐng)域,也帶來(lái)了語(yǔ)法研究的深入和語(yǔ)法觀念的轉(zhuǎn)變,增強(qiáng)了語(yǔ)法學(xué)的解釋力,提供了對(duì)語(yǔ)法現(xiàn)象觀察、研究的新視點(diǎn)、新方法。此外,當(dāng)前語(yǔ)法研究越來(lái)越注重借鑒與創(chuàng)新相結(jié)合。在與計(jì)算機(jī)結(jié)合的中文信息處理方面,“人用”和“機(jī)用”的語(yǔ)法理論是相互促進(jìn)發(fā)展的。

        二、從計(jì)算的角度看漢語(yǔ)語(yǔ)法研究

        語(yǔ)言學(xué)家研究自然語(yǔ)言的目的本質(zhì)上可以做這樣的歸納“知其然,知其所以然”??梢苑謨蓚€(gè)層面來(lái)理解,第一個(gè)層面是保證“正確地”說(shuō)話(huà)——知其然,例如我們知道“不但我沒(méi)聽(tīng)說(shuō)過(guò),他也沒(méi)聽(tīng)說(shuō)過(guò)”這個(gè)句子是正確的,但是我們不能表述成“我不但沒(méi)聽(tīng)說(shuō)過(guò),他也沒(méi)聽(tīng)說(shuō)過(guò)”。第二個(gè)層面是要能解釋人何以能“正確地”說(shuō)話(huà)——知其所以然,上例是因?yàn)閺?fù)句中前后兩小句主語(yǔ)不同,關(guān)聯(lián)詞只能放在主語(yǔ)之前。形如這樣的我們可以稱(chēng)作為“規(guī)則”,語(yǔ)言學(xué)家總是用盡可能少的規(guī)則覆蓋盡可能多的實(shí)例,解釋盡可能多的語(yǔ)法現(xiàn)象。

        從計(jì)算的角度來(lái)看,我們希望計(jì)算機(jī)模擬人的(部分)語(yǔ)言能力,給計(jì)算機(jī)輸入大規(guī)模的形式化的知識(shí)庫(kù),系統(tǒng)地刻畫(huà)自然語(yǔ)言形式與意義之間的關(guān)系,在這個(gè)基礎(chǔ)上,用計(jì)算機(jī)模擬人來(lái)判斷一個(gè)語(yǔ)言形式S的對(duì)錯(cuò),給出一個(gè)語(yǔ)言形式S的變換形式(S的意義)。

        計(jì)算機(jī)時(shí)代的到來(lái),使得我們可以利用計(jì)算機(jī)來(lái)存儲(chǔ)、加工和傳播以漢字形式承載的信息,這就是所謂的中文信息處理。中文信息處理大致可以區(qū)分為在符號(hào)層的處理和在內(nèi)容層的處理。符號(hào)層的處理要研究的是漢字在計(jì)算機(jī)中如何輸入、輸出;內(nèi)容層的處理則要研究如何讓計(jì)算機(jī)能像人一樣“看懂”中文的意思。上文提到的希望計(jì)算機(jī)模擬人的語(yǔ)言能力,就是指的內(nèi)容層的處理,也就是從“字”的層面進(jìn)入到“語(yǔ)”的層面。要讓計(jì)算機(jī)能夠處理漢字所承載的漢語(yǔ)信息,就要求計(jì)算機(jī)能夠理解漢語(yǔ)的詞、句子、篇章的含義,這就要求漢語(yǔ)研究工作者能夠把漢語(yǔ)語(yǔ)法的本體研究成果盡可能地轉(zhuǎn)化為計(jì)算機(jī)可以懂得的各種語(yǔ)言知識(shí)庫(kù),只有配備了相應(yīng)的語(yǔ)言知識(shí)庫(kù),計(jì)算機(jī)才有可能模擬人的語(yǔ)言行為,理解人所說(shuō)的話(huà)。我們?cè)噲D從計(jì)算機(jī)角度出發(fā)來(lái)思考漢語(yǔ)語(yǔ)法研究如何更好地為中文信息處理服務(wù)??梢?jiàn)“語(yǔ)”的層面更細(xì)化應(yīng)該包括“詞法層”“句法層”“語(yǔ)義層”。

        在字的層面我們提供給計(jì)算機(jī)的是一系列的符號(hào)串,我們希望計(jì)算機(jī)能用合適的編碼,簡(jiǎn)單快速地存儲(chǔ)這些漢字信息。但是這些符號(hào)串是線(xiàn)性排列的關(guān)系,毫無(wú)層次可言,計(jì)算機(jī)根本做不到內(nèi)容上的理解,如何能讓計(jì)算機(jī)做到類(lèi)似于人的層次劃分,需要我們將語(yǔ)法研究中的理論轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的知識(shí)。

        例如以下三個(gè)句子:

        這三個(gè)句子中包含共同的符號(hào)串“火炬點(diǎn)燃了圣火”,而且都是符合現(xiàn)代漢語(yǔ)語(yǔ)法的句子,在生活中人們經(jīng)常這樣使用。人在閱讀以上三個(gè)句子的時(shí)候可以明顯感覺(jué)出句子意思的差別之處,而計(jì)算機(jī)看起來(lái)均是線(xiàn)性的符號(hào)串,甚至前7個(gè)字符都是一模一樣。要讓計(jì)算機(jī)學(xué)習(xí)到相應(yīng)的知識(shí)去區(qū)別這些句子結(jié)構(gòu)的差別,除了涉及到字的層面,還必然涉及到詞法層、句法層、語(yǔ)義層。只有在這四個(gè)層次深入研究,才能讓計(jì)算機(jī)“智能”地感覺(jué)出以上各句意思的差別,并做出正確的分析。

        三、面向計(jì)算的語(yǔ)言分析技術(shù)的四個(gè)層次

        語(yǔ)法研究的應(yīng)用對(duì)象由過(guò)去主要是面向人發(fā)展,到現(xiàn)在不僅面向人,還面向計(jì)算機(jī),而且后者顯得越來(lái)越迫切和重要,這是計(jì)算機(jī)科學(xué)技術(shù)飛速發(fā)展,以及信息社會(huì)對(duì)信息自動(dòng)化處理的要求不斷提高的必然結(jié)果。目前的信息處理技術(shù)越來(lái)越多地需要對(duì)自然語(yǔ)言進(jìn)行深層分析,比如機(jī)器翻譯、自動(dòng)文摘等就是如此。

        下面從面向計(jì)算的角度闡述對(duì)漢語(yǔ)語(yǔ)法研究的“字”(單指字的符號(hào)表示或叫字符)“詞法”“句法”“語(yǔ)義”四個(gè)層次的簡(jiǎn)單認(rèn)識(shí):

        1.要面向“計(jì)算”,首要的事情是讓計(jì)算機(jī)能識(shí)別、存儲(chǔ)我們的文字信息。從20世紀(jì)70年代至90年代中期算是中文信息處理的第一個(gè)高潮期,這期間的核心問(wèn)題是字的處理?;旧贤瓿闪嗽~頻統(tǒng)計(jì)、多種字體顯示/打印字庫(kù)、漢字顯示/打印技術(shù)、輸入法、內(nèi)碼標(biāo)準(zhǔn)、字符集標(biāo)準(zhǔn)等與字相關(guān)的所有基礎(chǔ)工作。到2000年,我國(guó)已制定了70個(gè)與中文信息處理相關(guān)的國(guó)家標(biāo)準(zhǔn)。這個(gè)階段也帶來(lái)過(guò)無(wú)限商機(jī),造就了聯(lián)想、方正、四通等一批靠中文處理產(chǎn)品起家的企業(yè)。從這些商業(yè)界的發(fā)展也能窺探到當(dāng)時(shí)從事研究漢字處理的人員之多。正是因?yàn)闈h字的成功處理才為今后的語(yǔ)料庫(kù)、樹(shù)庫(kù)等輸入輸出、存儲(chǔ)帶來(lái)了可能。經(jīng)過(guò)幾十年的發(fā)展,漢字的處理技術(shù)已經(jīng)比較成熟,完全可以支持更深層次的研究。

        2.漢語(yǔ)自動(dòng)分詞曾經(jīng)是漢語(yǔ)信息處理的一個(gè)瓶頸問(wèn)題。20世紀(jì)80年代人們開(kāi)始研究它到今天,20年已經(jīng)過(guò)去了,隨著研究的不斷深入,自動(dòng)分詞中的一些難題相繼解決或部分解決,如未登錄詞中的人名、地名識(shí)別問(wèn)題,切分不一致問(wèn)題,交集型歧義切分字段的正確切分問(wèn)題等都找到了一些比較有效的解決辦法。

        書(shū)面語(yǔ)的自動(dòng)分詞是漢語(yǔ)自動(dòng)分析特有的一個(gè)問(wèn)題,方法大致可以分為兩種:概率方法和非概率方法。概率方法是建立一個(gè)自動(dòng)分詞的統(tǒng)計(jì)模型,獲取模型的各組參數(shù),然后從可能的詞串中挑選概率最高的詞串作為輸出結(jié)果。非概率方法是基于字符串匹配的,有最大匹配和最小匹配,正向掃描和逆向掃描,增字匹配和減字匹配等,其中最大匹配法較為實(shí)用。自動(dòng)分詞中的歧義切分問(wèn)題和未登錄詞問(wèn)題還是需要學(xué)者們不斷研究和改進(jìn)的,自動(dòng)分詞可以說(shuō)是其他工作的基礎(chǔ),也有人把它比作是“永恒”的話(huà)題,如果沒(méi)有一個(gè)好的分詞系統(tǒng),一系列具有廣闊市場(chǎng)前景的應(yīng)用軟件,如中文搜索引擎、漢外機(jī)器翻譯等都難以取得實(shí)質(zhì)性進(jìn)展。

        現(xiàn)將詞性自動(dòng)標(biāo)注系統(tǒng)也放入詞法層來(lái)討論(實(shí)質(zhì)上詞性自動(dòng)標(biāo)記是離不開(kāi)句法知識(shí)的支持的),若涉及到詞性標(biāo)記,這個(gè)將毫無(wú)疑問(wèn)涉及到語(yǔ)言學(xué)界頗有爭(zhēng)議的詞類(lèi)問(wèn)題,當(dāng)前的詞類(lèi)劃分主要是依據(jù)朱德熙先生的《語(yǔ)法講義》(1982)[5]“給漢語(yǔ)的詞分類(lèi)不能根據(jù)形態(tài),只能根據(jù)詞的語(yǔ)法功能?!薄耙粋€(gè)詞的語(yǔ)法功能指的是這個(gè)詞在句法結(jié)構(gòu)里所能占據(jù)的語(yǔ)法位置”。當(dāng)前的詞性標(biāo)記集主要有北大標(biāo)記集和清華標(biāo)記集,各有側(cè)重,各有優(yōu)劣。這些詞性標(biāo)記集也在不斷發(fā)展和更新中的,例如北大標(biāo)記集就比剛提出來(lái)時(shí)完善許多,這些更新和完善也是學(xué)者們不斷實(shí)踐研究的結(jié)果。關(guān)于詞性和詞類(lèi)的問(wèn)題,也有人提出過(guò)異議,如陳小荷[6]從自動(dòng)句法分析的角度提出過(guò)相關(guān)的詞類(lèi)體系重構(gòu)的思想,是否可行也將通過(guò)實(shí)踐來(lái)檢驗(yàn),正是有了這些爭(zhēng)論才推動(dòng)了科學(xué)的不斷向前發(fā)展,這個(gè)領(lǐng)域還需要不斷深入研究。

        3.句法層可以說(shuō)是面向計(jì)算語(yǔ)言處理的核心層次,是與詞法和語(yǔ)義聯(lián)系的關(guān)鍵之處。句法分析是自然語(yǔ)言理解的關(guān)鍵步驟,它的任務(wù)是把句子的詞語(yǔ)序列映射為句法成分的層次結(jié)構(gòu),例如上文的“火炬點(diǎn)燃了圣火”可以為:S[dj[np[n火炬]vp[vp[v點(diǎn)燃u了]np[n圣火]]]]。

        基于規(guī)則的方法是常用的句法分析方法之一,我們需要盡快建立形式化的漢語(yǔ)語(yǔ)法規(guī)則體系。在規(guī)則知識(shí)的研究過(guò)程中,雖然相當(dāng)多的漢語(yǔ)研究工作不是直接面向中文信息處理的(不是規(guī)則形式呈現(xiàn)),但其中有不少研究實(shí)際上可以看作是跟發(fā)現(xiàn)漢語(yǔ)的語(yǔ)法規(guī)則緊密相關(guān)的,他們以描寫(xiě)形式闡述了句法規(guī)則、短語(yǔ)結(jié)構(gòu)等,另外基于配價(jià)理論、生成語(yǔ)法的空范疇理論、認(rèn)知語(yǔ)法背景下的漢語(yǔ)主位結(jié)構(gòu)和焦點(diǎn)結(jié)構(gòu)理論,都可以看作是在不同層面上揭示漢語(yǔ)的語(yǔ)法組合規(guī)則。雖然這些研究工作不是以中文信息處理的應(yīng)用為直接目標(biāo),在規(guī)則的發(fā)現(xiàn)和表達(dá)方面還是以往面向人的做法,但對(duì)以中文信息處理為直接目標(biāo)的研究,無(wú)疑也能提供有力的支持。除了規(guī)則驅(qū)動(dòng)的句法分析策略,還有規(guī)則與統(tǒng)計(jì)相融合的句法分析機(jī)制,兩者是互為補(bǔ)充的。句法層的消歧工作也是難點(diǎn)之一,所需要用到的知識(shí)不能僅局限于句法層,甚至需要用到相關(guān)詞法、語(yǔ)義的知識(shí)。

        4.隨著中文信息處理的深入,語(yǔ)義分析越來(lái)越得到重視。很多詞法、句法層難以解決的種種問(wèn)題,必然向更高層次尋求解決方案。語(yǔ)義將成為今后計(jì)算語(yǔ)言學(xué)方向和非計(jì)算語(yǔ)言學(xué)方向?qū)W者的研究重點(diǎn)和熱點(diǎn)。隨著網(wǎng)絡(luò)化進(jìn)程的加快,人們迫不及待地將目光投向了web網(wǎng)頁(yè),信息的檢索、抽取與過(guò)濾、文本的自動(dòng)分類(lèi)、機(jī)器翻譯等成為當(dāng)今研究的熱點(diǎn)技術(shù)。特別是基于語(yǔ)義的文本傾向性識(shí)別、褒貶態(tài)度計(jì)算等已經(jīng)在垃圾郵件過(guò)濾、信息安全、自動(dòng)文摘等領(lǐng)域有了廣泛的應(yīng)用前景。近年來(lái),語(yǔ)義方面的進(jìn)展尤為突出,既包括在理論上探討如何構(gòu)建語(yǔ)義知識(shí)的表示體系,也包括大規(guī)模的語(yǔ)義知識(shí)工程實(shí)踐,如WordNet等計(jì)算機(jī)用語(yǔ)義詞典的開(kāi)發(fā)。對(duì)于語(yǔ)義知識(shí)的組織方式,格語(yǔ)法、配價(jià)理論等盡管在理論背景和具體操作上差別顯著,但在出發(fā)點(diǎn)和目標(biāo)上其實(shí)有很強(qiáng)的一致性。從事工程性研究的人將在吸收有關(guān)語(yǔ)義理論合理的精神內(nèi)核的基礎(chǔ)上,根據(jù)需要加以拓展。

        綜上所述,面向計(jì)算的語(yǔ)法研究和語(yǔ)言本體的語(yǔ)法研究是一脈相承的,我們也能看到計(jì)算機(jī)處理領(lǐng)域的“三個(gè)平面”——“句法、語(yǔ)義、語(yǔ)用”甚至“四個(gè)平面”[2],我們期待語(yǔ)言本體的語(yǔ)法知識(shí)充分與機(jī)器可識(shí)別利用的“機(jī)械式”手段完美結(jié)合,雙向推動(dòng)各自的長(zhǎng)足發(fā)展。

        參考文獻(xiàn):

        [1]胡裕樹(shù).現(xiàn)代漢語(yǔ)(增訂本)[M].上海:上海教育出版社出版社,1981.

        [2]邵敬敏.當(dāng)前漢語(yǔ)語(yǔ)法研究的特點(diǎn)與發(fā)展趨勢(shì)[A].商務(wù)印書(shū)館編輯部.21世紀(jì)的中國(guó)語(yǔ)言學(xué)(一)[C].北京:商務(wù)印書(shū)館,2004.

        [3]孫茂松.中文信息處理發(fā)展戰(zhàn)略之我見(jiàn)[A].商務(wù)印書(shū)館編輯部.21世紀(jì)的中國(guó)語(yǔ)言學(xué)(一)[C].北京:商務(wù)印書(shū)

        館,2004.

        [4]詹衛(wèi)東.面向中文信息處理的現(xiàn)代漢語(yǔ)短語(yǔ)結(jié)構(gòu)規(guī)則研究[M].北京:清華大學(xué)出版社,2000.

        [5]朱德熙.語(yǔ)法講義[M].北京:商務(wù)印書(shū)館,1982.

        [6]陳小荷.從自動(dòng)句法分析角度看漢語(yǔ)詞類(lèi)問(wèn)題[J].語(yǔ)言教學(xué)與研究,1999,(3).

        [7]陳小荷.現(xiàn)代漢語(yǔ)自動(dòng)分析——Visual c++實(shí)現(xiàn)[M].北京:北京語(yǔ)言文化大學(xué)出版社,2000.

        [8]范曉.三個(gè)平面語(yǔ)法觀[M].北京:北京語(yǔ)言文化大學(xué)出版社,1996.

        [9]袁毓林.漢語(yǔ)動(dòng)詞的配價(jià)研究[M].南昌:江西教育出版社,1998.

        (程月,南京師范大學(xué)文學(xué)院、南京師范大學(xué)中北學(xué)院)

        精品老熟女一区二区三区在线| 成年毛片18成年毛片| 一本一道av无码中文字幕| 国产女女做受ⅹxx高潮| 国产在线播放网址| 亚洲男人堂色偷偷一区| 91久久精品一二三区蜜桃| 熟女高潮av一区二区| 一本色道久久88—综合亚洲精品| 大尺度免费观看av网站| 特级精品毛片免费观看| 夜夜未满十八勿进的爽爽影院| 无码人妻一区二区三区在线视频| 99热这里只有精品国产66| 中文字幕成人精品久久不卡| 久久老熟女一区二区三区| 精品亚洲一区二区区别在线观看| 亚洲一区二区三区小说| 久久精品欧美日韩精品| 欧美丰满大乳高跟鞋| 在线播放国产女同闺蜜| 国产喷白浆精品一区二区| 久久一区二区国产精品| 亚洲另类无码专区首页| 精品水蜜桃久久久久久久| 美女裸体自慰在线观看| 欧美综合图区亚洲综合图区| 91麻豆精品激情在线观最新| 午夜精品免费视频一区二区三区| 国产69久久精品成人看| 奇米影视777撸吧| 午夜a福利| 少妇人妻出水中文字幕乱码| 日韩中文字幕素人水野一区| 日日摸天天碰中文字幕你懂的| 亚洲av永久无码精品国产精品| 亚洲h电影| 一区二区在线观看视频亚洲| 中文字幕一区二区精品视频| 丰满少妇呻吟高潮经历| 亚洲a∨无码一区二区|