亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向計(jì)算機(jī)的漢語(yǔ)動(dòng)詞“得”鄰接特征考察

        2014-05-29 07:59:50
        語(yǔ)言研究 2014年3期
        關(guān)鍵詞:詞類(lèi)助詞現(xiàn)代漢語(yǔ)

        駱 琳

        (華中科技大學(xué) 中文系,武漢 430074)

        “得”作為現(xiàn)代漢語(yǔ)中一個(gè)使用頻率極高、意義用法相當(dāng)復(fù)雜的漢字,在不同的語(yǔ)境和上下文組合中,代表了幾種不同層次、不同類(lèi)屬的語(yǔ)言單位,具有不同的功能,表達(dá)不同的意義。從為計(jì)算機(jī)識(shí)別服務(wù)的目的出發(fā),立足于面向計(jì)算機(jī)的自然語(yǔ)言信息處理,將研究范圍限定在無(wú)論來(lái)源、無(wú)論讀音、無(wú)論詞性,凡字形相同的“得”字均納入我們的討論范圍。

        以《漢語(yǔ)大詞典》、《現(xiàn)代漢語(yǔ)詞典》和《現(xiàn)代漢語(yǔ)八百詞》的分類(lèi)為依托,我們將“得”字的用法分為六類(lèi):“得1”為普通動(dòng)詞,“得2”為能愿動(dòng)詞,“得3”為構(gòu)成述補(bǔ)結(jié)構(gòu)的結(jié)構(gòu)助詞,“得4”為動(dòng)態(tài)助詞,“得5”為構(gòu)詞語(yǔ)素,“得6”為專(zhuān)名、借詞用字等其他用法。另外還有一些誤為“得”的錯(cuò)別字,因著眼于計(jì)算機(jī)識(shí)別,不妨稱(chēng)之為“得7”。“得7”與其他類(lèi)型性質(zhì)根本不同,前六類(lèi)根據(jù)需要或提取或排除,而“得7”是在文本預(yù)處理階段即應(yīng)予以校正的對(duì)象,永不會(huì)被提取。

        我們的研究思路是在自建真實(shí)文本語(yǔ)料庫(kù)的基礎(chǔ)上,完成對(duì)封閉性訓(xùn)練語(yǔ)料的核對(duì)與標(biāo)注。使用Visual Basic.Net語(yǔ)言自行研制WordParse軟件,完成ACCESS格式的語(yǔ)料分析數(shù)據(jù)庫(kù)建設(shè)及數(shù)據(jù)統(tǒng)計(jì)分析。在自然語(yǔ)言信息處理的研究中,觀察和分析字符串的左右鄰接特征至關(guān)重要。DataWord軟件的研制則為我們建構(gòu)前后接續(xù)觀察和統(tǒng)計(jì)系統(tǒng),更直觀、更迅捷地觀察和統(tǒng)計(jì)字符串的前后接續(xù)狀況提供了便利。

        限于篇幅,本文只討論研究成果中涉及對(duì)普通動(dòng)詞“得1”前后接續(xù)特征的觀察和統(tǒng)計(jì)。

        一 動(dòng)詞“得”左右鄰接特征分布統(tǒng)計(jì)

        判斷自然語(yǔ)言中字符串能否鄰接在語(yǔ)言信息處理研究的許多領(lǐng)域廣為使用,能否鄰接的判斷標(biāo)準(zhǔn)應(yīng)該由大規(guī)模的真實(shí)文本統(tǒng)計(jì)而出,然而由于自然語(yǔ)言中詞語(yǔ)分布的稀疏性,對(duì)判斷標(biāo)準(zhǔn)的準(zhǔn)確性和全面性所造成的干擾,使我們?cè)趯?duì)動(dòng)詞“得”的鄰接特征進(jìn)行判斷時(shí),不得不對(duì)統(tǒng)計(jì)出來(lái)的具體詞形進(jìn)行歸類(lèi),即在對(duì)語(yǔ)料庫(kù)中真實(shí)文本統(tǒng)計(jì)的基礎(chǔ)上通過(guò)內(nèi)省,并結(jié)合專(zhuān)家知識(shí)庫(kù)中的相關(guān)知識(shí),對(duì)詞語(yǔ)進(jìn)行歸類(lèi),用詞語(yǔ)類(lèi)的接續(xù)關(guān)系代替詞形的接續(xù)關(guān)系作為判斷鄰接與限制的依據(jù),并通過(guò)數(shù)據(jù)的統(tǒng)計(jì)來(lái)說(shuō)明動(dòng)詞“得”對(duì)鄰接詞語(yǔ)的選擇性。

        (一)動(dòng)詞“得”左鄰接特征分布

        “得”左鄰接詞類(lèi)、頻次及頻率列表 表1

        從表1中可以看出,在490例含動(dòng)詞“得”結(jié)構(gòu)中共有210個(gè)詞語(yǔ)、18種詞類(lèi)(含標(biāo)點(diǎn))與“得”左鄰接,連接的詞語(yǔ)類(lèi)別相對(duì)較多,并且各個(gè)詞類(lèi)之間的分布也較為均勻。連接頻率最高的是副詞,出現(xiàn)127頻次,占總頻次的26%,這可能與“得”作為一個(gè)普通動(dòng)詞,在通常情況下能夠?yàn)楦痹~所修飾有關(guān)。其次是動(dòng)詞,出現(xiàn) 75頻次,占總頻次的 16%,其中以能愿動(dòng)詞和單音節(jié)典型動(dòng)詞為主。然后是名詞、代詞、助詞和形容詞,雖然數(shù)詞、量詞、時(shí)間詞、專(zhuān)有名詞和習(xí)用語(yǔ)也出現(xiàn)連接,但頻次極低。此外,與“得”左鄰接還出現(xiàn)了51頻次的空位和15頻次的標(biāo)點(diǎn),分別占了總頻次的11%和3%,這與含動(dòng)詞“得”結(jié)構(gòu)主要充當(dāng)謂語(yǔ)有關(guān)。

        (二)動(dòng)詞“得”右鄰接特征分布

        “得”右鄰接詞類(lèi)、頻次及頻率列表 表2

        表2中顯示,在490例含動(dòng)詞“得”結(jié)構(gòu)中共有172個(gè)詞語(yǔ)、18種詞類(lèi)(含標(biāo)點(diǎn))與“得”右鄰接,同樣,連接的詞語(yǔ)類(lèi)別相對(duì)較多,只是各個(gè)詞類(lèi)之間的分布并不均勻,并且連接出現(xiàn)的高頻詞較為集中,如副詞“不”和時(shí)態(tài)助詞“了”均出現(xiàn)48頻次,各占連接總頻次的 10%。當(dāng)然,連接頻率最高的是名詞,出現(xiàn)179頻次,占總頻次的38%,這是由于作為普通動(dòng)詞,“得”具有一般動(dòng)詞的語(yǔ)法功能,在通常情況下,“得”后面都要帶賓語(yǔ),只有在主謂謂語(yǔ)句中,“得”充當(dāng)謂語(yǔ)部分的小謂語(yǔ),而全句的主語(yǔ)正是“得”語(yǔ)義上的關(guān)涉對(duì)象的情況下,“得”可以不帶賓語(yǔ),再就是在“得”前帶有結(jié)構(gòu)助詞“所”的格式中,“得”后也可以不帶賓語(yǔ),因此在“得”的右鄰接中出現(xiàn)了23頻次的空位,占總頻次的5%。其次是助詞,出現(xiàn) 70頻次,占總頻次的 15%,這也與一般動(dòng)詞能后接時(shí)態(tài)助詞“著、了、過(guò)”的語(yǔ)法功能有關(guān)。再就是副詞、動(dòng)詞、數(shù)詞、代詞、結(jié)構(gòu)助詞、形容詞、量詞、連詞和出現(xiàn)頻率極低的區(qū)別詞、語(yǔ)氣詞、介詞以及習(xí)用語(yǔ)。

        二 動(dòng)詞“得”的左熵和右熵

        為了進(jìn)一步驗(yàn)證對(duì)于動(dòng)詞“得”左右接續(xù)能力的考察,我們引入熵的計(jì)算,通過(guò)數(shù)據(jù)的演算進(jìn)一步說(shuō)明“得”對(duì)左右鄰接詞語(yǔ)所具有的選擇性。

        熵是一個(gè)描述隨機(jī)變量的不確定性的度量。就熵而言,一個(gè)隨機(jī)變量的熵越大,它的不確定性也越大,信息量也就越大,即正確估計(jì)其值的可能性就越??;相反,一個(gè)隨機(jī)變量的熵越小,它的不確定性也越小,信息量也就越小,即正確估計(jì)其值的可能性就越大。

        熵的計(jì)算公式為:

        如果X是一個(gè)離散隨機(jī)變量,其概率分布為P(x),x∈X,則X的熵H(X)是:

        為了表現(xiàn)某個(gè)詞或某個(gè)詞類(lèi)對(duì)于左右鄰接關(guān)系的選擇性,我們把這個(gè)詞或詞類(lèi)記作 T,把與這個(gè)詞或詞類(lèi)左鄰或右鄰的詞語(yǔ)單位看作隨機(jī)變量L和R,把L和R的取值記作c,則L和R對(duì)于T的條件熵(稱(chēng)作T的左熵和右熵),分別為:

        f表示頻次。

        顯然,左熵和右熵越小,T左右鄰接詞語(yǔ)的不確定性越小,確定性越大,或者說(shuō)T對(duì)左右鄰接語(yǔ)言單位的選擇性就越強(qiáng);反之,左熵和右熵越大,T左右鄰接詞語(yǔ)的不確定性越大,確定性越小,或者說(shuō)T對(duì)左右鄰接語(yǔ)言單位的選擇性就越弱。

        (一)動(dòng)詞“得”左右熵的計(jì)算

        這里我們把“得”當(dāng)作 T,通過(guò)歸并,使與動(dòng)詞“得”鄰接的語(yǔ)言單位都以(詞)類(lèi)的形式鄰接,然后在自建的真實(shí)文本數(shù)據(jù)庫(kù)中,計(jì)算出“得”的左熵和右熵,計(jì)算結(jié)果如下:

        左熵H(L/T)= 0.979301 右熵H(R/T)=0.882221

        從“得”左熵和右熵的計(jì)算結(jié)果可以看出,動(dòng)詞“得”的左熵和右熵都很高,并且左熵高于右熵,這說(shuō)明動(dòng)詞“得”的左右鄰接詞語(yǔ)(類(lèi))的不確定性很大,即動(dòng)詞“得”對(duì)左右鄰接語(yǔ)言單位的選擇性強(qiáng),并且左邊的選擇性又強(qiáng)于右邊。這正說(shuō)明“得”作為普通動(dòng)詞,其語(yǔ)法功能和句法組合具有較大的靈活性,能與其左右鄰接的詞語(yǔ)類(lèi)別和詞形數(shù)量較多。

        (二)動(dòng)詞“得”不同接續(xù)關(guān)系左右熵的計(jì)算

        “得”不同接續(xù)關(guān)系的左熵與右熵 表3

        從表3中熵的計(jì)算結(jié)果可以看出,動(dòng)詞“得”在與不同詞類(lèi)的接續(xù)關(guān)系中熵值各不相同,甚至相差很遠(yuǎn)。例如,動(dòng)詞“得”對(duì)所有能與之鄰接的詞類(lèi)表現(xiàn)出了較強(qiáng)的傾向性,在與副詞的鄰接中左熵最大,因此,對(duì)副詞的選擇不確定性強(qiáng),信息量大,正確估計(jì)其值的可能性小,這與“得”作為普通動(dòng)詞最易受到副詞的修飾相一致,而在與介詞的鄰接中右熵最小,因此,對(duì)介詞的選擇確定性強(qiáng),信息量小,正確估計(jì)其值的可能性大,這也說(shuō)明了動(dòng)詞“得”的賓語(yǔ)更多時(shí)候?yàn)槊~性成分,而非謂詞性成分,故動(dòng)詞“得”與名詞接續(xù),右熵最大。

        這一計(jì)算結(jié)果將為后續(xù)搭配概率的統(tǒng)計(jì)分析提供有利的數(shù)據(jù)支持。

        在對(duì)漢語(yǔ)動(dòng)詞“得”的左右鄰接特征的考察中,我們以量化研究為基石,以概率統(tǒng)計(jì)為基本手段,以“數(shù)據(jù)驅(qū)動(dòng)”為基本理念,實(shí)現(xiàn)了在大規(guī)模的語(yǔ)料庫(kù)范圍內(nèi)采用基于統(tǒng)計(jì)的方法對(duì)動(dòng)詞“得”在真實(shí)文本中的前后接續(xù)情況進(jìn)行了窮盡性考察??疾旖Y(jié)果表明,“得”的左鄰接,連接詞類(lèi)相對(duì)較多,且各詞類(lèi)之間的分布也較為均勻,以副詞鄰接頻次最高,與動(dòng)詞鄰接,則以能愿動(dòng)詞和單音節(jié)典型動(dòng)詞為主;“得”的右鄰接,雖然連接的詞類(lèi)同樣較多,但分布并不均勻,高頻詞較為集中,以名詞鄰接頻次最高。這與“得”作為一個(gè)普通動(dòng)詞,具有一般動(dòng)詞的語(yǔ)法功能,且含動(dòng)詞“得”結(jié)構(gòu)主要充當(dāng)謂語(yǔ)有關(guān)。

        為了進(jìn)一步說(shuō)明“得”對(duì)于左右鄰接關(guān)系的選擇性,我們引入了“熵”的概念,通過(guò)對(duì)“得”的左右熵及不同接續(xù)關(guān)系的左右熵的計(jì)算,其結(jié)果進(jìn)一步驗(yàn)證了我們?cè)诖笠?guī)模真實(shí)文本中對(duì)于動(dòng)詞“得”左右鄰接特征的考察,也為今后搭配概率的統(tǒng)計(jì)分析提供了有利的數(shù)據(jù)支持。

        白碩 1995《語(yǔ)言學(xué)知識(shí)的計(jì)算機(jī)輔助發(fā)現(xiàn)》,科學(xué)出版社。

        陳曉明、周渝 2004 漢語(yǔ)部分句法分析的研究和發(fā)展趨勢(shì),《貴州大學(xué)學(xué)報(bào)(自科版)》第4期。

        馮志偉 1992 計(jì)算語(yǔ)言學(xué)對(duì)理論語(yǔ)言學(xué)的挑戰(zhàn),《語(yǔ)言文字應(yīng)用》第1期。

        漢語(yǔ)大詞典編輯委員會(huì) 1991《漢語(yǔ)大詞典》,漢語(yǔ)大詞典出版社。

        黃昌寧 1993 關(guān)于處理大規(guī)模真實(shí)文本的談話,《語(yǔ)言文字應(yīng)用》第2期。

        李文浩 2013“都”的指向識(shí)別及相關(guān)“都”字句的表達(dá)策略,《漢語(yǔ)學(xué)報(bào)》第1期。

        呂叔湘 1980《現(xiàn)代漢語(yǔ)八百詞》,商務(wù)印書(shū)館。

        馬希文 1989 從計(jì)算語(yǔ)言學(xué)角度看語(yǔ)法研究,《國(guó)外語(yǔ)言學(xué)》第3期。

        吳蔚天、羅建林 1994《漢語(yǔ)計(jì)算語(yǔ)言學(xué)——漢語(yǔ)形式語(yǔ)法和形式分析》,電子工業(yè)出版社。

        俞士汶 1999《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工——詞語(yǔ)切分與詞性標(biāo)注規(guī)范與手冊(cè)》,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所。

        俞士汶等 1998《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解》,清華大學(xué)出版社。

        詹衛(wèi)東 2000 80年代以來(lái)漢語(yǔ)信息處理研究評(píng)述,《當(dāng)代語(yǔ)言學(xué)》第2期。

        中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室 1996《現(xiàn)代漢語(yǔ)詞典》(修訂本),商務(wù)印書(shū)館。

        猜你喜歡
        詞類(lèi)助詞現(xiàn)代漢語(yǔ)
        韓國(guó)語(yǔ)助詞的連續(xù)構(gòu)成與復(fù)合助詞的區(qū)分
        日語(yǔ)中的“強(qiáng)調(diào)”表達(dá)研究——以助詞為中心
        “楞”“愣”關(guān)系及“楞”在現(xiàn)代漢語(yǔ)中的地位
        用詞類(lèi)活用法擴(kuò)充詞匯量
        基于語(yǔ)料庫(kù)“隱秘”的詞類(lèi)標(biāo)注初步探究
        從成語(yǔ)中學(xué)習(xí)詞類(lèi)活用
        日語(yǔ)中“間投助詞”與“終助詞”在句中適用位置的對(duì)比考察
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        江永桃川土話的助詞
        基于“字本位”理論再談漢語(yǔ)詞類(lèi)問(wèn)題
        天天躁夜夜躁天干天干2020| 亚洲成人av一区二区| 国产高清成人午夜视频| 三年片免费观看大全有| 亚洲男人天堂2019| 国产99精品精品久久免费 | 富婆猛男一区二区三区| 无人区一码二码三码四码区| 精品久久久久久久久午夜福利| 白白青青视频在线免费观看| 日本久久精品福利视频| …日韩人妻无码精品一专区| 欧美性猛交xxxx乱大交蜜桃 | 久久久国产精品ⅤA麻豆| 亚洲女同一区二区久久| 亚洲一区精品在线中文字幕| 亚洲国产av玩弄放荡人妇系列| 一级午夜视频| 国产一区二区免费在线观看视频 | 色先锋av影音先锋在线| 国产精品视频一区国模私拍| 精品视频在线观看一区二区有| 24小时免费在线观看av| 国产女厕偷窥系列在线视频| 亚洲AV一二三四区四色婷婷| 日韩精品免费观看在线| 欧美性高清另类videosex| 精品国产一区二区三区av天堂| 中文字幕aⅴ人妻一区二区| 一区一级三级在线观看| 日本熟妇视频在线中出| 伊人久久大香线蕉午夜av| 久久发布国产伦子伦精品| 亚洲成av人无码免费观看| 国产精品日韩av一区二区三区| 无码av一区二区大桥久未| 免费99视频| 清纯唯美亚洲经典中文字幕| 亚洲av日韩综合一区久热| 狠狠色狠狠色综合久久第一次 | 亚洲性啪啪无码AV天堂|