亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)素位置及語(yǔ)素義對(duì)構(gòu)詞的貢獻(xiàn)分析
        ——基于字位分詞的理論依據(jù)

        2019-04-19 06:53:00戴玉玲
        文教資料 2019年35期
        關(guān)鍵詞:構(gòu)詞語(yǔ)素分詞

        戴玉玲

        (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        基于字位的分詞方法是目前中文文本分詞的重要方法,它將分詞任務(wù)轉(zhuǎn)換成了標(biāo)注任務(wù),首先按照字在詞中所處的位置,將語(yǔ)料庫(kù)中已正確切分的詞語(yǔ)轉(zhuǎn)化為一個(gè)標(biāo)注序列,通過(guò)訓(xùn)練最大熵模型或隨機(jī)場(chǎng)模型進(jìn)行機(jī)器學(xué)習(xí),由訓(xùn)練得出的標(biāo)注器來(lái)執(zhí)行標(biāo)注任務(wù),最后將被標(biāo)注的測(cè)試數(shù)據(jù)再轉(zhuǎn)換為分詞形式。字本位分詞,無(wú)須詞表,占用資源少;分詞速度和效果也最高,對(duì)于沒(méi)有大量分析結(jié)果的特質(zhì)語(yǔ)料和古典文學(xué)這些同質(zhì)性較少的語(yǔ)料來(lái)說(shuō)更能滿足用戶需求。針對(duì)該種分詞方法,已有多項(xiàng)實(shí)驗(yàn)證明使用該方法進(jìn)行分詞,其結(jié)果的精確率和召回率均已達(dá)到較高水平,是一種行之有效的分詞方法[1](29-48)。 但歷年來(lái)對(duì)該方法的研究?jī)H限于實(shí)驗(yàn)應(yīng)用方面,而對(duì)于其有效性的理論分析卻稍顯不足。作為一種成功的分詞方法,對(duì)其背后蘊(yùn)含的語(yǔ)言學(xué)理論及知識(shí)的挖掘也十分必要。本文將從語(yǔ)言學(xué)理論角度出發(fā),對(duì)基于字位的分詞方法加以分析,采用假設(shè)檢驗(yàn)法,假設(shè)語(yǔ)素義、語(yǔ)素位置以及詞義三者之間關(guān)聯(lián),并通過(guò)實(shí)驗(yàn)和統(tǒng)計(jì)分析,證明語(yǔ)素義、語(yǔ)素位置對(duì)構(gòu)詞的作用,并且總結(jié)字位分詞的錯(cuò)誤類型及原因。

        一、前人工作

        (一)基于字位分詞的相關(guān)研究

        薛念文[2](57-63)在2002年首次提出了基于字的分詞方法,他提出將分詞過(guò)程視作構(gòu)詞過(guò)程,標(biāo)記特定詞語(yǔ)中每個(gè)字的位置:LL標(biāo)記詞首,RR標(biāo)記詞尾,MM標(biāo)記詞中,LR標(biāo)記單字詞。所有的標(biāo)記根據(jù)定義好的特征模板進(jìn)行學(xué)習(xí)并獲得概率模型。然后,在待分字串上,根據(jù)字與字之間的結(jié)合緊密程度,得到一個(gè)詞位的標(biāo)注結(jié)果。再根據(jù)標(biāo)注結(jié)果獲得分詞結(jié)果。他在次年運(yùn)用最大熵模型訓(xùn)練的分詞系統(tǒng)在評(píng)測(cè)任務(wù)中取得了優(yōu)秀的成績(jī)。在Bakeoff-2005和Bakeoff-2006中,采用條件隨機(jī)場(chǎng)模型訓(xùn)練的分詞系統(tǒng)的各項(xiàng)評(píng)測(cè)結(jié)果均獨(dú)占鰲頭。

        此后,使用最大熵模型和條件隨機(jī)場(chǎng)等模型的基于字的分詞方法得到了廣泛的應(yīng)用,并且由眾多學(xué)者進(jìn)行優(yōu)化推廣。針對(duì)標(biāo)點(diǎn)符號(hào)、姓氏和地名機(jī)構(gòu)名添加相應(yīng)的特征模板,提高分詞精度[3]。近年來(lái)深度學(xué)習(xí)的方法如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等模型也被運(yùn)用于字序列標(biāo)注[4](169-177)。出現(xiàn)了特定領(lǐng)域的如基于字序列標(biāo)注的對(duì)書(shū)目名的關(guān)鍵詞抽取[5](39-45),對(duì)于同樣沒(méi)有明顯詞 語(yǔ)邊界的外語(yǔ)文 本如緬甸語(yǔ),也有研究者基于該方法論述了其分詞問(wèn)題及其實(shí)現(xiàn)[6](1682-1688)。

        但縱覽相關(guān)論文,它們基本都是從實(shí)驗(yàn)角度對(duì)基于字位的分詞方法進(jìn)行驗(yàn)證和優(yōu)化,薛念文給出該方法的理?yè)?jù)支撐是漢語(yǔ)中特定詞語(yǔ)的字?jǐn)?shù)有限,一般在四字以內(nèi),且漢字總體數(shù)量保持相對(duì)穩(wěn)定[1]。從語(yǔ)言學(xué)角度看,詞是由語(yǔ)素構(gòu)成的,且漢語(yǔ)中的語(yǔ)素大部分都是單字,因此,可以從語(yǔ)素角度切入,分析基于字位的分詞方法的理?yè)?jù)性。

        (二)語(yǔ)素位置及語(yǔ)素義的相關(guān)研究

        語(yǔ)素是語(yǔ)言中最小的音義結(jié)合體,也是最小的構(gòu)詞單位?!冬F(xiàn)代漢語(yǔ)》對(duì)語(yǔ)素進(jìn)行了簡(jiǎn)單的分類:根據(jù)語(yǔ)素是否可以單獨(dú)成詞,可以分為成詞語(yǔ)素和不成詞語(yǔ)素;根據(jù)不成詞語(yǔ)素在詞語(yǔ)中的位置是否固定,可分為定位語(yǔ)素和不定位語(yǔ)素[7]。

        最近研究表明,不管語(yǔ)素是否可以單獨(dú)成詞,將一段文本中詞語(yǔ)語(yǔ)素的位置打亂,漢語(yǔ)母語(yǔ)者仍然可以暢通無(wú)阻地理解文本的內(nèi)涵[8](158-166)。他們會(huì)在閱讀中不自覺(jué)地還原語(yǔ)素固有的位置信息,這從心理學(xué)角度證明了語(yǔ)素位置與詞語(yǔ)分割以及詞義認(rèn)知關(guān)系密切。而對(duì)于語(yǔ)素義的研究較少,主要集中于詞義的研究。吉志薇通過(guò)標(biāo)注詞語(yǔ)中語(yǔ)素的義類,根據(jù)語(yǔ)素意義分布表計(jì)算得到所有義類組合的詞語(yǔ),返回排名最高的義類組合作為該詞最有可能的意義,以此輔助分詞以及識(shí)別理解未登錄詞[9](63-68)。 總體來(lái)說(shuō),從語(yǔ)素位置與語(yǔ)素義的角度入手,進(jìn)行分詞實(shí)驗(yàn)的優(yōu)化或是對(duì)分詞方法的理論分析依然有待挖掘。

        由于現(xiàn)代漢語(yǔ)中的詞語(yǔ)大多數(shù)為二字詞語(yǔ),因此本文將利用《現(xiàn)代漢語(yǔ)詞典》(第六版)中51265個(gè)二三字詞作為研究對(duì)象,剔除其中含字母的詞7個(gè),共計(jì)51258個(gè)詞語(yǔ),并提取其中出現(xiàn)頻率最高的前50個(gè)語(yǔ)素,根據(jù)這些高頻語(yǔ)素在詞中的位置及語(yǔ)義信息,討論語(yǔ)素對(duì)構(gòu)詞的貢獻(xiàn)以及基于字的分詞方法的有效性。

        二、語(yǔ)素位置對(duì)構(gòu)詞的貢獻(xiàn)

        本章首先對(duì)已得出的50個(gè)高頻語(yǔ)素的位置信息進(jìn)行統(tǒng)計(jì),查看各語(yǔ)素在詞語(yǔ)中的位置分布情況,發(fā)現(xiàn)一些特定的語(yǔ)素,例如詞尾出現(xiàn)詞語(yǔ)的末尾的特征可以作為自動(dòng)分詞的依據(jù)之一。再對(duì)特定的語(yǔ)素“人”進(jìn)行研究,發(fā)現(xiàn)語(yǔ)素位置在一定程度上影響著其構(gòu)詞方式。

        (一)語(yǔ)素位置信息統(tǒng)計(jì)

        統(tǒng)計(jì)50個(gè)高頻語(yǔ)素出現(xiàn)在《現(xiàn)代漢語(yǔ)詞典》中詞語(yǔ)的詞首位置(第一位置)、詞中位置(第二位置)、詞尾位置(第三位置),可以得出:除了“子”“兒”“頭”三個(gè)語(yǔ)素外,其他高頻語(yǔ)素出現(xiàn)在第三個(gè)位置上的概率均小于0.1,且“小”“打”“不”“出”的相應(yīng)概率為0。其中“子”“兒”出現(xiàn)在第一位置的概率也小于0.1。這印證了“子”“兒”“頭”常以詞語(yǔ)后綴的形式出現(xiàn)。但各高頻語(yǔ)素出現(xiàn)在各個(gè)位置上的概率差異并不明顯。計(jì)算各高頻語(yǔ)素位置的熵信息[10](23)來(lái)表示其分布的均勻程度。熵,又稱自信息,可度量變量的不確定性,變量數(shù)和集中程度都能夠影響熵值。一般來(lái)說(shuō),熵值越大,表明變量的數(shù)量越多,分布均勻,不確定性越大;反之則確定性越大,熵值為0,表明變量完全可以確定。

        計(jì)算每個(gè)高頻語(yǔ)素X在每個(gè)位置上的概率P(X),再根據(jù)給定的熵的計(jì)算公式得出每個(gè)語(yǔ)素X的熵①。對(duì)得出的結(jié)果進(jìn)行統(tǒng)計(jì)。圖1為語(yǔ)素位置的熵值分布圖:

        圖1 語(yǔ)素位置的熵值分布

        若熵值越大,則分布越均勻,僅通過(guò)語(yǔ)素位置信息進(jìn)行分詞的困難也就越大。反之,熵值越小,分布越不均勻,語(yǔ)素固有的位置信息則可以作為分詞的標(biāo)準(zhǔn)之一。從圖1可以看出,該50個(gè)高頻語(yǔ)素的熵值均較大,集中在0.3-0.5之間。這說(shuō)明總體來(lái)看,各語(yǔ)素在各位置上的分布較均衡,因此不能單憑語(yǔ)素固有的位置信息作為分詞的依據(jù)。

        (二)語(yǔ)素位置與構(gòu)詞方式的關(guān)系

        根據(jù)上述實(shí)驗(yàn)可以看到,單純看待詞內(nèi)部每個(gè)語(yǔ)素的位置分布似乎沒(méi)有什么規(guī)律可言。那語(yǔ)素構(gòu)詞的方式是否與其出現(xiàn)在特定詞中的位置有關(guān)?本文選取在《現(xiàn)代漢語(yǔ)詞典》(第六版)中出現(xiàn)頻率高且在詞內(nèi)各位置上分布較均勻的語(yǔ)素“人”,分別統(tǒng)計(jì)二字詞和三字詞中,“人”出現(xiàn)在詞各位置上時(shí)語(yǔ)素的構(gòu)詞方式,形成表1。

        表1 “人”出現(xiàn)在詞各位置上的構(gòu)詞方式

        表1中共統(tǒng)計(jì)了418個(gè)含“人”的詞語(yǔ),其中二字詞278個(gè),三字詞199個(gè)??梢钥闯觯还苁嵌衷~還是三字詞,偏正結(jié)構(gòu)的構(gòu)詞方式占據(jù)了絕對(duì)地位,共230例,其次是述賓結(jié)構(gòu)的構(gòu)詞方式,共145例。而述賓結(jié)構(gòu)不出現(xiàn)在第一位置,主謂結(jié)構(gòu)不出現(xiàn)在第二位置,這說(shuō)明語(yǔ)素出現(xiàn)的位置在一定程度上限制了其構(gòu)詞方式。表2給出了語(yǔ)素“人”在不同詞位上的概率和熵值。觀察發(fā)現(xiàn),“人”處于三字詞的第一位置時(shí)熵值最小,為0.15,此時(shí)這些三字詞有極大可能是偏正結(jié)構(gòu)。

        表2 “人”出現(xiàn)在詞各位置上構(gòu)詞方式的熵值

        三、語(yǔ)素義對(duì)構(gòu)詞的貢獻(xiàn)

        第二章統(tǒng)計(jì)分析了語(yǔ)素的位置信息及其與特定詞的構(gòu)詞方式的關(guān)系,發(fā)現(xiàn)了其位置信息雖然可以揭露出一定的構(gòu)詞方式信息,但無(wú)法作為判斷分詞的唯一標(biāo)準(zhǔn)。因此本章將從語(yǔ)素意義的角度,探究跨詞語(yǔ)語(yǔ)素意義以及詞語(yǔ)內(nèi)語(yǔ)素意義的關(guān)系,分析其是否有可能對(duì)構(gòu)詞產(chǎn)生影響,進(jìn)一步成為基于字的分詞方式的理論支撐。

        (一)跨詞語(yǔ)語(yǔ)素義與詞語(yǔ)內(nèi)語(yǔ)素義

        由于漢語(yǔ)中語(yǔ)素的意義通常比較復(fù)雜,因此本文僅選取語(yǔ)料庫(kù)在線中的單個(gè)實(shí)例,手工對(duì)該句子進(jìn)行分詞,得到8對(duì)跨詞語(yǔ)素及6對(duì)詞內(nèi)語(yǔ)素,分別研究其跨詞語(yǔ)素以及詞語(yǔ)內(nèi)語(yǔ)素的在語(yǔ)料庫(kù)中的分布情況,并通過(guò)查詢《現(xiàn)代漢語(yǔ)詞典》(第六版)每個(gè)語(yǔ)素的義項(xiàng),觀察各對(duì)語(yǔ)素的意義之間是否具有相近或相關(guān)關(guān)系。

        革命/人民/團(tuán)結(jié)/越/廣泛,階級(jí)/敵人/越/孤立[11]。

        表3 例句中語(yǔ)素對(duì)之間的頻次及語(yǔ)素義關(guān)系

        表3中的頻次一欄表示的是各語(yǔ)素對(duì)在語(yǔ)料庫(kù)在線中的頻次分布,可以清楚地看出詞間語(yǔ)素對(duì)的頻次遠(yuǎn)遠(yuǎn)高于跨詞語(yǔ)素間的頻次,下面以“團(tuán)結(jié)”“結(jié)越”為例,查詢“團(tuán)”“結(jié)”“越”在《現(xiàn)代漢語(yǔ)詞典》(第六版)中的相關(guān)義項(xiàng),說(shuō)明語(yǔ)素義間的關(guān)系。

        【團(tuán)】tuán⑤會(huì)合在一起:~聚|~結(jié)。[12](1321)

        【結(jié)】jié④凝聚;凝結(jié):~晶|湖面~了一層冰。[12](662)

        【越】1yuè①跨過(guò)(阻礙);跳過(guò):~墻|翻山~嶺。 ②不按照一般的次序;超出(范圍):~級(jí)|~權(quán)。③(聲音、情感)昂揚(yáng):激~|聲音清~。④〈書(shū)〉搶奪:殺人~貨。

        【越】2yuè疊用,表示程度隨著條件的變化而變化(跟“愈…愈…”相同):腦子~用~靈|爭(zhēng)論~認(rèn)真,是非也就~清楚。

        【越】3yuè①周朝國(guó)名,原來(lái)在今浙江東部,后來(lái)擴(kuò)展到江蘇、山東。 ②指浙江東部。 ③姓。[12](1609)

        觀察所列出的義項(xiàng),“團(tuán)”的⑤義項(xiàng)和“結(jié)”的④義項(xiàng)呈現(xiàn)出語(yǔ)義相似的關(guān)系,都包含著“聚合”的意義,因此二者結(jié)合成詞的可能性很大,而“結(jié)”與“越”的任何一個(gè)義項(xiàng)都沒(méi)有相似或相關(guān)關(guān)系,因此二者結(jié)合成詞的可能性很小。這說(shuō)明詞語(yǔ)中各項(xiàng)語(yǔ)素義之間呈現(xiàn)出緊密的聯(lián)系,而對(duì)跨詞語(yǔ)中各項(xiàng)語(yǔ)素義之間聯(lián)系不大。語(yǔ)素意義的考慮說(shuō)明了詞并不是字與字的簡(jiǎn)單堆砌,而是有其內(nèi)部的結(jié)構(gòu)和意義,也正因此印證了各語(yǔ)素對(duì)在語(yǔ)料庫(kù)中的出現(xiàn)頻次差別如此之大,足以使通過(guò)機(jī)器學(xué)習(xí)獲得概率模型,進(jìn)一步進(jìn)行基于字的分詞方法成為可能。

        (二)語(yǔ)素義與詞義的關(guān)系

        除了詞語(yǔ)內(nèi)部的語(yǔ)素義,語(yǔ)素義與詞義的關(guān)系也十分密切。 根據(jù)符淮青[13](98-110)的觀點(diǎn),語(yǔ)素義和詞義的關(guān)系可分為5種:第一種類型,語(yǔ)素義直接地完全地表示詞義,即相等關(guān)系;第二種,語(yǔ)素義直接地但部分地表示詞義。這種類型的詞義等于語(yǔ)素義之和加上詞的暗含內(nèi)容,即縮小關(guān)系;第三種類型,語(yǔ)素義和詞義的聯(lián)系是間接的,詞義是語(yǔ)素義的引申比喻義即擴(kuò)大關(guān)系;第四種類型,部分語(yǔ)素在構(gòu)詞中失落原義,即缺失關(guān)系;第五種類型,構(gòu)成詞的所有語(yǔ)素的意義都不顯示詞義,即語(yǔ)素義與詞義無(wú)關(guān)。

        圖2 “人”的語(yǔ)素義與詞義的關(guān)系

        從圖2中可以看出,對(duì)高頻語(yǔ)素“人”來(lái)說(shuō),語(yǔ)素義直接完全地表示詞義的情況,即詞義相等的情況最為突出,共297個(gè)詞例,占比71.05%,而其他幾種情況出現(xiàn)的頻次則較為平均,且頻率較低,前三種情況中,語(yǔ)素義都與詞義有關(guān),共計(jì)360例,占比86.12%。這說(shuō)明了語(yǔ)素義對(duì)詞義的理解具有較大的幫助。在分詞時(shí),若在統(tǒng)計(jì)或深度學(xué)習(xí)的基礎(chǔ)上能將語(yǔ)素義納入考慮,在現(xiàn)階段分詞技術(shù)的基礎(chǔ)上,利用詞典或知網(wǎng)等中各語(yǔ)素的義項(xiàng),自動(dòng)分析分詞后語(yǔ)素義之間的關(guān)聯(lián)度,以及各相鄰詞義之間的關(guān)聯(lián)度,可以進(jìn)一步提高分詞精度。

        四、分詞錯(cuò)誤類型及原因

        目前基于字的分詞方法的應(yīng)用已較為廣泛,不管是使用傳統(tǒng)機(jī)器學(xué)習(xí)的最大熵模型和隨機(jī)場(chǎng)模型的分詞系統(tǒng),還是使用深度學(xué)習(xí)中一些模型的分詞系統(tǒng),其分詞精度均已達(dá)到95%左右甚至更高,但在分詞結(jié)果中仍不可避免地出現(xiàn)一些錯(cuò)誤,本章將歸納兩種分詞過(guò)程中的常見(jiàn)錯(cuò)誤,并且嘗試給出分詞錯(cuò)誤的原因。

        (一)錯(cuò)誤類型

        未登錄詞是指在機(jī)器可讀的詞典中沒(méi)有出現(xiàn)過(guò)的詞,有數(shù)據(jù)表明,未登錄詞造成的分詞精度失落至少比分詞歧義大5倍以上[14](8-19),但自從采取了基于字的分詞方法,由于將分詞的任務(wù)轉(zhuǎn)化為構(gòu)詞的任務(wù),未登陸詞的識(shí)別錯(cuò)誤情況已明顯改善,但仍然不可避免。

        未登錄詞的識(shí)別錯(cuò)誤主要體現(xiàn)在命名實(shí)體識(shí)別錯(cuò)誤以及專業(yè)術(shù)語(yǔ)的識(shí)別錯(cuò)誤。命名實(shí)體主要包括人名、地名、機(jī)構(gòu)名,例如“某某出席宗教團(tuán)體負(fù)責(zé)人迎春座談會(huì)?!?,根據(jù)《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》,漢族人名的姓和名需要進(jìn)行切分,分開(kāi)處理,但分詞系統(tǒng)會(huì)對(duì)該詞進(jìn)行誤判斷,將它作為普通名詞進(jìn)行處理,切分情況為“某某/出席/宗教/團(tuán)體/負(fù)責(zé)人/迎春/座談會(huì)/。/”。其次對(duì)于某些特定領(lǐng)域的文本來(lái)看,其中可能充斥著較多的專業(yè)術(shù)語(yǔ),例如“組織間橋”是醫(yī)學(xué)專業(yè)術(shù)語(yǔ),分詞系統(tǒng)會(huì)將它作普通名詞處理,錯(cuò)誤切分為“組織/間橋/”。

        詞語(yǔ)的歧義類型可以分為交集型歧義和組合型歧義。前者指對(duì)于一個(gè)漢字串ABC,在不考慮上下文的情況下,切分為AB/C或者A/BC都是合理的,如漢字串“地面積”,可以切分為“地面/積”或者是“地/面積”,后者指的是對(duì)于一個(gè)漢字串AB,在不考慮上下文的情況下,切分或者合并都是合理的,即可以切分為A/B,也可以不切分,如漢字串“將來(lái)”可以切分為“將/來(lái)”,也可以不進(jìn)行切分[15](171-176)。 目前隨著模型的不斷優(yōu)化,基于字的分詞方法可以有效解決兩種歧義引起的問(wèn)題,但切分錯(cuò)誤的情況也時(shí)有發(fā)生。

        (二)錯(cuò)誤原因

        語(yǔ)言學(xué)知識(shí)的利用率低。以基于字的分詞方法中,使用的條件隨機(jī)場(chǎng)模型為例,雖然在條件隨機(jī)場(chǎng)模型中的特征模板有意識(shí)地添加一些語(yǔ)言學(xué)的規(guī)則,例如“子”“兒”等一般情況下是詞尾,因此可以估計(jì)它們出現(xiàn)的位置,但這特征只能在分詞中起到微弱的輔助作用,一是因?yàn)闈h語(yǔ)中本來(lái)作詞尾的語(yǔ)素就很少,特征無(wú)法具有概括性;二是因?yàn)榧词故沁@些常作詞尾的語(yǔ)素,也有可能出現(xiàn)在詞的其他位置,例如“子孫”。由上文的分析可知,語(yǔ)素義對(duì)詞語(yǔ)的構(gòu)成以及詞義的影響很大,而目前主流的基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法無(wú)法利用語(yǔ)素義來(lái)輔助分詞,它們對(duì)于系統(tǒng)中參數(shù)的估計(jì)只能依靠不斷的調(diào)試。

        不管是基于統(tǒng)計(jì)的方法還是基于深度學(xué)習(xí)的方法,在開(kāi)放測(cè)試的環(huán)境下表現(xiàn)并不是非常出彩,因此它們都要求一個(gè)盡可能大,且涉及領(lǐng)域盡可能廣的訓(xùn)練集。訓(xùn)練集越小、訓(xùn)練集文本的題材越單一,分詞的精度也就越差。再加上未登錄詞由于其性質(zhì)特殊,也就更加難以切分出來(lái)。

        五、總結(jié)及未來(lái)工作

        在漢語(yǔ)文本的自動(dòng)分詞任務(wù)中,利用基于字的分詞方法表現(xiàn)出優(yōu)秀的分詞效果,占據(jù)了主流的地位,因此本文期望找到該分詞方法背后的語(yǔ)言學(xué)知識(shí)的支撐,即語(yǔ)素位置在一定程度上影響著構(gòu)詞的方式,通過(guò)對(duì)詞內(nèi)語(yǔ)素對(duì)和跨詞語(yǔ)素對(duì)的分析,發(fā)現(xiàn)語(yǔ)素義間的緊密關(guān)系是構(gòu)詞成功的重要依據(jù)。之后,本文通過(guò)對(duì)含高頻語(yǔ)素“人”的詞的詞義進(jìn)行統(tǒng)計(jì),說(shuō)明了語(yǔ)素義和詞義之間也存在著緊密的聯(lián)系,大部分的語(yǔ)素義都可以直接完全地表示詞義。最后,歸納了分詞中常見(jiàn)的錯(cuò)誤類型及錯(cuò)誤原因,提出若能將語(yǔ)素義作為自動(dòng)分詞的標(biāo)準(zhǔn)之一,那么自動(dòng)分詞的精度或許會(huì)進(jìn)一步提高。

        因此,從理論角度看,現(xiàn)有詞典中并沒(méi)有清晰地將語(yǔ)素意義的義項(xiàng)和詞義義項(xiàng)區(qū)分開(kāi)來(lái),未來(lái)此類資源有待加入到詞典中。從應(yīng)用角度看,在自動(dòng)分詞領(lǐng)域中,如何最大程度地利用語(yǔ)言學(xué)的本體知識(shí),與機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法相結(jié)合,是未來(lái)值得考慮的一個(gè)方向。從語(yǔ)言學(xué)的理論角度看,語(yǔ)素與語(yǔ)素組合成詞是否可以歸納出更加簡(jiǎn)潔深刻的規(guī)律,并以機(jī)器可讀的方式呈現(xiàn)出來(lái);語(yǔ)素義這一判斷標(biāo)準(zhǔn)如何能夠量化計(jì)算,運(yùn)用于自動(dòng)分詞中也很值得研究。

        注釋:

        ①規(guī)定當(dāng)概率為0時(shí),熵值也為0。

        猜你喜歡
        構(gòu)詞語(yǔ)素分詞
        從構(gòu)詞詞源看英漢時(shí)空性差異
        《最低入門(mén)等級(jí)音節(jié)、漢字、詞匯表》語(yǔ)素和語(yǔ)素義分析
        多義語(yǔ)素識(shí)別及教學(xué)探討
        ——針對(duì)對(duì)外漢語(yǔ)語(yǔ)素教學(xué)構(gòu)想
        語(yǔ)素的判定、分類及語(yǔ)法單位關(guān)系研究述評(píng)
        結(jié)巴分詞在詞云中的應(yīng)用
        因果復(fù)合詞
        認(rèn)知視野下“好”、“壞”構(gòu)詞的對(duì)稱性研究
        值得重視的分詞的特殊用法
        “分”的音變構(gòu)詞及其句法語(yǔ)義特征
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        亚洲午夜精品a区| 精品无码国产自产在线观看水浒传| 丰满人妻一区二区三区免费| 区一区二区三区四视频在线观看 | 狠狠综合久久av一区二区蜜桃| 性欧美老人牲交xxxxx视频| 国产精品亚洲欧美云霸高清| 亚洲av色香蕉一区二区蜜桃 | 久久天天爽夜夜摸| 一区二区三区四区四色av| 国产亚洲一区二区毛片| 少妇又紧又爽丰满在线视频| 朝鲜女人大白屁股ass孕交| 九九99无码精品视频在线观看| 熟妇人妻不卡中文字幕| 亚洲av乱码国产精品观| 国产一区二区三区四色av| 成人麻豆日韩在无码视频| 老子影院午夜精品无码| 国产一级做a爱免费观看| 日韩偷拍一区二区三区视频| 国产精品丝袜一区二区三区在线| 漂亮丰满人妻被中出中文字幕| 亚洲av午夜福利精品一区| 小12箩利洗澡无码视频网站| a√无码在线观看| 日本不卡一区二区三区在线观看| 富婆猛男一区二区三区| 亚洲另类欧美综合久久图片区| 国产精品九九九久久九九| 北岛玲亚洲一区二区三区| 老妇高潮潮喷到猛进猛出| 精品香蕉久久久爽爽 | 成人午夜毛片| 97自拍视频国产在线观看 | 亚洲精品92内射| 国产一区免费观看| 国产av区亚洲av毛片| 在线观看午夜视频国产| 人妻夜夜爽天天爽| 亚洲av色先锋资源电影网站|