亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        AI不會斷句?中文分詞新模型幫它進(jìn)步

        2021-04-28 00:42:40
        中國科學(xué)探險 2021年1期
        關(guān)鍵詞:歧義分詞句法

        人工智能經(jīng)?!翱床欢敝形木渥樱屓丝扌Σ坏?。在2020年7月舉行的自然語言處理領(lǐng)域(NLP)頂級學(xué)術(shù)會議ACL 2020上,來自創(chuàng)新工場大灣區(qū)人工智能研究院的兩篇論文入選。這兩篇論文均聚焦自然語言處理中文分詞領(lǐng)域。

        據(jù)研究人員介紹,分詞及詞性標(biāo)注是中文自然語言處理的基本任務(wù),但當(dāng)前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

        基于此,兩篇論文各自提出了鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型和基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型,將外部知識(信息)融入分詞及詞性標(biāo)注模型,剔除了分詞“噪音”誤導(dǎo),提升了分詞及詞性標(biāo)注效果。

        中文分詞主要面臨歧義和未登錄詞兩大難點(diǎn)

        據(jù)介紹,中文分詞的目的是在中文的字序列中插入分隔符,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”。

        創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥分析,中文語言因其特殊性,在分詞時面臨著兩個普遍的主要難點(diǎn)。

        一是歧義問題,由于中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水平”,其正確的切分應(yīng)為“部分/居民/生活/水平”,但存在“分居”“民生”等歧義詞。

        二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓(xùn)練的過程中沒有遇見過的詞。這類問題在跨領(lǐng)域分詞任務(wù)中尤其明顯。宋彥介紹,這些未登錄詞,會非常影響分詞和詞性標(biāo)注模型和系統(tǒng)的性能。

        利用記憶神經(jīng)網(wǎng)絡(luò)提升中文分詞性能

        對此,其中一篇論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

        宋彥介紹,該模型利用n元組(即一個由連續(xù)n個字組成的序列,比如“居民”是一個2元組,“生活水平”是一個4元組)提供的每個字的構(gòu)詞能力,通過加(降)權(quán)重實(shí)現(xiàn)特定語境下的歧義消解。并通過非監(jiān)督方法構(gòu)建詞表,實(shí)現(xiàn)對特定領(lǐng)域的未標(biāo)注文本的利用,進(jìn)而提升對未登錄詞的識別。

        把可能成詞的組合全部找到以后,加入到該分詞模型中。然后通過神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)哪些詞對于最后完整表達(dá)句意的幫助更大,進(jìn)而分配不同的權(quán)重。例如,在“部分居民生活水平”這句話中,“部分”“居民”“生活”“水平”這些詞會被突出,而“分居”“民生”會被降權(quán)處理,從而預(yù)測出正確的結(jié)果。

        據(jù)介紹,為了檢驗(yàn)該模型的分詞效果,論文進(jìn)行了嚴(yán)格的標(biāo)準(zhǔn)實(shí)驗(yàn)和跨領(lǐng)域?qū)嶒?yàn)?!拔覀冊?個經(jīng)常使用的標(biāo)準(zhǔn)中文分詞數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上面,都達(dá)到了最好的效果,在這五個數(shù)據(jù)集上的分?jǐn)?shù)都刷到了歷史新高。” 宋彥說。

        雙通道注意力機(jī)制剔除“噪音”誤導(dǎo)

        第二篇論文則提出了一種基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

        據(jù)介紹,中文分詞和詞性標(biāo)注是兩個不同的任務(wù)。詞性標(biāo)注是在已經(jīng)切分好的文本中,給每一個詞標(biāo)注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標(biāo)注對后續(xù)的句子理解有重要的作用。

        “‘他馬上功夫很好這句話,在使用外部的句法知識的時候,可能會存在‘馬上這個詞被分錯的情況。正確的結(jié)果應(yīng)該是‘馬和‘上分開,但是這兒如果被分成一個詞,就會被識別為一個副詞?!?宋彥舉例說。

        研究人員介紹,針對這一問題,該論文提出的模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù),可一體化完成。模型分別對自動獲取的上下文特征和句法知識加權(quán),預(yù)測每個字的分詞和詞性標(biāo)簽,不同的上下文特征和句法知識在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán),從而識別特定語境下不同上下文特征和句法知識的貢獻(xiàn)。

        為了測試該模型的性能,論文在一般領(lǐng)域和跨領(lǐng)域分別進(jìn)行了實(shí)驗(yàn)。宋彥介紹,一般領(lǐng)域?qū)嶒?yàn)結(jié)果顯示,該模型在5個數(shù)據(jù)集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(xiàn)(F值)均超過前人的工作。

        猜你喜歡
        歧義分詞句法
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        eUCP條款歧義剖析
        中國外匯(2019年12期)2019-10-10 07:26:58
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        English Jokes: Homonyms
        值得重視的分詞的特殊用法
        “那么大”的語義模糊與歧義分析
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        无套内谢孕妇毛片免费看| 亚洲va成无码人在线观看| 国产av精品久久一区二区| 国产精品久久久三级18| 久久99精品九九九久久婷婷| 国产人成午夜免电影观看| 国产日韩亚洲中文字幕| 亚洲网站一区在线播放| 激烈的性高湖波多野结衣| 男女男在线精品网站免费观看| 手机在线中文字幕国产| 亚洲日本一区二区三区四区| 亚洲加勒比久久88色综合 | 国产日韩欧美网站| 亚洲一区二区三区国产精品视频| 国产毛片视频一区二区| 精品9e精品视频在线观看| 无码日韩AⅤ一区二区三区| 蜜臀一区二区av天堂| 人妻无码第一区二区三区| 中文字幕人妻av一区二区| 国产高潮流白浆免费观看不卡 | 日本成年一区久久综合| 久久精品国产免费观看| 色综合一本| 久久天堂av综合合色| 成人日韩熟女高清视频一区| www国产无套内射com| 在线观看精品国产福利片87| 久久久精品国产亚洲av网麻豆 | 国产精品欧美成人| 欧美丝袜激情办公室在线观看| 中文字幕乱码亚洲一区二区三区| 中文字幕乱码亚洲精品一区| 男人天堂免费视频| 中文字幕一区二区在线看| 男人的天堂中文字幕熟女人妻| 法国啄木乌av片在线播放| 极品美女尤物嫩模啪啪| 久久综合九色综合97婷婷| 久久久久亚洲精品中文字幕|