亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        AI不會(huì)斷句?

        2020-09-08 06:25:24劉園園
        科學(xué)導(dǎo)報(bào) 2020年49期
        關(guān)鍵詞:句法模型

        劉園園

        人工智能經(jīng)常“看不懂”中文句子,讓人哭笑不得。在日前舉行的自然語(yǔ)言處理領(lǐng)域(NLP)頂級(jí)學(xué)術(shù)會(huì)議ACL 2020上,來(lái)自創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院的兩篇論文入選。這兩篇論文均聚焦自然語(yǔ)言處理中文分詞領(lǐng)域。

        據(jù)研究人員介紹,分詞及詞性標(biāo)注是中文自然語(yǔ)言處理的基本任務(wù),但當(dāng)前沒(méi)有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

        基于此,兩篇論文各自提出了鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型和基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型,將外部知識(shí)(信息)融入分詞及詞性標(biāo)注模型,剔除了分詞“噪音”誤導(dǎo),提升了分詞及詞性標(biāo)注效果。

        中文分詞主要面臨歧義和未登錄詞兩大難點(diǎn)

        據(jù)介紹,中文分詞的目的是在中文的字序列中插入分隔符,將其切分為詞。例如,“我喜歡音樂(lè)”將被切分為“我/喜歡/音樂(lè)”。

        創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院執(zhí)行院長(zhǎng)宋彥分析,中文語(yǔ)言因其特殊性,在分詞時(shí)面臨著兩個(gè)普遍的主要難點(diǎn)。

        一是歧義問(wèn)題,由于中文存在大量歧義,一般的分詞工具在切分句子時(shí)可能會(huì)出錯(cuò)。例如,“部分居民生活水平”,其正確的切分應(yīng)為“部分/居民/生活/水平”,但存在“分居”“民生”等歧義詞。

        二是未登錄詞問(wèn)題。未登錄詞指的是不在詞表,或者是模型在訓(xùn)練的過(guò)程中沒(méi)有遇見(jiàn)過(guò)的詞。這類(lèi)問(wèn)題在跨領(lǐng)域分詞任務(wù)中尤其明顯。宋彥介紹,這些未登錄詞,會(huì)非常影響分詞和詞性標(biāo)注模型和系統(tǒng)的性能。

        利用記憶神經(jīng)網(wǎng)絡(luò)提升中文分詞性能

        對(duì)此,其中一篇論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

        宋彥介紹,該模型利用n元組(即一個(gè)由連續(xù)n個(gè)字組成的序列,比如“居民”是一個(gè)2元組,“生活水平”是一個(gè)4元組)提供的每個(gè)字的構(gòu)詞能力,通過(guò)加(降)權(quán)重實(shí)現(xiàn)特定語(yǔ)境下的歧義消解。并通過(guò)非監(jiān)督方法構(gòu)建詞表,實(shí)現(xiàn)對(duì)特定領(lǐng)域的未標(biāo)注文本的利用,進(jìn)而提升對(duì)未登錄詞的識(shí)別。

        把可能成詞的組合全部找到以后,加入到該分詞模型中。然后通過(guò)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)哪些詞對(duì)于最后完整表達(dá)句意的幫助更大,進(jìn)而分配不同的權(quán)重。例如,在“部分居民生活水平”這句話中,“部分”“居民”“生活”“水平”這些詞會(huì)被突出,而“分居”“民生”會(huì)被降權(quán)處理,從而預(yù)測(cè)出正確的結(jié)果。

        據(jù)介紹,為了檢驗(yàn)該模型的分詞效果,論文進(jìn)行了嚴(yán)格的標(biāo)準(zhǔn)實(shí)驗(yàn)和跨領(lǐng)域?qū)嶒?yàn)。“我們?cè)?個(gè)經(jīng)常使用的標(biāo)準(zhǔn)中文分詞數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上面,都達(dá)到了最好的效果,在這五個(gè)數(shù)據(jù)集上的分?jǐn)?shù)都刷到了歷史新高?!彼螐┱f(shuō)。

        雙通道注意力機(jī)制剔除“噪音”誤導(dǎo)

        第二篇論文則提出了一種基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

        據(jù)介紹,中文分詞和詞性標(biāo)注是兩個(gè)不同的任務(wù)。詞性標(biāo)注是在已經(jīng)切分好的文本中,給每一個(gè)詞標(biāo)注其所屬的詞類(lèi),例如動(dòng)詞、名詞、代詞、形容詞。詞性標(biāo)注對(duì)后續(xù)的句子理解有重要的作用。

        “‘他馬上功夫很好這句話,在使用外部的句法知識(shí)的時(shí)候,可能會(huì)存在‘馬上這個(gè)詞被分錯(cuò)的情況。正確的結(jié)果應(yīng)該是‘馬和‘上分開(kāi),但是這兒如果被分成一個(gè)詞,就會(huì)被識(shí)別為一個(gè)副詞。”宋彥舉例說(shuō)。

        研究人員介紹,針對(duì)這一問(wèn)題,該論文提出的模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù),可一體化完成。模型分別對(duì)自動(dòng)獲取的上下文特征和句法知識(shí)加權(quán),預(yù)測(cè)每個(gè)字的分詞和詞性標(biāo)簽,不同的上下文特征和句法知識(shí)在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán),從而識(shí)別特定語(yǔ)境下不同上下文特征和句法知識(shí)的貢獻(xiàn)。

        為了測(cè)試該模型的性能,論文在一般領(lǐng)域和跨領(lǐng)域分別進(jìn)行了實(shí)驗(yàn)。宋彥介紹,一般領(lǐng)域?qū)嶒?yàn)結(jié)果顯示,該模型在5個(gè)數(shù)據(jù)集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(xiàn)(F值)均超過(guò)前人的工作。

        猜你喜歡
        句法模型
        一半模型
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        3D打印中的模型分割與打包
        疑問(wèn)詞“怎么”句法功能的演變及其動(dòng)因
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲一区二区三区av无| 成人久久黑人中出内射青草| 综合亚洲二区三区四区在线| 亚洲欧美日韩综合一区二区| 99久久久精品免费观看国产| 护士奶头又白又大又好摸视频| 日韩精品国产自在久久现线拍| 国产精品白浆一区二区免费看| 国内专区一区二区三区| 亚洲av日韩一区二区| 四虎成人精品国产永久免费无码| 色拍自拍亚洲综合图区| 国产国拍亚洲精品mv在线观看| 国产高清一区在线观看| 国产亚洲91精品色在线| 国语自产精品视频在线看| 东北少妇不带套对白| 成人无码午夜在线观看| 亚洲精品一品二品av| 国内精品亚洲成av人片| 亚洲成av人片在线观看www| 亚洲一区二区综合色精品| 国产一区亚洲一区二区| 亚洲国产精品悠悠久久琪琪| 国产a国产片国产| 在线亚洲午夜理论av大片| 亚洲人成网站77777在线观看 | 亚洲中文字幕无码不卡电影| 福利视频自拍偷拍视频| 日本a级片免费网站观看| 亚洲人成人无码www影院| 粉嫩少妇内射浓精videos| 久久久久久国产精品免费网站| 国产一区二三区中文字幕| 亚洲国产精品高清在线| 色噜噜狠狠狠综合曰曰曰| 天天影视色香欲综合久久| 日本一区二区国产高清在线播放| 日本一区二区视频在线| 亚洲国产精品第一区二区| 一级免费毛片|