亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語(yǔ)言處理的技術(shù)和產(chǎn)業(yè)應(yīng)用現(xiàn)狀與趨勢(shì)分析

        2019-03-19 12:10:24葛運(yùn)東陳洪梅姚建民
        產(chǎn)業(yè)與科技論壇 2019年17期
        關(guān)鍵詞:語(yǔ)義文本分析

        □葛運(yùn)東 陳洪梅 姚建民

        本文分析了自然語(yǔ)言處理的基礎(chǔ)技術(shù)、基本應(yīng)用,并依據(jù)技術(shù)覆蓋面和深度,選擇機(jī)器翻譯為例,從主流翻譯系統(tǒng)存在的不足,分析機(jī)器翻譯現(xiàn)狀和趨勢(shì),進(jìn)而反思自然語(yǔ)言處理產(chǎn)業(yè)應(yīng)用的現(xiàn)狀和發(fā)展趨勢(shì)。

        一、自然語(yǔ)言處理基礎(chǔ)技術(shù)

        (一)分詞。分詞即將句子通過(guò)各種算法轉(zhuǎn)換成詞語(yǔ)串的過(guò)程。分詞的難點(diǎn)有命名實(shí)體識(shí)別、交叉歧義、未登錄詞識(shí)別、領(lǐng)域歧義、多源異構(gòu)數(shù)據(jù)的融合及多種粒度分詞等。命名實(shí)體識(shí)別將文本中的實(shí)體按類(lèi)標(biāo)記出來(lái),例如人名、公司名、地區(qū)、基因和蛋白質(zhì)的名字等。

        (二)詞性標(biāo)注。詞性是詞匯基本的語(yǔ)法屬性。詞性標(biāo)注就是確定給定句子中每個(gè)詞的詞性并加以標(biāo)注的過(guò)程。詞性標(biāo)注的難點(diǎn)在于歧義的消除,比如漢字“把”有介詞(“你能把他怎么樣?”)、量詞(“一把匕首”)、動(dòng)詞(“把酒言歡”、“把門(mén)兒”)、名詞(“刀把兒”、“話(huà)把兒”)。

        (三)句法分析。句法分析即確定句子語(yǔ)法結(jié)構(gòu),生成句子中詞匯之間的依存句法樹(shù)。句法分析是實(shí)現(xiàn)最終目標(biāo)的關(guān)鍵環(huán)節(jié)。常見(jiàn)的句法分析有句法結(jié)構(gòu)分析、依存關(guān)系分析等。以獲取整個(gè)句子的句法結(jié)構(gòu)為目的的稱(chēng)為完全句法分析,而以獲得局部成分為目的的語(yǔ)法分析稱(chēng)為局部分析。通過(guò)依存句法分析,生成句子的依存句法樹(shù),該句法樹(shù)描述詞語(yǔ)之間依存關(guān)系、搭配關(guān)系,搭配關(guān)系是語(yǔ)義相關(guān)聯(lián)。

        (四)語(yǔ)義分析。語(yǔ)義分析即學(xué)習(xí)并理解文本蘊(yùn)含的語(yǔ)義內(nèi)容。依據(jù)不同的語(yǔ)言單位,語(yǔ)義分析可以分為詞匯級(jí)、句子級(jí)以及篇章級(jí)三種。詞匯級(jí)聚焦如何獲取詞語(yǔ)粒度的語(yǔ)義,句子級(jí)分析整個(gè)句子級(jí)文本表達(dá)的語(yǔ)義,篇章級(jí)分析文本的內(nèi)在結(jié)構(gòu)及文本單元間的相互語(yǔ)義關(guān)系。

        (五)篇章分析。篇章分析即確定篇章結(jié)構(gòu)、分析篇章特征。其中基本結(jié)構(gòu)分析是篇章內(nèi)部關(guān)系各種結(jié)構(gòu)的分析,包含了功能、邏輯、指代、話(huà)題、事件等結(jié)構(gòu)。篇章特征主要包含了意圖、可接受、信息、情景以及跨篇章等各方面的特征。

        (六)自然語(yǔ)言生成。自然語(yǔ)言生成是指計(jì)算機(jī)根據(jù)一些關(guān)鍵信息并聯(lián)合機(jī)器表達(dá)形式,生成高質(zhì)量的像人一樣寫(xiě)作的自然語(yǔ)言文本內(nèi)容的技術(shù)。常見(jiàn)的生成方法有基于規(guī)則的方法、基于知識(shí)檢索的方法以及基于深度學(xué)習(xí)的方法等。

        二、自然語(yǔ)言處理的應(yīng)用技術(shù)

        自然語(yǔ)言處理一方面可以用于文本處理,服務(wù)于大數(shù)據(jù)應(yīng)用,另一方面自身也有信息抽取、問(wèn)答、機(jī)器寫(xiě)作、對(duì)話(huà)、機(jī)器翻譯、閱讀理解等應(yīng)用技術(shù),可用于信息檢索、科技服務(wù)、人工智能、在線教育、醫(yī)療專(zhuān)家系統(tǒng)、金融分析等方方面面。

        (一)信息抽取、知識(shí)圖譜構(gòu)建。信息抽取即生成文本的結(jié)構(gòu)化信息。結(jié)構(gòu)化信息點(diǎn)從文本中抽取后以統(tǒng)一的形式集成起來(lái)。信息抽取不進(jìn)行整篇文檔的全面理解,而是重點(diǎn)分析文本中包含相關(guān)信息的部分。

        知識(shí)圖譜構(gòu)建是自然語(yǔ)言研究領(lǐng)域的熱點(diǎn),包含了實(shí)體識(shí)別、實(shí)體屬性識(shí)別、事件抽取、關(guān)系抽取、概念實(shí)例化及規(guī)則學(xué)習(xí)等。其中的主要任務(wù)包括知識(shí)的建模、圖譜構(gòu)建、融合、推理計(jì)算以及賦能等。

        (二)智能問(wèn)答和智能寫(xiě)作。智能問(wèn)答涉及理解語(yǔ)言?xún)?nèi)涵、推敲問(wèn)答的意圖、挖掘與問(wèn)答貼切的相關(guān)知識(shí),問(wèn)答系統(tǒng)主要包含問(wèn)答分類(lèi)、分析、理解,答案的匹配、檢索、生成等功能。

        智能寫(xiě)作是指計(jì)算機(jī)利用算法和自然語(yǔ)言生成器撰寫(xiě)文本的過(guò)程,比如新聞寫(xiě)作,計(jì)算機(jī)利用人類(lèi)專(zhuān)家預(yù)先設(shè)計(jì)好的算法模型快速搜尋與主題相關(guān)的信息,將其匯總到知識(shí)庫(kù),再提煉有價(jià)值的信息,形成新聞報(bào)道。

        (三)智能對(duì)話(huà)。智能對(duì)話(huà)分為開(kāi)放域、封閉域兩種對(duì)話(huà)系統(tǒng)。該領(lǐng)域面臨上下文篇章建模、對(duì)話(huà)狀態(tài)轉(zhuǎn)移、領(lǐng)域知識(shí)建模等各種問(wèn)題。智能對(duì)話(huà)是商用最廣泛的自然語(yǔ)言處理技術(shù),應(yīng)答機(jī)器人、智能音箱、客服機(jī)器人等在市場(chǎng)上大量涌現(xiàn)。

        三、機(jī)器翻譯存在的問(wèn)題分析和展望

        機(jī)器翻譯是人工智能皇冠上的明珠,是自然語(yǔ)言處理領(lǐng)域所有關(guān)鍵技術(shù)的綜合應(yīng)用,突出反映自然語(yǔ)言處理技術(shù)存在的不足和未來(lái)需要研發(fā)的方向。同聲傳譯系統(tǒng)已經(jīng)在世界大會(huì)上引人注目的付諸應(yīng)用,但就像百度吳華博士的觀點(diǎn):要先解決語(yǔ)義理解,機(jī)器翻譯才可能取代人類(lèi)。

        根據(jù)翻譯實(shí)踐中的經(jīng)驗(yàn),對(duì)機(jī)器翻譯常見(jiàn)問(wèn)題的典型實(shí)例做了分析匯總,一方面揭示機(jī)器翻譯技術(shù)的不足,更探討自然語(yǔ)言處理技術(shù)面臨的問(wèn)題。

        (一)最合適的譯文不在詞典或語(yǔ)料中出現(xiàn),需要在詞條譯文基礎(chǔ)上靈活編制。一些詞匯或短語(yǔ)譯文不能武斷拷貝或映射,要根據(jù)上下文搭配靈活應(yīng)對(duì)。比如Make或Produce這類(lèi)通用詞,生成譯文后要做適當(dāng)修飾,符合目標(biāo)語(yǔ)語(yǔ)感,如實(shí)例1。

        實(shí)例1:universities were faced with significant pressure to produce innovative results……

        詞典中動(dòng)詞produce的譯文(vt.&vi.產(chǎn)生;生產(chǎn);制作;創(chuàng)作;vt.制造;出示;引起;[經(jīng)濟(jì)學(xué)]生利)并不適合本句的上下文搭配,需要根據(jù)其主語(yǔ)“universities”和賓語(yǔ)“results”,靈活翻譯為“研發(fā)”。produce這類(lèi)詞的譯文非常靈活,依賴(lài)于搭配的主語(yǔ)和賓語(yǔ),make、last等詞語(yǔ)也類(lèi)似。

        (二)詞典中譯文是解釋性的,實(shí)際譯文需要靈活調(diào)整。詞典中一些詞條的譯文是解釋性的,不適合機(jī)器翻譯直接用于目標(biāo)譯文生成,需要根據(jù)上下文環(huán)境做靈活處理,不能靠詞典譯文拷貝。比如:

        實(shí)例2:But the most important to a visually oriented species like human beings is ocular data.

        實(shí)例2中,ocular(詞典譯文:adj.眼的;眼睛的;可以看見(jiàn)的;看得到的)翻譯成“眼數(shù)據(jù)”、“看得到的數(shù)據(jù)”都不恰當(dāng),翻譯為“視覺(jué)數(shù)據(jù)”更符合上下文語(yǔ)義環(huán)境。這涉及詞義選擇,也涉及習(xí)慣短語(yǔ)以及在理解源語(yǔ)言語(yǔ)義的基礎(chǔ)上對(duì)目標(biāo)語(yǔ)詞匯和句子的組織。

        (三)領(lǐng)域適應(yīng)最終是個(gè)語(yǔ)義分析問(wèn)題。領(lǐng)域適應(yīng)通常根據(jù)詞匯同現(xiàn)信息建模,融合短上下文和長(zhǎng)上下文。但根據(jù)以下實(shí)例可以判斷,簡(jiǎn)單上下文統(tǒng)計(jì)仍然替代不了語(yǔ)義分析。

        實(shí)例3:Because GPS signals are blocked inside of buildings and SLAM capable LADAR units are too heavy and/or expensive for most applications.

        實(shí)例3中包含大量的電子領(lǐng)域術(shù)語(yǔ),但application的譯文恰恰不能選擇電子領(lǐng)域常用的“應(yīng)用程序”。這種不足可能是領(lǐng)域欠擬合,但領(lǐng)域過(guò)擬合也同樣會(huì)導(dǎo)致詞意選擇錯(cuò)誤。句子上下文的微妙語(yǔ)義差別很難用簡(jiǎn)單的詞頻等信息刻畫(huà),需要引入更深層的語(yǔ)義信息。

        (四)專(zhuān)名、縮略語(yǔ)消歧需要借助知識(shí)圖譜,簡(jiǎn)單上下文解決不了。一些專(zhuān)名、縮略語(yǔ)消歧需要根據(jù)廣泛上下文,構(gòu)建知識(shí)圖譜或關(guān)系網(wǎng)絡(luò)才能消除歧義,比如AP-NCC。

        實(shí)例4:In an AP-NCC poll,44 percent of people supported the police using drones……

        通過(guò)互聯(lián)網(wǎng)查詢(xún),該AP-NCC的原文是Associated Press-National Constitution Center,而不是同樣形式的其它縮寫(xiě)。這些專(zhuān)名或縮略語(yǔ)消歧已經(jīng)完全不是翻譯問(wèn)題,而是知識(shí)圖譜、關(guān)系網(wǎng)絡(luò)的建構(gòu)或語(yǔ)義理解,往往需要非常詳細(xì)的知識(shí)圖譜及關(guān)系網(wǎng)絡(luò)等信息。

        (五)翻譯是由多個(gè)分離過(guò)程組織的知識(shí)圖譜轉(zhuǎn)換。復(fù)雜句型需要理解源語(yǔ)言的每個(gè)子句,結(jié)合語(yǔ)法和語(yǔ)義分析,恰當(dāng)調(diào)整子句順序和修飾關(guān)系,才能生成合理的譯文子句、整句。子句間的修飾關(guān)系往往涉及知識(shí)圖譜或者語(yǔ)義關(guān)系。

        實(shí)例5:First and foremost,drones change the way that we see.

        翻譯既涉及到子句的調(diào)序,更需要語(yǔ)義分析才能決定子句間的修飾關(guān)系或者具體詞匯的含義。翻譯不僅需要句法分析、依存分析,也包含前文提到的譯文選擇同樣的問(wèn)題,是綜合性非常強(qiáng)的分析和生成過(guò)程。

        四、結(jié)語(yǔ)

        梳理了自然語(yǔ)言處理的基礎(chǔ)技術(shù)和應(yīng)用技術(shù),以影響廣泛、技術(shù)模塊復(fù)雜、實(shí)現(xiàn)難度最大的機(jī)器翻譯技術(shù)為例,分析了目前技術(shù)路線和實(shí)現(xiàn)方法存在的不足。

        未來(lái)自然語(yǔ)言處理技術(shù)應(yīng)該從如下領(lǐng)域深度研發(fā):研究新的自然語(yǔ)言處理模型,進(jìn)一步提高機(jī)器翻譯的理解能力。更細(xì)粒度更大規(guī)模的知識(shí)庫(kù)建設(shè)。更要從目標(biāo)語(yǔ)語(yǔ)義出發(fā),基于實(shí)例或語(yǔ)言模型對(duì)譯文進(jìn)行修飾。自然語(yǔ)言處理和音頻、視頻等更多信息結(jié)合,多渠道、多媒體信息促進(jìn)歧義消解,進(jìn)一步提高自然語(yǔ)言處理的質(zhì)量。

        猜你喜歡
        語(yǔ)義文本分析
        隱蔽失效適航要求符合性驗(yàn)證分析
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        如何快速走進(jìn)文本
        在线观看视频国产一区二区三区 | 亚洲AⅤ永久无码精品AA| 91蜜桃国产成人精品区在线| 李白姓白白又白类似的套路| 内射口爆少妇麻豆| 亚洲av日韩av永久无码色欲| 在线观看精品视频一区二区三区 | 欧美综合自拍亚洲综合百度| 亚洲av专区一区二区| 色婷婷五月综合激情中文字幕| 欧美国产精品久久久乱码| 国产免费看网站v片不遮挡| 日韩精品免费观看在线| 精品国产粉嫩内射白浆内射双马尾 | 99成人无码精品视频| 成年人免费黄色h网| 一区二区免费中文字幕| 日本一区二区在线免费视频| 夜夜爽妓女8888888视频| 一个人在线观看免费视频www| 国产一区二区三区免费在线视频| 国产爽快片一区二区三区| 国产一品二品三品精品在线| 天天躁日日躁狠狠很躁 | 日韩亚洲精选一区二区三区| 日本熟妇人妻xxxx| 亚洲精品国偷自产在线99正片| 亚洲乱在线播放| 久久精品亚洲精品国产区| 精品香蕉一区二区三区| 波多野42部无码喷潮| 人妻无码一区二区在线影院 | 日韩在线不卡免费视频| 亚洲国产都市一区二区| 麻豆国产精品久久人妻| 日韩好片一区二区在线看| 中文人妻无码一区二区三区| av网址大全在线播放| 中出人妻希奇杰卡西av| 真实国产老熟女粗口对白| 亚洲色四在线视频观看|