亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語(yǔ)言理解
        ——原理與工具的介紹

        2010-08-15 00:52:53
        科技傳播 2010年21期
        關(guān)鍵詞:規(guī)約原理符號(hào)

        夏 添

        同濟(jì)大學(xué)軟件學(xué)院,上海 201804

        自然語(yǔ)言理解
        ——原理與工具的介紹

        夏 添

        同濟(jì)大學(xué)軟件學(xué)院,上海 201804

        自然語(yǔ)言理解一直是一個(gè)很大很麻煩的問(wèn)題,本文討論了自然語(yǔ)言理解的基本概念,以及幾個(gè)實(shí)現(xiàn)自然實(shí)現(xiàn)方法的討論。最后,提出一個(gè)叫做nltk的工具,并介紹這個(gè)工具如何使得開(kāi)發(fā)自然語(yǔ)言理解應(yīng)用更加迅速

        自然語(yǔ)言理解;規(guī)則;nltk

        1 自然語(yǔ)言理解之原理解析

        如何來(lái)理解自然語(yǔ)言呢?怎樣才能讓機(jī)器理解自然語(yǔ)言呢?這是自然語(yǔ)言理解,特別是計(jì)算語(yǔ)言學(xué)要講的問(wèn)題。

        “理解”是什么意思?事實(shí)我們常常說(shuō),“我明白了你的意思”。一個(gè)人說(shuō)這句話的意思實(shí)際上時(shí)說(shuō),他可以利用你剛告訴他的東西進(jìn)行事情推理和利用了。實(shí)際上,對(duì)于計(jì)算機(jī)來(lái)說(shuō),機(jī)器明白了人的意思實(shí)際上說(shuō),機(jī)器可以利用人用自然語(yǔ)言輸入的信息進(jìn)行計(jì)算。

        那么如何進(jìn)行映射呢?這里可以參考下編譯原理,編譯原理通過(guò)一個(gè)開(kāi)始符號(hào)一步步往下推導(dǎo),一直到一個(gè)非終結(jié)符號(hào)都沒(méi)有的情況,這個(gè)時(shí)候一個(gè)句子就算是解析完成了,而解析出來(lái)的句子通過(guò)一些符號(hào)運(yùn)算,最終可以映射成計(jì)算機(jī)可以理解的機(jī)器語(yǔ)言。

        那么該如何轉(zhuǎn)換呢?比較直觀的想法就是使用編譯原理技術(shù),使用一個(gè)開(kāi)始符號(hào) S,然后一步步推導(dǎo)到每個(gè)單詞(這里的單詞實(shí)際上就是終結(jié)符號(hào))。然后對(duì)于每次歸約,使用action來(lái)操作,最終映射成電腦所能理解的sql。對(duì)于一個(gè)像c語(yǔ)言的語(yǔ)法解析器來(lái)說(shuō),它在很大的程度上依賴于用戶—也就是程序員—對(duì)于語(yǔ)言的理解,像那個(gè)if else 語(yǔ)法,不管你怎么對(duì)齊,else也就只能和最近的一個(gè)if組成一個(gè)句子。但自然語(yǔ)言的情況就復(fù)雜得多了。在現(xiàn)實(shí)的生活中,不但有一詞多義的多義的情況,而且就是對(duì)于同一句話,斷句不同都會(huì)造成非常不同的效果。比如說(shuō)對(duì)于like這個(gè)詞來(lái)說(shuō),在不同的情況就有不同的意思。We like flying 和you are like your mom.的時(shí)候就分別是喜歡和像的意思。如何區(qū)分?我們可以根據(jù)搭配來(lái)解決這個(gè)問(wèn)題。對(duì)于像is like 這種情況我們可以給like的“像”意思一個(gè)比較高的概率,而在另一種情況則給“喜歡”一個(gè)比較高的概率,這樣,碰到不同的搭配就可以有不同意思理解。這個(gè)這種方法可以參考《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》中的馬可夫鏈。馬可夫鏈就是就是根據(jù)概率狀態(tài)轉(zhuǎn)移模型來(lái)分析在什么樣的情況下,使用哪個(gè)表達(dá)方式更好。

        當(dāng)然,在分析一句話的時(shí)候,我們可能會(huì)碰到大量的重復(fù)情況,比如說(shuō),對(duì)于“I see a boy on the chair,使用普通分析技術(shù),必定是先分析掉“I” “see”

        “a boy on the chair ”再繼續(xù)分析“I see a boy”“on the chair ”。對(duì)于一個(gè)比較大型的系統(tǒng)來(lái)說(shuō),時(shí)間上可能會(huì)非常吃不消。而在自然語(yǔ)言理解中,我們一般可以這樣做在分析一個(gè)句子的時(shí)候,不是每次只規(guī)約一種情況,而是把所有可規(guī)約的情況都規(guī)約出來(lái),然后再繼續(xù)分析,這樣緩存的結(jié)果就是,我們不必要每次都回溯到開(kāi)始符號(hào)s來(lái)重新分析,而是在分析到每個(gè)詞的時(shí)候更新一下當(dāng)前分析句子的狀態(tài)就可以了。經(jīng)過(guò)統(tǒng)計(jì),使用這中技術(shù)的系統(tǒng)比不使用的要快5 000倍~100 000倍,當(dāng)然,同時(shí)因?yàn)榫彺嬷虚g結(jié)果,系統(tǒng)開(kāi)銷也大得多。

        但是,如何才能句子的意思進(jìn)行理解呢?我們回到我開(kāi)始的那個(gè)問(wèn)題。對(duì)于像下面一個(gè)對(duì)話:

        a.Which country is Athens in? b.Greece

        來(lái)說(shuō),我們可以使用下面的規(guī)則來(lái)進(jìn)行

        % start S

        S[SEM=(?np + WHERE + ?vp)] -> NP[SEM=?np] VP[SEM=?vp]

        VP[SEM=(?v + ?pp)] -> IV[SEM=?v] PP[SEM=?pp]

        VP[SEM=(?v + ?ap)] -> IV[SEM=?v] AP[SEM=?ap]

        NP[SEM=(?det + ?n)] -> Det[SEM=?det] N[SEM=?n]

        PP[SEM=(?p + ?np)] -> P[SEM=?p] NP[SEM=?np]

        AP[SEM=?pp] -> A[SEM=?a] PP[SEM=?pp]

        NP[SEM='Country="greece"'] -> 'Greece'

        NP[SEM='Country="china"'] -> 'China'

        Det[SEM='SELECT'] -> 'Which' | 'What'

        N[SEM='City FROM city_table'] -> 'cities'

        IV[SEM=''] -> 'are'

        A[SEM=''] -> 'located'

        P[SEM=''] -> 'in'

        其中,s是代表開(kāi)始符號(hào),后面的則是一個(gè)個(gè)的推導(dǎo)符號(hào)。而中間最關(guān)鍵的地方就是那個(gè)sem特征,這個(gè)特征可以幫助分析器在規(guī)約的時(shí)候?qū)⒁粋€(gè)簡(jiǎn)單的句子分析成相應(yīng)的sql.

        2 自然語(yǔ)言理解之工具與實(shí)現(xiàn)

        除了有基礎(chǔ)的理論之外,實(shí)現(xiàn)自然語(yǔ)言理解系統(tǒng)也很重要。出于效率的情況,真正的系統(tǒng)可能使用分布式計(jì)算,然后在每個(gè)節(jié)點(diǎn)上使用像c++這樣的語(yǔ)言來(lái)進(jìn)行計(jì)算。但是對(duì)于像c++這樣的語(yǔ)言,可能在開(kāi)發(fā)與調(diào)試上需要大量的時(shí)間和極度的細(xì)致,這對(duì)于新應(yīng)用的研究工作來(lái)說(shuō)是不太合適的。在這種情況,使用基于python的nltk會(huì)比較好一些。

        Nltk的全稱是”自然語(yǔ)言工具包”,可以再google code上找到這個(gè)開(kāi)源項(xiàng)目。目前的最新版本是2.0b9。這個(gè)工具支持了很多關(guān)于自然語(yǔ)言理解方面的技術(shù),是一個(gè)比較好的開(kāi)發(fā)框架。

        我們可以使用這個(gè)工具來(lái)簡(jiǎn)單的對(duì)上面的情況進(jìn)行一些講解,首先,我們可以先以上面第2節(jié)提到的規(guī)則作為一個(gè)模板來(lái)寫(xiě)一個(gè)文法文件,它的后綴名是.fcfg(比如a.fcfg)。nltk在處理的時(shí)候會(huì)根據(jù)你所提供文法文件來(lái)裝入相應(yīng)的規(guī)則。我們可以進(jìn)行類似如下的操作

        >>> from nltk import load_parser

        >>> cp = load_parser('grammars/book_grammars/sql0.fcfg')

        >>> query = 'What cities are located in China'

        >>> trees = cp.nbest_parse(query.split())

        >>> answer = trees[0].node['sem']

        >>> q = ' '.join(answer)

        >>> print q

        SELECT City FROM city_table WHERE Country="china"

        注意上面的操作,我們通過(guò)load_parser方法裝入語(yǔ)法文件,然后再使用nbestparser就可以實(shí)現(xiàn)這些操作了。

        3 結(jié)論

        從目前的情況的看,自然語(yǔ)言理解不管在從學(xué)術(shù)研究到商業(yè)市場(chǎng)的各個(gè)領(lǐng)域都有比較迫切和強(qiáng)烈的需求,它本身也涵蓋了從人工智能,數(shù)據(jù)挖掘等非常廣泛的領(lǐng)域,而且對(duì)于理論和技術(shù)的要求都比較高。目前來(lái)說(shuō),nltk應(yīng)該算是比較成熟和穩(wěn)定的工具,值得在各個(gè)研究和實(shí)際的應(yīng)用中使用

        TP31

        A

        1674-6708(2010)30-0243-02

        猜你喜歡
        規(guī)約原理符號(hào)
        學(xué)符號(hào),比多少
        幼兒園(2021年6期)2021-07-28 07:42:14
        了解咳嗽祛痰原理,有效維護(hù)健康
        “+”“-”符號(hào)的由來(lái)
        平均場(chǎng)正倒向隨機(jī)控制系統(tǒng)的最大值原理
        電力系統(tǒng)通信規(guī)約庫(kù)抽象設(shè)計(jì)與實(shí)現(xiàn)
        一種在復(fù)雜環(huán)境中支持容錯(cuò)的高性能規(guī)約框架
        一種改進(jìn)的LLL模糊度規(guī)約算法
        變符號(hào)
        化學(xué)反應(yīng)原理全解讀
        通信原理教學(xué)改革探索
        狠狠色噜噜狠狠狠狠97俺也去| 一本色道加勒比精品一区二区| 久久女人精品天堂av影院麻| 亚洲精品色婷婷在线影院| 国产精品污www一区二区三区| 国产欧美日韩图片一区二区| 国产成人av三级三级三级在线 | 国产不卡视频一区二区三区| 精品爆乳一区二区三区无码av| 国产精品原创永久在线观看| 综合久久青青草免费观看视频| 亚洲国产天堂久久综合网| 亚洲愉拍99热成人精品热久久| 国产成人无码一二三区视频| 东风日产系列全部车型| 亚洲精品有码日本久久久| 内射爽无广熟女亚洲| 国产在线91观看免费观看| 亚洲AV秘 无套一区二区三区| 日韩在线不卡一区三区av| 97碰碰碰人妻无码视频| 欧美视频二区欧美影视| 日韩精品一区二区三区四区五区六| 免费国产在线精品一区二区三区免 | 亚洲中文高清乱码av中文| 日韩精品无码一区二区三区四区| 大地资源在线播放观看mv| 亚洲五月七月丁香缴情| 人妻一区二区三区在线看| 国产成人精品久久综合| 国产中文aⅴ在线| 日本在线无乱码中文字幕| 少妇伦子伦情品无吗| 亚洲免费人成在线视频观看| 99热久久只有这里是精品| 国产av自拍视频在线观看| 日韩av精品国产av精品| 欧美精品久久久久久三级| 黄色影院不卡一区二区| 欧美成人片在线观看| 又污又黄又无遮挡的网站|