亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ALICE的智能聊天機(jī)器人的程序開發(fā)

        2018-01-26 04:58:02廣州市執(zhí)信中學(xué)聶碩琳
        電子世界 2018年1期
        關(guān)鍵詞:分詞語料庫聊天

        廣州市執(zhí)信中學(xué) 聶碩琳

        一、引言

        智能聊天機(jī)器人的主要用于模擬人類對(duì)話或聊天,應(yīng)用場景是客服坐席。它替代客服人員回答大量重復(fù)而且簡單的問題,反映速度比人要快很多,而且不會(huì)感到疲憊和厭煩。它唯一的需求是有電源供應(yīng)。

        聊天機(jī)器人分為目標(biāo)驅(qū)動(dòng)型和無目標(biāo)驅(qū)動(dòng)型。目標(biāo)驅(qū)動(dòng)型機(jī)器人的語料庫通常是固定的,因此針對(duì)用戶的提問,回答也是固定的,開發(fā)起來相對(duì)也比較簡單。微信群里的自動(dòng)回復(fù)就屬于這一類機(jī)器人的應(yīng)用場景。無目標(biāo)驅(qū)動(dòng)型機(jī)器人如微軟的小冰,賢二機(jī)器人等,它們可以回答用戶千奇百怪的問題,可以代替真人客服與用戶進(jìn)行聊天。

        一般來說,聊天機(jī)器人應(yīng)該具備以下特點(diǎn):

        (1)正確回答問題。如果與人聊天時(shí)總是答非所問,那就不能稱之為智能聊天機(jī)器人。

        (2)回答問題時(shí)使用正確的語法。在內(nèi)容完整,邏輯合理的基礎(chǔ)上,要保證語句的通順,符合語法規(guī)則,這樣才不會(huì)引起歧義。

        (3)答案應(yīng)變化多端,豐富多彩。既然是聊天機(jī)器人,就不能給人無聊的感受,應(yīng)該通過不同的用詞和句法,使對(duì)話能夠完成,并解答用戶的疑問。這樣才能吸引更多的用戶使用聊天機(jī)器人。然而做到以上這幾點(diǎn)需要多種技術(shù)的結(jié)合,包括自然語言處理、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等等。Google的ALICE便使用了這些技術(shù)。

        二、研究背景

        1960年外國的科學(xué)家就提出“計(jì)算機(jī)要能用自然語言與人溝通”的設(shè)想。隨著科學(xué)技術(shù)的發(fā)展和移動(dòng)互聯(lián)網(wǎng)的日新月異,各大互聯(lián)網(wǎng)公司推出了自己的智能聊天機(jī)器人,替代人工面對(duì)龐大的客服需求,使得聊天機(jī)器人成為人們關(guān)注的方向之一。國外聊天機(jī)器人的發(fā)展比較早,目前已經(jīng)有很多成熟的產(chǎn)品,比如蘋果的Siri, 用戶可以給Siri發(fā)布定時(shí)、打開應(yīng)用等指令。 微軟的小冰可以與用戶進(jìn)行有趣的聊天。還有Google的Alice,IBM的Watson等。聊天機(jī)器人在中國也有廣泛的應(yīng)用,比如許多微信群,淘寶的客服,百度的度秘,科大訊飛的語音助手等都能提供智能聊天服務(wù),極大地減少了人工成本。但是相較于國外,發(fā)展還是相對(duì)落后,主要原因是中文比較難處理,語料庫的積累也比較少。

        在機(jī)器人的主要設(shè)計(jì)技術(shù)方面,目前比較主流的是基于人工模板和人工智能的兩種聊天機(jī)器人。

        基于人工模板的聊天機(jī)器人制作最簡單,主要是通過人工錄入一些對(duì)話的模板,當(dāng)有用戶提問時(shí),會(huì)從這些模板中找出匹配的答案返回給用戶。這種技術(shù)的優(yōu)點(diǎn)是開發(fā)簡單,返回答案速度快,缺點(diǎn)是答案單一,人工成本高。

        基于人工智能的聊天機(jī)器人是利用一些算法來生成答案,答案的準(zhǔn)確度取決于算法的好壞。這種聊天機(jī)器人有自我學(xué)習(xí)的能力,隨著聊天次數(shù)的增多,答案也會(huì)越來越準(zhǔn)確。這種聊天機(jī)器人的優(yōu)點(diǎn)是前期不需要人工輸入大量模板,答案較靈活,缺點(diǎn)是開發(fā)難度大,模型訓(xùn)練復(fù)雜。這種聊天機(jī)器人制作的主要難點(diǎn)在于語料庫的積累,規(guī)則的匹配。

        三、理論原理

        行為主義理論又稱為刺激-反應(yīng)理論,這種理論認(rèn)為通過對(duì)環(huán)境的“刺激”和對(duì)行為的“強(qiáng)化”,所有行為都可以被設(shè)計(jì)、創(chuàng)造乃至改變。另外,只要不斷地強(qiáng)化正確的反應(yīng),消除錯(cuò)誤的反應(yīng),學(xué)習(xí)的效果就會(huì)越好。本文中提到的ALICE的AIML(人工智能標(biāo)記語言)采用的就是“刺激-反應(yīng)”理論,通過對(duì)輸入語句進(jìn)行匹配和分析,也就是刺激,給出答案,即反應(yīng),從而使得答題內(nèi)容能夠正確地的表示并傳輸。

        四、技術(shù)原理

        智能聊天機(jī)器人涉及多方面的技術(shù),比如大數(shù)據(jù)分析、自然語言處理、機(jī)器學(xué)習(xí)等,這些都屬于人工智能的范圍。自然語言處理是智能聊天機(jī)器人的核心技術(shù)之一。機(jī)器人會(huì)根據(jù)用戶輸入的語句,進(jìn)行分詞,然后和語料庫進(jìn)行比對(duì),然后返回預(yù)先設(shè)定的回答。機(jī)器人的語料庫越大,返回的答案越精確,這就涉及到了大數(shù)據(jù)技術(shù)。另外,機(jī)器人從這么龐大的語料庫中篩選獲取準(zhǔn)確數(shù)據(jù)的過程,就使用了機(jī)器學(xué)習(xí)的算法,并且機(jī)器人還有自學(xué)習(xí)的能力,能通過和不同的人聊天,積累經(jīng)驗(yàn),會(huì)變得越來越智能,并能夠應(yīng)付更多不同的提問。

        1.自然語言處理

        自然語言處理是研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行溝通的技術(shù),涉及到語言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)等多種學(xué)科。自然語言處理的應(yīng)用主要在聊天機(jī)器人、機(jī)器翻譯、搜索引擎等領(lǐng)域。自然語言處理在智能聊天機(jī)器人的開發(fā)中起著重要的作用。自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心即分詞。句法分析就是對(duì)自然語言中句子的結(jié)構(gòu)、語法進(jìn)行分析,如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個(gè)段落的上下文分析,辨別一些字詞在不同的上下文中特定的語義和情感態(tài)度。

        機(jī)器人的語料庫也叫知識(shí)庫,知識(shí)庫的設(shè)計(jì)要通過大量的調(diào)研,作為前期的語料儲(chǔ)備。在機(jī)器人與用戶溝通積累到一定程度后,機(jī)器人可以將這些聊天內(nèi)容儲(chǔ)存并分析,從而豐富語料庫。當(dāng)機(jī)器人要回答問題時(shí),要先對(duì)問題進(jìn)行分詞,這就涉及到了分詞器。分詞器也分多種語言。常用的分詞技術(shù)有基于字符串的分詞算法,基于統(tǒng)計(jì)以及基于理解的分詞算法。分詞完成后,拿這些詞語與語料庫中的數(shù)據(jù)進(jìn)行相似度計(jì)算,選擇相似度大的結(jié)果返回給用戶。

        2.大數(shù)據(jù)分析

        IBM給出了大數(shù)據(jù)的5V特點(diǎn),分別是Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。首先數(shù)據(jù)量要大,并且處理速度快,而數(shù)據(jù)格式、內(nèi)容多種多樣;通過對(duì)大數(shù)據(jù)的挖掘能得到少量數(shù)據(jù)得不到的有價(jià)值的信息;另外數(shù)據(jù)要真實(shí)可靠。

        大數(shù)據(jù)分析是對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行分析的技術(shù)。大數(shù)據(jù)分析的流程一般分為數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、算法分析挖掘、產(chǎn)生結(jié)果、結(jié)果可視化這五步。其中數(shù)據(jù)收集是前提,數(shù)據(jù)預(yù)處理是將收集到的雜亂的數(shù)據(jù),按照一定格式存儲(chǔ),并對(duì)無效數(shù)據(jù)進(jìn)行過濾。算法分析挖掘時(shí)通過運(yùn)用一些算法來處理這些數(shù)據(jù),產(chǎn)生有價(jià)值的信息,并作出預(yù)測,最后可視化是將結(jié)果以合適的方式展現(xiàn)出來,可以是統(tǒng)計(jì)圖,也可以是表格。

        智能聊天機(jī)器人的語料庫積累到一定規(guī)模后,對(duì)語料庫的挖掘過程就可以稱之為大數(shù)據(jù)分析。語料庫的積累即是數(shù)據(jù)收集的過程。數(shù)據(jù)在存儲(chǔ)的過程中,可以進(jìn)行初步的篩選,去掉無意義或重復(fù)的語句,保證語料庫的質(zhì)量。聊天機(jī)器人在收到請求后,會(huì)利用一些機(jī)器學(xué)習(xí)的算法從語料庫中搜集、挖掘可能的答案,最后將最適合的答案返回給用戶。

        3.機(jī)器學(xué)習(xí)

        機(jī)器學(xué)習(xí)是人工智能的核心,在人工智能的各個(gè)領(lǐng)域都有應(yīng)用。機(jī)器學(xué)習(xí)是機(jī)器研究獲取新知識(shí)的技術(shù)。機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)就是通過給定的有標(biāo)簽的訓(xùn)練集來訓(xùn)練模型。無監(jiān)督學(xué)習(xí)是沒有給定有標(biāo)簽的數(shù)據(jù)集,需要通過初始化,不斷地優(yōu)化模型。半監(jiān)督學(xué)習(xí)介于兩者之間,訓(xùn)練集的標(biāo)簽可能不是最終的標(biāo)簽,只是一個(gè)中間結(jié)果。常用的機(jī)器學(xué)習(xí)算法有決策樹、關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)等等。

        智能聊天機(jī)器人在檢索答案的過程中往往會(huì)產(chǎn)生許多結(jié)果,并且會(huì)給這些結(jié)果打分,最后返回打分最高的結(jié)果。這個(gè)分值是在與人們聊天的過程中根據(jù)人們的反饋積累下來的,所以智能聊天機(jī)器人模型的訓(xùn)練是有監(jiān)督的。

        五、ALICE的工作原理

        ALICE第一個(gè)版本是由Richard S.Wallac于1995年開發(fā)完成的,先后有300多人為其做出貢獻(xiàn),目前存儲(chǔ)四萬多條知識(shí)分類,可以支持英語、德語、法語等多種語言,現(xiàn)在ALICE在問答系統(tǒng)、智能導(dǎo)航、網(wǎng)站服務(wù)等系統(tǒng)中都有廣泛的應(yīng)用。

        ALICE具有豐富的標(biāo)簽,算法也并不復(fù)雜,主要采用的是模式匹配的方法。

        ALICE有兩個(gè)核心的模塊:AIML語料庫和Chatterbean引擎。AIML即人工智能標(biāo)記語言,是基于XML發(fā)展的,采用了簡單的模式匹配和“刺激-反應(yīng)”理論。Chatterbean使用JAVA語言開發(fā),該引擎負(fù)責(zé)處理用戶的輸入,并對(duì)AIML進(jìn)行解析。

        AIML的標(biāo)簽主要有、、