基于ALICE的智能聊天機(jī)器人的程序開發(fā)

2018-01-26 04:58:02廣州市執(zhí)信中學(xué)聶碩琳

電子世界 2018年1期

廣州市執(zhí)信中學(xué) 聶碩琳

一、引言

智能聊天機(jī)器人的主要用于模擬人類對(duì)話或聊天，應(yīng)用場景是客服坐席。它替代客服人員回答大量重復(fù)而且簡單的問題，反映速度比人要快很多，而且不會(huì)感到疲憊和厭煩。它唯一的需求是有電源供應(yīng)。

聊天機(jī)器人分為目標(biāo)驅(qū)動(dòng)型和無目標(biāo)驅(qū)動(dòng)型。目標(biāo)驅(qū)動(dòng)型機(jī)器人的語料庫通常是固定的，因此針對(duì)用戶的提問，回答也是固定的，開發(fā)起來相對(duì)也比較簡單。微信群里的自動(dòng)回復(fù)就屬于這一類機(jī)器人的應(yīng)用場景。無目標(biāo)驅(qū)動(dòng)型機(jī)器人如微軟的小冰，賢二機(jī)器人等，它們可以回答用戶千奇百怪的問題，可以代替真人客服與用戶進(jìn)行聊天。

一般來說，聊天機(jī)器人應(yīng)該具備以下特點(diǎn)：

（1）正確回答問題。如果與人聊天時(shí)總是答非所問，那就不能稱之為智能聊天機(jī)器人。

（2）回答問題時(shí)使用正確的語法。在內(nèi)容完整，邏輯合理的基礎(chǔ)上，要保證語句的通順，符合語法規(guī)則，這樣才不會(huì)引起歧義。

（3）答案應(yīng)變化多端，豐富多彩。既然是聊天機(jī)器人，就不能給人無聊的感受，應(yīng)該通過不同的用詞和句法，使對(duì)話能夠完成，并解答用戶的疑問。這樣才能吸引更多的用戶使用聊天機(jī)器人。然而做到以上這幾點(diǎn)需要多種技術(shù)的結(jié)合，包括自然語言處理、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等等。Google的ALICE便使用了這些技術(shù)。

二、研究背景

1960年外國的科學(xué)家就提出“計(jì)算機(jī)要能用自然語言與人溝通”的設(shè)想。隨著科學(xué)技術(shù)的發(fā)展和移動(dòng)互聯(lián)網(wǎng)的日新月異，各大互聯(lián)網(wǎng)公司推出了自己的智能聊天機(jī)器人，替代人工面對(duì)龐大的客服需求，使得聊天機(jī)器人成為人們關(guān)注的方向之一。國外聊天機(jī)器人的發(fā)展比較早，目前已經(jīng)有很多成熟的產(chǎn)品，比如蘋果的Siri, 用戶可以給Siri發(fā)布定時(shí)、打開應(yīng)用等指令。微軟的小冰可以與用戶進(jìn)行有趣的聊天。還有Google的Alice，IBM的Watson等。聊天機(jī)器人在中國也有廣泛的應(yīng)用，比如許多微信群，淘寶的客服，百度的度秘，科大訊飛的語音助手等都能提供智能聊天服務(wù)，極大地減少了人工成本。但是相較于國外，發(fā)展還是相對(duì)落后，主要原因是中文比較難處理，語料庫的積累也比較少。

在機(jī)器人的主要設(shè)計(jì)技術(shù)方面，目前比較主流的是基于人工模板和人工智能的兩種聊天機(jī)器人。

基于人工模板的聊天機(jī)器人制作最簡單，主要是通過人工錄入一些對(duì)話的模板，當(dāng)有用戶提問時(shí)，會(huì)從這些模板中找出匹配的答案返回給用戶。這種技術(shù)的優(yōu)點(diǎn)是開發(fā)簡單，返回答案速度快，缺點(diǎn)是答案單一，人工成本高。

基于人工智能的聊天機(jī)器人是利用一些算法來生成答案，答案的準(zhǔn)確度取決于算法的好壞。這種聊天機(jī)器人有自我學(xué)習(xí)的能力，隨著聊天次數(shù)的增多，答案也會(huì)越來越準(zhǔn)確。這種聊天機(jī)器人的優(yōu)點(diǎn)是前期不需要人工輸入大量模板，答案較靈活，缺點(diǎn)是開發(fā)難度大，模型訓(xùn)練復(fù)雜。這種聊天機(jī)器人制作的主要難點(diǎn)在于語料庫的積累，規(guī)則的匹配。

三、理論原理

行為主義理論又稱為刺激-反應(yīng)理論，這種理論認(rèn)為通過對(duì)環(huán)境的“刺激”和對(duì)行為的“強(qiáng)化”，所有行為都可以被設(shè)計(jì)、創(chuàng)造乃至改變。另外，只要不斷地強(qiáng)化正確的反應(yīng)，消除錯(cuò)誤的反應(yīng)，學(xué)習(xí)的效果就會(huì)越好。本文中提到的ALICE的AIML（人工智能標(biāo)記語言）采用的就是“刺激-反應(yīng)”理論，通過對(duì)輸入語句進(jìn)行匹配和分析，也就是刺激，給出答案，即反應(yīng)，從而使得答題內(nèi)容能夠正確地的表示并傳輸。

四、技術(shù)原理

智能聊天機(jī)器人涉及多方面的技術(shù)，比如大數(shù)據(jù)分析、自然語言處理、機(jī)器學(xué)習(xí)等，這些都屬于人工智能的范圍。自然語言處理是智能聊天機(jī)器人的核心技術(shù)之一。機(jī)器人會(huì)根據(jù)用戶輸入的語句，進(jìn)行分詞，然后和語料庫進(jìn)行比對(duì)，然后返回預(yù)先設(shè)定的回答。機(jī)器人的語料庫越大，返回的答案越精確，這就涉及到了大數(shù)據(jù)技術(shù)。另外，機(jī)器人從這么龐大的語料庫中篩選獲取準(zhǔn)確數(shù)據(jù)的過程，就使用了機(jī)器學(xué)習(xí)的算法，并且機(jī)器人還有自學(xué)習(xí)的能力，能通過和不同的人聊天，積累經(jīng)驗(yàn)，會(huì)變得越來越智能，并能夠應(yīng)付更多不同的提問。

1.自然語言處理

自然語言處理是研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行溝通的技術(shù)，涉及到語言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)等多種學(xué)科。自然語言處理的應(yīng)用主要在聊天機(jī)器人、機(jī)器翻譯、搜索引擎等領(lǐng)域。自然語言處理在智能聊天機(jī)器人的開發(fā)中起著重要的作用。自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心即分詞。句法分析就是對(duì)自然語言中句子的結(jié)構(gòu)、語法進(jìn)行分析，如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個(gè)段落的上下文分析，辨別一些字詞在不同的上下文中特定的語義和情感態(tài)度。

機(jī)器人的語料庫也叫知識(shí)庫，知識(shí)庫的設(shè)計(jì)要通過大量的調(diào)研，作為前期的語料儲(chǔ)備。在機(jī)器人與用戶溝通積累到一定程度后，機(jī)器人可以將這些聊天內(nèi)容儲(chǔ)存并分析，從而豐富語料庫。當(dāng)機(jī)器人要回答問題時(shí)，要先對(duì)問題進(jìn)行分詞，這就涉及到了分詞器。分詞器也分多種語言。常用的分詞技術(shù)有基于字符串的分詞算法，基于統(tǒng)計(jì)以及基于理解的分詞算法。分詞完成后，拿這些詞語與語料庫中的數(shù)據(jù)進(jìn)行相似度計(jì)算，選擇相似度大的結(jié)果返回給用戶。

2.大數(shù)據(jù)分析

IBM給出了大數(shù)據(jù)的5V特點(diǎn)，分別是Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價(jià)值密度）、Veracity（真實(shí)性）。首先數(shù)據(jù)量要大，并且處理速度快，而數(shù)據(jù)格式、內(nèi)容多種多樣；通過對(duì)大數(shù)據(jù)的挖掘能得到少量數(shù)據(jù)得不到的有價(jià)值的信息；另外數(shù)據(jù)要真實(shí)可靠。

大數(shù)據(jù)分析是對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行分析的技術(shù)。大數(shù)據(jù)分析的流程一般分為數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、算法分析挖掘、產(chǎn)生結(jié)果、結(jié)果可視化這五步。其中數(shù)據(jù)收集是前提，數(shù)據(jù)預(yù)處理是將收集到的雜亂的數(shù)據(jù)，按照一定格式存儲(chǔ)，并對(duì)無效數(shù)據(jù)進(jìn)行過濾。算法分析挖掘時(shí)通過運(yùn)用一些算法來處理這些數(shù)據(jù)，產(chǎn)生有價(jià)值的信息，并作出預(yù)測，最后可視化是將結(jié)果以合適的方式展現(xiàn)出來，可以是統(tǒng)計(jì)圖，也可以是表格。

智能聊天機(jī)器人的語料庫積累到一定規(guī)模后，對(duì)語料庫的挖掘過程就可以稱之為大數(shù)據(jù)分析。語料庫的積累即是數(shù)據(jù)收集的過程。數(shù)據(jù)在存儲(chǔ)的過程中，可以進(jìn)行初步的篩選，去掉無意義或重復(fù)的語句，保證語料庫的質(zhì)量。聊天機(jī)器人在收到請求后，會(huì)利用一些機(jī)器學(xué)習(xí)的算法從語料庫中搜集、挖掘可能的答案，最后將最適合的答案返回給用戶。

3.機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是人工智能的核心，在人工智能的各個(gè)領(lǐng)域都有應(yīng)用。機(jī)器學(xué)習(xí)是機(jī)器研究獲取新知識(shí)的技術(shù)。機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)，以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)就是通過給定的有標(biāo)簽的訓(xùn)練集來訓(xùn)練模型。無監(jiān)督學(xué)習(xí)是沒有給定有標(biāo)簽的數(shù)據(jù)集，需要通過初始化，不斷地優(yōu)化模型。半監(jiān)督學(xué)習(xí)介于兩者之間，訓(xùn)練集的標(biāo)簽可能不是最終的標(biāo)簽，只是一個(gè)中間結(jié)果。常用的機(jī)器學(xué)習(xí)算法有決策樹、關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)等等。

智能聊天機(jī)器人在檢索答案的過程中往往會(huì)產(chǎn)生許多結(jié)果，并且會(huì)給這些結(jié)果打分，最后返回打分最高的結(jié)果。這個(gè)分值是在與人們聊天的過程中根據(jù)人們的反饋積累下來的，所以智能聊天機(jī)器人模型的訓(xùn)練是有監(jiān)督的。

五、ALICE的工作原理

ALICE第一個(gè)版本是由Richard S.Wallac于1995年開發(fā)完成的，先后有300多人為其做出貢獻(xiàn)，目前存儲(chǔ)四萬多條知識(shí)分類，可以支持英語、德語、法語等多種語言，現(xiàn)在ALICE在問答系統(tǒng)、智能導(dǎo)航、網(wǎng)站服務(wù)等系統(tǒng)中都有廣泛的應(yīng)用。

ALICE具有豐富的標(biāo)簽，算法也并不復(fù)雜，主要采用的是模式匹配的方法。

ALICE有兩個(gè)核心的模塊：AIML語料庫和Chatterbean引擎。AIML即人工智能標(biāo)記語言，是基于XML發(fā)展的，采用了簡單的模式匹配和“刺激-反應(yīng)”理論。Chatterbean使用JAVA語言開發(fā)，該引擎負(fù)責(zé)處理用戶的輸入，并對(duì)AIML進(jìn)行解析。

AIML的標(biāo)簽主要有、、、

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ALICE的智能聊天機(jī)器人的程序開發(fā)

一、引言

二、研究背景

三、理論原理

四、技術(shù)原理

1.自然語言處理

2.大數(shù)據(jù)分析

3.機(jī)器學(xué)習(xí)

五、ALICE的工作原理

六、基于ALICE的聊天機(jī)器人的程序開發(fā)

1.開發(fā)環(huán)境

2.相關(guān)技術(shù)

3.源碼結(jié)構(gòu)

4.AIML文件設(shè)計(jì)

七、總結(jié)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ALICE的智能聊天機(jī)器人的程序開發(fā)

一、引言

二、研究背景

三、理論原理

四、技術(shù)原理

1.自然語言處理

2.大數(shù)據(jù)分析

3.機(jī)器學(xué)習(xí)

五、ALICE的工作原理

六、基于ALICE的聊天機(jī)器人的程序開發(fā)

1.開發(fā)環(huán)境

2.相關(guān)技術(shù)

3.源碼結(jié)構(gòu)

4.AIML文件設(shè)計(jì)

七、總結(jié)

三、理論原理

六、基于ALICE的聊天機(jī)器人的程序開發(fā)

七、總結(jié)