(中移互聯(lián)網(wǎng)有限公司,廣東 廣州 510000)
近年來,科學(xué)技術(shù)的不斷進步,科技影響著人類生活的生活方方面面,與此同時,聊天機器人技術(shù)也隨之發(fā)展,許多科技公司紛紛投入聊天機器人技術(shù)的研發(fā),探討聊天機器人技術(shù),對于理解對話與問題和推進人機交流具有重大意義。
在互聯(lián)網(wǎng)大數(shù)據(jù)時代,人們獲取信息的主要來源是搜索引擎,作為搜索引擎的一種延伸,問答系統(tǒng)可依據(jù)用戶輸入的關(guān)鍵詞提供一份明確的答案,問答系統(tǒng)可根據(jù)答題范圍可區(qū)分為閉域問答系統(tǒng)和開域問答系統(tǒng)。開域回答設(shè)計的范圍較廣,回答也豐富多樣,閉域回答的是用戶提出的較為固定領(lǐng)域的問題。過去,被限制的數(shù)據(jù)資源導(dǎo)致問答系統(tǒng)多為閉域,同時系統(tǒng)為專門的任務(wù)而設(shè)置,因此也稱之為任務(wù)式作答系統(tǒng),深度學(xué)習(xí)技術(shù)與大數(shù)據(jù)的廣泛應(yīng)用的同時非任務(wù)型開域聊天機器人也隨之發(fā)展,產(chǎn)業(yè)界和學(xué)術(shù)界也愈發(fā)關(guān)注聊天機器人相關(guān)技術(shù)。
21世紀是信息化與數(shù)據(jù)化飛速發(fā)展的時代,Nature在2008年推出《BigData》與Science在2010年推出《DealingwithData》,都充分證明大數(shù)據(jù)時代的到來,人們在大數(shù)據(jù)時代慣用數(shù)據(jù)形式時文本數(shù)據(jù)。文本數(shù)據(jù)主要由人類對話數(shù)據(jù)組成,人類每天大量的對話數(shù)據(jù)都經(jīng)由互聯(lián)網(wǎng)產(chǎn)生,聊天機器人的產(chǎn)生以對話數(shù)據(jù)為基礎(chǔ),如,在著名的社交網(wǎng)絡(luò)豆瓣社區(qū)收集了豆瓣對話語料,是關(guān)于豆瓣用戶真實而準確地對話文本數(shù)據(jù),其中涉及一百多萬種關(guān)于各種主題對話的問答數(shù)據(jù)。在經(jīng)過人工的標示以后,可由聊天機器人廣泛應(yīng)用此語料。因而,聊天機器人相關(guān)技術(shù)的研究是由于大數(shù)據(jù)時代推進的。
聊天機器人技術(shù)在國內(nèi)的研究尚未成熟,加之與國外的研究相比起步較晚。有兩方面的難題需要解決,首先是語言造成的難題,由于在信息處理上中文的特殊性,在中文語言系統(tǒng)里不能直接運用國外優(yōu)秀或已經(jīng)成熟的研究成果。其次,對于語言處理機制的相關(guān)研究比較匱乏,例如相關(guān)的知識庫、評價機制、語料庫等。但由于當代科技進步,聊天機器人技術(shù)也隨之有了較大的發(fā)展,與此同時聊天機器人技術(shù)在國內(nèi)也有顯著進展。微軟于2014推出的聊天機器人小冰一舉成為當年的熱門話題,大量的語料相關(guān)資料累計于聊天機器人和用戶的對話中。與此同時,由于在自然語言分析、深度神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)和大數(shù)據(jù)等方面技術(shù)的進步,微軟公司又對小冰進行了升級修復(fù),提高了小冰與人溝通對話能力。此后,其他企業(yè)研究機構(gòu)也紛紛效仿,各種聊天機器人由此誕生,例如,公子小白、holoera、百度度秘等。
在國外,聊天機器人相關(guān)研究比較成熟,許多科研機構(gòu)和大學(xué)對于聊天機器人的研究都有較為深入的研究。對聊天機器人的研究最初可以追溯到一位著名英國數(shù)學(xué)家圖靈于1950年在《Mind》上發(fā)表的論文《計算機器與智能》?!皺C器智能”的命題于這篇著名的論文中提出,關(guān)于計算機能否進行智能實驗的方法圖靈測試也在此文中提出。真正開發(fā)出世界上第一個命名為Eliza聊天機器人是在1966年來自麻省理工學(xué)院的科學(xué)家JosephWeizenbaum,Eliza可以對精神病人開展輔助治療,此后聊天機器人的時代被正式開啟。在一系列關(guān)于聊天機器人競賽與人工智能競賽的推動下,聊天機器人相關(guān)研究愈發(fā)受到科學(xué)家以及研究人員的關(guān)注,人工智能機器人ALICE在1995年誕生,獲得了多項競賽的獎項,并在修復(fù)改進以后,可實現(xiàn)用中文進行溝通對話。在線聊天系統(tǒng)Talk-Bot在1998年發(fā)布,促進了聊天機器人研究的發(fā)展。
在21世紀,科技的進步為聊天機器人的發(fā)展提供支撐,聊天機器人的市場不斷擴大,更多企業(yè)商業(yè)巨頭開始了聊天嗎機器人的研制,例如,IBM沃森系統(tǒng)、谷歌的GoogleNow、蘋果語音助手Siri、亞馬遜的Alexa、Rasa等。Rasa作為聊天機器人,是一個基于機器學(xué)習(xí)實現(xiàn)多輪對話的開源機器人框架,包括Rasa-Core與Rasa-Nlu兩個模塊,Rasa-Core是關(guān)于對話管理的平臺,它主要用于決定接下來及其該返回什么內(nèi)容給用戶,Rasa-Nlu是自然語言理解模型集合,主要包括實體識別、意圖識別,將用戶的輸入轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)。
基于生成的技術(shù)和基于檢索的技術(shù)是建構(gòu)聊天機器人的主流技術(shù),關(guān)于檢索的聊天機器人研究的難點與熱點是基于檢索的多輪對話建模技術(shù),因為模仿了人類學(xué)習(xí)語言過程的基于生成的對話技術(shù)而受到廣泛關(guān)注。雖然聊天機器人問答系統(tǒng)在當代的發(fā)展尤為迅猛,但仍未達到相關(guān)用戶和普及推廣的要求,相關(guān)技術(shù)依舊面臨著挑戰(zhàn),例如怎樣用好未標注數(shù)據(jù)、如何在問答系統(tǒng)中加入常識庫等。
筆者認為,基于現(xiàn)有聊天機器人應(yīng)用情況與市場需求來看,其未來發(fā)展方向包括以下幾個方面:(1)預(yù)訓(xùn)練,在問答系統(tǒng)中加入關(guān)于常識的部分,利用未標注數(shù)據(jù),是未來的可行趨勢之一;如google的bert的預(yù)訓(xùn)練模型為NLP帶來里程碑式的改變。(2)通用模型,問答系統(tǒng)需要掌握處理多方面領(lǐng)域問題的能力,學(xué)會主動式學(xué)習(xí)和學(xué)習(xí)遷移是相關(guān)技術(shù)發(fā)展的趨勢之一;(3)深度推理,未來聊天機器人需獲取用戶對話的真實含義,不再只停留于字面也是其發(fā)展需要突破的重要問題。
本文在聊天機器人現(xiàn)有的發(fā)展成果上,對聊天機器人問答系統(tǒng)發(fā)展的背景、影響因素及國內(nèi)外發(fā)展現(xiàn)狀進行總結(jié)。聊天機器人是在大數(shù)據(jù)的催化下迅速發(fā)展的,并在當前信息化時代中具有良好的發(fā)展前景。就發(fā)展現(xiàn)狀比較來看,國外的聊天機器人技術(shù)發(fā)展更為成熟,但是國內(nèi)外相關(guān)技術(shù)的發(fā)展仍有需要改進的方面,其與理想仍存在一定差距,但只要繼續(xù)加大研究力度,未來聊天機器人一定會朝著人類的多元需求發(fā)展。