中國(guó)移動(dòng)蘇州研發(fā)中心|程廣兵
近年來,國(guó)內(nèi)外各大公司在問答系統(tǒng)領(lǐng)域的激烈競(jìng)爭(zhēng)從側(cè)面印證了問答系統(tǒng)蘊(yùn)涵的龐大商機(jī)。
智能問答系統(tǒng)是融合了自然語言處理技術(shù)和信息檢索技術(shù)的人工智能產(chǎn)品。根據(jù)目標(biāo)的不同,智能問答系統(tǒng)被分為開放領(lǐng)域與限定領(lǐng)域兩類。本文介紹了限定領(lǐng)域的智能客服系統(tǒng)的算法結(jié)構(gòu),概述了架構(gòu)中每個(gè)模塊的功能。文章在最后簡(jiǎn)單介紹了本文作者參與開發(fā)的智能問答系統(tǒng)應(yīng)用案例的解決方案。
隨著互聯(lián)網(wǎng)的快速發(fā)展和個(gè)人計(jì)算機(jī)的廣泛普及,越來越多的消息和數(shù)據(jù)通過超文本傳輸協(xié)議以電子文檔的形式發(fā)布。于是,用戶可以通過互聯(lián)網(wǎng)這種更加便捷的途徑獲取他們所需要的各類信息,與此同時(shí),海量的數(shù)據(jù)資源匯聚在一起形成了信息大爆炸。如何準(zhǔn)確并及時(shí)地在浩如煙海的信息世界中獲取用戶所需的信息,已經(jīng)成為互聯(lián)網(wǎng)發(fā)展至今的一大難題。信息檢索技術(shù)就是解決這一難題的有效技術(shù)。
搜索引擎技術(shù)作為一種成熟的信息檢索技術(shù),可以滿足用戶絕大部分的信息需求。但是,隨著互聯(lián)網(wǎng)數(shù)據(jù)的瘋狂增長(zhǎng),搜索引擎的缺點(diǎn)逐漸顯現(xiàn)。百度、谷歌、必應(yīng)這類傳統(tǒng)的搜索引擎,通常只能以關(guān)鍵詞作為輸入。而用戶在檢索信息時(shí),需要將其查詢凝練為若干簡(jiǎn)潔的關(guān)鍵詞后提交給搜索引擎。對(duì)于普通用戶而言,他們往往難以用少量的關(guān)鍵詞來準(zhǔn)確地表述其查詢意圖。此外,搜索引擎的返回結(jié)果不是一個(gè)簡(jiǎn)潔的準(zhǔn)確答案,而是一個(gè)網(wǎng)頁(yè)片段的列表。這些網(wǎng)頁(yè)片段通常含有大量的噪聲數(shù)據(jù),用戶仍然需要閱讀這些網(wǎng)頁(yè)片段乃至相應(yīng)的原始網(wǎng)頁(yè),才能找到其所需的答案。
為了改善信息檢索的用戶體驗(yàn),人們開始研究直接以自然語言作為輸入與輸出的問答系統(tǒng),用戶能夠以文本或者語音的方式,使用自然語言直接地表達(dá)其查詢需求。問答系統(tǒng)理解用戶的查詢意圖后,通過一系列的檢索、分析與處理,直接將以自然語言形式表述的準(zhǔn)確答案返回給用戶。因此,對(duì)用戶來說,問答系統(tǒng)是一種更加方便、友好和精準(zhǔn)的服務(wù)。
對(duì)于有人工客服的企業(yè)來說,問答系統(tǒng)可以為他們節(jié)約大量的人力,且問答系統(tǒng)更加穩(wěn)定和高效。例如中國(guó)移動(dòng)的傳統(tǒng)客戶服務(wù)方式包括10086的轉(zhuǎn)人工服務(wù)、營(yíng)業(yè)廳人工服務(wù)窗口等渠道,這些服務(wù)方式存在通訊費(fèi)、培訓(xùn)費(fèi)、人工資源等成本,且會(huì)受到時(shí)間(無法提供 24 小時(shí)服務(wù))、場(chǎng)地(集中的客服辦公場(chǎng)所)等條件的制約。隨著企業(yè)客戶量的增長(zhǎng),龐大的咨詢需求往往讓客服團(tuán)隊(duì)不堪重負(fù)。因此,在企業(yè)現(xiàn)代化、信息化、智能化發(fā)展的浪潮下,智能問答系統(tǒng)應(yīng)運(yùn)而生。
圖 1 智能客服系統(tǒng)算法架構(gòu)
近年來,國(guó)內(nèi)外各大公司在問答系統(tǒng)領(lǐng)域的激烈競(jìng)爭(zhēng)也從側(cè)面印證了問答系統(tǒng)蘊(yùn)涵的龐大商機(jī):在通用領(lǐng)域蘋果推出了Siri,微軟推出了小冰和小娜,百度推出了小度。同時(shí)在限定領(lǐng)域的智能客服系統(tǒng)中有京東的JIMI機(jī)器人可以提供用戶基本查詢和聊天服務(wù)。阿里巴巴集團(tuán)也在2015年推出了一款人工智能購(gòu)物助理虛擬機(jī)器人,并取名“阿里小蜜”。據(jù)了解,阿里小蜜是一個(gè)無線端多領(lǐng)域私人助理,依托于客戶真實(shí)的需求,通過“智能+人工”的方式提供客戶極致的購(gòu)物體驗(yàn)服務(wù),提升客戶留存并創(chuàng)造價(jià)值。另外專注于智能客服領(lǐng)域的企業(yè)小I機(jī)器人也為很多大的企業(yè)定制了客服機(jī)器人。
本文主要介紹限定領(lǐng)域的智能客服系統(tǒng)的一般架構(gòu)、涉及的技術(shù),最后介紹中國(guó)移動(dòng)蘇州研發(fā)中心自主研發(fā)的智能客服系統(tǒng)“知了”及應(yīng)用案例。
智能客服系統(tǒng)一般分為知識(shí)庫(kù)梳理、問題理解、問題檢索三大模塊。系統(tǒng)整體的功能結(jié)構(gòu)如圖1所示。知識(shí)庫(kù)梳理主要由知識(shí)庫(kù)管理、知識(shí)維度、問答歷史以及詞類管理四個(gè)子模塊組成。問題理解主要分為預(yù)處理、會(huì)話管理以及后處理三個(gè)部分,預(yù)處理部分主要有智能分詞、實(shí)體識(shí)別兩個(gè)子模塊組成,后處理主要設(shè)置了智能糾錯(cuò)模塊。目前問題檢索部分這里沒有細(xì)化,根據(jù)開發(fā)者使用的技術(shù)不同而不同,這部分在下一章會(huì)著重介紹目前主流的幾種技術(shù)。主要為基于深度學(xué)習(xí)的問答系統(tǒng)、基于知識(shí)圖譜的問答系統(tǒng)和基于統(tǒng)計(jì)學(xué)習(xí)的問答系統(tǒng)。
本部分所述限定領(lǐng)域智能問答系統(tǒng)的知識(shí)庫(kù)有兩種類型的知識(shí)源,第一種是根據(jù)FAQ形式組織好的常見問題集合,能夠直接使用的知識(shí)源;第二種是由知識(shí)圖譜構(gòu)建的知識(shí)庫(kù)。這里主要針對(duì)第一種構(gòu)建第一種形式的知識(shí)庫(kù)進(jìn)行介紹,構(gòu)建第二種知識(shí)庫(kù)在下一章節(jié)再做介紹。知識(shí)庫(kù)構(gòu)建是智能答系統(tǒng)的預(yù)處理階段,知識(shí)庫(kù)的好壞將直接影響算法模型的效率以及準(zhǔn)確率。
(1)知識(shí)庫(kù)管理
知識(shí)庫(kù)是智能問答系統(tǒng)的知識(shí)中樞,由分類、實(shí)例、屬性、標(biāo)準(zhǔn)問題、擴(kuò)展問題、標(biāo)準(zhǔn)答案組成。其中分類是標(biāo)注人員或客戶預(yù)先對(duì)知識(shí)庫(kù)的各個(gè)問答對(duì)標(biāo)注的分類信息,實(shí)例是指一個(gè)針對(duì)同一答案的不問問法的集合,屬性是另一種分類信息,如移動(dòng)營(yíng)業(yè)廳中“和游戲”有:介紹、資費(fèi)、辦理以及退訂等屬性。標(biāo)準(zhǔn)問題和標(biāo)準(zhǔn)答案是指客戶給出的常用知識(shí)問答對(duì),擴(kuò)展問題是指標(biāo)注人員針對(duì)同一標(biāo)注答案提供不同問法。
(2)知識(shí)維度
知識(shí)維度模塊通過定義不同維度,對(duì)知識(shí)進(jìn)行分類組織。例如可以有聊天庫(kù)、機(jī)器人相關(guān)信息庫(kù)、專業(yè)知識(shí)庫(kù)。用戶也可以根據(jù)需要自定義用戶庫(kù)。
(3)詞類管理
詞類管理模塊實(shí)現(xiàn)對(duì)業(yè)務(wù)關(guān)鍵詞、近義詞、敏感詞、前后綴和拼音詞的符理。特定領(lǐng)域內(nèi)部有許多領(lǐng)域內(nèi)術(shù)語,詞類管理通過人工手動(dòng)添加的方式,增加詞類信息。
(4)問答歷史
問答歷史模塊記錄所有用戶跟智能機(jī)器人的聊天記錄,基于此可以重點(diǎn)關(guān)注未解決問題,分析、改進(jìn)智能機(jī)器人的智能化程度?;谟脩糁镜耐扑]系統(tǒng)以及搜索引擎檢索優(yōu)化的成功應(yīng)用體現(xiàn)了用戶日志的重要性,高效、準(zhǔn)確地記錄和管理問答歷史是提高智能機(jī)器人的重要過程。
問題理解是指通過自然語言技術(shù),將用戶輸入的查詢語句所表達(dá)的意圖轉(zhuǎn)換到智能問答系統(tǒng)能夠識(shí)別、理解的語義結(jié)構(gòu)。本文所述智能問答系統(tǒng)中,問題理解功能主要依靠三個(gè)子模塊完成。預(yù)處理模塊將用戶輸入的查詢語句通過智能分詞、命名實(shí)體標(biāo)注等方法轉(zhuǎn)換為關(guān)鍵字、詞序列。會(huì)話管理模塊明確用戶提出的問題,本文所述智能問答系統(tǒng)通過會(huì)話管理模塊幫助表述不清自己意圖的用戶明確目的。后處理模塊依靠糾錯(cuò)算法模型,允許用戶輸入拼寫、表述有誤的查詢語句并返回正確結(jié)果。
(1)預(yù)處理
預(yù)處理階段是指用戶輸入查詢語句后,系統(tǒng)處理用戶查詢語句的模塊,包括智能分詞與命名實(shí)體識(shí)別兩個(gè)階段。第一階段:智能分詞,用戶輸入的檢索語句是未經(jīng)過分詞的語句,將檢索語句準(zhǔn)確分詞是之后所有算法能夠正確實(shí)施的基本保障,分詞時(shí)將詞類管理中生成的特殊詞以及詞組添加入分詞詞典,并保持更新。第二階段:實(shí)體識(shí)別,命名實(shí)體識(shí)別模塊主要負(fù)責(zé)將語句中的人名、地名、機(jī)構(gòu)名以及事先標(biāo)注好的實(shí)體名識(shí)別出,并加以特殊標(biāo)記。
(2)會(huì)話管理
會(huì)話管理中緩存了每個(gè)用戶一定數(shù)量的歷史聊天記錄,當(dāng)檢索不到用戶答案時(shí),通過度量問答上下文,判斷用戶是否表意不清,反問用戶是否想要咨詢另一問題。會(huì)話管理模塊見圖2。
圖 2 會(huì)話管理模塊流程圖
(3)后處理
后處理模塊主要由智能糾錯(cuò)模塊構(gòu)成。智能糾錯(cuò)模塊由拼音糾錯(cuò)和拼寫糾錯(cuò)兩個(gè)子模塊組成。其中,拼音糾錯(cuò)模塊主要用于糾正輸入檢索詞中的輸入法錯(cuò)誤、含有拼音輸入、以及口音等錯(cuò)誤,模塊使用注音程序?qū)⒂?xùn)練語料注音,通過拼音語料訓(xùn)練語言模型,將語言模型置信度較小的檢索詞替換為置信度較大的檢索詞,達(dá)到糾錯(cuò)目的。拼寫糾錯(cuò)模塊主要用于糾正輸入的字形誤差,在拼音正確的前提下,使用拼寫糾錯(cuò)模塊能夠提高智能問答系統(tǒng)的回答準(zhǔn)確率。會(huì)話管理模塊見圖3。
問題檢索模塊是指處理完用戶輸入后,系統(tǒng)提供根據(jù)用戶提出的問題進(jìn)行查詢以及排序并返回結(jié)果的過程。具體的技術(shù)細(xì)節(jié)在下一章節(jié)進(jìn)行介紹。
中國(guó)移動(dòng)蘇州研發(fā)中心作為中國(guó)移動(dòng)的全資子公司,是中國(guó)移動(dòng)研發(fā)布局的重要一環(huán),職責(zé)定位主要包括:集團(tuán)客戶產(chǎn)品、云計(jì)算及大數(shù)據(jù)平臺(tái)、IT應(yīng)用產(chǎn)品(網(wǎng)管、BOSS等)研發(fā)和運(yùn)營(yíng)支撐。因此面對(duì)集團(tuán)公司對(duì)智能客服的需求,蘇研自己研發(fā)了一款智能客服機(jī)器人“知了”。
知了是一款可以接入微信、網(wǎng)頁(yè)等的智能問答系統(tǒng),通過領(lǐng)先的語義理解和自然語言處理技術(shù),實(shí)現(xiàn)企業(yè)級(jí)機(jī)器人的智能對(duì)話、個(gè)性化聊天。能夠滿足企業(yè)級(jí)知識(shí)智能獲取、互聯(lián)網(wǎng)產(chǎn)品智能客服、基于日志的智能運(yùn)維以及智能聊天,從而有效降低企業(yè)服務(wù)型部門的人工成本,有效減少產(chǎn)品運(yùn)營(yíng)和運(yùn)維成本。
知了智能問答產(chǎn)品主要服務(wù)內(nèi)容包括:
●管理平臺(tái)
●為業(yè)務(wù)人員提供知識(shí)管理平臺(tái)
●多租戶管理制,可提供企業(yè)管理賬號(hào)和子賬戶
●知識(shí)批量導(dǎo)入,細(xì)致化管理
●未知問題智能學(xué)習(xí)
●數(shù)據(jù)監(jiān)控分析
●個(gè)性化服務(wù)設(shè)置
●智能服務(wù)引擎(AI)
大云知了產(chǎn)品基于盤古分詞庫(kù)和先進(jìn)的語義分析引擎技術(shù)作為支撐,為用戶提供國(guó)內(nèi)先進(jìn)的人工智能服務(wù),涉及的技術(shù)包括短文本分析、語義語法分析、詞向量技術(shù)、深度學(xué)習(xí)等。
●知識(shí)庫(kù)
強(qiáng)大的百度百科知識(shí)庫(kù)、聊天庫(kù)來支撐用戶的提問需求;
面向企業(yè)的企業(yè)知識(shí)庫(kù),支持企業(yè)智能知識(shí)獲??;
面向互聯(lián)網(wǎng)產(chǎn)品知識(shí)庫(kù),助力產(chǎn)品智能運(yùn)營(yíng)客服;
基于日志的日志知識(shí)庫(kù),助力智能運(yùn)維。
●多渠道對(duì)接
網(wǎng)頁(yè)端,手機(jī)網(wǎng)頁(yè),微信端,APP端,并支持第三方集成和對(duì)接。
圖3 會(huì)話管理模塊流程圖
知了智能問答機(jī)器人的典型場(chǎng)景有以下三部分。
●典型場(chǎng)景(一):企業(yè)內(nèi)部服務(wù)咨詢
通過批量添加企業(yè)內(nèi)部服務(wù)知識(shí),自動(dòng)為員工提供咨詢服務(wù),解放企事業(yè)單位內(nèi)部行政、人事、財(cái)務(wù)等部門被所有員工重復(fù)咨詢的工作時(shí)間,提高服務(wù)部門的工作效率,減少人力運(yùn)營(yíng)成本。
●典型場(chǎng)景(二):企業(yè)運(yùn)營(yíng)小助手
整理互聯(lián)網(wǎng)產(chǎn)品知識(shí),形成產(chǎn)品知識(shí)庫(kù),為互聯(lián)網(wǎng)產(chǎn)品提供智能機(jī)器人客服,在售前售后提供智能客服服務(wù),減少產(chǎn)品人工運(yùn)營(yíng)成本。
●典型場(chǎng)景(三):日志智能運(yùn)維
自動(dòng)學(xué)習(xí)系統(tǒng)日志信息,從日志信息中發(fā)現(xiàn)問題與解決方案,整理成知識(shí),實(shí)現(xiàn)日志智能運(yùn)維,提供基于日志的智能運(yùn)維服務(wù)。
編輯|王熙 wangxi@bjxintong.com.cn