基金項目:2019年度廣西中青年教師科研基礎能力提升項目,名稱:基于知識圖譜的電子商務客服問答算法設計與實踐(項目編號:2019KY1519)
摘 要:隨著互聯(lián)網(wǎng)信息技術的快速發(fā)展,我國社會經(jīng)濟結(jié)構發(fā)生了較大的變化,社會各領域信息化技術得到了較為廣泛的應用,社會各行各業(yè)中都產(chǎn)生了大量的數(shù)據(jù)。近年來,我國電商行業(yè)得到了快速的發(fā)展,相關商品的咨詢量也變得越來越大,而問答系統(tǒng)可以幫助人工客服緩解相應的壓力,并且可以根據(jù)用戶的相關信息進行功能擴展,從而能夠給用戶提供比較個性化的智能服務。電商領域具有較為廣泛的知識數(shù)據(jù),電商平臺上大量商品的咨詢和商品服務的進行,都需要應用到相應的問答系統(tǒng)。在互聯(lián)網(wǎng)語義數(shù)據(jù)不斷產(chǎn)生和積累的現(xiàn)狀下,問答系統(tǒng)相關的應用可以為用戶提供智能的知識服務,所以受到用戶們的認可和使用。在知識圖譜快速發(fā)展的背景下,基于知識圖譜的問答系統(tǒng)得到進一步的研究,然而,目前大多數(shù)問答系統(tǒng)都是面向英文的,尤其是在當前熱門的電商領域,基于中文知識圖譜的問答系統(tǒng)也已經(jīng)成為相關部門重要的研究方向。本文針對電子商務領域問答系統(tǒng),分析了相應的技術,并探討了大數(shù)據(jù)知識圖譜的電商領域問答系統(tǒng)的設計。
關鍵詞:電商領域;大數(shù)據(jù);知識圖譜;相關技術;問答系統(tǒng)設計
在當今信息化社會環(huán)境中,隨著互聯(lián)網(wǎng)的發(fā)展,電子商務得到了極大的發(fā)展和進步,相關電商購物平臺上的用戶量也在不斷增長,商品的種類和數(shù)量也在不斷增加,每時每刻都會產(chǎn)生海量的數(shù)據(jù),在這種情況下,電商領域中用戶量的增加,給提供商品服務的客服人員帶來了巨大的工作量,問答系統(tǒng)的出現(xiàn),能夠有效緩解人工客服提供商品服務時的工作壓力,并提高相應的工作效率。
自動問答系統(tǒng)不僅能夠幫助人工客服緩解壓力,還可以結(jié)合用戶信息進行相應的擴展,給用戶提供個性化和智能化的服務。知識圖譜其實就是一種語義網(wǎng)絡,知識圖譜上的每個結(jié)點,代表的都是一種實體或者概念,而知識圖譜的邊代表的是結(jié)點之間的各種語義關系。在目前的情況下,結(jié)構化數(shù)據(jù)源劇烈增加,對于搜索引擎而言,知識圖譜能夠?qū)崿F(xiàn)語義層面上的功能,利用傳統(tǒng)的關鍵詞搜索,在當前社會環(huán)境下已經(jīng)不能夠滿足用戶的需求。用戶通過使用自然語言查詢進而得到自己想要的問題答案,這其中應用到的問答系統(tǒng)也正在成為信息檢索技術發(fā)展的趨勢。
一、知識圖譜以及相關技術概述
1.知識圖譜
知識圖譜最早出現(xiàn)在谷歌上面,其就是一種語義網(wǎng)絡,知識圖譜上的每個結(jié)點,代表的都是一種實體或者概念,而知識圖譜的邊代表的是結(jié)點之間的各種語義關系。在當前的社會中,許多企業(yè)都建立了相應的知識圖譜知識庫,在構建知識圖譜時,采用的都是自底向上數(shù)據(jù)驅(qū)動型,該種類型具有靈活的數(shù)據(jù)語義表達能力,實體覆蓋率也比較高,結(jié)點之間的語義關系也變得更加全面。對于當前的知識圖譜而言,其標準數(shù)據(jù)是由RDF三元組數(shù)據(jù)存儲形式構成,在知識圖譜的信息結(jié)構中,還具有一些OWL數(shù)據(jù),這些數(shù)據(jù)中還包含著本體的類、屬性、實例等基本概念。
2.問答系統(tǒng)的實體識別技術
實體識別技術在中文知識圖譜的問答系統(tǒng)中,能夠具體區(qū)分相應的中文文本,在一定程度上,該問題得到了較多的關注和廣泛的研究。在知識圖譜問答系統(tǒng)進行分析的過程中,根據(jù)用戶不同的表述語句,系統(tǒng)的實體識別技術能夠準確找到用戶所要表達的詞匯,在當前情況下,對知識圖譜問答系統(tǒng)設計進行研究時,中文知識圖譜問答系統(tǒng)中的實體識別技術,是進行系統(tǒng)設計時需要研究的基礎性工作。在自動問答系統(tǒng)中的算法中,對實體識別進行了相應的定義,實體識別主要作用于對命名實體的識別,在一定程度上講就是其從文本中識別具有特殊意義的實體。
3.實體鏈接技術
在電商領域問答系統(tǒng)中,實體鏈接技術可以對構建語言系統(tǒng)和中文知識圖譜知識庫中的相關應用進行利用,這是電商領域中問答系統(tǒng)應用的基礎。在一定程度上,問答系統(tǒng)所研究的范圍是清晰表達用戶想要表達的問題,并且能夠快速了解用戶語句的含義。在電商領域中問答系統(tǒng)的設計中,鏈接客戶的表達和知識庫是需要重點研究的內(nèi)容。以往的實體鏈接任務中所研究的基本是機構名、人名和地名,按照給定的目標,對實體名詞進行分析并對相關文檔進行查詢,然后再根據(jù)電商領域相關企業(yè)的知識庫中已經(jīng)有的實體詞匯,將目標實體名詞與之進行匹配,觀察能否進行正確的鏈接。
當前環(huán)境下的電商領域知識圖譜中的知識不斷變化,同義表達也比較多,雖然有關學者研究計算了詞匯和近義詞匯之間的相似度,但是對于之前的同義詞庫中的知識詞匯,其已經(jīng)不能滿足當前電商領域發(fā)展的需求。
二、基于知識圖譜的問答系統(tǒng)中存在的問題及解決方法
1.基于知識圖譜的問答系統(tǒng)中存在的問題
基于知識圖譜的問答系統(tǒng)一般存在著前端語義理解、后端知識圖譜的構建兩大核心問題。對于問答系統(tǒng)通用的流程,其能夠?qū)⒆匀徽Z言進行翻譯,轉(zhuǎn)化成結(jié)構化的查詢語言,比如SQL、SPARQL等,從而查詢知識圖譜中的實體和關系。對于基于知識圖譜的問答系統(tǒng)而言,其可以實現(xiàn)支持推理等更多的復雜問題的解決,像處理包含邏輯判斷的問句等。近些年來,我國電子商務相關行業(yè)得到了迅速的發(fā)展,用戶對于商品的咨詢量也在不斷增加,自動問答系統(tǒng)能夠幫助相關平臺客服人員緩解一定的壓力,在一定程度上能夠結(jié)合用戶信息進行擴展,并為用戶提供個性化智能服務,但是其中存在的問題仍然需要重點研究和解決。
基于知識圖譜的問答系統(tǒng)雖然可以處理多個語義網(wǎng)資源混合情況下的問答,但仍然無法有效處理需要統(tǒng)計的復雜問題。ORAKEL和Pythia系統(tǒng)雖然準確性比較高,但是在應用的時候需要構建相關領域內(nèi)的知識庫詞典,這就造成較高的人工構建的覆蓋率和代價。使用傳統(tǒng)的語法解析方法,可以通過依存句法分析對初步的語義塊進行提取,雖然在一定程度上能夠保證相應的準確度,但對于口語類型之類的短文本,只是使用依存句法分析得到的結(jié)果,并沒有理想的效果。
2.問題相關解決辦法
對于問答系統(tǒng)存在的問題,相應的解決方法主要包括三類,與模式相關的問答系統(tǒng)、與統(tǒng)計學習相關的語義提取技術、與依賴樹相關的語義提取技術。對于與模式相關的問答系統(tǒng)而言,按照相應的模板和規(guī)則,該方法采用的是基于模式匹配的語義提取方法,該方法是在用戶的語句中,找到符合相關規(guī)則的問句,然后使用提前制定好的模板進行轉(zhuǎn)換。TBSL系統(tǒng)可以按照相應的依賴關系、詞性關系,通過構建相應的SPARQL解析器,來生成相應的查詢模板,而且在這個過程中使用更多的信息,能夠提高對三元組提取的準確率,這要比直接使用依賴關系進行構建查詢的準確率高。
三、大數(shù)據(jù)知識圖譜的電商領域問答系統(tǒng)架構
1.問題的分類器
針對電商領域詞庫而言,在一定程度上將知識圖譜中的實體概念和相關屬性等詞匯引入其中,抽取的標注根據(jù)所獲取的集成來進行,通常情況下可以定義八種類型的問題。在進行問題分類時,首先要對具體問題進行相應的分類,這樣能夠?qū)栴}的重點進行快速的把握;然后再根據(jù)問題種類中提供的關鍵詞,可以有效構造問句的類別向量。而對于問題的分類,其一般都是從統(tǒng)計學的角度進行的。對于本文的問答系統(tǒng)而言,重點關注的是知識圖譜的問答鏈接數(shù)據(jù),只有更加清晰地了解這些數(shù)據(jù),才能夠更好設計相應的問答系統(tǒng),并充分滿足用戶的需求。
2.關于序列詞性依賴的標注問題
在分析重點詞匯的過程中,通常會利用到傳統(tǒng)的依存句法,這時比較重要的是實詞與實詞之間的關系。在一定程度上,有語義關系的詞匯需要更加關注。雖然在一定程度上,利用SDP可以對語義相關的詞匯關系進行有效的提取,但是在實際的應用中,這其中還存在著較多的問題,所以基于SDP的語義依存序列和特定領域中的實體序列,本文提出了一種依賴減縮的算法,該算法能夠進行基于SDP的初始化。從一定程度上來講,OMT所代表的含義,是對這一條詞匯的關系進行刪除,所有節(jié)點詞匯之間的鏈接需要進行分開刪除,在進行合并之后,也要保留詞匯之間的緣由節(jié)點,之前的原點也可以繼續(xù)利用,用來做出指向的關系,能夠找到對該依賴進行具體操作的實際操作,使其在問答系統(tǒng)中的實際效果得到有效的提升。
3.提取SPARAL
針對上面所涉及到的標注序列,在使用的過程中可以生成相應的SPARAL模板,在實際應用中使用該模板,針對不同類型的問題在很大程度上能夠進行針對性的回答。對于事實類的問題,定義了相應的基礎查詢模板,對于類是完全正確的情況下,對應的類型可以使用c去代替,然后通過利用相關的詞匯信息和依存句法分析,對三元組的相關信息進行提取,針對不同用戶所提出的問題類型,制定出相對應的語義模板,再結(jié)合相應的實體信息,提取出有關問題的答案,從而保證問答系統(tǒng)為相關用戶提供所需要的更準確的信息。
四、大數(shù)據(jù)知識圖譜的電商領域問答系統(tǒng)設計與實現(xiàn)
1.系統(tǒng)整體設計
該系統(tǒng)是在MVC的架構上進行設計完成,對于數(shù)據(jù)存儲層而言,主要存在兩種數(shù)據(jù)需要進行存放,一種是電商領域知識庫的RDF數(shù)據(jù),另一種是Redis數(shù)據(jù)。整體知識圖譜的結(jié)構,通常使用的是RDF數(shù)據(jù)存儲,其能夠支持調(diào)用CEQA的算法包,而Redis只能支持部分調(diào)用CEQA的算法,但是Redis可以加速鏈接過程,提升系統(tǒng)的整體性能。邏輯層對前后端交互和邏輯算法部分進行了隔離,而展示層使用的是HTML5技術,該技術能夠根據(jù)用戶的不同問題類型,完成不同的展示任務。
2.數(shù)據(jù)緩存的設計與實現(xiàn)
Redis和傳統(tǒng)的關系型數(shù)據(jù)庫不同,其是利用key-value類型數(shù)據(jù)庫可以對CEQA算法框架中的link環(huán)節(jié)進行加速,能夠有效提高link算法的工作效率。對Redis的基本存儲結(jié)構進行定義,進而對RDF的三元組數(shù)據(jù)進行快速查詢,能夠避免對jean-api進行直接調(diào)用,可以有效縮短三元組的簡單鏈接過程。
3.View層的設計與實現(xiàn)
ECharts是一個具有強大制圖和可視化庫以及高度可定制的圖表,CEQA系統(tǒng)在EChart的基礎上進行了前端交互的設計,擁有不同用戶不一樣的問題類別,可以進行不同形式的展示。系統(tǒng)通過對ECharts關系圖部分功能進行修改,能夠有效滿足用戶點擊、拖動、懸停相應的知識數(shù)據(jù),并且可以重新定義節(jié)點和邊的基本數(shù)據(jù)結(jié)構。
4.CEQA-Live-Service的設計與實現(xiàn)
CEQA-Live-Service是基于MVC框架進行設計的,能夠?qū)ν馓峁〩TTP的訪問接口,該項目是利用maven2進行構建,通過使用java語言進行編寫,具有容易移植和跨平臺的優(yōu)點,Control層能夠支持與前端進行交互,并提供3個相應的接口。
五、總結(jié)
綜上所述,近年來,我國電商行業(yè)發(fā)展迅速,用戶對于商品的咨詢量較大,對于電商這樣的焦點領域,設計出一種基于知識圖譜的電商領域問答系統(tǒng),能夠很好地緩解相關人工客服的壓力,并且通過結(jié)合用戶信息進行相應的擴展,可以為用戶提供更好的、個性化的智能服務。通過對基于知識圖譜的電商領域問答系統(tǒng)的設計進行研究,也能夠更好實現(xiàn)知識圖譜的價值。
參考文獻:
[1]廖美紅.基于中文知識圖譜的電商領域問答算法設計與系統(tǒng)實現(xiàn)[J].商場現(xiàn)代化,2019(05):34-35.
[2]杜澤宇,楊燕,賀樑.基于中文知識圖譜的電商領域問答系統(tǒng)[J].計算機應用與軟件,2017,34(05):153-159.
[3]楊燕.面向電商領域的智能問答系統(tǒng)若干關鍵技術研究[D].華東師范大學,2016.
[4]杜澤宇.基于中文知識圖譜的電商領域問答算法設計與系統(tǒng)實現(xiàn)[D].華東師范大學,2016.
作者簡介:廖美紅,女,廣西南寧人,廣西工商職業(yè)技術學院計算機教學骨干教師,副教授