摘 要:最近幾年來,由于電子商務的快速發(fā)展,其直接促進了人工智能服務的龐大需求,在基于知識圖譜的問答中,有很多的問答系統(tǒng)都是面向英文的,然而在中英文之間的語義表述有著極大的差異。在一定程度上我國互聯(lián)網(wǎng)的語義數(shù)據(jù)也在大規(guī)模地得到發(fā)展,在電商領域問答算法設計當中也能夠給用戶提供一個較為智能的問答系統(tǒng)而受到關注。因此,筆者主要是從電子商務的領域作為初始點,然后針對用戶在不同領域以及多樣性當中對于中文知識圖譜的問答算法系統(tǒng)進行知識庫的相關設計優(yōu)化,并提出了一個基于中文知識圖譜的自動問答框架,在一定程度上去實現(xiàn)提升用戶體驗以及降低客服的工作壓力等。
關鍵詞:中文知識圖譜;電商領域;問答算法;設計與實現(xiàn)
在一定程度上中文知識圖譜是一種網(wǎng)絡的語義,知識圖譜的節(jié)點代表了實體和概念。隨著我國電商領域當中的數(shù)據(jù)結(jié)構(gòu)化不斷發(fā)展,規(guī)模不斷增多,互聯(lián)網(wǎng)的虛擬網(wǎng)絡逐漸向?qū)嶓w所轉(zhuǎn)換,這種轉(zhuǎn)換在某種程度上是被稱為語義演變。當前我國電子商務領域得到了快速的發(fā)展,在電子商務購物平臺上的客戶量也隨之增加,其商品也在不斷增多,正是因為這種情況的出現(xiàn),讓其客戶量不斷加大,客戶量的增大就會給很多的人工客服帶來巨大的工作壓力,因此,基于中文的知識圖譜問答系統(tǒng)設計的出現(xiàn),就會有效降低人工客服的工作壓力。在某種程度上,人工客服所需要的企業(yè)成本是相對較大的,這些原因的出現(xiàn)也會導致企業(yè)很難得到發(fā)展。然而在我國電商行業(yè)知識數(shù)據(jù)中,有很多的商品質(zhì)詢服務都是需要依賴問答系統(tǒng)的,目前,我國電商行業(yè)就是缺少一套完整的知識問答系統(tǒng),因此知識圖譜對于提升問答系統(tǒng)的實用性研究具有極為重要的現(xiàn)實意義。
一、相關技術分析
1.實體識別技術分析
在基于中文知識圖譜自動問答系統(tǒng)當中,實體識別是能夠?qū)χ形奈谋具M行具體區(qū)分的,在某種意義上該問題也得到了廣大研究學者的重點關注。在中文知識圖譜問答系統(tǒng)分析過程中,其自身的實體識別能夠從用戶不同表述語句當中去找到用戶主要想表達的核心詞匯。所以,中文知識圖譜問答系統(tǒng)的實體識別也是當前所要研究的基礎性工作。因此,在基于知識圖譜的自動問答算法當中,實體識別是能夠定義為:一個K和所輸入查詢的s,來計算出所查詢的s在K當中的匹配實體得分。一般意義的實體識別主要是包含了命名實體的識別,其又被稱之為“專名的識別”,在一定程度上主要說的就是從文本識別當中具有的特殊意義實體,也包含了機構(gòu)名、人名以及地名等內(nèi)容。
2.實體鏈接技術分析
實體鏈接技術主要是利用了構(gòu)建自然語言系統(tǒng)以及中文知識圖譜知識庫當中的相關應用,這也是電商領域中問答系統(tǒng)的基礎。在一定程度上問答系統(tǒng)的研究范圍,能夠清晰地表達出用戶所想要表達的問題所在,能夠快速地知道用戶語句中的含義。在某種程度上,因為客戶一直都是多樣化的,因此鏈接客戶的表達以及知識庫也一直都是研究的重點。以往的實體鏈接任務的研究對象主要是包含了機構(gòu)名、人名以及地名等類型的實體名詞。在一定程度上所分析的任務是給定一個目標,實體名詞以及實體名詞的查詢文檔,然后把目標實體名詞和目前電商領域企業(yè)中的知識庫中已有的實體詞匯進行相應的匹配,看其是否能夠正確地鏈接。在電商領域當中,其具有知識不斷變化、同意表達層出不窮等領域之內(nèi)的特征性,在一定程度上根據(jù)最近幾年的研究分析,相關研究學者通常使用BabeINrt來作為鏈接的輔助資源,在詞匯和近義詞匯之間進行相似度的計算,在一定程度上不斷去提升所變化的網(wǎng)絡語言以及相關語義,這樣會讓以往的同義詞庫當中的知識詞匯不能滿足現(xiàn)階段的需求。所以,在一定程度上能夠有效運用同義詞的計算,來讓中文知識圖譜在電商領域中的問答系統(tǒng)能夠體現(xiàn)出其自身的價值,在一定程度上也能夠有效解決客戶多樣化的問題,從而促進工作效率的提升。
二、系統(tǒng)架構(gòu)
1.問題的分類器分析
在一定程度上把知識圖譜當中的實體概念以及相關屬性等詞匯引入到電商領域詞庫當中,根據(jù)所獲取的集成來進行抽取的標注,在一定程度上共定義有八種問題類型。對于相關問題的分類,首先要進行的就是對于具體問題進行具體的分類,這樣能夠更為快速地知道問題的重點所在,然后根據(jù)問題種類當中的關鍵詞去構(gòu)造出問句的類別向量,在一定程度上問題的分類大多數(shù)都是從統(tǒng)計學的角度所進行分類的。因為本文主要是基于LibSVM所進行的分類研究。問答系統(tǒng)時常所要重視的就是基于知識圖譜的問答鏈接數(shù)據(jù),只有這些相關數(shù)據(jù)有一個更為清晰的了解,才能夠讓問答系統(tǒng)能夠更好地去服務客戶。
2.序列詞性依賴的標注問題分析
本文主要是基于某工業(yè)大學的LTP工具進行詞標注,來獲取標注好的詞序列。在傳統(tǒng)的依存句法分析重點詞匯中實詞與實詞之間的關系是相對重要的,在一定程度上就需要更為關注有語義關系的詞匯。在某種意義上雖然SDP能夠有效地去提取語義相關的詞匯關系,但是在實際的應用當中由于其所特定的領域問句存在較多的問題,其問題可以概括為兩個方面:第一個方面是SDP的依賴相對復雜,與此同時其所針對的很多較短語句不能正常地去進行相關信息的提??;第二個方面是SDP的效果以及訓練太過于依賴語料,這種情況的出現(xiàn)讓其不能夠很好地運用在電商領域當中?;诖?,我們在SDP的語義依存序列以及特定的領域當中的實體序列基礎上提出了依賴縮減的算法,其中所生成基于SDP初始化。在每一個節(jié)點當中所表示一個詞匯,每一條邊所表示詞匯之間的依賴關系,因為在一定程度上缺少領域?qū)嶓w的支持,因此在SDP的描述流程下就會形成較為復雜的依賴結(jié)構(gòu),從而讓其不能夠達到很好的問答效果。
在基于中文知識圖譜的電商領域問答算法設計系統(tǒng)實現(xiàn)當中,可以有效利用相關軟件比如CRF去進行識別實體來合成相關數(shù)據(jù),在一定程度上可以把產(chǎn)品的品牌以及型號進行相關的合并,這樣是能夠有效防止產(chǎn)品標簽的過多而出現(xiàn)的各種繁瑣步驟,在中文知識圖譜當中有很多種的依賴關系都是能夠讓其成為多種基礎操作,具體的相關基礎操作可以表示為以下幾點:第一是反轉(zhuǎn)、第二是刪除、第三是保持、第四是合并。從某種層面上來說OMT所表示的是刪除這一條詞匯的關系,并且要分開刪除所有節(jié)點詞匯之間的具體鏈接。在合并之后要保留詞匯之間的緣由節(jié)點,并且要使用原來的節(jié)點做出指向的關系,是能夠找到一種實際操作當中對于該依賴進行具體基礎操作的,從而提升其在問答中的實際效果體現(xiàn)。
3.SPARQL的提取
SPARQL的模板是在上面所敘述的標注序列當中生成的,這個模板的實際應用能夠極大程度地針對不同類型的問題進行針對性的回答。在一定程度上計數(shù)最值類問題;其主要包含了一個聚合函數(shù)問題的板塊。在定義聚合函數(shù)有計數(shù)和比較器以及過濾器三種問題時,要定義其目標是作為聚合函數(shù)的總目標。在聚合函數(shù)中需要分開將其運用在問答計算類型以及比較類型的問題當中。事實類問題;在定義的基礎查詢模板當中,對于類似于完全正確的回答,是能夠使用c去代替所對應的類型的,再實際利用詞匯信息和依存句法分析進行相關三元組的信息提取,最后針對不同用戶所提出的問題類型,去制定出相應的語義模板,然后再結(jié)合相關的實體進行詳細問題答案的提取,這樣能夠讓問答系統(tǒng)更為準確地回答出用戶所需要知道的相關信息。
三、結(jié)語
總而言之,在基于中文知識圖譜的電商領域的自動問答系統(tǒng)中,有效運用自然語言處理技術和實體識別技術以及實體鏈接技術,能夠提取相應的語義槽,從而去構(gòu)建SPARQL的查詢。在一定程度上去結(jié)合電商領域的特征在實體識別中引入特定的實體識別,能夠促進LTP的使用,本文所提出的系統(tǒng)是具有一定局限性的,其所制定的規(guī)則式確定標簽,比如對于“給我所有電腦和電腦的顏色”這種類型的語句是不能得到信息的提取的。當前隨著電子商務的不斷發(fā)展,有很多的電商領域企業(yè)對于縮減規(guī)則的研究相對較少,除此之外,相關人員還需要把問答系統(tǒng)當中的用戶所提出的答案進行優(yōu)化和調(diào)整,只有這樣才能夠有效促進中文知識圖譜在電商領域問答系統(tǒng)中的應用。
參考文獻:
[1]馬晨浩.基于甲狀腺知識圖譜的自動問答系統(tǒng)的設計與實現(xiàn)[J].智能計算機與應用,2018,v.8(3):108-113.
[2]肖慶都,屈亮亮,侯霞.基于Neo4j圖數(shù)據(jù)庫的課程體系知識圖譜系統(tǒng)設計與實現(xiàn)[J].電腦知識與技術,2017,13(36):130-132.
[3]基于多種數(shù)據(jù)源的中文知識圖譜構(gòu)建方法研究[D].華東理工大學,2015.
[4]劉自強,王效岳,白如江.多維度視角下學科主題演化可視化分析方法研究——以我國圖書情報領域大數(shù)據(jù)研究為例[J].中國圖書館學報,2016,42(6):67-84.
作者簡介:廖美紅(1979.10- ),女,漢族,廣西南寧人,碩士,副教授,主要研究方向:計算機應用技術