亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于自然語言處理技術(shù)的智能定責(zé)應(yīng)用研究

        2023-03-09 03:16:04李芳陳震原肖軍
        廣東通信技術(shù) 2023年1期
        關(guān)鍵詞:知識庫圖譜實體

        [李芳 陳震原 肖軍]

        1 引言

        中國電信集團(tuán)有限公司是中國特大型通信運(yùn)營企業(yè),主要經(jīng)營移動通信、互聯(lián)網(wǎng)接入及應(yīng)用、固定電話、衛(wèi)星通信、ICT 集成等綜合信息服務(wù)。目前,中國電信集團(tuán)有限公司廣州分公司(以下簡稱廣州電信)的客戶服務(wù)呼叫中心,主要以處理客戶的抱怨和投訴為主,其與客戶溝通的方式主要采用傳統(tǒng)的電話模式,即電話→坐席受理→問題解答→坐席回訪為主。客戶抱怨投訴的問題涵蓋了通信信息查詢、通信費(fèi)用爭議、故障抱怨、投訴舉報等業(yè)務(wù)類型。廣州電信客服中心為了保證能夠及時解決客戶抱怨投訴,提供7×12 小時服務(wù),投入了大量的人力資源。盡管如此,隨著近年來電信業(yè)務(wù)的業(yè)務(wù)復(fù)雜度、網(wǎng)絡(luò)類型、客戶類型和數(shù)量的急劇增加,呼叫中心業(yè)務(wù)人員的知識儲備和學(xué)習(xí)能力不一,人力成本不斷增加。如何快速定位客戶投訴問題,提高客戶的投訴處理的及時性和投訴問題治理的有效性,為不同客戶制定有效投訴解決方案,最終提升客戶滿意度,是擺在廣州電信客戶服務(wù)部門運(yùn)營管理的難題之一。

        人工智能是目前研究的熱點和技術(shù)發(fā)展趨勢,自然語言處理作為人工智能的一種重要領(lǐng)域,識別用戶口語化表達(dá)中的真實意圖,進(jìn)而及時發(fā)現(xiàn)投訴熱點,并為坐席人員提供基于知識圖譜的知識推薦,具有較強(qiáng)的應(yīng)用需求和研究價值。本文通過對自然語言技術(shù)的理解和研究,設(shè)計一套智能定責(zé)系統(tǒng),實現(xiàn)兩個目標(biāo):一是能更好地理解用戶的語言上下文語境和語義,提升對投訴問題的理解能力;二是構(gòu)建基于現(xiàn)有知識庫的知識圖譜,形成知識推薦能力,通過機(jī)器訓(xùn)練的方式對算法調(diào)優(yōu),形成投訴處理的專業(yè)知識圖譜,不斷提升知識庫與投訴定責(zé)的匹配精準(zhǔn)度。

        2 自然語言處理方法研究

        自然語言處理是一門交叉學(xué)科,涉及語言學(xué)、數(shù)學(xué)、計算機(jī)科學(xué)、信息學(xué)、電子科學(xué)、心理科學(xué)、認(rèn)知科學(xué)、神經(jīng)科學(xué)等,而作為專業(yè)領(lǐng)域內(nèi)的研究,還需要加入該專業(yè)的領(lǐng)域知識[1]。本文所設(shè)計的智能定責(zé)系統(tǒng)關(guān)鍵模塊主要包含 語義分析、知識圖譜創(chuàng)建,涉及的技術(shù)主要包含語料清洗、中文分詞、特征工程、模型訓(xùn)練。

        2.1 語料清洗

        就是把無用或者不感興趣的,視為噪音的內(nèi)容進(jìn)行刪除,如針對原始文本,只提取標(biāo)題、摘要、正文等關(guān)鍵信息。對于通過網(wǎng)絡(luò)爬蟲爬取的網(wǎng)頁內(nèi)容,去除HTML、廣告、標(biāo)簽、JS 等代碼和注釋。

        2.2 中文分詞

        由于漢語和英語相比,它是以字為基本書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此分詞技術(shù)是知識庫搜索查詢過程中的第一步,分詞實現(xiàn)效果的好壞對應(yīng)用功能結(jié)果的影響非常大。中文分詞后,給每個詞或者詞語進(jìn)行詞性標(biāo)注,如給詞語打上形容詞、動詞、名詞等標(biāo)簽;去停用詞指對文本特征沒有任何貢獻(xiàn)作用的字詞進(jìn)行刪除,比如標(biāo)點符號、語氣、人稱等;命名實體識別指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等[2]。

        2.3 模型訓(xùn)練

        機(jī)器學(xué)習(xí)訓(xùn)練主要包括監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等??紤]到電信客服場景下海量數(shù)據(jù)的文本以及復(fù)雜的業(yè)務(wù)知識庫,本次訓(xùn)練采用預(yù)訓(xùn)練的無監(jiān)督的語言學(xué)習(xí)和有監(jiān)督的機(jī)器學(xué)習(xí)模型相結(jié)合的方式進(jìn)行。無監(jiān)督機(jī)器學(xué)習(xí)模型用于自動地挖掘語義知識,通過構(gòu)建預(yù)訓(xùn)練目標(biāo)使得機(jī)器能夠理解語義信息,提取投訴業(yè)務(wù)關(guān)鍵詞,形成輿情監(jiān)控應(yīng)用;有監(jiān)督的機(jī)器學(xué)習(xí)模型用于有效地進(jìn)行知識的分類,完成知識圖譜的搭建。

        預(yù)訓(xùn)練語言模型具有兩大優(yōu)勢,其一,它們可以顯著提高許多NLP 任務(wù)的準(zhǔn)確性;其二,它們是通用的語言處理工具。在傳統(tǒng)的NLP 中進(jìn)行基于機(jī)器學(xué)習(xí)的任務(wù),必須標(biāo)記大量數(shù)據(jù)來訓(xùn)練一個模型,相比之下,目前只需要標(biāo)記少量數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練的語言模型,因為它已經(jīng)獲得了語言處理所需的大量知識[3]。

        3 客服智能定責(zé)系統(tǒng)設(shè)計

        3.1 總體設(shè)計思路

        根據(jù)現(xiàn)有客服中心工作流程,智能定責(zé)功能需要在對通話語音實現(xiàn)語音文本轉(zhuǎn)寫的基礎(chǔ)上,增加語義分析和知識圖譜查詢兩大功能模塊,從而建立投訴業(yè)務(wù)定性與業(yè)務(wù)關(guān)聯(lián),即根據(jù)語音文本要識別出投訴關(guān)鍵字、投訴的業(yè)務(wù)標(biāo)簽,不同投訴對應(yīng)的責(zé)任單位以及與投訴關(guān)鍵字對應(yīng)的知識圖譜節(jié)點、相似的解決方案、推薦方案等,具體示意圖如圖1 所示。

        圖1 客服智能定責(zé)模塊功能示意圖

        為了實現(xiàn)以上功能,智能定責(zé)系統(tǒng)體系架構(gòu)如圖2 所示,最下層為數(shù)據(jù)獲取層,往上分別為知識圖譜構(gòu)建、智能定責(zé)及應(yīng)用模塊。

        圖2 智能定責(zé)系統(tǒng)體系架構(gòu)

        3.2 數(shù)據(jù)獲取

        本方案的數(shù)據(jù)來源主要來自客戶與客服代表的通話轉(zhuǎn)寫的語音文本,以及現(xiàn)有的10000 號知識庫、通信行業(yè)語料庫、公司網(wǎng)站、營業(yè)廳、網(wǎng)上APP 以及工信部論壇、通信論壇等網(wǎng)絡(luò)數(shù)據(jù)。數(shù)據(jù)業(yè)務(wù)范圍覆蓋用戶抱怨、用戶投訴、用戶越級投訴以及用戶建議、意見、表揚(yáng)等類型。對所獲取的數(shù)據(jù)按一定的結(jié)構(gòu)和規(guī)則,采用數(shù)據(jù)挖掘技術(shù)挖掘成有用的信息或結(jié)構(gòu)化信息。

        3.3 知識圖譜構(gòu)建

        針對電信投訴智能領(lǐng)域,現(xiàn)有的10000 號知識庫已不能滿足需求,需要構(gòu)建基于投訴處理最佳回答和處理方案等知識圖譜,形成知識推薦能力。知識圖譜模塊主要分為詞類管理、預(yù)處理和知識庫管理。

        3.3.1 詞類管理

        詞類管理模塊實現(xiàn)對業(yè)務(wù)關(guān)鍵詞、近義詞、敏感詞、投訴領(lǐng)域?qū)I(yè)詞前后綴和拼音詞的處理。對于投訴領(lǐng)域?qū)I(yè)術(shù)語,由人工設(shè)置領(lǐng)域內(nèi)關(guān)鍵詞,通過人工手動添加的方式,增加詞類信息。

        3.3.2 預(yù)處理

        預(yù)處理模塊包含數(shù)據(jù)標(biāo)注和細(xì)粒度文本分類兩個任務(wù)。首先,結(jié)合知識圖譜的構(gòu)建,根據(jù)業(yè)務(wù)需要對客戶投訴類型、專有名詞、情感極性等特征進(jìn)行標(biāo)注,構(gòu)建語義分析模塊的數(shù)據(jù)集;其次,根據(jù)投訴業(yè)務(wù)場景選擇適合的模型進(jìn)行文本分類,識別客戶投訴的主題與意圖,并結(jié)合知識圖譜進(jìn)行內(nèi)部業(yè)務(wù)的關(guān)聯(lián)。

        (1)數(shù)據(jù)標(biāo)注

        由于客戶投訴語音文本具有口語化、不規(guī)范化的特點,這給語義分析帶來了一定的難度,準(zhǔn)確的數(shù)據(jù)標(biāo)注有助于自然語言處理模型對轉(zhuǎn)譯文本的理解與分析[6]。

        ①投訴業(yè)務(wù)定性標(biāo)簽:以業(yè)務(wù)邏輯為基礎(chǔ),標(biāo)注細(xì)粒度的投訴業(yè)務(wù)類型,如移動套餐升級違約金;

        ② 價值評判標(biāo)簽:客觀評價客戶投訴的內(nèi)容是否合理,為推薦解決方案提供參考;

        ③情感極性:標(biāo)注客戶投訴時的情感,用于評判該投訴處理的緊急程度;

        ④ 命名實體識別:標(biāo)注數(shù)據(jù)中的人名、地名以及機(jī)構(gòu)名,用于實現(xiàn)相關(guān)業(yè)務(wù)部門的準(zhǔn)確定位。

        以上數(shù)據(jù)標(biāo)注任務(wù)中,投訴業(yè)務(wù)定性標(biāo)簽、價值評判標(biāo)簽、情感極性標(biāo)簽的標(biāo)注采用預(yù)訓(xùn)練無監(jiān)督的機(jī)器模型進(jìn)行模型的訓(xùn)練。

        (2)細(xì)粒度文本分類

        文本分類任務(wù)包含特征表示和分類模型兩個模塊。特征表示是將文本處理為一種計算機(jī)可讀的形式,同時盡量減少信息的損失。常見的特征表示方法包括BoW 詞袋模型、TF-IDF、N-gram、One-hot 編碼、Word2Vec、Glove 詞向量等。分類模型可按模型的復(fù)雜程度分為淺層學(xué)習(xí)模型與深度學(xué)習(xí)模型兩類,一般淺層學(xué)習(xí)模型在小規(guī)模數(shù)據(jù)集上表現(xiàn)效果優(yōu)于深度學(xué)習(xí)模型[4]。

        3.3.3 知識庫管理

        知識庫是智能定責(zé)系統(tǒng)的知識中樞,投訴和解決方案的專用知識庫,這些內(nèi)容最初從有經(jīng)驗的客服人員日常生產(chǎn)中總結(jié)產(chǎn)生。由于投訴和解決方案的普遍性,投訴和解決方案在較長一段時間內(nèi)比較穩(wěn)定,變化不大。因此基于知識庫,對知識進(jìn)行抽取,再進(jìn)行知識融合,才能形成知識推理能力。具體來說,按照以下步驟進(jìn)行構(gòu)建:

        (1)知識抽?。簭陌虢Y(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實體、關(guān)系、屬性等知識要素。知識抽取主要包括以下三個部分。

        ①實體抽?。涸诩夹g(shù)上更多稱為NER(named entity recognition,命名實體識別),指的是從原始語料中自動識別出命名實體。由于實體是知識圖譜中的最基本元素,其抽取的完整性、準(zhǔn)確、召回率等將直接影響到知識庫的質(zhì)量[5]。因此,實體抽取是知識抽取中最為基礎(chǔ)與關(guān)鍵的一步;

        ② 關(guān)系抽?。耗繕?biāo)是解決實體間語義鏈接的問題,早期的關(guān)系抽取主要是通過人工構(gòu)造語義規(guī)則以及模板的方法識別實體關(guān)系[5]。隨后,實體間的關(guān)系模型逐漸替代了人工預(yù)定義的語法與規(guī)則。

        ③屬性抽?。簩傩猿槿≈饕轻槍嶓w而言的,通過屬性可形成對實體的完整勾畫[5]。由于實體的屬性可以看成是實體與屬性值之間的一種名稱性關(guān)系,因此可以將實體屬性的抽取問題轉(zhuǎn)換為關(guān)系抽取問題。

        (2)知識融合:可消除實體、關(guān)系、屬性等指稱項與事實對象之間的歧義,形成高質(zhì)量的知識庫。

        (3)知識推理:是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。分布式的知識表示形成的綜合向量對知識庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義[6]。

        3.4 智能定責(zé)應(yīng)用

        智能定責(zé)應(yīng)用主要包括輿情監(jiān)控、知識跟隨2 個模塊,輿情監(jiān)控模塊通過無監(jiān)督機(jī)器學(xué)習(xí)模型進(jìn)行文本的聚類,主題相似的模型將被聚集為同一類。聚類完成后,對每一類文本,統(tǒng)計詞頻并提取詞頻最高的五個單詞作為該類的主題詞,用以反映該類文本的主題信息。知識跟隨模塊則根據(jù)投訴分類提供歷史最佳回答和解決方案推送給坐席人員,并對本次推薦的內(nèi)容準(zhǔn)確度進(jìn)行記錄的過程。

        3.4.1 輿情監(jiān)控

        基于以上對文本細(xì)粒度分類,統(tǒng)計主題詞出現(xiàn)的頻率,就可以及時輸出當(dāng)天的投訴熱點主題詞,方便投訴治理人員根據(jù)投訴分類劃分和責(zé)任單位的對應(yīng)邏輯關(guān)系進(jìn)行投訴治理。

        3.4.2 知識跟隨

        智能投訴處理的關(guān)鍵是客戶投訴問題的定界和定位。知識跟隨算法構(gòu)建是基于投訴分類的標(biāo)簽體系,結(jié)合歷史投訴單的處理解決方案、應(yīng)答話術(shù)的定位結(jié)果,利用機(jī)器學(xué)習(xí)分類算法,反復(fù)迭代得出可靠穩(wěn)定的決策模型。

        (1)在所有工作開始之前,需要梳理投訴問題產(chǎn)生的原因類別,例如顯性問題、隱性問題、根源問題等。對每種原因類別,建立一個模型,模型的輸出是對是否存在該原因類別的二元判斷,即“是”或“否”[7]。最終將所有類型的判斷綜合起來,形成總體分析結(jié)論。自然語言機(jī)器學(xué)習(xí)的算法有多種,包括邏輯回歸、線性判別分析、K近鄰、分類和回歸樹、樸素貝葉斯、支持向量機(jī)等[8]。在這里,選取隨機(jī)森林算法進(jìn)行模型的建立。隨機(jī)森林是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它通過隨機(jī)選取部分樣本和特征構(gòu)建多棵決策樹,其中每棵樹都是基于隨機(jī)向量的一個獨立集合的值產(chǎn)生的,最后再將多棵決策樹產(chǎn)生的結(jié)果整合在一起。隨機(jī)森林算法具有精確度高、不容易陷入過擬合、泛化能力等優(yōu)點。針對每一種原因類別,建立一個模型,開展模型訓(xùn)練。例如,針對“用戶停機(jī)”這一投訴類別,建立模型I,把數(shù)據(jù)按8∶2 分成訓(xùn)練集、測試集2 個部分,將指標(biāo)1……指標(biāo)n 作為輸入,標(biāo)簽作為輸出,代入隨機(jī)森林模型。在完成模型訓(xùn)練后,開展精度評估,調(diào)整相關(guān)參數(shù)設(shè)置,提高樣本數(shù)量,使得精度達(dá)到要求,即完成了模型的訓(xùn)練。具體訓(xùn)練方法示意如圖3 所示。

        圖3 機(jī)器訓(xùn)練模型示意圖

        (2)模型的利用。在客服坐席收到一張新的用戶投訴工單后,輸入到智能定責(zé)系統(tǒng)中,系統(tǒng)將輸出針對每種原因類別的二元判斷,從根本上找到導(dǎo)致本次投訴的根本原因。然后根據(jù)投訴類別推薦最佳話術(shù)和解決方案給坐席代表,提高其投訴處理的效果和效率。

        4 實際生產(chǎn)應(yīng)用

        圖4 以一個客戶對違約金產(chǎn)生投訴為例,展示了智能定責(zé)模塊的工作場景??蛻襞c客服代表的語音通話通過自動語音識別系統(tǒng)(ASR)轉(zhuǎn)寫之后形成文字輸入輿情監(jiān)測模型。“客戶產(chǎn)生違約金”這一顯性問題,在10000 號知識庫中對應(yīng)有“用戶套餐月租升檔造成違約”、“用戶合同期未到卻退租造成違約”,“費(fèi)用沒有及時繳納造成違約”等不同十個類別的隱性問題。通過機(jī)器學(xué)習(xí)投訴語音文本后,形成本次的文本主題信息為“升檔違約金”。該文本主題也作為本次投訴的分類的標(biāo)簽,產(chǎn)生預(yù)警并映射到該異動類別的責(zé)任部門。同時,根據(jù)該標(biāo)簽,檢索知識圖譜中的知識標(biāo)簽,得到相關(guān)的最佳應(yīng)答口徑和解決方案,推送給一線坐席人員,形成知識跟隨功能。

        圖4 智能定責(zé)模塊工作示例

        經(jīng)過實際生產(chǎn)測試,通過該應(yīng)用,客服中心可以實現(xiàn)實時監(jiān)控投訴的熱點,而且原來一個投訴定責(zé)的時間從8分鐘下降到1 分鐘,日處理定責(zé)工單量從不到200 單上升到約500 單,投訴處理人員的平均處理時效由2.6 單上升為3.3,大大提升了客服中心的工作效率和生產(chǎn)效率。

        5 結(jié)束語

        本文提出的利用自然語言處理處理技術(shù)構(gòu)建三層的電信智能定責(zé)系統(tǒng),可以幫助電信運(yùn)營商從每日海量的投訴處理語音信息中提取投訴的關(guān)鍵詞和內(nèi)容,形成輿情監(jiān)控能力和知識推薦能力,從而大幅提高客服中心的投訴處理及時性和投訴問題治理有效性。當(dāng)然,由于自然語言領(lǐng)域知識的復(fù)雜性,當(dāng)前通信行業(yè)智能定責(zé)系統(tǒng)的實現(xiàn)在技術(shù)上還有很多難點需要解決,需要進(jìn)一步研究自然語言和專業(yè)術(shù)語之間的映射關(guān)系、語境識別、指代消解、機(jī)器學(xué)習(xí)等技術(shù),提升該系統(tǒng)的效率和準(zhǔn)確率。

        猜你喜歡
        知識庫圖譜實體
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
        主動對接你思維的知識圖譜
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        狼人青草久久网伊人| 国产免费一区二区三区在线视频 | 久久99免费精品国产| 日韩 亚洲 制服 欧美 综合| 中文字幕被公侵犯的漂亮人妻| 亚洲国产一区二区在线| 亚洲va精品va国产va| 邻居人妻的肉欲满足中文字幕| 亚洲精品久久区二区三区蜜桃臀 | 亚洲产国偷v产偷v自拍色戒| 久久国产亚洲中文字幕| 自拍成人免费在线视频| 337p人体粉嫩胞高清视频| 亚洲人成无码网www| 亚洲免费观看一区二区三区| 24小时在线免费av| 亚洲精品成人无码中文毛片| 最新国产三级| 一区二区三区国产亚洲网站| 亚洲av日韩av卡二| 少妇性l交大片| 免费国产黄片视频在线观看| 蜜桃噜噜一区二区三区| 国产激情视频在线观看的 | 国产精品黑丝美女av| 伊人久久大香线蕉午夜av| 国产午夜精品一区二区三区不卡| 国产精品色内内在线播放| 日产分东风日产还有什么日产| 国产精品成人网站| 亚洲成人电影在线观看精品国产 | 亚洲日本视频一区二区三区| 亚洲日本国产精品久久| 18女下面流水不遮图| 91亚洲精品福利在线播放| 亚洲午夜精品第一区二区| 国产动作大片中文字幕| 日韩亚洲欧美中文高清在线| 在线观看国产av一区二区| 欧美精品一区二区精品久久| 99久久久无码国产精品免费砚床 |