亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于二次排序Top-N算法的呼叫中心文本識別方法

2020-02-05 02:19:44思永坤劉娟許婧

電子技術(shù)與軟件工程 2020年7期

思永坤劉娟許婧

（中移在線服務有限公司云南分公司云南省昆明市 650221）

近年來，隨著互聯(lián)網(wǎng)，特別是移動互聯(lián)網(wǎng)的發(fā)展，引發(fā)了數(shù)據(jù)爆發(fā)式增長，大數(shù)據(jù)正日益對企業(yè)競爭能力提升、產(chǎn)品創(chuàng)新、客戶市場發(fā)展等產(chǎn)生重要影響。而當前大數(shù)據(jù)平臺中存貯的數(shù)據(jù)分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩類組織形式。據(jù)統(tǒng)計，企業(yè)中80%以上的業(yè)務相關(guān)的信息都來源于非結(jié)構(gòu)化數(shù)據(jù)文本[1]。

1 中文分詞和語義分析

1.1 中文分詞

分詞技術(shù)是語義理解的首要環(huán)節(jié)，是文本分類，信息檢索，機器翻譯，自動標引，文本的語音輸入輸出等領(lǐng)域的基礎(chǔ)。而由于中文本身的復雜性及其書寫習慣，使中文分詞成為分詞技術(shù)中的難點[2]。

1.1.1 通信行業(yè)分詞難點

首先，專業(yè)術(shù)語與自然表述方式矛盾，例如，“家庭套餐”4字術(shù)語在中文中由“家庭”、“套餐”兩個詞組成，“家庭”、“套餐”又分別有其自有的自然語言定義，將“家庭套餐”分割為特定專業(yè)術(shù)語，就是中文分詞在特定行業(yè)應用的一個難點。

其次，詞的語義需要根據(jù)上下文關(guān)聯(lián)性判斷，例如，“還欠費200 多元”，可分割為“還(huan)/欠費/200 多元”和“還（hai）欠費/200 多元”。

1.1.2 常見分詞方式

目前較為常見的分詞方法有：基于機械切分的分詞方法、基于統(tǒng)計的分詞方法和知識分詞方法。

1.2 語義分析

語義分析指運用各種方法，學習與理解一段文本所表示的語義內(nèi)容。一般來說，詞匯級語義分析關(guān)注的是如何獲取或區(qū)別單詞的語義，句子級語義分析則試圖分析整個句子所表達的語義，而篇章語義分析旨在研究自然語言文本的內(nèi)在結(jié)構(gòu)并理解文本單元（可以是句子從句或段落）間的語義關(guān)系[3]。

按照研究策略的不同，現(xiàn)有每層次語義分析研究都大概可分為基于知識或語義學規(guī)則的語義分析和基于統(tǒng)計學的語義分析[4]。

2 呼叫中心文本識別面臨的問題和解決思路

2.1 呼叫中心文本的特點

呼叫中心的文本數(shù)據(jù)大部分來源于錄音文件的語音識別轉(zhuǎn)寫。不同于書面語言，呼叫中心的文本內(nèi)容幾乎都是客戶與客戶代表之間的口述交互，其作為真實數(shù)據(jù)的記錄，數(shù)據(jù)可能不完整、有噪音，且不一致[5]。因此，呼叫中心的錄音文本在識別過程中會存在以下問題：

2.1.1 錄音文本準確度問題

受限于錄音文件轉(zhuǎn)寫平臺，錄音文本存在轉(zhuǎn)寫準確性的問題，導致標準化的字典分詞難于適用。例如，“4G”錄音轉(zhuǎn)寫過程轉(zhuǎn)譯為“四季”、“四區(qū)”、“四哥”；“移動MM”錄音轉(zhuǎn)寫為“移動妹妹”等。

2.1.2 客戶表達存在個性化差異

對于同一需求，由于客戶的個性化表達的差異，存在錄音文本關(guān)鍵信息的較大差異。例如，對于取消業(yè)務的訴求，客戶的表述會有“關(guān)一下”、“關(guān)掉”、“不要了”、“退掉”、“停止”等多種個性化表達。

2.1.3 業(yè)務術(shù)語與自然語言差異

部分業(yè)務的標準化業(yè)務名稱與客戶來電口頭表述有較大差異，甚至存在較大偏離。例如，“已開通收費業(yè)務”這一標準業(yè)務術(shù)語，客戶的表達為“收費的業(yè)務”、“有些什么業(yè)務”、“開通了些什么”、“扣費的業(yè)務”、“月租”等。

2.1.4 區(qū)域性語言（方言）表達差異

2.1.5 多訴求對話

一通對話錄音文本中，客戶訴求可能會有多個。例如，客戶表述“查詢話費較高的原因”，從而衍生出“取消某些不需要的業(yè)務”；或者客戶分別需要“取消彩鈴”和“開通來電提醒”。

2.1.6 業(yè)務范疇變動頻繁

通信行業(yè)面向客戶提供的業(yè)務、產(chǎn)品（含營銷活動）、服務并不是一成不變的，對應的業(yè)務標簽每月、每周、每天都有可能出現(xiàn)新增或下線，所以客戶交互信息也會頻繁變化。

2.2 呼叫中心文本識別算法解決思路

基于錄音轉(zhuǎn)寫、客戶表達、區(qū)域方言、多訴求、業(yè)務變動等原因，通信行業(yè)的客戶服務錄音文本分析，具有典型的行業(yè)特征。目前比較熱門的基于深度學習的文本識別算法，雖能夠在有效的訓練后達到較高的準確度，但由于其前期需投入大量訓練數(shù)據(jù)，且對于新增標簽反應滯后，不能完全滿足通信行業(yè)呼叫中心對于客戶錄音文本分析的需求。于是，依賴于經(jīng)驗和語料庫的基于統(tǒng)計學和概率性的語義分析策略相較來說，更適合那些內(nèi)容范疇相對統(tǒng)一、模型迭代快速、業(yè)務術(shù)語較多的文本挖掘領(lǐng)域。算法需重點研究和解決：

2.2.1 文本完整性校驗

錄音文件轉(zhuǎn)寫為語音文本，由于以下因素可導致文本可用信息缺失：

5例硬膜下積液自行吸收，7例演變?yōu)槁杂材は卵[；前者的積液量少于后者[(26.4±14.6)mL vs(80.0±52.3)mL, P=0.002]。演變?yōu)槁杂材は卵[的7例患者中，5例因血腫厚度>1.5 cm、出現(xiàn)顱高壓或神經(jīng)功能障礙而進一步行鉆孔引流術(shù)；鉆孔手術(shù)平均于夾閉術(shù)后(9.1±3.8)個月(4～20個月)進行。進一步分析發(fā)現(xiàn)，硬膜下積液量越大，其演變?yōu)槁杂材は卵[的比例越高，慢性硬膜下血腫后須行鉆孔引流手術(shù)治療的比例也越高(表2)。

（1）通話錄音本身業(yè)務元素缺失。例如，交互過程中的異常掛機。

（2）由于錄音轉(zhuǎn)寫文本準確性問題，導致文本業(yè)務元素缺失。

2.2.2 分詞規(guī)則與業(yè)務對應

（1）專業(yè)術(shù)語的識別。例如，“和彩鈴”、“和多號”等業(yè)務名稱，在分詞過程不能分割為“和/彩鈴”、“和/多號”，而應做為統(tǒng)一整體進行分詞。

（2）客戶化表述的識別。例如，客戶需要辦理“國際漫游”，但在交互過程的用語為：“出國上網(wǎng)”、“國際流量”、“港澳臺流量”、“外國漫游”等。

（3）短語描述的識別。例如，“呼叫轉(zhuǎn)移”表述為“把電話轉(zhuǎn)接到別的手機上”。此類情況非字典字詞，也非標準業(yè)務名詞，但需在分詞規(guī)則中進行詞組的定義。

2.2.3 關(guān)鍵訴求判定

（1）在整通來話錄音文本中，通常存在客戶多訴求表達。例如，一次來話有查話費、查流量、辦套餐等訴求。

表1：文本識別語料庫（樣例）

（2）有客戶訴求與業(yè)務定義存在語義纏繞的問題，例如，客戶表述中出現(xiàn)“上不了網(wǎng)”，有可能是指手機流量上網(wǎng)問題、寬帶上網(wǎng)問題、WLAN 上網(wǎng)問題，其由此產(chǎn)生的需求，有可能是開通相關(guān)業(yè)務，也有可能是投訴業(yè)務故障。

3 呼叫中心文本識別算法實現(xiàn)

3.1 建立文本識別語料庫

如表1 所示。

3.2 文本識別算法流程

基于上述呼叫中心錄音文件文本還原準確性、分詞規(guī)則、語義分析、關(guān)鍵訴求判定等現(xiàn)實問題，本文提出“基于二次排序的Top-N 語義分析算法”，算法流程如圖1 所示。

“基于二次排序的Top-N 語義分析算法”包括檢測模塊、獲取模塊和確定模塊。其中：

檢測模塊，用于對錄音文本（非結(jié)構(gòu)化數(shù)據(jù)）進行完整性檢測；

獲取模塊，用于當錄音文本確定為完整的非結(jié)構(gòu)化數(shù)據(jù)時，將錄音文本與預存儲的關(guān)鍵詞進行匹配，獲取與錄音文本相對應的待確定標簽；

確定模塊，用于根據(jù)預設的匹配規(guī)則，在待確定的標簽中確定與錄音文本最終匹配的標簽。

4 總結(jié)和展望

通過對真實錄音文本的語義識別結(jié)果進行全量測算檢驗，本算法文對于通話時長低于60 秒的錄音文本，識別準確率達到93.67%，識別準確率達到業(yè)界較高水平。算法中涉及的報錯閥值、排序TOP 值均為配置參數(shù)，可根據(jù)實際情況進行調(diào)整，算法的流程化設計思想，也可支持在遇突發(fā)事件、文本內(nèi)容較大變動、表述習慣改變的情況下，調(diào)整特殊節(jié)點，甚至快速優(yōu)化算法流程，增減篩選環(huán)節(jié)，有效提高了算法對外部環(huán)境的適應性。

后續(xù)，該算法的應用和優(yōu)化仍有一定空間。除了單純文本內(nèi)容外，將靜音、音量、語速、聲道等錄音屬性也加入語義分析模型，可支持捕捉性格特征、語境、情緒等更具體明確的語義內(nèi)容。也可將本算法輸出結(jié)果作為訓練集，將無規(guī)則的深度學習算法和有規(guī)則的本文所述算法結(jié)合起來，開創(chuàng)探索新的算法迭代模式，實現(xiàn)語義判定內(nèi)在算法的自主學習和優(yōu)化。

圖1：“基于二次排序的Top-N 語義分析算法”流程圖