思永坤 劉娟 許婧
(中移在線服務有限公司云南分公司 云南省昆明市 650221)
近年來,隨著互聯(lián)網(wǎng),特別是移動互聯(lián)網(wǎng)的發(fā)展,引發(fā)了數(shù)據(jù)爆發(fā)式增長,大數(shù)據(jù)正日益對企業(yè)競爭能力提升、產(chǎn)品創(chuàng)新、客戶市場發(fā)展等產(chǎn)生重要影響。而當前大數(shù)據(jù)平臺中存貯的數(shù)據(jù)分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩類組織形式。據(jù)統(tǒng)計,企業(yè)中80%以上的業(yè)務相關(guān)的信息都來源于非結(jié)構(gòu)化數(shù)據(jù)文本[1]。
分詞技術(shù)是語義理解的首要環(huán)節(jié),是文本分類,信息檢索,機器翻譯,自動標引,文本的語音輸入輸出等領(lǐng)域的基礎(chǔ)。而由于中文本身的復雜性及其書寫習慣,使中文分詞成為分詞技術(shù)中的難點[2]。
1.1.1 通信行業(yè)分詞難點
首先,專業(yè)術(shù)語與自然表述方式矛盾,例如,“家庭套餐”4字術(shù)語在中文中由“家庭”、“套餐”兩個詞組成,“家庭”、“套餐”又分別有其自有的自然語言定義,將“家庭套餐”分割為特定專業(yè)術(shù)語,就是中文分詞在特定行業(yè)應用的一個難點。
其次,詞的語義需要根據(jù)上下文關(guān)聯(lián)性判斷,例如,“還欠費200 多元”,可分割為“還(huan)/欠費/200 多元”和“還(hai)欠費/200 多元”。
1.1.2 常見分詞方式
目前較為常見的分詞方法有:基于機械切分的分詞方法、基于統(tǒng)計的分詞方法和知識分詞方法。
語義分析指運用各種方法,學習與理解一段文本所表示的語義內(nèi)容。一般來說,詞匯級語義分析關(guān)注的是如何獲取或區(qū)別單詞的語義,句子級語義分析則試圖分析整個句子所表達的語義,而篇章語義分析旨在研究自然語言文本的內(nèi)在結(jié)構(gòu)并理解文本單元(可以是句子從句或段落)間的語義關(guān)系[3]。
按照研究策略的不同,現(xiàn)有每層次語義分析研究都大概可分為基于知識或語義學規(guī)則的語義分析和基于統(tǒng)計學的語義分析[4]。
呼叫中心的文本數(shù)據(jù)大部分來源于錄音文件的語音識別轉(zhuǎn)寫。不同于書面語言,呼叫中心的文本內(nèi)容幾乎都是客戶與客戶代表之間的口述交互,其作為真實數(shù)據(jù)的記錄,數(shù)據(jù)可能不完整、有噪音,且不一致[5]。因此,呼叫中心的錄音文本在識別過程中會存在以下問題:
2.1.1 錄音文本準確度問題
受限于錄音文件轉(zhuǎn)寫平臺,錄音文本存在轉(zhuǎn)寫準確性的問題,導致標準化的字典分詞難于適用。例如,“4G”錄音轉(zhuǎn)寫過程轉(zhuǎn)譯為“四季”、“四區(qū)”、“四哥”;“移動MM”錄音轉(zhuǎn)寫為“移動妹妹”等。
2.1.2 客戶表達存在個性化差異
對于同一需求,由于客戶的個性化表達的差異,存在錄音文本關(guān)鍵信息的較大差異。例如,對于取消業(yè)務的訴求,客戶的表述會有“關(guān)一下”、“關(guān)掉”、“不要了”、“退掉”、“停止”等多種個性化表達。
2.1.3 業(yè)務術(shù)語與自然語言差異
部分業(yè)務的標準化業(yè)務名稱與客戶來電口頭表述有較大差異,甚至存在較大偏離。例如,“已開通收費業(yè)務”這一標準業(yè)務術(shù)語,客戶的表達為“收費的業(yè)務”、“有些什么業(yè)務”、“開通了些什么”、“扣費的業(yè)務”、“月租”等。
2.1.4 區(qū)域性語言(方言)表達差異
2.1.5 多訴求對話
一通對話錄音文本中,客戶訴求可能會有多個。例如,客戶表述“查詢話費較高的原因”,從而衍生出“取消某些不需要的業(yè)務”;或者客戶分別需要“取消彩鈴”和“開通來電提醒”。
2.1.6 業(yè)務范疇變動頻繁
通信行業(yè)面向客戶提供的業(yè)務、產(chǎn)品(含營銷活動)、服務并不是一成不變的,對應的業(yè)務標簽每月、每周、每天都有可能出現(xiàn)新增或下線,所以客戶交互信息也會頻繁變化。
基于錄音轉(zhuǎn)寫、客戶表達、區(qū)域方言、多訴求、業(yè)務變動等原因,通信行業(yè)的客戶服務錄音文本分析,具有典型的行業(yè)特征。目前比較熱門的基于深度學習的文本識別算法,雖能夠在有效的訓練后達到較高的準確度,但由于其前期需投入大量訓練數(shù)據(jù),且對于新增標簽反應滯后,不能完全滿足通信行業(yè)呼叫中心對于客戶錄音文本分析的需求。于是,依賴于經(jīng)驗和語料庫的基于統(tǒng)計學和概率性的語義分析策略相較來說,更適合那些內(nèi)容范疇相對統(tǒng)一、模型迭代快速、業(yè)務術(shù)語較多的文本挖掘領(lǐng)域。算法需重點研究和解決:
2.2.1 文本完整性校驗
錄音文件轉(zhuǎn)寫為語音文本,由于以下因素可導致文本可用信息缺失:
5例硬膜下積液自行吸收,7例演變?yōu)槁杂材は卵[;前者的積液量少于后者[(26.4±14.6)mL vs(80.0±52.3)mL, P=0.002]。演變?yōu)槁杂材は卵[的7例患者中,5例因血腫厚度>1.5 cm、出現(xiàn)顱高壓或神經(jīng)功能障礙而進一步行鉆孔引流術(shù);鉆孔手術(shù)平均于夾閉術(shù)后(9.1±3.8)個月(4~20個月)進行。進一步分析發(fā)現(xiàn),硬膜下積液量越大,其演變?yōu)槁杂材は卵[的比例越高,慢性硬膜下血腫后須行鉆孔引流手術(shù)治療的比例也越高(表2)。
(1)通話錄音本身業(yè)務元素缺失。例如,交互過程中的異常掛機。
(2)由于錄音轉(zhuǎn)寫文本準確性問題,導致文本業(yè)務元素缺失。
2.2.2 分詞規(guī)則與業(yè)務對應
(1)專業(yè)術(shù)語的識別。例如,“和彩鈴”、“和多號”等業(yè)務名稱,在分詞過程不能分割為“和/彩鈴”、“和/多號”,而應做為統(tǒng)一整體進行分詞。
(2)客戶化表述的識別。例如,客戶需要辦理“國際漫游”,但在交互過程的用語為:“出國上網(wǎng)”、“國際流量”、“港澳臺流量”、“外國漫游”等。
(3)短語描述的識別。例如,“呼叫轉(zhuǎn)移”表述為“把電話轉(zhuǎn)接到別的手機上”。此類情況非字典字詞,也非標準業(yè)務名詞,但需在分詞規(guī)則中進行詞組的定義。
2.2.3 關(guān)鍵訴求判定
(1)在整通來話錄音文本中,通常存在客戶多訴求表達。例如,一次來話有查話費、查流量、辦套餐等訴求。
表1:文本識別語料庫(樣例)
(2)有客戶訴求與業(yè)務定義存在語義纏繞的問題,例如,客戶表述中出現(xiàn)“上不了網(wǎng)”,有可能是指手機流量上網(wǎng)問題、寬帶上網(wǎng)問題、WLAN 上網(wǎng)問題,其由此產(chǎn)生的需求,有可能是開通相關(guān)業(yè)務,也有可能是投訴業(yè)務故障。
如表1 所示。
基于上述呼叫中心錄音文件文本還原準確性、分詞規(guī)則、語義分析、關(guān)鍵訴求判定等現(xiàn)實問題,本文提出“基于二次排序的Top-N 語義分析算法”,算法流程如圖1 所示。
“基于二次排序的Top-N 語義分析算法”包括檢測模塊、獲取模塊和確定模塊。其中:
檢測模塊,用于對錄音文本(非結(jié)構(gòu)化數(shù)據(jù))進行完整性檢測;
獲取模塊,用于當錄音文本確定為完整的非結(jié)構(gòu)化數(shù)據(jù)時,將錄音文本與預存儲的關(guān)鍵詞進行匹配,獲取與錄音文本相對應的待確定標簽;
確定模塊,用于根據(jù)預設的匹配規(guī)則,在待確定的標簽中確定與錄音文本最終匹配的標簽。
通過對真實錄音文本的語義識別結(jié)果進行全量測算檢驗,本算法文對于通話時長低于60 秒的錄音文本,識別準確率達到93.67%,識別準確率達到業(yè)界較高水平。算法中涉及的報錯閥值、排序TOP 值均為配置參數(shù),可根據(jù)實際情況進行調(diào)整,算法的流程化設計思想,也可支持在遇突發(fā)事件、文本內(nèi)容較大變動、表述習慣改變的情況下,調(diào)整特殊節(jié)點,甚至快速優(yōu)化算法流程,增減篩選環(huán)節(jié),有效提高了算法對外部環(huán)境的適應性。
后續(xù),該算法的應用和優(yōu)化仍有一定空間。除了單純文本內(nèi)容外,將靜音、音量、語速、聲道等錄音屬性也加入語義分析模型,可支持捕捉性格特征、語境、情緒等更具體明確的語義內(nèi)容。也可將本算法輸出結(jié)果作為訓練集,將無規(guī)則的深度學習算法和有規(guī)則的本文所述算法結(jié)合起來,開創(chuàng)探索新的算法迭代模式,實現(xiàn)語義判定內(nèi)在算法的自主學習和優(yōu)化。
圖1:“基于二次排序的Top-N 語義分析算法”流程圖