亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于二次排序Top-N算法的呼叫中心文本識別方法

        2020-02-05 02:19:44思永坤劉娟許婧
        電子技術(shù)與軟件工程 2020年7期
        關(guān)鍵詞:語義文本分析

        思永坤 劉娟 許婧

        (中移在線服務有限公司云南分公司 云南省昆明市 650221)

        近年來,隨著互聯(lián)網(wǎng),特別是移動互聯(lián)網(wǎng)的發(fā)展,引發(fā)了數(shù)據(jù)爆發(fā)式增長,大數(shù)據(jù)正日益對企業(yè)競爭能力提升、產(chǎn)品創(chuàng)新、客戶市場發(fā)展等產(chǎn)生重要影響。而當前大數(shù)據(jù)平臺中存貯的數(shù)據(jù)分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩類組織形式。據(jù)統(tǒng)計,企業(yè)中80%以上的業(yè)務相關(guān)的信息都來源于非結(jié)構(gòu)化數(shù)據(jù)文本[1]。

        1 中文分詞和語義分析

        1.1 中文分詞

        分詞技術(shù)是語義理解的首要環(huán)節(jié),是文本分類,信息檢索,機器翻譯,自動標引,文本的語音輸入輸出等領(lǐng)域的基礎(chǔ)。而由于中文本身的復雜性及其書寫習慣,使中文分詞成為分詞技術(shù)中的難點[2]。

        1.1.1 通信行業(yè)分詞難點

        首先,專業(yè)術(shù)語與自然表述方式矛盾,例如,“家庭套餐”4字術(shù)語在中文中由“家庭”、“套餐”兩個詞組成,“家庭”、“套餐”又分別有其自有的自然語言定義,將“家庭套餐”分割為特定專業(yè)術(shù)語,就是中文分詞在特定行業(yè)應用的一個難點。

        其次,詞的語義需要根據(jù)上下文關(guān)聯(lián)性判斷,例如,“還欠費200 多元”,可分割為“還(huan)/欠費/200 多元”和“還(hai)欠費/200 多元”。

        1.1.2 常見分詞方式

        目前較為常見的分詞方法有:基于機械切分的分詞方法、基于統(tǒng)計的分詞方法和知識分詞方法。

        1.2 語義分析

        語義分析指運用各種方法,學習與理解一段文本所表示的語義內(nèi)容。一般來說,詞匯級語義分析關(guān)注的是如何獲取或區(qū)別單詞的語義,句子級語義分析則試圖分析整個句子所表達的語義,而篇章語義分析旨在研究自然語言文本的內(nèi)在結(jié)構(gòu)并理解文本單元(可以是句子從句或段落)間的語義關(guān)系[3]。

        按照研究策略的不同,現(xiàn)有每層次語義分析研究都大概可分為基于知識或語義學規(guī)則的語義分析和基于統(tǒng)計學的語義分析[4]。

        2 呼叫中心文本識別面臨的問題和解決思路

        2.1 呼叫中心文本的特點

        呼叫中心的文本數(shù)據(jù)大部分來源于錄音文件的語音識別轉(zhuǎn)寫。不同于書面語言,呼叫中心的文本內(nèi)容幾乎都是客戶與客戶代表之間的口述交互,其作為真實數(shù)據(jù)的記錄,數(shù)據(jù)可能不完整、有噪音,且不一致[5]。因此,呼叫中心的錄音文本在識別過程中會存在以下問題:

        2.1.1 錄音文本準確度問題

        受限于錄音文件轉(zhuǎn)寫平臺,錄音文本存在轉(zhuǎn)寫準確性的問題,導致標準化的字典分詞難于適用。例如,“4G”錄音轉(zhuǎn)寫過程轉(zhuǎn)譯為“四季”、“四區(qū)”、“四哥”;“移動MM”錄音轉(zhuǎn)寫為“移動妹妹”等。

        2.1.2 客戶表達存在個性化差異

        對于同一需求,由于客戶的個性化表達的差異,存在錄音文本關(guān)鍵信息的較大差異。例如,對于取消業(yè)務的訴求,客戶的表述會有“關(guān)一下”、“關(guān)掉”、“不要了”、“退掉”、“停止”等多種個性化表達。

        2.1.3 業(yè)務術(shù)語與自然語言差異

        部分業(yè)務的標準化業(yè)務名稱與客戶來電口頭表述有較大差異,甚至存在較大偏離。例如,“已開通收費業(yè)務”這一標準業(yè)務術(shù)語,客戶的表達為“收費的業(yè)務”、“有些什么業(yè)務”、“開通了些什么”、“扣費的業(yè)務”、“月租”等。

        2.1.4 區(qū)域性語言(方言)表達差異

        2.1.5 多訴求對話

        一通對話錄音文本中,客戶訴求可能會有多個。例如,客戶表述“查詢話費較高的原因”,從而衍生出“取消某些不需要的業(yè)務”;或者客戶分別需要“取消彩鈴”和“開通來電提醒”。

        2.1.6 業(yè)務范疇變動頻繁

        通信行業(yè)面向客戶提供的業(yè)務、產(chǎn)品(含營銷活動)、服務并不是一成不變的,對應的業(yè)務標簽每月、每周、每天都有可能出現(xiàn)新增或下線,所以客戶交互信息也會頻繁變化。

        2.2 呼叫中心文本識別算法解決思路

        基于錄音轉(zhuǎn)寫、客戶表達、區(qū)域方言、多訴求、業(yè)務變動等原因,通信行業(yè)的客戶服務錄音文本分析,具有典型的行業(yè)特征。目前比較熱門的基于深度學習的文本識別算法,雖能夠在有效的訓練后達到較高的準確度,但由于其前期需投入大量訓練數(shù)據(jù),且對于新增標簽反應滯后,不能完全滿足通信行業(yè)呼叫中心對于客戶錄音文本分析的需求。于是,依賴于經(jīng)驗和語料庫的基于統(tǒng)計學和概率性的語義分析策略相較來說,更適合那些內(nèi)容范疇相對統(tǒng)一、模型迭代快速、業(yè)務術(shù)語較多的文本挖掘領(lǐng)域。算法需重點研究和解決:

        2.2.1 文本完整性校驗

        錄音文件轉(zhuǎn)寫為語音文本,由于以下因素可導致文本可用信息缺失:

        5例硬膜下積液自行吸收,7例演變?yōu)槁杂材は卵[;前者的積液量少于后者[(26.4±14.6)mL vs(80.0±52.3)mL, P=0.002]。演變?yōu)槁杂材は卵[的7例患者中,5例因血腫厚度>1.5 cm、出現(xiàn)顱高壓或神經(jīng)功能障礙而進一步行鉆孔引流術(shù);鉆孔手術(shù)平均于夾閉術(shù)后(9.1±3.8)個月(4~20個月)進行。進一步分析發(fā)現(xiàn),硬膜下積液量越大,其演變?yōu)槁杂材は卵[的比例越高,慢性硬膜下血腫后須行鉆孔引流手術(shù)治療的比例也越高(表2)。

        (1)通話錄音本身業(yè)務元素缺失。例如,交互過程中的異常掛機。

        (2)由于錄音轉(zhuǎn)寫文本準確性問題,導致文本業(yè)務元素缺失。

        2.2.2 分詞規(guī)則與業(yè)務對應

        (1)專業(yè)術(shù)語的識別。例如,“和彩鈴”、“和多號”等業(yè)務名稱,在分詞過程不能分割為“和/彩鈴”、“和/多號”,而應做為統(tǒng)一整體進行分詞。

        (2)客戶化表述的識別。例如,客戶需要辦理“國際漫游”,但在交互過程的用語為:“出國上網(wǎng)”、“國際流量”、“港澳臺流量”、“外國漫游”等。

        (3)短語描述的識別。例如,“呼叫轉(zhuǎn)移”表述為“把電話轉(zhuǎn)接到別的手機上”。此類情況非字典字詞,也非標準業(yè)務名詞,但需在分詞規(guī)則中進行詞組的定義。

        2.2.3 關(guān)鍵訴求判定

        (1)在整通來話錄音文本中,通常存在客戶多訴求表達。例如,一次來話有查話費、查流量、辦套餐等訴求。

        表1:文本識別語料庫(樣例)

        (2)有客戶訴求與業(yè)務定義存在語義纏繞的問題,例如,客戶表述中出現(xiàn)“上不了網(wǎng)”,有可能是指手機流量上網(wǎng)問題、寬帶上網(wǎng)問題、WLAN 上網(wǎng)問題,其由此產(chǎn)生的需求,有可能是開通相關(guān)業(yè)務,也有可能是投訴業(yè)務故障。

        3 呼叫中心文本識別算法實現(xiàn)

        3.1 建立文本識別語料庫

        如表1 所示。

        3.2 文本識別算法流程

        基于上述呼叫中心錄音文件文本還原準確性、分詞規(guī)則、語義分析、關(guān)鍵訴求判定等現(xiàn)實問題,本文提出“基于二次排序的Top-N 語義分析算法”,算法流程如圖1 所示。

        “基于二次排序的Top-N 語義分析算法”包括檢測模塊、獲取模塊和確定模塊。其中:

        檢測模塊,用于對錄音文本(非結(jié)構(gòu)化數(shù)據(jù))進行完整性檢測;

        獲取模塊,用于當錄音文本確定為完整的非結(jié)構(gòu)化數(shù)據(jù)時,將錄音文本與預存儲的關(guān)鍵詞進行匹配,獲取與錄音文本相對應的待確定標簽;

        確定模塊,用于根據(jù)預設的匹配規(guī)則,在待確定的標簽中確定與錄音文本最終匹配的標簽。

        4 總結(jié)和展望

        通過對真實錄音文本的語義識別結(jié)果進行全量測算檢驗,本算法文對于通話時長低于60 秒的錄音文本,識別準確率達到93.67%,識別準確率達到業(yè)界較高水平。算法中涉及的報錯閥值、排序TOP 值均為配置參數(shù),可根據(jù)實際情況進行調(diào)整,算法的流程化設計思想,也可支持在遇突發(fā)事件、文本內(nèi)容較大變動、表述習慣改變的情況下,調(diào)整特殊節(jié)點,甚至快速優(yōu)化算法流程,增減篩選環(huán)節(jié),有效提高了算法對外部環(huán)境的適應性。

        后續(xù),該算法的應用和優(yōu)化仍有一定空間。除了單純文本內(nèi)容外,將靜音、音量、語速、聲道等錄音屬性也加入語義分析模型,可支持捕捉性格特征、語境、情緒等更具體明確的語義內(nèi)容。也可將本算法輸出結(jié)果作為訓練集,將無規(guī)則的深度學習算法和有規(guī)則的本文所述算法結(jié)合起來,開創(chuàng)探索新的算法迭代模式,實現(xiàn)語義判定內(nèi)在算法的自主學習和優(yōu)化。

        圖1:“基于二次排序的Top-N 語義分析算法”流程圖

        猜你喜歡
        語義文本分析
        隱蔽失效適航要求符合性驗證分析
        語言與語義
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        “上”與“下”語義的不對稱性及其認知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        認知范疇模糊與語義模糊
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        内射精品无码中文字幕| 女的扒开尿口让男人桶30分钟| 欧美老熟妇乱子| 99在线精品免费视频| 亚洲妇女自偷自偷图片| 丰满人妻熟妇乱又伦精品软件| 开心五月激情综合婷婷| 亚洲欧美精品aaaaaa片| 中日韩欧美在线观看| 国产色无码精品视频国产| 人人看人人做人人爱精品| 国产精品爆乳在线播放| 91精品国产综合久久青草| 国产精品原创永久在线观看| 国产好片日本一区二区三区四区| 手机在线免费av网址| 免费看草逼操爽视频网站| 激情文学婷婷六月开心久久| 亚洲精品乱码久久久久蜜桃| 亚洲精品无码久久久影院相关影片| 日本做受高潮好舒服视频| 亚洲av无码成人精品区天堂| 亚洲国产精品自产拍久久蜜AV| 完整在线视频免费黄片| 亚洲国产成人精品一区刚刚| 凹凸世界视频a一二三| 亚洲最近中文字幕在线| 台湾佬中文网站| 亚洲国产另类精品| 老熟女毛茸茸浓毛| 免费人成黄页网站在线观看国内 | 99亚洲女人私处高清视频| 国产一区二区三区av免费| 夜夜爽夜夜叫夜夜高潮| 青青草国产精品一区二区| 久久久精品456亚洲影院| 久久福利青草精品免费| 亚洲乱码少妇中文字幕| 国产内射视频免费观看| 国产亚洲精品久久久久5区| 被黑人猛烈30分钟视频|