摘要:該文探討了如何運(yùn)用大語言模型有效挖掘外呼數(shù)據(jù)和萬號數(shù)據(jù),針對兩類語音轉(zhuǎn)文本數(shù)據(jù)設(shè)計(jì)并實(shí)施定制化的NLP解決方案,提升業(yè)務(wù)洞察力,優(yōu)化客戶服務(wù)流程,并驅(qū)動潛在商機(jī)的精準(zhǔn)識別與轉(zhuǎn)化。
關(guān)鍵詞:大語言模型;NLP;文本摘要;商機(jī)挖掘
doi:10.3969/J.ISSN.1672-7274.2024.09.015
中圖分類號:TP 311.13 文獻(xiàn)標(biāo)志碼:A 文章編碼:1672-7274(2024)09-00-03
Deep Data Mining of Large Models--Research on Text Abstract Generation and Intelligent Business Opportunity Recognition
HONG Pei, DAI Shenglin, QIU Guoqing, LIU Hengzhi, MA Liang
(China Telecom Anhui Branch, Hefei 230001, China)
Abstract: This article explores how to effectively mine outbound call data and Wanhao data using big language models, design and implement customized NLP solutions for two types of speech to text data, enhance business insights, optimize customer service processes, and drive accurate identification and conversion of potential business opportunities.
Keywords: big language model; NLP; text summary; business opportunity exploration
0 引言
外呼與萬號數(shù)據(jù)是構(gòu)成中國電信電話營銷數(shù)據(jù)的重要組成部分,其分別提供客戶主被動電話服務(wù)在坐席互動中的全方位信息,蘊(yùn)含著豐富的客戶行為、需求、反饋以及商機(jī)信息。對于電信語音通話數(shù)據(jù),傳統(tǒng)人工分析的方案效率低下,人為對錄音數(shù)據(jù)進(jìn)行摘要及標(biāo)注存在強(qiáng)烈的主觀性,且結(jié)果優(yōu)化方向往往不可控制。另外,通話數(shù)據(jù)可能包含客戶的個(gè)人敏感信息(如身份證號、地址、銀行賬號等),在挖掘過程中運(yùn)用不恰當(dāng)?shù)姆绞綍?dǎo)致客戶信息泄露風(fēng)險(xiǎn)。對于多輪對話、跳躍性強(qiáng)或涉及專業(yè)知識的對話文本,傳統(tǒng)自然語言處理技術(shù)很難完全理解上下文對話,影響信息提取的準(zhǔn)確性。
本文旨在全面深入地理解客戶行為、需求和潛在商機(jī),為電信運(yùn)營商提供精準(zhǔn)的客戶洞察力和決策支持。通過外呼摘要能力,摘要總結(jié)坐席外呼通話中客戶往期接受的營銷歷史,幫助坐席快速理解客戶畫像,提升本次營銷中客戶的滿意度;通過商機(jī)挖掘能力,找出每日萬號數(shù)據(jù)中存在的商機(jī)分布,幫助上層決策營銷方向,以及針對定點(diǎn)人群做單獨(dú)銷售優(yōu)化,提升轉(zhuǎn)化率。
1 建模方案
1.1 數(shù)據(jù)預(yù)處理
首先對數(shù)據(jù)進(jìn)行細(xì)致的樣本篩選,通過分析真實(shí)通話記錄,識別并剔除那些無法提供有效信息的通話(無效外呼),對于因客戶不便接聽而導(dǎo)致的短暫、無實(shí)質(zhì)內(nèi)容的通話,亦應(yīng)納入無效數(shù)據(jù)范疇,以避免干擾后續(xù)分析結(jié)果。在完成無效數(shù)據(jù)篩選后,進(jìn)一步聚焦于有效通話文本的核心信息提取,這包括識別客戶對推廣活動的反應(yīng)態(tài)度、對產(chǎn)品或服務(wù)的具體問詢、對價(jià)格或優(yōu)惠政策的關(guān)注程度等關(guān)鍵信息點(diǎn)。對這些核心信息進(jìn)行精準(zhǔn)捕捉,能夠?yàn)楹罄m(xù)模型提供豐富的特征輸入,有助于模型更準(zhǔn)確地理解和預(yù)測客戶行為。
在對外呼數(shù)據(jù)與萬號數(shù)據(jù)分別進(jìn)行上述特定預(yù)處理后,還需進(jìn)行一系列通用的文本預(yù)處理操作,以進(jìn)一步提升數(shù)據(jù)質(zhì)量,為模型構(gòu)建做好準(zhǔn)備,包括但不限于停用詞去除、分詞、詞向量化等常規(guī)NLP預(yù)處理操作。通過上述專業(yè)且細(xì)致的預(yù)處理與預(yù)分析流程,原始的外呼數(shù)據(jù)與萬號數(shù)據(jù)得以凈化、結(jié)構(gòu)化,并提煉出關(guān)鍵信息與特征,為后續(xù)模型構(gòu)建提供高質(zhì)量的數(shù)據(jù)輸入,確保模型能夠準(zhǔn)確捕捉客戶行為模式、購買意向等核心信息,為電信運(yùn)營商的精準(zhǔn)營銷、優(yōu)質(zhì)服務(wù)、高效運(yùn)營及社交化營銷等業(yè)務(wù)決策提供有力支持[1]。
1.2 外呼摘要
在對外呼數(shù)據(jù)集的處理中,本文采取以人工標(biāo)注摘要文本為基準(zhǔn)的監(jiān)督學(xué)習(xí)方法,以大模型LORA為基礎(chǔ)進(jìn)行領(lǐng)域特定的微調(diào),精確提取通信行業(yè)外呼文本的三大關(guān)鍵摘要特征:坐席的推廣內(nèi)容闡述、客戶的實(shí)時(shí)反饋,以及營銷活動的最終結(jié)果。這一過程旨在對一次完整的外呼營銷交互過程進(jìn)行系統(tǒng)性的梳理與精煉,提煉出與業(yè)務(wù)核心密切相關(guān)的關(guān)鍵信息,以服務(wù)于后續(xù)的策略優(yōu)化與決策支持。
本文構(gòu)建了一套外呼摘要標(biāo)注體系,涵蓋上述三要素的具體子類別與標(biāo)注規(guī)則。專業(yè)標(biāo)注團(tuán)隊(duì)可依據(jù)此體系,對外呼數(shù)據(jù)集中的每一條通話記錄進(jìn)行人工摘要標(biāo)注,確保標(biāo)注內(nèi)容精準(zhǔn)、全面地反映坐席的介紹內(nèi)容、客戶的實(shí)時(shí)反饋以及營銷結(jié)果。
之后,利用大模型LORA的強(qiáng)大語言理解和生成能力,對其進(jìn)行通信行業(yè)外呼文本的微調(diào)。微調(diào)過程中可將人工標(biāo)注摘要作為模型的監(jiān)督信號,特意強(qiáng)調(diào)對坐席介紹內(nèi)容、客戶反饋與營銷結(jié)果三要素專項(xiàng)學(xué)習(xí)。通過調(diào)整模型參數(shù),如學(xué)習(xí)率、正則化強(qiáng)度、優(yōu)化器選擇等,確保模型在保持泛化能力的同時(shí),對特定領(lǐng)域特征有良好的捕捉與表達(dá)能力。
經(jīng)過多輪迭代優(yōu)化,在保留大模型LORA原有語言理解與生成能力的基礎(chǔ)上,成功習(xí)得通信行業(yè)外呼文本特有的摘要特征,其能夠系統(tǒng)性地梳理并精煉一次外呼營銷流程中的核心業(yè)務(wù)內(nèi)容。實(shí)證結(jié)果顯示,該模型在摘要質(zhì)量、信息完整性、領(lǐng)域特異性等多個(gè)維度均展現(xiàn)出優(yōu)秀的表現(xiàn),為電信運(yùn)營商的外呼營銷效果評估、策略優(yōu)化以及客戶行為分析提供有力的數(shù)據(jù)支撐工具[2]。
1.3 商機(jī)挖掘
本文中設(shè)計(jì)了一種融合大模型微調(diào)與深度學(xué)習(xí)文本聚類算法的智能挖掘框架,實(shí)現(xiàn)已有商機(jī)的持續(xù)追蹤與新商機(jī)的前瞻性探索。該框架的核心在于,通過人工標(biāo)注體系賦予大模型初始的微調(diào)樣本,使其具備從復(fù)雜的萬號文本中精準(zhǔn)抽取出潛在商業(yè)機(jī)會的能力,繼而運(yùn)用深度學(xué)習(xí)聚類算法對大模型輸出的商機(jī)信息進(jìn)行分類歸納,從而系統(tǒng)性地構(gòu)建起規(guī)范化的商機(jī)類別體系,并保持對新出現(xiàn)商機(jī)的高度敏感與及時(shí)響應(yīng)。
首先對萬號數(shù)據(jù)集中的各類文本進(jìn)行詳盡的人工標(biāo)注,明確界定商機(jī)的定義、類型及其在文本中的表現(xiàn)形式。以這些人工標(biāo)注的商機(jī)實(shí)例作為大模型微調(diào)的標(biāo)準(zhǔn),可確保模型在學(xué)習(xí)過程中能準(zhǔn)確把握商機(jī)的核心特征與上下文關(guān)聯(lián)。采用預(yù)訓(xùn)練的大規(guī)模語言模型,通過微調(diào)其參數(shù)以適應(yīng)萬號數(shù)據(jù)集的特定語境和商機(jī)識別任務(wù),強(qiáng)化其在復(fù)雜對話、業(yè)務(wù)描述及客戶意圖解讀等方面的理解力與判斷力。
在大模型初步識別出文本中的潛在商機(jī)后,引入文本聚類算法對這些商機(jī)信息進(jìn)行高層次的組織與整合。利用諸如詞嵌入、深度自編碼器、圖神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù),從語義、結(jié)構(gòu)、關(guān)系等多維度刻畫商機(jī)特征,進(jìn)而進(jìn)行無監(jiān)督的聚類分析。聚類結(jié)果不僅揭示了商機(jī)間的內(nèi)在相似性和差異性,還自然地形成了一個(gè)層次分明、邏輯連貫的商機(jī)類別體系,這一體系不僅有助于系統(tǒng)性地規(guī)范商機(jī)的分類標(biāo)準(zhǔn),確保各類商機(jī)的辨識與管理的一致性,還能夠隨著新商機(jī)的不斷涌現(xiàn),動態(tài)更新類別邊界,保持模型對市場變化的高度適應(yīng)性[3]。
2 結(jié)果評估
在對外呼摘要模型和商機(jī)挖掘模型的建模結(jié)果評估過程中,評估方案將融合定量分析與定性評估,同時(shí)考慮模型在各自核心任務(wù)上的具體表現(xiàn)以及它們協(xié)同工作時(shí)的綜合效能。
對于外呼摘要模型,運(yùn)用ROUGE系列指標(biāo)進(jìn)行量化評估,衡量其生成的摘要與人工標(biāo)注摘要在詞匯、短語及句子層面的匹配度。ROUGE-N、ROUGE-L等指標(biāo)分別反映模型在保留關(guān)鍵信息和保持文本結(jié)構(gòu)一致性上的能力。此外,人工專家評審?fù)瑯硬豢苫蛉薄H斯ひ罁?jù)預(yù)定義的評估準(zhǔn)則對樣例摘要進(jìn)行細(xì)致評估,提供對模型生成內(nèi)容在語義理解、邏輯連貫性以及行業(yè)適應(yīng)性等方面的深度反饋,尤其針對外呼摘要中的特定業(yè)務(wù)要素,實(shí)施專項(xiàng)評估,確保模型能夠精準(zhǔn)提煉并結(jié)構(gòu)化呈現(xiàn)這些關(guān)鍵信息。
對于商機(jī)挖掘模型,評估重點(diǎn)在于其識別潛在商業(yè)機(jī)會的準(zhǔn)確率和召回率。評估方案利用混淆矩陣統(tǒng)計(jì)模型在真實(shí)數(shù)據(jù)集上的分類表現(xiàn),計(jì)算精確率、召回率和F1分?jǐn)?shù),以衡量其在識別有效商機(jī)、排除無效線索以及避免錯(cuò)判方面的性能。同時(shí),引入AUC-ROC曲線和Precision-Recall曲線來可視化模型在不同閾值下的整體表現(xiàn),幫助調(diào)整模型決策邊界以適應(yīng)業(yè)務(wù)對假陽性與假陰性的容忍度。
外呼摘要模型和商機(jī)挖掘模型的建模結(jié)果評估兼顧各自任務(wù)的專項(xiàng)評估與模型間協(xié)同工作的整體評估,運(yùn)用多元化的評估手段確保模型既在技術(shù)層面達(dá)標(biāo),又能在實(shí)際業(yè)務(wù)應(yīng)用中發(fā)揮實(shí)效,助力電信運(yùn)營商實(shí)現(xiàn)外呼營銷的智能化與精準(zhǔn)化。
3 展望與迭代
外呼摘要與商機(jī)挖掘模型作為電信運(yùn)營商外呼營銷體系中的核心技術(shù)組件,共同構(gòu)建起從海量通話數(shù)據(jù)中提取關(guān)鍵信息、識別并轉(zhuǎn)化潛在商機(jī)的有效路徑,對提升業(yè)務(wù)運(yùn)營效率與決策精準(zhǔn)度產(chǎn)生顯著影響。前者以高效的信息萃取能力為后者提供精準(zhǔn)的數(shù)據(jù)輸入,后者則憑借敏銳的商機(jī)洞察力將提煉的信息轉(zhuǎn)化為可行動的商業(yè)策略。兩者共同構(gòu)成外呼營銷智能化的核心動力,助力電信運(yùn)營商在海量數(shù)據(jù)中精準(zhǔn)定位高價(jià)值商機(jī),驅(qū)動營銷效率與效果的雙重提升,實(shí)現(xiàn)業(yè)務(wù)增長與客戶滿意度上的雙贏。
為進(jìn)一步提升模型性能,可通過標(biāo)注平臺系統(tǒng)不斷擴(kuò)充訓(xùn)練樣本規(guī)模,納入更多具有代表性的外呼通話記錄。同時(shí),通過數(shù)據(jù)增強(qiáng)、欠采樣、過采樣等技術(shù)手段,優(yōu)化樣本分布,確保模型在各種情境下的穩(wěn)健性和泛化能力。此外,該項(xiàng)目還持續(xù)對標(biāo)注質(zhì)量進(jìn)行監(jiān)控與改進(jìn),通過定期回標(biāo)、專家審核、標(biāo)注員培訓(xùn)等方式,不斷提升標(biāo)注數(shù)據(jù)的準(zhǔn)確性和一致性,為模型提供更為優(yōu)質(zhì)的訓(xùn)練素材。
參考文獻(xiàn)
[1] 龐超,尹傳環(huán).基于分類的中文文本摘要方法[J].計(jì)算機(jī)科學(xué),2018(1):145-146.
[2] 王乃鈺,葉育鑫,劉露,等.基于深度學(xué)習(xí)的語言模型研究進(jìn)展[J].軟件學(xué)報(bào),2021(4):19-26.
[3] 劉建偉,劉俊文,羅雄麟.深度學(xué)習(xí)中注意力機(jī)制研究進(jìn)展[J].工程科學(xué)學(xué)報(bào),2021,43(11):1501-1505.