張彥超 王杰 陳生 王彥博
后疫情時(shí)代,數(shù)字經(jīng)濟(jì)的重要性日益凸顯。習(xí)近平總書(shū)記多次強(qiáng)調(diào)要加速建設(shè)數(shù)字中國(guó),更好地服務(wù)我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展和改善人民生活。數(shù)字經(jīng)濟(jì)時(shí)代的到來(lái),一方面有望重塑商業(yè)銀行整體格局,打破傳統(tǒng)信貸的壟斷格局,深度洞察和充分挖掘客戶需求將成為商業(yè)銀行創(chuàng)新發(fā)展的必由之路;另一方面,隨著金融科技異軍突起,商業(yè)銀行在科技與業(yè)務(wù)深度融合的過(guò)程中有了更加豐富的決策選項(xiàng)。其中,以NLP(Natural Language Processing,自然語(yǔ)言處理)情感分析技術(shù)為代表的人工智能技術(shù),得益于其對(duì)于客戶信息挖掘和分析能力的優(yōu)秀表現(xiàn),有利于銀行建立統(tǒng)一視圖的客戶信息體系、保持自身的長(zhǎng)期戰(zhàn)略定位,引起業(yè)界的高度關(guān)注。在金融科技時(shí)代,對(duì)于大部分金融機(jī)構(gòu)而言,非結(jié)構(gòu)化數(shù)據(jù)的占比已達(dá)到銀行信息總量的80%,甚至更高。但由于該類(lèi)數(shù)據(jù)的存儲(chǔ)格式不統(tǒng)一、存儲(chǔ)位置分散、數(shù)據(jù)量大且增長(zhǎng)速度快,而處于長(zhǎng)期“睡眠狀態(tài)”。有效利用NLP技術(shù)深度挖掘非結(jié)構(gòu)化數(shù)據(jù),不僅有助于商業(yè)銀行深入洞察客戶需求、優(yōu)化業(yè)務(wù)流程,而且可以對(duì)銀行提升自身治理能力起到關(guān)鍵作用。我們聚焦于NLP情感分析技術(shù)在我國(guó)商業(yè)銀行網(wǎng)絡(luò)金融業(yè)務(wù)場(chǎng)景中的實(shí)際應(yīng)用,以期為數(shù)字經(jīng)濟(jì)時(shí)代商業(yè)銀行金融科技的發(fā)展提供借鑒。
基于NLP的情感分析技術(shù)簡(jiǎn)述
NLP作為人工智能的一個(gè)熱門(mén)領(lǐng)域,憑借其在與人類(lèi)交互中體現(xiàn)出的獨(dú)有價(jià)值和魅力,往往被譽(yù)為人工智能皇冠上的明珠。從業(yè)界應(yīng)用來(lái)看,NLP情感分析在客戶評(píng)價(jià)以及網(wǎng)絡(luò)輿情分析等方面表現(xiàn)出良好的應(yīng)用效果。通過(guò)對(duì)文本或音頻的關(guān)鍵詞提取并進(jìn)行情感分析可以有效地從大量的評(píng)論數(shù)據(jù)中獲取有效信息,從而獲得對(duì)服務(wù)的有效反饋,有針對(duì)性地進(jìn)行改進(jìn)。
NLP情感分析的研究路徑可大致劃分為“基于詞典和規(guī)則的方法”和“基于多類(lèi)標(biāo)分類(lèi)的機(jī)器學(xué)習(xí)方法”。對(duì)于情緒分類(lèi)問(wèn)題,最早有人采用KNN(K-NearestNeighbor,K最近鄰)算法,通過(guò)學(xué)習(xí)標(biāo)注數(shù)據(jù)來(lái)識(shí)別句子中的情緒類(lèi)別;也有人采用SVM(Support Vector Machine,支持向量機(jī))算法,通過(guò)文本標(biāo)注建模的方法來(lái)識(shí)別語(yǔ)料中的情緒標(biāo)簽。上述方法只能挑選出情緒標(biāo)簽,無(wú)法反映每種情緒屬性的強(qiáng)烈程度。當(dāng)前普遍采用的方法是用參數(shù)量較多的深度學(xué)習(xí)模型結(jié)構(gòu),對(duì)文本進(jìn)行上下文關(guān)聯(lián)建模,提取更深層的語(yǔ)義信息,并最終計(jì)算出所有情緒的極性強(qiáng)弱,再根據(jù)各情緒的極性強(qiáng)弱挑選出極性最強(qiáng)的情緒作為文本的情緒標(biāo)簽。NLP情感分析的具體流程如圖1所示。
網(wǎng)絡(luò)金融NLP情感分析的應(yīng)用
我們聚焦于運(yùn)用NLP情感分析技術(shù)對(duì)商業(yè)銀行網(wǎng)絡(luò)金融業(yè)務(wù)中的客戶評(píng)價(jià)以及網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)分析。情緒分類(lèi)的對(duì)象是一段語(yǔ)料中所蘊(yùn)含的主體情緒,是對(duì)蘊(yùn)含主觀情感色彩的文本進(jìn)行分析、處理、歸納以及推理的過(guò)程。商業(yè)銀行日常經(jīng)營(yíng)活動(dòng)中產(chǎn)生了大量的、對(duì)于銀行服務(wù)和產(chǎn)品有價(jià)值的評(píng)論信息。例如,工單數(shù)據(jù)中不僅包括具體問(wèn)題,還包括處理方法、過(guò)程、結(jié)果以及客戶反饋,是較好的文本數(shù)據(jù)。該類(lèi)評(píng)論信息中往往可以體現(xiàn)出客戶的批評(píng)、贊揚(yáng)等多種主觀情感表現(xiàn)。采用NLP技術(shù)將客戶評(píng)論中包含的情感進(jìn)行量化分析,有利于銀行客觀評(píng)價(jià)服務(wù)質(zhì)量并進(jìn)行后續(xù)的改進(jìn)和提升。以某銀行為例,NLP情感分析可以根據(jù)手機(jī)銀行客戶點(diǎn)評(píng)的內(nèi)容分析出客戶的情緒是正面、中性還是負(fù)面(見(jiàn)表1)。
根據(jù)商業(yè)銀行手機(jī)銀行客戶的點(diǎn)評(píng)內(nèi)容,NLP情感分析會(huì)通過(guò)以下流程將點(diǎn)評(píng)內(nèi)容轉(zhuǎn)化為點(diǎn)評(píng)情緒信息。
數(shù)據(jù)收集和預(yù)處理
對(duì)于銀行而言,其非結(jié)構(gòu)化數(shù)據(jù)來(lái)源包括網(wǎng)上銀行及手機(jī)銀行中的客戶點(diǎn)評(píng)、客戶咨詢、網(wǎng)絡(luò)輿情等。在收集行內(nèi)外相關(guān)數(shù)據(jù)后,NLP情感分析技術(shù)將對(duì)文本進(jìn)行預(yù)處理,一般包括文本清洗、去停用詞及符號(hào)等。
如果對(duì)數(shù)據(jù)分類(lèi)采用的是有監(jiān)督學(xué)習(xí)(從標(biāo)簽化訓(xùn)練數(shù)據(jù)集中推斷出函數(shù)的機(jī)器學(xué)習(xí)任務(wù))這一方式,需要對(duì)數(shù)據(jù)進(jìn)行前期的人工標(biāo)注工作,采用交叉驗(yàn)證、算法模型結(jié)合反饋的方式可以保證數(shù)據(jù)標(biāo)注的準(zhǔn)確性。標(biāo)注數(shù)據(jù)一般分為以下四個(gè)部分。一是標(biāo)注訓(xùn)練數(shù)據(jù)。用于模型初步訓(xùn)練,包括文本內(nèi)容和圖片內(nèi)容兩部分。二是訓(xùn)練測(cè)試數(shù)據(jù)。每次訓(xùn)練過(guò)程中,需要簡(jiǎn)單驗(yàn)證模型的各個(gè)指標(biāo),包括但不限于準(zhǔn)確率、召回率和F1等指標(biāo)。三是擴(kuò)充標(biāo)注數(shù)據(jù)。主要針對(duì)前期標(biāo)注過(guò)程中的分布相關(guān)問(wèn)題,對(duì)數(shù)據(jù)分布不均衡問(wèn)題進(jìn)行調(diào)整,這也是對(duì)模型泛化能力的一個(gè)優(yōu)化手段。四是標(biāo)注測(cè)試數(shù)據(jù)。這是為最終確定驗(yàn)收、測(cè)算指標(biāo)而選取的測(cè)試數(shù)據(jù),也可以作為后期優(yōu)化迭代的測(cè)試數(shù)據(jù)集。
特征提取
通過(guò)對(duì)特征提取進(jìn)行深入研究,可以很好地提取出海量數(shù)據(jù)中蘊(yùn)含的文本信息和圖像信息的重要特征。一般而言,文本的特征提取可以通過(guò) word2vec、glove、Elmo、BERT 等預(yù)訓(xùn)練方式,將文本信息有效地轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的向量信息。需要注意的是,word2vec、glove 等方法難以解決中文中一詞多義的問(wèn)題,如“蘋(píng)果”一詞在不同語(yǔ)境下可能代表手機(jī)品牌或水果,這是由于 word2vec 和 glove 訓(xùn)練出來(lái)的詞向量只能反映出一個(gè)固定的語(yǔ)義。但是,Elmo 和 BERT 等預(yù)訓(xùn)練模型可以通過(guò)保存上下文語(yǔ)義的方式很好地解決一詞多義的問(wèn)題。
數(shù)據(jù)分類(lèi)
當(dāng)前主流的數(shù)據(jù)分類(lèi)研究方向包括單模態(tài)和多模態(tài)兩種,內(nèi)容涵蓋敏感圖片識(shí)別、敏感文本信息識(shí)別和圖像、文本融合的多模態(tài)敏感數(shù)據(jù)識(shí)別等。對(duì)于單模態(tài)文本信息識(shí)別,可以通過(guò)包括LSTM、BERT、Xlnet等深度學(xué)習(xí)以及預(yù)訓(xùn)練模型相結(jié)合的有監(jiān)督學(xué)習(xí)方式實(shí)現(xiàn)95%以上敏感信息的分類(lèi)提取。在多模態(tài)領(lǐng)域,可以采用對(duì)文本信息和圖像信息特征提取相結(jié)合的方式實(shí)現(xiàn)數(shù)據(jù)敏感信息的分類(lèi)提取。特征提取一般可以得到普通特征和聚合特征。通常而言,普通特征主要為頁(yè)面、文本、圖像和標(biāo)題等單純特征;聚合特征則將各個(gè)普通特征進(jìn)行組合和有監(jiān)督訓(xùn)練,轉(zhuǎn)換為多個(gè)子模型,然后將這些子模型的輸出作為聚合特征,將這些聚合特征分類(lèi)可以實(shí)現(xiàn)90%以上的敏感分類(lèi)識(shí)別。
模型訓(xùn)練或模型預(yù)訓(xùn)練
深度學(xué)習(xí)常見(jiàn)的模型結(jié)構(gòu)包括RNN(Recurrent Neural Network, 循環(huán)神經(jīng)網(wǎng)絡(luò))、CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))、Google提出的Transformer結(jié)構(gòu)和很多基于它們實(shí)現(xiàn)的變形結(jié)構(gòu)。不同的學(xué)習(xí)模型各有利弊,RNN、CNN、LSTM等模型的特點(diǎn)在于其具備強(qiáng)大的序列建模能力。
模型預(yù)訓(xùn)練階段采用BERT模型。Google于2018年推出BERT模型,BERT模型是基于大規(guī)模語(yǔ)料的LM預(yù)訓(xùn)練模型,BERT預(yù)訓(xùn)練模型具有強(qiáng)大的特征提取能力,可以很好地解決不同語(yǔ)境下的一詞多義問(wèn)題,具有很強(qiáng)的魯棒性(控制系統(tǒng)在一定的參數(shù)攝動(dòng)下,維持其他某些性能的特性)和泛化能力(機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力)。在模型訓(xùn)練之前需要有針對(duì)性地使用具體應(yīng)用場(chǎng)景下銀行的自有數(shù)據(jù),從相關(guān)數(shù)據(jù)庫(kù)中采集一批數(shù)據(jù)進(jìn)行深入的預(yù)訓(xùn)練,使得所構(gòu)建的模型在項(xiàng)目場(chǎng)景下具備很強(qiáng)的魯棒性,然后在人工標(biāo)注的訓(xùn)練集上進(jìn)行模型訓(xùn)練。通過(guò)不斷迭代優(yōu)化參數(shù)的方式得到最佳模型,以達(dá)到90%以上的準(zhǔn)確率。
優(yōu)化調(diào)整
NLP情感分析會(huì)根據(jù)不同的指標(biāo)對(duì)模型進(jìn)行評(píng)估,模型的評(píng)價(jià)指標(biāo)主要有準(zhǔn)確率、錯(cuò)誤率、召回率、精準(zhǔn)度、F1值、ROC和AUC曲線等,根據(jù)評(píng)估的結(jié)果對(duì)模型進(jìn)行優(yōu)化調(diào)整。在機(jī)器學(xué)習(xí)過(guò)程中,主要應(yīng)用于梯度下降(迭代法的一種,可以用于求解最小二乘問(wèn)題),如傳統(tǒng)的優(yōu)化器主要結(jié)合數(shù)據(jù)集,通過(guò)變化單次循環(huán)所采用的數(shù)據(jù)量的大小對(duì)梯度下降進(jìn)行控制;非傳統(tǒng)的調(diào)優(yōu)則綜合考量數(shù)據(jù)集特點(diǎn)與模型訓(xùn)練時(shí)間,通過(guò)多種方式實(shí)現(xiàn)梯度下降的學(xué)習(xí)率。常見(jiàn)的優(yōu)化器有SGD、BGD、MBGD、Momentum、Adagrad、RMSprop、Adam等。
實(shí)證結(jié)果
基于上述實(shí)證研究,我們對(duì)目標(biāo)銀行2020年6月至2020年8月千余條客戶點(diǎn)評(píng)的文本數(shù)據(jù)進(jìn)行分析,對(duì)每條點(diǎn)評(píng)生成的情感分析結(jié)果進(jìn)行判斷。從模型效果指標(biāo)來(lái)看,長(zhǎng)文本和短文本測(cè)試結(jié)果的準(zhǔn)確率如表2、表3所示,效果顯著。
從業(yè)務(wù)方面看,以某商業(yè)銀行正面情緒的語(yǔ)料分析為例,通過(guò)NLP分析技術(shù)可生成詞云,進(jìn)行可視化展現(xiàn),一方面可供業(yè)務(wù)管理部門(mén)第一時(shí)間掌握用戶反饋信息,把握輿情動(dòng)態(tài);另一方面可根據(jù)客戶反饋的意見(jiàn),及時(shí)對(duì)業(yè)務(wù)進(jìn)行優(yōu)化,并有針對(duì)性地與客戶進(jìn)行溝通,把握先手棋,提升客戶體驗(yàn)。具體來(lái)看,在交互方式方面,客戶高度關(guān)注手機(jī)銀行的便捷性和易用性,以指紋識(shí)別、人臉識(shí)別等為代表的生物識(shí)別方式對(duì)提升用戶體驗(yàn)具有較為顯著的作用。針對(duì)不同的客戶反饋,后續(xù)手機(jī)銀行登錄界面將推送個(gè)性化的登錄方式選項(xiàng),并在登錄首頁(yè)進(jìn)行差異化的功能設(shè)定,以提升手機(jī)銀行的便捷性。在客戶感受方面,客戶對(duì)手機(jī)銀行的版本迭代有較高的期待,頁(yè)面版本優(yōu)化所帶來(lái)的功能提升和視覺(jué)更新往往更容易得到用戶的認(rèn)可。普遍來(lái)看,清新簡(jiǎn)潔的風(fēng)格在用戶中受歡迎程度較高,為后續(xù)手機(jī)銀行的視覺(jué)設(shè)計(jì)風(fēng)格提供了重要的參考依據(jù)。在獲客引流方面,信用卡、日常轉(zhuǎn)賬和存款是手機(jī)銀行用戶激活的主要業(yè)務(wù),后續(xù)獲客過(guò)程中持續(xù)優(yōu)化信用卡的便捷性、拓展日常支付場(chǎng)景有望成為客群增長(zhǎng)的重要路徑。
結(jié)語(yǔ)
一直以來(lái),由于NLP技術(shù)可以實(shí)現(xiàn)針對(duì)文本、語(yǔ)音等非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值挖掘,因此在營(yíng)銷(xiāo)、運(yùn)營(yíng)等場(chǎng)景中可以對(duì)智能化決策進(jìn)行支持。我們聚焦于某商業(yè)銀行網(wǎng)絡(luò)金融業(yè)務(wù)手機(jī)銀行客戶的反饋數(shù)據(jù),基于NLP情感分析技術(shù)對(duì)客戶點(diǎn)評(píng)進(jìn)行標(biāo)注和識(shí)別,并將此分析結(jié)果轉(zhuǎn)化為業(yè)務(wù)建議,輔助銀行進(jìn)行客群管理與經(jīng)營(yíng),以提升銀行的服務(wù)能力。
(文章僅代表個(gè)人觀點(diǎn),與所在單位無(wú)關(guān))
(作者張彥超、王杰工作單位為華夏銀行股份有限公司, 陳生、王彥博工作單位為龍盈智達(dá)(北京)科技有限公司)