林 波 丁東輝 郭靖羽 林偉佳 黃 翰
基于投訴文本記錄的數(shù)據(jù)挖掘系統(tǒng)
林 波 丁東輝 郭靖羽 林偉佳 黃 翰
本文研究開發(fā)了一套基于廣東移動投訴文本記錄的數(shù)據(jù)挖掘系統(tǒng)。系統(tǒng)主要分為聚類分析、情感分析和匹配文本記錄三個功能模塊,處理的數(shù)據(jù)是大量的廣東移動的投訴文本記錄。廣東移動呼叫中心平均每天需要為用戶提供超過70萬人次的人工話務(wù)支撐,這是一個十分龐大的數(shù)字,這些大數(shù)據(jù)背后隱藏了無限的挖掘潛力。這些待挖掘的潛力無論是在公司應(yīng)對消費者投訴處理方面還是在改善服務(wù)質(zhì)量方面都有很重要的意義。本文是使用JSP動態(tài)網(wǎng)頁技術(shù)開發(fā)完成。系統(tǒng)采用了MVC設(shè)計模式,基于Oracle 11g數(shù)據(jù)庫和Tomcat7.0服務(wù)器開發(fā)平臺。
隨著市場競爭越來越激烈,作為企業(yè)生命力源泉的業(yè)務(wù),各大企業(yè)開始不斷地開發(fā)適合不同需求客戶群的多種業(yè)務(wù)及其組合。因此如何開發(fā)出合理、合適、高效益的業(yè)務(wù)成了企業(yè)的關(guān)注熱點。廣東移動呼叫中心平均每天需要為用戶提供超過70萬人次的人工話務(wù)支撐,這是一個十分龐大的數(shù)字,這些大數(shù)據(jù)背后隱藏了無限的挖掘潛力。這些待挖掘的潛力無論是在公司應(yīng)對消費者投訴處理方面還是在改善服務(wù)質(zhì)量方面都有很重要的意義。
盡管以客戶分析為基礎(chǔ)開發(fā)業(yè)務(wù)將會成為企業(yè)的重中之重。未來的市場營銷將會是精準(zhǔn)營銷的天下,開發(fā)出真正針對客戶需求的業(yè)務(wù),實現(xiàn)精準(zhǔn)營銷,才能獲得客戶的青睞。因此我們以開發(fā)適合不同需求的客戶群的多種業(yè)務(wù)為目標(biāo),以客服文本數(shù)據(jù)為基礎(chǔ),提供各個業(yè)務(wù)的詳細(xì)數(shù)據(jù),分析業(yè)務(wù)的優(yōu)缺點,幫助企業(yè)面對越來越激烈的市場競爭。而傳統(tǒng)客戶分析有以下主要缺點:技術(shù)手段低效。
客服系統(tǒng)目前僅解決了企業(yè)與外部市場進(jìn)行信息接入的問題,產(chǎn)生的大量數(shù)據(jù)通過報表等傳統(tǒng)的統(tǒng)計方法,只能得到一般意義上的業(yè)務(wù)信息反匱。其原因有以下幾點:
1)數(shù)據(jù)繁復(fù),信息過少
2)難以獲得各種業(yè)務(wù)的優(yōu)缺點分析
3)難以挖掘出潛在的市場規(guī)律
4)難以把將新舊數(shù)據(jù)結(jié)合,數(shù)據(jù)之間形成鼓搗
5)難以獲得業(yè)務(wù)套餐組合的合理分析數(shù)據(jù)
1系統(tǒng)需求分析
經(jīng)過多次調(diào)研分析,確定了系統(tǒng)的功能需求。系統(tǒng)的功能模塊分為五個功能模塊:聚類分析模塊、情感分析模塊、匹配文本記錄模塊、情感詞庫管理模塊和關(guān)鍵詞庫管理模塊。每個功能模塊又有子功能。關(guān)鍵詞匹配文本記錄模塊包括業(yè)務(wù)關(guān)鍵詞庫管理和匹配文本記錄兩大子功能,每個子功能下還有對應(yīng)的功能點。用戶角色分為系統(tǒng)管理員和用戶兩種角色。
(1)聚類分析模塊:聚類分析模塊分為投訴細(xì)項聚類分析和投訴原因短語聚類分析兩個子功能。聚類分析模塊對每個時間間隔中的投訴文本記錄的投訴細(xì)項和投訴原因短語進(jìn)行聚類分析,其聚類結(jié)果以云標(biāo)簽的形式進(jìn)行顯示。用戶點擊云標(biāo)簽的關(guān)鍵字,能夠自動匹配出相對應(yīng)的投訴文本記錄的投訴內(nèi)容。
(2)情感分析模塊:系統(tǒng)對投訴文本記錄進(jìn)行情感分析,并顯示出情感分析結(jié)果。每一條投訴文本記錄通過分析分為三種情感程度,輕度、中度和重度。在頁面加載時,統(tǒng)計各種情感程度的投訴文本記錄,顯示情感程度的分布情況。在點擊“輕度”、“中度”和“重度”按鈕圖標(biāo)是,頁面顯示該情感程度對應(yīng)的投訴文本記錄。當(dāng)用戶點擊任何一條頁面中的投訴文本記錄時,顯示該投訴文本記錄對應(yīng)的情感詞信息。
(3)匹配文本記錄模塊:根據(jù)用戶的輸入,篩選并導(dǎo)出相匹配的文本記錄。在頁面加載時,業(yè)務(wù)關(guān)鍵詞庫成功顯示在列表中。用戶輸入模糊的查詢內(nèi)容,從關(guān)鍵詞庫中篩選出包含該輸入內(nèi)容的關(guān)鍵詞,由用戶從詞語列表中自行過濾掉不需要處理的詞語(使用按鈕“刪除待匹配詞語”)。確認(rèn)刪除后,系統(tǒng)根據(jù)剩余的待匹配的關(guān)鍵詞篩選出對應(yīng)的文本記錄,并以文件形式導(dǎo)出文本記錄。
(4)情感詞庫管理模塊:該功能針對投訴文本記錄進(jìn)行情感分析,識別投訴文本記錄的語氣強(qiáng)度。在情感詞庫中,存在三種不同程度的情感詞,分為為輕度、中度和重度。系統(tǒng)用戶管理情感詞分為三個子功能:新增情感詞、刪除情感詞和查詢情感詞。
圖1 系統(tǒng)功能架構(gòu)
圖2 數(shù)據(jù)庫E-R圖設(shè)計
(5)關(guān)鍵詞庫管理模塊:關(guān)鍵詞庫主要是為了用戶匹配投訴文本記錄使用。系統(tǒng)用戶可以進(jìn)行業(yè)務(wù)關(guān)鍵字詞庫管理,分為新增關(guān)鍵詞、刪除關(guān)鍵詞和查詢關(guān)鍵詞三個子功能。
數(shù)據(jù)庫設(shè)計
(1)E-R設(shè)計。在進(jìn)行需求分析之后,各個模塊的功能將比較清晰。現(xiàn)在進(jìn)行數(shù)據(jù)庫設(shè)計,本系統(tǒng)主要的實體主要有投訴文本記錄、問題細(xì)項、投訴短語、業(yè)務(wù)關(guān)鍵詞和情感關(guān)鍵詞。E-R圖如圖2所示。
(2)在數(shù)據(jù)庫E-R圖設(shè)計之后,接下來進(jìn)行數(shù)據(jù)庫表的設(shè)計。數(shù)據(jù)庫表如下:投訴文本記錄表、問題細(xì)項表、業(yè)務(wù)關(guān)鍵詞表、情感關(guān)鍵詞表、投訴短語表。
MVC設(shè)計模式
系統(tǒng)采用的是MVC設(shè)計模式,即模型-視圖-控制器(model-view-control)框架。Mvc設(shè)計模式現(xiàn)在已被廣泛使用,是在80年代由Xerox PARC發(fā)明的。
圖3 mvc設(shè)計模式
模型層:模型層主要是與數(shù)據(jù)庫交互,封裝數(shù)據(jù),在與數(shù)據(jù)庫交互的過程中系統(tǒng)使用的技術(shù)是hibernate。Hibernate是一個開放源代碼的對象關(guān)系映射框架。
視圖層:視圖層使用的技術(shù)是JSP。JSP是一種跨平臺的動態(tài)網(wǎng)頁技術(shù),還有前臺技術(shù)css、javascript、js、jquery等。通過業(yè)務(wù)邏輯給用戶展示不同的視圖,將結(jié)果反饋給用戶。
表1 投訴文本記錄表
表2 問題細(xì)項表
表3 業(yè)務(wù)關(guān)鍵詞表
表4 情感詞表
表5 投訴短語表
控制層:主要是負(fù)責(zé)業(yè)務(wù)邏輯的處理,使用的技術(shù)的Struts 2。Struts2是Struts的下一代產(chǎn)品,是在struts 1和WebWork的技術(shù)基礎(chǔ)上進(jìn)行了合并的全新的Struts 2框架。業(yè)務(wù)邏輯與模型層進(jìn)行交互然后直到最后將數(shù)據(jù)返回給視圖層。
系統(tǒng)開發(fā)環(huán)境
操作系統(tǒng):Windows xp,Win7
編譯環(huán)境:MyEclipse 2014或以上版本
瀏覽器: IE 10、Chrome
數(shù)據(jù)庫: Oracle 11g
服務(wù)器:Tomcat7.0
模型層
(1)Hibernate連接Oracle數(shù)據(jù)庫
Resources.properties文件配置參數(shù):
hibernate.dialect=org.hibernate.dialect. Oracle10gDialect
hibernate.hbm2ddl.auto=update
hibernate.show_sql=true
hibernate.format_sql=false
hibernate.query.substitutions=true 1, false 0
hibernate.default_batch_fetch_size=16
hibernate.max_fetch_depth=2
hibernate.bytecode.use_reflection_ optimizer=true
//四大配置參數(shù)
connection.driver_class=oracle.jdbc. OracleDriver
connection.url=jdbc:oracle:thin:@localhost:1521:orcl
connection.username=
connection.password=
//c3p0連接池
c3p0.minPoolSize=5
c3p0.maxPoolSize=30
c3p0.initialPoolSize=10
c3p0.maxIdleTime=60
c3p0.acquireIncrement=5
聚類分析模塊
聚類分析的界面設(shè)計如圖4所示。在頁面的上方是導(dǎo)航欄,對應(yīng)于“匹配文本記錄”、“聚類分析”頁面和“情感分析”頁面,這三個頁面的用戶角色都是普通用戶。當(dāng)點擊文字圖標(biāo)時,三個按鈕之間可以相互跳轉(zhuǎn),下劃線代表了當(dāng)前頁面。
在導(dǎo)航欄的下方,有五個按鈕圖標(biāo),對應(yīng)于五個不用的時間間隔,分別是“最近1小時”、“最近2小時”、“最近3小時”、“當(dāng)天”和“兩天內(nèi)”,點擊任意一個按鈕圖標(biāo),對相應(yīng)時間間隔內(nèi)的投訴文本記錄進(jìn)行分析。
在五個按鈕圖標(biāo)的下方,分別是投訴細(xì)項聚類分析結(jié)果和投訴原因短語聚類分析結(jié)果兩大部分。每個部分分為左邊云標(biāo)簽和右邊投訴文本記錄兩大塊。云標(biāo)簽顯示的是聚類分析后的投訴細(xì)項或者投訴原因短語,而右邊顯示的是投訴文本記錄。在點擊云標(biāo)簽上的短語后,右邊需要顯示相應(yīng)的投訴文本記錄。
情感分析模塊
情感分析的界面設(shè)計如圖5所示。在頁面的上方是導(dǎo)航欄,如“聚類分析”頁面的導(dǎo)航欄一樣,實現(xiàn)三個頁面之間的跳轉(zhuǎn)。
圖4 聚類分析界面
圖5 情感分析界面
圖6 匹配文本記錄界面
在導(dǎo)航欄的下方,頁面從上往下4大部分。首先是情感強(qiáng)度的顯示,左邊是餅狀圖,形象地顯示三種情感程度的比例,右邊顯示的是情感程度比例最大的情感程度。然后是三個情感程度按鈕,分別是“輕度”、“中度”和“重度”。之后是一個<select>html標(biāo)簽,用于顯示投訴文本記錄。在點擊情感程度圖標(biāo)按鈕時,下方將顯示投訴文本記錄。最后的話是情感詞顯示框。在點擊投訴文本記錄時,情感詞顯示框內(nèi)將顯示該文本記錄的情感詞信息。
圖7 業(yè)務(wù)關(guān)鍵詞庫管理界面
圖8 情感詞庫管理界面
匹配文本記錄模塊
匹配文本記錄的界面設(shè)計如圖6所示。在頁面的上方是導(dǎo)航欄,如“聚類分析”頁面的導(dǎo)航欄一樣。
在導(dǎo)航欄的下方,頁面分成左邊和右邊兩大部分。左邊部分是為了搜索出關(guān)鍵詞使用,包括搜索輸入框、搜索按鈕圖標(biāo)、關(guān)鍵詞顯示列表和刪除關(guān)鍵詞按鈕圖標(biāo)。模糊搜索中支持模糊匹配,也支持多個關(guān)鍵詞搜索,中間用空格區(qū)分。關(guān)鍵詞顯示列表<select>標(biāo)簽是在點擊“搜索”按鈕之后返回的關(guān)鍵詞列表顯示。刪除待匹配詞是刪除此時要匹配的關(guān)鍵詞,不是數(shù)據(jù)庫中的關(guān)鍵詞。
右邊主要是“匹配文件”按鈕、“導(dǎo)出文本記錄”按鈕和一個文本提示信息的顯示區(qū)域。在點擊“匹配文件”按鈕后,若成功匹配到文件,則“導(dǎo)出文本記錄”按鈕切換圖片,變成可以點擊;點擊“導(dǎo)出文本記錄”按鈕圖標(biāo)后,將匹配好的投訴文本記錄存儲在一個文件中。
業(yè)務(wù)關(guān)鍵詞庫管理模塊
庫管理的界面設(shè)計如圖7所示。在頁面的上方是導(dǎo)航欄,對應(yīng)于“關(guān)鍵詞庫管理”和“情感詞詞庫管理”頁面,當(dāng)點擊按鈕圖標(biāo)時,如點擊“情感詞庫管理”管理,系統(tǒng)會跳轉(zhuǎn)到情感詞庫管理頁面。圖標(biāo)的下劃線代表了當(dāng)前顯示頁面。
在頁面的左側(cè),是一個下拉列表標(biāo)簽<select>標(biāo)簽,是為了顯示關(guān)鍵詞列表使用。在頁面的右側(cè)上方,是一個文本顯示區(qū)域,顯示查詢到的關(guān)鍵詞。文本顯示區(qū)域下方對應(yīng)該情感詞庫的三個功能,查詢關(guān)鍵詞、新增關(guān)鍵詞和刪除關(guān)鍵詞。三個按鈕在點擊、懸浮和移除時會切換圖標(biāo),給用戶好的使用體驗。最后提示信息顯示區(qū)域。如“成功刪除關(guān)鍵詞”、“成功添加關(guān)鍵詞”等等。
情感詞庫管理模塊
情感詞庫管理的界面設(shè)計如圖8所示。在頁面的上方是導(dǎo)航欄,和關(guān)鍵詞庫管理的頁面的導(dǎo)航欄是相同的,因為這兩個功能模塊的用戶角色是系統(tǒng)用戶,詳見需求分析。
在頁面的左側(cè),是一個下拉列表標(biāo)簽<select>標(biāo)簽,是為了顯示情感詞列表使用。在頁面的右側(cè)上方,是一個文本顯示區(qū)域,顯示查詢到的情感詞。文本顯示區(qū)域下方對應(yīng)該情感詞庫的三個功能,查詢情感詞、新增情感詞和刪除情感詞。頁面中所有的按鈕按鈕圖標(biāo)在點擊、懸浮和移除時會切換圖標(biāo),給用戶好的使用體驗。其中新增情感詞是因為有情感詞的內(nèi)容和情感詞的程度,所以在點擊“添加”情感詞是需要點擊“輕度”、“中度”和“重度”按鈕來選擇情感詞的強(qiáng)度。最后提示信息顯示區(qū)域。如“成功刪除情感詞”、“成功添加情感詞”等等。
本文設(shè)計實現(xiàn)了一個基于廣東移動投訴文本記錄的數(shù)據(jù)挖掘系統(tǒng)。系統(tǒng)對廣東移動大量的投訴文本記錄進(jìn)行投訴細(xì)項和投訴原因短語聚類分析和情感分析,挖掘出有用的信息。實驗表明,將文本挖掘技術(shù)應(yīng)用于廣東移動投訴文本記錄所開發(fā)出來的系統(tǒng),能夠獲取客服過程中客戶及時的反饋等有效信息,幫助企業(yè)來提高他們業(yè)務(wù)營銷的效率,推出大眾期望的新套餐或改進(jìn)原有的套餐,更有針對性地解決客戶的需求。
10.3969/j.issn.1001-8972.2015.21.014