黎偉健 胡斌 李威 唐健玲 肖西西
關(guān)鍵詞 非結(jié)構(gòu)化文本;情感分析;分類分析
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2021)08-0008-03
根據(jù)IDC報(bào)告,當(dāng)下數(shù)據(jù)以每年50%左右的速度快速增長(zhǎng),非結(jié)構(gòu)化文本數(shù)據(jù)占比很高。因此,非結(jié)構(gòu)化文本數(shù)據(jù)的挖掘分析顯得尤為迫切和重要。
文本挖掘(Text Mining)又稱為文本數(shù)據(jù)挖掘(Text Data Mining)或文本知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Texts,KDT),是指從大量非結(jié)構(gòu)化文本數(shù)據(jù)中抽取未知的、可理解的、最終可用的知識(shí),并運(yùn)用這些知識(shí)更好地組織信息,進(jìn)而獲取用戶感興趣或有用模式的過(guò)程[1-2]。文本挖掘流程大致可以描述為基于網(wǎng)頁(yè)、文檔、字符等非結(jié)構(gòu)化文本數(shù)據(jù),利用自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)非結(jié)構(gòu)化文本數(shù)據(jù)結(jié)構(gòu)化,再結(jié)合機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、可視化分析等技術(shù)進(jìn)行挖掘分析,進(jìn)而實(shí)現(xiàn)搜索引擎、輿情分析、新聞分類等。
目前,文本挖掘作為信息時(shí)代的重要研究領(lǐng)域,逐漸成為國(guó)內(nèi)外學(xué)者的重點(diǎn)研究方向。本文將基于大數(shù)據(jù)視角,通過(guò)對(duì)文本挖掘分析方法進(jìn)行梳理,總結(jié)海量文本分析流程,以期能有助于對(duì)海量文本開展情感分析和問(wèn)題分類。
采用“樸素貝葉斯算法”(Naive Bayes Classifier)和機(jī)器學(xué)習(xí)[3],對(duì)客戶反饋的意見進(jìn)行情感正負(fù)向判斷,將客戶反饋標(biāo)記為1(正向)、0(中性)、-1(負(fù)向)3類。通過(guò)人工標(biāo)注分類規(guī)則、機(jī)器運(yùn)行相結(jié)合的方法對(duì)客戶意見進(jìn)行分類,發(fā)現(xiàn)用戶反饋意見的主要內(nèi)容,分析完成后會(huì)通過(guò)不斷的人工校驗(yàn)優(yōu)化分類規(guī)則,提高分析準(zhǔn)確性。
2.1 客戶情感傾向分析
在行業(yè)已有的情感分析模型[4]基礎(chǔ)上進(jìn)行優(yōu)化,應(yīng)用于客戶反饋意見的情感傾向分析,具體分析過(guò)程(圖1)如下。
2.1.1 確定模型
使用機(jī)器學(xué)習(xí)方法對(duì)文本進(jìn)行處理需要將文本編碼為計(jì)算機(jī)容易處理的形式,本次采用One-Hot編碼對(duì)文本進(jìn)行處理。One-Hot編碼,又稱一位有效編碼,其方法是使用N位狀態(tài)寄存器對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有它獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效。在本次分析中,寄存器的每一個(gè)狀態(tài)即是一個(gè)詞匯,如果文本中存在相應(yīng)的詞匯則為1,不存在則表記為0,最終將文本轉(zhuǎn)換為由0和1組成的長(zhǎng)度為N的數(shù)組,稱為N維特征向量。其維度N為對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分詞、去重并去除停用詞后的詞匯數(shù)量。
在分類算法的選擇上選用樸素貝葉斯分類器,在工業(yè)上廣泛應(yīng)用于垃圾郵件的分類。其基于貝葉斯定理,依據(jù)先驗(yàn)概率和似然函數(shù)對(duì)后驗(yàn)概率進(jìn)行估計(jì)。在貝葉斯分類器中,訓(xùn)練的過(guò)程即是通過(guò)統(tǒng)計(jì)獲取先驗(yàn)概率和似然函數(shù)取值的過(guò)程。在訓(xùn)練完成后,對(duì)特定文本進(jìn)行情感判斷即是計(jì)算在當(dāng)前條件下特定情感的后驗(yàn)概率,并選取后驗(yàn)概率最大的情感類別作為分類器的輸出。
2.1.2 訓(xùn)練模型
機(jī)器學(xué)習(xí)模型的表現(xiàn)受訓(xùn)練過(guò)程的影響較大。為了讓訓(xùn)練集保持對(duì)全量數(shù)據(jù)的代表性,盡量保證訓(xùn)練集的分布與全量數(shù)據(jù)一致,在打亂原始數(shù)據(jù)后抽取了1萬(wàn)條數(shù)據(jù)進(jìn)行人工標(biāo)注。在權(quán)衡人力消耗等因素后,引入約2萬(wàn)條內(nèi)容較為相似的開源數(shù)據(jù)集,總計(jì)約3萬(wàn)條數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。
2.1.3 優(yōu)化模型
使用訓(xùn)練好的分類器對(duì)小批量數(shù)據(jù)進(jìn)行分類,并根據(jù)分類結(jié)果對(duì)分類錯(cuò)誤的樣本進(jìn)行失效分析。有針對(duì)性地對(duì)分類器特征提取方面進(jìn)行優(yōu)化,提升模型的準(zhǔn)確性。在實(shí)踐中主要有以下情況。
1)由于訓(xùn)練集中未包含類似表述的文本,導(dǎo)致未能提取到任何特征,判斷失敗。這種情況需要添加一定數(shù)量的相似數(shù)據(jù)到訓(xùn)練集中。
2)文本特征被停用詞表過(guò)濾導(dǎo)致未能提取到特征,或者無(wú)意義的詞匯特征過(guò)多干擾判斷。這種情況需要對(duì)停用詞表進(jìn)行修改,盡量避免無(wú)意義詞匯進(jìn)入特征和有意義詞匯被過(guò)濾的情況。
3)文本被不恰當(dāng)?shù)姆衷~導(dǎo)致判斷錯(cuò)誤。這種情況需要精細(xì)調(diào)整分詞工具的用戶詞典,由于中文文本經(jīng)常存在可被多種分詞方式劃分的情況,這時(shí)需要調(diào)整詞典詞頻確保劃分貼合實(shí)際含義。另外將否定詞與其后緊接的詞匯連起來(lái)劃分為一個(gè)單獨(dú)詞匯也可提高模型準(zhǔn)確性。
2.1.4 情感分析
應(yīng)用優(yōu)化后的模型對(duì)全量客戶反饋的回答進(jìn)行情感分類。
2.1.5 人工校驗(yàn)
深入分析行業(yè)前沿的情感分類AI模型,開展輔助驗(yàn)證(如訊飛等)。通過(guò)優(yōu)化測(cè)試模型的算法源碼,調(diào)整模型參數(shù)等手段,將情感分類模型的準(zhǔn)確性的從82%提升至89.22%。
2.1.6 數(shù)據(jù)分析
通過(guò)分析客戶反饋回答的情感傾向占比,及其與客戶對(duì)產(chǎn)品的整體滿意度評(píng)價(jià)等其他指標(biāo)間的關(guān)系,可多維度客觀地反映客戶對(duì)產(chǎn)品的真實(shí)評(píng)價(jià),此外可預(yù)測(cè)不同滿意度客戶的反饋回答的情感傾向。鑒于通??蛻粽{(diào)研均以滿意度、NPS等量化問(wèn)卷調(diào)研客戶對(duì)產(chǎn)品的滿意度,答題成本相對(duì)較低,客戶可能未認(rèn)真回答,或未按照內(nèi)心真實(shí)想法回答,而開放性問(wèn)題答題成本相對(duì)較高,其反饋的意見通常為客戶的真實(shí)評(píng)價(jià),故對(duì)開放性問(wèn)題的回答進(jìn)行分析可更真實(shí)的獲取客戶的評(píng)價(jià)。
2.2 客戶意見分類分析
通過(guò)人工標(biāo)注分類規(guī)則、機(jī)器運(yùn)行相結(jié)合的方法,對(duì)客戶反饋的回答進(jìn)行問(wèn)題分類,聚焦客戶反饋的問(wèn)題類型,具體分析過(guò)程(圖2)如下。
2.2.1 數(shù)據(jù)清洗
鑒于客戶反饋意見中存在部分無(wú)意義的回答,故采用人工分析方式對(duì)客戶反饋的回答進(jìn)行清洗。正向評(píng)價(jià)的客戶通常表達(dá)對(duì)產(chǎn)品的好評(píng)意見,回答可能會(huì)相對(duì)簡(jiǎn)單,存在3個(gè)字符以下的回答,如“好、滿意、很滿意”等,故正向評(píng)價(jià)的客戶反饋回答的數(shù)據(jù)清洗標(biāo)準(zhǔn)為:刪除全部為標(biāo)點(diǎn)符號(hào)的回答;負(fù)向評(píng)價(jià)的客戶更傾向于表達(dá)對(duì)產(chǎn)品的差評(píng)、使用產(chǎn)品遇到的問(wèn)題、對(duì)產(chǎn)品的優(yōu)化建議等,若字符太少,則無(wú)法有效表達(dá),故負(fù)向評(píng)價(jià)的客戶反饋回答的數(shù)據(jù)清洗標(biāo)準(zhǔn)為:刪除全部為標(biāo)點(diǎn)符號(hào)、少于3個(gè)字符的回答。
2.2.2 意見分類
通過(guò)機(jī)器分詞與人工抽樣查看相結(jié)合的方式對(duì)客戶反饋的回答進(jìn)行。通過(guò)機(jī)器分詞,確定正負(fù)向評(píng)價(jià)的有效數(shù)據(jù)中客戶提到的高頻詞匯,及其出現(xiàn)的頻率,同時(shí)隨機(jī)抽取總樣本的5%逐個(gè)人工查看客戶的回答,對(duì)客戶的反饋進(jìn)行分析歸類。通??蓪⒖蛻舻姆答伔譃楹迷u(píng)類、差評(píng)類、建議類3大類,好評(píng)類可具體分析客戶反饋的回答中好評(píng)集中在哪些方面,相關(guān)的關(guān)鍵詞是什么;差評(píng)類和建議類客戶的反饋內(nèi)容相對(duì)翔實(shí),可分析客戶反饋的回答中差評(píng)、建議集中在哪些方面,具體表現(xiàn)及相關(guān)關(guān)鍵詞是什么。
2.2.3 制定分類規(guī)則
通過(guò)機(jī)器分詞篩選出的高頻關(guān)鍵詞,以及人工查看確認(rèn)的相關(guān)關(guān)鍵詞,對(duì)比全量有效的客戶反饋回答,確定客戶的回答的具體類型,提取歸納客戶意見類型的關(guān)鍵詞及其邏輯關(guān)系,通過(guò)“and”“or”“not”等邏輯關(guān)系詞制定相應(yīng)的分類規(guī)則。同時(shí),在制定規(guī)則的過(guò)程中,通過(guò)查看全量有效數(shù)據(jù),不斷增加新的觀點(diǎn)進(jìn)行迭代優(yōu)化。制定分類規(guī)則時(shí),需明確每個(gè)意見類型的定義,挖掘該意見類型的核心特質(zhì),并根據(jù)核心特質(zhì)確定分類規(guī)則。如制定客戶對(duì)客服服務(wù)態(tài)度的規(guī)則時(shí),首先需確定客服相關(guān)的關(guān)鍵詞,如“人工”“話務(wù)員”等,然后確定服務(wù)態(tài)度相關(guān)的關(guān)鍵詞,如“態(tài)度”“語(yǔ)氣”等,二者通常需同時(shí)出現(xiàn)才可進(jìn)行篩選,可以“and”進(jìn)行連接,此外撰寫關(guān)鍵詞時(shí),除了提取客戶原話中的關(guān)鍵詞,也可通過(guò)日常表達(dá)選擇關(guān)鍵詞的近似詞,如近義詞等方法擴(kuò)大關(guān)鍵詞的詞庫(kù)。此外需注意,客戶填寫答案時(shí)易出現(xiàn)錯(cuò)別字,需將高頻的錯(cuò)別字也放入規(guī)則,如“太度”等。
2.2.4 開發(fā)腳本
使用Python編寫分類腳本與規(guī)則檢查腳本。腳本讀取編寫好的分類規(guī)則進(jìn)行詞法分析,將規(guī)則由字符序列轉(zhuǎn)換為標(biāo)記(Token)序列,包含關(guān)鍵詞,運(yùn)算符(and、or與not)和界符(用于改變優(yōu)先級(jí)的括號(hào))三種標(biāo)記。在分類時(shí),先提取出標(biāo)記序列中所有的關(guān)鍵詞,逐一判斷待分類文本中是否存在關(guān)鍵詞,如存在則替換為布爾值“真”,否則替換為布爾值“假”。經(jīng)過(guò)上述過(guò)程,此時(shí)的規(guī)則已經(jīng)轉(zhuǎn)換為一條邏輯表達(dá)式,表達(dá)式的運(yùn)算結(jié)果即為待測(cè)文本是否符合該條規(guī)則。腳本開發(fā)完畢后,對(duì)全部開放性客戶的回答進(jìn)行問(wèn)題分類,提升效率。
2.2.5 人工校驗(yàn)
通過(guò)不斷的人工校驗(yàn)優(yōu)化分類規(guī)則,主要是通過(guò)抽取部分的分類結(jié)果,人工對(duì)歸類結(jié)果的準(zhǔn)確性進(jìn)行統(tǒng)計(jì),同時(shí)查看歸類錯(cuò)誤、未納入歸類的客戶原話,不斷迭代優(yōu)化分類規(guī)則,將歸類準(zhǔn)確性從最初的50%左右提升至76.51%。
2.2.6 數(shù)據(jù)分析
通過(guò)分析客戶反饋的回答中的問(wèn)題、建議等具體類型的占比,確定客戶關(guān)注重點(diǎn),若客戶反饋了具體問(wèn)題或建議,則根據(jù)意見占比確定優(yōu)先級(jí);若客戶未反饋具體問(wèn)題或建議,則可輔助其他方式,如競(jìng)品對(duì)標(biāo)等挖掘客戶評(píng)價(jià)的真實(shí)原因,有效利用客戶的反饋挖掘有意義的信息。
鑒于客戶回答開放性問(wèn)題時(shí),通常是有具體問(wèn)題才會(huì)較有動(dòng)力回答,故客戶開放性問(wèn)題回答中,主要以負(fù)向評(píng)價(jià)為主,本次分析27萬(wàn)的客戶反饋中,僅14.62%為正向評(píng)價(jià),且正向評(píng)價(jià)主要為無(wú)具體指向的好評(píng),以人工分析為主,故不分析正向評(píng)價(jià)的分類分析的合理性;負(fù)向評(píng)價(jià)高達(dá)83%,分類分析主要應(yīng)用于負(fù)向評(píng)價(jià)分析,故以負(fù)向數(shù)據(jù)的結(jié)果進(jìn)行方法合理性分析。
3.1 情感分析方法準(zhǔn)確性分析
隨機(jī)抽取1 000條情感分析的數(shù)據(jù)結(jié)果,人工判斷其情感傾向,與機(jī)器判斷結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)客戶的情感分類準(zhǔn)確性從最初的82.00%提升至89.22%。
3.2 分類分析方法合理性和準(zhǔn)確性分析
對(duì)所有負(fù)向評(píng)價(jià)的有效數(shù)據(jù)進(jìn)行問(wèn)題歸類后,統(tǒng)計(jì)納入歸類分析的數(shù)據(jù)占比,分析問(wèn)題歸類的合理性,有效數(shù)據(jù)量為206 316,納入問(wèn)題歸類的數(shù)據(jù)量為162 082,有效率為78.56%。針對(duì)有效數(shù)據(jù)占比低的問(wèn)題進(jìn)行抽樣統(tǒng)計(jì),發(fā)現(xiàn)未被納入歸類的問(wèn)題中,確實(shí)無(wú)法被歸類的占比為93%,主要原因?yàn)榉答亙?nèi)容無(wú)意義、非針對(duì)開放性問(wèn)題對(duì)象的回答等。
對(duì)所有負(fù)向評(píng)價(jià)的有效數(shù)據(jù)進(jìn)行問(wèn)題歸類后,統(tǒng)計(jì)納入歸類分析的問(wèn)題的準(zhǔn)確性,分析問(wèn)題歸類的準(zhǔn)確性,共抽取2 065個(gè)樣本,其中準(zhǔn)確歸類的數(shù)據(jù)量為1 580,準(zhǔn)確率為76.51%。
以上梳理和總結(jié)的海量文本分析流程,可以應(yīng)用于知識(shí)管理、客戶服務(wù)、社交媒體數(shù)據(jù)分析等各類場(chǎng)景。
4.1 知識(shí)管理
管理大量文本文檔時(shí),一個(gè)很大的問(wèn)題就是無(wú)法快速地找到重要的信息。例如,對(duì)于醫(yī)療行業(yè)來(lái)說(shuō),研發(fā)一個(gè)新的產(chǎn)品可能同時(shí)需要近十年的基因組學(xué)和分子技術(shù)研究報(bào)告。此時(shí),基于文本挖掘的知識(shí)管理軟件為此種“信息過(guò)?!鼻闆r提供了有效的解決方案。
4.2 客戶服務(wù)
文本挖掘和自然語(yǔ)言處理是在客戶服務(wù)領(lǐng)域常被使用的技術(shù)。如今,利用調(diào)查、故障單、用戶反饋等有效信息,文本挖掘技術(shù)可以用來(lái)改善客戶體驗(yàn),為客戶提供快速高效的解決方案,以期減少客戶對(duì)幫助中心的依賴程度。
4.3 社交媒體數(shù)據(jù)分析
如今,社交媒體是大多數(shù)非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)源地,企業(yè)可以使用這些非結(jié)構(gòu)化數(shù)據(jù)去分析和預(yù)測(cè)客戶需求并了解客戶對(duì)其品牌的看法。通過(guò)分析大量非結(jié)構(gòu)化數(shù)據(jù),文本分析能夠提取意見,了解情感和品牌之間的關(guān)系,以幫助企業(yè)發(fā)展。
目前,按照分類分析流程開展的海量非結(jié)構(gòu)化文本問(wèn)題歸類過(guò)程中,發(fā)現(xiàn)歸類準(zhǔn)確性不高的原因主要在于:一是樣本量較大,客戶反饋的開放性問(wèn)題相對(duì)較為分散;二是非結(jié)構(gòu)性文本、口語(yǔ)化表述較多,關(guān)鍵詞不明顯,導(dǎo)致分類規(guī)則無(wú)法包含全部用戶的反饋;三是項(xiàng)目開展時(shí)間較短,模型及算法仍需完善,后續(xù)將通過(guò)經(jīng)驗(yàn)沉淀繼續(xù)優(yōu)化分類規(guī)則。
根據(jù)每年的發(fā)文量來(lái)看,文本挖掘在近幾年得到了快速發(fā)展[5]。隨著文本挖掘研究的深入,其應(yīng)用領(lǐng)域還將不斷拓展,同時(shí),隨著大數(shù)據(jù)、云計(jì)算、人工智能等智能化的發(fā)展,未來(lái)將文本挖掘應(yīng)用于大數(shù)據(jù)處理將面臨更大的挑戰(zhàn)。如何將文本挖掘與大數(shù)據(jù)、人工智能等更好地結(jié)合起來(lái),是研究者所需面對(duì)的問(wèn)題。
參考文獻(xiàn)
[1]徐德金,張倫.文本挖掘用于社會(huì)科學(xué)研究:現(xiàn)狀、問(wèn)題與展望[J].科學(xué)與社會(huì),2015,5(3):75-89.
[2]李尚昊,朝樂門.文本挖掘在中文信息分析中的應(yīng)用研究述評(píng)[J].情報(bào)科學(xué),2016,34(8):153-159.
[3]程顯毅,朱倩著.文本挖掘原理[M].北京:科學(xué)出版社,2010.
[4]趙剛,徐贊.基于機(jī)器學(xué)習(xí)的商品評(píng)論情感分析模型研究[J].信息安全研究,2017,3(2):166-170.
[5]譚章祿,彭勝男,王兆剛.基于聚類分析的國(guó)內(nèi)文本挖掘熱點(diǎn)與趨勢(shì)研究[J].情報(bào)學(xué)報(bào),2019,38(6):578-585.