程會(huì)林 曾偉 楊琳琳 岑蕭萍 蔣琳琳
摘 要:為了簡(jiǎn)化網(wǎng)絡(luò)心理咨詢分診流程和降低咨詢助理的勞動(dòng)強(qiáng)度,提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)心理咨詢問(wèn)題智能多分類模型。采用Word2vec對(duì)來(lái)訪者的自述情況進(jìn)行文本特征提取,設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)分類器,實(shí)現(xiàn)對(duì)來(lái)訪者咨詢問(wèn)題的智能分類。與傳統(tǒng)機(jī)器學(xué)習(xí)分類方法相比,所提方法的準(zhǔn)確率提升約20%。本研究為網(wǎng)絡(luò)心理咨詢問(wèn)題的智能分診提供了一種新方法。
關(guān)鍵詞:網(wǎng)絡(luò)心理咨詢;自述分類,Word2vec;卷積神經(jīng)網(wǎng)絡(luò)
1 引言
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)心理咨詢逐漸發(fā)展起來(lái),僅“525心理網(wǎng)”便已解決近857萬(wàn)個(gè)心理問(wèn)題。心理咨詢網(wǎng)站一般配備有一名咨詢助理,根據(jù)來(lái)訪者的自述情況進(jìn)行分類,匹配到合適的心理咨詢師。然而,這種分診的準(zhǔn)確性與效率依賴于咨詢助理的經(jīng)驗(yàn)知識(shí)。為減輕咨詢助理的負(fù)擔(dān),本文提出一種對(duì)咨詢問(wèn)題進(jìn)行智能分診的方法。傳統(tǒng)的分類方法需要進(jìn)行復(fù)雜的處理來(lái)進(jìn)行特征提取,再根據(jù)提取的特征來(lái)訓(xùn)練分類器。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)結(jié)構(gòu)重組和減少權(quán)值將特征提取和分類功能進(jìn)行融合,這種結(jié)構(gòu)比以往多種算法性能更為高效[7]。因此,本文擬利用文本挖掘技術(shù),設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)多分類模型,對(duì)來(lái)訪者的自述情況進(jìn)行智能分類,簡(jiǎn)化分診流程。
2 實(shí)驗(yàn)步驟與分析
2.1 流程圖
2.2 數(shù)據(jù)預(yù)處理
為獲得數(shù)據(jù),訓(xùn)練分類模型以供使用,本文利用八爪魚采集器從“咨詢中國(guó)網(wǎng)”中爬取“公益心理問(wèn)答模塊”數(shù)據(jù),共得到6個(gè)類別,分別為“婚戀情感”“親子關(guān)系”“人際關(guān)系”“認(rèn)識(shí)自我”“壓力疏導(dǎo)”及“子女成長(zhǎng)”。但每一類數(shù)據(jù)的數(shù)量不同,為使訓(xùn)練時(shí)類別均衡,本文將“親子關(guān)系”“人際關(guān)系”及“子女成長(zhǎng)”合并為“關(guān)系成長(zhǎng)”類。最終共有4個(gè)類別,其中婚戀情感自述情況條數(shù)310條,關(guān)系成長(zhǎng)自述情況條數(shù)284條,認(rèn)識(shí)自我自述情況條數(shù)310條,壓力疏導(dǎo)自述情況條數(shù)310條。
利用結(jié)巴分詞(jieba)將爬取的數(shù)據(jù)分詞,因文本并不長(zhǎng),所以未加載停用詞,例如“我覺(jué)得我活得很累”被分為了“我覺(jué)得我活得很累”。
將分詞后結(jié)果轉(zhuǎn)為txt文本,代入Word2vec模型[1],得到256維的詞向量,即一個(gè)中文詞(t)由256個(gè)數(shù)字表示,表示為R(t)。為訓(xùn)練出更好的詞匯模型,本文使用約43萬(wàn)條,涉及影視、小說(shuō)、心理、司法內(nèi)容的文本進(jìn)行訓(xùn)練,得到新的Word2vec結(jié)果。
R(t)=Word2vec(t)
接著利用訓(xùn)練得到的Word2vec模型,計(jì)算每條自述情況的向量R(dj),即句子dj中n個(gè)詞匯的Word2vec向量的均值,表示為:
2.3 模型構(gòu)建
以256維的文本向量作為特征,分類標(biāo)簽作為label,分別使用決策樹(shù)[2]、隨機(jī)森林[3]、SVM[4]及卷積神經(jīng)網(wǎng)絡(luò)[5]進(jìn)行建模。
將一條文本所得的256維向量看作16×16的二維矩陣。將32個(gè)5×5的小型矩陣,作為第一層的卷積核,對(duì)于大矩陣中的每個(gè)值,計(jì)算其周圍的值與卷積核對(duì)應(yīng)位置的乘積,將結(jié)果相加最終得到的終值則為新矩陣該位置的值。
一層卷積的操作可概括為:
(1)文本向量通過(guò)多個(gè)不同的卷積核的濾波,并加偏置,提取出局部特征,每一個(gè)卷積核映射出一個(gè)新的2D文本。
(2)將前面卷積核的濾波輸出結(jié)果,進(jìn)行非線性的激活函數(shù)ReLU處理。
(3)對(duì)激活函數(shù)的結(jié)果進(jìn)行最大池化,保留最顯著的特征,實(shí)現(xiàn)數(shù)據(jù)壓縮,并提升模型的畸變?nèi)萑棠芰Α?/p>
在第一層卷積層中,共有32個(gè)5×5的卷積核,第二層為64個(gè)5×5的卷積核,利用relu作為激活函數(shù),全連接得到自述情況的分類。并利用AdamOptimizer不斷優(yōu)化得到結(jié)果,經(jīng)過(guò)20000次迭代后,得到準(zhǔn)確率最高的的模型。
2.4 實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,相較于傳統(tǒng)分類方法,卷積神經(jīng)網(wǎng)絡(luò)在短文本的分類中更具優(yōu)勢(shì)。準(zhǔn)確率得到大大提升。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積核的權(quán)值共享,減少了參數(shù)個(gè)數(shù),亦提取了顯要特征,通過(guò)梯度下降算法的參數(shù)更迭,使得模型的準(zhǔn)確率得以大大提升。
2.5 實(shí)驗(yàn)進(jìn)階
在得到關(guān)于自述情況的分類后,可得知其咨詢的問(wèn)題所屬大類為何,即可推薦擅長(zhǎng)此大類的心理咨詢師。而實(shí)際情況中,推薦時(shí)若能夠更加細(xì)致,則心理咨詢師的推薦將能夠更加個(gè)性化。根據(jù)自述情況中來(lái)訪者的期望,自動(dòng)篩選出重要信息,例如希望心理咨詢師性別為男,年齡為30歲以上等等。
本文簡(jiǎn)單化處理,對(duì)于心理咨詢師的要求,統(tǒng)一在文本的最后,表述為:“心理咨詢師要……”,便可使用正則表達(dá)式,獲取其對(duì)咨詢師的要求,接著由“性別……”“……歲”等模式的正則,繼續(xù)細(xì)化出要求得到的結(jié)果,由機(jī)器直接獲取信息,按照心理咨詢師的標(biāo)簽,進(jìn)行推薦。
3 結(jié)語(yǔ)
與傳統(tǒng)方法對(duì)比,卷積神經(jīng)網(wǎng)絡(luò)在短文本分類上訓(xùn)練效果更好,但準(zhǔn)確率仍有提升的空間。若能考慮到關(guān)鍵詞在分類過(guò)程中的顯著作用,相信能夠得到更好的結(jié)果。例如通過(guò)“老公”,“男朋友”兩詞,即可判定此文本屬于婚戀情感類。但可以肯定的是,卷積神經(jīng)網(wǎng)絡(luò)在心理咨詢自述情況上的分類是有應(yīng)用價(jià)值的。當(dāng)配合以正則表達(dá)式,便可更個(gè)性化推薦心理咨詢師。
參考文獻(xiàn)
[1]王奕森,夏樹(shù)濤.集成學(xué)習(xí)之隨機(jī)森林算法綜述[J].信息通信技術(shù),2018,12(01):49-55.
[2]郭東亮,劉小明,鄭秋生.基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J].計(jì)算機(jī)與現(xiàn)代化,2017(04):78-81.
[3]唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示[J].計(jì)算機(jī)科學(xué),2016,43(06):214-217+269.
[4]張棪,曹健.面向大數(shù)據(jù)分析的決策樹(shù)算法[J].計(jì)算機(jī)科學(xué),2016,43(S1):374-379+383.
[5]崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術(shù)研究[J].計(jì)算機(jī)仿真,2013,30(02):299-302+368.
[6]許闖.網(wǎng)絡(luò)心理咨詢五步法[J].政工導(dǎo)刊,2017(07):40-41.
[7]夏從零,錢濤,姬東鴻.基于事件卷積特征的新聞文本分類[J].計(jì)算機(jī)應(yīng)用研究,2017,34(04):991-994.