蔡云戈,范永勝,馮 驥
(重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 401331)
截至2021年12月,第49次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》指出以QQ為代表的即時(shí)通信應(yīng)用類(lèi)用戶(hù)規(guī)模達(dá)10.07億,在整體網(wǎng)民中占比97.5%[1]。同年六月在STATISTA發(fā)布的《China:reasons for using social networks on mobile phones》調(diào)查報(bào)告中指出,休閑聊天是中國(guó)網(wǎng)民使用社交媒體的主要原因[2]。對(duì)居民社區(qū)而言,生活社區(qū)在線(xiàn)交流群(如QQ群和微信群等在線(xiàn)交流工具)是居民快速便捷向物業(yè)或相關(guān)部門(mén)反映民生訴求、解決相應(yīng)問(wèn)題的關(guān)鍵場(chǎng)所。但存在人員多、發(fā)言門(mén)檻低及素質(zhì)參差不齊等因素造成消息密度大與信息內(nèi)容雜等問(wèn)題,使得民生問(wèn)題得不到有效關(guān)注,熱點(diǎn)問(wèn)題得不到及時(shí)解決,從而導(dǎo)致居民負(fù)向情緒加劇,鄰里沖突、維權(quán)受阻與矛盾激化等現(xiàn)象[3]時(shí)有產(chǎn)生。因此,從紛繁復(fù)雜的聊天數(shù)據(jù)中快速獲取并分析人們對(duì)熱點(diǎn)問(wèn)題的情感傾向成為居民、政府部門(mén)、學(xué)者等各方關(guān)注的焦點(diǎn)?;诖?在收集了大量的社區(qū)聊天信息的前提下,進(jìn)行了一次有意義的嘗試研究,該研究主要貢獻(xiàn)如下:
(1)針對(duì)目前對(duì)于民生領(lǐng)域居民社區(qū)群聊關(guān)注較少的問(wèn)題,該研究通過(guò)追蹤搜集大量居民社區(qū)在線(xiàn)聊天信息,構(gòu)建生活社區(qū)群聊數(shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行了情感與熱點(diǎn)話(huà)題的綜合分析;
(2)針對(duì)在中文社區(qū)群聊領(lǐng)域,因涉及隱私暫無(wú)公開(kāi)標(biāo)注的數(shù)據(jù)集可用于情感分類(lèi)模型的有效訓(xùn)練的問(wèn)題,構(gòu)建了社區(qū)領(lǐng)域情感詞典,并結(jié)合基于注意力機(jī)制[4]的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Attention-based Bidirectional Long-Short Term Memory Network,Att_BiLSTM)[5]情感分類(lèi)模型實(shí)現(xiàn)了對(duì)社區(qū)群聊文本的半監(jiān)督情感傾向計(jì)算;
(3)結(jié)合生活社區(qū)熱點(diǎn)話(huà)題驗(yàn)證了話(huà)題與情感間的相關(guān)性,并舉例展示了兩類(lèi)社區(qū)居民關(guān)注的話(huà)題、發(fā)言數(shù)量和長(zhǎng)度等特征,發(fā)現(xiàn)各社區(qū)集中討論的時(shí)間點(diǎn)與其從事職業(yè)具有密切關(guān)系。相關(guān)分析結(jié)果可為有關(guān)管理部門(mén)及人員提供切實(shí)有效的參考依據(jù)。
針對(duì)這樣的在線(xiàn)聊天文本,目前已有研究者們從話(huà)題與情感兩方面開(kāi)展了相應(yīng)研究。
在國(guó)外,Pellert等人[6]使用奧地利不同數(shù)據(jù)源在Twitter及學(xué)生聊天群等多平臺(tái)中搜集新冠疫情期間相關(guān)內(nèi)容進(jìn)行情感分析,通過(guò)可視化界面展示了疫情期間各類(lèi)情感變化與內(nèi)容分布;Ng等人[7]從參與度、情緒與話(huà)題討論等五個(gè)維度出發(fā),采用MPQA詞典檢測(cè)群內(nèi)人員對(duì)輿論和權(quán)威信息的態(tài)度,分析新加坡某群聊中人們?cè)谛鹿谝咔槠陂g對(duì)錯(cuò)誤消息傳播的反應(yīng);Saha等人[8]在全球最受歡迎的即時(shí)通信應(yīng)用WhatsApp中,分析了數(shù)千個(gè)討論印度政治的群組有關(guān)恐怖言論的用詞特性、主題分布及傳播特征,對(duì)恐怖信息進(jìn)行了有效的輿情檢測(cè),在一定程度避免了恐怖言論的惡性傳播。
在國(guó)內(nèi),張大勇等人[9]以微信群為例分析了群體互動(dòng)行為特征,結(jié)果表明帶有情緒誘導(dǎo)和相關(guān)利益引導(dǎo)的標(biāo)題可引起更多用戶(hù)的互動(dòng);汪鴻沁泠等人[10]從話(huà)題交流強(qiáng)度、成員活躍度及話(huà)輪密度三個(gè)維度對(duì)群聊文本的話(huà)題進(jìn)行強(qiáng)度計(jì)算與演化分析,得到群聊話(huà)題演化的生命周期規(guī)律及熱點(diǎn)結(jié)構(gòu);吳旭等人[11]綜合話(huà)題序列、群聊內(nèi)容等因素提出了多策略話(huà)題檢測(cè)模型,擴(kuò)大了話(huà)題檢測(cè)所能應(yīng)對(duì)消息類(lèi)型的廣度,提升了輿情分析效率。
國(guó)內(nèi)外學(xué)者對(duì)于社區(qū)群聊展開(kāi)的研究進(jìn)行了廣泛的探索,但對(duì)于民生領(lǐng)域的關(guān)注相對(duì)較少。為此,筆者通過(guò)對(duì)社區(qū)群聊的半監(jiān)督情感傾向計(jì)算,結(jié)合相關(guān)性及可視化分析方法得到社區(qū)居民對(duì)不同話(huà)題的情感傾向及發(fā)言特征,以期提升管理者對(duì)民生訴求的關(guān)注度,輔助相關(guān)人員高效管理社區(qū),提高社區(qū)居住幸福感[12]。
社區(qū)群聊內(nèi)因發(fā)言人群素質(zhì)差異大、口語(yǔ)化嚴(yán)重、話(huà)題跳躍度高等特性,相較于普通文本的數(shù)據(jù)處理流程,需要針對(duì)具體細(xì)節(jié)做出相應(yīng)修改,如新增生活社區(qū)情感詞典等,以提高后續(xù)對(duì)數(shù)據(jù)的處理效率及情感分類(lèi)準(zhǔn)確性。
為此,構(gòu)建了如圖1所示的社區(qū)情感與熱點(diǎn)話(huà)題關(guān)聯(lián)性分析處理技術(shù)流圖,其大致可分為3個(gè)主要過(guò)程。
圖1 社區(qū)情感與熱點(diǎn)話(huà)題關(guān)聯(lián)性分析處理技術(shù)流圖
(1)數(shù)據(jù)獲取與預(yù)處理。
在數(shù)據(jù)獲取階段,通過(guò)即時(shí)通訊軟件的相關(guān)聊天平臺(tái)收集了2020年10月至2022年5月期間幾十個(gè)不同平臺(tái)的生活社區(qū)群聊數(shù)據(jù)共1 038 604條,從中提取聊天成員、聊天時(shí)間和聊天內(nèi)容等信息構(gòu)建生活社區(qū)群聊原始數(shù)據(jù)集。在數(shù)據(jù)預(yù)處理階段,經(jīng)過(guò)表1中的相應(yīng)方式對(duì)異常數(shù)據(jù)進(jìn)行處理,最終得到有效數(shù)據(jù)727 023條。使用全部數(shù)據(jù)構(gòu)建話(huà)題檢測(cè)數(shù)據(jù),從有效數(shù)據(jù)中隨機(jī)抽取10%構(gòu)建待標(biāo)注數(shù)據(jù)集,剩余90%組成待分類(lèi)數(shù)據(jù)集。
表1 異常數(shù)據(jù)處理
(2)情感分類(lèi)與話(huà)題檢測(cè)。
對(duì)于情感分類(lèi)而言,具體步驟如下:①基于TF-IDF與SO-PMI算法[13]對(duì)有效數(shù)據(jù)進(jìn)行種子情感詞獲取與生活社區(qū)情感詞典的構(gòu)建;②結(jié)合通用情感詞典,構(gòu)建領(lǐng)域情感詞典,并依據(jù)詞本身是否積極以及其前后所使用的修飾詞來(lái)決定其加權(quán)的正負(fù)和權(quán)重這一規(guī)則構(gòu)建情感標(biāo)注模型,完成對(duì)待標(biāo)注數(shù)據(jù)集的情感標(biāo)注;③采用經(jīng)標(biāo)注后的數(shù)據(jù)對(duì)各分類(lèi)模型進(jìn)行訓(xùn)練與評(píng)估,依據(jù)實(shí)驗(yàn)結(jié)果驗(yàn)證標(biāo)注數(shù)據(jù)質(zhì)量,并選擇最優(yōu)分類(lèi)模型完成剩余待分類(lèi)數(shù)據(jù)集的情感分類(lèi)。
對(duì)于話(huà)題檢測(cè)而言,具體步驟如下:①在話(huà)題檢測(cè)數(shù)據(jù)集中按照社區(qū)群類(lèi)型分別通過(guò)隱狄利克雷分布(Latent Dirichlet Allocation,LDA)[14]主題聚類(lèi)模型進(jìn)行話(huà)題檢測(cè);②結(jié)合可視化結(jié)果分析得到最優(yōu)話(huà)題數(shù)和相關(guān)特征詞。
(3)數(shù)據(jù)分析與結(jié)果討論。
依據(jù)上述情感分類(lèi)與話(huà)題檢測(cè)結(jié)果對(duì)相應(yīng)特征進(jìn)行可視化分析,再結(jié)合二者進(jìn)行相關(guān)性分析[15]。
2.2.1 分類(lèi)模型簡(jiǎn)介
該文分別采用如下6種分類(lèi)模型進(jìn)行了對(duì)比實(shí)驗(yàn),各模型原理及優(yōu)缺點(diǎn)總結(jié)如表2所示。
表2 分類(lèi)模型
其中Att_BiLSTM模型結(jié)構(gòu)如圖2所示。
圖2 Att_BiLSTM模型結(jié)構(gòu)
2.2.2 主題聚類(lèi)模型簡(jiǎn)介
該文采用LDA主題模型識(shí)別不同社區(qū)間熱點(diǎn)話(huà)題的差異。LDA主題模型屬于無(wú)監(jiān)督學(xué)習(xí)模型,由文檔、主題和詞語(yǔ)構(gòu)成的三層貝葉斯概率模型組成,通過(guò)概率統(tǒng)計(jì)方法對(duì)文檔中選出的關(guān)鍵詞語(yǔ)進(jìn)行主題歸納,具有結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快且聚類(lèi)效果直觀(guān)等優(yōu)點(diǎn)。為獲得最佳聚類(lèi)效果,該文通過(guò)多次迭代,動(dòng)態(tài)調(diào)整參數(shù)和觀(guān)測(cè)pyLDAvis可視化效果確定最佳話(huà)題聚類(lèi)數(shù)并挖掘熱點(diǎn)話(huà)題特征詞。
2.2.3 評(píng)價(jià)指標(biāo)
(1)分類(lèi)模型評(píng)價(jià)指標(biāo)。
該文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)以及調(diào)和平均值(F1)的加權(quán)平均(Weighted average)計(jì)算方法作為模型評(píng)價(jià)指標(biāo),各指標(biāo)計(jì)算方法如式(1)至式(4)所示。
(1)
(2)
(3)
(4)
其中,TP為正例預(yù)測(cè)為正例的樣本數(shù);TN為反例預(yù)測(cè)為反例的樣本數(shù);FP為反例預(yù)測(cè)為正例的樣本數(shù);FN為正例預(yù)測(cè)為反例的樣本數(shù);n代表類(lèi)別數(shù);i代表第i類(lèi)樣本;Wi代表第i類(lèi)樣本的總數(shù)在總樣本中的占比權(quán)重。
(2)相關(guān)性評(píng)價(jià)指標(biāo)。
卡方檢驗(yàn)是以卡方分布為基礎(chǔ)的一種檢驗(yàn)方法,經(jīng)常用于檢測(cè)多個(gè)定類(lèi)變量間是否存在相關(guān)性。在檢驗(yàn)之前需做出零假設(shè)即假設(shè)兩個(gè)變量呈統(tǒng)計(jì)獨(dú)立性。其次對(duì)兩定類(lèi)變量建立列聯(lián)表,若列聯(lián)表共有r行c列,則樣本自由度df與各字段的期望頻數(shù)E如式(5)和式(6)所示。
df=(r-1)(c-1)
(5)
(6)
其中,N代表樣本總個(gè)數(shù),O代表指定位置下的實(shí)際觀(guān)測(cè)值,i與j分別代表第i行與第j列,nc與nr分別用于遍歷第i行所有列的值與遍歷第j列下所有行的值。
接著,依據(jù)式(7)計(jì)算各字段皮爾遜卡方值χ2,當(dāng)兩定類(lèi)變量間關(guān)聯(lián)程度越強(qiáng)時(shí),皮爾遜卡方值χ2也會(huì)越大。
(7)
最后,通過(guò)卡方值和自由度查表得出卡方分配右尾概率P是否位于拒絕域內(nèi),可判斷顯著性水平。當(dāng)P<0.05時(shí),得到拒絕原假設(shè),兩分類(lèi)變量間存在顯著性差異的結(jié)論,即證明兩個(gè)分類(lèi)變量間具有相關(guān)性。
為驗(yàn)證算法有效性,基于如下環(huán)境開(kāi)展實(shí)驗(yàn)。(1)硬件環(huán)境:11th Gen Intel(R) Core(TM) i5-11400F CPU(頻率為2.60 GHz),顯卡為NVIDIA GeForce RTX 3080 GPU,內(nèi)存為32.0 GB;(2)開(kāi)發(fā)環(huán)境:實(shí)驗(yàn)均在Windows 10操作系統(tǒng)、PyTorch 1.11.0、CUDA 11.3和Python3.8環(huán)境下運(yùn)行。
經(jīng)2.1小節(jié)中相關(guān)預(yù)處理操作后,通過(guò)情感標(biāo)注模型對(duì)待標(biāo)注數(shù)據(jù)集進(jìn)行數(shù)據(jù)標(biāo)注,可得到情感分類(lèi)模型訓(xùn)練數(shù)據(jù),如表3所示。
表3 情感分類(lèi)模型部分訓(xùn)練數(shù)據(jù)示例
對(duì)情感分類(lèi)數(shù)據(jù)集中72 703條數(shù)據(jù)按照6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集。并采用Att_BiLSTM等多個(gè)分類(lèi)模型進(jìn)行實(shí)驗(yàn)后,各模型在測(cè)試集上的實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果證明了Att_BiLSTM模型在此領(lǐng)域各項(xiàng)指標(biāo)均表現(xiàn)最優(yōu)。
表4 情感分類(lèi)模型實(shí)驗(yàn)結(jié)果對(duì)比
為了更好展現(xiàn)生活社區(qū)中居民的情感趨勢(shì)與熱點(diǎn)話(huà)題之間的聯(lián)系,選取2021年期間兩個(gè)典型社區(qū)A(工業(yè)區(qū))與B(文化區(qū))的相關(guān)數(shù)據(jù)進(jìn)行情感特征分析與熱點(diǎn)話(huà)題檢測(cè)。
經(jīng)統(tǒng)計(jì)2021年A社區(qū)發(fā)言總數(shù)為46 974條,B社區(qū)發(fā)言總數(shù)為6 103條,A社區(qū)活躍度遠(yuǎn)高于B社區(qū)。對(duì)兩社區(qū)各類(lèi)情感發(fā)言數(shù)及每條文本平均長(zhǎng)度進(jìn)行統(tǒng)計(jì),結(jié)果如表5所示。
表5 發(fā)言數(shù)與各類(lèi)情感平均文本長(zhǎng)度統(tǒng)計(jì)
由表5可知在A(yíng)社區(qū)內(nèi),中性發(fā)言占比達(dá)45.47%,遠(yuǎn)高于正向與負(fù)向情感的發(fā)言量;而B(niǎo)社區(qū)內(nèi)各類(lèi)情感所對(duì)應(yīng)的發(fā)言量較為平均,其中正向發(fā)言占比最高,約為39.39%。就發(fā)言長(zhǎng)度而言,B社區(qū)三類(lèi)情感下的平均發(fā)言長(zhǎng)度均明顯高于A(yíng)社區(qū)。進(jìn)一步對(duì)各類(lèi)情感下發(fā)言條數(shù)及每條發(fā)言對(duì)應(yīng)使用的詞語(yǔ)長(zhǎng)度進(jìn)行統(tǒng)計(jì)分析,可得到圖3中所示結(jié)果。
圖3 A與B社區(qū)內(nèi)發(fā)言詞語(yǔ)長(zhǎng)度與發(fā)言條數(shù)統(tǒng)計(jì)
由圖3可知,多數(shù)群聊文本的詞語(yǔ)長(zhǎng)度集中在1~20個(gè)漢字之間,長(zhǎng)度越長(zhǎng)對(duì)應(yīng)的發(fā)言量越少。對(duì)于A(yíng)社區(qū)而言,詞語(yǔ)長(zhǎng)度在2~11個(gè)漢字間時(shí),中性情感發(fā)言量遠(yuǎn)高于正負(fù)向情感發(fā)言,在詞語(yǔ)長(zhǎng)度大于20之后,發(fā)言的情感走向就難以區(qū)分;對(duì)于B社區(qū)而言,當(dāng)詞語(yǔ)長(zhǎng)度在1~15區(qū)間內(nèi)時(shí),表現(xiàn)出的情感傾向基本與A社區(qū)相同,但當(dāng)詞語(yǔ)長(zhǎng)度大于15后,B社區(qū)內(nèi)的發(fā)言就帶有明顯的個(gè)人情感傾向。
按照以天為周期與以季度為周期對(duì)發(fā)言量進(jìn)行統(tǒng)計(jì)分析,可得圖4中所示結(jié)果。
從圖4(a)與圖4(b)中可看出,兩社區(qū)聊天量在一天中的時(shí)間點(diǎn)分布存在很大不同。雖然在1~7點(diǎn)間兩者群內(nèi)活躍度均為一天之中的最低點(diǎn),這也符合大多數(shù)中國(guó)居民的日常作息時(shí)間。但A社區(qū)在14~19點(diǎn)間的聊天量幾乎是該時(shí)段B社區(qū)聊天量的3倍,而B(niǎo)社區(qū)在20~24點(diǎn)與8~13點(diǎn)間的聊天量接近于A(yíng)社區(qū)的2倍,這表明社區(qū)類(lèi)型和居民工作類(lèi)型與聊天時(shí)間具有緊密聯(lián)系。工業(yè)區(qū)上班族大多傾向于在下午參與群內(nèi)討論,而多數(shù)學(xué)校工作者習(xí)慣于利用晚上和中午休息的時(shí)間解決生活中的問(wèn)題,生活與工作間具有較明顯的界限。
從圖4(c)和圖4(d)可知,在全年周期分布上兩社區(qū)群均在第二、三季度即夏季和秋季活躍度最高,表明居民在該時(shí)段更關(guān)注社區(qū)事務(wù)。而第一季度是中國(guó)傳統(tǒng)節(jié)假日安排較為集中的時(shí)段,大多數(shù)居民會(huì)利用假期放松或?qū)⑼度爰彝ド钪?對(duì)社區(qū)事務(wù)的關(guān)注度也因此降低,所以?xún)缮鐓^(qū)該時(shí)段內(nèi)的活躍度均為全年最低。
采用LDA主題模型對(duì)社區(qū)文本進(jìn)行話(huà)題聚類(lèi),根據(jù)迭代實(shí)驗(yàn)及可視化結(jié)果分析確定A和B社區(qū)最優(yōu)主題聚類(lèi)數(shù)為5,話(huà)題聚類(lèi)結(jié)果如圖5所示。圖中圓圈的大小代表各類(lèi)話(huà)題所出現(xiàn)的頻率,依據(jù)話(huà)題頻率由高至低的順序?qū)υ?huà)題進(jìn)行編號(hào)。各圓圈間的距離采用JSD(Jensen-Shannon Divergence)距離計(jì)算得到,可直觀(guān)表達(dá)各話(huà)題間差異程度。
依據(jù)上述話(huà)題聚類(lèi)結(jié)果,分別對(duì)兩社區(qū)各話(huà)題下的特征詞進(jìn)行分析,篩選各話(huà)題內(nèi)排名前12的特征詞,并定義各話(huà)題中心詞,得到如表6所示結(jié)果。
從表6中可知A社區(qū)全年超半數(shù)的話(huà)題討論集中在買(mǎi)房投資之下,討論量占比達(dá)55.65%;其次是對(duì)樓盤(pán)開(kāi)發(fā)與學(xué)區(qū)政策等話(huà)題的討論,這說(shuō)明在經(jīng)濟(jì)發(fā)達(dá)的工業(yè)區(qū),房子的戶(hù)型和位置、各大樓盤(pán)的開(kāi)發(fā)商管理和房屋售價(jià)等與房子相關(guān)的問(wèn)題是關(guān)注的熱點(diǎn),因此建議管理部門(mén)從購(gòu)房政策等角度入手,關(guān)注居民購(gòu)房售房等問(wèn)題;而生活壓力相對(duì)較緩的B社區(qū),接近半數(shù)的話(huà)題討論量均與求助幫忙話(huà)題相關(guān),其次是社區(qū)管理和事件投訴相關(guān)話(huà)題,說(shuō)明B社區(qū)內(nèi)鄰里關(guān)系更加緊密和諧,居民更關(guān)注當(dāng)前住房的生活質(zhì)量、關(guān)心社區(qū)管理及社區(qū)內(nèi)停水停電、設(shè)施破損等相關(guān)的民生問(wèn)題。因此,對(duì)于此類(lèi)社區(qū),管理部門(mén)應(yīng)注重社區(qū)基礎(chǔ)設(shè)施的建設(shè)與維護(hù),通過(guò)保障居民的衣食住行來(lái)減少居民在事件投訴話(huà)題下的討論量。
表6 A和B社區(qū)各主題特征詞展示
依據(jù)上述分析,統(tǒng)計(jì)兩社區(qū)中各類(lèi)主題對(duì)應(yīng)的情感分布情況可得表7所示結(jié)果。
表7 主題情感分布
由表7中可知,A社區(qū)居民在“買(mǎi)房投資”話(huà)題下,中性情感的占比約為正向和負(fù)向情感的2倍,其余話(huà)題下三類(lèi)情感的發(fā)言數(shù)量基本持平,中性情感略微突出,由此可看出在A(yíng)社區(qū)內(nèi),居民參與各類(lèi)話(huà)題討論時(shí)大多持理性態(tài)度,對(duì)各類(lèi)熱點(diǎn)話(huà)題參與度較高且討論的話(huà)題相對(duì)廣泛自由;但對(duì)于B社區(qū)而言,各類(lèi)話(huà)題下情感傾向更具有典型性,在“求助幫忙”“社區(qū)管理”和“房屋交易”話(huà)題下,B社區(qū)居民的正向及中性情感明顯高于負(fù)向情感,但在“事件投訴”和“通知公告”話(huà)題下,居民更多展現(xiàn)出的是負(fù)向情感,特別是在“事件投訴”話(huà)題下,負(fù)向情感的發(fā)言量約為正向或中性情感的2倍。
因此,為了進(jìn)一步驗(yàn)證話(huà)題類(lèi)別與情感類(lèi)別間是否存在相關(guān)性,依據(jù)表7對(duì)A、B社區(qū)分別進(jìn)行卡方檢驗(yàn)。給定原假設(shè)為話(huà)題類(lèi)別與情感類(lèi)別間不存在相關(guān)性,經(jīng)檢驗(yàn)后可得到表8所示結(jié)果。因P<0.05,依據(jù)卡方分布的規(guī)則可知在99%的情況下拒絕原假設(shè),即話(huà)題與情感間具有顯著性差異,可說(shuō)明話(huà)題類(lèi)別與情感類(lèi)別間存在相關(guān)性。
表8 A與B社區(qū)話(huà)題與情感卡方檢驗(yàn)結(jié)果
在收集了大量的社區(qū)居民在線(xiàn)聊天信息的基礎(chǔ)上,結(jié)合生活社區(qū)領(lǐng)域情感詞典,采用Att_BiLSTM情感分類(lèi)模型實(shí)現(xiàn)對(duì)社區(qū)群聊的半監(jiān)督情感傾向計(jì)算,經(jīng)LDA主題模型分析生活社區(qū)熱點(diǎn)話(huà)題后發(fā)現(xiàn),熱點(diǎn)話(huà)題與情感類(lèi)別間具有相關(guān)性,如“買(mǎi)房投資”話(huà)題中50%的討論傾向于中性情感,而“事件投訴”和“通知公告”等話(huà)題下負(fù)向情感占比是正向與中性情感的2倍。與此同時(shí)在參與討論的時(shí)間分布上,居民在夏秋季對(duì)社區(qū)事物的關(guān)注高于其他時(shí)段,不同類(lèi)型社區(qū)的居民一天內(nèi)參與話(huà)題討論的時(shí)間點(diǎn)與其從事職業(yè)具有密切關(guān)系,如工業(yè)區(qū)居民在14~19點(diǎn)之間群內(nèi)討論量占全天的53.64%,而文化區(qū)居民該時(shí)段的聊天量占比僅為17.96%。因此,有關(guān)部門(mén)可根據(jù)社區(qū)類(lèi)型與居民討論話(huà)題,在居民參與社區(qū)事務(wù)討論的高峰時(shí)段對(duì)相關(guān)熱點(diǎn)話(huà)題進(jìn)行關(guān)注或介入,由此更好地獲悉居民社區(qū)中所面對(duì)的民生問(wèn)題,把握亟需關(guān)注的熱點(diǎn),為社區(qū)內(nèi)創(chuàng)造良好溝通環(huán)境,及時(shí)解決居民訴求,提升社區(qū)居民幸福感。