梁山清 李恩寧 王學(xué)萍 李博 葛紅志
通過(guò)Python軟件,分析企業(yè)員工的輿情態(tài)勢(shì)。對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理并制作靜態(tài)畫像。通過(guò)TF-IDF算法,進(jìn)行熱詞分析、詞云分析;運(yùn)用SnowNLP算法對(duì)輿情數(shù)據(jù)進(jìn)行情感色彩分析和關(guān)鍵詞情感指數(shù)分析;基于LDA模型進(jìn)行文本主題分析。以上分析方法可輔助企業(yè)管理者對(duì)員工進(jìn)行更精準(zhǔn)的日常管理和企業(yè)文化引導(dǎo)。
伴隨數(shù)字信息時(shí)代的快速發(fā)展,企業(yè)越來(lái)越重視員工的輿情態(tài)勢(shì)。對(duì)于企業(yè)而言,負(fù)面的輿論信息會(huì)損害企業(yè)品牌形象,重挫企業(yè)業(yè)務(wù),進(jìn)而造成重大的經(jīng)濟(jì)損失。因此,有計(jì)劃地收集和分析企業(yè)員工的輿論信息,分析輿情走向,采取輿論應(yīng)對(duì)措施,對(duì)企業(yè)的改進(jìn)和發(fā)展有著非常重要的作用。
員工靜態(tài)畫像
本文采用企業(yè)每年收集的員工年終總結(jié)Excel文本,文本中主要包括編號(hào)、性別、年齡、學(xué)歷、學(xué)位、入職時(shí)間、職務(wù)、職稱、婚否、所屬部門、年度感受、最感謝的人、最滿意的事、新年目標(biāo)、對(duì)企業(yè)的建議等字段。將以上數(shù)據(jù)進(jìn)行脫敏和預(yù)處理后,再運(yùn)用Python進(jìn)行數(shù)據(jù)分析。
員工靜態(tài)畫像主要對(duì)員工的基本信息進(jìn)行整體分析,具體包括員工總數(shù)、男女比例、婚姻比例、學(xué)位分布、職稱分布、崗位分布、年齡分布等信息。其中,學(xué)歷分布指員工中學(xué)位為博士、碩士、學(xué)士以及其他的占比分布,崗位分布指員工中從事研發(fā)、工程、市場(chǎng)、研發(fā)輔助的人數(shù)比例,年齡分布指員工中60后、70后、80后、90后的人員構(gòu)成。
基于TF-IDF的年度熱詞分析
TF-IDF的全稱是Term Frequency - inverse document frequency,由詞頻(Term Frequency,TF)和逆文檔頻率兩部分組成。TF是指某個(gè)詞語(yǔ)在文本中出現(xiàn)的頻率;IDF則反映關(guān)鍵詞的普遍程度,當(dāng)一個(gè)詞語(yǔ)在文本中越普遍存在時(shí),其IDF值越低;反之,則IDF值越高。TF、IDF和TF-IDF的公式如下:
詞語(yǔ)的TF-IDF值越大,表示該詞語(yǔ)在文本中的重要性越高。本文通過(guò)計(jì)算員工年度總結(jié)文本中的詞語(yǔ)重要性,形成年度熱詞排行榜,輔助企業(yè)管理人員了解企業(yè)輿情動(dòng)向。
詞云分析
企業(yè)員工的文本主要包括年度感受、最滿意的事、新年目標(biāo)、對(duì)公司建議這4個(gè)總結(jié)項(xiàng)。通過(guò)Python程序?qū)σ陨衔谋痉謩e進(jìn)行切詞并刪除停用詞,利用處理后的文本為每個(gè)總結(jié)項(xiàng)生成詞云。
根據(jù)詞云分析,可以得出企業(yè)員工在以上各總結(jié)項(xiàng)上的具體輿情態(tài)勢(shì)。
基于SnowNLP的情感色彩分析
SnowNLP是用Python寫的個(gè)中文情感分析的類庫(kù),自帶中文正負(fù)情感的訓(xùn)練集,主要是評(píng)論的語(yǔ)料庫(kù)。使用的是樸素貝葉斯原理來(lái)訓(xùn)練和預(yù)測(cè)數(shù)據(jù)。
通過(guò)分析文本中每個(gè)總結(jié)項(xiàng)語(yǔ)句的感情色彩(積極、中立、消極)進(jìn)行分析,比如,包含“技術(shù)和能力都得到極大的提升”的語(yǔ)句感情色彩積極,包含“為人處世上依然初心不改”的語(yǔ)句感情色彩中立,包含“材料整理工作讓人頭疼”的語(yǔ)句感情色彩消極。
情感色彩分析有助于了解員工的整體情感態(tài)勢(shì),輔助公司進(jìn)行工作氛圍引導(dǎo)、公司文化建設(shè)、規(guī)章制度制定。
關(guān)鍵詞情感指數(shù)分析
通過(guò)選取TF-IDF值很高或者特定詞語(yǔ)作為關(guān)鍵詞,對(duì)包含關(guān)鍵詞的所有語(yǔ)句進(jìn)行情感指數(shù)計(jì)算,分析員工對(duì)關(guān)鍵詞的整體態(tài)度,輔助管理者準(zhǔn)確掌握公司輿情方向。
基于LDA模型的主題分析
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA),是一種文檔生成模型,屬于非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)。它可以將待分析文本的主題以概率分布的形式給出,并根據(jù)主題分布進(jìn)行主題聚類或文本分類。
進(jìn)行LDA主題分析前,需要預(yù)估文本的主題數(shù)量,預(yù)估文本主題包含5個(gè)。通過(guò)分析文本主題詞匯,企業(yè)管理者可以從宏觀角度把握員工關(guān)注的主題,并制定精準(zhǔn)的企業(yè)管理制度。
結(jié)果分析
1.年度熱詞結(jié)果分析
通過(guò)TF-IDF主題詞分析算法,計(jì)算年度主題詞Top20,具體結(jié)果如表1所示。
總結(jié)項(xiàng)詞云結(jié)果分析
年度感受
年度感受詞云如圖1所示。
經(jīng)分析,年度感受總結(jié)項(xiàng)主要聚焦于“工作、成長(zhǎng)、學(xué)習(xí)、技術(shù)、充實(shí)、家庭、能力、疫情、投標(biāo)、責(zé)任”等詞匯。
最滿意的事
最滿意的事詞云如圖2所示。