唐青 余金松 林君賢 胡林偉 虞宇翔 薛義博
摘要:自從新冠病毒疫情爆發(fā)以來(lái),社會(huì)經(jīng)濟(jì)教育等方面發(fā)生了巨大的改變,在線學(xué)習(xí)成為了中國(guó)大學(xué)生學(xué)習(xí)的主要方式之一。在線學(xué)習(xí)依托于互聯(lián)網(wǎng),其不同于傳統(tǒng)的現(xiàn)場(chǎng)教學(xué),本文通過(guò)Python編程爬蟲(chóng)搜詞、數(shù)據(jù)清洗、詞頻統(tǒng)計(jì)和聚類(lèi)分析,使用大數(shù)據(jù)技術(shù)研究目前在線學(xué)習(xí)中學(xué)生體驗(yàn)現(xiàn)狀和趨勢(shì)以及一些未解決的問(wèn)題。
關(guān)鍵字:網(wǎng)絡(luò)爬蟲(chóng);輿情數(shù)據(jù)分析
1.獲取數(shù)據(jù)源
網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是指一種按照一定的規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序或者腳本。本項(xiàng)目為了獲取到大量數(shù)據(jù)需要使用到網(wǎng)絡(luò)爬蟲(chóng)模擬用戶(hù)操作向服務(wù)端發(fā)起請(qǐng)求提取有用的數(shù)據(jù)存儲(chǔ)到本地,其中包括利用Cookie技術(shù)模擬用戶(hù)登錄、第三方平臺(tái)API搜索兩種途徑,分別從新浪微博、知乎、慕課網(wǎng)、百度貼吧等在線學(xué)習(xí)平臺(tái)爬取用戶(hù)評(píng)論數(shù)據(jù)??紤]到疫情爆發(fā)和大學(xué)生復(fù)學(xué)的時(shí)間,本項(xiàng)目爬取了2019年1月至6月以及2020年1月至6月的數(shù)據(jù),一共獲取5萬(wàn)余條數(shù)據(jù)記錄。
2.數(shù)據(jù)清洗
數(shù)據(jù)信息的中分詞是統(tǒng)計(jì)詞頻的重要步驟之一,?本文使用了python第三方庫(kù)jieba,jieba是優(yōu)秀的中文分詞第三方庫(kù),支持三種分詞模式:精確模式、全模式和搜索引擎模式,精確模式可以將語(yǔ)句精確切分,不存在冗余數(shù)據(jù),適合本項(xiàng)目做文本分析。經(jīng)過(guò)分詞之后,詞頻中仍然存在大量的無(wú)用詞語(yǔ),類(lèi)似于“那個(gè)”、“啊哦”、“這個(gè)”等等,所以在統(tǒng)計(jì)詞頻前需要進(jìn)行數(shù)據(jù)清洗,即刪除停用詞。筆者采用的方法是提前創(chuàng)建一個(gè)停用詞列表“stopwords”,遍歷每一條初步分詞后的文本數(shù)據(jù),如果存在即把這個(gè)詞刪去。
2.詞頻統(tǒng)計(jì)和聚類(lèi)分析
經(jīng)過(guò)在線數(shù)據(jù)清洗后,本文從清洗后的數(shù)據(jù)源,獲取各時(shí)段詞頻前20名作為聚類(lèi)分析的數(shù)據(jù)源。本文聚類(lèi)分析是將詞頻數(shù)據(jù)利用Python生成詞頻矩陣,詞頻矩陣中每一列代表一個(gè)關(guān)鍵詞,用數(shù)字1表示該評(píng)論中含有對(duì)應(yīng)的關(guān)鍵詞,數(shù)字0表示該評(píng)論不包含關(guān)鍵詞。
通過(guò)詞頻矩陣的形式,可以將每條文本數(shù)據(jù)轉(zhuǎn)換為 n 維 1/0 值向量的形式,對(duì)比分析每個(gè)向量之間的相似性從而給文本數(shù)據(jù)進(jìn)行分類(lèi)處理。利用SPSS軟件進(jìn)行分析-分類(lèi)-系統(tǒng)聚類(lèi),經(jīng)過(guò)多次試驗(yàn)發(fā)現(xiàn),系統(tǒng)聚類(lèi)的方法選擇組間連接-歐氏距離效果較好,此法采用簡(jiǎn)單匹配系數(shù)度量評(píng)論之間的相似性,簡(jiǎn)單匹配系數(shù)是當(dāng)兩條評(píng)論在關(guān)鍵詞上的數(shù)值相同時(shí)出現(xiàn)的頻率,頻率越高說(shuō)明兩條評(píng)論越相似。
3.自然語(yǔ)言處理與情感分析過(guò)程
(1)加載語(yǔ)料數(shù)據(jù),并將每條數(shù)據(jù)保存為list的元素; (2)計(jì)算 TF-IDF。計(jì)算 TF-IDF 時(shí)還可以選擇將出現(xiàn)頻率高于一定值,以及出現(xiàn)次數(shù)非常低的詞語(yǔ)刪去,同時(shí)還可以借助正則表達(dá)式去除數(shù)字、符號(hào)等不利于分析的元素; (3)獲取模型中的所有字詞特征(如果特征數(shù)量非常多的情況下可以按照權(quán)重降維),經(jīng)過(guò)程序統(tǒng)計(jì)一般有 20000個(gè)左右的特征詞;(4)導(dǎo)出權(quán)重矩陣,此時(shí)已經(jīng)實(shí)現(xiàn)了將文字向量化的過(guò)程,矩陣中的每一行就是一條文本的向量表示;(5)將文本數(shù)據(jù)的向量進(jìn)行 k 均值聚類(lèi),K 均值聚類(lèi)算法是在向量空間中分配 k 個(gè)隨機(jī)點(diǎn)作為 k 個(gè)簇的初始虛擬均值。然后,將每個(gè)數(shù)據(jù)點(diǎn)分配給平均值最近的聚類(lèi)。接下來(lái),重新計(jì)算每個(gè)聚類(lèi)的實(shí)際平均值。根據(jù)均值的偏移,重新分配數(shù)據(jù)點(diǎn)。重復(fù)此過(guò)程,直到集群的平均值停止移動(dòng);(6)利用sklearn機(jī)器學(xué)習(xí)庫(kù),得出聚類(lèi)結(jié)果進(jìn)行詞頻統(tǒng)計(jì)。
本文目選用了情感分析作為參考大學(xué)生對(duì)于線上教學(xué)的評(píng)價(jià)標(biāo)準(zhǔn)之一。情感是文本所具有的屬性,這里我們使用了Python的SnowNLP 庫(kù),可以粗略判斷文本的情感,得出的數(shù)值是該文本蘊(yùn)含積極情感的概率。根據(jù)統(tǒng)計(jì)結(jié)果得出,疫情前都是一些主動(dòng)去接觸在線學(xué)習(xí)的同學(xué),所以對(duì)于在線學(xué)習(xí)的評(píng)價(jià)大多表現(xiàn)為積極情感,疫情到來(lái)之后,在線學(xué)習(xí)人數(shù)激增,對(duì)于在線學(xué)習(xí)消極評(píng)論的比例明顯提高,特別是在2020年2月大學(xué)開(kāi)學(xué)并且普遍實(shí)行在線學(xué)習(xí)網(wǎng)課的第一個(gè)月,積極情緒文本占比最少??傮w而言,2020 年的每月積極文本占比均小于 2019 年同期,但是隨著時(shí)間推移,線上教學(xué)的軟件、硬件條件發(fā)展以及學(xué)生們對(duì)于線上教學(xué)形式的熟悉,大家對(duì)于在線學(xué)習(xí)模式的評(píng)價(jià)逐漸升高。
3.結(jié)果分析與趨勢(shì)預(yù)測(cè)
根據(jù)對(duì)比疫情前后的文本類(lèi)型可以發(fā)現(xiàn),在疫情爆發(fā)大學(xué)生普遍參與線上學(xué)習(xí)后,關(guān)于“網(wǎng)課感受”的評(píng)論數(shù)量大大增加,同時(shí)因?yàn)橐咔榍按蟛糠秩耸侵鲃?dòng)自愿使用網(wǎng)課學(xué)習(xí),而疫情后是學(xué)校要求,所以2020年類(lèi)型出現(xiàn)了關(guān)于“上課形式”的種類(lèi)。在疫情前,大部分同學(xué)是出于自己的需要,例如“課程種類(lèi)”中的“考研”等而主動(dòng)選擇了線上學(xué)習(xí),結(jié)合情緒分析結(jié)果可以發(fā)現(xiàn)主動(dòng)選擇線上學(xué)習(xí)的這部分同學(xué)對(duì)于這種學(xué)習(xí)方式還是比較認(rèn)可的。在疫情后,有些同學(xué)較線下教學(xué)更喜歡線上學(xué)習(xí)的方式,認(rèn)為網(wǎng)課可以重復(fù)觀看,并且不受場(chǎng)地的限制,甚至對(duì)于有些人可以節(jié)省住宿的費(fèi)用,上網(wǎng)課不用浪費(fèi)路途中的時(shí)間,自由度高,可以休息得更好等優(yōu)點(diǎn)。但是通過(guò)調(diào)查發(fā)現(xiàn),線上教學(xué)仍存在許多問(wèn)題。通過(guò)分析 2019 年至 2020年聚類(lèi)后的 7 類(lèi)文本,統(tǒng)計(jì)出每個(gè)類(lèi)別的詞頻得到高頻詞,歸納總結(jié)其中的關(guān)鍵詞可以將 7 類(lèi)文本歸類(lèi),得到相關(guān)信息如圖1所示。
圖1 2019年及2020年高關(guān)聯(lián)度關(guān)鍵詞
4總結(jié)
線上教學(xué)是運(yùn)用互聯(lián)網(wǎng)、多媒體、人工智能等現(xiàn)代信息技術(shù)進(jìn)行教與學(xué)互動(dòng)的教育方式,是教育服務(wù)的重要組成部分。教育信息化已成為教育現(xiàn)代化的重要內(nèi)涵和顯著特征,充分運(yùn)用信息技術(shù)促進(jìn)教育觀念更新、模式變革是信息化社會(huì)的時(shí)代要求。疫情給高校正常教學(xué)帶來(lái)了沖擊,也為提升線上教學(xué)質(zhì)量提供了機(jī)遇,通過(guò)疫情前后學(xué)生線上教學(xué)的評(píng)價(jià)分析,根據(jù)學(xué)生體驗(yàn)現(xiàn)狀可以發(fā)現(xiàn)線上教學(xué)并不能完全取代線下教學(xué),不過(guò)經(jīng)過(guò)技術(shù)的發(fā)展,學(xué)生對(duì)于線上教學(xué)的評(píng)價(jià)正逐漸增高。疫情爆發(fā)以來(lái),得益于線上教學(xué)的實(shí)現(xiàn)與進(jìn)步,線上與線下教學(xué)協(xié)同發(fā)力、融合互補(bǔ)的教學(xué)模式正逐步完善,學(xué)生對(duì)于線上學(xué)習(xí)認(rèn)可程度將越來(lái)越高,這將是今后高校教學(xué)改革的重要任務(wù)和努力方向。
參考文獻(xiàn):
[1]殷鳳敏.突發(fā)事件網(wǎng)絡(luò)輿情的引導(dǎo)策略[J].法制博覽.2020(03)
[2]吳婧鈺,張歡.大數(shù)據(jù)時(shí)代高校思政教育的推進(jìn)對(duì)策探析[J].科教文匯.2021(05)
資助項(xiàng)目:國(guó)家大學(xué)生科技創(chuàng)新項(xiàng)目(202011488026,202011488025)作者唐青,衢州學(xué)院2019級(jí)物聯(lián)網(wǎng)工程專(zhuān)業(yè)本科學(xué)生。