李彤彤 李坦 郭栩?qū)?/p>
【摘要】? 社交媒體已經(jīng)成為學(xué)生記錄生活、表達(dá)觀點、分享交流等的最主要途徑,也是反映學(xué)生真實狀態(tài)可靠、即時的大數(shù)據(jù)來源之一。真實、準(zhǔn)確、及時的社交媒體大數(shù)據(jù)樣本蘊含著巨大的教育價值,為教育研究提供了更豐富的可能。從價值角度看,通過對社交媒體大數(shù)據(jù)進行情感分析、主題挖掘、社會網(wǎng)絡(luò)分析等,可以實現(xiàn)學(xué)習(xí)者畫像、學(xué)習(xí)者危機發(fā)現(xiàn)、教學(xué)過程優(yōu)化和教育輿情分析等,從而為利益相關(guān)者提供決策參考與支持。從技術(shù)角度看,將應(yīng)用的路徑概括為數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析和可視化四個階段,并總結(jié)了每個階段常用的方法。多源異構(gòu)數(shù)據(jù)的整合應(yīng)用、數(shù)據(jù)挖掘的合理性與準(zhǔn)確性、倫理隱私問題等是社交媒體大數(shù)據(jù)教育應(yīng)用所面臨的主要挑戰(zhàn),也是未來研究需要重點關(guān)注的方面。
【關(guān)鍵詞】? 社交媒體;大數(shù)據(jù);社交媒體大數(shù)據(jù);教育大數(shù)據(jù);教育數(shù)據(jù)挖掘;教育數(shù)據(jù)應(yīng)用;價值;路徑;挑戰(zhàn)
【中圖分類號】? G434???????? 【文獻(xiàn)標(biāo)識碼】? A?? 【文章編號】? 1009-458x(2021)7-0036-09
社交媒體(Social Media)又稱為“社會化媒體”或“社會性媒體”,這一術(shù)語普遍認(rèn)為最早出現(xiàn)在Antony Mayfield所著的What Is Social Media一書中,被定義為“包含參與、開放、社交、社區(qū)性、聯(lián)通性等特點的一組新型在線媒體”。社交媒體是Web 2.0時代的產(chǎn)物,其最核心的特征有兩個:一是對個體而言,它賦予了每個人創(chuàng)造并傳播內(nèi)容的能力,人人都可以成為信息的生產(chǎn)者;二是對群體而言,它提供了豐富的聯(lián)結(jié)機會,形成了龐大的全民社交網(wǎng)絡(luò),每個個體都成為社交網(wǎng)絡(luò)上的結(jié)點。當(dāng)前,社交媒體平臺飛速發(fā)展,平臺種類、數(shù)量、功能繁雜,譚天等(2017)將其分為平臺型、社群型、工具型和泛在型四種類型。其中,平臺型以微博、微信為代表;社群型以豆瓣、知乎、QQ、論壇、BBS網(wǎng)絡(luò)社區(qū)等為代表;工具型指以教育功能為目的開發(fā)的社交媒體軟件,如以英語口語交流為目的開發(fā)的HELLO TALK、專為大學(xué)生社交打造的嘰喳校園等;泛在型并非一種單獨形態(tài)的社交媒體,而是以社交屬性的內(nèi)容和服務(wù)“嵌入”各類媒體形態(tài)中,指在軟件中含有社交功能的應(yīng)用,如“藍(lán)墨云班課”課程圈、“課程格子”朋友圈等。社交媒體的應(yīng)用普及率逐年升高,據(jù)中國互聯(lián)網(wǎng)信息中心(China Internet Network Information Center)發(fā)布的《2016年中國社交應(yīng)用用戶行為研究報告》顯示,微信朋友圈、QQ空間、新浪微博的網(wǎng)民使用率分別是85.8%、67.5%、37.1%。社交媒體的蓬勃發(fā)展和廣泛應(yīng)用帶來了數(shù)據(jù)的爆炸式增長,推動了大數(shù)據(jù)時代的到來。各個領(lǐng)域也開始發(fā)掘社交媒體信息的巨大價值,于是有了社交媒體大數(shù)據(jù)的概念,我們將其界定為社交媒體上產(chǎn)生的具有動態(tài)性、實時性、社交網(wǎng)絡(luò)依賴性的用戶數(shù)據(jù)。
在教育領(lǐng)域,社交媒體大數(shù)據(jù)的價值也開始日益凸顯。安德森等(2017)認(rèn)為社交媒體是教育技術(shù)的三大支柱之一,對教育有著多方面的促進作用,與教育的融合已勢不可擋(安德森, 等, 2020)?!?016年中國社交應(yīng)用用戶行為研究報告》顯示,在校學(xué)生已經(jīng)成為社交媒體使用人數(shù)最多的群體,占比25%。社交媒體已經(jīng)成為學(xué)生記錄生活、表達(dá)觀點、分享、交流等的最主要途徑,也是反映學(xué)生真實狀態(tài)的即時、可靠的大數(shù)據(jù)來源之一。真實、準(zhǔn)確、及時的社交媒體大數(shù)據(jù)樣本為教育研究提供了更多的可能性。大數(shù)據(jù)技術(shù)的發(fā)展也將這種可能性更多地轉(zhuǎn)化為現(xiàn)實,通過對社交媒體大數(shù)據(jù)進行深度挖掘以優(yōu)化教育教學(xué)正在成為研究者的關(guān)注點。但是,當(dāng)前教育領(lǐng)域?qū)ι缃幻襟w大數(shù)據(jù)的挖掘應(yīng)用仍處于初級探索階段,對于社交媒體大數(shù)據(jù)的巨大價值、挖掘方法以及面臨的挑戰(zhàn)還不夠系統(tǒng)、清晰。鑒于此,在系統(tǒng)分析與梳理文獻(xiàn)的基礎(chǔ)上,從功能與價值、方法與路徑、挑戰(zhàn)與機遇三個方面對社交媒體大數(shù)據(jù)教育應(yīng)用的現(xiàn)狀進行了總結(jié)。在文獻(xiàn)篩選過程中,我們以“大數(shù)據(jù)”“教育”作為一級關(guān)鍵詞,進一步選取其中與社交媒體大數(shù)據(jù)應(yīng)用相關(guān)的文獻(xiàn)。在文獻(xiàn)梳理過程中,我們主要以“應(yīng)用社交媒體大數(shù)據(jù)做了什么”“如何應(yīng)用的”為線索,逐級歸納得出結(jié)論。
一、功能與價值
據(jù)統(tǒng)計,國內(nèi)社交媒體應(yīng)用于教育教學(xué)的研究最早始于2003年(林育曼, 2018),而應(yīng)用大數(shù)據(jù)方法來輔助教育教學(xué)卻是近幾年才開始的。當(dāng)前社交媒體大數(shù)據(jù)在教育教學(xué)上的應(yīng)用可以概括為學(xué)習(xí)者畫像、學(xué)習(xí)者危機發(fā)現(xiàn)、教學(xué)過程優(yōu)化和教育輿情分析四個方面。
(一)學(xué)習(xí)者畫像
畫像技術(shù)最先在商業(yè)領(lǐng)域得到應(yīng)用,之后不斷向外拓展,教育領(lǐng)域也開始引入,并將學(xué)習(xí)者畫像作為一種描繪學(xué)習(xí)者特征的方法。學(xué)習(xí)者畫像是通過對學(xué)習(xí)者群體進行分類描述并標(biāo)簽化的過程(陳海建, 等, 2017; 肖君, 等, 2019),有利于更好地識別學(xué)習(xí)者,從而幫助教師、管理者及其他利益相關(guān)者精準(zhǔn)地了解學(xué)生的各種特征,為開展個性化教學(xué)和管理提供決策支持。
精準(zhǔn)的學(xué)習(xí)者畫像通常需要對多源異構(gòu)數(shù)據(jù)進行綜合分析,因此社交媒體數(shù)據(jù)通常作為支持學(xué)習(xí)者畫像的一部分。鑒于準(zhǔn)確識別學(xué)習(xí)者的目的,學(xué)習(xí)者畫像一般基于有一定封閉性而非完全開放的社交媒體數(shù)據(jù)來源,如學(xué)校論壇、智慧校園平臺等。李光耀等(2018)將用戶畫像技術(shù)應(yīng)用在智慧校園中, 設(shè)計了包含基礎(chǔ)屬性、性格屬性、特長愛好、成績優(yōu)劣四類特征的學(xué)生畫像標(biāo)簽體系,標(biāo)簽的生成借助靜態(tài)和動態(tài)兩類數(shù)據(jù),靜態(tài)數(shù)據(jù)主要來源于智慧校園的管理系統(tǒng),動態(tài)數(shù)據(jù)主要來源于社交媒體類應(yīng)用。同時,研究者多從某一個或某幾個維度探討基于社交媒體大數(shù)據(jù)的學(xué)習(xí)者畫像“標(biāo)簽”體系。周文靜(2018)提出一種基于用戶興趣的學(xué)生畫像方法,主要考慮學(xué)生的基本屬性維度和興趣維度,從校園論壇中提取數(shù)據(jù),應(yīng)用基于情感詞對的關(guān)鍵字興趣提取方法以及基于文本情感傾向的概念興趣提取方法進行學(xué)生興趣維度畫像,較準(zhǔn)確地反映出學(xué)生的興趣。對于應(yīng)用社交媒體大數(shù)據(jù)進行學(xué)習(xí)者畫像的具體方法,也多是模仿商業(yè)領(lǐng)域的用戶畫像方法。Xiao等(2017)基于棧式自編碼器(Stacked Autoencoder)和深度信念網(wǎng)絡(luò)(Deep Belief Network)兩種深度學(xué)習(xí)算法構(gòu)建了用于識別學(xué)生和非學(xué)生微博的分類器等。
(二)學(xué)習(xí)者危機發(fā)現(xiàn)
學(xué)習(xí)者危機一般可以分為學(xué)業(yè)危機和心理危機兩大類。通過社交媒體大數(shù)據(jù)的分析,可以在一定程度上發(fā)現(xiàn)可能存在危機的學(xué)生,從而為針對性的干預(yù)提供依據(jù)和參考。
社交媒體大數(shù)據(jù)用于學(xué)業(yè)危機發(fā)現(xiàn)最典型的是大規(guī)模開放在線課程(MOOC)中輟學(xué)和成績的預(yù)測。當(dāng)前MOOC輟學(xué)率極高,據(jù)統(tǒng)計,哈佛大學(xué)開設(shè)的“計算機導(dǎo)論”課程結(jié)業(yè)率僅為0.923%,麻省理工學(xué)院開設(shè)的“電路與電子學(xué)”課程結(jié)業(yè)率僅為4.6%(Rai & Deng, 2016),及時識別有輟學(xué)傾向的學(xué)生并有針對性地進行干預(yù),是確保學(xué)生完成學(xué)業(yè)的重要手段。Wang等(2018)基于MOOC平臺大數(shù)據(jù)提出了一種語義分析模型來跟蹤學(xué)習(xí)者的情感傾向,從而判斷學(xué)生對課程的接受程度,并進一步通過情感量化機器學(xué)習(xí)方法構(gòu)建了學(xué)業(yè)預(yù)警模型,能夠及時發(fā)現(xiàn)無法正常完成學(xué)業(yè)的學(xué)生,有針對性地進行干預(yù)來提升課程的完成率。Wen等(2014)對Coursera論壇帖子進行挖掘,通過布朗聚類算法研究學(xué)習(xí)者對課程的集體情感態(tài)度,同時建立生存模型評估情感對學(xué)習(xí)者流失的影響,結(jié)論表明,學(xué)習(xí)者的集體情感與退學(xué)率存在顯著相關(guān)。舒瑩等(2019)對學(xué)生在線學(xué)習(xí)的過程性結(jié)構(gòu)化外顯信息和非結(jié)構(gòu)化內(nèi)隱信息進行整合,采用樸素貝葉斯網(wǎng)絡(luò)算法識別學(xué)習(xí)者學(xué)習(xí)狀態(tài)與趨勢,從而發(fā)現(xiàn)學(xué)習(xí)危機學(xué)生。
目前研究中更多的是社交媒體大數(shù)據(jù)用于心理危機的識別。社交媒體已經(jīng)成為人們分享和表達(dá)情感的常態(tài)化形式,對社交媒體大數(shù)據(jù)進行情感挖掘和分析有助于發(fā)現(xiàn)學(xué)生非正常情感。孫婉婷(2016)從新浪微博、人人網(wǎng)和百度貼吧采集文本,依據(jù)學(xué)生實際建立情感詞典,并研究出一種表情符號和文本傾向度加權(quán)的情感分析方法,從而建立了學(xué)生心理預(yù)警系統(tǒng)。唐厚強(2017)提取電子科技大學(xué)學(xué)生論壇中學(xué)生發(fā)布的帖子信息,提出一種回歸和分類相結(jié)合的算法,實現(xiàn)對學(xué)生在論壇中發(fā)布信息時心理狀態(tài)的研判和對學(xué)生成績的預(yù)測。李鵬宇(2014)通過分析新浪微博中抑郁用戶的語言和行為等特征,建立了兩種機器學(xué)習(xí)模型,分別用于預(yù)測用戶有抑郁傾向和無抑郁傾向,通過對1,502名高校學(xué)生微博信息進行實證研究,發(fā)現(xiàn)大學(xué)生抑郁的概率與性別存在顯著相關(guān)等規(guī)律。張金偉等(2013)構(gòu)建了基于性格、心情和情感空間的多層心理預(yù)警模型,使用情感詞典法對高校學(xué)生微博文本進行分析,從而識別出可能存在危機的學(xué)生并進行預(yù)警。
(三)教學(xué)過程優(yōu)化
通過社交媒體大數(shù)據(jù)可以在一定程度上監(jiān)測學(xué)生的學(xué)習(xí)進度、學(xué)習(xí)表現(xiàn)、興趣點、困難點等狀態(tài)與需求,從而為教師調(diào)整和優(yōu)化教學(xué)過程提供依據(jù)。目前基于社交媒體大數(shù)據(jù)進行教學(xué)過程優(yōu)化主要有教學(xué)策略調(diào)整和教學(xué)資源推薦兩個方面。
教學(xué)策略調(diào)整是指通過挖掘產(chǎn)生的知識有針對性地為每一位學(xué)習(xí)者提供個性化指導(dǎo)或改進教學(xué)方法。Anaya等(2009)為了提升網(wǎng)絡(luò)教育環(huán)境下學(xué)習(xí)與管理的效果,以論壇中學(xué)習(xí)者互動的統(tǒng)計指標(biāo)為依據(jù),使用聚類算法作為推理方法,將學(xué)習(xí)者協(xié)作學(xué)習(xí)能力呈現(xiàn)給導(dǎo)師和學(xué)習(xí)者,并據(jù)此有針對性地調(diào)整和改進協(xié)作學(xué)習(xí)策略。
教學(xué)資源推薦是指通過挖掘得出的規(guī)律有針對性地進行資源或工具的推薦,幫助學(xué)習(xí)者快速找到所需資源。Yang等(2014)為解決學(xué)生在含有大量帖子的課程論壇中找不到合適主題帖子的問題,提出了一種融合學(xué)生同伴關(guān)系、學(xué)生活動整體指標(biāo)、全局特征和主題特征的自適應(yīng)矩陣分解方法,實現(xiàn)對帖子的全面分析和有針對性的合理推薦。秦昌博(2017)為了提高教師在課程論壇中答疑的效率,以中文慕課為研究對象,構(gòu)建了支持向量機分類器對學(xué)生課程論壇中帖子所表現(xiàn)出來的情感進行分類,并將“解釋”“困惑”兩種情感傾向的文本通過TF-IDF和TextRank算法提取出文本中所包含的難點,教師可以對“解釋”“困惑”的帖子有針對性地進行解答,節(jié)省了教師逐條瀏覽帖子的大量時間。
(四)教育輿情分析
輿情即輿論情況,亦即民眾的情緒、意見和態(tài)度(舒剛, 2016)。教育輿情是指在一定的社會空間內(nèi),作為主體的民眾針對有關(guān)教育中介型社會事項所產(chǎn)生和持有的社會政治態(tài)度(李昌祖, 等, 2014)。通過教育輿情分析,教育管理者可以清楚地了解和監(jiān)測公眾對教育事件的態(tài)度,進而有針對性地進行政策調(diào)整和輿論引導(dǎo)。
目前,通過社交媒體大數(shù)據(jù)進行教育輿情分析的研究和實踐可以概括為兩個方向:一是通過主題分析發(fā)現(xiàn)熱點事件;二是針對某一事件進行公眾情感的分析。殷紅等(2018)基于大數(shù)據(jù)技術(shù)構(gòu)建了一個教育網(wǎng)絡(luò)輿情分析系統(tǒng),從社交媒體、教育網(wǎng)等平臺采集教育輿情信息,利用主題模型進行教育輿情事件挖掘,通過聚類將多源數(shù)據(jù)進行融合,最后通過情感分析技術(shù)挖掘大眾對某些教育事件的情緒,并通過對比研究發(fā)現(xiàn)教育事件的發(fā)展規(guī)律。于衛(wèi)紅(2017)開發(fā)了一款多Agent高校網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),包含采集、預(yù)處理、輿情分析和簡報生成四個主要功能,從社交媒體平臺提取主題帖,遠(yuǎn)程調(diào)用R語言進行輿情分析并生成簡報供學(xué)校相關(guān)部門參考使用。
二、方法與路徑
目前,社交媒體大數(shù)據(jù)分析一般都需要經(jīng)歷數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析和可視化四個階段(如圖1所示)。
(一)數(shù)據(jù)采集與預(yù)處理
1. 數(shù)據(jù)采集
社交媒體數(shù)據(jù)采集一般有三種方法:API、網(wǎng)絡(luò)爬蟲和數(shù)據(jù)庫獲取。
(1)API(Application Programming Interface,應(yīng)用程序編程接口)是一組預(yù)先定義的函數(shù),外部開發(fā)人員不需要了解程序內(nèi)部的工作機理,僅僅通過簡單的調(diào)用便可實現(xiàn)相應(yīng)的功能。如新浪微博提供開放的API接口,允許外部開發(fā)者獲得用戶發(fā)表的博文信息,而不需要了解微博內(nèi)部數(shù)據(jù)存儲和通訊等工作原理。目前主流的社交媒體平臺(如新浪微博、百度貼吧、Twitter、Facebook等)均開放了API,只需申請便可根據(jù)需求進行調(diào)用。
(2)網(wǎng)絡(luò)爬蟲,又稱“網(wǎng)絡(luò)機器人”,是一種自動抓取網(wǎng)絡(luò)數(shù)據(jù)的程序。爬蟲可以模擬人為登錄行為,根據(jù)預(yù)先制定的規(guī)則對網(wǎng)頁中符合要求的文本、圖片、視頻等數(shù)據(jù)進行自動采集并保存至本地。主流的開源爬蟲框架包括Scrapy、Crawley和PySpider等。
(3)服務(wù)器數(shù)據(jù)庫記錄著學(xué)生各項數(shù)據(jù),如成績、學(xué)習(xí)時長、登錄時長、討論文本、彈幕、圖片、視頻和上傳的文件等;網(wǎng)絡(luò)日志記錄著學(xué)生登錄操作、頁面跳轉(zhuǎn)等重要信息,可以借助Logagent、Filebeat和Logstash等工具進行采集。
2. 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是比較耗時卻至關(guān)重要的過程,主要包括數(shù)據(jù)清理和數(shù)據(jù)集成(韓家煒, 等, 2012)。
(1)數(shù)據(jù)清理主要對空值進行處理、對離散值數(shù)據(jù)進行發(fā)現(xiàn)和清除等。最常用的方法是利用回歸、貝葉斯和判定樹等算法將空缺部分填入概率最大的值,還可以用全局常量替換空缺值、取平均值填補空缺等方法。
(2)數(shù)據(jù)集成是將相互關(guān)聯(lián)的多源異構(gòu)數(shù)據(jù)存儲在一起,通常需要解決三個方面的問題:模式集成、數(shù)據(jù)冗余和數(shù)據(jù)沖突。模式集成是將采集自不同數(shù)據(jù)源中的實體進行匹配與集成,將具有相同含義的實體進行識別,是模式集成的重要部分。對于數(shù)據(jù)冗余,一般通過相關(guān)分析(如卡方檢測、協(xié)方差等)進行檢測。數(shù)據(jù)沖突主要由于多源數(shù)據(jù)源對同一事物描述不同導(dǎo)致的,目前主要有X-Specs(Lawrence, 2001)和COIN(Goh, 1997)兩種處理方法。
(二)數(shù)據(jù)存儲
不同類型的數(shù)據(jù)需要分別存儲,結(jié)構(gòu)化數(shù)據(jù)指字段類型和長度得到定義的數(shù)據(jù),如學(xué)生人口學(xué)數(shù)據(jù)、登錄次數(shù)、登錄時長、論壇參與績點等,通常存儲于關(guān)系型數(shù)據(jù)庫中。目前主流關(guān)系型數(shù)據(jù)庫有MySQL、SQL Server和Oracle等。非結(jié)構(gòu)化數(shù)據(jù)沒有預(yù)先定義數(shù)據(jù)模型,沒有嚴(yán)格的數(shù)據(jù)格式,如發(fā)表的博文、語音、視頻、圖片、文檔等,其存儲數(shù)據(jù)庫大致可以分為鍵值存儲數(shù)據(jù)庫、列存儲數(shù)據(jù)庫、文檔型存儲數(shù)據(jù)庫和圖形數(shù)據(jù)庫四類。鍵值存儲數(shù)據(jù)庫使用一張哈希表,表中的有鍵和指針指向特定的數(shù)據(jù),代表性的數(shù)據(jù)庫主要有Oracle BDB、Tyrant和Redis。列存儲數(shù)據(jù)模型主要來自Google的Big Table(申德榮, 等, 2013),以HBase、Riak和Cassandra為代表,其最大的優(yōu)勢在于讀寫速度較快,更適合大數(shù)據(jù)處理。文檔型數(shù)據(jù)庫有CouchDB、MongoDB等,文檔一般以特定的格式(如JSON)存儲在數(shù)據(jù)庫中,該類型數(shù)據(jù)庫對數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格,表的結(jié)構(gòu)也是可以發(fā)生變化的。圖形數(shù)據(jù)庫主要用于社交網(wǎng)絡(luò)和推薦系統(tǒng),更加專注于構(gòu)建關(guān)系圖譜,典型數(shù)據(jù)庫有Neo4J、InfoGrid、Infinite Graph等。
(三)數(shù)據(jù)分析
社交媒體中最常見的數(shù)據(jù)形式是文本、表情符號、圖片和微視頻等,其中包含著復(fù)雜的關(guān)系網(wǎng)絡(luò)。當(dāng)前,教育領(lǐng)域?qū)ι缃幻襟w圖片和視頻進行挖掘分析還相對較少,研究和實踐較多的是文本挖掘和關(guān)系挖掘,對表情符號的挖掘一般也是轉(zhuǎn)化為文本進行分析。文本挖掘最常見的是文本情感分析和文本主題挖掘,關(guān)系挖掘最常用的方法是社會網(wǎng)絡(luò)分析。
1. 文本情感分析
情感分析,又叫“觀點挖掘”,是從文本中發(fā)掘人們對某物體、事件等的觀點、評價、情感、情緒和態(tài)度等(劉兵, 2018)。文本情感分析最常用的方法是情感詞典法和機器學(xué)習(xí)法。
(1)情感詞典法
情感詞典法一般先建立情感詞典,對詞典中每個詞賦予相對應(yīng)的權(quán)重值,隨后對文本進行分詞并對其中的情感詞進行加權(quán)計算,最終計算出整條微博的情感權(quán)重值,以此界定該博文的情感傾向。情感詞典主要由情感詞、情感短語和成語組成。目前比較成熟的中文情感詞典主要有知網(wǎng)(HowNet)、大連理工大學(xué)情感詞匯本體庫(徐琳宏, 等, 2008)、臺灣大學(xué)中文情感極性詞典等,英文情感詞典有WordNet、General Inquirer和CYC知識庫等。研究者大多根據(jù)實際需求在這些已有詞典的基礎(chǔ)上進行完善或重建,繼而進行情感分析。Min等(2014)匯總《情感分析詞集》《臺灣大學(xué)中文情感極性詞典》《褒貶義詞典》中正面和負(fù)面詞匯組成新的情感詞典,對采集自BBS論壇的數(shù)據(jù)進行情感計算。孫波等(2015)將常用微博表情符號和人工標(biāo)注出的常用新詞與偽詞組合成“情感符號表”,以大連理工大學(xué)情感本體庫為基礎(chǔ),采用逐點互信息(Pointwise Mutual Information,PMI)方法進行計算,構(gòu)建了符合學(xué)生風(fēng)格和微博特點的學(xué)生情感詞典,并在此基礎(chǔ)上設(shè)計了學(xué)生微博情感計算方法。情感詞典法具有較高的準(zhǔn)確率,但也存在召回率低的問題。同時,構(gòu)建一個符合某項需求的詞典往往需要耗費較大的人力和物力,成本較高。
(2)機器學(xué)習(xí)法
隨著語料庫、語言知識庫的發(fā)展,越來越多的研究人員開始采用機器學(xué)習(xí)方法訓(xùn)練語言模型,用以對文本進行情感分析?;跈C器學(xué)習(xí)的情感分析可以理解為基于文本中表現(xiàn)出的情感進行文本分類的過程,主要算法包括支持向量機、樸素貝葉斯、決策樹、K-臨近、潛在狄利特雷分布模型(Latent Dirichlet Allocation,LDA)等。帕瑪納等(Permana, Rosmansyah, & Abdullah, 2017)采用貝葉斯分類器建立模型,通過分析學(xué)生Twitter文本來預(yù)測學(xué)生學(xué)習(xí)的滿意度,準(zhǔn)確率達(dá)84%。針對社交媒體大數(shù)據(jù)語法不規(guī)范難以進行情感分析的問題,劉志斌(2016)提出了一種基于情感詞抽取的LDA分類方法,該方法對學(xué)校網(wǎng)站留言情感識別準(zhǔn)確率為93.1%,對微博學(xué)生情感識別準(zhǔn)確率為74.2%,BBS識別準(zhǔn)確率為79.6%。Wei等(2017)提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶模型的轉(zhuǎn)移學(xué)習(xí)框架,用于自動識別MOOC論壇中的文本是否存在困惑情緒以及困惑的緊迫性。
2. 文本主題挖掘
文本主題挖掘可以從大量文本中提取出學(xué)習(xí)者集中關(guān)注的話題,以達(dá)到提煉主要論點的目的。文本主題挖掘在教育領(lǐng)域的典型應(yīng)用是對論壇中的帖子進行分類。向量空間模型和N-gram文本特征提取是較為傳統(tǒng)的文本主題提取算法。隨著技術(shù)的發(fā)展,一些基于機器學(xué)習(xí)、深度學(xué)習(xí)的算法開始引起人們的關(guān)注,如LDA主題模型、卷積神經(jīng)網(wǎng)絡(luò)、貝葉斯算法等。Lin等(2017)為了對慕課論壇中學(xué)生發(fā)帖主題進行分類,提出一種基于用戶交互行為數(shù)據(jù)為特征的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型。由于將用戶交互行為數(shù)據(jù)作為特征,該模型可以保證不受教學(xué)內(nèi)容以及語言的限制,因此在慕課論壇主題分類中表現(xiàn)較好。王嘉倫(2015)首先利用LDA主題模型提取Coursera論壇中帖子的主題,隨后分別研究不同特征條件下的分類器的分類效果,通過對比實驗發(fā)現(xiàn)基于混合特征訓(xùn)練的分類器效果明顯好于僅使用帖子主題特征訓(xùn)練的分類器。
3. 社會網(wǎng)絡(luò)分析
社交媒體最重要的功能之一便是促進了復(fù)雜社交關(guān)系網(wǎng)絡(luò)的形成,其中的復(fù)雜關(guān)系(如學(xué)習(xí)者之間的人際關(guān)系等)可以通過社會網(wǎng)絡(luò)分析方法進行挖掘。社會網(wǎng)絡(luò)分析方法是社會學(xué)家根據(jù)數(shù)學(xué)方法、圖論等發(fā)展起來的定量分析方法,它可以對各種關(guān)系進行精確的量化分析(斯科特, 2007)。在教育研究中,研究者側(cè)重對學(xué)習(xí)者所構(gòu)成社會網(wǎng)絡(luò)的密度、中心性和凝聚子群等進行分析。密度分析用于研究學(xué)習(xí)者之間聯(lián)系的緊密程度;中心性分析用于分析某個學(xué)習(xí)者在學(xué)習(xí)團體中的重要性;凝聚子群分析可以發(fā)現(xiàn)不同學(xué)習(xí)者之間構(gòu)成的小團體。當(dāng)前教育研究中社會網(wǎng)絡(luò)分析多借助一些成熟的軟件來實現(xiàn),如UCINET、Pajek、NetDraw、Mage等。黎加厚等(2007)在研究網(wǎng)絡(luò)時代教育傳播規(guī)律時,以蘇州教育博客“推薦博客”群體為研究對象,采用UCINET軟件對該群體中密度、出度、入度和中心性進行研究,發(fā)現(xiàn)密度、中心性和對象多元性對創(chuàng)新能力有著顯著正向影響。趙紅霞等(2016)采用類似方法對新浪微博上“留守兒童”標(biāo)簽用戶進行檢索,通過社群圖分析、中心性分析、凝聚子群分析發(fā)現(xiàn)主題微博中存在的問題并給出建議。此外,還有一款專門用于教育的社會網(wǎng)絡(luò)分析軟件——SNAPP,這是基于社交網(wǎng)絡(luò)分析的實時診斷系統(tǒng),用于研究論壇中學(xué)生實時交互情況、中心性等信息,并根據(jù)需要進行干預(yù)。SNAPP支持在流行的商業(yè)和開源學(xué)習(xí)管理系統(tǒng)中使用,如Blackboard、Desire2Learn和Moodle平臺等,目前2.0版本可視化功能逐漸完善,已具備動態(tài)演示社會網(wǎng)絡(luò)變化的功能。
(四)數(shù)據(jù)可視化
經(jīng)過上述分析過程直接產(chǎn)生的數(shù)據(jù)結(jié)果往往需要進行科學(xué)解釋才能為實際應(yīng)用提供參考,這對無數(shù)據(jù)分析基礎(chǔ)的教育研究者或?qū)嵺`者是相對困難的,因此需要將數(shù)據(jù)可視化??梢暬夹g(shù)是指通過計算機和圖像處理技術(shù)將數(shù)據(jù)生成直觀的圖形,通過屏幕呈現(xiàn),并可以進行交互處理的技術(shù)(劉勘, 等, 2002)??梢暬夹g(shù)可以清晰、直觀地呈現(xiàn)數(shù)據(jù)分析產(chǎn)生的“知識”,增強數(shù)據(jù)結(jié)果的可讀性,是大數(shù)據(jù)處理不可或缺的環(huán)節(jié)。
當(dāng)前常用的數(shù)據(jù)可視化方法有數(shù)據(jù)立方體、數(shù)值域、時間與關(guān)系和文本文檔四種類型(阮彤, 等, 2016)。數(shù)據(jù)立方體是一種多維矩陣,從多個維度呈現(xiàn)直觀結(jié)果,常見的形式有折線圖、柱狀圖、散點圖、星狀圖等;數(shù)值域是指在某個空間上密集分布的數(shù)據(jù)場,由分布于全場的網(wǎng)格和網(wǎng)格節(jié)點上的屬性構(gòu)成,常見的形式有矩陣、熱力圖、直方圖、地圖等;在時間與關(guān)系中時間維度通常用于呈現(xiàn)事物隨時間序列變化發(fā)展的情形,如日歷圖、甘特圖等,關(guān)系維度則是表明兩個事項之間的關(guān)聯(lián),如維恩圖、旭日圖、樹圖等;文本文檔屬于一類特殊的可視化方法,一般包括字符云、主題河流和文檔散等。研究者一般綜合使用這幾種方法進行數(shù)據(jù)可視化,并且大多會開發(fā)相應(yīng)的可視化工具來系統(tǒng)性地呈現(xiàn)數(shù)據(jù)。加西亞塞茲等(García-Saiz, Palazuelos, & Zorrilla, 2014)為了幫助教師發(fā)現(xiàn)學(xué)生在論壇中的行為模式和挖掘?qū)W生輟學(xué)傾向,采用數(shù)據(jù)立方體、時間與關(guān)系可視化方法,基于社會網(wǎng)絡(luò)分析和數(shù)據(jù)挖掘技術(shù)開發(fā)了可視化工具——EIWM,該工具能夠?qū)崿F(xiàn)“學(xué)生表現(xiàn)或者輟學(xué)傾向的預(yù)測(分類任務(wù))”“博客或者論壇的協(xié)作分析(社會網(wǎng)絡(luò)分析)”“論壇和博客中的社區(qū)發(fā)現(xiàn)(社會網(wǎng)絡(luò)分析)”等功能。Fu等(2016)采用數(shù)據(jù)立方體、數(shù)值域和時間與關(guān)系可視化方法,基于MOOC課程論壇開發(fā)了iForm可視化系統(tǒng),可以多維度顯示課程參與指標(biāo),包括用戶和帖子總體變化趨勢、學(xué)生交互關(guān)系、不同用戶隨著時間變化的動態(tài)模式等。
三、挑戰(zhàn)與機遇
在應(yīng)用社交媒體大數(shù)據(jù)的過程中主要面臨三大挑戰(zhàn):多源異構(gòu)數(shù)據(jù)的融合應(yīng)用問題、數(shù)據(jù)挖掘的合理性問題和倫理隱私問題。挑戰(zhàn)與機遇并存,這也是社交媒體大數(shù)據(jù)在教育領(lǐng)域被深入挖掘應(yīng)用所需要進一步探究的問題。
(一)多源異構(gòu)數(shù)據(jù)的融合應(yīng)用問題
獨立的數(shù)據(jù)源獲取的信息是有限的,數(shù)據(jù)源的融合更有利于深度挖掘數(shù)據(jù)的價值。如在商業(yè)領(lǐng)域?qū)N售記錄與天氣、地理位置、社交媒體等數(shù)據(jù)結(jié)合分析,很容易發(fā)現(xiàn)影響銷售收入的外在因素;將社區(qū)房地產(chǎn)價格與價格歷史、近期交易記錄、物業(yè)動態(tài)等結(jié)合,可用于預(yù)測社區(qū)房產(chǎn)價格走勢等(桑基韜, 等, 2014)。然而,當(dāng)前教育大數(shù)據(jù)可能來自領(lǐng)域數(shù)據(jù)庫、知識庫或者Web頁面的開放信息等渠道或平臺,具有多源異構(gòu)的特征。而且,這些數(shù)據(jù)被物理存放在不同的系統(tǒng)中,各個平臺關(guān)注的用戶行為信息不同,提取到的信息類型也不統(tǒng)一,并且存在跨平臺用戶,這些割裂的多源異構(gòu)數(shù)據(jù)造成了各種數(shù)據(jù)孤島,給大數(shù)據(jù)分析帶來非常大的挑戰(zhàn)。如何將這些割裂的數(shù)據(jù)進行合理整合應(yīng)用,從而發(fā)現(xiàn)新規(guī)律,更全面、精準(zhǔn)地利用大數(shù)據(jù),是當(dāng)前社交媒體大數(shù)據(jù)深入挖掘面臨的巨大挑戰(zhàn)。
通過文獻(xiàn)調(diào)研可以看到,社交媒體大數(shù)據(jù)可以用以支持學(xué)習(xí)者畫像、危機發(fā)現(xiàn)、教學(xué)過程優(yōu)化和輿情分析等,但這僅僅是教育大數(shù)據(jù)的一部分,將其作為單一數(shù)據(jù)源來進行學(xué)習(xí)者畫像等是有其局限性和片面性的。教育是一項復(fù)雜的交互活動,通過大數(shù)據(jù)提供精準(zhǔn)的支持和服務(wù),僅僅依靠分析某個社交媒體平臺或者只掌握社交媒體大數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,需要對多源異構(gòu)數(shù)據(jù)進行綜合分析。當(dāng)前,已有研究者關(guān)注大數(shù)據(jù)的多源異構(gòu)問題,在研究中假設(shè)跨平臺的共同用戶存在,但并沒有真正找到能夠提取不同社交媒體平臺之間的用戶顯性對應(yīng)關(guān)系的方法,這為用戶跨平臺數(shù)據(jù)的整合分析帶來較大的阻礙,未來的研究可以進一步關(guān)注如何解決多平臺共同用戶發(fā)現(xiàn)這一問題。同時,不同的社交媒體平臺產(chǎn)生的數(shù)據(jù)有著多模態(tài)的特征,數(shù)據(jù)結(jié)構(gòu)并不一致,如微博的文本信息流數(shù)據(jù)、視頻分享網(wǎng)站的流媒體數(shù)據(jù)、社交過程中的用戶交互數(shù)據(jù)、地理位置數(shù)據(jù)等。不同模態(tài)數(shù)據(jù)的處理和整合應(yīng)用方法也是需要進一步研究的問題。
(二)數(shù)據(jù)挖掘的合理性與準(zhǔn)確率問題
一方面,由于多源異構(gòu)數(shù)據(jù)處理所面臨的技術(shù)挑戰(zhàn),社交媒體大數(shù)據(jù)的應(yīng)用仍停留在淺顯的挖掘?qū)用?,其蘊含的價值并沒有得到充分挖掘。如文中提到的學(xué)習(xí)者危機發(fā)現(xiàn)僅通過某個平臺的文本進行挖掘,沒有考慮到融合用戶多平臺中的數(shù)據(jù)以及時間序列特征,分析難免存在片面性和局限性。
另一方面,社交媒體大數(shù)據(jù)分析通常涉及語義理解,計算機語義理解的準(zhǔn)確率較低也是當(dāng)前面臨的困境之一。學(xué)習(xí)者在社交媒體中發(fā)布帖子等具有隨意性,語法使用不規(guī)范等問題頻繁發(fā)生,加之漢語本身所具備的一些特性(如反語等),使得學(xué)習(xí)者真實表達(dá)的語義有時并不能從字面進行理解。當(dāng)前在漢語語義理解層面,基于統(tǒng)計的機器學(xué)習(xí)算法很難理解其內(nèi)在的真實含義,而深度學(xué)習(xí)在此領(lǐng)域的研究也剛剛起步。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,社交媒體大數(shù)據(jù)的分析準(zhǔn)確率也會隨之改進,數(shù)據(jù)中蘊含的知識也會更有效、更準(zhǔn)確地被挖掘出來。
(三)倫理隱私問題
雖然有些學(xué)習(xí)者在使用社交媒體時有意將個人信息隱藏,但是其在社交媒體中留下的“足跡”(零碎的信息)經(jīng)過大數(shù)據(jù)分析,也可以“拼湊”出一個學(xué)生的基本面貌。同時,現(xiàn)在越來越多的科研機構(gòu)和個人為了研究方便,經(jīng)常公開一些數(shù)據(jù)集,而數(shù)據(jù)集大多來自學(xué)習(xí)者的真實信息,雖然在進行數(shù)據(jù)公開時做了匿名化處理,但依然可以從匿名數(shù)據(jù)中挖掘出部分用戶特征。如何保護利益相關(guān)者的數(shù)據(jù)隱私也是社交媒體大數(shù)據(jù)應(yīng)用面臨的一大挑戰(zhàn)。
對于隱私數(shù)據(jù)的保護,已經(jīng)越來越引起教育研究者的關(guān)注。北京師范大學(xué)智慧研究院發(fā)起編制了《在線學(xué)習(xí)中的個人數(shù)據(jù)和隱私保護:面向?qū)W生、教師和家長的指導(dǎo)手冊》,提出了在線學(xué)習(xí)中與個人數(shù)據(jù)和隱私相關(guān)的5個階段、30個安全問題和具體操作建議,對教育領(lǐng)域數(shù)據(jù)隱私安全水平的提升具有重要的參考價值。本研究認(rèn)為對社交媒體大數(shù)據(jù)的隱私保護,未來可以進一步從法律法規(guī)、行業(yè)自律和大數(shù)據(jù)技術(shù)三個層面推進。
1. 法律法規(guī)層面
我國憲法明確規(guī)定“公民的通信自由和通信秘密受法律的保護”。同時,私人信息屬隱私范疇。據(jù)報道,全國人大常委會已將制定個人信息保護法列入立法規(guī)劃。個人隱私權(quán)的保護是國家法律層面一貫重視的,并且正在逐步完善,這些都為個人信息隱私的保護提供了重要法律依據(jù)。
2. 行業(yè)自律層面
社交媒體運營商存儲著大量隱私數(shù)據(jù),他們也非常重視對敏感數(shù)據(jù)的保護、使用和發(fā)布等。相關(guān)協(xié)會和企業(yè)通過制定公約的形式對數(shù)據(jù)的使用和保護方式進行約定。中國互聯(lián)網(wǎng)協(xié)會發(fā)布的《博客服務(wù)自律公約》規(guī)定,“博客服務(wù)提供者應(yīng)盡到保密義務(wù)”。《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》規(guī)定,“搜索引擎服務(wù)提供者有義務(wù)協(xié)助保護用戶隱私和個人信息安全”。除此之外,國內(nèi)不少互聯(lián)網(wǎng)公司(如百度、騰訊、阿里巴巴、華為等)也出臺了相應(yīng)的自律規(guī)范。
3. 大數(shù)據(jù)技術(shù)層面
法律法規(guī)和行業(yè)自律對于大數(shù)據(jù)行業(yè)觀念層面起著引領(lǐng)作用,更為關(guān)鍵的是從技術(shù)層面真正做好相關(guān)約束,切實做到保護利益相關(guān)者的隱私。方濱興等(2016)提出了大數(shù)據(jù)隱私保護生命周期模型,指出在大數(shù)據(jù)發(fā)布、存儲、分析和使用四個階段中均面臨隱私泄露的風(fēng)險,并且分析了當(dāng)前可采用的技術(shù)以及未來的發(fā)展趨勢,為大數(shù)據(jù)隱私保護提供了思路和技術(shù)上的引領(lǐng)。在社交媒體大數(shù)據(jù)使用階段,基于位置的隱私信息也是當(dāng)前研究的熱點,如莫克貝爾等(Mokbel, Chow, & Aref, 2015)提出了一種k-anonymity保護方法,周藝華等(2019)提出了一種基于GeoHash的位置保護策略,等等。
四、總結(jié)
當(dāng)前,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,社交媒體大數(shù)據(jù)蘊藏的巨大教育價值已經(jīng)逐漸被挖掘并應(yīng)用。社交媒體大數(shù)據(jù)教育應(yīng)用國內(nèi)研究側(cè)重高等教育領(lǐng)域,面向中小學(xué)階段的研究較少,這與我國目前的教育環(huán)境有關(guān),大多數(shù)中小學(xué)校限制使用移動設(shè)備,這也限制了中小學(xué)生社交媒體的應(yīng)用。同時,目前大數(shù)據(jù)與教育相關(guān)的論文較多,但是大多數(shù)偏向理論構(gòu)建,實證研究偏少。
社交媒體大數(shù)據(jù)挖掘可以為教師、管理者、學(xué)生、家長等利益相關(guān)者提供相應(yīng)的決策支持,但目前的學(xué)習(xí)者畫像、學(xué)習(xí)者危機發(fā)現(xiàn)、教學(xué)過程優(yōu)化和教育輿情分析都普遍存在由于數(shù)據(jù)源不全面而導(dǎo)致的數(shù)據(jù)價值未被充分挖掘的問題。社交媒體大數(shù)據(jù)可以作為對學(xué)習(xí)者進行分析的補充性數(shù)據(jù)源,但必須跟學(xué)習(xí)者其他數(shù)據(jù)(如學(xué)生管理系統(tǒng)數(shù)據(jù)等)進行綜合分析,才能有助于更全面、精準(zhǔn)地發(fā)現(xiàn)問題,也才能更好地體現(xiàn)其價值。同時,社交媒體大數(shù)據(jù)的應(yīng)用有賴于自然語言理解等技術(shù)的支持,當(dāng)前由于語法不規(guī)范等問題導(dǎo)致的數(shù)據(jù)分析準(zhǔn)確率還比較低,需要進一步建立和完善面向青少年學(xué)生的語料庫,隨著技術(shù)的發(fā)展和語料的累積,數(shù)據(jù)的分析率也會逐步提高。而且,當(dāng)前研究和實踐對教育隱私數(shù)據(jù)保護還未引起足夠的重視??傊?,教育技術(shù)領(lǐng)域的研究者與實踐者需要從大數(shù)據(jù)技術(shù)和教育實踐的角度深度挖掘需求,探尋技術(shù)與教育無縫整合的方式,使大數(shù)據(jù)真正融入教育,影響教育,變革教育。
[參考文獻(xiàn)]
陳海建,戴永輝,韓冬梅,等. 2017. 開放式教學(xué)下的學(xué)習(xí)者畫像及個性化教學(xué)探討[J]. 開放教育研究,23(3):105-112.
方濱興,賈焰,李愛平,等. 2016. 大數(shù)據(jù)隱私保護技術(shù)綜述[J]. 大數(shù)據(jù),2(1):1-18.
韓家煒,米舍萊恩·坎伯,等. 2012. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 范明,孟小峰,譯. 北京:機械工業(yè)出版社.
劉兵. 2018. 情緒分析挖掘觀點、情感和情緒[M]. 劉康,趙軍,譯. 北京:機械工業(yè)出版社.
李昌祖,楊延圣. 2014. 教育輿情的概念解析[J]. 浙江工業(yè)大學(xué)學(xué)報(社會科學(xué)版),13(3):241-246.
李光耀,宋文廣,謝艷晴. 2018. 智慧校園學(xué)生畫像方法研究[J]. 現(xiàn)代電子技術(shù),41(12):161-163.
黎加厚,趙怡,王玨. 2007. 網(wǎng)絡(luò)時代教育傳播學(xué)研究的新方法:社會網(wǎng)絡(luò)分析——以蘇州教育博客學(xué)習(xí)發(fā)展共同體為例[J]. 電化教育研究(8):13-17.
劉勘,周曉崢,周洞汝. 2002. 數(shù)據(jù)可視化的研究與發(fā)展[J]. 計算機工程(8):1-2.
李鵬宇. 2014. 微博社交網(wǎng)絡(luò)中的學(xué)生用戶抑郁癥識別方法研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué)高等教育研究所.
林育曼. 2018. 國內(nèi)社交媒體教育應(yīng)用的研究趨勢分析[J]. 傳媒(21):79-83.
劉志斌. 2016. 短文本情感傾向分析研究及應(yīng)用[D]. 哈爾濱:哈爾濱工程大學(xué)計算機科學(xué)與技術(shù)學(xué)院.
秦昌博. 2017. 中文MOOC論壇課程中情緒分析及知識難點的挖掘研究[D]. 北京:北京郵電大學(xué)信息與通信工程學(xué)院.
阮彤,王昊奮,陳為,等. 2016. 大數(shù)據(jù)技術(shù)前言[M]. 北京:中國工信出版集團.
孫波,陳玖冰,劉永娜. 2015. 大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J]. 北京師范大學(xué)學(xué)報(自然科學(xué)版),51(4):358-361.
舒剛. 2016. 我國教育輿情研究的熱點議題及趨勢展望——基于CNKI(2009-2015)的數(shù)據(jù)分析[J]. 國家教育行政學(xué)院學(xué)報(10):40-46.
舒瑩,姜強,趙蔚. 2019. 在線學(xué)習(xí)危機精準(zhǔn)預(yù)警及干預(yù):模型與實證研究[J]. 中國遠(yuǎn)程教育(8):27-34.
?;w,路冬媛,徐常勝. 2014. 基于共同用戶的跨網(wǎng)絡(luò)分析:社交媒體大數(shù)據(jù)中的多源問題[J]. 科學(xué)通報,59(36):3554-3560.
孫婉婷. 2016. 面向?qū)W生社交平臺的情感傾向分析技術(shù)的研究[D]. 大連:大連理工大學(xué)軟件學(xué)院.
唐厚強. 2017. 基于高校論壇數(shù)據(jù)的成績預(yù)測和學(xué)生心理狀況分析[D]. 成都:電子科技大學(xué)計算機科學(xué)與工程學(xué)院.
申德榮,于戈,王習(xí)特,等. 2013. 支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J]. 軟件學(xué)報,24(8):1786-1803.
特里·安德森,王志軍,張永勝,等. 2017. 教育技術(shù)三大支柱:學(xué)習(xí)管理系統(tǒng)、社交媒體和個人學(xué)習(xí)環(huán)境[J]. 中國遠(yuǎn)程教育(11):5-15,79.
特里·安德森,肖俊洪. 2020. 社交媒體在高等教育中的應(yīng)用:挑戰(zhàn)與機會[J]. 中國遠(yuǎn)程教育(2):21-31.
譚天,張子俊. 2017. 我國社交媒體的現(xiàn)狀、發(fā)展與趨勢[J]. 編輯之友(1):20-25.
王嘉倫. 2015. 面向大型開放在線課程的主題挖掘技術(shù)研究[D]. 武漢:華中科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院.
肖君,喬惠,李雪嬌. 2019. 基于xAPI的在線學(xué)習(xí)者畫像的構(gòu)建與實證研究[J]. 中國電化教育(1):123-129.
徐琳宏,林鴻飛,潘宇,等. 2008. 情感詞匯本體的構(gòu)造[J]. 情報學(xué)報,27(2):180-185.
殷紅,孫凱,王長波. 2018. 基于多源數(shù)據(jù)的教育網(wǎng)絡(luò)輿情分析[J]. 東華大學(xué)學(xué)報(自然科學(xué)版),44(4):586-589.
約翰·斯科特. 2007. 社會網(wǎng)絡(luò)分析法[M]. 劉軍,譯. 重慶:重慶大學(xué)出版社.
于衛(wèi)紅. 2017. 基于多Agent的高校網(wǎng)絡(luò)輿情監(jiān)測與分析系統(tǒng)[J]. 現(xiàn)代情報,37(10):53-57.
趙紅霞,程敏. 2016. “留守兒童”微博圈的實證研究——基于社會網(wǎng)絡(luò)分析視角[J]. 上海教育科研(3):18-21.
張金偉,劉曉平. 2013. 基于心理預(yù)警模型的微博情感識別研究[J]. 合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),36(11):1318-1322.
周文靜. 2018. 面向校園論壇用戶興趣的用戶畫像構(gòu)建方法研究[D]. 北京:北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院.
周藝華,李廣輝,楊宇光,等. 2019. 基于GeoHash的近鄰查詢位置隱私保護方法[J]. 計算機科學(xué),46(8):212-216.
Anaya, A. R., & Boticario, J. G. (2009). A Data Mining Approach to Reveal Representative Collaboration Indicators in Open Collaboration Frameworks. International Working Group on Educational Data Mining, (1): 210-219.
Fu, S. W., Zhao, J., Cui, W. W., & Qu, H. M. (2017). Visual Analysis of MOOC Forums with iForum. IEEE Transactions on Visualization and Computer Graphics, 23(1): 201-210.
Goh, C. H. (1997). Representing and reasoning about semantic conflicts in heterogeneous information systems. Cambridge USA: Massachusetts Institute of Technology.
García-Saiz, Palazuelos, C., & Zorrilla, M. (2014). Data Mining and Social Network Analysis in the Educational Field: An Application for Non-Expert Users. Berlin Germany: Springer International Publishing.
Lawrence, R. (2001). Automatic Conflict Resolution to Integrate Schema. Canada: University of Manitoba.
Lin, F., Wang, L., Liu, S. L., & Liu, G. C. (2017). Classification of Discussion Threads in MOOC Forums Based on Deep Learning. In Proceedings of 2017 2nd International Conference on Wireless Communication and Network Engineering: DEStech Transactions on Computer Science and Engineering (pp. 506-511). USA: DEStech Publications.
Min, S. D., & Zhu, B. J. (2014). Collection and Analysis of Emotional Data in Bulletin Board System Forum of University. Applied Mechanics and Materials, 513-517:2099-2102.
Mokbel, M. F., Chow, C. Y., & Aref, W. G. (2015). The New Casper: A Privacy-Aware Location-Based Database Server. In IEEE International Conference on Data Engineering (pp. 1499-1500). Istanbul: Institute of Electrical and Electronics Engineers.
Permana, F. C., Rosmansyah, Y., & Abdullah, A. S. (2017). Naive Bayes as opinion classifier to evaluate students satisfaction based on student sentiment in Twitter Social Media. Journal of Physics Conference Series, 893(1): 012-051.
Rai, L., & Deng, C. R. (2016). Influencing factors of success and failure in MOOC and general analysis of learner behavior. International Journal of Information and Education Technology, 6(4): 262-268.
Wei, X. C., Lin, H. F., Yang, L., & Yu, H. Y. (2017). A convolution-LSTM-based deep neural network for cross-domain MOOC forum post classification. Information, 8(3): 92.
Wen, M. M., Yang, D. Y., & Rose, C. P. (2014). Sentiment Analysis in MOOC Discussion Forums: What does it tell us. In John, C. S., Zachary, A. P., Manolis, M., & Bruce, M. M. (Eds.), Proceedings of the 7th International Conference on Educational Data Mining (pp. 130-137). UK: International Educational Data Mining Society.
Wang, L., Hu, G. L., & Zhou, T. H. (2018). Semantic analysis of learners emotional tendencies on online MOOC education. Sustainability, 10(6): 1-19.
Yang, D., Piergallini, M., Howley, I., & Rosé, C. P. (2014). Forum thread recommendation for massive open online courses. In John, C. S., Zachary, A. P., Manolis, M., & Bruce, M. M. (Eds.), Proceedings of the 7th International Conference on Educational Data Mining (pp. 257-260). UK: International Educational Data Mining Society.
Yu, X., Yu, H., Tian, X. Y., Yu, G., Li, X. M., Zhang, X., et al. (2017). Recognition of college students from Weibo with deep neural networks. International Journal of Machine Learning and Cybernetics, 8(5): 1447-1455.
收稿日期:2020-02-05
定稿日期:2020-09-21
作者簡介:李彤彤,博士,副教授,碩士生導(dǎo)師;李坦,碩士研究生;郭栩?qū)?,碩士研究生。天津師范大學(xué)教育學(xué)部教育技術(shù)系(300387)。