摘 要: 大數(shù)據(jù)時代的到來,使得應(yīng)用教學(xué)資源提升教學(xué)效果成為必然,而網(wǎng)絡(luò)公開課標(biāo)簽化又是提升網(wǎng)絡(luò)教學(xué)資源使用效果的前提。在分析了三種主要的網(wǎng)絡(luò)公開課信息數(shù)據(jù)獲取途徑的基礎(chǔ)上,對其分別采用定期抽取、矩陣打分和智能聚類分類模型算法進(jìn)行分析和提取,搭建了具有分層分級管理思想的網(wǎng)絡(luò)公開課標(biāo)簽體系架構(gòu),形成了綜合性和獨特性兼?zhèn)涞恼n程標(biāo)簽庫。通過對公開課標(biāo)簽庫的研究,提升網(wǎng)絡(luò)公開課資源的覆蓋率和準(zhǔn)確性,對提升教學(xué)效果有重要意義。
關(guān)鍵詞: 大數(shù)據(jù); 網(wǎng)絡(luò)公開課; 標(biāo)簽; 模型
中圖分類號: TN711?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)03?0101?03
Construction of network public class label database based on big data
XU Jinling, MENG Qingfu, LIU Jing
(Beijing Institute of Technology, Zhuhai 519080, China)
Abstract: Coming of big data era makes the application of teaching resources and promotion of teaching effect become the necessity, and the labeling network public class is the premise of promoting the using effect of the network teaching resource. The main three approaches to acquire the information data of network public class are analyzed. Based on this, the data is analyzed and extracted by means of regular extraction, matrix grading, intelligent clustering and classification model algorithm respectively. The network public class label architecture with the thought of hierarchical and layered administration was established to form the class label database with both integrity and peculiarity. The studying of the public class label database can promote the coverage rate and accuracy of the network public class resources, and has certain contribution to promote the teaching result.
Keywords: big data; network public class; label; model
0 引 言
在信息與網(wǎng)絡(luò)技術(shù)迅速發(fā)展的推動下,大數(shù)據(jù)時代[1]已經(jīng)來臨。以數(shù)據(jù)為基礎(chǔ)的科學(xué)研究,為人類的生活創(chuàng)造了前所未有的可量化的維度??萍嘉墨I(xiàn)、科學(xué)數(shù)據(jù)、科技報告、科技成果等信息的開放與共享日益成為“數(shù)據(jù)驅(qū)動科研”方式的重要內(nèi)容和手段。高校教學(xué)資源在大數(shù)據(jù)時代也日趨豐富、完善[2?3],主要體現(xiàn)在互聯(lián)網(wǎng)上國內(nèi)外名校日益增多的公開課資源。使用網(wǎng)絡(luò)教學(xué)資源提升教學(xué)效果成為必然趨勢[4?5]。
由于網(wǎng)絡(luò)教學(xué)平臺的普遍使用[6?8],公開課資源幾乎覆蓋了經(jīng)濟(jì)與管理學(xué)科基礎(chǔ)教學(xué)內(nèi)容,成為相對最為完善的網(wǎng)上公開課程群。這些資源服務(wù)于不同的教學(xué)大綱和專業(yè)要求,適應(yīng)不同學(xué)習(xí)水平和特點的學(xué)生,直接將其用于教學(xué)存在嚴(yán)重的適應(yīng)性問題[9],因而國內(nèi)高校普遍把這些資源用于課外輔導(dǎo)和參考資料,鮮有直接用于課堂教學(xué)的案例。因此,提高公開資源在不同教學(xué)要求上的適應(yīng)性,能夠準(zhǔn)確甄別所需資源并應(yīng)用于課堂教學(xué)成為提升教學(xué)效果的必要手段。與此同時,大數(shù)據(jù)環(huán)境下的網(wǎng)上公開課程標(biāo)簽不僅能提升教師和學(xué)生搜索視頻資料的精準(zhǔn)度,而且能提升資料搜索的快捷性,為提高網(wǎng)絡(luò)公開課資源的利用提供便利條件。
在電信業(yè)、金融業(yè)等信息化產(chǎn)業(yè)標(biāo)簽體系[10]迅速發(fā)展的條件下,數(shù)據(jù)標(biāo)簽化已成為提升數(shù)據(jù)運用效果的首要前提。因此,為提升網(wǎng)絡(luò)資源使用效果,網(wǎng)絡(luò)公開課走向標(biāo)簽化是必然的趨勢。
1 網(wǎng)絡(luò)公開課標(biāo)簽庫框架
網(wǎng)絡(luò)公開課標(biāo)簽體系架構(gòu)如圖1所示,它包含網(wǎng)絡(luò)公開課數(shù)據(jù)源獲取、標(biāo)簽維度分析、標(biāo)簽適配和形成標(biāo)簽庫4個層次。首先通過網(wǎng)站收集、學(xué)校調(diào)研等多種方式獲取所需要的網(wǎng)絡(luò)公開課,針對課程屬性、面向群體等特征進(jìn)行分析形成多維標(biāo)簽,對這些分散的多維標(biāo)簽進(jìn)行梳理和匯總形成具有網(wǎng)絡(luò)公開課特色的標(biāo)簽庫。目前形成網(wǎng)絡(luò)公開課標(biāo)簽的維度包括:課程名稱、課程分類、作者分類、適用人群分類、訪問頻次、用戶評價分類,從而使教師或瀏覽人員能夠快速找到所需要的公開課,形成精確適配的網(wǎng)絡(luò)公開課標(biāo)簽庫。
2 搭建網(wǎng)絡(luò)公開課標(biāo)簽庫
2.1 獲取標(biāo)簽數(shù)據(jù)源
網(wǎng)絡(luò)公開課標(biāo)簽化就是對教學(xué)資源進(jìn)行科學(xué)分析,按資源特點、面向?qū)ο?、案例解決問題類別等不同維度進(jìn)行分類,在建立公開課資源多媒體信息庫的基礎(chǔ)上,對信息庫中每項資源建立標(biāo)簽,形成網(wǎng)絡(luò)公開課程標(biāo)簽庫,以便于教師在精細(xì)資源模塊基礎(chǔ)上根據(jù)不同教學(xué)需求進(jìn)行模塊重組,提高這些資源用于課堂教學(xué)的適應(yīng)性。網(wǎng)絡(luò)公開課標(biāo)簽之所以不能采用現(xiàn)在通用的社會化標(biāo)簽,是因為教學(xué)對象、教學(xué)目標(biāo)、關(guān)注點等因素都可能影響網(wǎng)絡(luò)公開課標(biāo)簽的構(gòu)建。
結(jié)合網(wǎng)絡(luò)公開課的具體特征,標(biāo)簽庫建設(shè)采用“客觀標(biāo)簽+主觀標(biāo)簽”的思路進(jìn)行搭建,維度主要覆蓋以下幾個方面:
(1) 基本信息。課程的基本信息,歸屬于客觀化標(biāo)簽。該信息可來源于教務(wù)系統(tǒng)的信息錄入,如所屬學(xué)科、授課人、授課時長、使用教材,該信息可幫助確立課程的基本標(biāo)簽,是擴展標(biāo)簽分析與提供服務(wù)的基礎(chǔ),是一切標(biāo)簽確立的根本化平臺。
(2) 適用對象。該標(biāo)簽庫介于主觀與客觀信息、原始與分析信息之間的一種課程特有的用戶信息,視頻課程平臺的瀏覽信息、觀看信息甚至觀看的時長和頻次等都可以作為分析與標(biāo)注網(wǎng)絡(luò)公開課標(biāo)簽的來源。對所獲取到的數(shù)據(jù)分析得越透徹,越能更準(zhǔn)確地識別公開課適用人群的適配特征。
(3) 網(wǎng)絡(luò)提取。課程的網(wǎng)絡(luò)提取信息,歸屬于客觀化標(biāo)簽。該部分信息來源的分析與提取難度較大,需要對重點視頻課程網(wǎng)站進(jìn)行分析,深入研究各網(wǎng)站的網(wǎng)頁腳本規(guī)律,采用網(wǎng)絡(luò)爬蟲技術(shù)對指定網(wǎng)站的瀏覽信息進(jìn)行追蹤,并通過多次的分析、提取,最終概括出準(zhǔn)確的公開課標(biāo)簽信息以及適用對象,這是挖掘課程與用戶需求對應(yīng)關(guān)系的重要途徑。
(4) 其他。根據(jù)增加的標(biāo)簽維度進(jìn)行擴展的子庫,主要根據(jù)標(biāo)簽庫使用情況進(jìn)行調(diào)整和完善。
前三類數(shù)據(jù)源的獲取,既借鑒了現(xiàn)有標(biāo)簽理論的成果,又充分考慮到網(wǎng)絡(luò)公開課的特性,分析和建立了與之適配的個性化標(biāo)簽維度。這三個部分的有機融合構(gòu)成了基于大數(shù)據(jù)的網(wǎng)絡(luò)公開課標(biāo)簽庫搭建的基礎(chǔ)。
2.2 標(biāo)簽維度分析算法
2.2.1 基本信息標(biāo)簽的分析與提取
網(wǎng)絡(luò)公開課基本信息中可提取出許多鮮明、確切的標(biāo)簽,如課程名稱、授課人員、所屬學(xué)科等信息,因此該部分標(biāo)簽的算法可由高校根據(jù)具體信息內(nèi)容與特點進(jìn)行抽取,既可從存儲數(shù)據(jù)庫中定時提取,也可根據(jù)制定的提取頻率從頁面進(jìn)行采集。但不論哪種方式,在標(biāo)簽制定時必須將課程基本信息維度的重要程度進(jìn)行選取與排序,鑒于授課人員、授課時長、所屬學(xué)科哲學(xué)因素對公開課選取的影響度較高,因此必須將其設(shè)置成優(yōu)先考慮的因素。
2.2.2 適用對象標(biāo)簽的分析算法
該算法的主導(dǎo)思想是根據(jù)用戶對公開課的評價和公開課中包含的標(biāo)簽,建立用戶和標(biāo)簽的關(guān)系,這就需要在公開課系統(tǒng)中增加公開課資源評價這一模塊,具備用戶打分、用戶信息記錄的功能,具體的分析算法可采用矩陣方法進(jìn)行。
可把用戶、公開課、標(biāo)簽定義為3 個相互關(guān)聯(lián)的數(shù)據(jù)集合,分別為用戶集[U=U1,U2,…,Un,]公開課集[C=C1,C2,…,Cn,]標(biāo)簽集[T=T1,T2,…,Tn。]由于用戶與標(biāo)簽的對應(yīng)關(guān)系是根據(jù)公開課與標(biāo)簽的對應(yīng)關(guān)系推算獲得,因此將這3 個集合可設(shè)置成兩個對應(yīng)矩陣:
[F:]用戶與公開課的對應(yīng)關(guān)系;
[F:]公開課與標(biāo)簽的對應(yīng)關(guān)系。
如果用戶[Ui]瀏覽了公開課[Cj,]并且評分為[Q,]那么[Fij=Q,]否則[Fij=0;]如果公開課[Cj]被標(biāo)注成了標(biāo)簽[Tk,]那么[F′ij=1,]否則[F′ij=0。]
由于用戶對課程的打分可以理解成用戶對標(biāo)簽的打分,因此用戶對不同課程中對于出現(xiàn)的同一個標(biāo)簽的打分綜合就可以理解成該標(biāo)簽對用戶的重要性,據(jù)此,將其定義成標(biāo)簽的重要性;但由于有些標(biāo)簽是主觀判斷的結(jié)果,其準(zhǔn)確性有待提升,因此在判斷標(biāo)簽重要性的同時還要考慮用標(biāo)簽的穩(wěn)定性來補充和完善。綜合標(biāo)簽和對標(biāo)簽打分的穩(wěn)定性來判斷標(biāo)簽對用戶的重要程度,設(shè)定公式如下:
式中:Sum表示用戶對某一標(biāo)簽的打分;[fVt(i)]是用戶[U]對包含標(biāo)簽[t]的課程打分為[i]的比例;[n]為[fVt(i)]可能出現(xiàn)不同值的個數(shù)。根據(jù)以上理論,[EVt]越大,那么對標(biāo)簽打分的穩(wěn)定性越低;[EVt]越小對標(biāo)簽打分的穩(wěn)定性越高。結(jié)合兩個公式便可準(zhǔn)確判斷標(biāo)簽對用戶的重要程度,從而準(zhǔn)確確定公開課面向?qū)ο蟮臉?biāo)簽,即確定用戶與標(biāo)簽的對應(yīng)關(guān)系。
2.2.3 網(wǎng)絡(luò)提取庫標(biāo)簽的分析算法
針對梳理出的重點公開課資源網(wǎng)站,如中國大學(xué)視頻公開課、中國公開課、網(wǎng)易公開課、新浪公開課等網(wǎng)站,采用爬蟲技術(shù)[11]對其瀏覽信息進(jìn)行有針對性的重點抓取、分析,以便識別公開課與適用人群的潛在關(guān)系。因此,該部分的標(biāo)簽準(zhǔn)確性集中在數(shù)據(jù)抓取和分析的準(zhǔn)確性上。為了提升抓取內(nèi)容翻譯的準(zhǔn)確率和覆蓋率,采用智能聚類分類模型[12],借鑒該模型理念對公開課分析采用一級、二級分類方式:一級分類是基于訪問公開課的分類屬性庫建立的;而二級分類是對一級分類的細(xì)分,每個一級分類下延伸出多個二級分類,所有網(wǎng)頁先采用地址方式匹配分類。如無法匹配,則通過網(wǎng)頁內(nèi)容分詞技術(shù)、網(wǎng)絡(luò)標(biāo)簽及關(guān)鍵字定位,根據(jù)用戶訪問網(wǎng)頁確定網(wǎng)頁屬于哪個二級分類。
2.3 標(biāo)簽適配與形成
網(wǎng)絡(luò)公開課標(biāo)簽的形成會依據(jù)來源系統(tǒng)的科學(xué)性進(jìn)行合理分配,三大類來源標(biāo)簽從不同維度揭示了公開課的特性,形成了獨立而又統(tǒng)一的標(biāo)簽體系,如圖2所示。
為了便于對課程標(biāo)簽的查詢與維護(hù),標(biāo)簽體系實現(xiàn)分級管理機制完成標(biāo)簽適配流程,即以客觀標(biāo)簽和主觀標(biāo)簽為一級分類,下設(shè)二級下屬分類,即一級分類/二級分類/三級分類/客戶標(biāo)簽的標(biāo)簽維度體系。另外,由于大數(shù)據(jù)可實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)提取,更加豐富了主觀化標(biāo)簽的獲取途徑和范圍,因此,本標(biāo)簽庫一方面實現(xiàn)了課程客觀化的標(biāo)簽維度,另一方面更偏重于課程主觀化維度的標(biāo)簽梳理,以提升課程適應(yīng)度。
考慮到實際的應(yīng)用情況,對公開課的分類只細(xì)化到三級,分類示例見表1。
3 結(jié) 語
網(wǎng)絡(luò)教學(xué)資源也是一種社會資源,需要針對特定群體進(jìn)行資源整合,在高校教學(xué)使用這些資源的過程中,既要強調(diào)重視學(xué)科經(jīng)典基礎(chǔ)內(nèi)容,也要做到因人施教,與時俱進(jìn),將公開課標(biāo)簽化就是對教學(xué)資源的一種整合,并必將為社會的良性運行和協(xié)調(diào)發(fā)展帶來影響。
本文在分析了三種主要的網(wǎng)絡(luò)公開課信息數(shù)據(jù)獲取途徑的基礎(chǔ)上,對其分別采用定期抽取、矩陣打分和智能聚類分類模型算法進(jìn)行分析和提取,搭建了具有分級管理思想的網(wǎng)絡(luò)公開課標(biāo)簽體系架構(gòu),形成了綜合性和獨特性兼?zhèn)涞恼n程標(biāo)簽庫。希望通過對公開課標(biāo)簽庫的研究,能提升網(wǎng)絡(luò)公開課資源的覆蓋率和準(zhǔn)確性,對提升教學(xué)效果有所貢獻(xiàn)。
參考文獻(xiàn)
[1] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013(6):3?16.
[2] 金陵.大數(shù)據(jù)與信息化教學(xué)變革[J].中國電化教育,2013(10):13?18.
[3] 朱建平,李秋雅.大數(shù)據(jù)對大學(xué)教學(xué)的影響[J].中國大學(xué)教學(xué),2014(9):44?47.
[4] 國務(wù)院研究室課題組.粵港澳更緊密合作一體化發(fā)展的空間布局和政策選擇:建立粵港澳更緊密合作框架研究報告之三[J].中共珠海市委黨校珠海市行政學(xué)院學(xué)報,2011(1):47?51.
[5] 國務(wù)院研究室課題組.推進(jìn)粵港澳共同建設(shè)具有國際競爭力的創(chuàng)新型區(qū)域:建立粵港澳更緊密合作框架研究報告之四[J].中共珠海市委黨校珠海市行政學(xué)院學(xué)報,2011(2):34?36.
[6] CHABRA T, FIGUEIREDO J. How to design and deploy handheld learning [EB/OL]. [2007?03?13]. http://www.empowering technologies.net/eLearning/eLearning_expov5_files/frame.html.
[7] GEORGIEVA E S, SMRIKAROV A S, GEORGIEV T S. Evaluation of mobile learning system [J]. Procedia Computer Science, 2011, 3(1): 632?637.
[8] LUO P P, YANG S B. Development and evaluation of mobile learning system for collaborative learning [C]// Proceedings of 2010 International Conference on Development and Evaluation of Mobile Learning System for Collaborative Learning. [S.l.]: UbiLearn, 2010: 179?183.
[9] 王軍強.課程的標(biāo)簽化分析[J].教育評論,2014(7):36?38.
[10] 許金玲,陳旭翔,趙少娟,等.基于信令分析的客戶網(wǎng)絡(luò)標(biāo)簽體系搭建[J].電信快報,2012(5):28?31.
[11] 李勇,韓亮.主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J].計算機工程與科學(xué),2008(3):3?4.
[12] 王實,高文.數(shù)據(jù)挖掘中的聚類方法[J].計算機科學(xué),2007,27(4):42?45.