徐勇
(廣東肇慶學院數(shù)學與統(tǒng)計學院,肇慶 526061)
由于互聯(lián)網(wǎng)技術的發(fā)展,人類社會已經(jīng)進行大數(shù)據(jù)時代。大數(shù)據(jù)時代的主要特征之一是海量數(shù)據(jù)充斥于各行各業(yè)。如何充分利用數(shù)據(jù),并且從中發(fā)現(xiàn)有價值的信息或知識是當前人類社會共同面臨的現(xiàn)實問題。正因如此,一方面,《數(shù)據(jù)挖掘》課程一直是計算機科學與技術相關專業(yè)的核心課程之一,另一方面,其他的非計算機相關專業(yè)在其培養(yǎng)方案中也將其設定為選修或必修課程,例如許多高校中的經(jīng)管類、統(tǒng)計學專業(yè)都設置了《數(shù)據(jù)挖掘》課程。在此背景下,《數(shù)據(jù)挖掘》課程的教學在大數(shù)據(jù)時代時期變得前所未有的重要。
眾所周知,數(shù)據(jù)挖掘技術屬于多學科交叉,涉及高等數(shù)學、概率統(tǒng)計、數(shù)據(jù)庫技術、數(shù)據(jù)結構、機器學習等學科,數(shù)據(jù)挖掘課程的教學既包涵基礎理論,又強調(diào)實踐教學,即理論與實踐并重的一門課程。而且,近幾年機器學習、人工智能、云計算等領域的發(fā)展,數(shù)據(jù)挖掘技術的發(fā)展也是日新月異,新技術不斷涌現(xiàn)。所以,這些因素給《數(shù)據(jù)挖掘》課程的教學帶來了巨大的挑戰(zhàn)。為了改進教學質(zhì)量,提高教學效果,文獻中對《數(shù)據(jù)挖掘》課程教學過程中各個方面展開了研究。例如,有學者試圖通過對文獻數(shù)據(jù)分析得出數(shù)據(jù)挖掘的知識體系[1]??紤]到教學大綱是教學過程中最重要的綱領性文件[2],其規(guī)定了教學目標、教學內(nèi)容、教學方法、教學手段和課程評價五個方面的內(nèi)容,因此,也有學者探討了《數(shù)據(jù)挖掘》課程教學大綱的設計[3]。
學科競賽對于培養(yǎng)學生的創(chuàng)新能力、團隊協(xié)作能力、動手實踐能力的作用毋庸置疑,它已成為提升大學生創(chuàng)新實踐能力的重要載體。目前,國內(nèi)一些學會或知名企業(yè)組織舉辦各種數(shù)據(jù)挖掘技術方面的競賽。高校通過組織學生參加此類競賽既可以檢驗學生學習《數(shù)據(jù)挖掘》課程的效果,也能夠培養(yǎng)學生的動手實踐能力。文獻中有學者對學科競賽相關的研究。比如說,文獻[4]研究了學科競賽的管理機制與方法。而文獻[5]探索了學科競賽如何與專業(yè)及職業(yè)進行銜接。
雖然有文獻對《數(shù)據(jù)挖掘》課程的教學大綱設計展開了研究,但是,對于如何借鑒國外大學《數(shù)據(jù)挖掘》課程的教學大綱內(nèi)容設置的經(jīng)驗,值得進一步深入探討。盡管文獻中有對學科競賽的管理及意義進行了分析研究,可是,沒有探討學科競賽中所應用的知識點對教學內(nèi)容選擇的啟發(fā)作用。一般而言,學科競賽的試題來源于現(xiàn)實的實際問題,而競賽組委會評選出的優(yōu)秀作品代表了數(shù)據(jù)挖掘技術的應用于實際問題的典型案例成果。因此通過對這些優(yōu)秀作品分析,發(fā)現(xiàn)其中所涉及的知識體系就可以為《數(shù)據(jù)挖掘》課程教學內(nèi)容大綱設計提供新的思路。
總之,本文從兩方面入手研究《數(shù)據(jù)挖掘》課程教學大綱的設計,特別是教學內(nèi)容的選取問題:(1)從學科競賽的角度來探討《數(shù)據(jù)挖掘》課程的教學大綱設計;(2)從國外大學《數(shù)據(jù)挖掘》課程的教學大綱設計的角度來探討國內(nèi)《數(shù)據(jù)挖掘》課程的教學大綱設計。具體地說,首先收集數(shù)據(jù)挖掘?qū)W科競賽中的優(yōu)秀作品論文與國外知名大學《數(shù)據(jù)挖掘》課程的在線資源數(shù)據(jù),然后,運用數(shù)據(jù)挖掘技術從中分析挖掘出知識體系,最后,探討這些知識體系結構中的規(guī)律,從而為《數(shù)據(jù)挖掘》課程的教學大綱內(nèi)容設計提供依據(jù)和參考。
共詞分析法屬于內(nèi)容分析方法的一種,其原理主要是對一組詞兩兩統(tǒng)計它們在同一篇文獻中出現(xiàn)的次數(shù),對這些詞進行聚類分析,進而分析這些詞所代表的學科和主題的結構變化[6]。共詞分析法首先要確定高頻關鍵詞,一般需要對文獻內(nèi)容進行分詞和詞匯頻數(shù)統(tǒng)計,將超過一定閾值的高頻詞匯確定為高頻關鍵詞。本文使用漢語分詞系統(tǒng)(NLPIR)[7],而英文的分詞采用開源的英文詞組提取工具[8]。
接著,構造共詞矩陣,共詞矩陣中的主對角線上的元素是高頻關鍵詞的頻數(shù),除此以外的元素為兩個不同關鍵詞對共同出現(xiàn)的頻次。最后,對共詞矩陣進行聚類分析,得到的結果為關系密切的關鍵詞匯類團,這些關鍵詞匯類團清晰表達出同一主題下的概念詞匯組成。本文的聚類分析是采用軟件SPSS作為聚類分析工具,利用歐氏距離定義樣本距離的相似性度量,聚類算法則使用K-means中心聚類方法。
如前所述,本文將從兩個角度來探討的《數(shù)據(jù)挖掘》課程教學大綱內(nèi)容設計,即(1)從數(shù)據(jù)挖掘?qū)W科競賽的角度來考慮《數(shù)據(jù)挖掘》課程教學大綱設計和(2)從國外大學《數(shù)據(jù)挖掘》課程的教學大綱設計的角度來探討國內(nèi)《數(shù)據(jù)挖掘》課程的教學大綱設計。因此,數(shù)據(jù)收集與來源主要是數(shù)據(jù)挖掘?qū)W科競賽作品和國外大學的《數(shù)據(jù)挖掘》課程的網(wǎng)站內(nèi)容。下面分別進行介紹。
學科競賽對于培養(yǎng)學生的實踐、創(chuàng)新能力有著十分積極的作用。近年來,有關企業(yè)、專業(yè)協(xié)會和高校都開展和舉辦了一系列的數(shù)據(jù)挖掘?qū)W科競賽?!疤┑媳睌?shù)據(jù)挖掘挑戰(zhàn)賽是由全國大學生數(shù)學建模競賽組織委員會主辦,廣州泰迪智能科技有限公司承辦的全國性大學生科技競賽?!疤┑媳睌?shù)據(jù)挖掘挑戰(zhàn)賽有以下特點:(1)競賽的題目主要來源于于企業(yè)、管理機構和科研院所的實際問題。因此,競賽可以促使參賽的大學生能夠應用所學理論知識到社會實際需求問題上和進一步有針對性地學習相關數(shù)據(jù)挖掘技術與知識。本文主要收集了“泰迪杯”數(shù)據(jù)挖掘挑戰(zhàn)賽的優(yōu)秀作品,從這些優(yōu)秀作品中挖掘出數(shù)據(jù)挖掘的主要知識和技術體系。
本文收集48篇泰迪杯競賽的優(yōu)秀作品,這些作品體現(xiàn)了諸多數(shù)據(jù)挖掘技術在實際問題上的成功應用典型案例,涵蓋了文本挖掘、圖像識別、金融數(shù)據(jù)分析、生物信息、優(yōu)化決策等領域。
美國研究型大學在本科教育課程改革方面所做出的嘗試及所體現(xiàn)的特點,在某些方面值得我們思考與借鑒[9]。通過分析國外大學《數(shù)據(jù)挖掘》課程的教學內(nèi)容,可以從中獲取《數(shù)據(jù)挖掘》課程教學大綱設計的啟發(fā)。表1列出了一些國外知名大學的數(shù)據(jù)挖掘教學網(wǎng)站地址,本文通過Web挖掘方法收集了這些網(wǎng)站的網(wǎng)頁數(shù)據(jù),作為后續(xù)的共詞分析挖掘的內(nèi)容。
如前所述,本文旨在從兩個方面收集相關數(shù)據(jù)來分析如何設置《數(shù)據(jù)挖掘》課程的教學內(nèi)容。學科競賽作品的收集主要是在泰迪杯官網(wǎng)上下載,而國外大學《數(shù)據(jù)挖掘》課程教學大綱內(nèi)容的收集則通過網(wǎng)絡爬蟲(Web Crawler)獲取表1所列的網(wǎng)址的網(wǎng)頁。由于學科競賽作品都是以PDF格式的文件存放的,而通過網(wǎng)頁爬蟲收集的國外大學《數(shù)據(jù)挖掘》課程網(wǎng)站內(nèi)容都是以網(wǎng)頁的形式保存的。圖1給出了本文數(shù)據(jù)處理分析過程,本小節(jié)詳細介紹。
(1)數(shù)據(jù)預處理
數(shù)據(jù)預處理的功能是將PDF格式的文件轉(zhuǎn)為TXT文件,對于網(wǎng)頁的數(shù)據(jù),可以使用網(wǎng)頁內(nèi)容提取工具抽取出其中的有意義的文字,也保存到TXT文件。另外,數(shù)據(jù)預處理還需要清除過濾掉含有一些缺失信息的數(shù)據(jù)。
(2)詞頻統(tǒng)計
將經(jīng)過數(shù)據(jù)預處理完成的TXT文件數(shù)據(jù),進行切詞,得到詞匯集合。需要指出的是,對于學科競賽作品,選擇的是中文切詞工具。而對國外《數(shù)據(jù)挖掘》課程網(wǎng)站的內(nèi)容數(shù)據(jù),則采用開源的英文詞組提取工具進行英文切詞[8]。然后,使用詞頻統(tǒng)計工具統(tǒng)計每個詞匯的詞頻。將超過一定閾值的詞頻為高頻詞。此處設置的閾值為3。
(3)聚類分析
通過聚類分析的方法將一些內(nèi)容相關的高頻詞歸為一類,該類中的幾個中心詞可以代表該類的概念。為了實現(xiàn)聚類分析,先需要構造共詞矩陣,而相似度量采用Ochiai系數(shù)。聚類范圍設定為8-15。
表1 國外大學《數(shù)據(jù)挖掘》課程教學網(wǎng)站網(wǎng)址
圖1 數(shù)據(jù)處理過程
表2 數(shù)據(jù)挖掘?qū)W科競賽作品高頻詞匯列表
表2列出的是按照圖1中數(shù)據(jù)處理流程對學科競賽作品的數(shù)據(jù)分析處理得到的結果??偟膩砜?,表2列出的關鍵詞反映了將數(shù)據(jù)挖掘技術應用到實際問題所涉及的數(shù)據(jù)挖掘的知識及有關概念。從表2中可以發(fā)現(xiàn),第1類的調(diào)頻關鍵詞是表明在數(shù)據(jù)挖掘的實際應用過程中,對模型的評估也很重要。一般而言,對于模型的評估主要考察其分類或預測的準確率以及泛化性能等。而第1類的高頻關鍵詞則較好地反映了這一點。第2類則是數(shù)據(jù)的預處理,包括數(shù)據(jù)提取,轉(zhuǎn)化,維數(shù)等高頻關鍵詞。第3類則是應用到的數(shù)據(jù)挖掘的算法,包括神經(jīng)網(wǎng)絡,邏輯回歸高頻關鍵詞等。第4類是數(shù)據(jù)挖掘的基礎知識,包括多項式、方差以及向量等高頻關鍵詞。明顯地,這些關鍵詞涉及到屬于高等數(shù)學、概率統(tǒng)計、線性代數(shù)等方面的知識。第5類是領域方面的知識,包括濾波、灰度、文本等高頻關鍵詞,這些關鍵詞則體現(xiàn)了數(shù)據(jù)挖掘可以應用到不同的領域,如圖像處理、文本挖掘等。
表3 國外大學數(shù)據(jù)挖掘教學大綱網(wǎng)站高頻詞匯列表
表3列出的是按照圖1中數(shù)據(jù)處理流程對國外數(shù)據(jù)挖掘教學網(wǎng)站的數(shù)據(jù)分析處理得到的結果。從表3中可以看出,列出的關鍵詞反映了將數(shù)據(jù)挖掘的教學的基本算法和有關概念。表中第1類列出的高頻關鍵詞,體現(xiàn)的是《數(shù)據(jù)挖掘》課程的基礎知識和基礎概念。第2類屬于《數(shù)據(jù)挖掘》課程教學的主要內(nèi)容,即數(shù)據(jù)挖掘的基本算法及方法,包括關聯(lián)規(guī)則挖掘,貝葉斯網(wǎng)絡等。第3類則是《數(shù)據(jù)挖掘》課程教學內(nèi)容的提高部分,包括文本挖掘、空間數(shù)據(jù)挖掘等。
下面結合教學實踐和上面的結果對《數(shù)據(jù)挖掘》課程教學內(nèi)容體系設計給出一些分析和建議,為教學內(nèi)容體系設計的提供一些啟發(fā)。
(1)學科競賽作品與國外大學數(shù)據(jù)挖掘教學大綱在知識體系上存在差別
從表2中可以發(fā)現(xiàn),學科競賽作品中所呈現(xiàn)的知識體系則較為完整和全面,具體地說,該知識體系中既包括基礎知識,例如概率論、線性代數(shù)等。同時,也涵蓋了整個數(shù)據(jù)挖掘過程所需要的全部知識,包括數(shù)據(jù)預處理、模型評估。這也充分說明,學科競賽的特點。而表3中僅僅集中在數(shù)據(jù)挖掘的基本概念和方法(包括一些高級技術)。因此,在對《數(shù)據(jù)挖掘》課程的教學內(nèi)容進行選擇和設計時,則應該考慮學科競賽中所需要的知識點,這樣對于提高學生的實踐能力大有幫助。
(2)模型評估作為《數(shù)據(jù)挖掘》課程教學內(nèi)容的之一不能忽視
模型評估屬于機器學習領域的重要內(nèi)容,但是,由于數(shù)據(jù)挖掘技術有許多實質(zhì)是機器學習中的學習算法,因此,《數(shù)據(jù)挖掘》課程教學內(nèi)容應該包括模型評估的內(nèi)容。表2中學科競賽作品中的結果分析也佐證了模型評估在數(shù)據(jù)挖掘的實際應用過程中是不可或缺的。若數(shù)據(jù)挖掘教材缺少對于模型評估的介紹,則在實際的教學過程中應該加以補充。
(3)《數(shù)據(jù)挖掘》課程教學內(nèi)容的選擇應該和學生的專業(yè)結合起來考慮
隨著數(shù)據(jù)挖掘技術的發(fā)展,《數(shù)據(jù)挖掘》課程的內(nèi)容既有基本的算法,也有一些高級數(shù)據(jù)挖掘方法。ACM SIGKDD課程委員會對《數(shù)據(jù)挖掘》課程的教學內(nèi)容提出指導建議,從表3可以看出,國外大學《數(shù)據(jù)挖掘》課程的教學大綱與該指導建議基本一致。但是,SIGKDD課程委員給出的指導建議內(nèi)容太多,因此,國外大學《數(shù)據(jù)挖掘》課程的教學大綱在教學內(nèi)容上也是做了篩選。篩選的標準可以考慮授課學生的專業(yè),例如,對于數(shù)學及應用數(shù)學或計算機類的專業(yè)學生,可以增加一些優(yōu)化理論、粗集理論方面的內(nèi)容。而對于統(tǒng)計專業(yè)的學生,則可以補充一些統(tǒng)計機器學習方面的知識。
(4)領域知識和數(shù)據(jù)挖掘高級技術的教學則應該結合實際情況進行權衡選擇
數(shù)據(jù)挖掘技術已經(jīng)廣泛應用到各個領域,不同領域需要相關的專業(yè)背景知識。例如,在生物信息領域,則可能涉及到生物專業(yè)的知識。在教學的過程中如何選擇或取舍則需要權衡。另外,數(shù)據(jù)挖掘中的許多算法在文獻資料中都存在各種改進,對于這些改進的算法是否納入教學大綱的教學內(nèi)容也值得思考與探討。一般而言,可以根據(jù)學生的層次及課時安排來進行決策。對于研究生,可以適當?shù)卦黾右恍└呒壖夹g,而對于本科生,則把教學的重心放在數(shù)據(jù)挖掘的一些經(jīng)典算法上。
本文從兩個角度來探討《數(shù)據(jù)挖掘》課程教學大綱內(nèi)容設計問題,即從數(shù)據(jù)挖掘?qū)W科競賽以及從國外大學《數(shù)據(jù)挖掘》課程的教學大綱設計的角度來研究《數(shù)據(jù)挖掘》課程教學大綱的內(nèi)容設計。為此,首先收集相關數(shù)據(jù),即學科競賽作品以及國外大學《數(shù)據(jù)挖掘》課程的教學網(wǎng)站內(nèi)容,然后通過共詞分析得出知識體系;最后,對結果進行了分析和討論。這些分析和討論為《數(shù)據(jù)挖掘》課程的教學內(nèi)容設計提供一些啟發(fā)。
參考文獻:
[1]安璐,歐孟花,李綱.數(shù)據(jù)挖掘課程的知識體系構建.圖書情報知識,2016(5):4-12.
[2]Syllabus.https://en.wikipedia.org/wiki/Syllabus.Accessed:2017-6-2.
[3]陳剛,魏晗,郭志剛.《數(shù)據(jù)挖掘技術》教學探索與實踐.河南教育:高教,2016(2):86-88.
[4]陸國棟,魏志淵,毛一平,鮑鐵虎.基于主題、時間、空間和模式分類的學科競賽研究與實踐.中國大學教學,2012(10):74-76.
[5]韓忠愿.以競賽促進大學生的專業(yè)與職業(yè)銜接——中國大學生計算機設計大賽的特點與意義.計算機教育,2015(1):26-29.
[6]馮璐,冷伏海.共詞分析方法理論進展.中國圖書館學報,2006,32(2):88-92.
[7]NLPIR 漢語分詞系統(tǒng).http://ictclas.nlpir.org/.Accessed:2017-6-2.
[8]Extract Phrase.https://github.com/yardstick17/extract_phrase.Accessed:2017-6-2.
[9]楊秀玉.美國研究型大學本科教育課程改革特點述評.外國教育研究,2003(7):47-50.