亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)專業(yè)《數(shù)據(jù)清洗技術(shù)》課程教學(xué)初探

        2021-11-23 02:20:34賈立秀林忠韓磊
        科技創(chuàng)新導(dǎo)報(bào) 2021年19期
        關(guān)鍵詞:教學(xué)初探大數(shù)據(jù)技術(shù)

        賈立秀 林忠 韓磊

        摘? 要:隨著大數(shù)據(jù)和云計(jì)算等新興技術(shù)的發(fā)展,數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)應(yīng)運(yùn)而生。本文根據(jù)應(yīng)用型本科人才培養(yǎng)的特點(diǎn)和要求,結(jié)合筆者開(kāi)設(shè)的數(shù)據(jù)清洗技術(shù)課程的經(jīng)驗(yàn),初步探討了該課程的教學(xué)目的、教學(xué)內(nèi)容和考核方法等課程教學(xué)設(shè)計(jì)問(wèn)題。現(xiàn)階段開(kāi)設(shè)的數(shù)據(jù)清洗技術(shù)課程重點(diǎn)培養(yǎng)學(xué)生掌握專業(yè)基礎(chǔ)理論知識(shí)和提高工程實(shí)踐能力,凸顯其專業(yè)核心類課程的地位,注重與大數(shù)據(jù)人才需求的接軌。

        關(guān)鍵詞:數(shù)據(jù)科學(xué)? 大數(shù)據(jù)技術(shù)? 數(shù)據(jù)清洗技術(shù)? 教學(xué)初探

        中圖分類號(hào):TP311.13-4;G642 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2021)07(a)-129-03

        On the Teaching of Data Cleaning Technology for Big Data Specialty

        JIA Lixiu*? LIN Zhong? HAN Lei

        (School of Computer Engineering, Nanjing Institute of Technology, Nanjing, Jiangsu Province, 211167 China)

        Abstract: With the development of emerging technologies such as big data and cloud computing, majors in data science and big data emerged. According to the characteristics and requirements of application-oriented undergraduate talent training, the author combines her own experience in Data Cleaning Technology course to preliminarily discuss the course teaching design issues such as the course's teaching purpose, teaching content and assessment methods. Data Cleaning Technology course offered at this stage focuses on cultivating students to master basic professional theoretical knowledge and improve engineering practice capabilities, highlighting its status as core professional courses, and focusing on the integration of big data talent needs.

        Key Words: Data science; Big data technology; Data cleaning technique; Teaching exploration

        隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)即是最寶貴的“石油資源”,具有國(guó)家戰(zhàn)略意義[1],數(shù)據(jù)質(zhì)量的重要性日益顯著。大數(shù)據(jù)具有規(guī)模性、高速性、多樣性和價(jià)值稀疏性等時(shí)代特征,其數(shù)據(jù)質(zhì)量問(wèn)題尤為突出。數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的重要技術(shù),保障大數(shù)據(jù)的可用性。在很多大數(shù)據(jù)項(xiàng)目中,數(shù)據(jù)清洗工作在開(kāi)發(fā)時(shí)間和預(yù)算方面占30%~80%[2,3]?,F(xiàn)實(shí)世界中“臟”數(shù)據(jù)無(wú)處不在,數(shù)據(jù)不完整、不一致或不正確會(huì)嚴(yán)重影響數(shù)據(jù)分析和挖掘的結(jié)果,從而產(chǎn)生消極的作用[4]。數(shù)據(jù)清洗技術(shù)是一門活躍的學(xué)科,在數(shù)據(jù)管理和數(shù)據(jù)分析的歷史上發(fā)揮了重要作用,并且仍在快速發(fā)展。此外,數(shù)據(jù)清洗被認(rèn)為是大數(shù)據(jù)時(shí)代的主要挑戰(zhàn),因?yàn)樵谠S多應(yīng)用中,數(shù)據(jù)的體積、速度和多樣性不斷增加[5]。

        數(shù)據(jù)清洗方面的研究最早出現(xiàn)在美國(guó)[6],“臟”數(shù)據(jù)每年導(dǎo)致大約14%的美國(guó)醫(yī)療支出被浪費(fèi),每年讓美國(guó)經(jīng)濟(jì)損失3萬(wàn)億美元以上。2012年,英國(guó)一次性投入1.8億英鎊用于大數(shù)據(jù)領(lǐng)域的科研與創(chuàng)新,并將大數(shù)據(jù)作為八大前瞻性技術(shù)領(lǐng)域之首。2015—2016年QS世界排名前50的大學(xué)中有17所大學(xué)開(kāi)設(shè)數(shù)據(jù)科學(xué)相關(guān)碩士培養(yǎng)計(jì)劃,其中10所在美國(guó),6所在英國(guó),1所在新加坡[7]。2013年,韓國(guó)多部門聯(lián)合發(fā)布“大數(shù)據(jù)產(chǎn)業(yè)發(fā)展戰(zhàn)略”,于2015年初,給出全球進(jìn)入大數(shù)據(jù)2.0時(shí)代的重大判斷。2013年6月,日本公布了新IT戰(zhàn)略——《創(chuàng)新最尖端IT國(guó)家宣言》,全面闡述了2013—2020年以發(fā)展開(kāi)放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國(guó)家戰(zhàn)略。2017年,我國(guó)工業(yè)和信息化部印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作。2016年,教育部批準(zhǔn)北京大學(xué)、中南大學(xué)及對(duì)外經(jīng)貿(mào)大學(xué)開(kāi)設(shè)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè),2018年增至283所[8]。數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)是一門新興學(xué)科專業(yè),其課程體系相關(guān)建設(shè)尚在發(fā)展與完善中,具有獨(dú)立性、交叉性、實(shí)踐性和系統(tǒng)性等特點(diǎn)[9]。

        本文以南京工程學(xué)院2018級(jí)數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)為例,從教學(xué)目的、教學(xué)內(nèi)容和考核方法等方面初探應(yīng)用型本科課程《數(shù)據(jù)清洗技術(shù)》教學(xué),以學(xué)生為主體,不斷激發(fā)學(xué)生的學(xué)習(xí)熱情和學(xué)習(xí)主動(dòng)性。

        1? 教學(xué)目的

        從數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)人才培養(yǎng)方案可以看出,數(shù)據(jù)清洗技術(shù)課程的教學(xué)重點(diǎn)應(yīng)放在讓學(xué)生掌握如何使用數(shù)據(jù)清洗技術(shù)解決特定業(yè)務(wù)領(lǐng)域的問(wèn)題,在完成本課程學(xué)習(xí)后能夠熟練地應(yīng)用數(shù)據(jù)清洗技術(shù)解決企業(yè)中的實(shí)際工程問(wèn)題。作為大數(shù)據(jù)專業(yè)的專業(yè)核心類課程,需要講解數(shù)據(jù)清洗的理論、方法、流程、工具及技術(shù)等內(nèi)容,為學(xué)生進(jìn)一步學(xué)習(xí)數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等課程奠定基礎(chǔ)。具體而言,本課程的教學(xué)目的主要包括以下幾點(diǎn)

        (1)理解數(shù)據(jù)清洗的理論、方法、流程、工具及技術(shù)。

        (2)掌握數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)和問(wèn)題分類。

        (3)掌握ETL的關(guān)鍵技術(shù)和常見(jiàn)工具的基本功能。

        (4)掌握數(shù)據(jù)去重、缺失值處理以及異常值處理的方法。

        (5)熟悉多數(shù)據(jù)源的合并,掌握不一致和數(shù)據(jù)粒度的轉(zhuǎn)換及數(shù)據(jù)的合計(jì)處理。

        (6)提高使用數(shù)據(jù)清洗技術(shù)解決實(shí)際問(wèn)題的能力和動(dòng)手實(shí)踐能力以及學(xué)習(xí)數(shù)據(jù)科學(xué)相關(guān)知識(shí)的興趣。

        眾所周知,興趣是最好的老師,培養(yǎng)學(xué)生的學(xué)習(xí)興趣和學(xué)習(xí)信心是本課程教學(xué)的最基本的目的。此外,學(xué)生對(duì)先修基礎(chǔ)課程,如概率論與數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、Python、R語(yǔ)言、MySQL、數(shù)據(jù)采集技術(shù)及數(shù)據(jù)存儲(chǔ)技術(shù)等學(xué)習(xí)積累直接影響該課程的教學(xué)效果,該課程教學(xué)中盡量保持?jǐn)?shù)據(jù)科學(xué)基礎(chǔ)知識(shí)在廣度上和數(shù)據(jù)清洗技術(shù)在深度上的平衡。

        2? 教學(xué)內(nèi)容

        該課程采用理論與實(shí)踐相結(jié)合的教學(xué)方式,理論知識(shí)和實(shí)際工程問(wèn)題相互滲透融合。教學(xué)內(nèi)容主要包括理論教學(xué)和實(shí)踐教學(xué)兩部分,選取的教學(xué)內(nèi)容主要來(lái)自《數(shù)據(jù)清洗》(李法平主編)、《數(shù)據(jù)清洗》(黑馬程序員編著)、《大數(shù)據(jù)分析:Python爬蟲(chóng)、數(shù)據(jù)清洗和數(shù)據(jù)可視化》(黃源、蔣文豪、徐受蓉主編)、《數(shù)據(jù)清洗》(黃源、涂旭東、羅少甫編著)和《大數(shù)據(jù)清洗技術(shù)》(王宏志著)等,符合應(yīng)用型本科數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)人才培養(yǎng)方案的培養(yǎng)目標(biāo),主要體現(xiàn)在學(xué)習(xí)難度適中和課程學(xué)時(shí)合理。下文將從理論教學(xué)和實(shí)踐教學(xué)兩部分討論教學(xué)內(nèi)容的編排,其中理論教學(xué)占32學(xué)時(shí),實(shí)踐教學(xué)占16學(xué)時(shí),總共48學(xué)時(shí)。

        2.1 理論教學(xué)內(nèi)容設(shè)計(jì)

        考慮到數(shù)據(jù)清洗理論正在快速發(fā)展,理論教學(xué)內(nèi)容在參考相關(guān)書籍的同時(shí),要實(shí)時(shí)更新解讀國(guó)內(nèi)外最新的經(jīng)典圖書及重要的學(xué)術(shù)論文,開(kāi)闊學(xué)術(shù)的視野,提高學(xué)生學(xué)習(xí)的興趣和主動(dòng)性。理論教學(xué)內(nèi)容主要包括以下幾個(gè)方面。

        (1)數(shù)據(jù)清洗的基本概念和原理,常見(jiàn)數(shù)據(jù)清洗的策略、方法與基本流程,以及數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)和問(wèn)題分類。

        (2)Microsoft Excel數(shù)據(jù)清洗基本操作,ETL的概念、體系結(jié)構(gòu)和關(guān)鍵技術(shù),ETL的常見(jiàn)工具Kettle、OpenRefine、DataWrangler和Hawk下載安裝、基本概念及基本功能。

        (3)使用至少一種軟件工具,如Kettle、Open Refine、Python和R語(yǔ)言等進(jìn)行數(shù)據(jù)去重、缺失值處理和異常值處理。

        (4)使用至少一種軟件工具,如Kettle、Open Refine、Python和R語(yǔ)言等進(jìn)行多數(shù)據(jù)源的合并、不一致數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換及數(shù)據(jù)的商務(wù)規(guī)則計(jì)算。

        (5)數(shù)據(jù)的增量加載、全量加載以及MySQL和Oracle的批量加載,數(shù)據(jù)加載異常的處理。

        2.2 實(shí)踐教學(xué)內(nèi)容設(shè)計(jì)

        實(shí)踐教學(xué)主要通過(guò)機(jī)房上機(jī)實(shí)驗(yàn)完成,結(jié)合實(shí)際工程項(xiàng)目問(wèn)題,精心挑選難度適中的上機(jī)實(shí)驗(yàn)題,由淺入深,環(huán)環(huán)相扣,步步推進(jìn),進(jìn)一步加深對(duì)理論知識(shí)的理解,充分調(diào)動(dòng)學(xué)生的學(xué)習(xí)主動(dòng)性,并培養(yǎng)學(xué)生學(xué)習(xí)的興趣。實(shí)踐教學(xué)內(nèi)容主要包括以下幾個(gè)方面。

        (1)Microsoft Excel數(shù)據(jù)清洗基本操作。該實(shí)驗(yàn)項(xiàng)目通過(guò)企業(yè)招聘職位信息的數(shù)據(jù)集練習(xí)使用Microsoft Excel進(jìn)行數(shù)據(jù)清洗的基本步驟、方法及常見(jiàn)的數(shù)據(jù)清洗函數(shù)。

        (2)Kettle軟件數(shù)據(jù)清洗基本概念和基本功能。該實(shí)驗(yàn)項(xiàng)目通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲得的某基金網(wǎng)站的基金名稱和基金代碼信息數(shù)據(jù)集練習(xí)使用Kettle軟件進(jìn)行數(shù)據(jù)重復(fù)和錯(cuò)誤等問(wèn)題的處理。

        (3)OpenRefine、DataWrangler、Hawk軟件數(shù)據(jù)清洗的基本概念和基本功能。該實(shí)驗(yàn)項(xiàng)目通過(guò)企業(yè)招聘職位信息的數(shù)據(jù)集練習(xí)使用OpenRefine、DataWrangler和Hawk軟件中至少一種進(jìn)行數(shù)據(jù)重復(fù)、缺失、數(shù)據(jù)粒度過(guò)大等問(wèn)題的處理。

        (4)使用Kettle、Python、R語(yǔ)言進(jìn)行數(shù)據(jù)去重、缺失值和異常值處理。該實(shí)驗(yàn)項(xiàng)目通過(guò)用戶訪問(wèn)某網(wǎng)站的數(shù)據(jù)集和某公司就業(yè)人員收入數(shù)據(jù)集等練習(xí)使用Kettle、Python與R語(yǔ)言進(jìn)行數(shù)據(jù)完全去重,不完全去重,刪除缺失值,填充缺失值以及異常值檢測(cè)、刪除異常值、修補(bǔ)異常值處理。

        (5)使用Kettle、Python、R語(yǔ)言進(jìn)行數(shù)據(jù)轉(zhuǎn)換。該實(shí)驗(yàn)項(xiàng)目通過(guò)某公司的2個(gè)分公司不同城市的銷售數(shù)據(jù)集練習(xí)使用Kettle、Python、R語(yǔ)言進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換及一些商務(wù)規(guī)則的計(jì)算。

        上述實(shí)驗(yàn)內(nèi)容設(shè)計(jì)秉承難度適中、切合實(shí)際工程問(wèn)題的原則,不僅使學(xué)生深入理解專業(yè)理論知識(shí),還培養(yǎng)了學(xué)生利用數(shù)據(jù)清洗技術(shù)解決企業(yè)中的實(shí)際工程問(wèn)題的能力。

        3? 考核方法

        本課程采用傳統(tǒng)的閉卷筆試的考核方式,題型有單項(xiàng)選擇題、填空題、判斷題、簡(jiǎn)答題和綜合題等五大類,題型豐富,重點(diǎn)考查了學(xué)生對(duì)于本課程基本理論知識(shí)的掌握程度。平時(shí)成績(jī)占總成績(jī)30%,其中考勤、課堂表現(xiàn)和作業(yè)部分各占5%,上機(jī)實(shí)驗(yàn)部分占15%,期末考試成績(jī)占總成績(jī)的70%。設(shè)計(jì)合理的考核方案,讓學(xué)生重視理論知識(shí)和上機(jī)實(shí)驗(yàn)操作,其中上機(jī)實(shí)驗(yàn)一方面可以通過(guò)實(shí)驗(yàn)報(bào)告考查學(xué)生對(duì)理論知識(shí)的掌握,實(shí)驗(yàn)報(bào)告內(nèi)容主要包括題目、設(shè)計(jì)方案、源程序清單、程序運(yùn)行結(jié)果和實(shí)驗(yàn)總結(jié)與思考;另一方面可以通過(guò)實(shí)驗(yàn)結(jié)果考查學(xué)生解決實(shí)際工程問(wèn)題的能力,學(xué)生根據(jù)具體的實(shí)驗(yàn)要求編寫代碼實(shí)現(xiàn)相應(yīng)的功能,教師對(duì)學(xué)生編寫的代碼進(jìn)行提問(wèn),要求學(xué)生能講解算法設(shè)計(jì)流程和每句代碼的含義。這樣的考核方法使得學(xué)生不僅注重理論知識(shí)的學(xué)習(xí),更激勵(lì)學(xué)生認(rèn)真準(zhǔn)備上機(jī)實(shí)驗(yàn),以提高學(xué)生解決實(shí)際工程問(wèn)題的能力。

        4? 結(jié)語(yǔ)

        本文探討了應(yīng)用型本科數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)《數(shù)據(jù)清洗技術(shù)》教學(xué)的相關(guān)問(wèn)題。從教學(xué)目的、教學(xué)內(nèi)容和考核方法等方面做了一定探索,正確認(rèn)識(shí)數(shù)據(jù)清洗技術(shù)在大數(shù)據(jù)專業(yè)人才培養(yǎng)方案中的地位,對(duì)應(yīng)用型本科數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的相關(guān)教育工作者或有一定的參考價(jià)值。堅(jiān)持以學(xué)生為主體的教學(xué),因材施教,培養(yǎng)學(xué)生學(xué)習(xí)的興趣和信心,以培養(yǎng)高質(zhì)量的大數(shù)據(jù)人才為目標(biāo),是課程今后努力的方向。

        參考文獻(xiàn)

        [1] 鐘澤靈.大數(shù)據(jù)背景下的政務(wù)信息化治理探討[J].中國(guó)信息化,2021(3):106-107.

        [2] 謝智穎,何原榮,李清泉.基于時(shí)空相關(guān)性的公交大數(shù)據(jù)清洗[J].計(jì)算機(jī)工程與應(yīng)用,2021(4):1-11.

        [3] 葉鷗,張璟,李軍懷.中文數(shù)據(jù)清洗研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(14):121-129.

        [4] 郝爽,李國(guó)良,馮建華,等.結(jié)構(gòu)化數(shù)據(jù)清洗技術(shù)綜述[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2018,58(12):1037-1050.

        [5] Tang N. Big Data Cleaning[C]//Asia-Pacific Web Conference. Springer,Cham,2014:13-24.

        [6] Badia A. Data Cleaning and Pre-processing[M]//SQL for Data Science.Springer,Cham,2020:77-169.

        [7] 陳振沖,賀田田.數(shù)據(jù)科學(xué)人才的需求與培養(yǎng)[J].大數(shù)據(jù),2016(5):95-106.

        [8] 張永亮,劉子昂.大數(shù)據(jù)專業(yè)國(guó)內(nèi)外建設(shè)現(xiàn)狀與發(fā)展特征分析[J].科技風(fēng),2021(3):125-126.

        [9] 賀文武,劉國(guó)買.數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)核心課程建設(shè)的探索與研究[J].教育評(píng)論,2017(11):31-35.

        猜你喜歡
        教學(xué)初探大數(shù)據(jù)技術(shù)
        高職市場(chǎng)營(yíng)銷專業(yè)情景模擬法教學(xué)初探
        青春歲月(2017年4期)2017-03-14 07:36:28
        中職幼師鋼琴?gòu)椬嘟虒W(xué)初探
        新課程理念下的英語(yǔ)教學(xué)初探
        考試周刊(2016年91期)2016-12-08 22:02:17
        大數(shù)據(jù)技術(shù)在電子商務(wù)中的應(yīng)用
        大數(shù)據(jù)技術(shù)對(duì)新聞業(yè)務(wù)的影響研究
        論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
        課程改革下初中美術(shù)課堂教學(xué)方法初探
        高校檔案管理信息服務(wù)中大數(shù)據(jù)技術(shù)的應(yīng)用
        誦讀經(jīng)典
        大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
        无码av天天av天天爽| 开心五月婷婷综合网站| 网红尤物泛滥白浆正在播放| 精品熟人妻一区二区三区四区不卡 | 狠狠久久亚洲欧美专区| 中文人妻av大区中文不卡| 一区二区三区精品婷婷| 中文字幕女同系列在线看一| 亚洲国产av精品一区二区蜜芽| 国产啪精品视频网站丝袜| 日韩人妻系列在线视频| 青青草在线免费观看视频| 十四以下岁毛片带血a级| 亚洲精品久久久久中文字幕一福利 | 久久人妻一区二区三区免费| 国产a级毛片久久久精品毛片| 成人精品视频一区二区三区尤物| 国产人成精品综合欧美成人| 亚洲色图视频在线观看网站 | 精品一区二区三区蜜桃麻豆| 激情综合色综合久久综合| 亚洲综合欧美在线| 日本黄色高清视频久久| 日本护士xxxxhd少妇| 无码国产午夜福利片在线观看| 久久亚洲成a人片| 国产大学生自拍三级视频| av免费一区二区久久| 手机在线看片| 人人玩人人添人人澡| 91久久久久无码精品露脸| 日本熟妇免费一区二区三区| 亚洲av综合av一区| 末发育娇小性色xxxx| 日韩欧美第一区二区三区| 字幕网中文字幕精品一区| 97se狠狠狠狠狼鲁亚洲综合色| 草草网站影院白丝内射| 久久精品这里就是精品| 免费观看国产短视频的方法| 国产老熟女狂叫对白|