亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘課程中數(shù)據(jù)思維的培養(yǎng)方法探索

        2019-12-04 23:46:02王建新
        計算機教育 2019年8期
        關鍵詞:數(shù)據(jù)挖掘領域思維

        王建新

        (北京林業(yè)大學 信息學院,北京 100083)

        0 引 言

        隨著信息化和智能化在各行業(yè)的迅猛發(fā)展,近十幾年來數(shù)據(jù)的積累呈現(xiàn)出爆炸性加速增長的趨勢。如何有效地掌握這些數(shù)據(jù)、快速了解數(shù)據(jù)背后的真相是重大的經(jīng)濟需求和社會需求。充分發(fā)掘這些數(shù)據(jù)隱藏的規(guī)律和知識,并對其開發(fā),應用于經(jīng)濟生產(chǎn)、行業(yè)管理和社會服務,不僅是各行各業(yè)亟待解決的重大科研開發(fā)問題,而且是長遠發(fā)展目標。在這樣的背景下,數(shù)據(jù)挖掘已經(jīng)成為業(yè)界的熱點研究領域和熱門技術,數(shù)據(jù)挖掘課程也因而成為高校培養(yǎng)數(shù)據(jù)方面人才的重要課程。

        數(shù)據(jù)挖掘是典型的交叉學科,涉及眾多學科門類,包括計算機科學、統(tǒng)計學、數(shù)據(jù)庫和數(shù)據(jù)倉庫技術、并行計算和分布式計算、機器學習、人工智能等[1]。數(shù)據(jù)挖掘學科的主要特點是新穎性、覆蓋內容廣泛、交叉性、難度大[2]。數(shù)據(jù)挖掘及其相關技術將對社會各個領域產(chǎn)生深遠影響。目前,就業(yè)市場對數(shù)據(jù)人才的需求旺盛,數(shù)據(jù)人才的就業(yè)薪資普遍較高,但就業(yè)市場也對數(shù)據(jù)人才有諸多嚴格的要求,比如對數(shù)據(jù)挖掘原理和技術的理解和應用、對相關交叉學科的深入掌握、對領域知識的理解和運用等[3]。

        自然科學領域有公認的三大科學思維:理論思維、實驗思維和計算思維[3]。在此基礎上,各領域對數(shù)據(jù)人才的普遍要求是具備數(shù)據(jù)思維能力,概括起來,就是對數(shù)據(jù)的抽象概括、領域變換、合理利用和制作分析工具、具備數(shù)據(jù)計算思維等能力及綜合運用的能力。隨著大數(shù)據(jù)和人工智能日新月異的發(fā)展,近年來數(shù)據(jù)思維已經(jīng)成為被廣泛倡導的一種科學素養(yǎng)和實踐方法論。

        目前,數(shù)據(jù)挖掘課程在高校中的受課主體是計算機、信息等專業(yè)方向的研究生,對本科生的數(shù)據(jù)挖掘課程教學安排較少。

        本科生的數(shù)據(jù)挖掘課程普遍存在諸多問題[4]。①課程定位不明確,和研究生的數(shù)據(jù)挖掘課程定位不區(qū)分;②理論課偏多,對解決實際問題能力的訓練不夠;③教學形式單一,教學內容復雜而抽象,不能引起學生的學習興趣,很多學生因為過程中出現(xiàn)重大挫折而放棄學習,對后續(xù)內容望而卻步。

        通過對比數(shù)據(jù)挖掘課程多年來在研究生和本科生中的授課情況,我們發(fā)現(xiàn)提升數(shù)據(jù)思維能力是讓學生增強數(shù)據(jù)處理方面的自信心、喜歡數(shù)據(jù)挖掘、理解數(shù)據(jù)挖掘并很好地應用數(shù)據(jù)挖掘技術解決實際問題的關鍵。我們還意識到人才的培養(yǎng)首先體現(xiàn)在思維的培養(yǎng)上。

        1 數(shù)據(jù)思維面面觀

        美國管理學家、統(tǒng)計學家愛德華·戴明說過一句話,成為美國社會的一句常用諺語,“除了上帝,每個人都必須用數(shù)據(jù)說話”,由此可見數(shù)據(jù)對于我們日常生活、經(jīng)濟生產(chǎn)社會發(fā)展的重要程度。要重視數(shù)據(jù),用事實說話,依靠理性思維,但由于歷史的、文化的和科技的原因,我國對數(shù)據(jù)科學的重視時間較晚,重視程度較低,習慣于定性而不定量,習慣于直覺思維而不是推理思維。這也阻礙了數(shù)據(jù)科學的發(fā)展,大部分人不具備數(shù)據(jù)思維的能力。即使是數(shù)據(jù)人才,也缺乏系統(tǒng)的數(shù)據(jù)思維訓練。

        眾所周知,機械思維帶來了工業(yè)革命。近年來,數(shù)據(jù)思維則引爆智能革命[5]2-3。歸納起來,數(shù)據(jù)思維包括數(shù)據(jù)的抽象和概括思維、數(shù)據(jù)的領域變換思維、使用和制造數(shù)據(jù)分析工具的思維、數(shù)據(jù)的計算思維、數(shù)據(jù)即知識的信念思維等。

        1.1 數(shù)據(jù)的抽象和概括思維

        在數(shù)據(jù)挖掘和機器學習的教學過程中,教師和學生都特別推崇“小數(shù)據(jù)講大故事”,也就是在小的數(shù)據(jù)集上了解用戶的需求,弄清楚問題的性質,對小數(shù)據(jù)進行實驗和驗證,然后再把這些方式方法應用到大數(shù)據(jù)集中。但是,最終目的是“大數(shù)據(jù)講大故事”,也就是讓數(shù)據(jù)的整體支撐我們的邏輯、分析和驗證,支撐我們的最終應用。

        小數(shù)據(jù)和大數(shù)據(jù)之間是有顯著差別的。首先,很多情況下小數(shù)據(jù)的性質與大數(shù)據(jù)的性質并不一致,這主要體現(xiàn)在它們之間并不是“獨立同分布的”;其次,小數(shù)據(jù)和大數(shù)據(jù)的處理手段一般來說并不相同。事實上,正是因為它們處理手段的不同,才引發(fā)了大數(shù)據(jù)技術革命;最后,小數(shù)據(jù)無法提供個性化的服務。通過小數(shù)據(jù)有可能掌握基本趨勢和規(guī)律,但如果在實踐中應用,則個性化處理能力不強,甚至完全不能提供個性化處理和服務。

        然而,真實場景中大數(shù)據(jù)的數(shù)量級一般都是幾百MB、幾個GB、甚至達到TB級別,很多學生對這些數(shù)據(jù)的反應先是望而生畏,然后是望而卻步。針對這個學和教的難題,我們提出了數(shù)據(jù)概括和抽象思維的方法。也就是說,不管數(shù)據(jù)有多大,只要掌握了我們的方式方法,就能夠從整體上理解數(shù)據(jù)、把握數(shù)據(jù),不再對數(shù)據(jù)有畏懼心理。后文中我們將從基于密度的抽樣、層次化聚類等技術手段入手,講解如何讓學生形成數(shù)據(jù)概括和抽象的思維及能力。

        1.2 數(shù)據(jù)的領域變換思維

        離開了應用領域,大數(shù)據(jù)及數(shù)據(jù)挖掘就沒有任何生命力。統(tǒng)計學和數(shù)據(jù)挖掘都可以分為兩個層面:“道”和“術”[5]19-25。其中的“道”指的是如何在領域中定義一個數(shù)據(jù)分析的問題,以及如何把分析結果應用到領域,創(chuàng)造價值;而“術”指的是分析的手段,也就是我們通常所說的“挖掘”技術。

        在數(shù)據(jù)挖掘課程教學過程中我們發(fā)現(xiàn),大部分學生熱衷于“術”的學習和研究,而對于“道”并不關心,這與文獻[5]19-25的發(fā)現(xiàn)和總結非常類似。為此,需要培養(yǎng)學生迅速發(fā)現(xiàn)領域需求和通過數(shù)據(jù)挖掘技術真正解決領域需求的能力。這樣才能真正掌握數(shù)據(jù)挖掘之“道”。

        針對領域變換思維,我們在后文中提出應對措施和教學方法,包括積累領域共性需求、領域需求類比等方式。

        1.3 使用和制造數(shù)據(jù)分析工具的思維

        對于海量數(shù)據(jù)、大數(shù)據(jù),肉眼觀察已經(jīng)無法滿足理解數(shù)據(jù)、掌握數(shù)據(jù)、分析數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,并應用數(shù)據(jù)規(guī)律解決實際問題的業(yè)務脈絡,必須借助于分析和展現(xiàn)工具軟件,需要具備合理利用工具的思維方式和能力,但是從當前的教學狀況看,學生容易走入兩個極端。第一個極端情況就是所有的分析挖掘工作全部借助于已有的軟件包,如果沒有合適的軟件包,或者軟件包如果不具備相應的功能,則分析工作沒法繼續(xù)進行。另一個極端就是學生并不想去學習各種軟件工具,對軟件包不過問、不應用,所有的分析挖掘工作全部使用通用的編程語言實現(xiàn)。其實,這兩個極端情況都不利于數(shù)據(jù)挖掘工作的順利開展,也不利于真實應用需求的有效解決。為此,我們在后文提出使用數(shù)據(jù)分析工具和制作數(shù)據(jù)分析工具相結合的思維方式和操作方法,使學生數(shù)據(jù)分析的效率和效能綜合最大化。

        1.4 數(shù)據(jù)的計算思維

        所有的數(shù)據(jù)挖掘問題最終要落實到一個計算問題。大數(shù)據(jù)量場景下,對計算的效率要求越來越高。這導致在小數(shù)據(jù)量場景下完美運行的許多挖掘過程在大數(shù)據(jù)量場景下不具有可行性。另一方面,由于從一開始要考慮到數(shù)據(jù)量的大小,為了使挖掘過程對數(shù)據(jù)具有可擴展性,相當一部分學生把注意力和精力放在對數(shù)據(jù)量的考慮和處理上。這兩方面都會嚴重制約數(shù)據(jù)挖掘過程的順利實施和有效應用。

        為此,我們試圖在教學中強化數(shù)據(jù)的計算思維理念,也就是人力和算力的平衡思維理念,在后文中將詳述訓練策略、內容和具體手段。

        1.5 數(shù)據(jù)即知識的思維

        在大數(shù)據(jù)時代背景下,如果具備強大完善的挖掘算法和挖掘手段,“數(shù)據(jù)即知識”,這是一個完美的目標,也是一種思維理念。只有擁有這樣的思維方式,才敢于積極地對海量數(shù)據(jù)進行挖掘處理,并樂觀應對問題定義和結果以解釋應用等一系列的難題。在后文中,我們將介紹如何向學生講授這一思維方式的理論支撐,以及如何訓練學生把這一理念運用到領域問題中。

        2 教學改革措施

        2.1 培養(yǎng)掌握數(shù)據(jù)摘要的直覺和技術手段

        如前文所述,目前所有的實際領域應用中的數(shù)據(jù)分析挖掘對象都至少是幾百兆字節(jié)的數(shù)據(jù)集,數(shù)據(jù)記錄總數(shù)一般是百萬條起步。學生碰到這樣的數(shù)據(jù)集后會感到無從下手,而學習其中的基本結構和掌握基本的統(tǒng)計信息需要花費相當長的時間,甚至超過了一次實驗課的總時間。為此,我們提出了一個完整的流程,并把這個流程腳本化和軟件化,通過這個流程的操作,就可以形成對數(shù)據(jù)的直覺,基本掌握數(shù)據(jù)特征及數(shù)據(jù)間的關系。

        首先,形成各式各樣的數(shù)據(jù)摘要,包括記錄條數(shù)、均值、最大值、最小值、所有離散取值可能、方差、分位數(shù)、異常值等;其次,利用多種隨機采樣手段,形成小數(shù)據(jù),使得數(shù)據(jù)盡量與原數(shù)據(jù)獨立同分布,易于理解原數(shù)據(jù);第三,把感興趣的字段重點關注,生成關于這些字段的數(shù)據(jù)的報告;第四,生成重要的感興趣的字段之間的關系,并以圖示的方式展現(xiàn)出來,產(chǎn)生關于它們之間關系的直覺;最后,也是最重要的步驟,就是把數(shù)據(jù)用層次化聚類的手段做出概括和摘要。該方法是我們的教師和學生自主研發(fā)的工具之一,能夠把任意龐大復雜的數(shù)據(jù)集匯總為20至50條有意義的摘要信息,這對理解和把握數(shù)據(jù)整體有著很大的幫助。對每一個案例訓練,我們都按照上述的流程進行,這使得學生掌握數(shù)據(jù)集的時間大大縮短。生成的摘要與領域知識密切相關,也是領域變換思維的具體體現(xiàn)。

        2.2 培養(yǎng)數(shù)據(jù)挖掘與領域相結合的能力

        如果數(shù)據(jù)挖掘實施人員既是數(shù)據(jù)人才又兼為領域專家,那將是最完美的。但是,大多數(shù)情況下,數(shù)據(jù)人才僅對數(shù)據(jù)挖掘的技術熟悉,對存在需求的領域不了解,或一知半解,或經(jīng)過很長時間的學習才能夠了解;然而領域專家又很難在短時間內掌握數(shù)據(jù)挖掘的相關技術。這是阻礙數(shù)據(jù)挖掘技術應用于各領域中的最主要障礙。解決這個矛盾的主要途徑,就是讓數(shù)據(jù)人才與領域人才進行高效地溝通,在較短的時間內弄清楚:領域真正需求在哪里?其核心訴求是提高收入、縮減成本還是降低風險?還是兼而有之?領域業(yè)務能夠提供哪些可自動獲取的數(shù)據(jù)(而非純人工錄入的數(shù)據(jù))?

        數(shù)據(jù)挖掘在眾多領域應用中普遍存在的一個問題是:領域內的業(yè)務人員并不明確自己需要的是什么。為了讓學生快速掌握領域溝通技能和技巧,我們分類別、分層次設置了與領域專家溝通的問題,并制成表格。如果領域專家能夠完整回答這些問題,那么學生對業(yè)務需求和業(yè)務數(shù)據(jù)結構會有比較完整的理解和把握。反過來,領域專家通過回答這些問題,也會梳理領域需求,梳理所擁有的數(shù)據(jù)及其邏輯、拓撲關系。這也能讓領域專家逐漸明白,“數(shù)據(jù)即知識”。

        對所有的實驗案例,都要求學生按照這樣的表格分角色完成溝通。雖然部分學生對業(yè)務更了解,但也都嚴格按照要求完成問題列表表格。

        2.3 培養(yǎng)拿來主義和自力更生相結合的能力

        隨著數(shù)據(jù)挖掘社區(qū)的急速發(fā)展,各式軟件和軟件包層出不窮。這些軟件或軟件包有純粹商業(yè)的、純粹開源的、混合型的。這些軟件構件中,有的可以拿來即用,有的需要二次開發(fā)。正如前文所述,對于使用這些軟件或軟件包,學生容易走入兩個極端。一個極端是:對這些龐大復雜的軟件包無法掌握,無從下手開始,干脆棄之不用;而另一個極端是過分依賴于既有軟件,離開了成熟的軟件則寸步難行。其實這兩個極端都不是成熟合理的數(shù)據(jù)挖掘解決方式。

        為此,在教學過程中提倡拿來主義和自力更生相結合的解決模式。首先,讓學生了解市面上最常用和最有用的數(shù)據(jù)挖掘軟件,關注其中重要的軟件包和軟件構件,例如Python的SK-learn包和Weka中Apriori算法、ID3算法、C4.5算法等;其次,學會用腳本語言串聯(lián)和組合這些算法,做到從單一功能設計到復雜功能設計的二次開發(fā);第三,用自己熟悉的語言復現(xiàn)軟件包中的常見的算法;最后,對于那些不能用成熟軟件包實現(xiàn)的功能,要運用Java、C++等語言編寫自己的應用。

        3 教學效果

        數(shù)據(jù)挖掘課程曾經(jīng)是北京林業(yè)大學研究生計算機相關專業(yè)的專業(yè)必修課,也是本科生的專業(yè)選修課,從2018年春季開始,成為計算機創(chuàng)新實驗班的專業(yè)必修課,3學分,共48學時。我們的教學改革措施主要在計創(chuàng)班中踐行。

        與以往教學不同,實驗不再使用小規(guī)模數(shù)據(jù)和模擬數(shù)據(jù),全部使用真實案例中的大數(shù)據(jù)。第一個案例是學校提供的一卡通消費數(shù)據(jù),超 過1 000萬條記錄。學生預先接受了概括和抽象大數(shù)據(jù)的策略和流程訓練,在這個案例中順利應用,大部分同學在20分鐘內從整體上掌握了數(shù)據(jù),為后續(xù)挖掘工作打下了良好的基礎。第二個案例是北京市老齡委提供的老年卡消費數(shù)據(jù),超過300萬條記錄,通過填寫問卷,向以往有此項目經(jīng)驗的研究生詢問,也在一堂課時間之內了解了相關的業(yè)務流程、數(shù)據(jù)結構和數(shù)據(jù)特點。

        為了讓學生不過分依賴于軟件平臺和軟件包,實驗課的最后一個任務就是獨立實現(xiàn)一個數(shù)據(jù)挖掘的構件,該構件能夠生成任意龐大數(shù)據(jù)集的有意義的摘要,以便用于將來的數(shù)據(jù)抽象和摘要生成。該構件是教師的在研課題,其功能尚未出現(xiàn)在軟件包中,也沒有出現(xiàn)在文獻中。這給計創(chuàng)班的同學們提出了極大的挑戰(zhàn),但是大部分學生在規(guī)定的時段內獨立出色地完成了該功能,這不僅讓學生對以后數(shù)據(jù)分析挖掘工作增加了軟件儲備,也讓他們切身體會到了拿來主義和自力更生相結合的數(shù)據(jù)挖掘理念的意義和必要性。

        總之,通過數(shù)據(jù)思維的訓練和相應流程的執(zhí)行,數(shù)據(jù)挖掘課程的學生雖然付出了課程學時之外的很多努力,但能夠在一學期內迅速掌握數(shù)據(jù)挖掘的精髓,并能獨立處理一些真實復雜的案例,說明數(shù)據(jù)思維理念的培養(yǎng)是有益的教學改革措施。

        4 結 語

        在大力發(fā)展新工科的時代背景下,提升學生的數(shù)據(jù)思維能力是對傳統(tǒng)的理論思維、實驗思維和計算思維培養(yǎng)的延續(xù),也是適應數(shù)據(jù)人才市場的教育選擇,我們也在這方面提出并實踐了針對性的教育改革措施,但是數(shù)據(jù)挖掘領域的發(fā)展速度遠遠超過預期,我們也會依據(jù)基本的數(shù)據(jù)思維理念,擴展相關內容,優(yōu)化培養(yǎng)流程,更好地為社會培養(yǎng)優(yōu)秀的數(shù)據(jù)人才。

        猜你喜歡
        數(shù)據(jù)挖掘領域思維
        思維跳跳糖
        思維跳跳糖
        思維跳跳糖
        思維跳跳糖
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        領域·對峙
        青年生活(2019年23期)2019-09-10 12:55:43
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        新常態(tài)下推動多層次多領域依法治理初探
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        又色又爽又黄的视频软件app| 国产精品福利视频一区| 日韩亚洲中字无码一区二区三区| 亚洲男人天堂2017| AV在线毛片| 精品一区二区三区人妻久久福利| 国产高清一区二区三区四区色| 18岁日韩内射颜射午夜久久成人| 精品人妻人人做人人爽| 俺也去色官网| 91国产自拍视频在线| 国产亚洲精品在线播放| 国产一区二区三区三区四区精品| 亚洲va久久久噜噜噜久久男同| 久久午夜无码鲁丝片直播午夜精品 | 熟女人妻丰满熟妇啪啪| 国产在线精品亚洲视频在线| 日韩精品一区二区三区乱码| 中文字幕在线日亚洲9| japanese无码中文字幕| 在线av野外国语对白| 久久精品亚洲国产成人av| 加勒比久久综合久久伊人爱| 国内精品久久久久久久97牛牛| 精品一品国产午夜福利视频| 国产av综合一区二区三区最新| 在线久草视频免费播放| 免费a级毛片在线播放不收费| 欧美 日韩 国产 成人 在线观看| 狠狠躁夜夜躁人人爽天天不卡| 亚洲av网站在线免费观看| av区无码字幕中文色| 色婷婷久久一区二区三区麻豆| 国产一区二区三区啪| 国产精品亚洲最新地址| 青青草免费手机视频在线观看| 色偷偷av男人的天堂| 久久精品国产亚洲5555| 日本女优五十路中文字幕| 国产精品亚洲专区无码不卡| 丁香花在线影院观看在线播放|