亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計(jì)感知的大數(shù)據(jù)處理與分析課程設(shè)計(jì)研究

        2021-08-07 10:26:58何玉林尹劍飛黃哲學(xué)
        現(xiàn)代計(jì)算機(jī) 2021年17期
        關(guān)鍵詞:通話記錄深圳大學(xué)數(shù)據(jù)處理

        何玉林,尹劍飛,黃哲學(xué)

        (深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院,深圳 518060)

        0 引言

        在2015年8月份國(guó)務(wù)院下發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中明確指出[注]http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm:創(chuàng)新人才培養(yǎng)模式,建立健全多層次、多類型的大數(shù)據(jù)人才培養(yǎng)體系。在教育部公布的《2019年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果的通知》中顯示[注]http://www.gov.cn/zhengce/zhengceku/2020-03/05/content_5487477.htm,截止到2019年10月份,全國(guó)高校新增設(shè)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)點(diǎn)196個(gè)。研究專門針對(duì)大數(shù)據(jù)專業(yè)人才培養(yǎng)的課程內(nèi)容設(shè)計(jì)是非常必要的,對(duì)大數(shù)據(jù)戰(zhàn)略的具體實(shí)施具有重要的現(xiàn)實(shí)意義和社會(huì)價(jià)值。

        深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院于2017年啟動(dòng)大數(shù)據(jù)特色班的建設(shè),2018年開(kāi)始進(jìn)行大數(shù)據(jù)特色班的招生與授課,其中《大數(shù)據(jù)處理與分析》被列特色班的核心課程。當(dāng)前,國(guó)內(nèi)數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)開(kāi)設(shè)與大數(shù)據(jù)處理和大數(shù)據(jù)分析相關(guān)課程的兄弟院校還有華中科技大學(xué)的《大數(shù)據(jù)分析與處理》、中國(guó)人民大學(xué)的《非結(jié)構(gòu)化大數(shù)據(jù)分析》、山東大學(xué)的《大數(shù)據(jù)管理與分析》等。不同高校對(duì)課程內(nèi)容的設(shè)計(jì)不盡相同,所采用的教材也不一樣,因此,本文試圖設(shè)計(jì)一套能夠符合數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)要求的、同時(shí)又能夠體現(xiàn)深圳大學(xué)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)研究特色的《大數(shù)據(jù)處理與分析》課程體系。

        大數(shù)據(jù)作為統(tǒng)計(jì)學(xué)、數(shù)學(xué)和計(jì)算機(jī)三大學(xué)科的緊密整合,統(tǒng)計(jì)學(xué)在大數(shù)據(jù)的技術(shù)體系結(jié)構(gòu)中占據(jù)重要的位置。因此,在充分借鑒兄弟院校課程設(shè)計(jì)經(jīng)驗(yàn)的基礎(chǔ)之上,結(jié)合深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院大數(shù)據(jù)所多年從事大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)相關(guān)領(lǐng)域研究取得的科研成果,我們給出了一套以大數(shù)據(jù)隨機(jī)樣本劃分模型(Random Sample Partition,RSP)[1]為基礎(chǔ)的《大數(shù)據(jù)處理與分析》課程設(shè)計(jì)方案,讓大數(shù)據(jù)統(tǒng)計(jì)感知[2]的思想貫穿大數(shù)據(jù)存儲(chǔ)處理、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)切分處理、大數(shù)據(jù)降維處理、大數(shù)據(jù)統(tǒng)計(jì)分析、大數(shù)據(jù)分類分析和大數(shù)據(jù)聚類分析七部分的教學(xué)內(nèi)容。

        1 課程教學(xué)內(nèi)容設(shè)計(jì)

        在介紹《大數(shù)據(jù)處理與分析》課程教學(xué)內(nèi)容設(shè)計(jì)之前,首先明確該課程的教學(xué)目的是培養(yǎng)具備初級(jí)大數(shù)據(jù)計(jì)算技術(shù)運(yùn)用能力的本科生,以前期課程《大數(shù)據(jù)計(jì)算原理和技術(shù)》和《數(shù)據(jù)挖掘?qū)д摗窞榛A(chǔ),通過(guò)后續(xù)課程《大數(shù)據(jù)應(yīng)用概論》和《統(tǒng)計(jì)抽樣理論與方法》的學(xué)習(xí)強(qiáng)化對(duì)本課程知識(shí)點(diǎn)的進(jìn)一步掌握和理解,使學(xué)生在日后的工作中能夠?qū)?shí)際的大數(shù)據(jù)計(jì)算問(wèn)題提出行之有效的解決方案。

        大數(shù)據(jù)處理與分析應(yīng)該包含兩部分的內(nèi)容:大數(shù)據(jù)處理強(qiáng)調(diào)數(shù)據(jù)層面的操作方法,大數(shù)據(jù)分析強(qiáng)調(diào)算法層面的訓(xùn)練模式。處理注重更深層次的數(shù)據(jù)挖掘,分析注重有針對(duì)性的算法訓(xùn)練。因此,我們?cè)O(shè)計(jì)如圖1所示的《大數(shù)據(jù)處理與分析》課程教學(xué)內(nèi)容體系。

        (1)大數(shù)據(jù)存儲(chǔ)處理:主要講述分布式存儲(chǔ)系統(tǒng)是如何對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行存儲(chǔ)和管理的[3],包括數(shù)據(jù)分布、復(fù)制與一致性、容錯(cuò)機(jī)制和可擴(kuò)展性。本部分內(nèi)容引出Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)在處理大數(shù)據(jù)的分布式存儲(chǔ)時(shí)沒(méi)有考慮HDFS數(shù)據(jù)塊之間的概率分布一致性;

        (2)大數(shù)據(jù)預(yù)處理,主要講述針對(duì)大數(shù)據(jù)的缺省值處理、異常點(diǎn)挖掘,以及屬性一致性處理[4],即如何將經(jīng)典的缺省值插補(bǔ)方法、異常點(diǎn)檢測(cè)方法、連續(xù)值屬性離散化方法、以及離散值屬性連續(xù)化方法應(yīng)用在數(shù)據(jù)分布式存儲(chǔ)的場(chǎng)景中,當(dāng)大數(shù)據(jù)被表示成批量的數(shù)據(jù)塊時(shí),數(shù)據(jù)塊之間的概率分布一致性是如何影響上述對(duì)大數(shù)據(jù)的預(yù)處理操作的;

        (3)大數(shù)據(jù)切分處理:主要講述如何基于HDFS數(shù)據(jù)塊獲得與大數(shù)據(jù)保持概率分布一致性的RSP數(shù)據(jù)塊[5],包括RSP的定義、RSP的判定、數(shù)據(jù)塊分布一致性的判定[6]、大數(shù)據(jù)復(fù)雜性的定義,以及如何基于數(shù)據(jù)復(fù)雜性確定樣本規(guī)模,本部分內(nèi)容是本課程的核心重點(diǎn),是開(kāi)展后續(xù)大數(shù)據(jù)分析的基礎(chǔ);

        (4)大數(shù)據(jù)降維處理:主要講述分布式存儲(chǔ)環(huán)境下如何對(duì)大規(guī)模數(shù)據(jù)進(jìn)行特征選擇和屬性抽取。為了處理不同數(shù)據(jù)塊對(duì)應(yīng)的降維之后屬性不一致問(wèn)題,我們重點(diǎn)講解在不同的RSP數(shù)據(jù)塊上采用觀測(cè)點(diǎn)策略[7]的降維處理機(jī)制,即將原始空間的多維數(shù)據(jù)轉(zhuǎn)換為距離空間的一維數(shù)據(jù);

        (5)大數(shù)據(jù)統(tǒng)計(jì)分析:主要講述如何對(duì)大數(shù)據(jù)進(jìn)行概率密度函數(shù)估計(jì)的問(wèn)題,因?yàn)楦怕拭芏群瘮?shù)是研究隨機(jī)變量數(shù)學(xué)屬性(期望、方差、信息熵等)的重要統(tǒng)計(jì)工具。基于大數(shù)據(jù)隨機(jī)樣本劃分模型,重點(diǎn)講解增量式的大數(shù)據(jù)概率密度函數(shù)估計(jì)方法[8]和集成式的大數(shù)據(jù)概率密度函數(shù)估計(jì)方法;

        (6)大數(shù)據(jù)分類分析:主要講述如何基于RSP數(shù)據(jù)塊構(gòu)建針對(duì)大數(shù)據(jù)的有監(jiān)督學(xué)習(xí)模型[9],以神經(jīng)網(wǎng)絡(luò)和貝葉斯分類器兩種典型的有監(jiān)督學(xué)習(xí)模型為例,詳細(xì)地講解增量神經(jīng)網(wǎng)絡(luò)、增量貝葉斯分類器、集成神經(jīng)網(wǎng)絡(luò)、以及集成貝葉斯網(wǎng)絡(luò)的構(gòu)建方法,并對(duì)大數(shù)據(jù)有監(jiān)督學(xué)習(xí)中涉及到的不平衡分類問(wèn)題以及半監(jiān)督學(xué)習(xí)問(wèn)題進(jìn)行簡(jiǎn)述;

        (7)大數(shù)據(jù)聚類分析:主要講述如何基于RSP數(shù)據(jù)塊構(gòu)建針對(duì)大數(shù)據(jù)的無(wú)監(jiān)督學(xué)習(xí)模型,以K-means和高斯混合模型(Gaussian Mixture Model,GMM)兩種典型的無(wú)監(jiān)督學(xué)習(xí)模型為例,詳細(xì)地探討集成K-means和集成GMM的構(gòu)建方法,并對(duì)一種新型的適用于大數(shù)據(jù)無(wú)監(jiān)督學(xué)習(xí)問(wèn)題的自動(dòng)聚類算法I-nice進(jìn)行詳述。

        上述七部分的教學(xué)內(nèi)容全部圍繞大數(shù)據(jù)的處理與分析展開(kāi),在課程教學(xué)開(kāi)展過(guò)程中,為加深學(xué)生對(duì)理論知識(shí)的理解和掌握,每一部分的教學(xué)內(nèi)容均對(duì)應(yīng)專題實(shí)驗(yàn)以鍛煉學(xué)習(xí)的實(shí)際操作能力。

        2 課程應(yīng)用案例介紹

        《大數(shù)據(jù)處理與分析》課程準(zhǔn)備了一個(gè)實(shí)際應(yīng)用案例作為對(duì)學(xué)生理論學(xué)習(xí)的擴(kuò)充以及課程學(xué)習(xí)成果的檢驗(yàn):電信用戶通話記錄分群。自2017年深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院大數(shù)據(jù)所與中國(guó)電信某省公司簽署戰(zhàn)略合作協(xié)議以來(lái),我們收集了海量的電信用戶數(shù)據(jù),選取2020年05月01日至2020年06月30日約2TB的全省通話記錄數(shù)據(jù),訓(xùn)練一個(gè)能夠?qū)⑼ㄔ挿譃樵p騙電話、騷擾電話、營(yíng)銷電話,以及正常電話四種類型的學(xué)習(xí)模型,用以對(duì)新的通話記錄進(jìn)行類型甄別,其中一條通話記錄數(shù)據(jù)采用如圖2所示的74個(gè)字段進(jìn)行描述。

        為了實(shí)現(xiàn)上述的電信通話記錄分群任務(wù),首先需要對(duì)獲取的電信大數(shù)據(jù)進(jìn)行如下的處理操作:

        3 課程教學(xué)效果分析

        本課程于2019-2020學(xué)年第一學(xué)期首次給深圳大學(xué)大數(shù)據(jù)特色班講授,選課人數(shù)30人,每周4學(xué)時(shí)(2節(jié)理論課和2節(jié)實(shí)驗(yàn)課)。本學(xué)期針對(duì)該課程總共設(shè)置了5次課后實(shí)驗(yàn)、3次課堂測(cè)試、1次期中考試、和1次期末大作業(yè),除去4人放棄本課程的學(xué)習(xí)之外,其余26人的成績(jī)分布下圖3所示:

        (a)實(shí)驗(yàn)一成績(jī)分布(b)實(shí)驗(yàn)二成績(jī)分布

        從圖3我們可以清楚地觀察到大數(shù)據(jù)特色班的所有學(xué)生(放棄本課程學(xué)習(xí)的除外)都能夠較好地完成課后實(shí)驗(yàn)、隨堂測(cè)試、期中考試和期末大作業(yè),這表明《大數(shù)據(jù)處理與分析》課程內(nèi)容的設(shè)計(jì)是能夠滿足大數(shù)據(jù)特色班學(xué)生認(rèn)知需求的,符合數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的培養(yǎng)要求。圖4和圖5分別給出了《大數(shù)據(jù)處理與分析》課程教學(xué)測(cè)評(píng)結(jié)果和測(cè)評(píng)結(jié)果分析情況,從圖4中可看出大數(shù)據(jù)特色班的學(xué)生對(duì)本課程的教學(xué)滿意度達(dá)到了98.45%,這表明學(xué)生在本課程的學(xué)習(xí)中確實(shí)做到了“學(xué)有所得、學(xué)以致用”,符合了學(xué)生對(duì)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)知識(shí)的理解與要求。

        圖4 《大數(shù)據(jù)處理與分析》課程教學(xué)測(cè)評(píng)結(jié)果

        圖5 《大數(shù)據(jù)處理與分析》課程測(cè)評(píng)結(jié)果分析

        4 結(jié)語(yǔ)

        在當(dāng)前《大數(shù)據(jù)處理與分析》課程體系結(jié)構(gòu)尚不完善的情況下,對(duì)于如何開(kāi)展本課程的本科教學(xué)工作,結(jié)合作者研究團(tuán)隊(duì)獲得的關(guān)于大數(shù)據(jù)系統(tǒng)計(jì)算的最新研究成果,提出了一種以大數(shù)據(jù)統(tǒng)計(jì)感知思想為切入點(diǎn)、以大數(shù)據(jù)隨機(jī)樣本劃分模型為基礎(chǔ)的課程設(shè)計(jì)方案。同時(shí),結(jié)合有針對(duì)性的應(yīng)用案例將課程知識(shí)點(diǎn)與實(shí)際應(yīng)用有機(jī)結(jié)合,在重視課程設(shè)計(jì)的理論性基礎(chǔ)上,增強(qiáng)教學(xué)內(nèi)容的實(shí)用性。該方案為今后大數(shù)據(jù)處理與分析課程的設(shè)計(jì)提供了一條具有較高可操作性的思路,具有較強(qiáng)的方法論借鑒意義。

        猜你喜歡
        通話記錄深圳大學(xué)數(shù)據(jù)處理
        《深圳大學(xué)學(xué)報(bào)理工版》2023 年分類總目次
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        《深圳大學(xué)學(xué)報(bào)理工版》2021 年分類總目次
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        《深圳大學(xué)學(xué)報(bào)理工版》2020年分類總目次
        《深圳大學(xué)學(xué)報(bào)理工版》2017年征稿細(xì)則
        解釋
        基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
        不用解釋
        借助“微信電話本”實(shí)現(xiàn)無(wú)痕通話
        電腦迷(2015年12期)2015-04-29 23:22:51
        中文字幕亚洲精品高清| 无码一区二区三区老色鬼| 日韩精品电影在线观看| 蜜桃一区二区三区自拍视频| 一区二区三区乱码专区| 成人免费看aa片| 无码人妻少妇色欲av一区二区| 精品少妇一区一区三区| 国产伦一区二区三区久久| 亚洲成av人片在线观看| 玩弄放荡人妻少妇系列视频| 伊人久久综在合线亚洲不卡| 免费在线观看视频专区| 精品亚洲天堂一区二区三区| 亚洲午夜福利在线视频| 国产一区a| 成人性生交大片免费看7| 国产一区二区三区av天堂| 亚洲中文字幕久久精品无码喷水| 国产日产精品久久久久久| 成年女人午夜特黄特色毛片免| 亚洲夫妻性生活免费视频| 乌克兰少妇xxxx做受野外| 亚洲爆乳大丰满无码专区| 一区二区三区日本美女视频| 亚洲国产精品无码aaa片| 亚洲日韩中文字幕一区| 在线天堂中文一区二区三区| 麻豆精品在线视频观看| 亚洲欧美日韩中文字幕一区二区三区| 国产成+人+综合+亚洲 欧美| 日本人妻av在线观看| 精品亚洲一区二区三区四区五| 精品国产一区av天美传媒| 日本高清中文字幕一区二区三区| 久久精品久久精品中文字幕 | 一本久道综合色婷婷五月| 日本无遮挡吸乳呻吟视频| 四虎无码精品a∨在线观看| 日本一级二级三级不卡| 在熟睡夫面前侵犯我在线播放|