亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于兩種BI工具的高校學(xué)生基礎(chǔ)信息數(shù)據(jù)預(yù)處理性能比較研究

        2023-12-31 00:00:00曾祥富
        科技創(chuàng)新與應(yīng)用 2023年16期

        摘" 要:該文分析高校學(xué)生基礎(chǔ)信息數(shù)據(jù)特點(diǎn),針對(duì)本地?cái)?shù)據(jù)管理不規(guī)范、不可追溯、關(guān)聯(lián)性不足等問(wèn)題,分別對(duì)Tableau Prep Builder和Power BI 2種商業(yè)BI工具數(shù)據(jù)預(yù)處理功能進(jìn)行研究分析,提出基于2種BI工具的數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)路徑,并對(duì)2種數(shù)據(jù)處理方式進(jìn)行比較。

        關(guān)鍵詞:BI工具基礎(chǔ)信息;數(shù)據(jù)預(yù)處理;數(shù)據(jù)建模;編輯器;表格

        中圖分類(lèi)號(hào):TP30" " " "文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2023)16-0089-05

        Abstract: This paper analyzes the characteristics of college students' basic information data. Aiming at the problems of nonstandard, untraceable, and insufficient relevance of local data management, this paper studies and analyzes the data preprocessing functions of two commercial BI tools, Tableau Prep Builder and Power BI, proposes the implementation path of data preprocessing based on the two BI tools, and compares the two data processing methods.

        Keywords: basic information of BI tools; data preprocessing; data modeling; editor; table

        目前高校學(xué)生管理基礎(chǔ)信息數(shù)據(jù)眾多,傳統(tǒng)的Excel本地?cái)?shù)據(jù)處理模式已經(jīng)無(wú)法滿(mǎn)足統(tǒng)計(jì)需要。而在基于Excel的數(shù)據(jù)分析過(guò)程中,通常需要花費(fèi)一半以上時(shí)間用于數(shù)據(jù)整理和合并。Tableau Prep Builder[1]是一款直觀、簡(jiǎn)潔和智能的工具,可有效清理和組織數(shù)據(jù)以供分析。同樣,PowerBI具有強(qiáng)大的數(shù)據(jù)預(yù)處理功能。2種BI工具在對(duì)本地?cái)?shù)據(jù)處理方面各有特色,下面將就高校學(xué)生基礎(chǔ)管理數(shù)據(jù)處理在2種工具中的應(yīng)用做探討。

        1" 高校學(xué)生基礎(chǔ)信息數(shù)據(jù)準(zhǔn)備

        1.1" 數(shù)據(jù)組成及特點(diǎn)

        高校學(xué)生基礎(chǔ)信息數(shù)據(jù)包括學(xué)生基本信息、學(xué)生宿舍管理信息、學(xué)生成績(jī)管理、學(xué)生操行分統(tǒng)計(jì)和公益工時(shí)統(tǒng)計(jì)等[2]。目前高校學(xué)生基礎(chǔ)信息數(shù)據(jù)管理存在以下特點(diǎn)。

        1)本地?cái)?shù)據(jù)所占比例較大。大量地原始數(shù)據(jù),特別是一些過(guò)程記錄被保存在本地硬盤(pán),未完全實(shí)現(xiàn)數(shù)據(jù)庫(kù)管理。

        2)數(shù)據(jù)關(guān)聯(lián)分析不足。學(xué)生宿舍、公益工時(shí)、操行分等表現(xiàn)未與學(xué)生成績(jī)等關(guān)聯(lián),不能綜合全面評(píng)定學(xué)生表現(xiàn)。

        3)數(shù)據(jù)不可追溯。通常學(xué)生畢業(yè)后,其在校期間的過(guò)程數(shù)據(jù)只會(huì)選擇性保留,缺少歷史記錄。

        1.2" 數(shù)據(jù)準(zhǔn)備

        規(guī)范高校學(xué)生基礎(chǔ)信息管理,首先需要對(duì)這些數(shù)據(jù)進(jìn)行規(guī)范管理、規(guī)范記錄。作為數(shù)據(jù)管理人員需要厘清明細(xì)表與匯總表的關(guān)系,合理選擇表格形式記錄數(shù)據(jù),規(guī)范采集記錄數(shù)據(jù)。

        1.2.1" 區(qū)分明細(xì)表與匯總表

        通常我們采用二維表記錄數(shù)據(jù)時(shí)會(huì)出現(xiàn)多行表頭、大量合并單元格,見(jiàn)表1。這在進(jìn)行數(shù)據(jù)分析時(shí)需要對(duì)單元格進(jìn)行拆分才能進(jìn)一步篩選或者數(shù)據(jù)透視處理。

        而數(shù)據(jù)分析生成的是一張二維明細(xì)表,其應(yīng)符合以下原則。

        1)每一行應(yīng)是一條單獨(dú)的記錄且完整、不可拆分的單元,一個(gè)完整的數(shù)據(jù)記錄。

        2)盡量保證數(shù)據(jù)記錄完整,杜絕合并單元格,刪除多重表頭。標(biāo)題不能為空、不能重復(fù),盡量不要用數(shù)字作為標(biāo)題。

        3)數(shù)據(jù)字段應(yīng)包含關(guān)鍵字段,即數(shù)據(jù)庫(kù)各表中的主鍵字段,比如記錄設(shè)備狀態(tài)信息,那么不同表數(shù)據(jù)的關(guān)聯(lián)可以選擇設(shè)備編號(hào)作為主鍵。

        1.2.2" 合理選擇一維表與二維表記錄數(shù)據(jù)

        通常一維表為源數(shù)據(jù)表,二維表為展示數(shù)據(jù)表。二維表在BI工具中可以通過(guò)列轉(zhuǎn)置等方式轉(zhuǎn)換為一維表,一維表更適合作為數(shù)據(jù)分析的原始材料。一維表轉(zhuǎn)二維表稱(chēng)之為透視,二維表轉(zhuǎn)一維表稱(chēng)之為逆透視。

        一維表適合記錄單獨(dú)一條記錄,每一列的內(nèi)容為獨(dú)立的參數(shù),見(jiàn)表2。該一維表中每一行為單獨(dú)記錄,可作為源數(shù)據(jù)記錄,但未對(duì)數(shù)據(jù)進(jìn)行聚合分析。

        二維表更為明確直觀,每一列的內(nèi)容不為獨(dú)立的參數(shù),見(jiàn)表3。該二維表每一門(mén)學(xué)科成績(jī)需要姓名與科目名稱(chēng)共同確定,數(shù)據(jù)展示相對(duì)更為直觀。

        1.2.3" 規(guī)范數(shù)據(jù)記錄格式

        1)規(guī)范本地?cái)?shù)據(jù)文件命名。統(tǒng)一按照結(jié)構(gòu)門(mén)類(lèi)制定命名規(guī)則。如將基礎(chǔ)數(shù)據(jù)按照如下格式進(jìn)行命名:wrh-gc-宿舍管理-學(xué)生入住信息表。其中wrh為學(xué)校字母縮寫(xiě),gc為學(xué)院字母縮寫(xiě),宿舍管理為性質(zhì)分類(lèi),學(xué)生入住信息表為子分類(lèi)表。

        2)規(guī)范數(shù)據(jù)記錄格式。一是規(guī)范日期文本記錄方式。日期應(yīng)統(tǒng)一采用“xxxx年xx月xx日、xxxx/xx/xx、xxxx-xx-xx”。二是規(guī)范數(shù)值記錄方式。數(shù)值不帶單位,表格不單獨(dú)小計(jì)。三是同一字段數(shù)據(jù)格式應(yīng)嚴(yán)格一致。

        2" 基于Tableau的數(shù)據(jù)預(yù)處理方法

        利用Tableau Prep Builder進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)字段整理、結(jié)構(gòu)調(diào)整、合并建模等[3]。其中字段整理包括字段重命名、字段篩選、清除異常值及重復(fù)項(xiàng),結(jié)構(gòu)調(diào)整包括數(shù)據(jù)轉(zhuǎn)置、聚合計(jì)算;合并建模包括數(shù)據(jù)并集連接、數(shù)據(jù)混合等。

        2.1" 數(shù)據(jù)整理

        2.1.1" 數(shù)據(jù)拆分

        如果字段中存在有特定分割字符的字段可在數(shù)據(jù)配置窗格中選擇自動(dòng)拆分方式進(jìn)行拆分。如果需要拆分的字段長(zhǎng)度不固定且無(wú)分割字符則采用LOOKUP函數(shù)、正則匹配函數(shù)等方式解決。如圖1所示,使用“自定義拆分”功能對(duì)學(xué)生家庭住址信息按照省-地市-縣區(qū)-鄉(xiāng)鎮(zhèn)/街道方式進(jìn)行拆分。

        2.1.2" 數(shù)據(jù)分組

        即將性質(zhì)相似多個(gè)字段進(jìn)行合并。如圖2所示,統(tǒng)計(jì)學(xué)生生源地按“中部”“西部”“東部”3個(gè)區(qū)域進(jìn)行劃分,則可以利用Tableau Prep Builder分組功能。

        2.1.3" 數(shù)據(jù)篩選

        這里數(shù)據(jù)篩選包括空值篩選,也可以通過(guò)查詢(xún)匹配等方式篩選。

        2.1.4" 數(shù)據(jù)字符串清理

        包括對(duì)字段大小寫(xiě)修改,移除特定字母、數(shù)字、標(biāo)點(diǎn)符號(hào)和剪裁空格等操作。

        2.2" 數(shù)據(jù)結(jié)構(gòu)整理

        2.2.1" 數(shù)據(jù)轉(zhuǎn)置

        如圖3所示,通過(guò)添加數(shù)據(jù)轉(zhuǎn)置流程,可實(shí)現(xiàn)對(duì)數(shù)據(jù)列轉(zhuǎn)換為行消滅“大寬表”,對(duì)數(shù)據(jù)行轉(zhuǎn)換為列消滅“大長(zhǎng)表”。

        2.2.2" 排名排序

        若僅對(duì)某一度量值進(jìn)行排名,可在需要排名的字段上創(chuàng)建排名,排名方式可根據(jù)需要選擇“密集排名”“百分比”“排名”,可進(jìn)行DESC或ASC排列。若需對(duì)多個(gè)維度進(jìn)行排名,如對(duì)某個(gè)年級(jí)每個(gè)班同學(xué)成績(jī)進(jìn)行排名,即排名在每個(gè)分類(lèi)中進(jìn)行,此時(shí)需要使用“fixedlod”表達(dá)式,首先創(chuàng)建字段{FIXED [年級(jí)],[班級(jí)]:avg([分?jǐn)?shù)])},然后在此字段創(chuàng)建排名,分組依據(jù)中選擇[班級(jí)],排名方式選擇密集排名。

        2.2.3" 數(shù)據(jù)聚合計(jì)算

        一是單一層次聚合。在Tableau Prep Builder數(shù)據(jù)處理里程中增加聚合節(jié)點(diǎn),將作為聚合依據(jù)的維度字段放在分組字段,作為聚合材料的度量字段放在聚合字段。

        二是獨(dú)立層次聚合。主要是運(yùn)用fixedlod表達(dá)式,通過(guò)創(chuàng)建字段方式引用FIXED LOD詳細(xì)級(jí)別表達(dá)式[4]。如圖4所示,直接在需要分組依據(jù)中選擇姓名作為聚合計(jì)算層次的字段,在計(jì)算依據(jù)中選擇分?jǐn)?shù)需要聚合計(jì)算的字段。

        2.3" 數(shù)據(jù)合并

        一是數(shù)據(jù)結(jié)構(gòu)相同的不同表合并。如圖5所示,將不同班級(jí)學(xué)生信息表進(jìn)行合并,在Tableau Prep Builder數(shù)據(jù)流程中創(chuàng)建并集節(jié)點(diǎn),然后通過(guò)添加并集方式最后形成數(shù)據(jù)總表。

        二是數(shù)據(jù)結(jié)構(gòu)不同的數(shù)據(jù)合并。2張表之間存在相同的主鍵,如學(xué)生家庭住址信息表與學(xué)生聯(lián)系方式表,其直接存在共同的主鍵即“學(xué)號(hào)”和“姓名”,可通過(guò)左聯(lián)接、右聯(lián)接或中間聯(lián)接方式將2個(gè)表數(shù)據(jù)實(shí)現(xiàn)關(guān)聯(lián)合并。

        3" 基于Power BI的數(shù)據(jù)預(yù)處理方法

        Power BI是微軟出品的一款數(shù)據(jù)分析軟件,可自動(dòng)實(shí)現(xiàn)對(duì)數(shù)據(jù)的獲取、清洗、轉(zhuǎn)換、建模、可視化及共享[5]。利用Power BI及Power Query同樣可實(shí)現(xiàn)數(shù)據(jù)清理及建模。

        3.1" 利用Power Query處理不規(guī)范數(shù)據(jù)

        3.1.1nbsp; 更改數(shù)據(jù)類(lèi)型

        利用Power Query編輯器中轉(zhuǎn)換數(shù)據(jù)類(lèi)型功能對(duì)數(shù)據(jù)類(lèi)型進(jìn)行轉(zhuǎn)換。如將數(shù)字類(lèi)型轉(zhuǎn)換為文本類(lèi)型,將不規(guī)范的日期數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)日期類(lèi)型。

        3.1.2" 轉(zhuǎn)換字母大小寫(xiě)

        同樣在Power Query編輯器中,一是通過(guò)lt;Ctrlgt;鍵選中需要轉(zhuǎn)換字母大小寫(xiě)格式的多列,在列標(biāo)題上右擊,在彈出的快捷菜單中選擇轉(zhuǎn)換每個(gè)字詞首字母大寫(xiě)選項(xiàng)。另外,單擊下拉列表中的【大寫(xiě)】或【小寫(xiě)】選項(xiàng),可以將所有單詞或字母都轉(zhuǎn)換為大寫(xiě)或小寫(xiě)格式。

        3.1.3" 刪除文本中的空格和不可見(jiàn)字符

        我們獲得的數(shù)據(jù)經(jīng)常夾雜著大量難以識(shí)別的非打印字符,即不可見(jiàn)字符,這些字符的存在,容易在引用、統(tǒng)計(jì)中出錯(cuò)??墒褂肞ower Query編輯器的轉(zhuǎn)換功能中的“修整”和“清除”功能。

        3.2" 數(shù)據(jù)清理篩選

        主要利用Power Query編輯器中管理列或減少行功能,對(duì)數(shù)據(jù)中的重復(fù)項(xiàng)進(jìn)行刪減。利用文本篩選器對(duì)數(shù)據(jù)進(jìn)行篩選。

        3.3" 數(shù)據(jù)排名排序

        針對(duì)數(shù)值型數(shù)據(jù)字段排序,可以在Power Query編輯器中直接右鍵單擊要排序的列頭,選擇按照升序或者降序進(jìn)行排列。如果要對(duì)日期數(shù)據(jù)進(jìn)行排列,一定要先保證當(dāng)前列的數(shù)據(jù)類(lèi)型是日期或者日期和時(shí)間,否則按照文本或者數(shù)字類(lèi)型進(jìn)行排序,得到的將是一個(gè)錯(cuò)亂的日期。針對(duì)文本型數(shù)據(jù)字段可以在Power BI主界面中新建度量值方式,運(yùn)用函數(shù)rankx進(jìn)行排名。如創(chuàng)建成績(jī)排名=Rankx(all(“學(xué)生成績(jī)信息”),calculate(sum(‘學(xué)生成績(jī)信息’[分?jǐn)?shù)]))。

        3.4" 數(shù)據(jù)合并

        多張結(jié)構(gòu)相同表格匯總。可以通過(guò)Power BI導(dǎo)入文件夾的方式,將結(jié)構(gòu)相似的Excel文件一次性導(dǎo)入Power BI中。在獲取數(shù)據(jù)中選擇從文件夾中獲取,組合時(shí)根據(jù)需要選擇“合并并轉(zhuǎn)換數(shù)據(jù)”或“合并和加載”,再在Power Query編輯器中選擇添加自定義列,如圖6所示,最后解析樣本即可將所有Excel文件中的數(shù)據(jù)全部匯總到Power BI中了。

        3.5" 數(shù)據(jù)建模

        高校學(xué)生管理通常為多個(gè)數(shù)據(jù)源,往往并不是只有一張表。通常不同表需要按照一定邏輯關(guān)系協(xié)同配合才能進(jìn)行數(shù)據(jù)分析。如圖7所示,編輯各表間關(guān)系,各表數(shù)據(jù)源之間可以存在一對(duì)一、一對(duì)多和多對(duì)多關(guān)系。表格間關(guān)系建立后以在Power BI的“報(bào)表”模塊中生成各種透視分析報(bào)表。

        4" 2種BI工具數(shù)據(jù)處理性能比較

        Tableau和Power BI是市面上可視化2種主流工具,現(xiàn)在對(duì)2種BI工具在數(shù)據(jù)源連接性、軟件易用性、數(shù)據(jù)處理速度和價(jià)格比選等方面表現(xiàn)進(jìn)行比較,見(jiàn)表4。

        5" 結(jié)束語(yǔ)

        數(shù)據(jù)預(yù)處理通常包括數(shù)據(jù)拆分、分組、大小寫(xiě)轉(zhuǎn)換、數(shù)據(jù)轉(zhuǎn)置和不同層次聚合以及各表關(guān)系等內(nèi)容。傳統(tǒng)的采用Excel管理分析本地?cái)?shù)據(jù)方式已不能滿(mǎn)足高校學(xué)生基礎(chǔ)信息管理要求,使用Tableau Prep Builder 和Power BI 2款商業(yè)BI工具開(kāi)展數(shù)據(jù)預(yù)處理將大幅提高工作效率和數(shù)據(jù)準(zhǔn)確性。

        參考文獻(xiàn):

        [1] 蘭坤,吳瓊.基于Tableau和Excel的學(xué)生多維大數(shù)據(jù)分析研究[J].信息與電腦,2019(8):126-127,136.

        [2] 萬(wàn)輝.大數(shù)據(jù)在高校學(xué)生管理工作中的應(yīng)用[J].高校輔導(dǎo)員學(xué)刊,2014,6(4):48-51.

        [3] 楊小軍,張雪超,李安琪.利用Excel和Tableau實(shí)現(xiàn)業(yè)務(wù)工作數(shù)據(jù)化管理[J].電腦編程技巧與維護(hù),2017(12):66-68.

        [4] 喜樂(lè)君.數(shù)據(jù)可視化分析:Tableau原理與實(shí)踐[M].電子工業(yè)出版社,2020.

        [5] 何逸波.基于POWERBI的數(shù)據(jù)分析系統(tǒng)的構(gòu)建與應(yīng)用[J].區(qū)域治理,2018(33):218.

        亚洲av无码一区二区三区四区| 久草午夜视频| 国产一区二区三区免费在线视频 | av天堂久久天堂av色综合| 精品久久无码中文字幕| 亚洲AV小说在线观看| 婷婷开心五月亚洲综合| 中文字幕在线观看| 激性欧美激情在线| 99久久久久国产| 亚洲欧洲日产国码无码| 亚洲一区二区三区精品久久av | 久久99国产精一区二区三区| 亚洲AV日韩AV永久无码电影| 国产精品系列亚洲第一| 日本国产一区二区在线观看| 97一期涩涩97片久久久久久久| 无遮无挡爽爽免费视频| 免费黄网站久久成人精品| 国产毛片精品av一区二区| 国产精品扒开腿做爽爽爽视频| 婷婷丁香社区| 亚洲啊啊啊一区二区三区| 亚洲色图在线免费视频| 在线观看热码亚洲av每日更新 | 国产美女精品AⅤ在线老女人| 亚州无吗一区二区三区| 婷婷五月婷婷五月| 免费视频一区二区| 天堂网av在线| 丰满少妇被猛进去高潮| 国产色无码精品视频国产| 五月丁香六月综合激情在线观看| 少妇人妻一区二区三飞| 亚洲精品无码永久在线观看| 欧美亚洲国产精品久久高清| 国产一区二区三区四区色| 亚洲偷自拍国综合第一页| 全球av集中精品导航福利| 天天澡天天揉揉AV无码人妻斩| 在线观看视频免费播放|