亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的學習者行為分析平臺構(gòu)建研究

        2021-05-21 11:29:33張麗萍葛福鴻
        中國教育信息化 2021年3期
        關(guān)鍵詞:教育大數(shù)據(jù)大數(shù)據(jù)

        張麗萍 葛福鴻

        摘? ?要:近年來,國內(nèi)的微課、慕課、網(wǎng)絡(luò)課堂等發(fā)展迅速,依托大數(shù)據(jù)技術(shù),能夠把學習過程和效果更加透明地呈現(xiàn)給每一個學習者。文章基于Hadoop生態(tài)系統(tǒng),設(shè)計并開發(fā)了一個輕量級的教育類大數(shù)據(jù)處理系統(tǒng),可從網(wǎng)絡(luò)課堂、網(wǎng)站、微信、APP等新媒體獲取數(shù)據(jù)。通過對數(shù)據(jù)的收集、清洗、分析,進而挖掘數(shù)據(jù)中更多有價值的信息,為學習者提供更好的服務(wù)。文章以網(wǎng)絡(luò)課程網(wǎng)站中session數(shù)據(jù)分析為例,通過分析可獲取頁面跳轉(zhuǎn)轉(zhuǎn)化率、熱門課程離線統(tǒng)計、廣告流量實時統(tǒng)計和黑名單過濾等,為網(wǎng)絡(luò)課程網(wǎng)站的后期建設(shè)提供量化依據(jù)。

        關(guān)鍵詞:大數(shù)據(jù);教育大數(shù)據(jù);Hadoop;session

        中圖分類號:G40-057 文獻標志碼:A 文章編號:1673-8454(2021)05-0050-04

        隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)的力量開始席卷各個行業(yè)領(lǐng)域,并對人們的思維、生活、工作、學習等產(chǎn)生重大的影響。使用新的大數(shù)據(jù)處理技術(shù),數(shù)據(jù)的收集、分析和處理都發(fā)生了變化,通過對海量數(shù)據(jù)的收集和數(shù)據(jù)更深層次的挖掘,能夠發(fā)現(xiàn)數(shù)據(jù)中更多的價值。

        本文對學習者行為進行了分析,從大數(shù)據(jù)分析平臺的設(shè)計、環(huán)境搭建、session日志分析模塊三個方面進行實踐和探索。研究過程主要分成兩個階段:第一階段是大數(shù)據(jù)開發(fā)系統(tǒng)的規(guī)劃和部署。對平臺系統(tǒng)進行構(gòu)建,對系統(tǒng)需要的組件做進一步規(guī)劃,搭建測試服務(wù)器和開發(fā)環(huán)境。第二階段是數(shù)據(jù)處理模塊的設(shè)計和開發(fā)。通過對真實場景的模擬,對網(wǎng)絡(luò)課程類型網(wǎng)站session數(shù)據(jù)展開處理,進而設(shè)計和模擬一個處理微課及其他慕課網(wǎng)站信息的大數(shù)據(jù)處理平臺。

        一、大數(shù)據(jù)及相關(guān)技術(shù)闡述

        1.大數(shù)據(jù)

        一般認為,大數(shù)據(jù)(big data)是通過先進技術(shù)進行收集、存儲和處理的數(shù)據(jù)集合,是海量、不規(guī)則的信息,是具有預(yù)測力,可以提供決策支持的信息資源。其導致了新的處理技術(shù)的誕生,如谷歌的MapReducehe 和開源Hadoop平臺(最初源于雅虎)。更重要的是,這些數(shù)據(jù)不再需要用傳統(tǒng)的數(shù)據(jù)庫表格來整齊地排列——一些可以消除僵化的層次結(jié)構(gòu)和一致性的技術(shù)也出現(xiàn)了。

        大數(shù)據(jù)的本質(zhì)在于分析信息時的三個轉(zhuǎn)變:第一個轉(zhuǎn)變是,在大數(shù)據(jù)時代,需要分析的數(shù)據(jù)更多。不同于傳統(tǒng)的數(shù)據(jù)分析,收集的數(shù)據(jù)是部分樣本,大數(shù)據(jù)分析經(jīng)常會收集研究對象相關(guān)的所有數(shù)據(jù)。第二個轉(zhuǎn)變是,不再熱衷于追求精確性。精確性是信息量少的時代的產(chǎn)物。只有接受不精確性,才能充分利用大量的不精確、非結(jié)構(gòu)化的數(shù)據(jù),真正挖掘數(shù)據(jù)寶藏潛在的價值。第三個轉(zhuǎn)變是,不再熱衷于尋找因果關(guān)系。知道“是什么”就夠了,不再糾結(jié)于“為什么”。在大數(shù)據(jù)時代,要讓數(shù)據(jù)自己“發(fā)聲”,不需要知道現(xiàn)象背后的原因。此外,大數(shù)據(jù)的相關(guān)關(guān)系分析法不易受主觀意識的影響,且更準確、更快,因此,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心[1]。

        總之,在大規(guī)模數(shù)據(jù)的基礎(chǔ)上進行數(shù)據(jù)挖掘完成的工作,在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是實現(xiàn)不了的。大數(shù)據(jù)是人們獲得新的認知的源泉。例如:淘寶可以推薦用戶想要的商品、QQ可以猜出用戶認識誰、京東知道用戶的喜好。大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用也在逐漸突出其重要的價值,特別是教育大數(shù)據(jù)可以為教育部門提供決策依據(jù),為教師對教學進行調(diào)整提供量化依據(jù),為學生的學習提供預(yù)測和改進依據(jù),為實現(xiàn)個性化學習提供技術(shù)支撐。

        2.采用的相關(guān)技術(shù)

        (1)Hadoop

        Hadoop是采用分布式架構(gòu)的平臺,為用戶提供可靠的、靈活的數(shù)據(jù)處理功能,使得用戶的開發(fā)變得方便、快捷。Hadoop以HDFS和MapReduce框架為核心。HDFS是一個高度容錯、可靠的分布式文件系統(tǒng)[2]。

        (2)Apache Spark

        Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速、通用的計算引擎。和MapReduce框架相比,Spark是基于內(nèi)存計算的,在數(shù)據(jù)處理過程中采用了成本更低的洗牌方式,相比其他大數(shù)據(jù)處理技術(shù)會有極大的效率提升。此外,Apache Spark支持更多的函數(shù),提供交互式的處理環(huán)境,在大數(shù)據(jù)分析和機器學習領(lǐng)域有著巨大的優(yōu)勢。

        (3)Ubuntu系統(tǒng)

        Ubuntu是一個高效的Linux操作系統(tǒng)。其提供了可靠穩(wěn)定的工作環(huán)境和用戶交互界面,因而在生產(chǎn)和生活中有很高的使用率。由于大數(shù)據(jù)開發(fā)常用的軟件基本都需要Linux運行環(huán)境,因而在課題研究、開發(fā)、測試中都會使用Ubuntu系統(tǒng)。

        二、學習者訪問session介紹

        學習者在瀏覽學習網(wǎng)站時,通常有很多鼠標點擊行為,如點擊菜單中的某個選項、瀏覽某個學習內(nèi)容、關(guān)閉學習頁面等。學習者的每一次對學習內(nèi)容的操作,可以將其理解為一個行為。一次學習者訪問session,指的是學習者進行一次學習的操作過程,包括進入學習網(wǎng)站、點擊各種操作、離開學習網(wǎng)站。

        session實際上是一個網(wǎng)站中最基本的數(shù)據(jù)和大數(shù)據(jù)來源。在以往的在線教育類型網(wǎng)站(如微課、慕課等)中,并沒有對session數(shù)據(jù)進行處理或有類似的處理。因為當網(wǎng)站的訪問量增長較快時,對于session數(shù)據(jù)的處理效率會大幅度降低。不僅僅需要考慮到對較大規(guī)模數(shù)據(jù)的處理,而且還要解決存儲等問題,因為單臺服務(wù)器已經(jīng)不能滿足這樣龐大數(shù)據(jù)的處理。然而,在session數(shù)據(jù)中,又包含著很多有價值的數(shù)據(jù)。如通過session可以獲取當前訪問網(wǎng)站的人數(shù)、學習者訪問的欄目、訪問量較大的欄目。通過這些數(shù)據(jù),可以有效地幫助管理員分析哪些欄目受歡迎、哪些欄目值得推薦、網(wǎng)站是否存在異常等等。除此之外,還可以根據(jù)session數(shù)據(jù)幫助實現(xiàn)智能推薦、人物畫像等功能。

        三、大數(shù)據(jù)分析平臺的構(gòu)建

        該平臺有別于傳統(tǒng)的數(shù)據(jù)分析平臺,除了實現(xiàn)基本的功能需求,平臺主要提供了對大數(shù)據(jù)的支持。龐大的數(shù)據(jù)會給集群帶來嚴峻的考驗,如存儲、任務(wù)調(diào)度、負載均衡等。因而必須保證平臺的穩(wěn)定、可維護、可擴展、容錯等。

        1.平臺特征

        在該平臺的設(shè)計中,具備如下特點:①支持多種數(shù)據(jù)源。能夠支持網(wǎng)站、APP、微信平臺等常見媒體的數(shù)據(jù)。②平臺可靠性強?;灸軌?qū)崿F(xiàn)數(shù)據(jù)的完整收集、集中存儲和快速處理。③支持大規(guī)模數(shù)據(jù)的收集和分析。④支持近實時分析和離線分析。⑤有良好的容錯性和擴容性,便于今后進行更深層次的開發(fā)。

        2.平臺拓撲結(jié)構(gòu)

        該平臺采用了樹形拓撲結(jié)構(gòu),如圖1所示。這樣的設(shè)計可以使得平臺易于擴展,容易在網(wǎng)絡(luò)中加入分支或者新節(jié)點來滿足不同的需求,此外,也能在一定程度上便于隔離故障,不會影響整個系統(tǒng)。在根節(jié)點上,Hadoop分布式文件系統(tǒng)可靠、穩(wěn)定、易于擴展、容錯性高的特點也使得平臺能夠更加穩(wěn)定地運行。

        3.平臺總體結(jié)構(gòu)

        平臺的目標主要是對微課類型網(wǎng)站的日志進行分析處理,考慮到平臺的擴展性和實用性,平臺在設(shè)計時采用了如圖2所示的結(jié)構(gòu)。

        總體上,該平臺分為日志采集模塊、邏輯處理模塊、可視化展示模塊、任務(wù)管理模塊。日志采集模塊的主要任務(wù)是獲取各個服務(wù)器的數(shù)據(jù),并對數(shù)據(jù)進行清洗處理。邏輯處理模塊主要按照不同的場景對數(shù)據(jù)進行處理,如獲取訂閱量、排名前若干位的課程名稱、訪問年齡分布、搜索關(guān)鍵詞排名等。可視化模塊主要對大數(shù)據(jù)處理的結(jié)果通過可視化視覺效果進行展示,更加直觀形象地了解數(shù)據(jù)的情況。在模塊設(shè)計上,該模塊分為圖表展示和數(shù)據(jù)展示。任務(wù)管理模塊主要負責集群的任務(wù)調(diào)度、任務(wù)狀態(tài)監(jiān)控、任務(wù)配置等功能。在這里采用了Azkaba對這方面的任務(wù)進行管理[3]。

        4.開發(fā)環(huán)境搭建

        由于完整設(shè)置開發(fā)環(huán)境的工作量較大,因此對環(huán)境進行了適度的調(diào)整。具體調(diào)節(jié)如下:在數(shù)據(jù)處理流程上,數(shù)據(jù)在通過采集后導入HDFS,然后Spark直接讀取HDFS中新導入的數(shù)據(jù),并進行處理。在這里,數(shù)據(jù)采集過程簡化為模擬數(shù)據(jù)生成,即將數(shù)據(jù)直接導入到HDFS中。

        此外,一些學習者的注冊信息等基礎(chǔ)數(shù)據(jù),是存儲在MySQL的數(shù)據(jù),可以使用sqoop工具便捷導入到數(shù)據(jù)倉庫Hive中。并在Hive中進行計算。計算的結(jié)果可以再使用sqoop導出到MySQL數(shù)據(jù)庫中,方便其他模塊使用[4]。具體的開發(fā)環(huán)境如圖3所示。

        5.數(shù)據(jù)設(shè)計

        由于條件限制和測試需要等原因,直接模擬生產(chǎn)數(shù)據(jù)有一些困難。因而在模擬數(shù)據(jù)時,進行了一些簡化。但其并不會影響需求。在一般場景下,采集到的數(shù)據(jù)都會經(jīng)過ETL過程。將需要的數(shù)據(jù)轉(zhuǎn)化為符合計算的格式,即數(shù)據(jù)清洗[5]。所以,模擬數(shù)據(jù)和經(jīng)過清洗的數(shù)據(jù)是一致的,并不會影響功能。

        (1)學習者基礎(chǔ)信息數(shù)據(jù):主要記錄學習者在網(wǎng)站、APP等注冊的信息。可包括學習者登錄名、性別、年齡、專業(yè)、城市等。

        (2)學習者訪問行為session數(shù)據(jù):包括學習者點擊行為的時間、學習者ID、點擊某課程、搜索關(guān)鍵詞后進入的頁面、導航、訂閱的課程、進行的討論、參加的小組、學習者的瀏覽行為次數(shù)等。

        四、學習者訪問session數(shù)據(jù)分析

        在該模塊中,采用spark對session數(shù)據(jù)進行處理,具體實現(xiàn)的功能如下:

        1.學習者信息和Session聚合處理

        該模塊主要是對學習者訪問session進行統(tǒng)計分析,可以協(xié)助網(wǎng)站管理員看到各種聚合條件下的學習者行為各項統(tǒng)計指標,從而為學習課程的設(shè)置和推送提供策略支持。同時也能使用這些參數(shù)并結(jié)合推薦算法做智能推薦。

        指定條件篩選session,可在篩選時設(shè)定一些條件,如在某個時間段訪問的學習者,搜索過某些關(guān)鍵詞的學習者等。這些信息能幫助我們劃分對象群體,極大地方便對各種復(fù)雜業(yè)務(wù)的邏輯分析。再比如,通過session聚合指標計算,獲取點擊量、觀看量和評論量都排名前10的課程名稱,獲取熱門話題點擊數(shù)量排名前10的session,并獲取學習者相應(yīng)的一些信息。這一功能對于課程的評價機制是非常實用的技術(shù)實現(xiàn),對課程的評價采用量化的手段進行呈現(xiàn),使評價更加客觀、公平、有說服力。

        2.頁面跳轉(zhuǎn)轉(zhuǎn)化率統(tǒng)計

        在進行網(wǎng)站設(shè)計時,一般會對學習者的瀏覽行為進行設(shè)計,但設(shè)計可能并不是一次性就能滿足需求的,需要不斷地進行調(diào)整。通過對頁面跳轉(zhuǎn)轉(zhuǎn)化率進行分析,從而對網(wǎng)頁布局、欄目等內(nèi)容進行更好的優(yōu)化設(shè)計。作為數(shù)據(jù)分析人員,可以深層次地分析這些數(shù)據(jù),從而進行人物畫像、個性化調(diào)整等。圖4為一個網(wǎng)頁訪問順序示意。

        該圖的場景在網(wǎng)站訪問中是較為常見的,筆者假設(shè)各個頁面的編號為1,2,3,4。在設(shè)計上,管理員希望訪問次序為1->2->3->4。但是在實際上,訪問次序跟希望的并不一樣。通過頁面單跳轉(zhuǎn)化率,可以得到真實的訪問次序和熱點的位置,進而分析各頁面設(shè)計的合理性。此外,還可以對頁面進行更進一步的劃分,測試頁面熱點區(qū)。

        該模塊設(shè)計實現(xiàn)如下功能:指定范圍內(nèi)的學習者訪問行為數(shù)據(jù),計算和判斷頁面流ID中每兩個頁面組成的頁面切片,它的訪問量是多少;根據(jù)指定頁面流中各個頁面切片的訪問量,計算各個頁面的切片轉(zhuǎn)化率并將計算結(jié)果寫入數(shù)據(jù)庫中。

        3.熱門課程離線統(tǒng)計

        該模塊主要實現(xiàn)統(tǒng)計點擊、參與、評論的熱門課程排名前若干位的數(shù)量。在服務(wù)器部署離線統(tǒng)計任務(wù)的定時調(diào)度。該模塊可以為管理員和學習者提供熱門課程的整體情況,從而對課程的推送進行調(diào)整。

        4.訪問時長計算占比

        在訪問時間占比功能中,對學習者的訪問時間長短進行了劃分,計算單位時間內(nèi)各個時間段在當前時間段內(nèi)的比例。

        統(tǒng)計網(wǎng)站的session數(shù)據(jù)中,訪問時長在各個預(yù)設(shè)時間段范圍內(nèi)的session占比。session的訪問時長,指一個session從開始訪問到結(jié)束訪問之間的時間范圍。通過這個值,管理員可以對學習者的行為進行估計。在一般情況下,學習者會選擇其感興趣的頁面,并在這些頁面停留較長時間,對于不感興趣的頁面,可能停留的時間較少。因此訪問時長也能在一定程度上反映一個學習者的瀏覽習慣。如時間為1s~3s,學習者可能僅僅是簡單瀏覽;而時間為30m以上,可能學習者正在進行學習。如在某一個課程直播頁面的訪問信息中,如果學習者的停留時間普遍低于1分鐘,則很可能這個頁面出現(xiàn)了問題,需要管理員進行管理調(diào)整。通過對某個特定時間的占比統(tǒng)計,可以調(diào)整模塊的內(nèi)容、推薦信息等。

        5.流量實時統(tǒng)計和黑名單過濾

        網(wǎng)站經(jīng)常會面臨一些異常訪問,因此有必要對數(shù)據(jù)進行監(jiān)控和限制。使用大數(shù)據(jù)技術(shù)進行安全監(jiān)控分析,面對的是整個網(wǎng)站的訪問數(shù)據(jù),監(jiān)控的樣本比傳統(tǒng)監(jiān)控有極大的增加,通過合理的計算和分析,可以很大程度上提高網(wǎng)站的安全性。

        該模塊可以根據(jù)session信息來實時統(tǒng)計流量,以發(fā)現(xiàn)異常學習者,經(jīng)過鑒別后,可將異常學習者加入到黑名單中。session通常會記錄一些學習者的訪問信息,當學習者訪問異常時,通過session數(shù)據(jù)能較為明顯地表現(xiàn)出來。在這里設(shè)定為單位時間內(nèi),同一學習者的訪問次數(shù)大于某值時,即為黑名單學習者,并將其記錄到數(shù)據(jù)庫中。

        6.對結(jié)果進行可視化展示

        對數(shù)據(jù)結(jié)果進行可視化展示是很重要的一個環(huán)節(jié),通過對數(shù)據(jù)進行可視化展示,可以讓數(shù)據(jù)更加易于理解[6]。這里使用echarts實現(xiàn)數(shù)據(jù)的可視化效果,并使用靜態(tài)的方式進行數(shù)據(jù)展示,包括柱狀圖、餅狀圖、折線圖等,使學習者更簡潔直觀地了解數(shù)據(jù)的基本情況??梢暬Y(jié)果展示示例如圖5、圖6所示。

        五、結(jié)語

        本文詳細介紹了大數(shù)據(jù)平臺的架構(gòu)、部署和針對教育類型網(wǎng)站(網(wǎng)絡(luò)課程類型)的session數(shù)據(jù)開發(fā)。綜合介紹了基于Hadoop的大數(shù)據(jù)開發(fā)架構(gòu)以及大數(shù)據(jù)在學習者行為分析中的應(yīng)用?;诖髷?shù)據(jù)的學習者行為分析將對教育類平臺的優(yōu)化和推廣起到積極作用,這種研究思路值得智慧教育研究者借鑒。

        參考文獻:

        [1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:8-18.

        [2]王正也.基于Hadoop平臺的海量數(shù)據(jù)查詢分析系統(tǒng)的性能優(yōu)化研究[D].北京:北京郵電大學,2015:6-10.

        [3]劉季函.基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D].南京:南京大學,2014.

        [4]劉永增,張曉景,李先毅.基于Hadoop/Hive的Web日志分析系統(tǒng)的設(shè)計[J]. 廣西大學學報(自然科學版), 2011,36(s1):315-316.

        [5]王英哲.大數(shù)據(jù)時代文獻分析與利用[J].石家莊職業(yè)技術(shù)學院學報,2014(2):53-54.

        [6]張春生,郭長杰,尹兆濤.基于大數(shù)據(jù)技術(shù)的IT基礎(chǔ)設(shè)施日志分析系統(tǒng)設(shè)計與實現(xiàn)[J].微型電腦應(yīng)用,2016,32(6):50-51.

        (編輯:王曉明)

        猜你喜歡
        教育大數(shù)據(jù)大數(shù)據(jù)
        “教育大數(shù)據(jù)”視角下的精準教學的研究
        教育大數(shù)據(jù)在教育管理中的運用分析
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        曰韩无码二三区中文字幕| 国产一区二区三区四区在线视频| 日本久久久免费观看视频| 欧美四房播播| 国产女人18毛片水真多| 精品丝袜国产在线播放| 国产精品自产拍在线18禁| 精品成在人线av无码免费看| 亚洲免费人成在线视频观看| 日本韩国三级aⅴ在线观看| 国产成人精品久久二区二区91 | 日韩精品一区二区在线天天狠天| 在线 | 一区二区三区四区| 欧美成人一级视频| 亚洲中文字幕在线第二页| 国产一区二区三区天堂 | 后入内射欧美99二区视频| 美女黄频视频免费国产大全| 国产亚洲av综合人人澡精品| 免费无码av一区二区三区| 国产av影片麻豆精品传媒| 日韩有码中文字幕第一页| 亚洲另类丰满熟妇乱xxxx| 漂亮人妻被中出中文字幕久久| 无码成人片一区二区三区| 少妇一区二区三区精选| 无码喷潮a片无码高潮| 久久婷婷香蕉热狠狠综合| 国产精品女丝袜白丝袜 | 亚洲av乱码专区国产乱码| 视频一区视频二区自拍偷拍| 国产又爽又大又黄a片| 99国产精品99久久久久久| 人妻一区二区三区免费看| 中文字幕亚洲精品久久| 亚洲精品久久中文字幕| 久久久国产不卡一区二区| 亚洲av第一区国产精品| 亚洲一卡2卡3卡4卡5卡精品| 欧美成人免费看片一区| 爱爱免费视频一区二区三区|