楊秉學 張至柔 劉俊龍 吳娟
摘 要:隨著計算機和網(wǎng)絡應用的廣泛深入,網(wǎng)絡教學成為教育領域的重要組成部分。當前,網(wǎng)絡教學視頻存在教師與學生之間交互性、實時性、反饋客觀性等方面的缺陷?;诖?,本文利用Hadoop大數(shù)據(jù)實現(xiàn)對學生觀看視頻全過程的行為監(jiān)控、記錄和反饋,客觀地分析教學視頻的重難點、學生的掌握情況等信息,輔助教學雙方。
關鍵詞:大數(shù)據(jù);網(wǎng)絡視頻教學;時間軸;用戶行為監(jiān)測與反饋
中圖分類號:TP311.13文獻標識碼:A文章編號:1003-5168(2020)08-0037-03
Research on Innovative Application of Hadoop Big Data Processing User Behavior Record
YANG Bingxue ZhANG Zhirou LIU Junlong WU Juan
(School of Control and Computer Engineering, North China Electric Power University,Beijing 102206)
Abstract: With the extensive application of computer and network, network teaching has become an important part of education. At present, online teaching videos have defects in interaction, real-time, and feedback objectivity between teachers and students.Based on this, this paper used Hadoop big data to implement behavior monitoring, recording and feedback on the entire process of watching videos by students, objectively analyzed the important and difficult points of the teaching video, the students' mastery, and other information to assist both sides in teaching.
Keywords: big data;online video teaching;timeline;user behavior monitoring and feedback
隨著信息技術的發(fā)展,互聯(lián)網(wǎng)越來越貼近人們的生活,人們的衣食住行、娛樂與學習等方面都有互聯(lián)網(wǎng)的身影[1]。依據(jù)國務院印發(fā)的《“十三五”國家信息化規(guī)劃》,我國提出了大數(shù)據(jù)戰(zhàn)略的重大決策,開啟了信息化發(fā)展的新征程。教育部在2018年4月發(fā)布的《教育信息化行動計劃2.0》也明確提出了促進信息技術在教育領域的廣泛應用,推動教育的改革和發(fā)展,培養(yǎng)適應信息社會要求的創(chuàng)新人才以及促進教育現(xiàn)代化的目標。
1 研究意義
視頻學習方式本身具有一定的局限性,傳統(tǒng)網(wǎng)課需要全部播放完才能獲得用戶的反饋意見[2],很多學生在通過視頻自學的過程中并不了解課程的難點和重點,導致雖然看視頻學了很長時間,效果卻并不理想。同時,進行視頻教學的教師也無法了解學生掌握的情況。因此,有必要處理用戶在視頻學習過程中產(chǎn)生的大量行為數(shù)據(jù),從中獲取用戶觀看的教學視頻的難點、重點,反饋給視頻提供方和教師,促進他們調整教學內(nèi)容和方式,從而提高網(wǎng)絡教學質量。
每個用戶在觀看教學視頻時都可能根據(jù)自己的需要和已掌握的相關知識重點看自己需要的部分,跳過不需要的部分,即對視頻進度條進行向前、向后拖動或倍速播放,這就形成了觀看視頻時的用戶行為,產(chǎn)生大數(shù)據(jù)分析的“濾鏡效應”,即定位觀眾的熱點,通過后臺的服務器自主進行計算,獲得用戶觀看視頻的行為數(shù)據(jù)[3]。由于觀看視頻的用戶數(shù)量巨大,這種行為數(shù)據(jù)的量也極大,因此數(shù)據(jù)處理對計算、存儲的要求很高。Hadoop是對大量數(shù)據(jù)進行分布式處理的軟件架構,包含了當前主流的大數(shù)據(jù)處理技術,適合作為對用戶行為數(shù)據(jù)進行計算、存儲、管理的平臺,因此筆者在Hadoop平臺上研發(fā)了教學視頻的用戶行為處理系統(tǒng)。該系統(tǒng)可將前臺(視頻播放器)提交的用戶觀看視頻的行為數(shù)據(jù)通過計算轉換為每個視頻中每秒視頻片段的播放次數(shù)統(tǒng)計,并存儲于Hadoop文件系統(tǒng)HDFS中,作為該視頻的播放情況記錄。在前臺需要時,這些數(shù)據(jù)將以曲線形式展示到播放界面上,作為新用戶或視頻提供方的參考,客觀展示教學視頻中的重點和難點。
2 系統(tǒng)架構和算法設計
2.1 系統(tǒng)介紹
系統(tǒng)的Hadoop節(jié)點部署為1個master節(jié)點、6個slave節(jié)點,其中slave2、slave3、slave5、slave6均為DataNode節(jié)點,形成分布式存儲數(shù)據(jù)的HDFS文件系統(tǒng)。前端播放器提交的JSON格式的用戶行為數(shù)據(jù)由系統(tǒng)發(fā)送至HDFS中,之后運用Java語言編寫Job函數(shù)與MapReduce函數(shù),分布式處理用戶的倍速播放的片段起始、結束位置和播放速度,前進、回退播放的片段起始、結束位置行為痕跡數(shù)據(jù),獲得每個視頻以秒為單位的播放次數(shù)結果,將計算結果形成文件并進行壓縮,存儲到HDFS中,成為某視頻播放情況記錄文件,并在前端提出請求時反饋給前端。
2.2 算法設計
程序總體流程設計如圖1所示。
2.2.1 MapReduce數(shù)據(jù)處理算法。在Hadoop平臺對大量用戶行為數(shù)據(jù)進行分析與處理,設計MapReduce算法將不同用戶觀看不同視頻的用戶行為數(shù)據(jù)裝入多個Mapper里,由Mapper將每一條用戶行為數(shù)據(jù)轉化為該用戶觀看某個視頻中以秒為單位的視頻片段次數(shù),形成一條記錄,這些記錄再根據(jù)視頻的URL分配給多個Reducer,由這些Reducer將這些記錄合并計算,得到各視頻以秒為單位的總體播放情況,并用這些數(shù)據(jù)與HDFS中存儲的該視頻原總體播放情況數(shù)據(jù)累加,更新該視頻總體播放情況數(shù)據(jù)。具體算法設計如下。
2.2.1.1 Map階段。各個Mapper將前端提交的每一條用戶行為數(shù)據(jù),按照每個播放片段的起始時間、結束時間及播放倍速,對整個視頻以秒為單位形成的數(shù)組進行加權計算。例如,一條用戶行為數(shù)據(jù)為該用戶從視頻的第1秒到第30秒以2倍速進行播放,則該視頻數(shù)組第1秒,第2秒,直至第30秒的數(shù)據(jù)都加0.5。最終得到多個觀看次數(shù)數(shù)組,數(shù)組的key值為視頻URL,value值為某個用戶在觀看該視頻的過程中根據(jù)觀看倍速對每秒視頻進行加權的數(shù)值。
2.2.1.2 Shuffle階段。它是MapReduce算法的關鍵環(huán)節(jié),Mapper的計算結果進行“洗牌”,將key值相同的數(shù)據(jù)分到一類,并交給同一個Reducer處理。
2.2.1.3 Reduce階段。將key值相同的信息中的value值累加在一起,更新每個視頻所有用戶觀看行為的總記錄。系統(tǒng)的程序算法設計如圖2所示。
2.2.2 處理結果壓縮算法。由于前述MapReduce算法計算出的視頻總體播放行為數(shù)據(jù)量比較大,在輸出到HDFS文件系統(tǒng)存儲時,I/O開銷比較大,各主機節(jié)點之間交互頻繁。為了提高網(wǎng)絡利用率和處理速度,人們可以將計算結果進行壓縮后再輸出到HDFS中,這樣既節(jié)約了存儲空間,又節(jié)約了網(wǎng)絡帶寬。
為了保證傳輸過程是無損傳輸,后續(xù)數(shù)據(jù)處理是正確的,發(fā)送方壓縮后得出校驗碼,接收方接收數(shù)據(jù)后進行校驗,使得數(shù)據(jù)傳輸準確無誤。
本文采用文件字符里面的重復字,用“數(shù)字(即重復次數(shù))+字符”代替原來重復字符的方式進行壓縮。壓縮前后數(shù)據(jù)結構如圖3所示。由于視頻文件每秒片段被播放的次數(shù)相同的概率很大,這樣壓縮出來的文件很小,壓縮率很高,可以大大減少讀寫HDFS的開銷。
校驗采用java.util.zip.CheckedInputStream里面的getChecksum()方法進行校驗。
3 結論
用Hadoop大數(shù)據(jù)將單個用戶的視頻觀看行為痕跡進行計算、分析、存儲,轉化為各教學視頻的總體播放情況數(shù)據(jù),這種方法以數(shù)字化的手段直觀地記錄用戶的視頻觀看信息,從大數(shù)據(jù)的角度監(jiān)測、存儲和分析用戶觀看行為數(shù)據(jù),使得教學信息的反饋方式更加實時、客觀、可靠,對提高網(wǎng)絡教學效果具有重要意義,會成為促進網(wǎng)絡教學水平提高的有力工具。未來,人們會進一步豐富獲取用戶行為數(shù)據(jù)的內(nèi)容和方式,采用更豐富、靈活的方式反饋教學情況,幫助師生在網(wǎng)絡上高效獲取知識。大數(shù)據(jù)分析技術為快餐式觀看視頻提供技術支持,雖然大數(shù)據(jù)的作用很大,但是它僅僅是一種手段,不能完全替代認真觀看的地位[4]。
參考文獻:
[1]詹昕蕊,張至柔,胡柳靜,等.基于時間軸的用戶播放行為監(jiān)測播放器研究[J].科學與信息化,2019(19):123-124.
[2]張藍姍.網(wǎng)絡視頻觀看模式的創(chuàng)新與影響:以“綠鏡”智能觀看模式為例[J].當代傳播,2017(4):105-106.
[3]徐方.大數(shù)據(jù)時代下的影視業(yè)革新[J].西部廣播電視,2014(9):8.
[4]劉融.基于大數(shù)據(jù)的影視劇創(chuàng)新[J].中國新通訊,2015(1):32-33.