馬慶祥
(重慶工商職業(yè)學(xué)院 重慶 401520)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,各個(gè)行業(yè)產(chǎn)生了海量的數(shù)據(jù)信息。傳統(tǒng)以處理器為中心的數(shù)據(jù)采集方法,由于其存儲(chǔ)、管理的數(shù)據(jù)量相對較小,并不能很好地進(jìn)行龐大數(shù)據(jù)的采集,而網(wǎng)絡(luò)爬蟲的出現(xiàn),使這一難題得以解決,能夠?qū)崿F(xiàn)對各種來源數(shù)據(jù)的采集,從而減輕了數(shù)據(jù)采集人員的工作量,提高了抽取網(wǎng)頁數(shù)據(jù)的效率。本文是以《網(wǎng)絡(luò)爬蟲》中的部分典型工作案例為研究對象,實(shí)踐并探討了如何將思政元素合理有效地融合進(jìn)該課程之中,以求幫助大數(shù)據(jù)相關(guān)專業(yè)任課教師找到更多專業(yè)課程與思政元素融合的思路和方法。
《網(wǎng)絡(luò)爬蟲》是高職院校大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)、軟件技術(shù)等專業(yè)的一門重要的專業(yè)課程。課程教學(xué)對象是大二學(xué)生,學(xué)生已經(jīng)具有一定的大數(shù)據(jù)相關(guān)理論的基礎(chǔ)和網(wǎng)絡(luò)爬蟲相關(guān)應(yīng)用技術(shù)的基礎(chǔ)?!毒W(wǎng)絡(luò)爬蟲》的主要內(nèi)容包括數(shù)據(jù)采集的基本概念和基礎(chǔ)理論知識(shí)、網(wǎng)絡(luò)爬蟲的主要采集方法和手段、網(wǎng)絡(luò)爬蟲的應(yīng)用領(lǐng)域和前沿知識(shí)等。
為了積極響應(yīng)國家、教育部在構(gòu)建全員、全程、全方位育人格局的形態(tài)。并將思想政治理論教育融合到專業(yè)課程教學(xué)中去,形成真正意思上的協(xié)同效應(yīng)。把“立德樹人”作為教育的根本任務(wù)進(jìn)行課程開發(fā)與教育教學(xué),是目前理工類專業(yè),尤其是信息化學(xué)科方向的相關(guān)專業(yè)在課程教學(xué)改革方面研究并探索的重點(diǎn)領(lǐng)域。
以本系列課程中,“爬取網(wǎng)頁數(shù)據(jù)并將結(jié)果保存到指定文件”典型工作案例為研究對象,先進(jìn)行教學(xué)目標(biāo)分析。
知識(shí)目標(biāo):了解什么是XPath,掌握XPath環(huán)境的安裝,重點(diǎn)掌握XPath基本語法,理解掌握正則表達(dá)式的概念,能熟練應(yīng)用正則表達(dá)式的基本語法,理解正則表達(dá)式的匹配原則。
技能目標(biāo):能夠熟練構(gòu)造lxml,使用XPath進(jìn)行網(wǎng)頁數(shù)據(jù)的提取,掌握使用正則表達(dá)式爬取網(wǎng)頁信息并拆分網(wǎng)頁信息。
《全國高校思想政治工作網(wǎng)》是高等教育出版社主辦,教育部主管,教育部思政司指導(dǎo)的全國高校思政工作的資源集散庫、思想文化策源地和宣傳輿論風(fēng)向標(biāo)平臺(tái)。學(xué)生在進(jìn)行專業(yè)課學(xué)習(xí)的同時(shí),兼顧接受思想政治內(nèi)容的熏陶。通過《全國高校思想政治工作網(wǎng)》的示范引導(dǎo)、輻射帶動(dòng)作用,讓學(xué)生在使用爬蟲技術(shù)對其進(jìn)行數(shù)據(jù)抽取的每個(gè)環(huán)節(jié)中進(jìn)行正向信息的獲取、正確輿論的吸收和符合時(shí)代主旋律的節(jié)奏同步!同時(shí),學(xué)生在獲取數(shù)據(jù)后,可利用前端技術(shù)、網(wǎng)頁開發(fā)技術(shù)或移動(dòng)開發(fā)技術(shù),將獲取到的信息、數(shù)據(jù),以網(wǎng)頁、微信公眾號(hào)、小程序等形式進(jìn)行二次發(fā)布和展示。既起到了弘揚(yáng)思政正能量的作用、又起到了技術(shù)經(jīng)驗(yàn)交流、資源納集、技術(shù)服務(wù)訓(xùn)練等拓展學(xué)習(xí)實(shí)踐的目的[1]。
本次選取爬取的對象網(wǎng)頁為全國高校思想政治工作網(wǎng)首頁:
https://www.sizhengwang.cn/,具體采集抽取的內(nèi)容為首頁中導(dǎo)航模塊中的文字內(nèi)容。
圖1:《全國高校思想政治工作網(wǎng)》首頁導(dǎo)航模塊
具體采集方法如下:
第一步,為谷歌瀏覽器安裝XPath-Helper插件
圖2:已安裝XPath-Helper插件的Chrome瀏覽器
第二步,使用XPath-Helper將導(dǎo)航模塊中的具體文字內(nèi)容進(jìn)行定位抽取
圖3:使用XPath-Helper進(jìn)行目標(biāo)數(shù)據(jù)的標(biāo)簽定位
第三步,抽取出目標(biāo)數(shù)據(jù),并將數(shù)據(jù)保存到指定的文件中去。
圖4:抽取并保存數(shù)據(jù)
圖5:具體代碼實(shí)現(xiàn)
將《網(wǎng)絡(luò)爬蟲》這門專業(yè)課程內(nèi)容和“思政元素”有機(jī)結(jié)合,可在一定意義上升華教學(xué)的目的和意義。讓學(xué)生貼近時(shí)代主旋律并利用技術(shù)手段和工具方法,創(chuàng)造價(jià)值,實(shí)現(xiàn)自我提升,這是一件利在當(dāng)代,功在千秋的好事。授課教師可以通過案例研討法、讀書指導(dǎo)法、操作示范法、探索講授法、網(wǎng)絡(luò)教學(xué)法等多種教學(xué)形式,促進(jìn)學(xué)生的全程參與和自主探索,在潛移默化中將社會(huì)主義核心價(jià)值觀植入當(dāng)代青年學(xué)生的骨髓與血液[2]。