◆胡文利 劉雷
Python數(shù)據(jù)爬取在高職高專院校中的教學(xué)思考研究
◆胡文利 劉雷
(江西工業(yè)職業(yè)技術(shù)學(xué)院 江西 330039)
Python爬蟲工具是一種全新的計算機程序,近年來被廣泛應(yīng)用到各個領(lǐng)域,在高職高專院校教學(xué)的過程中,可以利用Python數(shù)據(jù)爬取,在學(xué)習(xí)平臺中挖掘數(shù)據(jù),充分利用學(xué)習(xí)法平臺中大量的數(shù)據(jù)。此外,高職院校人才培養(yǎng)以就業(yè)為主要目標,將Python爬蟲工具應(yīng)用到高職職位篩選中,能夠幫助學(xué)生第一時間篩選出自己心儀的崗位,有助于提升高職就業(yè)率。高職學(xué)生就業(yè)前夕,院校要組織學(xué)生做好市場調(diào)研,尤其是在網(wǎng)絡(luò)信息時代背景下,招聘網(wǎng)站成為學(xué)生獲取招聘市場信息最為便捷的途徑,為了在海量的招聘信息中篩選出有價值的信息內(nèi)容,學(xué)生可以應(yīng)用Python爬蟲工具,在這種全新的數(shù)據(jù)分析語言下,學(xué)生可以輕松簡單的掌握,并靈活獲取有價值的信息,提升高職院校學(xué)生就業(yè)質(zhì)量與效率。
Python爬蟲工具;高職高專;就業(yè)支持
在信息時代背景下,云計算技術(shù)、互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)對我們的生活與工作帶來了極大的變化,社會各個領(lǐng)域都受到大數(shù)據(jù)技術(shù)的影響。教育領(lǐng)域也不例外,每天都會產(chǎn)生大量的教育數(shù)據(jù),來源也各不相同。網(wǎng)絡(luò)爬蟲工具就是其中之一,靈活熟練的應(yīng)用Python爬蟲工具對高職院校教育教學(xué)發(fā)展有積極推動作用。
Python爬蟲工具具有面向?qū)ο蠼忉屝缘奶攸c,是一種新型的計算機程序語言,雖然其誕生時間并不長,但能夠與經(jīng)典的C、C++語言聯(lián)結(jié)應(yīng)用,具有語法簡潔、標準庫豐富、第三方庫強大的特點,且容易擴展。Python已經(jīng)出現(xiàn)逐漸取代其他計算機編程語言的趨勢,是當前常被應(yīng)用的網(wǎng)絡(luò)爬蟲與機器學(xué)習(xí)工具。大數(shù)據(jù)技術(shù)滲透到教育領(lǐng)域后,促進了教育信息化發(fā)展,教育數(shù)據(jù)搜集方式也發(fā)生了全新的變化,在Python爬蟲工具的支持下,獲取網(wǎng)絡(luò)教育數(shù)據(jù)的速度變得越來越快,途徑也變得愈發(fā)便捷。同時也考驗了對計算機語言使用的熟練程度。面對海量的教育數(shù)據(jù),如何從中獲取對自身最有價值、最為所需的信息是每個高職高專教育工作者都要考慮的問題。網(wǎng)絡(luò)爬蟲會根據(jù)預(yù)先制定好的規(guī)則,自主抓取萬維網(wǎng)信息的一種腳本或程序,常被人成為網(wǎng)絡(luò)蜘蛛與網(wǎng)絡(luò)機器人。Python爬蟲工具主要類型有:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲,在實踐應(yīng)用的過程中,會將幾種爬蟲技術(shù)綜合應(yīng)用。在當前背景下,單純應(yīng)用搜索引擎已經(jīng)無法及時、精準獲取我們需要的信息內(nèi)容,在網(wǎng)絡(luò)信息爆炸的年代,還會在搜索的同時附帶出大量的廣告信息,Python爬蟲工具的誕生,可以有效解決這一問題。
近年來我國高職高中專院校陸續(xù)應(yīng)用線上學(xué)習(xí)平臺進行教學(xué),降低了教學(xué)難度便于教師教學(xué)及學(xué)生學(xué)習(xí)。在大數(shù)據(jù)技術(shù)支持下,在線學(xué)習(xí)平臺中積累了大量的數(shù)據(jù)信息,但高職高專院校在線學(xué)習(xí)平臺中積累的數(shù)據(jù)信息并沒有充分發(fā)揮出有效的作用與價值。追其根本原因主要體現(xiàn)在以下幾個方面:第一,絕大多數(shù)高職高專院校的線上教學(xué)平臺,都是經(jīng)軟件公司開發(fā)的,教師對教學(xué)平臺的數(shù)據(jù)庫結(jié)構(gòu)并不了解,數(shù)據(jù)挖掘效果并不理想。第二,從學(xué)習(xí)平臺現(xiàn)狀分析來看,在設(shè)計方面存在一定的不足之處,后續(xù)數(shù)據(jù)挖掘難以有效進行,沒有將一些關(guān)鍵的字段存入其中,使積累的數(shù)據(jù)無法進行數(shù)據(jù)挖掘,效果也十分不理想。第三,很多高職高專院校的數(shù)據(jù)挖掘軟硬件有待更新,數(shù)據(jù)挖掘需要從海量的數(shù)據(jù)信息中獲取未知的、可理解可操作的信息。Python是一種對對象進行解釋的程序設(shè)計語言,其具備操作簡潔、容易應(yīng)用的特點,能夠跨平臺運行,近年來得以廣泛應(yīng)用并積累了豐富的開源程序庫。機器學(xué)習(xí)使計算機程序有針對性地完成特定任務(wù)不斷積累經(jīng)驗,從而提升質(zhì)量與效率。眾多高職高專院校都陸續(xù)應(yīng)用機器學(xué)習(xí),而深度學(xué)習(xí)屬于機器學(xué)習(xí)的一部分,近年來也逐漸受到人們的重視與關(guān)注,尤其是在信息技術(shù)與互聯(lián)網(wǎng)技術(shù)高速發(fā)展的時代背景下。在視覺識別、語音識別及自然語言處理方面,深度學(xué)習(xí)都發(fā)揮了廣泛的作用與應(yīng)用價值。
高職高專院校學(xué)習(xí)平臺中的數(shù)據(jù)主要分為兩類,一類是存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),還有一類是存儲在文件系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)。其中結(jié)構(gòu)化數(shù)據(jù)以平臺中的結(jié)構(gòu)化數(shù)據(jù),主要包括學(xué)生信息表、教師信息表、考試信息表、課程信息表、知識點信息表等。非結(jié)構(gòu)化數(shù)據(jù)主要包括教學(xué)視頻、PPT 、word文檔等。這些教學(xué)材料有圖片有視頻生動形象,備受學(xué)生喜愛,是當前學(xué)習(xí)平臺中主要的教學(xué)載體。需要注意的是每個視頻播放時間不宜過長,確保學(xué)生能夠集中注意力。在每段視頻中設(shè)置一個知識點,直接用知識點的名稱命名視頻方便師生查詢與應(yīng)用。在課程更新的過程中,短視頻發(fā)揮了有效的作用能夠?qū)⒄n程內(nèi)容的知識點直接呈現(xiàn)給學(xué)生,學(xué)習(xí)平臺的文件系統(tǒng)中不僅有短視頻,學(xué)習(xí)資料還包括教師上傳的各種附件如PPT 、word等文檔。
在學(xué)習(xí)平臺班級中的學(xué)生學(xué)習(xí)的內(nèi)容是相同的,并沒有根據(jù)學(xué)生的具體情況,設(shè)置有針對性的學(xué)習(xí)服務(wù)。將數(shù)據(jù)挖掘應(yīng)用到學(xué)習(xí)平臺中,其目的是根據(jù)學(xué)生的個體情況為學(xué)生匹配相應(yīng)的學(xué)習(xí)資源,從而有針對性地提供學(xué)習(xí)服務(wù)達到因材施教的目的。此前要對學(xué)生及其學(xué)習(xí)信息進行分析與挖掘,掌握學(xué)生的喜好及具體的學(xué)習(xí)情況,進而開展學(xué)習(xí)資源挖掘分析活動,自動為學(xué)生進行學(xué)習(xí)資源匹配,滿足學(xué)生的學(xué)習(xí)需求與個性特點,為教師篩選出適合其教學(xué)課程的學(xué)生。結(jié)構(gòu)化數(shù)據(jù)的特點是以表格形式組織,列表示了不同的特點,行表示了不同的樣本,在對結(jié)構(gòu)化數(shù)據(jù)進行分類與分析時,通常會應(yīng)用機器學(xué)習(xí)中的決策數(shù)的計算方式,其中最具代表性的是梯度提升決算方式,此種決策算法優(yōu)勢在于能夠處理非歸一化的數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)也是深度學(xué)習(xí)中常備應(yīng)用的一種技術(shù)手段,其優(yōu)勢在于對圖像等數(shù)據(jù)的處理,循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于處理時間等序列數(shù)據(jù)。深度學(xué)習(xí)不僅在性能方面具有明顯的優(yōu)勢,而且能夠?qū)崿F(xiàn)自動化的方式提取特征。與以往傳統(tǒng)機器學(xué)習(xí)相比,無需進行人工提取操作環(huán)節(jié)問題變得更加清晰可見,應(yīng)用深度學(xué)習(xí)可以從感知數(shù)據(jù)中提取出人們所需的所有信息。
應(yīng)用 Stick learn學(xué)習(xí)平臺的結(jié)構(gòu)化數(shù)據(jù)實施機器學(xué)習(xí),要依次按照步驟進行操作。如數(shù)據(jù)采集與標記、數(shù)據(jù)清洗、特征選擇、模型訓(xùn)練與測試、模型選擇模型使用等。而模型訓(xùn)練與測試通常需要大量的計算,在進行訓(xùn)練的過程中要耗費較長的時間,完成模型測試內(nèi)容后輸入全新的樣本,對模型進行調(diào)試便可得到最終的結(jié)果,再對結(jié)果進行解釋與應(yīng)用。在機器學(xué)習(xí)模式下能夠?qū)W(xué)生進行聚類分析,有助于教師根據(jù)學(xué)生的具體情況與類別設(shè)計出不同的教學(xué)對策。實施知識點評論數(shù)據(jù)與課程評論數(shù)據(jù)分類有助于對教學(xué)進行持續(xù)優(yōu)化與改進,根據(jù)學(xué)生對知識內(nèi)容的掌握情況預(yù)測出學(xué)生最終的考試結(jié)果,指引學(xué)生調(diào)整學(xué)習(xí)方法。
在對學(xué)習(xí)平臺中的非結(jié)構(gòu)化數(shù)據(jù)進行深度學(xué)習(xí)時應(yīng)用Keras作為技術(shù)支持,并用 TensorFlow作為后端引擎。在進行深度學(xué)習(xí)前,先要確定明確的方向開展數(shù)據(jù)收集工作,確定評估目標成功的具體方法。為了在神經(jīng)網(wǎng)絡(luò)處理過程中確保原數(shù)據(jù)的適用性,需要預(yù)先對數(shù)據(jù)進行向量化標準化及缺失值等處理。在構(gòu)建模型時,經(jīng)常會應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)分析文本數(shù)據(jù)與音頻數(shù)據(jù),在對圖像數(shù)據(jù)進行分析時,通常會應(yīng)用二維卷積神經(jīng)網(wǎng)絡(luò)。在對視頻數(shù)據(jù)進行分析時,通常會應(yīng)用三維卷積神經(jīng)網(wǎng)絡(luò),并且不斷對參數(shù)進行調(diào)節(jié),對模型進行不斷優(yōu)化與改進。在神經(jīng)網(wǎng)絡(luò)中輸入全新的樣本便可以得到最終的結(jié)果,然后解釋結(jié)果并應(yīng)用結(jié)果。在深度學(xué)習(xí)模式下,會以課程視頻中的視頻或音頻信息為基礎(chǔ),自動生成視頻相關(guān)的文字介紹。以相關(guān)內(nèi)容為基礎(chǔ),對學(xué)習(xí)資源進行類別劃分,可以自動理解并回答問題,還可以自動生成學(xué)習(xí)資料,將學(xué)習(xí)平臺中結(jié)構(gòu)化數(shù)據(jù)的挖掘結(jié)果與非結(jié)構(gòu)化數(shù)據(jù)的挖掘結(jié)果有機結(jié)合,能夠幫助教師找到適合其所授課程的學(xué)生,并且能夠為學(xué)生匹配出適合其學(xué)情與特點的學(xué)習(xí)資源,從而提升教學(xué)的針對性。
以高職高專院校學(xué)生最常使用的招聘網(wǎng)站為例,對地點在“杭州”的招聘崗位“計算機、互聯(lián)網(wǎng)、通信”為例。在招聘網(wǎng)站中使用Python數(shù)據(jù)爬取的方式,獲取相關(guān)的崗位招聘信息。具體操作程序:
這組代碼是通過循環(huán)語句,連續(xù)構(gòu)成類似的URL,讓計算機系統(tǒng)能夠?qū)W(wǎng)頁進行自動訪問,在代碼的支持下,使其自動運行,從而能夠在招聘網(wǎng)站中獲取批量信息,在Python中re模塊的作用下,通過正則表達式從中過濾出為自己所用的數(shù)據(jù)信息。但是很多網(wǎng)站已經(jīng)采取了相應(yīng)的對策,使爬蟲軟件不再奏效,利用Python軟件在招聘網(wǎng)上挖掘信息,并對崗位信息中的分詞進行處理,統(tǒng)計分詞出現(xiàn)頻率,了解崗位的熱門度。以搜集計算機、互聯(lián)網(wǎng)、通信相關(guān)崗位為例,能夠了解到其中被提到最多的三個詞分別是:運營182、媒體60、網(wǎng)絡(luò)22,可見在杭州地區(qū)計算機類崗位需求量最大的是運營相關(guān)崗位,能夠占所有崗位的五分之一以上,媒體類的崗位緊隨其后,可見在信息技術(shù)高速發(fā)展的時代背景下,信息類人才十分緊缺,已經(jīng)從原有單純的技術(shù)類崗位轉(zhuǎn)變?yōu)榧夹g(shù)與服務(wù)相結(jié)合的崗位,如媒體傳播、數(shù)據(jù)維護、運營管理等,在對崗位提出具體要求的基礎(chǔ)上,利用Python數(shù)據(jù)爬取工具進行同頻統(tǒng)計得知,排在前三的詞語為:溝通、管理、經(jīng)驗,當前計算機專業(yè)人才不僅要具備專業(yè)技術(shù),還要具備良好的溝通能力與項目管理能力。
綜上所述,利用Python工具能夠高職高專院校學(xué)習(xí)平臺的數(shù)據(jù)進行有效挖掘,匹配最佳的學(xué)習(xí)課程與學(xué)習(xí)資料。Python工具對招聘網(wǎng)站的信息進行分析與獲取,能夠幫助高職高專院校學(xué)生掌握最新的招聘動態(tài),便于學(xué)校第一時間掌握市場對計算機人才的需求,進而有針對性地對學(xué)生進行培養(yǎng),設(shè)置有利于學(xué)生日后求職的課程。在為學(xué)生指明就業(yè)方向的同時,能夠為院校教育教學(xué)提供有效的參考。
[1]王世純,許新華,張洪春,等. 個體差異對Python爬蟲獲取教育大數(shù)據(jù)的影響研究[J]. 中國教育信息化,2018,000(005):79-81.
[2]艾沛鈺,閆麗. 基于Python的互聯(lián)網(wǎng)數(shù)據(jù)爬取與解析的研究與實踐[J]. 信息與電腦(理論版),2019(17).
大數(shù)據(jù)時代下基于Python的高職教育信息爬取與數(shù)據(jù)分析(類型:一般項目,編號:GJJ191677)
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2021年11期