鄭志勇
摘? 要:隨著網絡教育信息資源的信息容量急劇增加,簡單依靠商業(yè)化搜索引擎已不能滿足個性化教與學的需求,通過使用解析工具Jsoup抓取教育資源網站和搜索引擎的搜索結果保存進Derby數據庫,再利用數據挖掘技術對可用資源的進行頁面價值評價和格式化存儲,必將有效提高網絡教育資源的使用水平。大部分學生觸網,都是進入微博、玩網絡游戲、聊天,網絡在學生群體中的使用更多的只是娛樂工具。
關鍵詞:數據挖掘? Jsoup? 網絡教育資源? 抓取策略
中圖分類號:TP311 ? ?文獻標識碼:A 文章編號:1672-3791(2019)09(b)-0004-02
1? 網絡教育資源建設的現狀和利用分析
隨著中國互聯網網絡結構持續(xù)優(yōu)化,網絡性能顯著提升,網絡基礎設施建設規(guī)模不斷擴大,網民低齡化趨勢明顯。但有研究顯示,盡管在校學生上網人數相當多,利用網絡作為學習工具的人數比例還是很少,能很好地使用網絡資源,尤其是豐富的學科資源輔助學習的學生人數更少。在校學生無法利用網絡教育資源的主要原因有下面幾個方面:(1)是因為網上學習資源太雜,難以選擇;(2)是網絡學習資源呈現方式五花八門,有的是主次部分,充斥大量垃圾廣告,更有甚者還有包含暴力、不健康的文字和圖片,引誘學生點擊。(3)是網絡上的材料太難影響興趣;(4)是老師缺乏指引。隨著海量的網絡教育資源建設和快速上升的帶寬、接入終端普及率與極低的在校學生使用網絡教育資源的利用率形成了巨大的反差。通過數據挖掘技術抓取教育資源網站和搜索引擎的搜索結果,再利用數據挖掘技術對可用資源的進行有效分析與格式化,將大大提高在校學生網絡教育資源的利用率。
2? 網絡教育資源挖掘系統(tǒng)的工作原理和主要策略
2.1 網絡教育資源挖掘系統(tǒng)的基本架構
網絡教育資源挖掘系統(tǒng)的基本架構如圖1,主要由包含數據存儲部分、頁面分析部分和終端輸出3個部分。其中數據存儲部分有URL資源庫、本地資源庫、格式庫;頁面分析部分有頁面價值計算系統(tǒng)和頁面結構分析系統(tǒng);終端輸出部分主要包括終端展示(含手機APP、微網站、微信應用)及學習反饋兩個部分。
2.2 網絡教育資源挖掘系統(tǒng)的數據流程
網絡教育資源挖掘系統(tǒng)的工作機制為教師或家長在明確學習目標的基礎上,使用HTML解析工具Jsoup抓取教育資源網站和搜索引擎的搜索結果,對結果URL進行頁面價值計算,將計算結果滿足條件的URL記錄到URL目標資源庫中。執(zhí)行頁面內容抓取分析,進行頁面結構化分析,去除無效的頁面(如腳本、鏈超接、商業(yè)廣告、導航),將分析結果保存到本地資源庫中。最后,教師或家長可自行設計輸出格式,學生可在手機APP、微網站、微信應用上進行學習。
2.3 網絡教育資源挖掘系統(tǒng)的資源抓取策略
如表1所示。
2.4 網絡教育資源挖掘系統(tǒng)的數據挖掘策略
網絡教育資源挖掘系統(tǒng)頁面價值評價系統(tǒng),采用百分制計算,頁面分為三等,分別為不合格,合格和優(yōu)秀;其中0~50分為不合格,50~80為合格,80~100分為優(yōu)秀。
網絡教育資源挖掘系統(tǒng)頁面價值分數計算公式:
F=A*(W*C/B+(P+M)(2-C)/B)
A:代表網站權重,其中專業(yè)教育資源類網站權重為1.2,搜索引擎結果權重為1;
B:代表網站權重最大值,這里是1.2;
C:代表文字部分權重,可根據教學目標調整;
W:代表文字內容,滿分50分(見表2)。
P:代表圖片資源,滿分20分(見表3)。
M:代表多媒體視頻率資源,滿分30分(見表4)。
2.5 網絡教育資源挖掘系統(tǒng)的格式輸出策略
網絡教育資源挖掘系統(tǒng)的格式輸出采用內容管理系統(tǒng)CMS技術,網頁抓取功能將符合條件的頁面內容,過濾后格式化到本地資源庫中,通過事先設計網站、手機APP、手機微站、微信應用等模版,教育內容可直接的發(fā)布在手機APP、微網站、微信應用上。
頁面內容過濾策略為:過濾所有腳本、所有外鏈、所有樣式、導航欄,只保留
范圍標簽內的內容。3? 網絡教育資源挖掘系統(tǒng)的實現
3.1 基礎準備
開發(fā)平臺操作系統(tǒng)為Windows;開發(fā)語言采用Java;數據庫采用JAVA自帶Derby數據庫。
3.2 URL目標資源庫設計
URL目標資源庫用于存儲有價值的教育資源網站頁面URL地址和搜索引擎的搜索結果中有價值的頁面URL。核心字段有:來源類型,分搜索引擎和教育資源兩類,保存頁面的地址,抓取時間,文字數,圖片數,資源URL抓取核心代碼,采用Jsoup的Document類來完成。
3.3 本地資源庫設計
本地資源庫設計與普通的內容管理系統(tǒng)類似,核心是頁面內容表。核心字段主要有教學任務,文章類型文章內容等。
4? 應用案例
本課題研究應用于素質拓展課程古詩詞教學,網絡上有關古詩的網站,百度找到相關結果約86,100,000,面對如此海量的、質量參此不齊的信息資源,僅依托搜索結果是很難達到教學目標的,如要求教師自己建設一個相關教學網站,需要教師有一定的信息技術能力和教學資源的儲備,影響教師使用信息化教學的積極性。通過網絡資源挖掘系統(tǒng)挖掘古詩的原文、譯文、古詩的寫作環(huán)境、古詩的內涵、古詩朗讀、古詩視頻等資源存儲到本地資源庫用于教學,能大大提高學生對古詩的感悟能力和古詩鑒賞能力。
5? 結語
網絡教育資源挖掘系統(tǒng)通過對現有海量網絡教育資源挖掘和格式化,一方面簡化或避免了教師重復建設教育資源;另一方面也降低了學生查找和使用網絡教育資源的難度,避免了學生被網絡不良資源的侵害,對實際有效利用海量網絡教育資源是可行的。
參考文獻
[1] 盛雪豐.Android開發(fā)一大神器——Jsoup[J].電腦知識與技術,2015,11(8):63-65.
[2] 馮思度,楊健葉,韓煦.基于醫(yī)療信息的網絡爬蟲系統(tǒng)的研究與設計[J].現代信息科技,2019(10):23-25.
[3] 胡文瑜,孫志揮,吳英杰.數據挖掘取樣方法研究[J].計算機研究與發(fā)展,2011,48(1):45-54.