黃戴琴 周強 虞飛華
摘要:浙江新高考改革為“七選三”的模式后,高考志愿填報多了一個科目限選要求,考生志愿填報成為一項復雜的數(shù)據(jù)工程。本研究基于高?;拘畔?shù)據(jù)、當年招生計劃數(shù)據(jù)、歷年投檔數(shù)據(jù)、考生個人數(shù)據(jù),通過設計推薦算法,基于Android平臺開發(fā)了高考志愿填報輔助系統(tǒng),能夠快速精確地推薦一組符合考生填報意愿的當年招生計劃數(shù)據(jù)列表。
關鍵詞:大數(shù)據(jù)分析;用戶協(xié)同過濾;高考志愿填報;推薦系統(tǒng)
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)31-0075-04
高考是目前我國教育體制中最重要的考試之一。恢復高考以來,很多考生通過高考進入高校學習,改變了自己的命運,也有很多人考生因為志愿填報的失誤,錯失了心目中想要踏入的大學,又或是從事完全不適合自己的行業(yè),而遺憾終身。高考志愿填報關乎一個人的命運,如何在上千所學校,上萬個專業(yè)中挑選出符合考生自己分數(shù)以及興趣的高校和專業(yè),是困擾廣大考生和家長的重要問題。
浙江省新高考改革后,脫離傳統(tǒng)的單調(diào)文理分科模式,采用新型“7選3模式”,即除去語文、數(shù)學和外語三門必考課程之外,還要在傳統(tǒng)的理科和文科科目中選3門作為高考自選科目,其中包括歷史、政治、地理、物理、化學、生物和技術(含通用技術和信息技術)。浙江省新高考志愿填報實行平行專業(yè)志愿填報機制,以一所學校的一個專業(yè)為一個志愿,最多填報80個志愿。
“7選3模式”對于考生而言多了一份分數(shù)自信和興趣抉擇,同時也限制了報考專業(yè)方向。在這個模式下,部分專業(yè)對選考科目及分數(shù)有明確要求。這就成為考生報考志愿的一大難點。傳統(tǒng)的志愿抉擇階段主要盲目地借助于大量的書籍和網(wǎng)絡上的資料,各種各樣的資料讓人眼花繚亂,根本無法從這么多良莠不齊的信息中找到真正有價值的,浪費大量時間在查找資料上,往往卻徒勞無功,導致對有效信息掌握不足或自身定位不清晰。李勝在《傳統(tǒng)高考志愿填報的反思及現(xiàn)實展望》中提到,多數(shù)家長和教師過多的關注高校的“名聲”,而忽略了與學生自身興趣和能力匹配的專業(yè)嘲,這種錯誤的想法也影響了大多數(shù)考生對未來發(fā)展和職業(yè)規(guī)劃的不重視甚至迷茫和被動。隨著信息時代的和教育信息化的飛速發(fā)展,大可以借助大數(shù)據(jù)和互聯(lián)網(wǎng)的力量,在眾多院校和專業(yè)中找到適合自己的方向。
目前我國考志愿填報平臺相關研究較多。中國教育在線、高考派、第一高考網(wǎng)等是國內(nèi)高考志愿填報平臺的典型案例。上述主流的高考志愿填報服務平臺,主要提供院校信息查詢功能,各院校的歷年招生分數(shù)查詢?yōu)橹饕δ埽⑶译m然有根據(jù)考生分數(shù)進行志愿智能推薦,但沒有綜合考慮“浙江省新高考7選3限制”、考生填報意愿的院校地域信息、院校聲譽度、是否雙一流、歷年招生信息、當年招生計劃、大學排行榜信息、學科專業(yè)排名信息、就業(yè)信息等數(shù)據(jù)。顯然這些信息,對考生來說是志愿填報的重要參考信息,并且部分信息每年都是動態(tài)變化的,如歷年招生人數(shù)和當年招生計劃人數(shù)的增減,就會對院校專業(yè)的招生分數(shù)產(chǎn)生一定的波動和不穩(wěn)定性,上述平臺且缺乏靈活性。
基于分析國內(nèi)主流高考志愿填報平臺的不足,本研究提出一個“浙江新高考”志愿填報方案智能推薦平臺,有目的指向浙江省新高考政策,旨在解決考生志愿填報不明確問題,采集新高考志愿填報涉及的數(shù)據(jù),結合考生填報意愿和高考成績,通過大數(shù)據(jù)計算和基于用戶的協(xié)同過濾算法,給考生智能推薦的一個或多個志愿填報候選方案。
1推薦算法設計
協(xié)同過濾推薦算法是一個雖然傳統(tǒng)古老但依然應用廣泛的推薦算法,主要用于預測和推薦,基于對用戶的偏好對用戶進行群組劃分并產(chǎn)生相似推薦。協(xié)同過濾技術分為四類:基于用戶的協(xié)同過濾嘲、基于項目的協(xié)同過濾、基于混合的協(xié)同過濾、基于模型的協(xié)同過濾。
基于用戶的協(xié)同過濾推薦的原理就是“物以類聚,人以群分”,將目標用戶的喜好或標簽作為一種反饋,與其他有相似喜好的用戶組成一個集合,這種用戶被稱作目標用戶的“鄰居”。最后將目標用戶的“鄰居”的其他目標用戶沒接觸過的喜好推薦給目標用戶,形成目標用戶的“新喜好”。
基于項目的協(xié)同過濾算法與之類似,是以項目或物品作為目標,通過用戶的評價,比較不同項目與項目之間的評價距離來產(chǎn)生預測評價,生成推薦集合?;诨旌系膮f(xié)同過濾算法顧名思義就是把“用戶”和“項目”混合在一起形成的推薦算法?;谀P偷膮f(xié)同過濾算法將用戶和項目之間的關系作為研究對象,設計一個合適的模型,通過過程優(yōu)化來達到推薦效果。
通過綜合比較上述四種過濾方法,本文針對浙江新高考志愿填報的特點,融合大數(shù)據(jù)技術,采用了基于用戶的協(xié)同過濾技術,通過對考生的各種屬性和偏好,給予有效的高考志愿填報推薦。
建立一個基于用戶的協(xié)同過濾系統(tǒng)只需要三步:第一步,繪制用戶畫像矩陣;第二步,搜索最近鄰;第三步,生成推薦結果。
1.1用戶畫像矩陣建立
在大環(huán)境的影響下,高考不僅是考生個人自己的事,更成為一個家庭的大事。根據(jù)相關文獻和調(diào)研發(fā)現(xiàn),高考志愿填報的影響因素,不僅包括考生的高考分數(shù),還包括考生的個人興趣、發(fā)展前景和家庭情況等,谷寶柱在《高考志愿選擇行為的影響因素研究》中利用國內(nèi)外文獻和問卷調(diào)查相結合,得出結論:影響考生高考志愿填報的主要因素有個人因素、家庭因素、高校因素、國家社會因素和經(jīng)濟因素五個方面。綜合分析影響考生填報志愿的因素和考生的個人意愿得出在高考志愿填報中,影響志愿填報的因素主要有:學校類型(如985、211、一流大學、普通一本、普通二本、普通三本等),學校地區(qū)、考生分數(shù)、歷年錄取分數(shù)線等。根據(jù)這些影響因素和考生自身意愿確定了用戶偏好信息的方向和內(nèi)容,繪制用戶畫像矩陣。
用戶畫像矩陣內(nèi)容主要來源于用戶自己完善的信息內(nèi)容,以考生的基本屬性數(shù)據(jù)、學生的總分、三門主課分數(shù)、7選3科目及其對應分數(shù)為基礎,通過要求所推薦的學校是否要是985院校、所推薦的學校是否要是211院校以及對城市和地區(qū)的完成偏好設置,共同作為目標用戶的喜好和標簽。
用戶畫像矩陣建立后,就將其作為用戶屬性,用于接下來的數(shù)據(jù)分析。
1.2最近鄰搜索
1.2.1用戶數(shù)據(jù)標準化
為了方便數(shù)據(jù)處理,根據(jù)考生輸人的考生成績信息和填報意向信息,在用戶屬性確定后,對數(shù)據(jù)進行數(shù)據(jù)標準化處理,本文采用rain-max標準化對數(shù)據(jù)進行標準化處理,如公示l所示:
其中d表示考生的原始數(shù)據(jù),rain表示屬性的最小值,min表示屬性的最大值。
1.2.2計算用戶鄰近性
最近鄰搜索就是以考生屬性為基礎,計算考生與考生偏好之間的相似度。在標準化的考生屬性數(shù)據(jù)的基礎上,采用皮爾遜相關系數(shù)進行最近鄰搜索,計算考生之間的距離,以此來表示考生間的相似鄰近度,如公示2所示:
1.3推薦結果生成
推薦結果是基于鄰近用戶的錄取高校和專業(yè)產(chǎn)生的,首先要確定鄰居用戶,通過相似鄰近度的計算和搜索,將近鄰度為0的用戶作為目標用戶的最近鄰用戶,作為鄰居用戶并將其對應成功錄取的院校加入推薦集合中。
由于每年的試卷難度不同等因素,分數(shù)作為參考量的價值并不穩(wěn)定,所以根據(jù)用戶的排名作為主要參考更為嚴格精準。根據(jù)目標用戶的所處分數(shù)排名段,選取距離最小的x個用戶作為另據(jù)用戶,并將x個用戶所錄取的高校按人數(shù)進行降序排列處理,并依次加入推薦集合中,再根據(jù)考生的偏好設置進行逐一甄別,甄別后的推薦內(nèi)容放入新的推薦集合,直到新的推薦集合中的個數(shù)到達目標數(shù),即50條,形成最終的推薦集合。
2平臺功能設計
經(jīng)過向高考考生和家長發(fā)放問卷調(diào)研,結合基于用戶協(xié)同過濾算法,本文設計的浙江新高考志愿填報平臺主要分為an-droid客戶端和服務端兩個程序,包含以下幾個模塊,具體如圖1所示。
2.1android客戶端功能
1)用戶注冊:用于考生申請合法身份,建立考生的個人信息檔案并保存考生的基本社會屬性,作為目標用戶。
2)用戶登錄:驗證考生身份的合法性,保障考生的信息安全。
3)高考成績填報:保存考生的語文、數(shù)學和外語三門公共課分數(shù)、7選3科目及其對應分數(shù)、學生總分以及排序位序信息作為必須數(shù)據(jù),應用于數(shù)據(jù)的協(xié)同過濾算法。
4)意向信息填報:主要收集考生對高校層次、地理位置偏好以及專業(yè)的意向信息,作為主要篩選和推薦依據(jù)。
5)高校資訊和信息展示:包含展示各個高校的基本信息、專業(yè)情況和歷年招生情況,為考生更好提供對高校了解的環(huán)境和途徑。也會向用戶提供呈現(xiàn)一些與高考相關信息的文章,用戶可以瀏覽資訊以了解一些填報志愿的相關政策和由各考試院推送的一些有用的文章。
2.2服務端功能
1)數(shù)據(jù)采集:首先選取各高校官方招生網(wǎng)站、省教育考試院、第三方評價機構和教育部網(wǎng)站為目標URLs,也就是指定入口。將這些URL從網(wǎng)絡上下載下來存放進待抓取的容器中,把待抓取的容器中的URL提取出來,并進行訪問,解析后的數(shù)據(jù)儲存到服務器中。將解析完成的URL重新放回容器中,在容器中進行篩選后循環(huán)之前的操作。
利用網(wǎng)絡爬蟲技術從各高校網(wǎng)站和省教育考試院網(wǎng)站收集獲取各高?;拘畔?shù)據(jù)、當年專業(yè)招生計劃數(shù)據(jù)、歷年專業(yè)招生計劃數(shù)據(jù)、歷年專業(yè)錄取分數(shù)數(shù)據(jù)和,從第三方評價機構中收集高校綜合排名數(shù)據(jù)、學科專業(yè)排名數(shù)據(jù)和就業(yè)質量排名數(shù)據(jù),從教育部網(wǎng)站獲取雙一流建設大學和雙一流學科建設大學數(shù)據(jù),數(shù)據(jù)來源如圖2所示。
2)數(shù)據(jù)存儲:一個安全可靠的系統(tǒng)必然離不開數(shù)據(jù)存儲。系統(tǒng)將通過爬蟲技術抓取到的數(shù)據(jù)以Excel表格的格式保存到本地服務器,將Excel文件通過接口API上傳到數(shù)據(jù)庫服務器,對文件中的數(shù)據(jù)進行處理,處理完成后成功連接到數(shù)據(jù)庫并將數(shù)據(jù)插入到數(shù)據(jù)庫對應的數(shù)據(jù)表中。
3)數(shù)據(jù)計算:主要對高校、招生專業(yè)的排名情況、歷年招生計劃、本年招生信息和歷年錄取情況、考生成績、考生的意向數(shù)據(jù)進行大數(shù)據(jù)計算。
4)志愿推薦:運用基于用戶協(xié)同過濾算法,先根據(jù)用戶屬性建立用戶畫像矩陣,然后利用公示(1)對數(shù)據(jù)進行標準化。在經(jīng)過標準化后的數(shù)據(jù)基礎上,利用公示(2)計算考生與考生之間的距離,最后生成推薦集,即生成符合高生意愿的高校和專業(yè)志愿推薦列表。
3系統(tǒng)測試
設計測試用例,根據(jù)測試用例進行系統(tǒng)測試,首先填寫考生的名次、批次,語文、數(shù)學和外語三門公共課成績和7選3的科目和對應分數(shù),自動生成總成績,如圖3所示。
然后,考生填志愿填報意向意愿,包括排除的省、直轄市和自治區(qū),學校辦學性質和類型,是否要求一流大學建設和是否要求一流學科建設,是否要求985、211和重點大學,如圖4所示。
根據(jù)圖3和圖4的數(shù)據(jù),高考志愿填報輔助推薦平臺,經(jīng)過服務端計算,最后將推薦結果列表推送到android客戶端,效果如圖5所示:
4總結
針對浙江省新高考的特點,本文設計的浙江新高考志愿填報推薦平臺,結合了網(wǎng)絡爬蟲技術、大數(shù)據(jù)處理技術和基于用戶協(xié)同過濾算法,通過采集大量高考生填報相關的數(shù)據(jù)和各個高校招生情況和信息,設計用戶協(xié)同過濾算法,設計了android客戶端和服務端。測試結果表明,該平臺可以為考生推薦符合考生成績區(qū)間和考生感興趣的學校和專業(yè)列表,能夠大大減少考生在海量數(shù)據(jù)中尋找高校和專業(yè)的時間,相對手工填報明顯提高了精確度,解決了由于信息不足或者對自身定位有誤等問題,更好地填補了目前高考推薦系統(tǒng)對于浙江省考生志愿填報推薦的空缺,滿足廣大浙江考生的需求,具有較好的應用價值。雖然本平臺已經(jīng)有了較好的推薦效果,但是在用戶協(xié)同過濾算法中,還需要通過數(shù)據(jù)訓練集的不斷測試,完善協(xié)同過濾算法以提高推薦精確度,特別在數(shù)據(jù)稀疏的情況,需要進一步的研究和改進。