◆梁佳笑 肖 毅 聶笑一
(湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院 湖南 410128)
高校每年都有數(shù)目巨大的畢業(yè)生,許多校友在社會各個領(lǐng)域都有非常重要的地位,對高校來說由于學(xué)生流量數(shù)目過大,對校友的信息難以掌握,但是校友資源對每所高校來說又是十分重要的。為了解決這一問題,基于大數(shù)據(jù)的校友信息網(wǎng)絡(luò)分析系統(tǒng)一直專注于校友信息管理,校友信息檢索功能是我們的基礎(chǔ)功能。同時,我們也對校友的信息做了許多的處理,例如校友影響力排行、校友最新動態(tài)等,可以幫助高校更好更快的了解校友信息。本系統(tǒng)每隔一段時間就會自動更新數(shù)據(jù)庫,保證呈現(xiàn)在校方面前的數(shù)據(jù)都是最新最及時的。通過數(shù)據(jù)抓取技術(shù)從全網(wǎng)抓取并精心篩選校友信息呈現(xiàn)在校方面前,使校方更加直觀看到校友的具體信息以及成就。而校友在看到信息后,也會引起對學(xué)校的懷念,從而幫助學(xué)校的建設(shè)和發(fā)展,并可以定期的回母校進(jìn)行宣講。
校友信息數(shù)據(jù)分析離不開對大量高校信息和高校校友信息的抓取,本文使用CURL、PHPQuery、QueryList工具進(jìn)行數(shù)據(jù)采集。本系統(tǒng)的設(shè)計需求旨在為校友建立一個在大數(shù)據(jù)基礎(chǔ)上的信息整合分析平臺,為校友的信息收集、信息管理、信息交流等提供一體化服務(wù)。本系統(tǒng)從各大一手網(wǎng)站收取最可靠的數(shù)據(jù)源,最大限度獲取各高校校友。并將校友分為政界、商界、學(xué)界,校友按人物影響力排序,自動更新校友信息,使他們更加直觀看到校友的具體信息以及成就。
本階段項目中主要運用主流的 PHP服務(wù)器端語言和javascript、Html前端技術(shù)語言來完成模型系統(tǒng)。本項目需要對獲取的數(shù)據(jù)進(jìn)行分析,確認(rèn)用戶的身份,來解決重名問題。對獲取到校友的每一項數(shù)據(jù)進(jìn)行分析與人為處理來計算出校友的人物影響力,參照其人物影響力在顯示高校校友列表時對其排序。
后臺管理操作會將出現(xiàn)丑聞的校友數(shù)據(jù)狀態(tài)隱藏,將其從前臺頁面撤出,防止影響高校聲譽。
校友信息網(wǎng)絡(luò)分析系統(tǒng)采用MySQL搭配PHP和Apache組成良好的開發(fā)環(huán)境。MySQL是當(dāng)前最為流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一。在 WEB應(yīng)用方面,MySQL是最好的 RDBMS(ReLational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng))應(yīng)用軟件。因其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,一般中小型系統(tǒng)開發(fā)都選擇MySQL作為系統(tǒng)數(shù)據(jù)庫。
校友信息網(wǎng)絡(luò)分析系統(tǒng)分為校友數(shù)據(jù)、WEB前端部分、后臺管理三大端口。其中校友數(shù)據(jù)主要目標(biāo)是從數(shù)據(jù)源獲取數(shù)據(jù),確保數(shù)據(jù)的真實度,適應(yīng)的數(shù)據(jù)整合,保證數(shù)據(jù)量大。數(shù)據(jù)源來自政界的人民網(wǎng)、政府官網(wǎng)。商界的同花順、公司官網(wǎng)。學(xué)界的中國科學(xué)院官網(wǎng)、中國工程院官網(wǎng)、期刊論文。前臺部分通過模糊提示搜索高校、按省份地區(qū)檢索高校查找目的高校,目的高校分三類商界、學(xué)界、政界來展示所有校友及其信息。后臺管理主要分為數(shù)據(jù)更新和數(shù)據(jù)管理兩個部分。
數(shù)據(jù)更新是對校友數(shù)據(jù)、高校曾用名、校友職位等級進(jìn)行更新。全國高校所有校友中必然會存在多人姓名相同的情況,項目需要對獲取的數(shù)據(jù)進(jìn)行分析,確認(rèn)用戶的身份,來解決重名問題。身份證號、指紋、虹膜這些唯一性因素是驗證身份最準(zhǔn)確的數(shù)據(jù),由于這些是隱私,所以我們利用非唯一因素采用多重驗證算法。人名、職位、畢業(yè)院校三大因素,分析相似度來層層驗證來確認(rèn)重名校友的身份,盡最大可能地減小誤差。對于高校曾用名數(shù)據(jù)處理,本系統(tǒng)存庫的現(xiàn)全國高校名稱設(shè)置緩存與校友信息匹配出所屬高校,調(diào)用BosonNLP API將校友信息分詞得到高校舊名稱,高校舊名稱存庫,與現(xiàn)高校設(shè)置對應(yīng)關(guān)系。
圖1 身份重名對比
圖2 高校曾用名數(shù)據(jù)更新
圖3 功能介紹
商界方面,對抓取到的企業(yè)職位和企業(yè)總市值數(shù)據(jù)進(jìn)行算法分析處理。對國內(nèi)傳統(tǒng)商業(yè)職稱與引進(jìn)西方的職稱相結(jié)合進(jìn)行分類,初步分為董事長級、副董級、總經(jīng)理級、副總級,對抓取到的職位用編寫的程序進(jìn)行自動匹配,小部分后臺管理具體分類;抓取到的13381家企業(yè), 依據(jù)企業(yè)總市值做相應(yīng)處理對企業(yè)進(jìn)行分層。職位分類與總市值分層計算出商界人物影響力,這樣有效解決了由于市值差距大造成影響力失衡的問題。政界方面,依據(jù)國家對干部級別標(biāo)準(zhǔn)(正國級、副國級、省部級、副部級、廳局級、副廳級等)進(jìn)行分類,對抓取到的職位用編寫的程序進(jìn)行自動匹配,小部分后臺管理具體分類。職位分類計算出政界影響力。學(xué)界方面,由于當(dāng)前抓取學(xué)界數(shù)據(jù)較少不充分,無法準(zhǔn)確得出影響力,所以暫為采取算法分析影響力。后期會抓取各大學(xué)術(shù)期刊網(wǎng)站,來獲取更多學(xué)界數(shù)據(jù)。
通過模糊提示搜索高校、按省份地區(qū)檢索高校查找目的高校,目的高校分三類商界、學(xué)界、政界展示所有校友及其信息(圖4)。
圖4 目的高校
在本校友信息網(wǎng)絡(luò)分析系統(tǒng)中,首先是利用了PHPQuery和CURL的類方法采集原始數(shù)據(jù);下一步,對采集下來的分散數(shù)據(jù)清洗、冗余去重得到干凈數(shù)據(jù)。然后我們將校友按照商界、學(xué)界、政界分為三個部分。精準(zhǔn)搜索各大高校校友的信息,解決好各大高校校友重名和高校曾用名的問題。本系統(tǒng)通過數(shù)據(jù)抓取的手段從全網(wǎng)抓取并精心篩選校友信息呈現(xiàn)在校方面前,充分挖掘和整合校友資源,使他們更加直觀看到校友的具體信息以及成就
近年來許多高校發(fā)現(xiàn)對自己學(xué)校的校友信息不十分了解,有的人已經(jīng)成為社會中的佼佼者,但是校方卻不知情,龐大的畢業(yè)生基數(shù)讓校方無從下手。高校校友資源整合必須緊跟大數(shù)據(jù)時代的步伐,否則將落后于潮流,無法滿足新時代工作的需求。如何將大數(shù)據(jù)的理念和技術(shù)手段滲透到高校校友資源整合中,凸顯與大數(shù)據(jù)時代發(fā)展相適應(yīng)的功能,提升高校校友工作信息化新水平,對于充分挖掘和整合校友資源,助力于高校和校友事業(yè)具有重要的研究價值。