高顯俊 黃儒樂(lè)
摘 ?要:互聯(lián)網(wǎng)數(shù)據(jù)是高校大數(shù)據(jù)平臺(tái)應(yīng)用的重要數(shù)據(jù)來(lái)源,該文主要闡述了高校大數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu),并在此基礎(chǔ)上提出了互聯(lián)網(wǎng)數(shù)據(jù)的重要價(jià)值,分析了高校大數(shù)據(jù)應(yīng)用中專業(yè)數(shù)據(jù)、資訊數(shù)據(jù)和網(wǎng)絡(luò)輿情數(shù)據(jù)三大主要互聯(lián)網(wǎng)數(shù)據(jù)構(gòu)成,并對(duì)應(yīng)用模式和應(yīng)用場(chǎng)景進(jìn)行了研究。提出并闡述了學(xué)科大數(shù)據(jù)分析、網(wǎng)絡(luò)輿情監(jiān)測(cè)、情報(bào)大數(shù)據(jù)分析、校友大數(shù)據(jù)分析等高?;ヂ?lián)網(wǎng)數(shù)據(jù)大數(shù)據(jù)應(yīng)用場(chǎng)景。
關(guān)鍵詞:大數(shù)據(jù) ?互聯(lián)網(wǎng)數(shù)據(jù) ?高校大數(shù)據(jù)平臺(tái)
中圖分類號(hào):TP311 ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)12(c)-0012-03
當(dāng)前,國(guó)家高度重視大數(shù)據(jù)及其應(yīng)用的發(fā)展,高校作為人才培養(yǎng)和科學(xué)研究的前沿陣地,紛紛積極開(kāi)展高校大數(shù)據(jù)平臺(tái)的建設(shè)與實(shí)踐。互聯(lián)網(wǎng)數(shù)據(jù)作為海量數(shù)據(jù)的重要來(lái)源,其在高校大數(shù)據(jù)平臺(tái)中的應(yīng)用價(jià)值日益凸顯,研究并深入實(shí)踐基于互聯(lián)網(wǎng)數(shù)據(jù)的高校大數(shù)據(jù)應(yīng)用具有現(xiàn)實(shí)意義。
1 ?高校大數(shù)據(jù)平臺(tái)概述
高校大數(shù)據(jù)平臺(tái)是實(shí)現(xiàn)數(shù)據(jù)采集、關(guān)聯(lián)融合、深度分析、判別預(yù)測(cè)、場(chǎng)景應(yīng)用的基礎(chǔ)[1]。其體系架構(gòu)一般分為4層:數(shù)據(jù)來(lái)源層、數(shù)據(jù)采集層、大數(shù)據(jù)核心層、數(shù)據(jù)應(yīng)用層。
1.1 數(shù)據(jù)來(lái)源層
高校大數(shù)據(jù)平臺(tái)的數(shù)據(jù)來(lái)源主要包括校內(nèi)業(yè)務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)、設(shè)備運(yùn)行數(shù)據(jù)4種類型的數(shù)據(jù)。
(1)校內(nèi)業(yè)務(wù)數(shù)據(jù)。是由校內(nèi)各種業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),如教務(wù)系統(tǒng)中的課程、成績(jī)數(shù)據(jù),教學(xué)平臺(tái)中的學(xué)習(xí)行為數(shù)據(jù),一卡通系統(tǒng)中的消費(fèi)數(shù)據(jù),科研管理系統(tǒng)中的項(xiàng)目、經(jīng)費(fèi)、成果數(shù)據(jù)等,校內(nèi)業(yè)務(wù)數(shù)據(jù)主要是結(jié)果狀態(tài)數(shù)據(jù),數(shù)據(jù)形態(tài)上以結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)量不太大,適合統(tǒng)計(jì)分析得到直接的結(jié)論。
(2)互聯(lián)網(wǎng)數(shù)據(jù)。來(lái)自于互聯(lián)網(wǎng)的和學(xué)校相關(guān)的數(shù)據(jù),比如專利檢索數(shù)據(jù)、論文收錄數(shù)據(jù)、網(wǎng)絡(luò)輿情數(shù)據(jù)等,包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),尤其是海量的非結(jié)構(gòu)化數(shù)據(jù),是真正意義上的大數(shù)據(jù),需要用到科學(xué)計(jì)算、NLP等技術(shù)來(lái)處理和分析。
(3)網(wǎng)絡(luò)流量數(shù)據(jù)。包括校內(nèi)用戶訪問(wèn)互聯(lián)網(wǎng)、校外訪問(wèn)校內(nèi)以及校園網(wǎng)內(nèi)部之間的網(wǎng)絡(luò)流量數(shù)據(jù),流量數(shù)據(jù)量大,但數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單。用戶的上網(wǎng)流量數(shù)據(jù)一般用于上網(wǎng)行為審計(jì)與分析,后兩者一般用于系統(tǒng)服務(wù)評(píng)價(jià)和網(wǎng)絡(luò)安全分析。
(4)設(shè)備運(yùn)行數(shù)據(jù)。指服務(wù)器、交換機(jī)、路由器等設(shè)備的運(yùn)行數(shù)據(jù)和日志數(shù)據(jù),也包括中間件、數(shù)據(jù)庫(kù)、Web服務(wù)的運(yùn)行數(shù)據(jù)。一般用于IT運(yùn)維健康度分析、自動(dòng)化運(yùn)維、網(wǎng)絡(luò)安全等分析。
1.2 數(shù)據(jù)采集層
對(duì)來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行采集、抽取、清洗、轉(zhuǎn)換。常見(jiàn)的采集方式有3種:(1)傳統(tǒng)的ETL離線采集適合校內(nèi)業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集;(2)分布式實(shí)時(shí)采集使用流處理方式,能滿足每秒數(shù)百兆的日志數(shù)據(jù)采集,如ELK或者Splunk等;(3)網(wǎng)頁(yè)爬蟲(chóng)采集適合互聯(lián)網(wǎng)信息的采集,包括網(wǎng)頁(yè)、數(shù)據(jù)、圖片和文件等。數(shù)據(jù)采集的過(guò)程中數(shù)據(jù)質(zhì)量管理很重要,需要對(duì)數(shù)據(jù)進(jìn)行全過(guò)程治理以確保數(shù)據(jù)質(zhì)量和可靠性。
1.3 大數(shù)據(jù)核心層
大數(shù)據(jù)核心層實(shí)現(xiàn)大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)、資源調(diào)度、數(shù)據(jù)計(jì)算等功能。數(shù)據(jù)存儲(chǔ)方面,提供HDFS分布式文件系統(tǒng)、Hbase布式列簇存儲(chǔ)、分布式Mysql集群、內(nèi)存數(shù)據(jù)庫(kù)、ElasticSearch分布式搜索數(shù)據(jù)庫(kù)等多種存儲(chǔ)系統(tǒng),以支撐各類數(shù)據(jù)的存儲(chǔ)和訪問(wèn)需求。資源調(diào)度方面,通過(guò)Apache Hadoop YARN提供Hadoop資源管理,可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,通過(guò)Kubernetes等提供自動(dòng)化部署、大規(guī)??缮炜s、應(yīng)用容器化管理。在數(shù)據(jù)計(jì)算方面,提供流計(jì)算平臺(tái)、數(shù)據(jù)挖掘流程模板庫(kù)、極其算法庫(kù)等計(jì)算工具,實(shí)現(xiàn)多維特征分析、分布式科學(xué)計(jì)算、可視化模型構(gòu)建等。
1.4 數(shù)據(jù)應(yīng)用層
基于大數(shù)據(jù)核心層提供的數(shù)據(jù)分析能力,對(duì)采集到的數(shù)據(jù)進(jìn)行業(yè)務(wù)場(chǎng)景化應(yīng)用,目前國(guó)內(nèi)高校的大數(shù)據(jù)應(yīng)用還在起步階段,主要集中在學(xué)工分析與服務(wù)、學(xué)科分析與服務(wù)、師生用戶畫(huà)像分析、領(lǐng)導(dǎo)駕駛艙等應(yīng)用領(lǐng)域。
2 ?高校大數(shù)據(jù)平臺(tái)下的互聯(lián)網(wǎng)數(shù)據(jù)主要構(gòu)成
互聯(lián)網(wǎng)數(shù)據(jù)作為高校大數(shù)據(jù)平臺(tái)的重要數(shù)據(jù)源之一,是對(duì)校內(nèi)業(yè)務(wù)數(shù)據(jù)的重要補(bǔ)充。其具有數(shù)據(jù)量大、更新快、形態(tài)豐富(結(jié)構(gòu)化和非結(jié)構(gòu)化)等特點(diǎn),目前可用于高校大數(shù)據(jù)分析應(yīng)用的互聯(lián)網(wǎng)數(shù)據(jù)主要分為專業(yè)數(shù)據(jù)、資訊數(shù)據(jù)、網(wǎng)絡(luò)輿情數(shù)據(jù)三大類。
2.1 專業(yè)數(shù)據(jù)
(1)科研數(shù)據(jù)。
主要包括專利數(shù)據(jù)和論文數(shù)據(jù),專利數(shù)據(jù)可使用國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索數(shù)據(jù)和德溫特專利檢索數(shù)據(jù)等,論文數(shù)據(jù)主要來(lái)源于SCI、EI、Scopus、PubMed、CSCD、CSSCI以及知網(wǎng)、萬(wàn)方、維普等數(shù)據(jù)庫(kù),一些科研項(xiàng)目統(tǒng)計(jì)數(shù)據(jù)也可以在互聯(lián)網(wǎng)中獲取,如國(guó)家自然科學(xué)基金和國(guó)家人文社科基金的科研項(xiàng)目信息等。
(2)人才數(shù)據(jù)。
通過(guò)各類行業(yè)部門(mén)網(wǎng)站、高校網(wǎng)站、年鑒等渠道可以采集到全國(guó)高校院士數(shù)據(jù)、碩博導(dǎo)師數(shù)據(jù)以及獲得各類人才榮譽(yù)稱號(hào)的人才數(shù)據(jù),如千人計(jì)劃、青年千人計(jì)劃、萬(wàn)人計(jì)劃、長(zhǎng)江學(xué)者、國(guó)家杰青、國(guó)家優(yōu)青、青年拔尖人才等,另外,愛(ài)思唯爾(Elsevier)發(fā)布的中國(guó)高被引學(xué)者榜單也可以作為人才數(shù)據(jù)的補(bǔ)充。
(3)行業(yè)基礎(chǔ)數(shù)據(jù)。
其包括一些開(kāi)放的或提供局部應(yīng)用的行業(yè)基礎(chǔ)數(shù)據(jù),如全國(guó)高?;A(chǔ)信息數(shù)據(jù)、學(xué)科評(píng)估數(shù)據(jù)、本科評(píng)估數(shù)據(jù)、高基表數(shù)據(jù)等。
2.2 資訊數(shù)據(jù)
資訊數(shù)據(jù)是互聯(lián)網(wǎng)上最具海量特征的數(shù)據(jù),主要由非結(jié)構(gòu)化數(shù)據(jù)組成。對(duì)于高校而言,學(xué)校的發(fā)展與行業(yè)、社會(huì)是密不可分的,來(lái)自于教育主管部門(mén)、科研主管部門(mén)、其他高校、科研院所、生源地、企業(yè)、校友、學(xué)者動(dòng)態(tài)等資訊信息是學(xué)校發(fā)展的重要情報(bào)信息來(lái)源,采集這些信息并進(jìn)行合理的分析以及面向業(yè)務(wù)場(chǎng)景的應(yīng)用,具有重要意義。
2.3 網(wǎng)絡(luò)輿情數(shù)據(jù)
網(wǎng)絡(luò)輿情數(shù)據(jù)是一種特殊的互聯(lián)網(wǎng)資訊數(shù)據(jù),其數(shù)據(jù)來(lái)源包括網(wǎng)絡(luò)新聞媒體、網(wǎng)絡(luò)論壇、百度貼吧、博客、微博、微信公眾號(hào)、文章評(píng)論、網(wǎng)絡(luò)視頻等。
3 ?高校大數(shù)據(jù)平臺(tái)下的互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用模式
3.1 數(shù)據(jù)采集原則
互聯(lián)網(wǎng)數(shù)據(jù)采集是在高校大數(shù)據(jù)平臺(tái)中開(kāi)展互聯(lián)網(wǎng)數(shù)據(jù)融合應(yīng)用的重要前提,數(shù)據(jù)采集的數(shù)量、質(zhì)量直接決定后期數(shù)據(jù)應(yīng)用的有效性和可靠性。面對(duì)海量的互聯(lián)網(wǎng)數(shù)據(jù),到底應(yīng)該采集哪些數(shù)據(jù)是擺在我們眼前的難題。根據(jù)目前可用于高校大數(shù)據(jù)分析應(yīng)用的互聯(lián)網(wǎng)數(shù)據(jù)的特點(diǎn),科研成果數(shù)據(jù)等專業(yè)數(shù)據(jù)比較好界定,互聯(lián)網(wǎng)資訊數(shù)據(jù)、網(wǎng)絡(luò)輿情數(shù)據(jù)的來(lái)源廣泛、數(shù)據(jù)量大,在數(shù)據(jù)采集時(shí)可以考慮如下幾個(gè)方面的原則。
(1)“與我相關(guān)”。采集的數(shù)據(jù)是屬于我的(學(xué)校、師生);提到我的(新聞、評(píng)論等),與我的業(yè)務(wù)發(fā)展相關(guān)的。
(2)“有價(jià)值”。采集的數(shù)據(jù)能描述學(xué)校的狀態(tài),能描述學(xué)校相關(guān)的機(jī)構(gòu)或者人員的狀態(tài),能描述和學(xué)校相關(guān)的資源的情況。
(3)“最新的”。采集的數(shù)據(jù)要盡量具有良好的時(shí)效性、動(dòng)態(tài)性。
(4)“準(zhǔn)確的”。采集的數(shù)據(jù)其內(nèi)容要盡可能準(zhǔn)確,并且可以準(zhǔn)確匹配和準(zhǔn)確分類。
(5)“核心敏感的”。采集的數(shù)據(jù)與學(xué)校核心業(yè)務(wù)相關(guān)、痛點(diǎn)需求相關(guān),或者是負(fù)面的,如網(wǎng)絡(luò)輿情、安全事件等。
(6)“最大加工可能性”。采集的數(shù)據(jù)在可量化度上、可分析度上應(yīng)具有良好的加工性。
(7)“最大采集效率”。數(shù)據(jù)采集盡量能采用全自動(dòng)采集、半自動(dòng)采集方式來(lái)實(shí)現(xiàn),提高采集效率。
3.2 數(shù)據(jù)采集技術(shù)手段
目前面向高校大數(shù)據(jù)應(yīng)用的互聯(lián)網(wǎng)數(shù)據(jù)只有少量專業(yè)數(shù)據(jù)可以通過(guò)數(shù)據(jù)API接口的方式進(jìn)行采集,大部分互聯(lián)網(wǎng)數(shù)據(jù)只能通過(guò)網(wǎng)絡(luò)爬取的方式采集。網(wǎng)絡(luò)爬蟲(chóng)是依照一定規(guī)則主動(dòng)抓取網(wǎng)頁(yè)的程序[2],目前,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)已經(jīng)非常成熟,廣泛應(yīng)用于互聯(lián)網(wǎng)信息抓取,在建立面向高校大數(shù)據(jù)應(yīng)用的互聯(lián)網(wǎng)數(shù)據(jù)爬取系統(tǒng)時(shí),需要注意如下幾個(gè)方面的問(wèn)題。
(1)爬取能力問(wèn)題?;ヂ?lián)網(wǎng)數(shù)據(jù)有開(kāi)放型網(wǎng)頁(yè)、Web系統(tǒng)等多種來(lái)源,針對(duì)論文、專利等來(lái)源于系統(tǒng)查詢的數(shù)據(jù),需要綜合使用通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、深度網(wǎng)絡(luò)爬蟲(chóng)等技術(shù),實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確爬取;針對(duì)資訊數(shù)據(jù)、網(wǎng)絡(luò)輿情數(shù)據(jù)則需要建立科學(xué)合理的高校行業(yè)詞庫(kù),便于信息的準(zhǔn)確匹配。在爬取性能上,由于數(shù)據(jù)的動(dòng)態(tài)性和實(shí)時(shí)性要求較高,需要采用分布式網(wǎng)絡(luò)爬蟲(chóng)架構(gòu),結(jié)合增量爬取技術(shù),提高爬取性能。
(2)數(shù)據(jù)處理問(wèn)題。根據(jù)不同數(shù)據(jù)類型采取不同的數(shù)據(jù)處理方式。專利論文等專業(yè)數(shù)據(jù)以及行業(yè)基礎(chǔ)數(shù)據(jù)爬取后需進(jìn)行結(jié)構(gòu)化處理,并按照適合高校數(shù)據(jù)應(yīng)用的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行清洗、轉(zhuǎn)換、去重等;資訊數(shù)據(jù)和輿情數(shù)據(jù)則需要利用自然語(yǔ)言處理技術(shù)進(jìn)行語(yǔ)義分析、情感分析、關(guān)鍵字提取等,基于非結(jié)構(gòu)化的原始數(shù)據(jù)建立起結(jié)構(gòu)化的標(biāo)簽數(shù)據(jù),便于后期的數(shù)據(jù)應(yīng)用。
(3)數(shù)據(jù)存儲(chǔ)問(wèn)題?;ヂ?lián)網(wǎng)數(shù)據(jù)經(jīng)處理后一部分轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),如專利、論文等數(shù)據(jù);而互聯(lián)網(wǎng)資訊數(shù)據(jù)和網(wǎng)絡(luò)輿情數(shù)據(jù)則使用結(jié)構(gòu)化存儲(chǔ)和非結(jié)構(gòu)化存儲(chǔ)相結(jié)合。
3.3 數(shù)據(jù)應(yīng)用服務(wù)對(duì)象
互聯(lián)網(wǎng)數(shù)據(jù)在高校中的應(yīng)用服務(wù)對(duì)象包括對(duì)內(nèi)服務(wù)和對(duì)外服務(wù)。對(duì)內(nèi)服務(wù)對(duì)象包括校領(lǐng)導(dǎo)、管理部門(mén)、學(xué)院、教師、學(xué)生;對(duì)外服務(wù)對(duì)象包括高校上級(jí)管理部門(mén)、生源基地、考生、家長(zhǎng)、就業(yè)單位、社會(huì)公眾等。根據(jù)不同互聯(lián)網(wǎng)數(shù)據(jù)的價(jià)值和不同服務(wù)對(duì)象的需求進(jìn)行應(yīng)用設(shè)計(jì)和匹配。
4 ?高校大數(shù)據(jù)平臺(tái)下的互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用場(chǎng)景
互聯(lián)網(wǎng)數(shù)據(jù)可以應(yīng)用到很多高校大數(shù)據(jù)服務(wù)場(chǎng)景,既可以獨(dú)立應(yīng)用,也可以和業(yè)務(wù)數(shù)據(jù)融合應(yīng)用,下面就幾個(gè)應(yīng)用場(chǎng)景舉例進(jìn)行簡(jiǎn)單闡述。
4.1 學(xué)科大數(shù)據(jù)分析
以服務(wù)雙一流學(xué)科建設(shè)為核心出發(fā)點(diǎn),建立學(xué)科大數(shù)據(jù)應(yīng)用數(shù)據(jù)標(biāo)準(zhǔn),通過(guò)采集互聯(lián)網(wǎng)中全球?qū)@麛?shù)據(jù)、文獻(xiàn)數(shù)據(jù)、人才數(shù)據(jù)、高等教育指標(biāo)數(shù)據(jù)、高校和科研機(jī)構(gòu)數(shù)據(jù)、頂級(jí)學(xué)術(shù)會(huì)議數(shù)據(jù),并與學(xué)校內(nèi)部業(yè)務(wù)數(shù)據(jù)進(jìn)行融合,實(shí)現(xiàn)學(xué)科建設(shè)數(shù)據(jù)的深度分析與挖掘,為雙一流學(xué)科建設(shè)的項(xiàng)目管理、目標(biāo)管理、績(jī)效管理提供支撐,形成深度的、動(dòng)態(tài)的學(xué)科發(fā)展大數(shù)據(jù)報(bào)告,并對(duì)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),對(duì)風(fēng)險(xiǎn)隱患進(jìn)行預(yù)警。
4.2 網(wǎng)絡(luò)輿情監(jiān)測(cè)
網(wǎng)絡(luò)輿情是針對(duì)社會(huì)熱點(diǎn)、大眾生活等問(wèn)題,由新聞媒體或者個(gè)人在互聯(lián)網(wǎng)上表達(dá)的言論、建議或情緒,是社會(huì)輿論在網(wǎng)絡(luò)上的一種特殊表現(xiàn)形式[3]。基于大數(shù)據(jù)思維對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行采集、分析、語(yǔ)義分析、情感判斷是網(wǎng)絡(luò)輿情監(jiān)測(cè)平臺(tái)新的發(fā)展趨勢(shì)。通過(guò)分布式網(wǎng)絡(luò)爬蟲(chóng)對(duì)高校相關(guān)的、分布于論壇、貼吧、微博、博客、新聞等不同載體中的網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行采集,并建立具有高校行業(yè)特點(diǎn)的語(yǔ)義詞庫(kù)和數(shù)據(jù)分析模型,形成網(wǎng)絡(luò)輿情的自動(dòng)收集、處理、分析、研判、預(yù)警全流程服務(wù)。
4.3 情報(bào)大數(shù)據(jù)分析
互聯(lián)網(wǎng)數(shù)據(jù)中存在大量和高校自身、競(jìng)爭(zhēng)對(duì)手以及教育行業(yè)相關(guān)的資訊數(shù)據(jù),這些數(shù)據(jù)是高校發(fā)展和決策的重要情報(bào)數(shù)據(jù)來(lái)源,通過(guò)實(shí)時(shí)采集和適當(dāng)處理可以形成服務(wù)高校發(fā)展的情報(bào)大數(shù)據(jù)平臺(tái)。利用情報(bào)大數(shù)據(jù)實(shí)現(xiàn)“知己、知彼、知行業(yè)”的目標(biāo),知己是知自己、知本質(zhì),知彼是知對(duì)手、知?jiǎng)討B(tài),知行業(yè)是知環(huán)境、知風(fēng)向。通過(guò)對(duì)來(lái)自互聯(lián)網(wǎng)上的高校發(fā)展情報(bào)數(shù)據(jù)的自動(dòng)采集、聚合、分類、場(chǎng)景化分析,如行業(yè)全景、媒體聲譽(yù)指數(shù)、學(xué)者動(dòng)態(tài)、學(xué)科動(dòng)態(tài)等,實(shí)現(xiàn)對(duì)高校戰(zhàn)略決策的支撐作用。
4.4 校友大數(shù)據(jù)分析
校友是高校發(fā)展的寶貴資源,了解校友動(dòng)態(tài)是挖掘校友資源、精準(zhǔn)服務(wù)的前提。校友大數(shù)據(jù)有兩大數(shù)據(jù)來(lái)源,一是校友在校學(xué)習(xí)期間的數(shù)據(jù),這方面的數(shù)據(jù)量級(jí)小、時(shí)間跨度短;二是數(shù)據(jù)則來(lái)自于校友畢業(yè)后在互聯(lián)網(wǎng)上可公開(kāi)采集到的各類數(shù)據(jù),如人事任免、企業(yè)信息、上市公開(kāi)信息、論文、專利、高端論壇、學(xué)術(shù)報(bào)告、新聞報(bào)道等海量的、動(dòng)態(tài)的、跨越長(zhǎng)時(shí)間周期的數(shù)據(jù)。基于這些數(shù)據(jù)建立校友大數(shù)據(jù)分析平臺(tái),可以動(dòng)態(tài)地、精準(zhǔn)地挖掘到高價(jià)值校友,為學(xué)校發(fā)展儲(chǔ)備資源,為校友之間的互助、合作搭建橋梁和紐帶。
5 ?結(jié)語(yǔ)
隨著互聯(lián)網(wǎng)數(shù)據(jù)的日益增加以及互聯(lián)網(wǎng)數(shù)據(jù)采集與處理技術(shù)的不斷成熟,開(kāi)展基于互聯(lián)網(wǎng)數(shù)據(jù)的高校大數(shù)據(jù)應(yīng)用日趨成熟?;ヂ?lián)網(wǎng)數(shù)據(jù)采集需遵循數(shù)據(jù)關(guān)聯(lián)性、價(jià)值度、新鮮度、準(zhǔn)確性、可加工性以及數(shù)據(jù)采集效率等原則,分布式網(wǎng)絡(luò)爬蟲(chóng)、定制化數(shù)據(jù)處理、多樣化數(shù)據(jù)存儲(chǔ)是關(guān)鍵技術(shù)點(diǎn)。從校內(nèi)外不同服務(wù)對(duì)象的需求特點(diǎn)出發(fā),互聯(lián)網(wǎng)數(shù)據(jù)可以應(yīng)用到很多服務(wù)場(chǎng)景,在學(xué)科大數(shù)據(jù)、網(wǎng)絡(luò)輿情監(jiān)測(cè)、情報(bào)大數(shù)據(jù)、校友大數(shù)據(jù)等領(lǐng)域能夠發(fā)揮重要作用。
參考文獻(xiàn)
[1] 仲兆滿,施珺,管燕,等.高校教育大數(shù)據(jù)平臺(tái)的架構(gòu)設(shè)計(jì)[J].教育現(xiàn)代化,2019,6(46):37-39,43.
[2] 劉金江,陳余良.主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29,47.
[3] 姜春起.網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)應(yīng)用問(wèn)題研究[D].吉林大學(xué),2017.