文/鄺允新
大數(shù)據(jù)技術(shù)可以為產(chǎn)教融合型企業(yè)優(yōu)化產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)提供數(shù)據(jù)基礎(chǔ),提高產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)的科學(xué)性和可行性。鑒于此,本文分析了大數(shù)據(jù)背景下開(kāi)展產(chǎn)學(xué)研項(xiàng)目的Flume技術(shù)、Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù)等關(guān)鍵技術(shù),從采集、儲(chǔ)存、處理和分析項(xiàng)目評(píng)價(jià)信息等方面,深入探究了大數(shù)據(jù)背景下優(yōu)化產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)的路徑,以期提高產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)的準(zhǔn)確性,引導(dǎo)帶動(dòng)企業(yè)積極參與產(chǎn)學(xué)研項(xiàng)目,促進(jìn)校企深度合作,為產(chǎn)教融合型企業(yè)的高質(zhì)量發(fā)展提供初步借鑒。
產(chǎn)教融合型企業(yè)積極開(kāi)展產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià),可以有效激發(fā)企業(yè)的創(chuàng)造力,深化校企合作,實(shí)現(xiàn)校企雙贏。[1]大數(shù)據(jù)技術(shù)可以為企業(yè)的產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)提供有效的數(shù)據(jù)支撐和幫助,而充分利用大數(shù)據(jù)中的Flume技術(shù)、Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù),一方面可以為企業(yè)清晰展現(xiàn)產(chǎn)學(xué)研項(xiàng)目實(shí)施績(jī)效評(píng)價(jià)等級(jí),全面客觀地評(píng)價(jià)校企合作的方向、重點(diǎn)和不足,針對(duì)性地提供數(shù)據(jù)支持,優(yōu)化產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià),促進(jìn)產(chǎn)學(xué)研項(xiàng)目工作的優(yōu)化和完善,為產(chǎn)教融合企業(yè)后續(xù)的發(fā)展奠定基礎(chǔ);另一方面,可以幫助政府利用數(shù)據(jù)平臺(tái),跟蹤企業(yè)參與產(chǎn)教融合的行為過(guò)程及內(nèi)容深度和廣度,從而為優(yōu)惠政策的落實(shí)兌現(xiàn)提供依據(jù),在提高企業(yè)參與產(chǎn)教融合積極性的同時(shí),也規(guī)范了產(chǎn)教融合的政策落實(shí)。因此,產(chǎn)教融合型企業(yè)需要積極參與產(chǎn)學(xué)研項(xiàng)目,持續(xù)優(yōu)化產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià),著力提高項(xiàng)目評(píng)價(jià)的科學(xué)性,促進(jìn)校企深度合作。
大數(shù)據(jù)背景下開(kāi)展產(chǎn)學(xué)研項(xiàng)目的關(guān)鍵技術(shù)主要包括Flume技術(shù)、Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù)。
企業(yè)的項(xiàng)目數(shù)據(jù)往往存在于業(yè)務(wù)系統(tǒng)、外部文件中。企業(yè)需要收集不同場(chǎng)景下的數(shù)據(jù)時(shí),就需要用到各種不同的數(shù)據(jù)采集技術(shù),其中包括用于采集業(yè)務(wù)日志的Flume技術(shù)。
Flume是一個(gè)分布式海量日志采集系統(tǒng),支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,并寫(xiě)到各種數(shù)據(jù)接收方的能力。[2]Agent(代理節(jié)點(diǎn))是Flume 的中心,主要由三部分組成:Source,指采集或讀取日志的組件,不同的數(shù)據(jù)源使用不同的Source;Sink,指負(fù)責(zé)日志的寫(xiě)出的組件;Channel,指緩沖區(qū),讓Source和Sink可以在不同速率上運(yùn)行。多個(gè)Agent也可以組合使用。利用Flume技術(shù)采集數(shù)據(jù),可以為產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)提供真實(shí)可靠的數(shù)據(jù)基礎(chǔ)。
圖1為Flume技術(shù)架構(gòu)及核心組件,其中Web Server指網(wǎng)頁(yè)服務(wù)器,Agent包括Source、Channel和Sink。
Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),它的數(shù)據(jù)存儲(chǔ)和加工過(guò)程都是分布式的,由多個(gè)機(jī)器共同完成。[3]這一系統(tǒng)架構(gòu)通過(guò)并行處理,可以提高數(shù)據(jù)安全性和數(shù)據(jù)處理規(guī)模。Hadoop框架主要分為HDFS(分布式的文件系統(tǒng))和MapReduce(編程模型)。
HDFS可以為大量的產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)數(shù)據(jù)提供存儲(chǔ),有助于企業(yè)高效地管理保存龐大的信息數(shù)據(jù)。在Hadoop中,底層的數(shù)據(jù)文件都存儲(chǔ)在HDFS中,它是大數(shù)據(jù)的底層基礎(chǔ)。
MapReduce是一種分布式計(jì)算過(guò)程,可以將大量的數(shù)據(jù)處理任務(wù)拆分為分布式的計(jì)算任務(wù),交給大量的機(jī)器處理,從而完成大規(guī)模的計(jì)算任務(wù),處理后得到企業(yè)需要的結(jié)果。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)集中提取有價(jià)值信息的過(guò)程,被用于發(fā)現(xiàn)數(shù)據(jù)中的趨勢(shì)和模式,并對(duì)未來(lái)做出預(yù)測(cè)。
聚類(lèi)分析可以把各個(gè)對(duì)象分組在一起,并用于后續(xù)的分析工作。聚類(lèi)不同于其他數(shù)據(jù)挖掘技術(shù),它不依賴(lài)于對(duì)數(shù)據(jù)預(yù)先確定的假設(shè);相反,聚類(lèi)依賴(lài)于對(duì)象的自然分組。[4]聚類(lèi)通常用來(lái)發(fā)現(xiàn)有相似特征的對(duì)象組,這些信息可以用于各種分析任務(wù),例如預(yù)測(cè)未來(lái)的行為或在數(shù)據(jù)中尋找模式。
選擇建模是一種用于預(yù)測(cè)未來(lái)選擇的數(shù)據(jù)挖掘技術(shù),它可以用過(guò)去的選擇預(yù)測(cè)未來(lái)的選擇,可以應(yīng)用于各種不同的經(jīng)營(yíng)領(lǐng)域,包括市場(chǎng)營(yíng)銷(xiāo)、產(chǎn)品設(shè)計(jì)和預(yù)測(cè)客戶行為等。選擇最優(yōu)模型,可以正確評(píng)價(jià)產(chǎn)學(xué)研項(xiàng)目的行為和績(jī)效。
在大數(shù)據(jù)背景下,產(chǎn)教融合型企業(yè)可以充分利用Flume技術(shù)、Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù),采集、儲(chǔ)存、處理和分析項(xiàng)目評(píng)價(jià)信息,通過(guò)詳細(xì)深入的分析數(shù)據(jù),對(duì)產(chǎn)教融合型企業(yè)合作項(xiàng)目的行為和績(jī)效進(jìn)行建模和分類(lèi),從而優(yōu)化產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià),提高項(xiàng)目評(píng)價(jià)的準(zhǔn)確性和可行性,引導(dǎo)帶動(dòng)企業(yè)積極參與產(chǎn)學(xué)研項(xiàng)目,真正推動(dòng)校企形成命運(yùn)共同體。
Flume技術(shù)可以為采集項(xiàng)目評(píng)價(jià)信息提供完整的解決方案。
一要構(gòu)建高效的評(píng)價(jià)數(shù)據(jù)采集平臺(tái)。企業(yè)應(yīng)充分利用Flume技術(shù)的高容錯(cuò)性和安全性,高效采集生產(chǎn)項(xiàng)目、就業(yè)質(zhì)量、社會(huì)服務(wù)、學(xué)業(yè)成績(jī)、研究技術(shù)等數(shù)據(jù),保證數(shù)據(jù)采集工作的順利開(kāi)展。同時(shí),數(shù)據(jù)采集平臺(tái)需具有較強(qiáng)的兼容性,能夠采集產(chǎn)學(xué)研各參與方的數(shù)據(jù)信息,確保各參與方能夠順利訪問(wèn)采集平臺(tái)。
二要制定統(tǒng)一的評(píng)價(jià)數(shù)據(jù)采集制度。企業(yè)在數(shù)據(jù)采集、技術(shù)要求、專(zhuān)業(yè)人員配置等方面要按照相關(guān)規(guī)定規(guī)范操作,確保產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)的數(shù)據(jù)采集工作有制度可依,可以有序順利進(jìn)行。同時(shí),企業(yè)要建立日常工作總結(jié)制度,幫助采集人員及時(shí)總結(jié)數(shù)據(jù)采集工作中的經(jīng)驗(yàn)、教訓(xùn),有效避免工作混亂和失誤,保證數(shù)據(jù)采集的準(zhǔn)確性和真實(shí)性。
一要利用Hadoop技術(shù),實(shí)現(xiàn)對(duì)多平臺(tái)海量數(shù)據(jù)的統(tǒng)一管理、存儲(chǔ)及計(jì)算。Hadoop技術(shù)中的HDFS系統(tǒng),可以儲(chǔ)存大量的產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)數(shù)據(jù)。企業(yè)利用HDFS系統(tǒng)極高的容錯(cuò)率,能實(shí)現(xiàn)數(shù)據(jù)的快速傳輸。Hbase是基于HDFS構(gòu)建的分布式列族數(shù)據(jù)庫(kù),可以對(duì)產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)數(shù)據(jù)進(jìn)行隨機(jī)性的實(shí)時(shí)讀取、寫(xiě)入訪問(wèn)。Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以通過(guò)類(lèi)SQL(結(jié)構(gòu)化查詢語(yǔ)言)語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),實(shí)現(xiàn)項(xiàng)目評(píng)價(jià)數(shù)據(jù)庫(kù)的統(tǒng)計(jì)分析。企業(yè)利用MapReduce分布式計(jì)算系統(tǒng),可以開(kāi)展大量的數(shù)據(jù)計(jì)算,完成初步的數(shù)據(jù)處理。這種批量處理的方式,可以向大量的產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)數(shù)據(jù)提供高效的計(jì)算處理服務(wù)。
二要加強(qiáng)對(duì)數(shù)據(jù)儲(chǔ)存設(shè)施的維護(hù)和管理。儲(chǔ)存設(shè)施需要具備極大的儲(chǔ)存容量、極高的運(yùn)行速率和穩(wěn)定的系統(tǒng)功能,從而有效保證數(shù)據(jù)儲(chǔ)存的安全性。同時(shí),企業(yè)要建立項(xiàng)目信息安全監(jiān)測(cè)系統(tǒng),對(duì)信息進(jìn)行實(shí)時(shí)監(jiān)測(cè),及時(shí)修復(fù)系統(tǒng)出現(xiàn)的問(wèn)題,確保存儲(chǔ)系統(tǒng)的安全穩(wěn)定運(yùn)行。
數(shù)據(jù)挖掘技術(shù)并不能直接進(jìn)行產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)和管理,卻可以為優(yōu)化產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)提供有效的數(shù)據(jù)支撐,可以對(duì)數(shù)據(jù)進(jìn)行深入的分析、推理,從大量數(shù)據(jù)中挖掘出正確的、有價(jià)值的項(xiàng)目評(píng)價(jià)信息,幫助企業(yè)提高產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)的科學(xué)性和可行性。
一要對(duì)數(shù)據(jù)庫(kù)中儲(chǔ)存的大量信息進(jìn)行數(shù)據(jù)建模,篩選并濾除數(shù)據(jù)中各種混雜與重復(fù)性的數(shù)據(jù),優(yōu)化數(shù)據(jù)模型。用聚類(lèi)分析技術(shù)對(duì)數(shù)據(jù)進(jìn)行分類(lèi),對(duì)一組對(duì)象進(jìn)行分組,使得同一組中的對(duì)象與組中的其他對(duì)象在某種意義上更相似。利用聚類(lèi)分析,可以識(shí)別相關(guān)數(shù)據(jù)的準(zhǔn)確性,并可評(píng)估可能出現(xiàn)的結(jié)果。評(píng)估結(jié)果可以為企業(yè)清晰展現(xiàn)產(chǎn)學(xué)研項(xiàng)目的績(jī)效評(píng)價(jià)等級(jí),全面客觀評(píng)價(jià)校企合作的方向、重點(diǎn)和不足,從而為其提供數(shù)據(jù)支持。
二要培育專(zhuān)業(yè)的數(shù)據(jù)分析人才。企業(yè)要加強(qiáng)對(duì)員工專(zhuān)業(yè)知識(shí)的培訓(xùn)力度,定期邀請(qǐng)數(shù)據(jù)分析專(zhuān)家為員工講課培訓(xùn),提升企業(yè)員工的專(zhuān)業(yè)素質(zhì),幫助員工及時(shí)更新知識(shí),把握時(shí)代脈搏,更全面、更深入地進(jìn)行數(shù)據(jù)分析,為員工進(jìn)一步提升數(shù)據(jù)分析水平夯實(shí)基礎(chǔ),從而深度解析數(shù)據(jù)背后蘊(yùn)含的價(jià)值,提升產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)的質(zhì)量,促進(jìn)科教融合企業(yè)的長(zhǎng)遠(yuǎn)有序發(fā)展。
產(chǎn)教融合型企業(yè)應(yīng)將大數(shù)據(jù)理念及技術(shù)應(yīng)用到產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)中,充分利用Flume技術(shù)、Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù),采集、儲(chǔ)存、處理和分析項(xiàng)目評(píng)價(jià)信息,進(jìn)而提高項(xiàng)目評(píng)價(jià)的準(zhǔn)確性和科學(xué)性,引導(dǎo)帶動(dòng)企業(yè)積極參與產(chǎn)學(xué)研項(xiàng)目,促進(jìn)產(chǎn)教融合型企業(yè)和高校的可持續(xù)發(fā)展,為產(chǎn)教融合型企業(yè)優(yōu)化產(chǎn)學(xué)研項(xiàng)目評(píng)價(jià)提供初步參考。