陳 卓
(黑龍江大學(xué) 信息管理學(xué)院,黑龍江 哈爾濱 150080)
《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》(以下簡稱《規(guī)劃》)指出,發(fā)展數(shù)字經(jīng)濟是把握新一輪科技革命的戰(zhàn)略選擇,而發(fā)展數(shù)字經(jīng)濟的關(guān)鍵環(huán)節(jié)是大力培養(yǎng)數(shù)字人才[1]。高校作為數(shù)字化人才培養(yǎng)的重要基地,如何培養(yǎng)符合我國數(shù)字經(jīng)濟發(fā)展的數(shù)字人才,是當(dāng)下急需解決的問題。通過抽取高校數(shù)字人才研究成果的核心主題進行分析,對指導(dǎo)我國高校培養(yǎng)數(shù)字化人才工作具有重要的現(xiàn)實意義。因此,本文通過LDA主題模型挖掘高校數(shù)字人才培養(yǎng)研究文獻的核心主題,并基于LDA聚類結(jié)果進行共現(xiàn)分析,能夠得出高校數(shù)字人才培養(yǎng)的現(xiàn)狀和面臨的挑戰(zhàn),從而幫助學(xué)者把握高校數(shù)字人才培養(yǎng)研究的重點。
對高校數(shù)字人才培養(yǎng)文獻分析發(fā)現(xiàn),國內(nèi)學(xué)者主要圍繞以下4個方面開展研究:(1)新學(xué)科建設(shè)。李慧等[2]從一流學(xué)科人才需求的角度出發(fā),建立人才服務(wù)場景框架,對高校圖書館人才多元場景服務(wù)進行模擬構(gòu)建,實現(xiàn)了服務(wù)功能重組以匹配學(xué)科人才需求。謝曉專等[3]采用詞頻分析、扎根理論編碼等方法,對美國31所高校安全情報專業(yè)的碩士培養(yǎng)情況進行了分析,并提出了以“決策支持與威脅應(yīng)對”為導(dǎo)向的模型——“KSAs-D-T”模型,為我國培養(yǎng)情報學(xué)人才提供了一些經(jīng)驗借鑒。(2)人才培養(yǎng)模式。針對高校圖書館協(xié)同教學(xué)服務(wù),劉靜等[4]從協(xié)同教學(xué)內(nèi)容、教學(xué)方法、考核方式和教學(xué)組織模式4個方面進行了研究,構(gòu)建了高校圖書館協(xié)同教學(xué)服務(wù)評價指標體系。該體系可以為提高教學(xué)質(zhì)量提供決策支持,繼而推動高校創(chuàng)新人才的培養(yǎng)。(3)高校數(shù)字化轉(zhuǎn)型。何秀全等[5]首先分析了高校數(shù)字化轉(zhuǎn)型的基礎(chǔ)條件和不足之處,然后針對這些問題呼吁改變數(shù)字化轉(zhuǎn)型觀念,接受新的數(shù)字化轉(zhuǎn)型理念、參與高校整體數(shù)據(jù)治理,提高圖書館數(shù)據(jù)的價值,從而助推新時代圖書館數(shù)字化轉(zhuǎn)型。姚曉霞等[6]從數(shù)字化發(fā)展歷程入手,指出數(shù)字化轉(zhuǎn)型的開展必須準確識別與高校圖書館相關(guān)的一系列環(huán)境變化,以明確數(shù)字化轉(zhuǎn)型的方向。最后提出了助推高校圖書館開展數(shù)字化轉(zhuǎn)型的五大支柱,以此持續(xù)推進數(shù)字化轉(zhuǎn)型。時瑩等[7]首先借助半結(jié)構(gòu)化訪談和網(wǎng)絡(luò)等多種渠道收集資料,接著采用扎根理論方法對這些資料進行分析,最后歸納得出影響高校圖書館數(shù)字化服務(wù)能力的主要因素是內(nèi)外部支持、讀者和數(shù)字化館員的認知程度、讀者和數(shù)字化館員的行為。(4)數(shù)字人才培養(yǎng)體系。徐孝娟等[8]采用文獻計量學(xué)方法,從英國和美國各選取3所大學(xué),深入分析這些高校在課程方案、課程結(jié)構(gòu)、課程層次以及培養(yǎng)目標4個方面的內(nèi)容。研究結(jié)果表明,英美的數(shù)字人文課程包括的學(xué)科門類繁多,選修課設(shè)置比例較高,跨學(xué)科特色明顯。
綜上所述,當(dāng)前研究成果雖然已較為全面,但尚缺少從主題識別的視角分析我國高校數(shù)字人才培養(yǎng)現(xiàn)狀的研究成果。同時,國內(nèi)外學(xué)者圍繞高校數(shù)字人才培養(yǎng)形成的一系列研究成果也為開展主題識別提供了數(shù)據(jù)支持。Blei等[9]提出的LDA主題概率模型是一種無監(jiān)督機器學(xué)習(xí)方法,可以從非結(jié)構(gòu)化文本中檢測隱藏的潛在主題。因此,文本嘗試利用LDA主題聚類、Word2Vec及主題詞共現(xiàn)強度等文本計算方法對我國301篇高校數(shù)字人才培養(yǎng)科研文獻進行主題分析,以深入挖掘我國高校數(shù)字人才培養(yǎng)的現(xiàn)狀及發(fā)展趨勢。
本文提出通過主題建模識別數(shù)字經(jīng)濟人才培養(yǎng)的方法。首先,LDA主題模型可以從語義層面識別主題;其次,Word2Vec作為自然語言處理中常用的概率模型,能夠把非結(jié)構(gòu)化的文本信息向量化,可以計算主題與文本相似度篩選有效主題,解決使用困惑度確定最優(yōu)主題數(shù)目可能生成無效主題的問題;最后,利用對LDA主題聚類結(jié)果進行共現(xiàn)分析,能夠識別出共現(xiàn)強度較大的主題詞。
LDA主題模型主要有文檔與主題、主題與主題詞的關(guān)系形成的結(jié)構(gòu)組成,其中主題詞服從狄利克雷分布,概率值越大,表示主題與主題詞的關(guān)系越強,越能表示主題。LDA模型的聯(lián)合概率如公式(1)所示。
(1)
公式(1)中:θ為主題向量;p(θ)為主題在文本中出現(xiàn)的概率;N為要生成文本的詞語數(shù);zn為選擇的主題;P(z|θ)為給定θ時主題z的概率分布;P(w|z)為給定主題z時w的概率分布;α為每一篇文檔的主題先驗dirichlet分布參數(shù);β為每一個詞的主題先驗dirichlet分布參數(shù)。
相似度數(shù)值反映了兩者之間的協(xié)同性。協(xié)同性是指文獻和《規(guī)劃》在高校數(shù)字人才培養(yǎng)方面具有一定的共性,能夠從學(xué)術(shù)研究和政府規(guī)劃兩個層面反映出我國高校數(shù)字人才建設(shè)現(xiàn)狀。基于此,本文選擇文獻和《規(guī)劃》具有協(xié)同性的主題進行分析。首先,基于Word2Vec的Skip-gram模型進行詞向量訓(xùn)練,使用余弦相似度計算每個主題與《規(guī)劃》的相似度,生成相似度矩陣;然后,設(shè)定閾值,從而過濾相似度低于閾值的主題,如公式(2)所示。
Sim(T)=cos(tj,di)
(2)
公式(2)中:Sim(T)為主題與文本間的相似度;ti為第j個主題;di為第i個文本。
通過LDA提取出的主題詞能夠概括對應(yīng)的主題,但由于LDA聚類出的主題對應(yīng)的詞蔟具有泛化性的特點,若人工從詞簇中提煉主題存在主觀性。因此,本文提出使用共現(xiàn)分析的方法識別關(guān)聯(lián)度和影響較大的主題詞,進而發(fā)現(xiàn)最能準確描述和概括數(shù)字人文的研究主題,其中主題詞共現(xiàn)強度如公式(3)所示。
(3)
公式(3)中:Eij為主題詞共現(xiàn)強度;Si與Sj為主題詞在主題語句中出現(xiàn)的頻次;Sij為兩個主題詞共現(xiàn)在主題語句中的數(shù)量。
本研究從主題識別的視角,選擇數(shù)字經(jīng)濟人才培養(yǎng)研究文獻作為樣本,通過抽取主題來構(gòu)建其框架體系。分析流程為:首先,從CNKI數(shù)據(jù)庫中獲取文獻數(shù)據(jù),構(gòu)造特征詞表和無效詞表等數(shù)據(jù)預(yù)處理工作;其次,使用困惑度評價法確定文獻的最優(yōu)主題數(shù)目,使用LDA聚類出主題-詞分布,進行主題識別;再次,使用Word2Vec進行主題模型訓(xùn)練,并計算主題與文本的相似度矩陣,設(shè)置閾值,過濾無效主題;最后,基于有效主題詞進行共現(xiàn)分析,進而識別核心主題進行綜合分析。
首先,本文以主題“數(shù)字經(jīng)濟”與“高?!弊鳛闄z索條件對CNKI數(shù)據(jù)庫進行檢索,截至2022年8月共檢索到文獻301篇,以人才培養(yǎng)為主題對檢索結(jié)果進行人工篩選,剔除期刊選題等無效文獻,共得到132篇文獻,從數(shù)據(jù)庫中導(dǎo)出文獻的篇名、摘要和關(guān)鍵詞。其次,對數(shù)據(jù)進行清洗,提取文獻關(guān)鍵詞作為特征詞表。最后,為進一步提高主題識別的準確度,防止無效詞的干擾,構(gòu)建面向數(shù)字經(jīng)濟高校人才培養(yǎng)的無效詞表。
困惑度表示對文檔所屬主題的不確定性,困惑度越低,說明聚類的效果越好,主題數(shù)目最優(yōu)[10]。基于分詞結(jié)果,計算主題的困惑度值,生成困惑度曲線,為防止過擬合,選取困惑度下降不明顯或處于拐點的值,確定最優(yōu)主題數(shù)目為26。
首先,使用LDA主題模型進行主題聚類,生成主題-詞的分布;其次,使用文獻的篇名、摘要及關(guān)鍵詞訓(xùn)練詞向量模型,基于公式(2)計算主題與《規(guī)劃》的相似度數(shù)值,閾值設(shè)定為0.3[11],并進行人工判讀,過濾無效主題,最終確定有效主題數(shù)目為23,LDA主題識別結(jié)果如表1所示。
表1 主題識別結(jié)果
首先,在主題-詞過濾的基礎(chǔ)上,基于公式(3)使用python生成主題詞共現(xiàn)矩陣;其次,對共現(xiàn)矩陣進行過濾清洗,主要是對干擾詞的過濾及同義詞的合并,最終得到共現(xiàn)矩陣;最后,使用Ucinet軟件將共現(xiàn)矩陣轉(zhuǎn)成Pajek格式,導(dǎo)入VOSviewer分析軟件繪制出數(shù)字人文主題詞共現(xiàn)圖譜。其中,“數(shù)字經(jīng)濟、數(shù)字經(jīng)濟時代、人才培養(yǎng)模式”圓圈較大,表示這些主題詞被共現(xiàn)多次。
根據(jù)抽取結(jié)果進一步提煉,可以劃分為:數(shù)智時代的數(shù)字人才定位、數(shù)字經(jīng)濟的數(shù)字技術(shù)發(fā)展、高校數(shù)字人才存在的問題、高校數(shù)字人才培養(yǎng)模式4個方面,具體分析如下。
技術(shù)創(chuàng)新是經(jīng)濟數(shù)字化轉(zhuǎn)型最核心的競爭力,培養(yǎng)新階段所需要的人才可以在全球數(shù)字經(jīng)濟發(fā)展中建立競爭優(yōu)勢。數(shù)智時代的數(shù)字人才所涉及的內(nèi)容包括“數(shù)字素養(yǎng)”“應(yīng)用型人才”“高素質(zhì)”等,反映出數(shù)字經(jīng)濟人才的需求和定位。根據(jù)《規(guī)劃》可知,數(shù)字人才的培養(yǎng)是具備數(shù)字化技術(shù)、創(chuàng)新思維和數(shù)據(jù)治理能力的高質(zhì)量人才。
數(shù)字經(jīng)濟的數(shù)字技術(shù)所涉及的內(nèi)容主要包括大數(shù)據(jù)和人工智能等。大數(shù)據(jù)是數(shù)字經(jīng)濟發(fā)展中必不可少的生產(chǎn)要素,能夠驅(qū)動信息技術(shù)持續(xù)發(fā)展。而實現(xiàn)人工智能典型的方法是專家系統(tǒng)和機器學(xué)習(xí)。目前,運算、感知和認知三大智能得到了業(yè)界廣泛的認可。除此之外,數(shù)字技術(shù)還包括:區(qū)塊鏈、云計算、數(shù)字孿生技術(shù)等隨著互聯(lián)網(wǎng)與經(jīng)濟社會的深度融合,數(shù)字經(jīng)濟已成為新的驅(qū)動力,高校應(yīng)著力培養(yǎng)數(shù)字人才,以滿足數(shù)字經(jīng)濟的人才需求。
高校數(shù)字經(jīng)濟發(fā)展受多種因素影響,如專業(yè)化不夠突出,人才創(chuàng)新能力培養(yǎng)方案與數(shù)字經(jīng)濟發(fā)展產(chǎn)業(yè)鏈銜接不夠緊密。總體上看,存在著政策性短板、服務(wù)手段短板等一系列問題,距離產(chǎn)教協(xié)同育人的人才培養(yǎng)目標還有很長的路要走。主要包括3個方面:
(1)數(shù)字經(jīng)濟發(fā)展產(chǎn)教融合格局尚未形成。高校數(shù)字經(jīng)濟人才培養(yǎng)方案和地方數(shù)字經(jīng)濟發(fā)展規(guī)劃關(guān)聯(lián)度較低,支持高校數(shù)字經(jīng)濟發(fā)展的政策措施不明確,造成辦學(xué)定位遇到困難。高校數(shù)字經(jīng)濟學(xué)科的發(fā)展定位受制于外部資金等限制,經(jīng)費、人員等保障措施不足。因而高校還需要進一步加強經(jīng)費投入、人才培養(yǎng)、學(xué)科發(fā)展等保障體制建設(shè),為培養(yǎng)復(fù)合型數(shù)字經(jīng)濟人才創(chuàng)造良好條件。
(2)地域因素阻礙了高校服務(wù)數(shù)字經(jīng)濟的發(fā)展。數(shù)字經(jīng)濟目標的實現(xiàn)離不開優(yōu)質(zhì)的師生資源,然而我國偏遠地區(qū)的一些高校與一線城市的高校相比仍存在較大差距。同時,這些偏遠高校還面臨著知名教授被沿海高校挖掘的風(fēng)險,因而在數(shù)字經(jīng)濟人才培養(yǎng)上存在著較大的挑戰(zhàn)。
(3)數(shù)字經(jīng)濟科研輻射較弱。當(dāng)前,高校與縣域協(xié)同合作的機制尚未健全,與相關(guān)企業(yè)緊密協(xié)同的創(chuàng)新生態(tài)系統(tǒng)尚未形成,數(shù)字經(jīng)濟平臺的集聚效應(yīng)不甚明顯,數(shù)字經(jīng)濟服務(wù)聯(lián)盟尚未構(gòu)建,數(shù)字經(jīng)濟科研平臺建設(shè)還有待提升,其帶動產(chǎn)業(yè)集成創(chuàng)新的水平仍有待提高。
高校數(shù)字人才模式所涉及的內(nèi)容包括“人才培養(yǎng)”“創(chuàng)新型人才”“數(shù)字化轉(zhuǎn)型”等,反映出高校積極響應(yīng)國家數(shù)字經(jīng)濟發(fā)展政策,不斷探索創(chuàng)新人才培養(yǎng)模式。其中的主要舉措有:
(1)加快人才引進,形成復(fù)合型數(shù)字人才培養(yǎng)體系。完善數(shù)字經(jīng)濟人才引進政策,構(gòu)建數(shù)字經(jīng)濟人才的激勵機制,引進急需緊缺的科技人才,以及在數(shù)字化技術(shù)領(lǐng)域擁有豐富背景的復(fù)合型人才,支持高校開展數(shù)字經(jīng)濟相關(guān)學(xué)科的研究,培養(yǎng)數(shù)字經(jīng)濟復(fù)合型人才。
(2)發(fā)揮政府的行政推動作用。相關(guān)部門要發(fā)揮出整體合力,激發(fā)數(shù)字經(jīng)濟從業(yè)者的積極性,突出政府的主導(dǎo)地位,搭建起以數(shù)字經(jīng)濟要素為主體,高校和數(shù)字經(jīng)濟發(fā)展相互銜接的服務(wù)體系,助推數(shù)字經(jīng)濟時代化。因此,相關(guān)部門要制定出與之配套的優(yōu)惠政策,并給予一定的資金扶持,強化與高校的合作,從而促進數(shù)字經(jīng)濟核心產(chǎn)業(yè)的發(fā)展。
(3)實施轉(zhuǎn)型升級。高校應(yīng)向應(yīng)用型轉(zhuǎn)型:①升級制度保障體系。高校應(yīng)設(shè)立專項數(shù)字經(jīng)濟學(xué)科發(fā)展資金、完善制度以更好地服務(wù)區(qū)域數(shù)字經(jīng)濟產(chǎn)業(yè)。②調(diào)整學(xué)科專業(yè)建設(shè)布局。建設(shè)有利于服務(wù)數(shù)字經(jīng)濟發(fā)展的學(xué)科專業(yè)集群,深化數(shù)字經(jīng)濟學(xué)科建設(shè)綜合改革,形成橫向分類、縱向分層的學(xué)科建設(shè)體系。此外,高校還應(yīng)根據(jù)區(qū)域需求,主動調(diào)整學(xué)科專業(yè)結(jié)構(gòu),培養(yǎng)學(xué)生成為就業(yè)能力更強的數(shù)字經(jīng)濟專業(yè)人才。③優(yōu)化數(shù)字經(jīng)濟人才結(jié)構(gòu)。優(yōu)先保障緊缺專業(yè)人才,拓展師資與國際間的交流合作,聘任專家來校從事數(shù)字經(jīng)濟相關(guān)工作。同時,加強數(shù)字經(jīng)濟學(xué)科教師的培訓(xùn)工作,為教師提供出國訪學(xué)機會,拓寬教師的視野。
本文以CNKI數(shù)據(jù)庫為數(shù)據(jù)源,綜合運用LDA主題模型、Word2Vec和共現(xiàn)分析方法,對高校人才培養(yǎng)研究的文獻進行了核心主題提取。針對數(shù)字經(jīng)濟時代的“數(shù)字人才”定位、數(shù)字技術(shù)的發(fā)展態(tài)勢、高校數(shù)字人才現(xiàn)存的問題、數(shù)字人才培養(yǎng)模式的探索4個方面,分析了我國高校數(shù)字人才培養(yǎng)的現(xiàn)狀和面臨的挑戰(zhàn),提出了未來的發(fā)展方向,旨在通過結(jié)合區(qū)域數(shù)字經(jīng)濟發(fā)展戰(zhàn)略,推動高校參與數(shù)字經(jīng)濟創(chuàng)新性研究,提升高校服務(wù)地方的能力,從而推進數(shù)字經(jīng)濟時代發(fā)展的數(shù)字科技創(chuàng)新。