摘要:文章旨在構(gòu)建一個基于大數(shù)據(jù)的產(chǎn)學(xué)研需求智能匹配平臺,以解決傳統(tǒng)產(chǎn)學(xué)研合作中需求匹配效率低下、準確性不足的問題。該平臺基于企業(yè)技術(shù)需求、科技期刊、科技成果等海量元數(shù)據(jù),通過數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和標準化等對源數(shù)據(jù)的處理,形成數(shù)據(jù)倉庫,進一步通過聯(lián)機分析、機器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能組件等分析和挖掘,智能化導(dǎo)出符合其技術(shù)需求的專家、成果、高??蒲性核?。平臺通過數(shù)據(jù)應(yīng)用層、API接口層、數(shù)據(jù)展示層等層次遞進,以PC端、移動端等多種形式進行技術(shù)需求匹配展示。
關(guān)鍵詞:數(shù)據(jù)清洗;數(shù)據(jù)倉庫;聯(lián)機分析服務(wù);機器學(xué)習(xí);數(shù)據(jù)挖掘;人工智能組件
中圖分類號:TP391
文獻標志碼:A
0 引言
在科技日新月異的今天,產(chǎn)學(xué)研合作已經(jīng)成為國家創(chuàng)新體系中的重要一環(huán),其深度融合對于推動科技進步、促進經(jīng)濟發(fā)展具有不可替代的作用。產(chǎn)學(xué)研合作正是作為產(chǎn)業(yè)代表的各類企業(yè)與高等院校、科研機構(gòu)等不同社會主體互相聯(lián)合并發(fā)揮各自優(yōu)勢,實現(xiàn)共同愿景,獲得共同利益并在過程中發(fā)揮最大綜合優(yōu)勢而形成的合作,是促進科技創(chuàng)新所需各種生產(chǎn)要素的有效組合,是培養(yǎng)人才的途徑[1]。然而,在實際操作過程中,產(chǎn)學(xué)研各方之間的需求匹配問題一直是制約合作效率與效果的關(guān)鍵因素。傳統(tǒng)的產(chǎn)學(xué)研合作模式往往依賴于人工搜索、咨詢或中介服務(wù)來尋找合作伙伴,這種方式不僅效率低下,而且很難保證匹配的準確性和全面性[2]。
隨著大數(shù)據(jù)技術(shù)的興起和不斷發(fā)展,迎來了解決這一問題的新契機。人工智能、大數(shù)據(jù)技術(shù)以其強大的數(shù)據(jù)處理和分析能力,為產(chǎn)學(xué)研需求的精準匹配提供了可能。通過收集并分析海量的產(chǎn)學(xué)研相關(guān)數(shù)據(jù),可以更深入地了解各方的真實需求和潛在合作點,從而實現(xiàn)更高效的資源對接和配置。
在此背景下,本文研究旨在構(gòu)建一個基于大數(shù)據(jù)的產(chǎn)學(xué)研需求智能匹配平臺。該平臺將充分利用大數(shù)據(jù)技術(shù)的優(yōu)勢,通過數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能組件、聯(lián)機分析服務(wù)等多種智能算法對產(chǎn)學(xué)研各方的需求進行深度挖掘和精準匹配,以期提高產(chǎn)學(xué)研合作的效率和成功率,進一步推動科技創(chuàng)新和經(jīng)濟發(fā)展。
產(chǎn)學(xué)研需求智能匹配平臺主要通過7層架構(gòu)來實現(xiàn),從下至上分別為運行環(huán)境層、數(shù)據(jù)源層、數(shù)據(jù)倉庫層、分析挖掘?qū)?、?shù)據(jù)應(yīng)用層、API接口層、數(shù)據(jù)展示層。以下按此7層架構(gòu)分別詳述和實現(xiàn)。
1 產(chǎn)學(xué)研需求智能匹配平臺運行環(huán)境層混合云架構(gòu)設(shè)計
平臺的混合云架構(gòu)融合了獨立服務(wù)器、私有云服務(wù)器以及公有云資源,構(gòu)建了一個既安全可控又高效靈活的混合云運行環(huán)境。環(huán)境層分為基礎(chǔ)設(shè)施層、平臺支撐層、邊界層、互聯(lián)網(wǎng)層、用戶層5層架構(gòu)。
基礎(chǔ)設(shè)施層作為信息技術(shù)架構(gòu)基石,支撐著上層應(yīng)用與服務(wù)的運行。它不僅提供基礎(chǔ)計算能力、高效存儲解決方案以及穩(wěn)定可靠的網(wǎng)絡(luò)服務(wù),還涵蓋了一系列關(guān)鍵的基礎(chǔ)資源。在計算服務(wù)方面,基礎(chǔ)設(shè)施層包含了高性能的服務(wù)器集群,它們采用先進的處理器技術(shù)、大容量內(nèi)存以及高速存儲接口,確保數(shù)據(jù)處理的高效與快速響應(yīng)。存儲服務(wù)方面,基礎(chǔ)設(shè)施層提供了多樣化的存儲解決方案,包括傳統(tǒng)的硬盤陣列(HDD)、高性能的固態(tài)硬盤(SSD)、網(wǎng)絡(luò)附加存儲(NAS)以及存儲區(qū)域網(wǎng)絡(luò)(SAN)等。網(wǎng)絡(luò)服務(wù)作為連接一切的基礎(chǔ),基礎(chǔ)設(shè)施層配備了高性能的路由器、交換機以及防火墻等網(wǎng)絡(luò)設(shè)備。
平臺支撐層作為信息技術(shù)架構(gòu)中的核心環(huán)節(jié),集成了計算虛擬化與存儲虛擬化2大關(guān)鍵技術(shù),并在此基礎(chǔ)上構(gòu)建私有云環(huán)境,為用戶打造一個既安全又高效的計算平臺。計算虛擬化技術(shù)通過將物理計算資源(如CPU、內(nèi)存)抽象化,形成多個獨立的虛擬計算環(huán)境,每個環(huán)境都擁有完整的操作系統(tǒng)和應(yīng)用程序運行環(huán)境。這種技術(shù)不僅提高了計算資源的利用率,還實現(xiàn)了計算資源的靈活調(diào)配和快速部署。用戶可以根據(jù)實際需求,在私有云內(nèi)快速創(chuàng)建或銷毀虛擬機,以應(yīng)對業(yè)務(wù)高峰或低谷期的資源需求變化。存儲虛擬化技術(shù)則是對存儲資源進行整合與優(yōu)化,將多個物理存儲設(shè)備封裝成一個統(tǒng)一的虛擬存儲池。通過該技術(shù),可以實現(xiàn)對存儲資源的集中管理和高效利用,同時提供數(shù)據(jù)備份、恢復(fù)、遷移等高級功能。私有云中的存儲虛擬化還確保了數(shù)據(jù)的安全性和一致性,通過數(shù)據(jù)冗余和容錯機制,有效防止數(shù)據(jù)丟失和損壞。
為了進一步提升業(yè)務(wù)處理能力和擴大服務(wù)覆蓋范圍,本文還積極利用了華為云和阿里云等公有云平臺的優(yōu)勢資源。這些公有云平臺提供了豐富的計算實例、數(shù)據(jù)庫服務(wù)、存儲解決方案以及人工智能等高級服務(wù),使其能夠輕松應(yīng)對高并發(fā)訪問、大數(shù)據(jù)分析等挑戰(zhàn)。通過API接口或云管理平臺,可以實現(xiàn)跨云資源的統(tǒng)一管理和調(diào)度,確保業(yè)務(wù)在不同平臺間的無縫遷移和擴展。
平臺的程序運行環(huán)境是一個集私有云與公有云于一體的混合云架構(gòu)[3]。這種架構(gòu)不僅充分利用了各種技術(shù)和服務(wù)模式的優(yōu)勢,還通過靈活的資源配置和高效的管理手段實現(xiàn)了混合云的互聯(lián)互通,為業(yè)務(wù)創(chuàng)新提供了強有力的支撐?;旌显萍軜?gòu)設(shè)計如圖1所示。
2 平臺架構(gòu)設(shè)計
2.1 源數(shù)據(jù)技術(shù)需求、科技期刊、碩博士論文等轉(zhuǎn)換到數(shù)據(jù)倉庫
(1)數(shù)據(jù)源ODS。數(shù)據(jù)源為鎮(zhèn)江科技資源云平臺自有的科技期刊、科技項目、科技成果、碩博士論文、專利文獻、技術(shù)需求等數(shù)據(jù),也可為更為廣泛的互聯(lián)網(wǎng)數(shù)據(jù),它們的格式可以是圖形圖像、視頻文件、表格文件、文本文件等,存儲的數(shù)據(jù)庫也可分為SQL數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、MRDB等。
(2)數(shù)據(jù)倉庫DW。數(shù)據(jù)倉庫由數(shù)據(jù)庫發(fā)展而來,但二者在很多方面存在很大的差異性,數(shù)據(jù)倉庫是一種綜合性的解決方案[4]。數(shù)據(jù)倉庫是面向分析主題的、歷史數(shù)據(jù)、多維的數(shù)據(jù)集合[5-6],在數(shù)據(jù)集成與整合、數(shù)據(jù)分析與決策支持、數(shù)據(jù)長期存儲與可靠性以及數(shù)據(jù)安全與隱私保護等方面發(fā)揮著重要作用。通過結(jié)合不同的技術(shù)棧(如ClickHouse、HybridDB for MySQL、PostgreSQL Greenplum、Hadoop+Hive等),可以構(gòu)建適合自己需求的數(shù)據(jù)倉庫解決方案。
將鎮(zhèn)江科技資源云平臺的科技期刊、碩博士論文、會議論文、科技成果、專利文獻等源數(shù)據(jù)轉(zhuǎn)換到數(shù)據(jù)倉庫中,需要經(jīng)歷一系列數(shù)據(jù)處理步驟,包括數(shù)據(jù)抽?。‥TL)、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換與標準化以及數(shù)據(jù)存儲與管理等。
2.1.1 數(shù)據(jù)抽取(ETL)、清洗、關(guān)鍵詞提取
數(shù)據(jù)抽取ETL指的是數(shù)據(jù)凈化和數(shù)據(jù)遷移,在數(shù)據(jù)管理策略中占有非常重要的地位[7]。首先將產(chǎn)學(xué)研技術(shù)需求文檔(如文本描述)進行預(yù)處理;其次,將文本分割成單詞或詞組(對于中文,需要進行中文分詞);再次,移除文本中的常見無意義詞匯(如“的”“是”等);最后,將詞匯還原到其基本形式,以統(tǒng)一不同時態(tài)、語態(tài)下的詞匯。
數(shù)據(jù)清洗是指在不完備數(shù)據(jù)集上構(gòu)建有效的機器學(xué)習(xí)模型,其中重要的步驟包括對缺失的屬性值進行填補以及去除錯誤或不相關(guān)的數(shù)據(jù)等[8-9]。對于科技期刊、科研項目、科技成果、科技論文、專利文獻等數(shù)據(jù)源,須要去除重復(fù)的記錄,確保數(shù)據(jù)的唯一性。檢查數(shù)據(jù)中的缺失值,并根據(jù)具體情況進行填充或刪除。
關(guān)鍵詞提取是對產(chǎn)學(xué)研技術(shù)需求、科技期刊、科研項目、科技成果、科技論文和專利文獻進行標準化處理,將不同來源的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式,提取關(guān)鍵信息,主要采用關(guān)鍵詞提取技術(shù)。具體可以采用TF-IDF(詞頻-逆文檔頻率)方法,TF-IDF是一種用于信息檢索與文本挖掘的常用加權(quán)技術(shù)[10-11]。
2.1.2 數(shù)據(jù)的存儲與管理
在以上數(shù)據(jù)清洗、關(guān)鍵詞提取等基礎(chǔ)上,選擇合適的數(shù)據(jù)倉庫。根據(jù)業(yè)務(wù)需求和數(shù)據(jù)特點選擇合適的數(shù)據(jù)倉庫類型,如ClickHouse、HybridDB for MySQL、PostgreSQL Greenplum、Hadoop+Hive等。將清洗后的數(shù)據(jù)加載到數(shù)據(jù)倉庫,對數(shù)據(jù)倉庫中的數(shù)據(jù)進行索引處理,制定數(shù)據(jù)恢復(fù)計劃以應(yīng)對可能的數(shù)據(jù)丟失或損壞情況,定期備份數(shù)據(jù)倉庫中的數(shù)據(jù)等。
2.2 從數(shù)據(jù)倉庫層到分析挖掘?qū)雨P(guān)鍵詞匹配、數(shù)據(jù)應(yīng)用層、API接口層、數(shù)據(jù)展示層的架構(gòu)設(shè)計
分析挖掘?qū)又饕陕?lián)機分析服務(wù)(OLAP)、機器學(xué)習(xí)算法(ML)、數(shù)據(jù)挖掘(DM)、人工智能組件(AI)、可視化組件(VC)、任務(wù)管理和調(diào)度6大模塊構(gòu)成。分析挖掘?qū)油ㄟ^整合OLAP、ML、DM、AI、VC以及任務(wù)管理和調(diào)度等模塊,實現(xiàn)對數(shù)據(jù)的全面、深入、智能的分析和挖掘,為業(yè)務(wù)決策提供數(shù)據(jù)支持。
數(shù)據(jù)應(yīng)用層主要由“多系統(tǒng)、異構(gòu)數(shù)據(jù)融合展示”“問題發(fā)掘、原因分析和解決方案”“事實預(yù)估、模型預(yù)測”“創(chuàng)新改進、仿真演示”4大模塊構(gòu)成。數(shù)據(jù)應(yīng)用層的主要作用在于通過多系統(tǒng)、異構(gòu)數(shù)據(jù)的融合展示,實現(xiàn)問題的精準發(fā)掘與原因分析,為解決方案的制定提供事實依據(jù)和預(yù)估效果,同時利用模型預(yù)測和創(chuàng)新改進推動業(yè)務(wù)持續(xù)優(yōu)化和升級,最終通過仿真演示為決策提供全面支持。
API接口層由RESTful API、SOAP API、GraphQL API、WebSocket API、云API、移動設(shè)備API、Visual Studio API、Eclipse API構(gòu)成。API接口層的主要作用是實現(xiàn)數(shù)據(jù)交互與共享、擴展與定制應(yīng)用功能、提高效率和自動化、實現(xiàn)系統(tǒng)集成與協(xié)作、保障安全性與可靠性以及支持多種應(yīng)用場景等。
數(shù)據(jù)展示層由PC端展示、移動端展示、Web端展示、嵌入式系統(tǒng)界面、物聯(lián)網(wǎng)設(shè)備界面、VR/AR界面、可穿戴設(shè)備界面等構(gòu)成。數(shù)據(jù)展示層作為整個信息系統(tǒng)或應(yīng)用程序的用戶界面部分,扮演著將數(shù)據(jù)和信息以直觀、易理解的方式呈現(xiàn)給用戶的關(guān)鍵角色,主要作用是實現(xiàn)信息的可視化展示、優(yōu)化用戶體驗、提供數(shù)據(jù)交互與操作功能、支持決策制定、確??缙脚_兼容性、實現(xiàn)個性化定制以及實現(xiàn)實時更新與通知等。
經(jīng)過清洗轉(zhuǎn)換后的數(shù)據(jù)存儲到數(shù)據(jù)倉庫,其中包括產(chǎn)學(xué)研技術(shù)需求、科技期刊、科研項目、科技成果、科技論文、專利文獻等,這些數(shù)據(jù)可以進行統(tǒng)一分析和處理。根據(jù)基本字段的分析,找出技術(shù)需求與科技期刊、科研項目、科技成果、科技論文、專利等其中的對應(yīng)關(guān)系。首先設(shè)置運行框架和開發(fā)框架,在開發(fā)框架確定后進行任務(wù)管理和調(diào)度,將數(shù)據(jù)倉庫中的技術(shù)需求關(guān)鍵詞,導(dǎo)入數(shù)據(jù)挖掘、聯(lián)機分析、機器學(xué)習(xí)、人工智能組件等進行綜合、分析、數(shù)據(jù)挖掘等,主要是進行關(guān)鍵詞的匹配。在關(guān)鍵詞提取的基礎(chǔ)上進行關(guān)鍵詞集構(gòu)建,對于每個技術(shù)需求,提取并構(gòu)建一個關(guān)鍵詞集合?;陉P(guān)鍵詞集合,設(shè)計算法將技術(shù)需求的關(guān)鍵詞集合與科研項目、科技期刊、科技成果、論文、專利中的關(guān)鍵詞集合進行匹配。匹配算法可以基于相似度計算(如余弦相似度)、標準映射的領(lǐng)域匹配和類別匹配等匹配規(guī)則。最后用可視化分析組件圖形化輸出與技術(shù)需求相匹配的專家、高??蒲性核?、成果等。產(chǎn)學(xué)研需求智能匹配平臺總體架構(gòu)如圖2所示。
3 結(jié)語
本文成功構(gòu)建了一個基于大數(shù)據(jù)技術(shù)的產(chǎn)學(xué)研需求智能匹配平臺,該平臺通過7層架構(gòu)的精心設(shè)計,實現(xiàn)了從數(shù)據(jù)源層到數(shù)據(jù)展示層的全流程管理與優(yōu)化。通過混合云架構(gòu)的創(chuàng)新應(yīng)用,確保了平臺的安全性、可控性以及高效性。數(shù)據(jù)預(yù)處理、ETL過程、數(shù)據(jù)清洗、轉(zhuǎn)換和標準化等步驟為后續(xù)的數(shù)據(jù)分析和挖掘打下了堅實的基礎(chǔ)。分析挖掘?qū)拥纳疃葢?yīng)用結(jié)合了OLAP、ML、DM、AI等先進技術(shù),有效地提升了數(shù)據(jù)的分析深度和廣度。數(shù)據(jù)應(yīng)用層的多系統(tǒng)融合和API接口層的靈活設(shè)計,進一步促進了數(shù)據(jù)的共享與應(yīng)用。數(shù)據(jù)展示層的多樣化界面設(shè)計,為用戶提供了直觀、易用的信息展示方式。
隨著技術(shù)的不斷進步和創(chuàng)新,產(chǎn)學(xué)研需求智能匹配平臺有望實現(xiàn)更加精準和高效的匹配能力。未來,平臺將繼續(xù)優(yōu)化算法,提高數(shù)據(jù)處理速度和準確性,同時探索更多的數(shù)據(jù)源和合作模式,以滿足不斷變化的市場需求。在數(shù)據(jù)安全和隱私保護方面,平臺將持續(xù)加強技術(shù)防護措施,確保用戶數(shù)據(jù)的安全性。
參考文獻
[1]李婷,余果.產(chǎn)學(xué)研合作人才培養(yǎng)機制的系統(tǒng)動力學(xué)研究[J].人力資源,2019(4):178-179.
[2]盧意.“互聯(lián)網(wǎng)+”環(huán)境下新型產(chǎn)學(xué)研合作優(yōu)越性的論述[J].裝備制造技術(shù),2020(5):238-241.
[3]董曉莉,李杉.數(shù)字資源長期保存混合云平臺技術(shù)分析[J].圖書館工作與研究,2018(8):50-56.
[4]任仲晟.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[J].?dāng)?shù)字技術(shù)與應(yīng)用,2021(9):59-61.
[5]何龍祥,葛繼成,王輕,等.基于數(shù)據(jù)倉庫的醫(yī)療數(shù)據(jù)可視化系統(tǒng)的設(shè)計與實現(xiàn)[J].軟件設(shè)計研究與應(yīng)用,202l(1):104-106.
[6]劉海強,陳曉晶,張興華,等.面向煤礦安全監(jiān)控的數(shù)據(jù)倉庫關(guān)鍵技術(shù)[J].工礦自動化,2022(4):3l-37.
[7]李蕓.基于增強ETL過程的大數(shù)據(jù)策略研究[J].電腦知識與技術(shù),2014(34):8081-8082.
[8]FENG H H,CHEN G S,YIN C,et al.A SVM regression based approach to filling in missing values[J].Lecture Notes in Computer Science,2005(1):581-587.
[9]XIONG H,PANDEY G,STEINBACH M,et al.Enhancing data analysis with noise removal[J].IEEE Transactions on Knowledge and Data Engineering,2006(3):304-319.
[10]刁羽,薛紅.基于電子資源行為數(shù)據(jù)的TF-IDF文獻推薦方法研究:以電子資源校外訪問系統(tǒng)為例[J].圖書館雜志,2022(12):45-54.
[11]劉國柱,張津烽,王華東.改進TF.IDF算法在電商仿真實訓(xùn)平臺中的應(yīng)用[J].計算機仿真,2023(7):273-277,466.
(編輯 沈 強)
Research on the architecture of an intelligent matching platform for industry university research needs based on big data
XU Xinwei, HUANG Cuiping
(Zhenjiang Productivity Promotion Center, Zhenjiang 212000, China)
Abstract:This article aims to build an intelligent matching platform for industry university research demand based on big data, in order to solve the problems of low efficiency and insufficient accuracy in demand matching in traditional industry university research cooperation. The platform is based on massive metadata such as enterprise technology requirements, scientific journals, and technological achievements. Through data preprocessing, data cleaning, data conversion, and standardization, the source data is processed to form a data warehouse. Further analysis and mining are carried out through online analysis, machine learning, data mining, artificial intelligence components, etc., to intelligently export experts, achievements, university research institutes, etc. that meet their technical needs. Through the hierarchical progression of data application layer, API interface layer, data display layer, etc., technical requirements are matched and displayed in various forms such as PC and mobile terminals.
Key words:data cleaning; data warehouse; online analytical services; machine learning; data mining; artificial intelligence components