符 寧
(上海萬達信息系統(tǒng)有限公司政務(wù)事業(yè)群,上海 201112)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,社會生產(chǎn)和生活產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)已成為一種新型的信息資產(chǎn)。大數(shù)據(jù)具有大量(Volume)、高速(Velocity)、多樣(Variety)、低價值密度(Value)和真實性(Veracity)的特性[1],其含義早已超越了數(shù)據(jù)規(guī)模定義,更代表著信息技術(shù)進入了一個新時代。需要新技術(shù)和新方法將大規(guī)模數(shù)據(jù)中隱藏的信息和知識挖掘出來,提高運行效率,提高整個社會經(jīng)濟的集約化程度[2-3]。
由于大數(shù)據(jù)處理需求的迫切性和重要性,近年來大數(shù)據(jù)技術(shù)受到學(xué)術(shù)界、工業(yè)界和各國政府的高度重視。美國和歐洲一些發(fā)達國家政府從國家科技戰(zhàn)略層面提出一系列大數(shù)據(jù)技術(shù)研發(fā)計劃,并開放交通運輸、天氣、健康等方面的核心公共數(shù)據(jù)庫[4],以推動政府機構(gòu)、重大行業(yè)、學(xué)術(shù)界和工業(yè)界對大數(shù)據(jù)技術(shù)的研究與應(yīng)用[5-7]。目前大數(shù)據(jù)應(yīng)用還處于初級階段,描述型和預(yù)測型分析應(yīng)用居多,決策指導(dǎo)型應(yīng)用很少,而且大數(shù)據(jù)應(yīng)用的廣度和深度明顯不足[8]。
政務(wù)領(lǐng)域是大數(shù)據(jù)技術(shù)的一個重要應(yīng)用場景。隨著相關(guān)技術(shù)在該領(lǐng)域的應(yīng)用,政務(wù)大數(shù)據(jù)表現(xiàn)出以下幾個明顯發(fā)展趨勢:
(1)政務(wù)決策科學(xué)化。把大數(shù)據(jù)技術(shù)運用到政府決策與管理中,能夠為決策提供依據(jù),優(yōu)化政府決策以及跟蹤決策實施,使決策更加精準。
(2)管理精細化。大數(shù)據(jù)促進政府設(shè)置更為詳細的績效指標體系,進一步對關(guān)鍵難點指標進行深度分析,使實時績效測量成為可能,有利于優(yōu)化資源配置,提高整體績效。
(3)服務(wù)個性化。大數(shù)據(jù)技術(shù)能夠整合多源數(shù)據(jù),通過大數(shù)據(jù)分析挖掘算法,為政府、企業(yè)和民眾提供個性化服務(wù)。
(4)運轉(zhuǎn)協(xié)同化。大數(shù)據(jù)技術(shù)可以幫助政府建立一個跨部門、跨平臺、跨數(shù)據(jù)結(jié)構(gòu)的信息處理平臺,促使政府各部門實現(xiàn)數(shù)據(jù)共享。
科技政務(wù)大數(shù)據(jù)管理和應(yīng)用中,除了存在大量的結(jié)構(gòu)化數(shù)據(jù)匯集管理以外,還存在與之相關(guān)的信息量更龐大的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),諸如流媒體、圖片、知識產(chǎn)權(quán)、科技文獻等。政府科技管理部門職能包括貫徹執(zhí)行科技相關(guān)法律法規(guī)、制定政策和計劃、編制并實施科研項目等,建設(shè)了項目管理、行政審批、行政運行等應(yīng)用系統(tǒng),這些系統(tǒng)存在以下問題:①服務(wù)決策弱。信息化工作處于“流程軟件”開發(fā)階段,難以進行特征分析、科技運行態(tài)勢研判等,不能為科技宏觀決策提供大數(shù)據(jù)決策支撐;②個性化需求無法滿足。各個處室業(yè)務(wù)工作嵌鑲在4 大綜合辦公業(yè)務(wù)平臺系統(tǒng)中,但系統(tǒng)的個性要求難以滿足,降低了應(yīng)用系統(tǒng)的適應(yīng)性;③各子系統(tǒng)相互獨立,整體性差。調(diào)研結(jié)果顯示各個系統(tǒng)之間沒有數(shù)據(jù)交互,各自為政。
本文立足政府的政務(wù)數(shù)據(jù)建設(shè)成果,通過研究國內(nèi)外政務(wù)大數(shù)據(jù)采集、匯聚和運營管理機制與應(yīng)用模式,著眼各級政務(wù)體系中的數(shù)據(jù)互聯(lián)互通和共享共用,加強大數(shù)據(jù)應(yīng)用的頂層設(shè)計,對已有政務(wù)數(shù)據(jù)運行模式充分調(diào)研,構(gòu)建一個適用于科技管理的平臺,在研究中逐步推演有價值、能落地的模型和方法。
大數(shù)據(jù)技術(shù)相關(guān)研究較多,如大數(shù)據(jù)的治理平臺[9]和大數(shù)據(jù)技術(shù)轉(zhuǎn)移平臺[10]等,但這些研究沒有針對具體的業(yè)務(wù)進行調(diào)整,沒有面向政務(wù)進行適配。文獻[11]設(shè)計了一套由基本政策、具體政策、保障政策等構(gòu)成的政府數(shù)據(jù)開放體系;文獻[12-14]針對政務(wù)大數(shù)據(jù)的共享、集成、治理等提出了相關(guān)框架;文獻[15]強調(diào)了政務(wù)領(lǐng)域多部門的信息協(xié)同化,期望構(gòu)建無邊界化的智慧政務(wù);文獻[16]設(shè)計了政府大數(shù)據(jù)的高性能計算框架,完成數(shù)據(jù)的分布式存儲和訪問、多任務(wù)管理和運行;文獻[17]研究了政務(wù)異構(gòu)數(shù)據(jù)融合過程中網(wǎng)絡(luò)安全的監(jiān)測方法,實現(xiàn)安全數(shù)據(jù)的全自動化采集、人工智能的安全事件分析和分析結(jié)果的多維度場景化展示;文獻[18-19]以廣東省為例展示了大數(shù)據(jù)技術(shù)在政務(wù)方面的應(yīng)用成果。
上述相關(guān)研究工作中,文獻[9-10]主要闡述普適的大數(shù)據(jù)技術(shù)和平臺建設(shè)方案,并不針對具體應(yīng)用場景。本文所提出的科技政務(wù)大數(shù)據(jù)平臺是立足于政務(wù)領(lǐng)域的現(xiàn)有數(shù)據(jù),面向政務(wù)應(yīng)用場景所設(shè)計的,更加具有針對性;文獻[11,19]主要是梳理大數(shù)據(jù)技術(shù)現(xiàn)狀和相關(guān)政策,沒有展示具體技術(shù)實現(xiàn),其他文獻只涉及政務(wù)大數(shù)據(jù)治理的一個方面,例如只包括數(shù)據(jù)存儲和處理、高性能計算、大數(shù)據(jù)安全、上層應(yīng)用、智慧政務(wù)平臺推進機制中的一項,而本文的大數(shù)據(jù)平臺涵蓋了完整的數(shù)據(jù)鏈路,從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)存儲和預(yù)處理到數(shù)據(jù)分析與挖掘,以及上層應(yīng)用的完整過程;文獻[14]的研究內(nèi)容與本文最為接近,但其主要研究了數(shù)據(jù)的匯聚和共享技術(shù),數(shù)據(jù)的分析和挖掘主要體現(xiàn)在人口流動狀況分析方面,與本文的應(yīng)用場景和分析挖掘技術(shù)不同。本文研究面向科技政務(wù)場景,設(shè)計了相關(guān)的大數(shù)據(jù)治理和挖掘平臺。與上述相關(guān)工作比較,本文創(chuàng)新性地提出了多時間粒度的殘差網(wǎng)絡(luò)預(yù)測模型和基于深度神經(jīng)網(wǎng)絡(luò)的科技政策推薦模型。
科技政務(wù)大數(shù)據(jù)研究主要面向科技信息系統(tǒng),需要將共享獲得的數(shù)據(jù)加以清洗、分析、整合和利用,建立一套運行管理機制,包括采集方式、數(shù)據(jù)清理、數(shù)據(jù)檢查、質(zhì)量分析及更新相關(guān)工作。本文提出科技政務(wù)大數(shù)據(jù)管理與挖掘框架,如圖1 所示,包括科技政務(wù)數(shù)據(jù)采集、面向科技政務(wù)的大數(shù)據(jù)服務(wù)平臺和應(yīng)用示范3 個部分。
數(shù)據(jù)采集指利用Web、App 或者傳感器等形式搜集數(shù)據(jù),并將數(shù)據(jù)通過網(wǎng)絡(luò)上傳并保存到數(shù)據(jù)庫中,其主要特點是數(shù)據(jù)多源異構(gòu)和數(shù)據(jù)規(guī)模大。本文結(jié)合科技部門業(yè)務(wù)和科技政務(wù)數(shù)據(jù)特點來設(shè)計數(shù)據(jù)采集方式。
科技部門是主管科技工作的政府部門,其主要職能包括:起草、制定、貫徹執(zhí)行與科技工作相關(guān)的法律、法規(guī)、規(guī)章、方針和政策;制定和組織實施科技發(fā)展規(guī)劃;負責(zé)科技重大專項的組織實施和綜合協(xié)調(diào)平衡;制定人才發(fā)展規(guī)劃和相關(guān)政策等。其產(chǎn)生的科技政務(wù)數(shù)據(jù)主要來自如圖1 中框架底層科技政務(wù)數(shù)據(jù)資源所示的幾個方面:科研項目管理系統(tǒng)的項目申報記錄;行政審批系統(tǒng)的辦事記錄;行政運行系統(tǒng)的員工考核等數(shù)據(jù);科技114 平臺的用戶訪問數(shù)據(jù);國家層面和其他部門的外部數(shù)據(jù);網(wǎng)絡(luò)獲取的輔助數(shù)據(jù)等。
Fig.1 The framework of big data platform for the science and technology administration圖1 科技政務(wù)大數(shù)據(jù)平臺整體框架
新型的科技政務(wù)大數(shù)據(jù)框架的數(shù)據(jù)采集過程需要考慮采集方式、傳輸協(xié)議、保密3 個方面的問題。采集方式可以包括用戶填寫、門戶網(wǎng)站提供、傳感器獲取等。考慮不同數(shù)據(jù)特征,還需要選取合適的傳輸協(xié)議,如針對傳感器網(wǎng)絡(luò)獲取的數(shù)據(jù),由于其數(shù)據(jù)冗余度高、數(shù)據(jù)量大,需要選取有自組織性,支持動態(tài)拓撲、功耗低的數(shù)據(jù)傳輸協(xié)議;而針對項目信息等的傳輸,數(shù)據(jù)量不大,可以選取高可靠性的協(xié)議。對于比較隱私的內(nèi)容,需要考慮對傳輸數(shù)據(jù)進行加密。
本文設(shè)計了面向政務(wù)的大數(shù)據(jù)服務(wù)平臺,進行接收數(shù)據(jù)、存儲數(shù)據(jù)、挖掘信息、安全保護工作,并對外提供統(tǒng)一訪問接口。
首先,科技政務(wù)大數(shù)據(jù)資源中心接收來自不同系統(tǒng)的數(shù)據(jù),并對這些多源異構(gòu)數(shù)據(jù)進行初步處理,涉及到數(shù)據(jù)接口的訪問控制和數(shù)據(jù)融合;然后,利用分布式數(shù)據(jù)庫或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通分析和分類匯總,以滿足常見的分析需求。在數(shù)據(jù)存儲過程中還需要對數(shù)據(jù)進行一些治理工作,如數(shù)據(jù)的清洗、數(shù)據(jù)融合等。構(gòu)建科技政務(wù)大數(shù)據(jù)分級分類資源目錄,形成全局化的數(shù)據(jù)資源視圖。
科技政務(wù)大數(shù)據(jù)智能計算平臺利用人工智能、機器學(xué)習(xí)、模式識別等理論對數(shù)據(jù)進行分析和處理,從而獲得數(shù)據(jù)中隱含的知識。比如,分析企業(yè)發(fā)展時序數(shù)據(jù)中的因果關(guān)系,挖掘企業(yè)發(fā)展過程中多種因素之間的相互關(guān)系等。
設(shè)計新型應(yīng)用,將科技政務(wù)大數(shù)據(jù)技術(shù)落到實處,可以為政府制定科技政策、布局科技戰(zhàn)略、指導(dǎo)科技發(fā)展提供支持,從而提升我國產(chǎn)業(yè)的科技競爭力,達到政務(wù)決策科學(xué)化、管理精細化、服務(wù)個性化的目的。根據(jù)應(yīng)用所針對的使用對象,可將政務(wù)大數(shù)據(jù)應(yīng)用分為三大類,即面向政府的科技決策、面向企業(yè)的科技扶持和面向人才的科技培育。面向政府應(yīng)用主要是提供有效的數(shù)據(jù)分析和可視化操作,為科技部門的宏觀決策提供大數(shù)據(jù)決策支撐;面向企業(yè)的應(yīng)用主要關(guān)注的是企業(yè)相關(guān)科技政策和項目推薦。根據(jù)企業(yè)特征個性化推薦相關(guān)政策內(nèi)容,降低企業(yè)工作量;在面向人才的應(yīng)用中,針對人才的特點進行個性化項目推薦,進行人才認定,分析人才成長路徑等。
面向科技政務(wù)的大數(shù)據(jù)服務(wù)平臺主要包括科技政務(wù)大數(shù)據(jù)資源中心和科技政務(wù)大數(shù)據(jù)智能計算平臺。
科技政務(wù)大數(shù)據(jù)資源中心用于科技政務(wù)大數(shù)據(jù)的統(tǒng)一存儲,對數(shù)據(jù)初步處理,為上層應(yīng)用提供統(tǒng)一訪問接口。如圖1 所示,科技政務(wù)大數(shù)據(jù)資源中心分為5 個功能模塊:①多源異構(gòu)科技數(shù)據(jù)整合匯聚模塊;②科技大數(shù)據(jù)資源池模塊;③多源高維數(shù)據(jù)治理模塊;④科技數(shù)據(jù)分級分類資源目錄模塊;⑤科技數(shù)據(jù)訪問控制模塊。
首先要把多源異構(gòu)的科技政務(wù)數(shù)據(jù)進行整合匯聚,涉及的數(shù)據(jù)總體分為關(guān)系數(shù)據(jù)、平面數(shù)據(jù)兩大類,采用不同的技術(shù)與方式實現(xiàn)對數(shù)據(jù)的整合匯聚。關(guān)系數(shù)據(jù)是主要的業(yè)務(wù)數(shù)據(jù)源,數(shù)據(jù)量巨大,每日更新的數(shù)據(jù)量也很大,包括公文流轉(zhuǎn)記錄、行政審批專家評分、科研項目申報信息等。平臺利用基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)采集工具Sqoop,根據(jù)時間戳標志定時訪問數(shù)據(jù)源,將最新的科技數(shù)據(jù)導(dǎo)入平臺。平面文件數(shù)據(jù)帶有一些格式化索引,但數(shù)據(jù)量的主體是無格式的平面文件。把平臺文件加載到HDFS,同時將文件索引信息插入到索引數(shù)據(jù)表中。
本文提供分布式文件系統(tǒng)(HDFS)、關(guān)系數(shù)據(jù)、內(nèi)存數(shù)據(jù)庫、列式數(shù)據(jù)庫等不同的數(shù)據(jù)存儲方案,保障基于此數(shù)據(jù)的應(yīng)用(或分析)能夠獲得良好的性能和使用體驗,形成全量數(shù)據(jù)存儲、專題庫。專題庫劃分為政策法規(guī)庫、科技項目庫、專家?guī)?、科技人才庫、企業(yè)信息庫、知識產(chǎn)權(quán)庫、成果轉(zhuǎn)化庫等,以方便科技人員使用。
多源高維的科技政務(wù)大數(shù)據(jù)在數(shù)據(jù)分析應(yīng)用前要進行處理,因為其可能存在某些域的缺失以及異常值等。本文設(shè)計了多源高維數(shù)據(jù)治理模塊,對存儲在科技大數(shù)據(jù)資源池的數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)質(zhì)量評估,以提高存儲數(shù)據(jù)的質(zhì)量,方便對其進行分析應(yīng)用。
設(shè)計科技政務(wù)大數(shù)據(jù)分級分層分域的數(shù)據(jù)管理體系與機制,研究多源異構(gòu)業(yè)務(wù)數(shù)據(jù)資產(chǎn)統(tǒng)一描述、管控、展示方法,通過對數(shù)據(jù)的業(yè)務(wù)屬性、數(shù)據(jù)量級等信息進行描述,根據(jù)業(yè)務(wù)邏輯對數(shù)據(jù)資產(chǎn)進行目錄分層,實現(xiàn)數(shù)據(jù)資源的分級分類,形成科技政務(wù)大數(shù)據(jù)資源目錄,然后提供給科技政務(wù)大數(shù)據(jù)智能計算平臺進行數(shù)據(jù)挖掘,服務(wù)科技管理部門各業(yè)務(wù)科室、外部委辦局等不同用戶。
建設(shè)數(shù)據(jù)訪問審計功能,在數(shù)據(jù)訪問之前部署安全審計工具,在數(shù)據(jù)訪問過程中持續(xù)生成多方可信的原始審計數(shù)據(jù),為數(shù)據(jù)訪問全流程的回溯與取證服務(wù)提供支持。
科技政務(wù)大數(shù)據(jù)智能計算平臺在科技政務(wù)大數(shù)據(jù)資源中心基礎(chǔ)上進一步處理科技政務(wù)大數(shù)據(jù),并使用數(shù)據(jù)挖掘技術(shù)對科技政務(wù)大數(shù)據(jù)進行分析與挖掘。
科技政務(wù)大數(shù)據(jù)智能計算平臺包括以下6 個模塊:
(1)自動問答引擎。面向科技政務(wù)的自動問答引擎包含知識存儲、知識表示、信息抽取、自然語言處理等多方面技術(shù),其體系結(jié)構(gòu)包括問題處理、信息檢索和答案抽取3 個部分。根據(jù)用戶輸入的問題進行語義分析,尋找知識庫中的相關(guān)文檔和結(jié)果,排序后展示給用戶。
(2)語義分析引擎。以科研項目管理系統(tǒng)、行政審批系統(tǒng)、互聯(lián)網(wǎng)等多源異構(gòu)數(shù)據(jù)為基礎(chǔ),構(gòu)建實體與文本的對應(yīng)關(guān)系。語義分析引擎會面向人才、專家、企業(yè)等實體進行簡歷、報告等描述文字的語義分析,提取研究方向、科技成果、科研評價等,面向政策文件提取戰(zhàn)略目標、戰(zhàn)略任務(wù)等,建立實體關(guān)聯(lián)關(guān)系。
(3)科技創(chuàng)新知識圖譜。幫助使用者透視科技領(lǐng)域知識體系結(jié)構(gòu)的形成、關(guān)聯(lián)與演變,洞察社會進步與技術(shù)更替、企業(yè)發(fā)展以及人才、政策等資源的多方關(guān)系,構(gòu)建人、時間、技術(shù)等多維度視角的知識表示網(wǎng)絡(luò),活動分布與競爭的最新態(tài)勢與趨勢,使研究者能概貌與深入了解和發(fā)現(xiàn)科技發(fā)展、研究前沿以及新興、熱點領(lǐng)域、學(xué)術(shù)水平等重要信息,并從科技研發(fā)、產(chǎn)業(yè)需求等方面精準篩查具有產(chǎn)業(yè)價值的科技創(chuàng)新成果。
(4)推薦引擎。在電子政務(wù)方面的研究與應(yīng)用還比較欠缺,尤其是針對科技政務(wù),政府每年都會出臺很多政策,對企業(yè)和各行業(yè)的人才進行資助或者扶持,但是用戶對政府的政策和服務(wù)關(guān)注較少。政府政策和服務(wù)涉及社會各行各業(yè),種類繁雜,導(dǎo)致用戶獲取與自己相關(guān)的政策和服務(wù)信息比較困難。本文設(shè)計了為企業(yè)推薦相關(guān)科技政策、為人才推薦相關(guān)項目、為政府推薦合適的項目評審專家等功能。
(5)預(yù)測模型。是對數(shù)據(jù)、標簽之間的關(guān)系進行建模,挖掘出量化的時間變化關(guān)系、變量因果關(guān)系等,從而對未來發(fā)展進行科學(xué)預(yù)測。建立企業(yè)成長預(yù)測模型,對區(qū)域內(nèi)科技企業(yè)的成長偏向、成長潛力等屬性進行預(yù)測分析。
(6)特征畫像。分為人才畫像、專家畫像、企業(yè)畫像3部分,采用的技術(shù)均為“用戶畫像”。用戶畫像標簽在證據(jù)強度上分為兩層:①強數(shù)據(jù)標簽:主要是直接獲得的具有比較強的證據(jù)作用標簽;②弱數(shù)據(jù)標簽:利用人工智能算法所構(gòu)建的統(tǒng)計類、預(yù)測類標簽。
科技政務(wù)大數(shù)據(jù)應(yīng)用包括面向政府的科技決策、面向企業(yè)的科技扶持和面向人才的科技培育。
本文通過對科技發(fā)展趨勢的預(yù)測、對科技投入績效的分析以及對人才的發(fā)現(xiàn)和評定,為政府制定科技政策、布局科技戰(zhàn)略、指導(dǎo)科技發(fā)展提供支持。
科技發(fā)展趨勢預(yù)測及布局利用面向科技政務(wù)的大數(shù)據(jù)服務(wù)平臺整合科技政務(wù)數(shù)據(jù)資源,運用科技創(chuàng)新知識圖譜、人才畫像、企業(yè)畫像等大數(shù)據(jù)技術(shù),幫助科技管理部門了解企業(yè)和學(xué)術(shù)界的研究應(yīng)用熱點,洞察科技企業(yè)特色與優(yōu)勢、調(diào)配區(qū)域人才科研力量、預(yù)測科技發(fā)展趨勢,綜合評價科技資源布局合理性,為科技部門制定政策和發(fā)展規(guī)劃提供依據(jù)。
科技投入績效分析應(yīng)用示范需要建立完整的評估指標庫,除考慮科技投入和產(chǎn)出的經(jīng)濟效益指標或財務(wù)指標外,還必須考慮生態(tài)效益指標和社會效益指標,切實關(guān)注科技創(chuàng)新對生活質(zhì)量、資源節(jié)約、環(huán)境優(yōu)化及社會和諧的正面與負面影響。
基于事實型數(shù)據(jù)挖掘?qū)崿F(xiàn)科技專家評價與發(fā)現(xiàn),通過梳理現(xiàn)有科技系統(tǒng)專家?guī)欤占求w制內(nèi)、非高校等人才信息,如科技小巨人企業(yè)、高新技術(shù)企業(yè)技術(shù)骨干等信息,運用大數(shù)據(jù)手段,從專業(yè)人才庫中挖掘?qū)<胰瞬牛嘟嵌确治雠袛嗖煌瞬诺募夹g(shù)能力,建立專家數(shù)據(jù)挖掘與分析數(shù)據(jù)模型,對現(xiàn)有專家進行評定,從被動主觀的挖掘評價模式轉(zhuǎn)化為主動、較客觀的挖掘評價模式,為專家挖掘與評價提供參考。
本文通過企業(yè)成長預(yù)測、科技政策推薦為企業(yè)提供科技支持。針對科技類企業(yè)進行成長預(yù)測,主要考察科技領(lǐng)域企業(yè)近期、遠期的發(fā)展規(guī)劃、目標與措施,科技產(chǎn)品的地位與市場競爭能力,企業(yè)在科技研發(fā)方面投入等。
企業(yè)成長預(yù)測模型包含4 個部分,如圖2 所示,分別為一個信息抽取神經(jīng)網(wǎng)絡(luò)和3 個殘差深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[20-21]。首先將各企業(yè)的財務(wù)指標按照時間展開,如圖中最上面的塊組??紤]到時間序列在不同頻率上具有不同特征,如短期的接近性、中期的周期性和長期的趨勢性,將不同頻率的財務(wù)指標拆分組合,構(gòu)造3 個深度殘差網(wǎng)絡(luò)。利用殘差網(wǎng)絡(luò)深度深和卷積網(wǎng)絡(luò)范圍廣的特點,設(shè)定每一個網(wǎng)絡(luò)層數(shù),使其最后一層隱藏層能夠?qū)W習(xí)到最原始輸入的所有信息。同時為了確保信息不會丟失,在每一層殘差單元中縮減時間步長時同時考慮增加數(shù)據(jù)維度。3 個殘差網(wǎng)絡(luò)的輸出做一次拼接操作并接入全連接網(wǎng)絡(luò)學(xué)習(xí)組合后的特征。此外,將企業(yè)相關(guān)的額外信息通過嵌入層與上述殘差層輸出相加,經(jīng)過激活函數(shù)得到預(yù)測值。企業(yè)可根據(jù)下一階段的預(yù)測值確定自身成長趨勢;政府可將多個企業(yè)的預(yù)測值進行排序,選出最有影響力的企業(yè)。
本文基于某省市所有企業(yè)歷史月營收數(shù)據(jù)(2017-2019 年)驗證該模型的有效性。以該省市所有企業(yè)的最后一個月營收作為測試集,其他數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。實驗結(jié)果顯示,本文提出的方法相比于經(jīng)典的ARIMA 模型在預(yù)測誤差指標MAE 上降低約12%。
Fig.2 Structure of the proposed prediction model圖2 預(yù)測模型結(jié)構(gòu)
科技政策推薦應(yīng)用示范有用戶畫像、科技政策庫、推薦算法3 個重要模塊。推薦引擎把用戶模型中興趣需求信息和科技政策庫中的特征信息匹配,同時使用相應(yīng)的推薦算法進行計算篩選,找到需求方可能感興趣的科技政策信息推薦給企業(yè)和個人。
通過人才成長路徑分析和人才服務(wù)推薦,基于科技政務(wù)大數(shù)據(jù)管理平臺,創(chuàng)建面向人才的科技培育應(yīng)用,提高科技核心競爭力。
科技人才成長路徑分析,從人才管理機制角度考慮入職、任用、晉升等環(huán)節(jié),完善和更新專家?guī)煨畔ⅲ奖闳粘9ぷ鏖_展;就人才個體而言,通過構(gòu)建相關(guān)指標,分析人才成長過程所需資源和政策信息,主動提供服務(wù)和政策引導(dǎo),增強科技人才的歸屬感和滿意度。將優(yōu)秀人才的成長路徑作為典型模式,指導(dǎo)他人的科研道路。
人才服務(wù)推薦根據(jù)用戶和企業(yè)信息分別畫像和抽取特征。對政府發(fā)布過的服務(wù)和政策采用自然語言處理等方法對內(nèi)容進行抽象表達,然后根據(jù)用戶使用過的政府服務(wù)歷史記錄、企業(yè)感興趣的政策記錄,使用協(xié)同過濾方法對用戶和企業(yè)分別進行個性化服務(wù)和政策推薦[22-23]。推薦系統(tǒng)架構(gòu)如圖3 所示,面向科技政務(wù)的大數(shù)據(jù)服務(wù)平臺架構(gòu)分為3 個層面:最底層是科技政務(wù)大數(shù)據(jù)資源中心,匯集各類大數(shù)據(jù);第二層推薦系統(tǒng)使用相應(yīng)的數(shù)據(jù)接口,獲取相應(yīng)數(shù)據(jù)。這些數(shù)據(jù)首先經(jīng)過預(yù)處理模塊,比如特征工程等。處理過的數(shù)據(jù)分別進入政府服務(wù)推薦模型和政策推薦模型中[7]。為了更精確地表現(xiàn)用戶和企業(yè)特點,大數(shù)據(jù)智能計算平臺的畫像模塊用來獲取人才和企業(yè)特征,經(jīng)過推薦模型,提供針對企業(yè)和個人的個性化推薦。
Fig.3 Framework of the proposed recommender system圖3 推薦系統(tǒng)架構(gòu)
基于神經(jīng)網(wǎng)絡(luò)的推薦模型如圖4 所示。以對人才進行政府服務(wù)推薦為例,將用戶和服務(wù)信息作為輸入,在第一層的神經(jīng)網(wǎng)絡(luò)中分別轉(zhuǎn)換成低維度的向量表達。然后將用戶向量和服務(wù)向量合并,輸入到多個隱藏層疊加起來的網(wǎng)絡(luò)中,最后輸出得到匹配程度的估計值。針對每個用戶,使用模型估計得到所有服務(wù)的匹配程度,進行排序推薦。
Fig.4 Structure of the proposed recommendation model圖4 推薦模型結(jié)構(gòu)
本文以某省市近兩年用戶訪問政府網(wǎng)站政策的數(shù)據(jù)為基礎(chǔ)驗證推薦模型的有效性。把每個用戶最近訪問記錄的20%作為測試集,針對每個用戶推薦10 項政策文件計算精度和召回率。實驗結(jié)果顯示,本文提出的基于深度學(xué)習(xí)的方法相比于經(jīng)典的矩陣分解方法在召回率上要高出8%左右。
本文通過對科技政務(wù)現(xiàn)有系統(tǒng)和業(yè)務(wù)的深入研究,發(fā)現(xiàn)目前科技政務(wù)系統(tǒng)存在的一些缺陷,如多個子系統(tǒng)共存、子系統(tǒng)之間相互獨立、信息不能互通;主要以業(yè)務(wù)流程完成為主,缺乏數(shù)據(jù)分析和輔助決策的能力;無法面向用戶提供個性化服務(wù)等。針對這些問題,本文提出面向科技政務(wù)的大數(shù)據(jù)管理和挖掘平臺框架,集數(shù)據(jù)采集、數(shù)據(jù)管理、分析挖掘和上層應(yīng)用為一體,推動科技服務(wù)便利化。通過數(shù)據(jù)挖掘組件,特別是提出的基于多時間粒度的企業(yè)成長預(yù)測模型和基于深度學(xué)習(xí)的政策推薦模型,有效提升了科技政務(wù)系統(tǒng)輔助決策能力和個性化程度。該平臺能夠幫助政府轉(zhuǎn)變服務(wù)理念,創(chuàng)新治理方式,由電子政務(wù)向智慧政務(wù)升級。在未來的工作中,將結(jié)合業(yè)務(wù)場景和相關(guān)數(shù)據(jù)設(shè)計更多的數(shù)據(jù)分析與挖掘組件,如根據(jù)相關(guān)企業(yè)的發(fā)展狀況和政策制定情況,客觀評價政府對經(jīng)濟的促進能力;根據(jù)市民每年事務(wù)辦理的數(shù)目、投訴情況、微博輿論情況等,對政府服務(wù)公眾能力進行評價等。