符寧
摘 ?要:政府外事管理辦公室的信息系統(tǒng)記錄了大量因公出國(guó)訪問(wèn)申請(qǐng)和歸國(guó)總結(jié)報(bào)告數(shù)據(jù)。但是針對(duì)出國(guó)訪問(wèn)數(shù)據(jù)的治理和分析研究還非常少,而且這些數(shù)據(jù)的管理和挖掘還面臨著數(shù)據(jù)異構(gòu)、非結(jié)構(gòu)化等挑戰(zhàn)。文章面向因公出國(guó)業(yè)務(wù)數(shù)據(jù),設(shè)計(jì)了一個(gè)大數(shù)據(jù)治理平臺(tái),能夠?qū)υL問(wèn)申請(qǐng)和總結(jié)報(bào)告實(shí)現(xiàn)統(tǒng)一的管理,并提出了包含多種組件的智能計(jì)算引擎,對(duì)數(shù)據(jù)進(jìn)行多方位的分析,設(shè)計(jì)了面向不同用戶的多種應(yīng)用。該平臺(tái)提升了出國(guó)訪問(wèn)數(shù)據(jù)的治理效果,實(shí)現(xiàn)訪問(wèn)成果的有效共享。
關(guān)鍵詞:文本處理;數(shù)據(jù)分析;數(shù)據(jù)管理;治理創(chuàng)新
中圖分類號(hào):TP391 ? ? ? ? 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2020)31-0184-03
Abstract: The information system of the government's Foreign Affairs Office records a large number of data about applications for visits abroad on business and reports on returning home. However, there are scant researches focused on the governance and analysis of overseas visit data, and the management and mining of these data are also faced with challenges such as heterogeneous and unstructured data. Aiming at the data of going abroad on business, this paper designs a big data governance platform, which can realize the unified management of applications for visits and summary reports, and puts forward an intelligent computing engine with multiple components to analyze the data in many directions. A variety of applications for different users are designed. The platform improves the governance effect of data about visits abroad and realizes the effective sharing of visit results.
Keywords: text processing; data analysis; data management; governance innovation
近些年,大數(shù)據(jù)技術(shù)快速發(fā)展,在很多領(lǐng)域都得到了廣泛應(yīng)用[1]。探索大數(shù)據(jù)技術(shù)在政務(wù)領(lǐng)域的應(yīng)用,能夠有效提升現(xiàn)有信息系統(tǒng)的智能化水平[2-3]。政府的外事管理辦公室記錄了因公出國(guó)訪問(wèn)申請(qǐng)和總結(jié)報(bào)告數(shù)據(jù),其蘊(yùn)含著豐富的知識(shí)[4]。但是,這些數(shù)據(jù)具有形式多樣、非結(jié)構(gòu)化等特點(diǎn),難以進(jìn)行統(tǒng)一管理和挖掘,而且目前相關(guān)的研究還非常少。建設(shè)面向出訪數(shù)據(jù)的大數(shù)據(jù)分析平臺(tái),對(duì)于提升出國(guó)訪問(wèn)成果分享效果具有重要意義。
1 總體架構(gòu)
本論文使用某省市的外事管理辦公室出國(guó)團(tuán)組申報(bào)數(shù)據(jù)和出訪報(bào)告數(shù)據(jù),構(gòu)建面向出國(guó)訪問(wèn)總結(jié)數(shù)據(jù)的大數(shù)據(jù)服務(wù)平臺(tái),實(shí)現(xiàn)大數(shù)據(jù)技術(shù)在外事管理辦公室因公出國(guó)管理業(yè)務(wù)中的應(yīng)用。本論文構(gòu)建如圖1的大數(shù)據(jù)分析及應(yīng)用平臺(tái),具體包括數(shù)據(jù)采集層、大數(shù)據(jù)管理平臺(tái)、智能計(jì)算引擎以及上層應(yīng)用和服務(wù)。數(shù)據(jù)采集層匯聚團(tuán)組申報(bào)數(shù)據(jù)和歸國(guó)總結(jié)報(bào)告數(shù)據(jù),以及互聯(lián)網(wǎng)文本數(shù)據(jù)。大數(shù)據(jù)管理平臺(tái)對(duì)數(shù)據(jù)進(jìn)行融合、處理、存儲(chǔ)并提供訪問(wèn)接口。智能計(jì)算引擎是面向不同用戶需求,形成智能計(jì)算工具和組件。應(yīng)用和服務(wù)層建設(shè)面向多種類型用戶的大數(shù)據(jù)應(yīng)用。
2 數(shù)據(jù)基礎(chǔ)
數(shù)據(jù)包括團(tuán)組出國(guó)訪問(wèn)申報(bào)信息和出訪報(bào)告數(shù)據(jù)。團(tuán)組申報(bào)數(shù)據(jù)是結(jié)構(gòu)化的表格數(shù)據(jù),顯式包含每次出訪的時(shí)間、地點(diǎn)、目的、人員信息等。出訪報(bào)告數(shù)據(jù)是非結(jié)構(gòu)化的文本數(shù)據(jù),包含顯式的出訪時(shí)間和單位等信息,以及學(xué)習(xí)內(nèi)容和成果等隱式信息?;ヂ?lián)網(wǎng)上爬取文本數(shù)據(jù)作為輔助信息,促進(jìn)自然語(yǔ)言處理方法的訓(xùn)練和使用。
3 大數(shù)據(jù)平臺(tái)
基于政府的外事管理辦公室因公出國(guó)訪問(wèn)申報(bào)信息和出訪報(bào)告數(shù)據(jù),大數(shù)據(jù)管理平臺(tái)需要設(shè)計(jì)相應(yīng)的存儲(chǔ)和管理機(jī)制。包括數(shù)據(jù)訪問(wèn)控制、分布式數(shù)據(jù)全量存儲(chǔ)、數(shù)據(jù)治理、專題數(shù)據(jù)庫(kù)、索引和接口等幾個(gè)模塊組成。
大數(shù)據(jù)管理平臺(tái)首先要從外事管理辦公室現(xiàn)有系統(tǒng)中獲取結(jié)構(gòu)化的組團(tuán)申報(bào)信息和非結(jié)構(gòu)化的出訪報(bào)告文本。數(shù)據(jù)訪問(wèn)控制模塊需要與現(xiàn)有的系統(tǒng)相兼容,在不干擾業(yè)務(wù)正常運(yùn)行的情況下,實(shí)現(xiàn)周期性地、定時(shí)地從現(xiàn)有管理系統(tǒng)中獲取組團(tuán)申報(bào)信息和出訪報(bào)告數(shù)據(jù)。
大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、數(shù)據(jù)類型多樣的特點(diǎn)。本論文借助Hadoop的HDFS等分布式存儲(chǔ)平臺(tái),在保證數(shù)據(jù)安全存儲(chǔ)的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)的快速訪問(wèn)。本論文還結(jié)合MapReduce等分布式大數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)對(duì)大數(shù)據(jù)的分布式快速處理,降低每臺(tái)服務(wù)器的負(fù)載,提升系統(tǒng)任務(wù)處理的吞吐率。
在將數(shù)據(jù)存儲(chǔ)到相應(yīng)的數(shù)據(jù)庫(kù)之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)治理方法主要包括格式標(biāo)準(zhǔn)化、數(shù)據(jù)清洗等組件。對(duì)于數(shù)據(jù)的存儲(chǔ)要定義合適的數(shù)據(jù)格式,如時(shí)間、地點(diǎn)信息的存儲(chǔ)等。數(shù)據(jù)清洗包括刪除不完整的記錄、去除冗余數(shù)據(jù)、發(fā)現(xiàn)異常值等。針對(duì)缺失的數(shù)據(jù)字段,可以使用數(shù)據(jù)缺失值填充技術(shù),借助均值、最大最小值、默認(rèn)值等對(duì)數(shù)據(jù)進(jìn)行補(bǔ)全。
對(duì)于結(jié)構(gòu)化團(tuán)組申報(bào)數(shù)據(jù),可以使用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),即訪問(wèn)報(bào)告,借助一些非關(guān)系型數(shù)據(jù)庫(kù),包括Redis、MongoDB、HBase等[5],根據(jù)列或者鍵進(jìn)行索引,能夠有效提升數(shù)據(jù)查詢效率。
針對(duì)外事管理辦公室的公派出國(guó)訪問(wèn)數(shù)據(jù),大數(shù)據(jù)管理平臺(tái)設(shè)計(jì)多種數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),有針對(duì)性地選擇數(shù)據(jù)庫(kù)和建立索引,并對(duì)上層提供統(tǒng)一訪問(wèn)接口。
4 智能計(jì)算引擎
智能計(jì)算引擎利用自然語(yǔ)言處理技術(shù),構(gòu)建多種數(shù)據(jù)挖掘組件,實(shí)現(xiàn)對(duì)因公出國(guó)訪問(wèn)大數(shù)據(jù)的智能化分析和挖掘。智能計(jì)算引擎主要由分詞及字典構(gòu)建、關(guān)鍵詞生成和索引、實(shí)體識(shí)別和關(guān)系抽取、報(bào)告質(zhì)量評(píng)估模型、文本分類、情感分析、報(bào)告檢索和排序、主題模型、編解碼摘要生成模型等幾個(gè)模塊組成。
分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。現(xiàn)有的分詞方法主要分為:基于字符串匹配的方法、基于理解的方法、基于統(tǒng)計(jì)的分詞方法。常用的字典構(gòu)建方法主要包括CBOW和Skip-gram,字典的構(gòu)建是進(jìn)行分詞、實(shí)體識(shí)別和抽取的基礎(chǔ),其中基于字符串匹配的分詞方法,也稱為基于詞典的分詞方法,是應(yīng)用最廣泛,分詞速度最快的分詞方法。
對(duì)關(guān)鍵詞進(jìn)行索引,可以大幅加快檢索、推薦的速度。模型輸入是分詞過(guò)后的所有在數(shù)據(jù)庫(kù)中的報(bào)告,每篇報(bào)告包含的是詞序列,輸出的是一個(gè)建立完成的索引。
實(shí)體識(shí)別的任務(wù)在于識(shí)別出待處理文本中的命名實(shí)體,包括實(shí)體邊界識(shí)別和確定實(shí)體類別兩個(gè)子任務(wù)。關(guān)系抽取是自動(dòng)識(shí)別由一對(duì)概念和聯(lián)系這對(duì)概念的關(guān)系構(gòu)成的相關(guān)三元組。關(guān)系抽取包括傳統(tǒng)關(guān)系抽取和開放域關(guān)系抽取,傳統(tǒng)關(guān)系抽取的任務(wù)在于給定實(shí)體關(guān)系類別,給定語(yǔ)料,抽取目標(biāo)關(guān)系對(duì),其評(píng)測(cè)預(yù)料為質(zhì)量高的專家標(biāo)注語(yǔ)料。
報(bào)告質(zhì)量評(píng)估模型對(duì)每一篇報(bào)告的質(zhì)量進(jìn)行評(píng)估。接收的數(shù)據(jù)是底層經(jīng)過(guò)預(yù)處理和分詞操作的文本數(shù)據(jù)以及結(jié)構(gòu)化的申請(qǐng)表信息,輸出的是對(duì)該報(bào)告的具體評(píng)分。
文本分類使用機(jī)器對(duì)文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記,是樸素貝葉斯分類方法。文本分類的核心方法為首先提取分類數(shù)據(jù)的特征,然后選擇最優(yōu)的匹配,其流程通常為預(yù)處理、文本表示及特征向量、構(gòu)造分類器、分類。文本分類基于分詞和實(shí)體識(shí)別與抽取的上層方法。
情感分析是對(duì)一個(gè)主觀的文本分析判斷說(shuō)話者的情感色彩或者褒貶態(tài)度。整個(gè)情感分析模型接收的是經(jīng)過(guò)分詞和字典映射后的詞向量序列,輸出的是具有強(qiáng)烈褒貶情感的句子,以及整篇報(bào)告的情感傾向。
在對(duì)關(guān)鍵詞建立索引之后,每個(gè)鍵(key)對(duì)應(yīng)的值(value)都是一個(gè)列表或者類似的容器,其中存儲(chǔ)的是一系列出現(xiàn)過(guò)這個(gè)鍵的報(bào)告。對(duì)于不同的關(guān)鍵詞,每篇報(bào)告的權(quán)重是不同的,整篇報(bào)告與被搜索的關(guān)鍵詞的聯(lián)系越緊密、被點(diǎn)擊的次數(shù)越多,相應(yīng)的權(quán)重也應(yīng)該越高。
主題模型是以非監(jiān)督學(xué)習(xí)的方式對(duì)文集的隱含語(yǔ)義結(jié)構(gòu)進(jìn)行聚類的統(tǒng)計(jì)模型。其主要被用于對(duì)文本的表征進(jìn)行降維、按主題對(duì)文本進(jìn)行聚類。
編碼-解碼模型(encoder-decoder模型)利用編碼的方法將原始數(shù)據(jù)轉(zhuǎn)化為特征向量,將特征向量通過(guò)解碼器再次轉(zhuǎn)化為序列的形式輸出,生成對(duì)應(yīng)的摘要。
5 應(yīng)用和服務(wù)
借助智能計(jì)算引擎,本論文設(shè)計(jì)了摘要生成、報(bào)告質(zhì)量評(píng)估、出訪成果檢索與推薦、出訪目標(biāo)設(shè)計(jì)與推薦、出訪成果分析等幾項(xiàng)示范應(yīng)用。
摘要生成應(yīng)用面向平臺(tái)的所有用戶,提供其所檢索的、為其推薦的等所有展示給用戶的出訪報(bào)告的內(nèi)容摘要,包括該報(bào)告的撰寫人、組團(tuán)名單、出訪日期、出訪地點(diǎn)以及簡(jiǎn)易概括的出訪目標(biāo)和出訪收獲。該功能的提出旨在避免用戶為找到目標(biāo)出訪報(bào)告而重復(fù)的點(diǎn)擊進(jìn)入詳情頁(yè)面,多次瀏覽出訪報(bào)告全文的繁瑣,給出每篇報(bào)告的摘要,用戶可憑摘要信息快速地了解每篇報(bào)告的主要標(biāo)簽和內(nèi)容,排查掉與所找目標(biāo)無(wú)關(guān)的報(bào)告,從而準(zhǔn)確地鎖定自身想要查看的報(bào)告,在節(jié)約用戶查找時(shí)間的同時(shí)提高用戶體驗(yàn)。該應(yīng)用將依賴于智能計(jì)算引擎部分的分詞及詞典構(gòu)建、實(shí)體識(shí)別和關(guān)系抽取、主題模型、編解碼模型等關(guān)鍵技術(shù)。
出訪報(bào)告質(zhì)量評(píng)估應(yīng)用基于既有的報(bào)告質(zhì)量評(píng)估模型,對(duì)報(bào)告的內(nèi)容覆蓋面、報(bào)告撰寫質(zhì)量等方面進(jìn)行評(píng)估,給出評(píng)分,根據(jù)評(píng)分各管理層用戶可以根據(jù)報(bào)告質(zhì)量給予適當(dāng)?shù)墓膭?lì),或者向報(bào)告質(zhì)量降低的單位重新索取歸國(guó)報(bào)告。出訪報(bào)告質(zhì)量評(píng)估也是對(duì)用戶進(jìn)行高質(zhì)量的報(bào)告推薦的基礎(chǔ),系統(tǒng)自動(dòng)將評(píng)分較高的報(bào)告推薦給用戶或者展示著近期高質(zhì)量的報(bào)告榜單中,供平臺(tái)用戶查看。
出訪成果檢測(cè)和推薦應(yīng)用適用于所有瀏覽網(wǎng)頁(yè)的用戶,該應(yīng)用的主要功能是允許用戶輸入一個(gè)或多個(gè)關(guān)鍵詞,之后根據(jù)用戶輸入的關(guān)鍵詞,進(jìn)行檢索,返回與檢索的關(guān)鍵詞相關(guān)的數(shù)據(jù)庫(kù)中的報(bào)告,并且與關(guān)鍵詞的關(guān)聯(lián)度越高、報(bào)告的訪問(wèn)量越高、質(zhì)量評(píng)估的結(jié)果越好,相應(yīng)的檢索排名越高。這部分需要使用的是分詞之后的報(bào)告文本,以及建立完成之后的關(guān)鍵詞索引,和排序模型。同時(shí),在用戶搜索較為模糊的關(guān)鍵詞,如“教育”時(shí),系統(tǒng)會(huì)根據(jù)搜索的關(guān)鍵詞以及用戶的個(gè)人注冊(cè)信息如性別、年齡、職業(yè)等,進(jìn)行更有針對(duì)性的推薦。這一部分除了需要用到索引和排序模型外,還需要使用主題模型輸出的結(jié)果以及文本分類的結(jié)果。相比于現(xiàn)有的出訪檢索模型,該模塊不再單純按照?qǐng)?bào)告的時(shí)間進(jìn)行排序,而是給出不同的影響因子進(jìn)行排序,支持個(gè)性化的推薦。
出訪目標(biāo)及方法推薦會(huì)根據(jù)用戶的注冊(cè)信息和現(xiàn)有的申請(qǐng)信息進(jìn)行針對(duì)性的推薦。該應(yīng)用主要面向正在申請(qǐng)出訪的用戶,旨在向用戶提供同領(lǐng)域或類似領(lǐng)域的近期出訪報(bào)告,或根據(jù)用戶的信息推薦類似職務(wù)的他人近期的出訪報(bào)告,由此為用戶的出訪行程提供建議和參考。這部分需要利用文本分類模塊對(duì)已有的報(bào)告文本進(jìn)行分類,根據(jù)每篇報(bào)告的所屬類別以及用戶的個(gè)人信息進(jìn)行篩選,之后根據(jù)報(bào)告質(zhì)量評(píng)估系統(tǒng)對(duì)篩選后的報(bào)告進(jìn)行評(píng)估,并向用戶推薦評(píng)估質(zhì)量較高的報(bào)告。在顯示推薦列表時(shí),系統(tǒng)會(huì)根據(jù)報(bào)告檢索和排序給出的結(jié)果依次顯示結(jié)果。
出訪報(bào)告的類別是多樣化的,很多時(shí)候僅通過(guò)搜索關(guān)鍵詞或者利用文本分類的結(jié)果無(wú)法得到細(xì)粒度的統(tǒng)計(jì)結(jié)果。因此這一部分旨在提供更細(xì)粒度、多層次的出訪成果的分析。這一應(yīng)用主要面向的群體是高層人員,用于月、季、年度的出訪成果統(tǒng)計(jì)。相比于現(xiàn)有的統(tǒng)計(jì),該應(yīng)用將提取文本中隱藏的信息,并利用這些隱藏的信息,做到更準(zhǔn)確、細(xì)粒度的統(tǒng)計(jì)。該應(yīng)用需要用到的是智能引擎中的所有技術(shù),整合這些技術(shù)之后得到一個(gè)多層次的成果分析。
6 結(jié)束語(yǔ)
我國(guó)目前正逐步加快政務(wù)的信息化進(jìn)程,也在探索大數(shù)據(jù)技術(shù)在政務(wù)領(lǐng)域的應(yīng)用,提升政務(wù)信息系統(tǒng)的智能化水平。本論文基于各單位的出訪數(shù)據(jù),構(gòu)建了大數(shù)據(jù)管理與分析平臺(tái),實(shí)現(xiàn)對(duì)出訪數(shù)據(jù)的管理與挖掘,有效提升了訪問(wèn)成果的分享效果和出訪經(jīng)費(fèi)利用率。
參考文獻(xiàn):
[1]顧榮.大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究[D].南京大學(xué),2016.
[2]崔昭彥.我國(guó)政務(wù)信息系統(tǒng)的大數(shù)據(jù)建設(shè)[J].電子技術(shù)與軟件工程,2018(08):158.
[3]龔煒.一套基于人工智能技術(shù)的政務(wù)服務(wù)平臺(tái)設(shè)計(jì)[J].中國(guó)科技信息,2020(12):57-58.
[4]董倩.蘇州公安電子出入境管理問(wèn)題及對(duì)策研究[D].蘇州大學(xué),2018.
[5]葛微.大數(shù)據(jù)索引和查詢優(yōu)化技術(shù)與系統(tǒng)研究[D].南京大學(xué),2019.