詹曉林 張笑宇 曾晶 宋昊陽(yáng) 駱丹 張歡
摘要:在數(shù)字政府一體化建設(shè)的大背景之下,對(duì)于數(shù)據(jù)的采集、清洗提出了更高的要求。數(shù)據(jù)的預(yù)處理在整個(gè)政務(wù)數(shù)據(jù)處理的過(guò)程中尤為關(guān)鍵,不僅能夠?yàn)檎咧贫ㄌ峁└泳_的支持,還有助于推動(dòng)政務(wù)服務(wù)更加高效智能化。本文主要針對(duì)數(shù)據(jù)預(yù)處理中存在的核心問(wèn)題,著重介紹了幾種在數(shù)據(jù)采集以及數(shù)據(jù)清洗中運(yùn)用的方法,從而更好地應(yīng)對(duì)日益復(fù)雜的數(shù)字化治理挑戰(zhàn),實(shí)現(xiàn)政府?dāng)?shù)據(jù)管理的現(xiàn)代化轉(zhuǎn)型。
關(guān)鍵詞:數(shù)字政府一體化;數(shù)據(jù)預(yù)處理;數(shù)據(jù)采集;數(shù)據(jù)清洗
引言
在當(dāng)今數(shù)字化時(shí)代,隨著數(shù)字政府一體化建設(shè)進(jìn)程的不斷深入,數(shù)據(jù)預(yù)處理的重要性愈發(fā)顯著。其中,數(shù)據(jù)采集作為獲取原始信息的過(guò)程,在數(shù)據(jù)生命周期中扮演著關(guān)鍵角色;數(shù)據(jù)清洗則起到了過(guò)濾器的作用,是篩選、消除、修改冗余和錯(cuò)誤數(shù)據(jù)的重要步驟。本文將從數(shù)據(jù)采集和數(shù)據(jù)清洗兩方面出發(fā),深入探討在數(shù)字政府一體化建設(shè)中所使用的數(shù)據(jù)預(yù)處理技術(shù)。
1. 政務(wù)數(shù)據(jù)預(yù)處理中存在的痛點(diǎn)
當(dāng)前數(shù)字政府的建設(shè)相較以前已經(jīng)有了長(zhǎng)足的進(jìn)步和發(fā)展,隨著網(wǎng)絡(luò)的不斷發(fā)展和廣泛使用,數(shù)字政府平臺(tái)的使用率激增,數(shù)據(jù)從靜態(tài)的收集轉(zhuǎn)向?qū)崟r(shí)和動(dòng)態(tài)的收集,從單向管理轉(zhuǎn)向雙向、有規(guī)律的更新和互動(dòng)。然而,在數(shù)據(jù)預(yù)處理階段也存在資源整合困難的數(shù)據(jù)壁壘問(wèn)題,例如,數(shù)據(jù)難以開(kāi)放共享、數(shù)據(jù)利用率低等,導(dǎo)致了高價(jià)值的政務(wù)數(shù)據(jù)資源難以得到有效開(kāi)發(fā)利用[1]。
2. 政務(wù)數(shù)據(jù)處理
政務(wù)數(shù)據(jù)從采集到最終使用的過(guò)程中涉及內(nèi)、外部數(shù)據(jù)收集、存儲(chǔ)、處理、共享、分發(fā)等多個(gè)環(huán)節(jié),如圖1所示。
數(shù)據(jù)預(yù)處理在整個(gè)流程中起著至關(guān)重要的作用,可以接入各類(lèi)業(yè)務(wù)系統(tǒng)、子系統(tǒng)、外部管理系統(tǒng),以及終端感知的物聯(lián)網(wǎng)和互聯(lián)網(wǎng)。這個(gè)階段可以獲取所有需要被整合利用的數(shù)據(jù),并在早期階段進(jìn)行數(shù)據(jù)清洗等基礎(chǔ)的數(shù)據(jù)處理,為后續(xù)的數(shù)據(jù)開(kāi)發(fā)和使用帶來(lái)便利。
2.1 數(shù)據(jù)采集
政務(wù)數(shù)據(jù)采集過(guò)程存在分散、獨(dú)立、源端多樣性、跨網(wǎng)絡(luò)傳輸?shù)忍攸c(diǎn),為此設(shè)計(jì)了多類(lèi)型定制化的數(shù)據(jù)采集方法,為政務(wù)數(shù)據(jù)資源的采集、數(shù)據(jù)處理標(biāo)準(zhǔn)的規(guī)范、數(shù)據(jù)資源池的構(gòu)造提供了必要的支持。
2.1.1 數(shù)據(jù)采集:對(duì)于需要批量采集的數(shù)據(jù),根據(jù)數(shù)據(jù)來(lái)源的不同有兩種采集方式。
(1)數(shù)據(jù)庫(kù)采集:當(dāng)數(shù)據(jù)源為關(guān)系型數(shù)據(jù)庫(kù),如常見(jiàn)的Oracle、MySQL等,或數(shù)據(jù)源和大數(shù)據(jù)中心在同一個(gè)網(wǎng)絡(luò)中時(shí)可以采用這種方式[2]。
(2)FTP文件傳輸:當(dāng)數(shù)據(jù)源為FTP服務(wù)器,對(duì)于非結(jié)構(gòu)化的文本、圖片等數(shù)據(jù),可以采用這種方式。
2.1.2 數(shù)據(jù)接入:對(duì)于需要實(shí)時(shí)接入的數(shù)據(jù),通過(guò)Flink、Spark-streaming等組件實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)的匯集
諸如定位信息、視頻信息等需要實(shí)時(shí)傳輸?shù)臄?shù)據(jù),利用消息總線或SOCKET等技術(shù)來(lái)構(gòu)建前端的數(shù)據(jù)接收部分,將收集的數(shù)據(jù)處理轉(zhuǎn)化為統(tǒng)一格式的文件發(fā)送給平臺(tái)[3]。
2.1.3 網(wǎng)絡(luò)爬蟲(chóng):基于機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等最新技術(shù)
綜合采用基于特征評(píng)分及啟發(fā)性規(guī)則的抽取技術(shù),實(shí)現(xiàn)網(wǎng)頁(yè)內(nèi)容采集的智能化和自動(dòng)化,采集數(shù)據(jù)時(shí)不需要編寫(xiě)腳本式或規(guī)則式的包裝器,只需要指定抽取字段即可自動(dòng)剔除網(wǎng)頁(yè)噪聲,如廣告、導(dǎo)航條等干擾元素并提取有用信息,從而實(shí)現(xiàn)智能采集網(wǎng)頁(yè)內(nèi)容[4]。
2.1.4 在線填報(bào):針對(duì)政務(wù)系統(tǒng)需要面向的業(yè)務(wù)存在大量的非規(guī)則性數(shù)據(jù)收集需求,通過(guò)在線填報(bào)系統(tǒng)快速定制填報(bào)頁(yè)面滿(mǎn)足數(shù)據(jù)采集需求
在線填報(bào)采用J2EE的B/S體系結(jié)構(gòu),支持所有主流部署環(huán)境和數(shù)據(jù)庫(kù)平臺(tái)。靈活的報(bào)表設(shè)計(jì)器、自動(dòng)數(shù)據(jù)庫(kù)管理機(jī)制、報(bào)表制度自動(dòng)調(diào)整等大量領(lǐng)先設(shè)計(jì)思想和技術(shù),確保了系統(tǒng)具有良好的業(yè)務(wù)適應(yīng)性和擴(kuò)充性,不但可滿(mǎn)足用戶(hù)當(dāng)前的報(bào)表處理業(yè)務(wù)需要,更能滿(mǎn)足其不斷變化的報(bào)表應(yīng)用需求。
2.2 數(shù)據(jù)清洗
在實(shí)際的業(yè)務(wù)處理過(guò)程中,采集到的數(shù)據(jù)通常是臟數(shù)據(jù)。臟數(shù)據(jù)通常指的是存在以下幾種問(wèn)題的數(shù)據(jù):
(1)數(shù)據(jù)缺失。通常是指屬性值為空的情況。
(2)數(shù)據(jù)噪聲。通常是指數(shù)據(jù)值不合理的情況。
(3)數(shù)據(jù)不一致。通常是指數(shù)據(jù)前后存在矛盾的情況。
(4)數(shù)據(jù)冗余。通常是指數(shù)據(jù)量或者屬性數(shù)目超出數(shù)據(jù)分析需要的情況。
(5)數(shù)據(jù)集不均衡。通常是指各個(gè)類(lèi)別的數(shù)據(jù)量相差懸殊的情況。
(6)離群點(diǎn)/異常值。指的是采集到的數(shù)據(jù)中遠(yuǎn)離數(shù)據(jù)集中區(qū)域的那部分?jǐn)?shù)據(jù)。
(7)數(shù)據(jù)重復(fù)。在采集中多次被采集,在數(shù)據(jù)集中多次出現(xiàn)的數(shù)據(jù)。
數(shù)據(jù)清洗的目的是從原始數(shù)據(jù)中去除不準(zhǔn)確、不完整、重復(fù)或不必要的數(shù)據(jù),確保數(shù)據(jù)的質(zhì)量以及準(zhǔn)確性。在數(shù)據(jù)的初步清洗過(guò)程中,常用的技術(shù)包括缺失值處理、異常值檢測(cè)和處理、數(shù)據(jù)類(lèi)型轉(zhuǎn)換、規(guī)范化處理、數(shù)據(jù)一致性檢查、數(shù)據(jù)合并和去重處理、數(shù)據(jù)歸一化處理、數(shù)據(jù)驗(yàn)證、時(shí)間序列數(shù)據(jù)清洗以及數(shù)據(jù)可視化處理[5]。在以往的數(shù)據(jù)流轉(zhuǎn)過(guò)程中,數(shù)據(jù)清洗占整個(gè)分析過(guò)程的50%~80%時(shí)間。對(duì)低質(zhì)量數(shù)據(jù)的清洗難度大,可以通過(guò)對(duì)低質(zhì)量數(shù)據(jù)進(jìn)行采集過(guò)程中的清洗和預(yù)處理的方法來(lái)提升自動(dòng)數(shù)據(jù)清洗能力,從而提升數(shù)據(jù)采集的質(zhì)量和效率,采用基于組件的可視化數(shù)據(jù)清洗流程,結(jié)合數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等處理方法,實(shí)現(xiàn)高效、智能化的數(shù)據(jù)清洗預(yù)處理。
數(shù)據(jù)清洗可以根據(jù)各個(gè)變量的取值范圍和相互關(guān)系,對(duì)數(shù)據(jù)的合理性進(jìn)行檢查,對(duì)超出正常范圍或邏輯上不合理的數(shù)據(jù)進(jìn)行記錄,以便進(jìn)行進(jìn)一步的核實(shí)與糾正。對(duì)于在數(shù)據(jù)收集階段出現(xiàn)的無(wú)效數(shù)據(jù)以及缺失的數(shù)據(jù),運(yùn)用估計(jì)、整列刪除、變量刪除等方式進(jìn)行處理。根據(jù)數(shù)據(jù)的不同可以將數(shù)據(jù)清洗歸納出不同的方法[6]。
3. 數(shù)據(jù)處理技術(shù)在政務(wù)系統(tǒng)中的應(yīng)用
數(shù)據(jù)采集將結(jié)合運(yùn)行日志的數(shù)據(jù)進(jìn)行整體的分析和處理,實(shí)現(xiàn)各基層站點(diǎn)與平臺(tái)的技術(shù)對(duì)接,獲取所有資源的使用數(shù)據(jù)。在方式上可以采用調(diào)用各基層站點(diǎn)數(shù)據(jù)接口或者采用發(fā)布出數(shù)據(jù)收集接口的方式,由基層站點(diǎn)進(jìn)行數(shù)據(jù)傳遞等方式進(jìn)行數(shù)據(jù)的采集。
3.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在政務(wù)輿情監(jiān)測(cè)系統(tǒng)中的應(yīng)用
網(wǎng)絡(luò)爬蟲(chóng)技術(shù)能夠提供穩(wěn)定的數(shù)據(jù)抓取代理,能夠?qū)ヂ?lián)網(wǎng)海量信息進(jìn)行自動(dòng)抓取、自動(dòng)分類(lèi)、主題檢測(cè)、專(zhuān)業(yè)聚焦等處理,完成用戶(hù)對(duì)于網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專(zhuān)題追蹤等信息需求。
將互聯(lián)網(wǎng)爬取的數(shù)據(jù)采集方法應(yīng)用到輿情預(yù)警系統(tǒng)中,用戶(hù)可以按需自主布控監(jiān)控預(yù)警的關(guān)鍵詞,系統(tǒng)爬取的信息命中預(yù)警關(guān)鍵詞后暫存到輿情監(jiān)測(cè)模塊中。例如,可以設(shè)置的爬取規(guī)則對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)爬取采集,如表1所示。
將不同來(lái)源的數(shù)據(jù)匯集到綜合數(shù)據(jù)平臺(tái),對(duì)數(shù)據(jù)進(jìn)行改造,依據(jù)預(yù)定的規(guī)則,將其轉(zhuǎn)化為可反復(fù)利用的信息資源服務(wù)。通過(guò)服務(wù)總線和消息組件支持多路徑消息的進(jìn)入和出口,使得各種各樣的消息在總線上流動(dòng),實(shí)現(xiàn)在不同部門(mén)和機(jī)構(gòu)之間的信息共享,為平臺(tái)全方位、深入地分析和監(jiān)管數(shù)據(jù)提供便利,使其能夠?qū)崟r(shí)獲知運(yùn)行狀態(tài)并做出智能應(yīng)對(duì),為正確的輿論引導(dǎo)提供分析依據(jù)。
3.2 數(shù)據(jù)清洗轉(zhuǎn)換
3.2.1 數(shù)據(jù)清洗方案設(shè)計(jì)
由于數(shù)據(jù)的多源異構(gòu)性,導(dǎo)致出現(xiàn)數(shù)據(jù)質(zhì)量差、不可融合、不可用、不可聯(lián)等問(wèn)題,必須制定一套完整的數(shù)據(jù)清洗轉(zhuǎn)換規(guī)范來(lái)處理臟數(shù)據(jù)[7]。將數(shù)據(jù)清洗轉(zhuǎn)換劃分為清洗重復(fù)數(shù)據(jù)、清洗缺失數(shù)據(jù)以及清洗不合理數(shù)據(jù)三類(lèi)并且分別設(shè)計(jì)清洗方式。
3.2.1.1 清洗重復(fù)數(shù)據(jù)
主要目標(biāo)是避免數(shù)據(jù)的重復(fù)。如果一個(gè)數(shù)據(jù)表內(nèi)有多條記錄的每個(gè)字段的值完全一樣,或者這個(gè)數(shù)據(jù)表有主鍵或者唯一ID,但其中只有部分字段的值在兩條或以上的記錄中重復(fù),那么就需要用數(shù)據(jù)清洗方法來(lái)保證數(shù)據(jù)的獨(dú)特性。
3.2.1.2 清洗缺失數(shù)據(jù)
主要針對(duì)數(shù)據(jù)記錄中存在的缺失和空白值數(shù)據(jù)的處理。根據(jù)業(yè)務(wù)需求,檢測(cè)出的空字段將以填補(bǔ)、刪除、歸入問(wèn)題庫(kù)等各種方式進(jìn)行處理。
對(duì)于數(shù)據(jù)清洗中會(huì)出現(xiàn)的數(shù)據(jù)缺少問(wèn)題,可以采用以下四種方法解決:
(1)數(shù)據(jù)刪除。對(duì)于缺失數(shù)據(jù)的記錄占比較小的情況,對(duì)記錄進(jìn)行直接刪除。
(2)自動(dòng)補(bǔ)全。數(shù)據(jù)中心具備數(shù)據(jù)補(bǔ)全功能,能夠?qū)?shù)據(jù)清洗后的數(shù)據(jù)進(jìn)行數(shù)據(jù)補(bǔ)全工作,對(duì)存儲(chǔ)系統(tǒng)和數(shù)據(jù)庫(kù)上的海量、高頻率數(shù)據(jù)集進(jìn)行數(shù)據(jù)校驗(yàn),去除非法數(shù)據(jù),實(shí)現(xiàn)對(duì)缺漏的數(shù)據(jù)進(jìn)行自動(dòng)補(bǔ)齊。由于生產(chǎn)庫(kù)本身就存在部分?jǐn)?shù)據(jù)字段屬性值的缺失,對(duì)于缺失的數(shù)據(jù)屬性,數(shù)據(jù)補(bǔ)全功能按照某些規(guī)則填充,比如公司辦公地址為空,默認(rèn)使用工商注冊(cè)地址填充;家庭住址為空的話,默認(rèn)按照身份證注冊(cè)地址填充,可以利用均值填充,也可以根據(jù)實(shí)際情況,根據(jù)過(guò)往的數(shù)據(jù)通過(guò)公式自動(dòng)計(jì)算填補(bǔ)。例如,景區(qū)門(mén)店銷(xiāo)售額數(shù)據(jù)缺失,就可以參考過(guò)往景區(qū)的客流量數(shù)據(jù)根據(jù)公式進(jìn)行計(jì)算[8]。
(3)手動(dòng)填補(bǔ)。對(duì)于缺少的數(shù)據(jù)進(jìn)行重新采集,或根據(jù)領(lǐng)域知識(shí)進(jìn)行修補(bǔ)。
(4)關(guān)聯(lián)回填。兩個(gè)或兩個(gè)以上數(shù)據(jù)集之間通過(guò)某種信息建立關(guān)聯(lián)關(guān)系之后,根據(jù)實(shí)際業(yè)務(wù)的需要,可以對(duì)這兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行相互補(bǔ)充。
3.2.1.3 清洗不合理數(shù)據(jù)
主要負(fù)責(zé)處理數(shù)據(jù)記錄中的不符合邏輯、違法數(shù)據(jù)。對(duì)于數(shù)據(jù)記錄中出現(xiàn)的不合理情況可采用以下兩種方式解決。
(1)數(shù)據(jù)命名轉(zhuǎn)換:通過(guò)比對(duì)標(biāo)準(zhǔn)數(shù)據(jù)元和實(shí)際數(shù)據(jù)表中的數(shù)據(jù)項(xiàng),如果比對(duì)結(jié)果一致,則不需要轉(zhuǎn)換處理,如果比對(duì)結(jié)果不一致,要按照標(biāo)準(zhǔn)規(guī)定的命名進(jìn)行轉(zhuǎn)換。
(2)標(biāo)準(zhǔn)地址轉(zhuǎn)換:對(duì)地址要素不完整、文字表達(dá)不一致的地址信息進(jìn)行標(biāo)準(zhǔn)化處理。依托公安的標(biāo)準(zhǔn)化地址庫(kù)及互聯(lián)網(wǎng)公開(kāi)的POI地址信息庫(kù),形成相關(guān)的地址標(biāo)準(zhǔn)基礎(chǔ)庫(kù),對(duì)采集的地址信息進(jìn)行標(biāo)準(zhǔn)化處理。
數(shù)據(jù)清洗是一個(gè)反復(fù)迭代的過(guò)程,數(shù)據(jù)清洗中的產(chǎn)物包括標(biāo)準(zhǔn)化數(shù)據(jù)和問(wèn)題數(shù)據(jù)。標(biāo)準(zhǔn)化數(shù)據(jù)為原始庫(kù)數(shù)據(jù)按照數(shù)據(jù)標(biāo)準(zhǔn)清洗、加工后的數(shù)據(jù);數(shù)據(jù)清洗、加工過(guò)程中產(chǎn)生的臟數(shù)據(jù)則作為問(wèn)題數(shù)據(jù)暫時(shí)保留在資源庫(kù)中,便于溯源和提升數(shù)據(jù)質(zhì)量。
3.2.2 數(shù)據(jù)清洗技術(shù)在圖片數(shù)據(jù)中的應(yīng)用
可以將AI技術(shù)運(yùn)用到圖片數(shù)據(jù)的清洗過(guò)程。對(duì)于采集到的圖片數(shù)據(jù)提供清洗功能,包括去除相似或重復(fù)圖片、去除小目標(biāo)圖片、去除過(guò)暗圖片、去除過(guò)爆圖片、去除模糊圖片等清洗功能[9]。支持自定義清洗策略參數(shù),支持創(chuàng)建清洗任務(wù)選擇“生成新版本”“覆蓋原有版本”,同時(shí)提供被清洗數(shù)據(jù)的列表以及清洗原因。
結(jié)語(yǔ)
在本文中,我們對(duì)于幾種數(shù)據(jù)采集和數(shù)據(jù)清洗方案以及其在數(shù)據(jù)處理中的關(guān)鍵作用進(jìn)行了研究。
在數(shù)據(jù)采集方面,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)作為一種數(shù)據(jù)采集工具為大量獲取互聯(lián)網(wǎng)上的特定數(shù)據(jù)提供了有效手段。在未來(lái),為適應(yīng)不斷擴(kuò)張的互聯(lián)網(wǎng)以及網(wǎng)頁(yè)的多樣化,互聯(lián)網(wǎng)爬蟲(chóng)技術(shù)在自適應(yīng)爬取算法以及與人工智能的結(jié)合方面存在廣闊的發(fā)展空間。
在數(shù)據(jù)清洗方面,根據(jù)臟數(shù)據(jù)的類(lèi)型,分別設(shè)計(jì)有針對(duì)性的清洗方案,能夠有針對(duì)性地解決數(shù)據(jù)中存在的數(shù)據(jù)重復(fù)、缺失和不合理等問(wèn)題。將AI識(shí)別技術(shù)運(yùn)用到圖像數(shù)據(jù)的清洗中,能夠降低人工干預(yù)的成本并且提高效率,在未來(lái)的研究中,可以進(jìn)一步探索數(shù)據(jù)清洗與機(jī)器學(xué)習(xí)和人工智能的結(jié)合,實(shí)現(xiàn)更高效率、更高準(zhǔn)確性、類(lèi)型更加廣闊的數(shù)據(jù)清洗。
數(shù)據(jù)采集、數(shù)據(jù)清洗作為數(shù)據(jù)的預(yù)處理,在政務(wù)數(shù)據(jù)的處理流程中起著舉足輕重的作用。對(duì)數(shù)據(jù)的收集整合以及清理,可以消除在數(shù)據(jù)集中整合時(shí)遇到的分散、孤立、多源、跨部門(mén)和跨網(wǎng)傳輸?shù)入y題,從而為政務(wù)數(shù)據(jù)資源的整合、標(biāo)準(zhǔn)化處理以及數(shù)據(jù)資源池的建立提供依托。
參考文獻(xiàn):
[1]國(guó)務(wù)院辦公廳.國(guó)務(wù)院辦公廳關(guān)于印發(fā)全國(guó)一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南的通知(國(guó)辦函〔2022〕102號(hào))[A/OL].(2022-10-28)[2023-8-20].https://www.gov.cn/zhengce/zhengceku/2022-10/28/content_5722322.htm?eqid=edc23cad00032216000000066465a1f0.
[2]晏立,閻蔚明,陶躍華,等.基于JDBC數(shù)據(jù)庫(kù)時(shí)間獲取方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008,(12):139-141.
[3]郭棟,胡清,李國(guó)濤,等.基于Flink組件的流量鏈接分析方法及系統(tǒng):CN202210525481.2[P].2022-08-30.
[4]馮明遠(yuǎn).深度網(wǎng)絡(luò)信息爬取關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2011.
[5]唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi).基于聚類(lèi)模式的數(shù)據(jù)清洗技術(shù)[J].計(jì)算機(jī)應(yīng)用,2004,(5):116-119.
[6]劉政宇.基于大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運(yùn)用[J].數(shù)字技術(shù)與應(yīng)用,2019,37(4):92,94.
[7]杜少卿.基于關(guān)聯(lián)依賴(lài)的數(shù)據(jù)清洗方法研究[D].鄭州:鄭州輕工業(yè)大學(xué),2023.
[8]樊峰峰.大規(guī)模數(shù)據(jù)清洗關(guān)鍵技術(shù)研究[D].西安:西北工業(yè)大學(xué),2020.
[9]李政文,杜文菊,饒妮妮.基于不準(zhǔn)確圖像數(shù)據(jù)清洗的分類(lèi)方法研究[J].信號(hào)處理,2022,38(7):1547-1554.
作者簡(jiǎn)介:詹曉林,本科,高級(jí)工程師,研究方向:信息通信工程建設(shè)、智慧城市規(guī)劃、建設(shè)工程實(shí)施;張笑宇,本科,研究方向:智慧城市規(guī)劃咨詢(xún)?cè)O(shè)計(jì)、智慧校園信息化建設(shè);曾晶,碩士研究生,高級(jí)工程師,研究方向:管理咨詢(xún)、信息通信工程咨詢(xún)規(guī)劃設(shè)計(jì)、IT咨詢(xún);宋昊陽(yáng),碩士研究生,工程師,研究方向:智慧城市、企業(yè)IT、物聯(lián)網(wǎng)咨詢(xún)規(guī)劃;駱丹,博士研究生,研究方向:自然語(yǔ)言處理、深度學(xué)習(xí)、技術(shù)產(chǎn)品研發(fā);張歡,博士研究生,研究方向:網(wǎng)絡(luò)安全技術(shù)規(guī)劃、數(shù)據(jù)安全、信息化咨詢(xún)規(guī)劃。