摘要:數(shù)據(jù)清洗是數(shù)據(jù)分析、數(shù)據(jù)挖掘等研究的起點(diǎn)。本文對(duì)數(shù)據(jù)清洗的研究進(jìn)行了綜述。首先闡述了數(shù)據(jù)清洗與數(shù)據(jù)質(zhì)量的關(guān)系,然后說(shuō)明了數(shù)據(jù)清洗的概況,并分析了數(shù)據(jù)清洗的步驟及方法,最后簡(jiǎn)要介紹了國(guó)內(nèi)外關(guān)于數(shù)據(jù)清洗的研究近況,同時(shí)對(duì)中文數(shù)據(jù)清洗研究做了展望。
關(guān)鍵詞:臟數(shù)據(jù);數(shù)據(jù)清洗;數(shù)據(jù)質(zhì)量;相似重復(fù)數(shù)據(jù);清洗步驟
中國(guó)分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)20-0044-04
A Review of The Development of Data Cleaning
LIAO Shu-yan
( Central China Normal University, Wuhan 430079, China)
Abstract: Data cleaning is the starting point of data analysis, data mining and so on. In this paper, the research of data cleaning isreviewed. Firstly, the relationship between data cleaning and data quality is explained, and then the data cleaning is described. andthe steps and algorithms of data cleaning are analyzed, and the research situation on data cleaning at home and abroad is brieflY- in-troduced. and the research on Chinese data cleaning is a prospect.
Key words: dirtV data; data cleaning; data quality; similar duplicate data; cleaning steps
1引言
數(shù)據(jù)是信息時(shí)代的標(biāo)志性產(chǎn)物,逐漸獨(dú)立于軟件產(chǎn)品,甚至主導(dǎo)了某些軟件產(chǎn)品的發(fā)展。在互聯(lián)網(wǎng)蓬勃發(fā)展的時(shí)代,人們能夠從各個(gè)方面獲得海量數(shù)據(jù)。在獲得數(shù)據(jù)之后,人們往往希望能對(duì)這些數(shù)據(jù)進(jìn)行不同的處理,并從中抽取出有價(jià)值的信息。為了得到滿(mǎn)足人們需要的有價(jià)值的信息,就要求所獲得的數(shù)據(jù)具有可靠性,同時(shí)能夠準(zhǔn)確反映實(shí)際情況。但是實(shí)際上,人們獲得的第一手?jǐn)?shù)據(jù)通常是“臟數(shù)據(jù)”?!芭K數(shù)據(jù)”主要指不一致或不準(zhǔn)確數(shù)據(jù)、陳舊數(shù)據(jù)以及人為造成的錯(cuò)誤數(shù)據(jù)等[1]。如果對(duì)臟數(shù)據(jù)不加以必要的清洗處理就直接分析,那么從這些數(shù)據(jù)中得出的最終結(jié)論或規(guī)律必然是不準(zhǔn)確。數(shù)據(jù)清潔的重要性由此凸顯出來(lái)一它能提高數(shù)據(jù)的公信力和準(zhǔn)確度,因而對(duì)數(shù)據(jù)清洗的研究就顯得至關(guān)重要。
2數(shù)據(jù)清洗與數(shù)據(jù)質(zhì)量的關(guān)系
數(shù)據(jù)清洗過(guò)程的主要加工處理對(duì)象是臟數(shù)據(jù)。臟數(shù)據(jù)本身具有的不一致和不準(zhǔn)確性等特點(diǎn),直接影響了數(shù)據(jù)的顯式和隱式價(jià)值,即直接影響了數(shù)據(jù)的質(zhì)量。良好的數(shù)據(jù)清洗過(guò)程,能有效地剔去臟數(shù)據(jù)中的糟粕,使其內(nèi)含的價(jià)值顯露。因此數(shù)據(jù)清洗在提高數(shù)據(jù)質(zhì)量上起著決定性的作用。
數(shù)據(jù)質(zhì)量指的是數(shù)據(jù)的準(zhǔn)確性、及時(shí)性、一致性和完整性,這幾個(gè)指標(biāo)在信息系統(tǒng)中得到滿(mǎn)足的程度[2]。通常將數(shù)據(jù)質(zhì)量問(wèn)題分為四類(lèi):?jiǎn)螖?shù)據(jù)源模式層問(wèn)題、單數(shù)據(jù)源實(shí)例層問(wèn)題、多數(shù)據(jù)源模式層問(wèn)題和多數(shù)據(jù)源實(shí)例層問(wèn)題[3]。缺乏完整性約束以及架構(gòu)設(shè)計(jì)差是導(dǎo)致單數(shù)據(jù)源模式層問(wèn)題出現(xiàn)的重要原因。由數(shù)據(jù)記錄異常引發(fā)的單數(shù)據(jù)源實(shí)例層問(wèn)題,主要包括拼寫(xiě)錯(cuò)誤、冗余記錄、數(shù)據(jù)內(nèi)部的字段矛盾等。由異構(gòu)數(shù)據(jù)模型和架構(gòu)設(shè)計(jì)引發(fā)的多數(shù)據(jù)源模式層的問(wèn)題,主要包括命名沖突、結(jié)構(gòu)沖突等。由重疊不一致的數(shù)據(jù)引發(fā)的多數(shù)據(jù)源實(shí)例層的問(wèn)題,主要包括聚合不一致、時(shí)間不一致等。數(shù)據(jù)質(zhì)量問(wèn)題的分類(lèi)如圖1所示。數(shù)據(jù)清洗是一種提高數(shù)據(jù)質(zhì)量的可行有效的技術(shù)方法,它主要用于處理在數(shù)據(jù)質(zhì)量問(wèn)題(例如冗余記錄和聚合不一致記錄)中,出現(xiàn)在實(shí)例層的臟數(shù)據(jù)。數(shù)據(jù)清洗具有一定的局限性,它需要與在模式層處理臟數(shù)據(jù)的數(shù)據(jù)整合技術(shù)共同使用,以充分提高數(shù)據(jù)的質(zhì)量。
3數(shù)據(jù)清洗概況
3.1數(shù)據(jù)清洗的概念
由于數(shù)據(jù)清洗的應(yīng)用領(lǐng)域多、應(yīng)用范圍廣,因此尚未形成公認(rèn)的定義。本文采用王曰芬教授[4]對(duì)數(shù)據(jù)清洗的定義:數(shù)據(jù)清洗為清除錯(cuò)誤和不一致數(shù)據(jù)的過(guò)程,并需要解決孤立點(diǎn)和元組重復(fù)問(wèn)題。從這個(gè)定義可以看出,數(shù)據(jù)清洗是一個(gè)復(fù)雜的過(guò)程,不僅僅要檢測(cè)出數(shù)據(jù)中存在的差錯(cuò)、清除數(shù)據(jù)中存在的不一致,更重要的是對(duì)數(shù)據(jù)進(jìn)行整合和分解,將臟數(shù)據(jù)轉(zhuǎn)變成干凈數(shù)據(jù),供數(shù)據(jù)分析及數(shù)據(jù)挖掘使用,以便更好地找出數(shù)據(jù)之間的關(guān)聯(lián),挖掘其內(nèi)在價(jià)值。
3.2數(shù)據(jù)清洗的對(duì)象
數(shù)據(jù)清洗的對(duì)象可分成宏觀層面對(duì)象以及微觀層面對(duì)象。從宏觀層面上,數(shù)據(jù)清洗用于許多特定領(lǐng)域,如經(jīng)濟(jì)領(lǐng)域、政治領(lǐng)域等。從微觀層面上看,數(shù)據(jù)清洗主要用于解決數(shù)據(jù)質(zhì)量中在實(shí)例層出現(xiàn)的問(wèn)題,如時(shí)間不一致等。
4數(shù)據(jù)清洗步驟
目前比較成熟的數(shù)據(jù)清洗框架已經(jīng)有很多了,例如Trilli-um模型、AJAX模型等。這些模型雖然有所差異,但其中數(shù)據(jù)清洗的一般步驟大致相同,可以分為五個(gè)步驟。
1)需求分析。此階段的目的是通過(guò)分析數(shù)據(jù)的作用領(lǐng)域與運(yùn)用環(huán)境,來(lái)明確有效數(shù)據(jù)的格式,并據(jù)此得到數(shù)據(jù)清洗的目標(biāo)。
2)預(yù)處理。通過(guò)數(shù)據(jù)分析技術(shù),從實(shí)例層和模式層出發(fā),識(shí)別數(shù)據(jù)中存在的邏輯錯(cuò)誤、不一致等數(shù)據(jù)質(zhì)量問(wèn)題,將獲取的數(shù)據(jù)質(zhì)量信息整理歸檔。
3)確定清洗規(guī)則。根據(jù)預(yù)處理結(jié)果獲得的數(shù)據(jù)質(zhì)量信息,分析臟數(shù)據(jù)產(chǎn)生的根本原因,從而定義數(shù)據(jù)清洗規(guī)則。數(shù)據(jù)清洗規(guī)則包括空值數(shù)據(jù)清洗規(guī)則、異常數(shù)據(jù)清洗規(guī)則、冗余數(shù)據(jù)清洗規(guī)則[5]等。不同的數(shù)據(jù)集的特性差異明顯,因此數(shù)據(jù)清洗要選擇適合數(shù)據(jù)集特點(diǎn)的規(guī)則。
4)清洗與修正。為避免錯(cuò)誤的清洗導(dǎo)致數(shù)據(jù)遺失,在清洗之前有必要對(duì)數(shù)據(jù)進(jìn)行備份。根據(jù)選擇的清洗規(guī)則或模型,對(duì)數(shù)據(jù)進(jìn)行清洗。不同的清洗規(guī)則作用于相同的數(shù)據(jù)集所得的效果不盡相同。分析清洗后的效果,若不盡人意,則可能需要重新選擇清洗規(guī)則,再次清洗。根據(jù)最終清洗結(jié)果,修正已經(jīng)歸檔的數(shù)據(jù)質(zhì)量信息。
5)檢驗(yàn)。使用相應(yīng)的檢驗(yàn)操作,驗(yàn)證經(jīng)過(guò)清洗后的數(shù)據(jù)是否符合預(yù)期要求。若不符合任務(wù)要求,可適當(dāng)修改清洗規(guī)則或模型,重新進(jìn)行數(shù)據(jù)清洗過(guò)程,并重新對(duì)結(jié)果進(jìn)行檢驗(yàn)評(píng)估。
5數(shù)據(jù)清洗方法
數(shù)據(jù)清洗技術(shù)與數(shù)據(jù)整合技術(shù)相輔相成,都用于解決數(shù)據(jù)質(zhì)量問(wèn)題。因此目前大多數(shù)數(shù)據(jù)清洗方法都內(nèi)含了數(shù)據(jù)整合技術(shù),主要從兩個(gè)方面對(duì)臟數(shù)據(jù)進(jìn)行處理,一是從模式層著手,二是從實(shí)例層著手。從這兩個(gè)方面對(duì)臟數(shù)據(jù)進(jìn)行分析與修正,以提高數(shù)據(jù)的質(zhì)量。
5.1模式層的清洗方法
結(jié)構(gòu)沖突和屬性約束是導(dǎo)致模式層臟數(shù)據(jù)出現(xiàn)的主要原因。針對(duì)這兩個(gè)方面,目前的清洗方法有面向結(jié)構(gòu)沖突的清洗方法以及面向噪聲數(shù)據(jù)的清洗方法[6]。
5.1.1面向結(jié)構(gòu)沖突的清洗方法
為解決結(jié)構(gòu)沖突中的類(lèi)型沖突、關(guān)鍵字沖突等,當(dāng)前使用的主要清洗方法為人工手動(dòng)清洗。與程序相比,人工手動(dòng)清洗的方法更能夠識(shí)別數(shù)據(jù)中隱藏的結(jié)構(gòu)沖突。盡管人工手動(dòng)清洗方法的準(zhǔn)確性很高,但面對(duì)內(nèi)容過(guò)多的數(shù)據(jù)集,人工手動(dòng)清洗的方法既費(fèi)時(shí)又費(fèi)力,效率也不高。
為解決結(jié)構(gòu)沖突中的依賴(lài)沖突,目前采用的主要方法是函數(shù)依賴(lài)方法。此方法用于查找發(fā)現(xiàn)違反了函數(shù)依賴(lài)關(guān)系的數(shù)據(jù)從而進(jìn)行清洗,但這種方法只能在滿(mǎn)足依賴(lài)關(guān)系的場(chǎng)合下使用,具有局限性。
5.1.2面向噪聲數(shù)據(jù)的清洗方法
噪聲數(shù)據(jù)的處理方法有分箱方法、人機(jī)組合方法、簡(jiǎn)單規(guī)則庫(kù)方法等。
分箱方法是指通過(guò)檢查周?chē)闹祦?lái)提高存儲(chǔ)的數(shù)據(jù)的擬合度。它屬于局部平滑方法,可以離散化數(shù)據(jù)并增加粒度,適用于數(shù)字型數(shù)據(jù)。
人機(jī)組合方法是指先參照計(jì)算機(jī)檢測(cè)到的可疑數(shù)據(jù),再由相關(guān)人員根據(jù)專(zhuān)業(yè)知識(shí)對(duì)數(shù)據(jù)進(jìn)行修改。此方法大大提高了數(shù)據(jù)清洗的效率,但不適用于大數(shù)據(jù)集。
簡(jiǎn)單規(guī)則庫(kù)方法則是指通過(guò)建立某些規(guī)則以達(dá)到數(shù)據(jù)約束的目的。清洗時(shí),檢查數(shù)據(jù)是否符合相應(yīng)的規(guī)則,如果不符合則進(jìn)行修正。此方法適用于規(guī)則性強(qiáng)的數(shù)據(jù),并根據(jù)數(shù)據(jù)的規(guī)則來(lái)建立簡(jiǎn)易規(guī)則庫(kù),具有一定的局限性。
5.2實(shí)例層的清洗方法
數(shù)據(jù)本身的錯(cuò)誤是導(dǎo)致實(shí)例層數(shù)據(jù)不干凈的主要原因。實(shí)例層數(shù)據(jù)清洗的核心在于檢測(cè)。檢測(cè)的主要內(nèi)容包括屬性值的檢測(cè)、重復(fù)數(shù)據(jù)檢測(cè)以及離群點(diǎn)檢測(cè)。
5.2.1面向?qū)傩灾禉z測(cè)的方法
屬性值的檢測(cè)主要是屬性錯(cuò)誤值和空值。用于檢測(cè)屬性錯(cuò)誤值的方法包括統(tǒng)計(jì)方法、聚類(lèi)方法等[7]。用于空值檢測(cè)的方法主要是人工法、代表性函數(shù)值填充法等。
5.2.2面向重復(fù)數(shù)據(jù)檢測(cè)的方法
重復(fù)數(shù)據(jù)的檢測(cè)方法有很多,根據(jù)檢測(cè)內(nèi)容進(jìn)行分類(lèi),可以分為基于字段的檢測(cè)和基于記錄的檢測(cè)。
基于字段的檢測(cè)算法有Levenshtein Distance算法、余弦相似度函數(shù)算法[8]等。Levenshtein DistanCe算法易于實(shí)現(xiàn)。余弦相似度算法更多地用于檢測(cè)文本的相似度。通過(guò)該算法獲得的相似性度量的值越小,說(shuō)明個(gè)體間越相似。
基于記錄的檢測(cè)算法有N-Crams算法、聚類(lèi)算法、SNM算法、MPN算法等[9]。N-Crams算法生成一個(gè)哈希表,然后根據(jù)哈希表來(lái)判斷記錄之間的相似性;聚類(lèi)算法通過(guò)計(jì)算將相似的數(shù)據(jù)歸為一類(lèi);SNM算法實(shí)現(xiàn)較為容易,但在很大程度上取決于關(guān)鍵字,依賴(lài)性較強(qiáng);MPN算法的優(yōu)點(diǎn)是它可以更為全面地收集重復(fù)的數(shù)據(jù),但使用起來(lái)較為煩瑣。
5.2.3面向離群點(diǎn)檢測(cè)的方法
離群點(diǎn)檢測(cè)是用于檢測(cè)與其他數(shù)據(jù)點(diǎn)明顯不同的對(duì)象,這樣的對(duì)象也被稱(chēng)為離群值。離群點(diǎn)檢測(cè)算法主要包括基于統(tǒng)計(jì)模型的算法、基于接近度的算法、基于密度的算法以及基于聚類(lèi)的算法等?;诮y(tǒng)計(jì)模型算法的檢測(cè)步驟為:首先建立數(shù)據(jù)模型,然后根據(jù)模型進(jìn)行分析,最終得到離群點(diǎn)?;诮咏鹊乃惴ㄖ饕x對(duì)象之間的接近度。基于密度的算法核心是檢測(cè)物體的局部密度,當(dāng)它的局部密度低于大多數(shù)鄰域內(nèi)對(duì)象時(shí),則被判斷為離群點(diǎn)?;诰垲?lèi)算法用于查找局部強(qiáng)烈關(guān)聯(lián)的對(duì)象組,而孤立點(diǎn)是與其他對(duì)象沒(méi)有強(qiáng)烈關(guān)聯(lián)的對(duì)象。檢測(cè)完成之后,根據(jù)數(shù)據(jù)檢測(cè)結(jié)果對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行校正,以達(dá)到清洗的目的。
6數(shù)據(jù)清洗國(guó)內(nèi)外研究現(xiàn)狀
6.1國(guó)外研究現(xiàn)狀
數(shù)據(jù)清洗的研究最早出現(xiàn)在美國(guó),從對(duì)全美社會(huì)保險(xiǎn)號(hào)錯(cuò)誤的糾正開(kāi)始[10]。數(shù)據(jù)清洗的早期研究主要集中在英文信息數(shù)據(jù)上。研究的內(nèi)容主要涉及:1)異常數(shù)據(jù)的檢測(cè)與消除;2)近似重復(fù)數(shù)據(jù)的檢測(cè)與消除;3)數(shù)據(jù)整合;4)特定領(lǐng)域的數(shù)據(jù)清洗。為了滿(mǎn)足信息產(chǎn)業(yè)和商業(yè)業(yè)務(wù)發(fā)展的需求,國(guó)外市場(chǎng)已經(jīng)在相關(guān)的領(lǐng)域開(kāi)發(fā)了清洗軟件。
6.2國(guó)內(nèi)研究現(xiàn)狀
由于中英文語(yǔ)法的差異,國(guó)外有關(guān)數(shù)據(jù)清洗的研究并不完全適用于中文數(shù)據(jù)清洗。國(guó)內(nèi)有關(guān)數(shù)據(jù)清洗的研究起步較晚,并將長(zhǎng)期處于起步發(fā)展階段。同時(shí),國(guó)內(nèi)對(duì)數(shù)據(jù)清洗的研究主要是對(duì)外文清洗方法的改進(jìn),結(jié)合中文語(yǔ)法的特點(diǎn),將其運(yùn)用于中文數(shù)據(jù)清洗中。研究的內(nèi)容主要在數(shù)據(jù)倉(cāng)庫(kù)、決策支持、數(shù)據(jù)挖掘等方面[11]。
國(guó)內(nèi)對(duì)于數(shù)據(jù)清洗的研究團(tuán)隊(duì)主要有:
1)處理數(shù)據(jù)重復(fù)問(wèn)題:復(fù)旦大學(xué)的周傲英教授團(tuán)隊(duì)[12]、沈陽(yáng)航空工業(yè)學(xué)院的夏秀峰教授[13]、李蜀瑜博士[14]、東南大學(xué)的董逸生教授的團(tuán)隊(duì)[15];
2)處理數(shù)據(jù)集成問(wèn)題:北京大學(xué)的楊冬青教授的團(tuán)隊(duì)[16]、武漢理工大學(xué)的袁景凌副教授[17]、東南大學(xué)的董逸生教授團(tuán)隊(duì)、復(fù)旦大學(xué)的周傲英教授團(tuán)隊(duì);
3)處理特定領(lǐng)域問(wèn)題:中科院的劉清[18]、山東理工大學(xué)的王曉原教授[19]、西安理工大學(xué)張璟教授[20]、沈陽(yáng)航空航天大學(xué)的夏秀峰教授團(tuán)隊(duì)。
7中文數(shù)據(jù)清洗展望
國(guó)內(nèi)對(duì)于數(shù)據(jù)清洗的理論研究尚未成熟,因此鮮有中文數(shù)據(jù)清洗軟件在市場(chǎng)流行。但在大數(shù)據(jù)盛行的時(shí)代,中文數(shù)據(jù)清洗的研究仍有廣闊的發(fā)展前景,針對(duì)不同領(lǐng)域的數(shù)據(jù)清洗仍將是研究重點(diǎn)。
參考文獻(xiàn):
[1] Fan Wenfei.Extending dependencies with conditions for datacleaning[C]//8th IEEE International Conference on Computerand Information Technology,2008: 185-190.
[2] Aebi Daniel. Perrochon Louis. Towards Improving Data Quality[M].1993:278-281.
[3] RAHM E,DO H H.Data cleaning:problems and current ap-proaches[J]. 2000,23(4):3-13.
[4]王曰芬,章成志,張蓓蓓,等.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(12):50-56.
[5]趙月琴,范通讓.科技創(chuàng)新大數(shù)據(jù)清洗框架研究[J].河北省科學(xué)院學(xué)報(bào),2018,35(2):35-42.
[6]葉鷗,張璟,李軍懷.中文數(shù)據(jù)清洗研究綜述[J].計(jì)算機(jī)工程與應(yīng)用2012,48(14):121-129.
[7] Maletic J I,Marcus A.Data cleansing: beyond integrity analysis[J].Division of Computer Science,2000.
[8] Salon G,Mcgill M J.lntroduction to modern information retriev-al[M].New York: McGraw-Hill Book Co,1983.
[9]蔣園,韓旭,馬丹璇,等.相似重復(fù)數(shù)據(jù)檢測(cè)的數(shù)據(jù)清洗算法優(yōu)化[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展,2019(10):1-9.
[10] Calhardas H,F(xiàn)lorescu D.An Extensible Framework for Da-ta Clean-ing[C]. In: Proceedings of the 16 th IEEE International Conf erence on Dat a Engineering. San Di ego, Califor-nia.2000:312-312.
[11]王曰芬,章成志,張蓓蓓,吳婷婷.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(12):50-56.
[12]邱越峰,田增平,李文,等.一種高效的檢測(cè)相似重復(fù)記錄的方法[J].計(jì)算機(jī)學(xué)報(bào),2001,24(1):69-77.
[13]劉哲,夏秀峰,宋曉燕,等.一種中文地址類(lèi)相似重復(fù)信息的檢測(cè)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2008,29(4):726-729.
[14]石彥華,李蜀瑜.聚類(lèi)反饋學(xué)習(xí)的數(shù)據(jù)清洗研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(30):127-131.
[15]韓京宇,徐立臻,董逸生.一種大數(shù)據(jù)量的相似記錄檢測(cè)方法[J].計(jì)算機(jī)研究與發(fā)展,2005,42(12): 2206-2212.
[16]方幼林,楊冬青,唐世渭,等.數(shù)據(jù)轉(zhuǎn)換過(guò)程的串行化方法[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(17):4-6,187.
[17]袁景凌,徐麗麗,苗連超.基于XML的虛擬法異構(gòu)數(shù)據(jù)集成方法研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(1):172-174.
[18]張晉輝,劉清.基于推理機(jī)的SCI地址字段數(shù)據(jù)清洗方法設(shè)計(jì)[J].情報(bào)科學(xué),2010,28(5):741-746.
[19]王曉原,張敬磊,吳芳.交通流數(shù)據(jù)清洗規(guī)則研究[J].計(jì)算機(jī)工程,2011,37(20):191-193.
[20]劉嘉,張璟,李軍懷.一種基于Token匹配的中文數(shù)據(jù)清洗方法[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(11):4345,53.
【通聯(lián)編輯:梁書(shū)】
收稿日期:2020-03-23
基金項(xiàng)目:文章由“華中師范大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目資助”(項(xiàng)目編號(hào)為20190410005)
作者簡(jiǎn)介:廖書(shū)妍(1999-),女,福建長(zhǎng)汀縣人,華中師范大學(xué)計(jì)算機(jī)學(xué)院本科生,主要研究方向?yàn)檐浖こ獭?/p>