亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python 的文本數(shù)據(jù)增強(qiáng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2021-07-30 08:15:12韓會(huì)珍劉立波
        寧夏工程技術(shù) 2021年2期
        關(guān)鍵詞:批量蟲(chóng)害枸杞

        韓會(huì)珍,劉立波

        (寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)

        近年來(lái),人工智能正逐漸改變著世界,而自然語(yǔ)言處理已成為計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域內(nèi)一個(gè)重要方向,在各個(gè)行業(yè)應(yīng)用越來(lái)越廣泛[1—2]。隨著深度學(xué)習(xí)的出現(xiàn)和計(jì)算能力的提升,自然語(yǔ)言處理中情感分析和主題分類等文本分類任務(wù)都取得了很高的準(zhǔn)確性,但高性能往往取決于訓(xùn)練數(shù)據(jù)的大小和質(zhì)量[3],文本數(shù)據(jù)的收集往往是十分困難的,文本增強(qiáng)技術(shù)的出現(xiàn)很好地解決了這類問(wèn)題。

        在實(shí)際的文本數(shù)據(jù)收集中,正常文本與敏感文本的數(shù)量很容易失衡,但又要求訓(xùn)練出的模型能夠召回較為全面的敏感文本[4—6]。這就需要文本“數(shù)據(jù)增強(qiáng)”,來(lái)擴(kuò)展敏感文本數(shù)量,讓數(shù)據(jù)更豐富。傳統(tǒng)文本數(shù)據(jù)增強(qiáng)方法中,同義詞替換(SR)方法是對(duì)文本中的一些詞語(yǔ)進(jìn)行替換來(lái)完成數(shù)據(jù)增強(qiáng),方式實(shí)現(xiàn)較為簡(jiǎn)單,但生成的文本與原文本相似度太高。采用VAEHD 文本生成模型可以學(xué)習(xí)文本中的潛在性解釋,生成具有特定情感屬性的文本[7]。但是該模型實(shí)現(xiàn)過(guò)程較為繁瑣,且需要額外的數(shù)據(jù)。本文采用一種簡(jiǎn)單文本增強(qiáng)(EDA)方法,不需要額外的數(shù)據(jù),而且同義詞替換、隨機(jī)交換、隨機(jī)插入、隨機(jī)刪除4 種方式的結(jié)合能更好地?cái)U(kuò)充語(yǔ)義,實(shí)現(xiàn)起來(lái)也較為簡(jiǎn)單。因此,依據(jù)實(shí)際需求,首先對(duì)文本進(jìn)行預(yù)處理,以處理亂碼、換行符冗余等問(wèn)題,然后再利用EDA 方法進(jìn)行文本數(shù)據(jù)增強(qiáng)。采用Python 語(yǔ)言結(jié)合Flask 框架設(shè)計(jì)實(shí)現(xiàn)了Web 網(wǎng)頁(yè)版單文本和批量文本數(shù)據(jù)增強(qiáng)系統(tǒng)[8—12],對(duì)于處理少樣本場(chǎng)景下樣本不均衡性、數(shù)據(jù)量不足易導(dǎo)致模型過(guò)擬合有較好的應(yīng)用價(jià)值。

        1 文本數(shù)據(jù)收集

        該系統(tǒng)開(kāi)發(fā)和測(cè)試均采用實(shí)驗(yàn)室構(gòu)建的枸杞蟲(chóng)害文本描述數(shù)據(jù)集,包含大青葉蟬、負(fù)泥蟲(chóng)、木虱等17種常見(jiàn)枸杞蟲(chóng)害。由于該數(shù)據(jù)集的文本描述的是人工撰寫(xiě),耗時(shí)耗力,搜集到各類枸杞蟲(chóng)害的描述信息有限,因此在構(gòu)建數(shù)據(jù)集時(shí),有的蟲(chóng)害種類文本描述數(shù)量過(guò)少,有的蟲(chóng)害種類文本描述數(shù)量較多,造成了數(shù)據(jù)集的樣本不均衡,且枸杞蟲(chóng)害數(shù)據(jù)集文本總量只有1 670,對(duì)模型訓(xùn)練來(lái)說(shuō)數(shù)據(jù)量不足,所以選取該數(shù)據(jù)集作為該文本數(shù)據(jù)增強(qiáng)系統(tǒng)的訓(xùn)練和測(cè)試數(shù)據(jù)。

        2 系統(tǒng)設(shè)計(jì)思路

        2.1 功能模塊設(shè)計(jì)

        基于Python 設(shè)計(jì)的文本數(shù)據(jù)增強(qiáng)系統(tǒng),以實(shí)驗(yàn)構(gòu)建的樣本不均衡且數(shù)據(jù)量不足的枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),前端界面用Flask 框架結(jié)合Python 語(yǔ)言響應(yīng)處理實(shí)現(xiàn)Web 網(wǎng)頁(yè)交互[13]。該系統(tǒng)主要分為預(yù)處理模塊、單文本數(shù)據(jù)增強(qiáng)模塊、批量文本數(shù)據(jù)增強(qiáng)模塊。具體功能模塊見(jiàn)圖1。

        圖1 文本數(shù)據(jù)增強(qiáng)系統(tǒng)功能模塊

        2.2 系統(tǒng)流程設(shè)計(jì)

        文本數(shù)據(jù)增強(qiáng)系統(tǒng)流程圖見(jiàn)圖2。

        圖2 文本數(shù)據(jù)增強(qiáng)流程圖

        該系統(tǒng)流程設(shè)計(jì)主要包含:①文本數(shù)據(jù)預(yù)處理;②單文本或批量文本數(shù)據(jù)增強(qiáng);③設(shè)置文本原路徑和增強(qiáng)后文本路徑;④EDA 中各增強(qiáng)方式比例設(shè)置;⑤保存增強(qiáng)后生成的文本。

        文本數(shù)據(jù)增強(qiáng)是對(duì)文本數(shù)據(jù)進(jìn)行擴(kuò)充。該系統(tǒng)采用改進(jìn)的EDA 文本數(shù)據(jù)增強(qiáng)技術(shù),其文本數(shù)據(jù)增強(qiáng)4 種方式含義見(jiàn)表1。

        表1 文本數(shù)據(jù)增強(qiáng)4 種方式含義

        3 系統(tǒng)實(shí)現(xiàn)

        3.1 功能實(shí)現(xiàn)

        該系統(tǒng)主要采用實(shí)驗(yàn)室構(gòu)建的少樣本枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行文本預(yù)處理及數(shù)據(jù)增強(qiáng)操作。

        3.1.1 文本預(yù)處理實(shí)現(xiàn) 由于撰寫(xiě)文本時(shí),編碼格式不同,操作方式有誤,可能會(huì)導(dǎo)致文本中出現(xiàn)中英文夾雜、亂碼、換行符冗余等文本不規(guī)范問(wèn)題,通過(guò)文本預(yù)處理技術(shù)實(shí)現(xiàn)文本的規(guī)范化很有必要。

        本文通過(guò)hanzi API 實(shí)現(xiàn)了對(duì)中文文本字符的替換和刪除,并通過(guò)re 正則表達(dá)式解決了刪除空行、亂碼等問(wèn)題,實(shí)現(xiàn)了文本數(shù)據(jù)的規(guī)范化。

        3.1.2 文本數(shù)據(jù)增強(qiáng)實(shí)現(xiàn) 針對(duì)單文本和批量文本的數(shù)據(jù)增強(qiáng),首先通過(guò)os.path.isfile(filename)函數(shù)判斷要增強(qiáng)的是單個(gè)文本還是批量文本。對(duì)單個(gè)文本直接進(jìn)行數(shù)據(jù)增強(qiáng);而批量文本則先利用函數(shù)os.listdir(filename)獲取輸入文件夾路徑下的所有文本文件,再用循環(huán)語(yǔ)句分別對(duì)單個(gè)文本進(jìn)行數(shù)據(jù)增強(qiáng)。批量處理可以選擇輸入包含100,200,500 等多個(gè)文本的文件夾,系統(tǒng)會(huì)根據(jù)獲取路徑對(duì)文本進(jìn)行增強(qiáng)操作。

        在數(shù)據(jù)增強(qiáng)過(guò)程中,首先,獲取需要增強(qiáng)的文本原路徑和增強(qiáng)后的保存路徑;然后,通過(guò)stop words list 過(guò)濾掉一些出現(xiàn)過(guò)于頻繁但實(shí)際意義不大的詞來(lái)對(duì)文本進(jìn)行清理,利用EDA 技術(shù)中synonym_replacement()函 數(shù)、random_deletion()函數(shù)、random_swap()函數(shù)、random_insertion()函數(shù),分別對(duì)文本數(shù)據(jù)進(jìn)行同義詞替換、隨機(jī)刪除、隨機(jī)交換、隨機(jī)插入來(lái)增強(qiáng)文本數(shù)據(jù);其次,設(shè)置num_aug 參數(shù)確定要生成文本的數(shù)量,即文本數(shù)據(jù)增強(qiáng)倍數(shù),設(shè)置4 種數(shù)據(jù)增強(qiáng)方式的參數(shù)值范圍為0~1;最后,將增強(qiáng)后的文本數(shù)據(jù)寫(xiě)入保存路徑下的新建文件夾。

        3.2 關(guān)鍵技術(shù)

        Python 語(yǔ)言是近年來(lái)人工智能編程方向潮流的計(jì)算機(jī)編程語(yǔ)言。Flask 是一個(gè)輕量級(jí)的Web 框架,簡(jiǎn)單易上手,靈活小巧。Flask 中的route 路徑及各種封裝函數(shù),使用方便快捷,能快速高效地開(kāi)發(fā)該系統(tǒng)。

        該系統(tǒng)采用Python 為主要開(kāi)發(fā)工具,F(xiàn)lask 框架進(jìn)行Web 端界面布局設(shè)計(jì),搭建系統(tǒng)環(huán)境。之后通過(guò)Flask 框架將HTML 頁(yè)面保存的表單數(shù)據(jù)提交到Python 后臺(tái)進(jìn)行響應(yīng)處理,完成數(shù)據(jù)增強(qiáng)操作。

        環(huán)境搭建所需注意:①安裝nltk 自然語(yǔ)言處理工具包pip install -U nltk;②下載WordNet,將壓縮包放入C:UsersPublic.DESKTOPPUC4DFJAppDataRoaming ltk_datacorpora,并解壓在該文件夾內(nèi)。

        4 系統(tǒng)測(cè)試

        4.1 系統(tǒng)界面

        該系統(tǒng)以Flask 框架結(jié)合HTML 設(shè)計(jì)編寫(xiě)簡(jiǎn)單的Web 操作界面,采用實(shí)驗(yàn)室構(gòu)建的枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行文本數(shù)據(jù)增強(qiáng)。該系統(tǒng)界面包含文本預(yù)處理頁(yè)面和文本數(shù)據(jù)增強(qiáng)頁(yè)面,分別見(jiàn)圖3 和圖4。

        圖3 文本預(yù)處理界面

        圖4 文本數(shù)據(jù)增強(qiáng)界面

        圖4 中生成數(shù)量表示一個(gè)原句子生成多少個(gè)新句子,即單個(gè)文本數(shù)據(jù)增強(qiáng)4 倍,生成后文本數(shù)量共5 句。同義替換比例、隨機(jī)插入比例、隨機(jī)交換比例、隨機(jī)刪除比例設(shè)置參數(shù)值為0.1。

        4.2 文本數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)界面

        該系統(tǒng)測(cè)試時(shí),分別對(duì)單個(gè)文本和批量文本進(jìn)行數(shù)據(jù)增強(qiáng)操作。原始單文本和增強(qiáng)后的文本效果見(jiàn)圖5 和圖6。圖5 是格式不規(guī)范的單個(gè)文本,圖6是5 倍增強(qiáng)后生成的文本。

        圖5 單個(gè)原文本界面

        圖6 單文本增強(qiáng)后的界面

        批量原文本和增強(qiáng)后的文本見(jiàn)圖7 和圖8。圖7 是原文件夾里的所有文本,圖8 是5 倍增強(qiáng)后生成的所有的文本。

        圖7 批量原文本的界面

        圖8 批量文本增強(qiáng)后的界面

        4.3 文本增強(qiáng)效果分析

        為體現(xiàn)該文本數(shù)據(jù)增強(qiáng)系統(tǒng)的魯棒性及有效性,該實(shí)驗(yàn)采用枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行不同訓(xùn)練集、不同增強(qiáng)倍數(shù)的分類準(zhǔn)確率測(cè)試,對(duì)文本數(shù)據(jù)增強(qiáng)效果的魯棒性和效率進(jìn)行分析研究。

        (1)文本數(shù)據(jù)增強(qiáng)效果。該實(shí)驗(yàn)分別選取了枸杞蟲(chóng)害文本描述數(shù)據(jù)集200、500、1 000、Full Data(枸杞蟲(chóng)害文本描述總數(shù),共1 670 個(gè)文本描述)不同訓(xùn)練集大小的文本數(shù)據(jù),在增強(qiáng)倍數(shù)分別為1 倍、2倍、4 倍、8 倍、16 倍、32 倍的條件下進(jìn)行數(shù)據(jù)增強(qiáng),并將增強(qiáng)后的文本數(shù)據(jù)作為訓(xùn)練集輸入到TextCNN 模型進(jìn)行文本分類識(shí)別,結(jié)果見(jiàn)圖9。

        圖9 不同訓(xùn)練集分類效果評(píng)價(jià)圖

        對(duì)于小數(shù)量數(shù)據(jù)集,過(guò)擬合的可能性更大,所以生成許多增廣的句子會(huì)大大提高性能。對(duì)于較大的訓(xùn)練集,每個(gè)原始句子增加過(guò)多的增廣句子是沒(méi)有幫助的,因?yàn)楫?dāng)有大量真實(shí)數(shù)據(jù)可用時(shí),模型傾向于適當(dāng)?shù)剡M(jìn)行歸納?;谶@些結(jié)果,由圖9 可以得出表2 的結(jié)果。

        表2 推薦的文本增強(qiáng)倍數(shù)

        由圖9 可以看出,利用該系統(tǒng)進(jìn)行不同訓(xùn)練集規(guī)模數(shù)據(jù)增強(qiáng)后得到的枸杞蟲(chóng)害文本描述在4 倍數(shù)據(jù)增強(qiáng)時(shí)分類效果最好,準(zhǔn)確率達(dá)到了85.3%。

        (2)實(shí)驗(yàn)方法的增強(qiáng)效果。該實(shí)驗(yàn)對(duì)枸杞蟲(chóng)害文本描述數(shù)據(jù)集中500 個(gè)文本,分別采用SR、VAEHD、本文EDA 方法進(jìn)行16 倍數(shù)據(jù)增強(qiáng),并對(duì)增強(qiáng)后的數(shù)據(jù)采用TextCNN 分類模型進(jìn)行分類識(shí)別,評(píng)價(jià)指標(biāo)采用準(zhǔn)確率和時(shí)間,結(jié)果見(jiàn)表3。

        表3 不同數(shù)據(jù)增強(qiáng)方式文本分類結(jié)果對(duì)比

        由表3 可知,該系統(tǒng)采用的EDA 數(shù)據(jù)增強(qiáng)方法比SR 和VAEHD 方法在文本分類實(shí)驗(yàn)中的準(zhǔn)確率分別提高了11.1%和3.7%,且文本數(shù)據(jù)增強(qiáng)時(shí)間分別減少了0.129 s 和0.065 s,說(shuō)明該系統(tǒng)采用的方法比傳統(tǒng)數(shù)據(jù)增強(qiáng)方法效果更好。

        (3)系統(tǒng)的效率。為了驗(yàn)證該系統(tǒng)文本數(shù)據(jù)增強(qiáng)的快速性和高效性,對(duì)數(shù)據(jù)集中100 個(gè)、500 個(gè)文本分別進(jìn)行5 倍、10 倍批量文本增強(qiáng),并統(tǒng)計(jì)增強(qiáng)后文本總數(shù)量和增強(qiáng)所用時(shí)間,實(shí)驗(yàn)結(jié)果見(jiàn)表4。

        表4 批量文本數(shù)據(jù)增強(qiáng)效果

        由表4 可知,該系統(tǒng)能在0.47 s 和2.50 s 內(nèi)分別完成對(duì)100 個(gè)、500 個(gè)文本的批處理數(shù)據(jù)增強(qiáng),說(shuō)明該系統(tǒng)能快速高效地完成批量文本數(shù)據(jù)增強(qiáng)。

        根據(jù)以上實(shí)驗(yàn)結(jié)果可以看出,該系統(tǒng)不僅可以高效地進(jìn)行單文本增強(qiáng),還能實(shí)現(xiàn)批量文本增強(qiáng)操作。增強(qiáng)后的文本數(shù)據(jù)在文本分類實(shí)驗(yàn)中也取得了較好的準(zhǔn)確率。實(shí)驗(yàn)采用枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行文本數(shù)據(jù)增強(qiáng),對(duì)該數(shù)據(jù)集進(jìn)行4 倍數(shù)據(jù)增強(qiáng),增強(qiáng)后的文本數(shù)量達(dá)到8 350,解決了樣本不均衡問(wèn)題,完成了對(duì)枸杞蟲(chóng)害文本描述數(shù)據(jù)集的數(shù)據(jù)擴(kuò)充。

        5 結(jié)論

        本文基于Python 文本數(shù)據(jù)增強(qiáng)系統(tǒng)實(shí)現(xiàn)了對(duì)文本數(shù)據(jù)的擴(kuò)充增強(qiáng),并完成了單文本數(shù)據(jù)增強(qiáng)和批量文本數(shù)據(jù)增強(qiáng)的功能。對(duì)解決小樣本場(chǎng)景下樣本數(shù)量不足容易導(dǎo)致模型過(guò)擬合、樣本間不均衡的問(wèn)題十分有效,而且可根據(jù)數(shù)據(jù)增強(qiáng)中的同義詞替換、隨機(jī)交換、隨機(jī)刪除、隨機(jī)插入進(jìn)行文本局部調(diào)整。該系統(tǒng)完成了枸杞蟲(chóng)害文本描述數(shù)據(jù)集的文本數(shù)據(jù)增強(qiáng),解決了該數(shù)據(jù)集的樣本不均衡、數(shù)據(jù)量不足的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)采用的枸杞蟲(chóng)害文本描述數(shù)據(jù)集在4 倍數(shù)據(jù)增強(qiáng)時(shí)分類效果最好,準(zhǔn)確率達(dá)到了85.3%。相比傳統(tǒng)的SR 方法以及VAEHD方法,本文采用的EDA 方法在500 個(gè)文本16 倍數(shù)據(jù)增強(qiáng)條件下,文本分類準(zhǔn)確率提高了11.1%和3.7%。此外,該系統(tǒng)能在0.47 s 內(nèi)和2.50 s 內(nèi)分別完成對(duì)100 個(gè)、500 個(gè)文本10 倍的批處理數(shù)據(jù)增強(qiáng),表明該系統(tǒng)的快速高效性。

        該系統(tǒng)采用Web 操作界面,簡(jiǎn)單易懂,但存在一些不足。目前該系統(tǒng)只能對(duì)txt 文本進(jìn)行操作,且存在字符長(zhǎng)度限制問(wèn)題,但對(duì)傳統(tǒng)文本數(shù)據(jù)集是一個(gè)簡(jiǎn)單實(shí)用的系統(tǒng)。下一步工作將會(huì)繼續(xù)改進(jìn)和完善系統(tǒng)功能,提高系統(tǒng)的兼容性,優(yōu)化系統(tǒng)的長(zhǎng)文本功能,進(jìn)一步提高文本數(shù)據(jù)增強(qiáng)的水平。

        猜你喜歡
        批量蟲(chóng)害枸杞
        枸杞
        是酸是堿?黑枸杞知道
        學(xué)與玩(2022年2期)2022-05-03 09:46:45
        批量提交在配置分發(fā)中的應(yīng)用
        桃樹(shù)主要蟲(chóng)害及防治方法
        采枸杞
        不用農(nóng)藥也能治蟲(chóng)害
        枸杞到底是怎么養(yǎng)生的?
        淺析白三葉的蟲(chóng)害防治
        行道樹(shù)香櫞主要蟲(chóng)害及其防治
        淺議高校網(wǎng)銀批量代發(fā)
        亚洲av免费看一区二区三区| 亚洲精品日韩自慰喷水白浆| 亚洲精品aⅴ无码精品丝袜足| av在线男人的免费天堂| 自拍偷自拍亚洲一区二区| 亚洲中文字幕在线第二页 | 国产精品久久熟女吞精| 麻豆精品国产av在线网址| 久久99久久99精品中文字幕| 欧美日韩精品福利在线观看| 久久婷婷夜色精品国产| 精品厕所偷拍一区二区视频| 天堂aⅴ无码一区二区三区 | 美女和男人一起插插插| 国产精品办公室沙发| 无码国产精品一区二区vr老人| 久久丁香花综合狼人| 亚洲精品国产一区二区免费视频| 吃奶呻吟打开双腿做受视频 | 国产精品福利片免费看| 久久老熟女一区二区三区| 一本一道vs无码中文字幕| 装睡被陌生人摸出水好爽| 欧洲一级无码AV毛片免费| 女同三级伦理在线观看| 又色又爽又黄还免费毛片96下载| 亞洲綜合一區二區三區無碼| 日本一区二区日韩在线| 亚洲开心婷婷中文字幕| 毛茸茸的中国女bbw| 亚洲日韩AV无码美腿丝袜| 精品在线观看一区二区视频| 国产一区二区女内射| 国产一级免费黄片无码AV| 亚洲精品熟女av影院| 国产成人无码综合亚洲日韩| 久久香蕉免费国产天天看| 97自拍视频国产在线观看| 老鸭窝视频在线观看| 亚洲美国产亚洲av| 青青草视频原手机在线观看|